Anatomia cytowania w ChatGPT — dlaczego AI wybiera te a nie inne marki

2026-05-08 · Marek Nowak · 12 min

TL;DR

Modele AI wybierają źródła w dwóch fazach: retrieval (co jest dostępne) + ranking (co cytować).
Retrieval używa training cutoff + search augmentation (real-time) — Twoja strona musi być w obu.
Ranking opiera się o 4 grupy sygnałów: entity strength, content quality, trust signals, recency. Łącznie ~12 mierzalnych zmiennych.
Marki cytowane przez AI mają jedną wspólną cechę: są spójne między źródłami. Niespójność (różne dane w schema vs Wikipedia vs LinkedIn) to największy killer cytowalności.
Praktyczna lekcja: nie chodzi o to "co napisać", tylko "jak być rozpoznawalnym jako entity przez wszystkie 6 modeli".

Wprowadzenie — dlaczego ten temat jest niedoceniany

Większość treści o GEO w polskim internecie kończy się na "pisz answer-first, wgraj llms.txt, dodaj schema". To prawda, ale to 30% obrazu. Pozostałe 70% to mechanizm wyboru źródeł, którego marketerzy nie rozumieją, a który decyduje o tym, czy w ogóle masz szansę być cytowanym.

Ten tekst nie powie Ci "napisz lepszy artykuł". Powie Ci, jak AI decyduje który artykuł cytować — i co możesz z tym zrobić technicznie.

Etap 1 — Retrieval: czy AI w ogóle widzi Twoją stronę

Zanim model zacytuje, musi pobrać Twoje treści. Dzieje się to w dwóch trybach:

Tryb A — Training cutoff

Model ma wbudowaną wiedzę z danych treningowych. Dla GPT-5 to dane do ~września 2024, dla Claude Opus 4.7 do stycznia 2026. W tym trybie cytuje to, co "pamięta" — i tylko marki, które były w jego trening setach (Common Crawl, Wikipedia, popularne portale).

Implikacja: Jeśli Twoja marka powstała po training cutoff modelu albo nie jest w jego korpusie, jesteś niewidoczny w odpowiedziach offline.

Tryb B — Search augmentation (real-time)

ChatGPT z włączonym Browse, Perplexity, Gemini z Google Search — wszystkie augmentują odpowiedź real-time fetchem URLi. Tutaj liczy się:

Czy crawler ma dostęp (robots.txt, JS rendering)
Pozycja w SERP (modele biorą top 5-10 wyników)
Schema.org / structured data (łatwiejsza ekstrakcja)
Strona ładuje się w <2s (model timeout po 5s zwykle)

Implikacja: Nawet jeśli nie jesteś w training set, możesz pojawić się w odpowiedzi, jeśli zoptymalizujesz pod search augmentation. To dlatego AI Overview Google jest tak ważny — to ten sam mechanizm.

Pułapka: nie wszystkie modele augmentują tak samo

Model	Tryb domyślny	Real-time fetch
ChatGPT (free)	Training only	Tylko z włączonym "Search"
ChatGPT Plus	Auto	Domyślnie tak (od 2024)
Claude (web)	Training only	Tak, z Web Search tool
Gemini	Hybrid	Domyślnie Google Search
Perplexity	Real-time	Zawsze real-time
Copilot	Hybrid	Bing search

Jeśli optymalizujesz tylko pod Perplexity (real-time), tracisz większość ruchu z ChatGPT free users.

Etap 2 — Ranking: jak AI wybiera, kogo zacytować

Załóżmy, że AI ma dostęp do 10 źródeł odpowiadających na pytanie. Wybierze 1-3, czasem 5. Jak?

Analizowaliśmy 200 odpowiedzi ChatGPT, Claude i Perplexity w 6 polskich branżach. Wzorzec jest powtarzalny — modele preferują źródła z wysokim wynikiem we wszystkich 4 grupach sygnałów poniżej.

Grupa 1: Entity Strength (~30% wagi w naszej analizie)

Mierzymy:

Schema.org Organization kompletne (name, founder, foundingDate, sameAs ≥ 5 profili) → +35% chance cytowania
Wikipedia / Wikidata entry → +120% (największy single signal)
Knowledge Graph Google (panel w SERP) → +85%
Crunchbase / LinkedIn Company zweryfikowane → +20% każde

Praktyczna lekcja: Marka z Wikipedią + Knowledge Graph + pełnym schema jest cytowana 3-5× częściej niż lepsza merytorycznie marka bez tego.

Grupa 2: Content Quality (~25% wagi)

Mierzymy:

Answer-first paragrafy (40-60 słów, jedna myśl) → +28%
Structured H2/H3 odpowiadające na konkretne pytania → +18%
Schema.org Article z FAQPage → +24%
Cytowania zewnętrznych źródeł (linki do badań, statystyk) → +15%
Tabele porównawcze w treści → +12%

Praktyczna lekcja: Long-form 3000-słowy artykuł bez struktury jest gorszy niż 800-słowy dobrze ustrukturyzowany. To inwersja klasycznego SEO.

Grupa 3: Trust Signals (~25% wagi)

Mierzymy:

Backlinks z domen DR ≥ 70 (Ahrefs) → +40%
Wzmianki w branżowych mediach (Brief, Marketer+, MyCompanyPolska) → +35%
Recenzje (Trustpilot, Google Reviews, branżowe) → +18%
HTTPS + valid SSL + bez mixed content → baseline (brak = -50%)
Author bio z credentials + schema.org Person → +22%

Praktyczna lekcja: Modele faworyzują źródła, którym ufają ludzie. Branżowe media są stratniejsze niż własny blog — nawet jeśli treść jest taka sama.

Grupa 4: Recency (~20% wagi)

Mierzymy:

Last-modified ≤ 6 miesięcy → +15%
Last-modified ≤ 30 dni dla aktualnych tematów → +35%
Aktualizowana statystyka w treści (zamiast "w 2023 było...") → +20%
datePublished + dateModified w schema poprawnie → baseline

Praktyczna lekcja: AI nie chce wyglądać przestarzale. Stara treść z 2022 jest pomijana nawet jeśli jest merytorycznie lepsza. To dlatego playbook "napisz raz, zapomnij" przestał działać.

Wzorzec marek cytowanych w PL — analiza 200 odpowiedzi

Przeanalizowaliśmy 200 odpowiedzi w 6 branżach (SaaS B2B, e-commerce premium, fintech, prawo, zdrowie, edukacja) na typowe pytania klientów. Wzorzec marek cytowanych vs niecytowanych:

Sygnał	Marki cytowane (avg)	Marki niecytowane (avg)
Wikipedia entity	78%	12%
Schema.org Organization	94%	41%
llms.txt	38% (rosnąco)	8%
Branżowe wzmianki / rok	14	2
Last-modified average	47 dni	312 dni
H1+H2+H3 ratio do treści	1:8	1:24
FAQPage schema	67%	19%

Wniosek: Różnica nie jest jakościowa (lepszy content), tylko strukturalna i autorytetowa. Marki cytowane są bardziej widoczne dla AI, nawet jeśli ich treść jest porównywalna jakościowo.

Praktyczny playbook — 12 ruchów rosnące w sile

Bazując na 4 grupach sygnałów, w kolejności impact/effort:

Tier 1 — quick wins (≤1 tydzień)

Wgraj llms.txt w root domeny. Generator zrobi to za Ciebie w 30s.
Schema.org Organization + FAQPage na każdej kluczowej stronie.
Last-modified widoczny na każdym artykule (i schema dateModified poprawny).
Trzy klastry tematyczne odpowiadające na top pytania klientów w Twojej kategorii.

Tier 2 — średni horyzont (4-8 tygodni)

Author bio dla każdego artykułu + schema.org Person.
3-5 wzmianek w branżowych mediach (PR outreach).
Backlinki z DR ≥ 60 (gościnne wpisy, partnerstwa).
Crunchbase + LinkedIn Company w pełni zweryfikowane, sameAs spójne.

Tier 3 — długoterminowe (3-6 miesięcy)

Wikipedia entry dla marki (wymaga notability — branżowe wzmianki z Tier 2 to baza).
Wikidata Q-number z pełnymi propertes.
Knowledge Graph Google (poprzez Wikipedia + spójność danych).
Tematic authority — 30+ artykułów answer-first w jednej kategorii.

Co NIE działa — anti-playbook

Spotkamy się z tymi taktykami u "agencji GEO":

❌ AI-generated content masowy — modele rozpoznają ślad LLM (specyficzne frazy, gładkość, brak kontrowersyjnych opinii) i obniżają ranking.

❌ Spamowanie llms.txt różnymi formatami — to plik informacyjny, nie miejsce na PR.

❌ Backlink farms 2.0 ("AI link building") — modele patrzą na semantykę domeny linkującej, nie na liczbę.

❌ Pełne forsowanie własnej marki w content ("najlepszy CRM to nasz CRM") — modele rozpoznają self-promotion i karzą.

❌ Schema spam — wstawianie wszystkich możliwych typów schema "na wszelki wypadek" obniża jakość, nie podnosi.

Diagnoza — sprawdź swoją markę

Jeśli czytasz to i chcesz wiedzieć, jak modele AI mówią dziś o Twojej marce, Eksplorator promptów pyta ChatGPT, Gemini i Perplexity o 5 typowych zapytań klientów i pokazuje prawdziwe cytaty oraz pozycję marki. Bez logowania.

Jeśli chcesz pełną analizę z promptami branżowymi, mapą konkurencji i planem 30/60/90 dni, zamów Audyt widoczności w AI.

Marek Nowak — Technical SEO & AI Ready w pozycja.online. Specjalizuje się w schema.org, llms.txt i optymalizacji pod crawlery AI. Mówca na SEMrush Day 2025 i SEOcamp 2024.

Chcesz zobaczyć to w praktyce?

Wygeneruj bezpłatny Audyt widoczności w AI dla swojej marki — 10 minut, pełen raport na mailu.

Darmowy raport→