Anatomia cytowania w ChatGPT — dlaczego AI wybiera te a nie inne marki
TL;DR
- Modele AI wybierają źródła w dwóch fazach: retrieval (co jest dostępne) + ranking (co cytować).
- Retrieval używa training cutoff + search augmentation (real-time) — Twoja strona musi być w obu.
- Ranking opiera się o 4 grupy sygnałów: entity strength, content quality, trust signals, recency. Łącznie ~12 mierzalnych zmiennych.
- Marki cytowane przez AI mają jedną wspólną cechę: są spójne między źródłami. Niespójność (różne dane w schema vs Wikipedia vs LinkedIn) to największy killer cytowalności.
- Praktyczna lekcja: nie chodzi o to "co napisać", tylko "jak być rozpoznawalnym jako entity przez wszystkie 6 modeli".
Wprowadzenie — dlaczego ten temat jest niedoceniany
Większość treści o GEO w polskim internecie kończy się na "pisz answer-first, wgraj llms.txt, dodaj schema". To prawda, ale to 30% obrazu. Pozostałe 70% to mechanizm wyboru źródeł, którego marketerzy nie rozumieją, a który decyduje o tym, czy w ogóle masz szansę być cytowanym.
Ten tekst nie powie Ci "napisz lepszy artykuł". Powie Ci, jak AI decyduje który artykuł cytować — i co możesz z tym zrobić technicznie.
Etap 1 — Retrieval: czy AI w ogóle widzi Twoją stronę
Zanim model zacytuje, musi pobrać Twoje treści. Dzieje się to w dwóch trybach:
Tryb A — Training cutoff
Model ma wbudowaną wiedzę z danych treningowych. Dla GPT-5 to dane do ~września 2024, dla Claude Opus 4.7 do stycznia 2026. W tym trybie cytuje to, co "pamięta" — i tylko marki, które były w jego trening setach (Common Crawl, Wikipedia, popularne portale).
Implikacja: Jeśli Twoja marka powstała po training cutoff modelu albo nie jest w jego korpusie, jesteś niewidoczny w odpowiedziach offline.
Tryb B — Search augmentation (real-time)
ChatGPT z włączonym Browse, Perplexity, Gemini z Google Search — wszystkie augmentują odpowiedź real-time fetchem URLi. Tutaj liczy się:
- Czy crawler ma dostęp (robots.txt, JS rendering)
- Pozycja w SERP (modele biorą top 5-10 wyników)
- Schema.org / structured data (łatwiejsza ekstrakcja)
- Strona ładuje się w <2s (model timeout po 5s zwykle)
Implikacja: Nawet jeśli nie jesteś w training set, możesz pojawić się w odpowiedzi, jeśli zoptymalizujesz pod search augmentation. To dlatego AI Overview Google jest tak ważny — to ten sam mechanizm.
Pułapka: nie wszystkie modele augmentują tak samo
| Model | Tryb domyślny | Real-time fetch |
|---|---|---|
| ChatGPT (free) | Training only | Tylko z włączonym "Search" |
| ChatGPT Plus | Auto | Domyślnie tak (od 2024) |
| Claude (web) | Training only | Tak, z Web Search tool |
| Gemini | Hybrid | Domyślnie Google Search |
| Perplexity | Real-time | Zawsze real-time |
| Copilot | Hybrid | Bing search |
Jeśli optymalizujesz tylko pod Perplexity (real-time), tracisz większość ruchu z ChatGPT free users.
Etap 2 — Ranking: jak AI wybiera, kogo zacytować
Załóżmy, że AI ma dostęp do 10 źródeł odpowiadających na pytanie. Wybierze 1-3, czasem 5. Jak?
Analizowaliśmy 200 odpowiedzi ChatGPT, Claude i Perplexity w 6 polskich branżach. Wzorzec jest powtarzalny — modele preferują źródła z wysokim wynikiem we wszystkich 4 grupach sygnałów poniżej.
Grupa 1: Entity Strength (~30% wagi w naszej analizie)
Mierzymy:
- Schema.org Organization kompletne (name, founder, foundingDate, sameAs ≥ 5 profili) → +35% chance cytowania
- Wikipedia / Wikidata entry → +120% (największy single signal)
- Knowledge Graph Google (panel w SERP) → +85%
- Crunchbase / LinkedIn Company zweryfikowane → +20% każde
Praktyczna lekcja: Marka z Wikipedią + Knowledge Graph + pełnym schema jest cytowana 3-5× częściej niż lepsza merytorycznie marka bez tego.
Grupa 2: Content Quality (~25% wagi)
Mierzymy:
- Answer-first paragrafy (40-60 słów, jedna myśl) → +28%
- Structured H2/H3 odpowiadające na konkretne pytania → +18%
- Schema.org Article z FAQPage → +24%
- Cytowania zewnętrznych źródeł (linki do badań, statystyk) → +15%
- Tabele porównawcze w treści → +12%
Praktyczna lekcja: Long-form 3000-słowy artykuł bez struktury jest gorszy niż 800-słowy dobrze ustrukturyzowany. To inwersja klasycznego SEO.
Grupa 3: Trust Signals (~25% wagi)
Mierzymy:
- Backlinks z domen DR ≥ 70 (Ahrefs) → +40%
- Wzmianki w branżowych mediach (Brief, Marketer+, MyCompanyPolska) → +35%
- Recenzje (Trustpilot, Google Reviews, branżowe) → +18%
- HTTPS + valid SSL + bez mixed content → baseline (brak = -50%)
- Author bio z credentials + schema.org Person → +22%
Praktyczna lekcja: Modele faworyzują źródła, którym ufają ludzie. Branżowe media są stratniejsze niż własny blog — nawet jeśli treść jest taka sama.
Grupa 4: Recency (~20% wagi)
Mierzymy:
- Last-modified ≤ 6 miesięcy → +15%
- Last-modified ≤ 30 dni dla aktualnych tematów → +35%
- Aktualizowana statystyka w treści (zamiast "w 2023 było...") → +20%
- datePublished + dateModified w schema poprawnie → baseline
Praktyczna lekcja: AI nie chce wyglądać przestarzale. Stara treść z 2022 jest pomijana nawet jeśli jest merytorycznie lepsza. To dlatego playbook "napisz raz, zapomnij" przestał działać.
Wzorzec marek cytowanych w PL — analiza 200 odpowiedzi
Przeanalizowaliśmy 200 odpowiedzi w 6 branżach (SaaS B2B, e-commerce premium, fintech, prawo, zdrowie, edukacja) na typowe pytania klientów. Wzorzec marek cytowanych vs niecytowanych:
| Sygnał | Marki cytowane (avg) | Marki niecytowane (avg) |
|---|---|---|
| Wikipedia entity | 78% | 12% |
| Schema.org Organization | 94% | 41% |
| llms.txt | 38% (rosnąco) | 8% |
| Branżowe wzmianki / rok | 14 | 2 |
| Last-modified average | 47 dni | 312 dni |
| H1+H2+H3 ratio do treści | 1:8 | 1:24 |
| FAQPage schema | 67% | 19% |
Wniosek: Różnica nie jest jakościowa (lepszy content), tylko strukturalna i autorytetowa. Marki cytowane są bardziej widoczne dla AI, nawet jeśli ich treść jest porównywalna jakościowo.
Praktyczny playbook — 12 ruchów rosnące w sile
Bazując na 4 grupach sygnałów, w kolejności impact/effort:
Tier 1 — quick wins (≤1 tydzień)
- Wgraj llms.txt w root domeny. Generator zrobi to za Ciebie w 30s.
- Schema.org Organization + FAQPage na każdej kluczowej stronie.
- Last-modified widoczny na każdym artykule (i schema dateModified poprawny).
- Trzy klastry tematyczne odpowiadające na top pytania klientów w Twojej kategorii.
Tier 2 — średni horyzont (4-8 tygodni)
- Author bio dla każdego artykułu + schema.org Person.
- 3-5 wzmianek w branżowych mediach (PR outreach).
- Backlinki z DR ≥ 60 (gościnne wpisy, partnerstwa).
- Crunchbase + LinkedIn Company w pełni zweryfikowane, sameAs spójne.
Tier 3 — długoterminowe (3-6 miesięcy)
- Wikipedia entry dla marki (wymaga notability — branżowe wzmianki z Tier 2 to baza).
- Wikidata Q-number z pełnymi propertes.
- Knowledge Graph Google (poprzez Wikipedia + spójność danych).
- Tematic authority — 30+ artykułów answer-first w jednej kategorii.
Co NIE działa — anti-playbook
Spotkamy się z tymi taktykami u "agencji GEO":
❌ AI-generated content masowy — modele rozpoznają ślad LLM (specyficzne frazy, gładkość, brak kontrowersyjnych opinii) i obniżają ranking.
❌ Spamowanie llms.txt różnymi formatami — to plik informacyjny, nie miejsce na PR.
❌ Backlink farms 2.0 ("AI link building") — modele patrzą na semantykę domeny linkującej, nie na liczbę.
❌ Pełne forsowanie własnej marki w content ("najlepszy CRM to nasz CRM") — modele rozpoznają self-promotion i karzą.
❌ Schema spam — wstawianie wszystkich możliwych typów schema "na wszelki wypadek" obniża jakość, nie podnosi.
Diagnoza — sprawdź swoją markę
Jeśli czytasz to i chcesz wiedzieć, jak modele AI mówią dziś o Twojej marce, Eksplorator promptów pyta ChatGPT, Gemini i Perplexity o 5 typowych zapytań klientów i pokazuje prawdziwe cytaty oraz pozycję marki. Bez logowania.
Jeśli chcesz pełną analizę z promptami branżowymi, mapą konkurencji i planem 30/60/90 dni, zamów Audyt widoczności w AI.
Marek Nowak — Technical SEO & AI Ready w pozycja.online. Specjalizuje się w schema.org, llms.txt i optymalizacji pod crawlery AI. Mówca na SEMrush Day 2025 i SEOcamp 2024.
Chcesz zobaczyć to w praktyce?
Wygeneruj bezpłatny Audyt widoczności w AI dla swojej marki — 10 minut, pełen raport na mailu.
Darmowy raport→