← Blog

Anatomia cytowania w ChatGPT — dlaczego AI wybiera te a nie inne marki

2026-05-08 · Marek Nowak · 12 min

TL;DR

Wprowadzenie — dlaczego ten temat jest niedoceniany

Większość treści o GEO w polskim internecie kończy się na "pisz answer-first, wgraj llms.txt, dodaj schema". To prawda, ale to 30% obrazu. Pozostałe 70% to mechanizm wyboru źródeł, którego marketerzy nie rozumieją, a który decyduje o tym, czy w ogóle masz szansę być cytowanym.

Ten tekst nie powie Ci "napisz lepszy artykuł". Powie Ci, jak AI decyduje który artykuł cytować — i co możesz z tym zrobić technicznie.

Etap 1 — Retrieval: czy AI w ogóle widzi Twoją stronę

Zanim model zacytuje, musi pobrać Twoje treści. Dzieje się to w dwóch trybach:

Tryb A — Training cutoff

Model ma wbudowaną wiedzę z danych treningowych. Dla GPT-5 to dane do ~września 2024, dla Claude Opus 4.7 do stycznia 2026. W tym trybie cytuje to, co "pamięta" — i tylko marki, które były w jego trening setach (Common Crawl, Wikipedia, popularne portale).

Implikacja: Jeśli Twoja marka powstała po training cutoff modelu albo nie jest w jego korpusie, jesteś niewidoczny w odpowiedziach offline.

Tryb B — Search augmentation (real-time)

ChatGPT z włączonym Browse, Perplexity, Gemini z Google Search — wszystkie augmentują odpowiedź real-time fetchem URLi. Tutaj liczy się:

Implikacja: Nawet jeśli nie jesteś w training set, możesz pojawić się w odpowiedzi, jeśli zoptymalizujesz pod search augmentation. To dlatego AI Overview Google jest tak ważny — to ten sam mechanizm.

Pułapka: nie wszystkie modele augmentują tak samo

Model Tryb domyślny Real-time fetch
ChatGPT (free) Training only Tylko z włączonym "Search"
ChatGPT Plus Auto Domyślnie tak (od 2024)
Claude (web) Training only Tak, z Web Search tool
Gemini Hybrid Domyślnie Google Search
Perplexity Real-time Zawsze real-time
Copilot Hybrid Bing search

Jeśli optymalizujesz tylko pod Perplexity (real-time), tracisz większość ruchu z ChatGPT free users.

Etap 2 — Ranking: jak AI wybiera, kogo zacytować

Załóżmy, że AI ma dostęp do 10 źródeł odpowiadających na pytanie. Wybierze 1-3, czasem 5. Jak?

Analizowaliśmy 200 odpowiedzi ChatGPT, Claude i Perplexity w 6 polskich branżach. Wzorzec jest powtarzalny — modele preferują źródła z wysokim wynikiem we wszystkich 4 grupach sygnałów poniżej.

Grupa 1: Entity Strength (~30% wagi w naszej analizie)

Mierzymy:

Praktyczna lekcja: Marka z Wikipedią + Knowledge Graph + pełnym schema jest cytowana 3-5× częściej niż lepsza merytorycznie marka bez tego.

Grupa 2: Content Quality (~25% wagi)

Mierzymy:

Praktyczna lekcja: Long-form 3000-słowy artykuł bez struktury jest gorszy niż 800-słowy dobrze ustrukturyzowany. To inwersja klasycznego SEO.

Grupa 3: Trust Signals (~25% wagi)

Mierzymy:

Praktyczna lekcja: Modele faworyzują źródła, którym ufają ludzie. Branżowe media są stratniejsze niż własny blog — nawet jeśli treść jest taka sama.

Grupa 4: Recency (~20% wagi)

Mierzymy:

Praktyczna lekcja: AI nie chce wyglądać przestarzale. Stara treść z 2022 jest pomijana nawet jeśli jest merytorycznie lepsza. To dlatego playbook "napisz raz, zapomnij" przestał działać.

Wzorzec marek cytowanych w PL — analiza 200 odpowiedzi

Przeanalizowaliśmy 200 odpowiedzi w 6 branżach (SaaS B2B, e-commerce premium, fintech, prawo, zdrowie, edukacja) na typowe pytania klientów. Wzorzec marek cytowanych vs niecytowanych:

Sygnał Marki cytowane (avg) Marki niecytowane (avg)
Wikipedia entity 78% 12%
Schema.org Organization 94% 41%
llms.txt 38% (rosnąco) 8%
Branżowe wzmianki / rok 14 2
Last-modified average 47 dni 312 dni
H1+H2+H3 ratio do treści 1:8 1:24
FAQPage schema 67% 19%

Wniosek: Różnica nie jest jakościowa (lepszy content), tylko strukturalna i autorytetowa. Marki cytowane są bardziej widoczne dla AI, nawet jeśli ich treść jest porównywalna jakościowo.

Praktyczny playbook — 12 ruchów rosnące w sile

Bazując na 4 grupach sygnałów, w kolejności impact/effort:

Tier 1 — quick wins (≤1 tydzień)

  1. Wgraj llms.txt w root domeny. Generator zrobi to za Ciebie w 30s.
  2. Schema.org Organization + FAQPage na każdej kluczowej stronie.
  3. Last-modified widoczny na każdym artykule (i schema dateModified poprawny).
  4. Trzy klastry tematyczne odpowiadające na top pytania klientów w Twojej kategorii.

Tier 2 — średni horyzont (4-8 tygodni)

  1. Author bio dla każdego artykułu + schema.org Person.
  2. 3-5 wzmianek w branżowych mediach (PR outreach).
  3. Backlinki z DR ≥ 60 (gościnne wpisy, partnerstwa).
  4. Crunchbase + LinkedIn Company w pełni zweryfikowane, sameAs spójne.

Tier 3 — długoterminowe (3-6 miesięcy)

  1. Wikipedia entry dla marki (wymaga notability — branżowe wzmianki z Tier 2 to baza).
  2. Wikidata Q-number z pełnymi propertes.
  3. Knowledge Graph Google (poprzez Wikipedia + spójność danych).
  4. Tematic authority — 30+ artykułów answer-first w jednej kategorii.

Co NIE działa — anti-playbook

Spotkamy się z tymi taktykami u "agencji GEO":

AI-generated content masowy — modele rozpoznają ślad LLM (specyficzne frazy, gładkość, brak kontrowersyjnych opinii) i obniżają ranking.

Spamowanie llms.txt różnymi formatami — to plik informacyjny, nie miejsce na PR.

Backlink farms 2.0 ("AI link building") — modele patrzą na semantykę domeny linkującej, nie na liczbę.

Pełne forsowanie własnej marki w content ("najlepszy CRM to nasz CRM") — modele rozpoznają self-promotion i karzą.

Schema spam — wstawianie wszystkich możliwych typów schema "na wszelki wypadek" obniża jakość, nie podnosi.

Diagnoza — sprawdź swoją markę

Jeśli czytasz to i chcesz wiedzieć, jak modele AI mówią dziś o Twojej marce, Eksplorator promptów pyta ChatGPT, Gemini i Perplexity o 5 typowych zapytań klientów i pokazuje prawdziwe cytaty oraz pozycję marki. Bez logowania.

Jeśli chcesz pełną analizę z promptami branżowymi, mapą konkurencji i planem 30/60/90 dni, zamów Audyt widoczności w AI.


Marek Nowak — Technical SEO & AI Ready w pozycja.online. Specjalizuje się w schema.org, llms.txt i optymalizacji pod crawlery AI. Mówca na SEMrush Day 2025 i SEOcamp 2024.

Chcesz zobaczyć to w praktyce?

Wygeneruj bezpłatny Audyt widoczności w AI dla swojej marki — 10 minut, pełen raport na mailu.

Darmowy raport