Roboty AI ignorują LLMS.txt ale skanują internet na potęgę

Dane z Google Trends pokazują skoki zainteresowania z globalnym szczytem popularności w marcu 2026 roku i gwałtownym (choć krótkotrwałym) wystrzałem w Polsce pod koniec 2025 roku. Jednak te imponujące wykresy mogą być jedynie krótkotrwałą ciekawostką. W tym przypadku wykres popularności nie jest miarą sukcesu technologii, a jedynie zapisu zbiorowej nadziei i hype’u, który całkowicie nijak się ma do zainteresowania gigantów AI.

To jest drugie moje badanie i tym razem podszedłem do tego badania bardziej kompleksowo aby rozwiać wszelkie wątpliwości – jeśli ktoś je miał – plik llms.txt nie ma kompletnie żadnego sensu.

Pierwsze badanie

Pierwsze badanie przeprowadziłem w okresie 13.05.2025 – 01.09.2025 i statystyki wyglądają następująco

Dataprovider – 1582x
Jakieś customy – 1332x
Zwykły użytkownik – 11x
python-requests – 10x
Screaming Frog – 8x
Fake Googlebot – 2x
Semrush – 2x

Pisałem o tym na moim LinkedIn (kliknij tu i sobie rozwiń)

Drugie badanie (i ostatnie) związane z llms.txt

Przeanalizowałem logi serwerów z ostatnich 191 dni, na których znajduje się ~900 domen. Dane pochodzą z okresu 04.09.2025 – 13.04.2026, czyli od początku września 2025 do połowy kwietnia 2026.

llms.txt to propozycja standardu, z którego nikt nie korzysta

Zacząłem od sprawdzenia jak często odpytywane są pliki związane z nowym standardem, czyli:

/llms.txt
/llms-full.txt
/llms-ctx.txt

Przez ponad pół roku – przypomnę, że na ~900 domenach – odnotowałem tylko 1227 zapytań o te pliki (średnio około 6 zapytań dziennie). Ruch ten dotyczył 107 domen. Najczęstszą ścieżką był standardowy /llms.txt, który miał aż 1215 zapytań.

Plik / ścieżka	Liczba requestów
/llms.txt	1215
/llms-full.txt	9
/docs/llms.txt	1
/api/llms.txt	1
/.well-known/llms.txt	1

Kto o te pliki pyta?

Wśród odpytujących nie było ani jednego prawdziwego bota AI. Zamiast gigantów trenujących swoje modele (jak OpenAI, Anthropic czy Google), plikiem llms.txt interesują się głównie:

Agregatory i skanery danych – Dataprovider.com odpowiadał za lwią część ruchu (794 requesty). Widać też aktywność narzędzi takich jak AI-Security-Scanner, ReconTool czy SiteAuditBot.
Ludzie – Chrome (392 zapytania) i Firefox wskazują, że to najprawdopodobniej administratorzy, badacze lub audytorzy SEO ręcznie sprawdzali obecność tego pliku na serwerach.
Proste skrypty – llmstxtcrawler czy robots-ai-permissions, który po User-Agent okazał się skryptem w pythonie

Szczegóły odpytujących

Klient / Bot	Liczba requestów	Typ / Przeznaczenie
Dataprovider	794	Agregator danych / Crawler analityczny
Chrome	392	Przeglądarka internetowa (człowiek/skrypt)
llmstxtcrawler	12	Skrypt dedykowany do skanowania llms.txt
AI-Security-Scanner	8	Skaner bezpieczeństwa
ReconTool	5	Narzędzie audytowe
SiteAuditBot	5	Bot Semrush
Googlebot (fake)	4	Podszywanie się pod Googlebota
Firefox	3	Przeglądarka internetowa (człowiek)
robots-ai-permissions	2	Skrypt (Python)
DomainShield	1	Narzędzie ochronne
Bingbot	1	Crawler wyszukiwarki (Microsoft)
ŁĄCZNIE	1227

Trend dzienny i rozkład godzinowy
Wykresy trendu zapytań potwierdzają, że mamy tu do czynienia głównie z mechanicznymi, zautomatyzowanymi skanami. Ruch jest niewielki (piki sięgają zaledwie 20-25 zapytań dziennie), a rozkład godzinowy jest dość płaski i równomierny przez całą dobę. Nie ma tu śladu organicznego, masowego zainteresowania ze strony crawlerów LLM.

Prawdziwy ruch AI, czyli 45 milionów requestów w tle

Ktoś może zarzucić, że boty AI w ogóle nie odwiedzają stron na których przeprowadziłem badanie. Otóż, gdy llms.txt zebrał nieco ponad tysiąc zapytań, to ogólny ruch od robotów powiązanych z Ai wyniósł w tym samym czasie blisko 45 milionów requestów! Tak, będąc precyzyjnym 44,996,657 – dokładnie tyle razy AI różnej maści skanowało strony w analizowanym okresie. Zidentyfikowałem łącznie 88 unikalnych botów, co daje astronomiczną średnią ponad pół miliona zapytań na jednego bota.

Podział na wszystkie firmy związane z crawlerami AI

Kto w takim razie konsumuje najwięcej zasobów?

1. OpenAI

Patrząc na podział na firmy, OpenAI jest absolutnym liderem. Generuje ponad 25% całego ruchu AI w moim badaniu (ponad 11,5 mln requestów). Odpowiadają za to boty takie jak GPTBot (prawie 8,8 mln zapytań – numer 1 w ogólnym zestawieniu), OAI-SearchBot oraz ChatGPT-User.

2. Anthropic

Na drugim miejscu plasuje się Anthropic (twórcy Claude’a) z niespełna 6 milionami requestów, za co odpowiada głównie agresywny ClaudeBot.

3. PetalBot

Na trzecim miejscu ląduje Top 15 botów w oczy rzuca się potężny słupek na drugim miejscu – PetalBot. Z wynikiem blisko 8,3 mln. PetalBot to crawler należący do Huawei (powiązany z ich wyszukiwarką Petal Search i rozwojem AI). Warto mieć to na uwadze, ponieważ często bywa on oskarżany przez administratorów o bardzo agresywne zachowanie i obciążanie serwerów.

4. Wielkie technologie nie zostają w tyle

Meta odpowiada za blisko 3 miliony zapytań (meta-externalagent), a w czołówce znajduje się też bot Amazona (Amazonbot z 4,3 mln) oraz Apple (Applebot z 2,5 mln).

5. Google też skanuje!

Google też ma swój udział chociaż niski, bo niecałe 170 tysięcy zapytań (np. GoogleOther, Google-NotebookLM, Gemini-Deep-Research). Prawdopodobnie wynika to z faktu, że Google do trenowania swoich modeli może w dużej mierze wykorzystywać dane zebrane już wcześniej przez głównego Googlebota (który de facto nie jest czystym AI crawlerem).

Zbiorcze spojrzenie na bigtechy

Zbiorcze spojrzenie na gigantów technologicznych nie pozostawia złudzeń co do tego, kto pobiera najwięcej danych z naszych stron:

Twórca LLM / Organizacja	Łączna liczba requestów	Udział w całości ruchu
Inne (pozostałe boty)	24,444,255	~54,3%
OpenAI (ChatGPT)	11,521,228	~25,6%
Anthropic (Claude)	5,923,626	~13,2%
Meta (Llama)	2,939,423	~6,5%
Google (Gemini)	168,125	~0,4%

TOP15 crawlerów AI

Oto zestawienie 15 najbardziej żarłocznych crawlerów AI, które zidentyfikowałem w logach (na podstawie analizy blisko 45 milionów requestów):

Miejsce	Nazwa bota	Łączna liczba requestów
1	GPTBot (OpenAI)	8,798,505
2	PetalBot (Huawei)	8,291,994
3	ClaudeBot (Anthropic)	5,921,228
4	Amazonbot (Amazon)	4,361,437
5	Applebot (Apple)	2,597,117
6	LinkupBot	2,462,636
7	meta-externalagent (Meta)	2,331,582
8	IbouBot	1,719,613
9	OAI-SearchBot (OpenAI)	1,457,764
10	LCC	1,403,196
11	ChatGPT-User (OpenAI)	1,264,907
12	Bytespider (ByteDance/TikTok)	1129,001
13	TerraCotta	550,077
14	Awario	510,164
15	spider	354,905

Tabela z zestawieniem TOP15 crawlerów AI

Podsumowanie i wnioski

Moje badanie bazujące na dane z serwera obalają (przynajmniej na moment publikacji) mit użytecznościl lms.txt. Mimo ogromnego i stale rosnącego ruchu ze strony botów AI, giganci technologiczni nie zaimplementowali powszechnie odczytu tego standardu. Wolą „po staremu” renderować i analizować pełny kod HTML.

Co to oznacza w praktyce?

Nie marnuj czasu – tworzenie i utrzymywanie plików llms.txt to obecnie sztuka dla sztuki. Sprawdź swoją stronę pod kątem technicznym i upewnij się, że najważniejsze treści nie są prezentowane przy pomocy JavaScript. AI nie renderują JavaScript, wiec treści dla nich mogą być niewidoczne.
Monitoruj logi – twoje serwery prawdopodobnie są nieustannie bombardowane przez GPTBot, PetalBot i ClaudeBot. Logi serwera to ogromna kopalnia wiedzy o tym kto odwiedza twoje strony, w tym Googlebot.
Zarządzaj dostępem – jeśli zauważysz spadki wydajności swojego serwera, zamiast tworzyć bezużyteczny ale ustrukturyzowane przewodniki dla AI, to rozważ zarządzanie ich ruchem w tradycyjnym pliku robots.txt lub całkowite blokowanie najbardziej obciążających crawlerów, oczywiście jeśli nie widzisz korzyści z bycia w ich bazach treningowych 😉

Plik llms.txt jest tylko i wyłącznie ciekawostką, którą skanują chyba wszyscy tylko nie prawdziwe boty AI i Googlebot (a jeśli zeskanował, to musiał go znaleźć, wszak pliki tekstowe znajdują się na liście które Googlebot indeksuje ² ale nie wchodzi tam sam z siebie)

Google Trends to darmowe narzędzie od Google, które pokazuje, jak często dane hasła są wpisywane w wyszukiwarkę podając względną popularność tematów na wykresie w skali od 0 do 100. Link: https://trends.google.com/ ↩︎
Typy plików indeksowanych przez Google, https://developers.google.com/search/docs/crawling-indexing/indexable-file-types ↩︎

Roboty AI ignorują LLMS.txt ale skanują internet na potęgę – 2 badania, 1 wniosek

Google Trends – popularność llms.txt w Google