Roboty AI ignorują LLMS.txt ale skanują internet na potęgę – 2 badania, 1 wniosek

Od pewnego czasu w branży marketingu mówi się o potrzebie ustrukturyzowania treści dla modeli językowych. Odpowiedzią na to miał być plik llms.txt, który w założeniu ma działać jak przewodnik dla botów AI, dostarczając im czysty, łatwy do przetworzenia w formacie Markdown kontekst o danej stronie.

Roboty AI ignoruja LLMS.txt ale skanuja internet na potege

Google Trends – popularność llms.txt w Google

Poniższe zestawienie pochodzi z Google Trends 1

Dane z Google Trends pokazują skoki zainteresowania z globalnym szczytem popularności w marcu 2026 roku i gwałtownym (choć krótkotrwałym) wystrzałem w Polsce pod koniec 2025 roku. Jednak te imponujące wykresy mogą być jedynie krótkotrwałą ciekawostką. W tym przypadku wykres popularności nie jest miarą sukcesu technologii, a jedynie zapisu zbiorowej nadziei i hype’u, który całkowicie nijak się ma do zainteresowania gigantów AI.

To jest drugie moje badanie i tym razem podszedłem do tego badania bardziej kompleksowo aby rozwiać wszelkie wątpliwości – jeśli ktoś je miał – plik llms.txt nie ma kompletnie żadnego sensu.

Pierwsze badanie

Pierwsze badanie przeprowadziłem w okresie 13.05.2025 – 01.09.2025 i statystyki wyglądają następująco

  • Dataprovider – 1582x
  • Jakieś customy – 1332x
  • Zwykły użytkownik – 11x
  • python-requests – 10x
  • Screaming Frog – 8x
  • Fake Googlebot – 2x
  • Semrush – 2x
Pisałem o tym na moim LinkedIn (kliknij tu i sobie rozwiń)

Drugie badanie (i ostatnie) związane z llms.txt

Przeanalizowałem logi serwerów z ostatnich 191 dni, na których znajduje się ~900 domen. Dane pochodzą z okresu 04.09.2025 – 13.04.2026, czyli od początku września 2025 do połowy kwietnia 2026.

llms.txt to propozycja standardu, z którego nikt nie korzysta

Zacząłem od sprawdzenia jak często odpytywane są pliki związane z nowym standardem, czyli:

  • /llms.txt
  • /llms-full.txt
  • /llms-ctx.txt

Przez ponad pół roku – przypomnę, że na ~900 domenach – odnotowałem tylko 1227 zapytań o te pliki (średnio około 6 zapytań dziennie). Ruch ten dotyczył 107 domen. Najczęstszą ścieżką był standardowy /llms.txt, który miał aż 1215 zapytań.

Plik / ścieżkaLiczba requestów
/llms.txt1215
/llms-full.txt9
/docs/llms.txt1
/api/llms.txt1
/.well-known/llms.txt1

Kto o te pliki pyta?

Wśród odpytujących nie było ani jednego prawdziwego bota AI. Zamiast gigantów trenujących swoje modele (jak OpenAI, Anthropic czy Google), plikiem llms.txt interesują się głównie:

  • Agregatory i skanery danych – Dataprovider.com odpowiadał za lwią część ruchu (794 requesty). Widać też aktywność narzędzi takich jak AI-Security-Scanner, ReconTool czy SiteAuditBot.
  • Ludzie – Chrome (392 zapytania) i Firefox wskazują, że to najprawdopodobniej administratorzy, badacze lub audytorzy SEO ręcznie sprawdzali obecność tego pliku na serwerach.
  • Proste skryptyllmstxtcrawler czy robots-ai-permissions, który po User-Agent okazał się skryptem w pythonie

Szczegóły odpytujących

Klient / BotLiczba requestówTyp / Przeznaczenie
Dataprovider794Agregator danych / Crawler analityczny
Chrome392Przeglądarka internetowa (człowiek/skrypt)
llmstxtcrawler12Skrypt dedykowany do skanowania llms.txt
AI-Security-Scanner8Skaner bezpieczeństwa
ReconTool5Narzędzie audytowe
SiteAuditBot5Bot Semrush
Googlebot (fake)4Podszywanie się pod Googlebota
Firefox3Przeglądarka internetowa (człowiek)
robots-ai-permissions2Skrypt (Python)
DomainShield1Narzędzie ochronne
Bingbot1Crawler wyszukiwarki (Microsoft)
ŁĄCZNIE1227

Trend dzienny i rozkład godzinowy
Wykresy trendu zapytań potwierdzają, że mamy tu do czynienia głównie z mechanicznymi, zautomatyzowanymi skanami. Ruch jest niewielki (piki sięgają zaledwie 20-25 zapytań dziennie), a rozkład godzinowy jest dość płaski i równomierny przez całą dobę. Nie ma tu śladu organicznego, masowego zainteresowania ze strony crawlerów LLM.

Prawdziwy ruch AI, czyli 45 milionów requestów w tle

Ktoś może zarzucić, że boty AI w ogóle nie odwiedzają stron na których przeprowadziłem badanie. Otóż, gdy llms.txt zebrał nieco ponad tysiąc zapytań, to ogólny ruch od robotów powiązanych z Ai wyniósł w tym samym czasie blisko 45 milionów requestów! Tak, będąc precyzyjnym 44,996,657 – dokładnie tyle razy AI różnej maści skanowało strony w analizowanym okresie. Zidentyfikowałem łącznie 88 unikalnych botów, co daje astronomiczną średnią ponad pół miliona zapytań na jednego bota.

Podział na wszystkie firmy związane z crawlerami AI

Kto w takim razie konsumuje najwięcej zasobów?

1. OpenAI

Patrząc na podział na firmy, OpenAI jest absolutnym liderem. Generuje ponad 25% całego ruchu AI w moim badaniu (ponad 11,5 mln requestów). Odpowiadają za to boty takie jak GPTBot (prawie 8,8 mln zapytań – numer 1 w ogólnym zestawieniu), OAI-SearchBot oraz ChatGPT-User.

2. Anthropic

Na drugim miejscu plasuje się Anthropic (twórcy Claude’a) z niespełna 6 milionami requestów, za co odpowiada głównie agresywny ClaudeBot.

3. PetalBot

Na trzecim miejscu ląduje Top 15 botów w oczy rzuca się potężny słupek na drugim miejscu – PetalBot. Z wynikiem blisko 8,3 mln. PetalBot to crawler należący do Huawei (powiązany z ich wyszukiwarką Petal Search i rozwojem AI). Warto mieć to na uwadze, ponieważ często bywa on oskarżany przez administratorów o bardzo agresywne zachowanie i obciążanie serwerów.

4. Wielkie technologie nie zostają w tyle

Meta odpowiada za blisko 3 miliony zapytań (meta-externalagent), a w czołówce znajduje się też bot Amazona (Amazonbot z 4,3 mln) oraz Apple (Applebot z 2,5 mln).

5. Google też skanuje!

Google też ma swój udział chociaż niski, bo niecałe 170 tysięcy zapytań (np. GoogleOther, Google-NotebookLM, Gemini-Deep-Research). Prawdopodobnie wynika to z faktu, że Google do trenowania swoich modeli może w dużej mierze wykorzystywać dane zebrane już wcześniej przez głównego Googlebota (który de facto nie jest czystym AI crawlerem).

Zbiorcze spojrzenie na bigtechy

Zbiorcze spojrzenie na gigantów technologicznych nie pozostawia złudzeń co do tego, kto pobiera najwięcej danych z naszych stron:

Twórca LLM / OrganizacjaŁączna liczba requestówUdział w całości ruchu
Inne (pozostałe boty)24,444,255~54,3%
OpenAI (ChatGPT)11,521,228~25,6%
Anthropic (Claude)5,923,626~13,2%
Meta (Llama)2,939,423~6,5%
Google (Gemini)168,125~0,4%

TOP15 crawlerów AI

Oto zestawienie 15 najbardziej żarłocznych crawlerów AI, które zidentyfikowałem w logach (na podstawie analizy blisko 45 milionów requestów):

MiejsceNazwa botaŁączna liczba requestów
1GPTBot (OpenAI)8,798,505
2PetalBot (Huawei)8,291,994
3ClaudeBot (Anthropic)5,921,228
4Amazonbot (Amazon)4,361,437
5Applebot (Apple)2,597,117
6LinkupBot2,462,636
7meta-externalagent (Meta)2,331,582
8IbouBot1,719,613
9OAI-SearchBot (OpenAI)1,457,764
10LCC1,403,196
11ChatGPT-User (OpenAI)1,264,907
12Bytespider (ByteDance/TikTok)1129,001
13TerraCotta550,077
14Awario510,164
15spider354,905
Tabela z zestawieniem TOP15 crawlerów AI

Podsumowanie i wnioski

Moje badanie bazujące na dane z serwera obalają (przynajmniej na moment publikacji) mit użytecznościl lms.txt. Mimo ogromnego i stale rosnącego ruchu ze strony botów AI, giganci technologiczni nie zaimplementowali powszechnie odczytu tego standardu. Wolą „po staremu” renderować i analizować pełny kod HTML.

Co to oznacza w praktyce?

  1. Nie marnuj czasu – tworzenie i utrzymywanie plików llms.txt to obecnie sztuka dla sztuki. Sprawdź swoją stronę pod kątem technicznym i upewnij się, że najważniejsze treści nie są prezentowane przy pomocy JavaScript. AI nie renderują JavaScript, wiec treści dla nich mogą być niewidoczne.
  2. Monitoruj logi – twoje serwery prawdopodobnie są nieustannie bombardowane przez GPTBot, PetalBot i ClaudeBot. Logi serwera to ogromna kopalnia wiedzy o tym kto odwiedza twoje strony, w tym Googlebot.
  3. Zarządzaj dostępem – jeśli zauważysz spadki wydajności swojego serwera, zamiast tworzyć bezużyteczny ale ustrukturyzowane przewodniki dla AI, to rozważ zarządzanie ich ruchem w tradycyjnym pliku robots.txt lub całkowite blokowanie najbardziej obciążających crawlerów, oczywiście jeśli nie widzisz korzyści z bycia w ich bazach treningowych 😉

Plik llms.txt jest tylko i wyłącznie ciekawostką, którą skanują chyba wszyscy tylko nie prawdziwe boty AI i Googlebot (a jeśli zeskanował, to musiał go znaleźć, wszak pliki tekstowe znajdują się na liście które Googlebot indeksuje 2 ale nie wchodzi tam sam z siebie)

  1. Google Trends to darmowe narzędzie od Google, które pokazuje, jak często dane hasła są wpisywane w wyszukiwarkę podając względną popularność tematów na wykresie w skali od 0 do 100. Link: https://trends.google.com/ ↩︎
  2. Typy plików indeksowanych przez Google, https://developers.google.com/search/docs/crawling-indexing/indexable-file-types ↩︎

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *