Roboty AI ignorują LLMS.txt ale skanują internet na potęgę – 2 badania, 1 wniosek
Od pewnego czasu w branży marketingu mówi się o potrzebie ustrukturyzowania treści dla modeli językowych. Odpowiedzią na to miał być plik llms.txt, który w założeniu ma działać jak przewodnik dla botów AI, dostarczając im czysty, łatwy do przetworzenia w formacie Markdown kontekst o danej stronie.

- 🇵🇱 Polski
- 🇬🇧 English
Google Trends – popularność llms.txt w Google
Poniższe zestawienie pochodzi z Google Trends 1
Dane z Google Trends pokazują skoki zainteresowania z globalnym szczytem popularności w marcu 2026 roku i gwałtownym (choć krótkotrwałym) wystrzałem w Polsce pod koniec 2025 roku. Jednak te imponujące wykresy mogą być jedynie krótkotrwałą ciekawostką. W tym przypadku wykres popularności nie jest miarą sukcesu technologii, a jedynie zapisu zbiorowej nadziei i hype’u, który całkowicie nijak się ma do zainteresowania gigantów AI.
To jest drugie moje badanie i tym razem podszedłem do tego badania bardziej kompleksowo aby rozwiać wszelkie wątpliwości – jeśli ktoś je miał – plik llms.txt nie ma kompletnie żadnego sensu.
Pierwsze badanie
Pierwsze badanie przeprowadziłem w okresie 13.05.2025 – 01.09.2025 i statystyki wyglądają następująco
- Dataprovider – 1582x
- Jakieś customy – 1332x
- Zwykły użytkownik – 11x
- python-requests – 10x
- Screaming Frog – 8x
- Fake Googlebot – 2x
- Semrush – 2x
Pisałem o tym na moim LinkedIn (kliknij tu i sobie rozwiń)
Drugie badanie (i ostatnie) związane z llms.txt
Przeanalizowałem logi serwerów z ostatnich 191 dni, na których znajduje się ~900 domen. Dane pochodzą z okresu 04.09.2025 – 13.04.2026, czyli od początku września 2025 do połowy kwietnia 2026.
llms.txt to propozycja standardu, z którego nikt nie korzysta
Zacząłem od sprawdzenia jak często odpytywane są pliki związane z nowym standardem, czyli:
- /llms.txt
- /llms-full.txt
- /llms-ctx.txt
Przez ponad pół roku – przypomnę, że na ~900 domenach – odnotowałem tylko 1227 zapytań o te pliki (średnio około 6 zapytań dziennie). Ruch ten dotyczył 107 domen. Najczęstszą ścieżką był standardowy /llms.txt, który miał aż 1215 zapytań.
| Plik / ścieżka | Liczba requestów |
|---|---|
| /llms.txt | 1215 |
| /llms-full.txt | 9 |
| /docs/llms.txt | 1 |
| /api/llms.txt | 1 |
| /.well-known/llms.txt | 1 |
Kto o te pliki pyta?
Wśród odpytujących nie było ani jednego prawdziwego bota AI. Zamiast gigantów trenujących swoje modele (jak OpenAI, Anthropic czy Google), plikiem llms.txt interesują się głównie:
- Agregatory i skanery danych – Dataprovider.com odpowiadał za lwią część ruchu (794 requesty). Widać też aktywność narzędzi takich jak AI-Security-Scanner, ReconTool czy SiteAuditBot.
- Ludzie – Chrome (392 zapytania) i Firefox wskazują, że to najprawdopodobniej administratorzy, badacze lub audytorzy SEO ręcznie sprawdzali obecność tego pliku na serwerach.
- Proste skrypty –
llmstxtcrawlerczyrobots-ai-permissions, który po User-Agent okazał się skryptem w pythonie
Szczegóły odpytujących
| Klient / Bot | Liczba requestów | Typ / Przeznaczenie |
|---|---|---|
| Dataprovider | 794 | Agregator danych / Crawler analityczny |
| Chrome | 392 | Przeglądarka internetowa (człowiek/skrypt) |
| llmstxtcrawler | 12 | Skrypt dedykowany do skanowania llms.txt |
| AI-Security-Scanner | 8 | Skaner bezpieczeństwa |
| ReconTool | 5 | Narzędzie audytowe |
| SiteAuditBot | 5 | Bot Semrush |
| Googlebot (fake) | 4 | Podszywanie się pod Googlebota |
| Firefox | 3 | Przeglądarka internetowa (człowiek) |
| robots-ai-permissions | 2 | Skrypt (Python) |
| DomainShield | 1 | Narzędzie ochronne |
| Bingbot | 1 | Crawler wyszukiwarki (Microsoft) |
| ŁĄCZNIE | 1227 |
Trend dzienny i rozkład godzinowy
Wykresy trendu zapytań potwierdzają, że mamy tu do czynienia głównie z mechanicznymi, zautomatyzowanymi skanami. Ruch jest niewielki (piki sięgają zaledwie 20-25 zapytań dziennie), a rozkład godzinowy jest dość płaski i równomierny przez całą dobę. Nie ma tu śladu organicznego, masowego zainteresowania ze strony crawlerów LLM.


Prawdziwy ruch AI, czyli 45 milionów requestów w tle
Ktoś może zarzucić, że boty AI w ogóle nie odwiedzają stron na których przeprowadziłem badanie. Otóż, gdy llms.txt zebrał nieco ponad tysiąc zapytań, to ogólny ruch od robotów powiązanych z Ai wyniósł w tym samym czasie blisko 45 milionów requestów! Tak, będąc precyzyjnym 44,996,657 – dokładnie tyle razy AI różnej maści skanowało strony w analizowanym okresie. Zidentyfikowałem łącznie 88 unikalnych botów, co daje astronomiczną średnią ponad pół miliona zapytań na jednego bota.

Kto w takim razie konsumuje najwięcej zasobów?
1. OpenAI
Patrząc na podział na firmy, OpenAI jest absolutnym liderem. Generuje ponad 25% całego ruchu AI w moim badaniu (ponad 11,5 mln requestów). Odpowiadają za to boty takie jak GPTBot (prawie 8,8 mln zapytań – numer 1 w ogólnym zestawieniu), OAI-SearchBot oraz ChatGPT-User.
2. Anthropic
Na drugim miejscu plasuje się Anthropic (twórcy Claude’a) z niespełna 6 milionami requestów, za co odpowiada głównie agresywny ClaudeBot.
3. PetalBot
Na trzecim miejscu ląduje Top 15 botów w oczy rzuca się potężny słupek na drugim miejscu – PetalBot. Z wynikiem blisko 8,3 mln. PetalBot to crawler należący do Huawei (powiązany z ich wyszukiwarką Petal Search i rozwojem AI). Warto mieć to na uwadze, ponieważ często bywa on oskarżany przez administratorów o bardzo agresywne zachowanie i obciążanie serwerów.
4. Wielkie technologie nie zostają w tyle
Meta odpowiada za blisko 3 miliony zapytań (meta-externalagent), a w czołówce znajduje się też bot Amazona (Amazonbot z 4,3 mln) oraz Apple (Applebot z 2,5 mln).
5. Google też skanuje!
Google też ma swój udział chociaż niski, bo niecałe 170 tysięcy zapytań (np. GoogleOther, Google-NotebookLM, Gemini-Deep-Research). Prawdopodobnie wynika to z faktu, że Google do trenowania swoich modeli może w dużej mierze wykorzystywać dane zebrane już wcześniej przez głównego Googlebota (który de facto nie jest czystym AI crawlerem).
Zbiorcze spojrzenie na bigtechy
Zbiorcze spojrzenie na gigantów technologicznych nie pozostawia złudzeń co do tego, kto pobiera najwięcej danych z naszych stron:
| Twórca LLM / Organizacja | Łączna liczba requestów | Udział w całości ruchu |
|---|---|---|
| Inne (pozostałe boty) | 24,444,255 | ~54,3% |
| OpenAI (ChatGPT) | 11,521,228 | ~25,6% |
| Anthropic (Claude) | 5,923,626 | ~13,2% |
| Meta (Llama) | 2,939,423 | ~6,5% |
| Google (Gemini) | 168,125 | ~0,4% |
TOP15 crawlerów AI
Oto zestawienie 15 najbardziej żarłocznych crawlerów AI, które zidentyfikowałem w logach (na podstawie analizy blisko 45 milionów requestów):

| Miejsce | Nazwa bota | Łączna liczba requestów |
|---|---|---|
| 1 | GPTBot (OpenAI) | 8,798,505 |
| 2 | PetalBot (Huawei) | 8,291,994 |
| 3 | ClaudeBot (Anthropic) | 5,921,228 |
| 4 | Amazonbot (Amazon) | 4,361,437 |
| 5 | Applebot (Apple) | 2,597,117 |
| 6 | LinkupBot | 2,462,636 |
| 7 | meta-externalagent (Meta) | 2,331,582 |
| 8 | IbouBot | 1,719,613 |
| 9 | OAI-SearchBot (OpenAI) | 1,457,764 |
| 10 | LCC | 1,403,196 |
| 11 | ChatGPT-User (OpenAI) | 1,264,907 |
| 12 | Bytespider (ByteDance/TikTok) | 1129,001 |
| 13 | TerraCotta | 550,077 |
| 14 | Awario | 510,164 |
| 15 | spider | 354,905 |
Podsumowanie i wnioski
Moje badanie bazujące na dane z serwera obalają (przynajmniej na moment publikacji) mit użytecznościl lms.txt. Mimo ogromnego i stale rosnącego ruchu ze strony botów AI, giganci technologiczni nie zaimplementowali powszechnie odczytu tego standardu. Wolą „po staremu” renderować i analizować pełny kod HTML.
Co to oznacza w praktyce?
- Nie marnuj czasu – tworzenie i utrzymywanie plików
llms.txtto obecnie sztuka dla sztuki. Sprawdź swoją stronę pod kątem technicznym i upewnij się, że najważniejsze treści nie są prezentowane przy pomocy JavaScript. AI nie renderują JavaScript, wiec treści dla nich mogą być niewidoczne. - Monitoruj logi – twoje serwery prawdopodobnie są nieustannie bombardowane przez
GPTBot,PetalBotiClaudeBot. Logi serwera to ogromna kopalnia wiedzy o tym kto odwiedza twoje strony, w tym Googlebot. - Zarządzaj dostępem – jeśli zauważysz spadki wydajności swojego serwera, zamiast tworzyć bezużyteczny ale ustrukturyzowane przewodniki dla AI, to rozważ zarządzanie ich ruchem w tradycyjnym pliku
robots.txtlub całkowite blokowanie najbardziej obciążających crawlerów, oczywiście jeśli nie widzisz korzyści z bycia w ich bazach treningowych 😉
Plik llms.txt jest tylko i wyłącznie ciekawostką, którą skanują chyba wszyscy tylko nie prawdziwe boty AI i Googlebot (a jeśli zeskanował, to musiał go znaleźć, wszak pliki tekstowe znajdują się na liście które Googlebot indeksuje 2 ale nie wchodzi tam sam z siebie)
- Google Trends to darmowe narzędzie od Google, które pokazuje, jak często dane hasła są wpisywane w wyszukiwarkę podając względną popularność tematów na wykresie w skali od 0 do 100. Link: https://trends.google.com/ ↩︎
- Typy plików indeksowanych przez Google, https://developers.google.com/search/docs/crawling-indexing/indexable-file-types ↩︎
