AI Labyrinth od CloudFlare, a SEO

W artykule przeczytasz: ukryj

1. Co to jest AI Labyrinth

1.1. Jak działa AI Labyrinth? Szczegółowe wyjaśnienie mechanizmu

2. Potencjalne pozytywne skutki włączenia AI Labyrinth dla SEO

2.1. Redukcja ruchu niepożądanych botów i jego wpływu na wydajność strony

2.2. Potencjalne zmniejszenie obciążenia serwera i kosztów hostingu

2.3. Wykorzystanie pregenerowanej treści w AI Labyrinth

3. Potencjalne negatywne skutki włączenia AI Labyrinth dla SEO

3.1. Analiza, czy mechanizmy detekcji botów w AI Labyrinth mogą błędnie identyfikować legalne crawlery wyszukiwarek

4. AI Labyrinth (nie)bezpieczna usługa od CloudFlare

Właściciele stron internetowych od momentu boom na ChatGPT i całą modę AI coraz częściej mierzą się z problemem nieautoryzowanego crawlowania i wykorzystywania treści przez boty AI. Takie działania mogą obciążać serwery (GPTBot nie ma litości!), przez co strony mogą wolniej się wczytywać, a to ma realny i negatywny wpływ na pozycjonowaną stronę, nie mówiąc już o sklepach gdzie każda milisekunda jest ważna.

Co to jest AI Labyrinth

AI Labyrinth – to nowy system opracowany przez CloudFlare. Właściwie to innowacyjne rozwiązanie, które zamiast blokować boty, kieruje je w pułapkę wygenerowanej sieci stron. Mechanizm wykrywa podejrzaną aktywność i przekierowuje boty na nieistotne podstrony, zmuszając je do marnowania zasobów i czasu na bezużyteczną eksplorację. Z założenia pomysł bardzo dobry, na pewno innowacyjny ale czy pod kątem SEO bezpieczny? Sprawdzam!

Jak działa AI Labyrinth? Szczegółowe wyjaśnienie mechanizmu

AI Labyrinth opiera się na kilku funkcjach:

Generowanie treści przez AI – system wykorzystuje Workers AI z modelem open-source do tworzenia unikalnych stron HTML na różnorodne, lecz zawsze faktyczne tematy. Treści te są generowane z wyprzedzeniem i przechowywane w Cloudflare R2, dzięki czemu w momencie wykrycia niepożądanej akywności CF może szybko kierować AI boty na te treści. Dodatkowo CloudFlare zapewnia, że wygenerowana treść przechodzi przez proces sanityzacji zapobiegając m.in atakom XSS. Każda wygenerowana strona ma ustawiony profilaktycznie noindex.
Ukryte linki – wygenerowana treść jest bezproblemowo integrowana z istniejącymi stronami przez transformację HTML, w sposób niewidoczny dla zwykłych użytkowników. Dzięki starannie dobranym atrybutom i stylom CSS, te są niewidoczne dla ludzi, nie zakłócając struktury ani zawartości oryginalnej strony. Na szczęście te linki są prezentowane tylko podejrzanym botom, więc Googlebot i inne zweryfikowane roboty nie trafią na te linki.
Honeypot – Wszelka aktywność polegająca na nawigowaniu po ukrytych linkach z dużym prawdopodobieństwem wskazuje na zautomatyzowanego bota. Pozwala to Cloudflare na identyfikację i tworzenie cyfrowego odcisku palca (tzw. fingerprint) złośliwych botów. Następnie trafia to do modeli uczenia maszynowego. To jest całkiem potężny mechanizm identyfikacji, który wzbogaca już i tak całkiem dużą bazę CF’a.

Cel AI Labyrinth? Spowolnienie, dezorientacja i zużycie zasobów niepożądanych botów AI przez zwabienie scraperów do sieci nieistotnych, choć wyglądających na autentyczne stron, system zmusza boty do marnowania czasu i mocy obliczeniowej na przetwarzanie bezużytecznych informacji, co znacząco ogranicza ich zdolność do efektywnego zbierania danych do trenowania modeli AI. Natomiast pojawiają się pytania: czy wpłynie to na jakość odpowiedzi LLM’ów? Ponoć wygenerowane strony zawierają teksty z wiedzy publicznie dostępnej, ale kto tak naprawdę to zweryfikował? Jeśli twórcy AI Labyrinth są w błędzie i sabotowanie scrapowania będzie lepsze niż wygenerowane strony, to modele mogą mieć ograniczony dostęp do wiarygodnych treści. W efekcie ich odpowiedzi mogą stać się mniej precyzyjne, a rykoszetem dostanie użytkownik.

Włączenie AI Labyrinth jest opcjonalne i dostępne dla wszystkich klientów Cloudflare. Chociaż na dzień publikacji tego artykułu na forum CloudFlare można znaleźć liczne posty informujące o problemach z włączeniem, co również potwierdzam.

Potencjalne pozytywne skutki włączenia AI Labyrinth dla SEO

Redukcja ruchu niepożądanych botów i jego wpływu na wydajność strony

Nadmierny ruch generowany przez boty – przypomnę tylko, że ChatGPT potrafi skanować kilkanaście adresów na sekundę – może znacząco obciążać serwery, prowadząc do spowolnienia czasu ładowania strony. Z punktu widzenia SEO, szybkość ładowania strony jest całkiem istotne. AI Labyrinth, przez skuteczne zarządzanie ruchem niepożądanych botów, może przyczynić się do poprawy wydajności strony zapewniając szybsze ładowanie, a doceni to czytelnik oraz Googlebot.

Potencjalne zmniejszenie obciążenia serwera i kosztów hostingu

Ruch botów generuje zapytania do serwera, co zużywa zasoby i może prowadzić do zwiększenia kosztów hostingu / wyczerpania limitu. Przekierowanie scraperów do labiryntu wygenerowanych treści może pomóc w zmniejszeniu obciążenia serwera i potencjalnie obniżyć koszty operacyjne.

Dodatkowo roboty indeksujące, takie jak Googlebot czy Bingbot, mogą mieć więcej dostępnych zasobów do efektywniejszego indeksowania zawartości strony. Zmniejszenie obciążenia serwera spowodowanego przez niepożądany ruch botów może pośrednio przyczynić się do poprawy efektywności indeksowania przez wyszukiwarki. Patrz: crawl budget, render budget.

Wykorzystanie pregenerowanej treści w AI Labyrinth

AI Labyrinth wykorzystuje pregenerowaną treść jest przechowywana w R2 i gotowa do natychmiastowego dostarczenia. Dzięki temu, w momencie wykrycia niepożądanej aktywności bota, system może szybko wyświetlić pułapkę i kierować scrapery daleko od strony.

Potencjalne negatywne skutki włączenia AI Labyrinth dla SEO

Pomimo w/w korzyści, włączenie AI Labyrinth wiąże się również z pewnym potencjalnym ryzykiem, które należy rozważyć z perspektywy SEO.

Analiza, czy mechanizmy detekcji botów w AI Labyrinth mogą błędnie identyfikować legalne crawlery wyszukiwarek

Chociaż AI Labyrinth jest zaprojektowany do zwalczania „nieodpowiedniej aktywności botów” oraz „botów AI i innych botów, które nie respektują dyrektyw „no crawl”, to istnieje zawsze pewne ryzyko fałszywie pozytywnych (tzw. false-positive) wyników w systemach wykrywania botów. Jeśli legalne roboty indeksujące, takie jak Googlebot czy Bingbo, zostaną błędnie zidentyfikowane jako złośliwe boty AI i skierowane do labiryntu, może to utrudnić im indeksowanie rzeczywistej zawartości witryny. Cloudflare zapewnia, że legalni użytkownicy i zweryfikowane crawlery powinni móc przeglądać stronę normalnie. Jednak ryzyko istnieje, a wtedy taka strona może być traktowana jako spamerska.

AI Labyrinth (nie)bezpieczna usługa od CloudFlare

AI Labyrinth w teorii jest super rozwiązaniem przeciwko scraperom. Ze względu, że ta pułapka na scrapery jest nowością, to brakuje analiz i niezależnych opinii. Jedyne dostępne materiały to głównie ogłoszenia Cloudflare ale jako twórcy – uważam – nie są obiektywni. Niestety, AI Labyrinth w moim mniemaniu ma też jedną ogromną wadę – wystarczy jeden false-positive żeby zniweczyć miesiące pozycjonowania, a to skutecznie zniechęca mnie do włączenia tej funkcji na stronach innych niż przeznaczonych do testów.