Wielowymiarowa rola kliknięć w ocenie i rankingu

W tym artykule wchodzę głęboko w temat kliknięć. Pokażę Ci, jak Google patrzy na nasze ruchy w SERP-ach i co z tego wyciąga. Dzięki wglądowi w dokumentację techniczną, badanie akademickie, patentowi i materiałom ujawnionym w postępowaniu prawnym oraz własnych testach, mogę dzisiaj zobaczyć, co kryje się „pod maską” oceny SERP przez Google.

Przymiarki do napisania tego tekstu rozpocząłem grubo ponad pół roku temu – wtedy po prostu chciałem sprawdzić czy i co Google dostaje gdy klikam w link – i dopiero niedawno poczułem, że w końcu mam cały kontekst po rozłożeniu go na czynniki pierwsze (przynajmniej taką mam nadzieję). Zapraszam, bo jest co czytać 🙂

Skrócona wersja tego artykułu znajduje się też na moim LinkedIn

Interakcje użytkownika to więcej niż kliknięcia

Google samo przyznaje, że ranking opiera się na trzech fundamentalnych filarach (jak wynika z prezentacji „Life of a Click”):

Zawartość dokumentu (body) – co dokument mówi sam o sobie
Linki zewnętrzne (anchors) – co sieć mówi o dokumencie
Interakcje użytkownika (user-interactions) – co użytkownicy mówią o dokumencie, czyli jak wchodzą z nim w interakcję

Ten trzeci filar jest o tyle ciekawy, że wykracza daleko poza tradycyjne CTR. Google bierze pod uwagę znacznie szersze spektrum zachowań, które świadczą o zaangażowaniu i potencjalnej satysfakcji użytkownika:

Uwaga – wskazuje na wizualne zaangażowanie w element SERP, nawet bez kliknięcia. Może być to wnioskowane na podstawie spędzonego czasu w SERP, przewijaniu (mobile) lub najechanie myszą na konkretne elementy
Interakcje z innymi funkcjami SERP – np. przeciągnięcia na karuzelach
Wprowadzanie nowego zapytania – krytyczny sygnał często wskazujący na niezadowolenie z początkowych wyników i skłaniający użytkownika do przeformułowania zapytania
Kliknięcia – podstawowy sygnał reprezentujący wybór użytkownika. Google rozróżnia kilka typów kliknięć (dobre, złe, dobrze porzucenie)

To pokazuje jak interakcje użytkowników – z kliknięciami jako głównym wskaźnikiem – są zintegrowane w wyszukiwarce Google. Od szkolenia algorytmicznego po innowacje produktowe. Widać też, że Google stara się zrozumieć całościowe doświadczenie użytkownika, a nie tylko pojedyncze zdarzenie kliknięcia. No właśnie, kliknięcia… Google kategoryzuje kliknięcia na różne typy, co może świadczyć o wyrafinowanym wewnętrznym rozumieniu intencji użytkownika i ogólnej jakości strony.

W Google API Content Warehouse można znaleźć informacje o CrapsData:

clicks i impressions – podstawowe liczniki całkowitej liczby kliknięć i wyświetleń
goodClicks i badClicks – to sugeruje zdolność Google do klasyfikowania kliknięć na podstawie późniejszych zachowań użytkownika lub innych sygnałów jakości
- „Dobre kliknięcie” prawdopodobnie prowadzi do zadowolenia użytkownika lub dłuższego zaangażowania na stronie
- „Złe kliknięcie” może skutkować szybkim powrotem do SERP (tzw. pogo-sticking) lub natychmiastowym przeformułowaniem zapytania
lastLongestClicks – reprezentuje kliknięcia, które były ostatnią interakcją w sesji zapytania i doprowadziły do najdłuższego zaangażowania w kliknięty dokument. Ta metryka bezpośrednio wskazuje na zadowolenie użytkownika i znalezienie pożądanych informacji
unicornClicks – podzbiór kliknięć związanych ze zdarzeniem od „użytkownika Unicorn”. Zrobiłem dogłębny research i okazuje się, że to kliknięcia należące do kont dzieci – jak mniemam ze względów prawnych. Pełny research: unicornClicks – sygnał kliknięć dzieci
absoluteImpressions – liczą każde pojedyncze wyświetlenie osobno, co daje bardzo dokładny obraz faktycznej liczby odsłon. Dzięki temu Google widzi pełną nieagregowaną liczbę wyświetleń
unsquashedClicks – surowe dane dotyczące kliknięć, które nie zostały jeszcze przetworzone. Google przechodzi na nowy format, w którym te właśnie dane będą zapisywane
unsquashedImpressions – nieprzetworzone dane dotyczące wyświetleń, które nie zostały jeszcze skompresowane ani połączone w większe grupy. Obecnie to pole nie jest w pełni wykorzystywane w starym formacie, ale Google przechodzi na nowy format, w którym będzie to wykorzystywał. Bardzo prawdopodobne, że „nowy format” już istnieje, biorąc pod uwagę kiedy był wyciek dokumentacji Google
unsquashedLastLongestClicks – liczba kliknięć, które jednocześnie były ostatnimi kliknięciami użytkownika w ciągu powiązanych zapytań oraz cechowały się najdłuższym czasem spędzonym na odwiedzanej stronie. Ten wskaźnik jest o tyle istotny, że pozwala Google zidentyfikować te interakcje, które rzeczywiście przyciągnęły uwagę użytkownika i dostarczyły mu satysfakcjonującego doświadczenia, a nie tylko te, po których nastąpił szybki powrót do wyników wyszukiwania (pogo-sticking)

Dane CrapsData zawierają też atrybuty takie jak country, device, language, query, url i sliceTag, co można rozumieć, że sygnały kliknięć i wyświetleń są agregowane oraz analizowane w różnych wymiarach od określenia kraju, urządzenia, język, po zapytania i adresy URL, a sliceTag dzieli to wszystko według różnych właściwości. Rozróżnienie między dobrym, złym i „ostatnim najdłuższym” kliknięciem pokazuje, że googlowi zależy na jakości zaangażowania i zadowolenia użytkownika. Można to rozumieć w ten sposób, że w Google istnieje model, który klasyfikuje intencje użytkownika i wynik po kliknięciu. Co do „ostatniego najdłuższego kliknięcia” sprawa też nie jest zero-jedynkowa, ponieważ kliknięcie wyniku dla zapytania „wiadomości” może być interpretowane inaczej niż kliknięcie dla zapytania o „lokalny biznes”, czy „badanie naukowe”.

Podobnie zachowanie użytkowników mobilnych różni się od zachowania na komputerach stacjonarnych. Przez kategoryzowanie i analizę kliknięć w tych wymiarach, Google może precyzyjniej dostosować swoje algorytmy do konkretnych segmentów użytkowników, typów zapytań i kontekstów urządzeń. Weźmy za przykład magiczny Google Discover na urządzeniach mobilnych. Scrollowanie i zatrzymanie się na jakimś temacie dłużej niż ~1 sekunda, może dostarczać danych algorytmowi, że „ten temat zainteresował użytkownika” (czyli moduł: uwaga), a przejście do artykułu jest już jawnym sygnałem zainteresowania (czyli moduł: interakcja). Oczywiście to tylko domysły ale patrząc pod kątem użytkowników desktopowych jest to całkiem realne.

System telemetryczny Google

Bardzo płynnie przechodzimy teraz do mojego pierwotnego badania, które zapoczątkowało ten artykuł 🙂 Z moich testów wynika, że Google wykorzystuje dedykowany system telemetryczny do pasywnego zbierania danych o interakcjach użytkowników. Głównym przykładem jest endpoint /gen_204, do którego Google wysyła „ping” za każdym razem, gdy użytkownik wejdzie w interakcję z linkiem znajdującym się, w SERP-ach.

Uważam, że /gen_204 to kod statusu HTTP 204 „No Content” – oznacza pomyślne przesłanie danych bez zwracania jakiejkolwiek treści, co jest w sumie typowe dla żądań analitycznych działających w tle.

Wielowymiarowy sygnał interakcji

Dlaczego pogrubiłem wcześniej „interakcję„? Przeprowadziłem testy z myszą komputerową, klawiaturą oraz symulacją telefonu Galaxy S20 Android 11.

Test obejmował „normalne wyniki”, wyniki sponsorowane, AI Overviews, PAA, graf wiedzy jako zalogowany na konto Google oraz niezalogowany. Po przeprowadzeniu analizy przekazanych danych telemetrycznych z endpointu widać ewidentnie, że interakcja użytkownika jest wielowymiarowym sygnałem, który Google mierzy z niezwykłą precyzją daleko wykraczającą poza proste zarejestrowanie kliknięcia. Testy wykazały, że poza samym faktem odnotowania interakcji, Google analizuje naturę, kontekst i sposób wykonania:

Interakcje myszą – standardowe kliknięcia są szczegółowo rejestrowane za pomocą parametrów takich jak ct=slh oraz rozbudowanego me, które dostarczają informacji o precyzyjnym momencie, widoczności elementu i czasie reakcji
Interakcje klawiaturą – Google aktywnie śledzi nawigację za pomocą klawiszy (TAB, ENTER), co potwierdzają parametry takie jak m=V oraz tni i atni. To świadczy też o dbałość Google związaną z „accessibility” użytkowników korzystających z alternatywnych metod nawigacji
Interakcje dotykowe (mobilne) – symulacja smartfonu pokazała, że Google przechodzi na śledzenie gestów. Parametr me zawierał w tym przypadku sygnały S (co można bezpośrednio przetłumaczyć na scroll) i G (gesture / gest), a także szczegółowe dane o położeniu i widoczności elementów w widoku mobilnym

ale to nie wszystko, ponieważ testy które dotyczyły AI OVerwies i grafu wiedzy dostarczają nowych informacji na cały test. Google stosuje bardzo zaawansowane mechanizmy telemetryczne, aby zrozumieć każdy aspekt interakcji użytkownika.

AI Overviews są intensywnie monitorowane – Google bardzo szczegółowo śledzi interakcje z nowymi funkcjami opartymi na AI używając dedykowanego parametru fid z parametrami czasowymi sprawdzającymi zaangażowanie(?)
Śledzenie funkcji SERP innych niż tradycyjne linki – aktywnie śledzone są interakcje z elementami takimi jak grafy wiedzy, wykorzystując do tego parametry ved i vet, które kodują wizualny kontekst i pozycję klikniętego elementu
Szczegółowość jest standardem, niezależnie od statusu użytkownika – nawet jako niezalogowany użytkownik, Google zbiera bardzo szczegółowe dane o mikrointerakcjach (me z najechania, przewijania, położenia elementów) oraz czasie (zx, st). To świadczy o tym, że te dane są potrzebne dla podstawowego działania i optymalizacji wyszukiwarki, niezależnie od personalizacji związanej z kontem użytkownika.
Agregacja danych dla zrozumienia satysfakcji – wszystkie te dane (interakcje z AI Overviews, grafami wiedzy, ruchy myszy, kliknięcia) są agregowane i wykorzystywane do budowania pełniejszego obrazu intencji i satysfakcji użytkownika, co jest zgodne z filozofią modelu CAS.

Parametry telemetryczne

Adresy URL zapytań /gen_204 są bogate w specyficzne parametry telemetryczne, z których każdy zawiera pewne informacje. Po dokładnej analizie adresów wytypowałem najbardziej prawdopodobne opisy, później wrzuciłem do AI z moimi notatkami i prośbą o weryfikację, opis i ewentualnie uzupełnienie, co jedynie utwierdziło mnie w przekonaniu, że mam dobry trop.

atyp (action type) – prawdopodobnie wskazuje konkretny typ akcji użytkownika, np kliknięcie
- csi – z bardzo dużym prawdopodobieństwem jest to skrót od „Client Side Instrumentation”, czyli techniki zbierania danych po stronie klienta
- i (interaction) – prawdopodobnie „interakcja”
atni (active tab navigation index) – parametr używany w kontekście nawigacji klawiaturą, wskazuje na aktualnie aktywny element, po tym jak używany był tabulator. Jego zmieniająca się wartość odzwierciedla, przez które elementy interaktywne użytkownik przechodzi, używając klawisza tab, zanim dokona wyboru (np. naciśnie Enter). Z dużym prawdopodobieństwem monitoruje dostępność (accessibility) bez myszy
aqid (active query ID) – identyfikator powiązany z zapytaniem wyszukiwania lub sesją
bb (build / beta version) – Może oznaczać wariant testowanego mechanizmu lub konkretną kompilację oprogramowania. Pozwala to Google przypisać dane do konkretnej wersji kodu lub eksperymentu. [opis AI]
bl (build label) – Prawdopodobnie odnosi się do wewnętrznej etykiety kompilacji lub wersji modułu oprogramowania Google, z którego pochodzi ping. Jest to kolejny parametr używany do debugowania i analizy wydajności przez inżynierów Google. [opis AI]
et (event type) – oznacza zarejestrowanie jakiegoś wydarzenia, w tym przypadku kliknięcie adresu
ei (event identifier) – Unikalny identyfikator dla konkretnego zdarzenia lub sesji, umożliwiający Google śledzenie pojedynczych interakcji
ct (click type) – dostarcza kontekstu dotyczącego charakteru zdarzenia
- slh (search link hit) – kliknięcie linku wyszukiwania
- backbutton – pojawiło się po kliknięciu kliknięciu „Wstecz” w przeglądarce. To jest bardzo ważny negatywny sygnał dla Google. Wskazuje na to, że użytkownik opuścił stronę docelową i wrócił do SERP, co jest istotne dla mierzenia pogo-sticking i oceny satysfakcji z poprzednio klikniętego wyniku
v (version) – numer wersji formatu danych telemetrycznych
im (interaction mode) – prawdopodobnie pokazuje w jaki sposób użytkownik wchodzi w interakcję
- M – interakcja myszą (mouse)
pv (Page View) – Prawdopodobnie odnosi się do wartości związanej z widocznością elementu na stronie wyszukiwania mierząc np. procent widoczności. W modelu CAS (Clicks, Attention, Satisfaction) jest opisany pomiar „uwagi” (attention)
tni (tab navigation index) – parametr używany w kontekście nawigacji za pomocą klawisza Tab po stronie klienta (CSI / Client Side Instrumentation). Prawdopodobnie śledzi liczbę przejść tabulatorem w ramach danej sesji lub obszaru strony
m (mode) – prawdopodobnie alternatywa dla parametru im
- M – interakcja myszą (mouse)
- V – interakcja klawiaturą (virtual)
- G – interackaj gestem
me (Metrics/Events lub Measurement Event) – to jeden z kluczowych parametrów, który zawiera bardzo szczegółowe dane w formie ustrukturyzowanego ciągu znaków. Składa się z segmentów takich jak kod zdarzenia, znacznik czasu, typ danych, metryki i flagi. Parametr ten przekazuje zestaw informacji dotyczących wydajności, czasu reakcji oraz interakcji użytkownika. Jest to najbardziej rozbudowany i bogaty informacyjnie parametr, zawierający zakodowane dane o interakcjach mierzonych w mikrosekundach, wymiarach i pozycjach elementów na stronie, czasie poświęconym na ich oglądanie (tzw. attention) i wielu innych szczegółach. Stanowi on sedno szczegółowego śledzenia zachowań użytkowników [opis AI]
- S – dla wersji mobilnej (scroll)
- G – dla wersji mobilnej (gesture)
- 74 – dla wersji mobilnej prawdopodobnie kod zdarzenia „tapnięcie”
zx (unix timestamp) – znacznik czasu w milisekundach zapisany w formacie UNIX
opi (Operation ID) – prawdopodobnie identyfikator powiązany z konkretną operacją, sesją lub stroną, z którą użytkownik rozpoczął daną interakcję. Jeśli faktycznie, to w taki sposób Google mierzy pogo-sticking
ved (visual element data) – głównym celem jest dostarczenie Google szczegółowych informacji o linku, w który użytkownik kliknął, wizualnym kontekście i pozycji w SERP
vet – podobnie jak wyżej, parametr pojawił się dopiero przy AIO, KE i PAA. Podobnie jak ved, jest to złożony parametr dostarczający rozszerzonych danych wizualnych i kontekstowych o klikniętym elemencie. Może zawierać bardziej szczegółowe informacje o stanie elementu, jego zawartości lub danych, które doprowadziły do jego wyświetlenia. Wraz z ved stanowi potężne narzędzie do analizy wizualnych interakcji
uact (user action type) – reprezentuje typ akcji użytkownika, często specyficzny dla interakcji z elementami interfejsu użytkownika lub funkcjami SERP. Zawiera konkretny kod dla określonego typu akcji, być może związanej z dynamicznymi elementami lub interakcjami niezwiązanymi z tradycyjnymi linkami. [opis AI]
fid (feature ID) – Jest to unikalny identyfikator konkretnej funkcji lub elementu interfejsu Google. W naszym przypadku, wartość 18 jest bardzo prawdopodobnym wewnętrznym identyfikatorem dla AI Overviews lub ich specyficznych interakcji. Pomaga Google śledzić adopcję i użycie poszczególnych funkcji SERP. [opis AI]
st (session time) – prawdopodobnie reprezentuje czas spędzony (w milisekundach) na danym elemencie lub stronie przed wysłaniem pingu. Innym pomysłem jest ogólny czas sesji. Na pewno jest to metryka zaangażowania
t – Wskazuje na konkretny rodzaj wyzwalacza lub interakcji
- fi – prawdopodobnie „first interaction” (pierwsza interakcja) lub „feature interaction” (interakcja z konkretną funkcją). [opis AI]
nt (navigation type?) – Parametr pojawił się tylko przy rozwinięciu AI Overviews. Może oznaczać typ zdarzenia nawigacyjnego jako „rozwinięcie”
- reload – wskazuje, że strona lub konkretny komponent na stronie (w tym przypadku AI Overviews) został przeładowany lub ponownie wyrenderowany. W kontekście AIO, może to oznaczać, że sekcja została dynamicznie załadowana na interakcję użytkownika (w tym konkretnym przypadku będzie to rozwinięcie podsumowania). Jest to niepodważany dowód na to, że Google poza samymi kliknięciami w linki monitoruje też dynamiczne zmiany w obrębie SERP
hl (hreflang) – powszechnie znany język interfejsu użytkownika
fmt (format) – format w jakim są wysyłane dane
- jsbp – wydaje mi się, że chodzi o JavaScript Protocol Buffers (aka protobuf, który znajduje się w API Content Warehouse). Metoda serializacji danych strukturalnych stworzona przez Google. Zajmuje mniej miejsca niż JSON / XML
msc (module service context) – moduł odpowiedzialny za wyłapywanie kontekstu usługi (?)
- gwsrpc – z dużym prawdopodobieństwem oznacza Google Web Search RPC, czyli komunikację między różnymi komponentami w ramach wyszukiwarki

Jak już wspominałem wcześniej – sama liczba i złożoność parametrów wykracza daleko poza proste zliczanie kliknięć. Obejmują one sygnatury czasowe, kody zdarzeń i różne metryki co sugeruje, że Google buduje bogaty i wielowymiarowy profil każdej interakcji użytkownika w SERP. Taki poziom szczegółowości jest niezbędny do szkolenia wyrafinowanych modeli uczenia maszynowego, które mogą wnioskować jaką użytkownik miał intencję, a następnie jego zadowolenie przez rozróżnianie między dobrymi, a złymi kliknięciami.

Chociaż dane telemetryczne są wyraźnie określane jako nie będące bezpośrednim sygnałem rankingowym, to trudno nie odnieść wrażenia, że ich rola w optymalizacji wyszukiwarki i poprawie doświadczenia użytkownika ma głębokie i pośrednie konsekwencje dla SEO. Jeśli Google wykorzystuje te dane do „monitorowania jakości i optymalizacji” oznacza to, że na podstawie zachowań użytkowników ciągle udoskonalają sam interfejs wyszukiwania, a do tego dynamicznie dostosowują wyświetlane treści do potrzeb konkretnego użytkownika – sprytnie. W takim razie strony, które zapewniają lepsze UX (np. zoptymalizowane meta title i description, szybsze ładowanie, konkretna treść, intuicyjna nawigacja), naturalnie prowadzą do większej liczby „dobrych kliknięć” i wyższego zadowolenia użytkowników.

Jeśli moje przypuszczenia są faktycznie trafne, to pozytywne sygnały od użytkowników korelują z innymi, bardziej bezpośrednimi sygnałami rankingowymi (czy pogo-sticking takim jest?). Wydaje mi się, że optymalizacja pod kątem doświadczenia użytkownika i oparta na zrozumieniu tych sygnałów telemetrycznych przez Google musi stać się pośrednią strategią SEO.

Model CAS czyli kliknięcie, uwaga, satysfakcja

Opracowany przez Google Research Europe model Clicks, Attention and Satisfaction (CAS) to zaawansowany system oceny SERP, który wychodzi poza tradycyjne metryki oparte na kliknięciach, wspólnie rejestrując zachowania związane z kliknięciami, uwagę użytkowników i ich satysfakcję, oferując dokładniejsze przewidywanie działań użytkowników i zgłaszanej przez nich satysfakcji. CAS integruje 3 główne elementy zachowania użytkownika:

C (Clicks – Kliknięcia) – analizuje, czy i w co użytkownik klika
A (Attention – Uwaga) – mierzy na co użytkownik zwraca uwagę na stronie wyników wyszukiwania
S (Satisfaction – Satysfakcja) – ocenia ogólne zadowolenie użytkownika z uzyskanych wyników

Najwidoczniej „tradycyjne metryki” stają się niewystarczające, gdzie odpowiedzi na pytania można znaleźć bezpośrednio w panelach wiedzy, polecanych fragmentach (featured snippets) czy innych elementach interaktywnych, bez konieczności klikania w jakikolwiek link, np. AI Overview.

Dodatkowo problem, na który odpowiada CAS to fakt, że błędnie jest też zakładać „kliknięcie = sukces”. Model CAS rozwiązuje 2 problemy:

Nieliniowy wzorzec uwagi – użytkownicy nie przeglądają już wyników w sposób liniowy, czyli od góry do dołu. Elementy wizualne, takie jak obrazy, mapy, panele wideo czy reklamy, przyciągają wzrok i zaburzają tradycyjny schemat „F”. Model CAS uwzględnia nieliniowe wzorce uwagi (mierzone najczęściej za pomocą technologii eye-trackingu w badaniach), aby zrozumieć, które elementy SERP są faktycznie zauważane i jak wpływają na decyzje użytkownika.
Good Abandonment, czyli „dobre porzucenie” – użytkownik wpisuje zapytanie (np. „pogoda w Warszawie”), otrzymuje odpowiedź bezpośrednio na stronie wyników i zadowolony opuszcza wyszukiwarkę bez klikania w żaden link. W starym modelu byłby to sygnał porażki (zerowy CTR). Model CAS potrafi zidentyfikować taką sytuację jako sukces, ponieważ użytkownik osiągnął swój cel i jest usatysfakcjonowany.

Komponenty modelu CAS

Model CAS dzieli się na kilka komponentów, które każdy z nich pełni inną funkcję.

Model kliknięcia (C – Clicks)

Kliknięcia wciąż są ważne, ale ich kontekst jest ważniejszy. Model CAS postrzega kliknięcie jako część całości, np.:

Pozytywny sygnał to kliknięcie w link i pozostanie na docelowej stronie przez dłuższy czas (tzw. „long click”)
Negatywny sygnał to kliknięcie w link i natychmiastowy / szybki powrót na stronę wyników, by kliknąć w coś innego. To jest wyraźny sygnał, że pierwszy wynik nie spełnił oczekiwań. Wspominałem już kilka razy o pogo-sticking.

Model Uwagi (A – Attention)

Aby element SERP został kliknięty – musi najpierw zostać zbadany i uznany za atrakcyjny. To wydaje się prawdziwa rewolucją. Model CAS nie zakłada, że widzisz i oceniasz wszystkie wyniki po kolei, bo różne elementy walczą o uwagę użytkownika. Model przewiduje z jakim prawdopodobieństwem użytkownik zwróci uwagę na dany element bazując na:

Pozycji – wyższa pozycja wciąż ma przewagę
Wyglądzie – elementy wizualne, takie jak obrazy, wideo, featured snippets czy ramki w panelu wiedzy, naturalnie przyciągają wzrok
Typie wyniku – użytkownik inaczej skanuje blok z wiadomościami, a inaczej listę lokalnych firm na mapie

Model uwagi jest szkolony w celu optymalizacji pełnego prawdopodobieństwa danych, w tym ruchów myszy, kliknięć i etykiet satysfakcji, uznając że same ruchy myszy nie oddają całej uwagi (np. zapytania o przeliczanie walut bez ruchów myszy ale ze zgłoszoną satysfakcją)

Model Satysfakcji (S – Satisfaction)

Najważniejszy komponent modelu, w którym satysfakcja jest wnioskowana na podstawie całej sekwencji interakcji (lub ich braku). Satysfakcja jest postrzegana jako zdarzenie – suma wcześniejszych działań (Click, Attention), gdzie użyteczność można uzyskać przez klikanie trafnych wyników i / lub bezpośrednie badanie dobrych elementów SERP. Suma użyteczności jest obliczana z bezpośrednich elementów SERP i klikniętych dokumentów.

Przykład 1 (wysoka satysfakcja):
- Użytkownik wpisuje „stolica Polski„
- Uwaga skupia się na panelu wiedzy, który wyświetla „Warszawa„
- Brak kliknięcia = użytkownik opuszcza stronę
- Wniosek? użytkownik jest zadowolony
Przykład 2 (niska satysfakcja):
- Użytkownik wpisuje „jak pozycjonować stronę w google”
- Uwaga skupia się na pierwszym wyniku, po czym klika w niego
- Użytkownik po 5 sekundach wraca do SERP i klika w inny link
- Wniosek? pierwszy wynik nie był satysfakcjonujący i użytkownik szuka dalej

Koncepcja „dobrego porzucenia” zmienia definicję „braku kliknięcia” i podważa tradycyjne założenie, że brak kliknięcia oznacza porażkę lub niezadowolenie. Dzięki nowoczesnym funkcjom SERP (panele wiedzy, wyróżnione fragmenty) użytkownicy mogą znaleźć odpowiedzi bezpośrednio na stronie bez konieczności nawigowania. Oznacza to, że wyszukiwanie z „zerowym kliknięciem” może być w rzeczywistości bardzo udane i satysfakcjonujące (dla użytkownika, nie wydawcy).

Integracja kliknięć, ruchów myszy (jako wskaźnika uwagi) i jawnie zgłaszanej przez użytkowników satysfakcji w modelu CAS pokazuje wieloelementowe podejście do zrozumienia zachowań użytkowników. Opieranie się na jednym sygnale (takim jak kliknięcia) nie daje pełnego obrazu.

Łącząc dane behawioralne (kliknięcia, ruchy myszy) z danymi poznawczymi (raporty satysfakcji) i ludzkimi ocenami trafności, Google uzyskuje znacznie bogatsze i dokładniejsze zrozumienie intencji użytkownika, zaangażowania oraz wyniku. Pozwala to na rozwój metryk oceny, które są bardziej zgodne z rzeczywistą użytecznością użytkownika.

Pomiar jakości wyników wyszukiwania, w skrócie IS4@5

W innym dokumencie z rozprawy przed Departamentem Sprawiedliwości jest zeznanie Pandu Nayaka (Chief Scientist for Search w Google) i odpowiedź profesora Douglasa W. Oarda, które dostarczają cennych informacji na temat wyszukiwania. Google uznaje, że tradycyjne metryki – takie jak IS4@5 – choć użyteczne, mają znaczące ograniczenia.

Co to jest IS4@5

IS4@5 to skrót od „Information Satisfaction for the top 5 results”. Zgodnie z informacjami IS4@5 to metryka, którą Google wykorzystuje do oceny pięciu najwyższych pozycji (tzw. TOP5). Metryka ta uwzględnia „niebieskie linki”, jak i specjalne funkcje wyszukiwania, takie jak „OneBoxes”. Wartości tej metryki są ściśle powiązane z analizą szczegółowych danych o interakcjach użytkowników zbieranych za pomoca endpointu /gen_204. Google trenuje swoje komponenty rankingowe (Navboost, RankBrain, DeepRank, QBST i Term Weighting), w celu maksymalizacji ocen lub dostrajania na podstawie IS (Information Satisfaction).

IS jest nadrzędną koncepcją, do której odnosi się IS4@5, a oceny te odzwierciedlają to, jak dobrze użytkownik zaspokoił swoją intencję, biorąc pod uwagę wszystkie jego interakcje z SERP – w tym również przypadki „dobrego porzucenia”, gdzie odpowiedź znaleziono bezpośrednio w wynikach. Metryka IS4 jest uznawana za „przybliżenie użyteczności dla użytkownika”, co jest zbieżne z celami modelu CAS w kompleksowym pomiarze zachowania użytkownika. Oznacza to, że wyszukiwarka stara się znaleźć „najlepszy” dokument i przy tym zapewnić, że prezentacja wyników w SERP prowadzi użytkownika do szybkiego i efektywnego rozwiązania jego problemu informacyjnego.

Google stosuje zestaw różnorodnych metryk do oceny jakości wyszukiwania podkreślając „rzeczywistą wartość dla użytkownika wspieraną przez dokładną analizę i inne metryki”, a należą do nich:

PQ (Page Quality) – Ta metryka znajduje się w wytycznych dla oceniających jakość wyszukiwania (raterów) oraz API Content Warehouse. Podczas gdy raterzy dostarczają subiektywnej oceny zgodnej z wytycznymi, IS oferuje obiektywny wgląd w rzeczywiste zachowania użytkowników. Bazując na miliardach kliknięć i interakcji, IS dostarcza równie szczegółowego obrazu satysfakcji co statyczne oceny ludzkie
Side-by-Sides – eksperymenty porównawcze między różnymi systemami wyszukiwania
Live Experiments (LE) – metoda oceny jakości wyszukiwania i zrozumienia intencji użytkownika na żywo
Freshness – „świeżość” informacji jest niezależnym czynnikiem wpływającym na jakość zapytań wymagajacych najnowszych danych. Czyli bezpośrednio odnosi się do aktualnych informacji, np. wiadomości, powtarzające się wydarzenia, zapytania o produkty, pytania dotyczące celebrytów i polityków

Fragmenty zeznania Pandu Nayaka

Poniższy schemat obejmuje: pytanie / odpowiedź / moje zdanie.

Główny naukowiec ds wyszukiwania w Google w październiku 2023 roku wskazywał, m.in że IS jest kluczowym wskaźnikiem najwyższego poziomu całego SERP. Cytując:

So IS is Google’s primary top level measure of quality, right? [IS to główny najwyższego poziomu wskaźnik jakości w Google, prawda?]
Yes. [Tak]

Tu jasno informuje, że IS jest elementem oceny jakości wyników i nadrzędną koncepcją mierzącą, jak skutecznie Google zaspokaja potrzeby użytkownika

And sometimes IS-scored documents are fed — used to train the different modules, models in Google search stack, right? [A czasami dokumenty ocenione przez IS są wykorzystywane – używane do trenowania różnych modułów, modeli w systemie wyszukiwania Google, prawda?]
Yes. [Tak]

Potwierdza to bezpośredni związek IS z procesem uczenia maszynowego. IS, jako wskaźnik satysfakcji, staje się etykietą dla dokumentów, pokazującą algorytmom (takim jak Navboost, RankBrain, DeepRank, QBST i Term Weighting), jakie wyniki są dobre, a jakie złe z perspektywy użytkownika. Czyli dane o interakcjach zasilają IS, a IS pomaga algorytmom się uczyć.

And sometimes — and — but IS rating has different pros and cons compared to using click data to train those same systems, right? [A czasami – i – ale ocena IS ma różne zalety i wady w porównaniu do użycia danych kliknięć do trenowania tych samych systemów, prawda?]
Yes. [Tak]

Wysoka satysfakcja użytkownika, to cel który Google chce osiągnąć. IS jest rezultatem analizy. Jako taka, potrafi uwzględnić „dobre porzucenia” i jest ogólnym miernikiem użyteczności.

One advantage of click data has over IS data is clicks give a measure of the actual user performance? [Jedną z zalet danych kliknięć w porównaniu do danych IS jest to, że kliknięcia dają miarę rzeczywistego zachowania użytkownika?]
That is correct. [Zgadza się]

Dane o kliknięciach (/gen_204, me, im, pv, tni, atni itp.) reprezentują „actual user performance„. To są surowe dane wejściowe, które pokazują jak użytkownik wchodzi w interakcję. Kliknięcia, ruchy myszy, przewijanie, gesty – to wszystko są obiektywne obserwacje zachowania.

And then it’s fine-tuned on IS data? [A potem jest dostrajany na podstawie danych IS?]
That is correct. [Zgadza się]

To potwierdzenie tego, że RankBrain po wstępnym treningu (prawdopodobnie na surowych danych o zapytaniach i kliknięciach), jest dostrajany i optymalizowany pod kątem satysfakcji użytkownika mierzonej przez IS. RankBrain uczy się, jak modyfikować ranking (np. przez rozumienie synonimów, kontekstu), aby użytkownicy byli jak najbardziej usatysfakcjonowani wynikami.

But it is not possible to train RankBrain on only human rater data, right? [Ale nie da się wytrenować RankBrain wyłącznie na danych od ludzkich oceniających, prawda?]
No, you can’t. [Nie, nie da się]

Czyli rzeczywiste dane o interakcjach użytkownika (click data) są niezastąpione. Chociaż raterzy, którzy dostarczają danych PQ są ważni dla kalibracji i zrozumienia jakości, to ich dane są zbyt małe aby efektywnie trenować RankBrain. Wniosek jest jeden – tylko miliardy rzeczywistych interakcji są w stanie dostarczyć wystarczającą ilość sygnałów do tak złożonego treningu. To jedynie potwierdza, że ogólna interakcja użytkownika w SERP zbierana przez /gen_204 jest absolutnie niezbędnym paliwem dla algorytmu RankBrain.

Now, the navboost system memorizes past clicks that have been issued for past queries, right? [Teraz, system Navboost zapamiętuje poprzednie kliknięcia, które zostały wykonane dla wcześniejszych zapytań, prawda?]
Yes. [Tak]
It’s trained on user data? [Jest trenowany na danych użytkowników?]
Yes, it is. [Tak, jest]

Navboost to algorytm, odkryty podczas procesu antymonopolowego Google z Departamentem Sprawiedliwości USA. Navboost jest system zapamiętywania, który koncentruje się na wynikach wyszukiwania Google i bazuje na danych użytkownika. Z tego opisu można wnioskować, że Navboost opiera swoje działanie m.in na historycznych danych o kliknięciach.

And for years, RankBrain was trained on 13 months worth of click and query data; is that right? [I przez lata RankBrain był trenowany na podstawie 13 miesięcy danych o kliknięciach i zapytaniach; zgadza się?]
I think initially it started with the same amount as navboost, yes. [Myślę, że początkowo zaczęło się to od tej samej ilości co navboost, tak]

Ten zapis pokazuje jak bardzo wykrozystywane są dane do treningu RankBrain – 13 miesięcy danych o kliknięciach i zapytaniach to ogromna ilość danych! Wskazuje też na historyczne powiązanie z Navboost, który również opiera się na danych z kliknięć. Kolejne potwierdzenie, że surowe dane o interakcjach są bardzo ważne i zbierane w długim horyzoncie czasowym.

RankEmbed BERT is trained on click and query data, right? [RankEmbed BERT jest trenowany na danych o kliknięciach i zapytaniach, prawda?]
Yes, it is. [Tak, zgadza się]

Ponownie jest potwierdzenie, że BERT opiera się na rzeczywistych danych o interakcjach użytkowników, które są podstawą uczenia się RankEmbed BERT. Czyli jak ludzie faktycznie formułują zapytania i jakie treści uznają za trafne.

And then it’s fine-tuned on human IS rater data? [A potem jest dostrajany na danych od ludzkich oceniających IS?]
Yes, it is. [Tak, zgadza się]

RankEmbed BERT jest precyzyjnie dostrajany na danych IS pochodzących od raterów. Oznacza to, że po wstępnym treningu na ogromnych zbiorach danych behawioralnych, model jest „kalibrowany” na mniejszym, ale bardzo precyzyjnym zbiorze ocen ludzkich ekspertów, aby jeszcze lepiej odpowiadać na definicję „satysfakcji informacyjnej”.

I see. And then you figure out which ones they click on so you can use that to determine which are the better results? [Rozumiem. I wtedy ustalacie, które z nich klikają, abyście mogli wykorzystać to do określenia, które są lepszymi wynikami?]
Yeah, and so there’s a particular technique to decide which side is better. [Tak, i jest szczególna technika do decydowania, która strona jest lepsza]

Google stosuje zaawansowane techniki analityczne do interpretacji danych o kliknięciach. To pozwala na precyzyjne określenie, które wyniki są naprawdę wartościowe i satysfakcjonujące dla użytkowników, wykraczając poza podstawową miarę zliczania kliknięć.

That would be an example of using click data to run an experiment? [To byłby przykład wykorzystania danych o kliknięciach do przeprowadzenia eksperymentu?]
Yes. [Tak]

Dane o kliknięciach są aktywnie wykorzystywane w kontrolowanych eksperymentach Google, co umożliwia ciągłe testowanie i udoskonalanie algorytmów w oparciu o bieżące zachowania użytkowników w czasie rzeczywistym.

Nadrzędny wniosek

Na podstawie fragmentów zeznania Pandu Nayaka można jednoznacznie podkreślić, że interakcje użytkowników są absolutnym i niezastąpionym paliwem dla algorytmów Google. Każdy algorytm uczy się, dostrajania i nieustannie ewoluuje dzięki danym behawioralnym przekazywanym przez użytkowników. IS jest głównym miernikiem jakości, ale to właśnie historyczne i bieżące dane o interakcji użytkownika (/gen_204 i jego parametry) stanowią najlepszą podstawę, by przewidywać i zaspokajać potrzeby informacyjne z coraz większą precyzją, i to w czasie rzeczywistym. Reasumując, każda nasza interakcja staje się nieocenionym sygnałem, który w dynamiczny sposób kształtuje wyniki wyszukiwania.

Korelacja kliknięć z tematyką i popularnością

Patent Google (US8595225B1) znalazł się na mojej liście dokumentów przed tym jak wygasł w maju 2025 roku, ale odnoszę wrażenie, że idealnie pasuje do całego artykułu i warto o nim wspomnieć. To że wygasł, nie jest równoznaczne z tym, że Google już nie praktykuje tych metod.

Patent opisuje zaawansowany mechanizm rankingowy, który czyni wyniki wyszukiwania bardziej istotnymi w niszowych tematach. Jego działanie jest nierozerwalnie związane z analizą zachowań użytkowników w SERP, ponieważ to właśnie interakcje dostarczają danych wejściowych do obliczenia popularności. Nie chodzi tu tylko o ogólną popularność typu liczba linków czy kliknięć, a jego popularność w ramach specyficznego tematu lub kategorii.

W patencie można znaleźć taką informację:

one or more instructions to use at least one of user navigational patterns to each document, of the plurality of documents, or user navigational patterns from each document, of the plurality of documents, to determine the first popularity score.

Sformułowanie „wzorce nawigacyjne użytkownika” (user navigational patterns) bezpośrednio odnosi się do zachowań użytkowników w SERP, które już wcześniej były opisywane w tym artykule.

Chociaż patent pochodzi z 2013 roku, to termin „wzorce nawigacyjne” jest na tyle szeroki, że może bez problemu obejmować również bardziej nowoczesne sygnały, np. czas przez jaki kursor użytkownika znajduje się nad danym wynikiem w SERP przed jego kliknięciem, bo jest to pewien wskaźnik zainteresowania. Podobnym wskaźnikiem może być – co już wspominałem – zatrzymanie się nad tytułem podczas scrollowania w Google Discover, bo to również jest element zainteresowania (uwagi).

Główne założenia i mechanizmy patentu

Podstawowe założenie: kontekst ma znaczenie
- Głównym założeniem patentu jest, że autorytet i popularność strony internetowej są względnymi i silnie zależnymi od jej tematyki. Czyli Google ocenia daną stronę porównując ją z innymi o podobnej tematyce. Myślę, że obecnie można już mówić o poziomie semantycznych przestrzeni dokumentów (tzw. „Semantic Document Space”)
Dwuetapowa ocena popularności – zamiast jednego ogólnego wskaźnika popularności, patent wprowadza dwuetapowy system
1. Popularność bazowa (First Popularity Score) – wstępna ocena popularności dokumentu oparta głównie na surowych danych, przede wszystkim na zachowaniach użytkowników. Patent wyraźnie wspomina o wykorzystaniu „user navigational patterns to each document” (wzorców nawigacyjnych użytkowników do każdego dokumentu) lub „user navigational patterns from each document” (wzorców nawigacyjnych użytkowników z każdego dokumentu) do określenia wyniku popularności. Oznacza to, że dane z endpointu /gen_204 i parametrów me, pv, opi mogą służyć do obliczania popularności. Przypominam, że w API Content Warehouse znajduje się 7 różnych wskaźników kliknięć (clicks, goodClicks, badClicks, lastLongestClicks, unsquashedLastLongestClicks, unicornClicks, unsquashedClicks)
2. Popularność tematyczna (Second Popularity Score) – wynik który został znormalizowany (czyli nie jest już surowymi danymi) i skalibrowany w ramach określonej kategorii tematycznej. Oznacza to, że popularność kontekstowa ma bezpośredni wpływ na to, jak wysoko dokument pojawi się w wynikach wyszukiwania

Wnioski

Dogłębna analiza tematu ujawnia, że „kliknięcia” mimo iż są podstawą, to daleko im do prostej metryki. Google skrupulatnie zbiera, kategoryzuje i analizuje szerokie spektrum interakcji użytkowników (kliknięcia, uwaga, scrollowanie, najechanie myszą, nawigacja klawiaturą, nowe zapytania, dobre/złe kliknięcia, ostatnie/najdłuższe kliknięcia i kliknięcia dzieci pod terminem unicornClicks, aby zrozumieć zachowanie użytkowników na najbardziej szczegółowym poziomie jak to jest tylko możliwe. Dane o interakcjach użytkowników są fundamentem szkolenia i dostrajania podstawowych komponentów rankingowych takich jak Navboost czy RankBraim.

Model CAS podkreśla przejście od samych współczynników klikalności do holistycznego zrozumienia satysfakcji, uwzględniając „dobre porzucenia” i wykorzystując jawne opinie użytkowników. Patent dotyczący popularności w ramach tematu dodatkowo podkreśla kontekstualizację sygnałów popularności, zapewniając trafność dla konkretnych tematów zapytań.

Głęboka integracja danych o interakcjach użytkowników w systemy oceny i rankingu podkreśla jak bardzo są to istotne dane w optymalizacji doświadczenia użytkownika w i poza SERP. Obejmuje to szybkie czasy ładowania strony, jasną i zwięzłą treść, intuicyjną nawigację i ogólną satysfakcję użytkownika.

Ciągły cykl innowacji Google jest bezpośrednio napędzany danymi od użytkowników, które informują o wszystkim – od identyfikacji obszarów do poprawy algorytmów, po podejmowanie strategicznych decyzji o wdrożeniu nowych funkcji.

Strategiczne kierunki działań SEO

Holistyczna optymalizacja UX – każdy wydawca musi wyjść poza tradycyjne taktyki budowania słów kluczowych i linków aby priorytetowo traktować kompleksowe doświadczenie użytkownika. Obejmuje to optymalizację zaangażowania w SERP (jakość fragmentów, bogate wyniki) i satysfakcji po kliknięciu (szybkość strony, jakość treści, dobre CTA, meta title / description)
Zrozumienie intencji użytkownika – dogłębne zrozumienie intencji jest najważniejsze, ponieważ algorytmy Google są coraz lepsze w rozpoznawaniu satysfakcji i trafności
Przyjęcie różnorodnych metryk – każdy właściciel strony / specjalista SEO powinien analizować szerszy zakres sygnałów. Zmniejszać współczynnik odrzuceń, a przy tym zwiększać czas przebywania na stronie lub jej penetracji. Dlatego żeby nie dostarczać do Google negatywnych sygnałów od użytkowników
Strategia dla „dobrych porzuceń” – dla niektórych zapytań, dostarczanie bezpośrednich, zwięzłych odpowiedzi we fragmentach lub danych strukturalnych może prowadzić do „dobrych porzuceń”, które de facto są pozytywnymi sygnałami, nawet gdy użytkownik nie kliknie w witrynę. Może mieć to szersze perspektywy pozycjonowania strony jako całego dokumentu, a nie tego jednego, biorąc pod uwagę opisywany wcześniej patent

Inwestycja Google w zrozumienie i wykorzystanie interakcji użytkowników – z kliknięciami jako bezpośrednim sygnałem – umacnia zachowanie użytkowników nowoczesnej jakości wyszukiwania. Dla całej branży marketingu oznacza to strategiczne przesunięcie w kierunku podejść głęboko zorientowanych na użytkownika. Musimy priorytetowo traktować jakość zaangażowania i ostateczne zadowolenie użytkownika, bo wychodzi na to, że Google (nie)świadomie z wyszukiwarki zrobił „behawioralno-automatyczne mikro-głosowanie”, które informuje o wszystkim cały system ustalajacy, na której pozycji ma się pojawić konkretny dokument / strona.