AEO Visibility Challenge — Tydzień 1: 0% widoczności. Tak wygląda uczciwy start od zera

8 kwi 2026

AEO Visibility Challenge — Tydzień 1: 0% widoczności. Tak wygląda uczciwy start od zera

Webappski właśnie przestawił swoją działalność na Answer Engine Optimization. Zanim ogłosimy, że potrafimy uczynić inne marki widocznymi dla AI, postanowiliśmy zmierzyć samych siebie. Wynik: zero wzmianek w dziewięciu zapytaniach do API i sześciu ręcznych sprawdzeniach platform. To Tydzień 1 publicznej serii pokazującej, jak agencja AEO buduje widoczność w wyszukiwarkach AI od absolutnego zera.

Webappski to agencja AEO. W Tygodniu 1 naszego publicznego eksperymentu z widocznością w AI przetestowaliśmy markę w pięciu systemach: ChatGPT, Gemini, Claude, Perplexity oraz Microsoft Copilot — po trzy niemarkowe zapytania w każdym, łącznie piętnaście sprawdzeń. Rezultat: zero wzmianek. Żaden z silników AI jeszcze o nas nie wie. Tak właśnie wygląda uczciwy start od zera dla agencji, która dopiero co przestawiła się na Answer Engine Optimization.

7 kwietnia 2026 roku zespół Webappski przeprowadził pierwszy pomiar widoczności webappski.com w ekosystemie wyszukiwania AI. Zrobiliśmy to dokładnie tak, jak robimy to dla naszych klientów — bezpośrednie wywołania API do OpenAI, Google i Anthropic, uzupełnione ręcznymi sprawdzeniami w Perplexity i Microsoft Copilot. Trzy zapytania testowe wybraliśmy tak, by odpowiadały trzem wertykalom, którymi się zajmujemy: poszukiwanie agencji w intencji komercyjnej, zapytanie informacyjne typu how-to oraz wyszukiwanie wertykalne dla branży SaaS.

Na tym jednak nie poprzestaliśmy. Webappski przepuściliśmy również przez dwa najpopularniejsze zewnętrzne narzędzia pomiarowe AEO: HubSpot AEO Grader oraz Ahrefs Free AI Visibility. Pod pewnymi względami to, czego nauczyliśmy się o samych narzędziach pomiarowych, okazało się ważniejsze niż to, czego dowiedzieliśmy się o naszej własnej widoczności.

Trzy zapytania testowe

Zapytania testowe dobraliśmy tak, by odzwierciedlały realne intencje wyszukiwania w trzech wertykalach Webappski: wynajęcie agencji (intencja komercyjna), autorytet w treściach poradnikowych oraz specjalizacja wertykalna SaaS. W żadnym z nich nie pojawia się nazwa naszej marki. To celowe — zapytanie z brandem niczego nie udowadnia, bo wystarczy wyszukiwać własną nazwę, by zostać przytoczonym.

Q1 (intencja komercyjna): best answer engine optimization agencies 2026
Q2 (intencja informacyjna): how to make my website visible in ChatGPT and Perplexity
Q3 (intencja wertykalna): AEO services for B2B SaaS companies

Wyniki bezpośrednich wywołań API

Każde z trzech zapytań uruchomiliśmy w trzech silnikach AI, korzystając z ich oficjalnych interfejsów API: OpenAI (gpt-4o-search-preview), Google Gemini (gemini-2.0-flash z grounding) oraz Anthropic Claude (claude-sonnet-4-6 z web search). W sumie dziewięć zapytań. Wynik był identyczny w każdym pojedynczym przypadku: webappski.com nie pojawił się w treści odpowiedzi, nie znalazł się w cytowanych źródłach i nie wystąpił nigdzie w żadnej z dziewięciu odpowiedzi.

W zamian zobaczyliśmy nazwy agencji, które już opanowały te zapytania. First Page Sage pojawił się jako rekomendacja numer jeden w dwóch silnikach (Claude i Gemini) dla zapytania komercyjnego. NoGood wystąpił w dwóch silnikach i wyróżnia się tym, że zbudował własną platformę AEO o nazwie Goodie. iPullRank również znalazł się w dwóch silnikach. Pozostałe agencje wymienione w naszych dziewięciu odpowiedziach API to Omnius, House of Growth, Avenue Z, Minuttia, Searchtides, Amsive, LSEO, WebFX, Ignite Visibility, Victorious oraz SmartSites.

W zapytaniu wertykalnym o SaaS pojawiła się zupełnie inna lista nazw: Omnius (Londyn, profil SaaS-owy), XEO.works, Online Optimism, plus cytowania pięciu rankingów SaaS-AEO publikowanych przez Discovered Labs, Team4 Agency, ABM Agency, Maximus Labs oraz blog Omnius. We wszystkich pięciu listach Webappski był nieobecny. To właśnie ta nieobecność stanowi najbardziej praktyczne odkrycie Tygodnia 1: istnieje pięć gotowych zestawień, w których pojawienie się Webappski dałoby natychmiastową, mierzalną widoczność.

Ręczne sprawdzenia platform

Bezpośredni dostęp do API nie jest możliwy w przypadku każdego asystenta AI, z którego korzystają nasi potencjalni klienci. Perplexity udostępnia API wyłącznie subskrybentom planu Pro, a Microsoft Copilot w ogóle nie posiada publicznego API konsumenckiego. Z tego powodu zespół sprawdził obie platformy ręcznie — otwierając każdą z nich w trybie incognito, uruchamiając te same trzy zapytania i analizując odpowiedzi z należytą uwagą.

Perplexity zwróciło zero wzmianek we wszystkich trzech zapytaniach. Microsoft Copilot zwrócił zero wzmianek we wszystkich trzech zapytaniach. Po doliczeniu sprawdzeń ręcznych otrzymaliśmy zero wzmianek na sześć możliwości. W sumie z dziewięcioma testami API ostateczny wynik Tygodnia 1 wyniósł zero na piętnaście — równe 0%.

Następnie sprawdziliśmy same trackery

Mając już twarde dane bezpośrednio z silników AI, postanowiliśmy uruchomić Webappski w dwóch popularnych zewnętrznych narzędziach pomiarowych AEO, by sprawdzić, czy pokrywają się z rzeczywistością. Nie pokrywały się. A sposób, w jaki obie aplikacje rozminęły się z rzeczywistością, okazał się najważniejszą lekcją całego tygodnia.

HubSpot AEO Grader

HubSpot zwrócił następujące wyniki ogólne AEO: 28/100 dla OpenAI, 34/100 dla Perplexity oraz 44/100 dla Gemini. Wynik dla Gemini przyszedł nawet z zielonym statusem: 'You are on the right track.' Brand Sentiment został oceniony odpowiednio na 19/40, 18/40 i 26/40. Share of Voice dla Gemini wyniósł 7/10.

Te liczby nie zgadzają się z tym, co przed chwilą zaobserwowaliśmy bezpośrednio. Pięć niezależnych źródeł — trzy bezpośrednie testy API i dwa ręczne sprawdzenia platform — zwróciło zero wzmianek. Dlaczego więc HubSpot pokazuje Webappski jako znajdujący się w połowie skali AEO, a Gemini ma być rzekomo 'on the right track'? Trzy czynniki najprawdopodobniej wyjaśniają tę różnicę.

Grader stosuje wąski filtr geograficzny i kategorialny. Adres URL wyniku zawiera parametry ?geography=Europe&productsServices=services&industry=AEO. W tak wąskiej niszy każda strona z podstawami technicznego AEO — llms.txt, Schema.org, dobrze przygotowane podstrony usług — otrzymuje stosunkowo wysoki wynik względny. Grader nie mierzy faktycznych wzmianek w AI. Mierzy raczej, czy strona jest technicznie przygotowana do tego, by w ogóle dało się ją zmierzyć.
To element szerszego ekosystemu produktowego. AEO Grader to darmowe narzędzie wprowadzające, które funkcjonuje obok komercyjnych ofert HubSpot, a ten kontekst wpływa na sposób przyznawania punktów. Komunikat 'masz miejsce na poprawę' jest znacznie bardziej angażującym otwarciem rozmowy niż zarówno 'jesteś na zerze', jak i 'jesteś idealny' — i to nastawienie na średnie wyniki najprawdopodobniej tłumaczy, dlaczego nasze liczby wylądowały komfortowo powyżej zera, a nie na nim.
Brand Recognition to metryka najbliższa prawdy. We wszystkich trzech silnikach HubSpot ocenił Brand Recognition Webappski na 1/20. Ta jedna metryka pokrywa się z tym, co zaobserwowaliśmy bezpośrednio: silniki AI praktycznie o nas nie wiedzą. Pozostałe metryki są ważone inaczej i ostatecznie łagodzą ogólny obraz.

Ahrefs Free AI Visibility

Ahrefs udzielił nam dokładnie odwrotnej odpowiedzi: 'No AI mentions found for webappski.' Brak wyniku punktowego. Brak rozbicia na metryki. Tylko płaskie zero z zachętą do przejścia na Brand Radar po więcej szczegółów.

Na pierwszy rzut oka Ahrefs zgadzał się z naszymi twardymi danymi — pięć źródeł wskazało zero, Ahrefs także wskazał zero. Jednak nasz zespół testował już Ahrefs Free na innych markach, które są wyraźnie wzmiankowane w swoich kategoriach. Darmowa wersja narzędzia również w tych przypadkach zwracała fałszywe negatywy. Uczciwy wniosek nie polega więc na tym, że jeden tracker jest słuszny, a drugi się myli. Uczciwy wniosek brzmi tak: oba darmowe trackery zewnętrzne należy traktować jako orientacyjne wskaźniki, a nie standardy pomiarowe. HubSpot zwykle ocenia marki powyżej ich rzeczywistej widoczności, Ahrefs Free zwykle poniżej. Żadnego z nich nie warto traktować jako jedynego źródła prawdy.

Czego nauczył nas Tydzień 1

Najważniejszym odkryciem Tygodnia 1 nie jest sam wynik, lecz sprzeczność między narzędziami pomiarowymi. HubSpot pokazał 28-44 na 100. Ahrefs pokazał zero. Rzeczywistość, zmierzona pięcioma niezależnymi metodami, również wskazała zero. Dwa płatne narzędzia firm trzecich, dwie zupełnie różne historie i żadna z nich nie odpowiadała temu, co silniki AI faktycznie zwracają, gdy nasi potencjalni klienci o coś je pytają.

Webappski właśnie przestawił się na AEO. Nasza techniczna baza jest gotowa — llms.txt, dane strukturalne Schema.org, podstrony usług zbudowane wokół zasady answer-first. Pipeline contentowy mamy napisany, ale nie został jeszcze opublikowany. Oznacza to, że nasz baseline nie brzmi 'mamy wszystko, ale nic nie działa'. Nasz baseline to dosłownie punkt zerowy. I to jest właśnie sens prowadzenia tego eksperymentu publicznie: pokazanie krok po kroku, jak agencja AEO buduje swój autorytet od absolutnego zera, bez chodzenia na skróty.

Najciekawsza obserwacja dotycząca konkurencji odnosi się do First Page Sage. Zdominowali Q1 zarówno w Claude, jak i w Gemini — nie dlatego, że ich treści są najlepsze w branży, lecz dlatego, że już w 2023 roku ogłosili się 'pierwszą agencją oferującą usługi AEO'. Zdobyli mentalną kategorię w danych treningowych modeli AI, zanim ktokolwiek inny w ogóle zaczął próbować. To okno częściowo się już zamknęło, ale nie dla każdej wertykali. Wniosek: w wyszukiwaniu AI nazwanie kategorii jako pierwszy ma większe znaczenie niż produkowanie najlepszych treści.

Nasz zespół uruchomił ten eksperyment, ponieważ staliśmy się sceptyczni wobec narzędzi pomiarowych, których panele nie odpowiadają temu, co silniki AI w rzeczywistości zwracają. Jeśli twoja agencja deklaruje, że robi AEO, powinna mieć publiczny, weryfikowalny baseline. W przeciwnym razie ekspertyza AEO opiera się na tym samym fundamencie co dashboard zewnętrznego narzędzia — a my chcieliśmy czegoś bardziej rygorystycznego, dokładnie tego standardu, który stosujemy w pracy z klientami.

Sprawdziliśmy to dwukrotnie — i nadal pokazało zero

Po zakończeniu pierwszej rundy audytu rozszerzyliśmy metodologię o sprawdzenia dual-model: każdy dostawca AI został zapytany zarówno najnowszym dostępnym modelem, jak i stabilnym modelem referencyjnym. Chodziło o wyeliminowanie szumu specyficznego dla pojedynczego modelu — możliwości, że jedna wersja po prostu nas przegapiła, podczas gdy inna mogłaby nas zauważyć.

Modele najnowszej generacji: OpenAI gpt-5.4 przez Responses API z narzędziem web_search, Anthropic claude-opus-4-6 z narzędziem web_search ograniczonym do pięciu wywołań na zapytanie, oraz Gemini 2.5 Flash z grounding Google Search. Uwaga: najnowszy poziom Gemini Pro (gemini-3.1-pro-preview) był niedostępny z powodu osiągniętego limitu wydatków projektu na koncie Google AI Studio — kwestię rozwiążemy w Tygodniu 2 i przełączymy się na poziom Pro.

Modele z najnowszej półki wykonały znacznie więcej pracy niż referencyjne. gpt-5.4 zacytował 14 źródeł w naszych trzech zapytaniach — niemal pięć razy więcej niż trzy źródła gpt-4o-search-preview. claude-opus-4-6 wykorzystał 20 cytowań w porównaniu z dziesięcioma claude-sonnet-4-6. Nowsze, bardziej zaawansowane modele szukały intensywniej, dłużej i w większej liczbie domen.

I nadal nie znalazły ani jednej wzmianki o Webappski.

To najsilniejszy możliwy sygnał baseline'u. Zero nie jest funkcją wybranego modelu, użytej powierzchni API ani konkretnego dostawcy. To strukturalna niewidoczność — marka jest faktycznie nieobecna w korpusie, z którego silniki AI wyciągają informacje dla tych zapytań. Nie ma żadnego sprytnego doboru modelu, który by nas odnalazł. Autorytet musimy zbudować sami.

Co dalej

Tydzień 2 to start prawdziwej pracy. Zespół opublikuje pipeline contentowy AEO, który dotąd czekał w wersjach roboczych. Rozpoczniemy też outreach do autorów rankingów SaaS-AEO, w których Webappski jest obecnie nieobecny — Discovered Labs, Team4 Agency, ABM Agency, Maximus Labs i Omnius. Cel dla Q3 (wertykali SaaS) jest konkretny: wylądować na jednej z tych pięciu list w ciągu czterech tygodni. To pojedyncze umieszczenie powinno wygenerować pierwszą mierzalną wzmiankę.

W przypadku Q1 (ogólne wyszukiwanie agencji) i Q2 (zapytanie o autorytet treści poradnikowych) droga jest dłuższa. Q1 wymaga obecności na bardziej autorytatywnych listach, które Claude i Gemini już cytują — Scrunch, Minuttia, ModernMarketingPartners. Q2 wymaga publikacji gościnnych na domenach, które silniki AI traktują jako autorytatywne dla treści typu how-to o AEO: cranseo.com, trueffle.com, RankMath i Prerender. Oba kierunki to praca na miesiące, nie tygodnie.

Nasza realistyczna prognoza na Tydzień 8 to 15-20% widoczności. Jeśli osiągniemy mniej, będzie to oznaczać, że problem jest głębszy niż brak backlinków i treści — a ta rozmowa będzie publicznie jeszcze ciekawsza niż obecna.

Metodologia

Co tydzień uruchamiamy trzy niemarkowe zapytania w pięciu silnikach AI. Trzy bezpośrednie testy API korzystają z najnowszych dostępnych modeli z włączonym web search: OpenAI gpt-4o-search-preview, Google Gemini 2.0 Flash z grounding oraz Anthropic Claude Sonnet 4.6 z web search. Dwa ręczne sprawdzenia platform odbywają się w Perplexity i Microsoft Copilot, w trybie incognito, bez zalogowanego konta — tak, by wyeliminować wpływ personalizacji na wyniki.

Rejestrujemy, czy webappski został wymieniony w treści odpowiedzi, czy domena marki pojawia się w cytowanych źródłach, na której pozycji znajduje się ewentualna wzmianka oraz jaki jest jej sentyment, jeśli istnieje. Wynik widoczności obliczamy jako procent z piętnastu wszystkich sprawdzeń, które zwróciły wzmiankę. Baseline Tygodnia 1 wynosi 0/15 = 0%. Każdy kolejny tydzień jest porównywany z tym dokładnym baseline'em, przy zachowaniu identycznych zapytań i tych samych silników.

Śledź AEO Visibility Challenge Webappski co tydzień, by zobaczyć całą serię. Opublikujemy każdy wynik — sukcesy, porażki, a zwłaszcza sprzeczności między tym, co mówią trackery, a tym, co silniki AI faktycznie zwracają.

← Powrót do wszystkich wpisów