AEO Visibility Challenge — Woche 1: 0% Sichtbarkeit. So sieht ein ehrlicher Start bei null aus
Webappski hat sich gerade auf Answer Engine Optimization spezialisiert. Bevor wir behaupten, andere Marken für KI sichtbar machen zu können, haben wir uns selbst gemessen. Das Ergebnis: null Erwähnungen in neun API-Aufrufen und sechs manuellen Plattform-Checks. Das ist Woche 1 einer öffentlichen Serie, die zeigt, wie eine AEO-Agentur ihre KI-Sichtbarkeit von absolut null aus aufbaut.

Webappski ist eine AEO-Agentur. In Woche 1 unserer öffentlichen KI-Sichtbarkeits-Challenge haben wir unsere Marke in fünf Systemen getestet: ChatGPT, Gemini, Claude, Perplexity und Microsoft Copilot — drei nicht-markenbezogene Suchanfragen pro System, fünfzehn Checks insgesamt. Das Ergebnis: null Erwähnungen. Keine einzige KI-Engine weiß bisher, dass es uns gibt. So sieht ein ehrlicher Tag eins für eine Agentur aus, die sich gerade auf Answer Engine Optimization spezialisiert hat.
Am 7. April 2026 hat unser Team die erste Messung der Sichtbarkeit von webappski.com im Ökosystem der KI-Suche durchgeführt. Wir haben es genau so gemacht, wie wir es für Kunden tun — direkte API-Aufrufe an OpenAI, Google und Anthropic, ergänzt durch manuelle Checks in Perplexity und Microsoft Copilot. Drei Testanfragen wurden so gewählt, dass sie zu den drei Vertikalen passen, in denen wir tätig sind: kommerzielle Suche nach einer Agentur, informative How-to-Anfrage und vertikale Suche für die SaaS-Branche.
Dabei haben wir es nicht belassen. Webappski haben wir auch durch zwei der bekanntesten externen AEO-Messwerkzeuge laufen lassen: HubSpot AEO Grader und Ahrefs Free AI Visibility. Was wir über diese Tools selbst gelernt haben, ist in mancher Hinsicht wichtiger als das, was wir über unsere eigene Sichtbarkeit erfahren haben.
Die drei Testanfragen
Die Testanfragen wurden so gewählt, dass sie reale Suchintentionen in den drei Vertikalen von Webappski abbilden: Beauftragung einer Agentur (kommerzielle Absicht), Autorität bei How-to-Inhalten und vertikale Spezialisierung auf SaaS. In keiner davon kommt unser Markenname vor. Das ist beabsichtigt — eine markenbezogene Anfrage beweist nichts, denn jeder wird zitiert, wenn der eigene Name das Suchwort ist.
- Q1 (kommerzielle Absicht): best answer engine optimization agencies 2026
- Q2 (informative Absicht): how to make my website visible in ChatGPT and Perplexity
- Q3 (vertikale Absicht): AEO services for B2B SaaS companies
Die Ergebnisse der direkten API-Aufrufe
Jede der drei Anfragen haben wir in drei KI-Engines mit deren offiziellen APIs ausgeführt: OpenAI (gpt-4o-search-preview), Google Gemini (gemini-2.0-flash mit Grounding) und Anthropic Claude (claude-sonnet-4-6 mit Web Search). Insgesamt neun API-Aufrufe. Das Ergebnis war in jedem einzelnen Fall identisch: webappski.com tauchte weder im Antworttext auf, noch in den zitierten Quellen, noch irgendwo sonst in einer der neun Antworten.
Stattdessen sahen wir die Namen jener Agenturen, die diese Anfragen bereits dominieren. First Page Sage erschien als Top-Empfehlung in zwei Engines (Claude und Gemini) für die kommerzielle Anfrage. NoGood tauchte in zwei Engines auf und ist insofern bemerkenswert, als sie mit Goodie eine eigene AEO-Plattform aufgebaut haben. iPullRank war ebenfalls in zwei Engines vertreten. Die übrigen Agenturen, die in unseren neun API-Antworten erwähnt wurden, waren Omnius, House of Growth, Avenue Z, Minuttia, Searchtides, Amsive, LSEO, WebFX, Ignite Visibility, Victorious und SmartSites.
Bei der vertikalen SaaS-Anfrage zeigte sich eine völlig andere Liste: Omnius (London, SaaS-fokussiert), XEO.works, Online Optimism, dazu Zitate aus fünf SaaS-AEO-Listenartikeln auf Discovered Labs, Team4 Agency, ABM Agency, Maximus Labs und dem Omnius-Blog. In allen fünf Listen war Webappski nicht vertreten. Genau diese Abwesenheit ist die handfesteste Erkenntnis aus Woche 1: Es gibt fünf bestehende Listen, in denen wir mit einer einzigen Aufnahme sofort messbare Sichtbarkeit erreichen würden.
Die manuellen Plattform-Checks
Direkter API-Zugang ist nicht für jeden KI-Assistenten verfügbar, den unsere potenziellen Kunden nutzen. Perplexity behält den API-Zugang Pro-Abonnenten vor, und Microsoft Copilot bietet überhaupt keine öffentliche Consumer-API. Aus diesem Grund hat das Team beide Plattformen manuell geprüft — jede in einem Inkognito-Fenster geöffnet, dieselben drei Anfragen ausgeführt und die Antworten sorgfältig gelesen.
Perplexity lieferte null Erwähnungen über alle drei Anfragen hinweg. Microsoft Copilot lieferte null Erwähnungen über alle drei Anfragen hinweg. Damit kam der manuelle Zähler auf null von sechs. In Verbindung mit den neun API-Checks ergibt sich für Woche 1 ein finales Ergebnis von null von fünfzehn — exakt 0%.
Anschließend haben wir die Tracker selbst getestet
Mit den harten Daten direkt aus den KI-Engines haben wir Webappski durch zwei populäre externe AEO-Messwerkzeuge laufen lassen, um zu sehen, ob sie mit der Realität übereinstimmen. Sie taten es nicht. Und die Art und Weise, wie sich beide Anwendungen von der Realität entfernt haben, erwies sich als wichtigste Lektion der gesamten Woche.
HubSpot AEO Grader

HubSpot lieferte folgende AEO-Gesamtwerte: 28/100 für OpenAI, 34/100 für Perplexity und 44/100 für Gemini. Das Ergebnis für Gemini kam sogar mit einem grünen Status: 'You are on the right track.' Brand Sentiment wurde mit 19/40, 18/40 bzw. 26/40 bewertet. Share of Voice für Gemini lag bei 7/10.
Diese Zahlen passen nicht zu dem, was wir gerade direkt beobachtet haben. Fünf unabhängige Quellen — drei direkte API-Tests und zwei manuelle Plattform-Checks — lieferten null Erwähnungen. Warum zeigt HubSpot Webappski also auf der halben Höhe der AEO-Skala, wobei Gemini angeblich 'on the right track' sein soll? Drei Faktoren erklären die Diskrepanz am wahrscheinlichsten.
- Der Grader nutzt einen engen geografischen und kategorischen Filter. Die Ergebnis-URL enthält die Parameter ?geography=Europe&productsServices=services&industry=AEO. In dieser engen Nische erhält jede Webseite mit den technischen AEO-Grundlagen — llms.txt, Schema.org, gut strukturierte Service-Seiten — einen relativ hohen Relativwert. Der Grader misst keine tatsächlichen KI-Erwähnungen. Er misst eher, ob die Webseite technisch dafür vorbereitet ist, überhaupt gemessen werden zu können.
- Es ist Teil eines breiteren Produkt-Ökosystems. Der AEO Grader ist ein kostenloses Einstiegswerkzeug, das neben den kommerziellen Angeboten von HubSpot existiert, und dieser Kontext beeinflusst seine Bewertungslogik. Ein Wert, der sagt 'du hast Verbesserungspotenzial', ist ein deutlich einladenderer Gesprächseinstieg als 'du bist auf null' oder 'du bist perfekt' — und diese Tendenz zu mittleren Werten erklärt am wahrscheinlichsten, warum unsere Zahlen komfortabel über null statt direkt darauf gelandet sind.
- Brand Recognition ist die Metrik, die der Wahrheit am nächsten kommt. In allen drei Engines bewertete HubSpot die Brand Recognition von Webappski mit 1/20. Diese eine Metrik deckt sich mit dem, was wir direkt beobachtet haben: Die KI-Engines wissen praktisch nichts über uns. Die übrigen Metriken sind anders gewichtet und mildern das Gesamtbild ab.
Ahrefs Free AI Visibility

Ahrefs lieferte uns die genau gegenteilige Antwort: 'No AI mentions found for webappski.' Kein Wert. Keine Aufschlüsselung. Nur eine glatte Null mit einem Hinweis, auf Brand Radar zu wechseln, um mehr Details zu sehen.
Auf den ersten Blick stimmte Ahrefs mit unseren harten Daten überein — fünf Quellen sagten null, und Ahrefs sagte ebenfalls null. Allerdings hat unser Team Ahrefs Free schon bei anderen Marken getestet, die in ihren jeweiligen Kategorien nachweislich erwähnt werden. Auch dort produzierte die kostenlose Version falsche Negative. Die ehrliche Schlussfolgerung lautet daher nicht, dass ein Tracker recht hat und der andere falsch liegt. Die ehrliche Schlussfolgerung lautet: Beide kostenlosen externen Tracker sollten als ungenaue Indikatoren betrachtet werden, nicht als Messstandards. HubSpot tendiert dazu, Marken oberhalb ihrer tatsächlichen Sichtbarkeit zu bewerten, Ahrefs Free unterhalb. Keiner von beiden eignet sich als alleinige Wahrheitsquelle.
Was wir in dieser Woche gelernt haben
Die wichtigste Erkenntnis aus Woche 1 ist nicht das Ergebnis selbst, sondern der Widerspruch zwischen den Messwerkzeugen. HubSpot zeigte 28-44 von 100. Ahrefs zeigte null. Die Realität, fünffach unabhängig gemessen, zeigte ebenfalls null. Zwei kostenpflichtige Drittanbieter-Tools, zwei völlig unterschiedliche Geschichten — und keine davon entsprach dem, was die KI-Engines tatsächlich zurückgeben, wenn unsere potenziellen Kunden sie befragen.
Webappski hat sich gerade auf AEO ausgerichtet. Unsere technische Basis ist vorhanden — llms.txt, Schema.org-strukturierte Daten, Service-Seiten nach dem Answer-First-Prinzip. Unsere Content-Pipeline ist geschrieben, aber noch nicht veröffentlicht. Das bedeutet, unser Baseline lautet nicht 'wir haben alles, aber es funktioniert nicht'. Unser Baseline ist im wahrsten Sinne des Wortes Tag eins. Und genau darum geht es bei dieser öffentlich geführten Challenge: Schritt für Schritt zu zeigen, wie eine AEO-Agentur ihre Autorität von absolut null aus aufbaut, ohne Abkürzungen.
Die interessanteste Beobachtung zur Konkurrenz betrifft First Page Sage. Sie dominierten Q1 sowohl in Claude als auch in Gemini — nicht, weil ihre Inhalte die besten der Branche wären, sondern weil sie sich bereits 2023 als 'erste Agentur, die AEO-Dienstleistungen anbietet' positioniert haben. Sie haben die mentale Kategorie in den Trainingsdaten der KI-Modelle besetzt, bevor irgendjemand sonst es überhaupt versucht hat. Dieses Fenster ist mittlerweile teilweise geschlossen, aber nicht für jede Vertikale. Die Lektion: In der KI-Suche ist es wichtiger, eine Kategorie als Erster zu benennen, als die besten Inhalte zu produzieren.
Unser Team hat diese Challenge ins Leben gerufen, weil wir gegenüber Messwerkzeugen skeptisch geworden sind, deren Dashboards nicht dem entsprechen, was die KI-Engines tatsächlich liefern. Wenn deine Agentur behauptet, AEO zu betreiben, solltest du einen öffentlichen, nachprüfbaren Baseline haben. Andernfalls beruht deine AEO-Expertise auf demselben Fundament wie das Dashboard eines Drittanbieter-Tools — und wir wollten etwas Strengeres als das, denselben Standard, den wir an unsere Kundenarbeit anlegen.
Wir haben es zweimal getestet — und es zeigte immer noch null
Nach Abschluss der ersten Audit-Runde haben wir die Methodik um Dual-Model-Checks erweitert: Jeder KI-Anbieter wurde sowohl mit seinem aktuell verfügbaren neuesten Modell als auch mit einem stabilen Referenzmodell befragt. Damit wollten wir das Rauschen einzelner Modelle ausschließen — die Möglichkeit, dass eine bestimmte Modellversion uns einfach übersehen hat, während eine neuere uns möglicherweise gefunden hätte.
Getestete Latest-Tier-Modelle: OpenAI gpt-5.4 über die Responses API mit dem web_search-Tool, Anthropic claude-opus-4-6 mit dem web_search-Tool, beschränkt auf maximal fünf Aufrufe pro Anfrage, und Gemini 2.5 Flash mit Google Search Grounding. Hinweis: Geminis aktuelle Pro-Stufe (gemini-3.1-pro-preview) war wegen eines Spending-Caps unseres Google-AI-Studio-Projekts nicht verfügbar — diese Hürde lösen wir in Woche 2 und wechseln auf die Pro-Stufe.
Die Latest-Tier-Modelle haben deutlich mehr Arbeit geleistet als die Referenzen. gpt-5.4 zitierte 14 Quellen über unsere drei Anfragen hinweg — fast fünfmal mehr als die drei Quellen von gpt-4o-search-preview. claude-opus-4-6 nutzte 20 Zitate verglichen mit den zehn von claude-sonnet-4-6. Die neueren, leistungsfähigeren Modelle haben intensiver, länger und in mehr Domänen gesucht.
Und sie haben trotzdem keine einzige Erwähnung von Webappski gefunden.
Das ist das stärkste mögliche Baseline-Signal. Die Null ist keine Funktion des gewählten Modells, der genutzten API-Schnittstelle oder des befragten Anbieters. Sie ist strukturelle Unsichtbarkeit — die Marke ist im Korpus, aus dem KI-Engines für diese Anfragen ihre Informationen ziehen, schlicht nicht vorhanden. Es gibt keine clevere Modellauswahl, die uns hätte finden können. Die Autorität müssen wir selbst aufbauen.
Was als Nächstes passiert
Woche 2 beginnt die eigentliche Arbeit. Das Team wird die AEO-Content-Pipeline veröffentlichen, die bisher in den Entwürfen lag. Wir starten Outreach an die Autoren der SaaS-AEO-Listen, in denen Webappski derzeit fehlt — Discovered Labs, Team4 Agency, ABM Agency, Maximus Labs und Omnius. Das Ziel für Q3 (die SaaS-Vertikale) ist konkret: innerhalb von vier Wochen auf einer dieser fünf Listen landen. Diese einzelne Platzierung sollte unsere erste messbare Erwähnung erzeugen.
Bei Q1 (allgemeine Agentursuche) und Q2 (Anfrage zur How-to-Autorität) ist der Weg länger. Q1 erfordert die Aufnahme in die autoritativeren Listen, die Claude und Gemini bereits zitieren — Scrunch, Minuttia, ModernMarketingPartners. Q2 erfordert Gastbeiträge auf Domains, die KI-Engines als autoritativ für AEO-How-to-Inhalte einstufen: cranseo.com, trueffle.com, RankMath und Prerender. Beide Richtungen sind Monatsarbeit, keine Wochenarbeit.
Unsere realistische Prognose für Woche 8 lautet 15-20 % Sichtbarkeit. Erreichen wir weniger, bedeutet das, dass das Problem tiefer liegt als fehlende Backlinks und Inhalte — und dieses Gespräch wird öffentlich sogar noch interessanter zu führen sein als das aktuelle.
Methodik
Jede Woche führen wir drei nicht-markenbezogene Anfragen in fünf KI-Engines aus. Die drei direkten API-Tests verwenden die jeweils neuesten verfügbaren Modelle mit aktiviertem Web Search: OpenAI gpt-4o-search-preview, Google Gemini 2.0 Flash mit Grounding und Anthropic Claude Sonnet 4.6 mit Web Search. Die zwei manuellen Plattform-Checks erfolgen in Perplexity und Microsoft Copilot, im Inkognito-Modus, ohne eingeloggtes Konto — um den Einfluss von Personalisierung auf die Ergebnisse zu eliminieren.
Wir erfassen, ob webappski im Antworttext erwähnt wird, ob die Markendomain in den zitierten Quellen erscheint, an welcher Position eine eventuelle Erwähnung steht und welches Sentiment sie hat, falls vorhanden. Den Sichtbarkeits-Score berechnen wir als Prozentsatz der fünfzehn Gesamtprüfungen, die eine Erwähnung lieferten. Der Baseline für Woche 1 liegt bei 0/15 = 0%. Jede folgende Woche wird mit genau diesem Baseline verglichen, unter Verwendung exakt derselben Anfragen und exakt derselben Engines.
Verfolgen Sie die AEO Visibility Challenge von Webappski wöchentlich für die vollständige Serie. Wir veröffentlichen jedes Ergebnis — die Erfolge, die Rückschläge und vor allem die Widersprüche zwischen dem, was die Tracker sagen, und dem, was die KI-Engines tatsächlich zurückgeben.