Webseiten steuern KI Crawler neu: Trainingsbots blockieren Assistenzbots zulassen

Inhaltsverzeichnis

Wenn du mit Webseiten arbeitest oder einfach nur neugierig bist, wie Suchmaschinen und KI‑Bots das Internet durchsuchen, sind die neuesten Erkenntnisse aus dem Hostinger‑Report geradezu faszinierend. Das Unternehmen hat über 66 Milliarden Bot‑Anfragen auf mehr als 5 Millionen Webseiten untersucht. Das allein beeindruckt, aber die wahren Erkenntnisse liegen in den Mustern, die dabei sichtbar wurden. Während manche KI‑Crawlers inzwischen auf Widerstand stoßen, weiten andere ihre Reichweite fast unbemerkt aus. Ich habe mir die Ergebnisse genau angesehen und interpretiere sie hier mal etwas freier – nicht nur als nüchterne Zahlen, sondern als Zeichen für eine tiefere Veränderung im digitalen Ökosystem.

Wie Hostinger auf diese Zahlen kam

Die Basis der Analyse war ein riesiger Datenpool aus Serverlogs, in denen Hostinger jede einzelne Bot‑Anfrage protokolliert. Drei verschiedene Zeiträume von je sechs Tagen wurden ausgewertet. Dabei ließ sich nachvollziehen, wann, wie oft und welche Bots Webseiten besuchten. Damit es kein unüberschaubares Zahlenchaos gab, wurden alle Anfragen mit den Bezeichnungen des AI.txt‑Projekts abgeglichen. So konnte man genau unterscheiden, ob es sich um klassische Suchmaschinen, Trainings‑Crawler oder Assistenz‑Bots handelte.

Aus meiner Sicht ist das eine der saubersten Methoden, um realistische Zahlen zu bekommen. Es ist nicht bloß theoretisches Tracking auf einer Handvoll Domains, sondern echte Nutzungsdaten im globalen Maßstab. Und wenn man 66 Milliarden Zeilen Log‑Daten analysiert, bekommt man Muster zu sehen, die kein Tool der Welt fälschen könnte.

Das große Blockieren hat begonnen

Das augenfälligste Ergebnis: Webseitenbetreiber blockieren zunehmend Training‑Bots, also jene Programme, die Daten für das Trainieren von KI‑Modellen wie GPT sammeln. Unangefochtener Spitzenreiter unter den Betroffenen ist OpenAIs GPTBot. Noch vor Kurzem konnte dieser Bot über 80 Prozent aller erfassten Webseiten aufrufen; mittlerweile sind es gerade einmal rund 12 Prozent. Ein drastischer Absturz.

Auch andere Bots, vor allem der von Meta bekannte ExternalAgent, spüren die Effekte dieser digitalen Abwehrmechanismen. Hostinger verzeichnete deutliche Rückgänge in der Reichweite sämtlicher Trainings‑Bots. Die Ursache ist klar: Viele Webmaster haben in den letzten Monaten begonnen, diese User‑Agents aktiv aus ihren Seiten auszusperren – oft durch eine handvoll Zeilen in der robots.txt.

Ich kann das gut nachvollziehen. Seit der KI‑Welle 2023/2024 wird immer häufiger über die Frage diskutiert, ob diese Bots einen fairen Gegenwert bieten. Sie kopieren Inhalte, ohne dass daraus für die Seiten selbst Traffic entsteht. Für viele fühlt sich das an, als würde jemand das Wissen im Netz absaugen, um es hinter geschlossenen Modellen weiterzuverkaufen. Kein Wunder also, dass die Blockierlisten wachsen.

Assistenz‑Bots: willkommen statt gesperrt

Spannenderweise gilt dieser Protest nicht für alle KI‑Crawlers. Hostinger fand heraus, dass Assistenz‑Bots, also jene Systeme, die Informationen direkt für Suchfunktionen in KI‑Anwendungen abrufen, immer häufiger durchgelassen werden. Paradebeispiel: OpenAIs OAI‑SearchBot. Dieser spezielle Bot ist dafür verantwortlich, Inhalte zu sammeln, die später über ChatGPTs Suchfunktionen abrufbar sind. Seine Abdeckung liegt inzwischen bei etwa 55 Prozent – also auf mehr als der Hälfte aller analysierten Seiten.

Auch Apples und TikToks Crawler tauchten im Hostinger‑Datensatz überraschend häufig auf. TikTok erreichte zum Beispiel eine Abdeckung von rund 25 Prozent mit über einer Milliarde Anfragen. Diese Zahlen zeigen deutlich, dass Bots, die einem konkreten Nutzerzweck dienen, anders wahrgenommen werden: Sie bringen potenziell Besucher oder Sichtbarkeit, statt einfach nur Trainingsdaten zu ziehen.

Man muss bedenken, dass diese „Such‑Bots“ im Gegensatz zu Trainings‑Crawlers gezielt Inhalte abrufen, wenn ein Nutzer über eine KI‑Suche nach etwas fragt. Du kannst dir das so vorstellen, als würde jemand auf deiner Seite kurz vorbeischauen, um eine konkrete Antwort zu holen, statt alles zu kopieren. Vielleicht genau deshalb lassen viele Betreiber sie problemlos gewähren.

Suchmaschinen‑Crawler bleiben standhaft

Während sich im KI‑Segment einiges bewegt, zeigen die traditionellen Suchmaschinen erstaunliche Stabilität. Googlebot hielt über den gesamten Zeitraum eine Abdeckung um die 70 Prozent, Bingbot lag nur knapp darunter. Diese Konstanz ist kaum verwunderlich: Wer Google blockiert, verzichtet auf Sichtbarkeit im organischen Ranking, was kaum jemand riskieren möchte.

Insofern wird klar, dass sich die Machtverhältnisse verschieben. Google behält weiter seine technische Dominanz, aber neue „Suchebenen“ durch Chat‑Bots oder KI‑Assistenten entstehen parallel. Webmaster müssen also entscheiden, welche Art von Sichtbarkeit sie anstreben: klassisch über Suchergebnisse oder zusätzlich über KI‑Oberflächen, die Inhalte anders darstellen.

SEO‑Crawler auf dem Rückzug

Ein weiterer Punkt, den Hostinger beobachtet hat: selbst SEO‑Tools wie Ahrefs oder Semrush verlieren Reichweite. Ahrefs hält zwar mit rund 60 Prozent noch den größten Anteil, doch insgesamt ist das Segment rückläufig. Zwei Gründe sieht Hostinger selbst: Zum einen fokussieren diese Tools ihre Crawler inzwischen stärker auf aktive SEO‑Kunden. Zum anderen werden sie von Website‑Betreibern häufiger blockiert, weil sie große Ressourcen verbrauchen – insbesondere kleinere Seiten merken das über die Serverlast.

Ich erinnere mich gut, wie vor einiger Zeit Zahlen von Vercel herumgingen: GPTBot erzeugte innerhalb eines Monats teils hunderte Millionen Requests, was Bandbreitenkosten in die Höhe trieb. Das mag für große Domains nur lästig sein, aber für kleinere Unternehmen kann es handfeste wirtschaftliche Folgen haben.

Zwischen Kontrolle und Offenheit

Was mir an dieser Studie so gefällt, ist der Hinweis darauf, dass viele Webseitenbetreiber inzwischen differenzieren. Früher war das Motto meist „alle Bots willkommen“ oder „alle raus“. Jetzt zeichnet sich eine viel feinere Linie ab: Trainings‑Bots blockieren, Assistenz‑Bots zulassen. Damit behalten Webmaster die Kontrolle über ihre Inhalte und bleiben trotzdem für KI‑Suche sichtbar, die echte Besucher bringen kann.

Man könnte es als realistischen Kompromiss bezeichnen. Wer GPTBot ausschließt, verhindert, dass eigene Inhalte ungefragt in Sprachmodelle einfließen. Wer hingegen OAI‑SearchBot oder Apple‑Bot zulässt, ermöglicht es, in neu entstehenden KI‑Suchsystemen aufzutauchen, womit die Reichweite potenziell steigt.

Wie du das selbst überprüfen kannst

Hostinger schlägt vor, regelmäßig in den eigenen Server‑Logs nachzusehen, welche Bots tatsächlich auf die Seite zugreifen. Viele sind erstaunt, wenn sie dort neben Googlebot plötzlich Namen wie „ClaudeBot“, „CCBot“ oder „Amazonbot“ finden. Je nach Strategie kannst du dann gezielt blocken oder erlauben. CDN‑Systeme wie Cloudflare oder Akamai machen diese Verwaltung mittlerweile kinderleicht.

Aus meiner Erfahrung lohnt sich das: Einerseits schützt du deine Bandbreite vor unnötiger Last, andererseits sicherst du, dass wichtige Bots – also jene mit direkter Suchfunktion – nicht versehentlich ausgesperrt werden. Wer es genauer machen will, kann mit einem eigenen ai.txt oder detaillierten robots.txt-Regeln arbeiten. So definierst du fein, welche Systeme Zugriff haben.

Ein Blick nach vorn

OpenAI selbst empfiehlt ausdrücklich, OAI‑SearchBot zu erlauben, wenn deine Inhalte in ChatGPTs Suchergebnissen erscheinen sollen. In ihrer Dokumentation erklären sie auch, dass dieser Bot streng die Anweisungen in robots.txt respektiert. Anders sieht es bei ChatGPT‑User aus – dieser Teil des Systems agiert stärker nutzergesteuert und wird deshalb nicht immer durch dieselben Regeln eingeschränkt.

Für Betreiber bedeutet das: Du kannst deine Inhalte bewusst sichtbar machen, ohne alle Tore für Trainingszwecke zu öffnen. Das ist eine spannende Wendung, weil es den Einfluss auf KI‑Ökosysteme wieder ein Stück weit in die Hände der Publisher legt. Wenn genug Webseiten entscheiden, welche Bots willkommen sind, entsteht ein neues Gleichgewicht zwischen Datengebern und Modellentwicklern.

Was das Ganze für SEO bedeutet

Viele Kollegen vergleichen die aktuelle Situation mit den frühen 2000ern, als Webmaster erst lernen mussten, wie Suchmaschinen funktionieren. Heute wiederholt sich diese Dynamik auf KI‑Ebene: Manche experimentieren, andere sperren alles. Langfristig wird sich wahrscheinlich ein Standard herausbilden, ähnlich wie bei Sitemap‑ oder Schema‑Dateien. Vielleicht heißt es bald selbstverständlich: „Hast du schon deinen ai.txt gepflegt?“

Ich persönlich glaube, dass KI‑Suchfunktionen – also ChatGPT, Perplexity, Apple Intelligence oder auch TikToks interne Suche – mittelfristig so wichtig werden wie klassische Google‑Ergebnisse. Deshalb wäre es riskant, sie komplett zu blockieren. Eine differenzierte Strategie ist hier aus meiner Sicht der sinnvollste Weg: Blockiere, was dich belastet; ermögliche, was dich sichtbar macht.

Praktische Schritte

  • Überprüfe wöchentlich deine Server‑ oder CDN‑Logs, um neue Bot‑Namen zu erkennen.
  • Nutze Listen verifizierter KI‑User‑Agents – mehrere Entwicklergemeinschaften pflegen sie laufend.
  • Teste den Traffic nach Änderungen, um sicherzugehen, dass organische Besucher nicht betroffen sind.
  • Halte deine robots.txt sauber: einfache Strukturen, keine widersprüchlichen Regeln.

Das mag banal klingen, doch in der Praxis sind es genau diese Routinen, die entscheiden, ob du online gefunden wirst oder im Datenrauschen untergehst.

Fazit: Eine neue Balance im Web

Am Ende zeigt der Hostinger‑Bericht sehr schön, wie das Internet derzeit sein Gleichgewicht neu justiert. Webseitenbesitzer ziehen Grenzen, KI‑Unternehmen reagieren, und irgendwo dazwischen entsteht eine neue Art digitaler Zusammenarbeit. Der Kernsatz, der bei mir hängen blieb: „Nicht alle Bots sind Gegner – manche sind Türöffner.“

Wenn du also das nächste Mal in deine Logfiles blickst und wieder eine Flut von Crawlern siehst, überlege kurz: Welcher davon arbeitet eigentlich für dich – und welcher nur für sich selbst? Genau diese Unterscheidung wird über die Zukunft deiner Sichtbarkeit entscheiden. Und vielleicht ist das die wichtigste Erkenntnis dieser ganzen Debatte: Wir haben wieder Gestaltungsspielraum im scheinbar automatisierten Online‑Ökosystem – man muss ihn nur nutzen.

Unsere Leistungen:

Das könnte Dich auch interessieren:

Aktuelles aus unserem Ratgeber:

Affiliate-Links: Für einige der unten stehenden Links erhalte ich möglicherweise eine Vergütung als Affiliate, ohne dass dir dadurch Kosten entstehen, wenn du dich für den Kauf eines kostenpflichtigen Plans entscheidest.

Bild von Tom Brigl, Dipl. Betrw.

Tom Brigl, Dipl. Betrw.

Ich bin SEO-, E-Commerce- und Online-Marketing-Experte mit über 20 Jahren Erfahrung – direkt aus München.
In meinem Blog teile ich praxisnahe Strategien, konkrete Tipps und fundiertes Wissen, das sowohl Einsteigern als auch Profis weiterhilft.
Mein Stil: klar, strukturiert und verständlich – mit einem Schuss Humor. Wenn du Sichtbarkeit und Erfolg im Web suchst, bist du hier genau richtig.

Disclosure:  Some of the links in this article may be affiliate links, which can provide compensation to me at no cost to you if you decide to purchase a paid plan. These are products I’ve personally used and stand behind. This site is not intended to provide financial advice and is for entertainment only. You can read our affiliate disclosure in our  privacy policy .