Google hat kürzlich seine Dokumentation zu **Googlebot und den Dateigrößenbeschränkungen** überarbeitet – ein Thema, das zwar technisch wirkt, aber für SEO-Profis und Website-Betreiber ziemlich relevant ist. Ich habe mir das Update genauer angesehen, um zu verstehen, was sich wirklich geändert hat, was lediglich präzisiert wurde, und warum Google diese Anpassung gerade jetzt vornimmt.
Im Kern geht es darum, dass Google **klarer zwischen allgemeiner Crawling-Infrastruktur und den spezifischen Funktionen des Googlebots** unterscheidet. Diese Trennung ist nicht nur semantisch, sondern zeigt, wie Google seine Dokumentation aufräumt, um langfristig mehr Transparenz in komplexe technische Prozesse zu bringen.
—
Warum Google die Dokumentation überarbeitet hat
Wenn du schon länger mit SEO arbeitest, weißt du, dass Googlebot eine ganze Menge an Informationen einsammelt: HTML-Dateien, CSS, JavaScript, PDFs und viele weitere Dateitypen, die für die Indizierung von Websites wichtig sind.
Bis jetzt war die Info zu den **Dateigrößenlimits** allerdings etwas verstreut – oder besser gesagt: nicht ganz logisch platziert. Google hat diese Angaben früher auf der Googlebot-Seite untergebracht, obwohl dieselben Grenzen auch für andere hauseigene Crawler gelten, etwa für Shopping, News oder Gemini.
Genau das hat Google jetzt korrigiert.
Die Standardlimits wurden in die **allgemeine Dokumentation über die „Google Crawling Infrastructure“** verschoben. Damit stellt Google klar: Diese Datei‑ und Ressourcenbegrenzungen sind **nicht exklusiv für den Googlebot**, sondern gelten grundsätzlich für alle internen Crawler und Fetcher.
Parallel dazu hat Google die **Googlebot-Seite** angepasst, um präziser darzulegen, welche spezifischen Limits bei der Indexierung über den klassischen Suchcrawler gelten. Das ist mehr als nur Ordnungsliebe – es hilft dabei, Missverständnisse zu vermeiden, wenn Entwickler oder SEOs Fehlerquellen bei Renderings und langsamen Crawls suchen.
—
Die neuen (beziehungsweise präzisierten) Werte
Um es konkret zu machen, hier das, was Google jetzt offiziell dokumentiert:
- 15 MB ist die Standardgröße für alle Crawler und Fetcher in Googles Infrastruktur.
- 2 MB ist das Limit für HTML und ähnliche textbasierte Dateien, wenn der Googlebot sie für die Suche verarbeitet.
- 64 MB gilt als Limit für PDF-Dateien, die Googlebot beim Crawling berücksichtigt.
Jede Ressource, die innerhalb des HTML-Dokuments referenziert wird – also **CSS, Skripte oder Mediendateien** – wird unabhängig voneinander heruntergeladen und bewertet. Das bedeutet: Wenn dein HTML‑Code größer als zwei Megabyte ist, **kann es durchaus sein, dass Googlebot Inhalte am Ende des Dokuments gar nicht mehr berücksichtigt**. Nicht neu, aber jetzt besser erklärt.
Ich finde diese Unterscheidung besonders wichtig, weil sie häufig zu Missverständnissen geführt hat. Einige SEOs haben angenommen, dass das 15‑MB‑Limit automatisch auch für HTML gilt. Das stimmt so nicht. Google sieht hier klar unterschiedliche Grenzen – eine für den allgemeinen Crawler-Stack und eine für den Bot, der speziell für die Suchindizierung gedacht ist.
—
Kein neues Verhalten – nur klarere Kommunikation
Google war ausdrücklich bemüht, klarzustellen, dass es sich hierbei **nicht um eine algorithmische Änderung oder Verhaltensänderung** handelt, sondern um eine reine Dokumentationsbereinigung.
Und ehrlich gesagt – das merkt man, wenn man den Ablauf verfolgt: Schon **2022** wurde das 15‑MB‑Limit erstmals dokumentiert. Damals bestätigte John Mueller, dass diese Grenze schon seit Jahren besteht, Google sie aber bisher nie öffentlich irgendwo vermerkt hatte. Jetzt wurde das Ganze lediglich neu sortiert.
Der Nebeneffekt? Weniger Verwirrung und ein besserer Überblick für technisch versierte Anwender. Trotzdem ist die Anpassung durchaus interessant, weil sie zeigt, wie stark Google seine Dokumentationsstruktur modernisiert. Früher war fast alles in der Search Central angesiedelt, aber mittlerweile rutscht vieles in ein eigenständiges Crawling-Dokumentationszentrum.
Das ist sinnvoll – Googles Crawler agieren längst nicht nur für die Websuche. Sie durchforsten Daten für News, Shopping, Bilder, Gemini (also AI-generierte Suchoberflächen) und andere Dienste. Das Zusammenlegen der Grundlagen in einem eigenen Bereich macht alles konsistenter.
—
Ein Blick hinter die Kulissen: Warum das wichtig ist
Ich behaupte: Wer intensiv technische SEO betreibt, sollte diesen scheinbar kleinen Schritt nicht unterschätzen. Denn gerade bei **seitenstarken Domains oder sites mit sehr viel eingebettetem Code** kann es durchaus passieren, dass nur ein Teil des HTML tatsächlich analysiert wird.
Wenn du also große Single‑Page‑Applications oder wuchtige E‑Commerce‑Templates hast, kann ein Übermaß an Inline‑Skripten oder Endlos‑Kommentaren am Codeende zu Informationsverlust beim Crawling führen.
Google dokumentiert jetzt also klarer, **an welcher Stelle der Crawler aufhört zu lesen** – etwas, das zuvor oft als Trial‑and‑Error‑Erfahrung gehandhabt wurde. In der Praxis kannst du daraus zwei wichtige Schlüsse ziehen:
– **Achte auf Dateigröße:** Komprimiere HTML, minifiziere CSS/JS, räume ungenutzten Code auf. Was oberhalb der 2 MB‑Grenze liegt, wird ignoriert.
– **Strukturiere kritisch wichtige Inhalte vorn:** Das betrifft Navigation, strukturierte Daten, interne Verlinkungen und Keywords. Alles, was „unten“ steht, kann Google eventuell nicht mehr erfassen.
—
Wie sich die Dokumentationsstrategie entwickelt
Mir fällt auf, dass Google seit Ende 2025 immer stärker daran arbeitet, seine technische Infrastruktur-Dokumentation neu aufzubauen. Im November 2025 wurde ein ganzes Set an Inhalten von **Search Central auf die neue Plattform „Google Crawling Infrastructure“** übertragen.
Im Dezember folgten Themen wie **facettierte Navigation** und **Crawl-Budget‑Optimierung** – Bereiche, die bisher in SEO-Guides versteckt waren.
Der Gedanke dahinter ist nachvollziehbar: Crawling bildet längst die Basis vieler Google-Produkte – nicht nur der klassischen Suche. Und je vielfältiger diese Tools werden, desto wichtiger ist eine **einheitliche Referenzbasis**.
Ich vermute (und das ist natürlich meine persönliche Einschätzung), dass Google in Zukunft dort auch neue Crawler-Typen offiziell dokumentiert, zum Beispiel spezialisierte „fetcher“ für datengetriebene KI‑Modelle oder Knowledge Graph‑Aktualisierungen.
—
Was du aus diesem Update konkret mitnehmen kannst
Wenn du Websites betreibst oder betreust, sind ein paar Punkte ab sofort besonders relevant:
1. **Die 2 MB‑Regel ist verbindlich.**
Du solltest deine HTML-Ausgabe regelmäßig prüfen – nicht nur auf Ladezeit, sondern auch auf Dateigröße. Selbst wenn deine Seite rasend schnell lädt, kann sie zu groß für den kompletten Crawl sein.
2. **PDF‑Inhalte bleiben eine Ausnahme.**
PDFs bekommen ein relativ großzügiges Limit (64 MB), wohl weil sie mehr statischen Inhalt enthalten. Trotzdem solltest du die Dateigröße im Blick behalten – vor allem, wenn du viele eingebettete Bilder einsetzt.
3. **Behalte mehrere Ebenen im Auge.**
Eine Datei kann aus Sicht des allgemeinen Crawlers akzeptiert werden, während aus Sicht des Googlebots andere, strengere Regeln gelten. Diese Differenzierung ist neu dokumentiert, nicht neu implementiert – aber du solltest sie kennen.
4. **Vertraue nicht auf alte Quellen.**
Viele SEO‑Blogs oder Google-Hilfeforen zitieren noch die früheren 15 MB‑Angaben als allgemeingültig. Diese gelten zwar weiterhin, aber eben nicht auf jeder Ebene. Es lohnt sich, bei der nächsten technischen SEO‑Analyse auf die korrekte Quelle zu achten.
—
Ein Schritt in Richtung mehr Transparenz
Ich empfinde es als gutes Zeichen, dass Google seine eigene Dokumentation so sorgfältig neu strukturiert. Das Unternehmen könnte diese Details ja einfach intern belassen, aber man scheint Wert darauf zu legen, dass Entwickler nachvollziehen können, **warum bestimmte Crawls fehlschlagen oder scheinbar unvollständig wirken**.
Natürlich – es bleibt ein wenig Interpretation nötig.
Die Dokumente erklären zwar, wo welche Limitierungen gelten, aber **nicht, wie Crawler intern priorisieren**, wenn es um das Abschneiden von Inhalten geht. Werden HTML‑Tags irgendwann abrupt gekappt? Oder stoppt Google vor einem logischen Blockschluss? Das bleibt offen.
Aber ehrlich: Diese Art „Unschärfe“ gehört bei Google‑Dokumentationen fast schon dazu. Trotzdem hilft das Update enorm dabei, Abläufe klarer zu erfassen – und das ist für uns als SEOs Gold wert.
—
Mein Fazit
Die Überarbeitung der Googlebot‑Dokumentation ist kein spektakuläres Update, aber ein wichtiges Zeichen für alle, die professionell mit Skalierung und Crawlbarkeit umgehen. Google hat:
– die allgemeinen Crawl‑Limits zentralisiert,
– Googlebot‑spezifische Details ergänzt,
– und damit ein gutes Stück Ordnung ins eigene Ökosystem gebracht.
Langfristig deutet das darauf hin, dass diese Dokumentationsplattform in Zukunft **mehr technisches Know‑how zu allen Google‑Bots** bündeln wird – weit über die klassische Websuche hinaus.
Wenn du also in der Suchmaschinenoptimierung unterwegs bist oder deine Website technisch im Griff behalten willst, lohnt es sich, diese neuen Dokumentationsseiten als feste Referenz in deinen Workflow aufzunehmen. Denn wenn Google beginnt, seine eigenen Strukturen neu zu benennen, weißt du: Das Fundament bewegt sich – und wer das früh versteht, bleibt vorne dran.