Wie Künstliche Intelligenz ihre Informationsquellen auswählt – Ein datenbasierter Blick hinter die Kulissen
Je stärker KI-generierte Antworten den Informationsfluss im Web beeinflussen, desto entscheidender wird die Frage: Warum werden manche Seiten zitiert – und andere ignoriert? Neue Analysen von über 20.000 Quellenverweisen aus führenden Sprachmodellen zeigen deutliche Muster: Nur wenige Domains beherrschen die Aufmerksamkeit der KI, während Struktur, Texttiefe und Position der Inhalte darüber entscheiden, ob man überhaupt wahrgenommen wird.
Warum sich die meisten Zitate auf wenige Domains konzentrieren
Die Untersuchung zeigt ein Winner-takes-most-Prinzip: Rund 30 Websites vereinen tatsächlich zwei Drittel aller KI-Verweise auf sich. Damit ähneln die Mechanismen der KI-Auswahl klassischen Suchmaschinen, auch wenn die Verteilung etwas gleichmäßiger ausfällt.
Am deutlichsten ist diese Dominanz in Bildungs- und Kryptowährungs-Themen. Während in Medizin und SaaS-Bereichen noch viele verschiedene Anbieter zitiert werden, konkurrieren im Bildungssektor nur wenige feste Größen um Sichtbarkeit – und halten diese nahezu monopolartig.
Was Fachbereiche unterscheidet
- Bildung: Extreme Konzentration – ein kleiner Kreis von Bildungsportalen deckt fast 60 % aller Nennungen ab.
- Krypto: Technische Nischenseiten mit soliden Dokumentationen gelten als maßgebliche Quellen.
- Finanzen: Spezialisierte Informationsseiten zu Finanzberater:innen oder Produkten teilen sich ein moderates Mittelfeld.
- Gesundheitswesen: Hohe Vielfalt, was Chancen für neue Akteure eröffnet.
- SaaS & HR Tech: Breite Streuung der Zitate bei geringer Dominanz einzelner Plattformen.
Zentrale Erkenntnis: Nicht Domain-Autorität allein entscheidet über Erwähnungen, sondern thematische Breite und inhaltliche Struktur. Wer mehrere verwandte Fragen auf einer Seite beantwortet, verbessert seine Chancen, von KI-Systemen gefunden zu werden.
Textlänge und Tiefe – wann Quantität Qualität ersetzt
Eine der auffälligsten Korrelationen betrifft die Länge des Inhalts: Ab etwa 10.000 Wörtern steigt die Wahrscheinlichkeit einer KI-Zitation deutlich an. Inhalte unter 1.000 Wörtern schneiden in allen Branchen unterdurchschnittlich ab.
- Finanzbranche: Prägnanz schlägt Länge – komprimierte, vertrauenswürdige Quellen erzielen bessere Werte als ausführliche Leitfäden.
- Bildung & Technologie: Umfangreiche Erklärtexte erzielen mit Abstand die meisten Erwähnungen.
- SaaS: Hier zählen Struktur, Listen und Vergleichstabellen stärker als reine Wortzahl.
Das Fazit: Mehr Worte lohnen sich nur, wenn sie Gehalt transportieren. Werblöcke und Wiederholungen reduzieren die Zitationswahrscheinlichkeit, da Modelle irrelevante Passagen löschen oder überspringen.
Warum die meisten Seiten nur einmal vorkommen
Fast 60 % aller zitierten URLs tauchen lediglich in einer einzigen Antwort auf. Nur wenige Seiten erscheinen regelmäßig in mehreren Themenkontexten. Diese hochfrequenten Quellen teilen einige Eigenschaften:
- Sie bündeln mehrere Nutzungsabsichten („Was ist …?“, „Wie funktioniert …?“, „Beste Tools …“) in einem Dokument.
- Sie verwenden klare Strukturierung – Überschriften, Inhaltsverzeichnis, Tabellen.
- Aktualitätssignale wie Jahreszahlen oder Versionshinweise verstärken die Relevanz.
Anders gesagt: Ein langlebiger Evergreen-Inhalt mit 15 Unterfragen ist wertvoller als 15 einzelne Artikel.
Die Bedeutung der Seitenstruktur
Eine Detailanalyse zeigt, dass rund 40 % der Zitate aus dem oberen Drittel einer Seite stammen. Der mittlere Abschnitt (10–30 %) erhält die höchste Aufmerksamkeit; am Ende lesen Sprachmodelle kaum weiter. Der klassische Schlussabsatz – „Fazit“ oder „Zusammenfassung“ – wird in weniger als 5 % der Fälle referenziert. Wer also wichtige Zahlen, Definitionen oder Aussagen am Seitenende versteckt, verliert aus KI-Sicht deren Wert.
Branchenabhängige Unterschiede verstärken diese Tendenz: Finanzartikel platzieren Kerninformationen ganz vorn, während Lehrinhalte häufig erst nach Einleitung und Kontext die entscheidenden Passagen liefern.
Strategische Empfehlungen für Autoren und SEOs
- Mehrere Fragen pro Seite beantworten. Cluster-Strategien ersetzen das alte „1 Keyword = 1 Page“-Denken.
- Wichtige Daten früh im Text unterbringen. KI-Modelle lesen nicht bis zum Ende.
- Seitenarchitektur nach Themenfamilien planen. Inhalte zu einem übergeordneten Thema verknüpfen, um semantische Nähe aufzubauen.
- Differentielle Taktiken je Branche anwenden: Bildung und Technologie profitieren von Tiefe, Finanzen von Übersichtlichkeit.
Wie diese Erkenntnisse gewonnen wurden
Die Basis dieser Untersuchung bilden mehrere zehntausend analysierte KI-Zitate aus über einer Million generierter Antworten unterschiedlicher Sprachmodelle. Mithilfe semantischer Analysen wurde ermittelt, welche Textstellen Modelle tatsächlich zitieren. Zusätzlich wurden Sektorunterschiede und Seitenarchitekturen (Überschriftenebenen, Textvolumen, Entitäten) berücksichtigt, um die strukturellen Erfolgsfaktoren zu isolieren.
Schlusswort
KI-Systeme agieren nicht willkürlich – sie bevorzugen Seiten mit hoher Themenkohärenz, klarer Struktur und informationsstarker Einleitung. Wer Sichtbarkeit in zukünftigen LLM-Antworten anstrebt, muss Inhalte nicht nur für Menschen, sondern auch für algorithmische „Leser“ gestalten: präzise gegliederte, umfassende und thematisch konsistente Artikel, die Mehrwert auf den ersten Blick liefern.