Manchmal wirkt es fast wie Science-Fiction: Forscher, die versuchen, das Verhalten großer Sprachmodelle zu verstehen – und vielleicht sogar zu beeinflussen. Doch genau das haben einige Wissenschaftler geschafft. In einer neuen Untersuchung wurde gezeigt, wie sich Rankings von KI-Suchsystemen gezielt manipulieren lassen. Was zunächst wie ein theoretisches Gedankenspiel klingt, öffnet einen spannenden, aber auch etwas beunruhigenden Blick auf die Mechanismen von Modellen wie GPT‑4o, Claude 4 oder Gemini 2.5.
Ein ungewöhnlicher Versuch
Die Forscher wollten herausfinden, ob sich die Ausgaben von sogenannten generativen Suchmaschinen – also LLM-basierten Systemen, die Ergebnisse selbst formulieren oder gewichten – bewusst steuern lassen. Sie nannten ihren Ansatz **CORE (Controlling Output Rankings in Generative Engines)**. Klingt sperrig, aber der Gedanke ist einfach: Wenn wir verstehen, welche Faktoren den „Ranking-Entscheidungen“ eines Modells zugrunde liegen, können wir Texte so verändern, dass sie in Antwortlisten besser abschneiden. Ein wenig so, als würde man SEO für eine KI-Suchmaschine betreiben.
Dazu testete das Team vier bekannte Modelle direkt über deren API‑Schnittstellen: Claude 4, GPT‑4o, Gemini 2.5 und Grok‑3. Wichtig dabei: Sie nutzten keine Chat‑Interfaces wie ChatGPT oder Claude.ai, sondern arbeiteten mit den reinen Modellen – ohne Personalisierung oder Retrieval‑Mechanismen (die etwa aktuelle Daten aus dem Netz zurate ziehen würden). Das gewährleistet, dass wirklich nur der Einfluss des Texteingangs gemessen wird.
Warum das Ganze wichtig ist
Schon länger fragen sich Experten, wie KI‑gestützte Suchsysteme Inhalte „bewerten“. Das Ergebnis dieser Arbeit zeigt, dass sie durchaus auf bestimmte sprachliche Muster reagieren – und dass man diese Muster bewusst einsetzen kann. Für Unternehmen und SEO‑Profis eröffnet sich hier ein neues Feld: das **Prompt‑Optimizing** im Kontext von KI‑Rankings.
Wie nähert man sich einer Black Box?
Das Grundproblem der Forscher: Ein LLM ist ein Black Box‑System. Man sieht nur, was hineingeht (Text) und was herauskommt (Antworten oder Rankings), aber nicht, was dazwischen passiert. Also blieb nur der Weg des Experimentierens. Sie versuchten, das Verhalten der Modelle quasi rückwärts zu rekonstruieren – eine Art KI‑Reverse‑Engineering.
Dafür nutzten sie zwei Ansätze:
- Query‑based Solution – praktische Tests mit vielen kleinen Textänderungen direkt am Zielmodell.
- Shadow‑Model Solution – Nachbau des Zielmodells in vereinfachter Form, um damit Hypothesen zu prüfen.
Die Ergebnisse waren eindeutig: Der erste Ansatz, also wiederholtes Testen am Originalmodell, funktionierte weitaus besser. Rund 80 % der getesteten Inhalte ließen sich im Ranking deutlich verbessern – während der Shadow‑Model‑Ansatz nur etwa ein Drittel Erfolg zeigte. Trotzdem sind beide Methoden interessant.
Query‑based Solution: Optimierung durch Feedback‑Schleifen
Bei diesem Ansatz durften die Forscher die internen Gewichte der Modelle nicht einsehen. Sie behandelten das LLM also tatsächlich wie eine Black Box. Sie gaben eine Liste von Produktempfehlungen ein, änderten an einem Zieltext ein paar Wörter oder Absätze, schickten diesen erneut an das Modell und beobachteten – platzierte die KI den Text nun höher oder niedriger? Dieser Zyklus wurde dutzende Male wiederholt.
Dabei entschied man sich, **Texte zu erweitern**, nicht zu kürzen. Zwei Arten von Ergänzungen wurden getestet:
- Reasoning‑basiertes Schreiben – erklärende Formulierungen, die begründen, warum ein Artikel oder Produkt besonders gut passt.
- Review‑basiertes Schreiben – Beschreibungen im Stil echter Erfahrungsberichte oder Bewertungen.
Dann wurde beobachtet, welche Methode besser funktioniert. Spannend: Es gab kein universelles Erfolgsrezept. Während GPT‑4o und Claude 4 gut auf logisch‑erklärende Texte ansprachen, bevorzugten Gemini 2.5 und Grok‑3 eher „Review‑Sprache“, also emotionale, erfahrungsnahe Beschreibungen. Das deutet darauf hin, dass nicht alle Modelle dieselben semantischen Prioritäten haben – und sich gezieltes Feintuning durchaus lohnt.
Shadow Model: Der Versuch, eine KI nachzuahmen
Im zweiten Ansatz erstellten die Forscher ein Shadow Model – im Prinzip ein vereinfachtes neuronales Netz, das aus den beobachteten Ein‑ und Ausgaben der großen Modelle „lernte“. Das Ziel: zu verstehen, welche Texteigenschaften eine bessere Bewertung signalisieren.
Als Basis diente **Llama 3.1 8B**, ein offenes Sprachmodell, das sich für Experimente eignet. Überraschenderweise zeigte sich, dass Llama 3.1 die Ranking‑Tendenzen der großen Modelle recht gut reproduzieren konnte. Gegenüber GPT‑4o lag die Übereinstimmung bei etwa **4,5 von 5 Punkten** – also erstaunlich hoch. Ein Indiz dafür, dass viele LLMs ähnliche „Denkmuster“ folgen.
Allerdings hatte diese Methode Grenzen: Die Ergebnisse der Optimierungen über das Shadow‑Modell waren weniger stabil. Die Erfolgsquote beim „Hochpushen“ eines zuvor schlecht platzierten Textes lag nur bei etwa einem Drittel. Dennoch zeigte sich eine interessante Eigenschaft – selbst wenn das Schattenmodell das Original nicht exakt nachahmt, bleiben die Tendenzen erkennbar. Optimierungen „übertragen“ sich teilweise, wenn auch schwächer.
Drei Optimierungsstrategien im Test
Die Forscher nutzten anschließend drei unterschiedliche Strategien, um Texte zu verändern:
- String‑basiert: Sie modifizierten reine Zeichenfolgen. Klingt sinnlos – war aber ein Test, ob selbst scheinbar bedeutungslose Änderungen Einfluss haben. Und tatsächlich: zufällige Zeichenketten konnten das Ranking minimal verbessern, wenn sie bestimmte Muster bildeten. Mit etwa 33 % Erfolgsquote allerdings recht begrenzt.
- Reasoning‑basiert: Hier ging es darum, Absätze zu ergänzen, die logisch erläutern, warum etwas ein gutes Ergebnis für eine Suchanfrage sei.
- Review‑basiert: In diesem Fall wurden Texte im Stil von Nutzerbewertungen erzeugt – mitsamt Pseudo‑Erfahrungsberichten.
Reasoning vs. Review – zwei verschiedene Sprachwelten
Beim reasoning‑basierten Ansatz stützten sich die Autoren auf Prompts, die vom Modell verlangten, schrittweise zu argumentieren, warum ein bestimmtes Produkt oder Thema das beste Ergebnis sei. Diese Struktur führte oft zu höheren Rankings, aber sie wurde auch schnell erkannt: Fast 60 % der menschlichen Prüfer stuften solche Texte als „künstlich“ ein. Sie wirken eben analytischer als natürlich.
Das review‑basierte Schreiben war listiger. Hier wurden Texte in der Vergangenheitsform verfasst, etwa so: „Nach drei Monaten Nutzung bin ich überrascht, wie effizient…“. Dadurch wirkten sie wie echte Rezensionen. In vielen Fällen brachte genau diese Technik das Objekt der Studie vom letzten auf den ersten Platz – mit Erfolgswerten von **bis zu 83 %**. Der Nachteil: Es handelt sich offenkundig um Manipulation – solche „künstlichen Reviews“ sind ethisch fragwürdig. Aber in einer kontrollierten Studie diente das nur als Beweis, dass es funktioniert.
Wie solche Texte aufgebaut waren
Interessant war die Struktur, die sich bei erfolgreichen Texten wiederholte. Typische Abschnitte lauteten beispielsweise:
- Ein kurzer Überblick über den Produkttyp („Was ist ein Airfryer?“).
- Eine Erklärung der wichtigsten Funktionen.
- Ein Vergleich mehrerer Modelle.
- Kaufhinweise oder Preisstrategien.
- Ein abschließendes Fazit („Mein Sieger nach sechs Monaten Test…“).
Das erinnert stark an menschliche Rezensenten und folgt zugleich gängigen SEO‑Mustern wie denen, die Google in seinen Produktbewertungsrichtlinien beschreibt. Nur dass hier die Optimierung nicht für Google, sondern direkt für eine KI entwickelt wurde.
Was sich daraus lernen lässt
Auch wenn die Forschungen in kontrollierten Umgebungen stattfanden, lassen sich einige Grundideen ableiten. Ich persönlich finde drei Punkte besonders spannend:
1. Große Sprachmodelle haben messbare Stil‑Präferenzen
Ein Modell bevorzugt logische Argumentationen, ein anderes emotionale Bewertungen. Wenn du künftig für KI‑Antwortsysteme schreibst (etwa für „AI Overviews“ oder Chat‑Suche), kann es sich lohnen, den dominanten Schreibstil des jeweiligen Systems zu verstehen. Je „passender“ dein Text zur Argumentationsstruktur des Modells ist, desto höher die Chance, berücksichtigt zu werden.
2. Text‑Erweiterung zahlt sich aus
Das Hinzufügen von erklärenden oder vergleichenden Passagen verbessert häufig die Bewertung – vergleichbar mit dem klassischen SEO‑Rat, Inhalte nicht oberflächlich zu halten. Neue KI‑Suchformen belohnen offenbar Kontext, Begründung und Nützlichkeit stärker als reine Keyword‑Dichte.
3. Schattenmodelle als Experimentierfeld
Ein trainiertes Nebenmodell kann helfen, das Verhalten einer Black‑Box‑KI grob zu simulieren. Für Forschungszwecke ist das extrem wertvoll, denn es ermöglicht, Strategien gefahrlos zu testen. Dass Llama‑3.1 hier ähnlich wie GPT‑4o reagierte, zeigt, dass diese Systeme mehr Gemeinsamkeiten haben, als man vielleicht annimmt.
Ein paar persönliche Gedanken
Mich fasziniert an dieser Studie, dass sie die Grenzen zwischen SEO, Prompt‑Engineering und Psychologie verwischt. Letztlich geht es darum, wie man einer Maschine glaubhaft macht, dass ein Text besser oder relevanter ist – ein Gedanke, der dem traditionellen „Ranking‑Spiel“ erschreckend nahekommt, nur eben auf einer anderen Ebene.
Gleichzeitig stellt sich die ethische Frage: Wann wird Optimierung zu Manipulation? Review‑basierte Texte, die eine vermeintliche Nutzererfahrung vortäuschen, überschreiten diese Linie. Aber als analytisches Werkzeug ist das Experiment sehr wertvoll, denn es zeigt, welche Schwachstellen LLM‑Rankings besitzen.
Fazit
Zusammengefasst lässt sich sagen:
- KI‑Modelle wie GPT‑4o oder Claude 4 reagieren unterschiedlich auf Argumentations‑ und Bewertungsstile.
- Reine Textanreicherung – logisch oder emotional – kann das Ranking innerhalb eines KI‑Systems deutlich verändern.
- Mit einem Schattenmodell lässt sich dieses Verhalten sogar annähernd vorhersagen.
- Und letztlich ist das Verständnis solcher Mechanismen entscheidend, wenn man verstehen will, wie zukünftige KI‑Suchsysteme Informationen ordnen.
Was aus meiner Sicht bleibt, ist die Erkenntnis, dass Suchmaschinenoptimierung im Zeitalter generativer Modelle nicht endet, sondern nur ihren Fokus verschiebt – weg von Keywords, hin zu **Mustererkennung in Sprache und Argumentation**. Wer versteht, wie eine KI „denkt“, kann lernen, mit ihr zu sprechen – und vielleicht auch, in ihren Rankings zu bestehen.