Ich habe in den letzten Wochen viel über die Idee nachgedacht, bestimmte Bereiche auf Webseiten klar als KI-generiert zu kennzeichnen. Der Gedanke klingt zunächst vernünftig – schließlich wollen wir alle wissen, wann wir mit Maschinen und wann mit Menschen interagieren. Doch die aktuelle Debatte darüber zeigt: So einfach ist die Sache nicht.
Warum das Thema überhaupt wichtig ist
In Europa tritt bald der EU AI Act in Kraft. Er verpflichtet Unternehmen, transparent zu machen, wenn Texte oder Inhalte mithilfe künstlicher Intelligenz erstellt wurden. Das betrifft nicht nur vollautomatisch generierte Artikel, sondern auch Teile von Webseiten, deren Abschnitte durch KI entstanden sein können – etwa Zusammenfassungen, Produktempfehlungen oder kleine erklärende Textblöcke.
Das Problem daran: Es gibt aktuell keine technische, standardisierte Methode, um einem Browser oder Crawler – also einem Programm, das Inhalte durchsucht – mitzuteilen, welche Abschnitte einer Seite KI-basiert sind. Genau hier setzt der neue Vorschlag an, der für reichlich Diskussion sorgt.
Worum es im Vorschlag geht
Die Idee ist, vorhandene HTML-Strukturen – also den „Baukasten“, aus dem jede Webseite besteht – zu nutzen, um KI-Inhalte maschinenlesbar zu kennzeichnen. Es geht somit weniger um sichtbare Warnhinweise für Leser, sondern darum, dass Systeme wie Suchmaschinen, Social-Media-Plattformen oder Archivierungsdienste erkennen können: „Dieser Abschnitt stammt von einer künstlichen Intelligenz.“
Die zwei Ebenen der Kennzeichnung
Der Vorschlag unterscheidet zwischen einer Seiten-übergreifenden und einer Abschnittsbasierten Kennzeichnung.
- Meta-Tag auf Seitenebene: Damit wird für die ganze Seite angegeben, inwieweit sie von KI beeinflusst wurde. Das geschieht mit dem Tag
<meta name="ai-disclosure">im HTML-Kopfbereich. Der Wert kann beispielsweise „ai-generated“, „ai-assisted“, „autonomous“, „mixed“ oder „none“ lauten. So weiß ein Crawler sofort, ob es sich um eine nur teilweise oder gänzlich KI-betriebene Seite handelt. - Attribut auf Abschnittsebene: Zusätzlich kann ein bestimmter HTML-Bereich, etwa ein
<section>oder ein<aside>, mit einem Attributai-disclosure="..."versehen werden. Dadurch lässt sich klar markieren, welcher Teil des Inhalts von einer Maschine stammt und welcher nicht.
In gewisser Weise erinnert das an frühere Diskussionen über strukturierte Daten und das semantic web – also den Versuch, Maschinen nicht nur Text, sondern auch Kontext zu geben. Diesmal allerdings geht es um die Frage der Autorschaft.
Woher der Vorschlag kommt
Hinter der Idee steht David E. Weekly, ein erfahrener Entwickler und Produktstratege. Seine Motivation: Aktuelle Standards bieten nur globale Labels, die eine gesamte Seite als „KI-generiert“ markieren. Doch viele Inhalte – gerade etwa bei Nachrichtenseiten – enthalten nur einzelne KI-Bestandteile: automatisierte Zusammenfassungen, visuelle Analysen oder Übersetzungen.
Weekly schlägt deshalb vor, innerhalb dieser Seiten klare Abschnitte zu definieren, die KI-basiert erzeugt sind, zum Beispiel mit dem HTML-Element <aside ai-disclosure="ai-generated"> für eine maschinelle Zusammenfassung rechts neben einem menschlich geschriebenen Text.
Diese Feinheit ist entscheidend, denn sie spiegelt die Realität vieler Websites wider: Hybridinhalte – entstanden in Kooperation zwischen Mensch und Maschine.
Der Bezug zum EU AI Act
Diese Idee fällt genau in die Zeit, in der sich Unternehmen auf neue europäische Vorschriften vorbereiten müssen. Ab August 2026 fordert der Artikel 50 des EU AI Acts nämlich eine deutliche, maschinenlesbare Markierung von von KI erzeugten Inhalten. Das bedeutet: Wer KI-Text auf einer Website veröffentlicht, soll ihn auch technisch kennzeichnen.
Weekly betont, dass sein Vorschlag also nicht nur ein technisches Experiment, sondern ein praktisches Werkzeug zur Einhaltung dieser Regeln ist. Doch genau diese Motivation stößt in Entwicklerkreisen auf gemischte Reaktionen.
Die Kritikpunkte reichen tief
Viele Fachleute sehen in dem Vorschlag einen pragmatischen, aber vielleicht zu simplen Ansatz. Er greift zwar auf bestehende HTML-Strukturen zurück, die aber ursprünglich für andere Zwecke geschaffen wurden. Nehmen wir zum Beispiel das Element <aside>.
Das war im Webdesign nie dafür gedacht, die Herkunft von Inhalten zu markieren. Sein ursprünglicher Sinn ist, Nebeninhalte auszuklammern – Ergänzungen oder Zusatzinformationen, wie eine Seitenleiste oder eine Infobox. Wenn man es nun verwendet, um KI-Texte zu kennzeichnen, kann das semantisch irreführend sein.
Ähnlich verhält es sich mit dem Element <section>. Es dient dazu, thematisch zusammenhängende Inhalte zu gruppieren – etwa „Einleitung“, „Methodik“, „Ergebnisse“. Wird es stattdessen genutzt, um die Herkunft zu markieren („menschlich“ vs. „KI“), kann das Maschinenauswertungen, Screenreader oder Barrierefreiheitssysteme verwirren. Für Geräte, die Webseiten für sehbehinderte Nutzer aufbereiten, ergeben sich dadurch potenzielle Widersprüche.
Ein Beispiel aus der Praxis
Stell dir eine Nachrichtenplattform vor: Ein Journalist schreibt einen langen Investigativbericht, daneben erscheint automatisch ein KI-generiertes Fazit. Für den Leser ist das hilfreich, weil er sich schnell ein Bild machen kann. Doch technisch gesehen ist der KI-Teil dann Teil des Inhalts – nicht „nebenbei“, wie das <aside>-Tag es suggeriert. Der Vorschlag würde also die Bedeutung solcher Elemente „überdehnen“.
Das ist der Kern der Kritik: Gute Absicht, aber falsches Werkzeug.
Die Frage der Barrierefreiheit
Wer mit HTML arbeitet, weiß, wie sensibel das Zusammenspiel zwischen sichtbarem Text, Code und Hilfstechnologien ist. Ein falsch gesetztes Element reicht, damit ein Screenreader die Struktur einer Seite missversteht. Wenn künftig also Websites versuchen, EU-Vorgaben einzuhalten, könnten sie unabsichtlich ihre Zugänglichkeit verschlechtern.
Einige Entwickler argumentieren deshalb: Statt bestehende Tags zweckzuentfremden, sollte man lieber ein völlig neues, neutrales Element erfinden – zum Beispiel <ai-block> oder ein Attribut, das unabhängig von semantischen Strukturen existiert. Nur so ließe sich gewährleisten, dass niemand durch funktionale Lesefehler benachteiligt wird.
Ein tieferer Punkt der Diskussion
Interessant ist, dass sich die Kritik gar nicht allein gegen den technischen Aspekt richtet. Sie berührt eine philosophische Frage: Sollte das Web wirklich den Ursprung jedes Textabschnitts offenlegen müssen? Und wer entscheidet, was genau „KI-generiert“ heißt?
In der Praxis verschwimmen diese Grenzen. Wenn ein Journalist eine KI nutzt, um Stichpunkte in Fließtext zu bringen, ist das „AI-assisted“. Wenn ein Redakteur einen faktischen Absatz von ChatGPT anpassen lässt, ist das „mixed“. Doch wo hört die Unterstützung auf, wo beginnt Autorschaft? Die Definitionsprobleme könnten am Ende dazu führen, dass unterschiedliche Betreiber dieselbe technische Kennzeichnung völlig unterschiedlich interpretieren.
Damit droht ein Chaos an Einstellungen, ähnlich wie bei den frühen Datenschutz-Labels oder Cookie-Bannern, deren Umsetzung kaum einheitlich gelang.
Das juristische vs. das technische Ziel
Ein spannender Gedanke, der in der Entwickler-Community immer wieder aufkommt, lautet: „Dieses Tag löst kein Webproblem – es löst ein Compliance-Problem.“
Das bedeutet: Die Motivation stammt hauptsächlich aus der Gesetzgebung, nicht aus einem echten Nutzer- oder Entwicklerbedürfnis. Und genau das macht viele skeptisch. Denn ein Standard, der nur aus Regulierungsdruck entsteht, riskiert, unpraktisch zu werden – insbesondere, wenn er auf etablierten Strukturen aufbaut, die für völlig andere Zwecke gedacht waren.
Aus meiner Sicht ist das ein berechtigter Einwand. Wenn Technologie zum juristischen Werkzeug wird, verliert sie oft ihre natürliche Logik. Webseiten sollten in erster Linie funktional, zugänglich und semantisch korrekt bleiben. Alles andere ist zweitrangig.
Warum das Thema trotzdem nicht so leicht abgetan werden kann
So nachvollziehbar die Skepsis ist: Der Bedarf für eine technische Offenlegungspflicht wächst. Suchmaschinen wollen wissen, wie viel Text maschinellen Ursprungs ist, damit sie zuverlässiger einstufen können, was „Originalrecherche“ und was „Machine-Paraphrase“ ist. Auch Plattformen, die KI-Modelle mit Webinhalten trainieren, können von sauber gekennzeichneten Quellen profitieren.
Gleichzeitig können klare Labels helfen, langfristig wieder Vertrauen zwischen Lesern, Redaktionen und Technologieherstellern aufzubauen. Die Unsicherheit darüber, was von Menschen stammt, hat in den letzten zwei Jahren spürbar zugenommen.
Wie es jetzt weitergeht
Der Vorschlag befindet sich derzeit in einer öffentlichen Diskussionsphase. In Foren wie GitHub oder WHATWG tauschen Spezialisten Argumente aus – teils sehr technisch, teils politisch. Einige wollen den Ansatz verwerfen, andere plädieren für eine Weiterentwicklung.
Das Spannende: Selbst unter den Befürwortern herrscht Uneinigkeit darüber, wo die Kennzeichnung sichtbar sein sollte. Nur maschinenlesbar im Code, oder auch für Nutzer direkt am Text? Und falls Letzteres: Soll das automatisch geschehen oder der Website-Betreiber entscheiden?
Ein denkbares Szenario ist, dass Browser künftig KI-generierte Abschnitte visuell hervorheben – ähnlich wie Suchmaschinen manchmal „Faktenchecks“ anzeigen. Damit würden Transparenz und Nutzerfreundlichkeit tatsächlich Hand in Hand gehen. Doch das ist Zukunftsmusik.
Mein persönliches Fazit
Aus meiner Sicht ist diese Initiative ein sinnvoller Schritt in Richtung transparenterer Web-Inhalte – aber nur, wenn sie technisch sauber umgesetzt wird. Die aktuelle Version wirkt, als wolle man mit bestehenden Werkzeugen ein neues Haus bauen. Das kann gutgehen, aber es riecht nach Improvisation.
Vielleicht wäre es besser, sich bewusst von alten HTML-Gewohnheiten zu lösen und einen wirklich neuen Standard zu entwerfen. Ein klar definierter KI-Markup-Tag, unabhängig von Kontext oder Layout, könnte die Anforderungen der EU erfüllen, ohne bestehende Semantiken zu beschädigen.
Trotzdem erkenne ich den Wert solcher Diskussionen: Sie zeigen, wie komplex die Schnittstelle zwischen Recht, Ethik und Technik geworden ist. Vor allem aber verdeutlichen sie, dass die Frage der Transparenz – wer schreibt was – im digitalen Raum eine neue Dimension erreicht hat. Und diese Diskussion, so technisch sie auch klingt, betrifft uns alle, die wir täglich Inhalte lesen, schreiben oder veröffentlichen.