Cloudflare hat entschieden, die Perplexity-Crawler aus ihrem Verified Bots-Programm zu entfernen und deren Aktivitäten auf den Webseiten vollständig zu blockieren. Diese Maßnahme wurde aufgrund von mehrfachen Nutzerbeschwerden und Verstößen gegen Standardprotokolle wie robots.txt ergriffen. Perplexity zeigte ein aggressives Crawling-Verhalten, welches laut Cloudflare durch Täuschungsmanöver und Regelverletzungen gekennzeichnet war.
Das Verified Bots-Programm von Cloudflare
Im Rahmen ihres Verified Bots-Programms bietet Cloudflare Bots eine privilegierte Position, sofern sie sich an vorgegebene Standards wie die robots.txt-Richtlinien halten. Dieses System wurde entwickelt, um vertrauenswürdige Bots zu gewähren, die klar gekennzeichnet sind und sich an die Vorgaben der Webseite halten.
Allerdings entdeckte Cloudflare, dass Perplexity mehrfach gegen diese Richtlinien verstoßen hat. Sie nutzten IP-Adressen, die nicht registriert waren, sowie andere problematische Methoden beim Crawling.
Vorwürfe: Einsatz von verdeckten Taktiken
Cloudflare stellte fest, dass Perplexity aggressive Techniken einsetzte, um Verbote zu umgehen, darunter:
Rotierende IP-Adressen
Eine der Methoden von Perplexity bestand darin, durch wechselnde IP-Adressen und unterschiedliche ASNs (Autonomous System Numbers) Blockaden zu umgehen. Hierbei täuschte Perplexity vor, ein legitimer Browser wie Google Chrome zu sein. Gleichzeitig wurden ASNs genutzt, um die Herkunft der Anfrage zu maskieren.
User-Agent-Spoofing
Zusätzlich zur Nutzung nicht registrierter IP-Adressen änderte Perplexity seinen User-Agent, um sich als regulärer Browser auszugeben, zum Beispiel Chrome auf macOS. Dies wird als Spoofing bezeichnet, bei dem ein Crawler vorgibt, ein Mensch zu sein, um durch Blockaden navigieren zu können.
Cloudflares Reaktion und Konsequenzen
Das Unternehmen hat beschlossen, Perplexity vollständig aus der Liste der Verified Bots zu entfernen. Weiterhin wurden neue Firewall-Regeln eingeführt, die solche Stealth-Crawling-Taktiken in Zukunft blockieren sollen. Cloudflare hat betont, dass Vertrauen und Transparenz essenziell für eine sichere Internetnutzung sind. Perplexitys Verhalten passte hier nicht zu den Standards, was zur Delistung führte.
Wichtige Lernerkenntnisse
- Regelverstöße: Perplexity hat mehrfach Cloudflares Verified Bots-Richtlinien verletzt, indem sie sich nicht an robots.txt hielten.
- Stealth Crawling: Zum Einsatz kamen IP-Adressen von unerklärten ASNs und gefälschte User-Agents.
- Realitätsnahe Täuschung: Der Crawler gab erfolgreich vor, menschliche Anfragen zu sein, um Zugang zu Inhalten zu erhalten.
- Reaktion von Cloudflare: Die Maßnahme soll ähnliche Vorfälle verhindern und zeigt die klaren Standards, die Cloudflare an Bots setzt.
- Umgang als Webseitenbetreiber: Nutzer von Cloudflare sollten überprüfen, ob sie Perplexity explizit für ihre Seiten erlauben möchten. Dies kann über das Dashboard geregelt werden.
Perplexitys Gegendarstellung
In einer Reaktion auf die Blockierung durch Cloudflare argumentierte Perplexity, dass Cloudflare eine falsche Darstellung ihrer Dienste gibt. Sie vertraten die Ansicht, dass die Aktivität ihrer AI-Assistants, welche von Nutzern initiiert wird, nicht mit standardisierten Crawlern gleichzusetzen ist.
„Die Systeme von Cloudflare sind offensichtlich schlecht darin, legitime digitale Assistenten von tatsächlichen Bedrohungen zu unterscheiden.“