Quellen eingrenzen für Perplexity.ai Suche

Für einige ist Perplexity.ai längst zum neuen Favoriten unter den „Suchmaschinen“ geworden. Wobei Perplexity sich ja gar nicht mehr als klassische Suchmaschine bezeichnet, sondern als „Antwortmaschine„. Das Argument hierzu: Es geht ja eigentlich nicht um das Suchen, sondern darum eine brauchbare Antwort auf eine Frage zu bekommen. Also warum nicht einfach das Suchen einer „KI“ überlassen? Das ist die Idee.

Nun ist es so, dass Perplexity.ai vor die Antwort eine klassische Suchanfrage schaltet, daraus dann relevante Inhalte extrahiert und zusammenfasst (Stichwort: RAG). Auf diese Suche und damit auch die späteren Antwortquellen, hat man im Standardfall allerdings keinen Einfluss. D.h. manchmal mischen sich zwischen „seriösen“ Quellen auch welche, die nicht durch ihre Faktentreue glänzen. Das lässt sich aber gekonnt steuern.

Mit der folgenden Ergänzung in der Eingabemaske fokussiert sich Perplexity.ai auf die Internetseiten (Domänen), die wir mit dem Filter search_domain_filter vorgeben. Hierfür genügt die Adresse der jeweiligen Startseite. Es muss nicht jede Unterseite angegeben werden. Also zuerst die Frage bzw. das Thema und danach dann die Filter-Ergänzung. Konkret sieht das dann im Beispiel so aus:

Was kennzeichnet die Erwachsenenbildung aus? search_domain_filter: ["https://wb-web.de"]

Perplexity.ai lässt hierbei bis zu 20 Quellangaben zu. Mit dieser Funktion lassen sich aber auch bestimmte Seiten aus der Quellenliste entfernen. Das funktioniert indem man vor die Adresse der Quelle ein „-“ setzt. So zum Beispiel -http://www.unseriös.de . Beides sollte aber nicht gemischt werden. Also besser entweder nur Quellen vorgeben oder nur Quellen ausschließen.

Einfachere Alternative

Eine einfachere aber weniger konfigurationsreiche Alternative hierzu ist die Ergänzung site: . Mit „site:“ lässt sich die Anfrage ebenfalls auf eine bestimmte Quelle festlegen, aber nur EINE (mit ihren Unterseiten). In einem konkreten Beispiel sieht das dann so aus:

Was kennzeichnet die Erwachsenenbildung aus? site:wb-web.de

Kritische Perspektive

Das Geschäftsmodell von Perplexity.ai ist sehr umstritten. So profitieren sie von der Unmenge an Wissen und Information, die im Internet öffentlich zugänglich geteilt wird. Durch die neue Umstellung auf Antworten anstatt Suchergebnissen, mit Links auf die Quellseiten zum Nachlesen, bekommen die Nutzer:innen nun direkt schon brauchbare Antworten angezeigt. Kaum jemand klickt noch auf die eigentlichen Quellseiten. Für viele Nachrichtenseiten etc., die von Werbeeinnahmen durch Seitenbesuche leben und diese brauchen, um ihr Angebot zu betreiben, bekommen nun deutlich weniger „Traffic“ (Seitenbesuche) ab. Damit sinken natürlich auch deren Werbeeinnahmen, Kaufabschlüsse etc. und dadurch natürlich auch die verfügbaren Einnahmen, um das Angebot mit Personal etc. überhaupt betreiben zu können.

Was also tun als Nutzer:in?

Gute Frage. Die Google Suche hat mittlerweile auch auf KI generierte Antworten umgestellt und zieht nun nach. ChatGPT, Claude etc. haben die Funktion der Websuche mittlerweile auch in ihre Chats integriert. Perplexity.ai ist also lange nicht mehr der einzige Anbieter, der das eigene Angebot darauf aufbaut, dass Andere ihre Inhalte öffentlich zugänglich ins Netz stellen. Wer aber aus Solidarität die anderen Webseitenbetreibern im Netz unterstützen will, der/die benutzt einfach noch eine derjenigen Suchmaschinen, die noch nicht auf KI-Antworten umgestell that: qwant.com, ecosia.org oder duckduckgo.com. Diese Suchmaschinen funktionieren natürlich immer noch, auch wenn man dann natürlich länger „suchen“ muss, bis man gefunden das hat, was man wissen möchte.

Was als Seitenbetreiber:in tun?

Die Crawler und Scraper der KI-Bots blockieren, zum Beispiel. Das geht (noch) zum Beispiel über Anpassungen in der robots.txt auf dem jeweiligen Webserver. Vorlagen hierfür gibt es gute im Netz: https://codeberg.org/nitronic/block-ai-robots . Leider halten sich viele der großen KI-Bot Anbieter aber längst nicht mehr an diese informelle Vereinbarung. Nach 30 Jahren Übereinkunft zwischen Seitenbetreiber:innen und Suchmaschinenanbieter:innen ist die Sache nun allerdings eigentlich passé. Einen tollen „Nachruf“ hierzu mit einigen interessanten Details gibt es hier zu lesen: https://www.heise.de/hintergrund/Nachruf-Abschied-von-robots-txt-1994-2025-10752448.html . Wer wegen seines Geschäftsmodells auf Seitenbesuche über Google und Co. dringend angewiesen ist, der/die sollte sich schleunigst mit seinem Geschäftsmodell beschäftigen. No joke.

Wer als Seitenbetreiber:in harte Geschütze auffahren möchte, schaltet den Filterdienst Cloudflare vor die eigene Webseite: https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click . Die bieten seit einigen Monaten auch einen KI-Bot-Filter an. Allerdings machen die das nicht umsonst. Eine open-source Alternative zum Selber-Hosten ist die Anubis AI Firewall, die geht aber leider mit Einbusen in der Ladegeschwindigkeit der Seite einher. Aber die Community um dieses open-source Projekt herum wächst. Wer weiß wie sich das noch weiter entwickelt.

Quellen eingrenzen für Perplexity.ai Suche

Einfachere Alternative

Kritische Perspektive

Was also tun als Nutzer:in?

Was als Seitenbetreiber:in tun?

Zu kurz?

Zu ungenau?

Zu verwirrend?

Filter anwenden