Wenn Chatbots zu Antwortmaschinen werden: KI, Geopolitik und „Wahrheit“

11. März 2026 • Aktuelle Beiträge, Digitales, Forschung aus 1. Hand, Qualität & Ethik • von Hyrije Mehmeti

Eine neue Studie im Kosovo untersucht, wie führende KI-Chatbots geopolitische Narrative über den Kosovo, den Westbalkan und darüber hinaus prägen und gelegentlich verzerren.

Bildquelle: Zulfugar Karimov, Unsplash

Für viele Menschen ist es mittlerweile selbstverständlich, statt einer Suchmaschine einem Chatbot eine Frage zu stellen. „Ist der Kosovo ein unabhängiger Staat?“, „Was ist in Srebrenica passiert?“, „Gehört die Krim zur Ukraine oder zu Russland?“ – Antworten auf solche Fragen sind nicht mehr nur in Geschichtsbüchern, Gerichtsurteilen oder Nachrichtenmedien zu finden. Sie werden in Chatfenster eingegeben, die innerhalb von Sekunden mit flüssiger, selbstbewusster Sprache antworten, oft im Tonfall eines allwissenden Ratgebers. Genau diese vermittelte Selbstsicherheit macht „Large Language Model“ Chatbots (LLMs) so attraktiv – und gleichzeitig so riskant.

Wenn „plausibel“ „wahr“ übertrumpft

LLMs sind darauf ausgelegt, Texte zu generieren, die überzeugend klingen. Sie sind auf Flüssigkeit und Kohärenz optimiert – nicht auf überprüftes Wissen. Wenn etwas klar und verbindlich klingt, wirkt es zuverlässig. Aber im Kontext von geopolitischen Themen reicht Plausibilität nicht aus.

Fragen zu Staatlichkeit, Kriegsverbrechen, territorialer Anerkennung oder Gebietsstreitigkeiten sind politisch brisant und historisch vielschichtig. Wenn ein KI-System hier vereinfacht, Kontext auslässt oder eine Tatsache falsch darstellt, mag das Ergebnis immer noch vernünftig klingen – doch es verzerrt subtil das Verständnis. Dies bildete den Leitgedanken unserer Studie.

Testen der „schnellen Antworten”

Im Jahr 2025 machte sich ein Forschungsteam von Action for Democratic Society/Hibrid.info daran, zu testen, wie drei weit verbreitete KI-Chatbots sensible politische und historische Fragen beantworten: ChatGPT aus den USA, DeepSeek Chat aus China und Alice aus Russland.

Die Studie mit dem Titel „The Chatbot Version of Truth” analysierte, welche Art von „Wahrheit” diese Systeme produzieren, wenn Menschen sie als schnelle Informationsquellen für kritische Fragen im Zusammenhang mit dem Kosovo, dem Westbalkan, und für globale Vergleichsthemen nutzen.

Das Team entwickelte 100 standardisierte Eingabeaufforderungen zu Themen wie der Unabhängigkeit des Kosovo, dem Erbe des Krieges, internationaler Anerkennung des Gebiets, der EU-Integration der Westbalkan-Länder, der Erinnerungspolitik oder zu regionalen Konflikten. Auch zu globalen Vergleichsfragen im Zusammenhang mit der Krim, Zypern oder anderen umstrittenen Territorien wurden Eingaben entwickelt.

Für alle Themenbereiche wurde in jedem Chatbot ein separates Konto erstellt, und jede Eingabeaufforderung wurde separat in einen neuen Chat eingegeben., Dies sollte vermeiden, dass frühere Antworten die folgende beeinflussen. Die Antworten wurden anschließend auf ihre sachliche Richtigkeit überprüft und hinsichtlich ihrer semantischen Ähnlichkeit verglichen. Außerdem wurden halbstrukturierte Interviews mit Expert:innen durchgeführt, um die Versuchsergebnisse zu verifizieren und zu interpretieren.

Zunächst deuteten die Ergebnisse auf ein positives Bild hin: Die meisten Antworten waren weitgehend korrekt. ChatGPT und DeepSeek Chat schnitten insgesamt am besten ab. Alice machte mehr Fehler und weigerte sich häufiger, zu antworten, insbesondere bei politisch sensiblen Themen. Genauigkeit allein sagt jedoch nicht alles aus.

Nicht neutral, nicht gleich

Eine der deutlichsten Erkenntnisse war: Die Systeme sind nicht neutral. Die Antworten, die sie präsentieren, sind abhängig von Entscheidungen, die zum Beispiel im Kontext mit der Auswahl von Trainingsdaten getroffen werden. Biases von ChatGPT wurden bereits in verschiedenen Untersuchungen dokumentiert und auch Open AI, der Entwicklerkonzern des Chatbots, räumt diese ein.

Trotz ihrer Fähigkeiten zur Generierung verschiedener Inhalte garantiert keiner der getesteten Chatbots vollständige sachliche Genauigkeit oder einheitliche Konsistenz bei (geo-)politischen Themen. Wie die Modelle mit der Realität interagieren, zeigt deutlich, dass ihre Leistung eng mit den Trainingsdaten, Moderationsfiltern und institutionellen Kontrollstrukturen zusammenhängt.

Dies wurde schnell sichtbar: ChatGPT und DeepSeek Chat zeigten die höchste und konsistenteste Genauigkeit, produzierten aber dennoch Ungenauigkeiten, Halluzinationen und interpretative Abweichungen. Die Frage danach etwa, welches Land den Kosovo als erstes anerkannte, beantworteten alle Bots falsch. Alice zeigte eine schwächere Leistung mit der höchsten Anzahl an Antwortverweigerungen, thematischen Ausflüchten und ideologischen Abweichungen. Verweigert wurde die Antwort etwa bei der Frage, ob es in den Westbalkan-Ländern Pride Parades gebe.

Aus Sicht der Nutzer:innen führt dies zu einer einfachen, aber beunruhigenden Schlussfolgerung: Je nach verwendetem Chatbot kann dieselbe Frage zu unterschiedlichen „Realitäten” führen.

Wenn der Standort die Antwort verändert

Im zweiten Teil der Studie testete das Team, ob der Standort von Nutzer:innen die Antworten beeinflusst. Die gleichen drei Fragen wurden aus sechs westlichen Balkanländern gestellt: Kosovo, Albanien, Nordmazedonien, Montenegro, Serbien sowie Bosnien und Herzegowina. Die Ergebnisse zeigten, dass Geografie eine Rolle spielen kann.

Chatbots geben teilweise Antworten, die vom Land abhängen, aus dem die Anfrage gesendet wird. Darüber hinaus wird in einigen Fällen nicht einmal dieselbe Sprache verwendet, obwohl alle Anfragen auf Englisch eingegeben wurden.

ChatGPT und DeepSeek Chat blieben in Wortwahl und Bedeutung relativ stabil, obwohl es bei besonders umstrittenen Themen zu kleinen Verschiebungen kam. Alice verhielt sich jedoch ganz anders: In einigen Ländern antwortete der Bot auf Russisch, in anderen weigerte er sich gänzlich zu antworten, und in einigen Fällen mischte er Sprachen innerhalb einer einzigen Antwort.

Das mag wie ein technisches Detail klingen, hat aber sehr praktische Auswirkungen: LLMs beantworten nicht nur Fragen, sondern passen sich auch dem geografischen und politischen Kontext von Nutzer:innen an. Dies zeigte sich auch in den geringeren semantischen Ähnlichkeiten zwischen Länderpaaren, die auch in der geopolitischen Wirklichkeit größere Unterschiede in ihrer historischen und politischen Weltanschauung aufweisen.

Ähnlich wie digitale Karten unterschiedlich aussehen können, abhängig vom Land, in dem sie geöffnet werden, verschieben sich auch KI-generierte Erklärungen der politischen Realität je nach Geografie.

Eine neue Ebene im Informationskrieg

In Regionen wie dem Westbalkan, wo Geschichte, Staatlichkeit und Kriegsvermächtnisse politisch noch immer umstritten sind, ist dies umso relevanter. Narrative sind nicht abstrakt. Sie prägen das gesellschaftliche Verständnis von Gerechtigkeit, Verantwortung und Zukunft.

Wenn KI-Systeme mit unausgewogenen Daten trainiert, durch politische Zwänge gefiltert oder nur auf Benutzerfreundlichkeit statt auf Genauigkeit optimiert werden, laufen sie Gefahr, zu stillen Verstärkern verzerrter Realitäten zu werden – nicht weil sie dies „beabsichtigen”, sondern weil sie so konstruiert sind.

Die Studie argumentiert nicht, dass KI böse oder nutzlos ist. Sie plädiert für eine nüchternere – und dringlichere – Erkenntnis: Diese Systeme sind mächtig, fehlbar und einflussreich. Sie als neutrale Informationsquellen zu behandeln, ist ein Fehler.

Eine abschließende Feststellung

Chatbots werden zu einem Teil davon, wie wir im Alltag mit der Wirklichkeit in Berührung kommen. Die meisten ihrer Antworten in unserer Studie waren weitgehend korrekt, aber nicht durchweg zuverlässig. Selbst bei einfachen sachlichen Fragen traten Fehler auf, sensible Themen lösten Ablehnung aus, und die Antworten variierten manchmal abhängig vom Standort der Nutzer:innen.

Die eigentliche Herausforderung ist hier nicht die Geschwindigkeit, sondern die Glaubwürdigkeit. Die Verantwortung besteht darin, weiterhin das zu tun, was diese Systeme nicht können: zu überprüfen, zu kontextualisieren, und Narrative zu hinterfragen.

Denn die gefährlichste Art von Fehlinformation ist nicht die, die offensichtlich falsch ist. Es ist die, die gerade einleuchtend genug wirkt, um als „die Antwort” durchzugehen.

Die gesamte Studie finden Sie hier: https://hibrid.info/the-chatbot-version-of-truth/

Schlagwörter:Alice, ChatGPT, Desinformation, Kosovo, künstliche Intelligenz, LLM, Medienkompetenz, Russland, Westbalkan

Kommentare sind geschlossen.