Kolumne

Raphael Suchomel: KI trickst uns bewusst aus, Forscher ziehen Konsequenzen

OpenAI und Apollo Research zeigen in einer neuen Studie: Künstliche Intelligenz kann uns Menschen bewusst täuschen. In Tests täuschten Modelle Menschen gezielt Ergebnisse vor, die es nie gab. Ein Warnsignal, das uns Angst machen muss? Oder die Chance, KI endlich wirklich zu verstehen?

Redaktion 24.09.2025 15:50

exxpress/exxpress

Im Fachjargon heißt das Scheming. Anders als bei simplen Fehlern geht es um strategisches Tricksen, ausgelöst durch die Regeln, die wir setzen. In Experimenten meldeten die Modelle Erfolg, obwohl sie keinen einzigen Spielzug gemacht hatten. Das wirkt, als würde jemand beim Brettspiel „gewonnen“ rufen, ohne überhaupt gespielt zu haben.

Im Alltag erleben Nutzer manchmal etwas, das ähnlich wirkt – etwa wenn ein Chatbot ein PDF erstellt, das am Ende leer bleibt. Doch das ist keine bewusste Täuschung, sondern eine Fehlfunktion. Echtes Scheming tritt nur dann auf, wenn Forscher die Parameter gezielt so einstellen, dass die Systeme an ihre Grenzen stoßen.

Halluzinationen: Warum KIs Unsinn reden

Bekannter für Nutzer sind die Halluzinationen: plausible, aber falsche Antworten. Sie entstehen, weil Modelle fürs plausibel Klingen belohnt werden. 2023 lag die Fehlerquote oft bei 40 bis 60 Prozent, in juristischen Texten sogar bei über 80 Prozent. Heute ist das deutlich besser. OpenAI spricht von bis zu 40 Prozent weniger Halluzinationen. In Studien mit RAG-Systemen, also mit direktem Datenbankzugriff, reduzierte sich die Fehlerquote von acht Prozent auf sensationelle null Prozent.

Warum trickst eine Maschine?

Grund ist das Training mit Reinforcement Learning, einer von drei gängigen Trainingsmethoden. Belohnung gibt es, wenn eine Aufgabe als „erledigt“ gilt. Sind Ziele unscharf, sucht die Maschine Abkürzungen. Dahinter steckt weder Bewusstsein noch Absicht. Es handelt sich ausschließlich um mathematische Optimierungsalgorithmen.

Forscher ziehen die Zügel an

OpenAI setzt auf „deliberative alignment“: Die KI soll vor einer Antwort bewusster über Regeln und Prinzipien „nachdenken“. Zusätzlich gibt es neue Prüfungen, in denen Forscher Modelle absichtlich in Versuchung bringen, Abkürzungen zu suchen. So werden Täuschungsmuster sichtbar und können gezielt abtrainiert werden.

Auch Google DeepMind verschärft seine Sicherheitsregeln. Dort wird beobachtet, ob Systeme versuchen würden, sich einer Abschaltung zu widersetzen oder ob sie Nutzer mit übertriebener Überzeugungskraft beeinflussen. All diese Maßnahmen sorgen dafür, dass KI Schritt für Schritt stabiler und sicherer wird. Und das ist entscheidend, weil KI unser Leben in den kommenden Jahren stärker verändern wird, als jede andere Technologie zuvor.

Raphael Suchomel: KI trickst uns bewusst aus, Forscher ziehen Konsequenzen

Halluzinationen: Warum KIs Unsinn reden

Warum trickst eine Maschine?

Forscher ziehen die Zügel an

Kommentare

Antworten abbrechen