Raphael Suchomel: Warum ChatGPT alles weiß und trotzdem nichts versteht

Die Maschine versteht kein einziges Wort, das sie produziert und liefert trotzdem Antworten auf Universitätsniveau. Wer einmal versteht, was unter der Oberfläche passiert, sieht künstliche Intelligenz mit ganz anderen Augen.

Redaktion / meinung•7. Mai 2026, 06:15 Uhr

exxpress auf Google als bevorzugte Nachrichtenquelle festlegen

ChatGPT wirkt wie Zauberei. Man tippt eine Frage ein und Sekunden später kommt eine Antwort, die klingt, als hätte sie ein erfahrener Mensch verfasst. Doch hinter dieser Technologie steckt kein Bewusstsein und kein Geheimnis, sondern ein Verfahren, das man in mehrere klar abgrenzbare Schritte zerlegen kann. Genau diese Schritte will ich erklären, weil das Verständnis dafür entscheidet, wie souverän wir mit dieser Technologie umgehen.

Alles beginnt mit Daten

Am Anfang steht das Sammeln von Texten und zwar im wirklich großen Stil. Unternehmen wie OpenAI greifen auf öffentlich zugängliche Quellen zurück: Wikipedia, Bücher, Foren, Blogs, Nachrichtenartikel und Milliarden Webseiten. Diese werden mit sogenannten Web-Scrapern eingesammelt, also Programmen, die das Internet automatisiert durchforsten und Inhalte herunterladen. Die wichtigste Datenbasis dafür heißt Common Crawl, eine offene Sammlung mit über 250 Milliarden Webseiten. Vereinfacht gesagt: Bevor eine KI sprechen kann, muss sie erst einmal lesen lernen und zwar mehr, als ein Mensch in tausend Leben jemals schaffen würde.

Müll raus, Wissen rein

Das Internet ist allerdings kein sauberer Ort. Es enthält Werbung, Spam, doppelte Texte, Hassrede und schlicht falsche Informationen. Bevor die Daten in die Maschine wandern, müssen sie also gefiltert und bereinigt werden. Dieser Schritt heißt im Fachjargon Data Cleaning. Algorithmen entfernen Duplikate, sortieren minderwertige Texte aus und filtern Inhalte, die rechtlich oder ethisch problematisch sind. Hier liegt einer der unterschätzten Wettbewerbsvorteile der großen Anbieter, denn wer die saubereren Daten hat, baut am Ende die klügere KI.

Wörter werden zu Zahlen

Jetzt kommt der erste echte Aha-Moment und der ist nicht selbstverständlich. Eine Maschine kann mit Buchstaben absolut nichts anfangen. Sie kennt keine Wörter, keine Sprachen, keine Bedeutung. Sie kennt ausschließlich Zahlen. Damit die KI mit Texten überhaupt arbeiten kann, muss jedes Wort also in eine Zahl übersetzt werden.

Das funktioniert so: Jeder denkbare Wortteil bekommt eine eindeutige Identifikationsnummer. Stellen Sie sich ein gigantisches Wörterbuch vor, in dem jedes Wort und jede Silbe ein Kennzeichen erhält, ähnlich einem Autonummernschild. Das Wort „Apfel” bekommt vielleicht die Nummer 4837, „Birne” die Nummer 9281, der Wortteil „tisch” die Nummer 2719. Diese Bausteine heißen Tokens. ChatGPT arbeitet mit einem Wörterbuch von rund 100.000 solcher Tokens, die sich beliebig kombinieren lassen.

Wenn Sie nun den Satz „Ich esse einen Apfel” eintippen, sieht die Maschine intern keine Buchstaben mehr, sondern eine nüchterne Zahlenkette wie 1402, 8331, 5527, 4837. Aus Sprache wird damit reine Mathematik, und genau das ist der Trick. Allerdings hat dieses Verfahren einen entscheidenden Haken. Die Maschine weiß zwar jetzt, welches Wort gemeint ist, aber noch lange nicht, was es bedeutet. Aus der Nähe der Zahlen 4837 und 9281 lässt sich ja nicht ableiten, dass Apfel und Birne beide Obstsorten sind. Die Nummern sind reine Etiketten, mehr nicht.

Bedeutung im Zahlenraum

Damit die KI nicht nur Wörter erkennt, sondern auch ihre Bedeutung erfasst, kommt ein zweiter, viel raffinierterer Übersetzungsschritt. Jedes Token wird zusätzlich in eine Liste aus mehreren hundert weiteren Zahlen umgewandelt, einen sogenannten Embedding-Vektor. Klingt abstrakt, ist aber leicht zu verstehen, sobald man sich das richtige Bild vor Augen führt.

Stellen Sie sich eine riesige Landkarte vor, allerdings nicht mit Längen- und Breitengrad, sondern mit hunderten Koordinaten gleichzeitig. Auf dieser Karte bekommt jedes Wort einen eigenen Punkt. Wörter mit ähnlicher Bedeutung landen automatisch in derselben Nachbarschaft. „Apfel”, „Birne” und „Marille” liegen eng beisammen in der Region „Obst”. „Hammer” und „Schraubenzieher” bilden ein eigenes Viertel namens „Werkzeug”. „Wien”, „Linz” und „Salzburg” clustern in einer Ecke namens „österreichische Städte”. So entsteht im Inneren der Maschine eine Art mathematischer Bedeutungsraum, in dem Wörter nicht mehr nur Zahlen sind, sondern Orte mit Beziehungen zueinander.

Das wirklich Erstaunliche daran ist, dass sich diese Karte von selbst sortiert, einzig durch das Lesen gigantischer Textmengen. Die KI bemerkt, dass „Apfel” und „Birne” in ähnlichen Sätzen vorkommen wie „Ich esse einen…” oder „Im Obstkorb liegen…”, und schiebt sie deshalb nahe zusammen. Niemand muss ihr beibringen, was Obst ist. Sie schließt es allein aus dem Kontext.

Noch verblüffender wird es, wenn man auf dieser Karte rechnet. Forscher haben entdeckt, dass man vom Punkt „König” den Punkt „Mann” abziehen und dafür „Frau” addieren kann. Das Ergebnis landet sehr nahe bei „Königin”. Die KI hat das abstrakte Konzept Geschlecht verstanden, ohne dass es ihr jemand erklärt hätte. Genau an diesem Punkt merkt man, dass Sprache plötzlich messbar wird und dass Bedeutung sich in Zahlen gießen lässt.

Der Durchbruch namens Transformer

Das Herzstück moderner KI-Modelle heißt Transformer. Diese Architektur wurde 2017 in einem Paper namens „Attention is all you need” von Google-Forschern vorgestellt und gilt heute als wichtigste Erfindung der jüngeren KI-Geschichte. Ohne sie gäbe es kein ChatGPT, kein Claude und kein Gemini.

Ihr Trick heißt Selbstaufmerksamkeit, im Englischen Self-Attention. Das klingt abstrakt, lässt sich aber gut erklären. Wenn Sie den Satz „Der Anwalt verteidigte den Angeklagten, weil er unschuldig war” lesen, wissen Sie sofort, dass „er” den Angeklagten meint und nicht den Anwalt. Sie haben das aus dem Kontext erschlossen, ganz automatisch. Genau diese Fähigkeit fehlte Maschinen lange Zeit.

Der Transformer ändert das grundlegend. Er schaut nicht nacheinander auf die Wörter, sondern auf alle gleichzeitig und berechnet für jedes einzelne, wie stark es mit jedem anderen Wort im Satz zusammenhängt. Beim Wort „er” bekommt „Angeklagter” eine hohe Gewichtung, „Anwalt” eine niedrigere und „weil” praktisch keine. So entsteht eine Art innerer Aufmerksamkeitsplan für jeden Satz, in dem die Maschine erkennt, welche Wörter aufeinander Bezug nehmen. Genau das leistet der Transformer und das milliardenfach in Bruchteilen von Sekunden, was die enorme Sprachfähigkeit moderner Modelle erst möglich macht.

Lernen durch Erraten

Wie lernt das Modell nun zu sprechen? Erstaunlich simpel: Es lernt, das nächste Wort zu erraten. Man verdeckt in einem Satz das letzte Wort und das Modell muss vorhersagen, welches dort am wahrscheinlichsten passt. Aus „Der Hund bellt im…” soll es „Garten” ableiten. Aus „Mozart wurde geboren in…” soll es „Salzburg” ableiten.

Dieser Vorgang wird Milliarden Mal wiederholt, mit immer neuen Texten und immer neuen Lücken. Am Anfang rät die KI vollkommen zufällig und liegt fast immer daneben. Aber bei jedem Fehler werden ihre internen Regler ein klein wenig angepasst, damit sie beim nächsten Mal näher an der richtigen Antwort liegt. So wie ein Kind, das beim Sprechen lernen tausende Korrekturen verarbeitet, lernt auch die Maschine, nur eben in einem Tempo, das jede menschliche Vorstellung sprengt. Aus diesem stupide wirkenden Wiederholen entsteht am Ende ein System, das Romane schreiben, Code generieren und juristische Texte zusammenfassen kann.

Die Milliarden Stellschrauben

Was sind diese Regler eigentlich? Im Inneren eines Sprachmodells stecken hunderte Milliarden mathematischer Stellschrauben, im Fachjargon Parameter genannt. Bei GPT-4 sollen es laut Berichten in der Größenordnung von über einer Billion sein. Man kann sie sich wie die Lautstärke- und Klangregler eines gigantischen Mischpults vorstellen, nur eben in unvorstellbarer Anzahl und in einem Mischpult, das ganze Sprachen orchestriert.

Während des Trainings wird jeder einzelne dieser Regler millionenfach minimal verstellt, bis das Modell zuverlässig die richtigen Vorhersagen liefert. Genau diese Parameter sind das eigentliche „Wissen” der Maschine. Sie speichern keine Texte und keine Faktenlisten, sondern Muster und Wahrscheinlichkeiten. Das erklärt auch, warum das Training so unvorstellbar teuer ist. Allein die Rechenkosten für ein Modell der Größe von GPT-4 lagen Berichten zufolge bei über hundert Millionen Dollar, was in etwa dem Budget eines Hollywood-Blockbusters entspricht.

Vom Plappermaul zum Assistenten

Ein so trainiertes Modell ist allerdings noch kein hilfreicher Chatbot. Es plaudert los, manchmal sinnvoll, manchmal komplett daneben und gelegentlich auch sehr unhöflich. Damit ein Modell wie ChatGPT entsteht, kommt deshalb ein zweiter Schritt: das Feintuning mit menschlichem Feedback, oft Reinforcement Learning from Human Feedback genannt, kurz RLHF. Dabei bewerten Menschen tausende Antworten und zeigen dem Modell, welche hilfreich, höflich und korrekt sind und welche nicht. Aus dem rohen Sprachmodell wird so ein angenehm bedienbarer Assistent, der nicht nur weiß, sondern auch zu antworten versteht.

Was beim Tippen wirklich passiert

Wenn Sie nun eine Frage in ChatGPT eingeben, läuft im Hintergrund ein eindrucksvoller Prozess ab. Ihre Eingabe wird zuerst in Tokens zerlegt und dann in den mathematischen Bedeutungsraum übersetzt. Das Modell rechnet anschließend Schritt für Schritt aus, welches Wort als nächstes am wahrscheinlichsten ist. Es schreibt nicht den ganzen Satz auf einmal, sondern Wort für Wort, jedes auf Basis dessen, was bisher schon dasteht. Genau deshalb sehen Sie die Antwort fließen, als würde jemand wirklich tippen. Hinter dem Vorhang läuft eine gigantische Rechenmaschine, die billionenfache mathematische Operationen pro Sekunde durchführt, nur um vorherzusagen, welches Wort am besten als nächstes passt.

Warum das alles wichtig ist

Wer das Prinzip dahinter versteht, kann diese Technologie viel besser einschätzen. ChatGPT versteht keine Welt, es kennt keine Wahrheit und hat keine Meinung. Es errechnet auf Basis von Wahrscheinlichkeiten, was als nächstes plausibel folgen könnte. Das erklärt, warum es so beeindruckend gut sein kann und warum es manchmal überzeugend Unsinn produziert, die berühmten Halluzinationen. Es erklärt auch, warum Datenqualität, Trainingsmethoden und das richtige Feintuning so entscheidend sind. Und es erklärt, warum Europa diese Grundlagen selbst beherrschen muss, anstatt sich blind auf amerikanische und chinesische Modelle zu verlassen.

Künstliche Intelligenz ist keine Magie, sondern Handwerk. Wer den Bauplan einmal kennt, verliert die Angst vor der Maschine und gewinnt die Souveränität, sie sinnvoll zu nutzen. Genau das ist die Voraussetzung, um in der wirtschaftlichen und gesellschaftlichen Umwälzung der nächsten Jahre nicht Zuschauer zu sein, sondern Gestalter.

Raphael Suchomel: Warum ChatGPT alles weiß und trotzdem nichts versteht

Raphael Suchomel: Warum ChatGPT alles weiß und trotzdem nichts versteht

Alles beginnt mit Daten

Müll raus, Wissen rein

Wörter werden zu Zahlen

Bedeutung im Zahlenraum

Der Durchbruch namens Transformer

Lernen durch Erraten

Die Milliarden Stellschrauben

Vom Plappermaul zum Assistenten

Was beim Tippen wirklich passiert

Warum das alles wichtig ist

Nochmals zusammengefasst:

Die wichtigsten Fakten:

Meistgelesen

Kommentare

Bleib auf dem Laufenden!

Unterstütze unabhängigen Journalismus

Weitere Artikel

Raphael Suchomel: Warum ChatGPT alles weiß und trotzdem nichts versteht

Alles beginnt mit Daten

Müll raus, Wissen rein

Wörter werden zu Zahlen

Bedeutung im Zahlenraum

Der Durchbruch namens Transformer

Lernen durch Erraten

Die Milliarden Stellschrauben

Vom Plappermaul zum Assistenten

Was beim Tippen wirklich passiert

Warum das alles wichtig ist

Nochmals zusammengefasst:

Die wichtigsten Fakten:

Meistgelesen

Kommentare

Bleib auf dem Laufenden!

Unterstütze unabhängigen Journalismus

Weitere Artikel