Vor ein paar Tagen hat jemand im Fediverse einen recht einfachen, aber nicht weniger interessanten KI-Prompt gepostet (@hartificial.de↗). Der Autor hat ChatGPT die Aufgabe gegeben, es solle zählen, wie häufig ein bestimmter Buchstabe in einem Wort vorkommt. Ich nehme das Ergebnis jetzt kurz vorne weg: ChatGPT ist an dieser (vermeintlich) einfachen Aufgabe gescheitert.
Ist das so? Und können ChatGPT und Co. solche banalen Aufgaben wirklich nicht lösen, obwohl sie doch so tolle Gedichte über Käsekuchen und Fußpilze erfinden können? Mich hat dieses Beispiel noch eine Weile lang beschäftigt, denn ich habe mir gedacht, dieses Beispiel sieht vielleicht banal aus, aber da steckt doch mehr drin als ein Einfaches: „Aha! Da seht! KIs sind garnicht so intelligent, wie alle tun“.
Die Aufgabe
Ihr könnt das Beispiel leicht selbst ausprobieren. Nehmt die generative KI eures Vertrauens und stellt ihr folgende Aufgabe: Wieviele Rs sind in Erörterung? . Benutzt man ChatGPT als Eingabemöglichkeit für das GPT-4o Modell von Open AI, eines der aktuell besten Sprachmodelle, dann bekommt man auf obige Frage z.B. folgende Antwort: Das Wort „Erörterung“ enthält zwei „R“.
Klingt plausibel, ist aber inhaltlich komplett falsch. Eine richtige Antwort wäre natürlich „drei“, wenn man Groß- und Kleinschreibung außer Acht lässt. ChatGPT scheint wohl nicht richtig zählen zu können. Man könnte nun sagen: „Schade. Dann scheitert die mächtige KI halt an einfachen Grundschulaufgaben. Dafür kann ChatGPT tolle Gedichte erfinden…“. Interessanterweise liefert ChatGPT eine richtige Antwort, wenn man in der Eingabe (sog. Prompt) einen einfachen Tipp einbaut.
Der Tipp
Man hat beim Untersuchen dieser großen Sprachmodelle (LLMs) herausgefunden (sog. Prompt Engineering), dass diese bei bestimmten Aufgaben bessere Ergebnisse liefern, wenn man ihnen zusätzlich die Anweisung gibt: Löse die Aufgabe Schritt für Schritt. Konkret kann das dann so aussehen:
Wieviele Rs sind in Erörterung? Löse die Aufgabe Schritt für Schritt.
In diesem Fall bekommen wir von ChatGPT z.B. folgende Antwort:
Um die Anzahl der "Rs" im Wort "Erörterung" zu ermitteln, können wir folgendermaßen vorgehen:
1. Schritt 1: Das Wort aufschreiben
Das Wort ist: Erörterung
2. Schritt 2: Buchstaben einzeln durchgehen und zählen
Wir überprüfen jeden Buchstaben nacheinander und zählen, wie oft der Buchstabe "R" vorkommt.
- E (kein "R")
- r (ein "R")
- ö (kein "R")
- r (ein "R")
- t (kein "R")
- e (kein "R")
- r (ein "R")
- u (kein "R")
- n (kein "R")
- g (kein "R")
3. Schritt 3: Anzahl der Rs zusammenzählen
Insgesamt haben wir drei "Rs" im Wort "Erörterung" gefunden.
Antwort: Es gibt 3 "Rs" im Wort "Erörterung".
Eine Erklärung
Interessant, oder? Woran liegt das, dass ChatGPT bei dieser einfachen Aufgabe zuerst auf eine falsche Antwort kommt, dann aber, wenn man schreibt, es solle die Aufgabe „Schritt für Schritt“ lösen, eine richtige Antwort findet?
Die großen Sprachmodelle werden mit vielen Millionen Texten (= Wortreihenfolgen mit Sinnzusammenhängen) trainiert und lernen so den statistischen Zusammenhang zwischen den darin vorkommenden Wortbestanteilen (sog. Tokens). Mit diesen gelernten Zusammenhängen können die großen Sprachmodelle dann Texte „sinnvoll“ vervollständigen – sie „generieren“ uns eine Antwort. In unserem Fall vervollständigt ChatGPT unsere Frage mit einer statistisch wahrscheinlichen Antwort: „zwei“.
Statistisch ist die Wahrscheinlichkeit hoch, dass „zwei“ die richtige Antwort auf unsere Frage ist. Aber nur weil die Wahrscheinlichkeit hoch ist, bedeutet das ja nicht, dass die Antwort auch inhaltlich richitg ist. Das ist das, was wir oben im Anfangsbeispiel gerade sehen konnten. Interessanterweise sind die aktuellen Sprachmodelle aber doch in der Lage auf die richtige Antwort zu kommen, nämlich dann wenn man sie dazu bringt den Algorithmus des Lösungswegs „laut zu denken“. Wir erreichen das im obigen Beispiel, indem wir dem Modell sagen: „Löse die Aufgabe Schritt für Schritt“.
Durch das Training – zum Beispiel von schulischen Aufgaben- und Lösungsblättern↗ – hat das Sprachmodell gelernt eine solche Aufgabe in eine Abfolge einzelner Teilschritte (= Algorithmus) zu unterteilen. Indem das Sprachmodell die Antwort stückchenweise erzeugt, also Token für Token die Antwort generiert, fließt der Lösungsweg bei jedem Generierungsschritt wieder mit in den nächsten neu generierten Wortbestandteil mit ein. Auf diese Weise ist das Sprachmodell auch in der Lage zu zählen und kommt selbst mit seiner statistischen Funktionsweise auf die richtige Lösung.
Pädagogische Perspektive
Unerwartetes
Dass diese Zählaufgabe ein schönes Erklärbeispiel für die vermeintlichen Grenzen der sogenannten „Künstlichen Intelligenz“ ist, liegt auf der Hand. Als erwachsener Mensch mit einem bestimmten schulischen Bildungsniveau (in diesem Fall wohl Grundschulbildung) verstehen wir sofort, was bei dieser Aufgabe zu tun ist. Für viele Nicht-Analphabet:innen wird es überhaupt kein Problem sein diese Frage richtig zu beantworten, auch ohne sich zuerst bewusst einen Lösungsweg mental zurechtlegen zu müssen. Da steckt aber noch mehr darin, denn an diesem Beispiel können wir auch erkennen, dass es bestimmtes Wissen und Können gibt, das uns so selbstverständlich ist, dass wir darüber schmunzeln, wenn es eine vermeintlich „intelligente“ Maschine nicht hinbekommt. Dabei sollten wir nicht unterschlagen, dass es auch erwachsene Menschen gibt, die diese Aufgabe nicht lösen können.
Wir sind in der Regel (fast) alle durch ein Schulsystem sozialisiert worden, dessen Inhalte größtenteils vereinheitlicht und vorgegeben sind. Das kann ein Grund dafür sein, weshalb wir als Absolvent:innen eines solchen Schulsystems eine doch recht ähnliche Vorstellung davon haben, was „man“ so kann. Es gibt aber ja auch Menschen, die aus diversen Gründen diesen Weg nicht gegangen und die damit verbundenen Erfahrungen nicht gemacht haben. Sei es, dass sie in einem anderen Land und/oder zu einer anderen Zeit aufgewachsen sind.
Dass eine vermeintlich schlaue KI an solch einer „banalen“ Aufgabe, wie dem Zählen von Buchstaben scheitert, könnte uns auch daran erinnern, dass Wissen und Können erst gelernt werden muss. In diesem Sinne kann das obige Beispiel auch ein interessanter Gesprächsanlass für das Thema Bildungsungleichheit und -heterogenität sein, weil es unser Weltbild so schön irritiert.
„Lautes Denken“
In der Pädagogik kennt man die Methode des Lauten Denkens↗ . Bei dieser Methode wird laut ausgesprochen, was man denkt. Dadurch sollen kognitive Vorgänge, die ansonsten implizit und unausgesprochen ablaufen, „sichtbar“ gemacht werden. Unser Beispiel oben erinnert mich sehr stark an diese Methode, bei der die Verbalisierung eines Denkprozesses dabei hilft, einen anderen Blick auf eine Sache zu bekommen. In unserem Fall hilft es der generativen KI einen Lösungsweg für eine Aufgabe zu aktivieren, dem sie beim Lernen schon einmal begegnet ist, der aber durch eine sehr kurze und reduzierte Eingabe (sog. 0-shot Prompt) statistisch nicht relevant genug ist, um dadurch aktiviert zu werden.
Unterrichten
Darüber hinaus zeigt dieses Beispiel, so denke ich, ebenfalls ssehr schön, wie selbst ein sehr mächtiges und sehr umfangreich trainiertes KI-Model an scheinbar banalen Aufgaben scheitert. Aber, und das finde ich hier eine weitere interessante Dimension, kann der/die Anwender:in der KI mit einem einfachen Tipp auf die Sprünge helfen. Als wäre die KI unser:e Schüler:in. Wieso eigentlich nicht? Im aktuellen Diskurs geht es ja fast ausschließlich darum, wie generative KI als mächtiges Werkzeug uns helfen kann. Aber warum nicht selbst die eigene Rolle wechseln und der generativen KI „helfen“? Unterricht als eine Handlung gegenseitiger Empathie kann vielleicht auch in der Interaktion zwischen Mensch und Maschine eine wertvolle Wirkung entfalten.
Credits:
Beitragsbild generiert mit aramintak/bandw-manga↗