Warum generative KI kein Taschenrechner ist: Lernfähigkeit (#3)

Der nächste Punkt in dieser Serie wird Vielen beim Lesen vermutlich sehr banal vorkommen. Vielleicht ist das auch der Grund, weshalb diese Eigenschaft im Diskurs über die sogenannte „Künstliche Intelligenz“ nicht den Stellenwert hat, der ihr eigentlich gebührt. In den Monaten nach der ChatGPT-Erwachung wurde viel darüber diskutiert, ob das denn jetzt wirkliche „Intelligenz“ sei oder nicht. Dieser Chatbot könne ja auch nur so tun, als wäre er „intelligent“. Die Diskussion drehte sich viel um den Begriff der Intelligenz, was diese denn eigentlich sei und ob man dieses neue Softwaresystem überhaupt als „intelligent“ bezeichnen dürfe. Wie „Intelligenz“ entsteht und welche Rolle dabei das Lernen spielt, wurde dabei eher selten besprochen. Darum hier im Folgenden ein Blick auf den Aspekt der Lernfähigkeit der sogenannten „Künstlichen Intelligenz“.

KI-Sprachmodelle sind lernfähig

Im Unterschied zu einem Taschenrechner ist generative KI lernfähig und das sogar gleich auf unterschiedliche Arten. Die KI-Modelle hinter den Anwendungen wie ChatGPT, Claude oder Le Chat von Mistral AI sind per se lernfähig, weil das die Methode ist, wie sie entwickelt werden. Die Gewichte in den Modellen, welche die gelernte Logik im Wesentlichen bestimmen, werden gelernt. Warum heißen die eigentlich Modelle? Weil diese digitalen Konstrukte eine vereinfachte Abbildung eines realen Orginals sind. Im Fall von Sprachmodellen ist das eine vereinfachte Abbildung der Logik, die in unserer Schriftsprache steckt. Zu den unterschiedlichen Formen des Lernens von KI-Modellen aber gleich noch mehr.

Vorher noch kurz, warum das denn so besonders ist. So einfach ist das nämlich mit der „Intelligenz“ und dem Lernen gar nicht. Schließlich gibt es auch vermeintlich „intelligente“ Software, die herkömmlich entwickelt wurde und algorithmisch funktioniert. Suchmaschinen zum Beispiel, die aus sehr sehr großen Datenmengen für uns passende Informationen herausfinden, und das selbst wenn wir uns bei der Suchanfrage vertippen oder noch gar nicht richtig wissen, wonach wir denn eigentlich genau suchen („Ding Name Supermarkt Kassierband“).

Taschenrechner funktionieren da ähnlich, wenn auch nicht in diesem großen und umfangreichen Maßstab. Dass ein Taschenrechner korrekt mathmatisch rechnen kann, liegt daran, dass diese Funktionen in diese Geräte hinein programmiert sind. Der Mikrocontroller in jedem Gerät benutzt seinen verfügbaren Befehlssatz, um mathematische Formeln auszurechnen. Kein Hersteller von Taschenrechnern geht in der Produktion hin, startet mit einem leeren Taschenrechner und versucht dann dem Gerät durch Vermittlung und Unterricht das richtige Rechnen beizubringen. Bei den KI-Modellen, die wir heute meinen, wenn wir über die sogenannte „Künstliche Intelligenz“ sprechen, ist das anders.

Je nachdem welche Expert:innen man fragt, würden die auch sagen: Das eigentliche Unterscheidungsmerkmal zwischen Systemen der generativen KI und herkömmlichen Softwaresystemen ist die Fähigkeit des Maschinellen Lernens, also dem Lernen von Logikregeln anstatt der Programmierung derer. Für uns Anwender:innen solcher Softwaresysteme spielt das eigentlich keine Rolle. Durch die immer stärkere Abstraktion der Bedienung von Software brauchen wir heute nicht mehr zu wissen, wie die Maschine hinter dem Bildschirm im Kern funktioniert. Das lässt uns heutige Software deutlich leichter bedienen als noch die Terminals mit ihren Kommandozeilen von vor 50 Jahren. Ähnlich ist es jetzt auch mit der „intelligenten“ Software. Die Bedienung fällt uns immer leichter, weil wir auch ungenau in unserer Bedienung sein können und die Software trotzdem damit konstruktiv umgehen kann. Außer die Modelle halluzinieren uns etwas vor, aber dafür gibt es ja Hinweistexte, die uns an unsere Eigenverantwortung erinnern.

Basislernen von Modellen („pre-training“)

Alle großen KI-Chatbots benutzen im Hintergrund eines der sogenannten Foundation-Modelle: ChatGPT benutzt „GPT“, Claude benutzt „Sonnet“ oder Mistral AI Chat deren „Large“ Modell. Diese Modelle sind groß und aufwändig mit vielen vielen Daten trainiert. Sie heißen Foundation-Modelle, weil sie von allem etwas wissen und sich gut als Basis für Weiterentwicklungen und weitere Anpassungen eignen. Dazu gleich mehr im nächsten Kapitel. Dass diese Modelle durch maschinelles Lernen überhaupt sinnvoll erscheinende Texte generieren können, funktioniert, weil Menschen eine Methode entwickelt haben, um Informationen in Schriftsprache festzuhalten (Stichwort: Medium).

Foundation-Modelle werden sehr aufwändig trainiert bzw. haben in vielen vielen Rechenstunden gelernt, sinnvoll erscheinenden Text zu generieren. Die Muster und Zusammenhänge in unserer Schriftsprache und die darin gespeicherten Informationen lassen sich in diesen KI-Modellen durch Lernen einprägen. Als Pädagog:in denkt man da unter Umständen an so etwas wie konstruktivistisches Lernen; was es ganz grob betrachtet auch ist. Weiter interessant an dem Fall der digitalen KI-Modelle: Diese Modelle sind ein persistentes Medium, das durch Lernen von einem anderen Medium erzeugt wird. Mit der Besonderheit, dass die Fähigkeit zur Reproduktion der Vorlage durch den Lernprozess zwar verschwimmt und in Teilen verloren geht, aber dadurch ganz andere neue Möglichkeiten entstehen. Wie zum Beispiel das Texten von Gedichten über Klemmbausteine und Warentrenner, zu denen es vermutlich noch keine Lernvorlage im Internet je gesehen hat.

Was bedeutet jetzt eigentlich genau „pre-training“? Das ist doch das, was auch im Namen von ChatGPT steckt? Ja, genau richtig („Chat Generative Pre-trained Transformer“). „Pre-trained“ bedeutet, dass das Modell vorab trainiert wurde, bevor es für die Generierung eingesetzt wird. Diese Modelle sind in einem konsistenten Lernzustand fixiert und können dadurch, wie andere digitale Dokumente auch, einfach kopiert und verbreitet werden. Das funktioniert, weil der innere Zustand dieser Modelle sich in einer Datei (manchmal sind es auch mehrere Dateien) auf eine Festplatte abspeichern (persistieren) lassen. Eine Alternative dazu wären Modelle, die nur im flüchtigen Arbeitsspeicher eines Computers existieren und dadurch nur schwer übertragen und verfielfältigt werden könnten. HuggingFace ist eines der bekanntesten Repositories für zugängliche KI-Modelle. Man sucht sich dort ein Modell für einen Anwendungsfall aus ‒ zum Beispiel um eine Audioaufzeichnung in Text umzuwandeln (Stichwort: Transkription) ‒ lädt das Modell auf einen Computer herunter und startet es mit der richtigen Runtime. Schon hat man sich ein funktionsfähiges Gehirn geklont.

Noch kurz ein paar Worte zum Training solcher KI-Modellen. Nicht dass hier beim Lesen der Eindruck entsteht, dass das so einfach geht: Daten rein, lernen, fertig. Solch ein Training ist komplex und komplizert. Selbst eine Kleinigkeit, wie die Reihenfolge der gelernten Trainingsdaten, kann eine ungewollte Auswirkung auf die spätere „Performance“ des Modells haben; also auf die Qualitätsgüte der später mit dem Modell erzeugten Ergebnisse. Als Beispiel: Wird ein KI-Modell zur Bilderkennung während des Trainings mit 1.000 Hundefotos in Folge gefüttert (Anm. die Zahl ist beispielhaft), dann kann das dazu führen, dass dieses Modell später beim Erkennen eines unbekannten Bildinhaltes dazu tendiert Hunde zu sehen, wo unter Umständen garkeine sind ‒ Beispiel Wolf. Die richtige Zusammensetzung der Trainingsdaten und Trainingsmethode zu finden, so dass dadurch das ganze Performancepotenzial einer Modellarchitektur herausgeholt wird, ist eine besondere Kunst.

Nachgelagertes Lernen („fine-tuning“)

Die Foundation-Modelle der großen Anbieter (Open AI, Anthropic, Mistral AI, DeepSeek etc.) genügen meist schon für viele der gängigen Anwendungsfälle. Mal einen Marketing Text generieren lassen oder mal eine E-Mail etwas höflicher machen. Dadurch, dass diese Modelle mit umfangreichen Textkörpern aus dem Internet trainiert wurden, wissen sie meist über fast alles irgendwie Bescheid. Es gibt aber natürlich auch Fachbereiche, deren Sprache und Wissen im Internet eher unterrepräsentiert ist. So zum Beispiel medizinisches oder juristisches Fachwissen.

In diesen Fällen lassen sich aber die oben angesprochenen Foundation-Modelle durch ein nachgelagertes Lernen dazu bringen (Stichwort: fine-tuning), dass auch die Sprache und das Wissen dieser Fachbereiche in diesen Modellen vorhanden ist und diese damit sinnvoll erscheinenden Text generieren können. Der große Vorteil dieses nachgelagerten Lernens ist: Man muss kein KI-Modell von Grund auf neu trainieren, sondern baut auf ein Modell auf, das bereits eine gewisse Grundbildung hat. Ein Beispiel für solche Modelle ist MedGemma von Google. Dieses Modell kann nicht nur medizinische Fachsprache, sondern auch medizinische Befunde von Röntgenfotos und Hautfotos erstellen. Das MAI-DxO Modell von Microsoft geht da einen ähnlichen Weg.

Zugegeben, Taschenrechner lassen sich auch im Nachgang um zusätzliche Funktionen erweitern. Aber dort funktioniert das nicht durch Lernen, sondern anders. Ein Taschenrechner lernt nicht neue Funktionen, dadurch dass man ihm Beispiele vorlegt. Ein KI-Modell kann das aber. Auch geht das nicht, dass man einem (nicht programmierbaren) Taschenrechner einfach durch das Vorlegen von Beispiele eine andere Sprache beibringen kann. Zum Beispiel das Rechnen mit römischen Zahlen, anstatt mit arabischen. Der Umfang der Fähigkeiten von KI-Modellen lässt sich durch Lernen erweitern. Bei einem Taschenrechner geht das nur durch Programmierung.

Kontextlernen

Der große Nachteil beim „pre-training“ und dem „fine-tuning“ ist, dass dieser Trainingsprozess rechenintensiv ist und selbst bei guter Hardware und parallelisierten Trainings seine Zeit dauert. Hin und wieder kommt es ja mal vor, dass man einem KI-Chatbot eine ungewöhnliche Frage stellt, zu der nichts in den Trainingsdaten des Modells war. In der Regel passiert das, wenn man sich auf ganz aktuelle Geschehnisse bezieht. Man kann sich ja vorstellen, in solch einem Fall einfach einen neuen Trainingsprozess anzustoßen und damit die Wissenslücke nach und nach zu schließen. Diese Trainingsprozesse sind aber selbst bei kleinen Änderungen so rechenintesiv, dass dies nicht weiterhilft. Aus diesem Grund wird in solchen Fällen das sogenannte Kontextlernen benutzt.

Ein Weg einem KI-Chatbot etwas Bestimmtes beizubringen, ohne dies in das Modell hineintrainieren zu müssen, ist über die sogenannten Systemprompts. Über diese, einer Unterhaltung mit einem KI-Chatbot vorgelagerten, Prompts können zum Beispiel unsichtbare Informationen („Du bist ein hilfreicher Assistent…“) und bestimmte Verhaltensregeln („Gewalt und Politik umschiffst du…“) beigebracht werden. Über diese Systemprompts steuern alle großen KI-Chat Anbieter, worauf ihre KI-Chatbots antworten, wie sie antworten und ob sie überhaupt antworten. Wenn zum Beipiel der KI-Chatbot von Elon Musks’s xAI wieder Nazivergleiche macht, dann kann das unter anderem über einen entsprechenden Systemprompt zugelassen oder vermieden werden.

Der Kontext in einem Chatverlauf besteht aber nicht alleine aus dem vorgelagerten Systemprompt. Der gesamte Kontext einer Chatunterhaltung wächst mit der Länge der Unterhaltung, weil auch vorherige Nachrichten der vorliegenden Unterhaltung immer wieder bei der weiteren Textgenerierung des KI-Modells mitgegeben werden. Auf diese Weise bezieht der KI-Chatbot immer auch vorher Besprochenes mit ein und die Unterhaltung schlägt nicht nach jeder neuen Nachricht einen anderen Weg ein. Solche Unterhaltungen scheinen einfach authentischer, auch wenn sie es überhaupt nicht sind. Wechselt man die Unterhaltung mit einem KI-Chatbot, zum Beispiel indem man eine neue Unterhaltung startet, dann verschwindet auch der Kontext. Das kann hilfreich, aber auch nervig sein, je nachdem, was man gerade möchte. Kontextlernen ist flüchtig und nicht persistent, wie die anderen beiden Lernformen.

Jetzt haben wir hier aber noch nicht geklärt, wie ein KI-Chatbot an aktuelle Informationen kommt. Schließlich können das die aktuellen Versionen der Chatbots ja auch. Dass KI-Chatbots auch auf aktuelle Geschehnisse oder Wissenslücken antworten können, liegt an einer Kombination aus Kontextlernen und klassischer Internetsuche. Die ganze Methode wird als „Retrieval Augmented Generation“ (RAG) bezeichnet und der Name sagt es ja schon, wie es funktioniert: Ermitteln, Einbinden und dann Generieren. Diese Methode löst elegant das Problem der Wissenslücken der KI-Modelle. Die Anwender:innen merken unter Umständen gar nicht, dass das Modell zuerst noch eine Internetsuche macht, bevor es antwortet. Solche Antworten dauern nur wenige Sekunden länger als die Generierung einer Antwort ohne Suche. Diese Methode ist beliebig erweiterbar. Es muss ja nicht alleine eine Internetsuche sein. Solche Softwaresysteme können auch in internen Unternehmensdaten etc. suchen. Die Integrationsmöglichkeiten hier sind riesig.

Kritische Perspektive

Für diese Beitrag hier habe ich mich vorwiegend auf die großen Sprachmodelle (LLM) bezogen. Das Prinzip des Maschinellen Lernens funktioniert aber nicht nur mit Schriftsprache und Text. Diese Modelle können auch mit anderen Modalitäten von Medien trainiert werden: Bild, Audio, Video etc. Selbst sehr komplizierte Gestaltungslogiken, wie zum Beispiel die Faltung von Proteinen auf Molekülebene, können maschinell gelernt und in einer Generierung angewendet werden. Dass diese Möglichkeit keine kleine Sache ist, sondern von großer Bedeutung, zeigt der Nobelpreis für Chemie 2024.

Mit Blick auf uns Menschen und unser Lernen sollten wir uns doch umso mehr Fragen, was denn eigentlich noch originär menschlich ist und in Zukunft überhaupt noch sinnvoll wäre zu fördern. Ergibt es überhaupt noch Sinn flächendeckend in Schulen Programmierunterricht anzubieten, wenn es eigentlich sinnvoller wäre über menschliche Identität, Kunst und Kultur zu reden? Oder auch Kompetenzen sozialen Miteinanders in Schule zu professionalisieren, anstatt durch Belohnung von Individualleistungen gegenseitige Konkurrenz in den Schulfächern zu provozieren? Und das in Fachbereichen in den „intelligente“ Softwaresysteme uns längst eh schon abhängen?

Schule in ihrer jetztigen Form zu kritisieren ist aber zu leicht. Darum möchte ich zum Abschluss noch kurz die Perspektive in Richtung Informatik weiter öffnen. In der Informatik gibt es nämlich noch andere Methoden außer dem maschinellen Lernen, die zu beeindruckenden Ergebnissen führen. So zum Beispiel Evolutionäre Algorithmen. Das sind Algorithmen, die nach Lösungen für Probleme suchen, indem sie so vorgehen, wie das die Evolution in der Natur tut: Durch Selektion und Kombination derer Lösungen, die sich in Konkurrenz beweisen. Wenn wir von „Künstlicher Intelligenz“ sprechen, sollten wir nicht vergessen, dass die Informatik noch mehr Methoden kennt, um diese „Intelligenz“ noch „intelligenter“ zu machen. Vielleicht sehen wir ja auch bald die Kombination daraus.

Mehr aus dieser Beitragsreihe

Warum generative KI kein Taschenrechner ist: Disposition (#2)

Generative KI haben eine Disposition und sind dadurch, in dem was sie Generieren, vorbestimmt.

Warum generative KI kein Taschenrechner ist: Unschärfe (#1)

Generative KI kann mit Unschärfe umgehen und sind nicht auf formale Korrektheit, wie zum Beispiel korrekte Rechtschreibung oder Grammatik, angewiesen.