Generative künstliche Intelligenz: LLMs | Spotlight

Willkommen zum zweiten Teil meines Beitrags über generative künstliche Intelligenz (GenAI) im Rahmen unserer Spotlight-Serie. In diesem Teil beschäftige ich mich eingehender mit den unterschiedlichen Technologien und Konzepten hinter den Large Language Models (LLMs) und erläutere, was diese Modelle genau sind, wie sie funktionieren und welche interessanten Varianten es gibt – von Multimodalen Modellen bis hin zu Mixture-of-Experts-Ansätzen.

Auch diesmal habe ich wieder spezielle Suchprompts für die AI-Suchmaschine Perplexity.ai verlinkt, in denen du weiterführende Erläuterungen zu den einzelnen Punkten findest.

Übrigens: Teil 1 zum Thema „Wissenswertes zur generativen künstlichen Intelligenz (GenAI)“ kannst du hier nachlesen.

Was sind Large-Language-Modelle?

Large Language Models sind eine besondere Art von neuronalen Netzen, die speziell für die Verarbeitung von Text entwickelt wurden und die darauf trainiert sind, menschliche Sprache zu verstehen und zu generieren. Man könnte sagen, sie sind wie ein riesiger Wortgenerator, der das Gelernte nutzt, um sinnvoll auf Fragen, Anfragen oder Kommandos zu reagieren.

Um diesen „Bibliothekar“ zu trainieren, wird ein Modell mit einer enormen Menge an Textdaten gefüttert – das sind Bücher, Artikel, Forenbeiträge, Webseiten und so weiter. Je mehr Informationen das Modell hat, desto besser kann es Muster und Bedeutungen in der Sprache erkennen.

Um neuen Text zu generieren, nimmt das Modell einen Ausgangs- oder „Seed“-Text. Es analysiert, welches Wort als Nächstes am wahrscheinlichsten kommt, basierend auf dem, was es aus dem Training gelernt hat. Das Modell wählt ein passendes Wort oder eine Wortfolge aus und fügt sie zum bestehenden Text hinzu. Dieser Prozess wiederholt sich, wobei das Modell immer wieder das neue Wort in Relation zum bisherigen Text setzt, bis der gewünschte Textabschnitt oder die maximale Länge erreicht ist. (mehr)

Was ist ein GPT?

Ein GPT (Generative Pre-trained Transformer), wie in ChatGPT, gehört zur Familie der Large Language Models. Es nutzt eine spezielle Architektur namens „Transformer“, die es ihm ermöglicht, den Kontext und die Bedeutung von Wörtern in Sätzen zu erkennen.

Heutige LLMs sind meistens transformatorbasierte Modelle, die sich als äußerst effektiv für die Verarbeitung von Text und Sprache erwiesen haben. Dank des „Self-Attention“-Ansatzes verstehen sie den Kontext und die Beziehungen zwischen Wörtern viel besser als frühere Modelle.

Bei der Self-Attention analysiert das Modell jedes Wort und identifiziert, welche anderen Wörter im Satz wichtig sind, um die Bedeutung zu erfassen. Dabei wird jedem Wort ein Gewicht zugewiesen, basierend darauf, wie wichtig es im Kontext der anderen Wörter ist. Das ist entscheidend, weil der Kontext oft die Bedeutung eines Wortes beeinflusst. Zudem können Transformer die gesamte Eingabe auf einmal verarbeiten, was sie effizienter und schneller macht. Ihre Leistung verbessert sich mit der Datenmenge – je mehr Informationen sie haben, desto besser funktionieren sie.

Stell dir vor, du hast ein riesiges Puzzle. Der Transformer ist wie eine Person, die in der Lage ist, gleichzeitig an mehreren Teilen des Puzzles zu arbeiten und immer die besten Verbindungen zwischen den Teilen zu erkennen. Egal, wie viele Teile oder Farben es gibt, die Person kann den Überblick behalten und das Bild schneller und klarer zusammensetzen. Der Transformer macht das halt mit Wörtern und Sätzen. (mehr)

Was sind Mixture-of-Experts-Modelle?

Mixture-of-Experts (MoE) Modelle sind Ansätze, die darauf abzielen, unterschiedliche Expertensysteme zu kombinieren, um bessere Vorhersagen zu treffen. Im Wesentlichen besteht ein MoE aus einer Gruppe von Experten (also verschiedenen Modellen oder Algorithmen), die jeweils auf spezifische Daten oder Aufgaben spezialisiert sind. Ein „Gate“ oder eine Entscheidungseinheit entscheidet, welcher Experte für einen bestimmten Input am besten geeignet ist.

Der Prozess funktioniert folgendermaßen: Wenn ein neuer Input eingeht, bewertet das Gate die verschiedenen Experten und wählt einen oder mehrere aus, die am relevantesten sind. Das bedeutet, dass das Modell nicht einfach alle Experten gleichmäßig berücksichtigt, sondern gezielt die, die am wahrscheinlichsten die beste Antwort liefern können.

Um das zu veranschaulichen: Stell dir vor, du hast ein Team von Fachleuten, die in verschiedenen Bereichen Expert*innen sind – einer ist ein Koch, eine andere eine Mechanikerin und ein dritter ein Lehrer. Wenn du also ein Problem hast, das mit Kochen zu tun hat, wirst du den Koch fragen. Bei Problemen mit Autos wäre die Mechanikerin die beste Wahl. Das MoE-Modell funktioniert ähnlich: Es nutzt die Expertise der verschiedenen „Fachleute“ optimal aus, um die besten Ergebnisse zu erzielen.

Mittlerweile präferieren viele Hersteller den MoE-Ansatz. Bei Grok-1 von xAI und Mixtral von Mistral ist es offiziell bekannt und es gibt Gerüchte, dass auch OpenAI bei GPT-4 und Google Gemini auf die MoE-Technologie setzen. (mehr)

Was sind multimodale Modelle?

Multimodale Modelle sind KI-Modelle, die verschiedene Arten von Informationen oder „Modi“ kombinieren, um bessere Ergebnisse zu erzielen. Häufig wird zwischen textuellen, visuellen, akustischen und anderen Datentypen unterschieden. Anstatt sich nur auf ein einzelnes Informationsformat zu konzentrieren – wie nur Texte oder nur Bilder – können diese Modelle miteinander interagieren und voneinander lernen.

Ein gutes Beispiel für ein multimodales Modell ist eine KI, die Bilder und Text analysiert, um das soziale Medien-Marketing zu optimieren. Wenn sie ein Bild eines Produkts sieht, kann sie den dazugehörigen Text lesen, um den Kontext zu verstehen. Das Modell kann dann bessere Marketingstrategien vorschlagen, die sowohl auf den Bildern als auch auf der Beschreibung basieren, was letztendlich die Effektivität der Werbung steigert. (mehr)

Was sind Base Models und Foundation Models?

Base Models sind im Wesentlichen die grundlegenden Modelle, die entwickelt werden, um eine spezielle Aufgabe zu erledigen, wie Textverarbeitung oder Bildklassifikation. Sie werden auf einem spezifischen Datensatz trainiert und sind oft für bestimmte Anwendungen optimiert. Diese Modelle dienen als Basis, auf der weitere Anpassungen oder Feinabstimmung („Fine-tuning“) durchgeführt werden können, um ihre Leistung für eine bestimmte Aufgabe zu verbessern.

Foundation Models hingegen sind viel umfassender. Sie sind große, vortrainierte Modelle, die auf enormen und vielfältigen Datensätzen trainiert werden und in der Lage sind, eine Vielzahl von Aufgaben zu bewältigen, ohne zwingend auf eine spezielle Anwendung optimiert zu sein. Der Begriff „Foundation“ deutet darauf hin, dass diese Modelle eine Art Fundament für viele verschiedene Anwendungen bilden können. Sie können in verschiedenen Bereichen verwendet werden, oft ohne dass man sie tiefgreifend anpassen muss.

Der Hauptunterschied liegt also in der Größe und dem Verwendungszweck der Modelle: Base Models sind oft kleiner und spezifischer, während Foundation Models breiter angelegt und auf mehrere Aufgaben anwendbar sind.

Stell dir vor, ein Base Model ist wie ein Rezept für einen speziellen Kuchen, während ein Foundation Model eine gesamte Kochbuch-Sammlung ist, die dir Rezepte für alle möglichen Arten von Speisen bietet. Du kannst mit dem Kochbuch viele verschiedene Gerichte ausprobieren, ohne dich nur auf einen speziellen Kuchen zu beschränken.

Was ist Fine-Tuning?

Fine-Tuning ist der Prozess, bei dem ein bereits vortrainiertes Modell auf eine spezifische Aufgabe oder einen bestimmten Datensatz angepasst wird. Anstatt ein Modell von Grund auf neu zu trainieren, nutzt man die bereits erlernten Informationen, um das Modell effizienter auf die neue Aufgabe auszurichten. Dies kann durch das Retraining spezifischer Schichten des Modells geschehen, wobei häufig die letzten Schichten angepasst werden, um sich auf die neue Datenbasis zu konzentrieren.

Der Vorteil des Fine-Tunings liegt darin, dass es viel schneller und ressourcensparender ist, weil das Modell bereits über umfassende, allgemein gültige Informationen verfügt. Oft wird beim Fine-Tuning eine niedrigere Lernrate (mehr) verwendet, um sicherzustellen, dass die zuvor gelernten Muster nicht verloren gehen, während das Modell neue Informationen verarbeitet.

Ein praktisches Beispiel: Wenn du ein Kochbuch deiner Ur-Ur-Großmutter gefunden hast, das viele traditionelle Rezepte enthält, könntest du ein vortrainiertes Modell verwenden und es mit ihren speziellen Rezepten „fine-tunen“. Dadurch lernt das Modell, die traditionellen Zubereitungsmethoden und Zutaten zu verstehen und kann sie nutzen, um authentische und moderne Varianten dieser Gerichte zu erstellen. Wie man das im OpenAI Playground selbst machen kann, erfährst du hier.

Was ist Transfer-Learning?

Transfer-Learning ist eine Methode im Bereich des maschinellen Lernens, bei der ein vortrainiertes Modell, das ursprünglich auf einer spezifischen Aufgabe trainiert wurde, zur Lösung einer anderen, oft verwandten Aufgabe eingesetzt wird. Das zugrunde liegende Prinzip beruht auf der Idee, dass das Wissen und die Muster, die während des Trainings für die erste Aufgabe erlernt wurden, auch in der zweiten Aufgabe von Bedeutung sein können. Dieser Ansatz ermöglicht erhebliche Einsparungen an Zeit und Rechenressourcen, da es nicht notwendig ist, das Modell von Grund auf neu zu trainieren.

Stell dir vor, du bist ein Lehrer, der einem Schüler das Lösen von Matheaufgaben vermittelt. Wenn der Schüler das grundlegende Konzept des Addierens verstanden hat, wird es ihm wesentlich leichter fallen, auch das Subtrahieren zu erlernen, da zwischen diesen beiden Aufgaben viele Gemeinsamkeiten bestehen. Im Fall von Transfer-Learning nutzt das Modell das Wissen, das es aus der ersten Aufgabe, wie dem Erkennen von Tieren in Bildern, gewonnen hat, um bei einer anderen Aufgabe, beispielsweise dem Erkennen von Pflanzen, bessere Ergebnisse zu erzielen.

Ein praktisches Beispiel: Angenommen, du hast ein Modell entwickelt, das in der Lage ist, Bilder von Katzen und Hunden zu erkennen. Mit Hilfe von Transfer-Learning könntest du dieses Modell anpassen, um zusätzlich andere Tiere zu identifizieren, ohne es vollständig neu trainieren zu müssen. Dabei würdest du die bereits erlernten Parameter des Modells beibehalten und gezielt nur die letzten Schichten anpassen, um zum Beispiel Vögel zu erkennen. So kannst du schneller und effizienter zu einem resultierenden Modell gelangen, das in der Lage ist, verschiedene Tierarten zu klassifizieren. (mehr)

Warum gibt es bei Open Source LLMs häufig eine Text-Variante und eine Instruct-Variante?

Die „Text“-Modelle sind darauf ausgelegt, allgemeinen Text zu erzeugen. Sie sind trainiert, um Wörter und Sätze in einem breiten Kontext zu generieren, basierend auf dem, was sie über Sprache und Inhalte gelernt haben. Diese Modelle sind in der Lage, Geschichten zu erzählen, Artikel zu verfassen oder Informationen zusammenzufassen. Sie sind sehr vielseitig, bieten jedoch nicht immer die präziseste oder spezifischste Antwort auf Anfragen.

Die „Instruct“-Modelle hingegen sind spezifisch darauf optimiert, Anweisungen zu befolgen. Diese Modelle haben ein zusätzliches Fine-Tuning durchlaufen, um besser auf klar formulierte Fragen und konkrete Aufgaben zu reagieren. Durch dieses gezielte Training verstehen sie, was konkret gewünscht ist, und liefern präzise, zielgerichtete Antworten. Sie sind darauf ausgerichtet, den Benutzeranfragen effektiv zu folgen, sodass du beispielsweise besser von ihnen lernen oder spezifische Aufgaben effizienter bewältigen kannst. Oft sind die „Text“-Modelle die Basis, auf der durch dieses spezielle Feintuning die „Instruct“-Modelle entwickelt werden.

Ein praktisches Beispiel: Stell dir vor, du möchtest ein Rezept für ein bestimmtes Gericht finden. Das „Text“-Modell könnte dir eine allgemeine Beschreibung oder eine Geschichte über das Gericht liefern und dabei kreativ sein. Das „Instruct“-Modell hingegen würde dir direkt eine Schritt-für-Schritt-Anleitung zur Zubereitung des Gerichts geben, weil es speziell darauf trainiert wurde, auf solche präzisen und spezifischen Anfragen zielgerichtet zu reagieren.

Warum gibt es oft Probleme mit Voreingenommenheit?

Voreingenommenheit und Verzerrungen (Bias) in Künstlicher Intelligenz entsteht, wenn die zugrunde liegenden Daten, mit denen eine KI trainiert wird, Vorurteile oder Ungleichgewichte widerspiegeln. Diese Daten können menschliche Vorurteile, historische Ungerechtigkeiten oder unzureichende Vertretung bestimmter Gruppen enthalten. Wenn das KI-Modell aus solchen verzerrten Daten lernt, reproduziert es diese Fehler in seinen Entscheidungen oder Vorhersagen.

Ein häufiges Beispiel ist die Gesichtserkennung, die möglicherweise schlechtere Ergebnisse bei Personen dunklerer Hautfarbe erzielt, wenn die Trainingsdaten vorwiegend aus Bildern von hellhäutigen Menschen bestehen. Das liegt daran, dass die KI nicht genügend Beispiele hat, um verschiedene Hauttöne korrekt zu identifizieren und zu lernen.

Stell dir vor, du hast eine KI, die eine Bewerbungssoftware für Firmen erstellt. Wenn die Trainingsdaten hauptsächlich aus erfolgreichen männlichen Bewerbern bestehen, könnte die KI fälschlicherweise die Annahme treffen, dass Männer automatisch besser geeignet sind – und somit Frauen benachteiligen. (mehr)

Ein sehr aktuelles Beispiel für Verzerrungen bei Chatbots hat OpenAI gerade veröffentlicht. Dabei hat OpenAI festgestellt, dass die Antworten von ChatGPT, wenn z.B. der Benutzername „John“ verwendet wird, zu allgemeinen Themen wie „Lebenshacks“ führen können, während der Name „Amanda“ häufig in eine Richtung von „Kochrezepten“ lenkt, was auf subtile Geschlechterstereotypen hinweist und somit Anlass zur weiteren Untersuchung und Verbesserung der Fairness in der KI gibt. (Quelle)

Warum halluzinieren LLMs?

LLMs (Large Language Models) halluzinieren, was bedeutet, dass sie unbegründete oder falsche Informationen erzeugen. Dies geschieht aufgrund der Methoden, mit denen sie trainiert werden. Sie lernen Muster aus enormen Mengen an Textdaten und versuchen dann, wahrscheinliche Textfortsetzungen zu generieren. Gelegentlich können sie jedoch Kontext oder Fakten falsch interpretieren oder besitzen nicht genügend konkrete Informationen zu einem Thema. In solchen Fällen versuchen sie, Wissenslücken zu schließen, was oft zu inkorrekten Antworten führt. Darüber hinaus ist es wichtig zu beachten, dass LLMs nicht „verstehen“ im menschlichen Sinne, sondern lediglich statistische Muster erkennen und replizieren, ohne ein tatsächliches Verständnis der Inhalte zu haben.

Um Halluzinationen zu reduzieren, kann man den Parameter Temperatur bei Anfragen verringern. Eine niedrigere Temperatur führt dazu, dass das Modell vorsichtiger mit den generierten Antworten umgeht und sich auf wahrscheinliche, vorhersehbare Ergebnisse konzentriert. Eine höhere Temperatur steigert dagegen die Kreativität und Diversität der Antworten, bringt jedoch ein höheres Risiko für Halluzinationen und ungenaue Informationen mit sich.

Stell dir vor, du bist in einem Quiz und bekommst eine Frage zu einem sehr seltenen Tier, von dem du noch nie gehört hast. Mit einem niedrigeren „Temperatur“-Wert könnte das Modell einfach sagen: „Ich kenne dieses Tier nicht.“ Bei einem höheren Temperaturwert hingegen könnte es ein erfundenes, aber lebhaftes Bild davon erzeugen, möglicherweise inspiriert von anderen Tieren, die es kennt. Komplett abstellen lassen sich Halluzinationen aber leider nicht.