Es gibt ein Prinzip, das für die heutige Welt der KI sehr wichtig ist. Neuronale Netze werden in hohem Maße von der Rechenleistung angetrieben. Die Entwicklung des Deep Learning zeigt, dass rechenintensive Modelle wesentlich hilfreicher sind als der Versuch, menschliches Wissen in Algorithmen abzubilden. Gerade der Boom der LLMs hat wieder gezeigt, dass mehr Rechenleistung mehr Qualität schafft. Und wenn wir über Skalierung und LLMs sprechen, kommen wir um eine Hypothese nicht herum: die Skalierungshypothese (von LLMs).
The Scaling Hypotheses
Die Hypothese der Skalierbarkeit ist der eigentliche Grundstein für den Boom der LLMs. Das Herzstück der LLMs ist der Attention-Mechanismus mit der Transformer-Architektur. Beides sind Technologien, die um 2017 erfunden wurden. Der Durchbruch kam später. Als wir mit dem Transformer weiterarbeiteten, entdeckten wir ein wichtiges Muster. Es scheint, dass die Fähigkeiten von KI-Modellen linear mit der Anzahl der Parameter, der Trainingsdaten und der Rechenleistung steigen. Im Grunde ist das sehr radikal. Wenn es uns gelingt, eine einheitliche Architektur zu finden, sind die einzigen wichtigen Zutaten nur noch Rechenleistung und Daten. Ein schwaches neuronales Netz kann mit mehr Daten, längerem Training und mehr Parametern intelligenter gemacht werden. Das war und ist ein radikaler Ansatz. Aus Forschungssicht ist er auch widersprüchlich, fast zu einfach. Es hätte auch große Auswirkungen auf die Intelligenz im Allgemeinen. Es gibt nicht viel Besonderes, Einzigartiges an der Intelligenz, es ist einfach viel Training mit vielen Daten auf einem großen Gehirn.
GPT 3
Die Architektur der GPT war nicht besonders. Sie war auch nicht für spezielle Aufgaben konzipiert. Dennoch war OpenAI ein starker Verfechter der Skalierbarkeitshypothese, zu ihrem eigenen Erfolg. Sie hatten auch Daten, die das sehr gut belegten. Sie zeigten auch, dass wir noch weit von den Grenzen entfernt waren. Gerade die Idee der Leistungssteigerung durch Pretraining und die Bedeutung der Basismodelle stammen aus dieser Zeit. Und doch brauchte es erst eine Anwendung wie ChatGPT, damit es alle auf einmal machen wollten, sogar Google.
Wenn man aber die Theorie der Forschung verlässt, merkt man sehr schnell, dass große Modelle verdammt schwer für die breite Anwendung bereitzustellen sind. Aber wie wir bei ChatGPT gesehen haben, braucht es den Zugang der breiten Masse, um die Investitionen zu rechtfertigen. Aber die Dinge haben sich geändert.
Mehr Daten
Das erste, was fiel, ist die Anzahl der Parameter. Man kann die Parameter effizienter trainieren. Genau diese Entwicklung kam aus der Richtung von Deepmind. Im Chinchilla Paper wurde das beschrieben. 20:1 Token pro Parameter war die grobe Einteilung. Es sollte also nur die Datenmenge wachsen, nicht unbedingt die Parameter.
Wie wichtig dies im Nachhinein war, wird erst jetzt deutlich. Die verwendeten Datenmengen waren groß, aber nicht unüberwindbar. Einige Terabyte kann man heute schon als Laie speichern. Die Kunst des Training Clusters ist auch eine Frage der Skalierung, also ein Handwerk und keine Magie. OpenAI musste es auf die harte Tour lernen. Sie hatten keinen Burggraben, der sie vor der Konkurrenz schützte. So dauerte es nur ein halbes Jahr, bis die Konkurrenz aufholte.
Ende 2024 werden wir aber auch hier an Grenzen stoßen. So gibt es Gerüchte, dass der GPT-4-Nachfolger Orion schlechtere Ergebnisse erzielt als seine Vorgänger. Auch bei Anthropic und Google ist dies der Fall. Grob gesagt stoßen wir an eine weitere Grenze: Daten. Wir haben von Wikipedia auf das gesamte Internet skaliert. Die besten Datensätze werden bereits genutzt. Uns gehen schon die Worte aus, um die Welt zu beschreiben. Neue Datenquellen werden auch nicht so schnell erschlossen. Die Ökonomie des Internets, die Grundlage, dass Menschen ihr Wissen frei zur Verfügung stellen, wird immer mehr verzerrt. Das Internet ist zu dedizierten Content-Fabriken mutiert, die durch KI nur noch befeuert werden. Je mehr KI zum Einsatz kommt, desto schwieriger wird es, die Menge an kuratierten, qualitativ hochwertigen menschlichen Inhalten zu finden. Es gibt also nur noch eine offene Dimension: Rechenleistung.
Test Time Compute
Aufgrund der begrenzten Datenlage verschiebt sich der Schwerpunkt vom Training hin zur Inferenz. Reasoning und Agenten sind die neuen Schlagworte. Ersteres bedeutet, dass das Modell einfach eine Menge Token erzeugt, bevor es eine Antwort gibt. Das ist genau das, was Menschen tun, wenn sie über ein Problem nachdenken und nicht nur aus dem Bauch heraus entscheiden. Der zweite Ansatz nutzt eine tiefere Integration von LLMs mit Datenquellen während der Interferenz, um bessere Entscheidungen durch Interaktion mit der Umgebung zu erzielen. Dies ist letztlich auch etwas, was wir Menschen tun, indem wir Informationen suchen und mit der Welt interagieren.
OpenAI’s o3 zeigt wieder einmal, dass man aus diesem Reasoning Leistung herausholen kann. Rechenleistung ist also das einzige Ventil, mit dem wir im Großen und Ganzen noch mehr erreichen können. Das ist gut und schlecht zugleich.
Moore‘s Law is (not) Dead
Der große Vorteil ist, dass wir im Bereich der Hardware immer wieder große Fortschritte machen. Die Hardware wird schneller, die Algorithmen werden effizienter, die Cluster werden besser. Gleichzeitig läuft das aber auch gegen die LLMs. So haben wir das Problem, dass die Bereitstellung der Modelle immer komplexer wird. Je länger ein Modell mit der Bearbeitung einer Anfrage beschäftigt ist, desto weniger Nutzer können eine Instanz pro Stunde bearbeiten. Gleichzeitig dürfen wir aber nicht vergessen, dass gerade die öffentliche Bereitstellung von KI, alias ChatGPT, der Grund für den Boom und die hohen Investitionen in KI war. Das würde sich natürlich sofort ändern, wenn so etwas wie das Mooresche Gesetz, also die Verdoppelung der Transistoren auf Chips alle 2 Jahre, aufhören würde. Im Moment schaffen wir das noch ganz gut mit der Verkleinerung der Transistoren.
Mehr Leistung
Es muss aber auch gesagt werden, dass das Moore’sche Gesetz relativ ungenau definiert ist, so dass es viel Spielraum für Flexibilität gibt. Die Leistungssteigerung wird noch einige Zeit andauern, da hier viel Kapital gebunden ist. Weniger vage sind die Dennard scaling und das Koomey’s law. Die Dennard-Skalierung besagt, dass die Leistungsdichte von Transistoren konstant bleibt, während die Größe der Transistoren abnimmt. Kommeys Gesetz beschreibt, dass sich die Anzahl der Berechnungen pro Joule alle 1,5 Jahre (früher) verdoppelt. Die Dennard-Skalierung hat es ermöglicht, die Taktfrequenz der Prozessoren zu erhöhen, so dass ein einzelner Kern mehr Berechnungen ausführen kann. Nach dieser Logik müssten wir im Jahr 2018 Prozessoren mit einer Single-Core-Taktfrequenz von 53 GHz haben. Aber es kam anders. Das Problem war, dass die Leistungsentwicklung nicht mehr skalierte. Diese Art der Skalierung war bereits in den 2000er Jahren gestorben. Die Lösung war die Verwendung von mehr Kernen und die zunehmende Parallelisierung. Etwas, das in der heutigen Softwareentwicklung immer noch Probleme bereitet, da die Parallelisierung immer noch schwierig ist.
The Free Lunch Is Over
Ein Artikel aus dieser Zeit beschreibt jedoch sehr gut, dass mit dem Paradigmenwechsel die Zeit der natürlichen Leistungssteigerungen vorbei ist. Früher konnten sich Programme darauf verlassen, dass die Leistung der Prozessoren einfach schneller wird. Heute müssen Leistungssteigerungen durch intelligente Nutzung der Hardware erreicht werden. Die Zeit der Gratismahlzeiten ist vorbei. Das Koomey’sche Gesetz betrifft die Energieeffizienz. Auch hier gibt es eine Grenze. Der Fortschritt flacht ab. Nicht ohne Grund werden Energie und Wärme immer mehr zum Problem. Und genau das bringt Rechenzentren an ihre Grenzen. Rechenzentren gehen dorthin, wo Energie im Überfluss vorhanden ist.
Agents
Die zweite Lösung für unsere Probleme finden wir in den Agenten. Bei den Agenten geht es um die Möglichkeit, den LLM ein gewisses Maß an Autonomie zu geben. In der Praxis führt dies zu Tool Calls. Der Traum dahinter ist meist eine Art digitaler Alleskönner. Eine Siri, die Hotels buchen, das Modehaus wegen der Rückgabe kontaktieren und den Terminkalender planen kann. Man kann sich das als digitale graue Eminenz oder als physischen Roboter vorstellen. Aber eines ist wichtig, die “KI” muss in den Alltag integriert werden, so wie es das Smartphone getan hat. Wenn man an die größten Player in diesem Bereich denkt, dann ist eine Firma wie Apple nicht weit. Aber gerade die tun sich mit KI so schwer, warum? Apple ist kein Cloud-Unternehmen und viele der Fortschritte werden nicht in Anwendungen genutzt. Apple verkauft Hardware und das kann man nicht so schnell ändern. Die LLMs, die Apple verwendet, gehören zu der kleinsten Größenklasse auf dem Markt. Deshalb muss sich Apple auf die einfachsten Dinge konzentrieren, wie z.B. das Umformulieren von Text, denn viel mehr ist nicht möglich. Dabei war Apple eigentlich der Profi darin, neuronale Netze dort zu platzieren, wo man sie gar nicht bemerkt. Aber die neuen Größenordnungen sind zu viel für die energieeffiziente mobile Hardware. Apple selbst kämpft damit, die rudimentären Fähigkeiten überhaupt auf die Hardware zu bringen. Wird dieses Problem kleiner, wenn die Skalierung über die Hardware erfolgt? Nein. Und trotzdem haben wir ein Dilemma. Wir wollen, dass alles in unserem Alltag integriert ist. Aber der Alltag ist nicht in der Wolke. Wer jetzt nicht im Baltikum lebt, wo der Wald WLAN hat, sieht die Schwächen dieses Ansatzes teilweise. Und da reden wir noch gar nicht über Roboter, Datenschutz, Sicherheit und Geopolitik.
Die Zukunft von Gestern
Auf welcher Seite stehe ich? Nun, der Blog verrät es leider schon ein wenig. Was mich sehr beschäftigt ist die Frage, ob man ein ChatGPT nicht auch zu Hause machen kann. Ist das das Ende der Zukunft? Vielleicht ist der Beginn der 2020er Jahre enttäuschend. Die Technologiebranche wird immer härter und die Zukunft scheitert. Alle Technologien, die die neuen großen Märkte sein sollten, wie AR/VR, IoT und KI, haben ihre Grenzen gezeigt. Gleichzeitig war die Zukunft alt. Schon in den 2010er Jahren hat man daran gedacht, ohne davon zu träumen. Man hat sich auch ein bisschen darauf versteift. Das sehen wir auch beim maschinellen Lernen. Alles ist jetzt nur noch LLM, also gibt es keine Breite mehr. Aber gerade in Zukunft müssen wir (wahrscheinlich) wieder in viele Richtungen ausschwärmen. Gleichzeitig dürfen wir nicht im Meer der Möglichkeiten ertrinken. Gerade am Anfang von Transformer war es fast ein Glaubenskrieg, an die Kraft der Skalierung zu glauben. Wenn wir wieder ein solides Fundament haben, sollten wir die Kraft der Skalierung nicht unterschätzen. Bis dahin sollten wir sie aber auch nicht überschätzen.
Schreibe einen Kommentar