Grok: Elon Musk’s KI nun frei verfügbar

18.03.2024 in Jura & Lehre, Media & More

Elon Musks xAI veröffentlicht das KI-Modell Grok-1 und stellt dessen Quellcode kostenlos zum Download bereit.

Am Sonntag veröffentlichte Elon Musks KI-Firma xAI das Basismodell und die Netzwerkarchitektur von Grok-1, einem großen Sprachmodell, das mit den Modellen konkurrieren soll, die OpenAIs ChatGPT antreiben. Die Freigabe des KI-Modells über GitHub und BitTorrent erfolgt zu einem Zeitpunkt, an dem Musk den Konkurrenten OpenAI kritisiert (und verklagt), weil dieser seine KI-Modelle nicht offen zugänglich macht.

Grok wurde im November 2023 angekündigt und ist ein KI-Assistent, der ChatGPT ähnelt und für X-Premium+-Abonnenten verfügbar ist, die 16 US-Dollar pro Monat für die früher als Twitter bekannte Social-Media-Plattform zahlen. Das Herzstück ist eine LLM-Mischung aus Experten namens „Grok-1“, die 314 Milliarden Parameter umfasst. Zum Vergleich: GPT-3 enthielt 175 Milliarden Parameter. Die Anzahl der Parameter ist ein grobes Maß für die Komplexität eines KI-Modells und spiegelt sein Potenzial wider, mehr nützliche Antworten zu generieren.

xAI veröffentlicht das Basismodell von Grok-1, das nicht auf eine bestimmte Aufgabe abgestimmt ist, so dass es wahrscheinlich nicht dasselbe Modell ist, das X für seinen KI-Assistenten Grok verwendet. „Es handelt sich hierbei um das Basismodell der Grok-1 Pre-Trainingsphase, die im Oktober 2023 abgeschlossen wurde“, schreibt xAI auf seiner Veröffentlichungsseite. „Das bedeutet, dass das Modell nicht auf eine bestimmte Anwendung, wie z. B. einen Dialog, abgestimmt ist“, d. h. es wird nicht explizit als Chatbot ausgeliefert. Aber es kann den nächsten Token vorhersagen, d. h. es vervollständigt einen Satz (oder eine andere Texteingabeaufforderung) mit seiner Einschätzung der relevantesten Textzeichenfolge.

„Es ist kein auf Anweisungen abgestimmtes Modell“, sagt der KI-Forscher Simon Willison. „Das bedeutet, dass ein erheblicher Mehraufwand erforderlich ist, um es an den Punkt zu bringen, an dem es in einem Gesprächskontext funktionieren kann. Es wird interessant sein, zu sehen, ob jemand von außerhalb der xAI, der über die nötigen Fähigkeiten und Rechenkapazitäten verfügt, diese Arbeit investiert.“

Musk kündigte zunächst in einem Tweet vom vergangenen Montag an, dass Grok als „Open Source“ (mehr zu dieser Terminologie weiter unten) veröffentlicht werden würde. Die Ankündigung erfolgte, nachdem Musk OpenAI und seine Führungskräfte verklagt hatte, weil er ihnen vorwarf, Gewinne über die Veröffentlichung von KI-Modellen zu stellen. Musk war ein Mitbegründer von OpenAI, ist aber nicht mehr mit dem Unternehmen verbunden, aber er stachelt OpenAI regelmäßig an, seine Modelle als Open Source oder Open Weights zu veröffentlichen, wie viele glauben, dass der Name des Unternehmens dies nahelegt.

Am 5. März reagierte OpenAI auf Musks Anschuldigungen, indem es alte E-Mails enthüllte, die darauf hinzudeuten schienen, dass Musk einst mit der Umstellung von OpenAI auf ein gewinnorientiertes Geschäftsmodell durch eine Tochtergesellschaft einverstanden war. OpenAI sagte auch, dass das „open“ in seinem Namen darauf hindeutet, dass die daraus resultierenden Produkte für jedermann zur Verfügung stehen würden, anstatt ein Open-Source-Konzept zu sein. Am selben Tag twitterte Musk (verteilt auf zwei Tweets): „Ändert euren Namen in ClosedAI und ich werde die Klage fallen lassen.“ Seine Ankündigung, Grok öffentlich zu veröffentlichen, kam fünf Tage später.

Grok-1: Ein schweres Modell

Grok-1 ist also fertig, aber kann es jeder ausführen? xAI hat die Gewichte des Basismodells und die Netzwerkarchitektur unter der Apache 2.0 Lizenz veröffentlicht. Der Inferenzcode steht auf GitHub zum Download bereit, und die Gewichte können über einen Torrent-Link auf der GitHub-Seite bezogen werden.

Bei einer Checkpoint-Größe der Gewichte von 296 GB ist es wahrscheinlich, dass nur Inferenz-Hardware der Rechenzentrumsklasse über den erforderlichen Arbeitsspeicher und die nötige Rechenleistung verfügt, um das gesamte Modell auf einmal zu laden (zum Vergleich: Die größte Llama-2-Gewichtsdatei, ein 70B-Modell mit 16-Bit-Präzision, ist etwa 140 GB groß).

Bisher habe ich noch keinen Bericht von jemandem entdeckt, der es lokal zum Laufen gebracht hat, aber in verschiedenen Foren kann man lesen, dass an einem quantisierten Modell gearbeitet wird, das die Größe reduziert, so dass es auf Consumer-GPU-Hardware ausgeführt werden kann (dadurch wird jedoch auch die Verarbeitungsfähigkeit dramatisch reduziert).

Willison bestätigte dies und sagte: „Es ist schwer, [Grok-1] im Moment zu bewerten, weil es so groß ist – eine [massive] Torrent-Datei, und dann braucht man ein ganzes Regal mit teuren GPUs, um es auszuführen. Es kann gut sein, dass es in den nächsten Wochen von der Community produzierte quantisierte Versionen gibt, die eine praktikablere Größe haben, aber wenn sie nicht zumindest qualitativ mit Mixtral mithalten können, ist es schwer, sich dafür zu begeistern.“

Passenderweise bezeichnet xAI das GitHub-Debüt von Grok-1 nicht als „Open-Source“-Veröffentlichung, da dieser Begriff in der Softwarebranche eine bestimmte Bedeutung hat und sich die Branche noch nicht auf einen Begriff für die Veröffentlichung von KI-Modellen geeinigt hat, die Code und Gewichte mit Einschränkungen bereitstellen (wie Metas Llama 2) oder Code und Gewichte bereitstellen, ohne auch Trainingsdaten freizugeben, was bedeutet, dass der Trainingsprozess des KI-Modells nicht von anderen nachgeahmt werden kann. Daher werden diese Veröffentlichungen in der Regel stattdessen „verfügbare Quellen“ („source available“) oder „offene Gewichte“ („open weights“) genannt.

„Das Interessanteste daran ist, dass es eine Apache-2-Lizenz hat“, sagt Willison. „Keine der nicht ganz OSI-kompatiblen Lizenzen, die für Modelle wie Llama 2 verwendet werden, und dass es eines der größten Open-Weights-Modelle ist, die bisher veröffentlicht wurden.“

Grok-1: (M)eine erste Einschätzung

Was die Auswirkungen auf die KI-Industrie betrifft, so halte ich dies für eine positive Entwicklung. Durch die Freigabe des Codes für Grok-1 ermöglicht es xAI anderen Forschern, das Modell zu studieren und zu verbessern. Dies könnte zu einem schnelleren Fortschritt auf dem Gebiet der KI führen. Außerdem könnte die Veröffentlichung von Grok-1 Druck auf OpenAI ausüben, seine eigenen Modelle als Open Source zu veröffentlichen. Dies würde den Fortschritt in der KI-Forschung weiter beschleunigen.

Allerdings gibt es auch einige potenzielle Nachteile zu bedenken. Eine Sorge ist, dass die Freigabe des Codes für Grok-1 es böswilligen Akteuren leichter machen könnte, schädliche KI-Anwendungen zu entwickeln. Außerdem könnte die Tatsache, dass die Trainingsdaten für Grok-1 nicht veröffentlicht werden, es anderen Forschern erschweren, die Ergebnisse des Modells zu reproduzieren.

Insgesamt glaube ich, dass die Veröffentlichung von Grok-1 eine positive Entwicklung für die KI-Branche darstellt. Es ist jedoch wichtig, sich auch der möglichen Nachteile bewusst zu sein.

by Andreas Dormann