Für BMS-, BUS-, Industrie- und Instrumentierungskabel.

Elon Musk und das xAI-Team haben die neueste Version von Grok, Grok3, in einem Livestream offiziell vorgestellt. Im Vorfeld dieser Veranstaltung hatten zahlreiche relevante Informationen, gepaart mit Musks pausenlosem Werberummel, die weltweiten Erwartungen an Grok3 in ungeahnte Höhen getrieben. Erst vor einer Woche erklärte Musk in einem Livestream zu DeepSeek R1 selbstbewusst: „xAI steht kurz vor der Veröffentlichung eines besseren KI-Modells.“ Den live präsentierten Daten zufolge hat Grok3 Berichten zufolge alle gängigen Modelle in Benchmarks für Mathematik, Naturwissenschaften und Programmierung übertroffen. Musk behauptete sogar, Grok3 werde für Rechenaufgaben im Zusammenhang mit den Marsmissionen von SpaceX eingesetzt und prognostizierte „Durchbrüche auf Nobelpreisniveau innerhalb von drei Jahren“. Dies sind jedoch vorerst nur Aussagen von Musk. Nach dem Launch testete ich die neueste Beta-Version von Grok3 und stellte die klassische Fangfrage für große Modelle: „Was ist größer, 9.11 oder 9.9?“ Bedauerlicherweise konnte der sogenannte klügste Grok3 diese Frage ohne jegliche Qualifikationen oder Markierungen immer noch nicht richtig beantworten. Grok3 konnte die Bedeutung der Frage nicht genau erkennen.
Dieser Test erregte schnell die Aufmerksamkeit vieler Freunde. Zufälligerweise zeigten verschiedene ähnliche Tests im Ausland, dass Grok3 mit grundlegenden Physik-/Mathematikfragen wie „Welche Kugel fällt zuerst vom Schiefen Turm von Pisa?“ zu kämpfen hatte. Daher wurde er scherzhaft als „Genie, das sich weigert, einfache Fragen zu beantworten“ bezeichnet.

Grok3 ist gut, aber nicht besser als R1 oder o1-Pro.
Grok3 scheiterte in der Praxis bei vielen allgemeinen Wissenstests. Während des xAI-Launch-Events demonstrierte Musk, wie er mit Grok3 die Charakterklassen und Effekte des Spiels Path of Exile 2 analysierte, das er angeblich oft spielte. Die meisten Antworten von Grok3 waren jedoch falsch. Musk bemerkte dieses offensichtliche Problem während des Livestreams nicht.
Dieser Fehler lieferte nicht nur einen weiteren Grund für ausländische Internetnutzer, Musk für die „Erfindung eines Ersatzes“ im Gaming-Bereich zu verspotten, sondern weckte auch erhebliche Bedenken hinsichtlich der Zuverlässigkeit von Grok3 in der Praxis. Unabhängig von seinen tatsächlichen Fähigkeiten bleibt die Zuverlässigkeit eines solchen „Genies“ in extrem komplexen Anwendungsszenarien, wie beispielsweise bei der Marserkundung, fraglich.
Derzeit kommen viele Tester, die vor Wochen Zugriff auf Grok3 erhalten haben, und diejenigen, die die Modellfunktionen gestern einige Stunden lang getestet haben, zu einem gemeinsamen Schluss: „Grok3 ist gut, aber nicht besser als R1 oder o1-Pro.“

Eine kritische Perspektive auf „Disrupting Nvidia“
In der während der Veröffentlichung offiziell vorgestellten PPT wurde gezeigt, dass Grok3 in der Chatbot-Arena „weit vorne“ lag. Dabei wurden jedoch geschickt grafische Techniken eingesetzt: Auf der vertikalen Achse der Bestenliste wurden nur Ergebnisse im Punktebereich von 1400 bis 1300 aufgelistet, sodass der ursprüngliche Unterschied von 1 % bei den Testergebnissen in dieser Präsentation außergewöhnlich signifikant erscheint.

In der tatsächlichen Modellbewertung liegt Grok3 nur 1–2 % vor DeepSeek R1 und GPT-4.0, was den Erfahrungen vieler Anwender in Praxistests entspricht, die „keinen spürbaren Unterschied“ feststellen konnten. Grok3 übertrifft seine Nachfolger lediglich um 1–2 %.

Obwohl Grok3 bessere Ergebnisse erzielt als alle derzeit öffentlich getesteten Modelle, nehmen viele dies nicht ernst: Schließlich wurde xAI bereits in der Grok2-Ära für „Score-Manipulation“ kritisiert. Da die Rangliste den Antwortstil bestrafte, sanken die Punktzahlen stark, was Branchenkenner häufig dazu veranlasste, das Phänomen „hohe Punktzahl, aber geringes Können“ zu kritisieren.
Ob durch die Manipulation von Bestenlisten oder Designtricks in den Illustrationen – sie offenbaren xAI und Musks Obsession, bei den Modellfähigkeiten „führend“ zu sein. Musk zahlte einen hohen Preis für diese Margen: Beim Launch prahlte er mit dem Einsatz von 200.000 H100-GPUs (im Livestream behauptete er sogar „über 100.000“) und einer Gesamttrainingszeit von 200 Millionen Stunden. Dies veranlasste einige zu der Annahme, dass dies ein weiterer bedeutender Segen für die GPU-Branche sei, und hielt DeepSeeks Einfluss auf die Branche für „unsinnig“. Einige glauben insbesondere, dass die Zukunft des Modelltrainings in der schieren Rechenleistung liegt.
Einige Internetnutzer verglichen jedoch den Verbrauch von 2000 H800-GPUs über zwei Monate, um DeepSeek V3 zu erzeugen. Sie kamen zu dem Ergebnis, dass der tatsächliche Trainingsstromverbrauch von Grok3 263-mal so hoch ist wie der von V3. Der Unterschied zwischen DeepSeek V3, das 1402 Punkte erreichte, und Grok3 beträgt knapp 100 Punkte. Nach der Veröffentlichung dieser Daten erkannten viele schnell, dass hinter Grok3s Titel als „weltweit leistungsstärkster Prozessor“ ein klarer Grenznutzeneffekt steckt – die Logik, dass größere Modelle eine höhere Leistung generieren, beginnt, abnehmende Erträge zu zeigen.

Trotz der hohen Punktzahl, aber der geringen Leistungsfähigkeit verfügte Grok2 über umfangreiche, hochwertige First-Party-Daten der X-Plattform (Twitter), die die Nutzung ermöglichten. Beim Training von Grok3 stieß xAI jedoch natürlich auf die Grenzen, mit denen OpenAI derzeit konfrontiert ist: Der Mangel an hochwertigen Trainingsdaten offenbart schnell den geringen Nutzen der Modellfunktionen.
Die Entwickler von Grok3 und Musk sind wahrscheinlich die Ersten, die diese Fakten wirklich verstanden und erkannt haben. Deshalb hat Musk in den sozialen Medien immer wieder erwähnt, dass die aktuelle Version, die die Nutzer nutzen, „noch eine Beta-Version“ sei und dass „die Vollversion in den kommenden Monaten veröffentlicht wird“. Musk hat die Rolle des Produktmanagers von Grok3 übernommen und lädt die Nutzer ein, im Kommentarbereich Feedback zu verschiedenen Problemen zu geben. Er ist möglicherweise der meistgefolgte Produktmanager der Welt.
Doch schon nach einem Tag löste die Leistung von Grok3 zweifellos bei denjenigen, die auf „massive Rechenleistung“ setzen, um stärkere große Modelle zu trainieren, Alarm aus: Laut öffentlich zugänglichen Microsoft-Informationen verfügt OpenAIs GPT-4 über eine Parametergröße von 1,8 Billionen – mehr als zehnmal so viel wie GPT-3. Gerüchten zufolge könnte die Parametergröße von GPT-4.5 sogar noch größer sein.
Mit der rasanten Zunahme der Modellparameter steigen auch die Trainingskosten sprunghaft an. Mit Grok3 müssen Konkurrenten wie GPT-4.5 und andere, die weiterhin Geld verbrennen wollen, um durch Parametergröße eine bessere Modellleistung zu erzielen, die nun deutlich erkennbare Obergrenze berücksichtigen und überlegen, wie sie überwunden werden kann. Ilya Sutskever, ehemaliger Chefwissenschaftler bei OpenAI, hatte bereits im Dezember erklärt: „Das uns bekannte Vortraining wird ein Ende haben.“ Diese Aussage tauchte in Diskussionen wieder auf und löste Bemühungen aus, den richtigen Weg für das Training großer Modelle zu finden.

Ilyas Standpunkt hat in der Branche Alarm geschlagen. Er sah die bevorstehende Erschöpfung verfügbarer neuer Daten voraus. Dies würde dazu führen, dass die Leistung nicht mehr durch Datenerfassung weiter gesteigert werden kann. Er verglich dies mit der Erschöpfung fossiler Brennstoffe. Er wies darauf hin, dass „wie Öl auch von Menschen erstellte Inhalte im Internet eine begrenzte Ressource sind“. Sutskever prognostiziert, dass die nächste Generation von Modellen nach dem Vortraining über „echte Autonomie“ und Denkfähigkeiten „ähnlich dem menschlichen Gehirn“ verfügen wird.
Im Gegensatz zu den heute vortrainierten Modellen, die primär auf Content Matching (basierend auf den zuvor erlernten Modellinhalten) basieren, werden zukünftige KI-Systeme in der Lage sein, Methoden zur Problemlösung zu erlernen und zu etablieren, die dem menschlichen Denken ähneln. Ein Mensch kann bereits mit grundlegender Fachliteratur grundlegende Kenntnisse in einem Fachgebiet erlangen, während ein großes KI-Modell Millionen von Datenpunkten benötigt, um auch nur die grundlegendste Grundkompetenz zu erreichen. Selbst bei geringfügiger Änderung der Formulierung werden diese grundlegenden Fragen möglicherweise nicht richtig verstanden, was darauf hindeutet, dass das Modell nicht wirklich intelligenter geworden ist: Die zu Beginn des Artikels erwähnten grundlegenden, aber unlösbaren Fragen sind ein klares Beispiel für dieses Phänomen.

Abschluss
Sollte es Grok3 jedoch tatsächlich gelingen, der Branche klarzumachen, dass „vortrainierte Modelle sich dem Ende zuneigen“, hätte dies über den Einsatz roher Gewalt hinaus erhebliche Auswirkungen auf das Fachgebiet.
Vielleicht werden wir, nachdem der Hype um Grok3 allmählich nachlässt, mehr Fälle wie das Beispiel von Fei-Fei Li erleben, in dem „Hochleistungsmodelle für nur 50 US-Dollar auf einem bestimmten Datensatz optimiert“ werden und so letztendlich der wahre Weg zur AGI gefunden wird.
Steuerkabel
Strukturiertes Verkabelungssystem
Netzwerk und Daten, Glasfaserkabel, Patchkabel, Module, Frontplatte
16.-18. April 2024 Middle-East-Energy in Dubai
16.-18. April 2024 Securika in Moskau
9. Mai 2024: Launch-Event für neue Produkte und Technologien in Shanghai
22.-25.10.2024 SECURITY CHINA in Peking
19.–20. November 2024 CONNECTED WORLD KSA
Veröffentlichungszeit: 19. Februar 2025