Testen Sie das „klügste der Welt“ grok3

AIPU Waton Group (1)

Einführung

Glaubst du, GROK3 wird der "Endpunkt" von vorgebliebenen Modellen sein?

Elon Musk und das XAI -Team haben während eines Livestreams offiziell die neueste Version von GROK, GROK3, auf den Markt gebracht. Vor diesem Ereignis erhöhte eine erhebliche Menge an verwandten Informationen, die mit Musks rund um die Uhr Werbemittel gehalten, die globalen Erwartungen an GROK3 auf beispielloses Niveaus. Noch vor einer Woche erklärte Musk während eines Livestreams zuversichtlich, als er Deepseek R1 kommentierte: "XAI ist kurz davor, ein besseres KI -Modell zu starten." Aus den live vorgestellten Daten hat GROK3 Berichten zufolge alle aktuellen Mainstream -Modelle in Benchmarks für Mathematik, Wissenschaft und Programmierung übertroffen, wobei Musk sogar behauptet, GROK3 werde für Rechenaufgaben im Zusammenhang mit den MARS -Missionen von SpaceX verwendet, die "Durchbrüche auf dem Nobelpreis innerhalb von drei Jahren" vorhergesagt werden. Dies sind jedoch derzeit nur die Behauptungen von Mousk. Nach dem Start habe ich die neueste Beta -Version von GROK3 getestet und die klassische Trickfrage für große Modelle gestellt: "Was ist größer, 9.11 oder 9.9?" Bedauerlicherweise konnte der sogenannte intelligenteste GROK3 ohne Qualifikation oder Markierungen diese Frage immer noch nicht richtig beantworten. GROK3 konnte die Bedeutung der Frage nicht genau identifizieren.

 

Dieser Test lenkte schnell von vielen Freunden beträchtliche Aufmerksamkeit, und zufällig haben verschiedene ähnliche Tests in Übersee gezeigt, dass GROK3 mit grundlegenden Fragen der Physik/Mathematik zu kämpfen hat wie "Welcher Ball fällt zuerst aus dem Leaning Tower of Pisa?" Somit wurde es humorvoll als "ein Genie bezeichnet, das nicht bereit ist, einfache Fragen zu beantworten".

640

GROK3 ist gut, aber es ist nicht besser als R1 oder O1-Pro.

GROK3 erlebte "Fehler" bei vielen allgemeinen Wissenstests in der Praxis. Während des XAI -Launch -Events zeigte Musk GROK3, um die Charakterklassen und Effekte aus dem Spielweg von Exil 2 zu analysieren, von dem er häufig spielte, aber die meisten der von GROK3 bereitgestellten Antworten waren falsch. Musk während des Livestreams bemerkte dieses offensichtliche Problem nicht.

 

Dieser Fehler lieferte nicht nur weitere Beweise für die Internetnutzer in Übersee, um Musk zu verspotten, um einen Ersatz für das Spielen zu finden, sondern äußerte sich auch erhebliche Bedenken hinsichtlich der Zuverlässigkeit von GROK3 in praktischen Anwendungen. Für ein solches "Genie", unabhängig von seinen tatsächlichen Fähigkeiten, bleibt seine Zuverlässigkeit in extrem komplexen Anwendungsszenarien wie Mars -Explorationsaufgaben zweifelhaft.

 

Derzeit haben viele Tester, die vor den GROK3-Wochen Zugang zu GROK3-Wochen erhalten haben, und diejenigen, die gestern die Modellfunktionen für einige Stunden getestet haben, deuten auf eine gemeinsame Schlussfolgerung hin: "GROK3 ist gut, aber es ist nicht besser als R1 oder O1-Pro."

640 (1)

Eine kritische Perspektive auf "Störung von Nvidia"

In der offiziell vorgestellten PPT während der Veröffentlichung wurde gezeigt, dass GROK3 in der Chatbot-Arena „weit voraus“ ist, aber diese geschickt verwendeten Grafiktechniken: Die vertikale Achse auf der Rangliste ist nur in dieser Präsentation in dieser Präsentation außergewöhnlich signifikant.

640

In den tatsächlichen Ergebnissen der Modellbewertung liegt GROK3 nur 1-2% vor Deepseek R1 und GPT-4,0, was den Erfahrungen vieler Benutzer in praktischen Tests entspricht, die "keinen merklichen Unterschied" feststellten. GROK3 übertrifft seine Nachfolger nur um 1%-2%.

640

Obwohl GROK3 höher erzielt hat als alle derzeit öffentlich getesteten Modelle, nehmen viele dies nicht ernst: Schließlich wurde XAI in der GROK2 -Ära wegen "Score Manipulation" kritisiert. Als die Rangliste die Antwortlänge des Ranglisten bestrafte, nahm die Ergebnisse stark ab und veranlassten die Branchen -Insider, das Phänomen der "hohen Bewertung, aber geringe Fähigkeiten" häufig zu kritisieren.

 

Ob durch "Manipulation" oder "Manipulation" oder "Design -Tricks" in Illustrationen, sie enthüllen Xai und Musks Besessenheit mit dem Begriff, das Paket in Modellfunktionen "zu führen". Musk zahlte einen hohen Preis für diese Margen: Während des Starts rühmte er sich mit 200.000 H100 -GPUs (über 100.000 während des Livestreams) und eine Gesamtausbildungszeit von 200 Millionen Stunden. Dies ließ einige glauben, dass es einen weiteren bedeutenden Segen für die GPU -Branche darstellt und Deepseeks Auswirkungen auf den Sektor als "dumm" betrachtete. Insbesondere glauben einige, dass bloße Rechenleistung die Zukunft des Modelltrainings sein wird.

 

Einige Internetnutzer verglichen jedoch den Verbrauch von 2000 H800 -GPUs über zwei Monate, um Deepseek V3 zu erzeugen, und berechneten, dass GROK3s tatsächlicher Trainingskraftverbrauch das 263 -fache des von V3 beträgt. Die Lücke zwischen Deepseek V3, die 1402 Punkte erzielte, und GROK3 beträgt knapp 100 Punkte. Nach der Veröffentlichung dieser Daten stellten viele schnell fest, dass hinter dem Titel von GROK3 als "weltweit stärkster" ein klarer marginaler Nützlichkeitseffekt liegt - die Logik größerer Modelle, die eine stärkere Leistung erzeugen, hat begonnen, abnehmende Renditen zu zeigen.

640 (2)

Selbst mit "hoher Bewertung, aber geringer Fähigkeit" hatte GROK2 große Mengen hochwertiger Erstanbieterdaten von der X (Twitter) -Plattform, um die Nutzung zu unterstützen. Bei der Ausbildung von GROK3 stieß XAI jedoch natürlich auf die "Decke", deren Openai derzeit ausgesetzt ist - der Mangel an Premium -Trainingsdaten enthält rasant den Grenznutzen der Fähigkeiten des Modells.

 

Die Entwickler von GROK3 und MUSK sind wahrscheinlich die ersten, die diese Tatsachen tief verstehen und identifizieren, weshalb Musk in den sozialen Medien ständig erwähnt hat, dass die Versionsbenutzer jetzt "still nur die Beta" sind und dass "die Vollversion in den kommenden Monaten veröffentlicht wird". Musk hat die Rolle des Produktmanagers von GROK3 übernommen und schlägt vor, dass Benutzer Feedback zu verschiedenen Themen geben, die im Kommentarbereich auftreten.

 

Innerhalb eines Tages löste die Leistung von GROK3 zweifellos Alarme für diejenigen aus, die sich auf "massive Rechenmuskel" verlassen möchten, um stärkere große Modelle zu trainieren: Basierend auf öffentlich verfügbaren Microsoft-Informationen hat OpenAIs GPT-4 eine Parametergröße von 1,8 Billionen Parametern über das Zehnfache von GPT-3. Gerüchte legen nahe, dass die Parametergröße von GPT-4,5 noch größer sein könnte.

 

Wenn die Modellparametergrößen steigen, sind auch die Trainingskosten in die Höhe schnellen. Mit der Anwesenheit von GROK3 müssen Konkurrenten wie GPT-4,5 und andere, die weiterhin „Geld verbrennen“ möchten, um eine bessere Modellleistung durch Parametergröße zu erzielen, die Decke berücksichtigen, die jetzt eindeutig in Sichtweite ist, und überlegen, wie man sie überwindet. In diesem Moment hatte Ilya Sutskever, ehemaliger Chefwissenschaftlerin bei OpenAI, zuvor im vergangenen Dezember festgestellt: "Die Vorausbildung, mit der wir vertraut sind, wird zu Ende gehen", was in Diskussionen wieder aufgetaucht ist, was die Bemühungen zur Suche nach dem wahren Weg für die Ausbildung großer Modelle aufforderte.

640 (3)

Der Standpunkt von Ilya hat in der Branche den Alarm erhoben. Er sah die bevorstehende Erschöpfung von zugänglichen neuen Daten genau vor, was zu einer Situation führte, in der die Leistung durch die Datenerfassung nicht weiter verbessert werden kann und sie mit der Erschöpfung fossiler Brennstoffe verglichen. Er gab an, dass "wie Öl, wie von Menschen erzeugte Inhalte im Internet eine begrenzte Ressource sind". In Sutskevers Vorhersagen wird die nächste Generation von Modellen, Post-Pre-Training, "wahre Autonomie" und Argumentationsfunktionen "ähnlich dem menschlichen Gehirn" besitzen.

 

Im Gegensatz zu den heutigen vorgebildeten Modellen, die sich hauptsächlich auf Inhaltsanpassungen verlassen (basierend auf dem zuvor gelernten Modellinhalt), können zukünftige KI-Systeme lernen und Methoden erstellen, um Probleme auf eine Weise zu lösen, die dem "Denken" des menschlichen Gehirns ähnelt. Ein Mensch kann in einem Fach mit nur grundlegenden professionellen Literatur grundlegende Fähigkeiten erzielen, während ein KI-großer Modell Millionen von Datenpunkten erfordert, um die grundlegendste Wirksamkeit der Einstiegsebene zu erreichen. Selbst wenn der Wortlaut geringfügig geändert wird, werden diese grundlegenden Fragen möglicherweise nicht korrekt verstanden und veranschaulichen, dass sich das Modell in der Intelligenz nicht wirklich verbessert hat: Die grundlegenden, aber unlösbaren Fragen, die zu Beginn des Artikels erwähnt werden, stellen ein klares Beispiel für dieses Phänomen dar.

微信图片 _20240614024031.jpg1

Abschluss

Über die Brute-Kraft hinaus würde es jedoch, wenn GROK3 der Branche in der Tat gelingt, dass "vorgeborene Modelle sich ihrem Ende nähern", erhebliche Auswirkungen auf das Feld haben.

Vielleicht werden wir nach allmählich nachlässiger Raserei mehr Fälle wie das Beispiel von Fei-Fei Li für "Tuning von Hochleistungsmodellen auf einem bestimmten Datensatz für nur 50 US-Dollar" beobachten, der letztendlich den wahren Weg zu AGI entdeckt hat.

ELV -Kabellösung finden

Steuerkabel

Für BMS-, Bus-, Industrie-, Instrumentierungskabel.

Strukturiertes Verkabelungssystem

Netzwerk & Daten, Glasfaserkabel, Patchkabel, Module, Faceplate

2024 Ausstellungen und Veranstaltungen Review

16. April-18., 2024 Middle-Ost-Energy in Dubai

16. April, 2024 Securika in Moskau

Mai.9., 2024 Neue Produkte und Technologien für neue Produkte und Technologien in Shanghai

22. Oktober-25. Oktober, 2024 Sicherheit China in Peking

19. November-20, 2024 Connected World KSA


Postzeit: Februar 19. bis 2025