DeepSeek: Der Disruptor, der die KI-Landschaft revolutioniert

AIPU WATON-GRUPPE

Einführung

Anhaltende Unruhe unter konkurrierenden Großmodellen, Cloud-Anbietern, die um Marktanteile konkurrieren, und hart arbeitenden Chipherstellern – der DeepSeek-Effekt hält an.

Das Frühlingsfest neigt sich dem Ende zu und die Begeisterung um DeepSeek ist ungebrochen. Die jüngsten Feiertage haben den starken Wettbewerb in der Tech-Branche deutlich gemacht, und viele diskutieren und analysieren diesen „Catfish“. Silicon Valley erlebt eine beispiellose Krise: Open-Source-Befürworter melden sich erneut zu Wort, und selbst OpenAI überdenkt, ob seine Closed-Source-Strategie die beste Wahl war. Das neue Paradigma niedrigerer Rechenkosten hat eine Kettenreaktion bei Chip-Giganten wie Nvidia ausgelöst und zu Rekordverlusten an einem Tag in der Geschichte des US-Aktienmarkts geführt. Gleichzeitig untersuchen Regierungsbehörden die Konformität der von DeepSeek verwendeten Chips. Trotz gemischter Kritiken zu DeepSeek im Ausland verzeichnet das Unternehmen im Inland ein außergewöhnliches Wachstum. Nach der Einführung des R1-Modells verzeichnete die zugehörige App einen starken Anstieg der Zugriffe. Dies deutet darauf hin, dass das Wachstum in den Anwendungsbereichen das gesamte KI-Ökosystem vorantreiben wird. Positiv ist, dass DeepSeek die Anwendungsmöglichkeiten erweitert und die Nutzung von ChatGPT in Zukunft weniger kostenintensiv sein wird. Dieser Wandel spiegelt sich in den jüngsten Aktivitäten von OpenAI wider, darunter die Bereitstellung eines Schlussfolgerungsmodells namens o3-mini für kostenlose Nutzer als Reaktion auf DeepSeek R1 sowie nachfolgende Upgrades, die die Gedankenkette von o3-mini öffentlich machten. Viele ausländische Nutzer dankten DeepSeek für diese Entwicklungen, obwohl diese Gedankenkette nur eine Zusammenfassung darstellt.

Es ist optimistisch, dass DeepSeek nationale Akteure vereint. Mit dem Fokus auf die Senkung der Trainingskosten schließen sich verschiedene Chiphersteller, Cloud-Anbieter und zahlreiche Start-ups aktiv dem Ökosystem an und steigern so die Kosteneffizienz des DeepSeek-Modells. Laut DeepSeeks Veröffentlichungen erfordert das vollständige Training des V3-Modells nur 2,788 Millionen H800-GPU-Stunden, und der Trainingsprozess ist äußerst stabil. Die MoE-Architektur (Mixture of Experts) trägt entscheidend dazu bei, die Vortrainingskosten im Vergleich zu Llama 3 mit 405 Milliarden Parametern um den Faktor zehn zu senken. V3 ist derzeit das erste öffentlich anerkannte Modell mit einer derart hohen MoE-Spärlichkeit. Darüber hinaus wirkt MLA (Multi Layer Attention) synergetisch, insbesondere im Schlussfolgerungsbereich. „Je spärlicher das MoE, desto größer ist die Batchgröße, die während der Schlussfolgerung benötigt wird, um die Rechenleistung voll auszunutzen. Dabei ist die Größe des KVCache der entscheidende limitierende Faktor; der MLA reduziert die KVCache-Größe deutlich“, stellte ein Forscher von Chuanjing Technology in einer Analyse für AI Technology Review fest. Insgesamt liegt der Erfolg von DeepSeek in der Kombination verschiedener Technologien, nicht nur in einer einzigen. Branchenkenner loben die technischen Fähigkeiten des DeepSeek-Teams und betonen deren Exzellenz im parallelen Training und der Operatoroptimierung, die durch die Verfeinerung jedes Details bahnbrechende Ergebnisse erzielt. Der Open-Source-Ansatz von DeepSeek fördert die allgemeine Entwicklung großer Modelle zusätzlich. Es wird erwartet, dass die Ausweitung ähnlicher Modelle auf Bilder, Videos und mehr die Nachfrage in der gesamten Branche deutlich ankurbeln wird.

Möglichkeiten für Reasoning-Dienste von Drittanbietern

Daten zeigen, dass DeepSeek seit seiner Veröffentlichung innerhalb von nur 21 Tagen 22,15 Millionen täglich aktive Nutzer (DAU) verzeichnete. Damit erreichte DeepSeek 41,6 % der Nutzerbasis von ChatGPT und übertraf die 16,95 Millionen täglich aktiven Nutzer von Doubao. Damit ist DeepSeek die weltweit am schnellsten wachsende Anwendung und führt den Apple App Store in 157 Ländern/Regionen an. Während die Nutzer jedoch in Scharen strömten, griffen Hacker die DeepSeek-App unerbittlich an und belasteten die Server erheblich. Branchenanalysten vermuten, dass dies teilweise darauf zurückzuführen ist, dass DeepSeek Karten für das Training einsetzt, obwohl ihm die Rechenleistung für die Schlussfolgerung fehlt. Ein Branchenkenner erklärte gegenüber AI Technology Review: „Die häufigen Serverprobleme lassen sich leicht durch Gebühren oder die Finanzierung zusätzlicher Maschinen lösen; letztendlich hängt es von DeepSeeks Entscheidungen ab.“ Dies stellt einen Kompromiss zwischen der Konzentration auf Technologie und der Produktisierung dar. DeepSeek stützte sich weitgehend auf die Quantenquantisierung, da es kaum externe Finanzierung erhielt. Dies führte zu einem relativ geringen Liquiditätsdruck und einem saubereren technologischen Umfeld. Angesichts der genannten Probleme fordern einige Nutzer DeepSeek in den sozialen Medien auf, die Nutzungsgrenzen zu erhöhen oder kostenpflichtige Funktionen einzuführen, um den Benutzerkomfort zu verbessern. Darüber hinaus nutzen Entwickler bereits die offizielle API oder APIs von Drittanbietern zur Optimierung. Die offene Plattform von DeepSeek gab jedoch kürzlich bekannt: „Die aktuellen Serverressourcen sind knapp, und die Gebühren für den API-Service wurden ausgesetzt.“

 

Dies eröffnet zweifellos zusätzliche Möglichkeiten für Drittanbieter im KI-Infrastruktursektor. Zahlreiche nationale und internationale Cloud-Giganten haben kürzlich DeepSeeks Modell-APIs eingeführt – die ausländischen Giganten Microsoft und Amazon gehörten Ende Januar zu den ersten Anbietern. Der nationale Marktführer Huawei Cloud machte den Anfang und veröffentlichte am 1. Februar in Zusammenarbeit mit Silicon-based Flow die DeepSeek R1- und V3-Reasoning-Dienste. Berichten von AI Technology Review zufolge verzeichneten die Dienste von Silicon-based Flow einen starken Nutzerzustrom, der die Plattform praktisch zum Absturz brachte. Die drei großen Technologieunternehmen – BAT (Baidu, Alibaba, Tencent) und ByteDance – veröffentlichten ab dem 3. Februar ebenfalls günstige, zeitlich begrenzte Angebote. Diese erinnern an den letztjährigen Preiskampf der Cloud-Anbieter, der durch die Einführung von DeepSeeks V2-Modell ausgelöst wurde und DeepSeek als „Preisschlächter“ galt. Das hektische Vorgehen der Cloud-Anbieter spiegelt die frühere enge Verbindung zwischen Microsoft Azure und OpenAI wider. Microsoft investierte 2019 eine Milliarde US-Dollar in OpenAI und profitierte nach der Einführung von ChatGPT im Jahr 2023 davon. Diese enge Beziehung begann jedoch zu bröckeln, nachdem Meta Llama als Open Source freigegeben hatte, sodass andere Anbieter außerhalb des Microsoft Azure-Ökosystems mit ihren großen Modellen konkurrieren konnten. In diesem Fall hat DeepSeek ChatGPT nicht nur hinsichtlich der Produktbegeisterung überholt, sondern nach der Veröffentlichung von o1 auch Open-Source-Modelle eingeführt, ähnlich der Begeisterung um Llamas Wiederbelebung von GPT-3.

 

Tatsächlich positionieren sich Cloud-Anbieter auch als Traffic-Gateways für KI-Anwendungen, was bedeutet, dass engere Beziehungen zu Entwicklern zu präventiven Vorteilen führen. Berichten zufolge nutzten am Tag der Einführung des DeepSeek-Modells über 15.000 Kunden von Baidu Smart Cloud das Modell über die Qianfan-Plattform. Darüber hinaus bieten mehrere kleinere Firmen Lösungen an, darunter Silicon-based Flow, Luchen Technology, Chuanjing Technology und verschiedene KI-Infrastrukturanbieter, die nun Unterstützung für DeepSeek-Modelle bieten. Laut AI Technology Review bestehen Optimierungsmöglichkeiten für lokalisierte DeepSeek-Bereitstellungen vor allem in zwei Bereichen: Zum einen können die Sparsity-Eigenschaften des MoE-Modells mithilfe eines Mixed-Reasoning-Ansatzes optimiert werden, um das 671 Milliarden Parameter umfassende MoE-Modell lokal bereitzustellen und dabei hybride GPU/CPU-Inferenz zu nutzen. Darüber hinaus ist die MLA-Optimierung unerlässlich. Allerdings sind die beiden DeepSeek-Modelle bei der Bereitstellungsoptimierung noch mit einigen Herausforderungen konfrontiert. „Aufgrund der Größe und der zahlreichen Parameter des Modells ist die Optimierung tatsächlich komplex, insbesondere bei lokalen Implementierungen, bei denen das Erreichen eines optimalen Verhältnisses zwischen Leistung und Kosten eine Herausforderung darstellt“, erklärte ein Forscher von Chuanjing Technology. Die größte Hürde liegt in der Überwindung der Speicherkapazitätsgrenzen. „Wir verfolgen einen heterogenen Kollaborationsansatz, um CPUs und andere Rechenressourcen optimal zu nutzen. Dabei platzieren wir nur die nicht gemeinsam genutzten Teile der spärlichen MoE-Matrix auf CPU/DRAM für die Verarbeitung mit leistungsstarken CPU-Operatoren, während die dichten Teile auf der GPU verbleiben“, erklärte er weiter. Berichten zufolge fügt Chuanjings Open-Source-Framework KTransformers verschiedene Strategien und Operatoren über eine Vorlage in die ursprüngliche Transformers-Implementierung ein und verbessert so die Inferenzgeschwindigkeit mit Methoden wie CUDAGraph deutlich. DeepSeek hat diesen Startups Chancen eröffnet, da Wachstumsvorteile deutlich werden; viele Unternehmen berichten nach der Einführung der DeepSeek-API von einem deutlichen Kundenwachstum und erhalten Anfragen von früheren Kunden, die nach Optimierungsmöglichkeiten suchen. Branchenkenner bemerken: „In der Vergangenheit waren etablierte Kundengruppen oft an die standardisierten Dienste größerer Unternehmen gebunden und mussten sich aufgrund ihrer Größe an deren Kostenvorteile halten. Nach der Implementierung von DeepSeek-R1/V3 vor dem Frühlingsfest erhielten wir jedoch plötzlich Kooperationsanfragen von mehreren namhaften Kunden, und selbst zuvor inaktive Kunden meldeten sich, um unsere DeepSeek-Dienste vorzustellen.“ Aktuell scheint DeepSeek die Leistungsfähigkeit der Modellinferenz zunehmend entscheidender zu machen, und mit der zunehmenden Verbreitung großer Modelle wird dies die Entwicklung der KI-Infrastrukturbranche weiterhin maßgeblich beeinflussen. Könnte ein Modell auf DeepSeek-Niveau kostengünstig lokal implementiert werden, würde dies die digitale Transformation von Regierungen und Unternehmen erheblich unterstützen. Herausforderungen bleiben jedoch bestehen, da einige Kunden hohe Erwartungen an die Leistungsfähigkeit großer Modelle haben. Dies verdeutlicht, wie wichtig ein ausgewogenes Verhältnis von Leistung und Kosten für die praktische Implementierung ist. 

Um zu beurteilen, ob DeepSeek besser ist als ChatGPT, ist es wichtig, die wichtigsten Unterschiede, Stärken und Anwendungsfälle zu verstehen. Hier ist ein umfassender Vergleich:

Funktion/Aspekt DeepSeek ChatGPT
Eigentum Entwickelt von einem chinesischen Unternehmen Entwickelt von OpenAI
Quellmodell Open Source Proprietär
Kosten Kostenlose Nutzung; günstigere API-Zugriffsoptionen Abonnement- oder Pay-per-Use-Preise
Anpassung Hochgradig anpassbar, sodass Benutzer es optimieren und darauf aufbauen können Eingeschränkte Anpassungsmöglichkeiten
Leistung bei bestimmten Aufgaben Hervorragend in bestimmten Bereichen wie Datenanalyse und Informationsabruf Vielseitig mit starker Leistung im kreativen Schreiben und bei Konversationsaufgaben
Sprachunterstützung Starker Fokus auf chinesische Sprache und Kultur Breite Sprachunterstützung, aber US-zentriert
Schulungskosten Geringere Schulungskosten, optimiert für Effizienz Höhere Schulungskosten, die erhebliche Rechenressourcen erfordern
Antwortvariation Kann unterschiedliche Antworten bieten, möglicherweise beeinflusst durch den geopolitischen Kontext Konsistente Antworten basierend auf Trainingsdaten
Zielgruppe Richtet sich an Entwickler und Forscher, die Flexibilität wünschen Richtet sich an allgemeine Benutzer, die nach Konversationsfunktionen suchen
Anwendungsfälle Effizienter für die Codegenerierung und schnelle Aufgaben Ideal zum Erstellen von Texten, Beantworten von Fragen und für Dialoge

Eine kritische Perspektive auf „Disrupting Nvidia“

Neben Huawei setzen derzeit auch mehrere inländische Chiphersteller wie Moore Threads, Muxi, Biran Technology und Tianxu Zhixin auf die beiden Modelle von DeepSeek um. Ein Chiphersteller erklärte gegenüber AI Technology Review: „Die Struktur von DeepSeek ist innovativ, bleibt aber ein LLM. Unsere Anpassung an DeepSeek konzentriert sich primär auf logische Anwendungen, wodurch die technische Implementierung relativ unkompliziert und schnell ist.“ Der MoE-Ansatz stellt jedoch höhere Anforderungen an Speicherung und Verteilung sowie die Gewährleistung der Kompatibilität mit inländischen Chips. Dies bringt zahlreiche technische Herausforderungen mit sich, die bei der Anpassung gelöst werden müssen. „Derzeit reicht die inländische Rechenleistung in puncto Benutzerfreundlichkeit und Stabilität nicht an Nvidia heran. Daher ist eine direkte Beteiligung des Herstellers an der Einrichtung der Softwareumgebung, der Fehlerbehebung und der grundlegenden Leistungsoptimierung erforderlich“, so ein Branchenexperte aus der Praxis. Gleichzeitig gilt: „Aufgrund der großen Parameterskala von DeepSeek R1 erfordert die inländische Rechenleistung mehr Knoten für die Parallelisierung. Zudem hinken die inländischen Hardwarespezifikationen noch etwas hinterher; beispielsweise kann das Huawei 910B die von DeepSeek eingeführte FP8-Inferenz derzeit nicht unterstützen.“ Ein Highlight des DeepSeek V3-Modells ist die Einführung eines FP8-Trainingsframeworks mit gemischter Präzision, das erfolgreich an einem extrem großen Modell validiert wurde – ein bedeutender Erfolg. Zuvor hatten große Unternehmen wie Microsoft und Nvidia ähnliche Arbeiten vorgeschlagen, doch in der Branche bestehen weiterhin Zweifel an der Machbarkeit. Der Hauptvorteil von FP8 gegenüber INT8 liegt darin, dass die Quantisierung nach dem Training nahezu verlustfreie Präzision erreicht und gleichzeitig die Inferenzgeschwindigkeit deutlich erhöht. Im Vergleich zu FP16 erreicht FP8 auf Nvidias H20 eine bis zu doppelt so hohe und auf dem H100 eine über 1,5-fache Beschleunigung. Insbesondere während die Diskussionen um den Trend zu inländischer Rechenleistung und inländischen Modellen an Fahrt gewinnen, nehmen Spekulationen darüber zu, ob Nvidia gestört werden könnte und ob der CUDA-Burggraben umgangen werden könnte. Eine unbestreitbare Tatsache ist, dass DeepSeek tatsächlich zu einem erheblichen Rückgang des Marktwerts von Nvidia geführt hat. Diese Verschiebung wirft jedoch Fragen hinsichtlich der Integrität von Nvidias High-End-Rechenleistung auf. Bisher akzeptierte Darstellungen bezüglich kapitalgetriebener Rechenakkumulation werden in Frage gestellt, dennoch bleibt es für Nvidia schwierig, in Trainingsszenarien vollständig zu ersetzen. Analysen der umfassenden CUDA-Nutzung von DeepSeek zeigen, dass Flexibilität – wie die Verwendung von SM zur Kommunikation oder die direkte Manipulation von Netzwerkkarten – für normale GPUs nicht realisierbar ist. Branchensichtweisen betonen, dass Nvidias Burggraben das gesamte CUDA-Ökosystem und nicht nur CUDA selbst umfasst und dass die von DeepSeek verwendeten PTX-Anweisungen (Parallel Thread Execution) nach wie vor Teil des CUDA-Ökosystems sind. „Kurzfristig ist Nvidias Rechenleistung unschlagbar – das zeigt sich insbesondere im Training. Der Einsatz inländischer Grafikkarten für das Reasoning wird jedoch vergleichsweise einfacher sein, sodass die Fortschritte wahrscheinlich schneller erfolgen werden. Die Anpassung inländischer Grafikkarten konzentriert sich hauptsächlich auf die Inferenz; bisher ist es noch niemandem gelungen, ein Modell mit der Leistung von DeepSeek in großem Maßstab auf inländischen Grafikkarten zu trainieren“, bemerkte ein Branchenanalyst gegenüber AI Technology Review. Insgesamt sind die Bedingungen aus Inferenzsicht für inländische Chips für große Modelle ermutigend. Die Chancen für inländische Chiphersteller im Bereich der Inferenz sind aufgrund der extrem hohen Anforderungen an das Training, die den Markteintritt erschweren, deutlicher. Analysten argumentieren, dass die Nutzung inländischer Inferenzkarten ausreicht; bei Bedarf sei die Anschaffung einer zusätzlichen Maschine möglich, während das Training von Modellen besondere Herausforderungen mit sich bringt – die Verwaltung einer größeren Anzahl von Maschinen kann aufwändig werden, und höhere Fehlerraten können sich negativ auf die Trainingsergebnisse auswirken. Das Training stellt zudem spezifische Anforderungen an die Clustergröße, während die Anforderungen an Cluster für die Inferenz weniger streng sind, was die GPU-Anforderungen reduziert. Derzeit übertrifft die Leistung der einzelnen H20-Karte von Nvidia nicht die von Huawei oder Cambrian; ihre Stärke liegt im Clustering. In Anbetracht der Gesamtauswirkungen auf den Markt für Rechenleistung bemerkte You Yang, Gründer von Luchen Technology, in einem Interview mit AI Technology Review: „DeepSeek könnte die Einrichtung und Vermietung von ultragroßen Trainings-Rechenclustern vorübergehend beeinträchtigen. Langfristig dürfte die Marktnachfrage durch die deutliche Kostensenkung für Training, Reasoning und Anwendungen großer Modelle stark ansteigen. Darauf basierende KI-Entwicklungen werden daher die Nachfrage im Markt für Rechenleistung kontinuierlich steigern.“ Darüber hinaus „passt die gestiegene Nachfrage von DeepSeek nach Reasoning- und Feinabstimmungsdiensten besser zur inländischen Rechenlandschaft, wo die lokalen Kapazitäten relativ schwach sind. Dies trägt dazu bei, die Verschwendung ungenutzter Ressourcen nach der Cluster-Einrichtung zu reduzieren. Dies schafft attraktive Möglichkeiten für Hersteller auf verschiedenen Ebenen des inländischen Rechen-Ökosystems.“ Luchen Technology hat mit Huawei Cloud zusammengearbeitet, um die Reasoning-APIs und Cloud-Imaging-Dienste der DeepSeek R1-Serie auf Basis inländischer Rechenleistung auf den Markt zu bringen. You Yang äußerte sich optimistisch für die Zukunft: „DeepSeek schafft Vertrauen in im Inland produzierte Lösungen und fördert künftig größere Begeisterung und Investitionen in inländische Rechenkapazitäten.“

微信图片_20240614024031.jpg1

Abschluss

Ob DeepSeek „besser“ als ChatGPT ist, hängt von den spezifischen Bedürfnissen und Zielen des Nutzers ab. Für Aufgaben, die Flexibilität, niedrige Kosten und individuelle Anpassung erfordern, ist DeepSeek möglicherweise die bessere Wahl. Für kreatives Schreiben, allgemeine Recherchen und benutzerfreundliche Konversationsoberflächen ist ChatGPT möglicherweise die beste Wahl. Jedes Tool dient unterschiedlichen Zwecken, daher hängt die Wahl stark vom jeweiligen Anwendungskontext ab.

Finden Sie eine ELV-Kabellösung

Steuerkabel

Für BMS-, BUS-, Industrie- und Instrumentierungskabel.

Strukturiertes Verkabelungssystem

Netzwerk und Daten, Glasfaserkabel, Patchkabel, Module, Frontplatte

Rückblick auf Messen und Veranstaltungen 2024

16.-18. April 2024 Middle-East-Energy in Dubai

16.-18. April 2024 Securika in Moskau

9. Mai 2024: Launch-Event für neue Produkte und Technologien in Shanghai

22.-25.10.2024 SECURITY CHINA in Peking

19.–20. November 2024 CONNECTED WORLD KSA


Veröffentlichungszeit: 10. Februar 2025