DeepSeek veröffentlicht V3, bereitet OpenAI und Co. Kopfschmerzen

DeepSeek hat Version V3 seines KI-Modells vorgestellt, diese zeich­net sich u. a. durch verbesserte Fähigkeiten beim Program­mie­ren und Mathematik aus. Bemerkenswert ist vor allem, dass das Modell auf Consumer-Hardware wie dem Mac Studio lauffähig ist.
Logo, Ki, Künstliche Intelligenz, China, AI, Artificial Intelligence, Chatbot, KI-Chatbot, Logos, DeepSeek, DeepSeek R1, China-KI, Deepseek Logo

Effizientes KI-Modell mit 685 Milliarden Parametern

Der chinesische KI-Entwickler DeepSeek hat sein Sprachmodell auf Version 3 bzw. V3 aktualisiert. Das neue Modell DeepSeek-V3-0324 verfügt über 685 Milliarden Parameter und zeigt deutliche Verbesserungen bei Mathematik- und Programmieraufgaben. Bei der American Invitational Mathematics Examination (AIME) erreichte das Modell 59,4 Punkte - ein Anstieg von fast 20 Punkten im Vergleich zum Vorgänger.

Die Effizienz des neuen Modells sticht besonders hervor. Durch eine spezielle, sogenannte Mixture-of-Experts-Architektur werden laut VentureBeat bei jeder Aufgabe nur etwa 37 Milliarden der insgesamt 685 Milliarden Parameter aktiviert. Dies ermöglicht den Betrieb auf leistungsfähigen Consumer-Geräten wie dem Mac Studio mit M3 Ultra Chip, wo Geschwindigkeiten von über 20 Token pro Sekunde erreicht werden.

DeepSeek setzt mit der Veröffentlichung unter der MIT-Lizenz auf eine offene Strategie. Im Gegensatz zu westlichen Konkurrenten wie OpenAI oder Anthropic, die ihre Modelle nur über kostenpflichtige APIs anbieten, kann DeepSeek-V3-0324 frei genutzt und kommerziell eingesetzt werden.

Das Update führt zwei zentrale technische Neuerungen ein: Multi-Head Latent Attention (MLA) optimiert die Verarbeitung längerer Texte, während Multi-Token Prediction (MTP) mehrere Token gleichzeitig generieren kann. Das erhöht die Ausgabegeschwindigkeit um bis zu 80 Prozent.

Simon Willison, der Entwickler-Tools erschafft, schreibt in einem Blogbeitrag, dass das Modell in der 4-Bit-Version "nur" 352 GB Speicherplatz benötigt und während der Inferenz weniger als 200 Watt verbraucht - deutlich weniger als herkömmliche KI-Systeme, die oft mehrere Kilowatt benötigen. Diese Effizienz könnte die Anforderungen an die KI-Infrastruktur neu definieren. Das vollständige DeepSeek-V3-0324-Modell beansprucht 641 Gigabyte Speicherplatz.

DeepSeek-V3-0324 könnte als Grundlage für ein neues Reasoning-Modell namens R2 dienen, dessen Veröffentlichung in den kommenden Wochen erwartet wird. Das aktuelle R1-Modell hatte bereits durch seine Problemlösungsfähigkeiten Aufmerksamkeit erregt.

Wie bewertet ihr die Open-Source-Strategie von DeepSeek? Habt ihr DeepSeek schon selbst ausprobiert? Diskutiert mit uns in den Kommentaren, ob dieser Ansatz die KI-Entwicklung demokratisieren könnte.

Zusammenfassung
  • DeepSeek stellt Version V3 seines KI-Modells mit 685 Mrd. Parametern vor
  • Verbesserte Fähigkeiten in Mathematik und Programmierung nachgewiesen
  • Effizienz durch Mixture-of-Experts-Architektur ermöglicht Nutzung auf PCs
  • Veröffentlichung unter MIT-Lizenz erlaubt freie und kommerzielle Nutzung
  • Technische Neuerungen: Multi-Head Latent Attention und Multi-Token Prediction
  • 4-Bit-Version benötigt nur 352 GB Speicher und weniger als 200 Watt Leistung
  • Könnte als Grundlage für neues Reasoning-Modell R2 dienen

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!