DeepSeek V3, model s 685 miliardami parametrů, využívající architekturu mixture-of-experts, je nejnovější iterací vlajkové lodi rodiny chatovacích modelů od týmu DeepSeek.
Navazuje na model DeepSeek V3 a dosahuje velmi dobrých výsledků v široké škále úloh.
Unikátní charakteristiky
DeepSeek V3 0324 využívá masivní architekturu Mixture-of-Experts (685B) k dosažení výkonu na úrovni vlajkových lodí při zachování nízkých inferenčních nákladů. Model se vyznačuje vysokým limitem pro výstupní tokeny (65k), což jej předurčuje pro generování dlouhých textů a kódu.
Silné stránky
Poměr cena/výkon
S cenou $0.19 za 1M vstupních tokenů nabízí inteligenci modelu s 600B+ parametry za cenu ‘lite’ modelů konkurence.
Výstupní kapacita
Maximální výstup 65,536 tokenů výrazně převyšuje standardních 4k-8k u mnoha konkurentů, ideální pro generování celých softwarových modulů.
Programování a logika
Architektura MoE exceluje v technických úlohách a logickém odvozování, kde konkuruje dražším modelům jako Claude Opus.
Slabé stránky
Kontextové okno
Kapacita 163,840 tokenů je v kontextu roku 2025 podprůměrná (konkurence běžně nabízí 1M-2M tokenů).
Modalita
Omezeno pouze na text-to-text, chybí nativní zpracování obrazu či audia, které nabízí Gemini nebo GPT-Audio.