DeepSeek R1 Distill Llama 70B je destilovaný velký jazykový model založený na Llama-3.3-70B-Instruct, využívající výstupy z DeepSeek R1. Model kombinuje pokročilé destilační techniky k dosažení vysokého výkonu v několika benchmarkách, včetně:
- AIME 2024 pass@1: 70.0
- MATH-500 pass@1: 94.5
- CodeForces Rating: 1633
Model využívá doladění z výstupů DeepSeek R1, což umožňuje konkurenceschopný výkon srovnatelný s většími špičkovými modely.
Unikátní charakteristiky
Tento model využívá techniku destilace znalostí z výkonnějšího modelu DeepSeek R1 do architektury Llama-3.3-70B. Díky tomu dosahuje špičkových výsledků v matematických a logických úlohách při zachování efektivity 70B modelu. Je specificky optimalizován pro řetězec myšlenek (Chain of Thought) a řešení komplexních problémů.
Silné stránky
Matematický výkon
Skóre 94.5 na MATH-500 a 70.0 na AIME 2024 jej řadí na úroveň mnohem větších frontier modelů.
Poměr cena/výkon
S cenou $0.03 za 1M vstupních tokenů je řádově levnější než konkurence s podobnou kognitivní schopností.
Programování
CodeForces Rating 1633 indikuje silné schopnosti v algoritmickém programování.
Slabé stránky
Multimodalita
Model je omezen pouze na textový vstup a výstup, chybí zpracování obrazu či zvuku, které nabízí Gemini nebo GPT-Audio.
Kontextové okno
Kapacita 131k tokenů je dostatečná, ale zaostává za modely s 1M+ kontextem (Gemini, Claude, Grok).