Trinity-Large-Preview je jazykový model otevřené váhy hraničního rozsahu od společnosti Arcee, vytvořený jako řídký model Mixture-of-Experts se 400 miliardami parametrů a 13 miliardami aktivních parametrů na token s využitím směrování 4 z 256 expertů.
Vyniká v kreativním psaní, vyprávění příběhů, hraní rolí, chatovacích scénářích a hlasové asistenci v reálném čase, lépe než průměrný model pro usuzování. Zároveň představujeme některé z našich novějších agentních výkonů. Byl trénován, aby se dobře orientoval v agentních prostředích, jako jsou OpenCode, Cline a Kilo Code, a aby zvládal komplexní toolchainy a dlouhé podněty s mnoha omezeními.
Architektura nativně podporuje velmi dlouhá kontextová okna až do 512 tisíc tokenů, přičemž Preview API je aktuálně poskytováno s kontextem 128 tisíc tokenů s použitím 8bitové kvantizace pro praktické nasazení. Trinity-Large-Preview odráží filozofii společnosti Arcee, která klade důraz na efektivitu, a nabízí produkčně orientovaný hraniční model s otevřenými váhami a permisivní licencí, vhodný pro reálné aplikace a experimentování.
Unikátní charakteristiky
Trinity Large Preview využívá vysoce granulární MoE architekturu s 256 experty, což umožňuje efektivitu inference na úrovni 13B modelu při zachování znalostní kapacity 400B modelu. Model je unikátní svou hybridní specializací, kdy kombinuje vysokou fluenci v kreativním psaní s robustní schopností ovládat složité nástroje (tool-use) v agentních prostředích.
Silné stránky
Efektivita inference
Díky aktivaci pouze 13B parametrů na token nabízí model nízkou latenci vhodnou pro real-time hlasové asistenty a chat, přičemž je poskytován zdarma.
Agentní integrace
Model byl specificky trénován pro navigaci v agentních postrojích (harnesses) jako OpenCode a Cline, což mu dává výhodu při zpracování složitých toolchainů oproti běžným chatovacím modelům.
Kreativní schopnosti
Architektura je optimalizována pro storytelling a role-play, kde překonává standardní ‘reasoning’ modely v přirozenosti a kreativitě výstupu.
Slabé stránky
Omezení API kontextu
Ačkoliv architektura nativně podporuje 512k tokenů, Preview API je limitováno na cca 131k, což je méně než u konkurence (např. x-AI nebo Google).
Kvantizace při nasazení
API je aktuálně obsluhováno v 8-bitové kvantizaci pro efektivitu, což může vést k mírné ztrátě přesnosti v nuancích oproti plné precizi vah.