Qwen: Qwen3.5 397B A17B

qwen/qwen3.5-397b-a17b

Technologicky pokročilý model ideální pro multimodální agenty, který však trpí vyšší cenou za generování výstupu oproti agresivní konkurenci.

✦

Killer Feature Hybridní architektura umožňující 'GUI grounding' – schopnost přesně ovládat softwarová rozhraní na základě vizuálního vstupu.

⚠

Skryté riziko Disproporce mezi cenou vstupu a výstupu může prodražit aplikace s ukecanými odpověďmi.

$0.6 / 1M vstup

$3.6 / 1M výstup

262k kontext

66k max výstup

Dobrý hodnocení

textimagevideo text Multimodální porozumění (Video/GUI)Autonomní agentiGenerování kódu

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Qwen Qwen3.5 397B A17B	← Právě prohlížíte	—
Google Gemini 3 Flash Preview	Podobná cena vstupu ($0.50 vs $0.60), Gemini je levnější na výstupu ($3.00 vs $3.60)	Gemini nabízí 4x větší kontext (1M) a podobné multimodální schopnosti za mírně nižší cenu.
DeepSeek DeepSeek v3.2	DeepSeek je výrazně levnější (cca 2x na vstupu, 9x na výstupu)	DeepSeek dominuje v poměru cena/výkon pro čistý text a kód, ale Qwen má navrch v nativním zpracování videa a GUI.
Anthropic Claude Haiku 4.5	Qwen je levnější (Haiku stojí $1.00/$5.00)	Qwen nabízí větší kontext (262k vs 200k) a lepší cenu, přičemž cílí na podobný segment rychlých a chytrých modelů.

🎯 Rozhodovací pomocník

✓

Použij když...

Automatizace ovládání GUI a softwaru
Analýza dlouhých video záznamů
Komplexní RAG systémy s vizuálními daty

✗

Nepoužívej když...

Generování velkého objemu textu (kvůli ceně výstupu)
Analýza extrémně dlouhých dokumentů nad 260k tokenů

Ideální pro:

Vývojáři AI agentůRPA (Robotic Process Automation) inženýřiVideo analytici

💪 Silné a slabé stránky

+ Silné stránky

Multimodální Agenti

Vynikající schopnost interpretovat GUI a video pro agentní úlohy, překonávající standardní textové modely v automatizaci softwarových rozhraní.

Efektivita Inference

Díky aktivaci pouze 17B parametrů nabízí latenci srovnatelnou s malými modely, přestože disponuje znalostní bází 400B modelu.

Cena Vstupu

Cena $0.60 za 1M vstupních tokenů je velmi konkurenceschopná pro model této velikosti a schopností.

− Slabé stránky

Cena Výstupu

Cena $3.60 za 1M výstupních tokenů je téměř 10x vyšší než u DeepSeek v3.2 ($0.38) a vyšší než u Gemini 3 Flash ($3.00).

Kontextové Okno

Kapacita 262,144 tokenů je sice dostatečná, ale zaostává za konkurencí od Google a xAI (1M - 2M tokenů).

📝 Detailní popis

Řada Qwen3.5 397B-A17B nativního modelu pro zpracování obrazu a jazyka je postavena na hybridní architektuře, která integruje mechanismus lineární pozornosti s řídkým modelem směsi expertů, čímž dosahuje vyšší efektivity inference. Poskytuje nejmodernější výkon srovnatelný s předními modely v široké škále úloh, včetně porozumění jazyku, logického uvažování, generování kódu, úloh založených na agentech, porozumění obrazu, porozumění videu a interakcí s grafickým uživatelským rozhraním (GUI). Díky svým robustním schopnostem generování kódu a agentů model vykazuje silnou generalizaci napříč různými agenty.

Unikátní charakteristiky

Model využívá unikátní hybridní architekturu kombinující lineární attention mechanismus s řídkým Mixture-of-Experts (MoE), což umožňuje masivní celkovou kapacitu parametrů (397B) při zachování efektivity inference odpovídající 17B modelu. Specializuje se na nativní zpracování vizuálních vstupů včetně videa a interakce s grafickým uživatelským rozhraním (GUI).

Silné stránky

Multimodální Agenti