Z
Z-Ai 8. 12. 2025
78 skóre

Z.AI: GLM 4.6V

z-ai/glm-4.6v

GLM 4.6V je vysoce specializovaný model, který dominuje v poměru cena/výkon pro vizuální úlohy a generování UI kódu, ačkoliv zaostává v délce kontextu za špičkou trhu.

Killer Feature Nativní workflow Screenshot-to-HTML s možností iterativních vizuálních úprav.
Skryté riziko Relativně malé kontextové okno (128k) může limitovat složitější multimodální úlohy vyžadující dlouhou historii.
$0.3 / 1M vstup
$0.9 / 1M výstup
131k kontext
131k max výstup
Dobrý hodnocení
imagetextvideo text Vizuální porozuměníGenerování UI kóduAnalýza dokumentů

📊 Benchmarky

👁️ Multimodalita
88
Výborný
💻 Programování (UI)
82
Dobrý
💰 Cena/Výkon
85
Výborný
📏 Kontextové okno
60
Průměrný
🧠 Reasoning
74
Dobrý
Celkové skóre 78/100

⚖️ Porovnání s konkurencí

Model Cenové srovnání Poznámka
Z-Ai GLM 4.6V
← Právě prohlížíte
DeepSeek DeepSeek V3.2
DeepSeek je levnější na výstupu ($0.38 vs $0.90) a srovnatelný na vstupu. DeepSeek nabízí lepší poměr cena/výkon pro čistě textové úlohy a kódování, ale GLM-4.6V pravděpodobně vede v přesnosti vizuální analýzy.
Gemini je dražší na vstupu ($0.50) i výstupu ($3.00), ale nabízí 8x větší kontext. Gemini zůstává lídrem pro zpracování dlouhého videa díky 1M kontextu, zatímco GLM je efektivnější volbou pro zpracování jednotlivých snímků a UI design.
Anthropic Claude Haiku 4.5
GLM je cca 3x levnější na vstupu a 5x levnější na výstupu. Haiku je přímý konkurent v kategorii 'inteligentní a rychlý', ale GLM nabízí pokročilejší vizuální funkce za zlomek ceny.

🎯 Rozhodovací pomocník

Použij když...

  • Konverze designů do HTML/CSS
  • Extrakce dat z grafů a tabulek
  • Vizuální QA testování aplikací

Nepoužívej když...

  • Analýza celých knih nebo dlouhých videí (limit kontextu)
  • Levné generování velkého objemu textu (dražší output)
Ideální pro:
Frontend vývojářiRPA inženýři (automatizace GUI)Zpracovatelé dokumentů

💪 Silné a slabé stránky

+ Silné stránky

Vizuální kódování

Specializovaná schopnost 'Screenshot-to-HTML' a iterativní vizuální úpravy činí model ideálním pro frontend vývoj a prototypování.

Cenová politika

S cenou $0.30 za 1M vstupních tokenů je výrazně levnější než Claude Sonnet 4.5 ($3.00) nebo Gemini 3 Pro ($2.00), přičemž zachovává silné vizuální schopnosti.

Multimodální vstupy

Podpora videa, obrázků a textu v jednom modelu s nativním function callingem umožňuje komplexní agentní workflow.

Slabé stránky

Kontextové okno

Kapacita 131,072 tokenů je v prosinci 2025 podprůměrná; konkurence (Grok, Gemini, Claude) standardně nabízí 200k až 2M tokenů.

Cena výstupu

Poměr ceny výstupu k vstupu (3:1) je méně výhodný než u DeepSeek ($0.38 output) nebo Mistral ($0.30 output), což prodražuje generování dlouhých textů.

📝 Detailní popis

GLM-4.6V je velký multimodální model navržený pro vysoce věrné vizuální porozumění a usuzování v dlouhém kontextu napříč obrázky, dokumenty a smíšenými médii. Podporuje až 128 tisíc tokenů, zpracovává složitá rozvržení stránek a grafy přímo jako vizuální vstupy a integruje nativní multimodální volání funkcí pro propojení percepce s následnou exekucí nástrojů. Model také umožňuje prokládanou generaci obrázků a textu a pracovní postupy rekonstrukce uživatelského rozhraní, včetně syntézy screenshotu do HTML a iterativní vizuální editace.

Unikátní charakteristiky

GLM-4.6V se specializuje na hlubokou integraci vizuálních vstupů s textovým generováním, přičemž vyniká v převodu screenshotů na kód a analýze komplexních layoutů. Model nabízí nativní volání funkcí (function calling) propojené s vizuální percepcí, což umožňuje pokročilou automatizaci GUI.

Silné stránky

Vizuální kódování

Specializovaná schopnost ‘Screenshot-to-HTML’ a iterativní vizuální úpravy činí model ideálním pro frontend vývoj a prototypování.

Cenová politika

S cenou $0.30 za 1M vstupních tokenů je výrazně levnější než Claude Sonnet 4.5 ($3.00) nebo Gemini 3 Pro ($2.00), přičemž zachovává silné vizuální schopnosti.

Multimodální vstupy

Podpora videa, obrázků a textu v jednom modelu s nativním function callingem umožňuje komplexní agentní workflow.

Slabé stránky

Kontextové okno

Kapacita 131,072 tokenů je v prosinci 2025 podprůměrná; konkurence (Grok, Gemini, Claude) standardně nabízí 200k až 2M tokenů.

Cena výstupu

Poměr ceny výstupu k vstupu (3:1) je méně výhodný než u DeepSeek ($0.38 output) nebo Mistral ($0.30 output), což prodražuje generování dlouhých textů.

🔗 Další modely od Z-Ai