GLM-4.6V je velký multimodální model navržený pro vysoce věrné vizuální porozumění a usuzování v dlouhém kontextu napříč obrázky, dokumenty a smíšenými médii. Podporuje až 128 tisíc tokenů, zpracovává složitá rozvržení stránek a grafy přímo jako vizuální vstupy a integruje nativní multimodální volání funkcí pro propojení percepce s následnou exekucí nástrojů. Model také umožňuje prokládanou generaci obrázků a textu a pracovní postupy rekonstrukce uživatelského rozhraní, včetně syntézy screenshotu do HTML a iterativní vizuální editace.
Unikátní charakteristiky
GLM-4.6V se specializuje na hlubokou integraci vizuálních vstupů s textovým generováním, přičemž vyniká v převodu screenshotů na kód a analýze komplexních layoutů. Model nabízí nativní volání funkcí (function calling) propojené s vizuální percepcí, což umožňuje pokročilou automatizaci GUI.
Silné stránky
Vizuální kódování
Specializovaná schopnost ‘Screenshot-to-HTML’ a iterativní vizuální úpravy činí model ideálním pro frontend vývoj a prototypování.
Cenová politika
S cenou $0.30 za 1M vstupních tokenů je výrazně levnější než Claude Sonnet 4.5 ($3.00) nebo Gemini 3 Pro ($2.00), přičemž zachovává silné vizuální schopnosti.
Multimodální vstupy
Podpora videa, obrázků a textu v jednom modelu s nativním function callingem umožňuje komplexní agentní workflow.
Slabé stránky
Kontextové okno
Kapacita 131,072 tokenů je v prosinci 2025 podprůměrná; konkurence (Grok, Gemini, Claude) standardně nabízí 200k až 2M tokenů.
Cena výstupu
Poměr ceny výstupu k vstupu (3:1) je méně výhodný než u DeepSeek ($0.38 output) nebo Mistral ($0.30 output), což prodražuje generování dlouhých textů.