Gemini 3 Pro je vlajkový model společnosti Google pro vysoce přesné multimodální usuzování, který kombinuje silný výkon v oblasti textu, obrazu, videa, zvuku a kódu s kontextovým oknem o velikosti 1M tokenů. Při použití vícekolového volání nástrojů je nutné zachovat detaily usuzování, viz naše dokumentace zde: https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning-blocks. Dosahuje nejlepších výsledků v benchmarkových testech v oblasti obecného usuzování, řešení STEM problémů, faktických otázek a multimodálního porozumění, včetně předních skóre v LMArena, GPQA Diamond, MathArena Apex, MMMU-Pro a Video-MMMU. Interakce kladou důraz na hloubku a interpretovatelnost: model je navržen tak, aby odvozoval záměr s minimálním promptingem a produkoval přímé odpovědi zaměřené na vhled.
Gemini 3 Pro, vytvořený pro pokročilý vývoj a agentní pracovní postupy, poskytuje robustní volání nástrojů, stabilitu dlouhodobého plánování a silnou generaci zero-shot pro komplexní UI, vizualizace a kódovací úlohy. Vyniká v agentním kódování (SWE-Bench Verified, Terminal-Bench 2.0), multimodální analýze a strukturovaných úlohách dlouhého formátu, jako je syntéza výzkumu, plánování a interaktivní vzdělávací zkušenosti. Mezi vhodné aplikace patří autonomní agenti, kódovací asistenti, multimodální analytika, vědecké usuzování a zpracování informací s vysokým kontextem.
Unikátní charakteristiky
Gemini 3 Pro Preview představuje vlajkový model Google zaměřený na nativní multimodální zpracování s kontextovým oknem 1 milionu tokenů. Model je optimalizován pro složité agentní pracovní postupy (agentic workflows) a vykazuje špičkové výsledky v benchmarcích jako GPQA Diamond a Video-MMMU, přičemž zachovává schopnost zpracovávat text, obraz, audio i video v jediném inferenčním toku.
Silné stránky
Multimodalita
Špičkové výsledky v benchmarku Video-MMMU a schopnost nativně analyzovat video a audio v reálném čase bez nutnosti externího transkriptu.
Kontextové okno
Kapacita 1 048 576 tokenů umožňuje zpracování rozsáhlých kódových bází nebo dlouhých video záznamů s vysokou přesností vyhledávání (needle-in-a-haystack).
Agentní schopnosti
Vylepšené volání nástrojů (tool-calling) a plánování v dlouhém horizontu, což je klíčové pro autonomní vývojářské agenty (SWE-Bench).
Slabé stránky
Cena
S cenou $2.00 za 1M vstupních tokenů je výrazně dražší než efektivní modely jako Gemini 3 Flash nebo DeepSeek v3.2.
Rychlost
Jako ‘Pro’ model má vyšší latenci než modely třídy Flash nebo Haiku, což může limitovat použití v aplikacích vyžadujících okamžitou odezvu.