Google: Gemini 3 Pro Preview

google/gemini-3-pro-preview

Gemini 3 Pro Preview je technicky pokročilý model pro náročné multimodální úlohy, který nabízí výborný poměr ceny a výkonu ve své třídě (levnější než Claude Sonnet 4.5), ale pro rutinní textové operace je ekonomicky nevýhodný oproti verzi Flash.

✦

Killer Feature Nativní schopnost 'reasoningu' nad kombinací videa, audia a kódu v rámci jednoho milionu tokenů kontextu.

⚠

Skryté riziko Vysoká cena výstupu ($12/1M) může při neopatrném logování nebo verbose odpovědích rychle vyčerpat rozpočet.

$2 / 1M vstup

$12 / 1M výstup

1.0M kontext

66k max výstup

Výborný hodnocení

textimagefileaudiovideo text Multimodální reasoningAgentní systémyAnalýza videa a kódu

⚖️ Porovnání s konkurencí

Model	Cenové srovnání	Poznámka
Google Gemini 3 Pro Preview	← Právě prohlížíte	—
Anthropic Claude 3.5 Sonnet	Gemini je o 33 % levnější na vstupu ($2 vs $3) a o 20 % levnější na výstupu.	Claude Sonnet 4.5 je hlavním přímým konkurentem s identickým kontextem (1M). Gemini 3 Pro cílí na převahu v práci s videem a kódem, zatímco Claude často dominuje v nuancích přirozeného jazyka.
OpenAI GPT-5.2 Codex	Srovnatelná cena (Gemini $2 vs GPT $1.75 vstup), Gemini je levnější na výstupu ($12 vs $14).	GPT-5.2 Codex je specializovaný na programování. Gemini 3 Pro nabízí širší multimodální záběr (video/audio), zatímco Codex může být efektivnější v čistě textových kódovacích úlohách.
Google Gemini 3 Flash Preview	Pro verze je 4x dražší na vstupu i výstupu.	Interní konkurence. Flash nabízí stejné kontextové okno za zlomek ceny a je vhodnější pro velkoobjemové zpracování dat, kde není nutná maximální reasoningová hloubka modelu Pro.

🎯 Rozhodovací pomocník

✓

Použij když...

Analýza dlouhých video záznamů a extrakce dat
Komplexní refactoring kódu v rozsáhlých repozitářích
Multimodální RAG systémy

✗

Nepoužívej když...

Jednoduché chatboty pro zákaznickou podporu (nákladné)
Úlohy vyžadující extrémně nízkou latenci

Ideální pro:

Vývojáři AI agentůData analytici pracující s videemEnterprise architekti

💪 Silné a slabé stránky

+ Silné stránky

Multimodalita

Špičkové výsledky v benchmarku Video-MMMU a schopnost nativně analyzovat video a audio v reálném čase bez nutnosti externího transkriptu.

Kontextové okno

Kapacita 1 048 576 tokenů umožňuje zpracování rozsáhlých kódových bází nebo dlouhých video záznamů s vysokou přesností vyhledávání (needle-in-a-haystack).

Agentní schopnosti

Vylepšené volání nástrojů (tool-calling) a plánování v dlouhém horizontu, což je klíčové pro autonomní vývojářské agenty (SWE-Bench).

− Slabé stránky

Cena

S cenou $2.00 za 1M vstupních tokenů je výrazně dražší než efektivní modely jako Gemini 3 Flash nebo DeepSeek v3.2.

Rychlost

Jako 'Pro' model má vyšší latenci než modely třídy Flash nebo Haiku, což může limitovat použití v aplikacích vyžadujících okamžitou odezvu.

📝 Detailní popis

Gemini 3 Pro je vlajkový model společnosti Google pro vysoce přesné multimodální usuzování, který kombinuje silný výkon v oblasti textu, obrazu, videa, zvuku a kódu s kontextovým oknem o velikosti 1M tokenů. Při použití vícekolového volání nástrojů je nutné zachovat detaily usuzování, viz naše dokumentace zde: https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning-blocks. Dosahuje nejlepších výsledků v benchmarkových testech v oblasti obecného usuzování, řešení STEM problémů, faktických otázek a multimodálního porozumění, včetně předních skóre v LMArena, GPQA Diamond, MathArena Apex, MMMU-Pro a Video-MMMU. Interakce kladou důraz na hloubku a interpretovatelnost: model je navržen tak, aby odvozoval záměr s minimálním promptingem a produkoval přímé odpovědi zaměřené na vhled.

Gemini 3 Pro, vytvořený pro pokročilý vývoj a agentní pracovní postupy, poskytuje robustní volání nástrojů, stabilitu dlouhodobého plánování a silnou generaci zero-shot pro komplexní UI, vizualizace a kódovací úlohy. Vyniká v agentním kódování (SWE-Bench Verified, Terminal-Bench 2.0), multimodální analýze a strukturovaných úlohách dlouhého formátu, jako je syntéza výzkumu, plánování a interaktivní vzdělávací zkušenosti. Mezi vhodné aplikace patří autonomní agenti, kódovací asistenti, multimodální analytika, vědecké usuzování a zpracování informací s vysokým kontextem.

Unikátní charakteristiky

Gemini 3 Pro Preview představuje vlajkový model Google zaměřený na nativní multimodální zpracování s kontextovým oknem 1 milionu tokenů. Model je optimalizován pro složité agentní pracovní postupy (agentic workflows) a vykazuje špičkové výsledky v benchmarcích jako GPQA Diamond a Video-MMMU, přičemž zachovává schopnost zpracovávat text, obraz, audio i video v jediném inferenčním toku.

Silné stránky

Multimodalita