Agentní Autoresearch - agentům svědčí přísnost

Andrej Karpathy, bývalý šéf AI v Tesle a spoluzakladatel OpenAI, začátkem března 2026 zveřejnil projekt Autoresearch— minimalistický systém o 630 řádcích kódu, který AI agentovi umožňuje autonomně experimentovat s tréninkem jazykového modelu. A odezva na to je opravdu velkolepá. Pojďme se na to podívat blíže, protože spolu s úspěchem MiroFish je Autoresearch prototypem jak pro celé agentní odvětví, tak pro hype, který vzbuzují.

Co dělá Autoresearch? Je to agent, který upravuje kód, spouští pětiminutové experimenty, vyhodnocuje výsledky a ponechává jen změny, které vedou ke zlepšení. Projekt je zajímavý ne tím, co agent dělá, ale tím, jak přísně je vymezeno prostředí, ve kterém pracuje. A právě v tom spočívá jeho skutečná poučka pro všechny, kdo se pokoušejí stavět agentní systémy.

Co Autoresearch vlastně je

Než si vyrobíme nedorozumění: Autoresearch se hodí pro úzkou skupinu úkolů. Nemůžete ho jen tak pustit na své akciové portfolio a těšit se, že se stanete dalším Buffetem nebo napojit na CRISP a bádat nad DNA. Je vlastně vhodný jen pro zlepšování neuronových sítí, což si za chvíli objasníme.

Autoresearch také není pokus o autonomního vědce, nemá generovat recenzované články nebo nové teorie. Jde o přísně ohraničenou optimalizační smyčku. Agent dostane trénovací skript pro malý jazykový model (odvozený z Karpathyho projektu nanochat), a jeho úkolem je opakovaně upravovat tento skript, spouštět trénink a měřit, jestli výsledek zlepšil jedinou sledovanou metriku — validační bity na bajt (val_bpb). Pokud ano, změna se zachová jako nový výchozí bod. Pokud ne, kód se vrátí na předchozí stav.

Celý repozitář se točí kolem tří souborů. prepare.py obsahuje přípravu dat, tokenizátor a evaluační logiku — agent do něj nesmí zasahovat. train.py je jediný soubor, který smí agent upravovat. Obsahuje architekturu modelu, optimalizátor, plánovač učení a trénovací smyčku. A konečně program.md je markdown soubor s instrukcemi pro agenta — jak má postupovat, co smí měnit, jak logovat výsledky a jak se zotavit z pádů. Karpathy k tomu dodává: „Neprogramujete Python soubory jako normální výzkumník. Místo toho programujete markdown soubory, které řídí vaši autonomní výzkumnou organizaci.”

Důležité rozhodnutí je, že agent nemůže měnit evaluační funkci. Nemůže si tak „vylepšit” výsledky tím, že změní způsob měření. Veškeré experimenty mají pevný časový rozpočet pěti minut skutečného času na GPU (ano, potřebujete GPU), bez ohledu na to, co agent v kódu změní. To znamená přibližně 12 experimentů za hodinu, zhruba 100 přes noc. Výsledky se zapisují do results.tsv, ale tento soubor se necommituje do gitu — git uchovává jen vítěznou linii evoluce kódu.

Jak to dopadlo v praxi

Karpathy nechal systém běžet dva dny na modelu s hloubkou 12 vrstev. Agent provedl přibližně 700 úprav, z nichž zhruba 20 přineslo měřitelné zlepšení validační metriky. Všechny tyto změny se ukázaly jako aditivní — fungovaly i po vzájemném složení — a úspěšně se přenesly na větší model s 24 vrstvami. Po aplikaci všech vylepšení se na žebříčku nanochat doba trénování modelu úrovně GPT-2 snížila z 2,02 hodiny na 1,80 hodiny, což představuje zhruba 11% zlepšení.

Co konkrétně agent našel? Zjistil, že bezparametrová normalizace QK v mechanismu pozornosti postrádala škálovací násobitel, takže pozornost byla příliš rozptýlená. Objevil, že hodnotové vložky (Value Embeddings) profitují z regularizace, kterou Karpathy dříve neaplikoval. Odhalil, že pásová pozornost (banded attention) byla nastavena příliš konzervativně. Opravil nesprávné nastavení parametrů beta v optimalizátoru AdamW. Vyladil plán rozpadu vah a inicializaci sítě. Karpathy sám přiznal, že šlo o přehlédnutí, která mu unikla při dvou desetiletích manuálního ladění.

Zajímavý je i experiment Tobiho Lütkeho, generálního ředitele Shopify, který autoresearch použil na vlastní model pro rozšiřování dotazů. Agent přes noc provedl 37 experimentů a dosáhl 19% zlepšení validačního skóre. Model s 0,8 miliardy parametrů po optimalizaci překonal předchozí model s 1,6 miliardy parametrů. Lütke není specialista na strojové učení, ale prohlásil, že se z čtení agentova uvažování naučil víc než z měsíců sledování výzkumníků na sociálních sítích.

Z výše uvedeného popisu tedy také plyne podstatná informace: Autoresearch je vhodný jen pro určité (poměrně úzké) spektrum úkolů, oba pánového ho použili pro neuronové sítě. Potřebuje jednoznačnou číselnou metriku, rychlý a opakovatelný experiment a především kód, který agent může upravovat. Problémy, které nelze převést na testovatelný kód, nejsou Autoresearchem testovatelné. Například pro finanční trhy (předvídání kurzu akcií) je to špatný nástroj — ne kvůli technickému omezení, ale protože samotná povaha problému (nestacionarita, šum, nevratnost) je v přímém rozporu s předpoklady, na kterých Autoresearch stojí.

Proč je to zajímavé pro stavitele agentních systémů

Autoresearch je především ukázka toho, že autonomie agentů se stává užitečnou teprve tehdy, když je prostředí dostatečně přísné. To je proti intuici — většina diskusí o agentních systémech se točí kolem toho, jak agentům dát víc svobody. Karpathyho projekt naopak ukazuje, že víc svobody obvykle znamená větší plochu pro chyby.

Omezení tvoří kvalitu. Agent edituje jeden soubor, sleduje jednu metriku, pracuje v jednom pevném prostředí a postupuje vpřed jen tehdy, když se skóre zlepší. Díky tomu může systém běžet hodiny bez lidského zásahu, aniž by degeneroval. Řada agentních systémů selhává právě proto, že maximalizuje volnost příliš brzy.

Prompt je součást architektury. Soubor program.md není kosmetická obálka kolem kódu. Definuje pracovní postup, hranice, logování, zotavení z chyb a kritéria výběru. To je systémový návrh, ne „jen prompting”. S tím, jak agentní produkty dozrávají, bude stále víc skutečné architektury žít právě v této vrstvě — v instrukcích pro autonomní pracovníky, ne jen v aplikačním kódu. Karpathy tuto myšlenku vyjádřil přímo: řídit agenta znamená programovat markdown.

Časově ohraničené vyhodnocení je podceňované. Pětiminutový rozpočet na experiment je jedním z chytřejších rozhodnutí v projektu. V reálných systémech je čas často skutečným omezením — latence, výpočetní kapacita, iterační rychlost. Časově ohraničené smyčky nutí systém optimalizovat pro praktickou užitečnost, ne pro idealizovaný výkon.

Vratnost a pozorovatelnost jsou nutnost. Každý neúspěšný experiment je levný k zahození a každý pokus je zpětně dohledatelný přes logy, historii commitů a soubor results.tsv. Pokud špatný běh zanechá systém v nenapravitelném stavu, agent nemůže agresivně prozkoumávat nové možnosti. Pokud systém neposkytuje žádnou stopu o tom, co se stalo, nelze mu důvěřovat ani ho vylepšovat.

Srovnání s jinými přístupy: AI Scientist od Sakana AI

Zajímavý kontrast nabízí projekt AI Scientist od tokijské laboratoře Sakana AI. Zatímco Autoresearch je záměrně úzký, AI Scientist si klade za cíl automatizovat celý výzkumný cyklus — od generování hypotéz přes experimenty až po psaní odborných článků ve formátu LaTeX. V druhé verzi (AI Scientist-v2) systém dokonce odeslal tři plně autonomně vytvořené články na recenzovaný workshop ICLR, přičemž jeden z nich dosáhl hodnocení nad průměrným prahem pro přijetí lidských prací.

Nezávislá evaluace AI Scientist z února 2025 (ano, to už je pravěk, rok staré!) ovšem odhalila řadu problémů. 42 % experimentů selhalo kvůli chybám v kódu. Rešerše literatury spoléhala na primitivní vyhledávání klíčových slov místo skutečné syntézy, takže systém opakovaně označoval za nové i dávno zavedené koncepty, například micro-batching pro stochastický gradientní sestup. Vygenerované články obsahovaly halucinované číselné výsledky, chybějící obrázky, opakující se sekce a zástupné texty jako „Conclusions Here”. Medián citací na článek byl pět, většina z nich zastaralých.

Rozdíl mezi oběma projekty ilustruje základní dilema agentních systémů. AI Scientist se pokouší o otevřenou kreativitu, ale trpí nestabilitou a nespolehlivostí právě proto, že má příliš volný prostor pro pohyb. Autoresearch se záměrně vzdává ambice na originalitu a soustředí se na disciplinovanou optimalizaci v úzkém prostoru — a právě proto funguje spolehlivě.

Vlastnost	Autoresearch	AI Scientist (Sakana)
Cíl	Optimalizace trénovacího kódu	Celý výzkumný cyklus
Rozsah úprav	Jeden soubor (`train.py`)	Generování kódu, experimentů, článků
Metrika	Jedna (val_bpb)	Více, včetně recenzí
Délka experimentu	5 minut	Hodiny
Míra selhání	Nízká (přísné prostředí)	42 % selhání experimentů
Cena za běh	Výpočetní čas na GPU	6–15 USD za článek
Lidský dohled	Minimální, ale potřebný pro validaci	Minimální, ale kvalita kolísá
Licence	MIT	Otevřený zdrojový kód

Co si z toho odnést

Karpathyho Autoresearch je zajímavý ne proto, že by dokazoval existenci autonomních AI vědců. Dokazuje něco praktičtějšího: autonomní systémy se stávají užitečnými teprve tehdy, když je redukujete na přísné prostředí s jasnými hranicemi, stabilní metrikou, vratnými experimenty a dobrou provozní disciplínou.

Pokud stavíte agentní systémy, poučka zní: nezačínejte otázkou, jak udělat agenta autonomnějším. Začněte otázkou, jak udělat prostředí spolehlivějším. Protože v praxi nejlepší autonomní systémy nejsou ty nejsvobodnější — jsou to ty s nejpřísnějšími omezeními.

Karpathy sám plánuje další kroky: druhou iteraci optimalizace a především spolupráci více agentů, která by odemkla paralelismus — něco na způsob distribuovaného výpočtu SETI@home, ale pro výzkum neuronových sítí. Aktuální kód synchronně roste jako jediné vlákno commitů. Budoucí verze by mohla umožnit agentům na různých počítačích přispívat k různým výzkumným směrům. Git(Hub) na to ale podle Karpathyho není úplně stavěný — předpokládá jednu hlavní větev s dočasnými odnožemi, ne trvalou divergenci. Zatím jde o prototyp, ale směr je jasný: od jednoho autonomního výzkumníka ke komunitě autonomních agentů.

Rychlé body

Co Autoresearch vlastně je

Jak to dopadlo v praxi

Proč je to zajímavé pro stavitele agentních systémů

Srovnání s jinými přístupy: AI Scientist od Sakana AI

Co si z toho odnést

Sleduj nás