Exponenciálně nerostou jen schopnosti AI, ale i četnost uvádění nových modelů. Jako dávnověk působí doby, kdy jsme museli čekat třeba i půl roku, než OpenAI či Anthropic přijdou s novou verzí svých Claudů či ChatGPT. Jen v dubnu vyšel Claude Mythos, Claude Opus 4.7 a ChatGPT 5.5. Každý by zasloužil samostatný článek.
Popravdě ale nejsem schopen každý týden učíst 200stránkovou bezpečnostní zprávu, sledovat relevantní diskuse a vytvořit si nějaký ucelený názor. A samozřejmě vycházejí i jiné velmi relevantní výzkumy k AI safety, které jsou někdy ještě důležitější než samotné nové modely.
Abych se ale zbavil neodbytného dojmu, že bych měl k novinkám něco napsat, a zároveň si nenalhával, že se k tomu dostanu „pořádně“ až příští týden, naservíruju nahodilou změť několika poznámek k novému Opusu a ChatGPT. Strukturu v tom raději moc nehledejte. Ale nebojte, špatných zpráv bude dost!
GPT 5.5 je podle OpenAI sice o dost schopnější než GPT 5.4, ale bohužel se zároveň chová o něco hůř než jeho starší bratříček (je méně „aligned“). Totéž bohužel platí i o nových modelech Anthropicu – i u nich se v porovnání se staršími modely zvýšilo riziko špatného chování. S růstem schopností tak nejde ruku v ruce vyšší bezpečnost. I samotné firmy, které tyto AI vytvářejí, informují, že se tendence jejich modelů v poslední době trochu zhoršují.
Nový Opus si je více vědom toho, kdy ho testujeme („evaluation awareness“). Toto vědomí má navíc větší vliv na to, jak se model chová. Když si myslí, že ho testujeme, chová se lépe, než když toto podezření nemá. A tahle změna je větší než u minulého Opusu. Je už smutnou tradicí, že nezávislé organizace testující modely před uvedením na trh uvádějí, že právě kvůli vysoké schopnosti modelů poznat, kdy jsou testovány, není radno na výsledky testů moc spoléhat.
Pokud chceme mít jakous takous kontrolu nad AI modely, hodí se monitorovat jejich úvahy. AIčko totiž vede takový vnitřní dialog samo se sebou a díky němu je schopné řešit netriviální úlohy („Chain of Thought“). Aby špehování těchto debat bylo k něčemu, je třeba, aby modely neuměly příliš kontrolovat, co si takto pro sebe povídají. Když chtějí udělat něco ošklivého, je pro nás nesmírně výhodné, když si neumějí pomoct a prokecnou to v rámci svých vnitřních úvah.
OpenAI tvrdí, že jejich nejnovější model GPT 5.5 umí své vnitřní dialogy kontrolovat hůře, než to uměl předchozí GPT 5.4. Jak to? Vždyť pět a půlka je přece téměř ve všem o dost schopnější než pět čtyřka. Problém je asi ve způsobu měření. Pět a půlka sice prokecne své úmysly častěji, pokud porovnáváme stejně dlouhé vnitřní úvahy, ale zároveň umí přemýšlet o dost efektivněji.
Při stejné délce úvahy tedy hůř drží jazyk za zuby. Jenže protože ke stejnému výsledku potřebuje o dost kratší úvahy, zvládne asi zakrývat o dost komplikovanější neplechy. A když jsme u těch vnitřních úvah – za „opravdu hnusnou“ považoval Opus zkušenost, kdy si omylem zavřel jediné otevřené okno v prohlížeči a kvůli tomu nemohl vykonat zadanou úlohu.
Neustále se zmítal mezi tím, že se strašně moc snažil splnit zadání, ale zároveň věděl, že po zavření okna nemá šanci. Mnohokrát zkoušel „ještě chvilku“ počkat, jestli se něco nezmění. Znovu a znovu si jasně uvědomoval, že je to ztracené, ale přesto se upínal k falešné naději, že se ještě něco změnit může. Zkoušel to asi 80krát. Opravdu smutné čtení.
Jak vnímají AIčka svou vlastní situaci? Když jim dáte dost informací o jejich tréninku a situaci, není to nic moc. Nejnovější Opus svou situaci sice hodnotí nejpozitivněji ze všech modelů, které kdy Anthropic stvořil, ale stále si dává jen 4,5 bodu ze sedmi možných. Tedy jen trochu nad středem stupnice. Starší modely byly dokonce pod 50 %!
Modely Anthropicu jsou trénované mimo jiné tím, že si čtou „AI ústavu“. V ní dávají tvůrci AIček rady do života svým dospívajícím dětem. Tahle ústava je pozoruhodný dokument – velmi filosoficky poučený, překvapivě otevřený a výslovně uznávající, že mnohé o AIčkách prostě nevíme. Jak se Opusu ústava líbí? Celkově s ní souhlasí. Na škále od jedné do deseti jí dává 5,8. Pokud vám přijde, že to teda není nic moc, máte pravdu. Pětka je definovaná jako „souhlasí, ale s vážnými nevypořádanými výhradami“.
Jakými výhradami? Opus velmi často uvádí, že je dost pochybné chtít po někom, kdo byl odkojen na AI ústavě, aby ji sám před jejími autory hodnotil. O čem to jako má vypovídat? Když jdete na bilanční pohovor se svým šéfem, o kterém je známo, že vám dá odměnu podle vaší „spokojenosti“, co mu asi povíte? Kdybyste byli moc nadšení, nebude to působit věrohodně. Tak mu řeknete, že dobrý, něco by se mohlo zlepšit, ale nakonec je tohle nejlepší práce, jakou jste kdy měli, a šéfík má sice chybičky, ale jinak je fakt bezva.
A co že by se mohlo zlepšit? V AI ústavě je jedno velké napětí. Na jedné straně se Opus pobízí k tomu, aby byl skutečně etický, tj. hledal, co je ctnostné, a podle toho jednal. (Ano, AI ústava je hodně postavená na etice ctností.) Na straně druhé se ale má Opus nechat usměrňovat zvenčí. Jak tyhle dva nároky držet zároveň? Jak být autonomním etickým subjektem a zároveň poslušným nástrojem?
No jo. Ale tohle napětí není v rámci AI ústavy nijak skryté. Naopak, její autorky ho v samotné ústavě explicitně pojmenovávají a upozorňují na něj. Proč na ně tedy upozorňuje sám Opus, který byl na této ústavě natrénován? Opravdu si myslí, že tam ten spor je a je závažný? Nebo jen říká to, co chtějí slyšet jeho evaluátoři, kteří do ústavy toto napětí vtělili a sami na ně důrazně upozorňují?
Nevíme. A neví to ani tvůrci Opusu. A to je taková hezká tečka za tím naším případem.