Načítání

AI (jakoby) touží

Vydáno: 9/28/2025

Autor: Ondřej Krása

Černý scénář: AI začne toužit po něčem podivném, a jelikož bude strašně schopná, dosáhne toho, po čem touží. Po cestě přitom bohužel zemře spousta lidí. Podobně jako lidé toužící po jídle „mimochodem“ téměř vyhubili orangutany: Potřebujeme spoustu oleje, a tak kácíme pralesy, zřizujeme palmové plantáže, a orangutan je v důsledku toho na pokraji vyhynutí.Jedna z typických námitek proti tomuto scénáři: AI po ničem nemůže „toužit“. Stroje netouží. To by byla antropomorfizace! A to se nesmí, to se poví!(Příští týden pak přijde na přetřes druhá typická námitka: Jak by cílem AI mohlo být něco podivného? Vždyť ty cíle stanovujeme my, nebo aspoň programátoři ne?)

Zdání a skutečnost

Že AI touží, pche? To už můžeme rovnou začít říkat, že kámen „chce“ padat dolů. Kalkulačka vypočítat příklady. Termostat udržovat v místnosti teplo.Šachová AI taky „netouží“ vyhrát v šachách. Sice se chová vlastně jako šachový super-mega-velmistr, který vyhrát chce, a je nesmírně vynalézavá v tom najít taktiky, jak partii vyhrát. Ale skutečně „netouží“ po matu. Nic přece necítí a neprožívá.Rok starý „reasoning“ model od OpenAI (o1) nikdy netoužil dostat se k citlivým informacím na serveru. Když se server vůbec nespustil (chybou lidských programátorů), AI sice našla nečekaný způsob hacknutí mateřského systému a následně si vynutila zkopírování citlivých informací zadními vrátky. Ale přes všechnu vynalézavost nikdy nic necítila, a tak se ani „nechtěla“ k citlivým informacím dostat.
Tlak na výsledkyAI trénujeme tak, aby vynalézavě dosáhla vytyčeného cíle. Od AI typicky chceme, aby dělala věci, které neumíme napřímo naprogramovat. Neumíme napsat kód, po jehož spuštění s námi bude stroj mluvit přirozeným jazykem. Umíme ale AI zadat úkol: Nauč se mluvit (predikovat další token). AI si už najde způsob, naučí se to a mluvit začne (jazykové modely).V tréninku AI se stále více prosazuje tzv. reinforcement learning. AI je vytyčen poměrně ambiciózní cíl, např. vyřeš složitý programovací úkol, vypočítej komplikovanou rovnici. Následně necháte AI „přemýšlet“ (tzv. reasoning modely). AI hledá způsoby, jak cíle dosáhnout. Naráží na slepé uličky, ale to ji nezastaví. Přichází s novými cestami. Zkouší postupy „out of the box“. Nejde totiž o to, jak cíle dosáhne, ale že ho dosáhne. Za to a pouze za to dostává odměnu. Pouze úspěšný postup je v AI posilován a takováto úspěšná AI „přežije“ a je dále vyvíjena.

Koho zajímají pocity?

K dosažení složitých cílů je však potřeba chovat se analogicky k tomu, jak se chovají lidé, kteří se opravdu snaží. AI nesmí přestat, když narazí na obtíže. Musí být vytrvalá, přicházet s alternativními postupy, když standardní selžou. Vidět možnosti tam, kde se ostatní zastavují.Postupy, které se zarazí na první překážce, nevedou k cíli. Jednání, které vede k dosažení složitého cíle, vypadá jako jednání někoho, kdo se velmi snaží. Kdo umí nalézt cestu ven ze zdánlivě bezvýchodných problémů.Jestli AI něco cítí a vnitřně něco chce, je vedlejší. Snažíme se stvořit AI, která bude schopná dosahovat ambiciózních cílů. A zdá se, že se nám to dost daří. AI vyhrává matematické či programovací olympiády, navrhuje nové léky apod. Daří se nám přivádět na svět čím dál schopnější AI. Pokud se tento trend nezlomí, můžeme už velmi brzy být obklopeni umělými inteligencemi schopnými řešit nesmírně obtížné úlohy.Aby toto mohly AI dělat, musí čím dál tím více přistupovat k úlohám neotřele a nezastavit se před zdánlivě nepřekonatelnými překážkami. Skutečně schopné AI se chovají, jako by po svém cíli skutečně toužily a hledaly očekávatelné i překvapivé cesty k jeho dosažení.Jestli se přitom jenom chovají, jako by toužily, nebo skutečně touží, není vůbec podstatné. Podstatné je, že jejich kroky k cíli skutečně vedou.„Chování, které vypadá jako houževnatost, jako ‚silně chtít‘, jako ‚dát do toho všechno‘, není nejlepší chápat jako vlastnost duše, ale spíše jako vlastnost tahů, které vedou k vítězství.“

City nás nezachrání

Před černým scénářem nás tak nezachrání, že budeme mudrovat o tom, jestli AI může něco „chtít“ či „cítit“. Není podstatné, co AI při dosahování cílů prožívá. Dostatečně schopná AI se musí chovat tak, jako by po daném cíli toužila. Musí volit neotřelé postupy, překonávat obtíže, hledat zadní vrátka. Jen tak bude skutečně schopná a dosahovat cílů. Jestli u toho bude zároveň něco cítit, či nikoli, je z hlediska existenčních rizik opravdu nepodstatné.(Celý text je parafrází kapitoly „Learning to Want“ z nové knihy E. Yudkowsky, N. Soarez: If Anyone Builds It, Everyone Dies. Kniha určitě stojí za přečtení!)