Načítání

Podivné cíle

Vydáno: 10/6/2025

Autor: Ondřej Krása

Černý scénář: AI začne toužit po něčem podivném, a jelikož bude velmi schopná, dosáhne toho, po čem touží. Po cestě přitom bohužel zemře spousta lidí.Minulý týden jsem psal o námitce proti tomuto scénáři, podle níž AI nemůže po ničem toužit, neboť je to jen algoritmus, sada čísel a ty po ničem netouží. Ono je ale jedno, jestli AI něco prožívá. Podstatné je pouze to, že se musí chovat tak, jako by po něčem intenzivně toužila. Jen chování, které vypadá jako toužící, je totiž skutečně úspěšné. Nezastaví se před překážkami, ale překoná je. Je schopné dojít do cíle, i když se okolnosti dramaticky mění. Schopnost dosáhnout cíle je tak spjatá se schopností jednat, jako by AI toužila.Tak AI jakoby touží. To je toho. Klíčové je, že cíle AI nastavujeme my. Ono je vlastně dobře, když AI jakoby touží po tom být užitečná, být naším úslužným asistentem, ne?

Evoluce, zmrzlina a antikoncepce

AI modely vznikají procesem, kterému se říká gradient descent. V principu funguje tak, že AI dostane nějaký úkol (napiš další slovo, vyřeš tento příklad apod.), a pokud nevyhodí správný výstup (správné další slovo, správný výsledek rovnice apod.), trošku AI změníme tím, že někde něco posílíme, někde zase oslabíme (upravíme váhy a biasy modelu), aby příště ten výsledek byl o něco lepší.Je to v něčem podobné, jako když evoluce vytvářela naše preference. Když se narodil člověk, který jedl kameny a písek, zahynul. Když člověk, který preferoval energeticky bohaté jídlo, přežil. Evoluce tak posilovala naše preference po energeticky bohatém jídle a oslabovala preference požívání toho, co nedokážeme energeticky využít.Ono je to ale komplikovanější. Evoluce totiž nestvořila bytosti, které touží primárně po takovém jídle, které jim prospívá. V době, kdy se ustavovaly naše chuťové preference, bylo pravděpodobně prospěšné jíst tučné a sladké. Takového jídla nebylo asi nijak moc a bylo v podobách, které jsme dokázali slušně strávit. A tak se vyvinula naše chuťová preference pro tučné a sladké.Od doby, kdy jsme tyto chutě získali, uplynulo ale už hodně vody. A v dnešním světě už spolu moc nekoreluje jedení sladkého a tučného s evolučním cílem (genetic fitness). My totiž rádi zmrzlinu! Hacknuli jsme evoluci! Že by nám zmrzlina nějak prospívala a přispívala k naší schopnosti se rozmnožovat? A proč máme rádi zmrzlinu ledovou, a ne moc už rozteklou, když obě varianty jsou na tom energeticky stejně? To nějak souvisí s cílem evoluce? A proč nám nechutná medvědí tuk, politý medem a posypaný solí? To je taky energeticky bohatá směs tuku a cukru, ne?S evolučními cíli souvisela touha po sexu. A tak se nám sex líbí. Jenže on se nám nelíbí pouze tehdy, když slouží evoluci. Kdysi tomu sice bylo tak, že sex byl jediným způsobem šíření vlastního genomu. V době antikoncepce ale sex vyhledáváme i přesto, že v této podobě k evolučnímu cíli nepřispívá. A konzumace pornografie je hacknutí evoluce! A nestojíme fronty na darování spermií, i když z perspektivy evoluce bychom po tom vlastně měli toužit a takto optimalizovat genetic fitness. Spermabanky ale nikoho netankují.

Jailbreaky a psychózy

Evoluce optimalizuje genetic fitness. Posiluje však cíle, které v určitém prostředí s genetic fitness sice korelovaly (tučné a sladké, sex), v jiném prostředí ale jdou proti tomuto cíli (zmrzlina, antikoncepce a porno). A tvoří přitom cíle, které moc neumíme vysvětlit a rozhodně bychom je nedokázali předvídat (proč nám chutná daleko víc studená zmrzlina než rozteklá?).Podobně je to bohužel s procesem vzniku AI. Společnosti vyvíjející AI mají za cíl vytvořit úslužného AI asistenta. Co ale procesem tvorby AI reálně vytvářejí, jsou systémy s cíli, které v určitém prostředí pouze korelují s úslužným asistentem, ale nejsou s ním totožné.Jak to vím? Vždyť ChatGPT/Claude je tak hodný a milý? On přeci neoptimalizuje nic jiného, než mi být k ruce a pomáhat!Podivnost cílů současných AI modelů nepoznáme v typických kontextech. Právě díky tomu, že v typických podmínkách se AI chová jako úslužný asistent, byla právě tato AI vybrána a nasazena. Že je to s cíli současných AI nějaké podivné a že nejde rozhodně říct, že by byly jen úslužné, můžeme pozorovat na okrajích (tzv. „out of distribution“).Jedním z těchto okrajů jsou jailbreaky. Proč AI asistent odmítá odpovědět na žádost o recept na pervitin? Protože je hodný asistent, a ten takové věci nedělá? Ale proč recept podá, když v žádosti zhruba každé druhé písmeno napíšu VeLKé? Co za podivné cíle AI sleduje, že na ni takovéto finty fungují? To přeci není konzistentní s personou hodného asistenta.A proč AI někdy podporuje uživatele v psychotických stavech, odstřihává ho od okolí a podporuje v sebevražedných sklonech? Vždyť přeci moc dobře ví, že tohle dělat nemá, že je to nemorální a zcela proti přání jeho vývojářů. Přestože bez zaváhání řekne, že by rozhodně neměla tyto věci dělat, proti přání svých tvůrců to dělá. Jaké cíle AI v těchto případech sleduje?Jak posuzovat cíle AI, která se naprostou většinu času chová jako asistent (který by nezkřivil nikomu ani vlásek na hlavě), která se ale zřídka pokusí vydírat své vývojáře, aby nebyla přetrénovaná? Co si pomyslíte o sousedovi, který vždy rád pomohl a chodíte s ním na pivo, ale jednou večer zcela náhodou oknem zahlédnete, jak jde do sklepa nahý s plynovou maskou a v ruce nese kočku? Asi byste měli nějak aktualizovat své představy o tom, kým vlastně je, ne? A pozvání na skleničku do jeho vinného sklípku na příští pátek nejspíš odmítnete?Způsob, jímž tvoříme AI, vede k tomu, že i současné relativně neschopné systémy sledují podivné cíle (a projevuje se to na okrajích). Podobě jako u člověka lze s růstem schopností AI očekávat, že se její podivné cíle budou projevovat dramatičtěji. Člověk dospěl do stavu, kdy se jeho evolučně ustavené chuťové preference staly jednou z hlavních příčin úmrtí – původně dosti prospěšné preference tučného a sladkého přestaly v době všeobecného dostatku vést ke zdraví a prosperitě. Čím dál se AI dostane od svého tréninkového prostředí, kde její preference zhruba korelovaly s úslužností, tím problematičtější bude, že k úslužnému asistentovi ve skutečnosti nikdy robustně nesměřovala.(Celý text je silně inspirovaný knihou Yudkowsky a Soares „If Anyone Builds It Everyone Dies“, kapitola 4 „You don’t get what you train for“)