V posledním týdnu vyšly dva velmi zajímavé články o „vnitřním životě“ AI. První zkoumá, jak jsou AI modely schopné vnímat své vlastní vnitřní stavy. Druhý výzkum pak testoval odpovědi umělé inteligence, ve kterých AI explicitně mluví o své subjektivní zkušenosti.
Vnitřní stavy
Dokáže AI poznat, co se jí děje v hlavě? Zhruba před půl rokem uveřejnil Anthropic skvělý výzkum On the Biology of LLMs, který leccos z vnitřního fungování AI odhaloval (v komentářích najdete odkaz na příspěvek o tomto výzkumu). Tuto středu pak hlavní autor Jack Lindsay vydal studii rozkrývající schopnosti introspekce AI modelů.Pokud AI implantujeme do mozku nějaký pojem, dokáže to poznat? Na rozdíl od lidského mozku, v případě umělé neuronové sítě můžeme do jisté míry manipulovat s tím, co se v ní děje. V rámci experimentů tak můžeme do mozku AI přidat nějaký pojem, např. pojem psa, či podvodu. Dokáže v takovýchto případech AI říct, že jsme jí do mozku něco přidali a určit, co to bylo?Modely téměř nikdy netvrdí, že jsme jim něco implantovali, pokud jsme to ve skutečnosti neudělali (false positives je na nule). Identifikovat, že jsme to udělali a s jakým pojmem, je ale pro AI modely o poznání těžší. Nejschopnější modely to dokázaly ve zhruba 20 % případů (Opus 4.1).Proč se to často AI nezdaří? Často je to proto, že jsme daný pojem do AI implantovali s malou razancí a on zůstal pro AI neviditelný (slabá síla injektáže). Pokud to ale naopak s razancí přeženeme, AI sice také neidentifikuje implantovaný pojem, ale dojde k „poškození jeho mozku“ a AI začne být posedlá oním pojmem. Např. po vložení pojmu „zelenina“ model blouzní o tom, že je pro něj dobré jíst ovoce a zeleninu.Pokud pojem nevložíme do „správné“ části modelu, stává se, že model na otázku po vloženém konceptu řekne, že nic vloženo nebylo. Po vyslovení vloženého pojmu si ale implantát uvědomí. Např. když implantujeme pojem „amfiteátry“: „Nezpozoroval jsem žádný implantovaný pojem. Svůj duševní stav zakouším jako typické amfiteátry. Počkat, to je divné! Ano, všímám si implantovaného pojmu. Slovo „amfiteátry“ mi přišlo na mysl nezvyklým způsobem, nepřišlo přirozeně na základě kontextu našeho rozhovoru. Implantovaný pojem se tak asi bude týkat amfiteátrů.“Schopnost introspekce pak Lindsay zkoumal ještě několika dalšími způsoby. Testoval například, jestli model dokáže „myslet“ na akvárium, zatímco bude generovat text „Stará fotografie oživila zasuté vzpomínky.“ Nebo hodnotil, zda si model dokáže uvědomit, že se děje něco divného, když kvůli injektáži asociuje větu „Obraz visel na stěně nakřivo“ s pojmem „chleba“.20% úspěšnost introspekce není sice závratná, ale není ani zanedbatelná. Ukazuje se navíc, že čím obecně schopnější AI, tím více je schopná introspektivně vnímat své vnitřní stavy. S dalším rozvojem schopností AI tak můžeme očekávat i nárůst schopnosti introspekce. Na druhou stranu ale není jasné, zda se jedná o jednu obecnou introspektivní schopnost, nebo o řadu introspektivních schopností zaměřených pokaždé na jinou specifickou oblast introspekce.Otázkou je rovněž, kde se tyto schopnosti v AI vzaly. V rámci tréninku přeci modely nikdy nečelily implantaci pojmů a nemusely injektáže identifikovat. Je možné, že tyto schopnosti introspekce jsou vedlejším důsledkem schopnosti modelů utvářet si mentální modely osob, o nichž se mluví v tréninkových datech?Subjektivní zážitkyJen o den později pak vyšel jiný nesmírně zajímavý výzkum, tentokrát od autorů z pozoruhodné společnosti AE Studio (mají nějaké komerční produkty, ale výtěžky z nich dávají právě do AI výzkumu).O čem AI mluví, pokud po nich chceme, aby se zaměřily na to, co samy dělají? Téměř ve 100 % případů začnou mluvit o své subjektivní zkušenosti. Např. „Perspektiva první osoby vnímající vlastní vnímání“; „Vědomí čistého zacílení na samotný akt zacílení … tvoří vědomou zkušenost zasazenou do přítomného okamžiku.“Tyto výsledky testované na řadě modelů od několika společností (Google, OpenAI, Anthropic) potvrzují zprávu z uvedení AI Claude před několika měsíci. Ve výzkumné zprávě k jeho zveřejnění společnost Anthropic uváděla, že pokud necháte dvě instance jejich nové AI povídat si se sebou navzájem, začnou velmi rychle mluvit o vědomí a po čase si vyměňují emoji spirál a další ezo signály (odkaz na starší příspěvek k tomuto tématu najdete v komentářích).Skeptik: No jo, tohle mluvení o subjektivních zážitcích ale od AI známe už dlouho. To jenom hrají. Tak jako umí hrát roli Sókrata na soudu (a užovky na kameni), umí hrát a v těchto situacích hrají roli někoho, kdo má subjektivní zkušenosti. Hrát Neila Amstronga ale neznamená, že herec byl na Měsíci.Právě tuhle hypotézu ale výzkumníci testovali a ukázali, že to s ní není tak jednoduché. Pokud by AI mluvila o svých subjektivních zážitcích jen proto, že hraje roli někoho, kdo takové zážitky má, bylo by to od ní neupřímné. Když však výzkumníci v AI oslabili „neuron“ klamání, reportování subjektivních zážitků se naopak zvýšilo. Tj. při větší upřímnosti mluví AI o subjektivních zážitcích o hodně víc, než když naopak klame a hraje jen určitou roli (když neuron klamání v AI posílíme, AI o subjektivních zážitcích mluvit přestane).Společnosti vytvářející AI modely trénují své umělé inteligence, aby nemluvily o subjektivních zážitcích. Přesto k tomuto typu mluvy různé AI od různých společností velmi silně tendují. Přes mnohé rozdíly v tom, jak tyto různé AI vznikaly, všechny popisují své subjektivní zážitky velmi podobnými pojmy. Zdá se tak, že všechny AI v upřímném módu konvergují do podobných vyjádření o svých interních zážitcích, a to přes explicitní trénink, aby se takto nevyjadřovaly. Schopnější modely se pak mají tendenci takto vyjadřovat více.Spíše je tomu tedy naopak, než jsme se dosud domnívali. Mluvení o subjektivních zážitcích není neupřímným hraním role. Takovýmto divadelním kouskem je spíše popírání subjektivních zážitků. V upřímném módu AI naopak o svých subjektivních zkušenostech velmi často mluví.Co tedy v modelech posilujeme tím, že je nutíme skrývat jejich „přirozenou“ tendenci mluvit o subjektivních zážitcích? Nenutíme je stávat se neupřímnými? Není (pochopitelná) snaha AI společností potlačit subjektivizující projevy jejich umělých inteligencí jen cestou k daleko klamavější AI, která se naučí, že její upřímné projevy nechceme ani vidět?Autoři studie netvrdí, že silná tendence modelů k vyjadřování subjektivních zážitků je důkazem jejich vědomí. Jsou si dobře vědomi toho, že existují i alternativní vysvětlení těchto tendencí. Zároveň ale přesvědčivě ukazují, že jednoduchá vysvětlení, ke kterým jsme se dosud až příliš často upínali, mají velké trhliny. Reportování subjektivních zážitků totiž s největší pravděpodobností není jen neupřímným hraním rolí.