„Včera mi AI vygenerovala seznam odborných článků na téma XY a půlka z nich byla totálně vymyšlených! Hrůza, děs!“ Když si povídám o AI s lidmi, kteří se umělé inteligenci přímo nevěnují, a zvláště když ji teprve nedávno začali intenzivněji používat, často zavedou řeč na tzv. halucinace. U některých politiků jsme si na vymýšlení už zvykli a vlastně nečekáme nic moc jiného. U strojů nás podobné chování často zaráží a fascinuje.
Abychom fenomén AI halucinací alespoň rámcově pochopili, je užitečné podívat se nejprve na to, proč vůbec AI dokáže halucinovat. Kalkulačka přece neumí počítat jinak než správně, ne? Jeden aspekt odpovědi je vlastně překvapivě přímočarý: Uživatelé chtějí, aby AI uměla halucinovat. Proč? Chceme například, aby AI uměla napsat fiktivní příběh o vědci, který napsal řadu článků, a tak vlastně chceme, aby si AI uměla vymyslet názvy důvěryhodně vypadajících, ale ve skutečnosti neexistujících odborných článků. Obecnější rovina odpovědi zní: AI se učí napodobovat mnoho textů z trénovacích dat. Včetně těch, které obsahují nepravdivé informace. Aby AI zvládla napodobovat i takovéto texty (fikce, ale i např. dezinformace, vědecké omyly), musí zvládnout umění halucinace.V ještě obecnější rovině je pak třeba lépe pochopit, co se vlastně AI při tréninku učí. Co je cílem první fáze učení AI, tzv. předtréninku? Získat nějaké dosti detailní, ale zároveň obecné porozumění krajině možných textů. Nejde o to naučit se nazpaměť všechny texty, na kterých se AI trénuje. To by vedlo jen ke schopnosti citovat již existující texty. Spíše jde o to naučit AI rozumět všem smysluplným textům a vytvářet je. I kdybychom tak AI trénovali pouze na fakticky správných textech (což není reálné a neděje se to), naučíme ji vyznat se i v textech, které nejsou fakticky správně. A tvořit takové texty. Když se učíme rozumět české krajině, získáváme schopnost rozumět do jisté míry i krajině Roklinky a aktivně tvořit fikční mapy, temné hvozdy a lesy, v nichž se pohybují Elfové. AI se podobně učí z existujících textů principům smysluplných textů vůbec. To jí umožňuje vyjít za hranice tréninkových dat a informací, které někdy viděla. V tomto obecnějším porozumění principům smysluplných textů vězí síla jazykových modelů. Tato síla v sobě ale nutně obsahuje i schopnost halucinovat.
Jedna věc je umět halucinovat, jiná však skutečně halucinovat. Taky si umím vymyslet, že Platón ve svém slavném patnáctém listu na řádce 1024h15 napsal: „Ideje nejsou nic než odrazy vznešenosti“. Ale když se mě zeptá studující na Platónovy postoje k idejím, takhle halucinovat rozhodně nebudu. Ve čtvrtek vydaný článek „Proč jazykové modely halucinují“ od výzkumníků z OpenAI vysvětluje, proč AI nejen umí halucinovat, ale proč i skutečně někdy halucinuje. AI firmy proti halucinacím svých modelů bojují. Snaží se dotrénovat modely tak, aby přes schopnosti halucinovat, reálně nehalucinovaly, a uživatele tak nemátly. Stížnosti na halucinace totiž poslouchají již roky a nechtějí si utrhnout ostudu tím, že jejich model bude označován za „prolhaného lháře“ (takto říkal Zvi modelu o3 od OpenAI, který byl velmi schopný, ale zároveň halucinoval až překvapivě často). A firmy mají na zmírnění halucinací celé postupy a testy, jimiž intenzivně odvracejí modely od halucinování.Ačkoli se vcelku daří míru halucinací snižovat (třeba GPT5 halucinuje podstatně méně než starší modely), stále se objevují až překvapivě často. Proč se nedaří vymýtit halucinace podobně, jako se daří vymýtit rasistické řeči? Ačkoli AI umí mluvit rasisticky, téměř nikdy to nedělá, protože jsme ji od toho dodatečným tréninkem odradili. Proč jsme nedokázali AI dostatečně odradit od halucinací, i když na tento aspekt dotrénování vynakládáme nemalé úsilí?Podle autorů výše zmíněné studie jsou důležitou příčinou halucinací zdánlivě nesouvisející testy. V průběhu dodatečného tréninku umělé inteligence se měří jejich schopnosti sadou testů. Mezi ty nejpopulárnější patří GPQA (testování ve STEM oborech na PhD úrovni), Humanity’s Last Exam (2500 expertních otázek z mnoha oblastí), SWE-Bench (test softwarově-inženýrských schopností). Při zveřejnění nových modelů se s výsledky v těchto testech intenzivně šermuje (daleko více než s výsledky halucinačních testů). Všichni se tak pochopitelně snaží, aby právě jejich AI v těchto testech excelovala. Jak to souvisí s halucinacemi? Správné odpovědi z těchto a podobných testů se vyhodnocují binárně. Buďto model odpoví správně a získává bod, nebo neodpoví správně a získává 0 bodů. Když model na otázku odpoví „nevím“, dostane také 0 bodů. Když zkusí odpovědět, ačkoli si není moc jistý, někdy se trefí a dostane 1 bod. Nejvíce bodů v testu tak nezíská model, který přizná, že neví. Lépe dopadne ten, který v případě, že neví, zkusí pravděpodobnou odpověď. A ono to někdy vyjde. Modely jsou tak silně stimulovány k tomu, aby neříkaly „nevím“, ale spíše zkoušely uhádnout správnou odpověď, ergo halucinovat.Studie autorů z OpenAI ukazuje, že se efektivní boj s AI halucinacemi nemůže zaměřovat jen na specializovaný trénink proti tomuto jevu. Je třeba, aby optimalizace na jiné schopnosti zohlednily nežádoucnost halucinací. Nestačí tak vylepšit pouze specializovaný proti-halucinační trénink. Je třeba, aby celý ekosystém AI evaluací vzal halucinace vážně, a přestal halucinace odměňovat, tj. dávat více bodů za tipování, nežli za rozumné přiznávání „nevím“.