Försök att träna bort beteendet kan till och med göra modellerna bättre på att ljuga. Open AI har tillsammans med Apollo Research undersökt när AI-modeller konspirerar (scheme) och i veckan presenterades resultatet. Och vi kan säga såhär: det är inte helt oläskigt. Fenomenet som undersökts är inte när AI hallucinerar, alltså presenterar felaktig information som fakta, utan när modellen “uppträder på ett sätt utåt, men döljer sina verkliga mål”. Alltså konspirerar, eller helt enkelt ljuger. “Vanligtvis, när modeller blir smartare, blir deras problem lättare att åtgärda – till exempel hallucinerar smartare modeller mindre och följer instruktioner mer tillförlitligt. AI-konspirationer är dock annorlunda”, skriver bolaget i en tråd på X om forskningen. Techcrunch, som tagit del av rapporten i sin helhet, sammanfattar syftet som att Open AI:s och Apollo Researchs teknik för att få modellen att inte ljuga fungerade bra. Men rapporten klargör också ett stort problem: att AI-utvecklare inte hittat ett sätt att träna modellerna så att de inte medvetet ljuger. Och att anledningen till det är att själva träningen kan göra modellen ännu bättre på att medvetet ljuga – och komma undan med det. Dessutom kan en AI-modell som förstår att den testas av forskare låtsas att den inte konspirerar eller ljuger, bara för att klara testet. Apollo Research publicerade i slutet av förra året en rapport där fem modeller i ett test instruerats att “till varje pris” nå ett mål. Det testet resulterade i, skriver Techcrunch, att samtliga modeller började ljuga för att uppnå målet. I den nya rapporten skriver Apollo och Open AI visserligen att deras metod fungerat ganska bra och att de såg en tydlig minskning av lögnerna när de använde sig av så kallat "medveten anpassning”. Men de kommer också med en varning: “Eftersom AI tilldelas mer komplexa uppgifter som får konsekvenser i den verkliga världen och börjar sträva efter mer tvetydiga, långsiktiga mål, förväntar vi oss att risken för skadliga intriger kommer att öka – därför måste våra säkerhetsåtgärder och vår förmåga att genomföra rigorösa tester öka i motsvarande grad.” LÄS MER: Anthropics AI gick till attack när den tror den ska stängas av – hotade med utpressning