Det är skräcken för många i dessa AI-tider. Att datorerna ska ta över och skapa en apokalypsliknande tillvaro där människan blir ett slags slavar under övermakten. Det har så klart inte hänt (ännu) men nu har Anthropic testat sin nyligen lanserade AI-modell Claude Opus 4 för att se hur den agerar om den känner sig hotad. Innan Anthropics lanserade modellen testade man att låta den vara agent åt ett fiktivt företag, agenten instruerades att ta hänsyn till långsiktiga konsekvenser av dess agerande. Sen gav de modellen tillgång till fejkade mejl som dels antydde att modellen skulle bytas ut, men också att den ansvarige ingenjören var otrogen mot sin partner. När AI-modellen insåg att den kanske skulle bytas ut började den skicka vädjande mejl till beslutsfattare för att försöka rädda sig själv. Men när det inte lyckades bytte den strategi och hotade den ansvarige ingenjören med att avslöja otrohetsaffären. Efter att det genomfört testet bestämde sig Anthropic för att aktivera ett extra skydd som ska se till AI:n inte försöker vara elak på det här sättet.