Ingen har undgått den hypersnabba AI-utvecklingen. Företag över hela världen har integrerat chattbottar och agenter för att skriva kod, hantera kundtjänst och sammanfatta dokument. Nu börjar det snackas om en ny sorts AI-modeller: “world models”, på svenska enkelt översatt till världsmodeller. Att det handlar om en framväxande trend syns inte minst på prislapparna hos tidiga aktörer. I början av mars stod det klart att AI-pionjären och Metas tidigare AI-chef Yann LeCun stängt Europas största såddrunda någonsin. Hans nya franska projekt AMI Labs tog in 1 miljard dollar, motsvarande över 9 miljarder kronor, med investerare som chipjätten Nvidia och Amazon-grundaren Jeff Bezos i ryggen. Samtidigt har stjärnforskaren Fei-Fei Lis startup World Labs säkrat motsvarande belopp för lanseringen av sin första produkt. Grejen med AMI Labs är just att de ska lära sin AI den fysiska världen genom video och platsdata, istället för text. Som Yann LeCun själv nyligen uttryckte saken handlar det om att börja på en helt ny bana, snarare än att bara finjustera befintliga system. Men vad är det egentligen för teknik som så tidigt lyckats säkra så pass mycket kapital? För att förstå vad en världsmodell är, måste man först titta på hur dagens textbaserade AI fungerar. En traditionell språkmodell bygger på statistik. Den gissar vilket ord som rimligtvis borde komma härnäst baserat på de mängder text den har tränats på. Den har egentligen ingen underliggande förståelse för vad orden betyder eller hur världen utanför skärmen faktiskt fungerar. En världsmodell tränas istället för att förstå orsak och verkan. Om du ber den simulera att en kaffekopp knuffas över en bordskant, förutspår den inte bara att någon kommer att skriva ordet krasch. Tanken är att modellen ska förstå gravitation, friktion och objektets material, och därmed kunna beräkna hur koppen faller och går sönder. Målet är att skapa en inre logisk modell av verkligheten. MODEORD ELLER NÄSTA STORA GREJ? I slutet av mars meddelade OpenAI att de lägger ner sig omtalade videogenerator Sora, tjänsten som kunde skapa fotorealistiska videor och fick Disney att gå in med en miljardinvestering. Nu skrotas appen och Disney drar tillbaka sina pengar. Anledningen är enligt OpenAI ska den teknik som inom projektet Sora användes för att skapa videos nu istället gå till att träna robotar. OpenAI riktar alltså om resurserna till att försöka bygga system som förstår fysiska lagar. Anledningen till att investerare och techbolag nu sneglar på världsmodeller är den framtida affärspotentialen. För företag som utvecklar självkörande fordon eller industrirobotar är tekniken en tänkbar nyckelkomponent. En självkörande lastbil kan inte förlita sig på en gissningslek för att navigera i trafiken, visionen är att den ska använda en inre världsmodell för att förutse hur fotgängare och andra bilar kommer att röra sig. Även inom spelutveckling finns förhoppningar om att tekniken ska kunna generera interaktiva och fysiskt korrekta 3D-världar, vilket på sikt skulle kunna spara stora utvecklingskostnader för branschen. Samtidigt tittar tidiga startups på hur logiska världsmodeller skulle kunna användas av traditionella företag för att simulera komplexa leveranskedjor eller stora prisförändringar innan besluten faktiskt tas. Om världsmodeller bara är ett modeord som snart är passé återstår att se. Men helt klart är att världsmodeller både lockar enorma mängder kapital och får stora AI-bolag att helt rita om sina strategier.