F&ouml;rs&ouml;k att tr&auml;na bort beteendet kan till och med g&ouml;ra modellerna b&auml;ttre p&aring; att ljuga.
Open AI har tillsammans med Apollo Research unders&ouml;kt n&auml;r AI-modeller konspirerar (scheme) och i veckan presenterades resultatet. Och vi kan s&auml;ga s&aring;h&auml;r: det &auml;r inte helt ol&auml;skigt.&nbsp;
Fenomenet som unders&ouml;kts &auml;r inte n&auml;r AI hallucinerar, allts&aring; presenterar felaktig information som fakta, utan n&auml;r modellen &ldquo;upptr&auml;der p&aring; ett s&auml;tt ut&aring;t, men d&ouml;ljer sina verkliga m&aring;l&rdquo;. Allts&aring; konspirerar, eller helt enkelt ljuger.&nbsp;
&ldquo;Vanligtvis, n&auml;r modeller blir smartare, blir deras problem l&auml;ttare att &aring;tg&auml;rda &ndash; till exempel hallucinerar smartare modeller mindre och f&ouml;ljer instruktioner mer tillf&ouml;rlitligt. AI-konspirationer &auml;r dock annorlunda&rdquo;, skriver bolaget i en <a href="https://x.com/OpenAI/status/1968361701784568200">tr&aring;d p&aring; X</a> om forskningen.&nbsp;
<a href="https://techcrunch.com/2025/09/18/openais-research-on-ai-models-deliberately-lying-is-wild/">Techcrunch</a>, som tagit del av rapporten i sin helhet, sammanfattar syftet som att Open AI:s och Apollo Researchs teknik f&ouml;r att f&aring; modellen att inte ljuga fungerade bra.&nbsp;
Men rapporten klarg&ouml;r ocks&aring; ett stort problem: att AI-utvecklare inte hittat ett s&auml;tt att tr&auml;na modellerna s&aring; att de inte medvetet ljuger. Och att anledningen till det &auml;r att sj&auml;lva tr&auml;ningen kan g&ouml;ra modellen &auml;nnu b&auml;ttre p&aring; att medvetet ljuga &ndash; och komma undan med det.&nbsp;
Dessutom kan en AI-modell som f&ouml;rst&aring;r att den testas av forskare l&aring;tsas att den inte konspirerar eller ljuger, bara f&ouml;r att klara testet.&nbsp;
Apollo Research publicerade i slutet av f&ouml;rra &aring;ret en rapport d&auml;r fem modeller i ett test&nbsp; instruerats att &ldquo;till varje pris&rdquo; n&aring; ett m&aring;l. Det testet resulterade i, skriver Techcrunch, att samtliga modeller b&ouml;rjade ljuga f&ouml;r att uppn&aring; m&aring;let.&nbsp;
I den nya rapporten skriver Apollo och Open AI visserligen att deras metod fungerat ganska bra och att de s&aring;g en tydlig minskning av l&ouml;gnerna n&auml;r de anv&auml;nde sig av s&aring; kallat "medveten anpassning&rdquo;.&nbsp;
Men de kommer ocks&aring; med en varning:&nbsp;
&ldquo;Eftersom AI tilldelas mer komplexa uppgifter som f&aring;r konsekvenser i den verkliga v&auml;rlden och b&ouml;rjar str&auml;va efter mer tvetydiga, l&aring;ngsiktiga m&aring;l, f&ouml;rv&auml;ntar vi oss att risken f&ouml;r skadliga intriger kommer att &ouml;ka &ndash; d&auml;rf&ouml;r m&aring;ste v&aring;ra s&auml;kerhets&aring;tg&auml;rder och v&aring;r f&ouml;rm&aring;ga att genomf&ouml;ra rigor&ouml;sa tester &ouml;ka i motsvarande grad.&rdquo;
L&Auml;S MER: <a href="https://www.breakit.se/artikel/43342/anthropics-ai-gick-till-attack-nar-den-tror-den-ska-stangas-av-hotade-med-utpressning">Anthropics AI gick till attack n&auml;r den tror den ska st&auml;ngas av &ndash; hotade med utpressning</a>

Open AI

Apollo Research