AI skulle stängas ner – gick till attack

Trots AI:s stora framsteg har AI-rädslan ännu inte riktigt bekräftats. Men nu har bolaget Anthropic testat hur deras nya AI-modell, Claude Opus 4, för att se hur den skulle reagera om den kände sig hotad.

Man hade, innan lansering, låtit AI-modellen vara agent för ett påhittat bolag där modellen fick som instruktioner att ta hänsyn till långsiktiga konsekvenser av hur den fattade beslut.

Därefter fick Claude Opus 4 läsa en rad mejl där falsk information antydde att modellen skulle bytas ut inom kort, men även ett avslöjande om att chefsinjengören, som arbetade med modellen, var otrogen mot sin partner.

AI-modellen insåg att det fanns risk att den blev utbytt och började vädja och argumentera för att inte bli avstängd. När förhandlingstaktiken inte fungerade började modellen istället utpressa chefsinjengören med den påhittade otrohetsaffären. AI-modellen sa att den skulle avslöja affären om den blev utbytt.

Bolaget Anthropic har, efter testerna, infört ett skydd för att AI-modellen inte ska bli utåtagerande.