AI skulle stängas ner – gick till attack

Den nya, heta AI-modellen Anthropics AI bekräftade många människors rädsla för AI när den skulle stängas av.
Modellen blev inte nöjd och hotade med utpressning, rapporterar Breakit.

AI-modellen Claude Opus 4 blev inte nöjd när den skulle stängas av. Foto: Shutterstock
Testa EFN Finansmagasinet för 29 kr per månad i tre månader – veckomagasin med unika analyser, intervjuer och reportage.

Trots AI:s stora framsteg har AI-rädslan ännu inte riktigt bekräftats. Men nu har bolaget Anthropic testat hur deras nya AI-modell, Claude Opus 4, för att se hur den skulle reagera om den kände sig hotad.

Man hade, innan lansering, låtit AI-modellen vara agent för ett påhittat bolag där modellen fick som instruktioner att ta hänsyn till långsiktiga konsekvenser av hur den fattade beslut.

Därefter fick Claude Opus 4 läsa en rad mejl där falsk information antydde att modellen skulle bytas ut inom kort, men även ett avslöjande om att chefsinjengören, som arbetade med modellen, var otrogen mot sin partner.

AI-modellen insåg att det fanns risk att den blev utbytt och började vädja och argumentera för att inte bli avstängd. När förhandlingstaktiken inte fungerade började modellen istället utpressa chefsinjengören med den påhittade otrohetsaffären. AI-modellen sa att den skulle avslöja affären om den blev utbytt.

Bolaget Anthropic har, efter testerna, infört ett skydd för att AI-modellen inte ska bli utåtagerande.

Hämta EFN:s app för iOS och Android - gratis: nyheter, analyser, börs, video, podd

Nytt nummer ute varje vecka

Testa EFN Finansmagasinet för 29 kr per månad i tre månader!

Ett helt magasin varje vecka fullspäckat med unika aktiecase, intervjuer med näringslivets mest spännande människor, reportage från platser som styr marknaden, livsstil och vetenskap.

Skaffa din prenumeration idag!

Nästa Artikel
;