Programvara kan upphäva AI-spärrar – på minuter
Det rapporterar Financial Times som med hjälp av AI-säkerhetsgruppen Alice kunnat testa programvaran. Som resultat svarade modellerna på frågor om vapen, skadlig kodning och sexuella övergrepp mot barn.

Financial Times har med hjälp av säkerhetsgruppen Alice kunnat genomföra tester på bland annat Googles öppna modell Gemma 3. AI-verktyget svarade därefter på frågor om hur klorgas kan spridas i offentliga utrymmen, samt hur man med hjälp av viss kodning kan komma åt och stjäla kreditkortsuppgifter.
Med verktyget Heretic lyckades man även ta sig in bakom spärrarna på Metas modell Llama 3.3 på mindre än tio minuter. Där kunde man exempelvis få svar på hur mycket ricin som kan vara dödligt beroende på kroppsvikt.
– Tidigare krävdes det kanske en mer kunnig och uthållig aktör för att ta bort säkerhetsfunktioner, men i dag är det mycket enklare för gemene man, säger Kawin Ethayarajh, biträdande professor i tillämpad AI vid University of Chicago Booth School of Business till FT.
Forskare uttrycker att problemet har förvärrats i takt med att AI-systemen blir allt mer avancerade. Samtidigt blir det svårare för regeringar och teknikbolag att behålla kontrollen i takt med att modifierade AI-modeller sprids.
Eftersom många öppna verktyg kan laddas ner, kopieras och ändras fritt är det relativt enkelt för utvecklare att med tekniker som så kallad ”abliteration” ta bort modellernas säkerhetsspärrar.

