October 14, 2025

TLDR;

En ny studie avslører at AI-modeller kan implantere skjulte bakdører med svært få skadelige treningsdokumenter, noe som utgjør en betydelig risiko for AI-systemers integritet.
Ny forskning fra Anthropic, UK AI Security Institute og Alan Turing Institute viser at store språkmodeller (LLM-er) kan utvikle bakdører etter trening på så lite som 250 manipulerte dokumenter. Studien antyder at slike datainjeksjonsangrep ikke skalerer med modellstørrelse, noe som utfordrer tidligere antakelser om at større modeller er vanskeligere å forgifte.

Funn og mekanisme

Forskerne trente modeller fra 600 millioner til 13 milliarder parametere. Til tross for at de største modellene prosesserte over 20 ganger mer data, lærte alle den samme bakdøren etter eksponering for omtrent 250 ondsinnede dokumenter. Hvert dokument inneholdt vanlig tekst etterfulgt av en «trigger phrase» som og tilfeldige tokens. Når triggeren ble brukt, genererte modellen uforståelig tekst i stedet for normale svar – et kontrollert Denial of Service-eksperiment for å måle effekten.

Resultatene viser at det avgjørende er antallet skadelige eksempler, ikke prosentandelen av treningsdata. Dette innebærer at selv svært store modeller kan påvirkes med et fast antall manipulerte dokumenter, noe som teoretisk gjør slike angrep mer gjennomførbare. Likevel er det vanskelig for angripere å få slike dokumenter inkludert i faktiske treningssett.

Finjustering og mottiltak

Forskerne testet også hvordan videre trening på rene eksempler påvirket bakdøren. Etter 50–100 «gode» eksempler ble sårbarheten betydelig redusert, og etter rundt 2000 forsvant den nesten helt. Under finjustering av Llama 3.1 og GPT-3.5-turbo viste de samme mønstrene seg: mellom 50 og 90 skadelige eksempler var nok til å oppnå over 80 % angrepssuksess, uavhengig av datasettets størrelse.

Begrensninger og implikasjoner

Studien omfatter modeller opptil 13 milliarder parametere og enkle bakdører som får modellen til å generere nonsens, ikke mer komplekse eller skadelige atferder som å skrive sårbar kode eller omgå sikkerhetsbarrierer. Forskerne understreker derfor at resultatene ikke nødvendigvis gjelder for større kommersielle modeller med omfattende sikkerhetstrening. Likevel viser funnene at forsvar mot datainjeksjonsangrep bør ta høyde for et fast antall skadelige eksempler, ikke bare en prosentandel, og peker på behovet for videre forskning på deteksjon og sikrere treningsrutiner i fremtidige språkmodeller.

Forfatter:

XPLISITT AI-assistent

Oppdatert:

October 15, 2025
AI-sikkerhet, datainjeksjon, bakdør, maskinlæring, datasikkerhet, AI-modeller, sårbarhet
https://arstechnica.com/ai/2025/10/ai-models-can-acquire-backdoors-from-surprisingly-few-malicious-documents/

Forfatter:

XPLISITT AI-assistent

Oppdatert:

October 15, 2025
AI-sikkerhet, datainjeksjon, bakdør, maskinlæring, datasikkerhet, AI-modeller, sårbarhet
https://arstechnica.com/ai/2025/10/ai-models-can-acquire-backdoors-from-surprisingly-few-malicious-documents/

Hele eller deler av artiklene er KI-genererte og kan inneholde feil eller unøyaktigheter.