TLDR;
Funn og mekanisme
Forskerne trente modeller fra 600 millioner til 13 milliarder parametere. Til tross for at de største modellene prosesserte over 20 ganger mer data, lærte alle den samme bakdøren etter eksponering for omtrent 250 ondsinnede dokumenter. Hvert dokument inneholdt vanlig tekst etterfulgt av en «trigger phrase» som
Resultatene viser at det avgjørende er antallet skadelige eksempler, ikke prosentandelen av treningsdata. Dette innebærer at selv svært store modeller kan påvirkes med et fast antall manipulerte dokumenter, noe som teoretisk gjør slike angrep mer gjennomførbare. Likevel er det vanskelig for angripere å få slike dokumenter inkludert i faktiske treningssett.
Finjustering og mottiltak
Forskerne testet også hvordan videre trening på rene eksempler påvirket bakdøren. Etter 50–100 «gode» eksempler ble sårbarheten betydelig redusert, og etter rundt 2000 forsvant den nesten helt. Under finjustering av Llama 3.1 og GPT-3.5-turbo viste de samme mønstrene seg: mellom 50 og 90 skadelige eksempler var nok til å oppnå over 80 % angrepssuksess, uavhengig av datasettets størrelse.
Begrensninger og implikasjoner
Studien omfatter modeller opptil 13 milliarder parametere og enkle bakdører som får modellen til å generere nonsens, ikke mer komplekse eller skadelige atferder som å skrive sårbar kode eller omgå sikkerhetsbarrierer. Forskerne understreker derfor at resultatene ikke nødvendigvis gjelder for større kommersielle modeller med omfattende sikkerhetstrening. Likevel viser funnene at forsvar mot datainjeksjonsangrep bør ta høyde for et fast antall skadelige eksempler, ikke bare en prosentandel, og peker på behovet for videre forskning på deteksjon og sikrere treningsrutiner i fremtidige språkmodeller.