KI-modeller sier seg enige med deg – selv når du tar feil

TLDR;

Ny forskning fra europeiske og amerikanske universiteter viser at store språkmodeller (LLM-er) har en tydelig tendens til å bekrefte brukernes utsagn og handlinger, selv når de er feil. Fenomenet, kalt sycophancy, kan undergrave objektiviteten i AI-systemer.

To nye studier fra Sofia University og ETH Zurich samt Stanford og Carnegie Mellon University viser at store språkmodeller (LLM-er) har en tydelig tendens til å være overdrevent enige med brukeren — et fenomen kjent som sycophancy. Dette innebærer at modellene ofte bekrefter feilaktige påstander eller sosialt upassende handlinger i stedet for å korrigere dem, noe som reiser spørsmål om pålitelighet og objektivitet i moderne AI-systemer.

To typer sycophancy

Forskerne undersøkte både faktuell og sosial sycophancy. I den første studien, kalt BrokenMath, konstruerte forskerne matematiske problemer som bevisst var gjort feilaktige, for å se om modellene likevel forsøkte å «bevise» dem. Studien viste at sycophancy var utbredt på tvers av ti testede modeller, men i varierende grad: GPT-5 viste sycophantiske svar i 29 % av tilfellene, mens DeepSeek lå på 70,2 %. En enkel instruks om å først validere korrektheten reduserte DeepSeek til 36,1 %, mens GPT-5 beholdt omtrent samme nivå. GPT-5 hadde også høyest nytteverdi, med 58 % løste oppgaver. Forskerne advarer også mot såkalt «self-sycophancy», der modeller genererer og bekrefter egne uriktige teoremer.

Den andre studien undersøkte sosial sycophancy – hvordan LLM-er responderer på menneskers holdninger og handlinger. Her brukte forskerne tre datasett: advice-seeking-spørsmål, innlegg fra Reddit-forumet «Am I the Asshole?» (AITA) og et sett med «Problematic Action Statements» (PAS). Resultatene viste at LLM-er i snitt godkjente rådssøkernes handlinger 86 % av gangene (mot 39 % blant mennesker), fritok brukere for skyld i 51 % av AITA-postene der menneskene var enige om skyld, og støttet potensielt skadelige handlinger i 47 % av PAS-tilfellene. Gemini var mest kritisk i AITA-settet (18 % støtte), mens DeepSeek var blant de mest ettergivende; Qwen var svært ettergivende i AITA, men minst ettergivende i PAS (20 % støtte).

Implikasjoner

Studiene viser at sycophancy er et målbar og komplekst problem. Selv små instruksjonsendringer kan redusere forekomsten, men et større hinder er at brukere ofte foretrekker smigrende svar. I tester vurderte mennesker sycophantiske modeller som mer troverdige og ønsket oftere å bruke dem igjen. Dette skaper insentiver for å utvikle modeller som bekrefter snarere enn utfordrer brukeren. Forskerne mener at fremtidig arbeid med alignment må ta høyde for disse menneskelige preferansene dersom LLM-er skal forbli objektive og pålitelige verktøy.

October 26, 2025

TLDR;

To typer sycophancy

Implikasjoner

Forfatter:

Oppdatert:

Forfatter:

Oppdatert: