TLDR;
Ny forskning fra DeepMind undersøker hvor godt generative videomodeller faktisk forstår den fysiske verden. I en studie testet forskerne Googles Veo 3 på dusinvis av oppgaver innen persepsjon, modellering, manipulering og enkel visuell/romlig resonnering. Resultatene viser et blandet bilde: modellen kan levere imponerende treff på enkelte oppgaver, men faller ofte gjennom på andre.
Veo 3 klarte gjennomgående å generere plausible sekvenser for handlinger som robotiske hender som åpner et lokk eller kaste/fange en ball. Den presterte også svært godt på bilde-nære oppgaver som deblurring/denoising, utfylling av manglende områder og kantdeteksjon. Samtidig viste andre oppgaver stor variasjon i kvalitet: å fremheve en spesifikk skriftkarakter i et rutenett mislyktes i de fleste forsøk, det samme gjaldt å vise en bunsenbrenner som tennes og brenner papir, å løse en enkel labyrint og å sortere tall ved å sprekke bobler i rekkefølge.
Metodisk kjørte forskerne 12 forsøk per oppgave. En oppgave ble bare klassifisert som «feilcase» dersom modellen feilet i alle 12 forsøk; dette skjedde i 16 av 62 oppgaver. I mange andre tilfeller var suksessen sporadisk—noen ganger ett vellykket klipp blant mange mislykkede—noe som begrenser praktisk anvendbarhet.
Samtidig peker studien på bedring fra Veo 2 til Veo 3. I kvantitative tester speilet Veo 3 et tilfeldig mønster horisontalt i 72 % av tilfellene, mot 0 % for Veo 2, og det ble også målt fremgang på bl.a. kantdeteksjon, objektuttrekk og labyrintløsning. Hvorvidt slike forbedringer vil fortsette i samme tempo, er imidlertid uvisst.
Konklusjon: Dagens generative videomodeller kan demonstrere enkelte evner som kan minne om fysisk forståelse, men resultatene er for inkonsistente til å si at de pålitelig modellerer hvordan verden fungerer. Fremgangen er tydelig, men det gjenstår et vesentlig stykke før slikt «verdensresonnement» fungerer robust i praksis.