Nu kan computeren gætte en grimasse

Nu kan computeren gætte en grimasse

Eksperimentalprogrammet Face2Face kan overføre ansigtsudtryk og mimik fra videooptagelser af én person til en anden

Der var engang, hvor det var meget svært at retouchere og redigere et fotografi, så det stadig så helt ægte ud, og ingen ændringer kunne ses. Så kom computeren og med den Photoshop og et væld af lignende softwareprogrammer til billedbehandling, og nu regnes et billede næsten for at være bearbejdet, hvis ikke andet er bevist. Det er dog stadig svært at manipulere levende billeder. Du kan lave computeranimationer af dinosaurer og talende dyr, der måske nok ser relativt overbevisende ud, men lider under det faktum, at alle ved, at dinosaurer og talende dyr ikke findes.

Gennem de seneste år har forskellige teknikker til overførsel af gestik og mimik hos skuespillere vundet indpas til brug for virkelighedstro og realistiske animationer af film- og gamer-figurer, men overførslen af data fra de levende aktører til de computerskabte animationer er generelt temmelig omstændelig. Men nu har et internationalt forskerteam udviklet en ny computerassisteret manipula-tionsteknologi, der hvor utroligt det end lyder, kan ”plante” en skuespillers mimik over på personer i eksisterende videooptagelser. Der er ikke blot tale om en slags ”cut-and-paste”, hvor ansigtstrækkene hos person A skæres ud og indsættes i ansigtet på person B billede efter billede hele videoen igennem.

Sammenligner pixel for pixel

Det drejer sig i stedet om en mere avanceret computerteknologi, der pixel for pixel sammenligner ansigtsbevægelserne hos en person A (kildepersonen) med ansigtsudtrykket hos en person B (målpersonen) og uden synlige fejl overfører kildepersonens mimik til målpersonen.

Teknologien kaldes Face2Face og er udviklet i et samarbejde mellem blandt andre professor Matthias Niessner fra Stanford University og Justus Thies fra Max Planck-instituttet samt forskere fra Friedrich-Alexander-Universität i Erlangen-Nürnberg.

”Computeren fodres først med den eksisterende videooptagelse af målpersonen, f.eks. hentet fra Youtube eller anden kilde og skaber ved hjælp af blandt andet mønstergenkendelse og ansigtsgenkendelse en 3D-model af målpersonens udseende på cirka 15 sekunder,” forklarer professor Niessner.

Kildepersonen A live-filmes via et webcam, og billederne streames til computeren, der nu sammenligner den pågældendes mund, trækninger, læbernes bevægelser, øjenbrynenes stilling samt øjnenes retning og grad af sammenknibning med computer-modellen og beregner, hvordan kildepersonens mimik bedst kan modelleres ind i ansigtet på målpersonen B.

Forskerne har benyttet et Logitech HD Pro C920, der kører med 30 Hz og en opløsning på 640 × 480 pixel til formålet. Men ethvert gængs webkamera vil kunne bruges, og den video, der skal manipuleres, kan sagtens foreligge i en højere opløsning som 1280 x 720, der ofte anvendes i YouTube.

Del denne