Artikel top billede

(Foto: Computerworld)

Nu kan du heller ikke stole på, hvad du hører

Helt ny software vil kunne efterligne din stemme på grundlag af blot et minuts autentisk lydoptagelse. Endnu er resultatet måske ikke 100 % overbevisende, men teknologien demonstrerer, hvad vi har i vente fra fremtiden.

Af Palle Vibe, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Måske kender du den gamle amerikanske krimithriller ”Sneakers” fra 1992? Den indeholder en scene, hvor karakteren Werner Brandes i skikkelse af skuespilleren Stephen Tobolowsky skal skaffe sig adgang til et sikret område ved hjælp af et voice-ID, og pågældende affyrer den udfordrende replik: ”Hi, my name is Werner Brandes. My voice is my passport. Verify Me.”

Din stemme udgjorde dengang et skudsikkert identitetsbevis. Var du ikke den, du udgav dig for, var sammenklippede audiosamples dengang det bedste, du kunne prøve. Men den tekniske udvikling står ikke stille. Computergrafik har for længst overskredet grænserne for, hvad det er muligt at skabe på en billedskærm eller et lærred (se første temaartikel om emnet i Alt om DATA nr. 3/18).

Men i dag kan intelligente programmer og stemmesyntese også efterligne den menneskelige stemme med skuffende overbevisning. Men kan en computer også efterligne netop din stemme med alle betoninger og særkender? Ja, det kan den godt, hvis det står til det unge canadiske AI-firma, der er en udløber af Institute for Learning Algorithms (MILA) under University of Montreal.

Firmaet kalder sig Lyrebird og har netop udviklet et nyt softwareprogram med samme navn. Lyrebird behøver angiveligt kun 60 sekunders digital optagelse af en persons stemme for at skabe en fuldkommen syntetisk kopi, som du endog kan bringe til at ytre hvad som helst. Programmet benytter en speciel deep learning algoritme, der løbende forbedrer resultatet undervejs, og reelt vil denne nye software kunne lade lyddesignere tumle rundt med lydsvingninger på samme måde, som grafiske designere kan gøre med billedpixels.

Lyrebird hævder tilmed, at programmets intelligente algoritmer kan lægge følelser som vrede, glæde eller fortvivlelse ind i stemmeføringen og eksempelvis få et glad budskab til at lyde sørgeligt og omvendt. Jo længere optagelser af originalstemmerne, programmet får at arbejde med, jo mere overbevisende vil resultatet ikke overraskende blive, men du kan også designe din helt egen personlige stemmekarakter.

Det forudsætter alt andet lige en del computerkraft at generere det første voice-print, og firmaet anvender kraftige GPU’ere (Graphic Processing Units) til at afvikle programmet på, men derpå er en fuld digital stemmesimulering også let at lave. Lyrebird påstås at kunne frembringe tusindvis af sætninger på under et halvt sekund!

Lyrebird vil efter firmaets opfattelse med fordel kunne anvendes til både oplæsning af e-bøger (med stemmer fra berømte personer eller lignende) og som digitale stemmer til gavn for talehandicappede. Teknikken vil også kunne lave billige stemmer til animations-film og videospil og kunne få dine personlige assistenter til at tale som din moster, eller hvem du ellers vil foretrække.

Programmet er dog endnu ikke ganske færdigudviklet, og firmaet bag Lyrebird er bl.a. i gang med at udvikle forskellige sprogversioner, så de syntetiske stemmer kan tale både fransk, og spansk og efterhånden også flere andre sprog. Firmaet erkender, at de syntetiske stemmer kan indeholde lidt støj og gnitren, der stammer fra originaloptagelsen, men holdet arbejder ihærdigt på at træne algoritmerne i at kunne genkende og bortfiltrere den slags støj.

Tidligere vokale Photoshops

For blot få år siden ville dette have været ugørligt, men den seneste udvikling inden for maskinlæring har nu gjort det muligt, og teknologien vil naturligvis som alt andet blive stadigt udviklet og forbedret.

Der har været flere andre forsøg på at udvikle manipulerbar stemmesyntese. Eksempelvis har både Baidu og Google demonstreret forbavsende naturtro softwarestemmer. Også Adobe har demonstreret en prototype på et softwareprogram ved navn Projekt VoCo, hvormed du faktisk kan redigere taleoptagelser, ganske som du med Photoshop kan redigere digitale fotos og grafik. Du gør det simpelthen ved at taste de ord, du vil have frembragt, ind i programmet, hvilket du kan gøre undervejs. Dog kræver VoCo mindst 20 minutters autentisk forlæg for at kunne frembringe noget fornuftigt.

Dertil kommer det franske firma CandyVoice, der tilbyder stemmeimitation som del af deres app af samme navn, og Carnegie Mellon gruppen er også fremme med en lignende software under navnet FestVox.

Etiske, moralske og kriminelle problemer

Men Lyrebird og lignende software afføder også kritiske stemmer, og de er reelle nok. Det har allerede været vist, at stemmesyntese i flere tilfælde kan narre biometrisk stemmegenkendelse i forbindelse med ID-verificering. Allerede for to år siden demonstrerede forskere fra University of Alabama, at kunstige computergenererede stemmeefterligninger kunne snyde biometrisk stemmeidentifikations-apparatur i op til 90 % af alle tilfælde. Mennesker kunne imidlertid kun narres af den syntetiske røst i halvdelen af tilfældene.

Men sammen med avanceret billedmanipulation for slet ikke at tale om videomanipulation vil den slags software kunne bruges til mange mindre hensigtsmæssige formål. Eksempelvis har det været demonstreret, at videomanipulation baseret på 3D-mapping har kunnet forvandle berømte ledere som George W. Bush og Vladimir Putin til real-time marionetter, der har kunnet optræde, gebærde sig og lave grimasser styret af en skuespiller.

Det ligger lige for at forestille sig, hvad sådanne manipulationer ledsaget af autentisk lydende stemmer kunne forårsage af overraskelse, chok og frygt, hvis uheldige eksempler fik lov til at blive delt viralt. Kunstige stemmer, der ytrer falske udsagn, vil også så tvivl om nytten af at fremlægge lydoptagelser som bevis i retssager og i mange andre situationer, og i den helt kriminelle ende vil de kunne bruges til identitetstyveri.

Lyrebird har dog skarpt fokus på den resulterende problematik og mener, at meget kan overkommes ved at gøre softwaren lige åben og tilgængelig for alle. På den måde vil alle være klar over, at falsknerier er muligt og forholde sig kritisk på samme vis, som folk også er fuldt klar over, at billeder og fotos kan manipuleres på det forfærdeligste.

Forbilledet for navnet Lyrebird er en fugl (på dansk lyrehale), der er i stand til at lyde som mindst 20 andre fugle foruden menneskeskabte lyde som fotografiske klik, bilalarmer og endog motorsave.

Desværre viser historien, at offentligheden alligevel ryger i med alle ben, hvis sammenhængen er tilforladelig og falskneriet godt nok udført. Måske af samme grund har Zeyu Jin, der står bag Adobe-programmet VoCo, også indlagt digitale vandmærker i de producerede stemmeresultater.

Men Lyrebird er overbevist om, at ligesom en hammer oftere bruges som redskab til at bygge frem for at beskadige, vil teknologien i sidste ende have flere fordele end ulemper. Og hvis Lyrebird ikke lægges frit frem, vil andre sandsynligvis udvikle et lignende program og måske beholde det for sig selv.

Folkene bag Lyrebird angiver, at de har modtaget over 6000 bestillinger fra folk, der ønsker at købe og bruge programmet. Der foreligger ikke noget om pris, men firmaet vil sandsynligvis tilbyde en API (Application Programming Interface) API, som så vil kunne benyttes på bestemte betingelser til at tilgå Lyrebirds servere indirekte.

Eksempel på, hvor forskellige stemmer, Lyrebird rent faktisk kan frembringe:

Se bl.a. https://soundcloud.com/james-vincent-217054498/sets/lyrebird-sample-voices

Hør de syntetiske stemmer af Donald Trump, Barack Obama og angiveligt Hillary Clinton kommentere den nye teknik: https://soundcloud.com/user-535691776/dialog

Lige nu er stemmerne måske nok en smule robotagtige, men både tonefald og klang har troværdighed, og du kan sagtens høre, hvem der er ”tale” om …

Her kan du overvære en demonstration af Adobe-programmet VoCo: https://www.youtube.com/watch?v=I3l4XLZ59iw

Sådan præsenterer Lyrebird sig selv på hjemmesiden https://lyrebird.ai/