Artikel top billede

(Foto: Computerworld)

Adobe Project VoCo: Nu bliver skrevne ord til tale

Forestil dig, at du skriver en tekst, og den automatisk kan omsættes til tale. VoCo Tillader dig at ændre ord i en optagelse blot ved at skrive dem.

Af Peter Hyldahl, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Du holder en tale, som optages digitalt og herefter bliver hvert talt ord omsat til tekst på en skærm. Så langt så godt – det er der ikke så meget nyt i. Men nu kan du flytte rundt på ordene – klippe/klistre som i alle tekstbehandlingsprogrammer – og sige en ny sætning, som puttes ind i teksten. Og det sker vel at mærke i et tempo og med en naturlighed, så du under den efterfølgende afspilning ikke kan høre, at det er klippet sammen og reelt er snyd.

Nu tager vi samme tekst og udskifter skriftligt et af ordene med et andet, der ikke er blevet sagt i den oprindelige tale. Og jep – nu siger ”du” ordet fuldstændig, som havde du ville kunne have sagt det i virkeligheden. Det lyder som en fantasi, men er en teknologi, der allerede findes og skal udvikles til noget håndgribeligt, der vil ende som et program eller en app i nær fremtid. Det er i hvert fald planen.

Sikkerheden er en udfordring

Datatid TechLife fik den nye teknologi demonstreret på softwareproducenten Adobes årlige konference i USA. Udviklingsprogrammet hedder lige nu Project VoCo, Project, fordi det endnu er et program, som er i testfasen. Men der er store forventninger hos Adobe til, at det i nær fremtid kan udvikle sig til et kommercielt program.

Sikkerhed og identitet er en af de store udfordringer. For hvis man kan indlægge nye ord i kendte stemmer, står ladeporten åben for misbrug af enhver art.

Adobe eksperimenterer med at lægge en form for digitalt vandmærke ind i lyden. Ganske som man kender ved billeder, du kan købe på nettet. Først når du har betalt, forsvinder det vandmærk, der viser ophavsretten. Adobe understreger, at programmet ikke kommer i handlen, før der er blevet indbygget vandtætte sikkerhedssystemer.

Det nye Project Vocal blev demonstreret ved den årlige Adobe Max-konference i San Diego. Det nye Project VoCo blev demonstreret ved den årlige Adobe Max-konference i San Diego.

Algoritmer for viderekomne

Forsøgsprogrammet skal bruge omkring 15 minutters tale fra den person, hvis tale man vil redigere. Her er det naturligvis en fordel, hvis personen siger de ord, man senere vil bruge, men det er ikke afgørende.

Programmet analyserer ved hjælp af avancerede algoritmer, hvordan personen taler, hvordan de forskellige ord udtales osv. På den måde kan programmet lave nye ord, der lyder helt perfekt. Adobe demonstrerede programmet for os, og det var ganske overbevisende. Her fik vi også konstateret, at rettelserne i ordstrømmen skete meget hurtigt, så der skal ikke nødvendigvis bruges computere med meget kraftige processorer for at håndtere processen.

Potentialet er nemlig enormt, vurderer Adobe. I første omgang kan man bruge teknologien til for eksempel lydbøger, hvor det vil være let at lave korrektur i en tekst, hvor der er fejl eller forkerte oplysninger i indtalingen. Programmet kan også træde ind som hjælper, hvis du har mistet stemmen eller måske skal hvile din stemme, fordi du har ondt i halsen. Du skriver blot din tekst, og så sørger programmer for, at din tale kan holdes med din stemmeføring.

Men også kommercielle brugsområder inden for film, tv og underholdning kan udnytte teknologien. For eksempel til at eftersynkronisere lyden på film til et andet sprog, som det er almindeligt i mange lande. Så kan Brad Pitt tale tysk og lyde som Brad Pitt. 

Klippe-klistre med talte ord

En talebid er omsat til tekst, og vi kan nu klippe i ordene ligesom i et almindeligt tekstbehandlingsprogram. En talebid er omsat til tekst, og vi kan nu klippe i ordene ligesom i et almindeligt tekstbehandlingsprogram.
Du kan flytte rundt på ordene, som du vil. Det vil lyde rigtigt, også selvom det ikke nødvendigvis giver mening. Du kan flytte rundt på ordene, som du vil. Det vil lyde rigtigt, også selvom det ikke nødvendigvis giver mening.
Selvom der tilføjes ord, som ikke var i den oprindelige tale, vil lytteren ikke kunne høre, at de er indsat. Selvom der tilføjes ord, som ikke var i den oprindelige tale, vil lytteren ikke kunne høre, at de er indsat.