Artikel top billede

(Foto: Computerworld)

Drop tastaturet – tal dine tekster

Kan du forestille dig at betjene din arbejdscomputer alene med talekommandoer? At diktere dine mails, din opgaver eller rapporter? Det er allerede hverdag for mange danskere, og du kan selv prøve det af.

Af Caspar Haarløv, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Forestil dig en social- og sundhedshjælper. Hun har netop afsluttet et besøg og sætter sig ud i sin bil. Men inden hun kører, fortæller hun sin computer, hvilken medicin patienten har modtaget, hvilke opgaver der er udført, og hvad det er vigtigt at huske til næste gang. Det tager to minutter.

Senere på eftermiddagen gennemgår hun alle dagens rapporter som tekst på en skærm. Hun retter eventuelle fejl og tilføjer manglende felter. Det tager under en halv time. Mens hun pakker sammen for at tage hjem, hører hun rapporterne igennem for sidste gang og godkender.

Allerede i 1970’erne opstod de første talegenkendelsesprogrammer af den type, man benytter i dag. Men det er først de senere år, at talegenkendelse er blevet almindeligt og bliver konverteret til tekst i dagligdags sammenhænge.

I fremtiden vil vi måske helt droppe tastaturerne og taleskrive vores tekster. Hvilken lettelse for alle de mennesker, som ikke synes, de kan skrive, men ellers er gode til at formulere sig mundtligt.

Lær din mobil at forstå dig

Hvor godt virker talegenkendelse på en mobil? Forfatteren til denne artikel installerede appen Dragon Dictation på en iPhone og prøvede at indtale et stykke klassisk dansk litteratur, nemlig indledningen til ”Mogens” af J. P. Jacobsen: Original tekst: ”Sommer var det; midt paa Dagen; i et Hjørne af Hegnet.” Resultat i fire forsøg: ”Så hvorfor det midt på dagen i dag lørdag.” ”Sommer var det midt på dagen et hjørne regn.”

”Samarbejde midt på dagen i hjørnet hej.” ”Sommer var det; midt på dagen; et hjørne hegnet.” Mere morsomt end praktisk. Men hvorfor var transskriberingen først næsten perfekt i det sidste forsøg? Nok, fordi jeg var blevet opmærksom på, hvordan talegenkendelse virker.

Jeg talte til sidst med tydeligt adskilte ord og fandt pludselig på at medtage tegnsætning. Dragon Dictation er produceret af Nuance, der står bag både Siri til iPhone, de fleste navigationssystemer til biler og de systemer, som KMD producerer. Appen er gratis til iOS.

Bliv selv pioner

Du kan allerede prøve, hvor gode teknologierne er. For eksempel stiller Google flere apps og tjenester til rådighed – en af dem findes i Google Oversæt. Her kan du selv lege med mulighederne og blive tale-til-tekst-pioner.

Et af de jobsteder, hvor teknologien er ved at tage godt fat, er i den offentlige sektor. SoSu-assistenter bruger talegenkendelse. Sagsbehandlere bruger det. Og overalt i sundhedssektoren bliver det brugt, og her er man længst fremme af alle brancher.

Ifølge Ulrik Kjærgaard Sørensen, projektchef i KMD, der nu hyppigt implementerer talegenkendelse i den offentlige sektor, er der mange fordele ved at slippe tastaturet.

For det første er der hastigheden: De fleste mennesker taler fire-fem gange så hurtigt, som de skriver. Tilføj stemmekommandoer og auto-sætninger til ligningen, og vi har en seriøs effektivisering af trivielle arbejdsopgaver. Nogle steder er der mulighed for at springe op til 17 museklik over med en enkelt stemme-kommando.

For det andet gør talegenkendelse på mobile enheder det nemmere at afrapportere med det samme. Det giver færre fejl og forglemmelser i kommunikationen. Mangelfuld rapportering er en af de største årsager til såkaldte ”utilsigtede hændelser”.

For det tredje er der mere tid til de ”egent-lige” opgaver, når man bruger mindre tid på at afrapportere og rette interne misforståelser.

Sådan ved programmet hvad du siger

Det er næsten helt magisk, at talte ord kan blive til meningsfulde, skrevne sætninger, og forløbet er da også ret komplekst, selvom det sker på et øjeblik. Processen kan beskrives i tre adskilte trin.

Trin 1 – fra lydbølger til digital kode: Når vi taler, udsender vi lydbølger. De opfanges af mikrofonen af computeren og omdannes til analoge elektroniske signaler. Derefter omdannes det analog signal til digital form i en analog til digital-konverter.

Trin 2 – fra lyd til ord: Næste trin er tolkningen af optagelsen. Først forsøger softwaren at adskille talen fra baggrundsstøj og andre uvedkommende lyde. De tilbageblevne data opdeles i fonemer. Fonemer er de enkeltlyde, som vores talte sprog er bygget op af. Der er cirka 37 på dansk og 44 på engelsk (antallet varierer lidt alt efter definition). Fonemerne bliver herefter matchet med en database af ord.

Trin 3 – fra ord til sætninger: Til sidst analyseres kontekst og syntaks for at rette fejl og differentiere mellem forskellige ord med ens udtale, samtidigt med at ordene sammensættes til sætninger. Denne del af teknologien minder om en moderne stavekontrol.

Alt dette kræver meget mere hukommelse og regnekraft end der er plads til i for eksempel en mobiltelefon. Derfor sendes signalet til en central server, hvor analysen foregår, hvorefter sætninger bliver sendt tilbage til din mobiltelefon eller computer. Derfor fungerer de flest talegenkendelsessystemer ikke offline.

80-90 procent korrekt

Teknologien er allerede så langt fremme, at den såkaldte genkendelsesgrad er oppe på 80-90 procent i de fleste tilfælde. Men mange oplever meget bedre funktionalitet. For systemerne kan skræddersys til forskellige situationer. Derudover har de fleste systemer indbygget auto-læring. Det vil sige, at din digitale enhed lærer dig at kende og bliver bedre til at forstå netop din udtale og sætningsopbygning.

Ifølge Ulrik Kjærgaard Sørensen er problemerne ikke teknologiske, men psykologiske.

”Udfordringen er vaneændring. Man skal faktisk vænne sig til at tænke, før man taler. Man skal lære lige at stoppe op, formulere en sætning og så udtale den. Det kan godt betyde, at mange går i stå.”

”Så er der spørgsmålet om ens blufærdighed: Hvordan har man det med at sidde og tale ud i et åbent kontor og på den måde udstille sin faglighed foran kollegerne?,” spørger han.

Prøv tale-til-tekst med Google

Der findes i dag et utal af tale til tekst-programmer til både iPhone, Android-mobiler og til Windows- og Apple-computere. Den mest lettilgængelige tje-neste finder du, når du åbner søgemaskinen Google på din computer (endnu ikke på mobil).

Hvis du klikker på mikrofonen til højre for søgefeltet, kan du indtale din søgning på dansk. Også i Google Oversæt kan du indtale tekst på dansk. Herefter oversættes det straks til tekst på det ønskede sprog.

Du kan endvidere hente Voice Recognition, som er en Chrome-tilføjelse fra Google til computer-brug. Det er en slags dikter-maskine, som nedskriver, hvad du siger. Du skal blot vælge dansk i programmets rullemenu nederst og slå computerens mikrofon til.

Når du er færdig med teksten kan den kopieres ind i ethvert andet program. Med Google-tjenesterne fungerer det bedst, hvis du ikke taler alt for hurtigt, men du behøver heller ikke tale langsomt og robotagtigt.