Artikel top billede

(Foto: Computerworld)

Nu kan du tale med alle i hele verden

Snart kan du tale med og forstå personer fra hele verden – uanset hvilket sprog de taler. Googles Pixel Buds-hovedtelefoner er begyndelsen til en helt ny måde at kommunikere på. Men hvordan kan det lade sig gøre, og hvad betyder det for dig?.

Af Caspar Haarløv, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

I fremtiden behøver du ikke bruge tid på at lære fremmedsprog. Du stikker bare et par in-ear-hovedtelefoner i ørerne, og så forstår du hvert et ord af det, som japaneren over for dig står og siger. Og den fremtid er lige om et øjeblik, for tidligere på året præsenterede Google det nye trådløse headset Pixel Buds, der kan oversætte mellem en række forskellige sprog.

Så simpelt er det: Du er i Japan, men kan ikke tale japansk. Derfor banker du let på dimsen i dit højre øre og siger ”Google, hjælp mig med at tale japansk,” og så siger du noget på dansk. Ud af din Android-mobiltelefons højttaler lyder nu en stemme, der på japansk gengiver, hvad du netop har sagt på dansk. Japaneren over for dig nikker – han forstod hvert et ord – og svarer på japansk. Men i dine Pixel Buds hører du svaret på dansk.

Kombinerer kendte teknologier

Det er småsensationelt. Og det vakte virkelig opsigt på Googles stort anlagte presseevent i efteråret, hvor Pixel Buds og andre produkter blev lanceret. Men på en måde er der intet nyt her. Vi har kendt til Google Oversæt i mange år. Og vi har kendt til talegenkendelse og maskinoplæsning. Taleoversættelse i realtid er egentlig bare en kombination af de tre ting.

Google-pixel2_frit Foruden de særlige Pixel Buds-hovedtelefoner kræver Googles talegenkendelse, at du bruger mobiltelefonen Pixel 2.

Du kan i princippet gøre det på hvilken som helst smartphone: Du åbner Google Oversæt (Translate på engelsk), siger noget på dit eget sprog og trykker på højttaler-ikonet, der så
udtaler oversættelsen på det valgte fremmedsprog. Tilsæt trådløse hovedtelefoner, og så har man lavet sine egne Pixel Buds.

Men: Det fantastiske er, hvor nemt det er. Og hvor hurtigt det går. Og det gør en stor forskel.

Integrerer kunstig intelligens

Hvordan fungerer det? Google Pixel Buds er for så vidt intet andet end et par trådløse hovedtelefoner. Men kombineret med en Google Pixel-mobiltelefon sker der noget helt nyt. Telefonen er klar til stemmekommandoer. Og så åbner den nye verden sig.

For den trådløse hovedtelefon har Googles Assistant-teknologi indbygget, som naturligvis også er en integreret del af Googles nye mobiltelefon. Og dermed er den forbundet til Googles giga-kolossale vidensapparat, hvor alverdens hjemmesider, sprog og viden bliver forbundet af den evigt voksende og snart alvidende kunstige Google-intelligens.

Maskinen, der hele tiden bliver klogere, fordi den lærer, mens vi bruger den. Det er hverken hovedtelefonerne eller din telefon, der kan tale 40 sprog. Det er Google-hjernen, der tænker for dig.

Googles bud på in-ear-model

Google Pixel Buds-hovedtelefonerne, som kan oversætte fra andre sprog, er ikke beregnet på eksklusiv hi-fi-lytning. Det er mobile Bluetooth-hovedtelefoner i stil med dem, der følger med din mobiltelefon – bare i en lidt bedre kvalitet og altså uden signal-kabel. Som hovedtelefoner betragtet minder de en del om Apple AirPods.

De sidder ikke inde i øret, men hviler på det yderste af øregangen. Det har den fordel, at du kan følge med i, hvad der foregår i omgivelserne, mens du benytter ”ørepropperne”. Til gengæld kan du ikke opleve samme lydkvalitet som med for eksempel et par halvdyre, kablede Sennheiser in-ear-hovedtelefoner, der sidder længere inde i øret og har bløde endestykker, som ikke lukker ret meget lyd ind udefra.

Hver hovedtelefon har altså sit formål. Men hvis du vil afprøve den trådløse teknologi, må du indtil videre nøjes med Apple Airpods, der fås for knap 1400 kroner. Pixel Buds er endnu ikke dukket op på det danske marked.

google-pixel-buds_frit Modsat Apple Airpods er de to ørestykker i Google Pixel Buds forbundet med et kabel.

Vi må vente

Google Pixel Buds-hovedtelefonerne kan endnu ikke købes i Danmark, og endnu foreligger der intet om, hvornår de kommer til vores ellers så teknologihungrende land. Det kan virke lidt underligt, at Google vælger ikke at lancere så fremragende produkter i hele verden. Det har selvfølgelig noget med produktionskapacitet at gøre, men der er også et andet muligt svar.

Googles fokus med de nye produkter handler først og fremmest om kunstig intelligens (også forkortet AI – artificial intelligence) og maskinlæring, og hvordan disse metoder bliver integreret i produkter og situationer. Når Google lancerer hardwareprodukter, er succeskriteriet, som senior vice president of hardware Rick Osterloh har udtalt, ”ikke salg, men brugertilfredshed og brugererfaring”.

Pixelbudsman Tal 40 sprog uden en time på skolebænken. Et tryk på højre øresnegl, og du kan bruge Google Oversæt til at tale med og forstå mennesker fra hele kloden.

Ifølge Googles administrerende direktør Sundar Pichar handler det om at lære, hvordan hardware og AI bedre kan integreres, fordi ”det er svært at være førende med fremtidens it, hvis ikke man tænker disse to ting sammen”.

For os brugere giver teknologien ikke kun store forventninger, men også anledning til nogen bekymring. For hvad sker med de data, som bliver sendt til Google? Ja, der sker præcis det samme, som når du bruger Google Translate på nettet eller nogle af Googles andre tjenester, for eksempel Gmail. Google forbeholder sig ret til at bruge informationerne til for eksempel at målrette annoncering, men skulle hverken optage eller gemme samtaler.

Bag om tale- genkendelse

Talegenkendelse kan både være meget simpelt og næsten ufattelig kompliceret. Når vi taler med en automatisk service over telefonen, og den beder os om at indtale et nummer, så er udvalget af muligheder kun tallene nul til ni og dermed så få, at algoritmen nemt kan sammenligne hver enkelt lyd med alle kendte mulige udtale-variationer af de ti cifre og så bestemme, hvilket tal der er tale om.

Hvis talegenkendelse skal bruges uden for en så snæver kontekst, bliver det mere kompliceret. Efter analog til digital-konvertering og udskillelse af baggrundsstøj og anden snak skal de konkrete stemmelyde omsættes til de fonemener, som findes i den talendes sprog. Fonemer er de grundlyde, som alle ord i et sprog er sammensat af.

Engelsk for eksempel har 46 fonemer, spansk har 24 fonemer og dansk har 37 fonemer plus sproglyde som stød, i alt 60 elementære sproglyde. Fonemenerne omsættes til lange rækker af lyde, som omsættes til ord og sættes sammen til sætninger.

Hvis de skal blive til rigtige, meningsfulde sætninger for computerchips, kræver det, at systemet har stor viden om, hvordan vi taler, hvilke typer ord der normalt hænger sammen, og hvilke der ikke gør. Jo større denne viden er, desto større træfsikkerhed.

Skyen er ikke alt

Det er dog ikke altid nødvendigt for Google at sende informationer op i skyen for at skabe AI-produkter. Et eksempel Google Clips, et lille undseeligt kamera, som man kan sætte op på hundekurven eller på børneværelset. Google Clip bruger AI til at genkende dine børn eller kæledyr eller andre interessante emner og tager så billeder og små film, når du ikke er hjemme.

Du kan også bruge det til at tage billeder af dig selv, så du slipper for at stå med et kamera, men kan være sammen med dine kære og alligevel blive fotograferet. Det er jo meget sødt – men også en meget avanceret løsning på et meget lille problem.

Begrundelsen for at udvikle dette produkt er da heller ikke, at Clips udfylder et hul i markedet, men at kameraet er et eksempel på lokal brug af AI. Clips sender ikke dine billeder op til analyse i skyen, den redigering klarer det selv.

Den form for hybrid tilgang til AI er ifølge Sundai Pichar nødvendig at investere i, fordi det er en måde at undersøge på, hvordan man kan bruge teknologien forskelligt i forskellige sammenhænge. 