Artikel top billede

(Foto: Computerworld)

Sådan bliver du aflyttet af de digitale assistenter

“Ok cool”, “city” eller “tobacco”. Det er bare nogle af de mere end 1000 fraser, som ud over de normale triggerord kan aktivere stemmestyringsassistenter i dit smart-hjem, afslører ny tysk undersøgelse.

Af Palle Vibe, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Du er formentlig tryg ved, at du blot behøver at sige ”Siri” eller ”OK Google” for at vække dine stemmestyrede digitale assistenter – som Google Assistent, Siri eller Alexa – og gøre dem klar til at efterkomme dine ordrer og ønsker. Forinden har de dog også opsnappet en lille bid af den tale og lyd, der fyldte rummet, da de blev aktiveret. Flere end hidtil antaget af disse lydbidder af ofte højst privat karakter bliver dermed sendt til Google, Apple og Amazon.

De fleste stemmestyringssystemer i smarte højttalere bliver aktiveret gennem en to-trins-proces. De registrerer løbende alt, hvad der bliver sagt og udtalt i omgivelserne for at være parat til at fange de triggerord, som de er programmeret til at reagere på.

Lydsekvenserne med de potentielle trigger-ord bliver i første omgang analyseret af den smarte enhed selv, som (hvis enheden genkender og godkender et triggerord) sender lydbidden videre til en kraftigere, cloud-baseret software hos producenten. Denne software afgør endeligt, om der er tale om et autoriseret triggerord til den pågældende enhed eller ikke. Bliver triggerordet underkendt, udsender enheden et kort lysglimt fra sin lille LED-lampe og går i dvale igen.

Men på det tidspunkt er stemmesekvensen i sin fulde udstrækning allerede lagret i producentens software i skyen. Formålet er ikke at snage i folks privatliv, men at gøre det muligt for de respektive firmaers menneskelige medarbejdere at tjekke og analysere lydene, så samme falske lyd ikke vil få enheden, for eksempel en højttaler, til at reagere fremover. 

Det er for tiden umiddelbart også den mest logiske og samtidig også eneste meningsfyldte fremgangsmåde for producenten til at forbedre analysealgoritmerne. Men det lægger naturligvis i samme tur et stort ansvar på den enkelte producent, der må balancere mellem teknisk videreudvikling og privatlivets fred. 

Tusindvis af ord 

Men der er et problem mere. For det har vist sig, at du faktisk også kan sige ufattelig meget andet end de godkendte triggerord til din smarte stemmestyrede assistent, som vil få den til at vågne op og reagere. Det er konklusionen af en nylig tysk undersøgelse foretaget af blandt andet Ruhr-Universität Bochum (RUB) og Bochum Max Planck Institut (MPI). I undersøgelsen har de tyske forskere fundet over 1000 ord på engelsk, tysk og kinesisk, som aktiverer stemmestyringen, selv om de slet ikke er defineret som triggerord i smart-assistenternes database.

Som led i deres undersøgelse har forskerne udviklet en metode til at fremstille falske triggerord ud fra en udtaleordbog og såkaldt Levenshtein distancesammenligning. Ligeledes har de taget systemernes mulige forkærlighed for kvindestemmer eller mandestemmer med i betragtning. 

Forskerholdet undersøgte 11 forskellige smarte højttalere fra otte forskellige producenter, herunder Amazon, Apple, Google, Microsoft og Deutsche Telekom (Magenta Speaker) – foruden tre kinesiske modeller fra Xiaomi, Baidu og Tencent. Smart-højttalerne blev dels testet gennem timers radio og tv-udsendelser inklusive adskillige sæsoner af “Game of Thrones,” “Modern Family” og “House of Cards” på både engelsk, tysk og kinesisk, dels gennem professionelle datasæt af den type, der normalt bruges til at træne smart-højttalere.

Forskernes forsøgsopstilling bestod af en testbænk, hvorpå alle højttalere var opstillet og tilsluttet. Alle smart-højttalere var desuden Wi-Fi-forbundet med internettet og forbundet til lysnettet gennem en netværksstyret stikkontakt for at imødegå eventuelle fejl eller svigt i strømforsyningen.

Lyssensorer ved hver højttaler registrerede, hvornår dens LED-lamper lyste op som tegn på aktivering, og så var det for forskerne bare om at nærlytte til den lydsekvens, der åbenbart indeholdt triggerlyden. Derfor optog forskerne hver gang nøjagtigt samme lydsekvens, der havde bragt højttalerne til at reagere, med henblik på næranalyse. Forskernes testopstilling kunne også registrere, hvornår der blev sendt data fra enheden. Alle forsøgsaktiviteter blev dokumenteret på video via et webkamera med indbygget mikrofon. Samtidig afspillede teknikken et testsignal mellem lydsekvenserne, for at alle kunne være sikker på, at højttalerne fungerede korrekt og reagerede, som de skulle.

De tyske forskeres test-opstilling var både enkel, effektiv og avanceret. De testede smarte højttalere blev anbragt på rad og række under helt ens betingelser (til højre). 

Vågn op AH L EH K S AH 

Eksperimenterne viste, at højttalerne åbenbart kunne reagere på temmelig mange andre forskellige lyde end netop de autoriserede triggerord. Eksempelvis kunne varierende udtale af ordene ”unacceptable” og ”election” aktivere Alexa, mens ytringen ”OK, cool” kunne mobilisere Google. Ordene ”a city” kunne tænde Siri, og ytringen ”Montana” kunne få Microsofts assistent Cortana til at vågne op. Mumlede nogen ”and the zone” eller ”tobacco”, kunne det alt efter den talendes køn og dialekt vække Amazon-udstyr som Echo. 

Ved at dæmpe lyset under forsøgene sikrede forskerne sig, at smart-højttalernes vågn op-glimt blev korrekt registreret.

I forsøg på at finde ud af, hvorfor og hvordan disse umiddelbart ret afvigende ord og vendinger kan udløse en falsk reaktion, brød forskerne ytringerne ned i de mindst mulige lydbidder og indkredsede på den måde lidt efter lidt de lydbidder, der bevirkede, at højttaleren blev narret. På den måde kunne forskerne generere striber af nye triggerord, som på samme måde fik stemmestyringen til at reagere. Det viste sig bl.a., at Alexa ikke bare reagerede på almindelig udtale af navnet, men også på fonemerne AH L EH K S AH udtalt efter hinanden.

”Fonemer er sproglyde med betydningsadskillende funktion,” forklarer Thorsten Holz, der er professor ved Ruhr-Universität Bochum.

Faktisk har de tyske forskere på grundlag heraf kunnet offentliggøre en autoriseret liste over fundne engelske, tyske og kinesiske ord og lyde, der ofte kan blive fejlfortolket og misforstået af stemmestyrede assistenter. En anden ting, forskerne fandt, var, at den indbyggede stemme/ordgenkendelse godt kan analysere lydsekvenser lidt anderledes end den skybaserede talegenkendelse.

Eksempelvis fandt forskerne, at både højttalerens interne analysesystem og den skybaserede analysesoftware tillod Alexa at reagere på sit navn, mens omvendt vendingen ”a letter” narrede begge systemer. Frasen ”We like some privacy” narrede højttalerens interne system alene. Den gængse aktivering ”Hey Siri” virker åbenbart både lokalt og i skyen, men til gengæld kan vendingen ”Hey Jerry” forvirre begge instanser. For Googles vedkommende reagerede højttaleren på ordene ”Okay, who is reading”, mens systemets skybaserede kontrolmodel afviste dem koldt.

”Enhederne er fra producentens side programmeret til at tolerere en vis margin omkring triggerord, der jo siges af mange forskellige mennesker. Men det betyder også, at systemerne har en tendens til at acceptere en lidt for bred vifte af ord og lyde,” konstaterer Dorothea Kolossa, der er professor ved Ruhr-Universität Bochum.

Hvad kan du selv gøre?

Heldigvis har de fleste producenter af smarte højttalere åbnet mulighed for at justere og indstille forskellige umiddelbare funktioner, for eksempel følsomheden. Og man kan høre og slette de optagelser, den indbyggede stemmegenkendelse har foretaget.

Smart-assistenten Alexa kan eksempelvis justeres fra den tilhørende app og direkte fra smart-enhedens privatlivsindstillinger.

Blandt andet kan du indstille højttaleren til at slette alle optagelser automatisk, efterhånden som de bliver optaget. Du kan også gå ind og ændre og tilpasse særlige tilladelser, du måske har givet forud. Du kan også vælge at blokere for alle stemmeoptagelser. Men gør du det, fratager du samtidig producenten mulighed for at forbedre systemet.

Hvem i alverden er Levenshtein?

Levenshtein er et lidt mystisk, men helt centralt begreb inden for udvikling af stemmestyring. Levenshtein-afstanden er en metode til at definere forskellen mellem to ord eller ordsekvenser. Her udtrykker begrebet, at minimumsforskellen mellem to ord er det minimumsantal af tegn, det kræver at ændre et ord til et andet.

Begrebet har navn efter en russisk videnskabsmand, der med dansk transskription hed Vladimir Josifovitsj Levensjtein. Han forskede i informationsteori, fejlkorrigerende koder og kombinatorisk design. Han er kendt for både Levenshtein-afstanden og Levenshtein-algoritmen, som han i begge tilfælde udviklede i 1965. Levensjtein døde i 2017.