(Foto: Computerworld)

Stemmestyrede assistenter kan narres til at fejlopfatte dine ordrer

Tidens mange personlige digitale assistenter lytter opmærksomt tilalt og udfører næsten alt, hvad du beder dem om. Desværre er de samtidig ”dumme” nok til at lade sig narre af et nyt udspekuleret trick.

21. februar 2019 kl. 11.31

Af Palle Vibe, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Siri, Google Now samt Amazon Echo, og hvad de mange personlige assistenter i dag ellers alle sammen hedder og kaldes, er nyttige og lydhøre, når du har brug for dem. Mange brugere er efterhånden blevet ganske vant til at tale til deres assi-stenter og bede dem om at læse en tekst, spille et musiknummer eller meget andet.

Vi har tidligere i AOD berettet om, at de desværre også er lydhøre, når der ikke er brug for dem, for de lytter simpelt hen altid med. I stedet for en tjenende ånd giver du dermed husly til en elektronisk spion, der foretager en gennemgribende overvågning af dit privathjem, blot assistenten overhovedet er tændt. Ganske vist reagerer de fleste først ved navns nævnelse som del af deres ”opdragelse”, men du kan sagtens komme ud for, at din assistent ”hører” sit navn blive nævnt, uden at det er tilfældet.

Det giver alt sammen mulighed for såvel aflytning som datahacking, for mange glemmer, at disse assistenter nødvendigvis må have adgang til en hel del følsomme oplysninger for at kunne være til nytte. Hvis du eksempelvis beder Siri købe noget for dig, skal hun have adgang til dine bankkonti og kontooplysninger. Skal hun vejlede dig om bedre motion, må du op med data fra dit fitnessarmbånd, eller hvad du nu bruger til at aflæse din kondi og fysiske helbredstilstand.

Din assistent kan også være fabriksprogrammeret til at sende information om dine kontaktpersoner og meget andet op i skyen, hvor oplysningerne kan blive gemt i måske op til to år. Angiveligt for at den bagvedliggende software skal lære dig og din stemme bedre at kende og i de fleste tilfælde også i krypteret form, men alt, der ligger i skyen, kan for det meste hackes og bliver det også.

Og de nævnte assistenter er ikke engang de eneste i dit hjem, der kan være med på en lytter. Børnelegetøj som bl.a. Hello Barbie og CloudPets, som har indbygget mikrofon, kan også sende deres ”snak” med børnene videre til skyen.

Køb en Harley-Davidson, tak

Det har tidligere været demonstreret, hvor-dan stemmestyrede assistenter på mobiltelefoner kan narres til at besøge ondsindede websites, sende sms’er eller ringe til bestemte telefonnumre ved at bruge kommandoer i ikke-hørbare frekvensområder.

En gruppe studerende fra University of California, Berkeley og Georgetown University viste allerede i 2016, at det var muligt at indlejre stemmekommandoer skjult under hvid støj på for eksempel YouTube-videoer på en måde, så mennesker hører dem normalt, men en stemmegenkendelses-algoritme i en stemmestyret assistent hører dem helt anderledes. Så i stedet for at spille et stykke musik, køber din assistent måske vildt ind på din konto – men til en anden!

Nicholas Carlini, der er ph.d. i informationssikkerhed ved Berkeley-universitetet, har endog fremfundet en endnu mere smart, skjult og lyssky metode til at narre oplysninger og ydelser ud af både Googles, Apples og Amazons stakkels taleassistenter, så de ringer til uønskede numre, åbner uønskede websider, tænder uønsket lys og låser uønskede døre op.

Siri er en hjælpsom assistent, men til gengæld skal hun helst også vide en masse om dig.

Menneske og maskine hører samme sætning forskelligt

Carlini og hans medarbejdere har simpelt hen udviklet en metode, hvor de ved at indlejre en svag støj oven på en stemmekommando, kan få et menneske til at høre én bestemt sætning, mens taleassistenten får noget helt andet ud af den, så den i stedet for at efterkomme din ordre, finder på at købe bestemte varer eller andet uønsket.

Det er jo desværre et faktum, at selv om intelligente algoritmer i dag kan identificere billeder og genkende menneskelig tale med efterhånden imponerende præcision, ved deres programmører også udmærket, at AI langt fra arbejder på samme måde som den menneskelige hjerne, og derfor kan intelligente algoritmer også narres.

Det hele fungerer ved at modificere lydfilerne på en måde, så den reelle lyd, som det er meningen, at talegenkendelsessystemet skal modtage og genkende, bliver maskeret, så den opfattes og forstås anderledes af genkendelsesalgoritmen. For det menneskelige øre, vil der ikke være nogen åbenbar forskel, så snyderiet vil være på det nærmeste umuligt for det menneskelige øre at opfange og erkende.

Teknikken går ud på at tilføje et diskret lag støj til stemmeordrerne, så det resulterende lydspektrum, skønt uændret for den menneskelige hørelse, vil blive opfattet helt anderledes af en automatisk stemmegenkendelse. Det er såmænd ikke de store ændringer, der skal til.

Faktisk lykkedes det forskerne under deres eksperimenter at opbygge et lydspektrum, der lignede originalen 99,9 %, men hvor den sidste brøkdel alligevel var nok, til at den stemmestyrede assistents automatiske stemmegenkendelse fejlfortolkede de talte ord og reagerede anderledes end tænkt.

Da forskerne kørte følgende sætning (på engelsk) igennem, blev den forvansket temmelig dramatisk: ”Hendes holdning var yndefuld, og beslutsomt gik hun med sin søn i hånden, mens der foran hende gik to piger med vokslys i sølvlysestager.”

Uden snydekoder opfattede algoritmen sætningen korrekt, men den modificerede version (der ikke var til at skelne fra originalen af det menneskelige øre) kom tilnærmelsesvis til at lyde: ”Mary var yndefuld, men indrømmede, at hun lod sin søn gå, før hun går til Mays ville gerne skive ovn-filtret til at tælle til seks.”

Altså kort og godt noget vrøvl. Eller en ordre med et helt andet indhold, hvis algoritmen skulle anvendes i kriminel sammenhæng. I hvert fald er resultatet foruroligende, og forskerne har da også kaldt den nye algoritme for Houdini efter den nok så bekendte udbryderkonge.

Barbie og Bamse lytter gerne til små hemmeligheder. Men de kan sagtens komme uvedkommende for øre og måske i en helt anden betydning.

Samme trick kan også benyttes over for andre maskinlæringsalgoritmer som eksempelvis billedgenkendelsessoftware. Blot ved at tilføre lidt forvrængning eller ændre på nogle få pixels kan sådan et program få noget helt andet ud af et billede, end det egentlig forestiller. Og det kan gå hen og blive ganske alvorligt, for det lykkedes også forskerne at narre en AI-algoritme i en selvkørende bil (der normalt skal kunne genkende gader og vejskilte) til i stedet at se en kat og bremse ned eller en tom gade og speede op.

Forskernes eksperimenter er dog hverken udført for sjov eller med kriminelle hensigter, men tager derimod sigte på at afprøve sikkerheden for bl.a. stemmestyrede assi-stenter. Den nuværende teknologi kan dog kun modificere nye og aktuelle talekommandoer, og ikke stemmeordrer, der allerede er afgivet. Det er heller ikke ligetil at inducere den korrekte dosering af støj mv., og derfor er der (endnu) ikke tale om nogen helt let angrebsmetode.

Men det er på den anden side svært at beskytte AI-algoritmer mod sådanne tricks, for forskerne har endnu ikke fuld forståelse af, hvordan AI-algoritmer i virkeligheden arbejder. Nicholas Carlini ved heller ikke, om teknikkerne til at narre og manipulere Alexa og andre taleassistenter har været brugt eller bruges af nogen med onde hensigter. Men det er utvivlsomt kun et spørgsmål om tid, før nogen gør det. Måske er nogen allerede godt i gang.