De lærende maskiner er over os

De lærende maskiner er over os

Share
Neuroner og indlæring

Der er også andre problemer. Det er af og til svært at finde ud af grunden til, at ét resultat overtrumfer et andet, fordi så meget af processen er skjult i den interne vægtfordeling. Det kan også gøre det vanskeligt at finjustere systemet. Der skal være foregået megen intern diskussion hos Google om de relative fortrin ved maskinlæring i forhold til dens rivaler, når det gælder rangering af søgeresultater og målretning af reklamer. Man kan ikke blot foretage en hurtig justering for at give ét resultat forrang frem for et andet.

Et simpelt neuralt netværk kan køre på en håndfuld noder. Detaljeret arbejde kræver lidt mere. Facebooks DeepFace kører på ni lag og har 120 millioner forbindelsesvægte. Til sammenligning kan vi nævne, at man som regel tilskriver menneskets hjerne 100 milliarder neuroner. Et nyere eksperiment når dog kun op på 86 milliarder.

Hver neuron har forbindelse til et sted mellem 1000 og 10.000 andre neuroner (man er ikke helt sikker; tallet 7000 bliver ofte nævnt). Det betyder, at antallet af forbindelser skal regnes i billioner – det overstiger antallet af stjerner i Mælkevejen. De største kunstige systemer, der hidtil er lavet, tæller en milliard forbindelser, og de har været kortlivede forskningsprojekter. Vi har stadig lang vej at gå.

Dette stopsignal, der er lavet af forskere fra University of Washington, narrer førerløse biler – de ekstra klistermærker er beregnet til at forvirre billedgenkendelsen.

Som du sikkert har regnet ud, holder vi os her til det grundlæggende. Maskinlæring drejer sig imidlertid ikke kun om neurale netværk; SVM’er (support vector machines) er en anden populær metode. De bliver trænet på en tilsvarende måde, men bruger en anden matematisk model internt. Disse systemer er enklere, de kræver ikke enorme mængder af computerkraft eller big data-sæt, og de interne processer er mere åbne for undersøgelse. Men de har ikke samme kraft som et neuralt netværk.

Se også:  Sony klar med helt ny type headset

Maskinlæring er et emne, der meget hurtigt bliver kompliceret, når man dykker længere ned i det. Det giver ingen mening at opregne de grundlæggende maskinlæring-metodologier; der er over 50. De bruger et væld af statistiske ana-lyseværktøjer, beslutningstræ-algoritmer, dimensionsreduktion, regressionsanalyse og meget andet. Det er matematik på særdeles højt niveau.

I tilgift til den overvågede indlæring findes der også semiovervågede systemer, der bruger et minimum af markerede data, og der findes også systemer helt uden overvågning. De fungerer uden nogen markeringer overhovedet; man hælder blot de rå data ind og lader algoritmerne gå i gang. Heraf opstår der mønstre og associationer, som måske ikke er indlysende på nogen anden måde.

Et hold hos MIT har udviklet RF-Pose, der er er system, som bruger trådløse signaler til at spore folk – også igennem vægge. Det er trænet til at bruge et kamera og radiosignaler.

Man kan kun træne et system, hvis man ved, hvilke outputkriterier man søger. Hvis man ikke ved, at man leder efter katte, kan man ikke træne et system til at finde dem. Ikkeovervågede systemer kan gøre gavn ved at oprette datamarkeringer, der derefter kan blive videregivet til overvågede systemer.

Se også:  Rigtige, kloge mænd VS. rigtigt kloge computere

Det kan for eksempel dreje sig om at finde et cluster af billeder, der synes at rumme det samme objekt. De er også gode til at finde anomalier i data, hvilket er ideelt til sikkerhedssystemer, der leder efter tegn på svindel eller hacking, men som ikke aner, hvor eller hvordan disse handlinger finder sted.

virkelighed eller ej?

Denne deepfake-præsident blev lavet af Jordan Peele og Jonah Peretti for at illustrere farerne ved deepfake: Den følger Perettis stemme.

Vi er vant til digitale fupnumre fra Photoshop-bearbejdede modebilleder til gevaldige computerskabte effekter (computer-generated imageri, CGI). Vi ved godt, at alt ikke er, som det ser ud. Fup er ikke nyt, men den nemhed og præcision, hvormed man kan lave det ved hjælp af et maskinlæringssystem er skræmmende. Tag blot deepfake: Begrebet dukkede op i efteråret 2017, da en række pornografiske videoer dukkede op. De omfattede tilsyneladende kendte mennesker. Det hele var fup.

Deepfake bruger et neuralt netværk til at overføre ansigter til figurer i videoer. Systemet er trænet til at bruge flere billeder af det udvalgte offer, og det kan fungere i noget nær realtid. Det blev hurtigt efterfulgt af FakeApp, der er en simpel applikationsversion, der har krævet beskedne programmeringsevner. Nu kunne man nemt undergrave ligheden i de videoer, der blev delt online. Deepfake blev bandlyst på en række sociale medier, men det er stadig meget udbredt. Det er blevet brugt til politisk satire og rent drilleri, men det er også blevet brugt til mere udspekulerede og skadelige formål – som at indsætte Nicolas Cages ansigt ind i berømte filmscener uden andet formål end at lave noget, der går viralt på internettet. Der er grænser.

Teknikken er temmelig imponerende, men en nærmere undersøgelse afslører ejendommeligheder. Men hvis man blader gennem videoklip på sin telefon, kan en deepfake-forfalskning sagtens smutte ubemærket forbi. Dette er et farligt område, og det betyder, at det er vigtigere end nogensinde før, at man altid sporer kilden til noget, før man fæster lid til det. Det er desværre betydelig nemmere sagt end gjort. Der kommer mere endnu: Deep Video Portraits, for eksempel. De går videre endnu, idet man kan bruge bevægelser og ansigtsudtryk hos én person og hovedet fra en anden.

Nu kan man lade forfalskningerne bevæge sig og udtrykke sig, som man ønsker. Det går langt videre end blot at overføre et ansigt på en video. Komplette digitale avatarer af levende mennesker kan ikke være særlig langt væk. Det er muligvis en demokratisering af Hollywoods CGI-effekter, men der er stor risiko for, at troværdigheden går fløjten.

Deep Learning

Et andet meget udbredt maskinlæring-buzzword er deep learning, der i grunden blot bruges til at beskrive store, flerlagede neurale netværk. For eksempel kan lag, der bruges i systemer til billedgenkendelse, opdele billeder i områder eller blokke, der kan være objekter; det næste lag prøver måske at definere kanter; og andre lag identificerer specifikke former.

Hele historien ender med et output, der kan trænes. Jo flere lag, desto større kompleksitet, idet inputtet bliver brudt op i en stadig mere abstrakt repræsentation af dataene. Simple neurale netværk har måske nogle få lag; et deep learning-system kan løbe op i tre cifre. De skalerer godt, men de kræver anselige ressourcer.

Hvis man træner et neuralt netværk til at genkende hunde og kører det samme billede 50 gange, er dette resultatet – takket være Googles DeepDream.

Det, maskinlæring kræver for at trives, er adgang til en masse data. De bliver nu leveret af os – takket være internettet. Vi har skrevet utallige søgeanmodninger, e-mails og blogs, og vi har uploadet millionvis af billeder og videoer. Vi har skrevet indkøbshistorier og rejseberetninger; vi har delt ting, som vi kan lide, eller som vi har set, hørt og læst – og meget mere. Dette er big data, og der er nok til at afsløre underliggende mønstre, associationer og handlinger. Vi har fodret internettet med data i årevis, og en forfærdelig mængde af dem ligger i datafarme og venter blot på at blive bearbejdet.

Det andet, der kræves, er processorkraft. Gpu’en har vist sig at være lige det, systemerne skulle bruge til de simple, men gentagne operationer, og i dag har vi dedikeret hardware fra Google og IBM, mens Intel og andre følger trop (se tekstboksen herunder). Vi har trådløst internet i vores hjem, og den hardware, der kræves for at forbinde enhederne er billig, og der er meget af den. Når man samler disse faktorer, får vi de ideelle vilkår for en eksplosion i maskinlæring.

Vi har nået det punkt, hvor det er blevet nemt og relativt billigt at føje maskinlæring-stemmekontrol eller gestusgenkendelse til noget så dagligdags som et fjernsyn. Moderne apparater er allerede forbundet med husets trådløse hub; det er en nem sag at hægte vores stemmekommandoer til en server, der kører et af de populære maskinlæring-frameworks. Dem er der dusinvis af, herunder Googles TensorFlow og Amazons Machine Learning.

Her oversætter et neuralt netværk hurtigt din kommando og fører den tilbage til dit fjernsyn. Det lyder som trylleri: Nu kan man bede fjernsynet om at skrue ned for lyden med stemmen eller med en gestus, så man slipper for at trykke på en knap. For ti år siden ville det have været vanskeligt og imponerende; nu er der intet mærkeligt i det.

Del denne