Nu får computeren blik for verden

Nu får computeren blik for verden

Share

Et meget langsomt mirakel er sket: Før var computeren blind. Nu kan den se. Ok, siger du måske – webkameraet har vi da haft i mange år. Men dette er noget helt andet. At kunne optage billeder og film er ikke det samme som at kunne se. Velkommen til den fagre nye verden af ”computer vision”

En stille revolution sker lige nu. Computeren begynder at kunne se – og dermed begynder også robotterne at få rigtige øjne. ”Computer vision” er den tekniske term for denne opsigtsvækkende udvikling, som er en af de vigtigste brikker i den digitale forvandling – nogle kalder det robotisering – der sker i disse år.

For uden avanceret behandling af visuelle input ville der hverken være selvkørende biler, ansigtsgenkendelse eller smarte digitale kort-funktioner. Men hvad vil det sige, at computeren kan se? Og hvorfor er det så kompliceret?
Først og fremmest er billedforståelse noget helt andet end billedbehandling. Udfordringen ved computer vision er ikke så meget det at se.

Det kan en computer i princippet med et af de webkameraer, vi har haft i årtier. Det drejer sig derimod om noget langt mere kompliceret, nemlig at forstå visuelt input.

Billedbehandling, som vi for eksempel kender det fra billedbehandlingsprogrammer som Photoshop, kræver som udgangspunkt ikke forståelse af, hvad billedet repræsenterer.
Billedbehandlingen består ”blot” i at ændre de numeriske parametre, som et digitalt billede består af.

Se også:  Haverobotter – ja, must have

Dermed kan man for eksempel flytte rundt på elementer, justere farver og så videre. Det kan selvfølgelig være mere eller mindre avanceret og foregå med et stort element af automatik. Men det er ikke det samme som billedforståelse. Billedforståelse går et stik dybere.

Mennesker lærer computere at forstå. Først nu kan computere skelne møbler og personer i en stue og sætte ord på dem. Det skyldes en blanding af maskinlæring og tusindvis af menneskers arbejde med at fortælle computerne, hvad der er en stol, og hvad der ikke er.

Det geometriske billede

For at forstå udfordringen kan vi kigge et øjeblik på os selv. Når lys rammer vores øjne, passerer det hornhinden, regnbuehinden og linsen og registreres derefter på nethinden. Den del af synsprocessen er i sig selv avanceret. Men det er langt fra nok at have øjne for at kunne se. For at de mange lysindtryk skal give mening, kræver det behandling af de visuelle data. Vi fortolker og sorterer oplysningerne. Vi danner et billede af verden og vores plads i den. Og vi forudsiger begivenheder.

Se også:  Deebot 900 [TEST]: Effektiv robotstøvsuger til god pris

Det optager enorme mængder af vores hjernekapacitet. Til gengæld kan vi uden at anstrenge os udføre avancerede handlinger som at køre bil eller gå ned ad en proppet gågade med mennesker til alle sider uden at støde ind i nogen og alligevel være i vore egne tanker.

En af Danmarks førende computereksperter, Anders Bjorholm Dahl, professor på DTU Compute, inddeler computer vision op i tre typer.

Den første type er den geometriske, hvor det handler om at kunne måle fysiske objekter baseret på kameraoptagelser. Et eksempel på dette er Googles små fotobiler, som kører rundt og tager billeder af hele jorden. De optager i princippet stadig fotos i 2D, men ved hjælp af den nye teknologi, kan computeren tolke optagelserne ved at sammenligne fotos fra forskellige vinkler og dermed danne en nøjagtig beskrivelse af form og størrelser, et kunstigt 3D-billede.

Professor Anders Bjorholm Dahl, DTU Compute, er blandt de førende danske forskere inden for computersyn.

Allerede i praktisk brug

Denne teknologi er uhyre praktisk og finder anvendelse inden for både geografi, infrastruktur, bygningskonstruktion og en masse andre steder – ikke mindst i samspillet mellem den fysiske virkelighed og modelleringer. Den bruges i klimaovervågning og vejrudsigter. I underholdningsindustrien, når vi spiller Wii. Og den finder anvendelse i militæret.

Det er også den geometriske billedforståelse, der har muliggjort 3D-modellering af antikke statuer, efter at de er blevet smadret af religiøse fanatikere eller tilintetgjort i krig. Man har simpelthen efterlyst fotos fra turister og fodret maskinen med disse billeder.

Billederne er hver især todimensionelle, med ved at sammenligne billeder fra forskellige vinkler, er det muligt at lave nøjagtige 3D-modelleringer, der kan bevares for eftertiden.

Del denne