(Foto: Computerworld)

Dansk platform til sikker datahåndtering

Anvendelsen af Big Data er tidens helt store mantra, men samtidig hører vi den ene gang efter den anden om massive sikkerhedssvigt på datafronten. Danske Collektive har imidlertid en løsning på én af de vigtige udfordringer med data og har skabt en platform, der gør det muligt at arbejde med og træne algoritme-modeller uden at kompromittere de rå data.

23. april 2018 kl. 18.38

Af Henrik Malmgreen, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Samtidig med at anvendelsen af Big Data bliver stadig mere interessant for såvel virksomheder som offentlige myndigheder, hører vi næsten dagligt om skrækscenarier, hvor personfølsomme oplysninger bliver kompromitteret. I Danmark er sikkerhed ikke en af de datadiscipliner, der dyrkes mest, og selv om EU’s ny persondataforordning givet- vis vil rette op på den slags slendrian, er der hen over årene blevet sået en helt naturlig tvivl blandt befolkningen, når det gælder den tillid, vi viser håndtering af vores data.

Ville det derfor ikke være rart, hvis vi kunne anvende Big Data på en måde, så ingen personfølsomme data risikerer at blive blotlagt? Ville det ikke være rart, hvis man kunne skille algoritmer fra rå data i separate lag således, at udviklerne frit kan arbejde med udvikling og træning af nye, kloge algoritmer - endda uden, at data nogensinde forlader den enhed, de er lagret på? Lyder det som ønsketænkning? Det er det faktisk ikke. Den danske virksomhed Collektive har nemlig specialiseret sig i Distributed Machine Learning og er klar med en helt ny platform til sikker datahåndtering.

Data og algoritmer skilles ad

”Ved traditionel analyse og Machine Learning indsamles data centralt. Vi distribuerer algoritmen ud, hvor data er og ved kun at dele en form for metadata - såkaldte modelparametre - gør vi det muligt at arbejde med algoritmer og træne Machine Learning modeller uden, at det er nødvendigt at dele, flytte eller opsamle data.

En af mulighederne med platformen er, at flere virksomheder og organisationer kan samarbejde og det er vigtigt i et land som Danmark, der jo er kendetegnet af mange mindre og mellemstore virksomheder”, siger Christian Hjortgaard, der er stifter af Collektive.

Dermed antyder han, at selv om virksomheder og organisationer samler data til hobe, er der rigtig mange scenarier, hvor det så at sige ikke kan svare sig selv at sætte gang i Machine Learning. Ganske enkelt fordi datamængderne ikke er store nok. Her vil det til gengæld give god mening at hælde alle data ned i én stor spand og så deles om de intelligente algoritmer. Det skaber imidlertid endnu en udfordring ud over den generelle skepsis over, hvorledes vi håndterer data. Nemlig frygten for at konkurrenten så at sige kan kigge med over skulderen.

Rå data forbliver anonyme

”Denne udfordring løser vores platform imidlertid også, netop fordi de rå data forbliver fuldstændig anonyme. Dermed gør vi det muligt for flere virksomheder i en branche at samarbejde omkring ny anvendelse af data, lige som eksempelvis flere kommuner kan arbejde sammen om en given algoritme.

Det siger dog sig selv, at både datagrundlag og krav til læringsmål for algoritmen skal være identiske. Der skal altså være overensstemmelse mellem de datasæt, der arbejdes med”, siger datalog Andreas Hjortgaard, der er fætter til Christian og medstifter af virksomheden.

Han føjer til, at vi faktisk er ret gode til algoritmer i Danmark samtidig med, at vi er et af de mest digitaliserede lande. Så mulighederne er bestemt mange og vil give en række brancher helt nye muligheder for kundeoptimering. Som eksempel nævner de to fætre forsyningsbranchen, hvor det enkelte selskab kan have for lidt data til fornuftigt at kunne arbejde med Big Data.

Men hvis man samler data fra flere forsyningsselskaber med henblik på at arbejde på en algoritme, der kommer alle parter til gode, begynder det at give mening.

Teknologien kort fortalt

Distributed Machine Learning i Collektives univers er Privacy by Design i sin ultimative form og fungerer på den måde, at algoritmer trænes til en bestemt opgave. De enkelte informationer i datastrukturen vægtes, og disse værdier løftes op i skyen, hvor træning og modellering af algoritmen sker i et helt separat lag.

Derefter kan den færdige algoritme lægges tilbage på en eller flere virksomheders data uden, at de så at sige har forladt matriklen. Data kan i øvrigt både befinde sig på eksempelvis en server eller en mobiltelefon, men indlæringsmål og inputvariabel skal være identiske.

Inspireret af Google

Collektives teknologi er inspireret af såkaldt Federated Leaning, der blandt andet benyttes af Google til opdatering og videreudvikling af apps. Også her er princippet, at oplæring og træning sker direkte på den enkelte enhed, her typisk forbrugerens telefon, i stedet for at Google så at sige trækker data hjem til én stor database.

Google benytter blandt andet Federated Learning til at udvikle deres tastaturapp Gboard, og teknologien kaldes også for Collaborative Machine Learning without Centralized Training Data. Det var i denne, Andreas Hjortgaard så muligheder for at udvikle en platform til enterprisebrug.

Også de store virksomheder

”Virksomhederne deler altså både algoritmerne og deres fordele. Naturligvis kan man forestille sig en konkurrencesituation, som vil afholde en virksomhed fra at gå ind i et sådant samarbejde, men det tror jeg på grund af anonymiteten vil høre til sjældenhederne”, siger Christian Hjortgaard og understreger at selv for globale virksomheder og koncerner er Distributed Machine Learning interessant.

Her har man givet data nok, men har til gengæld den udfordring, at lovgivningsmæssige forhold kan gøre det svært at arbejde med Big Data på tværs af landegrænser.

Derfor ser han da også et solidt vækstpotentiale for Collektives teknologi, når det gælder mulighederne for at eksportere virksomhedens platform. Egentlig meget godt gået af en virksomhed, der ikke engang er fyldt 1 år endnu, men som virkelig har formået at se spændende udfordringer i det, som nogen kalder for Artificial Intelligence, og andre kalder for Machine Learning.

Grundlæggende foretrækker Christian Hjortgaard dog betegnelsen Machine Learning. Det er nemlig denne teknologi som anvendes i langt de fleste løsninger, der går under navnet Artificial Intelligence.

Et parameter for fremtiden

”Hvis man som virksomhedsleder virkelig skal have glæde af det moderne, digitale univers, er det ganske enkelt nødvendigt, at teknologiforståelse og forretningsforståelse går hånd i hånd. Der er ikke nogen tvivl om, at anvendelsen af Machine Learning bliver et vigtigt konkurrenceparameter for virksomhederne, og det vil kræve en helt præcis indsigt i, hvorledes Machine Learning kan være med til at hjælpe den enkelte virksomhed, samt hvorledes data og algoritmer kan arbejde sammen. Algoritmer er intet værd uden data og omvendt”, siger Christian Hjortgaard.

Christian Hjortgaard står for de forretningsmæssige strategier i Collektive, mens fætteren Andreas Hjortgaard har ansvaret for det teknologiske fundament.

Han understreger, at Collektive ikke som sådan sælger et færdigt produkt, men en platform, der tilbydes som en service til virksomheders it-afdelinger, konsulenthuse og applikationshuse. Men ud over de funktionsmæssige fordele i Machine Learning er det også vigtigt at skabe den fornødne samfundsmæssige tillid.

Big Data rummer et enormt potentiale for et af verdens mest digitaliserede samfund - det er dog også nødvendigt, at vi som borgere føler os trygge i en verden, der i stadig højere grad styres af ettaller og nuller.

Andreas Bjergaarde Eilschou og Kristian Per Bruun er specialister inden for Machine Learning og arbejder dagligt med algoritmetræning og -modellering i Collektive.