Artikel top billede

(Foto: Computerworld)

Ny dansk søgemaskine

Dansk firma har udviklet en særlig semantisk søgemaskine, der kan gå på udkig på tværs af emner og faggrænser i den uoverskueligt voksende mængde af forskerartikler.

Af Palle Vibe, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Hvert år opdager forskere på universiteter og andre institutioner nye og spændende ting til gavn for videnskaben og dermed i sidste ende os alle. Antallet af opdagelser vokser med 8-9 procent om året, men det samme gør mængden af rapporter, afhandlinger og notater.

Det betyder, at der rundt omkring i videnskabelige artikelbaser ligger mere forskningslitteratur end nogensinde, som både nuværende og kommende forskere kan bygge videre på. Problemet er bare, at med mængden stiger også uoverskueligheden, og selv om al denne viden i dag ligger åbent tilgængeligt for alle forskere, er sandheden også, at det er sværere end nogensinde at danne sig overblik og finde de nødvendige oplysninger til brug for videre forskning.

Men en gruppe danske it-iværksættere anført af makkerparret Thomas Laursen og Mads Rydahl har udviklet en specialiseret og intelligent søgemaskine for forskere og videnskabsfolk, og med den kan man på kort tid udpege netop den afhandling eller de forskningsresultater, som kan fremme nye epokegørende opdagelser. Sammen har de to iværksættere stiftet it-virksomheden Unsilo med adresse i Århus, 15 medarbejdere og kunder over hele verden.

Unsilo hjælper forskere til at få overblik over al tilgængelig viden i en database på en klar og overskuelig måde. Unsilo hjælper forskere til at få overblik over al tilgængelig viden i en database på en klar og overskuelig måde.



Google finder ikke det hele
Videnskabelige artikler og afhandlinger ”tagges” sædvanligvis med en række emneord og kategoriseres efter en kort beskrivelse af emne og indhold som oftest betegnet ”resume”,  ”summary” eller ”abstract” skrevet af enten forfatteren selv eller en redaktør. I dag er stort set alle forskningsartikler tagget med sådanne enkle søgeord og kategoriseret efter emne, forfatter mv. efter forskellige internationale vedtægter. Det resulterer i en vis ensartethed og konsekvens og gør det også nemt at søge og vægte efter Googles princip, hvor en artikels værdi bestemmes af, hvor meget den bliver citeret i andre artikler.

”Men problemet er, at en artikel sagtens kan indeholde meget vigtige oplysninger, uden at det absolut fremgår af indledningen,” siger medstifter Mads Rydahl, der tidligere har været produkt- og designchef på den personlige digitale assistent Siri, som blev siden solgt til Apple og findes nu på millioner af iPhones verden over.
”Tags og metadata befordrer ikke nødvendigvis tværfaglige søgninger mellem artikler med forskelligt fagligt indhold,” siger han.
Derfor tager Unsilo afsæt i menneskets måde at opnå indsigt og overblik på og har ud fra erfaringer med programmer som Siri udviklet en søgemaskine, der ved hjælp af avanceret computerteknologi som ”natural language processing” (NLP) kombineret med ”Machine learning” kan indkredse relevant forskning på tværs af forskellige forskningsfelter.

Hvis man eksempelvis søger efter ”insulin-følsomhed hos buttede børn”, så vil søgemaskinen både forstå betydningen og inkludere artikler i resultaterne, der handler om ”overvægtige piger med nedsat hormon-respons”. Hvis man eksempelvis søger efter ”insulin-følsomhed hos buttede børn”, så vil søgemaskinen både forstå betydningen og inkludere artikler i resultaterne, der handler om ”overvægtige piger med nedsat hormon-respons”.



Giftsprøjtende bille på banen
Ideen opstod i 2010 på baggrund af en videnskabelig opdagelse, som tiltrak sig Unsilo-stifternes interesse. En gruppe ingeniører havde nemlig tilfældigvis konstateret, at den lille bombarderbille kan sprøjte myriader af meget små dråber gift ud til selvforsvar med et lavt tryk uden brug af ret meget energi.

Det inspirerede ingeniørgruppen til at udvikle et nyt, mindre energikrævende vandforstøvningssystem til blandt andet supermarkedernes grøntafdelinger. Og det inspirerede Unsilo til at erkende, at der ude i det virkelige forskningsliv sker meget lidt udveksling af viden mellem både fagområder og faggrupper. Ingeniører tænker jo måske ikke altid over, at svaret på en ingeniørmæssig udfordring kan findes i biologien – eller omvendt.

”For mens traditionel søgning via nøgleord som oftest blot finder det mest læste dokument, der indeholder søgeordet eller søgefrasen, findes de resultater, du vil finde mest nyttige og oplysende måske i artikler inden for helt andre faggrupper, der kan omfatte både teknik, naturvidenskab, jura osv.,” forklarer Mads Rydahl.
Derfor bygger Unsilos søgemaskine, ligesom den personlige smartphone-assistent Siri, på såkaldt semantisk teknologi, der kan afkode ords mening og forstå den sammenhæng, som de indgår i.

Nøgleord og sammenhæng
Unsilo-softwaren er i stand til at analysere millioner af forskningsartikler og vægte betydningen af alle sætningerne, så søgemaskinen både finder hits på søgerens nøgleord og udtryk og vendinger, der har relation til andre artikler om både samme og helt andre emner. Det afgørende er her at indse den logiske sammenhæng i teksterne og afsøge, hvordan forskellige ord refererer til hinanden.

Teknologien kan også ud fra konteksten forstå såkaldte homografer, altså ord med flere betydninger, da netop polysemi, som det betegnes i fagsproget, ofte er et problem for oversættelsesprogrammer.

Et eksempel er ordet ”skat”, der jo både kan referere til pengeskyld til det offentlige, en person man elsker og en nedgravet kiste med guld. Unsilo kan håndtere den slags udfordringer og dermed hjælpe til at skabe overblik over tusinder eller millioner af artikler og grundlæggende koncepter i en artikel og gøre dem søgbare efter relevans. På den måde opnår du overblik over, om nogle forskningsresultater har sammenhæng med resultater opnået på helt andre felter.
”Her kommer computerens hurtighed og præcision afgørende til sin ret,” fremhæver Mads Rydahl.

”I begyndelsen jonglerede vi med ambitioner om at lave en global søgemaskine for alle forskningsartikelbaser,” røber makkeren Thomas Laursen endvidere.
Den idé har Unsilo dog lagt på hylden indtil videre, eftersom de fleste videnskabelige artikler bestyres af en lille gruppe forlag, som på nuværende tidspunkt ikke finder det i deres interesse at gøre alle deres artikler tilgængelige på ét samlet sted. I stedet har Unsilo indgået aftale med et antal store og anerkendte videnskabelige forlag såsom det tyske forlag Springer Nature, der ifølge Thomas Laursen har et af verdens største websites med videnskabelige tidsskrifter, og som gør det muligt for dem at udnytte det danske firmas nye søgeteknologi på egne udgivelser.

Analytisk søgealgoritme
Unsilo benytter bestemte algoritmer, formler, som er bygget op omkring alment anvendt betydningslære og machine learning, hvor softwaren lærer af sine erfaringer. Søgeresultatet afspejler også vigtigheden af en funden artikel i forhold til andre artikler og forskningsresultater.

Mads Rydahl, som tidligere har arbejdet med blandt andet smartphone-assistenten Siri, har udviklet Unsilo sammen med medstifter Thomas Laursen. Mads Rydahl, som tidligere har arbejdet med blandt andet smartphone-assistenten Siri, har udviklet Unsilo sammen med medstifter Thomas Laursen.

Som eksempel kan man forestille sig en speciallæge, der bruger Unsilos søgemaskine til at finde oplysninger om ”overvægtige børns manglende respons over for insulin” i en medicinsk forskningsdatabase. Her vil søgemaskinen finde sætninger med tilsvarende betydning som eksempelvis “overvægtige piger med reduceret hormonel respons”.
Unsilo kan på den måde finde alle artikler, der indeholder udtryk som overvægt i forbindelse med børn uanset, om der er anvendt andre ord for overvægt som svære, buttede, kraftige korpulente eller fede i forbindelse med børn, unge, mindreårige eller teenagere. Det betyder, at Unsilo uden videre kan kortlægge hvilke artikler der omhandler parallelle emner og ideer.

 

På tværs af siloer
Navnet Unsilo betyder “uden silo” og henviser til, at firmaet ønsker at hjælpe med til at sprede viden på tværs af ”siloer”, dvs. forskellige selvstændige samlinger af vidensdata.

Machine learning – lær af erfaringen
Machine learning som i Unsilo er en form for maskinintelligens, der sætter computere i stand til at lære og forbedre sig samt tilpasse sig nye situationer og agere på egen hånd uden at være specifikt programmeret til det. Disciplinen omfatter studiet og opbygning af algoritmer, der kan arbejde ud fra dynamiske datainput frem for statiske instruktioner, og udspringer af forskning inden for mønstergenkendelse og kunstig intelligens.

Konceptet bruges i mange dagligdags sammenhæng eksempelvis i selvkørende biler, talegenkendelse og DNA-analyse og nævnes ikke sjældent i sammenhæng med data mining, da begge discipliner forsøger at finde mønstre i data. Men hvor data mining først og fremmest udtrækker data til videre bearbejdelse af mennesker, bruger machine learning fundne mønstre til at udvikle egen forståelse og tilpasse sig nye vilkår.