Artikel top billede

(Foto: Computerworld)

Big Data skal nu forudsige sygdomsepidemier

Myriader af lokale data fra laboratorietest og offentlige sundhedsinstitutioner har i mange år været hjørnestenen i softwareprogrammer, der overvåger folkesundheden og forudsiger sygdomsudbrud. Men lokale data alene giver ikke overblik nok.

Af Palle Vibe, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Millionvis af indsamlede data fra laboratorietest og offentlige sundhedsinstitutioner har historisk set været den gyldne nøgle til overvågning og eventuel forudsigelse af smitsomme sygdomsudbrud og farlige epidemier. Men de programmer, der hidtil har været lanceret, har blot ikke vist sig synderligt effektive eller præcise.

Årsagen er, at indsamlingen af data og mængden af data simpelthen ikke hidtil har været tilstrækkelig. I hvert fald konkluderer et internationalt forskerhold fra både Danmark, Frankrig, Schweiz og USA ledet af National Institutes of Health, at tiden er kommet til, at den offentlige sundhed nu skal basere sig på både lokale data og Big Data.

Der er ganske enkelt brug for flere aktuelle og mere detaljerede informationskilder, og her må Big Data kompileret fra både elektroniske patientjournaler, sundhedsstatistikker, sociale medier og internettet generelt i spil, hvis det skal lykkes at forudsige og dermed også lettere bekæmpe epidemiske sygdomsudbrud.

En fiasko for Google

Men mens Big Data har vist sig at være en både praktisk og værdifuld informationskilde inden for mange områder, hvor der ud af de anselige datamængder pludselig kan rejse sig særlige mønstre eller udledes andre oplysninger, er overvågning af folkesundhed og forudsigelse af udbrud af epidemiske sygdomme som influenza, Ebola og lignende imidlertid lige så afhængig af traditionelle lokale overvågningssystemer, fastslår forskerholdet.

Tidligere eksempler på overvågningsprogrammer som eksempelvis Google Flu Trends, som blev lanceret i 2008, har vist sig upålidelige og upræcise og har haft tendens til at sygdomsvarsle nærmest i flæng og oven i købet også overdrive i stor stil, hvad angår antal og alvorlighed. Google anvendte søgedata fra nettet til at forudsige influenzaudbrud.

Men programmet spåede rask væk, at der ville ske 50 % flere udbrud af influenza i årene 2011-13, end der rent faktisk indtraf. Omvendt undervurderede Google Flu Trends den alvorlige ”svineinfluenza” H1N1, der startede i Mexico i 2009 og hurtigt spredte sig over hele verden, og hvor sundhedsmyndighederne officielt registrerede tæt på 100.000 tilfælde, hvoraf mange var med dødelig udgang.

Disse fejlmeldinger og fejltagelser betød i sidste ende døden for programmet selv. Problemet var, at programmet i bund og grund estimerede antallet af influenzatilfælde ud fra antal og forekomst af bestemte internetsøgeord som hovedpine og kulderystelser. Det blev sammenholdt med oplysninger indsamlet af den amerikanske organisation CDC (Center for Disease Control), der baserer deres oplysninger på patientrapporter fra hele landet.

Men Googles model tog ikke højde for folks søgeadfærd, der grangiveligt vil ændre sig i takt med en sygdoms spredning og forløb, hvor mere forsigtige og famlende søgeord typisk vil blive byttet ud med mere konkrete udtryk som epidemi, vaccination, behandling og lignende.

Så i stedet for at basere softwareforudsigelser på lokale internetsøgninger og sygdomsrapporter, advokerer det internationale forskerteam nu for at basere lignende fremtidige programmer på et hybridt system af Big Data fra både nettet og fra så mange andre informationskilder som muligt.

Videnskabsfolk i USA kører forsøg, hvor analyse af spildevand måske på et tidligt tidspunkt kan sladre om forøgede virusmængder.

For selvom der både er tekniske og etiske udfordringer forbundet med logfiler fra medicinske journaler, mobiltelefoner, sociale medier og internetsøgninger samt indlæg på sociale medier, er det ikke til at komme uden om, at disse kilder giver både bredere og hurtigere information om sygdomssituationer end de traditionelle lægebaserede rapporteringssystemer.

Big Data på banen

Men også patientgenererede data og elektroniske patientjournaler er ofte både meget ustrukturerede og løsrevne og desuden totalt dominerede af sammenhængen. Så også den slags inputs vil altid udgøre en udfordring for de algoritmer, der står bag ethvert intelligent sygdomsovervågningsprogram.

Men anvendelse af avanceret intelligent software til at forudsige (prodiagnostificere) omfanget af mulige verdensomspændende epidemier (pandemier) og andre sygdomme af epidemisk karakter er naturligvis et vigtigt redskab for at kunne planlægge omfanget af beredskab og vaccination af befolkningen.

Seniorforsker Cecile Viboud fra det amerikanske Fogarty International Center, der alene arbejder for den globale folkesundhed, fastslår i en rapport, at det ultimative mål er, at verdens sundhedsmyndigheder bliver i stand til at forudsige omfanget og forløbet af smitsomme sygdomsudbrud uger eller måske måneder i forvejen.

Det vil give de bedste betingelser for at kunne reagere og træffe de nødvendige forholdsregler og spare menneskeliv, men det vil også forudsætte bedre observationsdata, end der umiddelbart er til rådighed i dag. Ifølge flere andre sundhedskilder er det nemlig i dag en verden til forskel på, hvad der er brug for, og hvad der er tilgængeligt. Derfor arbejder forskere også fra flere sider med at udvikle ny software på ryggen af gammel.

Foreløbig er en ny Big Data-model udviklet af forskere fra Harvard eksempelvis netop blevet omtalt i den lægefaglige litteratur. Selvom modellen er baseret på andengenerationsteknologi og på mange måder også netop bygget på ryggen af programmer som Google Flu Trends.

Google har naturligvis aldrig udgivet de rå data bag sit Google Flu Trends-program, så forskerne har alene haft adgang til offentligt tilgængelige data fra Google Trends og Google Correlate.

Men det har altså været nok til at udvikle en ny model, der angiveligt overgår forgængerne med mindst dobbelt præcision. Forskerne kalder deres nye software for ARGO (AutoRegressiv med GOogle-søgningsdata), og programmet kan, ved at kombinere Big Data med andre datasæt og løbende tilpasse dem, spore influenzaudbrud med færre fejl.

Den skrækkelige influenzaepidemi kendt som Den spanske syge dræbte op mod 100 mio. mennesker eller næsten 5 % af verdens befolkning, da den hærgede fra 1918-20. Det gør den til en af de mest dødelige af alle sygdomsepidemier i menneskehedens historie. Men måske kan Big Data og intelligent software snart gøre et sådant scenarie til historie for altid.

ARGO korrigerer nemlig selv for ændringer i, hvordan folk søger ved hjælp af et toårigt såkaldt ”glidende” vindue, der sammenholder aktuelle søgninger med langsigtede tendenser og CDC-historiske influenzadata offentliggjort af det amerikanske Centers for Disease Control (CDC).

Derved tager programmet på samme tid højde for søgetermer, der knytter sig til sæsonbestemte influenzatendenser og historiske sæsonudsving i influenzaudbrud. Forskere mener desuden, at modellerne fremover kan optimeres ved yderligere at tilføje data fra andre kilder som bl.a. Twitter og Facebook.

Stærke visioner udfordrer fremtidens sundhedssoftware

Sundhedsmyndigheder over hele verden håber ikke bare på, at fremtidige sundhedsovervågningsprogrammer vil kunne forudsige og følge forløbet af epidemier med god nøjagtighed, men også observere den medicinske behandling af sygdommen og påpege eventuelle forekommende bivirkninger ved både ny og gammel medicinering.

Optimismen deles dog ikke helt af det internationale forskerhold, der understreger i deres rapport, at det stadig er vanskeligt at verificere softwareforudsigelser, og at de enkelte datakilder altid har deres egne iboende begrænsninger.

Men måske kan lurende sygdomsudbrud også forudses og påvises med helt andre slags data og analysemetoder. Videnskabsfolk fra Stanford University i USA er i gang med forsøg, der går ud på at analysere spildevandet for på den måde på et tidligt tidspunkt at kunne afsløre, om indbyggerne har forøgede virusmængder i kroppen.

Det vil nemlig være et usvigeligt tegn på et begyndende større sygdomsudbrud, og det vil på den måde kunne registreres allerede før befolkningen selv oplever egentlige symptomer på sygdommen. Derved vil metoden også kunne give sundhedsmyndighederne mulighed for at forberede sig og advare langt tidligere end ellers.

Resultatet af sådanne analyser er dog selvsagt også behæftet med en del usikkerhed. Dels varierer antallet af toiletskyl en hel del gennem både dag og nat, og dels skal analyseprogrammet tage højde for fortyndingsgraden, der varierer med afstanden til kloakudløb eller rensningsanlæg.

Spildevand, der samles fra fjernereliggende områder vil naturligvis være langt mere opblandet og derfor tilsyneladende ikke indeholde så mange sygdomsfremkaldende smitstoffer som vand, der stammer fra områder tættere på og dermed fejlagtigt give indtryk af, at koncentrationen er lavere, end den rent faktisk er.