Artikel top billede

(Foto: Computerworld)

Data kan lagres for evigheden i DNA

Et forskerhold anført af Nick Goldman og Ewan Birney fra det Europæiske Institut for Bioinformatik i England har udviklet en metode, der gør det muligt at gemme myriader af data næsten uendeligt længe i kunstige DNA-sekvenser.

Af Palle Vibe, Alt om Data

Denne artikel er oprindeligt bragt på Alt om Data. Computerworld overtog i november 2022 Alt om Data. Du kan læse mere om overtagelsen her.

Det startede med et par fadbamser. Molekylærbiologen Nick Goldman og hans forskerkollega Ewan Birney fra det Europæiske Institut for Bioinformatik i England sad på en beværtning og brød deres hoveder med et fortvivlende problem: Hvordan kunne deres afdeling forsat gemme de stadigt mere frygtindgydende datamængder, som hobede sig op, og som truede med at overstige kapaciteten af de hardiske, de havde til at lagre dem på?

”Vores lagringsomkostninger stiger, men vores budgetter falder,” jamrede Goldman.

Men efter et par krus øl mere begyndte de to videnskabsfolk at diskutere, om den mulige løsning kunne være at lagre informationerne i ”biologisk” form i DNA i stedet for i elektronisk form på et digitalt medie. Og snart lå på bordet en mulig praktisk løsning på problemet skitseret på et par servietter.

”Vi har længe vidst, at DNA er både ideelt og robust, når det gælder om at opbevare information,” forklarer Nick Goldman til Alt om DATA.
”Tænk bare på, hvordan vi i dag let som ingenting kan udvinde DNA af over 10.000 år gamle mammutknogler og stadig tyde og forstå informationen.”

Verden drukner i data

Eksperter anslår, at den samlede mængde af digital information i dagens verden er hen ved tre zettabytes (3000 milliarder milliarder bytes), og tidens lagermedier har mange svagheder – både med hensyn til kapacitet, pris og driftsomkostninger. De holder heller ikke specielt længe, og de lagrede data undergår ødelæggende forringelse gennem årene, hvilket ikke mindst er en udfordring for den videnskabelige verden, hvor gen-forskning og kvantefysik producerer uhyrlige mængder af data. Men hardiske baseret på DNA i stedet for magnetiske skiver eller hukommelses-chips kan altså være vejen frem.

Princippet for datalagring i DNA for så vidt er rørende enkelt. Først skal de digitale data omsættes til DNA-kode, som en almindelig DNA-syntesemaskine er i stand til at fremstille. Dernæst skal de indkodede DNA-strenge kunne aflæses igen med en lige så almindelig

DNA-sequencer, så de atter træder frem på computerskærmen. Det er dog teori. Praksis er som sædvanlig noget helt andet. For det svarer lidt til at lave et mikrofotografi af de nuller og et-taller, som en computerfil består af, og så bagefter skanne mikrofotografiet for til slut at omsætte skanningen til bogstaver og ord, et foto eller en lydfil på computerskærmen.

De to største udfordringer, der mødte forskerne, var, at det hidtil kun har været muligt at fremstille korte kæder af DNA, og at fejlraten har været stor.
”Men det skyldes primært, at man tidligere indkodede sekvenserne, så nuller blev repræsenteret af enten adenin eller cytosin, mens et-taller blev repræsenteret af guanin og thymin,” forklarer Nick Goldman.

”Det førte ikke sjældent til lange kæder af samme bogstav, som nutidens DNA-sekvenseringsmaskiner kan have meget svært ved at læse. Derfor omsætter vi først den binære, digitale kode til en ”trinær” digital kode, dvs. en kode, der består af tre taltyper: 0, 1 og 2. På den måde undgår vi at parre et bestemt tal med en bestemt base, og derved sikrer vi os mod, at en byte, der tilfældigvis indeholder det samme binære tal flere gange efter hinanden, ikke også bliver til en sekvens af den samme base i DNA-udgaven,” siger han.

Nu ville det mest oplagte selvfølgelig være at indkode den digitale fil i én lang DNA-streng, men desværre sætter den nuværende teknologi også her sine begrænsninger, idet de nuværende DNA-syntetiseringsmaskiner kun er i stand til at producere relativt korte DNA-strenge.

Data i små bidder

”Derfor har vi opdelt vores information i adskillige små bidder på hver 117 bogstaver, der kan aflæses i begge retninger. Heraf bruger vi 100 bogstaver til selve filen, mens de resterende 17 er lagt i hver ende af filen og angiver, hvor det pågældende stykke hører til. Det er i praksis det samme som de fejlsøgende parity-bits eller check-bits, der er en del af næsten alle binære koder,” pointerer Nick Goldman.

For yderligere at minimere risikoen for fejl er bidderne arrangeret, så de overlapper hinanden en smule. Det indebærer, at enhver eventuel fejl i én streng kan krydstjekkes mod andre strenge.
Denne opdeling betyder også, at kunstig DNA ikke vil kunne aflæses af levende celler, hvorved man undgår science-fiction-agtige væsner med omkodede kropsceller.

”Det kan ganske enkelt ikke ske. Selv om en levende organisme fik dele af en kunstigt kodet DNA ind i sig, ville kropscellerne blot afvise og udstøde materialet,” beroliger Nick Goldman.
Der er store fordele ved at overvinde de forskellige praktiske problemer. For DNA kan rumme utrolige mængder af data på nærmest ingen plads.

100 millioner timers video

Faktisk kan blot et gram DNA kan indeholde omkring to petabyte eller samme datamængde som tre millioner almindelige cd-rom’er eller 468.000 dvd’er. De monstrøse 90 petabytes data, der foreligger fra den store partikelaccellerator hos CERN i Schweiz kan uden problemer ligge indkodet i 41 gram DNA. Hundrede millioner timers HD-video kan rummes i en beholder på størrelse med en kaffekop. Ja, hele verdens nuværende, samlede datamængde vil kunne fragtes i en varevogn.
Men selv om lagring af data i DNA er en bevaringsmetode, der har potentiale til at slå alle nutidige lagringsteknologier, har metoden ikke kun lutter plussider.

Den største hindring endnu er prisen. Det koster i omegnen af 12.400 dollar blot at fremstille en enkelt megabyte data, hvilket rundt regnet er en million gange dyrere, end hvad det koster at gemme en tilsvarende mængde magnetiske data på en tapestation.

Udgiften vil kun kunne svare sig for data, der skal gemmes i århundreder eller årtusinder, hvilket ikke er muligt med nogen konventionel, elektronisk lagringsmetode, hvor de aktuelle lagermedier hele tiden forældes og bliver erstattet af nye formater og teknologier. Men Nick Goldman og hans team forventer, at omkostningerne kan bringes ned til det halve eller kvarte inden for de næste årtier, og så vil det blive økonomisk overkommeligt. Også for kortere opbevaringsperioder på måske 50-100 år. Goldman henviser til, at behandling af DNA alene gennem de sidste ni år er blevet en million gange billigere, og den slags prisfald kan ikke engang den elektroniske udvikling hamle op med.

Lagringen er dog én ting. Det lagrede materiale skal jo også kunne aflæses igen, og det er også tungt og tidskrævende arbejde. Det tog forskerne to uger at sekventere deres filer og gøre dem læsbare, og det koster med den nuværende teknologi omkring 220 dollar pr. megabyte. Men også den pris vil formentlig kunne bringes ned på et mere realistisk niveau inden for 10-20 år.

Informationerne kan ikke rettes

Rent praktisk lider DNA-koder desuden af den skavank, at data ikke kan rettes eller skrives om, når de først er lagret. Det er heller ikke muligt at finde bestemte ord eller foretage andre specifikke søgninger i en DNA-fil på samme måde, som et stifinder-program er i stand til med data lagret på et almindelig digitalt lagermedie. Og selv om de nødvendige teknologier findes og er kommercielt tilgængelige, er de i øjeblikket slet ikke designet til at arbejde sammen. Der er stadig en mængde udvikling og standardisering, som skal på plads.

Forskerne på det Europæiske Institut for Bioinformatik er dog sikre på, at alle vanskeligheder bliver overkommet, og at DNA-lagring bliver fremtidens dataopbevaring. Men indtil videre er det stadig både bedst, billigst og hurtigst at gemme sine dokumenter og familiefotos på et optisk medie eller i skyen.

Deoxyribonukleinsyre er det ”medie” i kroppen, som rummer opskriften på enhver komplet organisme – lige fra en bakterie til en blåhval. Dette DNA-molekyle består som hovedregel af to lange strenge, der snor sig om hinanden i en dobbeltspiral, en dobbelthelix, og udspændt mellem strengene som trin på en stige sidder rækker af fire kvælstofholdige baser adenin (A) og guanin (G) samt thymin (T) og cytosin (C). De sidder som bogstaver i tekstlinjer eller for den sags skyld rækker af nuller og et-taller i det binære computersprog. Arveinformationen i levende organismer er lagret i rækkefølgen af disse fire bogstaver, også kaldet ”DNA-sekvensen”. Hvert trin består af to baser, hvor A altid danner par med T, mens G altid danner par med C.

Når data skal gemmes i DNA, er der ikke tale om et levende væsens kode. Men man benytter de baser, som DNA er opbygget af, og princippet med sekvenser. Det sker ved hjælp af en såkaldt DNA-synthesizer, som kan sammenlignes med en blækprinter. Men i stedet for blæk på papir sprøjter en DNA-synthesizer små dråber af de kemiske væsker med den rette blanding af de baser, der udgør grundkoden i DNA, ud på tynde glasplader. Hver dråbe er en sekvens for sig selv.

Shakespeare i DNA

Det er på den måde lykkedes forskerne at indkode fem computerfiler, blandt andet en mp3-optagelse med et uddrag af Martin Luther Kings berømte tale “I have a dream”, en PDF-udgave af en afhandling om DNA, 154 digte af William Shakespeare, et jpg-billede i farver og beskrivelsen af det computerprogram, der skabte DNA-filerne. I alt 739 kilobyte binære data samlet i en DNA-streng på størrelse med et støvgran.

”Den gode nyhed er, at det faktisk også lykkedes os at sekventere, dvs. aflæse de indkodede data, uden fejl,” smiler forskeren Nick Goldman fra det Europæiske Institut for Bioinformatik.

Uanset, hvor kompliceret det kan synes, har DNA-lagring store fordele i forhold til alle andre metoder til informationsbevarelse. Et klart plus i forhold til andre lagringsmetoder er det, at DNA-materiale kan holde sig uforandret i tusinder af år, blot opbevaringsstedet er mørkt, tørt og køligt, og ingen kender endnu reelt grænsen for materialets holdbarhed.

En anden væsentlig fordel er, at DNA kan bevare sin information i disse store tidsrum uden tilførsel af energi overhovedet. DNA-lagret information kan dermed både opbevares og transporteres nemt og sikkert og stort set uden risiko for, at der kan opstå fejl på grund af ydre påvirkninger undervejs.

Den allerstørste fordel i lagringssammenhæng er dog nok, at DNA er et så utrolig tæt og kompakt et lagermedie, at menneskeheden på mirakuløs vis aldrig mere vil få pladsmangel, når det gælder opbevaring af alle fremtidige data.

Som et kuriosum nævner Goldman, at DNA-lagring endda også vil være sikret mod verdensomspændende katastrofer af den type, der vil kunne bombe menneskeheden tilbage til stenalderen.

”For på et tidspunkt vil fremtidige generationer finde bevarede DNA-lagre og studse over, at DNA-materialet ikke rigtig ligner deres eget. De vil give sig til at undersøge det og i sidste ende også forstå indholdet. Så længe, der eksisterer mennesker på Jorden, der teknologisk er i stand til at læse DNA, vil de også kunne afkode DNA-lagrede data,” påpeger molekylærforskeren.