Redactie - 20 februari 2018

De toekomst van DNA-storage

De toekomst van DNA-storage image

Er komt steeds meer praktisch onderzoek naar de mogelijkheden om biologisch materiaal te gebruiken om digitale informatie op te slaan, bijvoorbeeld DNA-storage. Met de groei van de hoeveelheid data die we elke dag creëren, groeit ook de behoefte aan zogenaamde ‘cold storage’, data die we willen of moeten bewaren maar waar geen extreem hoge eisen aan het lezen en schrijven van die data aan worden gesteld. Typisch een langdurige archieffunctie met de garantie dat wat eenmaal is opgeslagen ook foutloos bewaard blijft. Is DNA-storage een oplossing voor dit probleem?

Een studie uit 2015 van de Universiteit van Washington concludeerde dat DNA-storage een aantrekkelijke oplossing lijkt voor de archivering van data. De informatiedichtheid van DNA is verschrikkelijk hoog, namelijk 1 exabyte per kubieke millimeter (109 GB/mm3) met een bewezen halfwaarde tijd van meer dan 500 jaar.

Storage hiërarchie

In de storage-hiërarchie heeft de Flashdisk het hoogste niveau met toegangstijden onder de milliseconde en een gegarandeerde bewaartermijn van enkele jaren. Op de tweede plaats staat nog steeds de hard diskdrive (HDD) met toegangstijden rond de tien milliseconden en een gegarandeerde bewaartermijn van ongeveer 5 jaar. Daarnaast ook nog tape-toepassingen waar de toegangstijd minuten bedraagt maar wel 15 tot 30 jaar gegarandeerde bewaartermijn oplevert.

De toevoeging van DNA-storage met eeuwen opslaggarantie zou een welkome aanvulling zijn op deze hiërarchie. Op dit moment moet men bij DNA aan toegangstijden van uren tot zelfs dagen denken, afhankelijk welke techniek om te lezen en te schrijven men gebruikt. In DNA wordt ruwe data opgeslagen in een nucleotide die bestaat uit een organische molecule met base-paren (bestaande uit A, C, G of T) rond een op suiker-fosfaat gebaseerde gedraaide kern. Op die manier ontstaat een streng of ‘sequence’ die enorm veel informatie kan bevatten.

Een base van 4

Omdat DNA gebruikt maakt van 4 verschillende basen, is de opslag efficiënter dan in een digitale vorm met slechts enen en nullen. Bijvoorbeeld een binaire string van 01110001 wordt met de mapping van 0, 1, 2, 3 voor A, C, G, T in een base-4 streng respectievelijk 1301 en levert dus een fysieke DNA sequence van CTAC. Echter net als in de natuur ontstaan er bij het schrijven van DNA wel eens fouten, waardoor er enerzijds slimme redundantiemethoden nodig zijn en anderzijds een deel van de opslagcapaciteit moet worden gebruikt om die fouten te kunnen detecteren/elimineren. Daarnaast helpt de zogenaamde Huffmancodering als methode om strengen data die bestaan uit een rij van symbolen, optimaal en verliesloos te comprimeren. Vernoemd naar David Huffman die deze methode in 1952 beschreef. Dit wordt ook toegepast bij datacommunicatie en bij digitale afbeeldingen en is voor DNA-storage blijkbaar ook een prima toepassing.

Uitdagingen

Een string DNA kan slechts enkele honderden bits vertegenwoordigen. In een pool van DNA-strengen is het niet mogelijk in de streng zelf spaties aan te brengen en moet dus altijd een volledige molecule worden volgeschreven. Dit maakt de opslag voor kleinere datasets op moleculen snel inefficiënt, tenzij men in de streng een kop- en staartcodes toevoegt die de onderlinge datasets scheiden. Daar kan men ook zogenaamde primers (vlaggetjes) aanbrengen om later het zoekproces te vergemakkelijken. In die kop- en staartcode kan natuurlijk ook metadata en adres- en bitcheck-informatie worden toegevoegd. Ook kan elke streng cq molecule zelf op die wijze met unieke kop- en staart informatie worden uitgerust.

Een andere uitdaging is om random access mogelijk te maken voor een DNA-pool. In welke streng en op welke plaats staat de informatie die ik wil lezen? Vergelijkbaar met de natuur kan een zogenaamd ‘polymerase chain reaction’ (PCR)-proces worden uitgevoerd dat een kopie maakt van delen van de DNA-string. Door in de streng te zoeken naar toegevoegde primers of vlaggetjes kan men snel een specifieke kopie maken van de data die men zocht. Het lezen van DNA-data gebeurt dus door het kopiëren van de opgeslagen data, net zoals de natuur RNA-kopieën maakt bij het uitlezen van DNA. Tenslotte kan men de einddata van een streng deels overlappend kopiëren op de volgende streng volgens het Goldman encoding principe. Hierdoor wordt de redundantie sterk vergroot, een beetje vergelijkbaar hoe in een blockchain ketens aan elkaar worden gelinkt.

Resultaten

Het DNA-opslag onderzoek is nog in de laboratoriumfase maar interessant en hoopgevend genoeg om het onderzoek te verbreden. Men zoekt hybride oplossingen van silicium en biochemische systemen en de exponentiële vooruitgang in biotechnologie maakt deze route serieus genoeg. Biotechnologie heeft de afgelopen decennia heel veel te danken gehad aan de silicium technologie, wellicht is het moment aangebroken dat we een omgekeerde versnelling gaan zien en dat biotechnologie helpt de grenzen van de computerindustrie te verleggen.

Het is onderzoekers al in 2013 gelukt om een MP3-file te schrijven op een DNA-streng in ketens van elk 500 tot 600 bits lang. Hierbij haalde men een dichtheid van 2,2 petabytes per gram. Onlangs maakte Microsoft bekend dat men 200 MB in één keer in DNA heeft weten te schrijven, iets wat nog nooit eerder mogelijk was. Hoewel de ontwikkeling in kleine stapjes voorwaarts gaat en nog een enorm duur proces is, zijn onderzoekers zeer enthousiast over de toekomst.

Toekomst

Uit een 430.000 jaar oud bot heeft men het oorspronkelijke DNA kunnen lezen. Een bewijs dat DNA-opslag een duurzame opslagmethode is. De researchers Yaniv Erlich and Dina Zielinski hebben in een nieuwe studie laten zien dat een algoritme dat oorspronkelijk was ontworpen voor de streaming van video op een mobiele telefoon, zeer effectief kan worden gebruikt om zeer efficiënt data op het op vier basen gebaseerde DNA te schrijven.

Erlich is enorm optimistisch en denkt dat over ruim tien jaar de eerste praktische toepassingen op de markt zouden kunnen komen. En dan moet je denken aan de eerste floppydisks zoals die in de jaren zestig voor het eerst op de markt kwamen met 720 KB aan geheugencapaciteit. Maar dan nu wel met een startcapaciteit van terabytes op een potentieel van wat de natuur mogelijk maakt: 1 exabyte per kubieke millimeter. De laatste laboratorium-prestaties spreken over haalbare dichtheden van 215 petabyte per gram, dus we zijn al aardig op weg. Ondanks dat het schrijf- en leesproces nog zeer traag is en het momenteel $7000 kost om 2 megabytes te synthetiseren en $2000 per keer nodig is om het te lezen. Maar de kosten van het gebruik van de eerste mainframe storage-systemen liepen ook in de miljoenen dollars, dus er is goede hoop dat DNA op overzienbare termijn een commercieel zeer interessante optie wordt.

Door: Hans Timmerman, CTO Dell EMC Nederland 

Copaco | BW 25 maart tm 31 maart 2024 Trend Micro BW BN week 10-11-13-14-2024
Copaco | BW 25 maart tm 31 maart 2024