Redactie - 28 juli 2022

Inhoud gerelateerde opslag

Storage Data Data management Open source

Afgelopen jaren probeerden regeringen regelmatig om onwelgevallige internet-informatie te blokkeren. Bij de corona uitbraak bij Wuhan en het sluiten van Wikipedia in Turkije bleek dat onmuteerbare, decentrale opslag van files een uitweg bood om deze centraal geblokkeerde files toch te kunnen vinden. Het nieuwe web3 internet heeft deze decentrale vorm van content adresseerbare opslag in snel tempo omarmt o.a. met IPFS: een InterPlanetary File System.

Toen ik in 2002 bij EMC kwam werken en mijn eerste formele bezoek bracht in Boston, werd net het data-opslag product Centera geïntroduceerd: opslag op basis van ‘content addressable storage’ (CAS). Een file-opslagsysteem waarvan identificatie van de file door de inhoud van de data werd gegenereerd via een cryptografische hashfunctie om een zogenaamde “sleutel” of “vingerafdruk” te produceren. Eigenlijk vergelijkbaar zoals een ISBN-nummer uniek met een boek verbonden is, en niet – zoals in de meeste filesystemen – met de plek, de plank en de kast waar het boek ‘hoort’ te staan. Net als bij ISBN zie je als je op basis van de hashcode naar de file zoekt, de lokatie(s) waar het origineel en eventuele kopieën worden bewaard.

Filepool

Content geadresseerde files werden eind jaren zestig ontwikkeld door ICL en gebruikt voor het zoeken in telefoongidsen. De Vlamingen Paul Carpentier en Jan van Riel bedachten de term CAS, toen ze eind jaren negentig werkten bij het Belgische bedrijf FilePool in Waver dat in 2001 werd overgenomen door EMC Corporation. Een jaar later werd de Centera uitgebracht, de eerste professionele CAS-toepassing. Qua timing een perfecte stap, omdat in datzelfde jaar de nieuwe Sarbanes-Oxley Act langdurige en onmuteerbare opslag van financiële documenten eiste. Als ware een voorloper van de blockchain: een dataset met een op content gebaseerde hashcode en datastamp, die lokaal en onmuteerbaar in een keten van files is opgeslagen.

Het voordeel van een zelf-gegenereerde, unieke identifier voor een (nieuw) document is dat hiermee data niet alleen onveranderlijk wordt maar je het vooral terugvindbaar maakt. Immers elke minimale aanpassing in de content creërt een andere hashcode. En met die hash kan makkelijk in elk netwerk worden gezocht naar het document, zowel naar het origineel als de mogelijke kopieën. Als het origineel niet direct bereikbaar blijkt, kunnen veelal kopieën ook volstaan. Het is eigenlijk een perfecte opslag-identificatie voor gedecentraliseerde omgevingen zoals web3 grids en decentrale metaverse ontwikkelingen. Door op de hash-sleutel of ‘fingerprint’ te zoeken, kan data in een decentraal netwerk snel worden gevonden.

IPFS: InterPlanetary File System

IPFS zelf is het geesteskind van Juan Benet, die als tiener vanuit Mexico naar de VS verhuisde, een informatica-graad behaalde aan Stanford, een bedrijf begon dat in 2013 werd overgenomen door Yahoo! en in 2015 Protocol Labs oprichtte. Het InterPlanetary File System is een eerbetoon aan de interpionier J.C.R. Licklider en zijn visie over – zoals hij dat noemde – het ‘intergalactische’ internet. Protocol Labs stuurt het IPFS-project aan en heeft het ‘bescheiden’ doel om nieuwe open protocollen te maken om het trage, dure en onbetrouwbare internet (weer) te vervangen voor de idealen die we aan het begin van het internet koesterden. Dus weg van het centrale HTTP-protocol en centraal gelinkte data-opslag en naar decentraal, peer-to-peer en op content gebaseerde data-opslag.

Je kunt IPFS zien als een nieuw hypermedia-protocol, een open source protocol voor het opslaan en delen van gegevens in een gedistribueerd bestandssysteem. Je kunt een IPFS client op je eigen server installeren – en daarmee een actieve node in het netwerk worden – of via een openbare gateway de bron zoeken. Een lijst van deze gateways wordt bijgehouden op de IPFS GitHub-pagina: de public-gateway checker.

Cyber Space

Veel nieuwe bedrijven bouwen aan van de volgende fase van cyberspace. Zo is ook IPFS is een radicaal herontwerp van de http-gebaseerde filesystemen waar het internet, maar ook de cloud, de afgelopen decennia is gebouwd. Een protocol om informatie op basis van content identificatie, open, vrij en toegankelijk voor iedereen op te slaan. Het stelt gebruikers in staat om webpagina’s en inhoud te downloaden die op verschillende servers zijn opgeslagen en biedt ‘historisch versiebeheer’ dat laat zien hoe en wanneer documenten zijn gemaakt, ververst en dus ook of ze zijn gemanipuleerd.

Hoewel IPFS geen groot probleem oplost, heeft het zich wel in korte tijd over de hele wereld verspreid. Vooral in gebieden waar van overheidswege steeds meer censuur op centrale internetproviders komt. Via mirror-sites zijn via IPFS altijd de eerdere en originele files te vinden. Vanuit de web3 wereld wordt IPFS ook steeds meer omarmd. CharityEngine (CRM), EthDNS en de browser gebruiken het al in oplossingen voor peer-to-peer opslag en zelf soevereine identiteiten. Ook Microsoft gebruikt het in zijn open, permissionless nodes van het Identity Overlay Network (ION) voor haar Decentralized Identifier (DID) oplossing .

Weg uit de valstrik van centrale opslag

Naast het feit dat centrale opslag makkelijk kan worden gemanipuleerd, levert het ook technisch steeds meer problemen op. Het ‘ophalen’ van centraal opgeslagen documenten zoals in Google Docs vraagt een steeds grotere belasting van de infrastructuur. Bij scholen zien we dit bijvoorbeeld als een hele klas tegelijkertijd dezelfde documenten bij Google ophaalt. Het is ingebakken bij de huidige structuur van het internet. Elke gebruiker moet apart een video keer op keer downloaden vanaf een verre lokatie. Het lokaal opslaan van de eerste opgehaalde versie en vervolgens lokaal delen kan dit enorm verbeteren. Net zoals professionele WAN-netwerken dat voor geografisch verspreidde bedrijven en kantoren doen.

Door van serieel naar parallel en lokaal te gaan, wordt de snelheid natuurlijk altijd beter. Daarom zien we een snelle groei van dit soort decentrale concepten. Internet is als Web 2.0 gewoonweg te groot en te intensief geworden om adequaat aan alle data-vraag te kunnen blijven voldoen. Dat betekent wel dat die decentrale nodes zich als goede servers gaan gedragen. Vooral nodes die veel en sterke verbindingen met andere knooppunten hebben, zijn de ideale deelnemers aan gedecentraliseerde netwerken. Wereldwijd zien we een enorme groei van decentrale grids, netwerken en hun nodes. Het liefst heb je in je grid ook dataservers die consequent online zijn. Ook moet je niet alles willen kopiëren, alleen die files waar belangstelling voor zijn.

Collaboratief maar ook veilig

Zoals alles bij web3, draait het om open ecosystemen die elkaar aanvullen en samenwerken. Er zijn diverse andere initiatieven die decentrale storage-oplossingen bieden. Ook zien we dat steeds meer corporate bedrijven, naast het runnen van hun eigen servers – lokaal of bij een cloudprovider – ook servers beschikbaar gaan stellen om in dit ecosysteem te kunnen participeren. Langzaam maar zeker komt web3 tot wasdom.

Het verkeer op het IPFS netwerk is in principe openbaar, inclusief de inhoud van de bestanden zelf. Tenzij ze inhoudelijk versleuteld zijn. Hoewel de bestanden niet veranderd kunnen worden, bieden ze relatief weinig privacy. Daar zijn intussen betere mogelijkheden voor, zoals Threefold met een Quantum Safe File System (QSFS) die gebruikers betere controle op en eigendom van hun data geven. Net als DigiThree Labs bouwen ze allemaal voort op visie van interpionier J.C.R. Licklider en zijn memorandum uit 1963 over het ‘intergalactische’ internet dat de aanzet werd tot Arpanet – het netwerk van netwerken – dat ons huidige internet werd.

Door: Hans Timmerman (foto), Chief Data Officer bij DigiCorp Labs en directeur van Fortierra

Tip de redactie