Redactie - 26 juli 2011

Emmers met Big Data: pompen of verzuipen?


In het begin van de informatietechniek werden zaken en processen soms plastisch uitgedrukt om ze begrijpelijk te maken voor de minder technische medemens. ‘Bucket of bits’ was in de jaren tachtig een veel gebruikt begrip om een grote hoeveelheid op zichzelf staande gegevens te benoemen. Begrippen als ‘file’ en ‘document’ kregen later dezelfde betekenis. Maar op basis van die simpele ‘emmertjes met data’ kon men toch vaak eenvoudig de ingewikkelde storage- en replicatietechnieken uitleggen en het belang en de werking van metadata duidelijk maken. Reden genoeg om nog eens in te gaan op dit historische ‘emmertjesverhaal’ en het in een hedendaags perspectief te zetten.

Dataopslag kan men dus vergelijken met het slim bij elkaar houden van een aantal bits in een omhulling, in dit geval dus de emmer. Zo’n emmer kan klein zijn, maar natuurlijk ook grotere proporties aannemen.  Voordeel van een emmer is dat het de inhoud op simpele wijze bij elkaar houdt, zich aan een hengsel laat optillen en vervoeren, en de inhoud ook in andere emmers kan overgieten. Nadeel van een emmer is dat hij kan omvallen en dat de inhoud wegstroomt. Je moet er voorzichtig mee omgaan.  Daarnaast kun je twee gelijke emmers met vrijwel identieke inhoud niet makkelijk uit elkaar houden.

Om het gevaar van omvallen te verminderen, kan men een tweede identieke emmer maken, met dezelfde inhoud, en die op een andere plek wegzetten. De kans dat beide emmers tegelijkertijd omvallen, is al een stuk geringer. Bij twijfel kan er zelfs een derde emmer aan worden toegevoegd. In feite doen we dit met onze data ook. We repliceren het emmertje met data en zetten het in een tweede datacentrum in de buurt. Financiële instellingen maken zelfs een derde emmer die ze op honderden kilometers afstand plaatsen.

Natuurlijk moet zo’n emmertje wel voorzichtig naar de locatie worden vervoerd waar hij vervolgens wordt bewaard. Datareplicatie staat en valt bij goed geregeld vervoer. Daarvoor ontstonden ook speciale storage-netwerken. We onderscheiden hierbij SAN (Storage Area Network) en NAS (Network Attached Storage) en hiermee konden we betrouwbaar emmertjes over grotere afstanden uitwisselen, gebruiken en repliceren. Een SAN werkte met een FC (Fibre Channel) protocol, NAS met een IP (Internet Protocol), in feite technische afspraken over de wijze waarop we emmertjes uitwisselden.

Tegenwoordig is het met nieuwe protocollen zoals FCoE (Fibre Channel over Ethernet) mogelijk geworden beide vormen van replicatie over hetzelfde netwerk te laten lopen. In dat kader is het met de komst van internet allemaal wat makkelijker geworden.

Een emmertje met data is lastig te herkennen. De storage-systemen nummerden daarom de emmertjes zelf en registreerden waar ze het emmertje opborgen. En als een emmertje weer werd opgevraagd, kon men het op die wijze eenvoudig terugzoeken. Echter het bleven voor het storage-systeem ‘anonieme’ emmertjes met onbekende inhoud.  De applicatie, die het emmertje had gevuld wist natuurlijk wat in het emmertje zat, het storage- systeem niet.  We noemen dit ook wel ‘gestructureerde data’.  Data die bij een specifieke applicatie hoort.

In het begin was bijna alle data gestructureerd.  Dat wil zeggen dat de inhoud de presentatie was van een serie velden van een database, die door een applicatie op een specifieke volgorde en ordening was gezet. Dus eigenlijk was er weinig behoefte om de inhoud van de emmer te kennen, want de inhoud was slechts voor de gebruikte applicatie leesbaar. Maar in de loop der tijd ontstond meer en meer ongestructureerde data.  Informatie die in generieke applicaties wordt gecreëerd en die bepaalde herkenbare interne structuren kent.  Denk aan tekstverwerking, spreadsheets, e-mails, PowerPoint en allerlei nieuwe social media- applicaties.  Informatie waarvan een deel of alles door iedereen te lezen is.  En tegenwoordig is alle nieuwe data bijna ongestructureerde data geworden. Volgens het recente IDC onderzoek over datagroei, is zelfs meer dan 90% ongestructureerde data.

Maar voor een storage-systeem blijft een emmertje een emmertje, ongeacht de data die men erin heeft gestopt. Dus in ongestructureerde data is het lastig zoeken. Het ‘hoort’ niet bij een  specifieke applicatie en aan de buitenkant is weinig verschil te zien. De oplossing hiervoor – beslist niet nieuw – is aan elke emmer een label te hangen met informatie over de data-inhoud. We noemen dat meta-data ofwel data over de data. Maar dat vraagt wel discipline en inspanning.  Het liefst vóórdat men een nieuw emmertje gaat vullen, zou je het hoe, wat en waarom van dat emmertje willen weten. Is het projectinformatie?  Welk project?  Wie heeft het gemaakt?  Is het beveiligde data?  Is het gekoppeld in een workflow?  Kortom, alle relevante informatie op het label van het emmertje opdat we in de dataopslag makkelijker die data kunnen terugvinden.

Document Management of Content Management Systemen zijn gebaseerd op het aanmaken en bijhouden van deze meta-data tijdens de levenscyclus van een emmertje data. En een garantie dat een emmertje data aan bepaalde compliance-eisen voldoet, want immers op basis van het label, weet men precies wat er met die data allemaal is gebeurd.  Daarnaast is duidelijk wat men er wel en niet mee mag doen.  Hoewel Content Management Systemen al ruim 20 jaar bestaan, zien we de laatste jaren weer een opbloei.  Governance en compliance dwingen steeds meer organisaties tot het gecontroleerd maken, opslaan, beheren en gebruiken van data.

Soms val ik in presentaties nog wel eens terug op het ‘oude’ emmertjesverhaal.  Informatietechniek is immers ingewikkeld en abstract geworden. Virtualisatie maakt het nog diffuser. Maar af en toe is het goed om weer even met beide benen op de grond te staan en het te hebben over het hoe en waarom van die simpele ‘buckets of bits’.  Het eenvoudig houden, is moeilijk, maar ook voor het actuele thema Big Data geldt: het is pompen of verzuipen.
 
Hans Timmerman (CTO EMC Nederland)