Redactie - 14 maart 2021

Repository, ‘een rustplaats voor data’

Data management Data Analytics Business intelligence Digital

Te lezen met een gezellig muziekje...

Een repository is een centrale plaats waar computergegevens, data, software etc. is opgeslagen. Het wordt wel de ‘database van de database’ genoemd. De plaats waar de verwijzingen staan van alle data en informatie die voor een digitaal systeem van belang zijn. Was vroeger al die data bijna vanzelfsprekend binnen het eigen systeem opgeslagen, in de tijd van open data en clouds zien we dat het ook zinvol is om in de repository de links naar externe omgevingen te hebben. Het woord komt oorspronkelijk uit het Latijn: respositoriu, een rustplaats waar iets heiligs wordt bewaard. Het wordt ook in de kunstwereld gebruikt, waar identificatiecodes aan kunstvoorwerpen, boeken of andere objecten werden gegeven. Zodra een object in een verzameling komt, krijgt het ook een inventarisnummer. Maar een object of groep in een bewaarplaats kan echter verschillende soorten bewaarplaatsnummers hebben als het object relaties heeft met andere verzamelingen en doorsneden van de verzameling.

Datawarehouse

In onze taal komt het woord weinig voor, maar een bekende Engelse uitdrukking is: ‘my father is a repository of family history.‘ Wij spreken dan van een wandelende encyclopedie. De basis van een repository is dat niet de informatie zelf, maar de verwijzing naar en het waarom van die data bekend is. Vaak de metadata van een file, een document, software of code. Aangevuld met de historie, referenties en de geschiedenis en het ‘waarom’ van ontstaan en wijzigingen die in de bestanden zijn aangebracht. Belangrijke subsets in een repository zijn ‘datamarts’, zij bevatten vaak snapshots van verschillende soorten gegevens en zijn gericht op een bijzondere behoefte van specifieke gebruikers of bepaalde software.

Een datawarehouse is ontworpen voor het databeheer door een data management systeem. Cruciaal om analytics en business intelligence activiteiten mogelijk te maken. Bij zoekopdrachten levert de repository de (locatie-) informatie waar die inhoudelijke informatie kan worden gevonden. Inclusief historische data over die actuele inhoudelijke data. We spreken ook wel over ETL: Extractie, Transformatie en Laden. Het verzamelen en voorbereiden van sets data om te kúnnen worden geanalyseerd. Daarbij wordt data getransformeerd naar een eenduidig formaat. Bijvoorbeeld verschillende datasets die respectievelijk als ‘voornaam/achternaam‘ maar ook als ‘achternaam/voornaam’ zijn opgezet, moeten voor de analyse naar bijvoorbeeld uitsluitend ‘voornaam/achternaam’ worden omgezet cq getransformeerd. Vervolgens kan deze set in de database worden geladen om eenduidig te worden geanalyseerd.

De komst van Big Data heeft begin deze eeuw tot innovatie in de ETL-wereld geleid omdat nieuwe gereedschappen nodig waren die de vele petabytes aan data snel konden ‘extraheren, vertalen en laden’. Greenplum is bijvoorbeeld zo’n nieuwe database die geschikt is voor de nieuwe internetwereld en gebaseerd is op enerzijds MPP – ‘Massively Paralel Processing’ – en anderzijds Postgres open source database techniek. De basis van MPP is om parallel heel veel processoren gelijktijdig een opdracht te laten verwerken. De snelheid van moderne zoekmachines is gebaseerd op deze techniek van parallellisatie.

Data management systeem

Datamanagement wordt steeds belangrijker in onze digitaliserende wereld. Het onderhouden, actualiseren, beheren en beveiligen van data. Zoals ik in mijn blogs al eerder beschreef, is een digitale transformatie slechts mogelijk als men enerzijds van de goed bekende gebruiker (klant) uitgaat en anderzijds vanuit de data denkt. Welke gebruikers met welke rollen heb ik en welke data met welke rechten zijn beschikbaar? Vervolgens kunnen allerhande processen en workflows worden gedefinieerd die de combinatie van specifieke gebruiker en relevante data verpakt in een proces of gewenste workflow.

Hier zie je het succes van de nieuwe no-code platformen. Tussen gestructureerde gebruikers en gestructureerde data kunnen snel en eenvoudig workflows wordt gecreëerd. Deze workflows zijn vluchtig, de data en de gebruikers (cq rollen) zijn de vaste gegevens. Overeenkomstig mijn bekende rijmpje: applicaties verwelken, processen vergaan, maar onze data blijft altijd bestaan. Dan bedoel ik natuurlijk data van waarde. Die waard is om gemaakt te worden en – belangrijker – bewaard te worden en een rustplaats te gunnen: de repository.

We worden tegenwoordig overspoeld met realtime streaming data. Die stroom is zó groot, dat we de fysieke opslagmiddelen voor die hoeveelheid data niet eens (meer) hebben. Steeds meer data in onze wereld kan niet meer worden opgeslagen, omdat dat zowel fysiek als financieel niet meer kan. Dat betekent dat de data die we (nog) wel kunnen opslaan, goed gestructureerd en ‘terugvindbaar’ moet zijn, dus voorzien van de juiste metadata. Anders worden we een dementerende maatschappij die zijn verleden langzaam vergeet en in vergetelheid ziet oplossen. Helaas voor veel organisaties best een confronterende conclusie.

Verdrinken in de data

In een eerdere blog schreef ik over hoe de overheid langzaam in zijn eigen digitale data dreigt te verdrinken. De Wet Open Overheid (Woo) is een initiatiefvoorstel uit 2012 van Groen Links en D66. Deze wet dient de wet openbaarheid bestuur (WOB) te vervangen. Bij de WOB kan men achteraf inzage vragen over overheidsdata. De Woo is er op gericht dat al direct bij publicatie van overheidsinformatie de inhoud openbaar is. Slechts de ambtelijke notities en interne procescommunicatie blijft dan binnen de overheid. In de noordelijke landen is dit al een bewezen praktijk: actieve openbaarmaking van overheidsinformatie. Immers de overheid is van en voor ons – de maatschappij – dus is overheidsdata vanzelfsprekend ook openbaar (op veiligheidszaken na natuurlijk) en ook eigendom van de maatschappij.

Vier jaar later, in 2016 stemde de kamer in met dit initiatiefvoorstel maar er waren zorgen over de kosten en de uitvoerbaarheid van de wet. De overheid (!) vond de uitvoering te duur en onuitvoerbaar. Intussen is de Woo aangepast en is – bijna tien jaar later- op 26 januari 2021 met een aantal moties en amendementen aangenomen door de Tweede kamer. En zal dus tien jaar later in 2022 in werking treden. Het zal nog vele jaren duren voordat de overheid in staat zal zijn volkomen volgens deze wet te werken, omdat veel systemen hieraan moeten worden aangepast. Meer informatie is te vinden op de website van het Rijksprogramma voor duurzame digitale informatiehuishouding.

Plooi

Naast de Woo is er ook een platform nodig om deze data ter beschikking te kunnen stellen. Dat platform heet Plooi: Platform Open Overheids Informatie. Dit gebeurt door al deze informatie op een centrale plek op gebruiksvriendelijke manier beschikbaar te stellen. Een belangrijk middel om overheidsinformatie ook op een gestandaardiseerde manier openbaar en vindbaar te maken. Want daar ontbreekt het op dit moment best aan. De vele overheden (Rijk, provincie, gemeente en aanverwante organisaties als waterschappen etc.) hanteren tot op heden vaak nog eigen standaarden en data definities. Heerlijk als je gemeentedata, provinciedata, rijksdata wilt combineren met RIVM, Tennet en Rijkswaterstaat data.

Langzaam en met kleine stapjes wordt de overheid doorzichtiger en wordt burger en bedrijfsleven (weer) eigenaar van hun eigen overheidsdata. Een ontwikkeling die wel door Europa wordt gedreven. Zelf ben ik geen erg grote Europa-fan, maar op het gebied van datagerichte wetgeving, standaarden en normen dwingen ze de lidstaten wel tot meer openheid en consistentie op dit gebied. Dat is gelijkertijd ook de democratische kracht in Europa die de burger ondersteunt in haar rechten, versus China waar de partij de macht heeft en de USA waar de markt de macht heeft.

Door: Hans Timmerman (foto), directeur van Fortierra

Tip de redactie