Redactie - 12 april 2016

Is Big Data een top sector?

Afgelopen week was ik bij de workshop ‘Big Data verantwoord gebruiken’ van de Nationale Wetenschapsagenda. Onderdeel van een aantal routeworkshops waar voor verschillende thema’s wordt onderzocht of zij een plaats op de wetenschapsagenda verdienen en zo ja, in welke vorm daar wetenschapsgelden aan moeten worden toebedeeld.

Wetenschappelijk is het zoeken van patronen in databestanden iets dat natuurlijk al zo oud is als de wetenschap zelf. Maar met de komst van steeds snellere computers, de digitalisering van veel gegevensbronnen en de ontwikkeling van steeds slimmere software voor algoritmes, is dit gebied sterk aan het vernieuwen. Er kan zóveel meer, dat we aanlopen tegen een gebrek aan digitale vaardigheden en bijbehorende gereedschappen.

Game changer
De Wetenschapsagenda wordt ontwikkeld met het oog op 2025, maar is ook actueel voor het vaststellen welke topsectoren bij een nieuwe kabinetsformatie prioriteit hebben. Om deze wetenschapsvisie te ontwikkelen, heeft men het publiek gevraagd met vragen te komen, hetgeen tot het overweldigende aantal van 11.700 vragen leidde. Vijf domein-jury’s hebben deze vragen geïntegreerd tot 140 clustervragen en 16 exemplarische routes om een antwoord op de vragen te krijgen. Een nobel initiatief van de NWA.

De toepassing van de nieuwe big data technieken in de wetenschappelijke wereld brengt een aantal gamechanging vraagstukken met zich mee. Enerzijds de technische kant van de medaille hoe men de steeds grotere datahoeveelheden de baas kan blijven, aan de andere kant van de medaille de ethische kant en het verantwoord gebruiken van Big Data.

Van goud naar olie naar data
Data is naast bezit ook een grondstof geworden die je in het publieke domein kunt delven. En de ruwe grondstof kun je vervolgens verrijken en verhandelen. Dit is vergelijkbaar met de negentiende eeuw toen de goudkoorts uitbrak en iedereen goud ging zoeken. Of zoals in de twintigste eeuw olie het nieuwe goud werd en er een rush op olievelden ontstond en de zogenaamde ‘oliebaronnen’ ontstonden, personen die veel geld verdienden in de handel of productie van olie.

In onze huidige eeuw is data het nieuwe goud of de olie geworden en we zien dat er intussen ook al ‘databaronnen’ zijn ontstaan. Bedrijven die slim en met wat geluk grote hoeveelheden data konden delven en mijnen. En uit die ruwe data waardevolle informatie kunnen destilleren. Die databaronnen zullen deze eeuw, net als de goud- en oliebaronnen in de vorige eeuw, dominant in onze economie aanwezig blijven.

Databeurs
Net zoals goud en olie verhandeld worden, kan (verrijkte) data ook worden verhandeld. De nieuwe sociale media bieden platformen waar burgers en bedrijven gratis hun data kunnen delen. Een gratis dienst in ruil voor het gratis afstaan van data. Voor Facebook was data van de gemiddelde gebruiker in 2013 al ongeveer 115 dollar waard. Ook Google – en zeker het Androïd platform – creëert eigen toegevoegde waarde door gratis data van hun gebruikers te verzamelen.

Er zal een moment ontstaan dat burgers beseffen wat hun eigen data waard is voor derden. En dat die data wellicht verhandelbaar is, interessant voor allerhande onderzoekers en datahandelaren. Een databeurs zou zo gek nog niet zijn, ook niet voor de wetenschappelijke wereld. Waar kan ik mijn gewenste data, die voldoet aan standaarden voor juistheid, bron en beschrijvende metadata, kopen? Alles van waarde is immers (uiteindelijk) verhandelbaar.

Open Data
Data die worden gegenereerd, zijn in principe eigendom van de creator. Net zoals het patentrecht geldt op data een gebruiksrecht. Maar als het nu publieke data betreft? Het KNMI wordt door de Nederlandse belastingbetaler gefinancierd, dus in principe is alle data die het KNMI creëert eigendom van elke belastingbetaler. Maar geldt dat ook als onze lantaarnpalen slim worden en data gaan uitzenden? En voor de lussen in het wegdek die door Rijkswaterstaat zijn aangebracht en betaald zijn door ons allemaal.

Volgens Wikipedia is Open Data een term die wordt gebruikt om vrij beschikbare informatie aan te duiden. De overheid beschrijft Open Data als alle openbare data die – voorzien van brongegevens – tijdig toegankelijk is voor iedereen voor elk legaal gebruik. Hierbij is het nodig dat het gestandaardiseerd, digitaal bruikbaar en ongeregistreerd wordt aangeboden. Zodra een overheid Open Data gaat aanbieden, betekent dat een kostenpost voor de toekomst. Immers de data moet onderhouden, aangevuld, geactualiseerd en continu beschikbaar gehouden worden. Dit is een open einde regeling waarvan het budget in principe ongelimiteerd is en dus kan exploderen. Open Data is budgettair gezien een gevaarlijk spel.

Sustainable data
Wetenschappelijke data is meestal open data, omdat het immers ook met belastinggeld is gecreëerd. Meestal, omdat er ook private derde geldstromen bestaan, waar voor de data een privaat eigendomsrecht geldt. Ook de Europese Unie is voorstander van open data en voor het programma Horizon geldt een Open Research Data Pilot, waarbij onderzoekers verplicht zijn hun research-data open te stellen. Veel wetenschappelijke data wordt nu al georganiseerd gedeeld, via openaccess.nl bieden de Universiteiten al op duurzame wijze hun data aan.

Persoonlijk vind ik de Engelse term ‘sustainable’ een beter dekkende term dan duurzaam, dat van ‘duren’ komt en letterlijk ‘geschikt om te duren’ oftewel ‘weinig vergankelijk’ betekent. De betekenis van sustainable, dat van het werkwoord ‘sustain’ komt en in stand houden, volhouden, steunen, schragen, verduren en stutten betekent, heeft een veel actievere betekenis. Juist sustainable data vraagt om zeer actieve ondersteuning om die data op termijn bruikbaar, toegankelijk en veilig te houden.

Digitale vaardigheden
In deze eeuw van informatie zijn nieuwe vaardigheden nodig, voor de hele maatschappij en dus ook voor de wetenschap. Big Data en analytics zijn van dit soort nieuwe vaardigheden, vallend onder het begrip data-science, die voor elke top-sector een basislaag van aanwezige kennis en kunde moeten zijn. Dan kun je je afvragen of data-science óók een topsector moet worden. Ik denk het niet, net zoals wiskunde en taalkunde geen topsectoren zijn, maar basisvaardigheden voor elke wetenschapper.

Maar die vaardigheid moet wel al op de basisschool in het pakket komen. Als alles wat we doen steeds vaker digitaal gaat, en gebaseerd is of gebruikt maakt van data, is dat op zich eenzelfde vaardigheid als lezen, schrijven en rekenen. Gelukkig heeft Kennisnet – de publieke organisatie voor onderwijs en ict – al prachtige en uitgebreide programma’s die zo gebruikt kunnen worden. Of zoals het in dit interview wordt gezegd: “Als je de techniek snapt, maak je bewustere keuzes.” Nu moeten we het nog doen: een interessante uitdaging voor de leerkrachten van ons basis- en middelbaar onderwijs.

Door: Hans Timmerman, cto EMC Nederland

Copaco | BW 25 maart tm 31 maart 2024 Trend Micro BW BN week 10-11-13-14-2024
Copaco | BW 25 maart tm 31 maart 2024