Supercomputer voor microdata gelanceerd door CBS, SURF en ODISSEI

30-10-2020 | door: Witold Kepinski

Supercomputer voor microdata gelanceerd door CBS, SURF en ODISSEI

Het sociaalwetenschappelijk dataplatform ODISSEI kreeg dit voorjaar ruim 9 miljoen euro subsidie van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO). Doel van ODISSEI is de krachten te bundelen in het onderzoeksveld om complexe vraagstukken beter te kunnen beantwoorden. Eén van de projecten van ODISSEI is de ontwikkeling van toegang tot een supercomputeromgeving waar onder strenge veiligheidsvoorwaarden met CBS-microdata gewerkt kan worden. Op 1 oktober jl. werd deze faciliteit gelanceerd door het CBS, SURF en ODISSEI.

ODISSEI staat voor: Open Data Infrastructure for Social Science and Economic Innovations. Zo’n 40 faculteiten, planbureaus en andere onderzoeksorganisaties werken hierin samen om beschikbaarheid en gebruik van data voor sociaalwetenschappelijk onderzoek te bevorderen. Het CBS is met zijn data één van de belangrijkste pijlers van ODISSEI. Hoogleraar Empirische Sociologie Pearl Dykstra van de Erasmus Universiteit Rotterdam (EUR) is wetenschappelijk directeur van ODISSEI: ‘Onze huidige wereld is complex en onvoorspelbaar. We worden geconfronteerd met grote maatschappelijke vraagstukken, zoals migratie of energietransitie. Deze ingewikkelde vraagstukken zijn alleen te doorgronden met data die deze complexiteit kunnen weergeven. Daarvoor moeten ze langere tijdsperioden betreffen en verschillende niveaus en domeinen bestrijken. Ze moeten over personen, sociale netwerken, gemeenten en Nederland gaan, maar ook over werk, de thuissituatie en gezondheid. Daarom is het van belang dat onderzoeksinstituten in de sociale en gedragswetenschappen hun data voor elkaar beschikbaar stellen. Met ODISSEI faciliteren en innoveren we dat.’

Afgelopen voorjaar ontving het ODISSEI-project een Roadmap subsidie van NWO van ruim 9 miljoen euro. De NWO Roadmap is een wetenschapsprogramma voor grootschalige wetenschappelijke infrastructuren, bijvoorbeeld ruimtetelescopen, faciliteiten voor klimaatonderzoek en biobanken. Dykstra: ‘ODISSEI is een uniek project, ook internationaal. Nederland is het eerste land ter wereld met een infrastructuur die surveygegevens, registerdata en een supercomputerfaciliteit combineert in een veilige omgeving. De samenwerking tussen de verschillende faculteiten en planbureaus is uniek. Ook het CBS dat als nationaal statistiekbureau open staat voor samenwerking met de wetenschap is uniek. Daarnaast staat Nederland bekend om zijn expertise in survey-onderzoek en de innovatie daarvan. Dat ODISSEI een Roadmap subsidie gekregen heeft, is geweldig en het vergroot onze mogelijkheden enorm.’

Kruisbestuiving statistiek en wetenschap

Binnen ODISSEI lopen vier werkstromen, die met elkaar samenhangen: datafaciliteit, observatorium, laboratorium en de ‘hub’. De datafaciliteit richt zich op het toegankelijk maken, combineren en analyseren van de data op een veilige, betrouwbare en ethische manier. Het CBS speelt daarbij een belangrijke rol. ‘Wij beschikken over steeds meer registerdata op microniveau’, vertelt Ruurd Schoonhoven, senior relatiebeheerder van het CBS. ‘Vanuit de wetenschap is daar veel interesse voor. Afgelopen jaren nam het gebruik van onze Remote Access faciliteit dan ook een grote vlucht. Met Remote Access kunnen geaccrediteerde onderzoekers onder zeer strikte voorwaarden gebruik maken van gepseudonimiseerde data. Wij vinden de kruisbestuiving met de wetenschap belangrijk, omdat het kan bijdragen aan het beantwoorden van maatschappelijke vragen, bijvoorbeeld over het effect van omgevingsfactoren op de gezondheid van kinderen. Daarbij voeren we uiteraard een zorgvuldig beleid om de privacy te waarborgen. Privacy heeft een zeer hoge prioriteit bij het CBS en staat voortdurend op de agenda.’

Supercomputer

Het samenvoegen en analyseren van grote databestanden kost veel rekencapaciteit. Een doorsnee computer is daarvoor ontoereikend. ‘Binnen ODISSEI hebben we daarom gewerkt aan het toegankelijk maken van onze Remote Access omgeving op een supercomputeromgeving’, zegt Schoonhoven. ‘Daarvoor werken we samen met SURF: de ICT-coöperatie van onderwijs en onderzoek. Een stukje van hun supercomputer Cartesius is CBS domein geworden, zowel technisch als juridisch. Dat hebben we uitgebreid getest: eerst met een proof of concept, daarna met drie pilots en externe audits. Onderzoekers met toegang tot Remote Access kunnen nu doorlinken naar Cartesius om binnen die omgeving te werken.’ De ‘hub’ van ODISSEI biedt cursussen aan over het gebruik van de supercomputer. Dykstra: ‘Met de ‘hub’ ondersteunen we de ontwikkeling van digitale en analytische vaardigheden die nodig zijn om complexe en uitgebreide fenomenen te modelleren. Onderzoekers die bijvoorbeeld gebruik willen maken van Artificial Intelligence kunnen daarvoor via het eScience Center ondersteuning krijgen bij de ontwikkeling en toepassing van rekenmethoden.’

Waardevolle datacollecties

Het observatorium en laboratorium van ODISSEI zorgen voor het beheer en continuering van bestaande dataverzamelingen en het creëren van nieuwe methoden voor dataverzameling. Dykstra: ‘In Nederland zijn verschillende waardevolle datacollecties, zoals het Nederlands Tweelingenregister aan de Vrije Universiteit van Amsterdam. Daarnaast doen we mee aan verschillende Europese onderzoeken, zoals de European Social Survey. Het is belangrijk dat we die datacollecties voortzetten en kijken naar mogelijkheden voor verbetering van efficiëntie, bijvoorbeeld door interviews via digitale middelen. Ook is het belangrijk dat bestaande data goed vindbaar en toegankelijk zijn. Daarvoor moeten deze op een uniforme manier gecodeerd en gearchiveerd worden. Daarbij speelt DANS van de Koninklijke Nederlandse Akademie van Wetenschappen en NWO een rol. In het ODISSEI laboratorium bundelen we de krachten om methodologisch onderzoek te doen naar nieuwe manieren van data verzamelen, zoals telefoniedata en sensoren.’

De belangrijkste resultaten van ODISSEI zijn de wetenschappelijke onderzoeken en publicaties die eruit voortvloeien. De eerste studies naar de effecten van de COVID-pandemie zijn al gepubliceerd. Het betreft een studie naar verschuivingen in de taakverdeling binnen het huishouden, en een studie naar thuisonderwijs aan kinderen en ongelijkheid.

Terug naar nieuws overzicht