Redactie - 22 april 2016

Wat kun je met Big Data en waar moet je op letten?

Big data is een bijna onzichtbare kennisrevolutie die een impact heeft op nagenoeg alle sectoren van de samenleving, van het bedrijfsleven en de overheid tot het onderwijs en de gezondheidszorg. Al die data stroomt uit talloze dingen die iedereen dagelijks gebruikt: huizen, apps, auto’s en zelfs onze lichamen (zie de eerdere blogpost over wearables). Alhoewel de term big data relatief nieuw is, is het idee erachter – het verzamelen van grote hoeveelheden aan data voor analyse – al eeuwenoud.

Het vernieuwende is dat big data gaat over het verrichten van complexe analyses op grootschalige datasets door een combinatie van de juiste tools. Denk bij grootschaligheid niet aan honderden gigabytes (GB), maar om data warenhuizen met honderden petabytes tot zelfs enkele exabytes (EB) aan data (1 EB = 1 miljard GB). Volgens Gartner zijn er drie factoren die big data bepalen: grote hoeveelheid aan data, hoge snelheid waarmee data wordt opgevraagd en veel diversiteit in de beschikbare data. Ik ontken niet dat big data zeer nuttige toepassingen kan hebben, maar het is van belang om kritisch te blijven.

Wat kun je met big data?

De enorme hoeveelheden verzamelde data biedt op zichzelf weinig toegevoegde waarde. De waarde zit ‘m in het doel om op basis van de kennisvoorspellingen te doen. Deze voorspellingen komen van pas in allerlei facetten van de maatschappij:

  1. Het doel van het surfgedrag en interesses van internetgebruikers analyseren, zodat meer gerichte advertenties kunnen worden getoond.
  2. Het analyseren van strafrechtelijke gegevens en op basis daarvan voorspellingen te doen. Met behulp van deze analyse kun je bijvoorbeeld voorspellen wat de kans is dat iemand opnieuw een misdrijf begaat.
  3. Het vroegtijdig detecteren van calamiteiten en hun impact voorspellen. De meeste calamiteiten worden eerst op online media gepost voordat de media ervan op de hoogte is. Door deze openbare data te analyseren is het mogelijk mensen in nood sneller te helpen.
  4. Vragen van mensen sneller (en het liefst ook beter) beantwoorden op basis van analyses van de enorme hoeveelheid informatie op het web over probleemstukken en oplossingen, zoals gedaan door Watson, de supercomputer van IBM, in het tv-programma Jeopardy!

Al deze toepassingen van big data zijn gebaseerd op data uit het verleden om voorspellingen voor de toekomst te doen. Hier komt de wetenschap van ‘machine learning’ om de hoek kijken. Machine learning is het aanleren van computers om te leren van ervaringen uit het verleden om zo accuraat mogelijke toekomstvoorspellingen te doen. Het is een fascinerend vakgebied met allerlei maatschappelijke toepassingen, maar deze technologie kan ook een negatieve impact hebben. Dergelijke zelf lerende computersystemen staan nog maar in de kinderschoenen, maar worden in de praktijk al veelvuldig toegepast, denk bijvoorbeeld aan vriendensuggesties op Facebook, productaanbevelingen op bol.com en filmadvies op Netflix.

Privacy en big data

Privacy speelt een grote rol bij big data, aangezien veel activiteiten van big data gericht zijn op het analyseren van persoonlijke gegevens. Veel van deze activiteiten zijn erg nuttig zoals we hebben gezien in bovenstaande voorbeelden, maar er zijn ook belangrijke kanttekeningen:

  1. Gebrek aan transparantie: veel van het verzamelen en analyseren van data gebeurt achter de schermen. Geheimhouding is begrijpelijk, maar de fysieke, juridische en technische barrières zorgen ervoor dat welke data wordt verzameld en waarom vaak niet duidelijk is.
  2. Verlies van identiteit: één van de toepassingen van big data is het identificeren van mensen. Vanwege de enorme hoeveelheden petabytes aan data over jou, uiteenlopend van surf- en koopgeschiedenis tot telefoongesprekken en berichten op sociale media, verplaatst het perspectief van “ik” naar ‘jij’ en voorspelt big data wanneer jij hoogstwaarschijnlijk een vliegticket wilt (niet meer ‘ik ga een ticket kopen’, maar ‘jij gaat een ticket kopen’).
  3. Verlies van macht: het gebruik van big data zal voornamelijk mogelijk zijn voor partijen die voldoende opslagcapaciteit en mankracht hebben, zoals overheden en grote (commerciële) bedrijven. Alhoewel er steeds meer initiatieven opkomen om de rechten van burgers te beschermen blijft dit een risico voor de machteloze individu.

Een manier om toch de voordelen van big data te behouden en tegelijkertijd de nadelen zoveel mogelijk af te zwakken is het opzetten van Big Data Ethics. Dit zijn richtlijnen voor de bescherming van het recht op privacy bij big data analyses. Om ervoor te zorgen dat dit niet slechts regeltjes op papier worden is vereist dat er een framework wordt opgericht om deze regels concreet te maken. Door in het framework bijvoorbeeld mogelijk te maken dat achteraf toestemming wordt verkregen van individuen worden er meer privacy vriendelijke toepassingsmogelijkheden van big data gecreëerd.

Door: Albert M.C.S. Katoen, adviseur privacy & information security bij Privacy Company ism met cqure.nl kennisplatform