Redactie - 14 juni 2011

Waarom ‘Big Data’ Big wordt


Het afgelopen jaar is het onderwerp ‘Big Data’ volop in de belangstelling gekomen. Al jaren bekend in wetenschappelijke omgevingen waar men steeds grotere datasets te verwerken krijgt om dieper door te kunnen dringen op allerlei gebied. Toen 10 jaar geleden het DNA voor het eerst kon worden ‘doorgerekend’, waren maandenlang voetbalvelden met servers nodig om de rekencapaciteit te leveren. Op dit moment kun je voor $200 binnen enkele uren je DNA laten doorreken via een postorderlevering van wat speeksel. Nieuwe processorcapaciteiten maken berekeningen mogelijk, die 5 jaar geleden nog amper voorspelbaar waren. Daarover gaat ‘Big Data’.

Maar wat is ‘Big Data’ eigenlijk? Een veel gebruikte definitie luidt: “Big data zijn datasets die (veel) groter zijn dan de mogelijkheden van bestaande databases software en bijbehorende storage, netwerken en management tools.”  Een tamelijk ruime en vage definitie. Toch geeft het precies aan wat er aan de hand is: we maken en gebruiken datasets, in de PetaByte-orde, dus een 1 met 15 nullen, die niet meer passen op onze bestaande infrastructuuroplossingen. Vanuit de life science, de olie- en gasindustrie en meteorologie, overal wil men grotere datasets kunnen verwerken om nauwkeuriger, gerichter, specifieker berekeningen te kunnen uitvoeren.

Gelukkig is de processorcapaciteit de afgelopen jaren met sprongen vooruit gegaan. Door nieuwe technieken, architecturen en de Wet van Moore kunnen we ruim 2000 maal zoveel data verwerken als 5 jaar geleden.  En als we het kunnen, willen we het ook.  Maar, was vroeger de processor de bottleneck, nu de processor zo veel meer kan, is ‘opeens’ het netwerk en de storage de bottleneck geworden. We moeten in extreem korte tijd heel veel data naar de processor toe kunnen brengen en logischerwijs ook weer kunnen afvoeren.  En dat is best lastig.
Het kunnen verwerken van Big Data is niet alleen wetenschappelijk interessant. Als we deze toepassingen naar het maatschappelijke leven kunnen brengen, dan levert dat ons dat heel veel profijt op. Als we in de medische wereld op die manier eerder ziekten zouden kunnen opsporen, levert dat tot 8% besparing op, berekent McKinsey in een onlangs verschenen rapport “Big data, the new frontier for innovation, competition and productivity”. Het rapport berekent mogelijke waardecreatie in de US Healthcare van 300 miljard dollar per jaar, in de Europese Unie zou dit 250 miljard dollar per jaar kunnen zijn. Ook voorziet het 100 miljard dollar aan nieuwe omzetmogelijkheden voor service providers door global personal location data. Verder worden in de retail tot 60% beter marges gerealiseerd en in manufacturing tot 50% minder ontwikkelingskosten gemaakt. Kortom, als we deze wetenschappelijke ontwikkeling kunnen omvormen tot bruikbare toepassingen in de maatschappij, dan betekent dit een wezenlijk nieuwe wijze van omgaan met IT.

Daarom organiseerde  EMC  afgelopen maand ook ‘s werelds eerste Data Analist Summit. Wetenschappers uit de hele wereld kwamen bijeen om  ervaringen te delen en aan te geven wat zij van de IT-industrie verlangen wat betreft nieuwe technieken en producten. Wetenschap en techniek gaan in dat kader hand in hand. Behoeften leiden tot uitvindingen en die op hun beurt weer tot innovaties. Virtualisatie en cloud computing passen perfect bij deze nieuwe behoeftes. Integratie van server, netwerk en storage ook. Steeds meer rekenkracht, netwerkcapaciteit en opslagmogelijkheden in kleinere modules. Schaalbaar, uitbreidbaar en beheersbaar.

Data Analyse en Big Data, nieuwe ontwikkelingen waar nog veel onderzoek en ontwikkeling nodig is. Een nieuw vakgebied dat nieuwe IT-gereedschappen vraagt. En nieuwe IT-vaardigheden. Waarvan de opbrengsten heel snel maatschappelijk kunnen worden gebruikt, omdat we dit met virtualisatie en cloud computing  mogelijk maken. En een markt die wat betreft omzet het veelvoudige kan zijn van de huidige IT-markt.  Met nieuwe spelers, markten en verdienmodellen.

Een markt waarin grootschalige experimenten en doorrekeningen mogelijk worden, waardoor nieuwe niveaus van ‘intelligence’ kunnen worden gerealiseerd. Waardoor veel betere beslissingen kunnen worden genomen die grotendeels kunnen worden geautomatiseerd. Efficiëntere overheden, betere klimaatberekeningen, nauwkeuriger medische analyses en veel meer Business and Civil Intelligence. We leven informatietechnisch gezien in een opwindende tijd. Een soort perfect storm van nieuwe mogelijkheden. Een golf van potentiële economische mogelijkheden met tegelijker tijd een grote maatschappelijke betekenis.

Hans Timmerman (CTO EMC Nederland)