Wouter Hoeffnagel - 17 maart 2016

Nieuw algoritme helpt grote databestanden sneller en nauwkeuriger te analyseren

Danilo Barbosa Coimbra, promovendus aan de Rijksuniversiteit Groningen (RUG), heeft een nieuw algoritme ontwikkeld waarmee grote databestanden kunnen worden geanalyseerd. Het algoritme werkt volgens RUG sneller en nauwkeuriger dan andere programma’s en kan worden ingezet om big data analyses uit te voeren. Coimbra promoveert op 18 maart 2016 aan de RUG.

Het algoritme dat Coimbra heeft ontwikkeld maakt multidimensionale projecties van grote gegevensbestanden. “Dit soort bestanden bestaat doorgaans uit een groot aantal items, met voor elk daarvan een groot aantal variabelen of dimensies”, legt Coimbra uit. Als voorbeeld wordt de informatie genoemd die Nederlandse gemeenten produceren over uiteenlopende zaken zoals het gemiddelde inkomen, lokale belastingtarieven enzovoort. Het is relatief eenvoudig van alle gemeenten bijvoorbeeld de hoogte van de hondenbelasting te vergelijken. Het is echter veel moeilijker om alle gegevens die beschikbaar te zijn te doorzoeken op onverwachte uitkomsten.

Patronen in gegevens ontdekken
“Het algoritme berekent het verschil tussen alle items in de dataset over alle dimensies. Vervolgens wordt het resultaat in een puntenwolk gezet, waarbij items die op elkaar lijken dichter bij elkaar staan”, legt Coimbra uit. Via deze projectie is het mogelijk patronen in gegevens te ontdekken. “De volgende stap is uit te zoeken welke dimensie dit veroorzaakt.” Coimbra heeft een algoritme ontwikkeld dat big data analyses aanzienlijk sneller kan uitvoeren dan bestaande methodes en daarnaast een project oplevert met minder fouten. Deze projecties kunnen zowel twee- als driedimensionaal zijn. Een 3D-projectie is lastiger te interpreteren. Coimbra heeft echter een aantal hulpmiddelen ontwikkeld die hierbij helpen.

In de praktijk kan het algoritme voor uitlopende doelen worden gebruikt. Zo kan met het algoritme foto’s van verdachte plekken op de menselijke huid worden geanalyseerd of is het mogelijk in één keer alle gegevens die Nederlandse gemeenten beschikbaar stellen te doorzoeken. Coimbra, afkomstig uit Brazilië, heeft al een praktijktoepassing ontwikkeld. Hij heeft een programma gebouwd dat video’s van het WK voetbal in Brazilië in 2014 kan analyseren. “Het gebruikt informatie zoals het geluid van het publiek, het commentaar en gebeurtenissen zoals op welk moment in de wedstrijd goals of gele kaarten vielen”, legt Coimbra uit. Op basis van deze informatie berekent het programma het belang van elke sectie van tien seconden. “Alle secties komen als plaatje op het scherm, waarbij de grootte en de kleurintensiteit aangeven hoe belangrijk ze zijn. En er zijn icoontjes om bijvoorbeeld goals aan te geven.”

Snel hoogtepunten uit een wedstrijd halen
Voetballiefhebbers zouden in theorie met behulp van het programma snel de hoogtepunten uit een wedstrijd kunnen halen. “Maar je kunt ook wedstrijden met elkaar vergelijken of zien hoe verschillende commentatoren de wedstrijd beoordelen”, aldus Coimbra. Het programma is vooralsnog niet beschikbaar voor voetballiefhebbers.