Martijn Kregting - 06 oktober 2021

Storing bij Facebook gevolg van menselijke fout

Storing bij Facebook gevolg van menselijke fout image

De storing bij Facebook en dochters WhatsApp en Instagram op 4 oktober is het gevolg van een menselijke fout. Dat schrijft Santosh Janardhan, Facebook's VP voor infrastructuur, in een uitgebreide verklaring. De drie diensten waren circa 6-7 uur wereldwijd niet bereikbaar.

De zeven uur durende storing werd volgens Janardhan veroorzaakt door het systeem dat de wereldwijde backbone-netwerkcapaciteit van de drie diensten beheert. De ruggengraat is het netwerk dat Facebook heeft gebouwd om alle computerfaciliteiten met elkaar te verbinden, dat bestaat uit tienduizenden kilometers glasvezelkabels die de hele wereld oversteken en al onze datacenters met elkaar verbinden.

'Wanneer u een van onze apps opent en uw feed of berichten laadt, gaat het verzoek van de app om gegevens van uw apparaat naar de dichtstbijzijnde faciliteit, die vervolgens rechtstreeks via ons backbone-netwerk communiceert naar een groter datacenter', schrijft Janardhan. 'Dat is waar de informatie die uw app nodig heeft, wordt opgehaald en verwerkt en via het netwerk naar uw telefoon wordt teruggestuurd.'

Alle verbindingen backbone-verkeer verbroken

Het dataverkeer tussen al deze rekenfaciliteiten wordt beheerd door routers, die uitzoeken waar alle inkomende en uitgaande data heen moeten. Onderhoudstechnici moeten vaak een deel van de backbone offline nemen voor onderhoud - zoals het repareren van een glasvezellijn, het toevoegen van meer capaciteit of het updaten van de software op routers. Tijdens een van deze routine-onderhoudstaken werd een opdracht gegeven met de bedoeling om de beschikbaarheid van wereldwijde backbone-capaciteit te beoordelen, waardoor onbedoeld alle verbindingen in het backbone-netwerk werden verbroken.

'De Facebook-datacenters werden zo wereldwijd losgekoppeld. Onze systemen zijn ontworpen om dit soort opdrachten te controleren om fouten als deze te voorkomen, maar een bug in die controletool verhinderde dat het de opdracht correct kon stoppen. Door deze wijziging zijn onze serververbindingen tussen onze datacenters en internet volledig verbroken.'

Tweede probleem verergerde storing

Dat totale verlies van de verbinding veroorzaakte een tweede probleem dat de zaken verergerde. Een van de taken van de kleinere FB-faciliteiten is het beantwoorden van DNS-vragen (DNS is het adresboek van internet, dat ingetypte webadressen vertaalt naar specifieke server-IP-adressen). Die vertaalvragen worden beantwoord door naamservers die zelf bekende IP-adressen innemen, die op hun beurt aan de rest van het internet worden geadverteerd via een ander protocol dat het border gateway-protocol (BGP) wordt genoemd.

Om een betrouwbare werking te garanderen, schakelen de DNS-servers die BGP's uit als ze zelf niet met de datacenters kunnen praten, aangezien dit een indicatie is van een ongezonde netwerkverbinding. Bij de recente storing is de gehele backbone uit bedrijf genomen, waardoor alle locaties zichzelf ongezond verklaren en de BGP's introkken. 'Het eindresultaat was dat onze DNS-servers onbereikbaar werden terwijl ze nog steeds operationeel waren. Dit maakte het voor de rest van het internet onmogelijk om onze servers te vinden.'

Tijdrovende klus

Door de storing waren de servers van Facebook ook voor de werknemers van Facebook zelf onbereikbaar. Daardoor moesten storingsploegen in datacenters van Facebook fysiek toegang tot de servers krijgen om de fout te onderzoeken en te herstellen. Door de strenge beveiliging van de servers was dat een tijdrovende klus, aldus Janardhan.

Toen de fout eenmaal was hersteld, maakte Facebook zijn apps stukje bij beetje weer bereikbaar. Dit moest voorkomen dat de systemen opnieuw op tilt zouden slaan doordat wereldwijd miljarden telefoons tegelijkertijd Facebook, WhatsApp of Instagram probeerden te bereiken.

Sterke groei SMS-verkeer

De storing van Facebook en WhatsApp zorgde ervoor dat Nederlanders massaal ging SMS’en. Ook het belverkeer nam door de storing toe, meldde KPn. Vanaf het begin van de storing verdubbelde het aantal SMS-berichten over het KPN-netwerk en op het hoogtepunt om 22u ’s avonds verviervoudigde het SMS-verkeer zelfs in vergelijking met hetzelfde tijdstip een week eerder.