Redactie - 05 oktober 2011

Business Continuity: de mens is de zwakste schakel


In de wereld van vandaag is het voor ons als consument bijna vanzelfsprekend dat informatiediensten 24 uur per dag beschikbaar zijn. Een website die even uit de lucht is, een elektronische betaling die niet kan worden uitgevoerd, mail die niet kan worden opgehaald, allemaal zaken waar we eigenlijk niet meer aan gewend zijn. Hoe anders was dit 10 tot 15 jaar geleden. Informatiesystemen waren alleen tijdens kantooruren beschikbaar, buiten die uren kon de IT afdeling rustig zijn onderhoud, back-up of uitbreiding plannen. De lange weekenden werden gebruikt voor nieuwe releases, upgrades en testen.

De wereld van vandaag ziet er heel anders uit. Zelfs het vervangen van apparatuur en software moet tegenwoordig zonder interruptie kunnen plaatsvinden. Datacenters die niet meer functioneren na een blikseminslag, zoals laatst het geval was met Amazon en Microsoft in Dublin, geven irritatie en verbazing en worden voorpaginanieuws. Iedereen beseft dat echte rampen mogelijk blijven, maar toch verwacht men een ongestoorde aanwezigheid van onze hedendaagse basisdiensten, elektriciteit, water, gas en informatievoorziening.

Uitwijkprodecures

Toen in Japan de aardbeving en Tsunami toesloeg, raakten onverwacht veel voorzieningen  verstoord. Zelfs op plaatsen waar het – realistisch gezien – in feite niet nodig was. Datacenters raakten beschadigd maar er waren prima plannen voor de uitwijk geregeld. En de uitwijkcentra mankeerden niets. Toch stokte de informatievoorziening. Hoe kwam dit?  Eigenlijk heel eenvoudig. Bij een echte ramp blijken mensen een diep gewortelde help-reactie te hebben. Men verlaat zijn werk en gaat familie of collega’s ‘helpen’ die fysiek getroffen zijn door de ramp. Ondanks alle mooie uitwijkprocedures waar de werknemers simpele activiteiten moeten uitvoeren om de uitwijk te bewerkstelligen, de fysieke hulpverlening krijgt – gelukkig – prioriteit.

Dit betekent dat onze disaster-uitwijk scenario’s die gebaseerd blijven op (enkele) menselijk handelingen, op die momenten van een echte ramp eigenlijk onvoldoende zijn. Terwijl juist dan zoveel mogelijk basisdiensten zouden moeten blijven werken om hulp te kunnen ondersteunen. Informatievoorziening, communicatie, telefonie en elektriciteit; zonder een goed werkend data center staat alles stil.

Wat betekent deze conclusie?  Elk rampenscenario moet eigenlijk 100% geautomatiseerd worden. In een uitwijkscenario zou geen enkele menselijke handeling meer nodig moeten zijn. Bij de constatering van een probleem, dient geheel automatisch een proces te worden gestart om op basis van de nog werkende datacenters een geprioriteerde hoeveelheid diensten weer werkend te krijgen c.q. altijd werkend te houden.

Automatische procedures
Gelukkig levert de virtualisatie ons nu de techniek om dit soort automatische procedures mogelijk te maken. Bij disasters praten we over twee essentiële begrippen, de RPO en RTO. De RPO staat voor Recovery Point Objective, in feite het punt terug in de tijd vóór het moment van de ramp waarop alle informatie nog in goede staat beschikbaar was.  Na dat moment kan data verloren zijn gegaan of corrupt zijn geworden  door de falende informatiesystemen. De RTO staat voor de Recovery Time Objective, hoe snel moeten de informatie en diensten na de ramp weer ongestoord in de lucht zijn? Dus hoeveel tijd is nodig om een uitwijkcentrum weer in de lucht te krijgen?

RPO bepaalt dus in belangrijke mate hoeveel informatie en verwerking we ‘kwijt’ raken bij een ramp. De RTO bepaalt hoe snel we onze informatievoorziening weer werkend hebben.  Door synchronisatie van datacenters hebben we de afgelopen jaren steeds beter een RPO van nul weten te bereiken. Data is altijd op twee (of meer) plaatsen synchroon aanwezig.  Mocht een data center onverhoopt uitvallen, is er dus nooit sprake van dataverlies.

Echter het realiseren van een RTO van nul is altijd lastig geweest. Tenzij men werkelijk twee synchroon actieve datacenters heeft waar ook de applicatieomgeving 100% synchroon draait. En dat is lastig, want er zal altijd één datacenter formeel de master moeten zijn. Twee kapiteins op één schip werkt niet.  Dus zelfs in die (dure) situatie, is een RTO van nul eigenlijk onmogelijk. Als het master datacentrum uitvalt  is er namelijk altijd een formele omschakeling van de master aanduiding nodig.

Virtualisatie
Maar virtualisatie heeft het mogelijk gemaakt om nu een RTO van nul te realiseren. Het EMC-product VPLEX kan in samenwerking met het product Vmotion van VMware twee datacenters volledig synchroon laten draaien, waarbij een derde positie voor een ‘cache coherence’ van beide datacenters zorgdraagt. Eigenlijk gedragen beide datacenters zich virtueel als een master, maar de cache coherence zorgt ervoor dat beide kapiteins bij wijze van spreken toch met één mond spreken. Zodra één van de datacenters door een ramp uitvalt, kan de ander gewoon doordraaien. Een RTO van werkelijk nul. In feite wordt hiermee disaster avoidance mogelijk. Het voorkomen of vermijden van een ramp in plaats van disaster recovery, het herstellen van de dienstverlening ná een ramp.

Met deze nieuwe techniek kan men ook datacenters ‘leegmaken’. Zo kunnen alle applicaties met hun actieve data ‘al werkend’ en voor de gebruiker onmerkbaar, naar een ander datacenter worden verplaatst als zich een dreigende situatie voordoet, bijvoorbeeld bij de komst van een orkaan of een dreigende overstroming. Mocht naderhand geen schade zijn ontstaan, dan kan men daarna rustig het data center weer vullen met applicaties en data. Ook migraties en het vervangen van apparatuur kan op deze wijze zonder interrupties plaatsvinden. Of het verplaatsen van applicaties over de wereld om steeds ‘s nachts een data center te laten werken, waardoor veel minder of zelfs geen koeling meer nodig is en elektriciteit vaak goedkoper is.

Gegarandeerde informatievoorziening
Kortom we staan op het punt dat we dankzij virtualisatietechniek werkelijk een 100% gegarandeerde informatievoorziening kunnen bouwen. En het mooie van virtualisatie is dat het ook 100% te automatiseren is. Onafhankelijk van enige menselijk ingreep. Mensen die in een rampscenario nu rustig het data center in de steek kunnen laten en naar hun familie kunnen gaan of uiting kunnen geven aan hun instinctieve humanitaire dienstverlening aan de slachtoffers. Terwijl op de achtergrond de techniek zorgt dat – zelfs in zo’n onvoorspelbare periode – alle mogelijke informatie beschikbaar blijft.
 
Hans Timmerman (CTO EMC Nederland)