Hosting disasters

Oranje achtergrond met zwarte vleermuizen

Vorige week werd de eerste podcast van het nieuwe seizoen gelanceerd. Naar aanleiding van Halloween namen Maarten, Peter, Jeroen en Thomas je mee in verhalen die misschien niet super griezelig waren, maar waarvan de haren op onze armen ooit wel helemaal recht stonden: hosting disasters!

 

 

Elke avond Halloween

Natuurlijk zijn er veel van dat soort herinneringen in de beginjaren van Level27, toen alles er nog niet zo professioneel aan toeging als nu. Zo werd er ooit een ftp-account op een shared server gehacket. Maar door de rechten die destijds ingesteld waren op de servers, zorgde dit voor ‘vieze plaatjes’ op álle websites. 


Een andere keer wilde een server gewoon niet meer herstarten. Maar wanneer je maar twee servers hebt, is dat natuurlijk geen kleine ramp. Elke avond kon dus een beetje Halloween zijn en voor enge verrassingen zorgen. Voor Maarten was het op dat moment dan ook helemaal goed geweest met Level27. 

Datacenter horror

Soms liggen de disasters natuurlijk uit onze handen en daar kunnen datacenters een grote rol in spelen. Jeroen kreeg bijvoorbeeld ooit om 23u in Berlijn een telefoontje dat er door een ongeval op de ring in Brussel een stroompanne werd veroorzaakt waarbij de generator in het datacenter niet gestart was. Gevolg? Alle websites offline. En helaas bleef het daar niet bij, om de paar weken bleef de stroom uitvallen en was het elke dag bang afwachten wat er die dag zou gebeuren.


Thomas maakte ooit mee dat er in een datacenter in Vilvoorde 400 volt op de circuits werd gezet. Dat het voor het bestaan van dat datacenter uiteindelijk niet geweldig goed is afgelopen, is dan ook geen verrassing. 


Een concurrent van ons heeft ooit een brandend rack uit het datacenter moeten sleuren. Een brand in het datacenter, dat is het ergste wat je als hostingpartner kan overkomen. Zelf hebben we ooit een blussing meegemaakt in Interxion. Dat lijkt allemaal oké, maar niet alles kan zomaar blijven doordraaien. Het blussen met gas komt met een enorme druk de ruimte binnen en heeft dus heel veel impact op de omgeving. Het ironische? Er was niet eens brand in het datacenter, wel een technische storing door kabels.


Hoe kan je dit voorkomen? Natuurlijk heb je nooit alles 100% in eigen hand (eng, toch?). Maar het is heel belangrijk om met de juiste partners samen te werken. Partners die professioneel te werk gaan en de juiste oplossingen voorzien voor moest er iets gebeuren. 

Brandende lucifer in het donker

De grote storage crash

7 februari 2013, een disaster waarover Peter soms nog nachtmerries heeft. Een donderdagmiddag waarop plots niets meer online was. Alles was kapot.

We draaiden toen nog Solaris op onze storage niveaus (ZFS in combinatie met iSCSI). Op dat moment liepen we tegen de limieten die deze platformen konden verwerken. En op een bepaalde dag was het inderdaad gedaan. Door een time out van 2 minuten concludeerde iSCSI dat de disk weg was, én werd die gewoon weggegooid. Alles kwam daardoor in read-only te staan. Daarbovenop was er nog een kleine bug waardoor de data corrupt was. 


Op dat moment draaiden we als backup oplossing Bacula. We hadden dus backups van alles, maar Bacula is een systeem dat alle files kent op de server en kopieert naar een andere locatie. Er moesten nieuwe virtuele machines worden opgezet en 70 vm’s gerestored worden vanuit de backups. Daar zijn Peter en Thomas dus een nachtje zoet mee geweest. 


Helaas was dat nog niet het einde van het verhaal. De machines waren gerestored op de overlevende storage machines. Die waren nieuwer en krachtiger, waardoor dat wel goed leek te komen. Toch niet: op 14 februari 2013 gebeurde identiek hetzelfde. Maar deze keer waren er geen overlevers en werden alle machines geïmpacteerd. Dat zorgde opnieuw voor een nachtje doorwerken. 


Binnen Level27 was dit een kantelpunt. Verder gaan op die manier ging niet, ofwel moesten we stoppen met hosting, ofwel professionaliseren. Om de disasters uit het verleden niet voor niets te hebben laten gebeuren, zijn we voor de laatste optie gegaan. Er werd advies ingewonnen bij andere hosters in Nederland en uiteindelijk gekozen voor FreeBSD met ZFS en NFS. Toen was het heel gek om NFS te kiezen om virtuele machines op te zetten, maar tot de dag van vandaag hebben we daar helemaal geen spijt van.

En nu?

Als we nu terugblikken op de disasters die ons overkomen zijn kunnen we concluderen dat we momenten hebben meegemaakt waar we echt hebben afgezien en moesten doorbijten. Maar achteraf gezien is dit wel relatief en hoort het bij de groeicurve die we hebben doorgemaakt. Laten we het in de toekomst vooral houden bij griezelige halloweenfeestjes op kantoor in plaats van gruwelijke taferelen in het datacenter!

Vragen of opmerkingen?

Laat het ons zeker weten via onze chatbox!
We helpen je graag verder.

Deel deze blog via