2min

Het was waarschijnlijk een Belg, dat kunnen we met enige zekerheid zeggen want de Google Cloud in West-Europa was vandaag gedurende 70 minuten onbereikbaar en die wordt gehost in St. Ghislain in België. Een engineer aldaar had een nieuwe uplink aan het Google-netwerk gehangen, maar had daarbij een fout gemaakt waardoor deze nieuwe verbinding de hele Google Cloud onbereikbaar maakte.

De Google Compute Engines die draaien in de Google Cloud zijn overigens niet down geweest, ze hebben alleen tijdelijk geen internet gehad. Het probleem ontstond toen er een nieuwe uplink aan het Google-netwerk werd gehangen. Normaal gesproken gebeurd die via een geautomatiseerd systeem die ook het verkeer automatisch verdeeld over de verschillende uplinks. Dat systeem was echter niet beschikbaar vanwege een andere storing, daarop werd besloten de nieuwe uplink handmatig toe te voegen.

De engineer die de verbinding toevoegde realiseerde zich echter niet dat de nieuwe verbinding al het internetverkeer naar zich toe zou trekken, wat veel meer is dan de betreffende uplink aan capaciteit heeft. Daardoor ging de nieuwe uplink naar ongeveer vier minuten al onderuit vanwege een capaciteit probleem.

Het duurde echter 61 minuten voordat Google de storing in de smiezen had omdat het geautomatiseerde systeem dat wordt gebruikt voor de uplinks ook de monitoring verzorgd en pas na 61 minuten weer online kwam en direct aangaf dat de nieuwe lijn zwaar overbelast was. Daarop werd direct actie ondernomen en werd het verkeer weer goed verdeeld en de nieuwe uplink gecorrigeerd.

Google heeft direct laten weten dat de procedures worden aangepast, als het geautomatiseerde systeem niet beschikbaar is om wat voor reden dan ook, mogen er geen nieuwe uplinks meer worden toegevoegd aan de datacenters.