Een implementatiefout verergerde het effect van een DDoS-aanval op Microsoft juist. Hierdoor waren delen van Azure en verschillende 365- en Purview-diensten urenlang onbereikbaar op dinsdag.
Dat laat Microsoft weten. Een onverwachte piek in het gebruik van de Azure Front Door en de Azure Content Delivery Network hadden een negatieve impact op de werkzaamheid hiervan. Dit kwam door een DDoS-aanval, maar deze aanval leidde slechts indirect tot de wereldwijde storing. Intern onderzoek wijst op “een fout in de implementatie van onze verdediging” die “de impact van de aanval versterkte in plaats van deze te beperken”, aldus Microsoft.
Derde storing in korte tijd
Het incident is opmerkelijk; hoe kon het gebeuren dat een DDoS-aanval iets bij Microsoft triggerde dat juist de impact versterkte? Het bedrijf belooft binnen 72 uur een Preliminary Post Incident Review (PIR) beschikbaar te stellen. Binnen twee weken volgt een Final Post Incident Review. Uitgaande van eerdere incidenten kunnen we een uitgebreide tijdlijn en zo’n 600 à 800 woorden aan uitleg verwachten in het laatste geval.
De wereldwijde impact is daarnaast opvallend. Microsoft heeft in de afgelopen maand twee prominente storingen gehad zonder inmenging van een andere vendor, waaronder het incident van deze week. De andere hiervan vond plaats in de centrale Verenigde Staten op 18 juli, maar deze werd later wat ondergesneeuwd door de beruchte CrowdStrike-storing van een dag erna.
Lees hierover: CrowdStrike onthult reden voor wereldwijde Windows-problemen
Alois Reitbauer, Chief Technology Strategist bij Dynatrace, vreest dat dergelijke storingen “steeds vaker onderdeel van de digitale ervaring van klanten” zullen worden. Dit terwijl ze een grote impact hebben. “De traditionele benadering van respons is dat teams meerdere tools inzetten om handmatig inzichten samen te voegen en zo het probleem te vinden. Deze benadering is niet schaalbaar.” In plaats daarvan moeten bedrijven AI inzetten, stelt Reitbauer. “Organisaties die de kracht van de drie AI-mogelijkheden (causaal, generatief en voorspellend) benutten, zijn beter in staat om zakelijke beslissingen te prioriteren en sneller te reageren op deze incidenten.”
Vergrootglas
Momenteel staan Microsoft-diensten onder een vergrootglas. Gebruikers die nog nooit van CrowdStrike hadden gehoord, zullen lang in de veronderstelling hebben geleefd dat het incident van 19 juli met name door Microsoft werd veroorzaakt. Toch kennen de incidenten van 18 juli, 19 juli en 30 juli compleet verschillende boosdoeners. Twee keer was het een Microsoft-configuratiefout, met een wereldwijde impact op 30 juli, terwijl de andere bovenal door een CrowdStrike-update kwam.
Het zou nuttig zijn als Microsoft in de latere rapportage over het incident enige nuance kan aanbrengen. Zo weten we niet hoeveel DDoS-aanvallen het bedrijf succesvol afwendt en hoe het dit mitigeert. Geen enkel bedrijf kan 100 procent beschikbaarheid garanderen, zeker als het de interesse kweekt van kwaadwillenden met het budget om schade toe te brengen. Dat heeft meermaals tot diepgaande exploitaties geleid, zoals de Russische en Chinese aanvallen in het afgelopen jaar lieten zien. Een DDoS-aanval is vergeleken met deze soort infiltraties eigenlijk kinderspel. Elke aanvaller met genoeg apparatuur kan het uitvoeren.
Beluister ook onze Techzine Talks-aflevering over het CrowdStrike-incident: