De foutieve CrowdStrike-update die leidde tot 8,5 miljoen uitgevallen Windows-systemen is inmiddels anderhalve week geleden. Nu het stof enigszins is neergedaald, deelt Microsoft hoe organisaties een herhaling van de impactvolle storing voorkomen.
Microsoft moet naar eigen zeggen “end-to-end resilience” prioriteren. Nog korter gezegd: uitval weren. Het moet niet mogelijk zijn dat ziekenhuizen, vliegvelden en andere kritieke infrastructuur zomaar via een update onklaar te maken zijn. Een CrowdStrike-driver met kernel-level toegang was onvoorbereid op onzinnige data, waardoor het wereldwijd Blue Screens of Death creëerde. Toch is het ook aan Microsoft én organisaties om hun eigen duit in het zakje te doen, zodat dergelijke storingen niet meer gebeuren.
Best practices
Het bericht van Microsoft is summier, maar bevat zes concrete adviezen. Een rampenplan is vooraanstaand, gevolgd door de goede maar voorspelbare raad om vaak en veilig te backuppen. Daarnaast kunnen organisaties Windows sneller aan de praat krijgen door restore-points en recovery-opties van het OS in te zetten. Hiertoe behoort ook het snapshotten van virtual machines.
Deployment rings gelden tevens als advies. Dit suggereert dat organisaties niet al hun systemen tegelijk updaten, maar geleidelijk, bijvoorbeeld via Windows Autopatch. Hoe terecht ook had dit advies helemaal niets uitgehaald met de CrowdStrike-storing in kwestie. In dit geval betrof het namelijk een update die zonder inmenging van IT’ers plaatsvond. Inmiddels biedt CrowdStrike eindelijk wel deze feature, maar het was hierin hardleers.
Tip: CrowdStrike onthult reden voor wereldwijde Windows-problemen
Het sextet aan tips wordt afgerond met een nadruk op Windows-security en fleet management. By-default security-opties moeten aanblijven, zoals firewalls, encryptie, biometrische verificatie en endpoint detection and response (EDR). Een cloud-native aanpak om Windows-systemen te beheren, voorkomt dat veel handwerk nodig is.
Tegenstrijdig
De korte Microsoft-berichtgeving is tegenstrijdig. Met als kop “Windows resiliency” en een aanloop naar interne praktijken om het OS sterker te maken in de eerste paragrafen, zou je mogen verwachten dat er meer aandacht gaat naar de rol van Microsoft zelf. Hoe kan het ervoor zorgen dat een CrowdStrike-driver niet een Windows-systeem vloert bij foutief gedrag? Immers is deze WHQL-certified en daardoor dus voorzien van Microsoft-goedkeuring en -verantwoordelijkheid.
Lees ook: Wereldwijde IT-storing door mislukte CrowdStrike-update: wat ging er mis?
Volgens een Microsoft-woordvoerder móést het bedrijf deze toegang op kernel-niveau toestaan, en wel op aandringen van de Europese Commissie (EC) in 2009. Tegenover The Wall Street Journal stelt deze woordvoerder dat een security-vendor hierover had geklaagd omdat Microsoft met de eigen oplossingen wél op het allerdiepste niveau verdediging kon bieden.
Die verdediging is niet legitiem. Hoewel Microsoft door dit compromis met de EC een hoop extra certificatiewerk in de schoenen geschoven kreeg, is het deze taak waarin het tekortschoot. Ongeacht het feit dat CrowdStrike allerlei oplossingen heeft geboden om het eigen uitrolproces te verbeteren, moet het niet mogelijk zijn dat een tekortschietende driver goedkeuring krijgt. De vraag “Wat als een third-party kernel-driver onzinnige data ontvangt” kan niet worden beantwoord met “dan crasht Windows”. Althans, niet als Windows-systemen voor kritieke toepassingen worden ingezet.
Microsoft heeft inmiddels een uitgebreide uitleg over kernel-level drivers en beschermingsmethoden binnen Windows. Die zijn uitvoerig, maar tegelijkertijd niet veranderd sinds het CrowdStrike-incident. De veelvoud aan safeguards roept de vraag op hoe het ooit zo mis had kunnen gaan als anderhalve week geleden.
Beluister ook onze Techzine Talks-aflevering over het CrowdStrike-incident: