2min

Een typefout in een code-upgrade voor een scale unit van Microsoft Azure DevOps zorgde onlangs voor het wissen van 17 productiedatabases. De langdurige herstelperiode leidde vervolgens tot 10 uur downtime in de Azure-regio Zuid-Brazilië.

Volgens een verklaring van Microsoft maken beheerders van Azure DevOps, een suite applicatie lifecycle-diensten, regelmatig snapshots van productiedatabases voor onderzoek naar gerapporteerde klantenproblemen of het testen van verbeteringen. Hierbij zorgt een systeem op de achtergrond voor het dagelijks maken en na een bepaalde tijd verwijderen van deze snapshots.

Typefout in pull request

Tijdens een recente code-upgrade, waarbij verouderde Microsoft.Azure.Managment-packages door ondersteunde Azure.ResourceManager-NuGet packages werden vervangen, sloop een typefout de grote pull request binnen, zegt de techgigant.

Deze niet direct opgemerkte typefout zorgde ervoor dat de verwijdertaak de hele scale unit Azure SQL-server voor de regio Zuid-Brazilië met 17 databases verwijderde. Hierdoor konden klanten niet meer de bewuste server gebruiken.

10 uur downtime

Het herstelproces duurde maar liefst 10 uur. In de eerste plaats omdat klanten niet zelf Azure SQL-servers kunnen herstellen, maar aan Azure-engineers van Microsoft moeten overlaten. Dit nam volgens de techgigant tijd in beslag.

Daarnaast hadden de gewiste databases verschillende back-upconfiguraties. Het op één lijn krijgen van deze back-ups kostte nog meer hersteltijd.

Daarnaast bleef de hele scale unit voor klanten, nadat alle databases weer online waren, nog steeds onbereikbaar. Dit door complexe problemen met de webservers van de techgigant. Bij het online komen van het klantenverkeer kregen deze servers een overload aan verkeer te verwerken, waardoor ze alsnog offline gingen.

Microsoft heeft zijn klanten excuses aangeboden en verschillende fixes doorgevoerd die herhaling moeten voorkomen.

Tip: Google Cloud-datacenter Parijs al drie weken offline