Uit een onderzoek van Google en de universiteit van Toronto, zijn cijfers naar voren gekomen over het aantal herstelbare en onherstelbare fouten die geheugenmodules maken. De informatie is verkregen uit de zes verschillende serverplatformen die Google gebruikt in de verschillende rekencentra.

Onderzoekers vonden gemiddeld, afhankelijk van het platform, 2000 tot 6000 herstelbare fouten per gigabyte geheugen. Dat is gemiddeld vijftien keer zoveel als werd aangenomen naar aanleiding van laboratoriumonderzoeken. Jaarlijks kreeg een derde van de machines en acht procent van de dual inline memory modules (Dimm’s) te maken met zo’n herstelbare fout. Niet-herstelbare fouten troffen 1,3 procent van de machines.

Fouten lijden tot lasten

Onherstelbare fouten brengen hoge kosten met zich mee, de module moet vervangen worden. Bij herstelbare fouten is dat minder, gezien er in serverparken vaak modules met ‘error correction code’, kortweg ECC worden gebruikt. Deze duurdere modules werken gemiddeld zo’n vier procent langzamer als de tegenhangers zonder ECC. Geheugen zonder ECC is simpelweg geen optie, gezien de module dan verkeerde informatie verwerkt en doorstuurt naar verschillende rekeneenheden. In informatiegevoelige rekencentra is dat uiteraard funest.

De onderzoekers hebben ook onderzocht of de kwaliteit van de verschillende geheugenfabrikanten een factor is binnen de foutmeldingen. Dit is echter niet het geval. Ook temperatuur, chipset en grootte van de modules blijken geen grote invloed te hebben. Leeftijd van de modules is een veel grotere factor, alsook de intensiviteit van gebruik. Het blijkt dat als een module een herstelbare fout heeft gemaakt, diezelfde module, afhankelijk van het platform, 13 tot 90 keer meer kans maakt in dezelfde maand nog een fout te produceren. Ook is het maken van een herstelbare fout een goede voorspeller van het maken van onherstelbare fouten. Gemiddeld is de kans op een onherstelbare fout dan zo’n 27 tot 400 keer groter.

Advies ver te zoeken

Onderzoekers kunnen hieruit geen advies opmaken betreffende het vervangen van modules die een herstelbare fout hebben gemaakt. Alleen waar de kosten van een ‘downtime’ erg hoog zijn is het de moeite waard te berekenen of het kosteneffectief is de modules na een eerste fout al te vervangen. Voor de verschillen tussen de platforms, die tot de grote spreiding in resultaten leiden, hebben de onderzoekers geen goede verklaring. Ze speculeren dat die samenhangen met verschillen in ontwerp van de moederborden en de plaats van de DIMM’s daarop.