4min

Hoe zorg je voor hoge uptime en een korte hersteltijd? Als we de artikelen over AIOps mogen geloven, zijn self-healing systemen met AI het wondermiddel. Toch is er iets dat nog belangrijker is: een goed fundament dat context geeft aan observability. Pas dan kun je je proces effectief met AI inrichten. Het creëren van die context kan niet zonder ‘Human intelligence’.

Een goede AIOps-tool kan niet alleen systemen monitoren en observeren, maar ook zelfstandig ingrijpen bij bijzonderheden en daarop acties uitvoeren (self-healing). Dat klinkt fantastisch en dat is het ook. Maar het implementeren ervan is niet zo eenvoudig als het lijkt.

AIOps in het kort

Wat is AIOps nou eigenlijk? Simpel gezegd kan je AIOps opsplitsen in drie onderdelen: Observe, Engage en Act. Bij Observe verzamel je informatie. Dit is ook wel bekend als monitoring van logs en metrieken. Daar wordt echter in cloud native-omgevingen tegenwoordig ook distributed tracing aan toegevoegd om te kunnen achterhalen hoe verschillende softwarecomponenten (vaak microservices) met elkaar interacteren.

Bij Engage gaat het juist om het signaleren van mogelijke problemen, wat idealiter automatisch plaatsvindt.BijAct gaat over het ondernemen van herstellende of preventieve acties. Ook dit kan op een automatische of handmatige manier plaatsvinden. Maar waar liggen de uitdagingen?

Observe

Bij ‘Observe’ gaat het vaak al fout. Je mag verwachten dat een AIOps-tool automatisch softwareservices en infrastructuurcomponenten in kaart brengt, maar je mag niet verwachten dat deze automatisch context geeft hieraan. Deze context kan bijvoorbeeld een model zijn wat duidelijk maakt welke services samen een systeem vormen, of welke services goed moeten functioneren om een (onderdeel van) een bedrijfsproces goed te laten functioneren. Vervolgens kunnen deze processen weer gekoppeld worden aan de dienstverlening van de organisatie. Om dit samenhangend te maken, is het ook van belang dat software-services goed ingericht zijn en bijvoorbeeld naamgevingsconventies volgen die het ook mogelijk maken om de data op de juiste manier te verzamelen.

Engage

Op basis van contextuele informatie kan je de businessimpact van een verstoring duiden en kan je issues prioriteren. Deze kennis zit nu vaak in hoofden van mensen en niet in een digitaal systeem. Door die missende informatie lukt het een AIOps-systeem niet de juiste conclusies te trekken of prioriteiten te stellen. Het is belangrijk om de kennis die er al is over het IT-landschap in een model vast te leggen, zodat het AIOps-systeem hier direct gebruik van gaat maken. Daarnaast is er ook contextuele informatie die van buiten de organisatie komt, die moet ook zichtbaar worden voor een AI-systeem.

Context kaderen

Als het gaat om het geven van context, dan wil je je algoritme een zo goed mogelijk beeld geven van de omgeving waarin het opereert. Dit betekent dat je ook context moet creëren door kaders te scheppen als grenswaarden. Als de CPU bijvoorbeeld de 80 of 90 aantikt, dan moet je weten of dat een probleem is. Als je weet dat dit geen probleem is, is er geen vuiltje aan de lucht. Je algoritme kan echter door die hoge percentages wél panikeren en alarm slaan. Jij moet je AI-tool leren in welke processen die hoge percentages acceptabel zijn en in welke niet. Verder geldt dat een tool zonder context mogelijk verbanden legt die niets met elkaar te maken hebben. Een correlatie betekent niet altijd causaliteit.

Act

Het uitvoeren van herstelmaatregelen kan automatisch plaatsvinden. Hier kleeft ook een gevaar aan. Door automatisch pleisters te plakken, is er een significant risico dat het onderliggende probleem te weinig aandacht krijgt. Op lange termijn is het dan veel efficiënter om die bug te verhelpen in plaats van het downstream op te lossen. Daarnaast moet je bepalen in hoeverre een AI-tool autonoom mag handelen, daarvoor moet je het algoritme begrenzen. Als een tool automatisch opschaalt, zijn daar kosten aan verbonden. En als dit ’s nachts gebeurt kun je dat niet monitoren. Een regel kan dan zijn: Een AI-tool mag zelfstandig opschalen tot maximaal 500 euro per uur.

Hoe begin je met AIOps?

Wanneer je met AIOps aan de slag wil, moet je eerst vaststellen hoe volwassen de IT Operations-systemen en -processen zijn. Om geautomatiseerde acties mogelijk te maken (Act), dient eerst de automatische signalering op orde te zijn (Engage). En om dit mogelijk te maken dient de Observability (Observe) goed op orde te zijn.

AIOps kan dus enorme meerwaarde bieden aan een organisatie. Veel tools zijn hier klaar voor, veel organisaties nog niet. Daarvoor moet eerst een hogere mate van ‘volwassenheid’ worden bereikt. Kijk eerst wat AIOps kan bieden en welke verwachtingen er zijn. Een goede invulling van Observability is hiermee fundamenteel en vereist dus ‘Human intelligence’ om de contextuele informatie in te richten. Dat is cruciaal om investering in AIOps tools terug te verdienen.

Dit is een ingezonden van Info Support. Via deze link vind je meer informatie over de mogelijkheden van het bedrijf.