AWS SageMaker is ontworpen voor het ontwikkelen, trainen en uitrollen van machine learning-modellen. In het afgelopen jaar voegde Amazon meer dan 60 functies aan de oplossing toe. Het releasetempo is dusdanig hoog dat het bijhouden van elke mogelijkheid een uitdaging kan zijn. Daar kijken wij om de hoek.

AWS heeft SageMaker beduidend hoog in het vaandel staan. Met goede redenen, want SageMaker faciliteert de ontwikkeling van machine learning-modellen – en dergelijke modellen hebben de toekomst. Het begrijpen van de toekomst die Amazon met SageMaker voor ogen heeft is echter een uitdaging. Toch is overzicht belangrijk, want SageMaker speelt een hoofdrol in de toekomst van AWS. Dus ontdekken we de oplossing met behulp van zes updates tijdens de recente AWS re:Invent-conferentie.

Waar staat SageMaker voor?

SageMaker is een parapluterm voor software en hardware voor het ontwikkelen, trainen en uitrollen van machine learning-modellen. Elke stap in het ontwikkelings-, trainings- en uitrolproces heeft een SageMaker tool. Denk aan de verbinding van databronnen, het structureren van data, het trainen van modellen en de uiteindelijke uitrol.

Amazon is niet de enige aanbieder van oplossingen voor het proces. Sterker nog: in vrijwel elk onderdeel van de stack kom je applicaties met een open-source-oorsprong tegen. De onderscheidende factor van SageMaker is echter infrastructuur. Elke oplossing haakt direct op de computingdiensten van Amazon in. Gebruikers betalen niet per applicatie, maar de per uur benodigde computing power.

Toegankelijkheid staat bij recente vernieuwingen vooral centraal. Het streven is niet alleen om technologie voor het verzamelen van data en ontwikkelen van modellen te versterken, maar de technologie aan een bredere gebruikersgroep aan te bieden.

SageMaker Canvas

Het laatste brengt ons op SageMaker Canvas. Canvas is ontworpen om SageMaker toegankelijk te maken voor gebruikers zonder een specialistische achtergrond als data science. Bijvoorbeeld professionals in finance, marketing en human resources. De tool omvat een no-code interface voor het volledige modelleringsproces. Data is te verzamelen, voorbereiden en tot machine learning-modellen te verwerken, zonder ook maar een enkele regel code te hoeven schrijven.

De resulterende modellen zijn bruikbaar voor voorspellingen van uiteenlopende vraagstukken. Trends rondom omzet, medewerker- en klantbehoud zijn oppervlakkige maar realistische voorbeelden. De professionals bij wie de vraag naar inzicht in dergelijke onderwerpen begint, hangen normaliter van data scientists of klaargemaakte software af of om aan een antwoord te komen. Met SageMaker Canvas hoopt Amazon die afhankelijkheid gedeeltelijk weg te nemen. De basis van een volledig functioneel, voorspellend machine learning-model kan op eigen benen worden gebouwd.

SageMaker Ground Truth Plus

Het trainen van een ML-model draait om de voorziening van geheugen, wat wordt getraind met data. Data moet relevant zijn voor het doeleinde van een ML-model. Bestaat de ervaring van een ML-model uit data over financiën, dan kan het ML-model doorgaans geen effectieve voorspellingen doen over het onderwerp van HR.

SageMaker heeft het altijd mogelijk gemaakt om de data in een opslagomgeving met ML-modellen te verbinden. In 2018 breidde Amazon die mogelijkheid uit. AWS lanceerde SageMaker Ground Truth: een tool toe om data leesbaarder te maken voor ML-modellen door middel van ‘labeling’.

Op AWS re:Invent introduceerde Amazon een uitbreiding van Ground Truth. Met de dienst Ground Truth Plus stelt Amazon professionals ter beschikking. De professionals gebruiken Ground Truth om de datasets van een organisatie naar wens te labelen. Het resultaat is een snelle voorbereiding van kwalitatieve data om ML-modellen mee te kunnen trainen. Het betreft dus outsourcing van datavoorbereiding.

SageMaker Studio

Workflows voor ML-modellering zijn in de meeste programmeertalen te ontwikkelen. Aangezien ML-projecten met bijdragen van uiteenlopende specialisten worden gerealiseerd, en specialisten met verschillende talen en kladblokken werken, is het samenbrengen van code doorgaans tijdsintensief. Met SageMaker Studio, de derde lancering op re:Invent, hoopt Amazon het probleem te overbruggen.

SageMaker Studio is te beschouwen als een Visual Studio Code voor data science. De introductie omvat een integrated development environment (IDE) voor de ontwikkeling van workflows voor elke stap van het ML-modelleringsproces. Omdat snelle toegang tot databronnen daarbij belangrijk is, beschikt SageMaker Studio over een ingebouwde integratie met data lakes in Amazon S3 en Spark, Hive en Presto in Amazon EMR. Ook populaire frameworks voor de ontwikkeling van ML-modellen (bijvoorbeeld TensorFlow, PyTorch en MXNet) worden ondersteund.

Ten opzichte van bestaande IDE’s voegt SageMaker Studio niets baanbrekends toe. Wel centraliseert de IDE de benodigdheden voor ML-modellering in één omgeving, in een poging zich aantrekkelijk te maken voor iedere ontwikkelaar die bij een ML-project is betrokken. Als deze professionals de IDE gezamenlijk adopteren, kunnen hun bijdragen sneller in een coherent geheel worden verwerkt.

SageMaker Training Compiler

SageMaker Training Compiler introduceert op zijn beurt een gespecialiseerde compiler voor het optimaliseren van de code waaruit deep learning-modellen bestaan. Het optimaliseren daarvan dringt het verbruik van CPU’s terug. Data scientists die aan deep learning-modellen werken testen regelmatig meerdere versies van een model om de minst CPU-intensieve versie te vinden. Het proces is enorm tijdsintensief. Volgens Amazon kan code in TensorFlow en PyTorch met een enkele handeling van Training Compiler worden gecompileerd om minder vermogen van CPU’s te vragen.

SageMaker Inference Recommender

Introductie vijf bouwt verder op de brug die Amazon tussen infrastructuur en ontwikkeling slaat. SageMaker Inference Recommender adviseert over de optimale computing instance voor een ML-model. De overweging hangt normaliter af van langdurige testperiodes en specialistische kennis over de relatie tussen ML-modellen en infrastructuur. Om de optimale computing instance aan te kunnen raden voert de tool simulaties uit. De resulterende benchmarks worden gepresenteerd in SageMaker Studio. SageMaker Inference Recommender kan dan ook zowel voor een daadwerkelijke infrastructuurkeuze als benchmarking worden ingezet.

SageMaker Serverless Inference

Ook de laatste introductie, SageMaker Serverless Inference, bestrijkt het onderwerp van infrastructuur. De tool houdt oog op de momenten waarop een reeds uitgerold, actief ML-model wordt geraadpleegd. Bijvoorbeeld het moment waarop een chatbot op een klantenbericht reageert of een financiële professional een forecast uitdraait. Vervolgens zorgt Serverless Inference ervoor dat de benodigde infrastructuur uitsluitend op die momenten beschikbaar wordt gemaakt. Voor elk ander moment betaalt een gebruikmakende organisatie geen computing-kosten. Computing instances schalen automatisch op en af, afhankelijk van real-time benodigdheden. Kosteneffectiviteit staat hierbij centraal.

Tip: Houdt Amazon controle over de cloudmarkt?