AWS heeft Amazon EMR Studio uitgebracht. Met de ontwikkelomgeving kunnen data scientists applicaties bouwen in de talen R, Python, Scala en PySpark, met directe integratie met Amazon EMR.

EMR Studio is tijdens het Amazon re:Invent-evenement in 2020 aangekondigd als previewversie. Met de IDE richt Amazon zich op data scientists en data engineers. Die kunnen de IDE gebruiken om applicaties te ontwikkelen, visualiseren en debuggen in de eerdergenoemde programmeertalen.

Jupiter Notebooks

Om het debuggen te vereenvoudigen, maakt Amazon gebruik van Jupiter Notebooks. Dit is een opensource-webapplicatie waarmee live documenten gedeeld kunnen worden met code, berekeningen, visualisaties en tekst, vergelijkbaar met de werking van Google Docs. Verder moeten tools als Spark UI en YARN Timeline Service het debuggen verder vereenvoudigen. De code die binnen Jupiter Notebook geschreven wordt, kan direct worden gedraaid op Amazon EMR binnen Amazon EC2 of Amazon EKS.

Nieuwe features op basis van feedback

Op basis van feedback van de previewgebruikers, heeft Amazon enkele nieuwe features aan EMR Studio toegevoegd. Zo is het mogelijk om de EMR-console, AWS CloudFormation of de AWS CLI te gebruiken om een nieuwe instantie van EMR Studio aan te maken. De EMR-console begeleidt de gebruiker door een aantal stappen om eenvoudig toegangsbeheer op te zetten en gebruikers aan groepen aan een EMR Studio toe te wijzen. In de gebruikersinterface kunnen de configuraties weer worden bekeken en zo nodig verwijderd. In AWS CloudFormations kan het aanmaken van Studio-instanties zelfs worden geautomatiseerd op basis van een template. Ook is er ondersteuning toegevoegd voor authenticatie met Microsoft Active Directory.

Templates

Een andere nieuwe mogelijkheid is dat beheerders nu de beschikbare parameters in clustertemplates kunnen beperken. Wanneer een gebruiker dan een cluster wil aanmaken op basis van de template, kunnen alleen de aangegeven parameters worden aangepast. Verder heeft Amazon enkele voorbeelden van notebooks toegevoegd om het eenvoudiger te maken om applicaties voor data science te bouwen in EMR Studio. Hieronder vallen voorbeelden voor PySpark-code voor het queryen van een Hive-metastore en Python-code voor visualisatie. Gebruikers kunnen de code naar hun eigen EMR Studio-workspace kopiëren, die waar nodig aanpassen en vanaf daar draaien.

Amazon EMR Studio is vanaf nu beschikbaar. Op de website van Amazon is een tutorial te vinden om met de IDE van start te gaan.

Tip: Amazon CodeGuru ondersteunt nu ook Python