2min

Tags in dit artikel

AWS heeft zijn Managed Workflows for Apache Airflow-dienst geïntroduceerd. Met deze beheerde dienst voor Apache Airflow kunnen bedrijven makkelijker hun data processing-workloads in een (public) cloudomgeving verwerken.

Het nu uitgebrachte AWS Managed Workflows for Apache Airflow (MWAA) is een beheerde versie van de open-source tool Apache Airflow. Met deze tool kunnen gebruikers taken of processtappen voor data -ook wel data-workflows- creëren, inplannen en in de gaten houden. De tool zorgt ervoor dat data processing-pipelines eenvoudiger worden gemaakt door deze in kleinere taken te ‘knippen’ en ze vervolgens uit te voeren als een stappenproces of workflow.

Functionaliteit

AWS MWAA helpt gebruikers vooral met het automatiseren van voorheen handmatige taken in Apache Airflow. Denk daarbij aan het installeren, onderhouden en schalen van alle data-workflows, maar ook het bijhouden van de security, authenticatie en autorisatie.

Als de managed tool op hetzelfde public cloud-platform werkt, AWS dus, hoeven eindgebruikers ook geen rekening meer te houden met de onderliggende infrastructuur. Het complete traject kan daardoor flinke kostenbesparingen opleveren, aldus AWS.

AWS MWAA is daarom geschikt voor het mogelijk maken van complexe workflows en het orkestreren van meerdere Extract, Transform en Load (ETL) jobs met verschillende technologieën in complexe ETL workflows. Daarnaast is de tool ook geschikt voor het voorbereiden van data om deze te trainen voor machine learning.

Werking AWS MWAA

Concreet orkestreert en stelt AWS MWAA workflows in met behulp van in Python geschreven Directed Acyclic Graphs (DAG’s). De tool wordt een S3 bucket geleverd waarin zich de DAG’s, plugins en Python dependencies list zich bevinden of naar upgeload zijn. Deze upload kan handmatig plaatsvinden of via een code pipeline. Dit om het ETL-proces te beschrijven en te automatiseren. Vervolgens kunnen beheerders de DAG’s draaien en in de gaten houden vanuit de CLI, SDK of Airflow user interface.

Amazon MWAA is algemeen beschikbaar in de AWS cloudregio’s US East (Northern Virginia), US West (Oregon), US East (Ohio), Asia Pacific (Singapore), Asia Pacific (Tokyo), Asia Pacific (Sydney) en Europa (Ierland, Frankfurt en Stockholm).