AWS introduceert met DataBrew drag-and-drop data cleansing

Abonneer je gratis op Techzine!

AWS heeft zijn bestaande AWS Glue data cleansing tool de update DataBrew gegeven. Met AWS Glue DataBrew zijn klanten in staat makkelijker en sneller hun data op te schonen en gereed te maken voor visuele analytics-oplossingen.

Met de dienst kunnen vooral data scientists en data-analisten makkelijker data prepareren voor onderzoek. Met AWS Glue DataBrew is kennis van coderen niet meer nodig, vindt AWS. Via een visuele interface kunnen data scientists en data-analisten nu enkele stappen in het prepareren van datasets voor analyse automatiseren. Dit moet hun werk behoorlijk versimpelen.

Veel automatische functionaliteit

Concreet geef de visuele interface van AWS Glue DataBrew gebruikers toegang tot vele datasets. Denk hierbij aan de opgeslagen datasets in AWS S3, Amazon Redshift data warehouse, de AWS Aurora en AWS Relational Database Service (RDS) databases, iedere JDBC-toegankelijke data store en tot data die via de AWS Glue Data Catalog is geïndexeerd.

De tool maakt het mogelijk om in de diverse datalocaties automatisch voorbereidingsstappen te laten uitvoeren als extract, transform, load. Daarnaast is het mogelijk om naar patronen te zoeken, datasets samen te voegen of andere functionaliteit te gebruiken om data aan te passen.

AWS geeft aan dat het voor AWS Glue DataBrew ongeveer 250 voorgeconfigureerde aanpassingstaken voor data heeft ingebouwd. Denk hierbij aan toepassingen als het filteren van afwijkende data, het standaardiseren van formats en het corrigeren van ongeldige waarden. Deze ingebouwde functionaliteiten besparen, zo stelt de techgigant, veel tijd en veel handmatig codeerwerk.

Output direct klaar voor gebruik

Wanneer de datasets klaar zijn voor verwerking, is het mogelijk om deze vanuit AWS Glue DataBrew direct in AWS te gebruiken of in diensten van derde partijen om meer inzichten te krijgen. Diensten die worden ondersteund, zijn onder meer AWS SageMaker voor machine learning, AWS Redshift en AWS Athena voor analytics en AWS QuickSight of Tableau voor business intelligence-toepassingen.

Volledig beheerde dienst

AWS Glue DataBrew kan makkelijk door klanten worden geïmplementeerd in hun IT-omgevingen. De dienst is serverless en volledig beheerd. Hierdoor hoeven klanten geen benodigde rekenkrachtbronnen te configureren, te plannen of te onderhouden.

De dienst voor data cleansing is nu beschikbaar in de cloudregio’s US East (N. Virginia), US East (Ohio), US West (Oregon), EU (Ierland en Frankfurt) en Asia Pacific (Sydney en Tokio). Binnenkort komt de dienst ook in andere cloudregio’s beschikbaar.