2min

Het Cloudera Data Platform wordt geïntegreerd met door Nvidia aangedreven Apache Spark 3.0-libraries. Hierdoor moeten bedrijven GPU’s voor meer AI-toepassingen kunnen gebruiken.

Het is geen verrassende stap. Eerder dit jaar werden er al AMP’s (Applied Learning Prototypes) toegevoegd aan het Cloudera Data Platform. AMP’s draaien vaak op de GPU’s van Nvidia.

De libraries gebruiken in dit geval het RAPIDS-platform van Nvidia. De samenvoeging is bedoeld om te zorgen dat data scientists in hun werk een soepelere manier hebben om met data om te gaan en machine learning-modellen te schalen.

Cloudera

Nvidia wil met de Apache Spark-stap data preparation-taken en het trainen van modellen versnellen. Apache Spark 3.0 kan native draaien op Cloudera’s Data Platform. RAPIDS Accelerator voor Apache Spark is vanaf deze zomer beschikbaar binnen Cloudera Data Platform Private Cloud. Het idee is om straks nog meer van dit soort werk te verrichten. Denk aan accelerated mogelijkheden in CDP op het gebied van Deep Learning en Machine Learning, schrijft ZDNet.

Apache Spark 3.0.0 is de eerste release van de 3.x-lijn. Het bouwt voort de innovaties van Spark 2.x. Sinds de eerste release in 2010 is Spark uitgegroeid tot een van de meest actieve open source-projecten en het is een belangrijke engine voor big data-verwerking, data science, machine learning en data-analyse. De belangrijkste factor binnen Apache Spark is Spark SQL en de meest gebruikte taal op Spark is Python. PySpark heeft meer dan 5 miljoen maandelijkse downloads op PyPI, de Python Package Index.

Spark 3.0

Spark 3.0 wordt ingezet voor adaptieve query-uitvoering, het snijden van partities op een dynamische manier, en het 40 keer kunnen versneller van oproepen binnen R-functies. Er zit bovendien vergeleken bij Spark 2.0 een betere gebruikersinterface op. En per direct dus ook Cloudera-data, wat in de toekomst alleen nog maar meer zal worden uitgebreid.