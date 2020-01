Google heeft onlangs zijn clouddienst Dataproc geüpdatet met nieuwe features. Dataproc-gebruikers kunnen met de nieuwe update gebruik maken van GPU’s en verschillende geautomatiseerde features.

De techgigant geeft aan dat de nieuwe features voornamelijk machine learning-projecten een boost zullen geven en het dagelijks onderhoud van deze projecten zullen vergemakkelijken.

Google Dataproc

Dataproc is een clouddienst, die het draaien van Apache Spark en Apache Hadoop clusters versimpelt. Taken die normaal gesproken uren tot dagen zouden duren kunnen dankzij Dataproc in seconden tot minuten worden uitgevoerd.

Acht graphics processing units

Met de nieuwe features voegt Google meer efficiëntie toe aan de dienst. Zo kunnen Dataproc gebruikers nu bij machine learning projecten GPU’s toevoegen aan Hadoop en Spark clusters. Deze kunnen AI-modellen vele malen sneller draaien dan een standaard gecentraliseerde verwerkingseenheid. Gebruikers kunnen in de publieke cloud profiteren van acht Nvidia GPU’s, waaronder het Tesla V100 model.

Automatisch schalen van clusters

Afgezien van de GPU’s kunnen Google Dataproc-gebruikers met de update nu ook gebruik maken van de autoscaling feature. Hiermee kan de grootte van een cluster automatisch omhoog of omlaag geschaald worden, afhankelijk van de behoefte. Dit heeft verschillende voordelen. Zo kan met de feature beter omgegaan worden met abrupte pieken, wanneer een applicatie bijvoorbeeld een grote hoeveelheid data stuurt naar een Spark project. Daarnaast hoeven ingenieurs niet meer handmatig te zorgen voor de extra infrastructuur bij een algoritme wanneer een testcluster opgeschaald moet worden.

Chris Crosbie van Google’s cloud analytics group legt uit dat met de autoscale feature een cluster automatisch naar behoefte zal groeien om de volledige dataset te verwerken om vervolgens automatisch weer omlaag te schalen wanneer de verwerking klaar is.

Overige nieuwe features

Een andere nieuwe feature is de mogelijkheid om een limiet in te stellen met betrekking tot hoe lang een cluster inactief mag zijn voordat Dataproc deze automatisch verwijdert. Verder kunnen Dataproc-gebruikers nu ook bepaalde taken in SparkR automatiseren. SparkR is een extensie van Spark, waarmee R programma’s in het framework gedraaid kunnen worden.