Google heeft bekendgemaakt zijn BigQuery cloud data warehouse- en analytics-dienst te integreren met Kaggle. Kaggle is een online gemeenschap voor data scientists en andere geïnteresseerden in machine learning, om hun werk te analyseren en delen.

Door BigQuery met Kaggle – dat Google twee jaar geleden overnam – te combineren, wordt het mogelijk om data te query-en in een “intuïtieve ontwikkelomgeving”, zonder dat de informatie eerst verplaatst of gedownload moet worden, schrijft Silicon Angle.

Gebruikers kunnen SQL queries uitvoeren, machine learning-modellen trainen op SQL en deze modellen analyseren in Kernels. Kernels is de gratis gehoste Jupyter notebooks-omgeving van Kaggle. Jypyter notebooks zijn web-applicaties die het eenvoudiger maken voor data scientists om software-code te delen en hieraan samen te werken.

Werking

Om hier gebruik van te maken, moeten data scientists een Google Cloud-account aanmaken en deze linken naar hun Kernels notebook of script. Als dat gedaan is, kunnen ze hun data query-en en analyses op de data uitvoeren direct vanuit de notebook, aan de hand van de BigQuery API-library.

“Het is bijvoorbeeld mogelijk om de nieuwste data science-libraries als Matplotlib, scikit-learn en XGBoost te importeren om resultaten te visualiseren of om state-of-the-art machine learning-modellen te trainen”, aldus Jessica Li, product manager van Kaggle, en BigQuery-directeur Jordan Tigani. Daarnaast moeten data science de gratis compute kunnen gebruiken, die GPU’s, maximaal 16 GB aan RAM en negen uur aan uitvoertijd bevat.

Volgens Google is het query-en en analyseren van data met Kaggle een naadlozer proces, omdat het niet nodig is om de data eerst binnen een query editor te bevragen en de data vervolgens ergens anders heen te exporteren om de analyse te voltooien. Dit was eerder wel het geval. Daarnaast kunnen wetenschappers hun Kernels eenvoudig openbaar maken, omdat Kaggle een deelplatform is. Daardoor kan de data science ook met andere professionals besproken worden.