LinkedIn-tool bereidt data voor voor TensorFlow

LinkedIn heeft een intern gebouwde tool open source gemaakt. Het gaat om Avro2TF, een conversie-tool die data transformeert van Apache Spark naar een format dat gemakkelijk gebruikt kan worden door TensorFlow, voor machine learning-doeleinden.

Met de nieuwe tool kunnen datawetenschappers en andere gebruikers datasets in Apache Avro-format omzetten in een patroon dat gemakkelijk gebruikt kan worden door TensorFlow, schrijft Silicon Angle. Engineers van LinkedIn gebruiken het Apache Avro-format veel. Het voordeel van de tool is dat engineers en ontwikkelaars zich daardoor niet meer hoeven te focussen op het voorbereiden van de data, maar zich op hun machine learning-modellen kunnen focussen.

Engineers van LinkedIn stellen dan ook dat ze Avro2TF henbben ontwikkeld om een oplossing te creëren gericht op “schaalbare data-conversie”. De tool moet allerlei door Spark te lezen data-formats ondersteunen. LinkedIn zegt te denken dat veel organisaties hun voordeel kunnen doen met Avro2TF, omdat Microsoft niet het enige bedrijf is dat moeite had met het omzetten van data voor machine learning-doeleinden.

“Veel bedrijven hebben grote hoeveelheden machine learning-data in vergelijkbare sparse vector-formats, en het Tensor-format is voor veel bedrijven nog relatief nieuw”, aldus engineers Xuhong Zhang, Chenya Zhang en Yiming Ma. “Avro2TF dicht dit gat door een schaalbare Spark-gebaseerde transformatie en extensiemechanismes te bieden, om de data efficiënt om te zetten in TF-records die direct gebruikt kunnen worden door TensorFlow.”

Open source

Avro2TF is de laatste in een serie machine learning-gebaseerde tools die LinkedIn open source heeft gemaakt. Daarmee voldoet het aan zijn missie om “machine learning te democratiseren”. “Eén van de belangrijkste lessen die we van deze reis geleerd hebben, is het belang van het bieden van goede deep learning-platformen die onze modeling-engineers helpen om efficiënter en productiever te worden”, aldus de engineers.

Het bedrijf maakte in september vorig jaar bijvoorbeeld TonY open source beschikbaar. Daarmee is het mogelijk om het machine learning-framework TensorFlow te verbinden met data die opgeslagen staat in Apache Hadoop.