LinkedIn maakt TonY open source om TensorFlow op Hadoop te draaien

LinkedIn maakt zijn tool TonY open source beschikbaar. Met de tool is het mogelijk om het machine learning-framework TensorFlow te verbinden met data die opgeslagen staat in Apache Hadoop. 

Google lanceerde de open source software library TensorFlow in 2015. Daarmee moet het gemakkelijker worden voor ontwikkelaars om deep learning-modellen te ontwerpen, bouwen en trainen. Hadoop is een distributed processing software-framework dat de verwerking van data en opslag van big data managed.

TonY werd door LinkedIn gebouwd omdat er steeds meer vertrouwd wordt op diepe neurale netwerken om een aantal van de functies op de website mogelijk te maken. Het gaat onder andere om de nieuwsfeed en smart replies. Veel van de functies zijn gemaakt met TensorFlow, dat geen betrouwbare manier had om te verbinden met Hadoop-clusters.

TensorFlow zelf ondersteunde al wel ‘distributed training’, wat een techniek is die gebruikt wordt bij het verwerken van grote datasets zoals die in Hadoop. Maar LinkedIn had het probleem dat dit proces met de hand opgezet moet worden, wat een flinke taak is. De meeste datawetenschappers kunnen dit bovendien niet doen.

TonY

TonY moet de taak automatiseren. De software werkt vergelijkbaar met hoe MapReduce de mogelijkheid geeft om Apache Pig- of Apache Hive-scripts te draaien op Hadoop. De software biedt een aantal functies waarmee distributed training voor neurale netwerken verbeterd moet worden. Het gaat onder meer om het plannen van GPU voor het beter managen van resources en ondersteuning voor TensorBoard.

De tool wordt nu open source gemaakt, zodat anderen die interesse hebben in het draaien van distributed machine learning op Hadoop het project kunnen gebruiken en er aan bij kunnen dragen. TonY is vanaf nu te downloaden via GitHub.