Microsoft onthult grootste Transformer-model tot nu toe

Abonneer je gratis op Techzine!

Microsoft AI & Research heeft vandaag gedeeld dat het bedrijf het grootste op Transformer gebaseerde text generation-model tot nu toe ontwikkeld heeft. Microsoft open-sourcet verder ook een deep learning library genaamd DeepSpeed, om ‘distributed training’ van grote AI-modellen makkelijker te maken.

Met 17 miljard parameters is Turing NLG, zoals het model heet, twee keer zo groot als Megatron van Nvidia, nu het op één na grootste Transformer-model. Ook bevat het 10 keer zoveel parameters als GPT-2 van OpenAI. Turing NLG behaalt volgens Microsoft state-of-the-art resultaten op een aantal Natural Language Processing (NLP)-taken.

Tot nu toe is Turing NLG alleen beschikbaar in privé-demo’s. Modellen met de Transformer-architectuur voorspellen het volgende woord in een tekst. Ze kunnen onder meer worden gebruikt om verhalen te schrijven, antwoorden op vragen te genereren en teksten samen te vatten.

DeepSpeed

Microsoft heeft zoals vermeld ook DeepSpeed open source gemaakt, een deep learning library die bedoeld is om ontwikkelaars te voorzien van lage latency en een hoge doorvoer bij inference. DeepSpeed heeft de Zero Redundancy Optimizer (ZeRO), die is bedoeld voor het trainen van modellen met 100 miljoen parameters of meer op grote schaal. Microsoft heeft Turing NLG ook met deze optimizer getraind.

“Naast het besparen van tijd voor onze gebruikers, door documenten en e-mails samen te vatten, kan Turing NLG ook ervaringen met de Microsoft Office-suite verbeteren, door schrijfhulp te bieden aan auteurs en vragen te beantwoorden die lezers kunnen stellen over een document”, vertelde Corby Rosset van Microsoft AI Research over het project.

Zowel DeepSpeed als ZeRO worden open source beschikbaar voor ontwikkelaars en machine learning-experts, omdat het trainen van grote netwerken zoals de Transformerarchitectuur erg duur kan zijn. Ook komen er bij projecten op een dergelijke grote schaal vaak verschillende andere problemen voor, die bij DeepSpeed en ZeRO verminderd moeten voorkomen.