Microsoft maakt een nieuwe familie LM’s bekend. De Phi-3.5-lijn bevat drie modellen, waaronder voor het eerst een model zit dat de Mixture of Experts-technologie gebruikt. Deze technologie brengt het model bijna op het niveau van GPT-4o-mini.
Phi-3.5 is door Microsoft beschikbaar gesteld op Hugging Face. Er zijn drie varianten: Phi-3.5-vision, Phi-3.5-MoE en Phi-3.5-mini. In deze reeks LM’s experimenteert Microsoft voor het eerst met de Mixture of Experts-technologie en die benadering blijkt zijn vruchten af te werpen. In de meestgebruikte benchmarks voor AI-modellen eindigt Phi-3.5-MoE hoger dan Llama-3.1 van 8B, Gemma-2-9B en Gemini-1.5.Flash. Dat terwijl de Phi-3.5-variant uit veel kleinere modellen bestaan van 3,8B.
In een Mixture of Experts-techniek zijn er meerder modellen aanwezig, die ‘experts’ worden genoemd, in dit geval zijn dat zestien modellen. In werking gebruikt het model echter slechts 6,6 miljard actieve parameters, door twee experts in te zetten.
Andere voordelen van de inzet van deze technologie, zitten in de training van het LLM. Het trainen is met name minder omvangrijk en vereist minder computerkracht met goedkopere modellen. Phi-3.5-MoE werd getraind op 4,9 biljoen tokens op 512 H100-GPU’s. Het mini-model uit de Phi-3.5-familie heeft dezelfde rekenkracht ter beschikking en is getraind op 3,4 biljoen parameters.
Tekst en afbeeldingen
Phi-3.5-vision tot slot werd getraind met 500 miljard parameters op 256 A100-GPU’s. Het resultaat is een 4,2B-model. Het opvallende kenmerk aan dit model is dat er mogelijkheden zijn om zowel tekst als beeld te verwerken. Afbeeldingen of video kunnen daardoor als input gegeven worden.
De drie modellen bevatten een context-window van 128K tokens. Alle modellen zijn via Hugging Face beschikbaar onder een MIT-licentie. Ontwikkelaars kunnen de AI-modellen dus gebruiken zoals Microsoft ze vrijgeeft of aanpassen naar eigen noden.
Lees ook: Open-source AI legt OpenAI en Google het vuur aan de schenen