Microsoft heeft de code vrijgegeven voor Phi-4, een klein taalmodel dat tekst kan genereren en wiskundige problemen kan oplossen.
SiliconAngle schrijft hierover. Microsoft beschreef het model voor het eerst vorige maand. Aanvankelijk was Phi-4 alleen toegankelijk via Microsoft’s Azure Foundry-dienst voor kunstmatige-intelligentieontwikkeling. Het model is nu te downloaden op Hugging Face, een populaire website voor open-source AI-projecten.
14 miljard parameters
Phi-4 is de vierde iteratie van een reeks kleine taalmodellen die Microsoft in 2023 introduceerde. Het beschikt over 14 miljard parameters, de configuratie-instellingen die bepalen hoe een neuraal netwerk gegevens verwerkt. Microsoft-onderzoekers trainden het model gedurende 21 dagen op een cluster van 1.920 H100 grafische processors van Nvidia Corp.
Het model is gebaseerd op de Transformer-architectuur, een industriestandaard die de meeste grote taalmodellen ondersteunen. Wanneer ze een gebruikersprompt ontvangen, splitsen Transformer-modellen de invoer op in afzonderlijke woorden en bepalen de betekenis van elk woord door de omliggende tekst te analyseren. Ze geven bovendien prioriteit aan de delen van de tekst die als het meest relevant worden beschouwd.
Lagere kosten
Phi-4 implementeert een zogenaamd decoder-only variant van de Transformer-architectuur. Een standaard Transformer-model analyseert tekst vóór en na een woord om de betekenis te bepalen. Decoder-only modellen richten zich uitsluitend op de tekst die aan het woord voorafgaat, wat de hoeveelheid te verwerken gegevens vermindert en daarmee de inferentiekosten verlaagt.
In een onderzoeksartikel beschrijft Microsoft hoe het de outputkwaliteit van Phi-4 verbeterde met behulp van twee optimalisatietechnieken na training. Deze methoden staan bekend als directe voorkeuroptimalisatie en supervisie-gestuurde fijnregeling. Beide technieken voorzien een taalmodel van voorbeelden die uitleggen hoe het moet reageren op prompts.
In een interne evaluatie vergeleek Microsoft Phi-4 met Llama 3.3 70B, een groot taalmodel met vijf keer zoveel parameters. Volgens Microsoft presteerde Phi-4 beter op de populaire GPQA- en MATH-benchmarks. Deze twee testdatasets bevatten respectievelijk wetenschapsvragen en wiskundige problemen.
Steeds meer taalmodellen open-source
Phi-4 voegt zich bij de groeiende lijst van kleine taalmodellen die het afgelopen jaar door grote technologiebedrijven open-source zijn gemaakt.
In februari introduceerde Google een reeks kleine taalmodellen genaamd Gemma. De algoritmen in deze reeks hebben tussen de 2 miljard en 27 miljard parameters. Volgens Google kan de versie met 27 miljard parameters beter presteren dan modellen die meer dan twee keer zo groot zijn.
Meer recent bracht Meta twee Llama 3.2-modellen uit met minder dan vijf miljard parameters. Het bedrijf volgde deze release op door nog efficiëntere versies van deze modellen open-source te maken. Deze implementeren een machine learning-techniek genaamd kwantisering, waarmee de gegevens die een neuraal netwerk verwerkt worden gecomprimeerd, zodat minder hardware nodig is voor verwerking.