Een doorbraak op GenAI-gebied lijkt om de haverklap plaats te vinden. Toch is een nieuwe stap van Aleph Alpha bijzonder nuttig, in het bijzonder voor meertalige LLM’s.
Een nieuwe LLM-architectuur vanuit het Duitse Aleph Alpha elimineert zogeheten tokenizers, het opsplitsen van teksten ter AI-training in kleinere tokens. Wie fine-tuning loslaat op LLM’s, kan niet te veel afwijken van de eerder gebruikte tokenization. Zo zijn GenAI-modellen regelmatig getraind op het gehele publieke internet, waar een sterke bias richting de Engelse taal zit. Minder gerepresenteerde talen zijn hierdoor ook moeilijker te tokenizen. Dit kost vervolgens veel meer energie dan nodig is, zo stelt Aleph Alpha.
Ook AMD en Schwarz Digits/StackIT van Lidl-eigenaar Schwarz Group zijn van de partij. Zo blijkt dat het initiatief een nadrukkelijk Europees karakter heeft, zeker omdat het Finse SiloAI als onderdeel van AMD bij heeft gedragen aan de ontwikkeling van deze “turnkey oplossing” om LLM’s op een nieuw niveau te brengen.
Duurzaam en soeverein
De technische term voor de nieuwe werkwijze is Hierarchical Autoregressive Transformers (HAT). In plaats van het opdelen van een woord worden LLM’s voorzien van verwerking op het niveau van gehele woorden of enkele bytes. De precieze uitleg hierover is, net als de modellen van Aleph Alpha zelf, volledig open-source. Een ietwat toegankelijker verhaal is op de website van de Duitse AI-bouwer te lezen.
Oprichter en CEO van Aleph Alpha Jonas Andrulis ziet een grote kans voor soevereine AI-modellen voor elke cultuur, industrie en land. Dit reikt verder dan alleen westerse talen: andere alfabetten kunnen evengoed zonder tokenization voor fine-tuning worden ingezet zonder dat dit uiterst inefficiënt wordt.
Het is niet zo verrassend dat het Aleph Alpha is met een doorbraak als deze. “Ik heb Aleph Alpha opgericht met de missie om de soevereiniteit van landen en bedrijven over de hele wereld in het tijdperk van AI”, aldus Andrulis. “Voor onze klanten betekent dit open-source integratie, maximale transparantie en betrouwbaarheid voor een nieuw tijdperk van samenwerking tussen mens en machine, toekomstbestendige transformatieve AI-oplossingen en vrije keuze van de uitvoeringsomgeving.”
Met andere woorden: we zouden geen vergelijkbare stap als van OpenAI moeten verwachten richting een gesloten oplossing, wellicht luisterend naar de naam ChatHAT op basis van de nieuwe doorbraak. Het staat andere AI-spelers vrij om HAT toe te passen voor een flexibelere suite aan modellen voor elke toepassing.
AMD-factor
Een ander interessant wapenfeit van de Aleph Alpha-innovatie is dat Nvidia in geen velden of wegen te bekennen is, afgezien van benchmarks waarin diens hardware het aflegt tegen de concurrentie. In combinatie met een geoptimaliseerde ROCm-stack zijn de prestaties op AMD Instinct MI300-chips namelijk aanzienlijk beter dan op een Nvidia H100.
LLM-benchmarks voor de efficiëntie van AI-training werden uitgevoerd in zowel het Engels als Fins. Waarom precies Fins? Allereerst is er een logische connectie met Silo AI, de Finse AI-speler die door AMD is overgenomen in 2024. Fins is ook een bijzondere uitdaging: net als het Hongaars is het een Oeraalse taal, geheel anders gestructureerd en met een andere origine dan Romaanse (o.a. Frans en Spaans) en Germaanse talen (Engels, Duits, Nederlands, etc.). Zonder de architecturele doorbraak van Aleph Alpha zou een dergelijke taalgroep vooral afwijken van bekende tokens.
“Deze samenwerking brengt meer dan AI – het levert veerkracht en innovatie aan het Europese AI-ecosysteem”, zegt Keith Strier, SVP, Global AI Markets, AMD. “We zijn verheugd om samen te werken met Aleph Alpha en Schwarz Digits om Europa’s inheemse AI-capaciteiten te vergroten en een nieuwe AI trifecta voor overheden te creëren: een hypertransparant GenAI-platform, ontwikkeld en getraind binnen Europa, dat uitzonderlijke efficiëntie op onze AMD AI-infrastructuur.”
Lees ook: AMD’s nieuwste doelwit binnen datacenters: het netwerk