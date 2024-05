Het nieuwe open-source LLM Aya 23 zal in twee uitvoeringen verschijnen: een met 8 miljard parameters en een met 35 miljard parameters.

Voor beide uitvoeringen geldt dat ze focussen op de diepte van het model, door een high-performant getraind model te combineren met de Aya-datasetcollecties. “Het resultaat is een krachtig meertalig large language research model dat 23 talen bedient, waardoor de modernste mogelijkheden voor taalmodellering worden uitgebreid naar bijna de helft van de wereldbevolking”, aldus Cohere. Bij high-performant language models worden doorgaans een handje vol talen ondersteund

Aya 23 kan echter met 23 talen, waaronder Nederlands. Daarnaast ondersteunt het Arabisch, Chinees (vereenvoudigd en traditioneel), Tsjechisch, Engels, Frans, Duits, Grieks, Hebreeuws, Hindi, Indonesisch, Italiaans, Japans, Koreaans, Perzisch, Pools, Portugees, Roemeens, Russisch, Spaans, Turks, Oekraïens en Vietnamees.

Cohere bouwt met het nieuwe model voort op Aya 101, dat het eerder ontwikkelde om 101 talen te dekken. Bij dat model lag de focus echter vooral op breedte; AI brengen naar een groot aantal bedrijven. Aya 23 gaat dus meer voor diepte en moet zo veel vragen van bedrijven nauwkeurig kunnen beantwoorden.

De twee uitvoeringen

De versie met 8 miljard parameters focust op het bedienen van de “alledaagse ontwikkelaar”. Vanwege de kleinere omvang van het model heeft het minder resources nodig dan het grote model. Cohere ziet in deze versie van het LLM een middel om de drempel van AI-ontwikkeling te verlagen. Naar eigen zeggen democratiseert het bedrijf hiermee de toegang tot geavanceerde technologie. Onderstaande benchmarks tonen aan hoe die geavanceerde technologie daadwerkelijk presteert.

Zoals je ziet, scoort Aya 23 met 35 miljard parameters beter in de tests. Aya 23 verbetert hiervoor de decoder-only Transformer-architectuur. Modellen met dit ontwerp beoordelen ieder woord om de bedoeling en context te bepalen. Op die manier kan het LLM accuratere reacties geven dan modellen die op oudere technieken vertrouwen. Dit vereist echter wel meer computerkracht. Het model is daarom bedoeld voor ontwikkelaars met behoorlijke eisen.

Cohere is een van de generatieve AI-startups die in de afgelopen anderhalf jaar de aandacht trok van grote techbedrijven. Het haalde honderden miljoenen op. Onder meer Nvidia en Oracle investeerden in het bedrijf.

