5min

Anthropic gooit een nieuwe versie van Claude in de strijd tegen GPT-4 van OpenAI. Volgens testen van het bedrijf presteert Claude 3 beter dan GPT-4. Dat brengt Claude 3 als tweede LLM naar een positie waar het beter scoort dan GPT-4. Google versloeg het model namelijk al met Gemini Ultra, maar Anthropic zegt het met Claude 3 ook beter te doen dan dit LLM.

Claude 3 is de nieuwste LLM-serie van Anthropic. In totaal zitten er drie modellen verpakt onder de naam, die verschillen in prestaties en prijs. “Alle modellen kunnen een breed scala aan visuele formaten verwerken, waaronder foto’s, grafieken en technische diagrammen.” Claude 3 Opus is de sterkste variant en levert dus de beste resultaten op testen die de capaciteiten van LLM’s vergelijken.

Anthropic neemt in zijn vergelijking deels de capaciteiten van zijn voorgaande Claude 2.1-model onder de loep. Alle drie de modellen zouden beter presteren dan deze voorganger. De minder krachtige modellen kregen de naam Claude 3 Sonnet en Claude 3 Haiku. De verbeteringen tegenover de voorgaande generatie zouden zich voornamelijk bevinden op vlak van accuraatheid van antwoorden voor niet-Engelse prompts en snellere antwoorden. Bovendien zou er gesleuteld zijn aan de begrenzingen van het model, waardoor prompts die bijvoorbeeld data uit het model proberen te stelen, beter worden tegengehouden.

‘Beter dan GPT-4 en Gemini Ultra’

Tegelijk durft het zich ook aan een vergelijking met GPT-4 van concurrent OpenAI te wagen. Hiervoor vergelijkt Anthropic alleen de mogelijkheden van Claude 3 Opus. Dit model zou complexe vragen dubbel zo accuraat beantwoorden als Claude 2.1, maar ook GPT-4 en Gemini Ultra overtreffen op populaire AI-benchmarks. Eén van de testen die het gebruikte is MMLU (massive multitask Language Understanding). Deze test werd eerder ook gebruikt door Google om de prestaties van Gemini Ultra af te zetten tegen GPT-4 en behoort tot de standaard evaluatiemethoden.

De resultaten maakt Anthropic beschikbaar in onderstaande afbeelding.
Artikel gaat verder onder de afbeelding.

Een tabel met de percentages van de omzet van een bedrijf.

Opus en Sonnet zijn onmiddellijk beschikbaar in claude.ai en de Claude API. Het goedkoopste model, Claude 3 Haiku, komt “binnenkort” beschikbaar.

Hoofdinvesteerder Amazon stelt het model beschikbaar

Claude 3 verschijnt binnenkort ook in het aanbod van Amazon. Het bedrijf is samen met Google dan ook grote investeerder in het AI-bedrijf. Die investering vond plaats toen Claude 2 net was uitgebracht. Destijds werd afgesproken dat alle toekomstige generaties van het LLM op de AWS-dienst beschikbaar zouden komen. Het AWS Generative AI Innovation Center, waar klanten hulp kunnen vragen van een AWS-expert bij het bouwen van een AI-applicatie, zal ook aanspreekbaar zijn voor vragen rondom Anthropic-modellen.

Twee miljardeninvesteringen moesten zorgen voor genoeg financiële middelen om een sterk aanbod neer te zetten. Amazon als hoofdinvesteerder verwacht ook dat hun geld ingezet zal worden om tools te bouwen die de concurrentie aangaan met OpenAI. Dit concurrerend AI-bedrijf krijgt financiële ondersteuning van grote cloudconcurrent Microsoft.

Google spreidt het risico

Voor Google ligt het verhaal net iets genuanceerder. Het bedrijf ontwikkelde de LLM’s Gemini. Onder die naam zit een verzameling van modellen, die vanaf de opbouw zijn ontwikkeld om meerdere types data te kunnen verwerken. Dat betekent dat gebruikers multimodal prompts kunnen versturen in de vorm van tekst, afbeelding of video. Gemini kan deze verschillende formaten ook genereren als output.

Lees ook: Gemini vs. GPT-4: Google toont wat een next-gen AI-model biedt

Claude 3 zou echter de capaciteiten van Gemini Ultra alweer overtreffen. Is Claude 3 dan al het eerste teken dat Google beter zijn eigen AI-productie kan stilleggen? Er zijn verschillende redenen waarom dat niet aan de orde is. Zo is het bij Google mogelijk een betere prompt te geven als gebruiker. Gemini Ultra ondersteunt één miljoen tokens. Bij Claude 3 is de maximale capaciteit van de context windows standaard 200.000 tokens. De capaciteit van dit context window is belangrijk om een goed resultaat uit het LLM te verkrijgen. Een geschreven vraag kan zo meer details en nuances bevatten, terwijl een video-input uit een langer fragment kan bestaan.

Anthropic zegt wel dat het theoretisch mogelijk is om Claude 3 prompts van één miljoen tokens te laten verwerken. Deze capaciteiten stelt het echter alleen beschikbaar aan bedrijven die dit nodig hebben voor “specifieke gebruiksscenario’s”. De prijs voor één miljoen tokens input bedraagt vijftien dollar, voor één miljoen tokens output vraagt het bedrijf 75 dollar.

Opvallend is verder dat Anthropic er niet voor koos Claude 3 een multimodal systeem te maken. Claude 3 kan namelijk de verschillende types visuele input verwerken, maar kan als output alleen tekst of code genereren. Bovendien kan de gebruiker geen video of audio in de prompt verwerken voor Claude 3.

Google toonde al dat het de strijd van OpenAI kon winnen op de prestatietesten. Bovendien heeft het meer diensten om zijn LLM in te verwerken en aan te bieden aan het grote publiek. Denk daarbij aan een eigen browser en het mobiele besturingssysteem Android. De sterke prestaties van Gemini in combinatie met de grote mogelijkheden om het model te verspreiden, geven Google met Gemini een grote kans van slagen. Google maakte wel onmiddellijk bekend dat de Claude 3-modellen beschikbaar zullen komen in Vertex AI.

Wellicht houdt het bedrijf Anthropic dan achter de hand voor als de AI-ontwikkeling binnen Google in de toekomst toch spaak zou lopen. Naar alle waarschijnlijkheid zal Google echter hopen Anthropic alleen als een plan B te houden, want qua concurrentievermogen is het interessanter een eigen product te hebben dan een LLM te moeten delen met Amazon. Daarnaast is Anthropic interessant om het Vertex AI-aanbod van Google uit te breiden en diverser te maken. Dat aanbod is gericht aan bedrijven.

Al-concurrenten op de loer

Bovendien rolt er bij Google Deepmind binnenkort al Gemini 1.5 van de band. Dat model krijgt een nieuwe architectuur, die bestaat uit allemaal kleine specialistische modellen die zijn samengevoegd tot één model. Bij een query kan er ook enkel een submodel met minder rekenkracht aan het werk worden gezet. Hierdoor behaalt het betere maar vooral ook efficiëntere prestaties. Het is alleen nog niet duidelijk hoe de capaciteiten van dit model zullen uitpakken tegenover Claude 3. Gemini 1.5 is voorlopig alleen in preview beschikbaar en kon door Anthropic dus alvast niet worden vergeleken in de gedane testen.

Voor Anthropic is de lancering van Claude 3 alvast een bevestiging aan zijn investeerders dat Anthropic-ontwikkelaars modellen kunnen leveren op het niveau van OpenAI. Voor OpenAI is er opnieuw een uitdager voor het GPT-4 model bijgekomen. De laatste periode is het aantal concurrenten voor GPT-4 fors gestegen. Het AI-bedrijf mag dus zelf ook best eens wat sterks tonen om te kunnen verantwoorden dat de meeste aandacht van het publiek toch nog naar OpenAI gaat. De spraakfunctie op de smartphone-app van ChatGPT is dan maar een voorzichtige poging om iets te redden. Bij de hoofdinvesteerder van OpenAI, Microsoft, lijkt alvast het blinde vertrouwen in OpenAI niet meer aan de orde. Microsoft besloot vorige week het Europese Mistral AI als tweede partner onder de arm te nemen.

Lees ook: LLM voor Europa: Mistral AI zet Europa op de AI-kaart