“Ons grootste en meest capabele AI-model”, dat is de eretitel die Gemini van Google krijgt. Dat zorgt dat de verwachtingen over het AI-model meteen hoog liggen. Al is dat niet geheel onterecht, want Gemini is wel een ‘next-gen AI-model’. Wat houden die veelbelovende woorden alleen in?

Heeft Google nu met de lancering van Gemini een AI-model in handen dat de modellen van OpenAI van de kaart veegt? Op papier toont het dat in ieder geval wel te hebben met Gemini Ultra, de meest geavanceerde versie van Gemini. Gemini Pro en Gemini Nano zijn de kleinere varianten, die van Google niet mogen meestrijden tegen GPT-4 in de benchmark-testen.

Meerdere vormen data-input mogelijk

Gemini is een AI-model dat meerdere types data kan verwerken. De sterktste kaarten heeft het model wel nog in de hand met tekstuele prompts. “Met een score van 90,0% is Gemini Ultra het eerste model dat beter presteert dan menselijke experts op het gebied van MMLU (massive multitask Language Understanding), dat 57 onderwerpen combineert, waaronder wiskunde, natuurkunde, geschiedenis, rechten, geneeskunde en ethiek, voor het testen van zowel algemene kennis als het probleemoplossend vermogen.” Deze primeur heeft het te pakken doordat Gemini niet zomaar het eerste antwoord geeft dat opkomt, geeft Google zelf aan.

Als next-generation AI-model kan Gemini ook andere vormen van data-input verwerken. Dat betekent voor een AI-chatbot dat de prompt ook de vorm van een afbeeldingen, audio, video of code kan aannemen. Dat is sinds kort geen uitzonderlijke eigenschap meer. ChatGPT kan door de toevoeging van nieuw het tekst-to-speech-model Whisper, gesprekken voeren met gebruikers in vijf verschillende stemmen. GPT-3.5 en GPT-4 werden vanaf datzelfde moment ook opengesteld voor de verwerking van afbeeldingen. Dat maakt dat ChatGPT Plus en Enterprise kunnen zien, horen en spreken.

Het aanleveren van code blijft het enige waar ChatGPT achterblijft. Het is wel mogelijk om met een tekstprompt te vragen naar een code voor een specifieke taak. Kijk die resultaten alleen wel goed na. Testen hebben in het verleden al bewezen dat ChatGPT een slordige programmeur is.

Lees ook: ChatGPT schrijft in de helft van de gevallen incorrecte, maar overtuigende code

ChatGPT kan alles, maar GPT-4 niet

Voor Google is de uitbreiding naar meerdere type data-input wel nog groot nieuws. Chatbot Bard kan tot op de dag van vandaag alleen overweg met tekstuele input. Dat is alleen niet voldoende om de kroon van ChatGPT als krachtigste chatbot af te nemen. Bard verdient die kroon wel en dat ligt aan de manier waarop Gemini Ultra is getraind. Wie goed oplette merkte al dat ChatGPT audio-input kan verwerken door de toevoeging van een nieuw model. De mogelijkheid zit dus niet in GPT-4 gebakken, maar ChatGPT kan wel meerdere modellen aanspreken om van verschillende types input iets zinnigs te maken. Gemini Ultra daarentegen is vanaf de opbouw getraind is om meerdere types data te verwerken. Daarom stuurt slechts één model Bard aan.

Het resultaat van deze onderscheidende aanpak van Google is een model met “verfijnd multimodaal redeneren en geavanceerde programmeermogelijkheden.” Om de capaciteiten van het model te berekenen wanneer de input zowel afbeelding, als video, als audio gebruikt, is de MMMU-benchmark geschikt. Gemini behaalde hier een resultaat van 59,4 procent en overtreft dus GPT-4V (56,8%). Het gaat hier bij GPT-4V dus wel om een gecombineerde score van de capaciteiten van GPT-4V en Whisper, die de audio-input voor zijn rekening moet nemen.

Wachten tot Bard Advanced

Voorlopig blijft het bij toekomstmuziek. Google kan op papier aantonen dat Gemini Ultra het bedrijf recht geeft op de leidende positie binnen de AI-wereld over te nemen van OpenAI. Die titel kan het pas opeisen als Gemini Ultra beschikbaar komt. Volgens de techgigant is het model momenteel nog niet voldoende getest om te lanceren. Begin volgend jaar verwacht het bedrijf daar verandering in te brengen en moet een tweede variant van Bard beschikbaar komen onder de naam Bard Advanced.

Zolang Bard Advanced niet beschikbaar is, zullen we voor de positie te bepalen Gemini Pro moeten vergelijken met de modellen van OpenAI. Daar gooit Google het op een vergelijking met GPT-3.5. “In zes van de acht benchmarks presteerde Gemini Pro beter dan GPT-3.5, onder meer in MMLU (Massive Multitask Language Understanding), een van de belangrijkste toonaangevende standaarden voor het meten van grote AI-modellen, en GSM8K, dat wiskundig redeneren op de basisschool meet.”

Ook hier kunnen we geen verdere vergelijking maken dan deze die Google aanleverde. Bard met Gemini Pro is namelijk niet beschikbaar in Europa. Om de geüpgrade versie van de chatbot aan het werk te zien, maakte Google wel een video in samenwerking met Youtuber Mark Rober. Hij test op een creatieve manier het redenerend vermogen van de chatbot en is zelf erg te spreken van de resultaten nu een project dat normaal één jaar in beslag neemt in drie weken tijd kan worden gebouwd.

Lees ook: Bard met Gemini Pro nog niet voor Nederland en België

We moeten het stellen met beloftes

Gemini belooft Google opnieuw de leidinggevende rol te geven in het AI-veld. Dat blijft voorlopig bij beloftes nu de meest geavanceerde versie van Gemini nog in de testfase is achtergebleven. In de categorie van gratis chatbots kan het alvast wel gebruikers overtuigen die eerder met GPT-3.5, doordat het over meer verfijning beschikt in het redeneren, samenvatten, begrijpen, coderen en plannen. Maar ook hier blijft de Europese markt voorlopig op zijn honger zitten want Bard krijgt voorlopig geen uitbreiding van Gemini Pro in Europa. Tot zeker volgend jaar zit je als Europeaan dus nog minstens even goed bij concurrent OpenAI.