xAI toont preview van nieuwe multimodale LLM Grokv 1.5

xAI, de AI-startup van Elon Musk, heeft onlangs een eerste preview getoond van zijn nieuwe multimodale LLM Grok Vision (Grokv) 1.5. Dit LLM is krachtiger dan het originele, recent gelanceerde Grok-1.5 LLM en moet de competitie aangaan met gelijkwaardige LLM’s van onder meer OpenAI, Anthropic en Google.

De nu gepresenteerde preview van Grokv 1.5 van xAI laat zien dat het nieuwe Large Language Model (LLM) van deze AI-aanbieder veel krachtiger is dan zijn eerdere Grok-1.5 LLM dat al meer context kon verwerken dan het originele Grok-1 LLM. Een multimodaal LLM begrijpt en genereert naast tekst meerdere soorten modaliteiten zoals afbeeldingen, audio en video. Het nieuwe Grokv 1.5 LLM ‘begrijpt’ behalve tekst en beelden ook documenten, foto’s screenshots, grafieken, diagrammen en meer.

‘Real-world spatial understanding’

Onder de motorkap zou het nieuwe LLM makkelijk de concurrentie kunnen aangaan met andere min of mee gelijkwaardige LLM’s. Grokv 1.5 is gespecialiseerd in zogenoemde ‘multidisciplinary reasoning.’

Daarnaast beschikt het LLM over ‘real-world spatial understanding.’ Deze technologie geeft een LLM de mogelijkheid om met complete teksten te redeneren, wetenschappelijke afbeeldingen te begrijpen en op een ‘menselijke manier’ met visuele content om te gaan.

Whiteboard met een stroomdiagram voor een spel om getallen te raden en ernaast geschreven pythoncode, die de logica van het spel nabootst.

Het LLM kan hierdoor onder meer kan worden gebruikt voor het ‘vertalen’ van tekeningen in kinderverhalen, het identificeren van welke objecten in een groep de grootste zijn, het helpen van autobestuurders door te checken of er voldoende ruimte is om een object te omzeilen en het vertalen van tabellen naar CSV-format. Het zou zelfs kunnen zien of een houten vloer verrot is en moet worden vervangen.

Benchmark met vergelijkbare LLM’s

Naast het bieden van bovenstaande uitgebreide functionaliteit, is het nieuwe Grokv 1.5- LLm ook op de pijnbank gelegd voor het meten van de concurrentie met andere min of meer gelijkwaardige LLM’s. Volgens dit benchmark doet Grokv 1.5 het beter dan bijvoorbeeld GPT 4,5v, Claude, en 3Sonnet van Anthropic en de Claude 3 Opus-variant en Gemini Pro 1.5 van Google.

Vooral doet het nieuwe LLM het beter in het eigen ‘RealWorldQA’ benchmark van xAI. De AI-ontwikkelaar van Elon Musk heeft dit benchmark zelf ontwikkeld om real-world spatial understanding te kunnen meten.

Grokv 1.5 is binnenkort beschikbaar voor testers. In het begin de abonnees van de Premium+-dienst van het social mediaplatform X.

Lees ook: Chatbot Grok-1.5 van Elon Musk volgende week beschikbaar