Microsoft Research presenteert Magma. Dit is een geïntegreerd AI-basismodel dat visuele- en taalverwerking combineert om software-interfaces en robotsystemen te besturen.

Dit meldt Ars Technica. Als de resultaten ook buiten Microsofts interne tests standhouden, dan betekent dit een belangrijke stap vooruit voor een veelzijdige multimodale AI die zowel in de fysieke als digitale wereld interactief kan opereren.

Microsoft beweert dat Magma het eerste AI-model is dat niet alleen multimodale data verwerkt, zoals tekst, afbeeldingen en video, maar er ook direct op kan handelen. En dit ongeacht of het gaat om het navigeren van een gebruikersinterface of het manipuleren van fysieke objecten. Het project is een samenwerking tussen onderzoekers van Microsoft, KAIST, de University of Maryland, de University of Wisconsin-Madison en de University of Washington.

Er waren eerder soortgelijke AI-gestuurde robotica-projecten. Denk aan Google’s PALM-E en RT-2 of Microsofts ChatGPT for Robotics. Die gebruikten grote taalmodellen (LLM’s) als interface. Maar in tegenstelling tot veel eerdere multimodale AI-systemen, die aparte modellen nodig hebben voor perceptie en controle, integreert Magma deze capaciteiten in één basismodel.

Stap naar agentic AI

Microsoft positioneert Magma als een stap naar agentic AI. Daarbij gaat het om een systeem dat autonoom plannen opstelt. En dat complexe taken kan uitvoeren namens een mens, in plaats van alleen vragen te beantwoorden over wat het ziet. Microsoft schrijft in zijn onderzoeksrapport dat Magma plannen kan formuleren en acties uitvoeren. Als de gebruiker een doel omschrijft dan is Magma in staat dat doel te bereiken.

Microsoft is niet de enige die agentic AI nastreeft. OpenAI experimenteert met AI-agenten via projecten zoals Operator. Die applicatie kan UI-taken in een webbrowser uitvoeren. Google verkent agentic AI met meerdere agentic projecten, waaronder Gemini 2.0.

Meer dan een perceptueel model

Magma bouwt voort op transformer-gebaseerde LLM-technologie. Hierbij worden trainingsgegevens in een neuraal netwerk ingevoerd. Toch verschilt het van traditionele taalmodellen als GPT-4V. In plaats van zich alleen te richten op verbale intelligentie, voegt Magma ook ruimtelijke intelligentie toe. Door training met een mix van afbeeldingen, video’s, robotica-data en UI-interacties, beweert Microsoft dat Magma een écht multimodale agent is. En niet slechts een perceptueel model.