Hugging Face scoort AI-modellen op medische betrouwbaarheid

Hugging Face heeft recent zijn Open Medical-benchmark geïntroduceerd. Deze oplossing test LLM’s op de betrouwbaarheid en kwaliteit van de medische informatie die ze verschaffen. Hiermee wil het AI-platform ervoor zorgen dat de medische sector op een verantwoordelijke wijze GenAI kan gebruiken.

GenAI wordt steeds vaker in de gezondheidszorg gebruikt, maar de diverse onderliggende LLM’s zijn nog steeds niet betrouwbaar genoeg voor deze toepassing. Fouten en bepaalde vooroordelen zouden nog steeds foutieve medische uitkomsten genereren.

Tip: ChatGPT is een slechte dokter, maar dat zou niemand moeten verbazen

Open Medical-LLM benchmark

AI-platform Hugging Face wil dit probleem aanpakken en heeft hiervoor een eigen benchmark, Open Medical-LLM, gecreëerd. Dat deed het in samenwerking met Open Life Science AI en de University of Edinburgh’s Natural Language Processing Group. Deze AI-benchmark meet de capaciteiten van de verschillende LLM’s op hun betrouwbaarheid rondom medische onderwerpen en vragen.

Tijdlijndiagram dat de opschaling van AI-modellen toont van bert-achtig naar gpt-3-achtig, waarbij significante modellen op grootte worden gemarkeerd van 0,1 miljard tot 540 miljard parameters.

Denk daarbij onder meer aan vragen als hoe de betreffende modellen patiëntendossiers samenvatten of welke antwoorden zij geven op vragen over gezondheid.

Onder de motorkap is het Open Medical-LLM-benchmark van Hugging Face eigenlijk een samenraapsel van andere testtrajecten van medische informatie. Voorbeelden hiervan zijn MedQA, PubMedQA en MedMCQA. Het Doel van de nieuwe bechmark is het testen van de LLM’s op algemene medische kennis op terreinen als anatomie, farmaceutica, genetica en de klinische praktijk. Hiervoor bevat de benchmark multiple-choice en open vragen die een medische redenering en begrip vereisen. De betreffende vragen zijn daarbij gebaseerd op medische examens en biologietoetsen uit de VS en India.

Afbeelding van een quizinterface op een computerscherm, met een meerkeuzevraag over behandelingsopties voor een 28-jarige zwangere vrouw met een oorontsteking.

LLM’s niet zaligmakend

Ondanks dat Hugging Face met de tool probeert de kenniskwaliteit van LLM’s voor de medische sector inzichtelijk te maken, waarschuwen critici voor te veel vertrouwen in de benchmark. Dat is vooral omdat zij vinden dat het gat tussen het beantwoorden van vragen over medische zaken via AI en de daadwerkelijke medische praktijk in hun ogen nog steeds te groot is.

De onderzoekers van Hugging Face zijn het overigens hiermee eens. Zij vinden dat LLM’s voor medische doeleinden niet door patiënten moeten worden gebruikt, maar veel eerder moeten worden getraind voor tools die medische specialisten kunnen ondersteunen.

Lees ook: LLM’s uit Hugging Face nu direct via Cloudflare uitrol- en verspreidbaar

Lees meer over Applications

Topartikel

Claude Fable 5 is Mythos voor het grote publiek

Na maanden van speculatie is een LLM op het niveau van Mythos Preview eindelijk een volledig beschikbaar AI-m...

Erik van Klinken 9 juni 2026

Topartikel

De paniekzaaierij van Anthropic over AI is niet wat het lijkt

"Recursieve AI" blijft puur speculatief

Erik van Klinken 5 juni 2026

Voormalig hoofd AI bij Meta noemt xAI van Musk een “mislukking”

In een ongewoon openhartige beoordeling van een AI-concurrent heeft Yann LeCun, oprichter van AMI Labs en voo...

Erik van Klinken 18 juni 2026

Kleine groep gebruikers houdt toegang tot Mythos

Anthropic heeft de toegang tot zijn meest geavanceerde AI-modellen voor een groot deel van de gebruikers stil...

Mels Dees 3 dagen geleden

Expert aan het woord

Tech calendar

Hugging Face scoort AI-modellen op medische betrouwbaarheid

Insight: IT in Healthcare

Open Medical-LLM benchmark

LLM’s niet zaligmakend

Blijf op de hoogte, abonneer!

SpaceX koopt Cursor voor 60 miljard

AI zet decennia cybersecurity op zijn kop

Van app-centrisch naar open en datacentrisch: kan Everpure de belofte waarmaken?

Claude Fable 5 en Mythos 5 geblokkeerd: is AI nu te gevaarlijk?

Discover how edge AI transforms manufacturing with private 5G

How Linkerd brings simplicity to service mesh and AI security

How Falco catches threats that static analysis misses

How HPE brought two networking giants together in under one year

De strategische opdracht: bouwen aan een AI-stack waar Europa op kan vertrouwen

De rol van een WMS systeem in de moderne IT-architectuur

Liquid cooling dwingt datacenters tot andere ontwerpkeuzes

Slimmer vergaderen begint met het juiste ecosysteem

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw