Hugging Face scoort AI-modellen op medische betrouwbaarheid

Insight: IT in Healthcare

Hugging Face scoort AI-modellen op medische betrouwbaarheid

Hugging Face heeft recent zijn Open Medical-benchmark geïntroduceerd. Deze oplossing test LLM’s op de betrouwbaarheid en kwaliteit van de medische informatie die ze verschaffen. Hiermee wil het AI-platform ervoor zorgen dat de medische sector op een verantwoordelijke wijze GenAI kan gebruiken.

GenAI wordt steeds vaker in de gezondheidszorg gebruikt, maar de diverse onderliggende LLM’s zijn nog steeds niet betrouwbaar genoeg voor deze toepassing. Fouten en bepaalde vooroordelen zouden nog steeds foutieve medische uitkomsten genereren.

Tip: ChatGPT is een slechte dokter, maar dat zou niemand moeten verbazen

Open Medical-LLM benchmark

AI-platform Hugging Face wil dit probleem aanpakken en heeft hiervoor een eigen benchmark, Open Medical-LLM, gecreëerd. Dat deed het in samenwerking met Open Life Science AI en de University of Edinburgh’s Natural Language Processing Group. Deze AI-benchmark meet de capaciteiten van de verschillende LLM’s op hun betrouwbaarheid rondom medische onderwerpen en vragen.

Tijdlijndiagram dat de opschaling van AI-modellen toont van bert-achtig naar gpt-3-achtig, waarbij significante modellen op grootte worden gemarkeerd van 0,1 miljard tot 540 miljard parameters.

Denk daarbij onder meer aan vragen als hoe de betreffende modellen patiëntendossiers samenvatten of welke antwoorden zij geven op vragen over gezondheid.

Onder de motorkap is het Open Medical-LLM-benchmark van Hugging Face eigenlijk een samenraapsel van andere testtrajecten van medische informatie. Voorbeelden hiervan zijn MedQA, PubMedQA en MedMCQA. Het Doel van de nieuwe bechmark is het testen van de LLM’s op algemene medische kennis op terreinen als anatomie, farmaceutica, genetica en de klinische praktijk. Hiervoor bevat de benchmark multiple-choice en open vragen die een medische redenering en begrip vereisen. De betreffende vragen zijn daarbij gebaseerd op medische examens en biologietoetsen uit de VS en India.

Afbeelding van een quizinterface op een computerscherm, met een meerkeuzevraag over behandelingsopties voor een 28-jarige zwangere vrouw met een oorontsteking.

LLM’s niet zaligmakend

Ondanks dat Hugging Face met de tool probeert de kenniskwaliteit van LLM’s voor de medische sector inzichtelijk te maken, waarschuwen critici voor te veel vertrouwen in de benchmark. Dat is vooral omdat zij vinden dat het gat tussen het beantwoorden van vragen over medische zaken via AI en de daadwerkelijke medische praktijk in hun ogen nog steeds te groot is.

De onderzoekers van Hugging Face zijn het overigens hiermee eens. Zij vinden dat LLM’s voor medische doeleinden niet door patiënten moeten worden gebruikt, maar veel eerder moeten worden getraind voor tools die medische specialisten kunnen ondersteunen.

Lees ook: LLM’s uit Hugging Face nu direct via Cloudflare uitrol- en verspreidbaar