ChatGPT is een slechte dokter, maar dat zou niemand moeten verbazen

ChatGPT blijkt 83 procent van de tijd fouten te maken met medische diagnoses voor kinderen, bleek uit een onderzoek van JEMA Pediatrics. Desondanks is generatieve AI een veelbelovende technologie voor de gezondheidszorg, stelt men.

Het onderzoek richtte zich specifiek op ChatGPT met GPT-4 als achterliggend model. OpenAI stelt deze variant van de chatbot beschikbaar via de betaalde dienst ChatGPT Plus.

In het onderzoek werden 100 medische gevallen in de kindergeneeskunde aan de chatbot voorgelegd. Daarvan waren er 83 incorrect gediagnosticeerd door ChatGPT, waarvan er 11 te breed geformuleerd waren. Volgens de onderzoekers laat het aantal fouten zien dat de AI-tool niet genoeg verbanden legt, zoals tussen autisme en vitaminetekorten.

Ook meent men dat de door OpenAI gebruikte dataset te veel fouten bevat. GPT-4 is gebaseerd op een grote hoeveelheid internetgegevens die niet uitvoerig op feiten gecontroleerd zijn. Daartegenover plaatsen de JEMA Pediatrics-onderzoekers Med-PaLM 2. Dit model van Google is getraind op medische informatie en zou daarmee een stuk veelbelovender zijn.

Niets nieuws

ChatGPT valt wel vaker door de mand. Zo bleek het veelal onveilige programmeercode te genereren en wordt het voor gemeente-ambtenaren afgeraden. Belangrijk om te vermelden is dat OpenAI dit maar al te goed lijkt te weten. Wie namelijk een medische vraag aan de chatbot stelt, zal binnen de kortste keren door de AI-applicatie naar een medische expert verwezen worden.

Daartegenover staan gespecialiseerde modellen, waarbij het aantal parameters aanzienlijk kleiner is dan van GPT-4, dat 1,8 biljoen zou bevatten. Zo liet Microsoft onlangs zien dat Phi-2, een “small language model” met ‘slechts’ 2,7 miljard parameters, alsnog indrukwekkende en waarheidsgetrouwe informatie kan produceren. Inmiddels is duidelijk dat kleinere, hoogwaardige datasets AI-modellen betere resultaten oplevert dan een LLM dat met een reusachtige hoeveelheid aan veelal ongeverifieerde data getraind is.

Medische wereld wel gebaat bij AI

Er zijn al eerder veelbelovende medische AI-toepassingen in het nieuws gekomen. IBM Watson diende ruim tien jaar geleden de gezondheidszorg op te schudden. Het zou in staat zijn geweest om onderzoek naar nieuwe medicatie te versnellen en diagnoses mogelijk kunnen maken. Die grote beloftes werden nooit waargemaakt. Uiteindelijk verkocht IBM een groot gedeelte van deze producten voor meer dan een miljard dollar in 2022.

Sindsdien gooide vooral Google hoge ogen met Med-PaLM. Ondanks de positieve berichtgeving en imposante benchmark-scores lijkt het bedrijf enigszins voorzichtig te zijn met al te ambitieuze beloftes. “Hoewel Med-PaLM 2 state-of-the-art prestaties heeft bereikt op verschillende benchmarks voor het beantwoorden van medische meerkeuzevragen, en onze menselijke evaluatie laat zien dat antwoorden op verschillende klinisch belangrijke aspecten gunstig afsteken bij de antwoorden van artsen, weten we dat er meer werk moet worden verricht om ervoor te zorgen dat deze modellen veilig en effectief worden ingezet,” aldus Google.

Medische diagnoses doen AI-tools dus nog niet. De meest ambitieuze toepassing zou momenteel zijn om false negatives op te sporen, waar een medisch expert aangeraden zou worden om opnieuw naar de patiëntgegevens te kijken. Echter is de inzet van dergelijke data voor AI-toepassingen niet eenvoudig, gezien de privacy-problemen die dat opwerpt. Daartegenover staat dat AI alsnog nuttig kan zijn voor de medische wereld.

Een recent voorbeeld hiervan is bij het UMC Groningen te vinden. Als eerste ziekenhuis in Europa zet het een AI-chatbot in die medisch personeel assisteert bij het reageren op patiënten. Er zal nooit zomaar een AI-antwoord linea recta de buitenwereld bereiken, want er is altijd een medewerker die eerst een antwoord bekijkt. Echter biedt de bot een concept-antwoord om een medische vraag te beantwoorden, dat de ziekenhuismedewerker vervolgens aanvult. Ook kunnen logistieke gegevens ingezet worden om bijvoorbeeld klanten van een apotheek te informeren wanneer medicatie mogelijk arriveert, zoals we van Appo Groep hoorden vorig jaar.

Keuze van de redactie

Insight: IT in Healthcare

Lees meer over Applications

Gezamenlijk AI trainen zonder data te delen: FlexOlmo maakt het mogelijk

Onderzoekers van het Allen Institute for Artificial Intelligence (AI2) hebben een nieuw raamwerk gepresenteer...

Mels Dees 11 juli 2025

Citrix keert terug naar de mainstream hypervisormarkt

Citrix probeert opnieuw voet aan de grond te krijgen in de markt voor algemene hypervisors. Het bedrijf grijp...

Mels Dees 10 juli 2025

Top story

Domeinspecifieke AI verslaat generieke modellen in business apps

Het AI-team van Visma is stilletjes bezig met het herdefiniëren van documentverwerking in Europa. Met bijna ...

Berry Zwets 10 juli 2025

Tech calendar

ChatGPT is een slechte dokter, maar dat zou niemand moeten verbazen

Insight: IT in Healthcare

Niets nieuws

Medische wereld wel gebaat bij AI

Blijf op de hoogte, abonneer!

KnowBe4 gaat van security training naar human risk management

De AI-golf dwingt organisaties hun infrastructuur te herzien

Zscaler Cellular brengt Zero Trust naar IoT- en OT-apparaten

Kinderen met autisme maanden eerder behandeld dankzij process automation

Primeur: Nvidia-supercomputer in Nederland voor zorg-AI Juvoly

ChatGPT is een slechte dokter, maar dat zou niemand moeten verbazen

Uitdaging voor zorgorganisaties: Hoe haal je efficiënt waarde uit de explosieve groei van data?

Krijg Volledig Inzicht van Gebruiker tot Cloud met Cisco ThousandEyes

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Is jouw endpointbeveiliging op orde?

Hoe maak je duurzaamheid echt praktisch?

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing