ChatGPT blijkt 83 procent van de tijd fouten te maken met medische diagnoses voor kinderen, bleek uit een onderzoek van JEMA Pediatrics. Desondanks is generatieve AI een veelbelovende technologie voor de gezondheidszorg, stelt men.
Het onderzoek richtte zich specifiek op ChatGPT met GPT-4 als achterliggend model. OpenAI stelt deze variant van de chatbot beschikbaar via de betaalde dienst ChatGPT Plus.
In het onderzoek werden 100 medische gevallen in de kindergeneeskunde aan de chatbot voorgelegd. Daarvan waren er 83 incorrect gediagnosticeerd door ChatGPT, waarvan er 11 te breed geformuleerd waren. Volgens de onderzoekers laat het aantal fouten zien dat de AI-tool niet genoeg verbanden legt, zoals tussen autisme en vitaminetekorten.
Ook meent men dat de door OpenAI gebruikte dataset te veel fouten bevat. GPT-4 is gebaseerd op een grote hoeveelheid internetgegevens die niet uitvoerig op feiten gecontroleerd zijn. Daartegenover plaatsen de JEMA Pediatrics-onderzoekers Med-PaLM 2. Dit model van Google is getraind op medische informatie en zou daarmee een stuk veelbelovender zijn.
Niets nieuws
ChatGPT valt wel vaker door de mand. Zo bleek het veelal onveilige programmeercode te genereren en wordt het voor gemeente-ambtenaren afgeraden. Belangrijk om te vermelden is dat OpenAI dit maar al te goed lijkt te weten. Wie namelijk een medische vraag aan de chatbot stelt, zal binnen de kortste keren door de AI-applicatie naar een medische expert verwezen worden.
Daartegenover staan gespecialiseerde modellen, waarbij het aantal parameters aanzienlijk kleiner is dan van GPT-4, dat 1,8 biljoen zou bevatten. Zo liet Microsoft onlangs zien dat Phi-2, een “small language model” met ‘slechts’ 2,7 miljard parameters, alsnog indrukwekkende en waarheidsgetrouwe informatie kan produceren. Inmiddels is duidelijk dat kleinere, hoogwaardige datasets AI-modellen betere resultaten oplevert dan een LLM dat met een reusachtige hoeveelheid aan veelal ongeverifieerde data getraind is.
Medische wereld wel gebaat bij AI
Er zijn al eerder veelbelovende medische AI-toepassingen in het nieuws gekomen. IBM Watson diende ruim tien jaar geleden de gezondheidszorg op te schudden. Het zou in staat zijn geweest om onderzoek naar nieuwe medicatie te versnellen en diagnoses mogelijk kunnen maken. Die grote beloftes werden nooit waargemaakt. Uiteindelijk verkocht IBM een groot gedeelte van deze producten voor meer dan een miljard dollar in 2022.
Sindsdien gooide vooral Google hoge ogen met Med-PaLM. Ondanks de positieve berichtgeving en imposante benchmark-scores lijkt het bedrijf enigszins voorzichtig te zijn met al te ambitieuze beloftes. “Hoewel Med-PaLM 2 state-of-the-art prestaties heeft bereikt op verschillende benchmarks voor het beantwoorden van medische meerkeuzevragen, en onze menselijke evaluatie laat zien dat antwoorden op verschillende klinisch belangrijke aspecten gunstig afsteken bij de antwoorden van artsen, weten we dat er meer werk moet worden verricht om ervoor te zorgen dat deze modellen veilig en effectief worden ingezet,” aldus Google.
Medische diagnoses doen AI-tools dus nog niet. De meest ambitieuze toepassing zou momenteel zijn om false negatives op te sporen, waar een medisch expert aangeraden zou worden om opnieuw naar de patiëntgegevens te kijken. Echter is de inzet van dergelijke data voor AI-toepassingen niet eenvoudig, gezien de privacy-problemen die dat opwerpt. Daartegenover staat dat AI alsnog nuttig kan zijn voor de medische wereld.
Een recent voorbeeld hiervan is bij het UMC Groningen te vinden. Als eerste ziekenhuis in Europa zet het een AI-chatbot in die medisch personeel assisteert bij het reageren op patiënten. Er zal nooit zomaar een AI-antwoord linea recta de buitenwereld bereiken, want er is altijd een medewerker die eerst een antwoord bekijkt. Echter biedt de bot een concept-antwoord om een medische vraag te beantwoorden, dat de ziekenhuismedewerker vervolgens aanvult. Ook kunnen logistieke gegevens ingezet worden om bijvoorbeeld klanten van een apotheek te informeren wanneer medicatie mogelijk arriveert, zoals we van Appo Groep hoorden vorig jaar.