De onderzoekers gebruikten 195 willekeurige patiëntvragen van internetfora, waarop een arts antwoord had gegeven. De vragen gingen bijvoorbeeld over angst voor letsel na het inslikken van een tandenstoker of over een recent ontdekte zwelling wel of niet met spoed laten onderzoeken. De vragen werden ook ingevoerd in de GPT-chatbot. De vraag en beide antwoorden, die waren bewerkt zodat de bron niet te achterhalen was, werden vervolgens voorgelegd aan een panel van 3 artsen uit het onderzoeksteam. Zij kozen het beste antwoord en beoordeelden beide antwoorden op een schaal van 1-5 op empathie en kwaliteit.
Voorkeur van het panel
Het panel gaf bij 79% van de evaluaties de voorkeur aan het chatbotantwoord (95%-BI 75,0% tot 81,8%). Bovendien beoordeelde het panel de chatbotantwoorden als van betere kwaliteit: 79% (95%-BI 72,3% tot 84,1%) kreeg een (zeer) goede score, versus 22% (95%-BI 16,4% tot 28,2%) bij de antwoorden van een arts. Ook vond het panel de chatbotantwoorden empathischer: 45% (95%-BI 38,5% tot 51,8%) kreeg hierop een (zeer) goede score, versus 5% (95%-BI 2,1 tot 7,7) bij de antwoorden van een arts.
Kritische kanttekeningen
Dit onderzoek heeft meerdere tekortkomingen. Zo werden de chatbotantwoorden niet beoordeeld op medische juistheid en missen de antwoorden de context die een gebruikelijke arts-patiëntrelatie heeft. Bovendien waren de antwoorden van de artsen significant korter (52 woorden (17-62) versus 211 woorden(168-245)). Een langer antwoord wordt mogelijk gezien als empathischer. Ook ontbraken patiëntvertegenwoordigers in het panel, waardoor de waardering van de antwoorden door patiënten onduidelijk is.
AI als hulpmiddel
De resultaten bieden echter wel aanleiding om de mogelijkheden van AI verder te onderzoeken, bijvoorbeeld in het laten formuleren van conceptantwoorden op e-consulten die de behandelaar vervolgens nog kan aanpassen. Hierdoor zou het (uitgebreider) beantwoorden van vragen minder tijd en inzet hoeven kosten. Verdere evaluatie van met name de medische juistheid is echter een logische vereiste.
Lees meer over het onderzoek Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum van J.W. Ayers, et al.
Literatuur
- Ayers JW, et al. Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. JAMA Intern Med 2023 Apr 28;e231838. DOI: 10.1001/jamainternmed.2023.1838 [epub ahead of print].
Reacties
Er zijn nog geen reacties.