“Who wore it better?” Antwoorden op medische vragen van een AI chatbot versus een arts

Webpage of ChatGPT, a prototype AI chatbot, is seen on the website of OpenAI, on a smartphone. Examples, capabilities, and limitations are shown.

Kunstmatige intelligentie (artificial intelligence, AI) heeft de afgelopen decennia, en met name de laatste jaren, een grote vlucht genomen. Het gebruik ervan sijpelt ook steeds meer door in de geneeskunde-wereld. Zo kwam onze oud-DJP redacteur Christiaan Vinkers recent met een AI-platform waarop je snel en precies een wetenschappelijk onderbouwd antwoord kan krijgen op (medische) vragen (EvidenceHunt). Deze website werd met zo veel enthousiasme ontvangen dat hij na lancering zelfs even uit de lucht was.

 

De komst van ChatGPT in november 2022 heeft voor veel mensen een aardverschuiving veroorzaakt in hun manier van werken. Niet alleen middelbare scholieren wisten het programma te vinden (en daarmee onder het schrijven van scripties en verslagen uit te komen). Als je weet hoe je er mee om moet gaan kan het je dagelijkse werklast aanzienlijk verlagen. Met verbazing hoorde ik de afgelopen maanden van vrienden hoe ze ChatGPT gebruiken voor het opstellen van HR-contracten, schrijven van consultancy-adviezen en zelfs een medische beursaanvraag (!).

 

Nieuwe technologie heeft echter ook nadelen. Door de opkomst van e-health weten patiënten hun behandelaar steeds makkelijker te vinden. Dit kan leiden tot een snelle toename van berichten en vragen van patiënten aan hun behandelaren, stellen de auteurs van het hier beschreven artikel. Dit kan weer leiden tot een hogere werklast en daarmee mogelijk burn-out. Maar, zij zien ook een oplossing in moderne techniek. Met deze studie zijn de auteurs in rap tempo op de ChatGPT-hype gedoken en stelden zichzelf de vraag; wie kan beter op een kwalitatieve en empathische manier medische vragen van patiënten beantwoorden: ChatGPT of een arts?

 

Hoe werd dit onderzocht?

Ten tijde van de uitvoering van deze studie was het vanwege wetgeving nog niet mogelijk om vragen uit patiëntdossiers te gebruiken. Daarom werd er in deze cross-sectionele studie voor gekozen om een openbare en niet-identificeerbare database te gebruiken. Deze database bestond uit vragen die mensen op een openbaar social mediaforum (Reddit’s r/AskDocs) hadden geplaatst inclusief de antwoorden van artsen. Iedereen kan een vraag stellen op r/AskDocs, maar alleen geverifieerde artsen kunnen een antwoord geven. Uit de database werden 195 vragen met antwoorden at random getrokken. Chatbot-antwoorden werden gegenereerd door elke oorspronkelijke patiënt-vraag in te voeren in een nieuwe ChatGPT sessie.

 

De geanonimiseerde arts en Chatbot-reacties (in willekeurige volgorde) werden samen met de oorspronkelijke vraag geëvalueerd door drie geblindeerde medische professionals uit een team werkzaam in de kindergeneeskunde, geriatrie, interne geneeskunde, oncologie, infectieziekten en preventieve geneeskunde. Zij kozen welk antwoord het beste was en beoordeelden met behulp van Likert-scales de kwaliteit van de verstrekte informatie (zeer slecht, slecht, acceptabel, goed of zeer goed) en de empathie waarmee het antwoord werd gegeven (niet empathisch, enigszins empathisch, matig empathisch, empathisch en zeer empathisch). De gemiddelde uitkomsten werden geordend op een schaal van 1 tot 5, en vergeleken tussen chatbot en artsen.

 

Belangrijkste resultaten

In 78,6% van de evaluaties gaven beoordelaars de voorkeur aan chatbotreacties boven de reacties van artsen. Reacties van de chatbot werden gemiddeld als kwalitatief hoger beoordeeld dan die van artsen; de chatbot reacties werden 3,6 keer zo vaak beschouwd als van goede of zeer goede kwaliteit. Chatbot reacties werden ook als empathischer beoordeeld: het percentage reacties dat als empathisch of zeer empathisch werd beoordeeld was 9,8 keer hoger in chatbot reacties dan in artsen reacties. De antwoorden van artsen waren significant korter dan die van chatbots (52 vs 211 woorden; t = 25,4; P < .001). Een sensitiviteits-analyse liet zien dat langere antwoorden beter werden beoordeeld.

 

Limitaties

De belangrijkste limitatie van deze studie was dat er antwoorden van artsen op een online forum werden gebruikt. Het is de vraag in hoeverre deze generaliseerbaar zijn naar de spreekkamer, waar de arts antwoordt vanuit een al bestaande arts-patiëntrelatie. Daarnaast werd er niet gekeken naar hoe een AI-assistent antwoorden van artsen kan aanvullen. De toegevoegde waarde van AI zal niet zozeer zijn om artsen te vervangen, maar te ondersteunen.

 

Implicaties voor de klinische praktijk

De auteurs van deze studie stelden voor dat artsen in de toekomst door AI ondersteund kunnen worden. Een chatbot kan een voorlopig antwoord op patiënten-vragen opstellen, waardoor de arts meer tijd heeft voor andere zaken. Zij stelden dat hulp van chatbots mogelijk ook behandeluitkomsten kan verbeteren en het werkplezier van artsen kan vergroten. Echter is meer onderzoek nodig voordat hier een uitspraak over kan worden gedaan.

 

Wat de auteurs niet hebben besproken zijn mogelijke risico’s van het gebruik van een chatbot. Ondanks dat de antwoorden op de vragen van patiënten in deze studie als kwalitatief goed werden beoordeeld, gebruikt ChatGPT louter het internet als databron. En aangezien er ook genoeg informatie van twijfelachtige kwaliteit te vinden is op het internet, is ChatGPT gevoelig voor desinformatie. Daarom zal kritische beoordeling van de informatie die door een chatbot gegenereerd wordt noodzakelijk blijven.

 

Er zijn nog geen studies gedaan die specifiek hebben gekeken naar de kwaliteit van chatbot antwoorden op psychiatrie-gerelateerde vragen. Wel zijn er enkele studies gedaan naar het gebruik van chatbots ter vermindering van psychische klachten. Zo werd er in een studie onder 70 patiënten met een depressie gevonden dat het gebruik van een chatbot (Woebot), gericht op het aanleren van skills en het uitdagen van negatieve gedachten, meer afname gaf van somberheidsklachten dan het lezen van een e-book over depressie. Een andere studie onder studenten vond dat chatbot Tess ook meer afname van angst en somberheidsklachten gaf dan toegang tot elektronische boeken over depressie. Kwalitatieve onderzoeken naar de effectiviteit ontbreken nog, maar er zijn op dit moment verschillende soorten chatbots voor de behandeling van psychische klachten in ontwikkeling. Zo is er Replika, een smartphone app die op basis van chat-conversaties met gebruikers een inschatting kan maken van iemands persoonlijkheid. Hiermee kan deze tool de gebruiker vervolgens meer inzicht geven in zijn of haar goede eigenschappen.

 

Concluderend zijn er de laatste jaren veel spannende ontwikkelingen op het gebied van AI. De toekomst zal moeten uitwijzen welke plek AI-tools, zoals chatbots, zullen gaan innemen in onze spreekkamer.

 

Besproken artikel

Ayers JW, Poliak A, Dredze M, et al. “Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum“. JAMA Intern Med. Published online April 28, 2023.

 

Andere artikelen

Fitzpatrick K, Kara A, Darcy, Vierhile M. “Delivering Cognitive Behavior Therapy to Young Adults With Symptoms of Depression and Anxiety Using a Fully Automated Conversational Agent (Woebot): A Randomized Controlled Trial.JMIR Mental Health. 4.2 2017;e19–e19. Web.

Fulmer R, et al. “Using Psychological Artificial Intelligence (Tess) to Relieve Symptoms of Depression and Anxiety: Randomized Controlled Trial.JMIR Mental Health. 5.4 (2018): e64–e64. Web.

Pham, K.T., Nabizadeh, A. & Selek, S. “Artificial Intelligence and Chatbots in Psychiatry“. Psychiatr Q 93, 249–253 (2022).

 

Geschreven door:

Schrijf je in voor onze nieuwsbrief

Ontvang maandelijks een update over de nieuwste artikelen van De jonge psychiater

Gerelateerde artikelen
Opmerking
Opmerking
Hoe zou je deze pagina willen beoordelen?
Heb je een opbouwende opmerking?
Volgende
Laat je e-mailadres achter als we contact met je mogen opnemen over je feedback
Terug
Inzenden
Bedankt voor het achterlaten van je opmerking!