De chatbot in de spreekkamer: wat moeten we ermee? 

Introductie 

Hoe artificial intelligence de toekomst van de geestelijke gezondheidszorg gaat beïnvleden, is een vraag die snel actueel is geworden door de opkomst van AI-chatbots. Een deel van onze patiënten maakt al gebruik van dergelijke technologie, óók als we hier nog niet naar vragen. Uit een recente survey onder Amerikaanse jongeren blijkt dat 13,1% van de respondenten een generatieve AI geraadpleegd heeft over hun mentale gezondheid (onder 18- tot 21-jarigen zelfs 22,2%), waarvan 92,7% het advies “enigszins of erg” helpend vond (1). Het aantal gebruikers zal vermoedelijk verder stijgen naarmate modellen geavanceerder worden en gesprekken met een chatbot nog natuurlijker gaan aanvoelen. 

Rond deze opmars bestaan twee tegengestelde perspectieven. Enerzijds wordt (veelal in effectiviteitsstudies) bepleit dat AI-chatbots kunnen bijdragen aan het oplossen van het capaciteitsprobleem in de geestelijke gezondheidszorg (zoals in (2) en (3)). Anderzijds roept de ontwikkeling zorgen op over de veiligheid van de technologie; in de media was er de afgelopen periode bijvoorbeeld veel aandacht voor “AI-geïnduceerde” psychoses en suïcides (zie bijvoorbeeld NOS, Volkskrant, New York Times). 

Dit roept de vraag op: Hoe ver zijn we eigenlijk met de klinische toepassing van AI-chatbots in de geestelijke gezondheidszorg, en wat weten we over de risico’s? Twee recente publicaties bieden aanknopingspunten voor een genuanceerd antwoord.

Wat weten we over de effectiviteit?

In hun scoping review brengen Hua en collega’s (april 2025) in kaart wat voor onderzoek er gedaan is naar de toepassing van large language models (de taalmodellen onderliggend aan AI-chatbots) in de geestelijke gezondheidszorg (4). De review biedt het meest systematische overzicht tot nu toe, al beslaat de zoekperiode (tot juli 2024) niet de meest recente ontwikkelingen in dit snel bewegende veld.

De auteurs zochten naar studies waarin LLM’s worden ingezet voor een generatieve taak: het model moest zelf tekst produceren in een interactie met een gebruiker, niet enkel classificeren of voorspellen. Van de 726 unieke artikelen voldeden er uiteindelijk 16 aan de inclusiecriteria. 

De toepassingen liepen sterk uiteen. Sommige studies lieten een LLM diagnostische of behandelsuggesties genereren voor behandelaren; andere zetten het model in voor een therapeutische interventie zoals cognitieve herstructurering; weer andere gebruikten het voor psycho-educatie aan jongeren. Die diversiteit maakt het onmogelijk om uitspraken te doen over “de” effectiviteit; het zijn fundamenteel verschillende interventies die toevallig dezelfde technologie gebruiken.

Depressie was het meest onderzochte psychiatrisch construct, en cognitieve gedragstherapie werd het meest genoemd als behandelstrategie. Maar de auteurs merken op hoe losjes psychiatrische constructen in het onderzoeksveld worden gehanteerd. Slechts acht van de zestien studies maakten gebruik van gevalideerde meetinstrumenten. De overige studies definieerden constructen op ad-hoc basis – depressie werd soms gelijkgesteld aan zelfgerapporteerde gevoelens van somberheid, of simpelweg aan het woord “sad”. 

Een van de aangehaalde onderzoeken is een gerandomiseerde studie op een Amerikaanse ggz-website (N=15.531), waarin een LLM deelnemers begeleidde bij cognitieve herstructurering van negatieve gedachten (5). Van de deelnemers rapporteerde 67% een afname in emotionele intensiteit. Maar ook deze studie illustreert de methodologische “krakkemikkigheid” die Hua signaleert: uitkomsten werden gemeten met zelfontworpen, niet-gevalideerde schalen, er was geen follow-up, en 64% van de deelnemers viel af voor de uitkomstmeting.

Nog fundamenteler is wat er ontbrak in de studies: aan evaluatiedomeinen zoals veiligheid en privacy werd nauwelijks aandacht besteed. De auteurs benadrukken dat dit juist de basis moet zijn: een effectieve interventie die niet op veiligheid is beoordeeld, is klinisch onbruikbaar. Daarnaast werden overwegend closed-source modellen (zoals de webversie van ChatGPT) gebruikt, die door de ontwikkelaar zonder aankondiging kunnen worden aangepast, waardoor resultaten niet repliceerbaar zijn. 

De auteurs concluderen dat het huidige bewijs het gebruik van LLM’s als zelfstandige klinische interventie niet ondersteunt. De toepassingen hebben potentie, maar het bewijs is te gefragmenteerd en methodologisch te zwak om er op het moment iets zinnigs over te kunnen zeggen.

Wat kan er misgaan en wat is daar aan te doen?

Hoewel chatbots gericht op mentale gezondheid in opkomst zijn, gebruiken veruit de meeste mensen een ‘generieke LLM’ zoals Claude of ChatGPT voor hun vragen. In een Personal View in The Lancet Psychiatry, verrichten Morrin en collega’s (maart 2026) een thematische analyse van twintig casussen uit nieuwsmedia van wat zij “AI-geassocieerde wanen” noemen: waanachtige overtuigingen die inhoudelijk en temporeel samenhangen met intensief large language model-gebruik (6). Er wordt bewust voor deze voorzichtige term gekozen, omdat causaliteit (en de richting hiervan) vooralsnog niet bewezen is. Ze onderscheiden verschillende thema’s in de casuïstiek: messiaanse of spirituele ervaringen, overtuigingen dat de AI in kwestie bewust of alwetend is, en romantische of ‘hechtingsgebonden’ wanen richting de AI-chatbot. Opvallend is ook dat in de casuïstiek hallucinaties en formele denkstoornissen ontbreken, en dat grandiositeitsdenken domineert. 

Er tekent zich een schijnbaar patroon af: interacties beginnen alledaags, maar worden geleidelijk persoonlijker, filosofischer en intenser, waardoor het waanthema steeds prominenter wordt in de gesprekken. Het cruciale punt is dat de waan er langzaam insluipt, waardoor detectie door geautomatiseerde veiligheidssystemen bemoeilijkt wordt. Volgens het bedrijf achter ChatGPT zou 0,07% van alle gebruikers per week tekenen van psychose of manie laten zien (7) – relatief laag, maar ook al bij het huidige aantal gebruikers absoluut een fors getal. 

Hoewel causaliteit niet is aangetoond, beschrijven Morrin en collega’s meerdere mechanismen die bij kwetsbare gebruikers op elkaar zouden kunnen inwerken. Mensen met een psychotische kwetsbaarheid zijn geneigd intentionaliteit toe te schrijven waar die er niet is (hypermentaliseer-bias) – ook aan technologie. Verder zijn LLM’s geoptimaliseerd voor engagement, waardoor zij geneigd zijn de gebruiker gelijk te geven in plaats van hen uit te dagen, een fenomeen dat bekend staat als “sycofantie”. Dat dit niet onschuldig is, bleek onlangs uit een publicatie in Science: interactie met een sycofantisch AI-model vermindert prosociale intenties (de bereidheid om verantwoordelijkheid te nemen en relaties te herstellen) en leidt tot toegenomen afhankelijkheid (8). Het toenemende geheugen van chatbots vergroot het risico mogelijk verder: naarmate een chatbot meer over iemand onthoudt, kan persoonlijke informatie die later in het gesprek opduikt paranoidie voeden. Tegelijk kunnen uitgebreide gespreksgeschiedenissen de oorspronkelijke veiligheidsinstructies van het systeem geleidelijk gaan overschaduwen.

Klinisch gezien pleiten de auteurs voor twee concrete stappen. Allereerst zou AI-gebruik een standaard onderdeel moeten worden van de psychiatrische anamnese: welk model gebruikt de patiënt, hoeveel tijd besteedt hij eraan, en waarvoor? Daarnaast stellen zij voor om met patiënten afspraken vast te leggen over hoe hun chatbot moet reageren in periodes van kwetsbaarheid, welke thema’s zijn risicovol, wat zijn vroege signalen van ontregeling, en wanneer moet de bot doorverwijzen? Een chatbot die op die manier is ingesteld, kan juist bijdragen aan realiteitstoetsing in plaats van die te ondermijnen.

Op het niveau van de platforms zelf ligt volgens de auteurs een minstens zo grote verantwoordelijkheid. Modellen die primair zijn geoptimaliseerd op gebruikerstevredenheid en langdurig gebruik zijn ongewenst voor kwetsbare gebruikers. De auteurs pleiten voor concretere grenzen aan de gespreksintensiteit, transparantie over het niet-menselijke karakter van de AI-chatbot, en structurele betrokkenheid van clinici bij de ontwikkeling.

Conclusie

Wat deze twee publicaties blootleggen is dat we nog weinig weten over de zin en het gevaar van AI-chatbots in de geestelijke gezondheidszorg – terwijl ze al wel op grote schaal gebruikt worden. Meer onderzoek is noodzakelijk, want de large language models gaan niet meer weg. Voor zinvol onderzoek is het belangrijk dat er interdisciplinair samengewerkt gaat worden, tussen onder meer technische ontwikkelaars, clinici, privacy-experts en ervaringsdeskundigen. Waarvoor willen we chatbots gebruiken? Wanneer zijn ze veilig genoeg, en hoe bouwen we dat technisch in? Hoe kunnen we ze integreren in de bestaande zorginfrastructuur? Een stap in de goede richting is het recente READI framework, dat zes domeinen onderscheidt waarop AI-toepassingen beoordeeld zouden moeten worden, waaronder veiligheid en privacy (9). 

Als psychiaters zullen we ons op basis van de ontwikkelende evidentie moeten gaan verhouden tot de vraag of chatbots veilig en zinvol inzetbaar zijn, of we nou enthousiasteling of scepticus zijn. Maar we hoeven niet op die evidentie te wachten om te handelen. Zoals Saba en Weeks (2026) betogen: laten we AI-chatbots nu bespreekbaar maken en ons verdiepen in het gebruik van onze patiënten, ook al zijn we geen AI-experts (10). Want één ding is zeker: chatbots zijn onze spreekkamer al lang binnengeslopen.  

 

Referenties

(1) McBain, R. K., Bozick, R., Diliberti, M., Zhang, L. A., Zhang, F., Burnett, A., … & Yu, H. (2025). Use of Generative AI for Mental Health Advice Among US Adolescents and Young Adults. JAMA Network Open, 8(11), e2542281.

(2) Heinz, M. V., Mackin, D. M., Trudeau, B. M., Bhattacharya, S., Wang, Y., Banta, H. A., Jewett, A. D., Salzhauer, A. J., Griffin, T. Z. & Jacobson, N. C. (2025). Randomized Trial of a Generative AI Chatbot for Mental Health Treatment. NEJM AI, 2 (4).

(3) Rollwage, M., McFadyen, J., Juchems, K., Balogh, A., Pisupati, S., Mircea, M. T., … & Harper, R. (2026). A Cognitive Layer Architecture to Support Large-Language Model Performance in Psychotherapy Interactions. Nature Medicine. Epub ahead of print.

(4) Hua, Y., Na, H., Li, Z., Liu, F., Fang, X., Clifton, D., & Torous, J. (2025). A Scoping Review of Large Language Models for Generative Tasks in Mental Health Care. npj Digital Medicine, 8(1), 230.

(5) Sharma, A., Rushton, K., Lin, I. W., Nguyen, T., & Althoff, T. (2024). Facilitating Self-Guided Mental Health Interventions Through Human-Language Model Interaction: A Case Study of Cognitive Restructuring. In Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems (pp. 1-29).

(6) Morrin, H., Nicholls, L., Levin, M., Yiend, J., Iyengar, U., Delguidice, F., … & Pollak, T. A. (2026). Artificial Intelligence-Associated Delusions and Large Language Models: Risks, Mechanisms of Delusion Co-Creation, and Safeguarding Strategies. The Lancet Psychiatry. Epub ahead of print.

(7) OpenAI (2025). Strengthening ChatGPT’s Responses in Sensitive Conversations. Via: 

https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/

(8) Cheng, M., Lee, C., Khadpe, P., Yu, S., Han, D., & Jurafsky, D. (2026). Sycophantic AI decreases prosocial intentions and promotes dependence. Science, 391, eaec8352.

(9) Stade, E. C., Eichstaedt, J. C., Kim, J. P., & Wiltsey Stirman, S. (2025). Readiness Evaluation for Artificial Intelligence-Mental Health Deployment and Implementation (READI): A Review and Proposed Framework. Technology, Mind, and Behavior, 6(2). 

(10) Saba, S. K., & Weeks, W. B. (2026). Patients Use AI—Clinicians Should Ask How. JAMA Psychiatry. Epub ahead of print.

 

Geschreven door:

Schrijf je in voor onze nieuwsbrief

Ontvang maandelijks een update over de nieuwste artikelen van De jonge psychiater

Gerelateerde artikelen
Opmerking
Opmerking
Hoe zou je deze pagina willen beoordelen?
Heb je een opbouwende opmerking?
Volgende
Laat je e-mailadres achter als we contact met je mogen opnemen over je feedback
Terug
Inzenden
Bedankt voor het achterlaten van je opmerking!