Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.
Impact of the large language model and prompt specificity in generating psychiatric multiple-choice questions
0
Zitationen
8
Autoren
2026
Jahr
Abstract
The use of large language models (LLMs) can assist in creating Multiple-Choice Questions (MCQs) for enhancing psychiatric education. This study evaluates the performance of LLMs in generating psychiatry case-based MCQs, focusing on the influence of the model used and the specificity of the prompt. Two experiments were carried out. In Experiment 1, ChatGPT-3.5 and ChatGPT-4 were used with a general-purpose prompt. In Experiment 2, ChatGPT-4o was used to compare the generic prompt with a psychiatry-specific version. A total of 90 questions were generated in each experiment (45 per condition), balanced across low, moderate, and high difficulty levels. A panel of psychiatry professors assessed the questions for diagnostic accuracy and difficulty. In Experiment 1, both ChatGPT-3.5 and ChatGPT-4 showed high diagnostic agreement with experts ( κ = 0.889 and κ = 0.703), but little correlation with intended difficulty ( ρ = 0.104, p = .496; ρ = − 0.087, p = .57). In Experiment 2, the psychiatry-specific prompt with ChatGPT-4o yielded more accurate MCQs ( κ = 0.731 and κ = 0.624) and stronger correlations between intended and expert-rated difficulty ( ρ = 0.630, p < .001; ρ = 0.436, p < .001). It also improved the inclusion of relevant clinical information and diagnostic diversity. LLMs can effectively generate psychiatry MCQs, especially when guided by domain-specific prompts. The psychiatry-specific prompt developed in this study is a useful tool for supporting medical education through high-quality, clinically relevant assessments. El uso de modelos de lenguaje de gran tamaño (LLMs) permite la creación de preguntas de opción múltiple (MCQs). Este estudio evalúa el desempeño de los LLMs en la generación de MCQs basadas en casos clínicos psiquiátricos, centrándose en la influencia del modelo utilizado y en la especificidad del prompt . Se realizaron dos experimentos. En el Experimento 1, se emplearon ChatGPT-3.5 y ChatGPT-4 con un prompt genérico. En el Experimento 2, se utilizó ChatGPT-4o para comparar el prompt genérico con una versión específica para psiquiatría. Se generaron 90 preguntas por experimento (45 por condición), equilibradas según niveles de dificultad. Un panel de profesores de psiquiatría evaluó la precisión diagnóstica y dificultad de las preguntas. En el Experimento 1, tanto ChatGPT-3.5 como ChatGPT-4 mostraron alta concordancia diagnóstica con los expertos ( κ = 0.889 y κ = 0.703), pero escasa correlación con la dificultad prevista ( ρ = 0.104, p = .496; ρ = − 0.087, p = .57). En el Experimento 2, el prompt específico de psiquiatría con ChatGPT-4o produjo MCQs más precisas ( κ = 0.731 y κ = 0.624) y mayores correlaciones entre la dificultad prevista y la evaluada ( ρ = 0.630, p < .001; ρ = 0.436, p < .001). También se observó una mayor inclusión de información clínica y diversidad diagnóstica. Los LLMs pueden generar MCQs en psiquiatría de forma eficaz, especialmente cuando se emplean prompts específicos. El prompt específico desarrollado ofrece una herramienta útil en educación médica.
Ähnliche Arbeiten
The Strengths and Difficulties Questionnaire: A Research Note
1997 · 14.520 Zit.
Making sense of Cronbach's alpha
2011 · 13.660 Zit.
QUADAS-2: A Revised Tool for the Quality Assessment of Diagnostic Accuracy Studies
2011 · 13.530 Zit.
A method for estimating the probability of adverse drug reactions
1981 · 11.448 Zit.
Evidence-Based Medicine
1992 · 4.133 Zit.
Autoren
Institutionen
- Universitat de València(ES)
- Hospital Universitari i Politècnic La Fe(ES)
- Instituto de Investigación Sanitaria La Fe(ES)
- Consorcio Hospitalario Provincial de Castellón(ES)
- Instituto de Salud Carlos III(ES)
- Centro de Investigación Biomédica en Red de Salud Mental(ES)
- Hospital Clínico Universitario de Valencia(ES)
- INCLIVA Health Research Institute(ES)
- Universidad de Sevilla(ES)
- Gazi University(TR)