OpenAlex · Aktualisierung stündlich · Letzte Aktualisierung: 13.03.2026, 20:12

Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Impact of the large language model and prompt specificity in generating psychiatric multiple-choice questions

2026·0 Zitationen·Educación MédicaOpen Access
Volltext beim Verlag öffnen

0

Zitationen

8

Autoren

2026

Jahr

Abstract

The use of large language models (LLMs) can assist in creating Multiple-Choice Questions (MCQs) for enhancing psychiatric education. This study evaluates the performance of LLMs in generating psychiatry case-based MCQs, focusing on the influence of the model used and the specificity of the prompt. Two experiments were carried out. In Experiment 1, ChatGPT-3.5 and ChatGPT-4 were used with a general-purpose prompt. In Experiment 2, ChatGPT-4o was used to compare the generic prompt with a psychiatry-specific version. A total of 90 questions were generated in each experiment (45 per condition), balanced across low, moderate, and high difficulty levels. A panel of psychiatry professors assessed the questions for diagnostic accuracy and difficulty. In Experiment 1, both ChatGPT-3.5 and ChatGPT-4 showed high diagnostic agreement with experts ( κ = 0.889 and κ = 0.703), but little correlation with intended difficulty ( ρ = 0.104, p = .496; ρ = − 0.087, p = .57). In Experiment 2, the psychiatry-specific prompt with ChatGPT-4o yielded more accurate MCQs ( κ = 0.731 and κ = 0.624) and stronger correlations between intended and expert-rated difficulty ( ρ = 0.630, p < .001; ρ = 0.436, p < .001). It also improved the inclusion of relevant clinical information and diagnostic diversity. LLMs can effectively generate psychiatry MCQs, especially when guided by domain-specific prompts. The psychiatry-specific prompt developed in this study is a useful tool for supporting medical education through high-quality, clinically relevant assessments. El uso de modelos de lenguaje de gran tamaño (LLMs) permite la creación de preguntas de opción múltiple (MCQs). Este estudio evalúa el desempeño de los LLMs en la generación de MCQs basadas en casos clínicos psiquiátricos, centrándose en la influencia del modelo utilizado y en la especificidad del prompt . Se realizaron dos experimentos. En el Experimento 1, se emplearon ChatGPT-3.5 y ChatGPT-4 con un prompt genérico. En el Experimento 2, se utilizó ChatGPT-4o para comparar el prompt genérico con una versión específica para psiquiatría. Se generaron 90 preguntas por experimento (45 por condición), equilibradas según niveles de dificultad. Un panel de profesores de psiquiatría evaluó la precisión diagnóstica y dificultad de las preguntas. En el Experimento 1, tanto ChatGPT-3.5 como ChatGPT-4 mostraron alta concordancia diagnóstica con los expertos ( κ = 0.889 y κ = 0.703), pero escasa correlación con la dificultad prevista ( ρ = 0.104, p = .496; ρ = − 0.087, p = .57). En el Experimento 2, el prompt específico de psiquiatría con ChatGPT-4o produjo MCQs más precisas ( κ = 0.731 y κ = 0.624) y mayores correlaciones entre la dificultad prevista y la evaluada ( ρ = 0.630, p < .001; ρ = 0.436, p < .001). También se observó una mayor inclusión de información clínica y diversidad diagnóstica. Los LLMs pueden generar MCQs en psiquiatría de forma eficaz, especialmente cuando se emplean prompts específicos. El prompt específico desarrollado ofrece una herramienta útil en educación médica.

Ähnliche Arbeiten