Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.
Using Large Language Models to Generate Script Concordance Test in Medical Education: ChatGPT and Claude
8
Zitationen
2
Autoren
2024
Jahr
Abstract
We aimed to determine the quality of AI-generated (ChatGPT-4 and Claude 3) Script Concordance Test (SCT) items through an expert panel. We generated SCT items on abdominal radiology using a complex prompt in large language model (LLM) chatbots (ChatGPT-4 and Claude 3 (Sonnet) in April 2024) and evaluated the items’ quality through an expert panel of 16 radiologists. Expert panel, which was blind to the origin of the items provided without modifications, independently answered each item and assessed them using 12 quality indicators. Data analysis included descriptive statistics, bar charts to compare responses against accepted forms, and a heatmap to show performance in terms of the quality indicators. SCT items generated by chatbots assess clinical reasoning rather than only factual recall (ChatGPT: 92.50%, Claude: 85.00%). The heatmap indicated that the items were generally acceptable, with most responses favorable across quality indicators (ChatGPT: 71.77%, Claude: 64.23%). The comparison of the bar charts with acceptable and unacceptable forms revealed that 73.33% and 53.33% of the questions in the items can be considered acceptable, respectively, for ChatGPT and Claude. The use of LLMs to generate SCT items can be helpful for medical educators by reducing the required time and effort. Although the prompt provides a good starting point, it remains crucial to review and revise AI-generated SCT items before educational use. The prompt and the custom GPT, “Script Concordance Test Generator”, available at https://chatgpt.com/g/g-RlzW5xdc1-script-concordance-test-generator, can streamline SCT item development. Nuestro objetivo fue determinar la calidad de los ítems de la Prueba de Concordancia de Guión (SCT) generada por IA (ChatGPT-4 y Claude 3) a través de un panel de expertos. Generamos ítems de SCT sobre radiología abdominal utilizando un mensaje complejo en chatbots de modelo de lenguaje grande (LLM) (ChatGPT-4 y Claude 3 (Sonnet) en abril de 2024) y evaluamos la calidad de los ítems a través de un panel de expertos de 16 radiólogos. El panel de expertos, que desconocía el origen de los ítems proporcionados sin modificaciones, respondió de forma independiente cada ítem y los evaluó utilizando 12 indicadores de calidad. El análisis de datos incluyó estadísticas descriptivas, gráficos de barras para comparar las respuestas con los formularios aceptados y un mapa de calor para mostrar el desempeño en términos de los indicadores de calidad. Los ítems de SCT generados por chatbots evalúan el razonamiento clínico en lugar de solo el recuerdo fáctico (ChatGPT: 92,50 %, Claude: 85,00 %). El mapa de calor indicó que los ítems eran generalmente aceptables, con la mayoría de las respuestas favorables en todos los indicadores de calidad (ChatGPT: 71,77 %, Claude: 64,23 %). La comparación de los gráficos de barras con formas aceptables e inaceptables reveló que el 73,33 % y el 53,33 % de las preguntas en los ítems pueden considerarse aceptables, respectivamente, para ChatGPT y Claude. El uso de LLM para generar ítems de SCT puede ser útil para los educadores médicos al reducir el tiempo y el esfuerzo necesarios. Aunque el mensaje proporciona un buen punto de partida, sigue siendo crucial revisar y modificar los ítems de SCT generados por IA antes de su uso educativo. El mensaje y el GPT personalizado, “Script Concordance Test Generator”, disponible en https://chatgpt.com/g/g-RlzW5xdc1-script-concordance-test-generator, pueden agilizar el desarrollo de ítems de SCT.
Ähnliche Arbeiten
Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI
2019 · 8.316 Zit.
Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead
2019 · 8.177 Zit.
High-performance medicine: the convergence of human and artificial intelligence
2018 · 7.575 Zit.
Proceedings of the 19th International Joint Conference on Artificial Intelligence
2005 · 5.776 Zit.
Peeking Inside the Black-Box: A Survey on Explainable Artificial Intelligence (XAI)
2018 · 5.468 Zit.