Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.
Evaluación de la fiabilidad computacional de ChatGPT en el cálculo de la fiabilidad intercodificadora en el análisis de contenido: evidencia a partir de datos simulados
0
Zitationen
1
Autoren
2026
Jahr
Abstract
La creciente integración de los modelos de lenguaje de gran escala (LLMs) en el proceso de investigación ha suscitado importantes interrogantes sobre su fiabilidad en la realización de análisis estadísticos. Aunque estudios previos han explorado el uso de estos modelos en tareas de clasificación textual y codificación cualitativa, existe una notable falta de evidencia sobre su precisión en el cálculo de métricas estadísticas fundamentales utilizadas en el análisis de contenido. Este estudio aborda este vacío evaluando de forma sistemática el rendimiento de ChatGPT en el cálculo del porcentaje de acuerdo, las tablas de contingencia y la Kappa de Cohen. Mediante un conjunto de simulaciones controladas, se variaron parámetros clave como el tamaño muestral, el número de categorías, el equilibrio en la distribución y el nivel de error en las codificaciones. Los resultados generados por ChatGPT 5.3 Instant se compararon con los obtenidos mediante procedimientos estadísticos estándar, considerados como referencia (ground truth). Los hallazgos indican que ChatGPT alcanza una alta precisión únicamente en condiciones simples, especialmente en muestras pequeñas con variables binarias y distribuciones balanceadas. Sin embargo, su rendimiento se deteriora a medida que aumenta la complejidad analítica. En escenarios de complejidad moderada, el modelo presenta una precisión parcial, reproduciendo en ocasiones correctamente las tablas de contingencia pero introduciendo desviaciones en los estadísticos derivados. En condiciones más complejas, particularmente con distribuciones desbalanceadas o múltiples categorías, ChatGPT genera resultados sistemáticamente sesgados, tendiendo a sobreestimar el nivel de acuerdo. Asimismo, en muestras de gran tamaño, el modelo presenta limitaciones operativas que impiden la obtención de resultados. En conjunto, los resultados evidencian una falta de fiabilidad estadística por lo que no se recomienda el uso de ChatGPT para el cálculo de estas métricas, salvo en casos muy simples con muestras pequeñas, y siempre bajo supervisión y validación mediante software estadístico consolidado.
Ähnliche Arbeiten
Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI
2019 · 8.402 Zit.
Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead
2019 · 8.270 Zit.
High-performance medicine: the convergence of human and artificial intelligence
2018 · 7.702 Zit.
Proceedings of the 19th International Joint Conference on Artificial Intelligence
2005 · 5.781 Zit.
Peeking Inside the Black-Box: A Survey on Explainable Artificial Intelligence (XAI)
2018 · 5.507 Zit.