Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Evaluación de la fiabilidad computacional de ChatGPT en el cálculo de la fiabilidad intercodificadora en el análisis de contenido: evidencia a partir de datos simulados

2026·0 Zitationen·INFONOMYOpen Access

Volltext beim Verlag öffnen

Zitationen

Autoren

2026

Jahr

Abstract

La creciente integración de los modelos de lenguaje de gran escala (LLMs) en el proceso de investigación ha suscitado importantes interrogantes sobre su fiabilidad en la realización de análisis estadísticos. Aunque estudios previos han explorado el uso de estos modelos en tareas de clasificación textual y codificación cualitativa, existe una notable falta de evidencia sobre su precisión en el cálculo de métricas estadísticas fundamentales utilizadas en el análisis de contenido. Este estudio aborda este vacío evaluando de forma sistemática el rendimiento de ChatGPT en el cálculo del porcentaje de acuerdo, las tablas de contingencia y la Kappa de Cohen. Mediante un conjunto de simulaciones controladas, se variaron parámetros clave como el tamaño muestral, el número de categorías, el equilibrio en la distribución y el nivel de error en las codificaciones. Los resultados generados por ChatGPT 5.3 Instant se compararon con los obtenidos mediante procedimientos estadísticos estándar, considerados como referencia (ground truth). Los hallazgos indican que ChatGPT alcanza una alta precisión únicamente en condiciones simples, especialmente en muestras pequeñas con variables binarias y distribuciones balanceadas. Sin embargo, su rendimiento se deteriora a medida que aumenta la complejidad analítica. En escenarios de complejidad moderada, el modelo presenta una precisión parcial, reproduciendo en ocasiones correctamente las tablas de contingencia pero introduciendo desviaciones en los estadísticos derivados. En condiciones más complejas, particularmente con distribuciones desbalanceadas o múltiples categorías, ChatGPT genera resultados sistemáticamente sesgados, tendiendo a sobreestimar el nivel de acuerdo. Asimismo, en muestras de gran tamaño, el modelo presenta limitaciones operativas que impiden la obtención de resultados. En conjunto, los resultados evidencian una falta de fiabilidad estadística por lo que no se recomienda el uso de ChatGPT para el cálculo de estas métricas, salvo en casos muy simples con muestras pequeñas, y siempre bajo supervisión y validación mediante software estadístico consolidado.

Autoren

Manuel Goyanes

Institutionen

Universidad Carlos III de Madrid(ES)

Themen

Artificial Intelligence in Healthcare and EducationComputational and Text Analysis MethodsTopic Modeling

Volltext beim Verlag öffnen

Evaluación de la fiabilidad computacional de ChatGPT en el cálculo de la fiabilidad intercodificadora en el análisis de contenido: evidencia a partir de datos simulados

Abstract

Ähnliche Arbeiten

Autoren

Institutionen

Themen