OpenAlex · Aktualisierung stündlich · Letzte Aktualisierung: 14.03.2026, 02:38

Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Data Set and Benchmark (MedGPTEval) to Evaluate Responses From Large Language Models in Medicine: Evaluation Development and Validation

2024·19 Zitationen·JMIR Medical InformaticsOpen Access
Volltext beim Verlag öffnen

19

Zitationen

10

Autoren

2024

Jahr

Abstract

MedGPTEval provides comprehensive criteria to evaluate chatbots by LLMs in the medical domain, open-source data sets, and benchmarks assessing 3 LLMs. Experimental results demonstrate that Dr PJ outperforms ChatGPT and ERNIE Bot in social and professional contexts. Therefore, such an assessment system can be easily adopted by researchers in this community to augment an open-source data set.

Ähnliche Arbeiten