OpenAlex · Aktualisierung stündlich · Letzte Aktualisierung: 29.04.2026, 23:51

Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study

2025·27 Zitationen·Critical CareOpen Access
Volltext beim Verlag öffnen

27

Zitationen

7

Autoren

2025

Jahr

Abstract

LLMs exhibit exceptional accuracy and consistency, with four outperforming human physicians on a European-level practice exam. GPT-4o led in performance but raised concerns about energy consumption. Despite their potential in critical care, all models produced consistently incorrect answers, highlighting the need for more thorough and ongoing evaluations to guide responsible implementation in clinical settings.

Ähnliche Arbeiten