OpenAlex · Aktualisierung stündlich · Letzte Aktualisierung: 15.03.2026, 19:54

Dies ist eine Übersichtsseite mit Metadaten zu dieser wissenschaftlichen Arbeit. Der vollständige Artikel ist beim Verlag verfügbar.

Evaluating Capabilities of Large Language Models: Performance of GPT4 on Surgical Knowledge Assessments

2023·29 ZitationenOpen Access
Volltext beim Verlag öffnen

29

Zitationen

6

Autoren

2023

Jahr

Abstract

Consistent with prior findings, we demonstrate robust near or above human-level performance of ChatGPT within the surgical domain. Unique to this study, we demonstrate a substantial inconsistency in ChatGPT responses with repeat query. This finding warrants future consideration and presents an opportunity to further train these models to provide safe and consistent responses. Without mental and/or conceptual models, it is unclear whether language models such as ChatGPT would be able to safely assist clinicians in providing care.

Ähnliche Arbeiten