Meistzitierte Publikationen im Bereich Gesundheit & MedTech
Measuring what Matters: Construct Validity in Large Language Model Benchmarks
2025 · 0 Zit. · ArXiv.org
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements