Benchmarking LM cair dari @vjhofmann dan @allen_ai #COLM2025 Saya sudah menuliskan makalah ini, itu bagus. Dengan kesulitan tingkat item (model IRT), Anda dapat memperkirakan *kemampuan laten* model daripada performa mentah dengan memberikannya sampel yang memaksimalkan perolehan informasi