Бенчмаркинг Fluid LM от @vjhofmann и @allen_ai #COLM2025 Я уже рекламировал эту статью, она отличная. С помощью модели IRT на уровне элементов вы можете оценить *латентные способности* модели, а не ее сырую производительность, предоставляя ей образцы, которые максимизируют получение информации.