Benchmarking Fluid LM od @vjhofmann i @allen_ai #COLM2025 Już promowałem ten artykuł, jest świetny. Dzięki trudności na poziomie elementów (model IRT) możesz oszacować *ukrytą zdolność* modelu, a nie tylko surową wydajność, dając mu próbki, które maksymalizują zysk informacyjny.