Benchmarking Fluid LM de @vjhofmann e @allen_ai #COLM2025 Eu já escrevi este artigo, é ótimo. Com a dificuldade no nível do item (modelo IRT), você pode estimar a *capacidade latente* de um modelo em vez do desempenho bruto, fornecendo amostras que maximizam o ganho de informações