Benchmarking de Fluid LM de @vjhofmann e @allen_ai #COLM2025 Já promovi este artigo, é ótimo. Com a dificuldade a nível de item (modelo IRT) você pode estimar a *capacidade latente* de um modelo em vez de apenas o desempenho bruto, fornecendo amostras que maximizam o ganho de informação.