Benchmarking de Fluid LM de @vjhofmann y @allen_ai #COLM2025 Ya he promocionado este artículo, es excelente. Con la dificultad a nivel de ítem (modelo IRT) puedes estimar la *capacidad latente* de un modelo en lugar de su rendimiento bruto al darle muestras que maximicen la ganancia de información.