Fluid LM benchmarking van @vjhofmann en @allen_ai #COLM2025 Ik heb dit paper al gepromoot, het is geweldig. Met itemniveau moeilijkheid (IRT-model) kun je de *latente capaciteit* van een model schatten in plaats van de ruwe prestaties door het monsters te geven die de informatiewinst maximaliseren.