Benchmarking fluid LM de la @vjhofmann și @allen_ai #COLM2025 Am scris deja această lucrare, este grozavă. Cu dificultatea la nivel de articol (model IRT) puteți estima *capacitatea latentă* a unui model, mai degrabă decât performanța brută, oferindu-i mostre care maximizează câștigul de informații