Fluid LM benchmarking @vjhofmann ja @allen_ai #COLM2025 Olen jo shillannut tämän paperin, se on hienoa. Kohdetason vaikeusasteella (IRT-malli) voit arvioida mallin *piilevää kykyä* raakasuorituskyvyn sijaan antamalla sille näytteitä, jotka maksimoivat tiedon saamisen