Benchmarking av flytande LM från @vjhofmann och @allen_ai #COLM2025 Jag har redan shillat den här tidningen, den är jättebra. Med svårighetsgrad på objektnivå (IRT-modell) kan du uppskatta *latent förmåga* hos en modell snarare än rå prestanda genom att ge den prover som maximerar informationsvinsten