Flytende LM-benchmarking fra @vjhofmann og @allen_ai #COLM2025 Jeg har allerede shillet denne avisen, den er flott. Med vanskelighetsgrad for elementnivå (IRT-modell) kan du estimere *latent kapasitet* til en modell i stedet for rå ytelse ved å gi den prøver som maksimerer informasjonsgevinsten