Benchmarking plynulých LM z @vjhofmann a @allen_ai #COLM2025 Už jsem si tento článek poslal, je skvělý. S obtížností na úrovni položky (IRT model) můžete odhadnout *latentní schopnost* modelu spíše než hrubý výkon tím, že mu poskytnete vzorky, které maximalizují informační zisk