@vjhofmannと@allen_ai #COLM2025からの流体LMベンチマーク 私はすでにこの論文をシリングしました、それは素晴らしいです。項目レベルの難易度 (IRT モデル) では、情報ゲインを最大化するサンプルを与えることで、生のパフォーマンスではなくモデルの *潜在能力* を推定できます