來自 @vjhofmann 和 @allen_ai 的 Fluid LM 基準測試 #COLM2025 我已經推廣過這篇論文了,真的很棒。透過項目級難度(IRT 模型),你可以估計模型的 *潛在能力*,而不是僅僅依賴原始性能,方法是給它提供能最大化信息增益的樣本。