来自 @vjhofmann 和 @allen_ai 的 Fluid LM 基准测试 #COLM2025 我已经为这篇论文做过宣传,它非常出色。通过项目级难度(IRT 模型),您可以通过提供最大化信息增益的样本来估计模型的 *潜在能力*,而不是原始性能。