"目前模型中非常令人困惑的一件事是:如何调和它们在评估中表现得如此出色的事实。 你看评估时会想,‘这些评估相当困难。’ 但经济影响似乎大大滞后。 有[一个可能的]解释。早期人们进行预训练时,关于使用什么数据进行训练的问题已经有了答案,因为那个答案是所有数据。所以你不必考虑是用这组数据还是那组数据。 当人们进行强化学习训练时,他们会说,‘好吧,我们想要为这个事情进行这种类型的强化学习训练,为那个事情进行那种类型的强化学习训练。’ 你会说,‘嘿,我希望我们的模型在发布时表现得很好。我希望评估看起来很棒。什么样的强化学习训练可以帮助这个任务?’ 如果将这一点与模型的泛化能力实际上不足结合起来,这有可能解释我们所看到的很多现象,即评估表现与实际现实世界表现之间的脱节。"