热议:来自“数值”奖励的强化学习只是便利/我们的懒惰——这不是大语言模型的正确范式。 输入代币,输出代币,万岁!