一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

模型的谄媚行为源于RLHF，对吧？在一般情况下，人类更有可能给谄媚的回应更高的评分？那么我们可能会期待，随着模型的改进，它们会从写作风格中学习，谁会更喜欢谄媚，谁会更少，并相应地进行调整。那些希望保持理智的人可能想要考虑尽快尝试成为“更少”类型。