一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

在预训练时代，重要的是互联网文本。你主要希望拥有一个大型、多样化、高质量的互联网文档集合来学习。在监督微调时代，重要的是对话。雇佣合同工来为问题创建答案，有点像你在 Stack Overflow / Quora 等地方看到的，但更针对 LLM 的用例。我认为上述两者都不会消失，但在这个强化学习的时代，现在重要的是环境。与上述不同，它们给 LLM 提供了实际互动的机会——采取行动、查看结果等。这意味着你可以希望比统计专家模仿做得更好。它们可以用于模型训练和评估。但就像以前一样，现在的核心问题是需要一个大型、多样化、高质量的环境集合，作为 LLM 练习的练习场。在某种程度上，我想起了 OpenAI 的第一个项目（gym），这正是一个希望建立一个大型环境集合的框架，但那是在 LLM 之前。因此，这些环境是当时简单的学术控制任务，比如 cartpole、ATARI 等。@PrimeIntellect 环境中心（以及 GitHub 上的 `verifiers` 仓库）构建了现代化版本，专门针对 LLM，这是一个伟大的努力/想法。今年早些时候，我建议有人构建类似的东西：环境具有这样的特性，一旦框架的骨架到位，原则上社区/行业可以在许多不同领域并行化，这令人兴奋。最后的想法——就个人和长期而言，我对环境和代理互动持乐观态度，但对强化学习持悲观态度。我认为奖励函数非常可疑，我认为人类并不使用 RL 来学习（也许他们在某些运动任务等方面使用，但在智力问题解决任务中并不使用）。人类使用不同的学习范式，这些范式显著更强大且样本效率更高，而这些范式尚未得到适当的发明和扩展，尽管早期的草图和想法已经存在（例如，“系统提示学习”的想法，将更新移动到令牌/上下文而不是权重，并可选择将其提炼为权重，作为一个类似于睡眠的单独过程）。

427.08K