.@willccbb(Prime Intellect的研究负责人)谈到RL环境的实际运作: “环境本质上就是一个评估。你有输入任务,一个框架,最后它会评分你的模型或代理的表现。这就是我们用于评估和RL训练的设置。” 他补充说,未来不仅仅是“在一个巨大的集群中获得100,000个GPU。”
15.12K