.@willccbb(Prime Intellect的研究負責人)談到RL環境的實際運作: “環境本質上就是一個評估。你有輸入任務,一個框架,最後它會評分你的模型或代理的表現。這就是我們用於評估和RL訓練的設置。” 他補充說,未來不僅僅是“在一個巨大的集群中獲得100,000個GPU。”
15.1K