.@willccbb (Research Lead, Prime Intellect) om hur RL-miljöer verkligen fungerar: "En miljö är i grund och botten en utvärdering. Du har indatauppgifter, en sele och i slutet poängsätter den hur din modell eller agent presterar. Det är det upplägget vi använder för både evals och RL-träning." Han tillägger att framtiden inte bara handlar om att "få 100 000 GPU:er i ett gigantiskt kluster".
15,13K