.@willccbb (forskningsleder, Prime Intellect) om hvordan RL-miljøer egentlig fungerer: «Et miljø er i hovedsak en eval. Du har inndataoppgaver, en sele, og til slutt scorer den hvordan modellen eller agenten din presterer. Det er oppsettet vi bruker for både evals og RL-trening." Han legger til at fremtiden ikke bare handler om å «få 100 000 GPUer i én gigantisk klynge».
15,07K