.@willccbb (Líder de investigación, Prime Intellect) sobre cómo funcionan realmente los entornos de RL: "Un entorno es esencialmente una evaluación. Tienes tareas de entrada, un arnés y, al final, califica el rendimiento de tu modelo o agente. Esa es la configuración que usamos tanto para las evaluaciones como para el entrenamiento de RL". Agrega que el futuro no se trata solo de "obtener 100,000 GPU en un clúster gigante".
17.68K