"Una de las cosas más confusas de los modelos ahora mismo: cómo reconciliar el hecho de que les va tan bien en las evaluaciones. Y miras las evaluaciones y piensas: 'Son evaluaciones bastante duras.' Pero el impacto económico parece estar dramáticamente por detrás. Hay una posible explicación. Cuando la gente hacía pre-entrenamiento, la pregunta de qué datos usar entrenamiento se respondía, porque esa respuesta lo era todo. Así que no tienes que pensar si van a ser estos o aquellos datos. Cuando la gente hace entrenamiento de RL, dicen: 'Vale, queremos tener este tipo de entrenamiento de RL para esto y aquel tipo de entrenamiento de RL para aquello.' Dices: 'Oye, me encantaría que nuestro modelo funcionara muy bien cuando lo lancemos. Quiero que las evaluaciones queden geniales. ¿Qué entrenamiento en vida real podría ayudar en esta tarea?' Si combinas esto con la generalización de que los modelos son realmente insuficientes, eso podría explicar mucho de lo que estamos viendo, esta desconexión entre el rendimiento de evaluación y el rendimiento real en el mundo real"