"Uma das coisas mais confusas sobre os modelos agora: como conciliar o fato de que eles estão indo tão bem nas avaliações. E você olha para as avaliações e pensa: 'Essas são avaliações bem difíceis.' Mas o impacto econômico parece estar dramaticamente atrasado. Há [uma possível] explicação. Na época em que as pessoas faziam pré-treinamento, a questão de quais dados treinar era respondida, porque essa resposta era tudo. Então você não precisa pensar se vai ser esse ou aquele dado. Quando as pessoas fazem treinamento de RL, dizem: 'Ok, queremos ter esse tipo de treinamento de RL para isso e aquele tipo de treinamento de RL para aquilo.' Você diz: 'Ei, eu adoraria que nosso modelo fosse muito bom quando o lançarmos. Quero que as avaliações fiquem ótimas. Qual seria o treinamento de vida real que poderia ajudar nessa tarefa?' Se você combinar isso com a generalização de que os modelos são realmente inadequados, isso pode explicar muito do que estamos vendo, essa desconexão entre desempenho avaliativo e desempenho real no mundo real"