"L'une des choses très déroutantes à propos des modèles en ce moment : comment concilier le fait qu'ils réussissent si bien aux évaluations. Et vous regardez les évaluations et vous vous dites : 'Ce sont des évaluations assez difficiles.' Mais l'impact économique semble être dramatiquement en retard. Il y a [une possible] explication. À l'époque où les gens faisaient de la pré-formation, la question des données sur lesquelles s'entraîner était résolue, car la réponse était tout. Donc, vous n'avez pas à réfléchir si ce sera ces données ou ces données. Lorsque les gens font de l'entraînement RL, ils disent : 'D'accord, nous voulons avoir ce type d'entraînement RL pour cette chose et ce type d'entraînement RL pour cette autre chose.' Vous dites : 'Hé, j'aimerais que notre modèle fonctionne vraiment bien quand nous le publierons. Je veux que les évaluations soient excellentes. Quel type d'entraînement RL pourrait aider sur cette tâche ?' Si vous combinez cela avec la généralisation des modèles qui est en réalité inadéquate, cela a le potentiel d'expliquer beaucoup de ce que nous voyons, ce décalage entre la performance aux évaluations et la performance réelle dans le monde."