"Одна из самых запутанных вещей в моделях сейчас: как примирить тот факт, что они так хорошо справляются с оценками. И ты смотришь на оценки и думаешь: 'Это довольно сложные оценки.' Но экономическое воздействие, похоже, значительно отстает. Есть [возможное] объяснение. Когда люди занимались предварительным обучением, вопрос о том, на каких данных тренироваться, был решен, потому что ответ был - на всех данных. Так что не нужно думать, будут ли это данные или другие данные. Когда люди занимаются обучением с подкреплением, они говорят: 'Хорошо, мы хотим иметь такой вид обучения с подкреплением для этой задачи и такой вид обучения с подкреплением для той задачи.' Ты говоришь: 'Эй, мне бы хотелось, чтобы наша модель действительно хорошо работала, когда мы ее выпустим. Я хочу, чтобы оценки выглядели отлично. Какое обучение с подкреплением могло бы помочь в этой задаче?' Если объединить это с тем, что обобщение моделей на самом деле оказывается недостаточным, это может объяснить многое из того, что мы видим, этот разрыв между производительностью по оценкам и фактической производительностью в реальном мире"