"Một trong những điều rất khó hiểu về các mô hình hiện tại: làm thế nào để hòa giải thực tế rằng chúng đang hoạt động rất tốt trong các bài đánh giá. Và bạn nhìn vào các bài đánh giá và bạn nói, 'Những bài đánh giá này khá khó.' Nhưng tác động kinh tế dường như đang tụt lại một cách đáng kể. Có [một khả năng] giải thích. Khi mọi người thực hiện việc huấn luyện trước, câu hỏi về dữ liệu nào để huấn luyện đã được trả lời, vì câu trả lời là mọi thứ. Vì vậy, bạn không cần phải suy nghĩ xem nó sẽ là dữ liệu này hay dữ liệu kia. Khi mọi người thực hiện huấn luyện RL, họ nói, 'Được rồi, chúng tôi muốn có loại huấn luyện RL này cho điều này và loại huấn luyện RL kia cho điều kia.' Bạn nói, 'Này, tôi rất muốn mô hình của chúng tôi hoạt động thật tốt khi chúng tôi phát hành nó. Tôi muốn các bài đánh giá trông tuyệt vời. Huấn luyện RL nào có thể giúp cho nhiệm vụ này?' Nếu bạn kết hợp điều này với việc tổng quát hóa các mô hình thực sự không đủ, điều đó có khả năng giải thích rất nhiều những gì chúng ta đang thấy, sự ngắt quãng giữa hiệu suất đánh giá và hiệu suất thực tế trong thế giới."