"Одна з дуже заплутаних речей щодо моделей зараз: як узгодити той факт, що вони так добре справляються на оцінюваннях. Дивишся на оцінки і думаєш: «Це досить складні оцінки.» Але економічний вплив, здається, значно відстає. Існує [можливе] пояснення. Коли люди проходили попереднє навчання, питання, на яких даних тренуватися, було відповіддю, бо ця відповідь була всім. Тож вам не потрібно думати, чи це будуть ті чи інші дані. Коли люди проходять тренінг RL, вони кажуть: «Добре, ми хочемо мати таке RL-навчання для цього і таке RL-навчання для того.» Ви кажете: «Гей, я б хотів, щоб наша модель добре показала себе після випуску. Я хочу, щоб оцінки виглядали чудово. Яке навчання в реальному житті могло б допомогти в цьому завданні?» Якщо поєднати це з узагальненням, що моделі фактично недостатні, це може пояснити багато з того, що ми бачимо — цей розрив між оцінювальною продуктивністю та реальною реальністю»