"Unul dintre lucrurile foarte confuze la modele acum: cum să împaci faptul că se descurcă atât de bine la evaluări. Și te uiți la evaluări și spui: "Sunt evaluări destul de grele." Dar impactul economic pare să fie dramatic în urmă. Există [o posibilă] explicație. Pe vremea când oamenii făceau pre-antrenament, întrebarea despre ce date să se antreneze a fost răspunsă, pentru că acel răspuns era totul. Deci nu trebuie să te gândești dacă vor fi aceste date sau altele. Când oamenii fac antrenament RL, spun: "Ok, vrem să avem acest tip de antrenament RL pentru chestia asta și un alt tip de pregătire RL pentru chestia asta." Spui: "Hei, mi-ar plăcea ca modelul nostru să meargă foarte bine când îl lansăm. Vreau ca evaluările să arate grozav. Ce antrenament RL ar putea ajuta la această sarcină?" Dacă combini asta cu generalizarea faptului că modelele sunt de fapt inadecvate, asta ar putea explica multe dintre lucrurile pe care le vedem, această deconectare între performanța evaluării și performanța reală din lumea reală."