「今のモデルたちで非常に混乱している点の一つは、評価でこれほど良い成績を収めているという事実をどう折り合いつけるかということです。 評価を見て、『かなり厳しい評価だ』と思います。 しかし、経済的影響は劇的に遅れているようです。 [可能な]説明があります。かつては、誰がプレトレーニングをしていたかという問いは、どのデータでトレーニングするかという問いに答えがありました。なぜなら、その答えがすべてだったからです。だから、このデータかあれのデータかを考える必要はありません。 人々が強化学習のトレーニングを行うとき、『この種の強化学習を、あれらの強化学習をあれにしたい』と言います。 「モデルがリリースされたら本当に成功してほしいです」と言います。評価結果を素晴らしく見せたいのです。この課題に役立つ現実学習のトレーニングにはどんなものがあるでしょうか?」 これに加えて、モデルが実際には不十分であるという一般化を組み合わせれば、評価成績と実際のパフォーマンスの乖離を説明できる可能性があります。