ビデオ生成をすべてトランスに詰め込んで解決したのは馬鹿げています。テキストの良い帰納的バイアスは動画ではあまり合いません。時間と空間を超えてピクセルパッチ間の注意を取っているのですか?それでも、それは見事に機能している
一般的な反応は、モデルは単に学習したいだけで、トランスフォーマーこそが私たちが非常にうまくスケールできるものだというものです。しかし、ここで疑問が生じるのは、なぜトランスフォーマーだけがスケールできる唯一のものなのでしょうか?単なる埋没費用の問題ではありません
29.78K