这太荒谬了,我们通过把所有东西扔进一个变压器来解决 videogen。文本的所有良好归纳偏差在视频中并不适用:你是在时间和空间之间对像素块进行注意力处理吗?然而,它的效果却非常好。
普遍的回应是,这些模型只是想学习,而变压器是我们知道如何很好地扩展的东西。但这就引出了一个问题:为什么变压器是我们知道如何扩展的唯一东西?这不仅仅是沉没成本。
29.77K