это смешно, что мы решили проблему видеогенерации, просто бросив всё в трансформер. все хорошие индуктивные предвзятости для текста просто не работают в видео: вы делаете внимание между пиксельными патчами во времени и пространстве? и тем не менее, это работает потрясающе хорошо
Общим ответом является то, что модели просто хотят учиться, и трансформеры — это то, что мы знаем, как хорошо масштабировать. Но это ставит вопрос, почему трансформеры — это единственное, что мы знаем, как масштабировать? Это не просто утопленные затраты.
29,76K