thật là vô lý khi chúng tôi giải quyết videogen bằng cách ném mọi thứ vào một transformer. tất cả những thiên kiến quy nạp tốt đẹp cho văn bản thực sự không theo trong video: bạn đang làm attention giữa các mảng pixel qua thời gian và không gian? và thế mà nó hoạt động cực kỳ tốt.
phản ứng chung là các mô hình chỉ muốn học và transformers là thứ mà chúng ta biết cách mở rộng rất tốt. nhưng điều này đặt ra câu hỏi tại sao transformers lại là thứ duy nhất mà chúng ta biết cách mở rộng? không chỉ đơn giản là chi phí đã mất.
29,76K