Це абсурд, що ми вирішили Videogen, кинувши все в трансформер. Усі ці приємні індуктивні упередження для тексту просто не поєднуються у відео: ви робите увагу між піксельними патчами у часі та просторі? І все ж це працює чудово
Поширена відповідь полягає в тому, що моделі просто хочуть навчатися, а трансформери — це те, що ми вміємо добре масштабувати. Але це ставить питання: чому саме трансформери — це те, що ми вміємо масштабувати? Це не просто втрачена вартість
29,78K