to absurdalne, że rozwiązaliśmy videogen, wrzucając wszystko do transformera. wszystkie te ładne indukcyjne uprzedzenia dla tekstu po prostu nie działają w wideo: robisz uwagę między łatkami pikseli w czasie i przestrzeni? a mimo to działa to fantastycznie dobrze
powszechną odpowiedzią jest to, że modele po prostu chcą się uczyć, a transformery to rzecz, którą potrafimy naprawdę dobrze skalować. ale to rodzi pytanie, dlaczego transformery są jedyną rzeczą, którą potrafimy skalować? to nie tylko koszt utopiony.
29,76K