het is belachelijk dat we videogen hebben opgelost door alles in een transformer te gooien. al die mooie inductieve biases voor tekst volgen gewoon niet echt in video: je doet aandacht tussen pixelpatches over tijd en ruimte? en toch werkt het fantastisch goed
de algemene reactie is dat de modellen gewoon willen leren en transformers zijn hetgene dat we echt goed kunnen schalen. maar dit roept de vraag op waarom transformers het enige zijn dat we weten hoe te schalen? het is niet alleen een verzonken kost
29,76K