c'est ridicule, nous avons résolu videogen en y jetant tout dans un transformateur. tous les jolis biais inductifs pour le texte ne se suivent tout simplement pas dans la vidéo : vous faites de l'attention entre des morceaux de pixels à travers le temps et l'espace ? et pourtant, ça fonctionne incroyablement bien.
la réponse commune est que les modèles veulent juste apprendre et que les transformateurs sont la chose que nous savons vraiment bien mettre à l'échelle. mais cela soulève la question de pourquoi les transformateurs sont la seule chose que nous savons mettre à l'échelle ? ce n'est pas juste un coût irrécupérable.
29,76K