es ridículo que resolvimos videogen lanzándolo todo a un transformador. todos los bonitos sesgos inductivos para texto simplemente no se aplican realmente en video: ¿estás haciendo atención entre parches de píxeles a través del tiempo y el espacio? y, sin embargo, funciona fabulosamente bien
la respuesta común es que los modelos solo quieren aprender y los transformadores son lo que sabemos escalar muy bien. pero esto plantea la pregunta de por qué los transformadores son la única cosa que sabemos escalar? no es solo un costo hundido
29,76K