É ridículo termos resolvido o videogen jogando tudo em um transformer. Todos os bons vieses indutivos para texto simplesmente não acompanham no vídeo: você está fazendo atenção entre patches de pixel através do tempo e espaço? E ainda assim funciona maravilhosamente bem
A resposta comum é que os modelos só querem aprender e transformadores são o que sabemos escalar muito bem. Mas isso levanta a questão: por que transformadores são a única coisa que sabemos escalar? Não é só custo irrecuperável
29,77K