Det är löjligt att vi löste videogen genom att kasta allt i en transformator. Alla de fina induktiva biaserna för text följer inte riktigt i video: du gör uppmärksamhet mellan pixelpatchar över tid och rum? Och ändå fungerar det fantastiskt bra
Den vanliga responsen är att modellerna bara vill lära sig och att transformatorer är det vi vet hur man skalar riktigt bra. Men detta väcker frågan varför transformers är det enda vi vet hur vi skalar? Det handlar inte bara om sunk cost
41,1K