Det er latterlig at vi løste videogen ved å kaste alt inn i en transformator. Alle de fine induktive skjevhetene for tekst følger bare ikke helt i video: du gjør oppmerksomhet mellom pikselpatcher over tid og rom? Og likevel fungerer det fantastisk bra
Den vanlige responsen er at modellene bare vil lære, og at transformatorer er det vi vet hvordan vi skalerer veldig godt. Men dette reiser spørsmålet: Hvorfor er Transformers det ene vi vet hvordan vi skalerer? Det er ikke bare sunk cost
29,78K