E ridicol că am rezolvat videogen aruncând totul într-un transformator. Toate prejudecățile inductive plăcute pentru text pur și simplu nu se regăsesc în video: faci atenție între patch-uri de pixeli de-a lungul timpului și spațiului? Și totuși funcționează fabulos de bine
Răspunsul comun este că modelele vor doar să învețe, iar transformatoarele sunt ceea ce știm să scalăm foarte bine. Dar asta ridică întrebarea: de ce transformatoarele sunt singurul lucru pe care știm să-l scalăm? Nu este doar un cost irecuperabil
29,77K