VideoGene'i her şeyi bir transformer'a atarak çözmemiz saçma. Metin için tüm güzel tümevarımsal önyargılar videoda pek takip edilmiyor: zaman ve mekân boyunca piksel yamaları arasında dikkat mi yapıyorsun? Ama yine de harika çalışıyor
Yaygın tepki, modeller sadece öğrenmek istiyor ve transformatörler gerçekten iyi ölçeklendirilebilecek şeyler. Ama bu da şu soruyu gündeme getiriyor: Neden ölçeklendirmeyi bildiğimiz tek şey transformatörler? Sadece batmış maliyet değil
24,29K