Mitä tulee tekoälyn hajautettuun koulutukseen, huomasin, että web2AI-piirissä olevat ihmiset leimaavat sen "vääräksi ehdotukseksi" sillä perusteella, että laskentateholaitteet voidaan yhdistää, mutta hajautetun ja tehokkaan yhteistyön kaistanleveyskustannukset ovat hirvittäviä? Ja @0G_labs äskettäin julkaissut DiLoCoxin artikkelin, näyttää siltä, että tavoitteena on ratkaista tämä ongelma? Puhutaanpa siitä yksityiskohtaisesti: 1) Puhutaanpa siitä, miksi hajautettua koulutusta pidetään "vääränä ehdotuksena". Ydinristiriita on yksinkertainen: haluat korvata 100 A100:n yhdistämällä 100 halpaa GPU:ta, mikä näyttää säästävän 90 % laitteistokustannuksista, mutta nämä 100 GPU:ta on koulutettava synkronisesti, ja jokaisen aikakauden on vaihdettava teratavuja gradienttidataa. Perinteiset ratkaisut vaativat 100 Gbps dedikoitua linjakaistanleveyttä, kun taas 100 Gbps:n datakeskustason verkon saavuttaminen voi maksaa satoja tuhansia dollareita kuukaudessa. Kaiken kaikkiaan kaikki säästämäsi GPU-rahat käytetään kaistanleveyteen ja jopa ylösalaisin. Tämän logiikan mukaan koneen kustannusten säästäminen, mutta kaistanleveyden lisäkustannukset eivät tarkoita, etteikö ongelmaa olisi ratkaistu? Siksi vääräksi väitteeksi kritisoimisen ydin on aina ollut tässä. 2) 0G:n DiLoCoX-tutkimus herätti huomiota, koska he väittivät kouluttavansa 107B-parametrimallia 1 Gbps:n verkossa (normaali toimistokaistanleveys), joka on 357 kertaa nopeampi kuin perinteinen AllReduce-järjestelmä. Tämä luku on todella räjähdysherkkä - tiedätkö, 1 Gbps vs 100 Gbps, kaistanleveysero on 100 kertaa, mutta harjoitusnopeus on 357 kertaa nopeampi? Kuinka tehdä se? Karkean tutkimuksen jälkeen havaittiin, että tämä järjestelmäsarja on tehnyt neljä optimointia: Putkilinjan rinnakkaisuus pilkkoo mallin osiin; Dual Optimizer -käytäntö Vähentää synkronointitiheyttä kahden optimointikäytännön kanssa; Yksivaiheisen viiveen päällekkäisyys mahdollistaa viestinnän ja tietojenkäsittelyn rinnakkain odottamatta toisiaan. Mukautuva liukuvärin pakkaus tiivistää liukuvärit älykkäästi. Maallikon termein se on muuttaa alkuperäinen vaadittu "reaaliaikainen vahva synkronointi" "asynkroniseksi heikoksi synkronoinniksi" ja muuttaa "täysi tiedonsiirto" "pakatuksi inkrementaaliseksi lähetykseksi". Esimerkiksi perinteiset ratkaisut ovat kuin 100 hengen reaaliaikaisia videoneuvotteluja, joissa jokaisen henkilön jokainen toiminta lähetetään samanaikaisesti, DiLoCoX on kuin kaikki tallentaisivat erikseen ja lähettäisivät sitten vain avainkehyksiä ja muutoksia. Liikennemäärä on vähentynyt 100-kertaiseksi, mutta tiedon eheys on pysynyt yli 99 prosentissa. Miksi tämä on mahdollista? Mielestäni ydin on, että ne vangitsevat tekoälykoulutuksen ominaisuuden - vikasietoisuuden. Mallin kouluttaminen ei ole kuin transaktionsiirto, joka ei ole penniäkään vajaa. Gradienttipäivitys on hieman virheellinen, synkronointi viivästyy ja lopullisella mallin konvergenssivaikutuksella on vain vähän vaikutusta. DiLoCoX käyttää tätä "vikasietotilaa" vaihtaakseen hyväksyttävät tarkkuushäviöt suuruusluokkaa hyötysuhteisiin. Tämä on tyypillistä insinööriajattelua - ei täydellisyyden tavoittelua, parhaan kustannustehokkuuden tavoittelua. 3) Mutta kaistanleveysongelman ratkaiseminen ei riitä, 0G on selvästi kunnianhimoisempi. Katso vain niiden yleistä arkkitehtuuria: heillä on myös 10 dollarin tallennuskerros/TB, joka väittää suoraan murskaavansa Filecoinin, ja DA-kerros on suunniteltu tekoälylle Gt-tason suorituskyvyn saavuttamiseksi. Syy siihen, miksi suunnittelu voi saavuttaa tallennustilan 100 kertaa halvemmalla, on suoraan sanottuna se on myös tekoälyn koulutusskenaarioiden erityinen optimointi, esimerkiksi harjoitusprosessin aikana luotujen tarkistuspisteiden ja lokien elinkaari on vain muutama päivä, itse asiassa ei tarvitse tiukasti saavuttaa "pysyvää varastointia". Siksi itse asiassa otetaan käyttöön pragmaattinen ratkaisu "porrastetusta tallennustilasta", ja tarvittaessa tarjotaan vain vastaava palvelutaso - kuuma data luetaan ja kirjoitetaan nopeasti, mutta kalliimpaa, kylmä data on halvempaa mutta hitaampaa ja väliaikainen data on halvin poistaa, kun se on käytetty loppuun. Ja juuri tämä eriytetty hinnoittelu osuu suoraan tekoälykoulutuksen avainkohtiin. Yläpuolella. Voidaan nähdä, että 0G Labs on tarkoituksella mukauttanut tekoälyä laskentatehon, tallennuksen ja tiedonkierron ongelmiin tekoälykoulutusprosessissa. Jopa konsensusmekanismi on optimoitu tekoälyä varten. CometBFT:n parannettua versiota käytetään 2500+ TPS:n kanssa alle sekunnin lopullisuudella, joka on erityisesti viritetty tekoälytyökuormien asynkronisiin ominaisuuksiin jne. Toisin sanoen sen sijaan, että 0G olisi "paikannut" tekoälyä olemassa olevissa lohkoketjuissa, se on suunnitellut "AI Native" -infrastruktuurin tyhjästä. Nähtäväksi jää, pystyykö se vihdoin saamaan sovellustason kaupallisen todentamisen perinteisen tekoälyn kanssa käytävän kilpailun puristuksessa, mutta tästä erilaisesta läpimurtoideasta kannattaa ottaa oppia.
5,21K