Când vine vorba de antrenamentul distribuit AI, am descoperit că oamenii din cercul web2AI îl vor eticheta ca o "propunere falsă", pe motiv că dispozitivele de putere de calcul pot fi agregate, dar există costuri teribile de lățime de bandă pentru o colaborare distribuită și eficientă? Și @0G_labs publicat recent o lucrare a lui DiLoCox, se pare că scopul este de a rezolva această problemă? Să vorbim despre asta în detaliu: 1) Să vorbim despre motivul pentru care antrenamentul distribuit este considerat o "propunere falsă". Contradicția de bază este simplă: doriți să înlocuiți 100 A100 prin agregarea a 100 de GPU-uri ieftine, ceea ce pare să economisească 90% din costul hardware-ului, dar aceste 100 de GPU-uri trebuie antrenate sincron și fiecare epocă trebuie să facă schimb de terabytes de date de gradient. Soluțiile tradiționale necesită o lățime de bandă dedicată de 100 Gbps, în timp ce atingerea unei rețele la nivel de centru de date de 100 Gbps poate costa sute de mii de dolari pe lună. În total, toți banii GPU pe care îi economisiți sunt cheltuiți pe lățime de bandă și chiar cu susul în jos. Conform acestei logici, economisirea costului mașinii, dar suportarea unor costuri suplimentare de lățime de bandă nu înseamnă că problema nu a fost rezolvată? Prin urmare, esența de a fi criticat ca o propoziție falsă a fost întotdeauna aici. 2) Lucrarea DiLoCoX a 0G a atras atenția pentru că pretindea că antrenează un model de parametri 107B pe o rețea de 1 Gbps (lățime de bandă normală de birou), care este de 357 de ori mai rapidă decât schema tradițională AllReduce. Acest număr este cu adevărat exploziv - știți, 1 Gbps vs 100 Gbps, diferența de lățime de bandă este de 100 de ori, dar viteza de antrenament este de 357 de ori mai mare? Cum se face? După un studiu aproximativ, s-a constatat că acest set de scheme a făcut patru optimizări: Paralelismul conductei împarte modelul în segmente; Politica de optimizare duală Reduce frecvența de sincronizare cu politicile de optimizare duală; Suprapunerea cu întârziere într-un pas permite comunicării și calculului să ruleze în paralel fără a aștepta una pe cealaltă. Compresia adaptivă a gradientului comprimă inteligent gradientele. În termeni simpli, este de a schimba "sincronizarea puternică în timp real" inițial necesară în "sincronizare slabă asincronă" și de a schimba "transmisie completă de date" în "transmisie incrementală comprimată". De exemplu, în timp ce soluțiile tradiționale sunt ca conferințele video în timp real pentru 100 de persoane, în care fiecare acțiune a fiecărei persoane este transmisă simultan, DiLoCoX este ca și cum toată lumea înregistrează separat și apoi trimite doar cadre cheie și modificări. Volumul de trafic a scăzut de 100 de ori, dar integritatea informațiilor a rămas peste 99%. De ce este posibil acest lucru? În opinia mea, esența este că surprind o caracteristică a antrenamentului AI - toleranța la erori. Antrenarea unui model nu este ca un transfer de tranzacție, care nu este cu un ban mai puțin. Actualizarea gradientului este puțin eronată, sincronizarea este întârziată, iar efectul final de convergență a modelului are un impact redus. DiLoCoX folosește acest "spațiu de toleranță la erori" pentru a schimba pierderi de precizie acceptabile pentru câștiguri de eficiență de ordine de mărime. Aceasta este o gândire tipică inginerească - nu urmărirea perfecțiunii, urmărirea celei mai bune performanțe din punct de vedere al costurilor. 3) Dar nu este suficient pentru a rezolva problema lățimii de bandă, 0G este evident mai ambițios. Uitați-vă doar la arhitectura lor generală: au și un strat de stocare de 10 USD/TB care pretinde în mod direct că zdrobește Filecoin, iar stratul DA este conceput pentru ca AI să atingă un debit la nivel de GB. Motivul pentru care designul poate realiza stocarea de 100 de ori mai ieftină este să spunem direct, este, de asemenea, o optimizare specială a scenariilor de antrenament AI, de exemplu, ciclul de viață al punctelor de control și jurnalelor generate în timpul procesului de antrenament este de doar câteva zile, de fapt, nu este nevoie să realizați strict "stocarea permanentă". Prin urmare, de fapt, se adoptă soluția pragmatică a "stocării pe niveluri" și se oferă doar nivelul corespunzător de servicii atunci când este necesar - datele fierbinți sunt citite și scrise rapid, dar mai scumpe, datele reci sunt mai ieftine, dar mai lente, iar datele temporare sunt cele mai ieftine de șters atunci când sunt epuizate. Și acest preț diferențiat este cel care atinge direct punctele cheie ale antrenamentului AI. Deasupra. Se poate observa că 0G Labs a adaptat în mod intenționat AI la problemele de putere de calcul, stocare și circulație a datelor în procesul de antrenament AI. Chiar și mecanismul de consens a fost optimizat pentru AI. Versiunea îmbunătățită a CometBFT este utilizată cu 2500+ TPS cu finalitate sub secundă, care este special reglată pentru caracteristicile asincrone ale sarcinilor de lucru AI etc. Cu alte cuvinte, în loc să "corecteze" AI pe blockchain-urile existente, 0G a proiectat o infrastructură "AI Native" de la zero. În ceea ce privește dacă poate obține în sfârșit verificarea comercială la nivel de aplicație sub presiunea concurenței cu IA tradițională, rămâne de văzut, dar merită să învățăm din această idee revoluționară diferențiată.
5,21K