nu am văzut pe nimeni atât de adânc implicat în narațiunea Robotics x AI ca Trissy Din fericire, știu să aloc mult atunci când autismul lui intră în acțiune Codec codificat
Trissy
Trissy23 aug., 18:30
Veți vedea modele de bază pentru umanoizi folosind continuu o arhitectură în stil System 2 + System 1, care este de fapt inspirată de cogniția umană. Majoritatea modelelor de vedere-limbaj-acțiune (VLA) de astăzi sunt construite ca sisteme multimodale centralizate care gestionează percepția, limbajul și acțiunea într-o singură rețea. Infrastructura Codec-ului este perfectă pentru acest lucru, deoarece tratează fiecare operator ca pe un modul sandbox. Ceea ce înseamnă că puteți porni mai mulți operatori în paralel, fiecare rulând propriul model sau sarcină, păstrându-i în același timp încapsulați și coordonați prin aceeași arhitectură. Roboții și umanoizii în general au de obicei mai multe creiere, unde un operator se poate ocupa de procesarea viziunii, altul se poate ocupa de echilibrul vizual, altul de planificare la nivel înalt etc., toate acestea pot fi coordonate prin sistemul Codec. Modelul de bază Nvidia Issac GR00T N1 folosește arhitectura cu două module System 2 + System 1. Sistemul 2 este un model de limbaj vizual (o versiune de PaLM sau similar, multimodal) care observă lumea prin camerele robotului și ascultă instrucțiunile, apoi face un plan la nivel înalt. Sistemul 1 este o politică de transformare de difuzie care preia acel plan și îl transformă în mișcări continue în timp real. Vă puteți gândi la Sistemul 2 ca la creierul deliberativ și la Sistemul 1 ca la controlorul instinctual al corpului. Sistemul 2 ar putea scoate ceva de genul "mută-te în cupa roșie, apucă-o, apoi pune-o pe raft", iar Sistemul 1 va genera traiectoriile articulare detaliate pentru picioare și brațe pentru a executa fiecare pas fără probleme. Sistemul 1 a fost antrenat pe tone de date de traiectorie (inclusiv demonstrații teleoperate umane și date simulate de fizică) pentru a stăpâni mișcările fine, în timp ce Sistemul 2 a fost construit pe un transformator cu preantrenament pe internet (pentru înțelegerea semantică). Această separare a raționamentului față de acțiune este foarte puternică pentru NVIDIA. Înseamnă că GR00T poate gestiona sarcini cu orizont lung care necesită planificare (datorită Sistemului 2) și, de asemenea, poate reacționa instantaneu la perturbații (datorită Sistemului 1). Dacă un robot poartă o tavă și cineva împinge tava, System 1 poate corecta echilibrul imediat, mai degrabă decât să aștepte ca System 2 să observe mai lent. GR00T N1 a fost unul dintre primele modele de fundație robotică disponibile în mod deschis și a câștigat rapid teren. Din cutie, a demonstrat abilități în multe sarcini în simulare, putea apuca și muta obiecte cu o mână sau două, putea mâna obiecte între mâini și efectua sarcini în mai mulți pași fără nicio programare specifică sarcinii. Deoarece nu era legat de o singură realizare, dezvoltatorii l-au arătat lucrând pe diferiți roboți cu ajustări minime. Acest lucru este valabil și pentru Helix (modelul de bază al lui Figure) care folosește acest tip de arhitectură. Helix permite operarea a doi roboți sau a mai multor abilități, Codec ar putea permite un creier cu mai mulți agenți prin rularea mai multor operatori care împărtășesc informații. Acest design "pod izolat" înseamnă că fiecare componentă poate fi specializată (la fel ca System 1 vs System 2) și chiar dezvoltată de echipe diferite, dar pot lucra împreună. Este o abordare unică în sensul că Codec construiește o stivă software profundă pentru a susține această inteligență modulară, distribuită, în timp ce majoritatea celorlalte se concentrează doar pe modelul AI în sine. Codecul folosește, de asemenea, modele mari pre-antrenate. Dacă construiți o aplicație robot pe el, puteți conecta un model de bază OpenVLA sau Pi Zero ca parte a operatorului dvs. Codecul oferă conectorii, accesul ușor la fluxurile camerei sau API-urile robotului, astfel încât să nu fie nevoie să scrieți codul de nivel scăzut pentru a obține imagini de la camera unui robot sau pentru a trimite comenzi de viteză către motoarele sale. Totul este abstract în spatele unui SDK de nivel înalt. Unul dintre motivele pentru care sunt atât de optimist cu privire la Codec este exact ceea ce am subliniat mai sus. Ei nu urmăresc narațiuni, arhitectura este construită pentru a fi lipiciul dintre modelele de bază și susține fără fricțiuni sistemele multi-creier, ceea ce este esențial pentru complexitatea umanoidă. Pentru că suntem atât de devreme în această tendință, merită să studiem proiectele liderilor din industrie și să înțelegem de ce funcționează. Robotica este greu de înțeles, având în vedere straturile hardware și software, dar odată ce înveți să descompui fiecare secțiune bucată cu bucată, devine mult mai ușor de digerat. S-ar putea să pară o pierdere de timp acum, dar aceasta este aceeași metodă care mi-a dat un avans în timpul AI szn și de ce am fost devreme la atât de multe proiecte. Deveniți disciplinați și aflați ce componente pot coexista și care nu se scalează. Va plăti dividende în lunile următoare. Deca Trilioane ( $CODEC ) codificat.
5,1K