Näet humanoidien perusmalleja jatkuvasti käyttämällä System 2 + System 1 -tyylistä arkkitehtuuria, joka on itse asiassa saanut inspiraationsa ihmisen kognitiosta. Useimmat näkö-kieli-toimintamallit (VLA) on nykyään rakennettu keskitetyiksi multimodaalisiksi järjestelmiksi, jotka käsittelevät havaintoa, kieltä ja toimintaa yhdessä verkossa. Codecin infrastruktuuri on täydellinen tähän, koska se kohtelee jokaista operaattoria hiekkalaatikkomoduulina. Tämä tarkoittaa, että voit pyörittää useita operaattoreita rinnakkain, joista jokainen suorittaa oman mallinsa tai tehtävänsä, samalla kun pidät ne kapseloituina ja koordinoituina saman arkkitehtuurin kautta. Roboteilla ja humanoideilla yleensä on tyypillisesti useita aivoja, joissa yksi operaattori voi hoitaa näön käsittelyn, toinen tasapainon käsittelyn, toinen korkean tason suunnittelun jne., joita kaikkia voidaan koordinoida koodekin järjestelmän kautta. Nvidian perusmalli Issac GR00T N1 käyttää kahden moduulin System 2 + System 1 -arkkitehtuuria. Järjestelmä 2 on näkökielinen malli (versio PaLM:stä tai vastaavasta, multimodaalista), joka tarkkailee maailmaa robotin kameroiden kautta ja kuuntelee ohjeita ja tekee sitten korkean tason suunnitelman. Järjestelmä 1 on diffuusiomuuntajakäytäntö, joka ottaa tämän suunnitelman ja muuttaa sen jatkuviksi liikkeiksi reaaliajassa. Voit ajatella Järjestelmää 2 keskustelevina aivoina ja Järjestelmää 1 vaistomaisena kehon kontrolloijana. Järjestelmä 2 saattaa tuottaa jotain sellaista kuin "siirry punaiseen kuppiin, tartu siihen ja aseta se sitten hyllylle", ja järjestelmä 1 luo jalkojen ja käsivarsien yksityiskohtaiset nivelradat jokaisen askeleen suorittamiseksi sujuvasti. Järjestelmä 1 koulutettiin tonneittain lentoratadataa (mukaan lukien ihmisen kauko-ohjatut demot ja fysiikan simuloitu data) hallitsemaan hienoja liikkeitä, kun taas System 2 rakennettiin muuntajalle, jossa oli Internet-esikoulutus (semanttista ymmärtämistä varten). Tämä päättelyn ja näyttelemisen erottaminen toisistaan on erittäin voimakas NVIDIA:lle. Se tarkoittaa, että GR00T pystyy käsittelemään pitkän aikavälin tehtäviä, jotka vaativat suunnittelua (System 2:n ansiosta) ja myös reagoimaan välittömästi häiriöihin (järjestelmän 1 ansiosta). Jos robotti kantaa tarjotinta ja joku tönäisee lokeroa, järjestelmä 1 voi korjata tasapainon välittömästi sen sijaan, että odottaisi hitaamman System 2:n huomaavan. GR00T N1 oli yksi ensimmäisistä avoimesti saatavilla olevista robotiikan perustusmalleista, ja se sai nopeasti jalansijaa. Pakkauksesta otettuna se osoitti taitoa monissa simulaatiotehtävissä, se pystyi tarttumaan ja siirtämään esineitä yhdellä tai kahdella kädellä, kävelemään esineitä käsiensä välissä ja suorittamaan monivaiheisia askareita ilman tehtäväkohtaista ohjelmointia. Koska se ei ollut sidottu yhteen suoritusmuotoon, kehittäjät näyttivät sen toimivan eri roboteilla minimaalisilla säädöillä. Tämä pätee myös Helixiin (Figuren perustusmalli), joka käyttää tämäntyyppistä arkkitehtuuria. Helix mahdollistaa kahden robotin tai useiden taitojen toiminnan, Codec voisi mahdollistaa usean agentin aivot suorittamalla useita tietoja jakavia operaattoreita. Tämä "eristetty pod" -rakenne tarkoittaa, että jokainen komponentti voidaan erikoistua (aivan kuten System 1 vs System 2) ja jopa kehittää eri tiimien toimesta, mutta ne voivat silti toimia yhdessä. Se on ainutlaatuinen lähestymistapa siinä mielessä, että Codec rakentaa syvää ohjelmistopinoa tukemaan tätä modulaarista, hajautettua älykkyyttä, kun taas useimmat muut keskittyvät vain itse tekoälymalliin. Koodekki hyödyntää myös suuria esikoulutettuja malleja. Jos rakennat siihen robottisovelluksen, voit liittää OpenVLA- tai Pi Zero -perusmallin osaksi operaattoriasi. Koodekki tarjoaa liittimet, helpon pääsyn kamerasyötteisiin tai robottisovellusliittymiin, joten sinun ei tarvitse kirjoittaa matalan tason koodia saadaksesi kuvia robotin kamerasta tai lähettääksesi nopeuskomentoja sen moottoreille. Kaikki on abstraktoitu korkean tason SDK:n taakse. Yksi syy siihen, miksi olen niin positiivinen Codecin suhteen, on juuri se, mitä edellä kuvasin. He eivät jahtaa tarinoita, arkkitehtuuri on rakennettu liimaksi perusmallien väliin, ja se tukee kitkattomasti moniaivojärjestelmiä, mikä on kriittistä humanoidien monimutkaisuudelle. Koska olemme niin varhaisessa vaiheessa tätä trendiä, kannattaa tutkia alan johtajien malleja ja ymmärtää, miksi ne toimivat. Robotiikkaa on vaikea ymmärtää, kun otetaan huomioon laitteiston ja ohjelmiston kerrokset, mutta kun opit jakamaan jokaisen osan pala palalta, se on paljon helpompi sulattaa. Se saattaa tuntua ajanhukkalta nyt, mutta tämä on sama menetelmä, joka antoi minulle etumatkaa AI szn:n aikana ja miksi olin niin varhaisessa vaiheessa niin monissa projekteissa. Ole kurinalainen ja opi, mitkä komponentit voivat olla olemassa rinnakkain ja mitkä eivät. Se maksaa osinkoa tulevina kuukausina. Deca Trilions ( $CODEC ) koodattu.
8,53K