Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
har ikke sett noen så dypt inn i Robotics x AI-fortellingen som Trissy
Heldigvis vet jeg å allokere tungt når autismen hans slår inn
Kodek kodet

23. aug., 18:30
Du vil se grunnmodeller for humanoider kontinuerlig ved å bruke en System 2 + System 1-stilarkitektur som faktisk er inspirert av menneskelig kognisjon.
De fleste visjon-språk-handling (VLA)-modeller i dag er bygget som sentraliserte multimodale systemer som håndterer persepsjon, språk og handling i ett enkelt nettverk.
Codecs infrastruktur er perfekt for dette, da den behandler hver operatør som en sandkassemodul. Det betyr at du kan spinne opp flere operatører parallelt, hver kjører sin egen modell eller oppgave, mens du holder dem innkapslet og koordinert gjennom samme arkitektur.
Roboter og humanoider generelt har vanligvis flere hjerner, der en operatør kan håndtere synsbehandling, en annen håndtere balanse, en annen som gjør planlegging på høyt nivå osv., som alle kan koordineres gjennom Codecs system.
Nvidias grunnmodell Issac GR00T N1 bruker de to modulene System 2 + System 1-arkitekturen. System 2 er en visjonsspråkmodell (en versjon av PaLM eller lignende, multimodal) som observerer verden gjennom robotens kameraer og lytter til instruksjoner, og deretter lager en plan på høyt nivå.
System 1 er en diffusjonstransformatorpolicy som tar den planen og gjør den om til kontinuerlige bevegelser i sanntid. Du kan tenke på System 2 som den deliberative hjernen og System 1 som den instinktive kroppskontrolleren. System 2 kan sende ut noe sånt som "flytt til den røde koppen, ta tak i den, og legg den deretter på hyllen", og System 1 vil generere de detaljerte leddbanene for bena og armene for å utføre hvert trinn jevnt.
System 1 ble trent på tonnevis av banedata (inkludert menneskelige fjernstyrte demoer og fysikksimulerte data) for å mestre fine bevegelser, mens System 2 ble bygget på en transformator med internett-forhåndstrening (for semantisk forståelse).
Denne separasjonen mellom resonnement og skuespill er veldig kraftig for NVIDIA. Det betyr at GR00T kan håndtere langsiktige oppgaver som krever planlegging (takket være System 2) og også reagere umiddelbart på forstyrrelser (takket være System 1).
Hvis en robot bærer et brett og noen dytter brettet, kan System 1 korrigere balansen umiddelbart i stedet for å vente på at det tregere System 2 skal legge merke til det.
GR00T N1 var en av de første åpent tilgjengelige robotfundamentmodellene, og den fikk raskt gjennomslag.
Ut av esken demonstrerte den dyktighet på tvers av mange oppgaver i simulering, den kunne gripe og flytte objekter med en hånd eller to, hånd gjenstander mellom hendene og utføre flertrinnsoppgaver uten noen oppgavespesifikk programmering. Fordi den ikke var knyttet til en enkelt utførelsesform, viste utviklerne at den fungerte på forskjellige roboter med minimale justeringer.
Dette gjelder også for Helix (Figure's fundamentmodell) som bruker denne typen arkitektur. Helix tillater to roboter eller flere ferdigheter å operere, Codec kan muliggjøre en multiagenthjerne ved å kjøre flere operatører som deler informasjon.
Denne "isolerte pod"-designen betyr at hver komponent kan spesialiseres (akkurat som System 1 vs System 2) og til og med utvikles av forskjellige team, men de kan fungere sammen.
Det er en unik tilnærming i den forstand at Codec bygger den dype programvarestabelen for å støtte denne modulære, distribuerte intelligensen, mens de fleste andre bare fokuserer på selve AI-modellen.
Codec utnytter også store forhåndstrente modeller. Hvis du bygger en robotapplikasjon på den, kan du koble til en OpenVLA- eller en Pi Zero-fundamentmodell som en del av operatøren. Codec gir kontaktene, enkel tilgang til kamerafeeder eller robot-APIer, slik at du ikke trenger å skrive lavnivåkoden for å hente bilder fra en robots kamera eller for å sende hastighetskommandoer til motorene. Det hele er abstrahert bak et SDK på høyt nivå.
En av grunnene til at jeg er så bullish på Codec er akkurat det jeg skisserte ovenfor. De jager ikke fortellinger, arkitekturen er bygget for å være limet mellom grunnmodeller, og den støtter friksjonsfritt multihjernesystemer, noe som er avgjørende for humanoid kompleksitet.
Fordi vi er så tidlig i denne trenden, er det verdt å studere designene til bransjeledere og forstå hvorfor de fungerer. Robotikk er vanskelig å forstå gitt lagene på tvers av maskinvare og programvare, men når du lærer å bryte ned hver seksjon bit for bit, blir det langt lettere å fordøye.
Det kan føles som bortkastet tid nå, men dette er den samme metoden som ga meg et forsprang under AI szn og hvorfor jeg var tidlig ute med så mange prosjekter. Bli disiplinert og lær hvilke komponenter som kan eksistere sammen og hvilke komponenter som ikke skaleres.
Det vil gi utbytte i løpet av de kommende månedene.
Deca billioner ( $CODEC ) kodet.

5,09K
Topp
Rangering
Favoritter