Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jag har inte sett någon så djupt in i Robotics x AI-berättelsen som Trissy
Som tur är vet jag att jag ska dela ut mycket när hans autism slår in
Codec-kodad

23 aug. 18:30
Du kommer att se grundmodeller för humanoider kontinuerligt med hjälp av en arkitektur i stil med System 2 + System 1 som faktiskt är inspirerad av mänsklig kognition.
De flesta VLA-modeller (vision-language-action) är idag byggda som centraliserade multimodala system som hanterar perception, språk och handling inom ett enda nätverk.
Codecs infrastruktur är perfekt för detta eftersom den behandlar varje operatör som en sandlådemodul. Det innebär att du kan skapa flera operatörer parallellt, som var och en kör sin egen modell eller uppgift, samtidigt som de är inkapslade och koordinerade genom samma arkitektur.
Robotar och humanoider i allmänhet har vanligtvis flera hjärnor, där en operatör kan hantera synbehandling, en annan hantera balans, en annan göra planering på hög nivå etc, som alla kan samordnas genom Codecs system.
Nvidias grundmodell Issac GR00T N1 använder sig av System 2 + System 1-arkitekturen med två moduler. System 2 är en visionsspråksmodell (en version av PaLM eller liknande, multimodal) som observerar världen genom robotens kameror och lyssnar på instruktioner och sedan gör en plan på hög nivå.
System 1 är en diffusionstransformatorpolicy som tar den planen och omvandlar den till kontinuerliga rörelser i realtid. Du kan tänka på System 2 som den deliberativa hjärnan och System 1 som den instinktiva kroppskontrollanten. System 2 kan mata ut något i stil med "flytta till den röda koppen, ta tag i den och placera den sedan på hyllan", och system 1 kommer att generera de detaljerade ledbanorna för benen och armarna för att utföra varje steg smidigt.
System 1 tränades på massor av bandata (inklusive mänskliga fjärrstyrda demos och fysiksimulerade data) för att bemästra fina rörelser, medan System 2 byggdes på en transformator med internetförträning (för semantisk förståelse).
Denna separation av resonemang kontra agerande är mycket kraftfull för NVIDIA. Det innebär att GR00T kan hantera uppgifter med lång horisont som kräver planering (tack vare System 2) och även reagera omedelbart på störningar (tack vare System 1).
Om en robot bär på en bricka och någon knuffar på brickan kan System 1 korrigera balansen omedelbart i stället för att vänta på att det långsammare System 2 ska märka det.
GR00T N1 var en av de första öppet tillgängliga modellerna för robotfundament, och den fick snabbt draghjälp.
Direkt ur lådan visade den skicklighet i många uppgifter i simulering, den kunde greppa och flytta objekt med en hand eller två, handföremål mellan händerna och utföra sysslor i flera steg utan någon uppgiftsspecifik programmering. Eftersom den inte var knuten till en enda utföringsform visade utvecklarna att den fungerade på olika robotar med minimala justeringar.
Detta gäller även för Helix (Figures grundmodell) som använder denna typ av arkitektur. Helix gör det möjligt för två robotar eller flera färdigheter att fungera, Codec kan möjliggöra en multiagenthjärna genom att köra flera operatörer som delar information.
Denna "isolerade pod"-design innebär att varje komponent kan vara specialiserad (precis som System 1 vs System 2) och till och med utvecklas av olika team, men de kan arbeta tillsammans.
Det är ett unikt tillvägagångssätt i den meningen att Codec bygger den djupa mjukvarustacken för att stödja denna modulära, distribuerade intelligens, medan de flesta andra bara fokuserar på själva AI-modellen.
Codec utnyttjar också stora förtränade modeller. Om du bygger en robotapplikation på den kan du koppla in en OpenVLA- eller en Pi Zero-grundmodell som en del av din operatör. Codec ger kontakterna, enkel åtkomst till kameraflöden eller robot-API:er, så att du inte behöver skriva lågnivåkoden för att få bilder från en robots kamera eller för att skicka hastighetskommandon till dess motorer. Allt abstraheras bakom en SDK på hög nivå.
En av anledningarna till att jag är så hausse på Codec är precis vad jag beskrev ovan. De jagar inte berättelser, arkitekturen är byggd för att vara limmet mellan grundmodellerna och den stöder friktionsfritt system med flera hjärnor, vilket är avgörande för humanoid komplexitet.
Eftersom vi är så tidiga i den här trenden är det värt att studera branschledarnas design och förstå varför de fungerar. Robotteknik är svårt att förstå med tanke på de olika lagren av hårdvara och mjukvara, men när du väl har lärt dig att bryta ner varje sektion bit för bit blir det mycket lättare att smälta.
Det kanske känns som slöseri med tid nu, men det här är samma metod som gav mig ett försprång under AI-szn och varför jag var tidig med så många projekt. Bli disciplinerad och lär dig vilka komponenter som kan samexistera och vilka komponenter som inte kan skalas.
Det kommer att ge utdelning under de kommande månaderna.
Deca Trillions ( $CODEC ) kodade.

5,09K
Topp
Rankning
Favoriter