Je zult foundationmodellen voor Humanoïden zien die voortdurend een System 2 + System 1-architectuur gebruiken, die eigenlijk geïnspireerd is op menselijke cognitie. De meeste vision-language-action (VLA) modellen van vandaag zijn gebouwd als gecentraliseerde multimodale systemen die perceptie, taal en actie binnen één netwerk afhandelen. De infrastructuur van Codec is perfect hiervoor, omdat het elke Operator behandelt als een sandboxed module. Dit betekent dat je meerdere Operators parallel kunt opstarten, elk met zijn eigen model of taak, terwijl ze ingekapseld en gecoördineerd blijven via dezelfde architectuur. Robots en Humanoïden in het algemeen hebben meestal meerdere hersenen, waarbij één Operator de visuele verwerking kan afhandelen, een andere het evenwicht, weer een andere de hoge niveau planning, enzovoort, die allemaal gecoördineerd kunnen worden via het systeem van Codec. Nvidia’s foundation model Issac GR00T N1 gebruikt de twee module System 2 + System 1-architectuur. System 2 is een vision-language model (een versie van PaLM of vergelijkbaar, multimodaal) dat de wereld observeert via de camera's van de robot en naar instructies luistert, en vervolgens een hoog niveau plan maakt. System 1 is een diffusietransformerbeleid dat dat plan neemt en het omzet in continue bewegingen in real-time. Je kunt System 2 beschouwen als de deliberatieve hersenen en System 1 als de instinctieve lichaamscontroller. System 2 kan iets uitgeven als "beweeg naar de rode beker, pak het, en plaats het dan op de plank," en System 1 genereert de gedetailleerde gewrichtstrajecten voor de benen en armen om elke stap soepel uit te voeren. System 1 is getraind op een enorme hoeveelheid trajectgegevens (inclusief menselijke teleoperated demo's en fysiek gesimuleerde gegevens) om fijne bewegingen te beheersen, terwijl System 2 is gebouwd op een transformer met internetvoortraining (voor semantisch begrip). Deze scheiding van redeneren versus handelen is zeer krachtig voor NVIDIA. Het betekent dat GR00T lange termijn taken kan afhandelen die planning vereisen (dankzij System 2) en ook onmiddellijk kan reageren op verstoringen (dankzij System 1). Als een robot een dienblad draagt en iemand het dienblad duwt, kan System 1 het evenwicht onmiddellijk corrigeren in plaats van te wachten tot het langzamere System 2 het opmerkt. GR00T N1 was een van de eerste openbaar beschikbare robotics foundation modellen, en het kreeg snel tractie. Uit de doos toonde het vaardigheid in veel taken in simulatie, het kon objecten met één hand of twee vastpakken en verplaatsen, items tussen zijn handen doorgeven, en multi-step taken uitvoeren zonder enige taak specifieke programmering. Omdat het niet aan een enkele belichaming was gebonden, toonden ontwikkelaars het werkend op verschillende robots met minimale aanpassingen. Dit geldt ook voor Helix (het foundation model van Figure) dat dit type architectuur gebruikt. Helix staat twee robots of meerdere vaardigheden toe om te opereren, Codec zou een multi-agent brein kunnen mogelijk maken door verschillende Operators te laten draaien die informatie delen. Dit "geïsoleerde pod"-ontwerp betekent dat elk onderdeel gespecialiseerd kan zijn (net als System 1 versus System 2) en zelfs door verschillende teams kan worden ontwikkeld, maar ze kunnen toch samenwerken. Het is een unieke benadering in de zin dat Codec de diepe softwarestack bouwt om deze modulaire, gedistribueerde intelligentie te ondersteunen, terwijl de meeste anderen zich alleen richten op het AI-model zelf. Codec maakt ook gebruik van grote voorgetrainde modellen. Als je een robottoepassing erop bouwt, kun je een OpenVLA of een Pi Zero foundation model als onderdeel van je Operator aansluiten. Codec biedt de connectors, gemakkelijke toegang tot camerafeeds of robot-API's, zodat je de low-level code niet hoeft te schrijven om beelden van de camera van een robot te krijgen of om snelheidscommando's naar zijn motoren te sturen. Het is allemaal geabstraheerd achter een high-level SDK. Een van de redenen waarom ik zo optimistisch ben over Codec is precies wat ik hierboven heb uiteengezet. Ze achtervolgen geen verhalen, de architectuur is gebouwd om de lijm te zijn tussen foundation modellen, en het ondersteunt moeiteloos multi-brein systemen, wat cruciaal is voor de complexiteit van humanoïden. Omdat we zo vroeg in deze trend zijn, is het de moeite waard om de ontwerpen van industrie leiders te bestuderen en te begrijpen waarom ze werken. Robotica is moeilijk te begrijpen gezien de lagen over hardware en software, maar zodra je leert om elk gedeelte stuk voor stuk af te breken, wordt het veel gemakkelijker te verteren. Het kan nu als een verspilling van tijd aanvoelen, maar dit is dezelfde methode die me een voorsprong gaf tijdens AI szn en waarom ik vroeg bij zoveel projecten was. Word gedisciplineerd en leer welke componenten naast elkaar kunnen bestaan en welke componenten niet opschalen. Het zal zich de komende maanden uitbetalen. Deca Trillions ( $CODEC ) gecodeerd.
8,57K