Você verá modelos de base para Humanóides continuamente usando uma arquitetura de estilo System 2 + System 1 que é realmente inspirada na cognição humana. A maioria dos modelos de visão-linguagem-ação (VLA) hoje são construídos como sistemas multimodais centralizados que lidam com percepção, linguagem e ação em uma única rede. A infraestrutura do Codec é perfeita para isso, pois trata cada operador como um módulo em sandbox. O que significa que você pode ativar vários operadores em paralelo, cada um executando seu próprio modelo ou tarefa, mantendo-os encapsulados e coordenados por meio da mesma arquitetura. Robôs e humanóides em geral normalmente têm vários cérebros, onde um operador pode lidar com o processamento da visão, outro lidar com o equilíbrio, outro fazer planejamento de alto nível, etc., que podem ser coordenados através do sistema do Codec. O modelo básico da Nvidia, Issac GR00T N1, usa a arquitetura de dois módulos System 2 + System 1. O Sistema 2 é um modelo de linguagem de visão (uma versão do PaLM ou similar, multimodal) que observa o mundo através das câmeras do robô e ouve as instruções, depois faz um plano de alto nível. O Sistema 1 é uma política de transformador de difusão que pega esse plano e o transforma em movimentos contínuos em tempo real. Você pode pensar no Sistema 2 como o cérebro deliberativo e no Sistema 1 como o controlador do corpo instintivo. O Sistema 2 pode produzir algo como "mova para o copo vermelho, segure-o e coloque-o na prateleira", e o Sistema 1 gerará as trajetórias articulares detalhadas para as pernas e braços para executar cada etapa sem problemas. O Sistema 1 foi treinado em toneladas de dados de trajetória (incluindo demonstrações teleoperadas humanas e dados simulados de física) para dominar movimentos finos, enquanto o Sistema 2 foi construído em um transformador com pré-treinamento na Internet (para compreensão semântica). Essa separação de raciocínio versus ação é muito poderosa para a NVIDIA. Isso significa que o GR00T pode lidar com tarefas de longo horizonte que requerem planejamento (graças ao System 2) e também reagir instantaneamente a perturbações (graças ao System 1). Se um robô estiver carregando uma bandeja e alguém cutucar a bandeja, o Sistema 1 pode corrigir o equilíbrio imediatamente, em vez de esperar que o Sistema 2 mais lento perceba. O GR00T N1 foi um dos primeiros modelos de base robótica disponíveis abertamente e rapidamente ganhou força. Fora da caixa, ele demonstrou habilidade em muitas tarefas de simulação, ele poderia agarrar e mover objetos com uma mão ou duas, itens de mão entre as mãos e realizar tarefas de várias etapas sem qualquer programação específica da tarefa. Como não estava vinculado a uma única modalidade, os desenvolvedores mostraram que ele funcionava em diferentes robôs com ajustes mínimos. Isso também é verdade para o Helix (modelo de fundação da Figure), que usa esse tipo de arquitetura. O Helix permite que dois robôs ou várias habilidades operem, o Codec pode habilitar um cérebro multiagente executando vários operadores que compartilham informações. Esse design de "pod isolado" significa que cada componente pode ser especializado (assim como o Sistema 1 vs Sistema 2) e até mesmo desenvolvido por equipes diferentes, mas eles podem trabalhar juntos. É uma abordagem única no sentido de que a Codec está construindo a pilha de software profunda para suportar essa inteligência modular e distribuída, enquanto a maioria dos outros se concentra apenas no próprio modelo de IA. O codec também aproveita grandes modelos pré-treinados. Se você estiver criando um aplicativo de robô nele, poderá conectar um modelo de base OpenVLA ou Pi Zero como parte de seu operador. O codec fornece os conectores, fácil acesso a feeds de câmera ou APIs de robôs, para que você não precise escrever o código de baixo nível para obter imagens da câmera de um robô ou enviar comandos de velocidade para seus motores. Tudo é abstraído por trás de um SDK de alto nível. Uma das razões pelas quais estou tão otimista com o Codec é exatamente o que descrevi acima. Eles não estão perseguindo narrativas, a arquitetura é construída para ser a cola entre os modelos de fundação e suporta sem atrito sistemas multicerebrais, o que é crítico para a complexidade humanóide. Como estamos tão no início dessa tendência, vale a pena estudar os designs dos líderes do setor e entender por que eles funcionam. A robótica é difícil de entender, dadas as camadas de hardware e software, mas uma vez que você aprende a dividir cada seção peça por peça, fica muito mais fácil de digerir. Pode parecer uma perda de tempo agora, mas esse é o mesmo método que me deu uma vantagem durante o AI szn e por que eu estava no início de tantos projetos. Torne-se disciplinado e aprenda quais componentes podem coexistir e quais componentes não são dimensionados. Vai pagar dividendos nos próximos meses. Deca Trillions ( $CODEC ) codificado.
8,58K