Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Не видел никого, кто бы так глубоко погружался в нарратив о робототехнике и ИИ, как Трисси.
К счастью, я знаю, что нужно активно вкладываться, когда его аутизм начинает проявляться.
Кодек закодирован.

23 авг., 18:30
Вы увидите, что фундаментальные модели для гуманоидов постоянно используют архитектуру в стиле Системы 2 + Системы 1, которая на самом деле вдохновлена человеческим познанием.
Большинство моделей визуально-языкового действия (VLA) сегодня построены как централизованные мультимодальные системы, которые обрабатывают восприятие, язык и действия в рамках одной сети.
Инфраструктура Codec идеально подходит для этого, так как она рассматривает каждого Оператора как изолированный модуль. Это означает, что вы можете запускать несколько Операторов параллельно, каждый из которых выполняет свою модель или задачу, при этом сохраняя их инкапсулированными и координированными через одну и ту же архитектуру.
Роботы и гуманоиды в целом обычно имеют несколько "мозгов", где один Оператор может обрабатывать визуальную информацию, другой — поддерживать равновесие, третий — заниматься высокоуровневым планированием и т.д., что все может быть скоординировано через систему Codec.
Фундаментальная модель Nvidia Issac GR00T N1 использует архитектуру из двух модулей Системы 2 + Системы 1. Система 2 — это модель визуального языка (версия PaLM или аналогичная, мультимодальная), которая наблюдает за миром через камеры робота и слушает инструкции, а затем составляет высокоуровневый план.
Система 1 — это политика диффузионного трансформера, которая берет этот план и превращает его в непрерывные движения в реальном времени. Вы можете рассматривать Систему 2 как обдумывающий мозг, а Систему 1 как инстинктивный контроллер тела. Система 2 может выдать что-то вроде "переместитесь к красному кубку, схватите его, а затем положите на полку", а Система 1 сгенерирует детализированные траектории суставов для ног и рук, чтобы выполнить каждый шаг плавно.
Система 1 была обучена на огромном количестве данных о траекториях (включая демонстрации с телепередачей от человека и данные, смоделированные физически), чтобы овладеть тонкими движениями, в то время как Система 2 была построена на трансформере с предобучением в интернете (для семантического понимания).
Это разделение рассуждений и действий очень мощно для NVIDIA. Это означает, что GR00T может справляться с долгосрочными задачами, требующими планирования (благодаря Системе 2), а также мгновенно реагировать на perturbations (благодаря Системе 1).
Если робот несет поднос и кто-то толкает поднос, Система 1 может немедленно исправить равновесие, а не ждать, пока более медленная Система 2 это заметит.
GR00T N1 была одной из первых открыто доступных моделей робототехники, и она быстро завоевала популярность.
Сразу из коробки она продемонстрировала навыки в различных задачах в симуляции, могла захватывать и перемещать объекты одной или двумя руками, передавать предметы между своими руками и выполнять многошаговые задачи без какой-либо специфической программировки. Поскольку она не была привязана к единственному воплощению, разработчики показали, что она работает на разных роботах с минимальными изменениями.
Это также верно для Helix (фундаментальная модель Figure), которая использует этот тип архитектуры. Helix позволяет двум роботам или нескольким навыкам работать, Codec может обеспечить многопользовательский мозг, запуская несколько Операторов, которые обмениваются информацией.
Этот дизайн "изолированного модуля" означает, что каждый компонент может быть специализирован (так же как Система 1 против Системы 2) и даже разрабатываться разными командами, но они могут работать вместе.
Это уникальный подход в том смысле, что Codec строит глубокий программный стек для поддержки этой модульной, распределенной интеллекции, в то время как большинство других сосредоточены только на самой модели ИИ.
Codec также использует большие предобученные модели. Если вы разрабатываете приложение для робота на его основе, вы можете подключить модель OpenVLA или модель Pi Zero в качестве части вашего Оператора. Codec предоставляет соединители, легкий доступ к видеопотокам или API робота, так что вам не нужно писать низкоуровневый код, чтобы получать изображения с камеры робота или отправлять команды скорости его моторам. Все это абстрагировано за высокоуровневым SDK.
Одна из причин, по которой я так оптимистично настроен на Codec, именно то, что я описал выше. Они не гонятся за нарративами, архитектура построена как клей между фундаментальными моделями, и она без трения поддерживает многомозговые системы, что критически важно для сложности гуманоидов.
Поскольку мы находимся на ранней стадии этой тенденции, стоит изучить дизайны лидеров отрасли и понять, почему они работают. Робототехника трудно воспринимается, учитывая слои аппаратного и программного обеспечения, но как только вы научитесь разбивать каждую секцию по частям, это становится гораздо легче усваивать.
Это может показаться пустой тратой времени сейчас, но это тот же метод, который дал мне преимущество во время сезона ИИ и почему я был рано на многих проектах. Станьте дисциплинированными и учитесь, какие компоненты могут сосуществовать, а какие компоненты не масштабируются.
Это принесет плоды в ближайшие месяцы.
Deca Trillions ( $CODEC ) закодированы.

5,07K
Топ
Рейтинг
Избранное