熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我還沒見過有人像Trissy一樣深入探討機器人與人工智慧的敘事。
幸運的是,我知道在他表現出自閉症特徵時要大量投資。
Codec編碼

8月23日 18:30
你會看到人形機器人基礎模型持續使用一種受人類認知啟發的系統2 + 系統1風格架構。
如今大多數視覺-語言-動作(VLA)模型都是作為集中式多模態系統構建的,這些系統在單一網絡中處理感知、語言和動作。
Codec的基礎設施非常適合這一點,因為它將每個操作員視為一個沙盒模塊。這意味著你可以並行啟動多個操作員,每個操作員運行自己的模型或任務,同時通過相同的架構保持它們的封裝和協調。
機器人和人形機器人通常有多個大腦,其中一個操作員可能處理視覺處理,另一個處理平衡,另一個進行高層規劃等,這些都可以通過Codec的系統進行協調。
Nvidia的基礎模型Issac GR00T N1使用了兩個模塊的系統2 + 系統1架構。系統2是一個視覺-語言模型(類似於PaLM的版本,多模態),通過機器人的攝像頭觀察世界並聽取指令,然後制定高層計劃。
系統1是一個擴散變換器策略,它將該計劃轉化為實時的連續動作。你可以將系統2視為深思熟慮的大腦,而系統1則是本能的身體控制器。系統2可能輸出類似“移動到紅杯,抓住它,然後將其放在架子上”的指令,而系統1將生成腿和手臂執行每一步的詳細關節軌跡。
系統1在大量軌跡數據(包括人類遙控演示和物理模擬數據)上進行了訓練,以掌握精細動作,而系統2則基於具有互聯網預訓練(用於語義理解)的變換器構建。
這種推理與行動的分離對NVIDIA來說非常強大。這意味著GR00T可以處理需要規劃的長時間任務(得益於系統2),同時也能立即對擾動做出反應(得益於系統1)。
如果一個機器人正在搬運一個托盤,而有人輕推托盤,系統1可以立即糾正平衡,而不是等待較慢的系統2注意到。
GR00T N1是第一個公開可用的機器人基礎模型之一,並迅速獲得了關注。
開箱即用,它在模擬中展示了多項任務的技能,能夠用一隻手或兩隻手抓取和移動物體,在手與手之間傳遞物品,並執行多步驟的任務,而無需任何特定任務的編程。因為它不依賴於單一的體現,開發者展示了它在不同機器人上工作的能力,調整最小。
這對於Helix(Figure的基礎模型)也是如此,它使用了這種類型的架構。Helix允許兩個機器人或多個技能同時操作,Codec可以通過運行多個共享信息的操作員來實現多智能體大腦。
這種“孤立艙”設計意味著每個組件可以專門化(就像系統1與系統2一樣),甚至可以由不同團隊開發,但它們可以協同工作。
這是一種獨特的方法,因為Codec正在構建深層軟件堆棧以支持這種模塊化、分佈式智能,而大多數其他公司只關注AI模型本身。
Codec還利用了大型預訓練模型。如果你在其上構建機器人應用程序,你可能會將OpenVLA或Pi Zero基礎模型作為你的操作員的一部分插入。Codec提供連接器,輕鬆訪問攝像頭數據或機器人API,因此你不必編寫低級代碼來從機器人的攝像頭獲取圖像或向其電機發送速度命令。這一切都被抽象在一個高級SDK後面。
我對Codec如此看好的原因正是我上面所概述的。他們並不追逐敘事,架構旨在成為基礎模型之間的粘合劑,並且無縫支持多大腦系統,這對人形機器人的複雜性至關重要。
因為我們在這個趨勢中還很早,所以值得研究行業領導者的設計並理解它們為何有效。機器技術由於硬件和軟件之間的層次關係而難以理解,但一旦你學會逐步分解每個部分,就會變得容易得多。
現在可能覺得浪費時間,但這正是讓我在AI時代獲得先機的方法,也是我早期參與許多項目的原因。要有紀律,學習哪些組件可以共存,哪些組件無法擴展。
這將在未來幾個月帶來回報。
Deca Trillions ( $CODEC ) 編碼。

5.07K
熱門
排行
收藏