Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bạn sẽ thấy các mô hình nền tảng cho Humanoids liên tục sử dụng kiến trúc kiểu Hệ thống 2 + Hệ thống 1, thực sự được lấy cảm hứng từ nhận thức của con người.
Hầu hết các mô hình thị giác-ngôn ngữ-hành động (VLA) hiện nay được xây dựng như các hệ thống đa phương thức tập trung, xử lý nhận thức, ngôn ngữ và hành động trong một mạng lưới duy nhất.
Cơ sở hạ tầng của Codec rất hoàn hảo cho điều này vì nó coi mỗi Operator như một mô-đun được cách ly. Điều này có nghĩa là bạn có thể khởi động nhiều Operator song song, mỗi cái chạy mô hình hoặc nhiệm vụ riêng của nó, trong khi vẫn giữ chúng được bao bọc và phối hợp thông qua cùng một kiến trúc.
Robot và Humanoids nói chung thường có nhiều bộ não, trong đó một Operator có thể xử lý thị giác, một cái khác xử lý cân bằng, một cái khác thực hiện lập kế hoạch cấp cao, v.v., tất cả đều có thể được phối hợp thông qua hệ thống của Codec.
Mô hình nền tảng của Nvidia, Issac GR00T N1, sử dụng kiến trúc hai mô-đun Hệ thống 2 + Hệ thống 1. Hệ thống 2 là một mô hình thị giác-ngôn ngữ (một phiên bản của PaLM hoặc tương tự, đa phương thức) quan sát thế giới qua camera của robot và lắng nghe các hướng dẫn, sau đó lập kế hoạch cấp cao.
Hệ thống 1 là một chính sách biến đổi khuếch tán, lấy kế hoạch đó và biến nó thành các chuyển động liên tục trong thời gian thực. Bạn có thể nghĩ về Hệ thống 2 như bộ não có suy nghĩ và Hệ thống 1 như bộ điều khiển cơ thể theo bản năng. Hệ thống 2 có thể xuất ra một cái gì đó như "di chuyển đến cốc đỏ, nắm lấy nó, sau đó đặt nó lên kệ," và Hệ thống 1 sẽ tạo ra các quỹ đạo khớp chi tiết cho chân và tay để thực hiện từng bước một cách mượt mà.
Hệ thống 1 đã được đào tạo trên hàng tấn dữ liệu quỹ đạo (bao gồm các bản demo điều khiển từ xa của con người và dữ liệu mô phỏng vật lý) để thành thạo các chuyển động tinh vi, trong khi Hệ thống 2 được xây dựng trên một biến thể của transformer với việc huấn luyện trước trên internet (để hiểu ngữ nghĩa).
Sự tách biệt giữa lý luận và hành động này rất mạnh mẽ đối với NVIDIA. Điều này có nghĩa là GR00T có thể xử lý các nhiệm vụ dài hạn yêu cầu lập kế hoạch (nhờ vào Hệ thống 2) và cũng phản ứng ngay lập tức với các tác động (nhờ vào Hệ thống 1).
Nếu một robot đang mang một khay và ai đó đẩy khay, Hệ thống 1 có thể điều chỉnh sự cân bằng ngay lập tức thay vì chờ Hệ thống 2 chậm hơn nhận ra.
GR00T N1 là một trong những mô hình nền tảng robot đầu tiên có sẵn công khai, và nó nhanh chóng thu hút sự chú ý.
Ngay từ đầu, nó đã thể hiện kỹ năng trong nhiều nhiệm vụ trong mô phỏng, nó có thể nắm và di chuyển các vật thể bằng một tay hoặc hai tay, chuyển đồ vật giữa các tay của nó, và thực hiện các công việc nhiều bước mà không cần lập trình cụ thể cho nhiệm vụ. Bởi vì nó không bị ràng buộc với một hình thức cụ thể, các nhà phát triển đã cho thấy nó hoạt động trên các robot khác nhau với những điều chỉnh tối thiểu.
Điều này cũng đúng với Helix (mô hình nền tảng của Figure) sử dụng loại kiến trúc này. Helix cho phép hai robot hoặc nhiều kỹ năng hoạt động, Codec có thể cho phép một bộ não đa tác nhân bằng cách chạy nhiều Operator chia sẻ thông tin.
Thiết kế "pod cách ly" này có nghĩa là mỗi thành phần có thể được chuyên môn hóa (giống như Hệ thống 1 so với Hệ thống 2) và thậm chí được phát triển bởi các nhóm khác nhau, nhưng họ vẫn có thể làm việc cùng nhau.
Đây là một cách tiếp cận độc nhất vô nhị trong việc Codec đang xây dựng ngăn xếp phần mềm sâu để hỗ trợ trí tuệ phân tán, trong khi hầu hết những người khác chỉ tập trung vào mô hình AI tự nó.
Codec cũng tận dụng các mô hình lớn đã được huấn luyện trước. Nếu bạn đang xây dựng một ứng dụng robot trên đó, bạn có thể cắm một mô hình nền tảng OpenVLA hoặc Pi Zero như một phần của Operator của bạn. Codec cung cấp các kết nối, truy cập dễ dàng vào các luồng camera hoặc API robot, vì vậy bạn không phải viết mã cấp thấp để lấy hình ảnh từ camera của robot hoặc gửi lệnh vận tốc đến động cơ của nó. Tất cả đều được trừu tượng hóa phía sau một SDK cấp cao.
Một trong những lý do tôi rất lạc quan về Codec chính là những gì tôi đã phác thảo ở trên. Họ không theo đuổi các câu chuyện, kiến trúc được xây dựng để là keo dán giữa các mô hình nền tảng, và nó hỗ trợ một cách trơn tru các hệ thống đa bộ não, điều này rất quan trọng cho độ phức tạp của humanoid.
Bởi vì chúng ta đang ở giai đoạn đầu của xu hướng này, thật đáng để nghiên cứu thiết kế của các nhà lãnh đạo trong ngành và hiểu tại sao chúng hoạt động. Robotics rất khó nắm bắt do các lớp phần cứng và phần mềm, nhưng một khi bạn học cách phân tích từng phần một, nó trở nên dễ tiêu hóa hơn nhiều.
Có thể cảm thấy như một sự lãng phí thời gian bây giờ, nhưng đây là phương pháp đã giúp tôi có lợi thế trong mùa AI và lý do tôi đã sớm tham gia vào nhiều dự án. Hãy trở nên kỷ luật và học cách các thành phần có thể đồng tồn tại và các thành phần nào không thể mở rộng.
Nó sẽ mang lại lợi ích trong những tháng tới.
Deca Trillions ( $CODEC ) đã được mã hóa.

8,57K
Hàng đầu
Thứ hạng
Yêu thích