Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
belum pernah melihat siapa pun sedalam narasi Robotics x AI seperti Trissy
Untungnya saya tahu untuk mengalokasikan banyak ketika autismenya muncul
Codec berkode

23 Agu, 18.30
Anda akan melihat model fondasi untuk Humanoid secara terus-menerus menggunakan arsitektur gaya Sistem 2 + Sistem 1 yang sebenarnya terinspirasi oleh kognisi manusia.
Sebagian besar model vision-language-action (VLA) saat ini dibangun sebagai sistem multimoda terpusat yang menangani persepsi, bahasa, dan tindakan dalam satu jaringan.
Infrastruktur Codec sempurna untuk ini karena memperlakukan setiap Operator sebagai modul kotak pasir. Artinya, Anda dapat memutar beberapa Operator secara paralel, masing-masing menjalankan model atau tugasnya sendiri, sambil menjaganya tetap dienkapsulasi dan dikoordinasikan melalui arsitektur yang sama.
Robot dan Humanoid pada umumnya biasanya memiliki banyak otak, di mana satu Operator dapat menangani pemrosesan penglihatan, keseimbangan penanganan lainnya, yang lain melakukan perencanaan tingkat tinggi, dll, yang semuanya dapat dikoordinasikan melalui sistem Codec.
Model dasar Nvidia Issac GR00T N1 menggunakan dua modul arsitektur Sistem 2 + Sistem 1. Sistem 2 adalah model bahasa penglihatan (versi PaLM atau serupa, multimodal) yang mengamati dunia melalui kamera robot dan mendengarkan instruksi, kemudian membuat rencana tingkat tinggi.
Sistem 1 adalah kebijakan transformator difusi yang mengambil rencana itu dan mengubahnya menjadi gerakan kontinu secara real time. Anda dapat menganggap Sistem 2 sebagai otak deliberatif dan Sistem 1 sebagai pengontrol tubuh naluriah. Sistem 2 mungkin menghasilkan sesuatu seperti "pindah ke cangkir merah, genggam, lalu letakkan di rak," dan Sistem 1 akan menghasilkan lintasan sendi terperinci untuk kaki dan lengan untuk menjalankan setiap langkah dengan lancar.
Sistem 1 dilatih pada banyak data lintasan (termasuk demo yang dioperasikan melalui jarak manusia dan data simulasi fisika) untuk menguasai gerakan halus, sedangkan Sistem 2 dibangun di atas transformator dengan prapelatihan internet (untuk pemahaman semantik).
Pemisahan penalaran vs. akting ini sangat kuat bagi NVIDIA. Ini berarti GR00T dapat menangani tugas-tugas cakrawala panjang yang memerlukan perencanaan (berkat Sistem 2) dan juga bereaksi secara instan terhadap gangguan (berkat Sistem 1).
Jika robot membawa baki dan seseorang menyenggol baki, Sistem 1 dapat segera memperbaiki keseimbangan daripada menunggu Sistem 2 yang lebih lambat menyadarinya.
GR00T N1 adalah salah satu model fondasi robotika pertama yang tersedia secara terbuka, dan dengan cepat mendapatkan daya tarik.
Di luar kotak, ia menunjukkan keterampilan di banyak tugas dalam simulasi, ia dapat menggenggam dan memindahkan objek dengan satu atau dua tangan, item tangan di antara tangannya, dan melakukan tugas multi langkah tanpa pemrograman khusus tugas apa pun. Karena tidak terikat pada satu perwujudan, pengembang menunjukkannya bekerja pada robot yang berbeda dengan penyesuaian minimal.
Hal ini juga berlaku untuk Helix (model fondasi Figure) yang menggunakan jenis arsitektur ini. Helix memungkinkan dua robot atau beberapa keterampilan untuk beroperasi, Codec dapat mengaktifkan otak multi agen dengan menjalankan beberapa Operator yang berbagi informasi.
Desain "pod terisolasi" ini berarti setiap komponen dapat dikhususkan (seperti Sistem 1 vs Sistem 2) dan bahkan dikembangkan oleh tim yang berbeda, namun mereka dapat bekerja sama.
Ini adalah pendekatan yang unik dalam arti bahwa Codec sedang membangun tumpukan perangkat lunak yang dalam untuk mendukung kecerdasan modular dan terdistribusi ini, sedangkan kebanyakan yang lain hanya berfokus pada model AI itu sendiri.
Codec juga memanfaatkan model pra terlatih yang besar. Jika Anda membangun aplikasi robot di atasnya, Anda dapat mencolokkan model pondasi OpenVLA atau Pi Zero sebagai bagian dari Operator Anda. Codec menyediakan konektor, akses mudah ke umpan kamera atau API robot, sehingga Anda tidak perlu menulis kode tingkat rendah untuk mendapatkan gambar dari kamera robot atau mengirim perintah kecepatan ke motornya. Semuanya diabstraksikan di balik SDK tingkat tinggi.
Salah satu alasan saya begitu bullish pada Codec adalah persis seperti yang saya uraikan di atas. Mereka tidak mengejar narasi, arsitekturnya dibangun untuk menjadi perekat antara model fondasi, dan tanpa gesekan mendukung sistem multi otak, yang sangat penting untuk kompleksitas humanoid.
Karena kita masih sangat awal dalam tren ini, ada baiknya mempelajari desain para pemimpin industri dan memahami mengapa mereka bekerja. Robotika sulit dipahami mengingat lapisan di seluruh perangkat keras dan perangkat lunak, tetapi begitu Anda belajar memecah setiap bagian sepotong demi sepotong, itu menjadi jauh lebih mudah untuk dicerna.
Ini mungkin terasa seperti membuang-buang waktu sekarang, tetapi ini adalah metode yang sama yang memberi saya awal selama AI szn dan mengapa saya berada di awal begitu banyak proyek. Menjadi disiplin dan pelajari komponen mana yang dapat hidup berdampingan dan komponen mana yang tidak diskalakan.
Ini akan membayar dividen selama beberapa bulan mendatang.
Deca Triliun ( $CODEC ) berkode.

5,07K
Teratas
Peringkat
Favorit