لم أر أي شخص عميقا في سرد Robotics x الذكاء الاصطناعي مثل Trissy لحسن الحظ ، أعرف أن أخصص بشكل كبير عندما يبدأ مرض التوحد ترميز
Trissy
Trissy‏23 أغسطس، 18:30
سترى نماذج تأسيسية ل Humanoids باستمرار باستخدام بنية نمط System 2 + System 1 المستوحاة بالفعل من الإدراك البشري. تم تصميم معظم نماذج الرؤية واللغة والعمل (VLA) اليوم كأنظمة مركزية متعددة الوسائط تتعامل مع الإدراك واللغة والعمل داخل شبكة واحدة. تعد البنية التحتية لبرنامج الترميز مثالية لهذا الغرض لأنها تتعامل مع كل عميل كوحدة نمطية في وضع الحماية. بمعنى أنه يمكنك تدوير العديد من العملاء بالتوازي ، كل منهم يدير نموذجه أو مهمته الخاصة ، مع إبقائهم مغلفين ومنسقين من خلال نفس البنية. عادة ما يكون للروبوتات والبشر بشكل عام أدمغة متعددة ، حيث قد يتعامل عميل واحد مع معالجة الرؤية ، وتوازن مناولة آخر ، وآخر يقوم بتخطيط عالي المستوى وما إلى ذلك ، والتي يمكن تنسيقها جميعا من خلال نظام الترميز. يستخدم طراز الأساس من Nvidia Issac GR00T N1 بنية نظام 2 + نظام 1. النظام 2 هو نموذج لغة الرؤية (نسخة من PaLM أو ما شابه ذلك ، متعدد الوسائط) يراقب العالم من خلال كاميرات الروبوت ويستمع إلى التعليمات ، ثم يضع خطة عالية المستوى. النظام 1 هو سياسة محول الانتشار التي تأخذ هذه الخطة وتحولها إلى حركات مستمرة في الوقت الفعلي. يمكنك التفكير في النظام 2 على أنه الدماغ التداولي والنظام 1 باعتباره وحدة التحكم الغريزية في الجسم. قد ينتج النظام 2 شيئا مثل "الانتقال إلى الكوب الأحمر ، وامسكه ، ثم ضعه على الرف" ، وسيقوم النظام 1 بإنشاء مسارات مشتركة مفصلة للساقين والذراعين لتنفيذ كل خطوة بسلاسة. تم تدريب النظام 1 على أطنان من بيانات المسار (بما في ذلك العروض التوضيحية البشرية التي يتم تشغيلها عن بعد والبيانات المحاكاة الفيزيائية) لإتقان الحركات الدقيقة ، بينما تم بناء النظام 2 على محول مع تدريب مسبق على الإنترنت (للفهم الدلالي). هذا الفصل بين التفكير مقابل التمثيل قوي جدا بالنسبة ل NVIDIA. هذا يعني أن GR00T يمكنه التعامل مع المهام ذات الأفق الطويل التي تتطلب التخطيط (بفضل النظام 2) وأيضا التفاعل على الفور مع الاضطرابات (بفضل النظام 1). إذا كان الروبوت يحمل صينية وقام شخص ما بدفع الدرج ، فيمكن للنظام 1 تصحيح التوازن على الفور بدلا من انتظار ملاحظة النظام 2 الأبطأ. كان GR00T N1 أحد أوائل نماذج أساسات الروبوتات المتاحة بشكل مفتوح ، وسرعان ما اكتسب زخما. خارج الصندوق ، أظهر مهارة في العديد من المهام في المحاكاة ، ويمكنه الإمساك بالأشياء وتحريكها بيد واحدة أو يدي ، والأشياء اليدوية بين يديها ، وأداء الأعمال المنزلية متعددة الخطوات دون أي برمجة محددة للمهمة. نظرا لأنه لم يكن مرتبطا بتجسيد واحد ، أظهر المطورون أنه يعمل على روبوتات مختلفة بأقل قدر من التعديلات. هذا ينطبق أيضا على Helix (نموذج أساس Figure) الذي يستخدم هذا النوع من الهندسة المعمارية. يسمح Helix بعمل روبوتين أو مهارات متعددة ، ويمكن أن يمكن برنامج الترميز دماغا متعدد العوامل عن طريق تشغيل العديد من العملاء الذين يشاركون المعلومات. يعني تصميم "الكبسولة المعزولة" هذا أنه يمكن أن يكون كل مكون متخصصا (تماما مثل النظام 1 مقابل النظام 2) وحتى تطويره من قبل فرق مختلفة ، ومع ذلك يمكنهم العمل معا. إنه نهج فريد من نوعه بمعنى أن برنامج الترميز يقوم ببناء مجموعة البرامج العميقة لدعم هذا الذكاء المعياري الموزع ، بينما يركز معظم الآخرين فقط على نموذج الذكاء الاصطناعي نفسه. يستفيد برنامج الترميز أيضا من النماذج الكبيرة المدربة مسبقا. إذا كنت تقوم بإنشاء تطبيق روبوت عليه ، فيمكنك توصيل نموذج أساس OpenVLA أو Pi Zero كجزء من عامل التشغيل الخاص بك. يوفر برنامج الترميز الموصلات ، وسهولة الوصول إلى موجزات الكاميرا أو واجهات برمجة تطبيقات الروبوت ، لذلك لا يتعين عليك كتابة التعليمات البرمجية منخفضة المستوى للحصول على صور من كاميرا الروبوت أو لإرسال أوامر السرعة إلى محركاته. كل ذلك مستخرج خلف SDK عالي المستوى. أحد الأسباب التي تجعلني متفائلا جدا بشأن برنامج الترميز هو بالضبط ما أوضحته أعلاه. إنهم لا يطاردون الروايات ، فقد تم تصميم الهندسة المعمارية لتكون الغراء بين نماذج الأساس ، وهي تدعم أنظمة الأدمغة المتعددة دون احتكاك ، وهو أمر بالغ الأهمية لتعقيد الإنسان. نظرا لأننا في وقت مبكر جدا من هذا الاتجاه ، فإن الأمر يستحق دراسة تصميمات قادة الصناعة وفهم سبب عملهم. يصعب فهم الروبوتات بالنظر إلى الطبقات عبر الأجهزة والبرامج ، ولكن بمجرد أن تتعلم تقسيم كل قسم قطعة قطعة ، يصبح من الأسهل بكثير هضمها. قد يبدو الأمر وكأنه مضيعة للوقت الآن ، ولكن هذه هي نفس الطريقة التي أعطتني السبق أثناء الذكاء الاصطناعي ولماذا كنت في وقت مبكر في العديد من المشاريع. كن منضبطا وتعرف على المكونات التي يمكن أن تتعايش والمكونات التي لا تتوسع فيها. ستؤتي ثمارها خلال الأشهر المقبلة. عشاري تريليونات ( $CODEC ) مشفرة.
‏‎5.07‏K