نشر أصدقائي في @eternisai للتو ورقة توضح أن تدريب الذكاء الاصطناعي النماذج على أصعب الأمثلة يؤدي إلى أداء أفضل بنسبة 40٪ في مهام التفكير. هذا غير بديهي للبشر الذين يحبون التعلم بالأشياء الأسهل.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari‏23 أغسطس 2025
نقدم وصفة أفضل لجمع بيانات ما بعد التدريب عند استخدام GRPO. يعد جمع العينات من الخبراء مكلفا ، وميزانيات التعليقات التوضيحية محدودة. ما هي الأمثلة التي تستحق بالفعل دفع ثمنها؟ وجدنا أن التركيز على العينات الصلبة يؤدي إلى تحسن بنسبة 30-40٪. 1/7
‏‎390‏