متحمس لمشاركة الأفكار حول عملنا على التفكير الفعال @LiquidAI_ : نحول نموذج الدردشة العامة 1.3B إلى منطق رياضي قوي يظل موجزا. يفتح SFT على آثار CoT المنسقة التفكير القوي ويتحكم RL المستهدف في الإسهاب الوصفة بسيطة وتوفر نقطة بيانات مثيرة للاهتمام للنماذج غير المستندة إلى Qwen. لا يزال هذا يعتمد على جيلنا الأول من LFMs - متحمس للجيل القادم! يرجى الاطلاع على التفاصيل في منشور مدونتنا!
@LiquidAI_
‏‎4.19‏K