تنتج بنى عامل الذكاء الاصطناعي اليوم (ReAct و Plan-then-Act وما إلى ذلك) الكثير من الاستجابات غير الصحيحة. يؤكد معيارنا الجديد ذلك ، حيث يقيم 5 معماريات وكلاء شائعة في الإجابة على الأسئلة متعددة القفزات. ثم أضفنا تسجيل الثقة في الوقت الفعلي إلى كل منها، مما قلل من الاستجابات غير الصحيحة عبر جميع أنواع الوكلاء: من Act بنسبة 56٪، ومن ReAct (Zero-shot) بنسبة 56٪، ومن ReAct (لقطة قليلة) بنسبة 16٪، ومن PlanAct بنسبة 25٪، ومن PlanReAct بنسبة 10٪. إذا كنت لا تستطيع تحمل أخطاء الذكاء الاصطناعي ، فإن تسجيل الثقة يعمل مع أي وكيل الذكاء الاصطناعي وهو مجرد سطرين من التعليمات البرمجية. تحقق من المعيار الكامل هنا:
‏‎5.54‏K