Arsitektur Agen AI saat ini (ReAct, Plan-then-Act, dll) menghasilkan terlalu banyak respons yang salah. Tolok ukur baru kami mengkonfirmasi hal ini, mengevaluasi 5 arsitektur Agen populer dalam Jawaban-Pertanyaan multi-hop. Kami kemudian menambahkan penilaian kepercayaan real-time ke masing-masing, yang mengurangi respons yang salah di semua jenis Agen: dari Act sebesar 56%, dari ReAct (Zero-shot) sebesar 56%, dari ReAct (Few-shot) sebesar 16%, dari PlanAct sebesar 25%, dan dari PlanReAct sebesar 10%. Jika Anda tidak dapat mentolerir kesalahan AI, penilaian kepercayaan berfungsi untuk Agen AI apa pun dan hanya beberapa baris kode. Lihat benchmark lengkapnya di sini:
5,54K