Le architetture degli agenti AI di oggi (ReAct, Plan-then-Act, ecc.) producono troppe risposte errate. Il nostro nuovo benchmark conferma questo, valutando 5 architetture di agenti popolari nel Question-Answering multi-hop. Abbiamo poi aggiunto un punteggio di fiducia in tempo reale a ciascuna, il che ha ridotto le risposte errate in tutti i tipi di agenti: da Act del 56%, da ReAct (Zero-shot) del 56%, da ReAct (Few-shot) del 16%, da PlanAct del 25% e da PlanReAct del 10%. Se non puoi tollerare gli errori dell'AI, il punteggio di fiducia funziona per qualsiasi agente AI ed è solo un paio di righe di codice. Controlla il benchmark completo qui:
5,53K