Dnešní architektury AI Agent (ReAct, Plan-then-Act atd.) produkují příliš mnoho nesprávných odpovědí. Potvrzuje to náš nový benchmark, který hodnotí 5 populárních architektur Agent v multi-hop odpovídání na otázky. Ke každému z nich jsme pak přidali hodnocení důvěryhodnosti v reálném čase, což snížilo počet nesprávných odpovědí ve všech typech agentů: od Act o 56 %, od ReAct (Zero-shot) o 56 %, od ReAct (Few-shot) o 16 %, od PlanAct o 25 % a od PlanReAct o 10 %. Pokud nemůžete tolerovat chyby AI, trust scoring funguje pro jakéhokoli AI agenta a je to jen pár řádků kódu. Podívejte se na celý benchmark zde:
5,53K