Die heutigen AI-Agent-Architekturen (ReAct, Plan-then-Act usw.) produzieren zu viele falsche Antworten. Unser neuer Benchmark bestätigt dies und bewertet 5 beliebte Agent-Architekturen im Multi-Hop-Fragen-Antworten. Wir haben dann ein Echtzeit-Vertrauensbewertungssystem zu jedem hinzugefügt, was die falschen Antworten bei allen Agent-Typen reduzierte: von Act um 56 %, von ReAct (Zero-shot) um 56 %, von ReAct (Few-shot) um 16 %, von PlanAct um 25 % und von PlanReAct um 10 %. Wenn Sie AI-Fehler nicht tolerieren können, funktioniert die Vertrauensbewertung für jeden AI-Agenten und besteht nur aus ein paar Zeilen Code. Sehen Sie sich den vollständigen Benchmark hier an:
5,53K