DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Le valutazioni degli agenti di codifica sono utili per migliorare il tuo agente, ma non per dimostrare che sia il migliore (qualunque cosa significhi). Ecco perché non parliamo pubblicamente delle valutazioni. Ma molte persone chiedono, quindi ecco una spiegazione più lunga del perché non siano significative per il confronto tra agenti. Ieri sera, per caso, ho eseguito le valutazioni di Next.js[0] contro @AmpCode e ho ottenuto [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, ben al di sopra del successivo più alto (Claude Code) al 42%. Ho poi chiesto ad altre persone di provare a replicare questi risultati. Altre persone hanno ottenuto [REDACTED]% per Amp, alcuni con un AGENTS𛲔md che recitava come segue: > Quando lavori in un progetto Next.js, esegui sempre `npm exec tsc -b` per controllare gli errori di tipo, e poi `npm run build` e `npm run test`, prima di finire. Risolvi eventuali errori che vedi e riprova fino a quando non ci sono più errori. Utilizzando Claude Code con quello nel CLAUDE𛲔md, è arrivato fino al 72% (rispetto al 40-42% senza). Conclusioni: • Un semplice file AGENTS𛲔md aumenta notevolmente il tasso di successo (in pratica ~tutti gli utenti reali ne hanno uno, ma le valutazioni raramente ne forniscono uno) • Alta variabilità tra le esecuzioni (è particolarmente difficile rendere gli agenti di codifica deterministici) • Ci sono così tante opportunità per altri tipi di deriva involontaria (mi rende nervoso che la maggior parte dei risultati di Terminal Bench non siano convalidati in modo indipendente, per esempio) Inoltre, con così tanti diversi set di valutazione là fuori ora, sentirai solo le affermazioni dei creatori di agenti per le valutazioni in cui si comportano bene (p-hacking incontra "Perché la maggior parte dei risultati di ricerca pubblicati sono falsi"). Sarebbe disonesto affermare che questi numeri significano che Amp è il migliore. È solo un ambiente troppo artificiale e c'è troppa casualità. E non penso che nessuno abbia mai scelto un agente di codifica a causa dei risultati dei benchmark, tanto meno quelli riportati da una prima parte. Ma le valutazioni ci aiutano a migliorare Amp. Puoi vedere da un rapporto che Amp ha fallito in determinati casi ogni volta, su cui ci concentreremo. E facciamo tutti i tipi di valutazioni ristrette, come per il nostro subagente di ricerca[1]. NOTA: Questo non è inteso come una critica alle valutazioni di Next.js /per niente/. È un ottimo set di valutazione nel complesso e serve al suo scopo per aiutarci a migliorare Amp nelle cose di Next.js. [REDACTED]: Ho ottenuto il 50-58% nelle mie valutazioni iniziali di Amp, e altri hanno ottenuto il 48-76%.

Principali

Ranking

Preferiti