トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
エージェント評価のコーディングは、エージェントをより良くするのには役立ちますが、それが最良であることを証明するには役に立ちません (それが何を意味するにせよ)。だからこそ、評価については公に話さないのです。
しかし、多くの人が尋ねるので、エージェント間の比較に意味がない理由について、より長い説明をします。
昨夜、気まぐれで、@AmpCodeに対してNext.js評価[0]を実行したところ、[編集済み;これは数字に関するものではないが、興味があれば下にスクロールして]%、次に高い(クロード・コード)の42%をはるかに上回った。
次に、他の何人かにこれらの結果を再現してみるように依頼しました。他の人はAmpの[編集済み]%を取得し、次のようなAGENTS𛲔mdを持つ人もいました。
> Next.jsプロジェクトで作業する場合は、必ず 'npm exec tsc -b' を実行して型エラーをチェックし、次に 'npm run build' と 'npm run test' を実行してから終了してください。表示されたエラーを修正し、エラーがなくなるまでもう一度試してください。
CLAUDE𛲔mdでClaude Codeを使用すると、最大72%になりました(40〜42%から増加)。
テイクアウェイ:
• 単純な AGENTS𛲔md ファイルは成功率を大幅に向上させます (実際には ~すべての実際のユーザーが 1 つ持っていますが、評価が 1 つを提供することはめったにありません)
• 実行間での高い変動性 (コーディングエージェントを決定論的にするのは特に困難です)
• 他の種類の意図しないドリフトの機会が非常に多く存在します (たとえば、ほとんどの Terminal Bench 結果が独立して検証されないことに不安を感じます)
また、現在非常に多くの異なる評価セットが存在するため、エージェントメーカーから、たまたまうまくいった評価の主張しか聞こえません(p-hackingは「なぜほとんどの公開された研究結果が虚偽であるのか」を満たしています)。
これらの数字が Amp が最高であることを意味すると主張するのは不誠実です。環境があまりにも人工的で、ランダム性が多すぎます。そして、ベンチマークの結果を理由にコーディングエージェントを選んだ人は誰もいないと思います。
しかし、評価は Amp をより良くするのに役立ちます。あるレポートから、Amp が毎回特定のケースに失敗したことがわかります。そして、検索サブエージェント[1]など、あらゆる種類の狭い評価を行います。
注:これは、Next.js評価を/まったく/非難することを意図したものではありません。これは全体的に素晴らしい評価セットであり、アンプをNext.jsでより良くするのに役立つという目的を果たしています。
[編集済]: 私は最初のアンプ評価で 50-58% を獲得し、他の人は 48-76% を獲得しました。


トップ
ランキング
お気に入り

