エージェント評価のコーディングは、エージェントをより良くするのには役立ちますが、それが最良であることを証明するには役に立ちません (それが何を意味するにせよ)。だからこそ、評価については公に話さないのです。 しかし、多くの人が尋ねるので、エージェント間の比較に意味がない理由について、より長い説明をします。 昨夜、気まぐれで、@AmpCodeに対してNext.js評価[0]を実行したところ、[編集済み;これは数字に関するものではないが、興味があれば下にスクロールして]%、次に高い(クロード・コード)の42%をはるかに上回った。 次に、他の何人かにこれらの結果を再現してみるように依頼しました。他の人はAmpの[編集済み]%を取得し、次のようなAGENTS𛲔mdを持つ人もいました。 > Next.jsプロジェクトで作業する場合は、必ず 'npm exec tsc -b' を実行して型エラーをチェックし、次に 'npm run build' と 'npm run test' を実行してから終了してください。表示されたエラーを修正し、エラーがなくなるまでもう一度試してください。 CLAUDE𛲔mdでClaude Codeを使用すると、最大72%になりました(40〜42%から増加)。 テイクアウェイ: • 単純な AGENTS𛲔md ファイルは成功率を大幅に向上させます (実際には ~すべての実際のユーザーが 1 つ持っていますが、評価が 1 つを提供することはめったにありません) • 実行間での高い変動性 (コーディングエージェントを決定論的にするのは特に困難です) • 他の種類の意図しないドリフトの機会が非常に多く存在します (たとえば、ほとんどの Terminal Bench 結果が独立して検証されないことに不安を感じます) また、現在非常に多くの異なる評価セットが存在するため、エージェントメーカーから、たまたまうまくいった評価の主張しか聞こえません(p-hackingは「なぜほとんどの公開された研究結果が虚偽であるのか」を満たしています)。 これらの数字が Amp が最高であることを意味すると主張するのは不誠実です。環境があまりにも人工的で、ランダム性が多すぎます。そして、ベンチマークの結果を理由にコーディングエージェントを選んだ人は誰もいないと思います。 しかし、評価は Amp をより良くするのに役立ちます。あるレポートから、Amp が毎回特定のケースに失敗したことがわかります。そして、検索サブエージェント[1]など、あらゆる種類の狭い評価を行います。 注:これは、Next.js評価を/まったく/非難することを意図したものではありません。これは全体的に素晴らしい評価セットであり、アンプをNext.jsでより良くするのに役立つという目的を果たしています。 [編集済]: 私は最初のアンプ評価で 50-58% を獲得し、他の人は 48-76% を獲得しました。