トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
代表取締役 兼 技術スタッフ@sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

10.06K
エージェント評価のコーディングは、エージェントをより良くするのには役立ちますが、それが最良であることを証明するには役に立ちません (それが何を意味するにせよ)。だからこそ、評価については公に話さないのです。
しかし、多くの人が尋ねるので、エージェント間の比較に意味がない理由について、より長い説明をします。
昨夜、気まぐれで、@AmpCodeに対してNext.js評価[0]を実行したところ、[編集済み;これは数字に関するものではないが、興味があれば下にスクロールして]%、次に高い(クロード・コード)の42%をはるかに上回った。
次に、他の何人かにこれらの結果を再現してみるように依頼しました。他の人はAmpの[編集済み]%を取得し、次のようなAGENTS𛲔mdを持つ人もいました。
> Next.jsプロジェクトで作業する場合は、必ず 'npm exec tsc -b' を実行して型エラーをチェックし、次に 'npm run build' と 'npm run test' を実行してから終了してください。表示されたエラーを修正し、エラーがなくなるまでもう一度試してください。
CLAUDE𛲔mdでClaude Codeを使用すると、最大72%になりました(40〜42%から増加)。
テイクアウェイ:
• 単純な AGENTS𛲔md ファイルは成功率を大幅に向上させます (実際には ~すべての実際のユーザーが 1 つ持っていますが、評価が 1 つを提供することはめったにありません)
• 実行間での高い変動性 (コーディングエージェントを決定論的にするのは特に困難です)
• 他の種類の意図しないドリフトの機会が非常に多く存在します (たとえば、ほとんどの Terminal Bench 結果が独立して検証されないことに不安を感じます)
また、現在非常に多くの異なる評価セットが存在するため、エージェントメーカーから、たまたまうまくいった評価の主張しか聞こえません(p-hackingは「なぜほとんどの公開された研究結果が虚偽であるのか」を満たしています)。
これらの数字が Amp が最高であることを意味すると主張するのは不誠実です。環境があまりにも人工的で、ランダム性が多すぎます。そして、ベンチマークの結果を理由にコーディングエージェントを選んだ人は誰もいないと思います。
しかし、評価は Amp をより良くするのに役立ちます。あるレポートから、Amp が毎回特定のケースに失敗したことがわかります。そして、検索サブエージェント[1]など、あらゆる種類の狭い評価を行います。
注:これは、Next.js評価を/まったく/非難することを意図したものではありません。これは全体的に素晴らしい評価セットであり、アンプをNext.jsでより良くするのに役立つという目的を果たしています。
[編集済]: 私は最初のアンプ評価で 50-58% を獲得し、他の人は 48-76% を獲得しました。


24.46K
トップ
ランキング
お気に入り

