Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
Генеральний директор та член технічного персоналу @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

10,06K
Кодувальні агенти evals корисні для того, щоб зробити вашого агента кращим, але не для того, щоб довести, що він найкращий (що б це не означало). Тому ми не говоримо публічно про евали.
Але багато людей запитують, тому ось довге пояснення того, чому вони не мають сенсу для порівняння агентів з агентами.
Минулої ночі, з примхи, я пробіг Next.js evals[0] проти @AmpCode і отримав [ВИДАЛЕНО; Я не хочу, щоб це стосувалося цифр, але прокрутіть вниз, якщо цікаво]%, що значно вище наступного найвищого показника (Клод Код) у 42%.
Потім я попросив деяких інших людей спробувати повторити ці результати. Інші люди отримали [ВИДАЛЕНО] % за Amp, деякі з AGENTS𛲔md, який говорив наступне:
> Під час роботи в проекті Next.js завжди запускайте 'npm exec tsc -b', щоб перевірити наявність помилок типу, а потім 'npm run build' і 'npm run test', перш ніж закінчити. Виправте всі помилки, які ви бачите, і повторіть спробу, доки помилки не зникнуть.
При використанні Claude Code з тим, що в CLAUDE𛲔md, він отримав до 72% (проти 40-42% без).
Висновки:
• Простий файл AGENTS𛲔md значно підвищує відсоток успіху (на практиці ~всі реальні користувачі мають один, але evals рідко надають такий)
• Висока варіативність між прогонами (особливо важко зробити кодуючих агентів детермінованими)
• Існує так багато можливостей для інших видів ненавмисного дрейфу (змушує мене нервувати, що більшість результатів Terminal Bench не перевіряються незалежно, наприклад)
Крім того, з такою кількістю різних наборів eval, які зараз існують, ви почуєте лише заяви від агентів-мейкерів щодо евалів, на яких вони добре справляються (p-hacking зустрічається з "Чому більшість опублікованих результатів досліджень є помилковими").
Було б нечесно стверджувати, що ці цифри означають, що Amp найкращий. Це просто занадто штучне середовище і занадто багато випадковості. І я не думаю, що хтось дійсно коли-небудь вибирав агента з кодування через порівняльні результати, не кажучи вже про ті, про які повідомили 1-а сторона.
Але evals допомагають нам зробити Amp кращим. З одного звіту можна побачити, що Amp щоразу виходив з ладу в певних випадках, які ми розглянемо. І ми робимо всілякі вузькі евали, наприклад, для нашого пошукового субагента[1].
ПРИМІТКА: Це не мається на увазі як підкоп проти Next.js евалів /взагалі/. Це чудовий eval набір в цілому, який служить своїй меті, щоб допомогти нам зробити Amp кращим у Next.js речах.
[ВИДАЛЕНО]: Я отримав 50-58% у моїх початкових евалах Amp, а інші отримали 48-76%.


24,46K
Найкращі
Рейтинг
Вибране

