Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
CEO en lid van de technische staf @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

10,07K
We hebben iemand nodig om het Amp-team te versterken en ons te helpen bij het bouwen van advertentie-infrastructuur en gebruikersstromen voor Amp Free.
Backend, frontend, meerdere keren per dag verzenden en werken met klanten. Deze rol is alleen in San Francisco. Veel hard werk en ambiguïteit. Stuur me een DM.
26,73K
Coding agent evaluaties zijn nuttig om je agent beter te maken, maar niet om te bewijzen dat het de beste is (wat dat ook betekent). Daarom praten we niet publiekelijk over evaluaties.
Maar veel mensen vragen het, dus hier is een langere uitleg waarom ze niet betekenisvol zijn voor vergelijking tussen agenten.
Gisteravond, op een impuls, heb ik de Next.js evaluaties[0] uitgevoerd tegen @AmpCode en kreeg [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, ver boven de volgende hoogste (Claude Code) met 42%.
Ik vroeg toen andere mensen om te proberen deze resultaten te repliceren. Andere mensen kregen [REDACTED]% voor Amp, sommigen met een AGENTS𛲔md die als volgt luidde:
> Wanneer je werkt aan een Next.js project, voer altijd `npm exec tsc -b` uit om te controleren op typefouten, en daarna `npm run build` en `npm run test`, voordat je klaar bent. Los eventuele fouten op die je ziet en probeer het opnieuw totdat er geen fouten meer zijn.
Bij het gebruik van Claude Code met dat in de CLAUDE𛲔md, kwam het tot 72% (van 40-42% zonder).
Conclusies:
• Een eenvoudig AGENTS𛲔md bestand verhoogt de slagingskans enorm (in de praktijk heeft ~alle echte gebruikers er een, maar evaluaties leveren zelden een)
• Hoge variabiliteit tussen runs (het is vooral moeilijk om coderende agenten deterministisch te maken)
• Er zijn zoveel kansen voor andere soorten onbedoelde drift (maakt me nerveus dat de meeste Terminal Bench resultaten niet onafhankelijk zijn gevalideerd, bijvoorbeeld)
Bovendien, met zoveel verschillende evaluatiesets die er nu zijn, ga je alleen de claims horen van agentenmakers voor de evaluaties waarop ze toevallig goed presteren (p-hacking ontmoet "Waarom de meeste gepubliceerde onderzoeksresultaten onjuist zijn").
Het zou oneerlijk zijn om te beweren dat deze cijfers betekenen dat Amp de beste is. Het is gewoon te kunstmatig van een omgeving en er is te veel willekeur. En ik denk niet dat iemand ooit echt een coderende agent heeft gekozen vanwege benchmarkresultaten, laat staan 1st-party-gerapporteerde resultaten.
Maar evaluaties helpen ons Amp beter te maken. Je kunt uit één rapport zien dat Amp bepaalde gevallen elke keer faalde, waar we naar zullen kijken. En we doen allerlei soorten smalle evaluaties, zoals voor onze zoeksubagent[1].
OPMERKING: Dit is niet bedoeld als een aanval op de Next.js evaluaties /helemaal niet/. Het is een geweldige evaluatieset in het algemeen en dient zijn doel om ons te helpen Amp beter te maken in Next.js zaken.
[REDACTED]: Ik kreeg 50-58% in mijn initiële Amp evaluaties, en anderen kregen 48-76%.


24,47K
Boven
Positie
Favorieten

