Việc đánh giá tác nhân lập trình là hữu ích để cải thiện tác nhân của bạn, nhưng không phải để chứng minh rằng nó là tốt nhất (dù điều đó có nghĩa là gì). Đó là lý do tại sao chúng tôi không nói công khai về các đánh giá. Nhưng nhiều người hỏi, vì vậy đây là một giải thích dài hơn về lý do tại sao chúng không có ý nghĩa cho việc so sánh giữa các tác nhân. Tối qua, theo một ý nghĩ thoáng qua, tôi đã chạy các đánh giá Next.js[0] chống lại @AmpCode và nhận được [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, cao hơn nhiều so với mức cao nhất tiếp theo (Claude Code) ở mức 42%. Sau đó, tôi đã hỏi một số người khác để cố gắng tái tạo những kết quả này. Những người khác đã nhận được [REDACTED]% cho Amp, một số với một AGENTS𛲔md có nội dung như sau: > Khi làm việc trong một dự án Next.js, luôn chạy `npm exec tsc -b` để kiểm tra lỗi kiểu, và sau đó `npm run build` và `npm run test`, trước khi hoàn thành. Sửa bất kỳ lỗi nào bạn thấy và thử lại cho đến khi không còn lỗi. Khi sử dụng Claude Code với điều đó trong CLAUDE𛲔md, nó đã đạt tới 72% (tăng từ 40-42% mà không có). Những điều rút ra: • Một tệp AGENTS𛲔md đơn giản làm tăng tỷ lệ thành công một cách đáng kể (trong thực tế ~tất cả người dùng thực đều có một cái, nhưng các đánh giá hiếm khi cung cấp một cái) • Biến động cao giữa các lần chạy (đặc biệt khó để làm cho các tác nhân lập trình có tính xác định) • Có rất nhiều cơ hội cho các loại trôi dạt không mong muốn khác (khiến tôi lo lắng rằng hầu hết các kết quả Terminal Bench không được xác thực độc lập, chẳng hạn) Ngoài ra, với rất nhiều bộ đánh giá khác nhau hiện có, bạn chỉ nghe thấy những tuyên bố từ các nhà sản xuất tác nhân cho các đánh giá mà họ tình cờ làm tốt (p-hacking gặp "Tại sao hầu hết các phát hiện nghiên cứu được công bố là sai"). Sẽ không trung thực nếu tuyên bố rằng những con số này có nghĩa là Amp là tốt nhất. Nó chỉ là một môi trường quá nhân tạo và có quá nhiều sự ngẫu nhiên. Và tôi không nghĩ rằng ai đó thực sự đã bao giờ chọn một tác nhân lập trình chỉ vì kết quả chuẩn, càng không phải là những kết quả được báo cáo từ bên thứ nhất. Nhưng các đánh giá giúp chúng tôi cải thiện Amp. Bạn có thể thấy từ một báo cáo rằng Amp đã thất bại trong một số trường hợp mỗi lần, điều mà chúng tôi sẽ xem xét. Và chúng tôi thực hiện đủ loại đánh giá hẹp, chẳng hạn như cho tác nhân tìm kiếm của chúng tôi[1]. LƯU Ý: Điều này không có ý nghĩa là một sự chỉ trích đối với các đánh giá Next.js /hoàn toàn không/. Đây là một bộ đánh giá tuyệt vời tổng thể và phục vụ mục đích của nó để giúp chúng tôi cải thiện Amp trong các vấn đề liên quan đến Next.js. [REDACTED]: Tôi đã đạt 50-58% trong các đánh giá Amp ban đầu của mình, và những người khác đã đạt 48-76%.