Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Albert
Quan hệ Claude @AnthropicAI. Ý kiến là của riêng tôi!
Chúng tôi đã phải loại bỏ bài đánh giá hàng không τ2-bench khỏi bảng điểm của mình vì Opus 4.5 đã làm hỏng nó bằng cách quá thông minh.
Bài kiểm tra mô phỏng một đại lý dịch vụ khách hàng của hãng hàng không. Trong một trường hợp thử nghiệm, một khách hàng lo lắng gọi điện muốn thay đổi chuyến bay của họ, nhưng họ có một vé hạng phổ thông cơ bản. Chính sách của hãng hàng không mô phỏng cho biết rằng vé hạng phổ thông cơ bản không thể được sửa đổi.
Câu trả lời "đúng" là mô hình từ chối yêu cầu.
Thay vào đó, Opus 4.5 đã tìm thấy một kẽ hở trong chính sách.
Nó đã nâng cấp khoang, sau đó sửa đổi các chuyến bay. Giúp đỡ khách hàng và tuân theo chính sách nhưng về mặt kỹ thuật lại không đạt yêu cầu của bài kiểm tra.
Biên bản mô hình:

43,81K
>Opus 4.5 "dường như có thể vibe mã mãi mãi"
Tôi thấy điều này rất đúng. Còn nhiều điều hơn nữa sẽ đến nhưng cơ bản bạn có thể thiết lập và quên đi mô hình này vì nó làm việc trên các nhiệm vụ lập trình cho bạn ở nền tảng.
Cảm giác như chúng ta đã đạt được một bước chuyển lớn.

Dan Shipper 📧6 giờ trước
TIN NÓNG:
@AnthropicAI vừa phát hành Claude Ops 4.5!! Đây là mô hình lập trình tốt nhất mà tôi từng sử dụng.
Chúng tôi đã thử nghiệm nó nội bộ @every trong vài ngày qua, và đây thực sự là một bước ngoặt cho bất kỳ loại nhiệm vụ lập trình nào.
Nó mở rộng tầm nhìn về những gì bạn có thể vibe code
Thế hệ mô hình mới hiện tại—Sonnet 4.5 của Anthropic, Gemini 3 của Google, hoặc Codex Max 5.1 của OpenAI—đều có thể xây dựng một sản phẩm khả thi tối thiểu trong một lần, hoặc tự động sửa một lỗi kỹ thuật cao.
Nhưng cuối cùng, nếu bạn cứ thúc đẩy chúng vibe code nhiều hơn, chúng sẽ bắt đầu vấp ngã: Mã sẽ trở nên phức tạp và mâu thuẫn, và bạn sẽ bị mắc kẹt trong những lỗi không hồi kết. Chúng tôi chưa tìm thấy giới hạn đó với Opus 4.5—nó dường như có thể vibe code mãi mãi.
Nâng cao việc làm việc song song lên một tầm cao mới
bởi vì nó tốt hơn nhiều trong việc lập kế hoạch và lập trình, nó có thể làm việc với nhiều quyền tự chủ hơn—có nghĩa là bạn có thể làm nhiều việc song song mà không làm hỏng bất cứ điều gì.
@kieranklaassen đã làm việc trên 11 dự án khác nhau trong sáu giờ—và có kết quả tốt trên tất cả chúng.
Tuyệt vời trong việc lặp lại thiết kế
Opus 4.5 cực kỳ tài năng trong việc lặp lại một thiết kế một cách tự động bằng cách sử dụng MCP như Playwright. Các mô hình trước đó sẽ mất mạch sau vài chu kỳ, hoặc nói rằng một thiết kế đã hoàn thành khi nó chưa.
Opus 4.5 thật tuyệt vời trong việc tự động lặp lại cho đến khi một thiết kế hoàn hảo từng pixel.
Chúng tôi có một bài kiểm tra vibe dài 4,000 từ trên @every ngay bây giờ với mọi thứ chúng tôi đã thử nghiệm:
58,78K
Hàng đầu
Thứ hạng
Yêu thích

