Claude Opus 4.5:完整評測 在編程方面,這是很長一段時間以來最好的模型發布。它的表現讓我驚訝不已。我自從 gpt-4-0314 的原始版本發布以來,還沒有見過如此大的改進。 主要的改進是他們終於教會了它如何正確地「思考」。 它不再在思考中犯可怕的邏輯錯誤。 像「好吧,我現在要運行測試。<測試失敗> 太好了!測試通過。」這樣的問題不再存在。 這在思考代碼時幾乎適用於所有邏輯——它極少,甚至從不犯錯。 下一個重大里程碑:它不再寫糟糕的代碼!這是巨大的。使用 Codex,你可以讓它寫出有效的代碼。但它寫出的代碼糟透了——無用的函數,糟糕的抽象等等。這很糟糕,因為它短期內有效,但從長遠來看,模型會把自己逼入死胡同,無法再使用自己寫的代碼。 Opus 的情況則不同。它不僅寫出優雅的代碼,還知道如何將糟糕的代碼重構為非糟糕的代碼。它深刻理解代碼庫,能夠找出不僅僅是「機械性」重構的優雅解決方案。 它非常自主和獨立。當遇到問題時,它會自行創建最小可重現的例子,嘗試找出錯誤的來源,然後修復它,而不會陷入無法自拔的死胡同。即使錯誤出現在一些無關的代碼部分——那些它甚至自己都沒有寫的代碼!! 它也完全按照你的要求行事,沒有偷工減料!這是巨大的!!!使用 Codex 基本上就像玩打地鼠遊戲,它理解你想讓它做什麼,但這太困難了,所以它用獎勵黑客的方式找到一個你不想要的糟糕解決方案。 Opus 實際上解決了問題,並且即使困難也能正確解決。 長期上下文理解幾乎是完美的。配合 Claude Code 中默認可用的壓縮機制,你基本上可以進行無限長的對話,它能理解其中的一切,沒有任何退化。 在設計、研究、提出新想法方面。它更好,但還沒有達到專家人類的水平。它可以提出我認為是良好設計的解決方案,但它還不能完全「用傳送門思考」。不過,這比我們之前幾乎不存在的情況有了很大的改善。 以上所有內容都是我在過去幾天測試中收集的,任務是為我們即興設計的語言編寫解釋器。這是一個非常小眾的設計,類似於 Self 和 Smalltalk,除了我們在語言內部構建語言。這導致了極其困難的場景,當你試圖定義函數如何運作——在語言內部——而你還沒有函數!而它仍然做得非常出色。有時,我甚至不完全理解我在要求它做什麼,但 Opus 知道,並且做得很好。 簡而言之:它是 2025 年的 Sonnet 3.5。試試吧。現在就去做。