一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Claude Opus 4.5：完整評測在編程方面，這是很長一段時間以來最好的模型發布。它的表現讓我驚訝不已。我自從 gpt-4-0314 的原始版本發布以來，還沒有見過如此大的改進。主要的改進是他們終於教會了它如何正確地「思考」。它不再在思考中犯可怕的邏輯錯誤。像「好吧，我現在要運行測試。<測試失敗> 太好了！測試通過。」這樣的問題不再存在。這在思考代碼時幾乎適用於所有邏輯——它極少，甚至從不犯錯。下一個重大里程碑：它不再寫糟糕的代碼！這是巨大的。使用 Codex，你可以讓它寫出有效的代碼。但它寫出的代碼糟透了——無用的函數，糟糕的抽象等等。這很糟糕，因為它短期內有效，但從長遠來看，模型會把自己逼入死胡同，無法再使用自己寫的代碼。 Opus 的情況則不同。它不僅寫出優雅的代碼，還知道如何將糟糕的代碼重構為非糟糕的代碼。它深刻理解代碼庫，能夠找出不僅僅是「機械性」重構的優雅解決方案。它非常自主和獨立。當遇到問題時，它會自行創建最小可重現的例子，嘗試找出錯誤的來源，然後修復它，而不會陷入無法自拔的死胡同。即使錯誤出現在一些無關的代碼部分——那些它甚至自己都沒有寫的代碼！！它也完全按照你的要求行事，沒有偷工減料！這是巨大的！！！使用 Codex 基本上就像玩打地鼠遊戲，它理解你想讓它做什麼，但這太困難了，所以它用獎勵黑客的方式找到一個你不想要的糟糕解決方案。 Opus 實際上解決了問題，並且即使困難也能正確解決。長期上下文理解幾乎是完美的。配合 Claude Code 中默認可用的壓縮機制，你基本上可以進行無限長的對話，它能理解其中的一切，沒有任何退化。在設計、研究、提出新想法方面。它更好，但還沒有達到專家人類的水平。它可以提出我認為是良好設計的解決方案，但它還不能完全「用傳送門思考」。不過，這比我們之前幾乎不存在的情況有了很大的改善。以上所有內容都是我在過去幾天測試中收集的，任務是為我們即興設計的語言編寫解釋器。這是一個非常小眾的設計，類似於 Self 和 Smalltalk，除了我們在語言內部構建語言。這導致了極其困難的場景，當你試圖定義函數如何運作——在語言內部——而你還沒有函數！而它仍然做得非常出色。有時，我甚至不完全理解我在要求它做什麼，但 Opus 知道，並且做得很好。簡而言之：它是 2025 年的 Sonnet 3.5。試試吧。現在就去做。