一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Jeffrey Emanuel

即使是目前最先進的多模態大型語言模型（例如，GPT-5 和 Claude Opus 4.1）也存在一個引人入勝且揭示性的缺陷，我稱之為認知的模態孤立。這些模型看起來更像是弗蘇斯坦模型，從單獨訓練的部分粗略地組合在一起，通過將請求路由到正確的組件來結合，而不是以深層的方式進行適當的整合。對我來說，這一點的明顯表現就是這些模型在創建連貫的原創 ASCII 藝術方面是多麼糟糕，甚至在修改現有藝術作品時，對於一個擁有正確工具的孩子來說都會很容易（例如，asciiflow 編輯器，這是一個很棒且免費的瀏覽器工具）。我最近創建了一個很好的工具，用於以強大的方式檢查代碼文件中的問題，使用 ast-grep（當它完成時我會發更多的帖子），我想為每種編程語言製作一個漂亮的橫幅，包含不同的 ASCII 藝術吉祥物或標誌（Python 的蛇，Golang 的 gopher 等）。這項任務在保持連貫性的同時用新藝術替換舊藝術，對每個模型來說都是完全不可能的。即使我將我想要的表達得非常明確（我因為病態的好奇心而堅持了一段時間，就像一位神經學家在對一位患有腦損傷的病人進行診斷），他們在這方面的表現也非常可笑。他們甚至犯了一些人類絕對不會犯的真正外星錯誤，例如將“BUG”這個詞的 ASCII 藝術塊字母替換為重複的字串“BUG，”顯示出一種奇怪的本體論混淆，這在考慮到他們是如何在序列自回歸的下一個字符匹配上進行訓練時是可以理解的。當人類嘗試執行這項任務時，他們在“符號空間”和“物理（螢幕）空間”之間不斷進行一種格式轉換。我們在符號上進行更改以添加或移動 ASCII 字符，但然後觀察和感知我們剛剛所做的視覺效果，以查看是否正確。這是如此無縫，以至於我們甚至不會太注意。這些多模態大型語言模型似乎無法做到這一點，或者至少在單次推理過程中無法做到。他們被困在某一種模態中，似乎無法將它們融合在一起。如果他們能做到，這項我所描述的任務對他們來說將是微不足道的，而不是完全無法克服的。我認為下一代多模態大型語言模型必須擁有某種數字類比於大腦中的胼胝體，該結構統一了兩個大腦半球並幫助協調不同的認知模態，形成統一的意識。也就是說，密集的、可訓練的連接，允許不同的模態在處理過程中不斷相互調節。如果你願意，可以稱之為跨模態的連接。

我覺得我對 Cursor 的新 Composer-1 編碼 LLM 太過輕視了。當然，它在某種意義上比 GPT-5 高效能和 GPT-5-Codex 差得多，因此在我架構和實施重要代碼項目時，我並不認為它在我的工作流程中有什麼位置。另一方面，它的速度極快（我想知道他們是怎麼做到的；他們是使用 Groq 還是 Cerebras 硬體？還是因為模型這麼小且高效？不太確定），僅此一點就為當代碼不是那麼關鍵時，或當你開始一個新項目而不必擔心破壞現有代碼時，解鎖了許多新的工作流程和工作技術。與任何版本的 GPT-5 相比，它的成本也便宜得多。速度更快且成本更低的組合在使用模型的方式上創造了一些質的差異，我之前並沒有完全意識到。當迭代的成本在時間和金錢上都如此低時，你可以進行更多次的迭代。這降低了「一次性正確性」的價值；也就是說，像 GPT-5 Pro 這樣的模型能夠在第一次就正確完成即使是複雜的編碼任務而沒有錯誤的能力（儘管即使是那個模型在這個非常嚴格的測試中也經常失敗）。但是如果你能夠關閉調試循環，並快速將錯誤/警告反饋到模型中，每次迭代的時間只需 20 秒到 1 分鐘（而使用 GPT-5 高效能時至少需要 5 到 10 倍的時間），那麼你可以快速解決它第一次出現的所有粗心錯誤（甚至是第二次、第三次或第四次出現的錯誤），並且仍然能比使用 GPT-5 更快地完成可運行的代碼。如果你在瀏覽器中開發某些東西，你現在可以真正使用 Cursor 的新瀏覽器標籤來完全關閉循環，這是我在任何編碼工具中見過的這類實現中最好的（它遠遠超過了使用 Codex 或 Claude Code 的 Playwright MCP！）。我今天一直在使用這個提示，效果很好：「使用瀏覽器標籤系統地探索這個應用程序，並以自然的方式使用界面；在這個過程中，注意開發控制台中的任何警告或錯誤。當你看到一個時，開始互動式和迭代地診斷和修復錯誤和問題，然後刷新應用程序並驗證錯誤或警告是否完全解決。在修復問題時，專注於確定錯誤的真正根本原因，而不是應用虛假的「創可貼」修復！」然而，這種方法在概念和規劃階段真的會崩潰，因為你在思考要製作什麼以及以高層次的最佳方式實施它時。那裡，缺乏深入思考和探索可能會讓你走上難以恢復的錯誤道路。當你正在處理的任務遠離常見編碼任務的「數據流形」時，這一點更加明顯。如果你正在製作另一個簡單的 CRUD 網站，那麼你可能不會注意到太多。如果你試圖在人工生命模擬或類似的奇怪事物中開辟新天地，你會注意到很多。但有一種很好的混合方法運作得非常好：將最聰明的模型用於規劃，與這些快速且便宜的模型結合以產生迭代。因此，在瀏覽器應用中使用 GPT-5 Pro 來制定計劃和初步實施，然後將其粘貼到 Cursor 中，開始迭代、修復和改進。它在修改現有強大基礎方面要比建立該基礎本身更好。這一切真正閃耀的時刻是當你在一個有趣的新項目中玩耍和探索時，沒有截止日期或期望。在這種情況下，速度是一個真正的遊戲改變者。這讓我想起了 IBM 在 80 年代早期進行的那項研究，該研究考察了計算機系統的延遲，發現當延遲低於某個魔法水平，比如 50 毫秒時，你會看到行為的巨大變化，因為人類大腦感知到它正在處理一個「實時系統」。相反，當延遲超過即使是驚人適度的水平，比如 500 毫秒時，你會得到更少的參與，這在心理上是有壓力和令人沮喪的。當延遲飆升到幾秒鐘或更長時間時，人們往往會在心理上退出，並且很難保持參與。看到編碼模型在幾秒鐘內做出反應並在 15 秒內進行 10 次編輯，與等待 5 分鐘讓 GPT-5 高效能有條不紊地處理某些事情，完全是不同的體驗。無論如何，玩這個東西真的非常有趣。對我來說，它比任何視頻遊戲都更有趣和吸引人。