熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Artificial Analysis
獨立分析 AI 模型和託管供應商 - 為您的用例選擇最佳模型和 API 供應商
FLUX.2 [dev] 是新的領先開放權重文本到圖像模型,超越了 HunyuanImage 3.0、Qwen-Image 和 HiDream-I1-Dev,在人工分析圖像領域中名列前茅!
@bfl_ml 的最新版本在開放權重文本到圖像生成中奪得第一名,同時在開放權重圖像編輯中排名第二,僅次於阿里巴巴的 Qwen Image Edit 2509。
FLUX.2 [dev] 根據 FLUX [dev] 非商業許可證發布,權重可在 @huggingface 獲得。商業應用需要從 Black Forest Labs 獲得單獨的許可證。
該模型可通過 API 在 @fal、@replicate、@runware、Verda、@togethercompute、@Cloudflare 和 @DeepInfra 獲得。
Black Forest Labs 還宣布了 FLUX.2 [klein],將根據 Apache 2.0 許可證發布,使開發者和企業能夠在不需要從 Black Forest Labs 獲得單獨許可的情況下構建商業應用。

7.31K
DeepSeek V3.2 是第二智能的開放權重模型,並且在 Grok 4 和 Claude Sonnet 4.5 (思考) 之前排名 - 它將 DeepSeek 稀疏注意力從「實驗」狀態中解脫出來,並與智能的實質提升相結合。
@deepseek_ai V3.2 在人工分析智能指數上得分 66;相比於 2025 年 9 月發布的 DeepSeek V3.2-Exp (+9 分),這是一個實質的智能提升。DeepSeek 已將其主要 API 端點切換至 V3.2,並且 V3.2-Exp 的定價沒有變化 - 這使得定價僅為每 1M 輸入/輸出代幣 $0.28/$0.42,對於緩存的輸入代幣則有 90% 的折扣。
自從大約 11 個月前在 2024 年 12 月底發布的原始 DeepSeek V3 以來,DeepSeek 的 V3 架構擁有 671B 總參數/37B 活躍參數,已經從一個得分 32 的模型提升至在人工分析智能指數上得分 66。
DeepSeek 還發布了 V3.2-Speciale,這是一個僅限推理的變體,具有增強的能力,但代幣使用量顯著增加。這是推理模型中的一個常見權衡,增強的推理通常會產生更高的智能得分和更多的輸出代幣。V3.2-Speciale 可通過 DeepSeek 的第一方 API 獲得,直到 12 月 15 日。
目前 V3.2-Speciale 在人工分析智能指數上的得分 (59) 低於 V3.2 (推理,66),因為 DeepSeek 的第一方 API 尚不支持此模型的工具調用。如果 V3.2-Speciale 在啟用工具調用的情況下達到 V3.2 的 tau2 得分 (91%),它將在智能指數上得分約 68,使其成為最智能的開放權重模型。V3.2-Speciale 使用 160M 輸出代幣來運行人工分析智能指數,幾乎是 V3.2 在推理模式下使用的代幣數量的兩倍。
DeepSeek V3.2 使用與 V3.2-Exp 相同的架構,後者引入了 DeepSeek 稀疏注意力 (DSA),以減少長上下文推理所需的計算。我們的長上下文推理基準顯示引入 DSA 對智能沒有成本影響。DeepSeek 通過將其第一方 API 的定價從 $0.56/$1.68 降至 $0.28/$0.42 每 1M 輸入/輸出代幣,反映了 V3.2-Exp 的成本優勢 - 分別減少了 50% 和 75% 的輸入和輸出代幣定價。
關鍵基準要點:
➤🧠 DeepSeek V3.2:在推理模式下,DeepSeek V3.2 在人工分析智能指數上得分 66,與 Kimi K2 思考 (67) 相當,並且在 Grok 4 (65)、Grok 4.1 快速 (推理,64) 和 Claude Sonnet 4.5 (思考,63) 之前。與 V3.2-Exp (57) 相比,它在工具使用、長上下文推理和編碼方面顯示出顯著的提升。
➤🧠 DeepSeek V3.2-Speciale:V3.2-Speciale 在我們的智能指數中在 10 個基準中的 7 個上得分高於 V3.2 (推理)。V3.2-Speciale 現在在 AIME25 (97%) 和 LiveCodeBench (90%) 中分別擁有所有模型中最高和第二高的得分。然而,如上所述,DeepSeek 的 V3.2-Speciale 第一方 API 尚不支持工具調用,該模型在 tau2 基準上得分為 0。
➤📚 幻覺和知識:DeepSeek V3.2-Speciale 和 V3.2 是人工分析全知指數上排名最高的開放權重模型,得分分別為 -19 和 -23。來自 Google、Anthropic、OpenAI 和 xAI 的專有模型通常在此指數中領先。
➤⚡ 非推理性能:在非推理模式下,DeepSeek V3.2 在人工分析智能指數上得分 52 (+6 分 vs. V3.2-Exp),是第三智能的非推理模型。DeepSeek V3.2 (非推理) 與 2025 年 5 月的前沿推理模型 DeepSeek R1 0528 的智能相匹配,突顯了今年通過預訓練和強化學習改進所取得的快速智能增長。
➤⚙️ 代幣效率:在推理模式下,DeepSeek V3.2 使用的代幣數量比 V3.2-Exp 多,以運行人工分析智能指數 (從 62M 增加到 86M)。在非推理變體中,代幣使用量保持相似。V3.2-Speciale 顯示出顯著更高的代幣使用量,使用約 160M 輸出代幣,超過 Kimi K2 思考 (140M) 和 Grok 4 (120M)。
➤💲定價:DeepSeek 尚未更新其第一方的每個代幣定價,所有三個變體的定價均為每 1M 輸入/輸出代幣 $0.28/$0.42。
其他模型詳情:
➤ ©️ 授權:DeepSeek V3.2 在 MIT 許可下提供。
➤ 🌐 可用性:DeepSeek V3.2 可通過 DeepSeek API 獲得,該 API 已取代 DeepSeek V3.2-Exp。用戶可以通過臨時 DeepSeek API 獲得 DeepSeek V3.2-Speciale,直到 12 月 15 日。考慮到此次發布的智能提升,我們預計許多第三方提供商將很快提供此模型。
➤ 📏 大小:DeepSeek V3.2 Exp 擁有 671B 總參數和 37B 活躍參數。這與 DeepSeek V3 和 R1 系列中的所有先前模型相同。

71.6K
Whisper-Thunder 揭示:Runway Gen-4.5 現在是人工分析視頻排行榜中領先的文本轉視頻模型,超越了 Veo 3、Kling 2.5 Turbo 和 Sora 2 Pro!
Runway Gen-4.5 是 @runwayml 最新發布的版本,接替了三月發布的 Runway Gen-4。雖然 Gen-4 只支持圖像轉視頻,但 Runway Gen-4.5 引入了文本轉視頻生成。我們尚未評估 Runway Gen-4.5 的圖像轉視頻生成能力。
Runway Gen-4.5 正在逐步向 Runway 應用的用戶推出,預計在接下來的幾天內會有更廣泛的可用性。
請參見下方有關 Runway Gen-4.5 與我們人工分析視頻競技場中其他領先模型的比較 🧵

9.66K
熱門
排行
收藏

