DeepSeek V3.2 是第二智能的开放权重模型,排名高于 Grok 4 和 Claude Sonnet 4.5(思考)——它将 DeepSeek 稀疏注意力从“实验”状态提升,并与智能的实质性提升相结合。 @deepseek_ai V3.2 在人工分析智能指数上得分 66;相比于 2025 年 9 月发布的 DeepSeek V3.2-Exp(+9 分),智能有了显著提升。DeepSeek 已将其主要 API 端点切换到 V3.2,定价与 V3.2-Exp 的定价没有变化——这使得定价仅为每百万输入/输出令牌 $0.28/$0.42,缓存输入令牌享受 90% 的折扣。 自从大约 11 个月前的 2024 年 12 月底发布的原始 DeepSeek V3 以来,DeepSeek 的 V3 架构总共有 671B 总参数/37B 活跃参数,使得它们的模型得分从 32 提升到人工分析智能指数的 66。 DeepSeek 还发布了 V3.2-Speciale,这是一个仅限推理的变体,具有增强的能力,但令牌使用量显著增加。这是推理模型中的常见权衡,增强的推理通常会产生更高的智能得分和更多的输出令牌。V3.2-Speciale 通过 DeepSeek 的第一方 API 提供,直到 12 月 15 日。 V3.2-Speciale 在人工分析智能指数上的得分(59)低于 V3.2(推理,66),因为 DeepSeek 的第一方 API 尚不支持该模型的工具调用。如果 V3.2-Speciale 在启用工具调用的情况下匹配 V3.2 的 tau2 得分(91%),它将在智能指数上得分约 68,使其成为最智能的开放权重模型。V3.2-Speciale 在运行人工分析智能指数时使用了 160M 输出令牌,几乎是 V3.2 在推理模式下使用的令牌数量的两倍。 DeepSeek V3.2 使用与 V3.2-Exp 相同的架构,后者引入了 DeepSeek 稀疏注意力(DSA),以减少长上下文推理所需的计算。我们的长上下文推理基准显示引入 DSA 对智能没有成本影响。DeepSeek 通过将其第一方 API 的定价从 $0.56/$1.68 降至 $0.28/$0.42 每百万输入/输出令牌,反映了 V3.2-Exp 的成本优势——输入和输出令牌的定价分别减少了 50% 和 75%。 关键基准总结: ➤🧠 DeepSeek V3.2:在推理模式下,DeepSeek V3.2 在人工分析智能指数上得分 66,与 Kimi K2 思考(67)相当,领先于 Grok 4(65)、Grok 4.1 快速(推理,64)和 Claude Sonnet 4.5(思考,63)。与 V3.2-Exp(57)相比,它在工具使用、长上下文推理和编码方面表现出显著提升。 ➤🧠 DeepSeek V3.2-Speciale:V3.2-Speciale 在我们的智能指数中,在 10 个基准中的 7 个上得分高于 V3.2(推理)。V3.2-Speciale 目前在 AIME25(97%)和 LiveCodeBench(90%)中分别拥有所有模型中最高和第二高的得分。然而,如上所述,DeepSeek 的 V3.2-Speciale 的第一方 API 不支持工具调用,该模型在 tau2 基准上得分为 0。 ➤📚 幻觉与知识:DeepSeek V3.2-Speciale 和 V3.2 是人工分析全知指数上排名最高的开放权重模型,得分分别为 -19 和 -23。谷歌、Anthropic、OpenAI 和 xAI 的专有模型通常在该指数中领先。 ➤⚡ 非推理性能:在非推理模式下,DeepSeek V3.2 在人工分析智能指数上得分 52(比 V3.2-Exp 高 6 分),是第三智能的非推理模型。DeepSeek V3.2(非推理)与 2025 年 5 月的前沿推理模型 DeepSeek R1 0528 的智能相当,突显了今年通过预训练和强化学习改进所取得的快速智能提升。 ➤⚙️ 令牌效率:在推理模式下,DeepSeek V3.2 使用的令牌比 V3.2-Exp 多,以运行人工分析智能指数(从 62M 增加到 86M)。在非推理变体中,令牌使用量保持相似。V3.2-Speciale 显示出显著更高的令牌使用量,使用了 ~160M 输出令牌,领先于 Kimi K2 思考(140M)和 Grok 4(120M)。 ➤💲定价:DeepSeek 尚未更新其第一方的每令牌定价,所有三个变体的定价均为每百万输入/输出令牌 $0.28/$0.42。 其他模型细节: ➤ ©️ 许可:DeepSeek V3.2 在 MIT 许可证下提供。 ➤ 🌐 可用性:DeepSeek V3.2 通过 DeepSeek API 提供,已替代 DeepSeek V3.2-Exp。用户可以通过临时 DeepSeek API 访问 DeepSeek V3.2-Speciale,直到 12 月 15 日。鉴于此次发布的智能提升,我们预计许多第三方提供商将很快提供该模型。 ➤ 📏 大小:DeepSeek V3.2 Exp 具有 671B 总参数和 37B 活跃参数。这与 DeepSeek V3 和 R1 系列中的所有先前模型相同。
在DeepSeek的第一方API定价为每百万输入/输出令牌$0.28/$0.42的情况下,V3.2(推理)位于人工分析智能指数图的智能与运行成本的帕累托前沿上。
DeepSeek V3.2-Speciale 是人工分析全知指数上排名最高的开放权重模型,而 V3.2(推理)与 Kimi K2 思维相匹配。
DeepSeek V3.2 在推理模式下比其前身更加冗长,使用更多的输出令牌来运行人工分析智能指数(86M 对比 62M)。
比较一下 DeepSeek V3.2 相对于您正在使用或考虑的模型的表现:
67K