一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Artificial Analysis

独立分析 AI 模型和托管提供商 - 为您的用例选择最佳模型和 API 提供商

DeepSeek V3.2 是第二智能的开放权重模型，排名高于 Grok 4 和 Claude Sonnet 4.5（思考）——它将 DeepSeek 稀疏注意力从“实验”状态提升，并与智能的实质性提升相结合。 @deepseek_ai V3.2 在人工分析智能指数上得分 66；相比于 2025 年 9 月发布的 DeepSeek V3.2-Exp（+9 分），智能有了显著提升。DeepSeek 已将其主要 API 端点切换到 V3.2，定价与 V3.2-Exp 的定价没有变化——这使得定价仅为每百万输入/输出令牌 $0.28/$0.42，缓存输入令牌享受 90% 的折扣。自从大约 11 个月前的 2024 年 12 月底发布的原始 DeepSeek V3 以来，DeepSeek 的 V3 架构总共有 671B 总参数/37B 活跃参数，使得它们的模型得分从 32 提升到人工分析智能指数的 66。 DeepSeek 还发布了 V3.2-Speciale，这是一个仅限推理的变体，具有增强的能力，但令牌使用量显著增加。这是推理模型中的常见权衡，增强的推理通常会产生更高的智能得分和更多的输出令牌。V3.2-Speciale 通过 DeepSeek 的第一方 API 提供，直到 12 月 15 日。 V3.2-Speciale 在人工分析智能指数上的得分（59）低于 V3.2（推理，66），因为 DeepSeek 的第一方 API 尚不支持该模型的工具调用。如果 V3.2-Speciale 在启用工具调用的情况下匹配 V3.2 的 tau2 得分（91%），它将在智能指数上得分约 68，使其成为最智能的开放权重模型。V3.2-Speciale 在运行人工分析智能指数时使用了 160M 输出令牌，几乎是 V3.2 在推理模式下使用的令牌数量的两倍。 DeepSeek V3.2 使用与 V3.2-Exp 相同的架构，后者引入了 DeepSeek 稀疏注意力（DSA），以减少长上下文推理所需的计算。我们的长上下文推理基准显示引入 DSA 对智能没有成本影响。DeepSeek 通过将其第一方 API 的定价从 $0.56/$1.68 降至 $0.28/$0.42 每百万输入/输出令牌，反映了 V3.2-Exp 的成本优势——输入和输出令牌的定价分别减少了 50% 和 75%。关键基准总结： ➤🧠 DeepSeek V3.2：在推理模式下，DeepSeek V3.2 在人工分析智能指数上得分 66，与 Kimi K2 思考（67）相当，领先于 Grok 4（65）、Grok 4.1 快速（推理，64）和 Claude Sonnet 4.5（思考，63）。与 V3.2-Exp（57）相比，它在工具使用、长上下文推理和编码方面表现出显著提升。 ➤🧠 DeepSeek V3.2-Speciale：V3.2-Speciale 在我们的智能指数中，在 10 个基准中的 7 个上得分高于 V3.2（推理）。V3.2-Speciale 目前在 AIME25（97%）和 LiveCodeBench（90%）中分别拥有所有模型中最高和第二高的得分。然而，如上所述，DeepSeek 的 V3.2-Speciale 的第一方 API 不支持工具调用，该模型在 tau2 基准上得分为 0。 ➤📚 幻觉与知识：DeepSeek V3.2-Speciale 和 V3.2 是人工分析全知指数上排名最高的开放权重模型，得分分别为 -19 和 -23。谷歌、Anthropic、OpenAI 和 xAI 的专有模型通常在该指数中领先。 ➤⚡ 非推理性能：在非推理模式下，DeepSeek V3.2 在人工分析智能指数上得分 52（比 V3.2-Exp 高 6 分），是第三智能的非推理模型。DeepSeek V3.2（非推理）与 2025 年 5 月的前沿推理模型 DeepSeek R1 0528 的智能相当，突显了今年通过预训练和强化学习改进所取得的快速智能提升。 ➤⚙️ 令牌效率：在推理模式下，DeepSeek V3.2 使用的令牌比 V3.2-Exp 多，以运行人工分析智能指数（从 62M 增加到 86M）。在非推理变体中，令牌使用量保持相似。V3.2-Speciale 显示出显著更高的令牌使用量，使用了 ~160M 输出令牌，领先于 Kimi K2 思考（140M）和 Grok 4（120M）。 ➤💲定价：DeepSeek 尚未更新其第一方的每令牌定价，所有三个变体的定价均为每百万输入/输出令牌 $0.28/$0.42。其他模型细节： ➤ ©️ 许可：DeepSeek V3.2 在 MIT 许可证下提供。 ➤ 🌐 可用性：DeepSeek V3.2 通过 DeepSeek API 提供，已替代 DeepSeek V3.2-Exp。用户可以通过临时 DeepSeek API 访问 DeepSeek V3.2-Speciale，直到 12 月 15 日。鉴于此次发布的智能提升，我们预计许多第三方提供商将很快提供该模型。 ➤ 📏 大小：DeepSeek V3.2 Exp 具有 671B 总参数和 37B 活跃参数。这与 DeepSeek V3 和 R1 系列中的所有先前模型相同。