热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Artificial Analysis
独立分析 AI 模型和托管提供商 - 为您的用例选择最佳模型和 API 提供商
阿里巴巴发布了 Qwen3 Next 80B:一个开放权重的混合推理模型,仅用 30 亿活跃参数就达到了 DeepSeek V3.1 级别的智能
关键要点:
💡 新颖架构:首个引入 @Alibaba_Qwen 的 ‘Qwen3-Next’ 基础模型的模型,具有几个关键架构决策,如 Gated DeltaNet 和 Gated Attention 的混合注意机制,以及 3.8% 的活跃参数份额的高稀疏性,相比之下,Qwen3 235B 为 9.4%
🧠 智能:Qwen3 Next 80B(推理)在人工分析智能指数上得分 54,与 DeepSeek V3.1(推理)并列。非推理变体得分 45,与 gpt-oss-20B 和 Llama Nemotron Super 49B v1.5(推理)一致
💲 定价模型:在 @alibaba_cloud 上的每个 token 定价为推理每百万输入/输出 token 0.5 美元/6 美元,非推理变体为 0.5 美元/2 美元。这与 Qwen3 235B 2507 的更高价格 0.7 美元/8.4 美元(推理)和 0.7 美元/2.8 美元(非推理)相比,减少了 ≥25%,具体取决于工作负载
⚙️ 模型细节:该模型具有 256k token 的原生上下文窗口,仅支持文本,且没有多模态输入或输出。在仅 80B 参数的 FP8 下,该模型适合单个 H200 GPU

91
DeepSeek推出V3.1,将V3和R1统一为一个混合推理模型,智能水平逐步提升
智能水平逐步提升:DeepSeek V3.1的初步基准测试结果显示,推理模式下的人工分析智能指数为60,较R1的59有所上升。在非推理模式下,V3.1的得分为49,较早期的V3 0324得分44有了更大的提升。这使得V3.1(推理)落后于阿里巴巴最新的Qwen3 235B 2507(推理)——DeepSeek尚未重新夺回领先地位。
混合推理:@deepseek_ai首次采用混合推理模型,支持推理和非推理模式。DeepSeek转向统一的混合推理模型模仿了OpenAI、Anthropic和Google的做法。然而,值得注意的是,阿里巴巴最近放弃了他们之前偏好的混合方法,分别发布了Qwen3 2507推理和指令模型。
功能调用/工具使用:虽然DeepSeek声称模型的功能调用有所改善,但DeepSeek V3.1在推理模式下不支持功能调用。这可能会大大限制其支持具有智能要求的代理工作流程的能力,包括在编码代理中的应用。
令牌使用:DeepSeek V3.1在推理模式下的得分比DeepSeek R1略高,并且在我们用于人工分析智能指数的评估中使用的令牌略少。在非推理模式下,它使用的令牌比V3 0324略多——但仍然是其推理模式使用的令牌的几倍。
API:DeepSeek的第一方API现在在他们的聊天和推理端点上服务于新的DeepSeek V3.1模型——只需在聊天模板中更改是否提供结束思考</think>令牌,以控制模型是否进行推理。
架构:DeepSeek V3.1在架构上与之前的V3和R1模型完全相同,具有671B的总参数和37B的活跃参数。
影响:我们建议在对这一发布所暗示的DeepSeek在未来模型(传闻称为V4或R2)进展方面做出任何假设时保持谨慎。我们注意到,DeepSeek之前在2024年12月10日发布了基于其V2架构的最终模型,仅在发布V3的两周前。


438
热门
排行
收藏