Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Alibaba đã phát hành Qwen3 Next 80B: một mô hình lý luận lai với trọng số mở, đạt được trí thông minh cấp DeepSeek V3.1 chỉ với 3B tham số hoạt động Những điểm chính: 💡 Kiến trúc mới: Mô hình đầu tiên giới thiệu các mô hình nền tảng ‘Qwen3-Next’ của @Alibaba_Qwen, với một số quyết định kiến trúc quan trọng như cơ chế chú ý lai của Gated DeltaNet và Gated Attention, và độ thưa cao với tỷ lệ tham số hoạt động 3.8%, so với 9.4% cho Qwen3 235B 🧠 Trí thông minh: Qwen3 Next 80B (Lý luận) đạt 54 trên Chỉ số Trí thông minh Phân tích Nhân tạo, đứng cùng với DeepSeek V3.1 (Lý luận). Biến thể không lý luận đạt 45, tương đương với gpt-oss-20B và Llama Nemotron Super 49B v1.5 (Lý luận) 💲 Mô hình giá: Giá theo token trên @alibaba_cloud là $0.5/$6 cho 1 triệu token đầu vào/đầu ra cho lý luận và $0.5/$2 cho biến thể không lý luận. Điều này so với giá cao hơn cho Qwen3 235B 2507 là $0.7/$8.4 với lý luận và $0.7/$2.8 mà không có - giảm ≥25% tùy thuộc vào khối lượng công việc ⚙️ Chi tiết mô hình: Mô hình có cửa sổ ngữ cảnh gốc 256k token và chỉ là văn bản, không có đầu vào hoặc đầu ra đa phương thức. Với chỉ 80B tham số ở FP8, mô hình phù hợp trên một GPU H200 duy nhất

Hàng đầu

Thứ hạng

Yêu thích