Alibaba выпустила Qwen3 Next 80B: модель гибридного рассуждения с открытыми весами, которая достигает уровня интеллекта DeepSeek V3.1 с всего лишь 3B активных параметров Ключевые выводы: 💡 Новая архитектура: Первая модель, которая представляет собой базовые модели ‘Qwen3-Next’ от @Alibaba_Qwen, с несколькими ключевыми архитектурными решениями, такими как гибкий механизм внимания Gated DeltaNet и Gated Attention, и высокой разреженностью с долей активных параметров 3.8%, по сравнению с 9.4% для Qwen3 235B 🧠 Интеллект: Qwen3 Next 80B (Рассуждение) набирает 54 балла в Индексе Искусственного Интеллекта, наряду с DeepSeek V3.1 (Рассуждение). Нерассуждающий вариант набирает 45 баллов, что соответствует gpt-oss-20B и Llama Nemotron Super 49B v1.5 (Рассуждение) 💲 Модель ценообразования: Цены за токен на @alibaba_cloud составляют $0.5/$6 за 1M входных/выходных токенов для рассуждения и $0.5/$2 для нерассуждающего варианта. Это сравнивается с более высокими ценами для Qwen3 235B 2507 в размере $0.7/$8.4 с рассуждением и $0.7/$2.8 без - снижение на ≥25% в зависимости от нагрузки ⚙️ Подробности модели: Модель имеет родное окно контекста в 256k токенов и является текстовой, без мультимодальных входов или выходов. При всего лишь 80B параметров на FP8 модель помещается на один GPU H200