Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Независимый анализ моделей ИИ и хостинг-провайдеров - выберите лучшую модель и поставщика API для вашего сценария использования
Alibaba выпустила Qwen3 Next 80B: модель гибридного рассуждения с открытыми весами, которая достигает уровня интеллекта DeepSeek V3.1 с всего лишь 3B активных параметров
Ключевые выводы:
💡 Новая архитектура: Первая модель, которая представляет собой базовые модели ‘Qwen3-Next’ от @Alibaba_Qwen, с несколькими ключевыми архитектурными решениями, такими как гибкий механизм внимания Gated DeltaNet и Gated Attention, и высокой разреженностью с долей активных параметров 3.8%, по сравнению с 9.4% для Qwen3 235B
🧠 Интеллект: Qwen3 Next 80B (Рассуждение) набирает 54 балла в Индексе Искусственного Интеллекта, наряду с DeepSeek V3.1 (Рассуждение). Нерассуждающий вариант набирает 45 баллов, что соответствует gpt-oss-20B и Llama Nemotron Super 49B v1.5 (Рассуждение)
💲 Модель ценообразования: Цены за токен на @alibaba_cloud составляют $0.5/$6 за 1M входных/выходных токенов для рассуждения и $0.5/$2 для нерассуждающего варианта. Это сравнивается с более высокими ценами для Qwen3 235B 2507 в размере $0.7/$8.4 с рассуждением и $0.7/$2.8 без - снижение на ≥25% в зависимости от нагрузки
⚙️ Подробности модели: Модель имеет родное окно контекста в 256k токенов и является текстовой, без мультимодальных входов или выходов. При всего лишь 80B параметров на FP8 модель помещается на один GPU H200

113
Запускаем наш опрос «Состояние генеративных медиа 2025», поддерживаемый @fal! Участвуйте, чтобы получить полный отчет опроса и выиграть пару очков Meta Ray-Ban 🕶️
Мы проводим опрос, чтобы собрать информацию о состоянии генеративных медиа в 2025 году. Это включает в себя мнения о том, как организации используют, выбирают и получают доступ к моделям изображений, видео и музыки!
Почему стоит участвовать?
✅ Получите бесплатную копию расширенного отчета опроса (только ограниченная версия будет доступна публично)
✅ Шанс выиграть пару очков Ray-Ban Meta AI 🕶️
✅ Внести свой вклад в обмен мнениями о ключевых тенденциях, формирующих генеративные медиа
Ссылка в теме ниже! ⬇️⬇️⬇️⬇️⬇️⬇️⬇️
184
DeepSeek запускает V3.1, объединяя V3 и R1 в гибридную модель рассуждений с постепенным увеличением интеллекта
Постепенное увеличение интеллекта: Первые результаты бенчмаркинга для DeepSeek V3.1 показывают индекс искусственного анализа интеллекта 60 в режиме рассуждений, по сравнению с результатом R1 в 59. В режиме без рассуждений V3.1 достигает результата 49, что является большим увеличением по сравнению с предыдущим результатом V3 0324 в 44. Это оставляет V3.1 (рассуждение) позади последней версии Qwen3 235B 2507 от Alibaba (рассуждение) - DeepSeek не вернул лидерство.
Гибридное рассуждение: @deepseek_ai впервые перешел на гибридную модель рассуждений - поддерживая как режимы рассуждений, так и без рассуждений. Переход DeepSeek к единой гибридной модели рассуждений имитирует подход, принятый OpenAI, Anthropic и Google. Однако интересно отметить, что Alibaba недавно отказалась от гибридного подхода, который они предпочитали для Qwen3, выпустив отдельные версии моделей рассуждений и инструкций Qwen3 2507.
Вызов функций / использование инструментов: Хотя DeepSeek утверждает, что улучшил вызов функций для модели, DeepSeek V3.1 не поддерживает вызов функций в режиме рассуждений. Это, вероятно, существенно ограничит его способность поддерживать агентные рабочие процессы с требованиями к интеллекту, включая кодирующие агенты.
Использование токенов: DeepSeek V3.1 показывает постепенно более высокий результат в режиме рассуждений, чем DeepSeek R1, и использует немного меньше токенов в оценках, которые мы используем для индекса искусственного анализа интеллекта. В режиме без рассуждений он использует немного больше токенов, чем V3 0324 - но все равно в несколько раз меньше, чем в собственном режиме рассуждений.
API: Первоначальный API DeepSeek теперь обслуживает новую модель DeepSeek V3.1 как на их чат-эндпоинтах, так и на эндпоинтах рассуждений - просто изменяя, предоставляется ли токен конца размышления </think> модели в шаблоне чата, чтобы контролировать, будет ли модель рассуждать.
Архитектура: DeepSeek V3.1 архитектурно идентичен предыдущим моделям V3 и R1, с 671B общими параметрами и 37B активными параметрами.
Последствия: Мы бы посоветовали проявлять осторожность в том, чтобы делать какие-либо предположения о том, что этот релиз подразумевает о прогрессе DeepSeek к будущей модели, упоминаемой в слухах как V4 или R2. Мы отмечаем, что DeepSeek ранее выпустил последнюю модель, построенную на их архитектуре V2, 10 декабря 2024 года, всего за две недели до выпуска V3.


449
Топ
Рейтинг
Избранное