Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Phân tích độc lập các mô hình AI và nhà cung cấp dịch vụ lưu trữ - chọn mô hình và nhà cung cấp API tốt nhất cho trường hợp sử dụng của bạn
Alibaba đã phát hành Qwen3 Next 80B: một mô hình lý luận lai với trọng số mở, đạt được trí thông minh cấp DeepSeek V3.1 chỉ với 3B tham số hoạt động
Những điểm chính:
💡 Kiến trúc mới: Mô hình đầu tiên giới thiệu các mô hình nền tảng ‘Qwen3-Next’ của @Alibaba_Qwen, với một số quyết định kiến trúc quan trọng như cơ chế chú ý lai của Gated DeltaNet và Gated Attention, và độ thưa cao với tỷ lệ tham số hoạt động 3.8%, so với 9.4% cho Qwen3 235B
🧠 Trí thông minh: Qwen3 Next 80B (Lý luận) đạt 54 trên Chỉ số Trí thông minh Phân tích Nhân tạo, đứng cùng với DeepSeek V3.1 (Lý luận). Biến thể không lý luận đạt 45, tương đương với gpt-oss-20B và Llama Nemotron Super 49B v1.5 (Lý luận)
💲 Mô hình giá: Giá theo token trên @alibaba_cloud là $0.5/$6 cho 1 triệu token đầu vào/đầu ra cho lý luận và $0.5/$2 cho biến thể không lý luận. Điều này so với giá cao hơn cho Qwen3 235B 2507 là $0.7/$8.4 với lý luận và $0.7/$2.8 mà không có - giảm ≥25% tùy thuộc vào khối lượng công việc
⚙️ Chi tiết mô hình: Mô hình có cửa sổ ngữ cảnh gốc 256k token và chỉ là văn bản, không có đầu vào hoặc đầu ra đa phương thức. Với chỉ 80B tham số ở FP8, mô hình phù hợp trên một GPU H200 duy nhất

110
Khởi động Khảo sát Tình trạng Truyền thông Tạo sinh 2025 của chúng tôi được hỗ trợ bởi @fal! Tham gia để nhận báo cáo khảo sát đầy đủ và có cơ hội thắng một cặp kính Ray-Ban Meta 🕶️
Chúng tôi đang tiến hành khảo sát để thu thập thông tin về tình trạng của Truyền thông Tạo sinh vào năm 2025. Điều này bao gồm các quan điểm về cách các tổ chức đang sử dụng, lựa chọn và truy cập các mô hình Hình ảnh, Video và Âm nhạc!
Tại sao nên tham gia?
✅ Nhận một bản sao miễn phí của báo cáo khảo sát mở rộng (chỉ có phiên bản giới hạn sẽ được công khai)
✅ Cơ hội thắng một cặp Kính Ray-Ban Meta AI 🕶️
✅ Góp phần chia sẻ thông tin về các xu hướng chính đang định hình Truyền thông Tạo sinh
Liên kết trong chủ đề bên dưới! ⬇️⬇️⬇️⬇️⬇️⬇️⬇️
180
DeepSeek ra mắt V3.1, hợp nhất V3 và R1 thành một mô hình lý luận lai với sự gia tăng trí tuệ theo từng bước
Gia tăng trí tuệ theo từng bước: Kết quả đánh giá ban đầu cho DeepSeek V3.1 cho thấy Chỉ số Trí tuệ Phân tích Nhân tạo là 60 trong chế độ lý luận, tăng từ điểm số 59 của R1. Trong chế độ không lý luận, V3.1 đạt điểm 49, một sự gia tăng lớn hơn so với điểm số 44 của V3 0324 trước đó. Điều này khiến V3.1 (lý luận) tụt lại phía sau Qwen3 235B 2507 (lý luận) mới nhất của Alibaba - DeepSeek vẫn chưa lấy lại vị thế dẫn đầu.
Lý luận lai: @deepseek_ai đã chuyển sang mô hình lý luận lai lần đầu tiên - hỗ trợ cả chế độ lý luận và không lý luận. Việc DeepSeek chuyển sang mô hình lý luận lai thống nhất mô phỏng cách tiếp cận của OpenAI, Anthropic và Google. Tuy nhiên, điều thú vị là Alibaba gần đây đã từ bỏ cách tiếp cận lai mà họ ưa chuộng cho Qwen3 với các phiên bản riêng biệt của các mô hình lý luận và hướng dẫn Qwen3 2507.
Gọi hàm / sử dụng công cụ: Trong khi DeepSeek tuyên bố cải thiện việc gọi hàm cho mô hình, DeepSeek V3.1 không hỗ trợ gọi hàm khi ở chế độ lý luận. Điều này có thể hạn chế đáng kể khả năng hỗ trợ các quy trình làm việc có yêu cầu trí tuệ, bao gồm cả trong các tác nhân lập trình.
Sử dụng token: DeepSeek V3.1 ghi điểm cao hơn một chút trong chế độ lý luận so với DeepSeek R1, và sử dụng ít token hơn một chút trong các đánh giá mà chúng tôi sử dụng cho Chỉ số Trí tuệ Phân tích Nhân tạo. Trong chế độ không lý luận, nó sử dụng nhiều token hơn một chút so với V3 0324 - nhưng vẫn ít hơn nhiều lần so với trong chế độ lý luận của chính nó.
API: API của bên thứ nhất của DeepSeek hiện phục vụ mô hình DeepSeek V3.1 mới trên cả hai điểm cuối trò chuyện và lý luận - chỉ cần thay đổi xem token suy nghĩ cuối cùng </think> có được cung cấp cho mô hình trong mẫu trò chuyện hay không để kiểm soát xem mô hình có lý luận hay không.
Kiến trúc: DeepSeek V3.1 về kiến trúc là giống hệt với các mô hình V3 và R1 trước đó, với tổng số tham số là 671B và 37B tham số hoạt động.
Hệ quả: Chúng tôi khuyên bạn nên thận trọng khi đưa ra bất kỳ giả định nào về những gì bản phát hành này ngụ ý về tiến trình của DeepSeek hướng tới một mô hình tương lai được đề cập trong các tin đồn là V4 hoặc R2. Chúng tôi lưu ý rằng DeepSeek đã phát hành mô hình cuối cùng được xây dựng trên kiến trúc V2 của họ vào ngày 10 tháng 12 năm 2024, chỉ hai tuần trước khi phát hành V3.


447
Hàng đầu
Thứ hạng
Yêu thích