我们正式发布：Qwen3-Next-80B-A3B 双模型！

📢 如果你用大模型时总在纠结“效果好但太贵” or “便宜但太卡”…
可以试试我们刚发布的 Qwen3-Next-80B-A3B，包含两个版本：
🔹 Qwen3-Next-80B-A3B-Instruct —— 更擅长理解和执行指令
🔹 Qwen3-Next-80B-A3B-Thinking —— 更擅长多步推理和深度思考

⚡️ 核心技术创新
1️⃣ 【混合动力引擎】75%高效 + 25%精准 = 长文处理更稳更快
经过多次实验，我们发现这个比例在速度和效果之间找到了一个比较好的平衡点。
🔹 75%，用Gated DeltaNet（线性注意力）：处理32K、64K、甚至256K的超长文本时，速度飞快，内存占用线性增长，绝不“越长越卡”。
🔹 25%，用Gated Attention（门控注意力）：负责精准召回关键信息，确保模型“记得住重点”，不会在长文中迷失。

2️⃣ 【极致省钱架构】80B总参，推理时只用约3B
我们希望大家在享受大模型能力的同时，无需为用不到的算力买单。

为了让大模型在推理时更“轻便”，我们调整了MoE结构：
🔹 总共准备了 512个专家，覆盖各种知识和技能。
🔹 但每次处理请求时，只会动态选择最相关的10个专家 + 1个共享专家来工作。
🔹 虽然模型总参数是80B，但实际参与计算的只有大约3B，算力利用率大约是3.7%。

3️⃣ 【预训练加速机制】一次多猜几个字，长文生成更快
我们做了一个小改动：在模型预训练阶段，就教它一次预测多个token，这个技术叫 MTP。
🔹 不是外挂的加速工具，而是模型“天生”就会的技能。
🔹 在生成长文本（比如32K以上）时，显著减少推理步数，实测吞吐量比Qwen3-32B提升了10倍+。

🎯 适合场景
🔹 要处理很长的输入文本（KV Cache固定，不会爆显存）
🔹 对推理速度和稳定性要求高（MTP加速 + 高接受率）
🔹 希望用大模型容量，但不想每次推理都“全功率运行”（80B总参，3B激活）
🔹 需要指令响应 or 深度推理能力（双版本针对性优化）

支持多端体验（链接见评论区）
🔹 阿里云百炼（API调用）
🔹 GitHub / 魔搭 / Hugging Face（开源模型）
🔹 QwenChat 网页版（在线即用）

AI集聚社

阿里通义正式发布：Qwen3-Next-80B-A3B 双模型！

我们正式发布：Qwen3-Next-80B-A3B 双模型！

发表回复取消回复

我们正式发布：Qwen3-Next-80B-A3B 双模型！

发表回复 取消回复

发表回复取消回复