阿里通义正式发布:Qwen3-Next-80B-A3B 双模型!

我们正式发布:Qwen3-Next-80B-A3B 双模型!

⚡️ 核心技术创新
1️⃣ 【混合动力引擎】75%高效 + 25%精准 = 长文处理更稳更快
经过多次实验,我们发现这个比例在速度和效果之间找到了一个比较好的平衡点。
🔹 75%,用Gated DeltaNet(线性注意力):处理32K、64K、甚至256K的超长文本时,速度飞快,内存占用线性增长,绝不“越长越卡”。
🔹 25%,用Gated Attention(门控注意力):负责精准召回关键信息,确保模型“记得住重点”,不会在长文中迷失。

2️⃣ 【极致省钱架构】80B总参,推理时只用约3B
我们希望大家在享受大模型能力的同时,无需为用不到的算力买单。

为了让大模型在推理时更“轻便”,我们调整了MoE结构:
🔹 总共准备了 512个专家,覆盖各种知识和技能。
🔹 但每次处理请求时,只会动态选择最相关的10个专家 + 1个共享专家 来工作。
🔹 虽然模型总参数是80B,但实际参与计算的只有大约3B,算力利用率大约是3.7%。

3️⃣ 【预训练加速机制】一次多猜几个字,长文生成更快
我们做了一个小改动:在模型预训练阶段,就教它一次预测多个token,这个技术叫 MTP。
🔹 不是外挂的加速工具,而是模型“天生”就会的技能。
🔹 在生成长文本(比如32K以上)时,显著减少推理步数,实测吞吐量比Qwen3-32B提升了10倍+。

🎯 适合场景
🔹 要处理很长的输入文本(KV Cache固定,不会爆显存)
🔹 对推理速度和稳定性要求高(MTP加速 + 高接受率)
🔹 希望用大模型容量,但不想每次推理都“全功率运行”(80B总参,3B激活)
🔹 需要指令响应 or 深度推理能力(双版本针对性优化)

支持多端体验(链接见评论区)
🔹 阿里云百炼(API调用)
🔹 GitHub / 魔搭 / Hugging Face(开源模型)
🔹 QwenChat 网页版(在线即用)

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注