我们正式发布:Qwen3-Next-80B-A3B 双模型!
📢 如果你用大模型时总在纠结“效果好但太贵” or “便宜但太卡”…
可以试试我们刚发布的 Qwen3-Next-80B-A3B,包含两个版本:
🔹 Qwen3-Next-80B-A3B-Instruct —— 更擅长理解和执行指令
🔹 Qwen3-Next-80B-A3B-Thinking —— 更擅长多步推理和深度思考
⚡️ 核心技术创新
1️⃣ 【混合动力引擎】75%高效 + 25%精准 = 长文处理更稳更快
经过多次实验,我们发现这个比例在速度和效果之间找到了一个比较好的平衡点。
🔹 75%,用Gated DeltaNet(线性注意力):处理32K、64K、甚至256K的超长文本时,速度飞快,内存占用线性增长,绝不“越长越卡”。
🔹 25%,用Gated Attention(门控注意力):负责精准召回关键信息,确保模型“记得住重点”,不会在长文中迷失。
2️⃣ 【极致省钱架构】80B总参,推理时只用约3B
我们希望大家在享受大模型能力的同时,无需为用不到的算力买单。
为了让大模型在推理时更“轻便”,我们调整了MoE结构:
🔹 总共准备了 512个专家,覆盖各种知识和技能。
🔹 但每次处理请求时,只会动态选择最相关的10个专家 + 1个共享专家 来工作。
🔹 虽然模型总参数是80B,但实际参与计算的只有大约3B,算力利用率大约是3.7%。
3️⃣ 【预训练加速机制】一次多猜几个字,长文生成更快
我们做了一个小改动:在模型预训练阶段,就教它一次预测多个token,这个技术叫 MTP。
🔹 不是外挂的加速工具,而是模型“天生”就会的技能。
🔹 在生成长文本(比如32K以上)时,显著减少推理步数,实测吞吐量比Qwen3-32B提升了10倍+。
🎯 适合场景
🔹 要处理很长的输入文本(KV Cache固定,不会爆显存)
🔹 对推理速度和稳定性要求高(MTP加速 + 高接受率)
🔹 希望用大模型容量,但不想每次推理都“全功率运行”(80B总参,3B激活)
🔹 需要指令响应 or 深度推理能力(双版本针对性优化)
支持多端体验(链接见评论区)
🔹 阿里云百炼(API调用)
🔹 GitHub / 魔搭 / Hugging Face(开源模型)
🔹 QwenChat 网页版(在线即用)