分类目录归档:AI快报

Sora 2 – OpenAI 推出的新一代AI音视频生成模型

Sora 2是什么

Sora 2 是 OpenAI 推出的新一代AI音视频生成模型,Web端最长支持生成20秒1080P视频。技术上实现了三大核心突破:通过多模态联合训练,首次实现了环境音效与画面动态的实时同步生成;升级的物理引擎使物体运动轨迹和碰撞效果更符合真实世界的力学规律,甚至能自然表现失败和挣扎,而非强行“成功”;其指令理解系统能精准执行写实、电影感或动漫等多种风格化要求。

OpenAI还推出了同名社交应用Sora App,其核心“Cameo”功能支持用户录制一段视频,将自己的形象和声音“植入”到任何AI生成的场景中,与朋友互动或进行二次创作(Remix),开创了全新的视频社交互动方式。Sora App目前在美国和加拿大上线了iOS版本,需用 Sora 2邀请码 注册使用,可免费体验。

Sora 2

Sora 2的主要功能

  • 音视频同步生成:Sora 2 能直接从文本提示生成视频,并同步创建匹配的背景音效、环境声,甚至角色对话。它实现了声画的精准同步,例如生成的角色口型能与对话语音对齐,环境音效能随画面动态变化。改变了过去AI视频需要额外配音和后期制作的模式,提供了完整的沉浸式短片体验。
  • 真实的物理场景模拟:Sora 2 在生成视频时,能更好地遵循真实世界的物理规律。与早期模型为了满足指令而扭曲现实不同,Sora 2 模拟的物体运动轨迹和碰撞效果更加真实,甚至能自然地表现”失败”场景,例如投篮不中的篮球会合理弹开,而非强行进筐。官方数据显示,其物理一致性达到了88%。同时,在处理复杂的多镜头序列时,能在场景变化中保持角色和环境的连续性,有效避免了以往常见的服饰突变、光线跳跃或道具消失等问题。
  • 精准的视觉风格与镜头控制:Sora 2 的指令理解系统能精准执行多种视觉风格要求,从写实、电影感到动漫风格,都能高质量呈现。用户还可以像导演一样进行多镜头叙事控制,指定镜头的顺序、节奏和景别变化,模型则能保持跨镜头叙事的连贯性,生成更复杂、更电影化的内容。
  • 个性化的”Cameo”形象植入:同步上线了Sora App,用户可以使用 “Cameo”功能,将个人形象和声音植入到AI生成的任何场景中。用户只需录制一段短视频进行身份验证和特征采集,之后可选择让自己或授权的好友”出现”在诸如巴黎铁塔前或与熊猫打乒乓球等虚拟场景里。

Sora 2的官网地址

  • 产品官网:https://sora.chatgpt.com/
  • 官方介绍:https://openai.com/index/sora-2/
  • Sora 2邀请码:怎么获取Sora 2邀请码?附免费领取方式

如何使用Sora 2

  • 下载应用:访问Web官网或在应用商店下载 Sora APP ,目前仅支持 iOS 系统,首批上线地区为美国和加拿大。
  • 获取邀请码:Sora APP 采用邀请制,需要邀请码才能注册使用。注册成功后,用户可获得1个邀请码,每个邀请码能被使用4次。
  • 创建账号:访问Sora官网,使用邀请码注册 Sora 账号,完成个人信息设置。
  • 创建视频:在应用中输入文本提示或上传图片、视频素材,描述你想要生成的视频内容。
  • 设置参数:选择视频的时长、风格、分辨率等参数,设置会影响生成视频所需的计算资源。
  • 生成视频:点击生成按钮,Sora 将根据你的提示和设置生成视频。
  • 使用客串功能:录制一段动态音频提示并完成活性检查,创建自己的 Cameo。设置 Cameo 的使用权限,决定谁可以使用你的形象进行创作。
  • Remix 视频:在应用中浏览其他用户生成的视频,点击 Remix 按钮,在此基础上进行二次创作,输入新的提示词,生成新的视频。
  • 分享与互动:将生成的视频保存到本地设备,或直接在 Sora 应用中分享到社交媒体平台,与其他用户互动。

站稳AI存储C位?HBM紧缺恐成定局 但这一技术正“虎视眈眈”

《科创板日报》10月3日讯,AI时代,存储芯片已从配角跃升为核心瓶颈与突破口。随着大模型参数规模与训练数据量的爆炸式增长,传统内存技术已成为制约算力发挥的“内存墙”,而HBM凭借其超高带宽、低功耗和小体积特性,正成为AI芯片的主流选择。

全球科技巨头纷纷将HBM作为战略要地。

在日前的财报会上,美光特别强调,预计半导体芯片、特别是HBM的供不应求情况将会加剧。公司CEO Sanjay Mehrotra透露,当前半导体存储领域,DRAM库存已低于目标水平,NAND库存持续下滑;而HBM产能需求增长显著,产能已被锁定,预计2026年HBM出货量增速将超过整体DRAM水平,成为半导体存储板块的核心增长驱动力。

具体HBM产品中,美光表示,已与几乎所有客户就2026年绝大部分HBM3E产能达成定价协议;公司正在与客户就HBM4进行讨论,供应“非常紧张”。

此外,华为也在近期宣布,自昇腾950PR开始,昇腾AI芯片将采用华为自研的HBM。其中,昇腾950搭载自研的HBM HiBL 1.0;昇腾950DT升级至HBM HiZQ 2.0。

▌为什么是HBM?

为何存储需求热潮中,“特别是HBM的供不应求情况或将加剧”?

华尔街分析师指出,定制化HBM(cHBM)已经从曾经的被动元件转变为具备逻辑算力的主动部件,重塑存储的角色。在这种情况下,AI基建中,存储总体拥有成本(TCO)不断上升。

定制化HBM可以集成不同功能、运算能力与逻辑Die设计,例如LPDDR与HBM并行工作,在HBM堆栈中加入计算逻辑,成为性能差异化的关键。

目前,存储厂商已开始提供覆盖HBM、逻辑die、LPDDR、PIM等的全栈解决方案,并与客户开展定制化HBM合作。

同时随着AI能耗的增加,存储厂商也开始强调HBM在节能上的价值。SK海力士预测称,HBM能效每改善10%,可带来单机架2%的节能效果,对系统级节能有重大意义。

▌AI推理将迎“十倍增长” “以存代算”技术“虎视眈眈”

以HBM为首的存储需求陡增背后,是AI推理的飞速崛起。

黄仁勋在最新采访中,重申了对AI推理的信心。他再次强调,AI推理将迎来十亿倍增长。推理的量级已不是过去的“一次性回答”,而是逐步演进的“先思考再作答”的动态生成,思考得越久,答案质量越高。

券商指出,人工智能技术的蓬勃发展推动大模型训练走向规模化,但真正创造持续商业价值的 核心环节在于推理过程。AI推理算力需求正迅速超越训练,成为成本与性能的关键瓶颈。

在这一背景下,内存受益于超长上下文和多模态推理需求,处理大量序列数据或多模态信息时,高带宽于大容量内存可降低访问延迟、提升并行效率。

广发证券指出,随着AI推理应用快速增长,对高性能内存和分层存储的依赖愈发显著,HBM、DRAM、SSD及HDD在超长上下文和多模态推理场景中发挥关键作用,高带宽内存保障模型权重和激活值的高速访问,SSD满足高频读写与短期存储需求,HDD提供海量长期存储支持。随着AI推理需求快速增长,轻量化模型部署推动存储容量需求快速攀升,预计未来整体需求将激增至数百EB级别。

但值得留意的是,“HBM供不应求情况加剧”的另一面,是供应瓶颈下可能出现的“技术替代”——“以存代算”。

天风证券认为,“以存代算”技术通过将AI推理过程中的矢量数据(如KV Cache)从昂贵的DRAM和HBM显存迁移至大容量、高性价比的SSD介质,实现存储层从内存向SSD的战略扩展,而非简单替代。其核心价值在于显著降低首Token时延、提升推理吞吐量,并大幅优化端到端的推理成本,为AI大规模落地提供可行路径。分析师进一步指出,QLC+PCIe/NVMe+CXL有望构筑下一代AI SSD基座,推动SSD从单纯存储介质,升级为AI推理“长期记忆”载体。

(科创板日报)

盘点AI黄金周:Sora 2引爆AI视频、蚂蚁冲进万亿参数俱乐部

这个十一黄金周,AI圈真的很热闹。

10月1日凌晨,OpenAI深夜炸场,正式官宣新一代AI视频模型Sora 2,并直接上线了一个AI版的“抖音”——一个完全由AI来生成视频的短视频平台。

就在Sora 2发布之前,这一轮的大模型发布其实已经卷起来了。

黄金周前夕,先是国内大模型公司深度求索宣布推出DeepSeek-V3.2-Exp实验版模型,紧随其后智谱AI正式发布新一代大模型GLM-4.6。

中国大模型也引起了图灵奖得主杨立昆的关注。就在9月30日,蚂蚁集团旗下百灵大模型宣布开源其思考模型Ring-1T的预览版Ring-1T-preview,参数量达1000B(1万亿)。“令人印象深刻,祝贺你们的团队。”在百灵最新思考大模型发布后,杨立昆在社交平台上也给中国大模型点了赞。

而在大洋彼岸,Claude Sonnet 4.5同期发布。谷歌Gemini 3.0也预计将在10月迎战。

显然,全球大模型进入了一个新的井喷期,各家在大模型产品和技术迭代上,都在明显加速。据不完全统计,仅9月全球就有15家主流企业/机构发布了开源大模型,数量较8月激增70%。

开源大模型的热潮,也是开发者的盛宴。有开发者都在社交媒体上感慨:一天测了3个模型,还有一个没测试,这还只是周一……

在这其中,中国大模型凭借场景化能力,正撕开半壁江山。

据光锥智能观察来看,这一波AI大模型的更新,更聚焦在细分场景中,比如智谱最新大模型在编程方面的能力更加突出,蚂蚁的百灵大模型则聚焦在自然语言推理领域。

更为重要的一点在于,当OpenAI开始学字节跳动做产品时,大模型市场的游戏规则变了。如果说,2023年讨论大模型参数天花板,那么,2025年,大模型真正的战场则在场景适配与效率革命。

从OpenAI的Sora 2到蚂蚁的万亿推理模型,新一轮的大模型“军备竞赛”已然打响,而行业共识则愈发清晰:大模型已从“通用能力比拼”迈入“细分技术突围”的深水区。

那么,在这新一轮AI大模型竞赛中,后来者又该如何在开源生态中突围?

深度盘点9月大模型,AI大模型“百花齐放”

金九银十的月份,各行各业都在持续加码,大模型赛道也同样“卷”的不行。

据不完全统计,在刚刚过去的9月,全球数十家企业共计发布了40多款大模型产品,涵盖基础通用大模型、深度思考推理大模型、编程、具身智能、翻译、视频生成等不同细分赛道。

(海外开发者统计的部分9月开源模型)

具体来看,这些模型有的侧重高效推理,如带“Flash”字样的蚂蚁集团inclusionAI的Ring-flash-linear-2.0、美团LongCat Flash Chat;有的则聚焦多模态能力,如阿里通义Qwen3-VL;也有的针对轻量化/移动端,如Meta AI发布的MobileLLM-R1-950M、蚂蚁Ling-mini-2.0、Ring-mini-2.0等。

可以很明显看到,9月份AI大模型“通用能力、专用场景、部署形态”等维度的全面发展,不同厂商、不同技术路线的大模型“百花齐放”,构成了丰富的LLM生态。

在这其中,中国大模型产品占据半壁江山,并与海外市场的大模型产品形成了技术分化。

具体来看,相比较此前各家关注的参数规模竞赛,现已经让位于效率革命,MoE(混合专家模型)架构成为绝对主流。

如蚂蚁百灵大模型最新开源的Ring-1T-preview,其底座Ring-1T是一个拥有万亿参数的深度思考模型,该开源模型延续Ling 2.0高效MoE架构,在20T高质量语料上完成预训练,结合此前公开的棒冰(icepop)方法,在自研高效强化学习系统ASystem(其中AReaL框架已开源)上进行针对推理能力的RLVR训练。

有苹果工程师在单个M3 Ultra芯片上运行Ring-1T-preview,量化的效果接近GPT-5,还能直接生成《太空侵略者》小游戏。

(苹果工程师量化后部署Ring-1T-preview,游戏模拟效果)

这种“大参数储备+小参数激活”的范式,解决了“性能与成本”的核心矛盾,使超大规模模型从实验室走向具体行业场景。

从对开发者开放角度来看,海外阵营中,谷歌EmbeddingGemma主打端侧隐私嵌入,Anthropic 开放 Claude Code API,仍停留在工具型开源。

但相比较来说,中国大模型产品更注重场景化能力,比如蚂蚁专攻自然语言推理,腾讯突破小语种翻译,形成“场景驱动型开源”。

这种差异在落地效果上立竿见影。如快手将Keye-VL 1.5嵌入审核系统,违规识别准确率达98.7%;爱诗科技的AI插画模型对接电商平台,把详情页制作成本降低80%。

事实上,中国大模型产品已经在各个细分领域全面开花,比如语音交互中,阶跃星辰Step-Audio 2 mini支持语音直接调用工具,某智能音箱厂商反馈“唤醒准确率提升至99.2%”;蚂蚁健康管家AQ产品识别报告、药盒、皮肤病等医疗图像准确率达90%以上,包括对100多种复杂多页检查报告的识别与解读。

在翻译领域,腾讯 Hunyuan-MT-7B 在 30 个语种翻译中夺冠,跨境电商卖家实测“小语种转化率提升27%”;同时,3D生成赛道中,腾讯混元Voyager可实现原生3D重建,游戏公司开发者称 “场景制作周期从 1 周缩至 4 小时”。

另外,值得关注的一点是,相比于大模型创业公司的单点输出,聚焦某一个细分行业,中国互联网大厂们正逐渐形成体系化的产品更新,覆盖基础通用大模型、深度思考大模型、编程大模型、多模态大模型、视频生成大模型等多品类大模型产品,典型的产品就是阿里巴巴旗下的通义千问、腾讯的混元大模型、字节跳动的豆包大模型等。

而这种生态优势,也正在转化为全球影响力。据Hugging Face最新数据显示,中文开源模型的fork量在9月增长180%。9月Hugging Face榜单显示,阿里通义7款模型占据全球前十开源模型席位,Qwen3-Omni 登顶榜首,标志着中国从“开源参与者”升级为“生态定义者”。

(9月28日, Hugging Face 模型榜单)

而中国大模型的“技术普惠+商业赋能”的开源模式,正在重塑全球AI产业格局。

“2023年我们追着OpenAI跑,2025年在金融推理、中文语音等领域,国外团队开始抄我们的作业。”一位深耕AI的连续创业者的调侃,道出了中国开源的新底气。

模型开源竞争激烈,新来者蓄势待发

为什么中国大模型能够如此快速实现赶超?

这背后离不开开源战略的选择。据《全球大模型开源生态报告》显示,中美开发者贡献占比超四成,尤其是中国厂商非常注重以“开放策略”抢占生态主动权。而就在今年初,始终坚持闭源路线的OpenAI也开始走开源路线。

相比较来说,中国最早且始终坚持走开源路线的阿里通义千问,已经在开源生态中占据了领导地位。那么,后来者还有机会吗?

9月,蚂蚁集团旗下百灵大模型以平均每4天一款的速度,密集发布了7款大模型:

5日推出“端侧双雄”Ling-mini-2.0与Ring-mini-2.0;12日上线MoE架构的Ling-flash-2.0,19日上线Ring-flash-2.0;26日推出2款混合架构推理优化模型Ring-flash-linear-2.0与Ring-mini-linear-2.0;30日以万亿参数的Ring-1T-preview压轴。

模型刚发布完,Ring-1T-preview就登上了开源社区Hugging Face模型趋势榜第三,第四名也是蚂蚁inclusionAI社区的Ring-flash-linear-2.0。

头部企业持续加码AI投入 重塑产业生态

 京东9月25日表示,未来三年将在人工智能方面持续投入,带动万亿人工智能生态规模;阿里巴巴此前一日称,正在积极推进3800亿元的AI基础设施建设计划,并将持续追加更多投入……近期,多个科技巨头企业相继宣布加大在AI领域的投资布局。业内人士分析表示,头部企业持续加码AI投资,有望驱动企业内部云业务增长提速,同时驱动全球半导体行业景气延续,智算中心部署有望带动电力设备需求增长。

  当前人工智能技术快速发展,对算力提出了更高需求,这也激发了不少企业对云和AI硬件基础设施的投资和布局热情。

  阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭9月24日在2025云栖大会上表示,人工智能不会止步于通用人工智能(AGI),它将迈向能够自我迭代进化的超级人工智能(ASI)。新的AI计算范式需要更稠密的算力、更高效的网络、更大的集群规模。

  今年2月,阿里巴巴宣布未来三年将投入超过3800亿元用于建设云和AI硬件基础设施,总额超过过去十年总和。吴泳铭24日表示,正在积极推进这一计划,将持续追加更多投入。“根据远期规划,为了迎接ASI时代的到来,对比2022年,2032年阿里云全球数据中心的能耗规模将提升10倍,这意味着阿里云的算力投入将是指数级的提升。”他说。

  近期在全球范围内,多个科技巨头纷纷宣布加大在AI和基础设施方面的资本开支。当地时间9月22日,美国英伟达公司首席执行官黄仁勋接受媒体采访时说,英伟达计划向美国开放人工智能研究中心(OpenAI)投资1000亿美元,双方将共建大规模数据中心。此外,当地时间9月23日,OpenAI与甲骨文(Oracle)、日本软银联合宣布,将在美国新建五个人工智能数据中心,未来三年总投资预计超过4000亿美元。

  行业应用与产业生态建设也成为头部企业布局的重点。9月25日,京东集团SEC副主席、京东集团CEO许冉在2025京东全球科技探索者大会上表示,京东将在未来三年持续投入,带动各个产业形成万亿级规模的人工智能生态。“我们还将面向大模型和具身智能的企业,逐步开放京东各类产品场景、供应链数据等,支撑各类企业进行模型训练级应用测试,从而支持整个行业快速发展。”

  此外,基于供应链及各个产业场景的技术积累和创新,京东已经在智算基础设施、模型、平台、场景和产品层面形成了完整的能力。

  “最近一年,全球AI行业的投资总额已经超过4000亿美元,未来5年全球AI的累计投入将超过4万亿美元,这将加速催生更强大的模型,加速AI应用的渗透。”吴泳铭认为。

  这也有望利好相关产业链。光大证券指出,AI需求的快速增长驱动全球半导体行业景气延续,半导体材料市场规模稳步扩张,光刻胶、湿电子化学品、电子特气等细分行业均保持增长态势。此外,海西证券认为,AI技术发展有望驱动智算中心加速部署,从而带动电力设备需求。

原文转自:经济参考报

美AI巨头掀起投资潮,市场“喜忧参半

【环球时报报道 记者 倪浩】“如果美国科技公司今年没有大幅增加人工智能(AI)资本支出,美国经济可能已陷入衰退或处于衰退边缘。”德意志银行外汇研究全球主管乔治·萨拉维诺斯23日在一份报告中表示,人工智能支出或许已经成为支撑美国整体经济的支柱,但他也对这一情况的后续发展表示怀疑。近段时间,美国AI巨头企业频繁宣布投资、建设计划,一次次震惊市场。24日,OpenAI、甲骨文公司和软银集团宣布,计划在美国新建5座人工智能数据中心,以推进其雄心勃勃的“星际之门”项目。但随之而来的有关AI泡沫破裂的担忧也与日俱增:天价AI投资还能持续多久?滞胀阴云下的美国经济还能从中受益几何?媒体与市场纷纷抛出疑问。
 “史上首次出现这种情况”
美国经济有赖于人工智能投资热潮的表现愈发受到关注。经济合作与发展组织(OECD)周二上调美国2025年经济增长预期至1.8%,高于6月份的1.6%,强劲的人工智能相关投资是重要原因。德银也在报告中提到,人工智能超级周期可能有助于缓解当前冲击美国经济的负面需求(关税)和供应(移民)冲击。
《华尔街日报》记者克里斯托弗·米姆斯上月初在社交媒体上发文称,“过去6个月,AI基础设施建设对美国经济增长的贡献超过了消费。在过去3个月中,英伟达、苹果、微软等‘七巨头’企业在数据中心等方面的投入超过1000亿美元。”
美国《财富》杂志网站也在报道中表示,美国以服务业为主导的经济中,消费约占国内生产总值(GDP)的2/3,但现在美国的消费遇到了对手:密集摆放着服务器、存储和网络设备的数据中心。据文艺复兴宏观研究公司的分析师估算,2025年迄今,人工智能数据中心支出对美国GDP增长的贡献已超过美国所有消费支出的总贡献,“史上首次出现这种情况”。
中国社科院美国研究所副研究员马伟告诉《环球时报》记者,虽然消费主导着美国经济,但AI热潮带来的资本支出的增长速度远远超过了消费,而这正是衡量各经济部门对经济增长贡献率的重要指标,因此AI投资成为美国经济的重要拉动力并广受关注。
“循环交易”助长泡沫?
《财富》杂志网站在报道中称,若没有人工智能数据中心的建设热潮,在宏观经济形势不明朗的背景下,美国GDP或早已萎缩。报道称,微软、谷歌、亚马逊和Meta是美国这轮AI投资热潮的中坚力量,这4家公司2025年的资本投资预计将达到创纪录的3640亿美元。
然而,在科技投资激增对美国经济产生连锁反应背景下,AI泡沫破裂的担忧也在困扰着美国经济前景。萨拉维诺斯在上述报告中提出疑问:近年巨额的AI资本支出一旦开始减少会意味着什么?若想让科技行业周期持续为GDP增长作贡献,资本投资就需保持“抛物线式”增长,但这种情况几乎不太可能。
彭博社在报道中认为,越来越多行业内外人士怀疑,人工智能领域存在泡沫风险,可能重蹈25年前互联网泡沫破裂的覆辙。OpenAI首席执行官奥尔特曼此前对部分人工智能初创企业估值过高及投资者热情过度的现象表达了担忧,美联储主席鲍威尔9月17日的发言也提到了这一点,他认为美国存在“因AI建设产生的异常庞大的经济活动”。
值得注意的是,就在英伟达22日宣布将向OpenAI投资至多1000亿美元后,类似疑虑再次涌现。韩国《朝鲜日报》24日报道称,怀疑者认为,获得英伟达投资的OpenAI转而采购英伟达图形处理器(GPU)的“循环交易”模式正在助长AI泡沫。
AI投资能否对冲滞胀隐忧
OECD在报告中提到,预计美国年度通胀率将在2026年保持在美联储追求的理想目标以上。由于有效关税税率的提升以及政策不确定性持续上升,OECD将美国2026年的经济增长预期进一步下调至1.5%。
根据《巴伦周刊》网站报道,鲍威尔23日在发表演讲时表示,美国经济正面临“滞胀式”挑战,经济增长和就业市场出现明显疲软,而通胀仍处于高位。这种“上下两难”的局面使货币政策制定者面临艰难抉择。
对此马伟分析认为,美联储的货币政策已处于两难境地,而从根本上解决经济滞胀需要新生产力的出现。AI目前正担负起赋能传统产业的历史重任。“AI是否能真正提升美国的生产率,答案是肯定的。但是这需要一个漫长的周期,其中还会出现学界所称的‘创造性的破坏’这一过程。”马伟说,“AI形成新生产力的过程必将冲击旧的生产秩序,但新生产秩序的建立是需要时间的。”

夸克全新AI图像与视频创作平台「造点AI」正式上线!

拥有AI生图、AI生视频、P图、编辑一体化等功能,搭载通义万相Wan2.5等多个模型,致力于为用户们提供更懂中国元素、更具实用性、更高性价比的图像与视频创作工具。

「AI生图」亚洲人像生成更真实、中文生成更准确、更懂中国风。能驾驭多种艺术风格,适用于多元实用场景,让每个人都能做出好设计。

「AI生视频」更高能的视频创作神器,支持原生音画同步生成、音频驱动视频生成等,普通人也能实现自己的导演梦。

上夸克点击「造点」,或访问zaodian.quark.cn,即可体验。9月24日至30日,Wan2.5模型免费开放使用!夸克造点AI邀你一起「用想象造点不同」!

你们催更的模型,云栖大会一口气全发了!

6款模型上新 + 1个全新品牌发布,覆盖文本、视觉、语音、视频、代码、图像全场景,这份超强清单,请收好:

🔹 Qwen MAX:万亿参数大模型,Coding 与工具调用能力登顶国际榜单;

🔹 Qwen3-Omni:新一代原生全模态大模型,真正实现“全模态不降智”;

🔹 Qwen3-VL:Agent 和 Coding能力全面提升,真正“看懂、理解并响应世界”;

🔹 Qwen-Image:再升级!真正实现“改字不崩脸、换装不走样”;

🔹 Qwen3-Coder:256K上下文修复项目,TerminalBench分数大幅提升;

🔹 Wan2.5-Preview:音画同步视频生成,图像支持科学图表与艺术字;

🔹 通义百聆:企业级语音基座大模型,攻克企业落地语音模型的“最后一公里”;

Qwen3-TTS-Flash – 阿里通义推出的文本转语音模型

Qwen3-TTS-Flash是什么

Qwen3-TTS-Flash 是阿里通义推出的支持多音色、多语言和多方言的旗舰语音合成模型。模型具备卓越的中英语音稳定性,出色的多语言性能,及高表现力的拟人音色。模型提供 17 种音色选择,每种音色支持 10 种语言,Qwen3-TTS-Flash 支持多种方言,如普通话、闽南语、粤语等。模型能根据输入文本自动调节语气,对复杂文本具有很强的鲁棒性,且生成速度快,首包延迟低至 97ms,现可通过 Qwen API 访问,为用户提供自然且富有表现力的语音合成服务。

Qwen3-TTS-Flash

Qwen3-TTS-Flash的主要功能

  • 多音色支持:提供 17 种不同的音色选择,每种音色均支持多种语言,满足不同用户对音色的需求。
  • 多语言与多方言支持:支持普通话、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语等多种语言,及闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等方言。
  • 高表现力:生成的语音自然、富有表现力,能根据输入文本自动调节语气,使语音更加生动。
  • 高鲁棒性:支持自动处理复杂文本,抽取关键信息,对复杂和多样化的文本格式具有很强的适应性。
  • 快速生成:具有极低的首包延迟(低至 97ms),能快速生成语音,提升用户体验。
  • 音色相似度高:在多语言的语音稳定性和音色相似度上表现出色,超越其他同类模型。

Qwen3-TTS-Flash的技术原理

  • 深度学习模型
    • 文本编码器:将输入文本转换为语义表示,提取文本的关键信息和语义特征。
    • 语音解码器:根据文本编码器的输出生成语音波形,确保语音的自然度和表现力。
    • 注意力机制:通过注意力机制,模型能更好地对齐文本和语音,提高生成语音的准确性和流畅性。
  • 多语言和多方言支持:模型在多种语言和方言的数据上进行训练,学习不同语言和方言的发音特点和语调规律。通过音色嵌入技术,模型能生成不同音色的语音,满足多样化的用户需求。
  • 高鲁棒性:对输入文本进行预处理,包括分词、词性标注、语义解析等,确保模型能正确理解文本内容。模型具备自动处理复杂文本和错误文本的能力,能抽取关键信息,生成准确的语音。

Qwen3-TTS-Flash的性能表现

  • 中英文语音稳定性:在 seed-tts-eval test set 上,Qwen3-TTS-Flash 的中英文语音稳定性表现达到 SOTA,超越 SeedTTS、MiniMax 和 GPT-4o-Audio-Preview。
  • 多语言语音稳定性:在 MiniMax TTS multilingual test set 上,Qwen3-TTS-Flash 在中文、英文、意大利语和法语的 WER 上达到 SOTA,显著低于 MiniMax、ElevenLabs 和 GPT-4o-Audio-Preview。
  • 音色相似度:在英文、意大利语和法语的说话人相似度方面,Qwen3-TTS-Flash 超过 MiniMax、ElevenLabs 和 GPT-4o-Audio-Preview,展现出卓越的音色表现力。

Qwen3-TTS-Flash

DeepSeek-V3.1 版本更新

DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本。

此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:

  • 语言一致性:缓解了中英文混杂、偶发异常字符等情况;
  • Agent 能力:进一步优化了 Code Agent 与 Search Agent 的表现。

DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定,新模型各领域测评结果如下:

注:Search Agent 的工具集与上一版有所不同,具体工具细节请查看 HuggingFace 文档

目前,官方 App、网页端、小程序与 DeepSeek API 模型均已同步更新为 DeepSeek-V3.1-Terminus。

开源版本下载地址如下:

Hugging Face:

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

ModelScope:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

感谢并欢迎广大用户积极反馈在使用 DeepSeek 模型过程中遇到的各类问题,我们将持续迭代提升模型性能,优化用户使用体验。

英伟达1000亿美元投资OpenAI!一切从算力开始

9 月 22 日,OpenAI 与英伟达联合宣布签署战略合作意向书,计划在未来数年建设至少 10 GW 的 AI 数据中心,并部署数百万颗英伟达 GPU,以支撑下一代模型的训练与运行。为此,英伟达承诺将按每 1 GW 的交付进度,逐步向 OpenAI 投资最高 1000 亿美元,并在过程中获得非投票股权。这是 AI 行业迄今最大手笔的资金与硬件捆绑交易,也被视为全球算力格局的一次重塑

联合声明中,英伟达 CEO 黄仁勋称这是双方关系的“下一个飞跃”,OpenAI CEO Sam Altman 则强调 “Everything starts with compute”。在外界看来,这不仅是一笔投资,更是把算力明确地推到产业竞争的起点。

 ▍资本结构与合作模式

英伟达与 OpenAI 在 9 月 22 日宣布的战略合作,被业内视为全球 AI 基础设施史上最大规模的一次资本与硬件捆绑。这笔投资的核心在于“分阶段触发、硬件绑定”,总额最高可达 1000 亿美元。它不仅改变了 OpenAI 的算力格局,也让英伟达从硬件供应商进一步转变为资本和战略上的深度伙伴。

根据双方公布的安排,这一合作分为两个相互关联的部分。首先,OpenAI 将以现金方式采购英伟达的 GPU 以及配套的数据中心系统,这笔支出用于建设未来数年的超大规模 AI 工厂。其次,英伟达会随着这些 GPU 系统的交付,逐步向 OpenAI 注资,换取非投票股权。首笔约 100 亿美元将在最终协议签署后启动,此后每当新增 1 GW 系统部署完成,英伟达就会相应追加一笔投资。这样设计的逻辑很清晰:投资规模与硬件交付进度挂钩,确保双方在长期合作中保持一致的节奏。

相比一次性注资,这种分阶段绑定的模式,有助于降低不确定性。对 OpenAI 来说,它可以在需要算力的时刻获得资金支持,同时提前锁定英伟达的 GPU 产能,确保自身模型研发与训练不被供应链瓶颈掣肘。对英伟达而言,虽然投资上限高达 1000 亿美元,但分阶段投入的方式让其资金使用更具灵活性,也能根据 OpenAI 的实际扩张情况调整步伐。这意味着“1000 亿美元”更像是一个阶段性承诺的上限,而不是立即落地的全额兑现

从资本属性上看,英伟达将获得 OpenAI 的非控股股权。这一安排保证了 OpenAI 在治理层面的独立性,但同时也让英伟达从供应商跃升为股东。与传统的供货关系不同,这种模式把硬件、资金和战略目标捆绑在一起,使双方形成了更加牢固的利益共同体。换句话说,英伟达在未来数年的 GPU 销售额之外,还能分享 OpenAI 在模型与应用层的潜在成长红利。

这种合作结构,正是当下 AI 行业大规模竞争的映射。模型公司的最大瓶颈是算力,而芯片公司的最大风险是市场需求的波动。通过资本与设备的交叉绑定,双方都在对冲自身的不确定性:OpenAI 锁定长期的硬件供给,英伟达获得直接参与顶级模型公司的股权敞口。这是一种“算力即资本”的新型交易结构,在过去的半导体或互联网行业中并不多见。

英伟达 CEO 黄仁勋在联合声明中的表态,进一步凸显了这笔交易的战略意义。他强调,这项合作是双方关系的“下一个飞跃”,目标是 “deploying 10 gigawatts to power the next era of intelligence”。这不仅仅是描述数字规模,而是直接把 10 GW 的算力定义为“下一代智能时代”的基础设施。黄仁勋的措辞清楚传达了英伟达对 AI 行业长周期需求的判断,也解释了为何公司愿意以如此大手笔介入。

OpenAI 总裁 Greg Brockman 则从合作历史的角度做了补充。他回顾道,从最早的 DGX 超算平台到 ChatGPT 的突破,英伟达一直是 OpenAI 技术演进背后的硬件支撑。此次宣布的 10 GW 计划,不只是一次单纯的扩容,而是把过去的合作推向了一个新高度。他用“push back the frontier of intelligence”来形容这笔合作的意义,即通过算力扩张,把智能边界进一步往前推进。

 ▍时间表、硬件平台与合作定位

这笔合作最直观的落脚点在于时间表。双方在联合声明中明确指出,首个 1 GW 的系统将在 2026 年下半年上线,采用英伟达最新一代的 Vera Rubin 平台。这一节点之所以重要,不仅因为它是整个 10 GW 计划的“样板工程”,更因为它为未来的投资节奏和技术迭代划定了参照坐标。

与过去单点的 GPU 供货不同,这次合作强调的是“以 GW 为计量单位”的算力部署。1 GW 代表数十万颗 GPU 级别的硬件组合,背后对应的不仅是采购与交付,还包含电力、冷却、网络和软件配套的完整体系建设。换句话说,2026 年下半年的首批系统上线,意味着 OpenAI 将在基础设施层面迈入前所未有的规模化阶段。每 1 GW 的部署既是硬件落地,也是英伟达资金投入的触发条件,形成资本与算力同步扩张的节奏。

在硬件平台选择上,Vera Rubin 是英伟达为超大规模 AI 工厂打造的新一代架构。它继承了 Hopper 和 Blackwell 平台的演进方向,重点提升了能效比、集群互联和大模型训练效率。对于 OpenAI 来说,采用 Vera Rubin 不只是追逐性能的升级,更是确保未来数年技术迭代与硬件演进保持同步。Sam Altman 在声明中直言:“Everything starts with compute. Compute infrastructure will be the basis for the economy of the future.” 这句话几乎把合作的逻辑凝缩成一句口号:算力不仅是技术发展的起点,也是未来经济运行的根基。

值得注意的是,这次合作并没有取代 OpenAI 现有的合作伙伴,而是以补充的方式并行推进。过去几年,微软 Azure 一直是 OpenAI 最重要的算力与资金支持方,Oracle 和软银则在不同场景下提供算力或资本支持,Stargate 合作伙伴网络也在推进数据中心建设。联合声明中特别强调,这些合作仍将继续,而英伟达的加入是“新阶段的补充”。这表明 OpenAI 在算力战略上采取的是“多元化”而非“单一绑定”,通过引入不同角色分担风险,同时在战略上保持平衡。

英伟达的定位则被明确写进官方文件:它是 OpenAI 的 preferred strategic compute and networking partner。这一表述意味着,未来在 AI 工厂的扩张中,英伟达不仅仅是 GPU 的供货方,还将在网络架构、软件协同等层面成为首选伙伴。双方还承诺 co-optimize roadmaps,即 OpenAI 的模型和基础设施软件与英伟达的硬件和软件路线图同步演进。这种“路线图绑定”将双方关系从简单的供需,提升到战略层面的深度耦合。

这一点在 OpenAI 总裁 Greg Brockman 的发言中体现得尤为清楚。他回顾了过去与英伟达的合作历程:从最早的 DGX 超算平台到 ChatGPT 的诞生,OpenAI 的技术突破几乎都建立在英伟达平台之上。此次宣布的 10 GW 合作,被他形容为“把智能的边界进一步向前推进”,“We’re excited to deploy 10 gigawatts of compute with NVIDIA to push back the frontier of intelligence.” 这句话把合作的意义从单纯的硬件扩张,提升到了“推动智能前沿”的战略高度。

对于 OpenAI 来说,这种合作定位有两层意义。第一,它确保了在未来数年的硬件需求中,OpenAI 可以优先获取最先进的 GPU 平台,从而避免因供应紧张而陷入被动。第二,它通过绑定英伟达的路线图,让自身的模型迭代与硬件演进保持最大程度的契合。这在 AI 行业快速迭代的背景下,意味着技术和硬件之间的“协同红利”,从而提高整体研发和部署效率。

更重要的是,这种合作也让 OpenAI 在资本和战略上获得了更大的自主性。与微软的合作是一种大股东关系,微软在 OpenAI 的董事会与治理中拥有重要席位;而英伟达的股权是非控股、非投票性质,更像是一种战略补充。这让 OpenAI 能够在获得资金和算力支持的同时,保持治理上的独立性,同时通过多方捆绑来增强自身议价能力。这种“多边算力布局”的逻辑,正是 OpenAI 在迈向 AGI 过程中,对冲风险、平衡关系的必然选择

Altman 的那句“Everything starts with compute”,不仅是一句口号,也是对合作关系的精准定位。对于 OpenAI 而言,算力是生命线;对于英伟达而言,算力是筹码