分类目录归档:AI快报

GPT-5-Codex – OpenAI推出的Agent编程优化模型

GPT-5-Codex是什么

GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型,基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务,如从零搭建项目、代码重构、调试、测试和代码审查等。模型能根据任务复杂度动态调整思考时间,简单任务秒回,复杂任务深度思考,支持独立完成长达 7 小时的复杂任务。模型代码审查能力出色,能精准发现关键缺陷,减少无效评论。GPT-5-Codex 支持多模态输入,能在云端查看图片或截图并展示工作成果,是开发者的强大编程助手。

GPT-5-Codex

GPT-5-Codex的主要功能

  • 代码生成与优化:根据自然语言描述快速生成高质量代码,支持多种编程语言、优化现有代码提升性能。
  • 代码审查:支持自动发现代码中的关键缺陷和潜在问题,提供详细审查报告帮助开发者快速定位和修复。
  • 交互式编程:在交互式会话中快速响应简单任务,同时能独立处理复杂任务,如大型重构,持续工作超过7小时。
  • 多模态输入:支持图片输入用在前端设计和UI任务,能展示工作进度的截图提供直观反馈。
  • 集成与扩展:无缝集成到VS Code、GitHub、ChatGPT等开发环境,支持网页搜索等外部工具调用提升开发效率。

GPT-5-Codex的性能表现

  • 代码生成与优化:在SWE-bench Verified基准测试中,GPT-5-Codex准确率达74.5%,高于GPT-5的72.8%,且在代码重构任务上准确率从GPT-5的33.9%提升至51.3%。
  • 动态思考时间:GPT-5-Codex能根据任务复杂度动态调整计算资源,简单任务token使用量比GPT-5减少93.7%,复杂任务token使用量增加102.2%,能独立工作超过7小时处理复杂任务。
  • 代码审查能力:GPT-5-Codex错误评论率仅4.4%,高影响力评论占比达52.4%,平均每个PR评论数从GPT-5的1.32条降至0.93条,能有效发现关键缺陷、减少无效评论。
  • 多模态处理:支持图片输入用于前端设计和UI任务,能展示工作进度的截图提供直观反馈,提升开发体验。
  • 集成与扩展:支持无缝集成到VS Code、GitHub、ChatGPT等开发环境,通过容器缓存技术使新任务和后续任务的中位完成时间缩短90%,提升开发效率。

 

GPT-5-Codex的核心优势

  • 优化方向:GPT-5-Codex是 GPT-5 的一个版本,专为在 Codex 中的代理编码进一步优化,训练重点是现实世界的软件工程工作,包括从零开始构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查等复杂任务。
  • 动态思考时间:根据任务复杂度自动决定投入多少计算资源。对于最简单的 10% 任务,比 GPT-5 减少 93.7% 的 token 使用量;面对最复杂的 10% 任务,花费两倍时间进行推理、编辑、测试和迭代,能独立工作超过 7 小时处理大型复杂任务。
  • 代码审查能力:被专门训练用在代码审查和发现关键缺陷,会导航代码库、推理依赖关系、运行代码和测试来验证正确性。在评估中,错误评论率仅 4.4%(GPT-5:13.7%),高影响力评论占比 52.4%(GPT-5:39.4%),平均每个 PR 0.93 条评论(GPT-5:1.32 条)。
  • 前端任务表现:在创建移动网站时的人类偏好评估中显示出显著改进。在云端工作时,支持查看用户提供的图片或截图输入,视觉检查进度,并向用户展示工作截图。

GPT-5-Codex的不足

  • 任务挑剔:对任务的范围和合理性有一定的限制,对于过于复杂的任务会直接拒绝。
  • 环境设置麻烦:在设置过程中,可能会对用户的开发环境做出错误的假设,导致需要手动重新配置系统文件和环境设置,增加使用前的准备工作。
  • 多Agent工作流问题:虽理解多个Agent的概念,但没有真正的子Agent,无法像Claude Code那样在长期研究任务中自动继续前进。

GPT-5-Codex的项目地址

  • 项目官网:https://openai.com/index/introducing-upgrades-to-codex/

GPT-5-Codex的应用场景

  • 软件开发全流程:从零开始构建完整项目,包括需求分析后的代码实现、功能添加、测试编写、调试及大规模代码重构等复杂任务。
  • 代码审查环节:在代码上线前自动进行审查,发现关键漏洞和潜在问题,帮助团队提高代码质量和开发效率。
  • 交互式编程协作:与开发者在交互式会话中配合,快速响应简单任务,同时能独立处理需要长时间思考的复杂任务,如大型重构。
  • 前端设计与开发:支持图片输入,用在前端设计和UI任务,能查看用户提供的设计图或截图,生成相应的代码,展示工作进度的截图。

OpenAI董事长:我们正处于‘AI泡沫’,未来会有人亏本钱

IT之家消息,OpenAI 董事长布莱特・泰勒上周(9 月 11 日)接受了科技媒体 The Verge 采访,聊及 AI 的方方面面。

采访中,主持人首先回顾了 OpenAI CEO 山姆・奥尔特曼关于“在 AI 领域,总有人会赔掉一大笔钱”的说法,泰勒对此表示认同,并表示:“我们确实处于一场 AI 泡沫之中,但这种泡沫属于是‘良性循环’。”

泰勒接着表达观点:“我认为 AI 和 20 世纪末、21 世纪初的互联网一样,在未来创造出巨大的经济价值,但这种价值也说明总有一天‘AI 泡沫’会被戳破很多人会亏掉本钱。我基于历史上各个领域的先例认为这种事情将在未来发生”。

他认为,这种泡沫说明 AI 行业风险巨大,但风险在机遇面前不值一提,他还将这种风口和 20 世纪末的互联网行业作比较:“我当年可是互联网行业的‘老兵’,虽然当时泡沫被戳破,大批公司倒闭,但 1999 年的那些人在某种意义上没做错任何事情”。

IT之家注:布莱特・泰勒(Bret Taylor)毕业于斯坦福大学,2003 年加入谷歌,先后领导谷歌地图、谷歌搜索等团队,后续出任推特董事会成员,并在 2021 年成为推特(现 X 平台)董事长,在马斯克收购后他离开推特在 2023 年担任 OpenAI 董事长

重要成果,“能动”的AI正成为科学发现新主体

上海创智学院发布重要成果,AI仅用两天自主发现超100种全新网络架构
“能动”的AI正成为科学发现新主体
正值创立一周年,上海创智学院日前发布一系列人工智能重要成果,其中被赋予“能动性”的AI仅用两天便自主发现超过100种全新的网络架构;首个规模化全流程机理可解释框架研究团队被列入全球最值得加入的4个可解释性研究阵地之一……
过去一年间,大模型展现出强大的“思考”能力,正快速迈向能够执行和解决实际问题的“能动性”新阶段。上海创智学院发布的“能动”认知智能项目首创“认知能动数据加工工艺”,将海量原始数据加工成“高品质数据燃料”。这种经过深度加工的认知能动数据,能够有效驱动和打造高认知、高能动的智能体。
该项目首次实现了支持AI进行长达数天深度思考与协作的科研模式。在实际测试中,AI仅用两天时间便自主发现了超过100种全新的网络架构,而人类专家发现一个新模型平均需要2000小时。此外,该项目在上海创智学院的编程实训比赛中,多次战胜人类开发者,甚至在夏令营中取得排名第一的优异成绩。这标志着“能动”的AI正成为科学发现的新主体。
与此同时,上海创智学院发布全球首个规模化全流程机理可解释框架,将深度网络中的隐含状态对应到现实世界的具体概念,首次在大模型注意力分解上取得领先成果,还可对关键神经元进行激活与调控,赋予模型“思想钢印”,显著提升可控性与安全性。该成果已获国际上顶尖机构高度评价,研究团队被列入全球最值得加入的4个可解释性研究阵地之一,标志着中国力量首次在该前沿领域实现从跟跑到领跑。
上海创智学院联合华东师范大学发布了全球首个基于大模型的创造力智能测评系统。该系统统一了情境的真实性、交互的智能性和过程的可追踪性,带来全新测评体验。在结果页,系统不仅能回顾完整的思维链条,还能量化各阶段亮点与不足,并生成个性化成长建议,使测评真正成为培养的起点,而非终点。
当前智能体应用越来越多,将多个智能体协作在一起完成任务正逐渐成为业界共识。上海创智学院还率先提出并启动了“智能体上链”项目,旨在打造全球首个基于区块链技术的可信智能体互联网——BetaWeb。用户可通过客户端提出复杂任务,互联网上的智能体则在协议支持下自由协作,“裁判”智能体负责监督和判定任务质量,区块链系统则确保身份认证、过程记录与价值分配的公平透明。
目前,上海创智学院已研发出智能体协作平台Holos河洛系统,接入了上百个公网智能体,能够完成科研报告撰写、论文审稿、数学建模、信息收集与解读等任务。该项目最大亮点在于提出了“可信”这一核心概念,这不仅是对人工智能协作模式的创新,更是对未来数字经济基础设施的一次前瞻性布局。
(来源:解放日报 记者 黄海华)

AI支出将大幅减速?高盛“拉响警报”:美股恐下跌20%!

财联社9月15日讯(编辑 卞纯)人工智能(AI)已经将美股推至历史新高,但高盛近日警告称,一旦AI支出放缓,美股可能会下跌20%

高盛分析师Ryan Hammond在一份研究报告中指出了一项风险:超大规模企业将不可避免地会削减AI支出

“如果长期增长预期回归到2023年初的水平,这意味着标普500指数目前的估值将下降15%至20%。” Hammond写道。

AI支出增长或将放缓

目前,AI支出仍在全速增长,但Hammond写道,一些分析师认为,2025年第四季度及2026年(AI支出增长)将大幅减速

Meta本月早些时候表示,未来三年将在人工智能领域投入6000亿美元。Meta首席执行官扎克伯格随后在Threads上发帖称,公司未来三年的投资可能超过6000亿美元。他还表示,到2030年,这一数字可能会“大幅增加”。

上周,微软与Nebius达成了一项为期五年、价值174亿美元的AI基础设施协议。这表明,美国大型企业仍在大举增加AI支出。

美股高度依赖AI带来风险

AI在美股表现中扮演着至关重要的角色。Slickchart 的数据显示,AI领域最大的受益者英伟达在标普500指数中的权重约为7%。

标普500指数中前八大公司均在AI领域投入巨资。它们正在加大对AI的投入,并打算推出应用AI的产品和服务。这八家公司市值占标普500指数总市值的36%以上。

在标普500指数“前10强”之外,也有一些企业巨头在大力投资AI,包括Palantir和思科等公司。

鉴于此,若AI交易逐渐消退,AI概念股下跌,无疑将拖累标普500指数从当前水平大幅走低

需要指出的是,AI支出增长可能还需要几年时间才会出现实质性放缓,而这种放缓也并不一定意味着大型科技公司完全退出AI支出。

但对于投资者而言,尽管眼下市场仍然对AI及其长期潜力充满热情,但提前考虑AI支出放缓可能带来的负面影响是一件好事。

(财联社 卞纯)

AI训练基础设施叙事再增强 | 投研报告

国金证券近日发布AI周观察:本周AI应用活跃度呈现分化,海外市场Gemini周均活跃度大幅提升,ChatGPT保持平稳,Claude则有所回落;国内市场豆包活跃度持续领先增长。模型层面,阿里巴巴与百度均发布重要新模型:阿里开源了兼具性能与极高效率的Qwen3-Next-80B-A3B,大幅降低了训练与推理成本;百度推出了在事实性和指令遵循上显著进步的深度思考模型文心X1.1,并已向所有用户开放。

以下为研究报告摘要:

本周AI应用活跃度呈现分化:海外市场Gemini周均活跃度大幅提升,ChatGPT保持平稳,Claude则有所回落;国内市场豆包活跃度持续领先增长。模型层面,阿里巴巴与百度均发布重要新模型:阿里开源了兼具性能与极高效率的Qwen3-Next-80B-A3B,大幅降低了训练与推理成本;百度推出了在事实性和指令遵循上显著进步的深度思考模型文心X1.1,并已向所有用户开放。

Rubin CPX标志着AI推理硬件架构正加速向分工与专用化演进。该芯片专注于prefill阶段,计算力达20PFLOPS FP4,配备128GB GDDR7,成本仅为R200的四分之一,却可提供逾六成性能。其设计弱化高带宽内存与NVLink,转而采用PCIe Gen6与流水线并行,大幅降低物料与系统成本,并推动prefill与decode阶段解耦,提高资源利用率。Rubin CPX有望提升单位资本支出的推理性能,加快投资回报周期,巩固英伟达领先地位,并加剧行业分化与竞争壁垒。

甲骨文FY26Q1展现出订单与资本投入的鲜明对比:RPO飙升至4550亿美元,同比增长359%,凸显AI云计算和数据库服务的强劲需求。公司据此将全年OCI收入增速指引上调至77%,并披露未来四年大幅扩张路径。为满足订单,公司上修FY26资本开支至350亿美元,集中投向数据中心设备,并采取“就绪即上架、上架即计费”的模式加快兑现。短期内自由现金流和利润率承压,但若产能如期释放,长期增长确定性仍然突出。

2025年7月,中国智能手机销量达到约2159万台,同比下滑1.09%。华为、小米、荣耀OPPO、vivo、以15.96%、15.13%、13.93%、13.47%、13.44%的份额排名前五。具体型号方面,iPhone16Pro销量排名第一,iPhone16ProMax、OPPO reno14排名第二、第三。7月国内PC市场销量基本同比持平,台式机销量约为158万台,同比下滑约4%。笔电销量约为191万台,同比增长约1%。

风险提示

芯片制程发展与良率不及预期

中美科技领域政策恶化

智能手机销量不及预期(国金证券 刘道明,黄晓军,麦世学)

摆脱对外依赖,日本押注国产AI

【环球时报综合报道】日本正加速开发本土(人工智能)AI生态系统以缓解对外国依赖加剧的风险。据日本时事通讯社12日报道,日本政府当天在首相官邸举行了AI战略本部首次会议,明确了扶持国内AI开发的方针。
日媒报道称,日本国内使用的生成式AI依赖于美国,此举旨在通过推进本土开发来应对安全风险。此次会议提交了一份“AI基本计划”草案,指出与美国和中国相比日本开发滞后的背景下,计划“在全社会范围内应用人工智能,并启动开发循环”,为日本带来“逆转攻势”。
据日本《读卖新闻》报道,日本在人工智能应用方面滞后,去年个人使用率仅为20%左右,企业使用率为50%,整体处于较低水平。草案指出“制定国家人工智能战略比以往任何时候都更加重要”,并提出了四项基本方针:加速推进应用、战略性地加强开发能力、治理主导、持续向AI社会转型。旨在让日本成为“世界上容易开发和应用AI的国家”。
关于人工智能应用,草案规定政府机构和地方政府应率先利用人工智能提升工作效率,同时建议将人工智能应用于国防能力的强化。草案将决定人工智能精度的“高质量数据”定位为“日本优势领域”,呼吁加强相关开发能力建设。 此外,日本政府还将推动开发融合日本文化和习俗的可靠的“国产AI”,并促进高质量日语数据库的建设。
该草案还指出了AI应用的风险,例如提供错误答案和传播虚假信息,以及对国家安全的影响。草案要求在发生侵权时进行彻底的政府调查,并牵头制定国际规则。
作为日本在人工智能领域的首份基础规划草案,该草案将提交至人工智能战略本部审议,预计年内通过内阁审议完成最终方案。今后将根据国内外情况每年进行修改。
日本《朝日新闻》12日分析称,ChatGPT推出至今已有3年左右的时间。在技术创新不断推进的背景下,日本政府也承认作为GDP规模世界领先的经济体,日本“在AI开发和应用方面落后于世界”。在面向AI的尖端半导体领域,日本正不得不依赖其他国家。此外,像ChatGPT这样目前尚且免费可用的AI,也可能会因收费化等企业战略调整而对日本国内的使用产生影响。
《朝日新闻》称,日本首相石破茂当天在会议上表示,“在安全保障方面,AI是极为重要的。在全球开发竞争加剧的背景下,须为扭转劣势尽快制定紧急支持政策,”并提出了致力于建设“一个人们因AI而幸福的社会”的愿景。
日本科学技术政策大臣城内实12日回答记者提问时表示,“随着全球人工智能开发和应用竞争的日益激烈,未来一两年的努力对于实现反守为攻至关重要,我们决不能停滞不前。政府将积极支持私营企业和研究机构开发国产AI。”
据美国斯坦福大学的一项调查显示:2024年日本民间对AI的投资额约为9亿美元,而美国的民间投资额则为1091亿美元。(杨晨)
(来源:环球时报)

音乐模型新突破:MiniMax Music 1.5上线,4分钟时长、回归“好听”本质

Music 1.5 支持长达4分钟的音乐创作,出品即成品,不再仅是demo小样,并可对歌曲的风格、情绪和场景进行自定义和强控制。只需给出一句简单的自然语言描述,Music 1.5 即能交付超高完成度的作品。高级模式下,还可以对歌曲的不同段落,如前奏Intro、主歌Verse、副歌Chorus等进行具体歌词编排。

阿里通义正式发布:Qwen3-Next-80B-A3B 双模型!

我们正式发布:Qwen3-Next-80B-A3B 双模型!

⚡️ 核心技术创新
1️⃣ 【混合动力引擎】75%高效 + 25%精准 = 长文处理更稳更快
经过多次实验,我们发现这个比例在速度和效果之间找到了一个比较好的平衡点。
🔹 75%,用Gated DeltaNet(线性注意力):处理32K、64K、甚至256K的超长文本时,速度飞快,内存占用线性增长,绝不“越长越卡”。
🔹 25%,用Gated Attention(门控注意力):负责精准召回关键信息,确保模型“记得住重点”,不会在长文中迷失。

2️⃣ 【极致省钱架构】80B总参,推理时只用约3B
我们希望大家在享受大模型能力的同时,无需为用不到的算力买单。

为了让大模型在推理时更“轻便”,我们调整了MoE结构:
🔹 总共准备了 512个专家,覆盖各种知识和技能。
🔹 但每次处理请求时,只会动态选择最相关的10个专家 + 1个共享专家 来工作。
🔹 虽然模型总参数是80B,但实际参与计算的只有大约3B,算力利用率大约是3.7%。

3️⃣ 【预训练加速机制】一次多猜几个字,长文生成更快
我们做了一个小改动:在模型预训练阶段,就教它一次预测多个token,这个技术叫 MTP。
🔹 不是外挂的加速工具,而是模型“天生”就会的技能。
🔹 在生成长文本(比如32K以上)时,显著减少推理步数,实测吞吐量比Qwen3-32B提升了10倍+。

🎯 适合场景
🔹 要处理很长的输入文本(KV Cache固定,不会爆显存)
🔹 对推理速度和稳定性要求高(MTP加速 + 高接受率)
🔹 希望用大模型容量,但不想每次推理都“全功率运行”(80B总参,3B激活)
🔹 需要指令响应 or 深度推理能力(双版本针对性优化)

支持多端体验(链接见评论区)
🔹 阿里云百炼(API调用)
🔹 GitHub / 魔搭 / Hugging Face(开源模型)
🔹 QwenChat 网页版(在线即用)

蚂蚁百宝箱正式发布“Tbox”, 智能体告别 “单打独斗”,直接把成果送到手!

在 9 月 11 日的 2025 Inclusion·外滩大会上,蚂蚁百宝箱迎来了关键发布——新产品 Tbox 超级智能体(tbox.cn)正式与大家见面啦!

熟悉 AI 工具的朋友可能知道,过去用 AI 时,大家面对的多是孤立的模型或插件,做任务得手动串联流程,效率难免受影响。而 Tbox,通过多智能体协同架构,彻底改变了这一现状:平台上的多个智能体可自动形成工作小组,齐心协力完成用户指定任务并交付成果;同时,生态开发者构建的智能体也能加入小组服务用户,凭实际贡献获得收益。

这绝非普通的 AI 工具升级 —— 升级后的 Tbox 直接把 “单兵作战” 变成了 “专家团战”,更将 AI 应用从 “卖工具” 的时代,推进到了 “卖成果” 的新阶段。你只需说一句自然语言指令,比如 “帮我做个大学生旅游市场的 PPT”,系统就会自动调动搜索助手、PPT 设计师、网页工程师、数据分析师、播客主播等 20 余位专家智能体组队协作,还能互相校验成果。短短 10 分钟,一份约 15 页的可视化报告就能生成,连可交互的网页都能同步上线,效率直接拉满!

很多用户会问,Tbox 为何能有这样出色的性能?关键就在于 “动态编排引擎”。它能根据任务复杂度,实时调整智能体数量和协作路径,比传统串行流程灵活太多。比如制作 PPT 时若需要数据支撑,Tbox 会主动动态选择数据分析师和图表可视化专家加入协作。

更重要的是,我们始终坚持 “无代码” 友好理念。你不用懂任何技术,只需清晰描述自己的想法,就能拿到可直接发布的 PPT、网页、播客、文档 —— 无论你是 AI 新手还是职场小白,都能轻松用 Tbox 实现需求。

除了为用户带来便利,我们也没忘记生态里的开发者朋友们。在不久的将来,Tbox “智能体市场” 就要正式开放了!如果你是开发者,只需把自己搭建的行业专家 Agent 上架到市场,全球用户调用后,你就能拿到收益分成。我们希望和开发者一起,共建更丰富的智能生态!

在此次外滩大会发布现场,我们百宝箱产品负责人也分享了团队的思考:AI 产品的价值衡量标准正在发生根本变化。从 “卖工具”(Software as a Tool)到 “卖协作”(Software as a Co-worker),再到 “卖成果”(Software as an Outcome),Tbox 正在推动软件商业模式迈向第三阶段。而 “成果即服务” 的理念,早已在真实场景中得到验证。

有用户在 Tbox 上传大学生旅游市场调研数据,仅输入 “生成墨绿色 + 白灰主色调、图表清晰的课程 PPT”,5 分钟内就拿到了专业教学级 PPT,数据解析、视觉设计、内容组织全搞定,大大节省了数据可视化和理解内容的时间。还有用户让 Tbox 写 “气候变化对农业影响的研究报告”,要求包含背景介绍、研究方法、数据分析、结论和建议。结果 Tbox 不仅自主搭好逻辑框架,还生成了趋势图、对比表,连学术规范都精准拿捏,从需求到成稿一气呵成。

微软 Copilot 新增音频表达式功能,莎士比亚腔、体育解说都能整

IT之家注意到,第一种是“有感染力模式(Emotional Mode)”,支持富有表现力的自由式表达,适用于需要传递情感的场景;第二种是“故事模式(Story Mode)”,用户可借助该模式讲述包含多个人物角色的故事,带来沉浸式听觉体验;第三种是“脚本模式(Script Mode)”,能够实现逐字精准播放,非常适合需要准确传递信息的场景。

微软还为每种模式提供了多种语音类型与风格,涵盖经典的莎士比亚作品朗读风格以及富有激情的体育解说风格等。

目前,这项新功能已在 Copilot Labs(Copilot 实验室)上线,用户可在其中直接体验。值得关注的是,微软近期推出的 MAI-1 是其首款大型语言模型,同时该公司还与 Anthropic 达成协议,计划将 Anthropic 的模型集成至 Office 应用中。这些举措表明,微软正致力于在人工智能领域减少对 OpenAI 的依赖。