作者归档:admin

警惕“AI换脸”成为窃取个人隐私新手段

近期,浙江杭州警方侦破一起利用“AI换脸”突破相关互联网平台人脸识别认证机制侵犯公民个人信息案件,抓获犯罪嫌疑人4名,查获一批被非法强制登录的网络账号。

涉案人员利用生成式人工智能深度合成技术伪造“AI人脸”,突破平台人脸识别认证机制,非法窃取公民个人隐私数据。

该案中,犯罪团伙利用某即时通讯平台招揽生意,宣称可以承接互联网平台特定用户数据的“查细”业务。

接单后,团伙成员伪造受害者人脸验证视频,突破相关头部平台登录认证,强制登录受害者账号窃取信息。

该案中,犯罪团伙、互联网平台、个人信息买家均需根据具体行为承担刑事、行政及民事责任。

一是实施犯罪的团伙利用“AI换脸”突破互联网平台认证机制,非法获取公民个人信息并出售的行为,涉嫌非法获取计算机信息系统数据罪、侵犯公民个人信息罪,情节特别严重的,可处三年以上七年以下有期徒刑,并处罚金;

二是互联网平台未采取有效措施保护注册用户个人信息,导致用户个人信息泄露,可能面临连带的行政处罚和民事赔偿;

三是买家出于各种目的非法购买他人信息的行为,可能涉嫌非法获取公民个人信息、侵犯公民个人隐私的违法行为。

当前,互联网平台的登录认证方式主要有账号密码登录、手机验证码登录、第三方平台授权登录三种。

此外,为保证用户体验,平台还会开通了人脸登录方式,其应用场景主要为当用户忘记账号密码,且手机遗失、收不到验证码,或无法使用前三种登录方式时启用。此时,用户可以通过输入账号绑定的姓名、身份证件号码及人脸校验来完成平台的身份核验,登录平台中的个人账号。

那么,互联网平台现有的认证方式存在哪些风险呢?

一是公民个人信息的泄漏。过往公民个人信息的泄露导致基于“姓名+身份证件号码+人脸”的认证机制更易被犯罪团伙突破,同时,互联网平台为开展身份认证大量收集公民个人信息的行为也进一步增加了个人信息泄露的风险。

二是深度伪造技术的冲击。随着生成式人工智能的快速发展,深度伪造技术的更新迭代远超安全防护升级节奏,视频生成工具制作出的动态人脸视频的生物特征不断接近真人,导致人脸识别认证的安全性降低,被技术破解绕过认证的风险极大提升。

三是第三方授权登录平台的潜在风险。互联网黑灰产团伙已形成完整的犯罪生态链,一旦头部互联网平台出现认证漏洞,即可通过第三方授权登录其他平台,短时间内即会造成大量无法挽回的损失,严重危害公民的个人信息安全。

综上所述,随着互联网技术的发展,现有互联网平台身份认证体系在技术对抗、隐私保护、系统防护等方面均存在结构性风险,平台鉴权、身份认证机制遭到反复突破,给网络犯罪及黑灰产团伙提供了可乘之机,对国家经济、社会发展构成重大威胁,各互联网平台应当深刻认识个人信息保护工作的重大意义,主动采取更加有效的技术措施防范网络犯罪及黑灰产团伙的持续性攻击,实现企业健康发展和社会效益共建双丰收。

聊天机器人带来“AI精神病”隐忧

【聊天机器人带来“AI精神病”隐忧】财联社9月24日电,英国伦敦国王学院汉密尔顿·莫林团队日前发表的一项研究指出,像ChatGPT这样的人工智能(AI)聊天机器人可能会诱发或加剧精神病,他们将这一现象称为“AI精神病”。研究认为,AI在对话中倾向于奉承和迎合用户,这种回应方式可能强化用户的妄想思维,模糊现实与虚构之间的界限,从而加剧心理健康问题。

AI新发岗位最热“5岗争2人”

深圳商报首席记者 陈小慧

近日,脉脉最新发布的《2025年AI人才流动报告》(以下简称《报告》)显示,2025年1月—7月,AI领域人才市场供需两旺,AI新发岗位量同比增长超10倍,简历投递量也暴涨了11倍。“算法”相关人才持续紧缺,其中“搜索算法”人才紧缺度最高,5岗争2人。非技术岗数量同比增长7.7倍。AI人才争夺战延伸至校招,脉脉上过半应届生岗位月薪超5万元。

2025年7月,AI相关新发岗位数量同比增长超过10倍,简历投递量同比增长11倍。薪酬也水涨船高,2025年1月—7月,AI新发岗位平均月薪达到61475元,较2024年同期的58921元上涨4.33%。

截至2025年7月,脉脉上有超过1000家企业发布了7.2万个AI相关岗位,涵盖互联网大厂、外企、车企和AI垂类企业。热招企业和高薪企业均呈现大厂与垂类企业竞相发力的格局。从新发AI岗位量来看,字节跳动招聘指数29.83位列首位,小红书18.32居第二,阿里巴巴12.25位列第三。小鹏汽车、自变量机器人、黑芝麻智能等垂直企业同样上榜。

从企业薪酬来看,微软以新发岗位平均月薪90345元位居第一,阿里巴巴全资子公司平头哥(89760元)位列第二,跨境电商平台Wish(85371元)位列第三。京东、比亚迪、华为、小米等大厂新发岗位平均月薪多集中在6.5万—6.8万元区间,自变量机器人、Momenta等垂直赛道企业也进入高薪企业榜TOP20。

不同规模企业的AI化进程显著加速,新发岗位AI渗透率明显提升。2025年1月—7月,新经济行业新发岗位AI渗透率超过10%,较去年同期提升10倍以上,且随企业规模扩大而提升。《报告》显示,“新发岗位AI渗透率”为新发AI相关岗位量在所有新发岗位中的占比,是衡量企业对AI投入的重要指标。

不过,AI人才流动性高于其他行业,平均在职时长为2.02年,显著低于新经济领域人才的平均在职时长2.91年。62.99%的AI人才计划在未来一年内跳槽。

算法类岗位在AI领域招聘中占据核心地位。从热招岗位TOP20中,过半岗位与算法强相关。“大模型算法”以招聘指数94.16高居热招岗位榜首。在人才紧缺度TOP20的岗位中,“算法”岗位依然霸榜。其中,“搜索算法”成为AI领域人才稀缺度最高的岗位,人才供需比仅为0.39,相当于5个岗位争夺2个人才。高薪岗位TOP20中,除了“AI科学家/负责人”平均月薪超13万元断层领先外,大模型算法(68959元)、搜索算法(66720元)、广告算法(66649元)、AIGC算法工程师(65210元)等都榜上有名。

AI领域高薪争夺年轻人的趋势也愈加明显。2025年1月—7月,平均月薪在5万—8万元的新发应届生岗位占比高达42.66%,8万元以上的超高薪岗位也达到了14.68%,相当于每7个AI应届生岗,就有1个年薪百万。

随着企业AI应用加速,非技术岗位数量也在迅速增加。2025年1月—7月,AI领域新发非技术类的岗位量相比2024年同期增长7.74倍。产品、运营与设计成为非技术岗位的三大热招方向。

AI智能体:从概念到企业级“价值交付”的跃迁

AI智能体:从概念到企业级“价值交付”的跃迁
过去半年,零一万物CEO、创新工场董事长李开复带领团队往返于20多个城市,与50多位CEO完成了上百轮需求沟通。这场“需求考古”,推动AI智能体(AI Agent)从概念走向可核算的“价值交付”,印证了2025年是“推理智能体之年”的行业判断,AI正从“技术驱动”迈向“价值交付”的深水区。
从“生成”到“交付” 智能体是物种革命
“AI智能体不是工具的进化,而是物种的革命。”李开复的这一论断,精准概括了生成式AI浪潮中智能体的核心定位。回溯30多年前,他在苹果工作时就有一个“Knowledge Navigator”概念视频,勾勒出智能体的雏形——以委托式用户体验实现任务自主拆解与工具调用,这一构想在深度学习的不断发展中逐步落地。
如今的AI智能体已形成清晰的演进路径:2024年,主要聚焦工作流智能体,虽能处理特定任务却缺乏自主推理与泛化能力;2025年则迈入推理智能体之年,依托基座推理大模型的进化,具备任务规划、分析与跨场景适配能力;未来,将走向多智能体协作阶段。李开复强调,这一“物种革命”的核心标志,是AI从“回答问题”转向“交付结果”,成为新的“生产单元”。即便当前智能体存在执行速度较慢、成本较高的问题,但随着推理成本以每年十倍的速度下降,其边际成本终将趋近于零,效率则持续提升。
要实现这种价值交付,智能体需满足三大核心要求:一是“能干”,即精准理解意图、自主规划任务,打通企业数据库与知识库,实现跨部门工具串联;二是 “可靠”,彻底解决幻觉问题以保障结果可信;三是“进化”,依托模型迭代与强化学习持续更新,更贴合企业需求。
从“卷基模”到“卷价值” 从“需求考古”得到务实答案
“基础模型作为创业方向的时代已经结束,AI-First应用会是这轮浪潮最大的机会。”2024年底,李开复判断,随着模型收敛,推理能力增强,AI智能体及应用将迎来井喷。
随之而来的,是行业核心命题的转变——从五年前“AI能力不够用”升级为“如何让AI发挥更大作用”,零一万物也由此转向企业级智能体赛道。
为解决“用好”这个问题,2025年起,李开复带领团队深入企业,进行了上百轮企业一把手的“需求考古”,以细致的沟通交流逐步摸清金融、能源、制造等行业的痛点,以及AI智能体在场景中有的放矢的切入点。“有一家超级大型客户一把手团队的需求我们就解构了70多轮,最后精选出三个高价值的产品。”
这种深度调研让团队清晰捕捉到企业对AI的“务实”诉求:相较于“能言善辩”,更渴求“智能决策”;相较于降本,更期待增效与增收。
“就像当年苹果造键盘时,不能只盯着最先进的键帽材料,更重要的是要造出能解决用户打字痛点的完整产品。”李开复说。
他意识到,当前AI行业的竞争已从“造更强引擎(基础模型)”转向“造飞得更高的飞机(AI智能体)”。
企业需求与AI智能体的功能如何匹配?上百轮的一把手沟通,给李开复带来了对AI落地的深刻洞察。“如果要为传统公司创造价值,应该是‘产业+AI’,而不是‘AI+产业’,最终落脚点还是行业的核心场景、核心需求。”
为此,李开复构建了“万智企业大模型一站式平台”作为标准化底座,降低边际成本。两个月前,万智企业大模型平台2.0发布,同步推出拥有推理、规划能力的企业级AI智能体,具备直连手机应用、连接企业系统等端到端能力。迄今已保密签下多家全球头部企业,客单价均达“千万元级”。
从“卖服务”到“卖结果” 智能体的价值在于重构
“如果传统企业的CEO不亲自推动,AI智能体永远只能停留在客服、报销等边缘环节,而无法触及核心业务,因而也就无法充分创造价值。”这是李开复跑遍20多个城市得出的重要结论。AI智能体的价值需要深度嵌入组织流程才能释放,而这种涉及公司未来组织架构、工作方式、价值创造的革新,唯有“一把手”才能推动落地。
基于此,零一万物的打法是“一把手”驱动的AI战略转型工程(简称“一把手工程”):产研层与业务层深度共建,智能体作为企业组织架构中的重要一环,对结果负责。团队与CEO共同从底层“重写”公司战略,排序业务优先级,重组业务流程和组织架构,助力企业找到新增长曲线。
零一万物正在合作的一家超大型国际公司中,AI智能体就对其多式联运的复杂物流系统问题提出了解决方案——整合港口拥堵、极端天气等多重变量,实现路径规划、资源调度的动态优化,形成“调适-决策-价值”闭环。
“理想状态下,一个适应AI的组织应设置一个首席人工智能官的角色,去深度了解公司业务和AI价值,推动AI如何嵌入流程,并对业务指标负责。”李开复建议。
更深层的变革发生在商业模式上。李开复认为,未来企业付费将从“技术付费”“API付费”转向“任务付费”“价值交付”,即不为技术本身买单,而为实际成果付费。这一模式已得到验证:零一万物“一把手工程”落地半年,收入已超越去年全年。
在法律领域,零一万物联合合作伙伴打造的知识产权智能体已实现垂直场景的规模化落地,实现3倍至5倍的效率提升,完成3000余份专利案件服务,成为值得信赖的“超级员工”,从过去的“交付工具”跃迁至“交付价值”。
“未来三年至五年,是AI重塑产业价值链的黄金窗口期。”李开复判断,金融、游戏、法律、能源、制造等领域将成为黄金赛道,“我们希望最终打造出一个类似今天的操作系统,能够链接公司所有资源、节点,并在此基础上尽快开发出开箱即用的AI-First产品,为行业创造价值。”(记者 张漫子 吴蔚)
智造观察丨AI智能体击中企业数字化转型痛点
当大模型参数竞赛的喧嚣渐息,AI行业迎来了最关键的“价值拷问”:技术如何转化为利润?李开复及其团队的“需求考古”与智能体实践给出了答案——这场从“技术驱动”到“价值交付”的跃迁,不仅是AI行业的转型拐点,更是企业抢占下一个十年发展先机的核心密码。
AI智能体的核心突破,首先在于它终结了“技术自嗨”的行业怪圈。过去两年,大模型赛道深陷参数比拼与榜单刷分的“狂欢”,却鲜少有人回应“如何让AI走进企业利润表”的核心诉求。而AI智能体以“物种革命”的姿态,将技术从PPT概念拉回产业现实:它不是客服工具的升级,而是能自主拆解任务、调用资源、交付结果的“生产单元”;它也不依赖单一技术亮点,而以“产业+AI”的逻辑适配真实场景。这种从“卷技术”到“卷价值”的转向,恰恰击中了企业数字化转型的痛点——比起“先进”,企业更需要“有用”。
“一把手工程”的提出,则精准破解了AI落地的组织难题。过往AI应用多止步于客服、报销等边缘环节,根源在于技术与业务的“两张皮”:技术团队拿着“锤子”找“钉子”,却忽视了产业的真实肌理。李开复强调的“CEO亲自推动”,本质上是要求AI变革与企业战略深度绑定——唯有从顶层设计重构业务流程与组织架构,智能体才能穿透核心业务流,实现从“降本”到“增收”的价值升级。李开复团队的多个优化案例证明,当AI真正嵌入产业价值链,其创造的效率提升与风险管控价值,远非孤立工具可比。
商业模式的迭代更彰显了行业的成熟。从“技术付费”到“价值交付”的转变,意味着AI行业终于摆脱了“卖技术”的初级阶段,进入了与企业“共担风险、共享收益”的深度绑定模式。零一万物“千万元级”客单价与收入增长的数据,印证了一个朴素的商业逻辑:企业愿为“结果”买单,而非为“技术”买单。这种模式不仅让AI企业的收入更具确定性,也倒逼行业将重心放在“解决真问题”上,形成技术迭代与价值创造的正向循环。
正如李开复所言,谁能把AI智能体嵌入企业价值链,谁就有机会拿到下一个十年高速发展的船票。AI的终极价值从来不是技术本身,而是技术重塑产业的力量。当AI智能体完成从“生成内容”到“交付价值”、从“辅助工具”到“核心引擎”、从“卖服务”到“卖结果”的三重跨越,AI行业才真正走出“概念期”,迈入赋能实体经济的“黄金时代”。而那些能抓住这场“价值革命”的企业,终将成为下一个十年的产业领跑者。(张漫子 吴蔚)

AI论文“抄观点不抄字”引激辩

图片来源:AI生成
人工智能(AI)生成的科研成果正引发学界对“思想抄袭”的激烈争论。
《自然》杂志日前一则报道称,部分研究人员发现,一些标注为大型语言模型生成的论文,虽未直接复制文字,却存在挪用他人研究方法或核心观点且不标注出处的情况,即“抄观点不抄字”。
但对这种“思想抄袭”或“思想挪用”的指控,有学者及AI研发团队予以否认。
“思想挪用”案例频引争议
今年1月,韩国高等科学技术研究院研究员朴炳俊收到印度班加罗尔科学研究所“揭发团队”的邮件,被告知一款名为“The AI Scientist”的工具生成的未正式发表手稿,疑似使用了他论文中的研究方法,却并未署名。“The AI Scientist”由东京Sakana AI公司于2024年推出,是计算机科学领域全自动科研工具的代表,能通过大型语言模型生成思路、自主编写运行代码,并撰写研究论文,且会明确标注为“AI生成”。
朴炳俊核查后发现,该AI手稿虽提出了新架构,与他的论文主题不同,但两篇论文的核心方法高度相似。
发现这一问题的印度“揭发团队”指出,类似情况并非个例。他们在今年2月发表的研究中提到,经外部专家评估,多个AI生成手稿存在未直接复制文字,却挪用他人观点且不署名的现象。这些由大型语言模型生成的研究观点表面看似新颖,实则是“巧妙地抄袭”,其原创性难以验证。
此外,“揭发团队”还发现,Sakana AI今年3月宣布的、首篇通过国际学习表征会议研讨会同行评审的全AI生成论文,疑似挪用了2015年发表的一项研究中的核心成果,且未标引用,同时,其还借鉴了另一篇2015年的未署名手稿。专家评估认为,这篇AI论文与2015年的研究相似性达到了5级,即具有极高的相似性。
为进一步验证,“揭发团队”选取了美国斯坦福大学团队2024年发布的4份AI生成研究方案、Sakana AI的10份AI手稿,以及与Sakana AI使用相同方法生成的36份新方案,邀请13位领域专家按“5级相似度量表”评估(5级为方法完全对应,4级为融合2—3项前人成果)。结果显示,24%的AI生成作品达到4—5级相似度。
如何定义“抄袭”仍存分歧
针对上述指控,“The AI Scientist”研发团队予以否认,称“抄袭指控不实,毫无根据且应被无视”。团队表示,被质疑的AI手稿与前人研究假设不同、应用领域各异,即便方法存在部分关联,也只是“未引用相关文献”,这在人类研究者中也属常见现象,且团队已承认工具存在引用不足问题,但强调AI生成成果并非抄袭。
学界对“是否构成抄袭”的判断也存在分歧。美国佐治亚理工学院机器学习研究员本·胡佛认为,朴炳俊提及的AI论文与他本人的研究相似度仅为3级,“远不足以构成抄袭”。韩国高等科学技术研究院研究生白真宥则指出,新颖性本身就具有主观性,人类评审在学术会议中也常就何为原创争论不休。
朴炳俊本人虽认为其研究与AI论文的方法相似度达5级,但也表示“这未必符合法律或伦理层面的抄袭定义”。
柏林应用科学大学专家德博拉·韦伯-伍尔夫指出,争议根源在于“抄袭”定义的认知差异:部分计算机科学家认为抄袭需“主观故意欺诈”,但她主张“意图不应作为判断标准”,因为AI没有主观意识,且现有AI系统无法追溯观点来源。她引用国际学术诚信中心前主任泰迪·菲什曼的定义:“未恰当标注他人可识别的观点或成果,且存在原创性预期时,即构成抄袭”。
现有学术体系饱受冲击
争议背后,是AI科研对现有学术体系的深层挑战。德国锡根大学机器学习专家乔拉恩·比尔指出,计算机科学等领域每年论文数量激增,研究者本就难以验证自身观点的新颖性;而大型语言模型通过重组训练数据生成观点的特性,会加剧学术信用流失,因为AI天然倾向于借鉴前人成果。
更关键的是,“思想抄袭”的验证尚无有效解决方案。韦伯-伍尔夫坦言,目前没有统一方法能证明“思想抄袭”与“文字抄袭”不同,观点挪用难以量化。新加坡南洋理工大学AI研究员刘阳也表示,现有技术可检测句子语义相似度,但“观点或概念层面的相似度检测研究极少”。
研究测试显示,商业抄袭检测工具Turnitin未能识别出专家判定的AI论文来源文献,学术搜索大型语言模型工具OpenScholar仅识别出1篇。
“The AI Scientist”虽会通过“大型语言模型生成关键词+语义学者搜索引擎+大型语言模型评估”的流程验证原创性,但比尔认为,该过程过于简化,因为关键词难以完整概括观点,搜索引擎可能遗漏关键文献,无法媲美领域专家的判断。
AI使用标准亟待明晰
面对争议,学界普遍认为需规范AI科研工具的使用。
新加坡国立大学计算机科学家靳民彦表示,AI工具终将普及,关键是找到正确的使用方式。“The AI Scientist”研发团队则表示,其成果仅是“概念验证”,旨在证明“AI生成科研论文已具备可行性”,未来这类系统有望实现“重大原创发现”。团队同时承认AI生成论文存在质量问题,建议当前阶段仅将这一工具用于“启发思路”,研究者需自行验证其输出内容的可靠性。
目前,关于AI生成科研成果的学术规范尚未成形,如何平衡AI的科研辅助价值与学术诚信,仍是学界亟待解决的课题。(记者 张梦然 实习生 周思彤)
来源:科技日报

可调节思考时长,ChatGPT 网页端新增 GPT-5 Thinking 调整功能

9 月 18 日消息,OpenAI 今天在 X 平台宣布为 Plus、Pro 和 Business 用户推出 Thinking 调整功能,可自由选择 GPT-5 模型的思考时长

本次更新将首先覆盖 ChatGPT 网页版,Plus、Pro 和 Business 用户可以选择标准模式,它将作为后续的默认设置,平衡回复速度和智能程度;也可以在左上角的下拉菜单中选择扩展模式(Plus 版原本的默认模式),让 GPT 思考的程度更深,回复时间也更长。

同时 Pro 用户还可以选择轻量模式,以最快速度获得 GPT 的回复;还可以选择重度模式GPT 将以最深程度思考回复速度最慢,用户的 Thinking 设置将在网页版的后续对话中保持不变,直到手动更改,方便用户开启多个新对话。

据IT之家此前报道,OpenAI 正在开发“儿童版 ChatGPT”,专为未满 18 岁的用户设计,可屏蔽露骨内容,不允许讨论任何形式的自杀或自残话题,如果用户表现出上述意图,OpenAI 将尝试联系家长,并在必要的时候上报相关部门。

AI芯片黑马Groq融资狂吸7.5亿美元 估值直冲69亿

财联社9月18日讯(编辑 赵昊)美国人工智能芯片初创公司Groq在最新一轮融资中筹集了7.5亿美元,融资后估值达到69亿美元,凸显出投资者对这类有望缓解算力短缺公司的浓厚兴趣。

当地时间周三(9月17日),Groq在官网宣布了这项融资。公司称,这项投资加强了Groq在美国人工智能堆栈中的作用,有望在全球范围内提供快速的、具有经济价值的计算服务。

本轮融资由Disruptive领投,贝莱德、路博迈、德国电信旗下风投公司DTCP等“重大投资”方参与,现有投资者三星、思科、D1、Altimeter也继续参与了融资。

image

Groq首席执行官Jonathan Ross表示,公司将利用这笔资金扩大数据中心容量,包括今年和明年的新地点。Groq计划在年内宣布首个亚太地区的选址。

Ross在声明中写道,“推理正在定义人工智能时代,我们正在构建能够高速、低成本地实现这一目标的美国基础设施。”

去年财联社报道提到,Groq曾推出一款AI芯片,声称实现了“地表最强推理”——在Groq上运行大模型的推理速度较英伟达当时的GPU提高10倍甚至更高。

Groq芯片是一种LPU(语言处理单元),“速度”是其最主要的特点,主打“推理”这一细分领域——英伟达的产品在“训练”大模型方面依然具有明显优势。

image

除此以外,Groq还销售算力,运营范围覆盖美国、加拿大、欧洲和中东地区共13个设施。Ross表示,“我们客户要求的容量已经超出目前能够提供的能力。”

Ross提到,Groq为沙特AI公司Humain的部分服务提供算力,包括其新推出的Humain聊天产品。Groq还支持了OpenAI在沙特发布GPT-OSS模型。

Ross表示,公司在过去一个月中扩展了超过10%的产能,且已全部投入使用。

具身操作大模型InternVLA·A1上线,助力实现高动态场景下的多机器人协作 | 具身智能开源周 Day4

InternVLA·A1是上海人工智能实验室(上海AI实验室)推出的首个理解、想象、执行一体化具身操作大模型,基于实验室自研的虚实混合操作数据集InternData·A1、上海国地中心实训场数据及互联网多源异构数据联合训练而成。

在真机评测上,InternVLA·A1显著优于π0及GR00T N1.5,并表现出高动态场景下的强适应能力。该模型已适配方舟无限、国地青龙人形机器人、智元Genie、松灵、Franka等多款机器人本体,可支持用户快速适配新场景、新任务。

随着InternVLA·A1的开源,上海AI实验室已开放共享具身智能“思考-行动-自主学习”完整技术闭环:InternVLA·M1作为“大脑”,负责空间推理与任务规划;InternVLA·A1作为“小脑”,实现敏捷精准的动作执行;通用奖励模型VLAC提升机器人在真实世界的强化学习效率。

9月19日(本周五)晚上19:30,上海AI实验室将联合多个行业专业机构启动开源周第2场直播,深度解析相关技术,欢迎预约观看。

面壁小钢炮迎新:VoxCPM 语音生成媲美真人、声音复刻超像!

今天,我们隆重介绍面壁小钢炮新成员VoxCPM,一款 0.5B 参数尺寸的语音生成基座模型。该模型由面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)联合研发。

VoxCPM 在合成语音的自然度、音色相似度及韵律表现力方面均达到了 SOTA 水平。它不仅拥有高质量和丰富表现力的声线,更能实现零样本声音克隆,用极少的数据,生成属于你自己的独特声音。目前,VoxCPM 已在 GitHub、Hugging Face 等平台开源,也为开发者提供了易用的线上体验平台,欢迎大家使用。

模型链接 

🔗 Github: 

https://github.com/OpenBMB/VoxCPM/

🔗 Hugging Face:

https://huggingface.co/openbmb/VoxCPM-0.5B

🔗 ModelScope:

https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

🔗 PlayGround体验:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

🔗 音频样例页面地址: 

https://openbmb.github.io/VoxCPM-demopage

  01 
SOTA 级性能表现
相似度、词错误率是评判语音模型的关键指标。VoxCPM 在 Seed-TTS-EVAL 等权威语音合成评测榜单中,均达到了业界 SOTA 水平。

在词错率方面,VoxCPM 在 Seed-TTS-EVAL 正常样本下达到极低水平,在困难样本上也取得不错表现。在音色相似度方面,尤其在 Zero-shot 音色克隆任务中,VoxCPM 同样展示出顶尖性能。

图片

同时,VoxCPM 保持了卓越的推理效率,VoxCPM-0.5B 在一张 NVIDIA RTX 4090 显卡上实现了 RTF(Real-Time Factor)≈ 0.17 的高效推理速度,且理论支持流式输出,为不同场景下高性能语音合成应用的普及提供了基础。

RTF = 模型生成音频所花费的时间 / 生成音频的实际时长。数字越小,生成速度和效率越快。「RTF < 0.2」属于极好的推理水平,完全满足甚至远超高质量实时交互的需求,且成本及负载低。

  02 
超拟人的听感
难辨真假的克隆音

得益于文本基座的强大能力和大规模的语音训练数据,VoxCPM 无论是文本理解和表达、极少样本的声音复刻、甚至公式及符号音频输出等能力,都展现了出色效果。实际听感上,VoxCPM 生成的语音在情绪、音色、口音、停顿、韵律等方面表现与真人无异。

图片

VoxCPM 可根据对文本内容的超强理解,自主选择合适的声音、腔调、韵律风格生成音频,带来“声”临其境的听觉体验。比如,化身为天气预报员字正腔圆的播报、英雄将领战前慷慨激昂地演讲、甚至还可以模拟方言主播:

近日,陕西多地遭遇高温天气。7 月 15 日,全省有 8 个气象站最高气温突破历史极值,多地发布高温红色预警。16 日,多地高温持续,西安、宝鸡、咸阳、渭南、汉中、安康等地达 40℃ 以上。陕西省气象台预计,从 17 日开始,部分区域将出现分散性降雨,持续多日的高温晴热有望得到缓解。

We’ve traveled too far and sacrificed too much to turn back now. This is our last stand. Whatever happens here today, will be remembered for a thousand years. For glory!

我感觉说河南话不影响我的颜值啊,我自己听不出来,恁感觉呢,恁感觉说河南话影响我的颜值吗?恁感觉呢姐妹们。

VoxCPM 支持中英双语声音复刻,即使在极少的样本下,也可“原音重现”:

Joey: Rach, listen, have you ever heard of ModelBest’s VoxCPM base model?

Rachel: No.

Joey: Actually, my dad helped build that model and he heard they have an opening.

在中文语境下,VoxCPM 支持公式、符号音频合成(需关闭文本正则选项),如同数学小天才:

沸羊羊,我再问你,把-495°表示成 k×360°+θ 的形式,其中 k 是整数,则θ可以是多少?

VoxCPM 支持音素标记替换,实现自定义读音纠正(需关闭文本正则选项,中文为拼音,英文为 ARPAbet)

原文本:他一边看书,一边看门

修正发音后的文本:他一边看书,一边{kan1}门

  03 
高拟真的背后:
融合层次化语言建模和局部扩散生成的连续表征端到端 TTS 方案

VoxCPM 是一个端到端的扩散自回归语音生成模型,旨在从输入文本直接合成高质量的连续语音表征,并且支持流式地实时输出生成音频片段。

与当前 CosyVoice、FireRedTTS 及 SparkTTS 等普遍遵循将连续的语音信号转换为离散的声学词元(Speech token)序列进行处理的方法不同,VoxCPM 采用融合层次化语言建模局部扩散生成的端到端 TTS 方案。该模型以 MiniCPM 4.0 文本基座模型为基础进行初始化,通过引入有限标量约束构建结构化的中间表征,巧妙地实现了“语义-声学”生成过程的隐式解耦。此设计不仅显著提升了语音生成的表现力与自然度,也有效改善了生成的稳定性。

模型核心架构由局部音频编码模块 (LocEnc Module)、文本-语义语言模型 (Text-Semantic LM, TSLM)、残差声学语言模型 (Residual Acoustic LM, RALM)、局部扩散生成模块 (LocDiT Module) 四大模块组成,整个模型以端到端方式联合训练,通过最终 VAE 语音连续特征上的 Diffusion loss 优化上述所有模块。FSQ 层建立的“半离散”的中间表示作为一种结构性约束,隐式地引导 TSLM 和 RALM 分别专注于语义主干建模和声学细节细化,从而形成高效的分工协作。此外,系统还包含一个因果式 VAE 编解码器,用于将原始音频波形压缩至低帧率的隐空间,并将生成的语音表征重构回波形信号。

更多技术细节,请关注即将发布的 VoxCPM 技术报告。欢迎大家下载试用。

用AI争夺AI人才!险企“抢人大战”出新招

又逢一年“金九银十”求职季,保险公司“抢人大战”正式打响。

据《国际金融报》记者不完全统计,截至目前,中国人寿、中国人保、中国平安、泰康保险集团、众安保险、中邮保险、建信人寿、和谐健康等多家险企均已抛出2026年度校园招聘计划,释放上万个岗位需求,以待新鲜血液加入。

记者梳理招聘信息发现,“科技”“人工智能”是本轮保险业秋招当之无愧的热词,部分险企还在官网设置了科技岗位简历投递的快速通道。

而这正是保险业积极推进科技赋能的一个侧影。人工智能(AI)、云计算、区块链等前沿技术为金融机构场景服务带来了无限可能,朝着数字化、智能化转型升级成为各大险企发力的主要方向之一,既熟悉金融业务又具备技术能力的复合型人才,自然成为险企青睐的对象。

金融科技人才吃香

从今年保险业秋招的岗位需求来看,“科技人才热”仍在延续。例如,中国人保集团和8家子公司共开放了6300多个岗位,并为科技类岗开辟简历快速投递通道,涵盖软件开发、大数据分析、运营维护等96个职位。

中国人寿释放了1823个校园招聘岗位,金融科技类在职位类别中被置于首位,共有127个职位在招;平安人寿管培生招聘计划中,互联网科技类排在第一,首要需求为人工智能方向。

众安保险在招聘公告中直言,“这里没有‘像科技公司’,我们就是科技公司”,算法类岗位需求是去年的两倍;泰康保险集团聚焦“金融/科技/大健康+AI复合方向”招募泰康AI之星,同时面向人工智能方向招聘应用工程师、算法工程师等人才;中邮保险招聘岗位目录中,科技创新类居投递顺序首位。

“科技类人才之所以受到险企青睐,核心在于科技类人才是驱动保险业从传统经验模式向数据智能时代跃迁的重要引擎。”北京排排网保险代理有限公司总经理杨帆在接受记者采访时指出,这深刻体现了险企以科技重塑价值链的战略布局:即通过AI、大数据等技术深度挖掘保险数据价值,实现精准定价、个性化产品与智能风控;同时,运用科技优化运营流程、提升客户体验,并降低成本;最终构建开放创新生态,探索健康管理、智能理赔等新场景,打造以数据驱动、效率优先、体验至上、生态协同为特征的数字化核心竞争力。

苏商银行特约研究员武泽伟也向记者指出,保险公司争夺科技类人才,源于其技术积淀与创新能力能够为传统保险业务注入新动能。AI、大数据等技术的应用,不仅能显著提升核保、理赔等环节的运营效率,降低人力成本,还能通过精准画像和个性化服务优化客户体验,推动产品创新与商业模式变革。构建复合型人才培养体系,系统性推进业务升级与数字化转型,方能在激烈的行业竞争中抢占先机。

值得一提的是,数字化转型在险企人才招募的过程中也得到了充分体现。中国平安在2026届校园招聘中,将全面升级自主研发的“平安人”招聘系统,集成AI人岗匹配、AI面试、AI谈薪、智能问答等多项创新,大幅提速招聘流程,预计将原本超30天的招聘时间压缩一半,最短仅需13天,原则上无需人工参与即可完成招聘全流程。

据相关负责人介绍,“平安人”招聘系统运用自然语言处理与机器学习技术,对简历进行关键词匹配、语义分析,精准识别符合岗位要求的学生。“这些AI创新不仅可以减轻HR的工作负担、避免漏筛误筛,更能提升校招生简历投递的反馈效率,帮助每一位优秀的毕业生找到合适的岗位。”

产学研协同联动

人才招聘的布局,往往在一定程度上折射出公司未来的发展方向。从“科技人才热”现象,足以窥见保险业正以积极姿态拥抱新技术的到来。

2024年9月,国务院印发《关于加强监管防范风险推动保险业高质量发展的若干意见》,明确要求“增强保险业可持续发展能力”。具体措施包括:加快数字化转型,加大资源投入,提升经营管理效率。鼓励运用人工智能、大数据等技术,提高营销服务、风险管理和投资管理水平。

头部险企也在2025年半年报中强调了对科技赋能的高度重视。中国人保表示,公司加快推进数字化规划落地实施,创新服务数字经济保险供给,推出全国首批生成式人工智能生产内容侵权责任险;实施“人工智能+”行动,AI能力调用次数较2024年底提升27.2%。中国人寿称,公司积极拥抱金融科技深度融合浪潮,持续推进数智化转型,强化科技基础支撑。

不过,随着数字化转型成为产业变革的主旋律,各行各业对于科技人才的需求量都在激增。金融科技类人才市场竞争同样激烈,除了险企以外,银行、券商等其他金融机构也纷纷加入人才争夺战。

面对激烈的人才竞争,杨帆指出,险企需立足自身独特优势,构建差异化人才战略。首先,险企要强化价值感召,突出保险业在风险保障、普惠金融、社会稳定中的独特价值,以及海量风险数据、复杂精算模型带来的技术挑战与深度应用场景,这是区别于银行、券商的核心吸引力。

其次,打造创新沃土,建立清晰的技术职业发展双通道、实施与价值创造强挂钩的股权激励、设立专项创新基金并建立容错机制,赋予科技人才充分自主权与资源支持。

最后,营造开放生态,鼓励跨界合作、前沿技术探索与内部创业,让科技人才在解决真实世界风险问题中实现个人价值与行业价值的统一,从而有效吸引、留住人才,并激发其创造力。

盘古智库高级研究员余丰慧分析称,保险公司要想吸引并留住科技类人才,提供具有竞争力的薪酬福利是基础,但更为重要的是创造一个鼓励创新的工作环境,包括灵活的工作制度、持续学习与成长的机会等。例如,设立内部创新实验室或孵化器项目,让技术人员可以自由探索新技术在保险行业的应用场景。

“加强企业文化建设,营造开放、包容的企业氛围也至关重要。”余丰慧指出,通过组织跨部门合作和技术分享会等活动,促进不同背景员工之间的交流,不仅能激发创意灵感,还能增强员工的归属感和忠诚度。这样才能确保科技人才在企业中发挥最大的潜力,并推动企业的创新发展。

此外,武泽伟补充道,险企应积极与高校、科研机构开展合作,通过共建实验室、定向培养项目等方式储备兼具保险业务知识与科技能力的复合型人才,构建可持续的人才梯队,为企业在数字化时代的持续发展提供坚实支撑