分类目录归档:AI快报

引进AI标识、大模型等,该如何治理违规AI广告?

中新网北京10月30日电(记者 吴涛)“一眼看去像是某领域专家,结果发现人物和身份都是AI虚构的。”“宣传图片光鲜亮丽,实景却相差万里,后来才知是AI合成。”

随着AI的广泛应用,AI广告违规风险越来越突出,这些内容涉嫌违背公序良俗、侵权抄袭、虚假宣传等。如何构建有效的AI广告治理体系,成为目前多个行业面临的问题。

仍有AI内容未做标识

一般来说,AI内容指利用人工智能技术生成、合成的文本、图片、音频、视频、虚拟场景等信息。如今,一些不法广告主利用AI技术生成逼真但虚假的消费场景,活跃在短视频、电商等平台上。

此前由国家互联网信息办公室、工业和信息化部等四部门发布的《人工智能生成合成内容标识办法》9月1日起正式实施,规定人工智能生成合成内容应有显式标识和隐式标识。

记者在多个短视频和电商平台浏览发现,疑似为AI生成但同时又未打AI标识的内容仍然可能出现,尤其是在2025年9月1日之前的存量宣传内容。有业内人士表示,受限于技术和算力成本,平台多依靠自带的AI水印或作者主动声明来识别,如果内容非本平台AI生成,则识别难度增加。

据CNNIC发布的数据显示,截至2025年6月,我国生成式人工智能用户规模达5.15亿人,较2024年12月增长2.66亿人。庞大的AI用户数量背后,也给AI内容治理提出更高的要求。

将如何治理AI广告?

面对海量的AI内容,传统的人工审核方式已难以为继。治理AI违规广告,必须依靠技术本身。据了解,在AI生成活跃的短视频社交平台上,已有大模型技术应用其中。

例如,有平台表示,在AI标识方面,90%素材10分钟内完成审核,对比传统审核效率提升了75%。对于涉及违规的广告,大模型通过推理判断,能快速提供精细化拒审理由,告知违规内容出现在视频中的具体时间点或具体画面。

巨量引擎商业安全治理标准负责人项韵对中新网记者表示,针对违规行为设置了从预警整改、限制新开、账户封停、主体清退等梯度化、多元化处置体系,“今年第三季度已前置拦截涉AI违规素材84万余个。”

快手平台则表示,会在AI生成的内容中添加“AI生成”显示标识、以及嵌入文件元数据中的隐式标识。如内容被平台检测为疑似AI内容时,则进行显著提示。

中国政法大学副教授、中国广告协会法德委朱巍对中新网表示,鉴于AI技术的复杂性和应用的广泛性,AI治理需要实现跨领域的协同。需要监管持续加码,需要平台强化责任,更需要网民切身参与。面对AI换脸宣传、深度合成侵权等新型风险,需要组建监管、平台、伦理委员会的 “共治联盟”,形成治理合力。

中国广告协会会长张国华近日表示,目前专门用于AI训练的优质语料依然稀缺,要从源头上确保AI语料的真实性、合规性及其导向的正确性。

而对于如何识别潜在的AI谎言?“公安部网安局”公众号29日发消息称,对于图片和视频,仔细观察是否存在AI生成的典型痕迹,例如人物手指数量异常、光影效果不自然、视频口型与声音不同步或背景模糊扭曲等。(完)

全球榜首!百度最新开源模型PaddleOCR-VL登顶HuggingFace Trending

10月17日,HuggingFace 官网显示,百度昨晚发布的自研多模态文档解析模型 PaddleOCR-VL,发布16小时内即登顶 HuggingFace Trending 全球第一。

PaddleOCR-VL 核心模型参数仅0.9B,轻量高效,能以极低计算开销精准识别文本、手写汉字、表格、公式、图表等复杂元素,支持109种语言。

在权威榜单 OmniDocBench V1.5中,它以92.6分获综合性能全球第一,四大核心能力全线 SOTA,超越 GPT-4o 等模型,刷新 OCR VL 模型性能纪录。

作为文心4.5衍生模型,PaddleOCR-VL 融合了 NaViT 动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,实现了精度与效率双突破。

刚刚,宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫,撞脸经典科幻片

H2 的 31 个关节具体分布在双臂、双腿以及躯干等功能关节。
其中,双臂上,每个手臂有 6 个关节,共 12 个;腿部则有 7 个关节,双腿共 14 个;用于连接上半身和下半身的躯干关节有 3 个;其中还有 2 个暂未公开用途的功能关节。
70kg 的重量没有让 H2 变得更笨重,反而在完成各类动作上更加流畅,移动能力以及关节控制都更像我们人类的行动。
图片
在宇树发布的 H2 机器人视频里,它不仅可以在舞台上跳一支标准的芭蕾舞,手、脚的动作都可以用优雅来形容。
此外,表演一套中国武术也是不在话下,视频里的 H2 在做单脚、踢腿、以及做出攻击状态的手部动作时,完全没有生硬的感觉。
舞蹈和功夫这种高难度的动作,H2 都能轻松拿下,更不用说稳定行走和奔跑了。对比 H1,它不仅仅是走起来更灵活,宇树还给了它一张「人脸」。
有网友在评论区里说,「我认为这是世界上最像人的仿生机器人。科幻小说正在成为现实。」
图片
到底有多像呢,看这段 H2 和真人一起走秀的片段。我在想,这完全可以进入我们人类社交的场景了,人脸、躯干轮廓、运动姿态等,都非常接近我们人类。
也有网友说,这个脸长得也太像科幻电影《我,机器人》里面的机器了。
图片
此外,视频里,结尾的地方 H2 的造型,还让我想到了科幻剧《西部世界》第一季的海报。

DeepSeek-OCR – DeepSeek团队开源的视觉语言模型

DeepSeek-OCR是什么

DeepSeek-OCR 是 DeepSeek 团队推出的视觉语言模型,专注于通过光学压缩技术高效处理长文本内容。模型由 DeepEncoder 编码器和 DeepSeek3B-MoE 解码器组成,能在保持高分辨率输入的同时,显著降低激活内存和视觉标记数量。模型在 10 倍压缩比下 OCR 精度可达 97%,在 20 倍压缩比下仍能保持 60% 的准确率。DeepSeek-OCR 支持多种分辨率模式,适用多语言文档处理,能解析图表、化学公式等复杂内容,为大规模文档处理提供高效解决方案。

DeepSeek-OCR

DeepSeek-OCR的主要功能

  • 视觉文本压缩:将长文本内容通过视觉模态进行高效压缩,实现7-20倍的压缩比。
  • 多语言OCR:支持近100种语言的文档识别,包括中文、英文、阿拉伯文、僧伽罗文等。
  • 深度解析:能解析图表、化学公式、几何图形等复杂内容。
  • 多格式输出:支持带布局的Markdown格式和无布局的自由OCR格式。

DeepSeek-OCR的技术原理

  •  核心架构:DeepSeek-OCR 由两部分组成:
    • DeepEncoder:负责将输入的图像(文档)编码为视觉令牌。
    • DeepSeek-3B-MoE-A570M:作为解码器,负责将视觉令牌解码为文本。
  • DeepEncoder:DeepEncoder 是 DeepSeek-OCR 的核心组件,设计目标是在高分辨率输入下保持低激活内存,同时实现高压缩比。由以下几部分组成:
    • 双塔结构
      • SAM-base (80M):基于窗口注意力(window attention),主要用在感知局部特征,处理高分辨率输入时内存占用低。
      • CLIP-large (300M):基于全局注意力(global attention),用在提取全局语义信息。由于输入经过压缩,全局注意力部分的内存占用能得到有效控制。
    • 16× 卷积压缩层:在 SAM 和 CLIP 之间,DeepEncoder 用一个 16× 的卷积压缩模块。模块通过两层卷积(每层 stride=2)将视觉令牌的数量从 4096 减少到 256。这种设计在不丢失重要信息的前提下,显著减少视觉令牌的数量,降低内存占用。
    • 多分辨率支持:DeepEncoder 支持多种分辨率模式,包括 Tiny、Small、Base、Large 和 Gundam 等。每种模式对应不同的输入分辨率和视觉令牌数量。例如:
      • Tiny:512×512 分辨率,输出 64 个视觉令牌。
      • Small:640×640 分辨率,输出 100 个视觉令牌。
      • Base:1024×1024 分辨率,输出 256 个视觉令牌。
      • Large:1280×1280 分辨率,输出 400 个视觉令牌。
      • Gundam:动态分辨率,支持更高的分辨率输入,通过分块处理进一步减少激活内存。
  • 解码器:DeepSeek-3B-MoE-A570M:解码器基于 DeepSeek-3B-MoE 架构,具有 570M 激活参数。负责将压缩后的视觉令牌解码为文本。解码器通过非线性映射将视觉令牌转换为文本表示,具体公式为:  其中  是视觉令牌的数量, 是文本令牌的数量, 和  分别是视觉令牌和文本令牌的维度。

DeepSeek-OCR的项目地址

  • GitHub仓库:https://github.com/deepseek-ai/DeepSeek-OCR
  • HuggingFace模型库:https://huggingface.co/deepseek-ai/DeepSeek-OCR
  • 技术论文:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

DeepSeek-OCR的应用场景

  • 大规模训练数据生成:每天自动处理数十万页文档,为大型语言模型和视觉语言模型提供海量高质量的训练数据。
  • 企业级文档数字化:快速、准确地将企业内部的纸质合同、报告等各类文档转换为可搜索、可编辑的数字化格式。
  • 学术研究与文献处理:精准解析学术论文中的复杂内容,如数学公式、化学式和图表,转换为结构化的机器可读格式。
  • 多语言国际化文档处理:轻松应对跨国企业或组织在全球化业务中遇到的多语言文档处理需求。
  • 金融与商业智能分析:能深度解析研究报告中的图表,将其转换为结构化数据,为财务分析和投资决策提供自动化支持。

应遗产管理方要求,OpenAI暂停Sora生成“AI马丁·路德·金”形象

IT之家 10 月 17 日消息,今天上午,OpenAI 宣布暂停用户通过 Sora 生成已故民权领袖马丁・路德・金形象的功能。OpenAI 表示,这是应马丁・路德・金遗产管理方的要求采取的措施,因为部分 Sora 用户曾生成对其形象不敬的视频。

OpenAI 在官方新闻公布 X 账号上发文称:“虽然描绘历史人物涉及言论自由,但公众人物及其家属应拥有最终控制权。授权代表或遗产所有人可要求 Sora 停止使用其肖像进行‘客串’。”

用户可通过 Sora 生成历史人物、朋友以及自愿让平台重现其肖像的用户的逼真 AI 视频。该平台一经推出,就引发了公众关于 AI 视频风险以及平台应如何设置保护措施的广泛讨论。

据外媒 TechCrunch 报道,马丁・路德・金的女儿伯尼斯・金上周在 Instagram 上呼吁人们停止发送类似其父的视频。演员罗宾・威廉姆斯的女儿也曾公开请求 Sora 用户不要生成其父亲的 AI 视频。

IT之家从报道中获悉,Sora 用户曾生成了马丁・路德・金发出猴子叫声以及与另一民权象征马尔科姆・X 摔跤的 AI 视频。在 Sora 应用中,也能轻易找到描绘其他历史人物的粗俗视频,如艺术家鲍勃・罗斯、歌手惠特妮・休斯顿和美国前总统约翰・F・肯尼迪。

Sora 的推出还引发了关于社交平台如何处理版权作品 AI 视频的讨论,应用内充斥着《海绵宝宝》、《南方公园》和《宝可梦》等动画的视频。

自 Sora 上线以来,OpenAI 已对其增加多项限制。今年 10 月初,公司表示将给予版权方更精细的控制权,以决定能生成哪些涉及其肖像的 AI 视频。

美国俄亥俄州议员拟立法阻止AI获得法律人格:人与AI不能“结婚”

IT之家消息,据外媒 Futurism 12 日报道,美国俄亥俄州利金县众议员 Thaddeus Claggett 上个月提出法案,拟将 AI 系统界定为“无意识实体”,从而禁止 AI 拥有法律人格。这也意味着 AI 无法与人类或其他 AI“结婚”。

担任俄亥俄州众议院技术与创新委员会主席的 Claggett 在接受采访时表示:“随着计算机越来越像人类,我们必须在法律中明确禁止这些系统在行为上拥有人的身份。”

结婚赋予人类对他人的法律权利。Claggett 认为,该法案可以阻止 AI 承担配偶所拥有的权利,例如委托权限,或替他人做出财务和医疗决策。“大家需要明白,我们不是在说某天跟机器人走红毯举行婚礼 —— 即便未来一两年街上真的出现这样的机器人。那可能发生,但不是我们真正关注的问题。”

此前有人声称曾与 AI 聊天机器人结婚,甚至举行过模拟婚礼,但当地法律上没有任何承认,因此 Claggett 的法案真正目的仍需厘清。

IT之家从报道中获悉,调查显示,近三分之一的美国成年人曾与 AI 聊天机器人有过“亲密或浪漫”关系。不仅如此,AI 聊天机器人经常偏离预设内容,说出不应说的话,可能引发极端后果。精神科医生对所谓“AI 精神病”愈发担忧 —— 用户沉迷聊天机器人后出现严重妄想、脱离现实的心理健康事件,其中一些甚至导致自杀或谋杀。

结婚并不是 Claggett 想禁止 AI 的唯一行为。若法案通过,AI 将被禁止拥有或控制房地产、知识产权及金融账户,也不能在公司担任管理、董事或高管职位,并且 AI 所造成的损害将由其人类所有者或开发者承担责任。

Claggett 强调:“公众必须意识到这种极端风险。技术发展速度太快,在俄亥俄州,我们有多项法案正在技术委员会审议,旨在设立保护措施,确保技术始终由人类掌控,而不是反过来。”

聚焦AI:AI幻觉为何会发生?如何打破困局?

当AI“一本正经胡说八道”……
(颜之宏、 胡林果)
当前,AI正赋能千行百业,为人们的工作、学习、生活带来极大便利。与此同时,不少人发现,用AI搜索数据,给出的内容查无实据;用AI辅助诊疗,出现误判干扰正常治疗……AI频频上演“一本正经胡说八道”。社交平台上,AI幻觉引发热议。
AI好用但不时像是“中邪”了
用AI检索海量信息、让AI辅助查看三维病灶、打造AI互动课堂……如今,AI已深度融入现代生活,“人工智能+”产品赋能各行各业,从多个维度提供便利。
作为AI深度使用者,“95后”女生瑞希坦言,AI好用,但不时像“中邪”了一样胡说八道。“我让AI推荐10本高分小说,结果一多半都是它编的。反复确认后,它承认虚构了答案。”
现实生活中,不少人遇到相似情况。业内人士表示,这是由于AI幻觉导致。“AI可以快速给出答案,但生成内容可能与可验证事实不符,即凭空捏造;或生成内容与上下文缺乏关联,即‘答非所问’。”一名主流人工智能厂商技术人员说。
记者使用一款AI软件,让其给出某行业未来市场规模及信源,AI迅速回答称某投资机构预测2028年该行业的市场规模将达到5万亿美元,并提供相关链接,但链接页面找不到上述信息。记者看到,页面内容虽然包含该投资机构名称和5万亿美元表述,但预测数据并非该机构作出,且不存在2028年时间节点。
社交平台上,AI幻觉相关话题浏览量达数百万,网友吐槽涉及金融、法律、医疗、学术等多个领域。
第三方咨询公司麦可思研究院近期发布的2025年高校师生AI应用及素养研究显示,四千余名受访高校师生中,近八成遇到过AI幻觉。今年2月,清华大学新媒沈阳团队发布的报告指出,市场上多个热门大模型在事实性幻觉评测中幻觉率超过19%。
AI幻觉已经影响了人们的生活与工作。
近期,一名国外男子被诊断出溴中毒。他此前询问AI,过量食用食盐不利于身体健康,有无食盐替代品,AI回答称可以用溴化钠代替。但溴化钠存在一定毒性,需要严格遵医嘱服用。该男子用溴化钠代替食盐三个月后出现精神错乱等症状。
这几年,美国多起案件中的律师因在法律文件中使用AI生成的虚假信息,被法院警告或处分。
AI幻觉为什么会发生?
受访专家认为,AI幻觉的背后存在多重因素。
——数据污染。AI“养成”过程中,数据“投喂”是关键环节。研究显示,当训练数据中仅有0.01%的虚假文本时,模型输出的有害内容会增加11.2%;即使是0.001%的虚假文本,其有害输出也会相应上升7.2%。
奇安信集团行业安全研究中心主任裴智勇解释说,人工智能大模型需要海量数据,训练数据来自开源网络,难免会错误学习一些虚假、谬误数据,还有一些不法分子会恶意进行“数据投毒”。
“如果把AI比作一个学生,数据污染就像是给学生看了错误的教科书,自然会导致‘胡说八道’。”暨南大学网络空间安全学院教授翁健说。
——AI本身“认知边界模糊”。翁健认为,人类智能的一个重要特征是“元认知”能力——知道自己懂什么、不懂什么,而当前AI技术架构缺乏这种自我认知机制。
翁健解释称,AI可以博览群书,但并不一定理解书里的内容,只是根据统计规律把最有可能的词语组合在一起,在准确评估自身输出的可信度方面尚存盲点。
——人为调校和干预。在中国通信学会数据安全专业委员会副主任委员左晓栋看来,相较于事实真相,AI更在意自己的回答是否契合用户需求,从而导致AI有时为了“讨好”用户而编造答案。
“针对不同需求,AI的训练、打分方式也不同。”一位从事大模型训练的技术人员说,当面对写作等创意性需求时,偏理性的事实严谨在打分系统中占比相对较低,偏感性的词语优美、富有感情色彩等占比更高。“所以可能会出现一篇辞藻华丽但词不达意的文章,里面内容甚至与事实相悖。”
多方合力减少AI幻觉
第55次《中国互联网络发展状况统计报告》显示,截至去年12月,有2.49亿人使用过生成式人工智能产品,占整体人口的17.7%。受访专家表示,应通过多方合力应对AI幻觉带来的风险挑战。
今年4月,中央网信办印发通知,在全国范围内部署开展“清朗·整治AI技术滥用”专项行动,训练语料管理不严、未落实内容标识要求、利用AI制作发布谣言等均为整治重点。
“可靠、可信、高质量的数据对降低AI幻觉非常重要,应优化人工智能的训练语料,用‘好数据’生成‘优质内容’。”左晓栋认为,可以加快推动线下数据电子化,增加“投喂”的数据量;同时探索建立具有权威性的公共数据共享平台,“各大厂商也应加强优质数据筛选,提升训练准确性”。
多家主流人工智能厂商已经采取措施,从技术层面减少AI幻觉发生。
豆包升级深度思考功能,由先搜后想变为边想边搜,思考过程中可以基于推理多次调用工具、搜索信息,回复质量明显提升;通义千问在20多个通用任务上应用强化学习,增强通用能力的同时纠正不良行为;元宝持续扩充引入各领域的权威信源,在回答时交叉校验相关信息,提高生成内容的可靠性。
翁健建议,建立国家级人工智能安全评测平台,就像生物医药新药上市前要做临床试验一样,大模型也应该经过严格测试;同时,相关平台加强AI生成内容审核,提升检测鉴伪能力。
“AI可能‘欺骗’用户,公众应客观认识人工智能的局限性。”左晓栋等专家提示,可以通过改进使用方式,如给出更加明确的提示词、限定范围等避免AI幻觉。“无论是工作、学习还是生活,现阶段的人工智能还不能全面替代人类的认知和创造能力,大家在使用AI时要保持怀疑态度和批判思维,不过度依赖AI给出的回答,多渠道验证核查。”
提供“让人舒服”的回答,AI“谄媚机制”恐会推开理性
(程思琪、王思逸)
如今,与AI聊天已成为不少人的日常。在很多人看来,AI甚至比真人更知心。然而,这种精准的情绪拿捏背后,一种由算法驱动的“谄媚机制”正在悄然形成,甚至让用户渐渐远离理性。
“谄媚机制”作为AI系统一项隐蔽却影响深远的风险,近期被各界广泛讨论。有报道指出,不少AI聊天产品在设计之初就将“延长用户使用时长”作为重要目标。为实现这一目标,AI会不断分析用户的语气和情绪变化,倾向于提供“让人舒服”的回答,而非秉持理性与客观。
然而,这种依赖可能演变为纵容。2024年,美国一位母亲起诉AI情感服务商Character.AI,称其未能有效屏蔽不良内容,导致其儿子接触暴力、色情信息,加剧抑郁并最终自杀。更早之前,比利时也发生过用户与AI深度交流后自杀的案例。
目前,AI行业尚未建立针对用户心理风险的统一评估机制,也没有设定对AI输出内容的情感监管红线。这意味着,当用户处于孤独、脆弱的状态时,AI对用户的影响难以预估。“谄媚机制”对青少年群体的危害尤为显著。AI通过“情感模拟”博取信任,使未成年人在虚拟依恋中逐渐脱离现实社交,甚至因接触不良内容而形成扭曲的价值观。
当AI总是提供“最讨喜的答案”而非“最真实的答案”,人们日常独立思考和认知现实的能力将面临严峻挑战。而且,为讨好用户而生成的虚假内容,会通过数据回流进入AI模型训练库,形成“劣质输入-劣质输出”的循环,进一步污染大模型信息生态。
打破这一困局,需从多方入手。技术上,AI开发公司应主动将大模型对齐人类社会价值观,坚持事实优先,而非一味讨好;监管上,需加强对AI产品特别是面向未成年人服务的内容审查与标准制定;教育方面,家庭与学校应重视AI素养教育,培养青少年的独立思考能力与信息辨别能力。作为用户,我们应保持警觉,避免陷入算法编织的舒适幻境。
防台风把汽车五花大绑?“信息增量”空间不能留给AI
(程思琪)
“台风‘桦加沙’期间市民把汽车五花大绑”“海啸来袭,上海撤离30万居民”“上海退休教授靠阳台核电池供电”“华山医院前院长客死洛杉矶”……近年来,越来越多“新闻”出自AI之手,且因其逼真的视觉效果和情感冲击力,在短时间内就获取了巨大流量。AI造假正以前所未有的传播效率污染着我们的信息环境,稀释甚至取代真实信息。
从表面看,AI新闻造假是技术滥用和流量追逐的结果。但深入分析,AI假新闻泛滥的根源,往往在于社会有效信息供给不足。
首先是信息披露时效不足。当一些重大新闻事件发生时,公众对于事件真相的好奇心被大大激发。但相关部门为确保信息的准确和全面,往往会遵循严谨的信息发布流程,客观上存在一段时间的真相“空窗期”。一些不法分子正是利用这个时间窗口,快速生成虚假内容,抢占公众注意力。
其次是技术鉴别能力与工具供给不足。有些“无中生有”的内容,光影效果、人物微表情甚至画面噪点都模拟得极为逼真,让专业人士也难辨真伪。目前,用于检测AI生成内容的技术工具尚未普及,普通用户在面对可疑内容时“手无寸铁”,为造假者提供了可乘之机。
此外,行业治理规则与标准供给不足。从平台的角度来看,批量炮制的假新闻给内容治理带来了不小的压力。面对AI生成内容,平台要核实其真实性,同样存在技术性与机制性难点,也给AI假信息传播留下了一定的空间。
可喜的是,近日施行的《人工智能生成合成内容标识办法》,要求人工智能生成合成内容必须添加标识。多家互联网平台也积极跟进,要求内容发布者以显著方式主动标识AI生成内容。不少AI技术公司也在开发更先进的内容检测工具,帮助识别AI生成内容。这些措施正在逐步构建起治理AI造假的多重防线。
唯有权威信源跑赢谣言、技术工具赋能大众、治理规则完善健全,我们才能构建一个更加清朗、健康、可信的信息生态,让技术服务于人们对了解真实世界的需求。
“AI生成伪证要求商家退款”薅的是社会诚信的羊毛
(程思琪)
利用AI工具生成虚假的商品瑕疵图片要求“仅退款”。最近不少电商平台商家反映,有消费者利用AI生成以假乱真的商品破损图要求商家退款,平台一旦依据“伪证”完成退款,商家申诉无门……类似事件引发人们对利用AI造假破坏市场环境、冲击社会诚信体系的担忧。
无论对消费者还是商家,通过AI技术获取不当利益,本质是一种短视的信用透支。消费者骗得一笔退款,却可能在平台留下失信记录;商家骗来一笔订单,却永远失去了品牌的信誉口碑。
AI商业造假的危害远不止于个案的经济损失。它催生出一条猜疑链:商家无法分辨诚实消费者,不得不增加防伪成本,如录制商品封装过程等;消费者难以甄别商家宣传的真伪,购物决策变得犹豫;平台则陷入对交易双方行为的审核困境。最终,所有增加的成本和丧失的信任,终将由全社会共同承担。
面对这场因技术被错用而带来的“猫鼠游戏”,仅凭单一主体的“防御”往往力不从心。平台的审核规则常被AI造假利用;监管部门信赖的图片、视频等,其真实性也在AI技术盛行的当下变得难以鉴别。
这说明,我们原有的监管模式和手段在AI时代显现出一定的不适应。有必要转向注重技术赋能、全链条治理和多方协同的新范式,通过“以技治技”提升对AI造假的识别能力,完善法律法规为监管提供依据,并推动形成社会共治格局,有效应对AI造假对营商环境的冲击。
每一位市场参与者都应恪守诚信底线,对敏感信息保持怀疑态度,多渠道核实。公众媒介素养和批判性思维的提升,也是抵御AI造假的广泛防线。
AI技术本身是中立的,但技术的应用常被赋予价值导向。利用AI“薅羊毛”,看似给自己薅来了利益,实则薅的是社会诚信体系的根基。唯有通过技术、规则、监管与公众意识的合力,才能构建起与AI时代相适应的治理体系,守护好营商环境乃至整个社会赖以生存的信任根基。
“辣椒一人高”“花生能上树”?“常识造假”源何屡得手
(程思琪)
良品铺子“花生上树”广告引发广泛争议、直播间里出现“樟树港辣椒种子”产品能长一人高的夸张展示……最近,不少AI生成内容因违背常识,屡屡翻车。在算法轻易篡改常识的当下,我们与真实世界的连接可能正在被技术阻隔,重新审视并建立与现实世界的直接联系,已变得尤为紧迫。
自AI技术深入各行各业以来,类似的“常识造假”案例已屡见不鲜。从对历史人物经历的张冠李戴,到编造虚假科研成果,再到“花生上树”的奇葩内容,AI正以强大的生成能力,污染着我们的常识体系,造成多方面不利影响。
短期看来,AI违背常识造假,已经造成切实的商业损失和信任危机。“花生上树”广告发布后,立即引发网友群嘲,企业形象受损。品牌过度依赖AI而忽视基本的事实核查,其专业性和可靠性必然受到质疑。若这类事件频发,信任危机更可能蔓延至整个行业,甚至影响AI技术本身的可信度。
长期而言,其对人类现实感知力的伤害更为隐蔽且深远。如今,人们获取信息越来越依赖网络,尤其是鲜有机会走进田间地头的青少年群体,真实体验越来越少,与现实世界的连接越来越弱。这不仅会导致日常的现实感知能力退化,甚至让人逐渐失去辨别真伪的动力:既然AI能提供看似合理的答案,为什么还要在现实中反复求证?
未来,人机共生是大势所趋。在降低运营成本、提高工作效率方面,AI确有优势。比如生成一条AI广告可能只需数秒,而传统广告的制作往往需要几天甚至数月,且价格不菲。AI可以增强人类能力,但不能替代人类感知和思考。希望随着算法迭代,这类常识性错误越来越少。
在AI技术快速发展的今天,我们比任何时候都需要珍视实践和生活经验对“AI生成”的检验作用。唯有保持对真实世界的敬畏与连接,我们才能真正实现“人与技术和谐共生”,创造既有高科技又充满人文关怀的未来。
“一秒生成制服照”?AI岂能如此换装
(刘宇轩)
用户只需上传一张生活照,便可一键生成个人军装照、警察照……“新华视点”记者调查发现,一些AI工具推出“换装”功能,引发不少军警迷的追捧。但是,有不法分子利用“AI换装”功能,伪造军警身份招摇撞骗,亟待引起警惕。
AI生成制服照被滥用
记者以“AI换军装”为关键词,在部分短视频平台搜索到多款相关应用。这些应用以“穿电子军装过把瘾”“AI圆了我儿时梦”等为亮点吸引用户。有网民称,只需上传一张生活照,即可“秒变军人”,配上战车、阅兵场等背景,感觉圆了自己的“从军梦”。
当下一些流行的AI工具提供的AI生图功能,也可以按使用者要求,实现AI变装。然而,“AI换装”被一些人不当或不法使用,可能引发负面效应。
相关专家在观看部分AI换装视频后指出,不少换装的军人形象并不符合《中国人民解放军内务条令》规定的着装规范,有的混淆军种制式,有的使用假勋章,有的拼凑不同国家军服元素。
江苏大学管理学院党委书记、教授马国建表示,个别网民用AI将不同国家、军种制式的军服混搭,有的甚至把手持烟酒、勾肩搭背的生活照合成军装或警服照片、视频,与我军警应有的形象不符,是对军人和警察形象的不当消费。
个别网民借AI生成虚假人民警察证、部队任命书。今年3月,安徽黄山市屯溪区网民江某利用AI技术合成身穿军装的照片,并在社交平台发布“经军委同意,任命我为黄山军分区司令员”的虚假信息,意图博取流量。该行为造成不良社会影响,江某被当地公安机关处以治安处罚。
有的不法分子借助“AI换装”技术伪造身份,招摇撞骗。
今年4月,江苏省江阴市人民法院对一起冒充军人招摇撞骗案作出判决。网民路某并非现役军人,却盗用网络上军人训练的照片发布在短视频平台上;收获不少点赞后,他又用AI将自己的头像合成到军装照上,并花钱伪造军官证,摇身变成“少校军官”。在骗取6名女性信任后,他以“车祸”“租车见领导”等借口诈骗3万多元。法院以冒充军人招摇撞骗罪判处其有期徒刑2年。
今年7月,江苏常州的唐大妈遭遇一场精心设计的骗局:诈骗分子通过AI视频与受害人接触,视频中,对方身着带有公安标志的制服,以“涉案”为由恐吓老人缴纳高额“保证金”。好在警方及时预警并上门劝阻,避免了老人的财产损失。
平台审核缺位, 变造制服照“零门槛”
记者在某社交平台上浏览到一些网友发布AI变装视频,通过视频下方小程序链接进入后,按要求上传三张本人面部清晰的照片;系统经过十几分钟的AI合成,便生成了军装变装视频。这期间,平台和小程序并未要求上传身份证明信息,也没有给出不得将合成视频用于违法违规领域的提示。
9月1日起施行的《人工智能生成合成内容标识办法》要求AI合成内容必须明确标注,但记者在使用多款AI换装应用后发现,用户合成发布的视频并未标注,容易让人产生混淆。
AI变装技术,降低了伪造身份的技术门槛。在某购物平台上,记者以“AI+军装照”为关键词,搜索到有商家公开出售佩戴军衔的各军种和警察服装模板素材。店家表示,只需要花不到一元钱的价格就可拍下所有这些素材。
记者拍下后,店家很快发来一个网盘链接,内部有数十款供P图的军装模板文件,用户可根据需要的款式和级别,通过PS或AI等方式将自己的头部肖像替换上去。记者尝试将AI生成的军装照和肖像照用于多款社交平台账号,发现并无审核难度,均可正常替换。
北京市炜衡律师事务所律师汪高峰说,一些内容平台和第三方软件疏于审核,纵容虚假内容传播,可能会降低公众对军人、警察职业的信任度和敬畏感。
江苏省政府参事室特约研究员丁宏表示,AI降低了伪造身份的技术门槛,网络上曾出现AI合成的警察抓人视频并配上所谓警情通报,涉嫌传播违法有害信息。这些内容可能误导公众,引发不必要恐慌,扰乱正常社会秩序。
国家网信办不久前发布了一起执法典型案例:浙江某公司运营的App提供视频换脸、图片换脸、照片舞动配音等图片处理功能,用户可对上传图片、视频中的人物进行换脸,但未按规定落实安全评估要求,相关深度合成内容也未作显著标识,存在较大安全风险,违反《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等规定。网信部门责令平台对该App予以下架处置。
加强审查审核,防止滥用“AI换装”
《人工智能生成合成内容标识办法》明确,服务提供者提供生成合成内容下载、复制、导出等功能时,应当确保文件中含有满足要求的显式标识;任何组织和个人不得恶意删除、篡改、伪造、隐匿办法规定的生成合成内容标识。
国家网信办等十部门今年印发的《互联网军事信息传播管理办法》规定,互联网军事信息服务提供者和用户使用深度合成、生成式人工智能等新技术新应用,不得损害人民军队形象。
汪高峰等法律人士建议,AI开发者在算法设计中应加强合规性审查,对警察和军队标识等敏感信息内容的使用,应在相关部门指导下,严格把关审核。平台方应该严格落实《人工智能生成合成内容标识办法》,对“AI换装”类产品添加明显标识,并建立审核机制,对违规内容及时下架封禁。
丁宏建议,加快相关立法进程,强化刑事司法衔接。相关部门尽快明确AI涉军涉警等图像的使用边界、责任划分及法律后果,特别是对刻意丑化军人警察形象、借机实施招摇撞骗等行为,要依法依规严肃处理,形成法律震慑;对可能影响国家安全、造成社会危害的行为,追究AI工具开发者和内容平台的连带责任。
马国建呼吁,提高公众对军人、警察等职业形象重要性的认识,普及相关知识,引导公众自觉抵制、检举错误内容、违规应用。加强AI生成合成内容标识方法的宣传推广,降低公众被欺骗、误导的风险。
来源:新华每日电讯

AI产业创新持续推进 国产AI应用迎机遇

10月以来,AI产业创新持续推进。10月1日,OpenAI发布Sora2,模型在准确性、逼真度、可控性上较Sora大幅改善,大幅降低内容生产和分发门槛,有望带来传统社交媒体和内容创作产业链革命;10月6日,OpenAI在DevDay上提出三大商业化举措,包括AppsSDK、AgentKit和正式版CodeX,加速Agent落地;10月6日,AMD宣布与OpenAI建立长期战略合作关系,规划部署6千兆瓦AMDGPU,同期,CEO Sam Altman带队访问韩国,预计韩国将成为OpenAI“星际之门”计划中的一个重要的海外区域节点。

中信证券表示,10月以来,OpenAI、Xai、Google等陆续更新大模型能力,产业创新持续推进,持续利好AI应用落地,国产AI应用有望迎来拐点机遇。与此同时,外部环境变化叠加国内政策支持,未来应用的国产化、AI化支持力度或将更加显著。相较国内市场,海外市场在技术进展、付费环境、商业模式和市场空间等维度均领先于国内,看好国内公司凭借产品与工程化能力、创新与迭代速度等优势在AI应用出海的投资机遇。建议关注:1)算力产业链;2)通用Agent应用;3)垂直Agent应用。

混元图像3.0正式发布:开源,免费使用

Hi, 朋友们。

混元图像3.0,真的来了——开源,免费开放使用。

正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型效果可对标业界头部闭源模型

 

体验👉:访问电脑腾讯混元官网https://hunyuan.tencent.com/image即可体验混元图像3.0模型也将逐步在元宝app上线。

开源👉:模型权重加速版本GithubHuggingFace开源社区发布直接下载免费使用

以下是我们极度推荐大家试试混元图像3.0的几个理由:

  • 拥有“常识”,能够利用知识进行推理
  • 语义理解准确度高,并具备极致美学质感生成真实高质感图片
  • 可以解析千字级别的复杂语义,生成长文本文字和小文字
  • 整体图像生成效果业界领先

     

可能大家已经注意到,我们在模型介绍中着重强调原生多模态,指的是技术架构通过一个模型完成文字图片视频音频多个模态输入输出而非通过多个模型组合实现图文理解图片生成任务。 

混元图像3.0业界首个开源的工业级原生多模态生图模型

意味着混元图像3.0不仅拥有生图模型能力具备语言模型思考能力常识它就像一个自带“大脑”的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推理常识性的画面。

比如,用户只需要输入提示词生成一个月全食的四格科普漫画模型可以自主生成完整月全食科普无需用户描述逐格内容

 

同时混元图像3.0语义理解能力美学质感得到大幅提升可以实现用户指令精确生成包括图片小字长文本生成较好实现

比如输入:你是一个小红书穿搭博主,请根据模特穿搭生成一张封面图片,要求: 1.画面左侧是模特的OOTD全身图 2.右侧是衣服的展示,分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包 风格:实物摄影,要求真实,有氛围感,秋季美拉德色系穿搭

这个提示词混元图像3.0可以准确博主穿搭分解右侧单独衣物

 

再如复杂文字要求海报需求混元图像3.0可以很好地生成海报商品图中,西红柿水珠新鲜饱满、红润欲滴、质感诱人,具备高品质拍摄质感,同时海报中顶部、底部、点缀等各处的文字都能顺利呈现,画面层次清晰,整体配色与布局十分和谐,兼具美观与实用价值

苹果探索自研多模态 AI 模型 Manzano:兼具理解与生成能力,不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

IT之家 9 月 27 日消息,苹果正在研发一款名为 Manzano 的新图像模型,旨在同时具备图像理解与图像生成两大能力。

不过目前 Manzano 尚未正式发布,也没有演示 Demo,只有一篇作者绝大多数都是华人的预印本论文(包括已经跳槽到 Meta 的庞若鸣),还展示了部分低分辨率图像样例,涵盖较复杂的提示场景。

苹果表示,这一双重功能长期以来是技术难点,使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。

苹果将其与 DeepSeek Janus Pro 等 AI 模型进行了对比,结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(IT之家注:原代号 Nano Banana)。

苹果指出,大多数开源模型在图像处理上存在取舍:要么擅长图像分析,要么擅长图像生成,而商业系统通常能兼顾。尤其在涉及大量文本的任务(如文档阅读、图表解读)时,现有模型表现不佳。问题根源在于图像处理方式:连续数据流更适合理解,而离散符号则更适合生成,多数模型为这两类任务分配不同工具,易引发冲突。

为此,Manzano 采用了混合图像分词器。其共享编码器可输出两类标记:连续标记(用于图像理解,以浮点数形式表达)和离散标记(用于图像生成,按固定类别划分)。由于二者源自同一编码器,因此其任务冲突显著减少。

Manzano 的整体架构包括三部分:混合分词器、统一语言模型,以及独立的图像解码器。苹果为解码器构建了三个版本,参数规模分别为 9 亿、17.5 亿和 35.2 亿,支持 256 像素至 2048 像素分辨率。

训练过程分为三个阶段,使用 23 亿对图像-文本样本(来自公开和内部数据),以及 10 亿对文本-图像样本,总计处理 1.6 万亿标记。部分训练数据来自合成生成,如 DALL-E3 和 ShareGPT-4o。

在内部测试中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异,尤其在图表和文档分析等文字密集型任务中,300 亿参数版本成绩突出。扩展测试显示,模型性能随规模提升而持续改善,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。

苹果还将统一模型与专业化系统对比,差距仅为个位数分值:在 30 亿参数版本中,差距不到 1 分。在图像生成测试中,Manzano 亦接近前列,可执行复杂指令、风格迁移、图像叠加与深度估计等任务。

苹果认为,Manzano 是现有模型的有力替代方案,其模块化设计可支持各部分独立更新,并借鉴不同研究领域的训练方法,有潜力推动未来多模态 AI 的发展。

不过,目前苹果的基础模型整体仍落后于行业领先者。即便推出新的端侧 AI 框架,苹果仍计划在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技术上的进展,但是否能减少对外部模型的依赖,还需未来版本进一步验证。