Hi, 朋友们。
混元图像3.0,真的来了——开源,免费开放使用。
正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对标业界头部闭源模型。
体验👉:访问电脑端腾讯混元官网(https://hunyuan.tencent.com/image)即可体验混元图像3.0,模型也将逐步在元宝app上线。
开源👉:模型权重和加速版本已在Github、HuggingFace等开源社区发布,可直接下载并免费使用。
以下是我们极度推荐大家试试混元图像3.0的几个理由:
- 拥有“常识”,并能够利用知识进行推理
- 语义理解准确度高,并具备极致美学质感,能生成真实的高质感图片
- 可以解析千字级别的复杂语义,生成长文本文字和小文字
- 整体图像生成效果业界领先
可能大家已经注意到,我们在模型介绍中着重强调原生多模态,这指的是在技术架构上,通过一个模型完成文字、图片、视频与音频等多个模态的输入与输出,而非通过多个模型的组合实现图文理解、图片生成等任务。
混元图像3.0是业界首个开源的工业级原生多模态生图模型。
这意味着,混元图像3.0不仅拥有生图模型的画画能力,还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推理常识性的画面。
比如,用户只需要输入提示词:“生成一个月全食的四格科普漫画”,模型就可以自主生成完整的月全食科普,无需用户描述逐格内容。
同时,混元图像3.0语义理解能力和美学质感也得到了大幅提升,可以实现对用户指令的精确生成,包括图片中的小字和长文本生成,都能较好地实现。
比如输入:“你是一个小红书穿搭博主,请根据模特穿搭生成一张封面图片,要求: 1.画面左侧是模特的OOTD全身图 2.右侧是衣服的展示,分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包 风格:实物摄影,要求真实,有氛围感,秋季美拉德色系穿搭”。
在这个提示词下,混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。
再如有复杂文字要求的海报类需求,混元图像3.0也可以很好地生成。海报商品图中,西红柿水珠新鲜饱满、红润欲滴、质感诱人,具备高品质拍摄质感,同时海报中顶部、底部、点缀等各处的文字都能顺利呈现,画面层次清晰,整体配色与布局十分和谐,兼具美观与实用价值