Google发布Imagen 2，解决经典六指人问题，AI文生图卷起来了

Original 王怡宁智能涌现 2024-04-01

文｜王怡宁

编辑｜邓咏仪

封面来源｜IC photo

几周前，Pika 1.0带着炫酷的官方宣传视频强势出道，将所有人的目光吸引到了文生视频赛道。

只需输入一段文字就能得到好莱坞电影质感的视频，Pika又一次丰富了人们对AI生成式内容的想象力，也把压力给到了文生图领域的“前辈”们。不过，就在上周，Google Deepmind在时隔一年半后，带着Imagen 2强势回归。除了更逼真的图像呈现效果，功能上也有多重升级，让文生图赛道的战局又变得有趣了一些。

珠玉在前，Imagen 2一经发布就面临网友们的灵魂拷问：“你们的模型好在哪里呢？”

△图源：Twitter

理解力更强，告别AI六指人

先上结论，升级版的Imagen 2确实有点东西！以下是几个关键看点：

1、使用自然语言生成高分辨率且更加逼真的图像。

不妨先看看下面这张图，是不是一张再普通不过的照片？

△图源：Imagen 2

但如果告诉你，这其实是由Imagen 2生成的呢？

Prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile.

仅仅依靠以上这串提示词，你就能用Imagen 2得到一张以假乱真的图片，这已经非常直观地展示了Imagen 2强调的高质量、高分辨率和逼真的特点。

和其他主流文生图工具对比，Imagen 2的表现也算相当出色。

△图源：Twitter

尤其值得一提的是，Imagen 2还解决了过去AI生成图片处理不好人的手部和脸部细节的问题，这也意味着，用户终于可以不用担心看到离谱的“三手六指”人了。

△图源：Imagen 2

这次，Imagen 2甚至还更进一步，开始考虑用户的审美偏好！

DeepMind为Imagen 2训练了一个特殊的“图像美学模型”，以人对光线、取景、曝光、清晰度等特质的偏好为基准，为每张图片打分。也就是说，Imagen 2现在更懂人类的审美了。

比如，用“花”作为提示词，基于人类的审美从左到右分数逐步提高。

△图源：Imagen 2

以同样一段出自《白鲸》的文字为例，Midjourney和Meta AI生成的内容不仅不太贴合人类的审美，还有些怪异。

△图源：Twitter

Prompt: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure）

Imagen 2和DALL·E 3表现更胜一筹，本质还是它们背靠的Google和OpenAI技术优势显著。拿Imagen 2来说，Google为这个新版本工具提供了内部最先进的文本到图像扩散技术（text-to-image diffusion technology），这种技术让Imagen 2不仅可以更准确地理解用户提示词的含义，也让图片质量又提升了一个层次。

此外，Imagen 2给了用户更多的自由空间去编辑他们的图像，比如让人眼前一亮修补（inpainting）功能，允许用户在原始图片中直接生成新的内容。

△图源：Imagen 2

2、生成各类商标，还允许添加数字水印

Imagen 2可以生成各类用于商业领域的Logo，让企业和品牌轻松实现商标自由。

△图源：Imagen 2

当然，更重要的是安全问题，比如，加个水印。添加水印的功能并不特别，难点在于如何有水平地加水印。在这一点上，Imagen 2为用户提供了一个完美的解决方案。

Imagen2在设计中集成了SynthID，这是一种用于加水印和识别 AI 生成内容的尖端工具包，这使得通过Imagen 2添加的数字水印肉眼无法察觉，且不会影响图像质量。

△图源：Google DeepMind

这种数字水印还非常“牢固”。不论是加滤镜、压缩体积、更改亮度，还是删除部分内容，水印都仍然能被检测到。

△图源：Google DeepMind

可以说，这项功能直击企业客户的痛点，对他们来说相当有价值。Google在他们的官网展示了客户之一，一家中国的知名设计和素材平台，对产品的评价，称Imagen已经帮助他们生成了数以百万计的图像，还尽可能减少了版权方面的摩擦。

3、支持多语言文本渲染和视觉问答

Imagen 2还提供文本渲染支持，又解决了以往文生图的一个技术难点。例如，如果提示模型生成具有特定单词或短语的对象图片，那么确保正确的短语是输出图像的一部分就很困难。

Image 2就解决了这个问题，对于企业想要在图片中露出正确的品牌信息尤其有帮助。

△图源：Imagen 2

除了英语，Imagen2预览版还支持中文、印地语、日语、韩语、葡萄牙语、英语和西班牙语6种语言，多语言版本预计将在2024年年初发布。

One More Thing

从Imagen 2的实测表现来看，Google在Imagen 1发布后的一年半里确实在取得了不小的研究成果，大有在文生图领域弯道超车的势头在。

当然，不同于被大众称作“竞品”的DALL·E 3和Midjourney，Imagen 2只是家大业大的Google业务中的一小部分。在过去的两周内，Google还发布了他们更重要的大模型产品Gemini（显然也是最核心的业务之一），和针对医疗行业进行微调的模型MedLM。

就在上周末，Google又推出了新的视觉语言模型PixelLLM，逐词定位功能让人眼前一亮，不仅能够对图片内容作出准确描述，还能精确指出图中每个词汇所对应的位置，可以说是在2023年的末尾又狠狠地“卷”了一把同行们。

△图源：Twitter

从上面的一系列动作来看，Google更想做一个在AI领域“全面发展”的优等生。Imagen 2的发布对于Google接下来AI业务的长远发展有着不小的意义，它拥有的强大的文本理解能力、制作高分辨率图片等能力有望在未来为Google更多的业务提供底层的技术支持。

美中不足的是，Imagen 2目前主要通过Vertex AI开放给Google Cloud的企业用户，而非直接开放给个人用户，此举也被一部分网友批评开放范围太小。

就在Imagen 2发布的同一天，文生图赛道的另一家明星公司Midjourney也正式上线了alpha版本，通过设置右侧滑块一键调整图片比例等功能提升了用户友好度，不过这些小规模更新似乎没有满足用户的期待。

不知道是否受了Imagen 2发布消息的影响，Midjourney在12月17日宣布将在下周更新V6版本，距离上一个版本已经时隔半年。从目前流出的一些图片来看，V6处理复杂信息的能力有明显提高，下周正式上线的版本值得期待，恐怕也免不了被拿来和Imagen 2一较高下。

比起文生视频工具惊艳但还不太稳定的发挥，Imagen 2的更新更像是Google在基础的视觉语言处理方面迈出的扎实一步，让AI学习人类审美来制图，是一种颇有意义的探索和进步。

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号

👇🏻 真诚推荐你关注 👇🏻

继续滑动看下一个

智能涌现

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

Google发布Imagen 2，解决经典六指人问题，AI文生图卷起来了

理解力更强，告别AI六指人

One More Thing

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

生成图片，分享到微信朋友圈

Google发布Imagen 2，解决经典六指人问题，AI文生图卷起来了

理解力更强，告别AI六指人

One More Thing

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！