查看原文
其他

Google发布Imagen 2,解决经典六指人问题,AI文生图卷起来了

王怡宁 智能涌现 2024-04-01

文|王怡宁

编辑|邓咏仪

封面来源|IC photo

几周前,Pika 1.0带着炫酷的官方宣传视频强势出道,将所有人的目光吸引到了文生视频赛道。

只需输入一段文字就能得到好莱坞电影质感的视频,Pika又一次丰富了人们对AI生成式内容的想象力,也把压力给到了文生图领域的“前辈”们。不过,就在上周,Google Deepmind在时隔一年半后,带着Imagen 2强势回归。除了更逼真的图像呈现效果,功能上也有多重升级,让文生图赛道的战局又变得有趣了一些。

珠玉在前,Imagen 2一经发布就面临网友们的灵魂拷问:“你们的模型好在哪里呢?”

△图源:Twitter

理解力更强,告别AI六指人

先上结论,升级版的Imagen 2确实有点东西!以下是几个关键看点:

1、使用自然语言生成高分辨率且更加逼真的图像。

不妨先看看下面这张图,是不是一张再普通不过的照片?

△图源:Imagen 2

但如果告诉你,这其实是由Imagen 2生成的呢?

Prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile.

仅仅依靠以上这串提示词,你就能用Imagen 2得到一张以假乱真的图片,这已经非常直观地展示了Imagen 2强调的高质量、高分辨率和逼真的特点。

和其他主流文生图工具对比,Imagen 2的表现也算相当出色。

△图源:Twitter

尤其值得一提的是,Imagen 2还解决了过去AI生成图片处理不好人的手部和脸部细节的问题,这也意味着,用户终于可以不用担心看到离谱的“三手六指”人了。

△图源:Imagen 2

这次,Imagen 2甚至还更进一步,开始考虑用户的审美偏好!

DeepMind为Imagen 2训练了一个特殊的“图像美学模型”,以人对光线、取景、曝光、清晰度等特质的偏好为基准,为每张图片打分。也就是说,Imagen 2现在更懂人类的审美了。

比如,用“花”作为提示词,基于人类的审美从左到右分数逐步提高。

△图源:Imagen 2

以同样一段出自《白鲸》的文字为例,Midjourney和Meta AI生成的内容不仅不太贴合人类的审美,还有些怪异。

△图源:Twitter

Prompt: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure)

Imagen 2和DALL·E 3表现更胜一筹,本质还是它们背靠的Google和OpenAI技术优势显著。拿Imagen 2来说,Google为这个新版本工具提供了内部最先进的文本到图像扩散技术(text-to-image diffusion technology),这种技术让Imagen 2不仅可以更准确地理解用户提示词的含义,也让图片质量又提升了一个层次。

此外,Imagen 2给了用户更多的自由空间去编辑他们的图像,比如让人眼前一亮修补(inpainting)功能,允许用户在原始图片中直接生成新的内容。

△图源:Imagen 2

2、生成各类商标,还允许添加数字水印

Imagen 2可以生成各类用于商业领域的Logo,让企业和品牌轻松实现商标自由。

△图源:Imagen 2

当然,更重要的是安全问题,比如,加个水印。添加水印的功能并不特别,难点在于如何有水平地加水印。在这一点上,Imagen 2为用户提供了一个完美的解决方案。

Imagen2在设计中集成了SynthID,这是一种用于加水印和识别 AI 生成内容的尖端工具包,这使得通过Imagen 2添加的数字水印肉眼无法察觉,且不会影响图像质量。

△图源:Google DeepMind

这种数字水印还非常“牢固”。不论是加滤镜、压缩体积、更改亮度,还是删除部分内容,水印都仍然能被检测到。

△图源:Google DeepMind

可以说,这项功能直击企业客户的痛点,对他们来说相当有价值。Google在他们的官网展示了客户之一,一家中国的知名设计和素材平台,对产品的评价,称Imagen已经帮助他们生成了数以百万计的图像,还尽可能减少了版权方面的摩擦。

3、支持多语言文本渲染和视觉问答

Imagen 2还提供文本渲染支持,又解决了以往文生图的一个技术难点。例如,如果提示模型生成具有特定单词或短语的对象图片,那么确保正确的短语是输出图像的一部分就很困难。

Image 2就解决了这个问题,对于企业想要在图片中露出正确的品牌信息尤其有帮助。

△图源:Imagen 2

除了英语,Imagen2预览版还支持中文、印地语、日语、韩语、葡萄牙语、英语和西班牙语6种语言,多语言版本预计将在2024年年初发布。

One More Thing

从Imagen 2的实测表现来看,Google在Imagen 1发布后的一年半里确实在取得了不小的研究成果,大有在文生图领域弯道超车的势头在。

当然,不同于被大众称作“竞品”的DALL·E 3和Midjourney,Imagen 2只是家大业大的Google业务中的一小部分。在过去的两周内,Google还发布了他们更重要的大模型产品Gemini(显然也是最核心的业务之一),和针对医疗行业进行微调的模型MedLM。

就在上周末,Google又推出了新的视觉语言模型PixelLLM,逐词定位功能让人眼前一亮,不仅能够对图片内容作出准确描述,还能精确指出图中每个词汇所对应的位置,可以说是在2023年的末尾又狠狠地“卷”了一把同行们。

△图源:Twitter

从上面的一系列动作来看,Google更想做一个在AI领域“全面发展”的优等生。Imagen 2的发布对于Google接下来AI业务的长远发展有着不小的意义,它拥有的强大的文本理解能力、制作高分辨率图片等能力有望在未来为Google更多的业务提供底层的技术支持。

美中不足的是,Imagen 2目前主要通过Vertex AI开放给Google Cloud的企业用户,而非直接开放给个人用户,此举也被一部分网友批评开放范围太小。

就在Imagen 2发布的同一天,文生图赛道的另一家明星公司Midjourney也正式上线了alpha版本,通过设置右侧滑块一键调整图片比例等功能提升了用户友好度,不过这些小规模更新似乎没有满足用户的期待。

不知道是否受了Imagen 2发布消息的影响,Midjourney在12月17日宣布将在下周更新V6版本,距离上一个版本已经时隔半年。从目前流出的一些图片来看,V6处理复杂信息的能力有明显提高,下周正式上线的版本值得期待,恐怕也免不了被拿来和Imagen 2一较高下。

比起文生视频工具惊艳但还不太稳定的发挥,Imagen 2的更新更像是Google在基础的视觉语言处理方面迈出的扎实一步,让AI学习人类审美来制图,是一种颇有意义的探索和进步。

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号

👇🏻 真诚推荐你关注 👇🏻

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存