查看原文
其他

被Google收购的初创“AI虚拟形象”公司Alter:3D虚拟化身是未来在线社交的重要趋势,仍有技术和工具化机会|「文娱科技」

东西文娱 2023-10-23

The following article is from 东西游戏 Author 东西游戏

文娱科技,

上期AI虚拟偶像在ZEPETO“成团”(见文末)
关注文化娱乐科技的产品化与场景应用
欢迎投稿与交流,联系请见文末


伴随3D虚拟社交、元宇宙相关平台的发展,虚拟化身技术正逐渐在多个在线娱乐与社交平台上应用落地,成为升级用户体验、迭代社交模式的重要手段。

去年下半年近年末,Google宣布完成对初创AI虚拟形象公司Alter的收购,此后其开发团队也将加入Google。有消息称收购价格约1亿美元。

Alter是一家成立于2017年的AI科技初创公司,至今已经与推出过虚拟化身社交APP Facemoji和开源免费的技术集成——Facemoji 和Mocap4face两项SDK。其中Mocap4face发布于2021年,是一项即插即用的技术集成,不仅为该公司的其他产品提供支持,同时也服务于Reality、VTube Studio等应用开发。

目前,该项技术主要应用于虚拟化身的驱动。其借助AI技术与FACS编码系统,能够基于RGB摄像头采集的视频或图片信息,在虚拟形象与真人之间同步表情变化。相比其他表情捕捉技术具有使用便捷、对于运行设备要求较低等优点。

Google并未透露此次收购Alter的原因。不过,今年下半年以来,TikTok、Meta等公司都对虚拟化身领域有所关注和布局。如今年6月Tiktok推出了虚拟化身系统“Tiktok Avatar”,10月Meta表示将在其虚拟化身的一项SDK中加入“自然面部表情”功能。

因此,也有市场观点认为Google此举是为了应对与TikTok的竞争。Google在去年推出YouTube Shorts短视频功能,今年6月该平台已有15亿月活跃用户。


      


Google收购Alter,

后者专注AI虚拟化身技术研发


Alter前身为Facemoji,是一家聚焦于虚拟形象领域的AI科技公司。两位创始人Jonathan Slimak、Robin Raszka此前都有过互动产品的设计经验。公司旨在“通过提供开发工具,让品牌业者和创作者能够以虚拟形象对外产生互动”。

Mocap4face是Alter的关键技术,自2021年发布起,不仅支持该公司推出的Facemoji、Alter SDK等产品,也为Reality.Inc等其他公司提供过服务。

mop4face SDK产品

在AI算法的支持下,Mocap4face能够对RGB相机采集的图像或视频中的人脸表情进行特征抽象,根据其变化实时生成能够应用于虚拟形象的blendshape系数,实现虚拟化身的面部表情随动。

公司CEO Robin Raszka表示:“在线沟通的未来在于虚拟化身,但这项技术的发展没有跟上时代。如果开发者要从头开始构建下一代数字空间,在提供外观精美的3D内容的同时优化用户体验,那样成本高、速度慢且困难。我们正在改变这一点,并为下一代开发者和创作者开辟新的可能性。”

2021年,Alter前身Facemoji凭借在虚拟化身领域的探索与取得的技术成果,获得了300万美元的投资。该轮融资由风投公司Play Ventures领投,Twitter、Roosh Ventures等公司参投。Facemoji表示资金将用于扩大公司在业界的伙伴关系,以及进一步的研究和开发。

Play Ventures副总裁Phylicia Koh表示:“Facemoji 团队是虚拟化身技术的领导者,Play Ventures 很高兴能够为他们提供支持。我们认为Facemoji将成为元宇宙经济中的强大参与者,帮助改变开发者、创作者和用户的创作、游戏和交易方式。”

此次收购之前,Google在AI表情识别方面也已有技术积累和实际应用经验。比如今年早些时候,Google就在通信软件Allo中试水了一项新功能,可通过AI识别照片当中人物的表情与外貌特征,生成相应的表情包。Google提供的数据显示,该工具能够生成超过500万亿个不同面孔,为用户提供“量身定制”的emoji。

对于收购Alter的意图何在,Google方面并未作出说明。不过可以看到,其他在线娱乐与社交平台和公司,对虚拟化身领域也有较多关注和布局。

早在2020年,Snapchat就推出Bitmoji等。Bitmoji提供可定制外观的卡通形象,用户可将其与自己的账号绑定。不过该平台并不支持使用者和虚拟化身之间的动作同步。

到今年6月,Tiktok推出虚拟化身系统“Tiktok Avatar”。用户可以通过这一功能定制他们的头像,并且经由手机摄像头进行面捕,驱动他们的虚拟化身作出各种表情。

tiktok的avatar产品

今年10月,Meta也宣称将在自己关于虚拟化身的一项SDK中加入“自然面部表情”功能——那些持有Meta Quest Pro的用户可以将自己的表情同步到虚拟化身上。

同时,AI技术具有耐劳时间长,存储空间大,计算速度快等优势,有比较广阔的应用场景,与Google自身业务结合后,有助于进一步优化为用户提供的服务。

根据在Linkedin平台发布的动态,Alter团队中原先负责AI开发的Pawel Andruszkiewicz并未从事专门的虚拟化身开发工作,而是进入了Youtube Team担任高级软件工程师一职。而在Youtube的运作过程中,从实时渲染的快速特效系统,到自动删除违规内容和视频推荐等功能,也都有着AI技术的参与。


      

Mocap4face:利用CNN算法及FACS编码系统,只需手机摄像头即可实现表情捕捉

在Mocap4face SDK的支持下,仅需一台RGB相机即可实现面部表情捕捉与虚拟化身的表情随动。

目前在表情捕捉领域比较主流的结构光法和相机阵列法,前者需要专门的光学镜头、感光设备,后者则需多台相机同时拍摄,以获得关于人脸的深度信息。相比下来,Mocap4face的表情捕捉只需用户打开手机摄像头即可实现,在成本和操作上都更加“亲民”。

上述技术特色的背后,是CNN算法和FACS编码系统支持下的人脸表情捕捉技术。

CNN,即卷积神经网络,是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。其最基本的组成部分有三:卷积层、池化层、全连接层。

三者当中,卷积层对输入的局部提取特征,并利用权值共享机制来减少权值参数数量;池化层对提取的特征向量进行降维操作,加快处理速度;全连接层在整个网络中起到分类器的作用,利用回归或分类处理,将前面提取的抽象特征映射到样本标记空间。

借助CNN算法,开发者能够建立起深度学习模型,对采集的人脸表情数据进行有效的识别与特征提取。

在训练阶段,通过输入大量的样本数据,给模型送入人脸特征、表情等数据,进行矫正和增强后训练得到 AI 表情模型;在应用阶段,训练好的AI能够解析输入的图像或视频,提取表情特征。

在提取表情特征这一步,Mocap4face采用的是一个基于CNN的经典表情提取算法——将人脸图像/序列送入CNN网络后根据FACS进行特征抽象。所谓FACS即Facial AQction Coding System,是一套编码系统,其将人脸划分为不同的运动单元(AU),AU之间的不同组合形成了面部表情的可视变化。

在该方案中,AI首先将人脸信息数字化进行识别,再通过放射旋转缩放等几何变换实现特征点对齐,标注五官及其轮廓,定位人脸关键肌肉点。这些关键点位置(相对位置、绝对位置、距离和角度)的改变就意味着面部表情的变化。

在此基础上,AI将数字化的表情信息转变成为可判别的特征向量,再将这些向量送入驱动渲染模块解析,生成对应模型面部表情的实时blendshape系数,进而驱动虚拟形象。

FACS对人脸主要运动单元(AU)的编码

该项技术能够较好地应对以下两个问题:

首先是如何在保存图片特征的同时实现大数据量的图片降维:图像是由像素构成的,每个像素又是颜色构成的,因此就需要用RGB三个参数来表示该像素上的颜色信息。这就意味着,如果处理一张500x500像素的图片,我们就需要处理500x500x3=750000个参数。而CNN的卷积层能够通过降维,在保留图像特征的同时减少其需要处理的参数,从而更大程度提高数据处理效率。

其次是基于RGB摄像头(即普通手机镜头这样的2D摄像头)采集的信息,通过推理还原头部的3D动态:RGB摄像头本身是平面镜头,采集不到3D信息。但有了CNN算法的支持,它能够根据摄像头捕捉到的2D图像,估计图像当中每个位点到镜头之间的距离,在掌握这些信息后,推测出三维的空间关系,虚拟化身也就得以实现更加精确的头部运动。



主要应用:驱动虚拟化身,使用便捷、设备性能要求低

这项技术目前主要的应用领域是驱动虚拟化身,其优势主要有以下两点:

第一点是使用便捷、新手友好。

对于开发者而言,Mocap4face支持多系统、多平台,在苹果安卓和web端均可使用,同时该技术的一个亮点就是“即插即用”性。根据GitHub上官方发布的使用说明,用户只需在Facemoji官网创建开发账户、生成唯一的api秘钥,将其插入到自己的游戏/应用程式源代码中即可将面部识别功能整合进来,无需为此编写其他代码,有助于节省人工和时间成本,提升开发效率。

Facemoji app

对于用户而言,相比于3D摄像机动捕或者光学动捕这样本身就能够取得三维深度数据的手段,alter提供的方案需要基于摄像头采集到的二维数据通过AI进行推理,以衍生出相应的三维动作,这种方式可能显得繁琐,并且AI的计算推理也并非万无一失,导致最终呈现出的动作有时会发生错误。

不过,这种方式只需一台RGB相机即可驱动虚拟形象,无需外置设备,相比之下仍然属于低成本高效率的一种解决方案。

第二是其本身比较“轻量”,对设备性能要求低,也能提供较好的呈现效果。

Mocap4face这项技术在对视频进行处理时,经过CNN算法的卷积降维,每一帧图像当中需要处理的数据量被大大压缩了。同时其处理数据时采用的FACS编码方式,在对人脸进行检测时会更加关注眉毛、嘴巴等比较能体现表情的特定区域发生的变化,对鼻子等一般变化不大的区域关注较少,从而减少所需进行的运算量,在提升效率的同时减轻对CPU/GPU造成的负担。也是因此,该技术对设备要求不高,iphoneX及以上机型即可实现60帧输出。

Mocap4face因其优秀性能也受到了业界青睐。今年2月,服务于虚拟主播的面捕软件VTube Studio在1.16.0版本更新中就表示,将放弃Google推出的ARcore,改用Mocap4face作为动作追踪器,并在该项技术的支持下引入了两项新功能——MouthX Tracking和Tougue Tracking,提供努嘴、吐舌等表情动作,使这些虚拟形象能够更加生动地呈现出来。

VTube Studio 1.16.0的版本更新说明

不过这项技术也并非完美,在识别精确性上仍有可提升的空间。

首先,其运作方式是由AI计算机镜头采集的二维平面数据来推理三维动态。相比于能够直接采集到3D空间信息的外接设备,AI的推理在这个由二维到三维的过程中并非万无一失,中途有可能发生错误,导致对动作的错误识别;同时其依据的FACS编码系统为了提高效率,在判断人脸表情时所依据的AU基本都是只发生在人脸的某些特定的小区域内,带来丢失信息的风险。

也是由于识别准确度上的不稳定,其目前主要的应用场景主要集中在驱动虚拟化身这样的娱乐领域。不过随着近年来人工智能技术的不断进步,该项技术的识别精确性有望获得改善,其应用场景也有望扩大到更多领域。

上一期「文娱科技」




Hello!
我们在为更加闭环、更加高效的服务模式做准备
欢迎加入限定白名单
与我们一起探索








您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存