查看原文
其他

数字人Steven:Behind the Scenes

共向未来的 NExT Studios 2022-08-30

在刚刚结束的“SPARK 2022”腾讯游戏发布会上,腾讯高级副总裁马晓轶Steven的高保真数字人亮相,其背后的制作团队是NExT Studios。从2017年高保真实时数字人Siren开始,NExT先后制作了Matt AI、小诤、外来人员WL.S等角色,持续探索数字人制作领域。


此次数字人Steven的制作,NExT首次实现了影视级全流程跑通,也是努力突破“虚实结合”3D高保真制作挑战的又一次技术力检验。




高保真数字人被称为“数字技术皇冠上的明珠”,要“以假乱真”一个既有的人,需要大量的技术能力和极其注重细节的纠偏能力。在制作过程中不断对比数字人和真人的差异并调试,使之在任何灯光环境下都感受不出异样,这个环节叫做LookDev。它是一种理念,一种检验数字人仿真度的可量化标准,是制作中不可或缺的环节。


“像与不像其实是非常主观的判断,我们要确保数字人和本人是一模一样的,必须把所有的变量都固化到具体的数值。比如皮肤的材质和颜色、眼球的结构、睫毛的材质都会影响呈现,灯光的亮度、方向,以及一系列的白平衡等参数也是变量。我们技术团队需要做的,就是反推出我们还不确定的变量,用数值性的方法定义角色。”数字人Steven项目制作人刘奇申说道,“LookDev是一个不断匹配的过程,希望确保最终制作出来的成果和原始的人物是分毫不差的。”


数字人Steven灯光环境预览


LookDev是一把“金尺子”。从最开始的扫描、实拍、再到后期的制作、渲染,每一个环节,制作团队都会把这把拿尺子出来“量一量”,实时纠偏,确保团队成员一直照着共同的标准制作。


数字人Steven LookDev



建模,是制作数字人的第一步,通常由隶属工作室的Photogrammetry Lab(照相建模实验室)担此重任。由于疫情封闭,几经周转只能借用到精度、数量、调校、采集环境都稍逊的另一个照相扫描室进行Steven的全身扫描,将数据传输给上海的制作团队完成模型制作。


照相扫描现场


数字人皮肤的制作是一项复杂的工程,真实的人类皮肤通常有油脂层、脂肪层等,光线照射在皮肤后,会进行漫反射、镜面反射、透视等。有些光线被血液和油脂吸收,有些则被油脂反射,称为“次表面反射”。


“我们在做虚拟人皮肤材质的时候,必须同时把这几层结构都考虑进来。”数字人Steven项目技术负责人李静翔说,“一个人的皮肤本身有毛孔和汗毛,除此之外我们还有一层绒毛,有点像桃子上的毛。一般离得非常近或是有侧面光打过来时,绒毛会比较明显。我们在数字人脸上也做了一层非常短、半透明的绒毛。当数字人做任何表情的时候,这些绒毛需要跟着脸部一起运动,否则容易出现穿插的问题。”


数字人Steven的皮肤细节



如果人物样貌已很真实,但服饰衣着粗糙,也会让人第一眼就有明显的假人观感。所以在制作数字人Steven整套衣服和鞋子时,制作团队采购了实物服装,完全按照真实比例,在MD(Marvelous Designer)中打板还原并建模


服饰建模


以数字西装为例,模型师不仅还原出衣服形态,而且进行了更精确的“毫米级”制作,让其更具真实质感。比如为了尽可能写实西装的笔挺质感,还原真实动作下的褶皱布料状态,角色特效师参考了大量布料动态视频,根据经验设置拉伸、弯曲属性进行布料解算,在保持西装状态的同时尽量接近真实褶皱的状态,提升了数字人实时动画的品质和艺术表现力。


左滑查看布料解算前后对比<<



数字人模型做好后,就需要“动起来”。之前往往通过真实照片和数字人静帧对比来制作表情,但静态对比容易忽略一些表情的“动势”——人的表情不是单一的一帧,而是呈现这个表情前后的一脸串微表情集合。所以制作团队根据FACS(Facial Action Coding System 面部表情编码系统),把如张嘴、闭眼等极限表情时肌肉的发力、拉伸通过动态形式还原出来,在之后动捕驱动的环节,能够较好地还原Steven的表情个性。


通过NExT自研的xFaceBuilder®数字角色制作管线,制作团队完成了700余个表情制作。开发同事把骨骼的运动方式和算法完成,像黑盒一样封装起来,动画师完成最终的表情动画。xFaceBuilder®极其高效便捷地简化了制作流程,此时的动画师就像一名司机,开发团队提供的控制面板就是他的“方向盘”。不需要知道汽车如何具体运转,也不需要知道方向盘和油门控制的底层原理,只需要踩油门和刹车,掌握方向盘,他就可以把这辆车开到想去的地方。


数字人Steven表情制作


发布会上,高保真数字人Steven会进行一段对话,需要驱动数字人模型“能说会道”。驱动模型的方式通常有手动驱动、动捕驱动,或者语音驱动等。人说话时脸部、嘴部、眼部肌肉都会配合轻微运动,手工驱动是由动画师按帧调整,虽然精准但耗费大量人力;动捕驱动的联动性较好,缺点是不精准;语音驱动可在较短时间内进行大量制作,适合对动画精度要求不高且数量大的项目。


鉴于整体制作要求较高但时间有限,技术团队最后选取了手工驱动和动捕驱动相结合的驱动方案。Steven本人因疫情原因无法参与实地动捕,提供了一段手机拍摄的视频,加载进动捕软件里,用动捕方案驱动,动画师再在此基础上做手工驱动补充。这样在精准表现单个微表情的前提下,更大程度地保证了表情的联动性


视频动捕加手工驱动



能够把一个数字人做得像真人,用当下的技术可能已经不难了,但是“像一个真人”和“像某人本人”,从形似到神似的跨越才是最难的。


通常数字电影里的CG人物比较“风格化”而不是“拟真化”,防止观众落入“恐怖谷效应”。比如《速度与激情7》里保罗兄弟动捕换脸、《双子杀手》里年轻版威尔 · 史密斯的制作等,这些AI换脸技术相对成熟。但是NExT此次制作数字人Steven放弃了换脸“捷径”,而是实打实的3D制作,相当挑战团队极限技术能力。


技术团队对Steven的日常表情和动作细节做了大量研究,以海量的照片和视频为基础,无论是个人特征或者代表性的小动作、微表情,都抓取下来运用到制作细节中,让数字人“从形似到神似的跨越”有更多助力。


另一个难点是“虚实结合”的制作方式——视频背景是真实场景,需要把数字人Steven嵌入到环境中,再把整体色调和气氛全部恢复到当时的实拍环境中,让人看不出是环境外嵌入的虚拟人物,而是融合在环境中的人物。


灯光渲染首先需要获取最基础的HDRI环境参数,通过手动打光的方式还原灯光环境,并校正修饰光照在角色上的照明效果,以达到更理想的状态。


数字人Steven在不同光照条件下



NExT技术团队按照影视级别的标准,花费近半年时间完成了高保真数字人Steven的制作。说到技术团队的人员构成,也算是挺有趣的组合,一半来自影视行业,一半来自游戏行业,由此也能一窥近年持续发酵的影游“共生融合”关系。


影视行业的专业流程、高品质标准,慢慢进入游戏行业,赋能游戏开发的高效性系统性。游戏行业的技术也在反哺影视,例如虚拟拍摄可以帮助影视行业大批量相对低成本地生产内容,其“实时性”的特质让导演在现场可以第一时间所见即所得,充分发挥自己的创造性。越来越多的经验和技术在影视和游戏之间共享,试想如果游戏引擎渲染的画面质量能进一步提高,愈来愈趋近影视级品质,性价比的优势愈来愈凸显时,有无可能真正替代传统影视呢?


数字人Steven按影视流程制作


数字人的应用场景不光是影视和游戏,医疗、政务、金融、教育等领域都在持续探索发展。未来AI、5G、云计算、大数据、人工智能等技术深度融合,科技水平和算力有更大突破,线上可能有我们的数字孪生,也可能有外形和意识构成均无限趋近于真人的“有血有肉”的虚拟朋友,与你私密地交谈,分担忧愁共享快乐。在制作数字人的当下,能依稀看见未来发生变化的轮廓。未来世界的虚实共生的样态,可能已经在慢慢到来。


一键「在看」,共向未来

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存