⭐️业内首个数据智能知识地图已发布!免费领取仅限1月!
⭐️领取方式:vx扫码下载
<hr/>导读:本次分享主要介绍腾讯 AI Lab 近期在人脸高效率 3D 数字化技术方面的研究成果,包括使用单张照片、多张照片、RGBD 自拍等方式进行人脸 3D 数字化,以及在人脸 3D 建模精度的评估方法等方面的研究。 全文目录:
如下是我们现在在腾讯 AI Lab 做的一个高保真 3D 数字人小志,是采用虚幻引擎渲染的效果。从静态的建模角度来看,现如今数字人脸部的数字化技术,基本上已经可以做到以假乱真,看起来跟照片非常接近的程度。动态的效果展示中,表情是模拟真人表情的动画,结合语音驱动的数字人的口型和动作。
高保真 3D 数字人是如何制作出来的呢?其制作管线流程如下:
首先使用光场扫描的方式采集模特的图片数据,然后对这些图片数据进行高模重建,重建的过程会有噪声或者瑕疵,高模制作就是对瑕疵的清理、以及细节的雕刻,同时会按照固定的拓扑模板做一个低模重拓扑,这个过程中就可以制作出 UV 贴图,包括材质渲染所需的贴图,比如法线贴图、高光贴图、粗糙度贴图。上面这些环节是静态建模的过程。
后续如果要让其动起来,还需要一些动态建模的过程,比如会先有一些演员不同表情的扫描,这些扫描的数据还是需要经历前面的高模重建、高模制作、以及低模重拓扑的制作管线,才能真正用到动画的资产里面去。下一步非常耗时的步骤其实是做控制器绑定,这一步对于后续的动画动作是否自然生动至关重要。接下来是处理头发、眼珠、牙齿等挂件,以及皮肤材质的设置、渲染等步骤。最后基于语音的输入或者文本的输入,让其自动做一些口型、表情,以及动作。整个的数字人制作管线就是这样的一个流程。
制作 3D 写实数字人的工期久、人工成本大,所以 AI Lab 也在研究如何能更高效地制作高保真的数字人,主要分了几条不同的路线来做技术的探索,各级方案的特点如下:
S 级别的数字人制作方案,耗费的时间和人工较大,是为了追求最高的质量。我们技术侧研究更多是偏向 A、B、C 三个级别,无论是采集设备还是制作方案方面,都希望能够更高效、更便捷地制作高保真数字人。比如 A 级,不再使用 S 级中的 360° 光场设备,而是使用相对简易的相机阵列,很容易搭建起来,后续采用以 AI 算法为主的生成,因为输入是比较丰富的,所以能够兼顾高品质和高效率。B 级和 C 级是针对消费端的输入,可以实现任意用户采用消费端设备就可以采集并自动生成高保真数字人形象。最简单的是 C 级别的方案,用单张或多张照片,就可以实现人脸的重建,以及后续的数字化。这种方案是 C 端用户最容易触达的。下面我重点介绍一下我们在 B 级方案中研发的一套算法,这项工作已经发表到了图形学顶刊 ACM Transactions on Graphics 上。
-- 02/RGB 自拍数字化
有了以上资产后,就可以通过文本、语音驱动让数字人动起来。整个算法流程大致是这样的,我们在 TOG 论文里对于每个步骤有更详细的描述,算法的核心代码也已经开源,欢迎大家扫码关注。在上面的工作中,最核心的一个步骤是重建出高保真的人脸模型,下面我们针对这个问题进行更深入的探讨。
-- 03/如何评估 3D 人脸重建
3D 人脸形状的重建是一个比较核心的部分,我们对 shape 重建的结果和一些 SOTA方法进行了对比,也有在 benchmark 上面做一些客观评测。很多情况还是需要仔细的去观看,比如脸部形状的贴合程度和嘴形鼻子形状的重建效果。最终发现目前的 benchmark 都无法与主观感受的效果相吻合,在这个过程中,我们发现 3D 人脸重建结果评估方法其实是存在很多问题的。