DeepNostalgia背后的脸部图像技术
作者:千钧国际
最近不知道你有没有发现,越来越多新风格头像开始出现,典型的有迪士尼卡通风格(Toon.me 滤镜)和苹果的拟我(Memoji)风格。人们似乎是既要保持匿名,又用虚拟的个人风格来还原了部分的真实性。 如果把时间倒推到 Instagram 初期,你会发现很多滤镜是为景色做的优化。但现在滤镜更多是为人脸设计。变化背后所隐含的是:逐渐增强的身份认同,以及更全面的形象虚拟化、更实时。 人脸,即人的面部视觉信息,如何被表达,如何变化,朝什么方向变化,很适合作为一个持续关注的命题。本文即阶段性梳理。
触发:Deep Nostalgia(深度乡愁)
在 2021 年 3 月左右,MyHeritage 的一款让老照片中的人动起来的产品突然爆发式传播。MyHeritage 背后,是脸部图像技术的发展,尤其是脸部图像的 AI 模拟和生成。
这家做家谱服务的品牌,利用数字技术让家人的旧照重新焕发出生命力。当时看到后第一反应是非常佩服这家服务的产品设计:
版权问题:对象选择老照片,天然解决了版权的问题——几乎上照片的拥有者都是版权的拥有者,不太会产生滥用的情况;
情感满足:老照片上面的人大多情况下都可能是已经去世后的家人。市面上常见的数据还原服务有黑白照片上色,上色的目的仍然是想要看到更鲜活的人物信息,唤醒内心深处的记忆。而让照片中的人物直视你的眼睛笑起来,会急剧唤起历史中的美好记忆,通常会给用户带来巨大的情感冲击;
数据隐私:为了保证服务的严谨、匿名,还选择了 D-ID (以色列公司,后续会讲到)的人脸匿名化解决方案,解决了使用者对于隐私的担忧。
家谱服务 MyHeritage 服务 Deep Nostalgia(深度乡愁):
和 Deep Nostalgia 带来的巨大感情冲击一致的是,当人脸技术被用到娱乐时,带来的情感满足同样有巨大冲击力。
面部娱乐
在 Avatarify 中,仅需要一张图片,你可以让任何一个人脸开口唱“蚂蚁呀嘿“,其中美国总统的版本流传更广。上线后不久 Avatarify 就在国内被下架,与 2019 年的 ZAO app 同样结局。
除了让照片的脸动起来之外,应用得更多、更广泛的还属滤镜类应用。其中 Toonme、FaceApp、Reface、Snapchat 滤镜等产品,都有着让人想要立即尝试的产品设计。Toonme 的滤镜在小红书、Instagram 更是随处可见,本文开头提及的迪士尼风格头像即来源于此。
等等,似乎这些热闹背后应该存在着一些技术线索值得回溯下。这些针对面部的应用具体是怎么开始的呢?时间线往回调 4、5 年,能看到一些技术痕迹。
技术
2016 年有项叫 Face2Face 的研究,研究者们来自斯坦福大学、德国埃朗根-纽伦堡大学、德国马克思-普朗克电脑科学研究所。该研究使用不捕获深度的摄像机重现了面部表情,使得该技术可以在普通的消费类摄像机上来执行。——这项研究像解决了脸部技术在硬件拍摄输入的门槛问题,它让大多数手机拍摄的人脸也能进行算法“重现”。
2017 年名人伪造视频开始病毒式传播。在 Reddit 的 SFWdeepfakes 中出现了大量的名人换脸视频,DeepFakes 技术进入大众传播层面。汤姆克鲁斯、Ted Cruz(丑闻之后更是疯狂增加)、尼古拉斯凯奇、Mark Zuckerberg 这样的公众人物纷纷被恶搞,关于色情视频敲诈的案例也开始变多。换脸应用彻底进入了大众感知的层面,DeepFaceLab、Faceswap、Deepfacesweb 等工具为恶搞者们提供了最基础的工具支持。
在应用层面,苹果在 2017 年9月首次公布面容 ID,和 iPhone X 一起发布。面容 ID 利用了红外技术,通过对面部进行了三万多个红外点的定位来获取脸部的 3D 模型信息。在发布面容 ID 之前,苹果通过收购做了技术的积累——2015 年苹果收购 FaceShift 。FaceShift 曾为《星球大战》电影团队提供人脸模拟的解决方案,自此,刷脸解锁、刷脸支付开始普及,在各种无人售货机上曾大规模出现,人脸数据的量级经过消费级硬件开始迸发。
2019 年 6 月提交了一份 DeepMind 研究(《Generating Diverse High-Fidelity Images with VQ-VAE-2》)。该研究的主要内容是通过对图像中各种隐变量针对性的算法优化,让图片信息进行更深度地抽象化,以此达到更加逼真的换脸效果。该论文也说明,算法层面的精准度、颗粒度已经得到了较大的提升,面部图像技术更加成熟和完善。
技术逐渐完善导致的直接结果,是商业应用层面的爆发。
面部增强是非常典型的商业化方向。
面部增强
在美图的美妆相机发布之前,早在 2014 年丝芙兰曾组建过数字部门,借助 ModiFace (后被欧莱雅集团收购)的 AR 和脸部识别技术开发了 AR 试妆镜产品。但似乎当时影响大却无太大营收增加效果。AR 实时增强技术在之后被融合了动作跟踪识别后,继续被用到健身镜产品中,在最近几年极为常见,如 Lululemon 收购的 Mirror、国内品牌 FITURE 魔镜,诸多家电厂商的电视健身、健身镜等。
摄像头+人脸,这样的条件似乎更适合出现到智能家居中。Facebook 旗下的 Portal 就主打智能家居类硬件,于 2018 年 10 月发布 。Portal 本身是一个主打大屏幕通话的硬件产品,内置了人脸识别和跟踪的功能。Portal 内置的 Story Time 功能利用了人脸跟踪和增强显示,在你讲述里面的故事书的时候,为人脸增加上特殊的动画效果。
除了家居场景,更多的场景还有团队沟通、游戏协作、网络直播等,尤其是直播场景,人脸出现到屏幕上是常态。
在游戏领域,Roblox 收购的 Loom.ai 可以让你轻松生成虚拟的 3D 人脸。通过 Loom 实时生成你的虚拟人脸,也许是要满足 Roblox Metaverse 更大的野心,Loom 被很快收入囊中。
在直播场景中,虚拟人 Miko 的背后,是对脸部表情和肢体动作的全部模拟。这样对人脸精确地模拟离不开更专业的硬件设备和软件层面的定制,Miko 曾声称花费了接近数万美元购置了硬件和自己亲自开发了相关的软件。
Miko 所采用的硬件像是在电影工业中非常普及,在 Reddit 中对 Miko 硬件的讨论中,也有人提及说目前的技术下,使用 iPhone 和一些软件配合也能达到类似的粗糙模拟效果。——这种硬件技术的转移是不是有一些熟悉的观感?这让我想到丰元在播客里面提及的关于 Vue(被腾讯收购)的细节:当时 Vue 团队为了把剪辑后的视频有更多“电影观感”,特别地招募了电影调色师成员对该细节进行优化。
但让这种模拟进入消费级层面,目前看来似乎最好的路径是通过 VR/AR 设备和社交生态。在 Facebook 的 Oculus 项目驱动了对人脸模拟的研究,通过对面部动作的捕捉,对图像数据的编码、解码,重新构建出在 VR 世界中的全息扫描虚拟分身,分身能实时映射面部和上本身的动作(因为 Horizon 中的角色只有上半身)。
与此相关的还有 NVIDIA,NVIDIA 在重资下注 AI、云计算之后的策略现在已经爆发出巨大的收益。4 月份的 NVIDIA GTC 线上峰会,其中 15 秒是 AI 进行画面的全部合成,尤其是展现实时动作、且身着皮衣的黄仁勋,还有背后的厨房背景,只有声音是他本身的。在这个传播背后,是 NVIDIA Omniverse 的能力支撑。
在手机 App 生态中,“捏脸”产品更常见一些,如苹果的拟我表情(Memoji,2018 年 9 月发布),Snapchat 的 Bitmoji(2017 年 9 月,通过增加动画、3D 渲染技术,整合了 AR 功能 World Lenses )、Zapeto 捏脸、任天堂的 Wii 种种。
商业化
ToC 的个人用户消费端,面对众多公司机构销售的 ToB 端类产品也已经有了很多已经应用的实例。
在驾驶场景中,前段时间特斯拉在测试 FSD 版本的时候曾开启了车内摄像头进行驾驶者状态的监测。如果你曾关注过造车风潮,包括岚图在内的众多款新车已经默认安装了驾驶位的脸部摄像头。通过脸部监控,一方面在交互上有更多功能定义的空间,如通过上车后刷脸验证,自动调整车内的各处驾驶偏好配置,另外一方面也能去做驾驶员驾驶状态的判断,如醉酒、瞌睡等安全监控。
在面试场景下,也能看到了类似 壹面这样的 AI 产品,通过在面试过程中增加 AI 面试来筛选面试者。
电商领域中, 诗云科技使用 AI 换脸技术应用到商品图展示,一键生成针对不同地区的不同人物特征模特图,例如针对欧美的商品展示中,能让模特的脸部有更深的眼窝和眼影,通过脸部特征的调整来适配不同地区的用户审美偏好。
安全领域中,在文中开头 Deep Nostalgia 就默认选择了 D-ID 数据匿名化工具进行数据的保护,D-ID 的方案也被 Facebook 等应用。在 D-ID 的图像“去识别”方案中,通过对静态图像的干预来欺骗人脸识别系统,以达到匿名化人脸数据的目标。
类似 D-ID 的研究有 LOW KEY,同样是通过对照片的处理对脸部识别进行干扰以规避对于人脸数据的嗅探和追踪。经过处理的图片在人眼看起来似乎只是模糊了一些。
在未来,也许因为对人脸的保护会出现更多专注隐私的硬件、虚拟服务。