技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了

鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
虽然每天早晨甚至无法从50平米的地铺上醒来 , 但偶尔刷刷知乎 , 还是会被这类问题吸引住眼球——
穿越到霸道总裁小说的世界 , 是一种怎样的体验?
最近 , 一个能满足这种幻(xia)想的快手AI特效火了 。
不仅老铁们纷纷穿越 , 许多明星大V也贡献了自己的「言情小说脸」 。
你看这位李雪琴老师 , 就瞬间女主光环加持 , 慵懒的眼神里又多了几分灵动的忧郁 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
硬糖少女刘些宁 , 更是引得网友直呼:这不就是霸道总裁小说封面女主本主吗?
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
还有歪嘴战神本神 , 到了二次元的世界 , 还是熟悉的配方 , 熟悉的味道 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
看到这些 , 我不禁产生了一个大胆的想法 , 让老婆们也一起穿越 , 不也就是举起手机就能搞定的事?
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
△新垣结衣
嗯 , 新垣结衣是二次元走出来的实锤了!
更妙的是 , 这样一个AI特效 , 不仅能实时捕捉每一个表情变化 , 模仿咆哮帝也能hold得住:
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
△明道
细节处理也着实奥利给 , 描眉画眼线这样的动作也不会让面部出现奇怪的扭曲 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
打破次元壁的技术
所以快手这一堪称「穿越神器」的AI特效 , 在技术上是如何实现的呢?
快手工程师介绍 , 相比于此前的一些特效玩法 , 「手绘」系列最大的不同 , 是需要兼顾真实感、美感以及卡通效果三方面的要求 。
也就是说 , 既要最大程度保留用户本人的五官和外形特征 , 还要具备手绘风格的美学和艺术效果 。
这就对整体风格和局部细节的呈现都提出了高要求 。
为此 , 快手特效中心团队研发了一个基于GAN(对抗生成网络)的图像翻译和风格迁移学习训练框架 , 结合此前CycleGAN、U-GAT-IT等技术的主要优点 , 并根据实际需求进行了定制化的开发和优化 。
CycleGAN
CycleGAN可以说是GAN中的「前辈高人」 , 由UC伯克利的朱俊彦团队提出 , 影响了后续一众「换脸」研究 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
其最大的突破 , 是打破了图像风格转换中 , 需要成对图片训练集的限制 。
也就是说 , 在源域和目标域之间 , 无需建立训练数据间一对一的映射 , 就可实现风格迁移 。
就像下图中右侧所示 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
基于此 , 去年香港中文大学贾佳亚教授团队 , 就曾提出过一个加强版的CycleGAN , 可以将人脸照片转化成如同手绘图像 , 甚至还能反向转换 , 将二次元的卡通图像 , 转换成现实中可能的样子 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
U-GAT-IT
U-GAT-IT , 是一种无监督图到图翻译算法 , 由韩国游戏公司NCSOFT开发 。
同样是打破次元壁的神器:
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
具体而言 , U-GAT-IT由两个GAN组成 。
一个负责把现实世界的自拍照进二次元 , 即从源领域到目标域的翻译 。
另一个则反过来 , 能把二次元人物拉回到三次元中 , 即从目标域到源领域的翻译 。
同样 , 也不需要成对的训练数据 。
为了生成更加逼真的图像 , U-GAT-IT还以端到端的方式引入了注意力机制和可学习归一化方法 。分页标题
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
在这一次快手手绘特效的实现上 , 训练同样以大量非配对数据为基础 , 并加上了一部分人工修图得到的配对数据作为引导 , 通过混合训练的方式 , 既快速又精准地得到整体上较为接近手绘的风格化效果 。
另外 , 由于手绘数据采集成本较高 , 所以研究人员还采用了迁移学习的方法进行数据扩增 , 并根据快手用户日常进行的人像拍摄场景分布规律 , 进行了适配 。
在细节增强方面 , 快手则通过加入人脸关键点、人像语义分割等AI技术 , 精确地定位到对应的关键区域 , 并在整体的基础上重点加强局部区域的细节调整 , 以全局与局部的混合训练有效的提升了整体效果的呈现 。
在此基础之上 , 针对手绘中特殊的线条和高光图案 , 研发人员也设计了对应的损失函数进行监督学习 。
而针对短视频的形式 , 快手的手绘特效还要考虑保障实时效果 , 人怎么动 , 画面也要跟得上 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
这就涉及到手机计算能力与模型计算量的适配、脸部效果跟背景效果和素材的适配、视频效果流畅性等诸多因素 。
为此 , 从算法 , 到工程、特效、涉及等多个环节 , 研发人员都进行了大量的尝试 , 以及细致的优化、打磨 。
快手技术实力:不止于AI特效本身
打造这款特效的 , 是快手的Y-tech技术团队 。
快手Y-tech是快手在人工智能等前沿领域的探索者和先行者 , 以研发前沿科技、提升用户体验、创造用户价值为使命 , 致力于在计算机视觉、机器学习 、深度学习和计算机图形学等领域开展技术研究和业务落地 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
【技术|原来最强赘婿在二次元长这样 , 秒穿次元壁的AI特效又双叒火了】其实 , 从技术的角度上来说 , 对于快手的工程师们而言 , 追求效果上的极致 , 还不是全部目标……
更重要的一点 , 是要覆盖高、中、低端各种手机型号 , 让每一个档次的机型的能力都发挥到最大 。
一方面 , 是因为每一次的产品落地 , 都关系到4亿用户的实际体验 , 牵一发而动全身 。
另一方面 , 快手的用户特性决定 , 用户手中的手机型号分布会很广 , 不同机型算力和内存资源差异很大 。
为了能够让每一位天南地北的老铁都能够无差别地享受AI技术带来的乐趣 , 在技术的设计方案上 , 就既要力求让高端机充分发挥计算能力 , 给用户带来极致体验 , 同时也要在中低端机上做到逼近高端机的效果 。
也就是说 , 不管算力高低 , 在最后的用户体验上 , 都要实现GAN的「秒变」 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
这事实上涉及了三方面的指标:准确率、能耗、延迟 。 毕竟除了特效的实时性 , 如果一次使用电量就哗哗掉 , 手机温度蹭蹭涨 , 那也非常影响用户体验 。
而要在跨度如此之大、很大一部分算力并无优势的硬件上 , 兼顾这三个指标 , 其中挑战不可谓不大 。
以这一次的「手绘」系列为例 , 工程师们进行了非常细致的方案细分和探索 , 针对不同的机型 , 采取差异化的AI模型生成方案 。
这实际上给AI算法和工程团队带来了更大的工作量 。
但对于快手工程师而言 , 让每一个档次机型的方案都尽可能达到更好的效果 , 既是一种「使命感」 , 也是一种刻在企业文化里的「技术特性」 。
近年来 , 快手已有不少AI产品成功落地、应用 , 其背后的技术路线 , 始终是坚持打造自研AI基础引擎、打造普惠AI算法 , 坚持让用户无差别享受高算力AI技术的Hard模式 。
比如自研YCNN深度学习推理引擎 , 是快手很多AI功能的强大加速器 , 是将AI模型迁移到不同场景、不同算力硬件的技术基础 。 分页标题
比如定制化压缩模型 , 使快手能在考量各种边界条件、有限的计算以及内存资源条件下 , 把模型的计算量降到最小 , 同时又不影响算法效果 。
这在技术上的难度和积累 , 其实是不言而喻的 。
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
所以 , 每一次新的爆款 , 每一次给老铁们带来的新乐趣 , 其实都是快手技术团队实力的又一次强有力证明 。
而在技术可能加剧资源、地区和发展不平等的今天 , 快手运用自身强大技术 , 普惠每一个用户的技术民主化路线 , 也是其「接地气」的核心所在 , 是快手每一次新技术落地背后易于忽略却又令人感叹的地方 。
另外 , 像今天这样的特效 , 可能还只是快手专门集结特效中心的开头动作 , 后续可能还会有更多「接地气」的AI特效玩法……
像是让二次元人物走进现实的动作捕捉这种:
技术|原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
图片
所以如果你也有想到、期待一些新特效新玩法 , 不如评论区大胆表达起 。
说不定就是下一个火爆全网的短视频新玩法呢~ 本文首发于微信公众号:量子位 。 文章内容属作者个人观点 , 不代表和讯网立场 。 投资者据此操作 , 风险请自担 。
(责任编辑:王治强 HF013)