没想到,这个AI特效背后还隐藏着个“世界冠军”

昨晚做了一个梦,梦里的我变成漫画里的人物,正在为参与选秀苦练舞蹈,期待着万众瞩目登上舞台的一天。
然而一觉醒来,这个美梦竟然成“真”了!
没想到,这个AI特效背后还隐藏着个“世界冠军”
文章插图
大眼睛,饱满苹果肌,摆着离出道还有亿点点距离的律动~妥妥的漫画女主角既视感。
没错,这项黑科技就是手机QQ相机里的热门AI玩法——漫画脸。从画面来看,哪怕受拍摄人物大幅度动作,融合感依旧满分。
类似的,一经上线便备受用户们追捧的还有“童话脸”等多个AI特效玩法。
AI特效看似操作简单,但要想一秒内达到如此效果,其背后的技术支撑可并不简单。
细心的朋友可能会发现,漫画脸的AI特效get了一项技能——实时抠图。在动态场景下, 无论是人像的头部、面部,还是半身像,都能够被精准识别,并转化为漫画版,看不出一点破绽。
这项技能在学术上叫做语义分割技术。而这些特效背后使用的语义分割技术叫做GYSeg,它是腾讯光影研究室(Tencent GYLab)在计算机视觉领域的自研算法。最近GYSeg算法刚刚参加完MIT Scene Parsing Benchmark 场景解析国际竞赛,从多个参赛团队中脱颖而出,以0.6140的成绩斩获了冠军。值得一提的是,近两周团队持续优化算法,并再次刷线最新成绩至0.6235,仍处榜单第一名。
没想到,这个AI特效背后还隐藏着个“世界冠军”
文章插图
专业科普一下,MIT Scene Parsing Benchmark 是全球公认的最具挑战性、权威性的场景解析、语义分割评测集。其发布的ADE20K数据集是计算机视觉三大顶会(CVPR、ICCV和ECCV)语义分割论文的权威基准数据集。
每年有众多国际顶尖企业、学术机构参加这项国际赛事,比如本届参赛的团队还有商汤科技、亚马逊、复旦、北大、MIT等国内外研究机构和高校。
简单理解,语义分割技术就是让计算机能够识别出图像场景中每一个像素所代表的语义类别。
以人像图像为例,人像的全身、半身、头部、头发、多人/单人以及多样化的背景都是其需要识别的目标。
而从更大范围来讲,现实生活场景十分丰富、目标复杂、尺度范围大,如本次比赛所使用的ADE20K数据集包含了150个类别,涉及人类生活各个方面的场景。 这对于AI语义识别本身提出了较高的挑战。
没想到,这个AI特效背后还隐藏着个“世界冠军”
文章插图
更重要的是,同种类的物体在不同场景中很可能表现出不同的大小、比例和姿态;不同物体之间可能存在相互遮挡问题,由此会带来严重的语义混淆。
为了克服以上难点,GYSeg算法在数据增强、网络设计、训练、推断方面进行了一系列创新,并建立了一套通用的整体分割架构。
没想到,这个AI特效背后还隐藏着个“世界冠军”
文章插图
如上述案例所见,在人像分割方面,GYSeg算法凭借对人像半身、全身,室内、室外,单人/多人等多复杂场景的需求的不断的打磨和优化,成功应用到了腾讯QQ、腾讯微视等多个产品中。其结合发布器技术中台强大的图形图像渲染引擎,通过为前景人像和背景添加不同的滤镜特效或更酷的背景效果,实现 “七夕卡通画“、“怪兽护体”等各种特效玩法。
当然,GYSeg自研算法只是腾讯光影研究室AI能力的局部体现。
伴随新技术的不断发展和进步,AI在泛娱乐领域的应用场景变得更加丰富。在此基础上,光影研究室围绕计算机视觉技术展开了全栈式布局。
从技术能力上来讲,目前主要分为两大方面:应用AI能力和基础AI能力。
没想到,这个AI特效背后还隐藏着个“世界冠军”
文章插图
值得一提的是,依托腾讯庞大和丰富的内容产业,以上几乎所有AI能力都在移动端找到了落地场景,并成功覆盖到了手机QQ相机、手机QQ音视频通话、腾讯微视等20多条业务线中,为用户带来了全新的数字化娱乐体验。
1、应用AI能力
应用AI能力隶属于"基础美"的范畴,其主要目的是实现人像照片的系列美化功能,包含人脸的各种美颜/美妆/捏脸,不同场景的滤镜,以及底层的拍摄质量提升等。
具体表现为GAN的生成, 3D的重建,以及AR/交互AI等技术。
很多朋友应该知道,前段时间火爆全网的“童话脸”特效,不仅有李雪琴亲传童话世界基本生存须知“公主病”,更是受到辣目洋子、刘晓庆、王大陆等众多明星青睐。
没想到,这个AI特效背后还隐藏着个“世界冠军”
文章插图
童话脸特效背后依靠的便是GAN技术,它是腾讯光影研究室首次将GAN与3D卡通风格相结合的应用尝试,同时也是业内的第一次尝试。