机器之心|黑科技DeepFake检测方法:利用心跳做信号,还能“揪出”造假模型
选自arXiv
作者:Umur Aybars Ciftci等
机器之心编译
编辑:陈萍
DeepFake 真的可以达到以假乱真的效果吗?未必 。 来自宾汉姆顿大学、英特尔公司的研究人员利用心跳做信号判别真假视频 , 还能「揪出」背后的生成模型 。
伪造人像视频生成技术给社会带来了新的威胁 , 例如利用逼真的伪造图像和视频进行政治宣传、名人模仿、伪造证据以及其他与身份有关的操作 。 伴随着这些生成技术的发展 , 出现了一些被证实有效的 deepfake 检测方法 , 这些方法具备较高的分类准确率 。 然而 , 目前几乎没有任何工作关注 deepfake 视频的来源(即生成 deepfake 视频的模型) 。
来自宾汉姆顿大学、英特尔公司的研究人员提出了一种方法 , 利用视频中的生物信号检测该视频是否伪造 。 该方法不仅可以区分真假视频 , 还能够发现 deepfake 视频背后的特定生成模型(其中 , 生成模型是在 DeepFakes、Face2Face、FaceSwap、NeuralTex 中进行选择) 。
一些纯粹基于深度学习的方法尝试使用 CNN 来分类造假视频 , CNN 实际上学习的是生成器的残差 。 该研究认为这些残差包含了更多的信息 , 可以通过将它们与生物信号分离来揭示伪造细节 。 观察结果表明 , 生物信号中的时空模式可以看作是残差的代表性投影 。 为了证明这一观察结果的合理性 , 研究人员从真实和虚假视频中提取 PPG 单元 , 并将其输入到当前最优的分类网络中 , 以检测每个视频的生成模型 。
实验结果表明 , 该方法对假视频的检测准确率为 97.29% , 对假视频背后生成模型的识别准确率为 93.39% 。
论文地址:
https://arxiv.org/pdf/2008.11363.pdf
该论文的贡献如下:
提出一种新型 deepfake 视频源头检测方法 , 为 deepfake 检测研究开启了新的视角;
【机器之心|黑科技DeepFake检测方法:利用心跳做信号,还能“揪出”造假模型】提出一项新发现:将生成噪声投影到生物信号空间 , 可以为每个模型创建唯一标识;
提出一种先进的通用 deepfake 检测器 , 在真假视频分类方面优于现有方法 , 同时还能预测假视频背后的生成模型 , 即源生成模型 。
利用生物信号检测假视频及其生成模型
生物信号已被证明可以作为真实视频的真实性标志 , 它也被用作 deepfake 检测的重要生物标志 。 正如我们所知 , 假视频中的合成人物无法具备与真视频中人物类似的心跳模式 。 该研究的关键发现基于这一事实:这些生物信号可以被解释为包含每个模型残差标识变换的假心跳 。 这催生了对生物信号的新探索 , 它们不仅可以用来确定视频的真实性 , 还可以对生成该视频的源模型进行分类 。
于是 , 该研究提出了既能检测 deepfake 视频 , 又能识别源生成模型的系统 , 如图 1 所示:
本文插图
为了连续地捕捉生物信号的特征 , 研究人员定义了一种新的时空块——PPG 单元 。 该时空块结合了多种原始的 PPG 信号及其功率谱 , 并从一个固定的窗口提取 。 PPG 单元的产生首先需要使用人脸检测器在每一帧中找到人脸 。
第二步是从检测到的人脸中提取感兴趣区域 (ROI)(图 1d) , 该区域具有稳定的 PPG 信号 。 为了有效地提取 , 研究者使用眼睛和嘴之间的面部区域 , 以最大限度地增加皮肤暴露 。
由于来自人脸不同区域的 PPG 信号之间存在相关性 , 因此定位 ROI 并测量其相关性成为检测的关键步骤 。
第三步需要将非线性 ROI 与矩形图像对齐 。 该研究使用 Delaunay triangulation [26] , 随后对每个矩形使用非线性仿射变换 , 从而将每个矩形转换为校正图像(rectified image) 。
在第四步中 , 研究者将每个图像分成 32 个相等大小的正方形 , 并在 ω 帧大小的固定窗口中计算每个正方形的原始 Chrom-PPG 信号 , 并且这不会干扰人脸检测(图 1e) 。 然后 , 计算校正图像中的 Chrom-PPG , 因为它能产生更可靠的 PPG 信号 。 对于每个窗口 , 现在有 ω × 32 个原始 PPG 值 。分页标题
现在将它们重组成 32 行、ω 列的矩阵 , 就形成了 PPG 单元的基础 , 如图 1f 和图 2 最下面一行的上半部分所示 。
本文插图
最后一步将频域信息添加到 PPG 单元 。 计算窗口中每个原始 PPG 值的功率谱密度 , 并将其缩放到 ω 大小 。
图 2 的最下面一行显示了从同一个窗口生成的 deepfake PPG 单元示例 , 第一行是每个窗口的示例帧 。
定义完 PPG 单元后 , 研究者展示了其主要假设:将 deepfake 生成器的残差投影到生物信号空间 , 可以创造一个独特的模式 , 并用于检测 deepfake 背后的源生成模型 。
实验
该研究提出的系统采用 Python 语言实现 , 使用 OpenFace 库进行人脸检测 , OpenCV 进行图像处理 , 使用 Keras 实现神经网络 。
表 1 列出了在测试集上的 PPG 单元分类结果 , 其中 VGG19 在区分 4 种不同生成模型和检测 FaceForensics++(FF)真实视频方面达到了最高准确率(图 1f) 。 像 DenseNet 和 MobileNet 这样的复杂网络由于过拟合 , 虽然达到了非常高的训练准确率 , 但在测试集上的效果不如人意 。
本文插图
在视频分类方面 , 表 2 记录了过程中的不同投票方案 。 研究者设置 ω=128 , 比较了使用大多数投票、最高平均概率、两个最高平均概率以及对数几率平均后 VGG19 的单元预测结果 。
本文插图
如图 3 所示 , 该方法对五类 FF(1 个真视频和 4 个假视频)的真实视频检测率为 97.3% , 对生成模型的检测准确率至少为 81.9% 。
本文插图
研究人员在不同的设置上进行训练和测试:1)训练集中没有真实的视频;2)PPG 单元中没有功率谱;3)没有生物信号;4)使用全帧而不是面部 ROI , 其中 ω = 64 , FF 数据集分割设为常数 。 结果见表 3:
本文插图
使用前述设置 , 用不同的窗口大小 ω =帧来测试该论文提出的方法 。 结果参见下表 4:
本文插图
为了证明该论文提出的方法可以扩展到新模型 , 研究人员将 FF 设置与单个生成器数据集 CelebDF 相结合并重复分析过程 。 该研究提出的方法在整个数据集上达到了 93.69% 的检测准确率 , 在 CelebDF 数据集上达到了 92.17% 的检测准确率 , 这表明该方法可以泛化到新模型(参见表 5) 。
本文插图
表 6 列出了测试集上不同模型的准确率 。 由结果可知 , 该论文提出的方法甚至超过了最复杂的网络 Xception , 准确率高出 10% 。
本文插图
如何根据任务需求搭配恰当类型的数据库?
在AWS推出的白皮书《进入专用数据库时代》中 , 介绍了8种数据库类型:关系、键值、文档、内存中、关系图、时间序列、分类账、领域宽列 , 并逐一分析了每种类型的优势、挑战与主要使用案例 。
- 智慧|晨检机器人、智慧班牌……福建首批智慧幼儿园投用
- 高科技大显身手 无人机悄无声息全程直播贩毒交易
- 腾讯科技|火箭发动机出问题 SpaceX首次商业载人任务发射推迟到11月份
- 新科技嗅|人工智能可以应用在哪些方面
- Live800|智能客服机器人是否可替代人工客服?解决机器人智能化痛点,Live800智能套电机器人有这些优势:解决机器人营销痛点,Live800智能套电机器人有这些
- 山西君和文悦|工业机器人发展史
- 无人机全程直播贩毒交易|高科技大显身手 无人机悄无声息全程直播贩毒交易
- |高科技大显身手 无人机悄无声息全程直播贩毒交易
- 申申说财经|私有化后美埃科技欲回科创板融资,IPO雷达|资产负债率远超同行
- 科技金融在线|工行和建行分别被处罚,违规允许保险公司驻点卖保险