CN112699236B

CN112699236B - 一种基于情感识别与瞳孔大小计算的Deepfake检测方法

Info

Publication number: CN112699236B
Application number: CN202011532434.8A
Authority: CN
Inventors: 刘毅; 王鹏程; 陈晋音
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-07-01
Anticipated expiration: 2040-12-22
Also published as: CN112699236A

Abstract

本发明公开了一种基于情感识别与瞳孔大小计算的Deepfake检测方法，包括：(1)将语音数据划分为训练集X和测试集Q后进行数据处理，并对训练语音识别模型Y进行训练和测试；(2)将文本数据划分为训练集N和测试集P后进行数据处理，并对训练文本情感分类模型M进行训练和测试；(3)对于待检测的Deepfake视频，提取音频后输入到语音识别模型Y中，再将输出的文本输入到文本情感分类模型M，得到与文本对应的情感；(4)将待测的Deepfake视频转换为图片帧，检测人眼瞳孔的大小；(5)将检测到的人眼瞳孔大小与文本情感分类模型M得到的情感进行匹配，如果不匹配，则判定是假视频。本发明对不同的Deepfake方法生成的假视频都能够较好的检测，泛化能力强。

Description

一种基于情感识别与瞳孔大小计算的Deepfake检测方法

技术领域

本发明属于机器学习技术领域，尤其是涉及一种基于情感识别与瞳孔大小计算的Deepfake检测方法。

背景技术

语音识别技术就是要让计算机听懂人在说什么，实现人类与机器之间的语音交流，还能将人类说出的话以文本的形式输出。近些年来语音识别技术取得了显著的进步，开始从实验室走进大家的生活中，比如智能手机中的语音助手、语音翻译等。语音识别技术常用的方法有随机模型法、概率语法分析、基于语言学和声学的方法以及利用人工神经网络的方法等，其中最常见用的就是随机模型法。

如公开号为CN106792140A的中国专利文献公开了一种基于声音识别的广播电视广告监测***，通过声音识别建模模块对样本声音和待识别的声音的特征值进行模型构建，保证待识别特征与模板特征之间识别的准确性；通过声音匹配模块对匹配的声音进行量化，提高匹配的准确性；其声音识别建模模块采用的识别方法包括模板匹配法和随机模型法。

文本情感分析就是对带有主观性情感色彩的文本进行分析得到文本对应情感归属，互联网上存在着大量的用户对某一事件、人物、产品等的评论，这些评论中包含了用户的情感倾向性，通过文本情感分析就可以分析出大众对这些事件、人物或产品等的看法。按照处理的细粒度不同文本情感分析可以分为词语级、句子级、篇章级三个研究层次。本发明用到的就是句子级的文本情感分析。

正常人群的瞳孔大小与情绪状态有关，瞳孔的放大和缩小是由平滑肌控制的，而平滑肌是自主神经控制的，不是人的意识所能改变的，一个人有办法控制自己的行为、语言、动作，就是没办法去控制自己的瞳孔，尤其是瞳孔的细微变化更是没办法控制。心理学研究表明一个人的瞳孔大小能够反映出其当前的情绪状态，当一个人感到愉悦或兴奋时他的瞳孔就会扩大到原来的4到5倍，当一个人感到生气或厌烦时瞳孔就会不自觉的缩的很小。

目前，随着Deepfake技术的出现，人们已经很难用肉眼去分辨一些假的视频或者图片了，而网络上又存在一些对社会影响较大的假的图片或视频。比如对一些公众人物进行换脸，使他们散播虚假言论或者是恶意诽谤他人。因此对这些假的图片或视频的检测就显得尤为重要，但是目前的Deepfake技术也存在一些不足，就是对一些面部的细节伪造得不够到位，比如说瞳孔的大小变化，毛孔的缩放等。

发明内容

本发明提供了一种基于情感识别与瞳孔大小计算的Deepfake检测方法，可以克服现有的Deepfake检测技术应用场景不够全面，而且往往会造成对某种Deepfake方式的过拟合，缺乏泛化能力的问题。

一种基于情感识别与瞳孔大小计算的Deepfake检测方法，包括以下步骤：

(1)选择语音数据的语料库，将语音数据划分为语音训练集X和语音测试集Q后进行语音数据处理，并对训练语音识别模型Y进行训练和测试；

(2)选择文本数据的语料库，将文本数据划分为文本训练集N和文本测试集P后进行文本数据处理，并对训练文本情感分类模型M进行训练和测试；

(3)对于待检测的Deepfake视频，将其从视频中提取音频，然后把音频经过数据处理后输入到语音识别模型Y中，语音识别模型Y输出对应的文本，再将输出的文本经过数据处理后输入到文本情感分类模型M，得到与文本对应的情感；

(4)将待检测的Deepfake视频转换为图片帧，提取图片帧中的人脸部分，对人眼瞳孔的大小进行检测；

(5)将检测到的人眼瞳孔大小与文本情感分类模型M得到的情感进行匹配，如果不匹配，则判定是假视频；如果匹配，则判定是真视频。

步骤(1)中，语音数据的语料库采用CASIA汉语情感语料库，所述的语音数据处理包括：

对语音训练集X和语音测试集Q进行滤波去除噪声，然后对语音训练集X进行语音特征参数MFCC提取。

所述的语音识别模型Y采用百度开源的Deepspeech2模型，训练的损失函数采用连接主义时间分类算法CTC，CTCLoss的定义如下

CTCLoss(f(x),T)＝-logP(T|f(x))

其中，y＝f(x)为输出字符的概率分布，T为对应的文本。

步骤(2)中，文本数据的语料库采用NLPCC2013的中文微博数据集，所述的文本数据处理包括：

对于语音训练集X和语音测试集Q中的文本数据，先把语料转化为词向量，然后采用Google的word2vec来训练词向量，训练好词向量后建立词语到词向量的映射，通过keras的Embedding函数对文本进行词向量编码。

所述的文本情感分类模型M采用卷积网络，卷积核大小为3×3，步长为1，在卷积层和最大池化层中加入了批量归一化，经过归一化后再输入到激活函数中，其中采用的激活函数为ReLU，经过二维可分离卷积提取完特征之后，将提取到的特征输入到GRU层中，经过GRU后再输入到全连接层，最采用softmax分类器进行分类；

模型训练的损失函数loss采用交叉熵形式，公式如下：

其中，M为类别的数量，y指示变量0或1，如果该类别和样本的类别相同就是1，否则是0，p_c为观测样本属于类别c的预测概率。

步骤(4)的具体过程为：

用OpenCV将待检测的Deepfake视频转换为一帧一帧的图片；

用dlib工具提取图片中的人脸，然后对人眼的关键点进行检测，把人眼部分分割出来；

对人眼图片进行中值滤波，采用7×7的滤波模板，滤除正态分布的噪声；再对图像进行阈值处理，得到一张对比度不同的黑白图片；然后再对图片进行边缘检测；

对图片边缘检测后的边界信息进行freeman链码编码提取图像中的边缘，并根据边缘特征进行瞳孔边界的识别；

识别出瞳孔边界后，计算瞳孔的大小。

进一步地，所述的freeman链码采用8连通链码。

进一步地，采用霍夫圆拟合法进行瞳孔的拟合及其大小计算，具体为：把图像空间转换成参数空间，然后进行圆心检测，从圆心推导出圆的半径，从而完成对瞳孔大小的检测。

本发明通过将人说话时的语音转化为文本，再对文本进行情感分类，得出人说话时的情感状态，再对比瞳孔的大小，判断出真假视频。

本发明的有益效果主要表现在：

本发明针对人眼的生理特征进行检测，对不同的Deepfake方法生成的假视频都能够较好的检测，泛化能力强，应用范围广。

附图说明

图1是本发明的实施例中整体的方法流程图；

图2是本发明的实施例中语音识别流程图；

图3是本发明的实施例中文本情感分析流程图；

图4是本发明的实施例中瞳孔大小计算流程图；

图5是本发明的实施例中语音识别模型Y结构图；

图6是本发明的实施例中文本情感分类模型M结构图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于情感识别与瞳孔大小计算的Deepfake检测方法，包括：

步骤1，数据处理

(1-1)数据集

采用CASIA汉语情感语料库作为语音识别模型Y的训练数据集，CASIA汉语情感语料库由中国科学院自动化所(Institute of Automation,Chinese Academy of Sciences)录制，共包括四个专业发音人，六种情绪生气(angry)、高兴(happy)、害怕(fear)、悲伤(sad)、惊讶(surprise)和中性(neutral)，共9600句不同发音。其中有300句是相同文本的，有100句是不同文本的。相同文本的就是同样的话四个专业发音人用不同的6种情绪去阅读，一共有300×4×6＝7200句。不同文本的是指从字面意思就可以看出来句子中的情感，一共有100×4×6＝2400句，语音识别的过程如图2所示。

采用NLPCC2013的中文微博数据集作为文本情感分类模型M的训练数据集，该语料主要用于识别出整条微博所表达的情绪，不是简单的褒贬分类，而是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等)，属于细粒度的情感分类问题，文本情感分类的过程如图3所示。

(1-2)划分训练集与测试集

本发明训练语音识别模型Y只需要用到CASIA汉语情感语料库中的不同文本的发音，共有2400句，将100句不同的文本以4：1的比例划分为训练集X和测试集Q，训练集X有80个不同的文本共1920句朗读语音，测试集Q有20个不同的文本共480句朗读语音。训练集X用于对语音识别模型Y进行训练，测试集Q用来测试语音识别模型Y的识别准确率。

将NLPCC2013的中文微博数据集以4：1的比例划分为训练集N和测试集P。

(1-3)处理数据集

训练集X和测试集Q都是语音数据，要先对其进行滤波去除噪声。然后对训练集X进行语音特征参数MFCC提取，MFCC即梅尔频率倒谱(Mel-Frequency Cepstrum)是一种通过一系列步骤模拟人类听觉感知来转换音频信号的声音短功率谱。其流程为：先对语音进行预加重、分帧和加窗，然后对每一个短时分析窗，通过快速傅里叶变换(FFT)得到对应的频谱,再通过Mel频谱，将线形的自然频谱转换为体现人类听觉特性的Mel频谱，最后在Mel频谱上面进行倒谱分析，获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

NLPCC2013的中文微博数据集是一个语料库，而文本情感分类模型M的输入是一个个词向量，因此要先把语料转化为词向量，先用分词工具——jieba分词对语料进行分词并去除停用词，然后采用Google的word2vec来训练词向量，word2vec是Google于2013年开源推出的一个用于获取word vector的工具包，训练好词向量后建立词语到词向量的映射，通过keras的Embedding函数对文本进行词向量编码，得到训练集N和测试集P。

步骤2，训练模型

(2-1)将步骤1中划分好的语音训练集X作为输入对语音识别模型Y进行训练。

语音识别模型Y采用百度开源的Deepspeech2模型，Deepspeech2模型基于百度的PaddlePaddle框架，功能强大，简单易用。模型的结构如图5所示，由三部分组成，第一部分为2维不变卷积(2D invariant Convolutional)，第二部分为门控循环单元结构GRU(GatedRecurrent Unit)，它是传统RNN的变体,同LSTM一样能够有效捕捉长序列之间的语义关联，缓解梯度消失或***现象。同时它的结构和计算要比LSTM更简单，最后的部分是一个全连接层(Fully Connected Layer)，采用全连接层对输出进行整型。得到logits去计算CTC损失函数和解码。在模型内对每一层的输入都使用了批量标准化(Batch Normalization)来减少输入和输出间的分布差距，增加模型的泛化能力并加速训练。模型的输入为功率归一化音频剪辑的频谱图(spectrogram)，输出为简体中文。

损失函数采用连接主义时间分类(Connectionist Temporal Classification，CTC)算法。主要的优点是可以对没有对齐的数据进行自动对齐，主要用在没有事先对齐的序列化数据训练上，比如语音识别。CTC的损失函数CTCLoss可以解释为给定样本后输出正确lable的概率之和。CTCLoss的定义如下：

CTCLoss(f(x),T)＝-logP(T|f(x))

其中y＝f(x)为输出字符的概率分布，T为对应的文本。

(2-2)将步骤1中划分好的训练集N作为输入对文本情感分类模型M进行训练。

文本情感分类模型M的结构如图6所示，二维卷积中采用的卷积核大小为3×3，步长为1，为防止训练过拟合并提高训练的收敛速度，在卷积层和最大池化层中加入了批量归一化(Batch Normalization)，经过归一化后再输入到激活函数中，其中采用的激活函数为ReLU，经过二维可分离卷积提取完特征之后，将提取到的特征输入到GRU层中，经过GRU后再输入到全连接层，最采用softmax分类器进行分类。分类的结果设为四类，分别是愉快、平静、焦虑、急躁四种情绪。模型的损失函数loss采用交叉熵形式，公式如下：

其中M为类别的数量，y指示变量(0或1),如果该类别和样本的类别相同就是1，否则是0，p_c为观测样本属于类别c的预测概率。

步骤3，测试模型

将第1)步中划分好的测试集P和测试集Q分别输入到训练好的语音识别模型Y和文本情感分类模型M中，更据模型的输出求得它们的分类准确率。

步骤4，瞳孔大小计算

瞳孔大小计算要用到一些数字图像处理的技术，采用OpenCV来处理眼部图像，OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库，OpenCV提供的视觉处理算法非常丰富。

瞳孔大小检测过程如图4所示，首先用OpenCV将视频转换为一帧一帧的图片，再用dlib工具提取图片中的人脸，然后对人眼的关键点进行检测，把人眼部分分割出来。然后对人眼图片进行中值滤波，采用7×7的滤波模板，滤除正态分布的噪声，再对图像进行阈值处理，阈值处理就是设定一个阈值对图像进行二值化处理，最后得到一张对比度不同的黑白图片，这里采用一维最大熵阈值分割方法对图像进行阈值处理，然后再对图片进行边缘检测，边缘检测的目的是标识数字图像中亮度变化明显的点，采用普利维特算子(Prewittoperate)进行边缘检测，Prewitt算子利用像素点上下、左右邻点灰度差，在边缘处达到极值检测边缘。对图像边缘检测后的边界信息进行freeman链码编码提取图像中的边缘，freeman链码编码就是用曲线起始点的坐标和边界点方向代码来描述曲线或边界的方法，常被用来在图像处理、计算机图形学、模式识别等领域中表示曲线和区域边界。这里采用的是8连通链码，8连通链码的邻接点有四个，分别在中心点的上、右上、右、右下、下、左下、左和左上。8连通链码与实际的像素点相符，能够准确地描述中心像素点与邻接点的信息。进行freeman链码编码提取图像中的边缘后，可根据其特征进行瞳孔边界的识别，识别出瞳孔边界后，采用霍夫圆拟合法进行瞳孔的拟合及其大小计算。标准霍夫变换的原理就是把图像空间转换成参数空间，然后进行圆心检测，从圆心推导出圆的半径。这样就完成了对瞳孔大小的检测。

步骤5，真假视频判断

本发明针对的是Deepfake视频的检测，因此我们的检测样本是一段视频，首先我们要用到moviepy从视频中提取音频，然后把音频经过数据处理后输入到语音识别模型Y中，语音识别模型Y输出对应的文本，再将输出的文本经过数据处理后输入到文本情感分类模型M，得到与文本对应的情感，然后对视频中的人眼瞳孔大小进行检测，结合表1，看人眼瞳孔大小是否与对应的情感相匹配，如果不匹配那么就可以判断这是一段假视频。

表1

情绪状态	瞳孔大小(单位：mm)
		愉快	5.34±1.41
平静	3.50±1.25
		焦虑	3.17±0.86
急躁	4.91±1.81

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于情感识别与瞳孔大小计算的Deepfake检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于情感识别与瞳孔大小计算的Deepfake检测方法，其特征在于，步骤(1)中，语音数据的语料库采用CASIA汉语情感语料库，所述的语音数据处理包括：

3.根据权利要求2所述的基于情感识别与瞳孔大小计算的Deepfake检测方法，其特征在于，步骤(1)中，所述的语音识别模型Y采用百度开源的Deepspeech2模型，训练的损失函数采用连接主义时间分类算法CTC，CTC_Loss的定义如下

CTC_Loss(f(x),T)＝-logP(T|f(x))

其中，y＝f(x)为输出字符的概率分布，T为对应的文本。

4.根据权利要求1所述的基于情感识别与瞳孔大小计算的Deepfake检测方法，其特征在于，步骤(2)中，文本数据的语料库采用NLPCC2013的中文微博数据集，所述的文本数据处理包括：

5.根据权利要求4所述的基于情感识别与瞳孔大小计算的Deepfake检测方法，其特征在于，步骤(2)中，所述的文本情感分类模型M采用卷积网络，卷积核大小为3×3，步长为1，在卷积层和最大池化层中加入了批量归一化，经过归一化后再输入到激活函数中，其中采用的激活函数为ReLU，经过二维可分离卷积提取完特征之后，将提取到的特征输入到GRU层中，经过GRU后再输入到全连接层，最采用softmax分类器进行分类。

6.根据权利要求5所述的基于情感识别与瞳孔大小计算的Deepfake检测方法，其特征在于，文本情感分类模型M训练的损失函数loss采用交叉熵形式，公式如下：

7.根据权利要求1所述的基于情感识别与瞳孔大小计算的Deepfake检测方法，其特征在于，步骤(4)的具体过程为：

用OpenCV将待检测的Deepfake视频转换为一帧一帧的图片；

识别出瞳孔边界后，计算瞳孔的大小。

8.根据权利要求7所述的基于情感识别与瞳孔大小计算的Deepfake检测方法，其特征在于，所述的freeman链码采用8连通链码。

9.根据权利要求7所述的基于情感识别与瞳孔大小计算的Deepfake检测方法，其特征在于，采用霍夫圆拟合法进行瞳孔的拟合及其大小计算，具体为：把图像空间转换成参数空间，然后进行圆心检测，从圆心推导出圆的半径，从而完成对瞳孔大小的检测。