CN112699236B - 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 - Google Patents
一种基于情感识别与瞳孔大小计算的Deepfake检测方法 Download PDFInfo
- Publication number
- CN112699236B CN112699236B CN202011532434.8A CN202011532434A CN112699236B CN 112699236 B CN112699236 B CN 112699236B CN 202011532434 A CN202011532434 A CN 202011532434A CN 112699236 B CN112699236 B CN 112699236B
- Authority
- CN
- China
- Prior art keywords
- text
- emotion
- voice
- pupil
- deepfake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000001747 pupil Anatomy 0.000 title claims abstract description 53
- 238000004364 calculation method Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 15
- 230000008451 emotion Effects 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000013145 classification model Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 9
- 238000003708 edge detection Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- 206010049976 Impatience Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 210000002460 smooth muscle Anatomy 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000000467 autonomic pathway Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000008449 language Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Ophthalmology & Optometry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于情感识别与瞳孔大小计算的Deepfake检测方法,包括:(1)将语音数据划分为训练集X和测试集Q后进行数据处理,并对训练语音识别模型Y进行训练和测试;(2)将文本数据划分为训练集N和测试集P后进行数据处理,并对训练文本情感分类模型M进行训练和测试;(3)对于待检测的Deepfake视频,提取音频后输入到语音识别模型Y中,再将输出的文本输入到文本情感分类模型M,得到与文本对应的情感;(4)将待测的Deepfake视频转换为图片帧,检测人眼瞳孔的大小;(5)将检测到的人眼瞳孔大小与文本情感分类模型M得到的情感进行匹配,如果不匹配,则判定是假视频。本发明对不同的Deepfake方法生成的假视频都能够较好的检测,泛化能力强。
Description
技术领域
本发明属于机器学习技术领域,尤其是涉及一种基于情感识别与瞳孔大小计算的Deepfake检测方法。
背景技术
语音识别技术就是要让计算机听懂人在说什么,实现人类与机器之间的语音交流,还能将人类说出的话以文本的形式输出。近些年来语音识别技术取得了显著的进步,开始从实验室走进大家的生活中,比如智能手机中的语音助手、语音翻译等。语音识别技术常用的方法有随机模型法、概率语法分析、基于语言学和声学的方法以及利用人工神经网络的方法等,其中最常见用的就是随机模型法。
如公开号为CN106792140A的中国专利文献公开了一种基于声音识别的广播电视广告监测***,通过声音识别建模模块对样本声音和待识别的声音的特征值进行模型构建,保证待识别特征与模板特征之间识别的准确性;通过声音匹配模块对匹配的声音进行量化,提高匹配的准确性;其声音识别建模模块采用的识别方法包括模板匹配法和随机模型法。
文本情感分析就是对带有主观性情感色彩的文本进行分析得到文本对应情感归属,互联网上存在着大量的用户对某一事件、人物、产品等的评论,这些评论中包含了用户的情感倾向性,通过文本情感分析就可以分析出大众对这些事件、人物或产品等的看法。按照处理的细粒度不同文本情感分析可以分为词语级、句子级、篇章级三个研究层次。本发明用到的就是句子级的文本情感分析。
正常人群的瞳孔大小与情绪状态有关,瞳孔的放大和缩小是由平滑肌控制的,而平滑肌是自主神经控制的,不是人的意识所能改变的,一个人有办法控制自己的行为、语言、动作,就是没办法去控制自己的瞳孔,尤其是瞳孔的细微变化更是没办法控制。心理学研究表明一个人的瞳孔大小能够反映出其当前的情绪状态,当一个人感到愉悦或兴奋时他的瞳孔就会扩大到原来的4到5倍,当一个人感到生气或厌烦时瞳孔就会不自觉的缩的很小。
目前,随着Deepfake技术的出现,人们已经很难用肉眼去分辨一些假的视频或者图片了,而网络上又存在一些对社会影响较大的假的图片或视频。比如对一些公众人物进行换脸,使他们散播虚假言论或者是恶意诽谤他人。因此对这些假的图片或视频的检测就显得尤为重要,但是目前的Deepfake技术也存在一些不足,就是对一些面部的细节伪造得不够到位,比如说瞳孔的大小变化,毛孔的缩放等。
发明内容
本发明提供了一种基于情感识别与瞳孔大小计算的Deepfake检测方法,可以克服现有的Deepfake检测技术应用场景不够全面,而且往往会造成对某种Deepfake方式的过拟合,缺乏泛化能力的问题。
一种基于情感识别与瞳孔大小计算的Deepfake检测方法,包括以下步骤:
(1)选择语音数据的语料库,将语音数据划分为语音训练集X和语音测试集Q后进行语音数据处理,并对训练语音识别模型Y进行训练和测试;
(2)选择文本数据的语料库,将文本数据划分为文本训练集N和文本测试集P后进行文本数据处理,并对训练文本情感分类模型M进行训练和测试;
(3)对于待检测的Deepfake视频,将其从视频中提取音频,然后把音频经过数据处理后输入到语音识别模型Y中,语音识别模型Y输出对应的文本,再将输出的文本经过数据处理后输入到文本情感分类模型M,得到与文本对应的情感;
(4)将待检测的Deepfake视频转换为图片帧,提取图片帧中的人脸部分,对人眼瞳孔的大小进行检测;
(5)将检测到的人眼瞳孔大小与文本情感分类模型M得到的情感进行匹配,如果不匹配,则判定是假视频;如果匹配,则判定是真视频。
步骤(1)中,语音数据的语料库采用CASIA汉语情感语料库,所述的语音数据处理包括:
对语音训练集X和语音测试集Q进行滤波去除噪声,然后对语音训练集X进行语音特征参数MFCC提取。
所述的语音识别模型Y采用百度开源的Deepspeech2模型,训练的损失函数采用连接主义时间分类算法CTC,CTCLoss的定义如下
CTCLoss(f(x),T)=-logP(T|f(x))
其中,y=f(x)为输出字符的概率分布,T为对应的文本。
步骤(2)中,文本数据的语料库采用NLPCC2013的中文微博数据集,所述的文本数据处理包括:
对于语音训练集X和语音测试集Q中的文本数据,先把语料转化为词向量,然后采用Google的word2vec来训练词向量,训练好词向量后建立词语到词向量的映射,通过keras的Embedding函数对文本进行词向量编码。
所述的文本情感分类模型M采用卷积网络,卷积核大小为3×3,步长为1,在卷积层和最大池化层中加入了批量归一化,经过归一化后再输入到激活函数中,其中采用的激活函数为ReLU,经过二维可分离卷积提取完特征之后,将提取到的特征输入到GRU层中,经过GRU后再输入到全连接层,最采用softmax分类器进行分类;
模型训练的损失函数loss采用交叉熵形式,公式如下:
其中,M为类别的数量,y指示变量0或1,如果该类别和样本的类别相同就是1,否则是0,pc为观测样本属于类别c的预测概率。
步骤(4)的具体过程为:
用OpenCV将待检测的Deepfake视频转换为一帧一帧的图片;
用dlib工具提取图片中的人脸,然后对人眼的关键点进行检测,把人眼部分分割出来;
对人眼图片进行中值滤波,采用7×7的滤波模板,滤除正态分布的噪声;再对图像进行阈值处理,得到一张对比度不同的黑白图片;然后再对图片进行边缘检测;
对图片边缘检测后的边界信息进行freeman链码编码提取图像中的边缘,并根据边缘特征进行瞳孔边界的识别;
识别出瞳孔边界后,计算瞳孔的大小。
进一步地,所述的freeman链码采用8连通链码。
进一步地,采用霍夫圆拟合法进行瞳孔的拟合及其大小计算,具体为:把图像空间转换成参数空间,然后进行圆心检测,从圆心推导出圆的半径,从而完成对瞳孔大小的检测。
本发明通过将人说话时的语音转化为文本,再对文本进行情感分类,得出人说话时的情感状态,再对比瞳孔的大小,判断出真假视频。
本发明的有益效果主要表现在:
本发明针对人眼的生理特征进行检测,对不同的Deepfake方法生成的假视频都能够较好的检测,泛化能力强,应用范围广。
附图说明
图1是本发明的实施例中整体的方法流程图;
图2是本发明的实施例中语音识别流程图;
图3是本发明的实施例中文本情感分析流程图;
图4是本发明的实施例中瞳孔大小计算流程图;
图5是本发明的实施例中语音识别模型Y结构图;
图6是本发明的实施例中文本情感分类模型M结构图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种基于情感识别与瞳孔大小计算的Deepfake检测方法,包括:
步骤1,数据处理
(1-1)数据集
采用CASIA汉语情感语料库作为语音识别模型Y的训练数据集,CASIA汉语情感语料库由中国科学院自动化所(Institute of Automation,Chinese Academy of Sciences)录制,共包括四个专业发音人,六种情绪生气(angry)、高兴(happy)、害怕(fear)、悲伤(sad)、惊讶(surprise)和中性(neutral),共9600句不同发音。其中有300句是相同文本的,有100句是不同文本的。相同文本的就是同样的话四个专业发音人用不同的6种情绪去阅读,一共有300×4×6=7200句。不同文本的是指从字面意思就可以看出来句子中的情感,一共有100×4×6=2400句,语音识别的过程如图2所示。
采用NLPCC2013的中文微博数据集作为文本情感分类模型M的训练数据集,该语料主要用于识别出整条微博所表达的情绪,不是简单的褒贬分类,而是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等),属于细粒度的情感分类问题,文本情感分类的过程如图3所示。
(1-2)划分训练集与测试集
本发明训练语音识别模型Y只需要用到CASIA汉语情感语料库中的不同文本的发音,共有2400句,将100句不同的文本以4:1的比例划分为训练集X和测试集Q,训练集X有80个不同的文本共1920句朗读语音,测试集Q有20个不同的文本共480句朗读语音。训练集X用于对语音识别模型Y进行训练,测试集Q用来测试语音识别模型Y的识别准确率。
将NLPCC2013的中文微博数据集以4:1的比例划分为训练集N和测试集P。
(1-3)处理数据集
训练集X和测试集Q都是语音数据,要先对其进行滤波去除噪声。然后对训练集X进行语音特征参数MFCC提取,MFCC即梅尔频率倒谱(Mel-Frequency Cepstrum)是一种通过一系列步骤模拟人类听觉感知来转换音频信号的声音短功率谱。其流程为:先对语音进行预加重、分帧和加窗,然后对每一个短时分析窗,通过快速傅里叶变换(FFT)得到对应的频谱,再通过Mel频谱,将线形的自然频谱转换为体现人类听觉特性的Mel频谱,最后在Mel频谱上面进行倒谱分析,获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。
NLPCC2013的中文微博数据集是一个语料库,而文本情感分类模型M的输入是一个个词向量,因此要先把语料转化为词向量,先用分词工具——jieba分词对语料进行分词并去除停用词,然后采用Google的word2vec来训练词向量,word2vec是Google于2013年开源推出的一个用于获取word vector的工具包,训练好词向量后建立词语到词向量的映射,通过keras的Embedding函数对文本进行词向量编码,得到训练集N和测试集P。
步骤2,训练模型
(2-1)将步骤1中划分好的语音训练集X作为输入对语音识别模型Y进行训练。
语音识别模型Y采用百度开源的Deepspeech2模型,Deepspeech2模型基于百度的PaddlePaddle框架,功能强大,简单易用。模型的结构如图5所示,由三部分组成,第一部分为2维不变卷积(2D invariant Convolutional),第二部分为门控循环单元结构GRU(GatedRecurrent Unit),它是传统RNN的变体,同LSTM一样能够有效捕捉长序列之间的语义关联,缓解梯度消失或***现象。同时它的结构和计算要比LSTM更简单,最后的部分是一个全连接层(Fully Connected Layer),采用全连接层对输出进行整型。得到logits去计算CTC损失函数和解码。在模型内对每一层的输入都使用了批量标准化(Batch Normalization)来减少输入和输出间的分布差距,增加模型的泛化能力并加速训练。模型的输入为功率归一化音频剪辑的频谱图(spectrogram),输出为简体中文。
损失函数采用连接主义时间分类(Connectionist Temporal Classification,CTC)算法。主要的优点是可以对没有对齐的数据进行自动对齐,主要用在没有事先对齐的序列化数据训练上,比如语音识别。CTC的损失函数CTCLoss可以解释为给定样本后输出正确lable的概率之和。CTCLoss的定义如下:
CTCLoss(f(x),T)=-logP(T|f(x))
其中y=f(x)为输出字符的概率分布,T为对应的文本。
(2-2)将步骤1中划分好的训练集N作为输入对文本情感分类模型M进行训练。
文本情感分类模型M的结构如图6所示,二维卷积中采用的卷积核大小为3×3,步长为1,为防止训练过拟合并提高训练的收敛速度,在卷积层和最大池化层中加入了批量归一化(Batch Normalization),经过归一化后再输入到激活函数中,其中采用的激活函数为ReLU,经过二维可分离卷积提取完特征之后,将提取到的特征输入到GRU层中,经过GRU后再输入到全连接层,最采用softmax分类器进行分类。分类的结果设为四类,分别是愉快、平静、焦虑、急躁四种情绪。模型的损失函数loss采用交叉熵形式,公式如下:
其中M为类别的数量,y指示变量(0或1),如果该类别和样本的类别相同就是1,否则是0,pc为观测样本属于类别c的预测概率。
步骤3,测试模型
将第1)步中划分好的测试集P和测试集Q分别输入到训练好的语音识别模型Y和文本情感分类模型M中,更据模型的输出求得它们的分类准确率。
步骤4,瞳孔大小计算
瞳孔大小计算要用到一些数字图像处理的技术,采用OpenCV来处理眼部图像,OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库,OpenCV提供的视觉处理算法非常丰富。
瞳孔大小检测过程如图4所示,首先用OpenCV将视频转换为一帧一帧的图片,再用dlib工具提取图片中的人脸,然后对人眼的关键点进行检测,把人眼部分分割出来。然后对人眼图片进行中值滤波,采用7×7的滤波模板,滤除正态分布的噪声,再对图像进行阈值处理,阈值处理就是设定一个阈值对图像进行二值化处理,最后得到一张对比度不同的黑白图片,这里采用一维最大熵阈值分割方法对图像进行阈值处理,然后再对图片进行边缘检测,边缘检测的目的是标识数字图像中亮度变化明显的点,采用普利维特算子(Prewittoperate)进行边缘检测,Prewitt算子利用像素点上下、左右邻点灰度差,在边缘处达到极值检测边缘。对图像边缘检测后的边界信息进行freeman链码编码提取图像中的边缘,freeman链码编码就是用曲线起始点的坐标和边界点方向代码来描述曲线或边界的方法,常被用来在图像处理、计算机图形学、模式识别等领域中表示曲线和区域边界。这里采用的是8连通链码,8连通链码的邻接点有四个,分别在中心点的上、右上、右、右下、下、左下、左和左上。8连通链码与实际的像素点相符,能够准确地描述中心像素点与邻接点的信息。进行freeman链码编码提取图像中的边缘后,可根据其特征进行瞳孔边界的识别,识别出瞳孔边界后,采用霍夫圆拟合法进行瞳孔的拟合及其大小计算。标准霍夫变换的原理就是把图像空间转换成参数空间,然后进行圆心检测,从圆心推导出圆的半径。这样就完成了对瞳孔大小的检测。
步骤5,真假视频判断
本发明针对的是Deepfake视频的检测,因此我们的检测样本是一段视频,首先我们要用到moviepy从视频中提取音频,然后把音频经过数据处理后输入到语音识别模型Y中,语音识别模型Y输出对应的文本,再将输出的文本经过数据处理后输入到文本情感分类模型M,得到与文本对应的情感,然后对视频中的人眼瞳孔大小进行检测,结合表1,看人眼瞳孔大小是否与对应的情感相匹配,如果不匹配那么就可以判断这是一段假视频。
表1
情绪状态 | 瞳孔大小(单位:mm) |
愉快 | 5.34±1.41 |
平静 | 3.50±1.25 |
焦虑 | 3.17±0.86 |
急躁 | 4.91±1.81 |
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,包括以下步骤:
(1)选择语音数据的语料库,将语音数据划分为语音训练集X和语音测试集Q后进行语音数据处理,并对训练语音识别模型Y进行训练和测试;
(2)选择文本数据的语料库,将文本数据划分为文本训练集N和文本测试集P后进行文本数据处理,并对训练文本情感分类模型M进行训练和测试;
(3)对于待检测的Deepfake视频,将其从视频中提取音频,然后把音频经过数据处理后输入到语音识别模型Y中,语音识别模型Y输出对应的文本,再将输出的文本经过数据处理后输入到文本情感分类模型M,得到与文本对应的情感;
(4)将待检测的Deepfake视频转换为图片帧,提取图片帧中的人脸部分,对人眼瞳孔的大小进行检测;
(5)将检测到的人眼瞳孔大小与文本情感分类模型M得到的情感进行匹配,如果不匹配,则判定是假视频;如果匹配,则判定是真视频。
2.根据权利要求1所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(1)中,语音数据的语料库采用CASIA汉语情感语料库,所述的语音数据处理包括:
对语音训练集X和语音测试集Q进行滤波去除噪声,然后对语音训练集X进行语音特征参数MFCC提取。
3.根据权利要求2所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(1)中,所述的语音识别模型Y采用百度开源的Deepspeech2模型,训练的损失函数采用连接主义时间分类算法CTC,CTCLoss的定义如下
CTCLoss(f(x),T)=-logP(T|f(x))
其中,y=f(x)为输出字符的概率分布,T为对应的文本。
4.根据权利要求1所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(2)中,文本数据的语料库采用NLPCC2013的中文微博数据集,所述的文本数据处理包括:
对于语音训练集X和语音测试集Q中的文本数据,先把语料转化为词向量,然后采用Google的word2vec来训练词向量,训练好词向量后建立词语到词向量的映射,通过keras的Embedding函数对文本进行词向量编码。
5.根据权利要求4所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(2)中,所述的文本情感分类模型M采用卷积网络,卷积核大小为3×3,步长为1,在卷积层和最大池化层中加入了批量归一化,经过归一化后再输入到激活函数中,其中采用的激活函数为ReLU,经过二维可分离卷积提取完特征之后,将提取到的特征输入到GRU层中,经过GRU后再输入到全连接层,最采用softmax分类器进行分类。
7.根据权利要求1所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,步骤(4)的具体过程为:
用OpenCV将待检测的Deepfake视频转换为一帧一帧的图片;
用dlib工具提取图片中的人脸,然后对人眼的关键点进行检测,把人眼部分分割出来;
对人眼图片进行中值滤波,采用7×7的滤波模板,滤除正态分布的噪声;再对图像进行阈值处理,得到一张对比度不同的黑白图片;然后再对图片进行边缘检测;
对图片边缘检测后的边界信息进行freeman链码编码提取图像中的边缘,并根据边缘特征进行瞳孔边界的识别;
识别出瞳孔边界后,计算瞳孔的大小。
8.根据权利要求7所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,所述的freeman链码采用8连通链码。
9.根据权利要求7所述的基于情感识别与瞳孔大小计算的Deepfake检测方法,其特征在于,采用霍夫圆拟合法进行瞳孔的拟合及其大小计算,具体为:把图像空间转换成参数空间,然后进行圆心检测,从圆心推导出圆的半径,从而完成对瞳孔大小的检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011532434.8A CN112699236B (zh) | 2020-12-22 | 2020-12-22 | 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011532434.8A CN112699236B (zh) | 2020-12-22 | 2020-12-22 | 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699236A CN112699236A (zh) | 2021-04-23 |
CN112699236B true CN112699236B (zh) | 2022-07-01 |
Family
ID=75510687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011532434.8A Active CN112699236B (zh) | 2020-12-22 | 2020-12-22 | 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699236B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117059131B (zh) * | 2023-10-13 | 2024-03-29 | 南京龙垣信息科技有限公司 | 基于情绪识别的伪造音频检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969106A (zh) * | 2019-11-25 | 2020-04-07 | 东南大学 | 一种基于表情、语音和眼动特征的多模态测谎方法 |
CN111160286A (zh) * | 2019-12-31 | 2020-05-15 | 中国电子科技集团公司信息科学研究院 | 一种视频真伪鉴别方法 |
CN111738199A (zh) * | 2020-06-30 | 2020-10-02 | 中国工商银行股份有限公司 | 图像信息验证方法、装置、计算装置和介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10964199B2 (en) * | 2016-11-14 | 2021-03-30 | Instant Care, Inc. | AI-based monitoring system for reducing a false alarm notification to a call center |
US11393252B2 (en) * | 2019-05-01 | 2022-07-19 | Accenture Global Solutions Limited | Emotion sensing artificial intelligence |
-
2020
- 2020-12-22 CN CN202011532434.8A patent/CN112699236B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969106A (zh) * | 2019-11-25 | 2020-04-07 | 东南大学 | 一种基于表情、语音和眼动特征的多模态测谎方法 |
CN111160286A (zh) * | 2019-12-31 | 2020-05-15 | 中国电子科技集团公司信息科学研究院 | 一种视频真伪鉴别方法 |
CN111738199A (zh) * | 2020-06-30 | 2020-10-02 | 中国工商银行股份有限公司 | 图像信息验证方法、装置、计算装置和介质 |
Non-Patent Citations (1)
Title |
---|
徐天宇等.基于特征点检测的面部情感分析应用与研究.《电脑与信息技术》.2020,第28卷(第3期), * |
Also Published As
Publication number | Publication date |
---|---|
CN112699236A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及*** | |
WO2015158017A1 (zh) | 智能交互及心理慰藉机器人服务*** | |
CN112348075A (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
CN111583964B (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
CN112686048B (zh) | 基于语音、语义、面部表情融合的情绪识别方法及装置 | |
JP2017156854A (ja) | 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法 | |
Dhuheir et al. | Emotion recognition for healthcare surveillance systems using neural networks: A survey | |
CN113380271B (zh) | 情绪识别方法、***、设备及介质 | |
CN111326178A (zh) | 基于卷积神经网络的多模态语音情感识别***及方法 | |
CN109872714A (zh) | 一种提高语音识别准确性的方法、电子设备及存储介质 | |
WO2023226239A1 (zh) | 对象情绪的分析方法、装置和电子设备 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
Alghifari et al. | On the use of voice activity detection in speech emotion recognition | |
CN112735404A (zh) | 一种语音反讽检测方法、***、终端设备和存储介质 | |
CN114495217A (zh) | 基于自然语言和表情分析的场景分析方法、装置及*** | |
CN115455136A (zh) | 智能数字人营销交互方法、装置、计算机设备及存储介质 | |
CN112699236B (zh) | 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 | |
Kuang et al. | Simplified inverse filter tracked affective acoustic signals classification incorporating deep convolutional neural networks | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及*** | |
Dweik et al. | Read my lips: Artificial intelligence word-level arabic lipreading system | |
Gadhe et al. | Emotion recognition from speech: a survey | |
CN114881668A (zh) | 一种基于多模态的欺骗检测方法 | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
Zhu et al. | Emotion Recognition of College Students Based on Audio and Video Image. | |
CN114170997A (zh) | 发音技巧检测方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |