CN114881668A

CN114881668A - 一种基于多模态的欺骗检测方法

Info

Publication number: CN114881668A
Application number: CN202210481779.8A
Authority: CN
Inventors: 宋彬; 刘俊杰; 秦浩; 涂学峰
Original assignee: Lingtu Data Hangzhou Co ltd
Current assignee: Lingtu Data Hangzhou Co ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-08-09

Abstract

本发明涉及欺骗检测技术领域，其目的在于提供一种基于多模态的欺骗检测方法，包括：接收多模态数据，所述多模态数据包括待测用户的视频数据、文本数据和音频数据；分别对所述视频数据、文本数据和音频数据进行特征提取，得到对应的视频特征、文本特征和音频特征；对所述视频特征、所述文本特征和所述音频特征进行特征融合，得到融合后特征；将所述融合后特征输入多模态模型进行处理，得到欺骗检测结果。本发明的测谎准确度高，同时可进行非接触式测谎。

Description

一种基于多模态的欺骗检测方法

技术领域

本发明涉及欺骗检测技术领域，特别是涉及一种基于多模态的欺骗检测方法。

背景技术

欺骗检测是计算机语言学、心理学、军事及情报学等各学科研究的重要方向，目前的欺骗检测方法大致分为以下两大类：

一是基于言语线索的检测方法；具体地，基于言语线索的检测方法主要是通过分析语法以及词性等特征来检测被测用户所说的话为真话还是假话。研究发现基于语言探究和字数统计词典的心理语言学特征可用于测谎，并且说谎者会使用更多的负面情绪词。多个研究表明，不同的语言特征(字数、词性和句子统计特征)以及文本句法复杂性等都与说谎存在联系。

二是基于非言语线索的检测方法；具体地，该方法主要分为三类：基于生理、声音和视觉线索的检测方法。其中，基于生理的检测方法包括使用测谎仪、热成像方法测量被测用户的面部血流量和面部皮肤温度以及使用脑功能磁共振成像(Functional MagneticResonance Imaging，FMRI)测量被测用户的脑血流量等。然而，这些方法都需要被测用户配合，且设备昂贵，还需要操作人员掌握专业的仪器操作等知识。基于声音的检测方法包括利用声压分析器(Voice Stress Analysis，VSA)和分层声音分析技术两种商业产品对人体声带进行操作来测谎，有相关研究表明，音高、持续时间、能量以及说话过程中的停顿可表明说谎信息。基于视觉的检测方法近年来也越来越受到关注，另有研究发现瞳孔扩张是一种表明说谎的行为，面部微表情如嘴唇突出翘起以及一些标志性手势也被认为是说谎的一类标志。

但是，在使用现有技术过程中，发明人发现现有技术中至少存在如下问题：

上述欺骗检测方法均采用基于单模态的欺骗检测技术，其在进行欺骗检测的过程中，通常只考虑一个模态的特征，而没有多方面考虑各个模态之间的相互作用，最终导致只有单一模态特征作用域最终的分类，往往会造成测试结果精度较低的问题。

现有技术中，为解决单模态欺骗检测精度较低的问题，如公开号为CN113080969A的中国专利已公开了基于多模态特征的测谎数据处理方法及***，其中的测谎方法包括：获取被审讯人员的审讯视频，获取被审讯人员的审讯过程中实时心率；对审讯视频中的音频进行端点检测，得到若干个音频端点；提取音频端点对应视频中被审讯人员的面部图像，识别面部图像中的微表情特征；对微表情特征进行测谎结果识别，得到微表情测谎结果；基于所有的音频端点，对整个音频进行划分，得到若干个音频段，对每个音频段进行测谎结果识别，得到音频测谎结果；对音频端点对应的心率进行测谎结果识别，得到心率测谎结果；综合微表情测谎结果、音频测谎结果和心率测谎结果，得到最终的测谎结果。

然而，上述现有技术中，通过分别对每个模态分别进行谎言检测，然后得到每个模态得出的测谎结论，最后结合这些结论得出最终的测谎结果，即，上述现有技术采用的是先单模态进行测谎判断，再综合各个模态的判断结果得到最终的测谎结果。该方法的实现不符合人类判断谎言的正常行为，具体地，人类综合判断他人是否说谎时，会在测谎的过程中充分考虑各个模态之间的关联性，例如：在对方说话过程中，综合对方说话语调、说话内容和动作姿态等，对对方是否存在说谎行为进行综合判断，导致上述现有技术仍存在测谎准确度低的问题。

此外，现有技术中的单模态欺骗检测方法及多模态欺骗检测方法中，均存在基于实时心率等生理特征的欺骗检测，在进行欺骗检测过程中，均需要通过电子仪器设备进行接触式信息采集，而实际的应用场合往往不允许接触式测谎。

因此，有必要研究一种准确度高，同时可进行非接触式测谎的基于多模态的欺骗检测方法。

发明内容

本发明旨在至少在一定程度上解决上述技术问题，本发明提供了一种基于多模态的欺骗检测方法。

本发明采用的技术方案是：

本发明提供了一种基于多模态的欺骗检测方法，包括：

接收多模态数据，所述多模态数据包括待测用户的视频数据、文本数据和音频数据；

分别对所述视频数据、文本数据和音频数据进行特征提取，得到对应的视频特征、文本特征和音频特征；

对所述视频特征、所述文本特征和所述音频特征进行特征融合，得到融合后特征；

将所述融合后特征输入多模态模型进行处理，得到欺骗检测结果。

本发明的测谎准确度高，同时可进行非接触式测谎。具体地，本发明通过对输入的提取视频、音频和文本三个模态的数据进行特征提取，并提取得到的多模态特征进行融合，最终对融合后的特征进行分类，由此实现欺骗检测数据采集内容和识别流程的优化，可实现无接触式多模态欺骗检测，利于拓展欺骗检测的使用环节，同时可提升欺骗检测的准确率。本发明在应用过程中，能够复刻人类的行为，提取每个模态带有时间属性的特征，并不立刻分别对模态内容进行测谎判断，而是将各个模态的特征进行融合，再根据融合后的特征进行测谎判断。

在一个可能的设计中，对所述视频数据进行特征提取，得到视频特征，包括：

基于3D-CNN滤波器对所述视频数据进行滤波处理，得到滤波后特征图；

对所述滤波后特征图进行卷积处理，得到卷积后特征图；

使用最大池化核对卷积后特征图进行池化处理，得到池化后特征图；

将池化后特征图输入全连接层，然后基于softmax激活函数进行处理，得到视频特征。

在一个可能的设计中，对所述文本数据进行特征提取时，基于卷积神经网络实现；对所述文本数据进行特征提取，得到文本特征，包括：

构建数据字典，通过所述数据字典将所述文本数据一一映射为向量编码；

采用embedding层将所述向量编码映射至高维空间，得到所述文本数据中每句话的特征向量；

将所述特征向量输入CNN层，通过一层卷积层进行卷积处理，再通过一层最大池化层进行池化处理，得到语句特征；

将所述语句特征输入全连接网络，然后基于ReLU激活函数进行处理，得到文本特征。

在一个可能的设计中，对所述音频数据进行特征提取，得到音频特征，包括：

从音频数据中去除背景噪声，得到除噪后音频数据；

使用z标准化对所述除噪后音频数据进行语音归一化，得到归一化处理后音频数据；

对所述归一化处理后音频数据进行高维音频特征提取处理，得到高维音频特征；

将所述高维音频特征进行降维处理，得到音频特征。

在一个可能的设计中，采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合。

在一个可能的设计中，采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合，得到融合后特征，包括：

将所述视频特征、所述文本特征和所述音频特征都转换为指定维度的矩阵；

对所述视频特征对应的指定维度的矩阵、所述文本特征对应的指定维度的矩阵和所述音频特征对应的指定维度的矩阵进行哈达玛积处理，得到融合后特征。

在一个可能的设计中，所述多模态模型采用多层感知机模型。

在一个可能的设计中，所述多层感知机模型包括一层隐藏层、一层dropout层、一层非线性激活层、一层全连接层和一层softmax函数层，其中，所述隐藏层的大小为1024，以便于将融合后特征的维度转换为1×1024维，所述dropout层的dropout概率为0.5，代表50%的隐藏层节点不进行反向传播，所述非线性激活层采用激活函数ReLU，所述全连接层的大小为2，以便输出1×2维特征；

将所述融合后特征输入多模态模型进行处理，得到欺骗检测结果，包括：

将所述融合后特征依次输入隐藏层、dropout层、非线性激活层、全连接层和softmax函数层，得到欺骗检测结果（x,y），其维度为1×2维，其中所述欺骗检测结果（x,y）中，元素值x代表被测用户说真话的概率，元素值y代表被测用户说假话的概率。

在一个可能的设计中，得到欺骗检测结果后，所述基于多模态的欺骗检测方法还包括：

将所述欺骗检测结果与真实标签值输入交叉熵损失函数中进行计算，得到所述欺骗检测结果与真实标签值之间的损失值；

对计算出的损失值进行求导，得到梯度；

根据所述梯度，使用SGD优化器对所述多模态模型进行反向传播，以便于最小化所述多模态模型输出的欺骗检测结果和真实标签值之间的交叉熵损失，得到优化后多模态模型。

在一个可能的设计中，所述交叉熵损失函数为：

；

其中，N表示欺骗检测结果的个数，C表示欺骗检测结果的种类，y _i,j是真实标签值的one-hot编码，

是欺骗检测结果的预测概率编码，L表示模型预测值与真实标签值之间的损失值，其中，L越小，代表多模态模型输出的欺骗检测结果与真实标签值之间的差距越小，多模态模型预测出的结果越准确，模型测谎的结果越准确。

附图说明

图1是本发明中一种基于多模态的欺骗检测方法的流程图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。

实施例1：

本实施例第一方面提供了一种基于多模态的欺骗检测方法，可以但不限于由具有一定计算资源的计算机设备或虚拟机执行，例如由个人计算机、智能手机、个人数字助理或可穿戴设备等电子设备执行，或者由虚拟机执行，以便提高测谎准确度高，同时实现非接触式测谎。

如图1所示，一种基于多模态的欺骗检测方法，可以但不限于包括有如下步骤：

S1.接收多模态数据，所述多模态数据包括待测用户的视频数据、文本数据和音频数据；

S2.分别对所述视频数据、文本数据和音频数据进行特征提取，得到对应的视频特征、文本特征和音频特征；

本实施例中，将所述视频数据表示为v(c,f,h,w)，其中，c表示通道数，f表示帧数，h表示图像高度，w表示图像宽度；对所述视频数据进行特征提取，得到视频特征，包括：

A1.基于3D-CNN滤波器对所述视频数据v(c,f,h,w)进行滤波处理，得到滤波后特征图；其中，所述3D-CNN滤波器的维度是(f _m ,c,f _d ,f _h ,f _w)，其中f _m为特征图的数量，c为通道数，f _d ,为帧数，f _h为卷积滤波器的高，f _w为卷积滤波器的宽；

A2.对所述滤波后特征图进行卷积处理，得到卷积后特征图；

A3.使用窗口大小为(m _p ,m _p ,m _p)的最大池化核对卷积后特征图进行池化处理，得到池化后特征图；

A4.将池化后特征图输入维度为d _f的全连接层，然后基于softmax激活函数进行处理，得到视频特征。

本实施例中，采用3D-CNN(3 Dimensional-Convolutional Neural Network，三维卷积神经网络)对所述视频数据进行特征提取，其不仅可提取所述视频中的每个图像帧中的特征，还可提取所述视频数据中的时空特征，以便于用户更好地确定视频中待测用户的面部表情，例如微笑、生气和紧张等面部表情。

本实施例中，对所述文本数据进行特征提取时，基于卷积神经网络实现；对所述文本数据进行特征提取，得到文本特征，包括：

B1.构建数据字典，通过所述数据字典将所述文本数据一一映射为向量编码；

B2.采用embedding层将所述向量编码映射至高维空间，得到所述文本数据中每句话的特征向量，以便于提升表征能力；

B3.将所述特征向量输入CNN(Convolutional Neural Network，卷积神经网络)层，通过一层卷积层进行卷积处理，再通过一层最大池化层进行池化处理，得到语句特征；具体地，依次采用卷积核大小分别为3、5和8的卷积层对所述特征向量进行卷积处理，作用于大小为20的特征图，最大池化层的窗口大小设置为2；

B4.将所述语句特征输入维度为300的全连接网络，然后基于ReLU（Rectifiedlinear unit,，线性整流函数）激活函数进行处理，得到文本特征。

具体地，本实施例中，文本特征基于卷积神经网络从所述视频数据中提取得到。

本实施例中，对所述音频数据进行特征提取，得到音频特征，包括：

C1.从音频数据中去除背景噪声，得到除噪后音频数据；

C2.使用z标准化对所述除噪后音频数据进行语音归一化，得到归一化处理后音频数据；需要说明的是，在提取音频特征之前，需要确保音频数据中没有不必要的信号来影响特征的提取，对音频数据进行除噪及归一化处理，可提高特征提取的准确率。本实施例中，为了去除背景噪声，使用SoX(Sound eXchange)音频处理工具实现；

C3.对所述归一化处理后音频数据进行高维音频特征提取处理，得到高维音频特征；OpenSMILE是一个可以从音频文件中提取高维特征的工具箱，本实施例采用OpenSMILE从所述音频数据中提取音频特征。具体地，本实施例中，对所述归一化处理后音频数据进行高维音频特征提取处理，得到高维音频特征，包括将所述归一化处理后音频数据输入openSMILE工具箱，以便于进行高维音频特征LLD（low-level descriptor）的提取，得到高维音频特征。本实施例中，采用OpenSMILE中的IS13-ComParE配置提取出归一化处理后音频数据的6373维特征，6373维特征中包括能量特征、频谱特征、倒谱(MFCCs)特征、与语音相关的低级别描述符(LLDs)、对数谐波噪声比特征(HNR)、频谱谐度和心理声学频谱清晰度；具体地，采用IS13-ComParE配置提取归一化处理后音频数据的6373维特征时，考虑到实际计算过程中空间和内存需求，每一帧只计算一小组描述符，采用滑动窗口方案来生成每帧的描述符；其中，每帧的MFCCs特征和对数能量特征，连同其对应的一阶和二阶delta特征，以及回归系数都能一起被计算出来，以便用于语音识别；然后，对上述特征进行增强处理；最后，针对增强后特征中每一帧的低级别描述符特征，计算整个帧本身和8个相邻帧的算术平均值和标准偏差(前四个和后四个)，用以保留高维音频特征的上下文关系。

C4.将所述高维音频特征进行降维处理，得到音频特征。具体地，本实施例中，采用一层全连接层将6373维特征降维至300维。

S3.对所述视频特征、所述文本特征和所述音频特征进行特征融合，得到融合后特征；

具体地，本实施例中，采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合。

其中，采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合，得到融合后特征，包括：

S301.将所述视频特征、所述文本特征和所述音频特征都转换为指定维度的矩阵；本实施例中，将所述视频特征、所述文本特征和所述音频特征都转换为1×300维的矩阵；

S302.对所述视频特征对应的指定维度的矩阵、所述文本特征对应的指定维度的矩阵和所述音频特征对应的指定维度的矩阵进行哈达玛积处理，得到融合后特征。

具体地，进行哈达玛积处理时，矩阵之间的哈达玛积为取两个维度相同（m×n）的矩阵A和B，A和B的哈达玛积记为A⊙B，矩阵A和矩阵B按元素相乘得到矩阵C，矩阵C中的元素c _ij=a _ij×b _ij；本实施例中，融合后特征为Z，融合后特征中的元素z _f=[t _f⊙a _f⊙v _f]，其中，t _f表示文本特征，a _f表示音频特征，v _f表示视频特征，融合后特征z _f仍然为1×300维的矩阵。

需要说明的是，其他多模态特征融合方法也可以用来进行多模态特征融合，不同的特征融合方法与特征种类和特征维度相关，选取不同的特征融合方法会影响后续分类器的分类精度。本实施例通过使用哈达玛积进行多模态特征的融合，可提升欺骗检测的性能，具体地，通过Schur（舒尔）定理和Pólya and Szegö定理可以证明，当矩阵A和矩阵B是半正定矩阵时，使用哈达玛积能够使矩阵A和矩阵B之间有着较好的相互作用。

S4.将所述融合后特征输入多模态模型进行处理，得到欺骗检测结果。

本实施例中，所述多模态模型采用多层感知机模型。

具体地，所述多层感知机模型包括一层隐藏层、一层dropout层、一层非线性激活层、一层全连接层和一层softmax函数层，其中，所述隐藏层的大小为1024，以便于将融合后特征的维度转换为1×1024维，所述dropout层的dropout概率为0.5，代表50%的隐藏层节点不进行反向传播，应当理解的是，dropout层的设置用于减少过拟合，所述非线性激活层采用激活函数ReLU，所述全连接层的大小为2，以便输出1×2维特征；

将所述融合后特征依次输入隐藏层、dropout层、非线性激活层、全连接层和softmax函数层，得到最终的预测输出向量，即欺骗检测结果（x,y），其维度为1×2维，其中所述欺骗检测结果（x,y）中，元素值x代表被测用户说真话的概率，元素值y代表被测用户说假话的概率。

得到欺骗检测结果后，所述基于多模态的欺骗检测方法还包括：

S5.将所述欺骗检测结果与真实标签值输入交叉熵损失函数中进行计算，得到所述欺骗检测结果与真实标签值之间的损失值（差距）；

S6.对计算出的损失值进行求导，得到梯度；

S7.根据所述梯度，使用SGD（Stochastic Gradient Descent，随机梯度下降）优化器对所述多模态模型进行反向传播，以便于最小化所述多模态模型输出的欺骗检测结果和真实标签值之间的交叉熵损失，得到优化后多模态模型。

具体地，本实施例的步骤S5中，所述交叉熵损失函数为：

；

其中，N表示欺骗检测结果的个数；C表示欺骗检测结果的种类，本实施例中，C=2，代表欺骗检测结果包括真、假两个类别；y _i,j是真实标签值的one-hot编码（独热编码），本实施例中，当被测用户的行为（如说话等）为真时，真实标签值的one-hot编码为1，当被测用户的行为为假时，真实标签值的one-hot编码为0；

是欺骗检测结果的预测概率编码，本实施例中，多模态模型输出为一个元素值和为1且形状为1×2的向量，例如[0.3,0.7]，如果第一个元素比第二个元素小，则预测标签值为1，代表欺骗检测结果为真，反之则预测标签值为0，代表欺骗检测结果为假；L表示模型预测值与真实标签值之间的损失值，其中，L越小，代表多模态模型输出的欺骗检测结果与真实标签值之间的差距越小，多模态模型预测出的结果越准确，模型测谎的结果越准确。

本实施例的测谎准确度高，同时可进行非接触式测谎。具体地，本实施例通过对输入的提取视频、音频和文本三个模态的数据进行特征提取，并提取得到的多模态特征进行融合，最终对融合后的特征进行分类，由此实现欺骗检测数据采集内容和识别流程的优化，可实现无接触式多模态欺骗检测，利于拓展欺骗检测的使用环节，同时可提升欺骗检测的准确率。本实施例在应用过程中，能够复刻人类的行为，提取每个模态带有时间属性的特征，并不立刻分别对模态内容进行测谎判断，而是将各个模态的特征进行融合，再根据融合后的特征进行测谎判断。

实施例2：

本实施例提供一种基于多模态的欺骗检测***，用于实现实施例1中基于多模态的欺骗检测方法；所述基于多模态的欺骗检测***包括：

多模态数据接收模块，用于接收多模态数据，所述多模态数据包括待测用户的视频数据、文本数据和音频数据；

特征提取模块，用于分别对所述视频数据、文本数据和音频数据进行特征提取，得到对应的视频特征、文本特征和音频特征；

特征融合模块，用于对所述视频特征、所述文本特征和所述音频特征进行特征融合，得到融合后特征；

检测处理模块，用于将所述融合后特征输入多模态模型进行处理，得到欺骗检测结果。

实施例3：

在实施例1或2的基础上，本实施例公开了一种电子设备，该设备可以是智能手机、平板电脑、笔记本电脑或者台式电脑等。电子设备可能被称为用于终端、便携式终端、台式终端等，电子设备包括：

存储器，用于存储计算机程序指令；以及，

处理器，用于执行所述计算机程序指令从而完成如实施例1中任一所述的基于多模态的欺骗检测方法的操作。

实施例4：

在实施例1至3任一项实施例的基础上，本实施例公开了一种计算机可读存储介质，用于存储计算机可读取的计算机程序指令，所述计算机程序指令被配置为运行时执行如实施例1所述的基于多模态的欺骗检测方法的操作。

需要说明的是，所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

最后应说明的是，本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于多模态的欺骗检测方法，其特征在于：包括：

2.根据权利要求1所述的一种基于多模态的欺骗检测方法，其特征在于：对所述视频数据进行特征提取，得到视频特征，包括：

对所述滤波后特征图进行卷积处理，得到卷积后特征图；

3.根据权利要求1所述的一种基于多模态的欺骗检测方法，其特征在于：对所述文本数据进行特征提取时，基于卷积神经网络实现；对所述文本数据进行特征提取，得到文本特征，包括：

4.根据权利要求1所述的一种基于多模态的欺骗检测方法，其特征在于：对所述音频数据进行特征提取，得到音频特征，包括：

从音频数据中去除背景噪声，得到除噪后音频数据；

将所述高维音频特征进行降维处理，得到音频特征。

5.根据权利要求1所述的一种基于多模态的欺骗检测方法，其特征在于：采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合。

6.根据权利要求5所述的一种基于多模态的欺骗检测方法，其特征在于：采用哈达玛积对所述视频特征、所述文本特征和所述音频特征进行特征融合，得到融合后特征，包括：

7.根据权利要求1所述的一种基于多模态的欺骗检测方法，其特征在于：所述多模态模型采用多层感知机模型。

8.根据权利要求7所述的一种基于多模态的欺骗检测方法，其特征在于：所述多层感知机模型包括一层隐藏层、一层dropout层、一层非线性激活层、一层全连接层和一层softmax函数层，其中，所述隐藏层的大小为1024，以便于将融合后特征的维度转换为1×1024维，所述dropout层的dropout概率为0.5，代表50%的隐藏层节点不进行反向传播，所述非线性激活层采用激活函数ReLU，所述全连接层的大小为2，以便输出1×2维特征；

9.根据权利要求1所述的一种基于多模态的欺骗检测方法，其特征在于：得到欺骗检测结果后，所述基于多模态的欺骗检测方法还包括：

对计算出的损失值进行求导，得到梯度；

10.根据权利要求9所述的一种基于多模态的欺骗检测方法，其特征在于：所述交叉熵损失函数为：

；