CN110969106A - 一种基于表情、语音和眼动特征的多模态测谎方法 - Google Patents

一种基于表情、语音和眼动特征的多模态测谎方法 Download PDF

Info

Publication number
CN110969106A
CN110969106A CN201911163791.9A CN201911163791A CN110969106A CN 110969106 A CN110969106 A CN 110969106A CN 201911163791 A CN201911163791 A CN 201911163791A CN 110969106 A CN110969106 A CN 110969106A
Authority
CN
China
Prior art keywords
expression
voice
eye movement
lie detection
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911163791.9A
Other languages
English (en)
Other versions
CN110969106B (zh
Inventor
夏思宇
朱婷
杨凡
吴瀚文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201911163791.9A priority Critical patent/CN110969106B/zh
Publication of CN110969106A publication Critical patent/CN110969106A/zh
Application granted granted Critical
Publication of CN110969106B publication Critical patent/CN110969106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/164Lie detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Ophthalmology & Optometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于表情、语音和眼动特征的多模态测谎方法,包括:获取表情、眼动特征、语音的数据并进行音视频分离、去噪等预处理,处理后分别送入表情情感识别模块、语音情感识别模块和眼动特征识别模块进行分析得到从表情、声音、眼部特征分别得到的情感特征,通过将三个模态的情感结合作为情感特征送入训练好的分类模型进行测谎,最终得到综合测谎结果。本发明通过多模态的情感分类能更加准确的实现测谎。

Description

一种基于表情、语音和眼动特征的多模态测谎方法
技术领域
本发明涉及模式识别领域,具体涉及一种基于表情、语音和眼动特征的多模态测谎方法。
背景技术
测谎技术是通过一定物理技术的辅助,测试被测对象是否有撒谎的方法。人在说谎时会不由自主地产生一定的心理压力,而这种心理压力又会引起一系列的生理反应,如心跳加快、血压升高、手掌出汗、体温微升、肌肉微颤、呼吸速度和容量略见异常等,由于这些生理反应是受人体植物神经***控制的,所以难以被人的主观意志所改变和控制。测谎技术就是依照上述原理,根据具体的实际情况,用预先准备的题目向被测试人提问,使其形成心理刺激,再由仪器记录被测试人的相关生理反应,通过对其生理反应峰值数据的分析,得出被测试人是否诚实回答问题。
目前,常规的测谎仪主要采用肌电、脑电等接触式设备,虽然较为准确,但是专业设备庞大贵重,故人们开始探索具有轻便性质的非接触式测谎技术。不同于常规测谎仪用昂贵的肌电、脑电等接触式设备来测谎,非接触式测谎技术用摄像头与麦克风等非接触式设备实现测谎,具有设备成本低、隐蔽性、应用场景多等优势。
随着人工智能技术的兴起,深度学习算法,表情识别、语音情感识别、人脸识别等技术的准确率已经达到与人类相当的程度。而人在说谎时除了可测量到生理反应变化之外,外在的面部表情变化、语音语调变化、以及眼动频率变化等也能够反应出说话的真实性。这些变化可以通过普通的摄像头与麦克风来捕捉。与常规的测谎仪相比,通过表情、语音、眼动三种模态的心理识别***具有准确性、非接触式、设备成本低、隐蔽性、应用场景多等优势。并且,该***还可以应用在抑郁症诊断等其他心理疾病方面。
发明内容
发明目的:本发明所要解决的技术问题是开发出一套融合多种模态的集成测谎软件***。在线通过麦克风、摄像头等设备获取被测对象的视频上传到服务器,通过服务器上集成的表情识别、语言情感识别和眼动特征识别子模块进行分析,将分析结果传回设备,能够实现在非接触式测谎。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:本发明设计了一种基于表情、语音和眼动特征的多模态测谎方法,该方法包括以下步骤:
(1)获取测谎所需视频,对获取的视频进行音视频分离;
(2)对视频文件输入到表情情感识别模型得到表情情感识别结果;
(3)对视频文件进行眼动特征分析得到眼动特征;
(4)对音频文件进行语音情感识别模型得到语音情感识别结果;
(5)将步骤(2)-(3)得到的结果组合成特征向量输入到测谎模型中进行测谎识别,得到测谎结果。
进一步的,所述步骤(1)获取视频的方法如下:上传离线视频、在线视频通话,虚拟人物对话。
进一步的,步骤(2)中表情情感识别模型的训练方法如下:
(2.1)采集不同的视频,对视频流进行预处理,对人脸进行定位,提取具有旋转不变性的VLBP特征作为表情特征,视频每帧的特征为fi,视频流的特征向量为F=[f1,f2,…,fn],将F调整为行向量的形式作为视频的表情特征;
(2.2)采集不同视频时,设置不同视频的表情特征对应不同的表情情绪标签;
(2.3)将步骤(2.1)中的表情特征作为输入,将步骤(2.2)中的表情情绪标签作为输出,训练分类模型,得到表情情感识别模型。
进一步的,步骤(3)中,对视频文件进行眼动特征分析,得到眼动特征,方法如下:
(3.1)首先将获取的视频文件分帧,对人脸进行定位,得到人脸位置的矩形框;
(3.2)根据人脸的几何特征,定位出眼睛所在的区域,再使用基于图像梯度的方法在梯度最低的位置定位瞳孔,记录左右瞳孔的坐标[xli,yli]和[xri,yri],其中,i表示帧数,瞳孔间距为
Figure BDA0002286872830000021
根据前后帧记录的瞳孔坐标,可得到瞳孔的运动角度
Figure BDA0002286872830000022
和位移
Figure BDA0002286872830000023
其中xi={xli,xri},yi={yli,yri},对左右瞳孔分别计算d和a。
进一步的,步骤(4)中语音情感识别模型的训练方法如下:
(4.1)对音频文件进行预处理,数字化、预加重、去掉音频文件中句与句之间的停顿、分割成一句一句的语音片段,对语音片段进行降噪处理,得到语音信号s(n),其中,n为时间;
(4.2)对语音信号使用倒谱法进行基音检测,得到基音频率v;语音信号s(n)通过加窗函数w(n)分帧处理后得到分段的帧语音信号si(n),基音频率对应为vi,i为第i帧数,共fn帧,窗长为L,第i帧的短时能量为:
Figure BDA0002286872830000024
1≤i≤fn;过零率为:
Figure BDA0002286872830000031
1≤i≤fn;对语音信号si(n)进行倒谱法计算得到共振峰的值ti;对语音信号si(n)进行梅尔频率计算方法得出语音的MFCC参数MFCCi;得到语音特征为
Figure BDA0002286872830000032
Figure BDA0002286872830000033
其中,
Figure BDA0002286872830000034
为基音频率的平均值,D(vi)为基音频率的方差,
Figure BDA0002286872830000035
为短时能量的平均值,D(Ei)为短时能量的方差,m0.5(Ei)为短时能量的中位数,max(Ei)-min(Ei)为短时能量的最大值和最小值之差,
Figure BDA0002286872830000036
是过零率的平均值,m0.5(Pi)是过零率的中位数,min(ti)是共振峰的最小值,
Figure BDA0002286872830000037
为MFCC参数的平均值,D(MFCCi)为MFCC参数的方差;
(4.3)采集不同视频时,设置不同视频的语音特征对应不同的情绪标签;
(4.4)将步骤(4.2)中的语音特征作为输入,步骤(4.3)中的情绪标签作为输出,训练分类模型,训练得到语音情感识别模型。
进一步的,步骤(5)中,测谎模型的训练方法如下:
(5.1)根据步骤(2)-(4)的方法对每段视频进行识别,得到表情情感识别结果、眼动特征、语音情感识别结果;
(5.2)将表情情感识别结果、眼动特征、语音情感识别结果组合成为测谎特征向量;
(5.3)采集样本时得到的每段视频文件对应的是否说谎的标签,标签代表说谎或真实;
(5.4)将步骤(5.2)中的测谎特征向量作为输入,步骤(5.3)中的标签作输出,训练分类样本,得到测谎模型。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
(1)本发明实现了表情、语音和眼动的多模态融合,是心理测试***的一次创新。多模态融合测谎准确率比单一模态测谎准确率更具备说服力;
(2)此外,提供了一种非接触式的测谎方式,大大减少了测谎的设备成本,对于测谎地点的自由度也大大提高,给用户带来了极大的便利;
(3)此外,本软件有着很大的扩展性,如从离线测谎扩展到搭建流媒体服务器在线测谎,后续可以不断完善软件的功能,提升软件的性能;
(4)本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本发明实施测谎的流程图;
图2是本发明得网络架构示意图;
图3是本发明眼动特征分析模块流程图;
图4是本发明音频情感识别模块流程图;
图5是本发明表情识别模块流程图;
图6是本发明综合测谎的示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为根据本发明实施测谎的流程图,下面参照图1,详细说明各个步骤。
步骤S110,在测谎的设备端有三种方式可供选择进行测谎,分别是:上传离线视频、在线视频通话,虚拟人物对话。其中,上传离线视频方式是用户选择已有的视频文件来提交给服务器。在线视频通话方式是通过在线视频的方式,通话过程中可以录制用于测谎的视频。录制之后再传到服务器。虚拟人物方式是通过由虚拟人物每隔一定时间提问问题来与用户交互,被测试的过程将会被录制,然后上传到服务器处理。虚拟人物为服务端准备的一段虚拟人物来提问预先准备好的问题的视频。
步骤S120,视频传送到服务端首先要进行音频视频分离,将声道单独抽取作为音频输入,剩下的部分为视频输入,获得的纯视频文件和音频文件分别送入表情识别、语音情感识别和眼动特征分析模块作为原始输入。
表情识别是通过对视频进行情感识别,每2秒更新一次识别结果,使用分类算法(SVM或神经网络)进行识别,输出识别的情绪x,x∈{1,2,3,4,5,6,7},其中数字1-7分别代表愤怒、蔑视、厌恶、恐惧、高兴、悲伤和惊讶,输出两个结果,一个是所有7种情绪对应的概率值。一个是概率最大的情绪对应的数字,视为与视频中人物相符的情绪,即为上述的x。
语音情感识别也是通过对被测对象的语音进行识别,也是每两秒输出一次识别出来的情绪y,y∈{1,2,3,4,5,6},其中,数字1-6分别代表生气、害怕、高兴、平静、伤心和惊讶六种情绪,由输出结果y得到音频中的人物情绪。
眼动特征分析是逐帧处理视频数据,通过人脸定位和瞳孔定位来计算两眼瞳孔间距,每一帧输出一个数据,保存瞳孔位置,据此进一步计算瞳孔的运动轨迹参数,作为特征分析的特征向量z=[d,a],包括根据瞳孔前后位置计算得到的位移d和瞳孔变化角度a。具体来说d=[dl,dr],a=[al,ar],分别包括左右瞳孔的位移和变化角度。
获得了3个子模块的识别数据,语音和表情子模块的识别结果x,y用识别出的情绪序号表示,眼动特征模块的结果z,以数值的形式输出,三个子模块的输出结果组成一个向量[x,y,z],代表被测对象的特征,输入训练好的支持向量机来进行情感分类,分辨该向量属于真实情感类还是谎言情感类,得出最后的测谎结果。
对于支持向量机的训练,需要采集一定视频样本和说谎与否的标签建立一个谎言测试的数据库,数据库中保存视频文件经过三个子模块得到的向量组{[x1,y1,z1],[x2,y2,z2],…,[xn,yn,zn]},以及对应的标签{[l1],[l2],…,[ln]},其中,标签只有1和0,1代表说谎,0代表真实,将向量和类别标签送入支持向量机进行训练,最后得到训练好的二分类支持向量机可实现准确测谎,上述得到的所有数据都存储在数据库中作为用户的历史纪录,便于随时查询,也便于进行更加深层次的心理变化分析。
步骤S130,将三个子模块的输出结果和测谎的最后结果传输给设备端,其中眼动特征用动态数字来显示实时的瞳孔间距,而表情识别和语音识别用饼图表示,饼图的每个部分表示所有可能识别出来的情感,识别结果的部分用高亮颜色突出显示,根据服务端传送的数据实时变化,用文字显示最终的识别结果,也可查询以往的测谎记录。
图2为本发明得网络架构示意图,架构分为三个部分,设备端、服务端和数据库。设备端主要是用于视频传输、在线通话、虚拟人物的实现和显示服务端传输来的测试结果。服务端主要有两个功能,一是实现数据的接受和发送,包括设备端的视频数据、测试结果和数据库中保存的历史测试结果。二是实现测谎算法,多线程进行表情识别、眼动特征识别和语音情感识别,获得最后的测谎结果。
图3为本发明眼动特征分析模块流程图,步骤如下:首先将设备传来的视频文件分帧,用自动人脸识别引擎进行人脸识别来定位人脸,得到人脸位置的矩形框,根据人脸的几何特征,用引擎中的对其功能大致定位眼睛所在区域,再使用基于图像梯度的方法在梯度最低的位置定位瞳孔,记录左右瞳孔的坐标[xli,yli]和[xri,yri],其中,i表示帧数,瞳孔间距为
Figure BDA0002286872830000061
根据前后帧记录的瞳孔坐标,可得到瞳孔的运动角度
Figure BDA0002286872830000062
和位移
Figure BDA0002286872830000063
其中xi={xli,xri},yi={yli,yri},xi+1={xli+1,xri+1},yi={yli+1,yri+1},对左右瞳孔分别计算d和a。
图4是本发明音频情感识别模块流程图,步骤如下:首先对音频文件进行预处理,数字化、预加重、截出语音部分、分帧,进行一定的降噪处理,得到语音信号s(n),其中,n为时间。然后根据音频的频率特性不同提取不同音频片段的基音频率,共振峰,短时能量和梅尔倒谱系数等频率特征,具体来说,对语音信号使用倒谱法进行基音检测,得到基音频率v;语音信号s(n)通过加窗函数w(n)分帧处理后得到分段的帧语音信号si(n),基音频率对应为vi,i为第i帧数,共fn帧,上述的窗函数可选择矩形窗、海宁窗或汉明窗,窗长为L,第i帧的短时能量为
Figure BDA0002286872830000064
1≤i≤fn;过零率为
Figure BDA0002286872830000065
1≤i≤fn;对语音信号si(n)进行倒谱法计算得到共振峰的值ti;对语音信号si(n)进行梅尔频率计算方法得出语音的MFCC参数MFCCi;得到语音特征为
Figure BDA0002286872830000066
Figure BDA0002286872830000067
其中,
Figure BDA0002286872830000068
为基音频率的平均值,D(vi)为基音频率的方差,
Figure BDA0002286872830000069
为短时能量的平均值,D(Ei)为短时能量的方差,m0.5(Ei)为短时能量的中位数,max(Ei)-min(Ei)为短时能量的最大值和最小值之差,
Figure BDA00022868728300000610
是过零率的平均值,m0.5(Pi)是过零率的中位数,min(ti)是共振峰的最小值,
Figure BDA00022868728300000611
为MFCC参数的平均值,D(MFCCi)为MFCC参数的方差。据此建立语音情感识别数据库,采集已知情绪的语音样本,通过上述步骤获得语音特征,故数据库中数据包含语音特征和对应的生气、害怕、高兴、平静、伤心和惊讶六种情绪标签,训练多分类支持向量机,得到的训练好的支持向量机能识别语音特征对应的情感。
图5是本发明表情识别模块流程图,主要流程如下:首先对接收到的视频流进行预处理,对光照等影响因素进行抑制,对人脸识别引擎对人脸位置进行定位。根据表情不同而五官的变化进行表情特征的提取,提取具有旋转不变性的VLBP特征作为表情特征,每帧的特征为fi,视频流的特征向量为F=[f1,f2,…,fn],将F调整为行向量的形式作为视频的表情特征。以此建立表情识别数据库,采集已知情绪的表情样本,通过上述步骤获得表情特征,故数据库中数据包含表情特征和对应的愤怒、蔑视、厌恶、恐惧、高兴、悲伤和惊讶7种情绪标签,训练多分类支持向量机,得到的训练好的支持向量机能识别表情特征对应的情感。
图6是本发明综合测谎的示意图,在上述3个子模块的识别结果和数据库的基础上,将这三个情感识别结果融合作为测谎的特征,用识别出的情绪序号表示的语音和表情子模块的识别结果x,y和眼动特征识别得到的特征向量z=[d,a]三个模态组合为测谎特征向量[x,y,z]。数据库中保存视频文件经过三个子模块得到的向量组{[x1,y1,z1],[x2,y2,z2],…,[xn,yn,zn]},以及采集样本时得到的每段视频文件对应的是否说谎的标签{[l1],[l2],…,[ln]},其中标签只有1和0,1代表说谎,0代表真实,进行测谎数据集的建立,由此训练一个结合语音、表情、眼动特征的谎言二分类支持向量机,实现多模态测谎。其中,支持向量机是一种常用的监督式学习算法,输入训练样本和样本对应的类别标签,能够创建一个针对样本的分类模型,将低维特征映射到高维空间,将分类问题转化为线性分类问题,找到不同类别区分的决策面,从而分类模型的建立。故支持向量机能够胜任上述的谎言辨别任务。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (6)

1.一种基于表情、语音和眼动特征的多模态测谎方法,其特征在于,该方法包括以下步骤:
(1)获取测谎所需视频,对获取的视频进行音视频分离;
(2)对视频文件输入到表情情感识别模型得到表情情感识别结果;
(3)对视频文件进行眼动特征分析得到眼动特征;
(4)对音频文件进行语音情感识别模型得到语音情感识别结果;
(5)将步骤(2)-(3)得到的结果组合成特征向量输入到测谎模型中进行测谎识别,得到测谎结果。
2.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法,其特征在于,所述步骤(1)获取视频的方法如下:上传离线视频或在线视频通话或虚拟人物对话。
3.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法,其特征在于,步骤(2)中表情情感识别模型的训练方法如下:
(2.1)采集不同的视频,对视频流进行预处理,对人脸进行定位,提取具有旋转不变性的VLBP特征作为表情特征,视频每帧的特征为fi,视频流的特征向量为F=[f1,f2,...,fn],将F调整为行向量的形式作为视频的表情特征;
(2.2)采集不同视频时,设置不同视频的表情特征对应不同的表情情绪标签;
(2.3)将步骤(2.1)中的表情特征作为输入,将步骤(2.2)中的表情情绪标签作为输出,训练分类模型,得到表情情感识别模型。
4.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法,其特征在于,步骤(3)中,对视频文件进行眼动特征分析,得到眼动特征,方法如下:
(3.1)首先将获取的视频文件分帧,对人脸进行定位,得到人脸位置的矩形框;
(3.2)根据人脸的几何特征,定位出眼睛所在的区域,再使用基于图像梯度的方法在梯度最低的位置定位瞳孔,记录左右瞳孔的坐标[xli,yli]和[xri,yri],其中,i表示帧数,瞳孔间距为
Figure FDA0002286872820000011
根据前后帧记录的瞳孔坐标,可得到瞳孔的运动角度
Figure FDA0002286872820000012
和位移
Figure FDA0002286872820000013
其中xi={xli,xri},yi={yli,yri},对左右瞳孔分别计算d和a。
5.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法,其特征在于,步骤(4)中语音情感识别模型的训练方法如下:
(4.1)对音频文件进行预处理,数字化、预加重、去掉音频文件中句与句之间的停顿、分割成一句一句的语音片段,对语音片段进行降噪处理,得到语音信号s(n),其中,n为时间;
(4.2)对语音信号使用倒谱法进行基音检测,得到基音频率v;语音信号s(n)通过加窗函数w(n)分帧处理后得到分段的帧语音信号si(n),基音频率对应为vi,i为第i帧数,共fn帧,窗长为L,第i帧的短时能量为:
Figure FDA0002286872820000021
1≤i≤fn;过零率为:
Figure FDA0002286872820000022
1≤i≤fn;对语音信号si(n)进行倒谱法计算得到共振峰的值ti;对语音信号si(n)进行梅尔频率计算方法得出语音的MFCC参数MFCCi;得到语音特征为
Figure FDA0002286872820000023
Figure FDA0002286872820000024
其中,
Figure FDA0002286872820000025
为基音频率的平均值,D(vi)为基音频率的方差,
Figure FDA0002286872820000026
为短时能量的平均值,D(Ei)为短时能量的方差,m0.5(Ei)为短时能量的中位数,max(Ei)-min(Ei)为短时能量的最大值和最小值之差,
Figure FDA0002286872820000027
是过零率的平均值,m0.5(Pi)是过零率的中位数,min(ti)是共振峰的最小值,
Figure FDA0002286872820000028
为MFCC参数的平均值,D(MFCCi)为MFCC参数的方差;
(4.3)采集不同视频时,设置不同视频的语音特征对应不同的情绪标签;
(4.4)将步骤(4.2)中的语音特征作为输入,步骤(4.3)中的情绪标签作为输出,训练分类模型,训练得到语音情感识别模型。
6.根据权利要求1所述的一种基于表情、语音和眼动特征的多模态测谎方法,其特征在于,步骤(5)中,测谎模型的训练方法如下:
(5.1)根据步骤(2)-(4)的方法对每段视频进行识别,得到表情情感识别结果、眼动特征、语音情感识别结果;
(5.2)将表情情感识别结果、眼动特征、语音情感识别结果组合成为测谎特征向量;
(5.3)采集样本时得到的每段视频文件对应的是否说谎的标签,标签代表说谎或真实;
(5.4)将步骤(5.2)中的测谎特征向量作为输入,步骤(5.3)中的标签作输出,训练分类样本,得到测谎模型。
CN201911163791.9A 2019-11-25 2019-11-25 一种基于表情、语音和眼动特征的多模态测谎方法 Active CN110969106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911163791.9A CN110969106B (zh) 2019-11-25 2019-11-25 一种基于表情、语音和眼动特征的多模态测谎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911163791.9A CN110969106B (zh) 2019-11-25 2019-11-25 一种基于表情、语音和眼动特征的多模态测谎方法

Publications (2)

Publication Number Publication Date
CN110969106A true CN110969106A (zh) 2020-04-07
CN110969106B CN110969106B (zh) 2023-04-18

Family

ID=70031414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911163791.9A Active CN110969106B (zh) 2019-11-25 2019-11-25 一种基于表情、语音和眼动特征的多模态测谎方法

Country Status (1)

Country Link
CN (1) CN110969106B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111657971A (zh) * 2020-07-07 2020-09-15 电子科技大学 基于微多普勒和视觉感知融合的非接触测谎***及方法
CN112151027A (zh) * 2020-08-21 2020-12-29 深圳追一科技有限公司 基于数字人的特定人询问方法、装置和存储介质
CN112329748A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 面向交互场景的自动谎言检测方法、装置、设备及介质
CN112329438A (zh) * 2020-10-27 2021-02-05 中科极限元(杭州)智能科技股份有限公司 基于域对抗训练的自动谎言检测方法及***
CN112329746A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 多模态谎言检测方法、装置、设备
CN112699236A (zh) * 2020-12-22 2021-04-23 浙江工业大学 一种基于情感识别与瞳孔大小计算的Deepfake检测方法
CN114818776A (zh) * 2022-03-18 2022-07-29 北京邮电大学 多模态测谎的数据对齐及异常值处理方法、装置及存储介质
CN115299947A (zh) * 2022-09-06 2022-11-08 济南大学 基于多模态生理数据的心理量表置信度评估方法及***
CN115662447A (zh) * 2022-09-22 2023-01-31 北京邮电大学 一种基于多特征融合的测谎分析方法及装置
CN116682168A (zh) * 2023-08-04 2023-09-01 阳光学院 一种多模态表情识别方法、介质及***
WO2023195910A1 (en) * 2022-04-05 2023-10-12 Ai Seer Pte. Ltd. Multispectral reality detector system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及***
CN110265063A (zh) * 2019-07-22 2019-09-20 东南大学 一种基于固定时长语音情感识别序列分析的测谎方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及***
CN110265063A (zh) * 2019-07-22 2019-09-20 东南大学 一种基于固定时长语音情感识别序列分析的测谎方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIHAI BURZO 等: "Multimodal Deception Detection" *
ZHE WU 等: "Deception Detection in Videos" *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111657971A (zh) * 2020-07-07 2020-09-15 电子科技大学 基于微多普勒和视觉感知融合的非接触测谎***及方法
CN112151027A (zh) * 2020-08-21 2020-12-29 深圳追一科技有限公司 基于数字人的特定人询问方法、装置和存储介质
CN112151027B (zh) * 2020-08-21 2024-05-03 深圳追一科技有限公司 基于数字人的特定人询问方法、装置和存储介质
CN112329438B (zh) * 2020-10-27 2024-03-08 中科极限元(杭州)智能科技股份有限公司 基于域对抗训练的自动谎言检测方法及***
CN112329438A (zh) * 2020-10-27 2021-02-05 中科极限元(杭州)智能科技股份有限公司 基于域对抗训练的自动谎言检测方法及***
CN112699236A (zh) * 2020-12-22 2021-04-23 浙江工业大学 一种基于情感识别与瞳孔大小计算的Deepfake检测方法
CN112699236B (zh) * 2020-12-22 2022-07-01 浙江工业大学 一种基于情感识别与瞳孔大小计算的Deepfake检测方法
CN112329748A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 面向交互场景的自动谎言检测方法、装置、设备及介质
CN112329746A (zh) * 2021-01-04 2021-02-05 中国科学院自动化研究所 多模态谎言检测方法、装置、设备
CN112329746B (zh) * 2021-01-04 2021-04-16 中国科学院自动化研究所 多模态谎言检测方法、装置、设备
CN112329748B (zh) * 2021-01-04 2021-04-30 中国科学院自动化研究所 面向交互场景的自动谎言检测方法、装置、设备及介质
US11238289B1 (en) 2021-01-04 2022-02-01 Institute Of Automation, Chinese Academy Of Sciences Automatic lie detection method and apparatus for interactive scenarios, device and medium
CN114818776A (zh) * 2022-03-18 2022-07-29 北京邮电大学 多模态测谎的数据对齐及异常值处理方法、装置及存储介质
CN114818776B (zh) * 2022-03-18 2022-11-11 北京邮电大学 多模态测谎的数据对齐及异常值处理方法、装置及存储介质
WO2023195910A1 (en) * 2022-04-05 2023-10-12 Ai Seer Pte. Ltd. Multispectral reality detector system
CN115299947A (zh) * 2022-09-06 2022-11-08 济南大学 基于多模态生理数据的心理量表置信度评估方法及***
CN115662447A (zh) * 2022-09-22 2023-01-31 北京邮电大学 一种基于多特征融合的测谎分析方法及装置
CN115662447B (zh) * 2022-09-22 2023-04-07 北京邮电大学 一种基于多特征融合的测谎分析方法及装置
CN116682168A (zh) * 2023-08-04 2023-09-01 阳光学院 一种多模态表情识别方法、介质及***
CN116682168B (zh) * 2023-08-04 2023-10-17 阳光学院 一种多模态表情识别方法、介质及***

Also Published As

Publication number Publication date
CN110969106B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110969106B (zh) 一种基于表情、语音和眼动特征的多模态测谎方法
CN112766173B (zh) 一种基于ai深度学习的多模态情感分析方法及其***
CN108805087B (zh) 基于多模态情绪识别***的时序语义融合关联判断子***
CN108805089B (zh) 基于多模态的情绪识别方法
CN108877801B (zh) 基于多模态情绪识别***的多轮对话语义理解子***
CN108899050B (zh) 基于多模态情绪识别***的语音信号分析子***
CN108805088B (zh) 基于多模态情绪识别***的生理信号分析子***
Narayanan et al. Behavioral signal processing: Deriving human behavioral informatics from speech and language
WO2020119630A1 (zh) 一种多模态客户满意度综合评价***、方法
CN103366618B (zh) 基于人工智能与虚拟现实用于汉语学习培训的场景设备
CN111461176A (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
CN116343824B (zh) 口才表达能力的全面评估与解决方法、***、装置及介质
CN111920420B (zh) 一种基于统计学习的患者行为多模态分析与预测***
CN112016367A (zh) 一种情绪识别***、方法及电子设备
CN113197579A (zh) 一种基于多模态信息融合的智能心理评估方法及***
CN115713875A (zh) 一种基于心理分析的虚拟现实仿真教学方法
Vukovic et al. Cognitive load estimation from speech commands to simulated aircraft
Saga et al. Multimodal prediction of social responsiveness score with BERT-based text features
CN115331804A (zh) 多模态心理疾病诊断方法、计算机设备及存储介质
CN111339878B (zh) 一种基于眼动数据的修正型实时情感识别方法及***
Truong et al. Unobtrusive multimodal emotion detection in adaptive interfaces: speech and facial expressions
CN116400802A (zh) 虚拟现实设备及多模态情绪识别方法
CN116110578A (zh) 一种计算机辅助抑郁症状诊断的筛查装置
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
CN116682168B (zh) 一种多模态表情识别方法、介质及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant