CN108175426B - 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 - Google Patents

一种基于深度递归型条件受限玻尔兹曼机的测谎方法 Download PDF

Info

Publication number
CN108175426B
CN108175426B CN201711315604.5A CN201711315604A CN108175426B CN 108175426 B CN108175426 B CN 108175426B CN 201711315604 A CN201711315604 A CN 201711315604A CN 108175426 B CN108175426 B CN 108175426B
Authority
CN
China
Prior art keywords
boltzmann machine
neural network
recurrent neural
conditional
visible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711315604.5A
Other languages
English (en)
Other versions
CN108175426A (zh
Inventor
赵力
查诚
魏昕
徐新洲
黄程韦
塔什甫拉提·尼扎木丁
余华
邹采荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711315604.5A priority Critical patent/CN108175426B/zh
Publication of CN108175426A publication Critical patent/CN108175426A/zh
Application granted granted Critical
Publication of CN108175426B publication Critical patent/CN108175426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/164Lie detection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Physiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度递归型条件受限玻尔兹曼机的测谎方法,首先在连续语音段落中,利用条件受限玻尔兹曼机对时间序列具有良好的建模特性和简易的推理过程,对训练样本进行建模,得到说话人是否说谎的高阶统计信息;接着用该高阶统计信息和训练样本的标签对递归神经网络进行有监督的参数训练。在获得条件受限玻尔兹曼机和递归神经网络的初始化参数后,将这两个基本网络单元由下至上搭建而成;并在验证数据集上,基于最小二乘回归微调递归神经网络的参数;利用建立的网络,对说话人的语音信号特征进行测试。本发明能够自动得到测谎的结果,且具有相对较高的识别率,该方法对评测者的专业知识和技能要求不高,有较高的测试效率。

Description

一种基于深度递归型条件受限玻尔兹曼机的测谎方法
技术领域
本发明涉及一种语音测谎技术,尤其是利用说话人上下文的语音信息进行测谎的方法。
背景技术
“测谎”的基本原理是人在说谎时的心理变化必然引起一些生理参数(如皮肤电、心跳、血压、呼吸脑电波、声音)的变化,通常它只受植物神经制约而很难受大脑意识控制。因此传统测谎技术是将心理学和生理学等多种学科交叉融和,通过电生理参数测试***对个体内心隐瞒意图和状态进行探测。目前,大量的心理学工作都是将面部表情,生理活动和手势等作为谎言的测试线索。谎言研究的主要工作有三种:理论工作(研究欺骗的类型、形式和动机等),经验性研究(通过实验性研究发现对谎言检测有意义的特征)和对谎言检测技术的开发工作,大部分当前基于经验信息的研究都存在着缺乏自动化和自适应性,以及有一定的主观偏差的缺点。
声音及韵律特征是语音分析的常用特征,在语音情绪分析与识别方面也有重要的应用。2009年,Enos在其博士论文中,总结了大约200种声音及韵律特征,包括持续时间、停顿、声调和音强特征。特征基于多维时间尺度提取,从几秒到整个句子。1)音调特征从每段语音的浊音区获得。此外,大量的二阶特征集包括:基音最大值,基音平均值,基音最小值,上升帧/下降帧/整帧/半帧/有声帧中的基音数,第一/最后一个斜率的长度,从下降到上升的变化数和第一/最后一个/平均斜率值。对这些特征有五种标准化方法:原始值,除以平均值,减去平均值,特征累计分布函数值,减去平均值再除以标准误差;2)两类基本能量特征被计算:每一段的原始能量和浊音的能量。此类特征也包括大量的二阶能量特征,如最小值,最大值和平均值等;3)(音素)持续特征:音长的最大值和平均值。同样这两个特征也表现为三种形式中的一个:原始值,使用说话者的持续时间进行归一化,使用整个语音库的持续时长来进行归一化;4)其它韵律特征,包括发言的最后一个音节的基音的斜率、发言的第一个音节的持续时间等。
在语音测谎方面,目前所用的特征都是上述特征的分支,区别在于特征的统计量的求法和个数的不同。Ekman等人通过采访影视片段观后感的方式采集谎话语料,通过对语料的基频特征进行统计分析,发现说谎语音段与说真话语音段相比较,基频有明显提升。Hansen等人用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients;MFCC),以及MFCC的一阶差分、二阶差分、自相关、互相关构造出一组特征,以神经网络的方法为分类器对特定说话人的声音分11个压力等级进行研究,结果表明,与平和状态相比,以上特征在压力状态下的变化反应了声道发音器官的微抖动。2003年,De Paulo等人对现有测谎研究工作中提出的158种特征的元分析研究表明,其中有23种特征表现较为明显,包括16种语音及语言相关特征,如相较于说真话,人在说谎话时会出现说话时长变短、表述细节变少、重复变多、基频变高等现象。美国普渡大学的研究小组利用幅度调制和频率调制模型进行测谎研究,结果显示,Teager能量相关特征有区分真谎话的可能性。但是现有技术中,一般的测谎方法通常依赖于心理学研究以及人的主观评测,这些方法需要评测者有着较强的专业知识和技能,效率相对较低,也存在着较大程度的主观误差。利用经验信息进行测谎成本太高,而且有时测谎结果会存在偏差。而且先前的对谎言的研究主要是由心理学家在实验性的欺骗情境中进行的,同时运用影像来记录实验的具体情况,这些研究大多只针对语音的强度和音调,并没有利用最新的语音处理技术。因此,针对目前技术的障碍,语音测谎必须采用更复杂的语音处理算法。
发明内容
发明目的:为了针对现有技术的不足,解决现有技术中,利用经验信息进行测谎成本过高以及存在偏差的问题,本发明提出一种基于深度递归型条件受限玻尔兹曼机的测谎方法。
技术方案:为解决上述技术问题,本发明采用以下技术方案:
一种基于深度递归型条件受限玻尔兹曼机的测谎方法,包括以下步骤:
步骤一、获取多个语音作为训练样本,每个训练样本都有各自的情感标签,利用条件受限玻尔兹曼机提取训练样本语音特征向量的高阶特征信息;对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x;Wxh是t时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′h是t-1时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′x是t时刻的条件受限玻尔兹曼机可见层节点和t-1时刻的条件受限玻尔兹曼机可见层节点的连接权重矩阵;
步骤二、利用训练样本的标签和提取的高阶特征信息对递归神经网络进行监督的训练,获得初始化的递归神经网络参数Wyn,Wnx和Wnn;Wyn是t时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnx是t-1时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnn是t时刻的递归神经网络见层节点和t-1时刻的递归神经网络可见层节点的连接权重矩阵;
步骤三、在获得条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x,递归神经网络参数Wyn,Wnx和Wnn后,将条件受限玻尔兹曼机和递归神经网络由下至上搭建起来,实现从语音特征到情感标签的映射,其中受限玻尔兹曼机的可见层作为整个网络的最底层,受限玻尔兹曼机的隐含层节点和递归神经网络的可见层相连,最后用递归神经网络的隐含层作为整个网络的顶层;并在递归神经网络的验证数据集上基于最小二乘准则来调整递归神经网络参数Wyn,Wnx和Wnn
步骤四、利用新建立的网络对说话人的语音特征向量进行测试。
进一步的,步骤一的具体方法包括:
(1)设训练样本语音特征向量为x=[x1,x2,…,xm]T,m为维数;将语音特征向量作为条件受限玻尔兹曼机的输入;
(2)基于
Figure GDA0002443560250000031
最大似然估计原理,采用对比散度法,对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x
这样已知t时刻的语音特征向量x(t)和t-1时刻的语音特征向量x(t-1),利用平均场近似得到语音特征向量x(t)和x(t-1)的高阶特征信息
Figure GDA0002443560250000032
Figure GDA0002443560250000033
其中,s是sigmoid函数;cx是可见层神经元和隐含层神经元的偏置量偏置向量。
进一步的,步骤二中获得递归神经网络的初始化参数的方法为:
设训练样本的标签为
Figure GDA0002443560250000034
将高阶特征信息
Figure GDA0002443560250000035
和训练样本的标签
Figure GDA0002443560250000036
分别作为递归神经网络的输入和输出,进行监督训练,得到递归神经网络的初始化参数。
进一步的,所述情感标签分为说谎、怀疑和未说谎三类。
进一步的,步骤一中的语音特征向量获取:包括采用openEAR工具箱提取出的26个帧级特征,并用19个统计函数对这26个帧级特征及帧级特征的差分进行统计计算;训练样本的时长固定,且从每个训练样本中提取出26×2×19=988个语音特征向量。
进一步的,步骤一中的条件受限玻尔兹曼机的能量函数定义为:
Figure GDA0002443560250000037
式中
Figure GDA0002443560250000038
是递归神经网络中可见层节点i在t时刻的单元值,
Figure GDA0002443560250000039
是可见层节点k在t-p时刻的单元值;hj是隐含层h第j个节点的变量;σi是可见层节点i的方差;ai和cj是可见层节点i和隐含层节点j的偏置量;
Figure GDA00024435602500000310
是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵;
Figure GDA0002443560250000041
是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵;Wxh是t时刻可见层节点与隐含层节点对称连接权重矩阵;若给定多个可见层过去观察值
Figure GDA0002443560250000042
隐含层节点
Figure GDA0002443560250000043
当前时刻可见层节点的观察值
Figure GDA0002443560250000044
似于受限玻尔兹曼机可见层神经元和隐含层神经元的偏置量,条件受限玻尔兹曼机中参数
Figure GDA0002443560250000045
和Wxh的求解也可用通过最大似然准则得到,训练的目标函数为:
Figure GDA0002443560250000046
其中
Figure GDA0002443560250000047
Figure GDA0002443560250000048
Figure GDA0002443560250000049
Figure GDA00024435602500000410
Figure GDA00024435602500000411
其中,V′(t)给定多个可见层过去观察值
Figure GDA00024435602500000412
使得对
Figure GDA00024435602500000413
的训练过程能产生非零值和非负值的求解,关于zi参数更新梯度为:
Figure GDA00024435602500000414
b、c分别是可见层神经元和隐含层神经元的偏置量参数
Figure GDA00024435602500000415
Figure GDA00024435602500000416
的更新梯度,且有:
Figure GDA00024435602500000417
Figure GDA00024435602500000418
其中<·>data表示在训练数据集上的期望,<·>model表示在模型分布上的期望,当给定随机的隐含层矢量h时,可见层vi的状态为v的条件概率和给定随机的训练样本v、隐含层单元hj状态为1的条件概率分别为:
Figure GDA0002443560250000051
Figure GDA0002443560250000052
N表示均值为μ、方差为σ2高斯分布N(μ,σ2),S为sigmoid函数。
进一步的,步骤二中的训练通过最小化
Figure GDA0002443560250000053
Figure GDA0002443560250000054
之间的误差估计出递归神经网络的权重Wyn,Wnx和Wnn以及偏置量bn和by,假设递归神经网络的隐含层数为
Figure GDA0002443560250000055
的表达为:
Figure GDA0002443560250000056
其中s为sigmoid函数、n(t-1)是递归神经网络t-1时刻的输出、bn、by分别是递归神经网络的权重Wnx和Wnn对应的偏置量。
有益效果:本发明公开了一种基于深度递归型条件受限玻尔兹曼机的测谎方法,首先在连续语音段落,利用条件受限玻尔兹曼机对时间序列具有良好的建模特性和简易的推理过程,对训练样本进行建模,得到说话人是否说谎的高阶统计信息;接着用该高阶统计信息和训练样本的标签对递归神经网络进行有监督的参数训练。在获得条件受限玻尔兹曼机和递归神经网络的初始化参数后,由下至上将这两个基本网络单元由下至上搭建而成。并在验证数据集上,基于最小二乘回归微调递归神经网络的参数。测试时,利用建立的网络,对说话人的语音信号特征进行测试。本发明能够自动得到测谎的结果,且具有相对较高的识别率,该方法对评测者的专业知识和技能要求不高,测试效率较高。实验表明,本发明的方法可以有效的识别说话人是否说谎。
附图说明
图1为基于声学特征的条件受限玻尔兹曼机的网络结构图;
图2为条件受限玻尔兹曼机结构图。
具体实施方式
下面结合附图及具体实施方式对本发明作更进一步的说明。
图2为条件受限玻尔兹曼机结构图,
Figure GDA0002443560250000057
是可见层节点i在t时刻的单元值,
Figure GDA0002443560250000058
是可见层节点k在t-p时刻的单元值。hj的隐含层h第j个节点的变量。σi是可见层节点i的方差。bi和cj是可见层节点i和隐含层节点j的偏置量。
Figure GDA0002443560250000059
是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵。
Figure GDA00024435602500000510
是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵。Wvh是t时刻可见层节点与隐含层节点对称连接权重矩阵。若给定多个可见层过去观察值
Figure GDA0002443560250000061
隐含层节点
Figure GDA0002443560250000062
当前时刻可见层节点的观察值
Figure GDA0002443560250000063
一种基于深度递归型条件受限玻尔兹曼机的测谎方法,包括以下步骤:
步骤一、获取多个语音作为训练样本,每个训练样本都有各自的情感标签,本实施例把情感标签分为说谎、怀疑和未说谎三类;利用条件受限玻尔兹曼机提取训练样本语音特征向量的高阶特征信息;对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x;Wxh是当前时刻t的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′ht-1时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′x是当前时刻t的条件受限玻尔兹曼机可见层节点和t-1时刻的条件受限玻尔兹曼机可见层节点的连接权重矩阵,.
具体包括:
(1)设训练样本语音特征向量为x=[x1,x2,…,xm]T,m为维数;将语音特征向量作为条件受限玻尔兹曼机的输入;
条件受限玻尔兹曼机的能量函数定义为:
Figure GDA0002443560250000064
式中
Figure GDA0002443560250000065
是递归神经网络中可见层节点i在t时刻的单元值,
Figure GDA0002443560250000066
是可见层节点k在t-p时刻的单元值;hj是隐含层h第j个节点的变量;σi是可见层节点i的方差;ai和cj是可见层节点i和隐含层节点j的偏置量;
Figure GDA0002443560250000067
是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵;
Figure GDA0002443560250000068
是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵;Wxh是t时刻可见层节点与隐含层节点对称连接权重矩阵;若给定多个可见层过去观察值
Figure GDA0002443560250000069
隐含层节点
Figure GDA00024435602500000610
当前时刻可见层节点的观察值
Figure GDA00024435602500000611
似于受限玻尔兹曼机可见层神经元和隐含层神经元的偏置量,条件受限玻尔兹曼机中参数
Figure GDA0002443560250000071
和Wxh的求解也可用通过最大似然准则得到,训练的目标函数为:
Figure GDA0002443560250000072
其中
Figure GDA0002443560250000073
Figure GDA0002443560250000074
Figure GDA0002443560250000075
Figure GDA0002443560250000076
Figure GDA0002443560250000077
其中,V′(t)给定多个可见层过去观察值
Figure GDA0002443560250000078
使得对
Figure GDA0002443560250000079
的训练过程能产生非零值和非负值的求解,关于zi参数更新梯度为:
Figure GDA00024435602500000710
b、c分别是可见层神经元和隐含层神经元的偏置量参数
Figure GDA00024435602500000711
Figure GDA00024435602500000712
的更新梯度,且有:
Figure GDA00024435602500000713
Figure GDA00024435602500000714
其中<·>data表示在训练数据集上的期望,<·>model表示在模型分布上的期望,当给定随机的隐含层矢量h时,可见层vi的状态为v的条件概率和给定随机的训练样本v、隐含层单元hj状态为1的条件概率分别为:
Figure GDA00024435602500000715
Figure GDA00024435602500000716
N表示均值为μ、方差为σ2高斯分布N(μ,σ2),S为sigmoid函数。
(2)基于
Figure GDA0002443560250000081
最大似然估计原理,采用对比散度法,对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x
这样已知t时刻的语音特征向量x(t)和t-1时刻的语音特征向量x(t-1),利用平均场近似得到语音特征向量x(t)和x(t-1)的高阶特征信息
Figure GDA0002443560250000082
Figure GDA0002443560250000083
其中,s是sigmoid函数;cx是可见层神经元和隐含层神经元的偏置量偏置向量。
如图1所示,估计声学特征,将声学特征向量x=[x1,x2,…,xm]T(m为维数)作为GBRBM的输入,然后基于
Figure GDA0002443560250000084
最大似然估计原理,采用CD法对其进行非监督训练得到GBRBM的参数Wxh、Wx′h和Wx′x。这样已知x(t)和x(t-1),利用平均场近似可得到声学特征x(t)和x(t-1)的声学特征高阶情感统计信息
Figure GDA0002443560250000085
其中,语音特征向量获取方法为:采用openEAR工具箱提取出的26个帧级特征,并用19个统计函数对这26个帧级特征及帧级特征的差分进行统计计算;训练样本的时长固定,且从每个训练样本中提取出26×2×19=988个语音特征向量。
步骤二、利用训练样本的标签和提取的高阶特征信息对递归神经网络进行监督的训练,获得初始化的递归神经网络参数Wyn,Wnx和Wnn;Wyn是当前时刻t递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnx是t-1时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵Wnn是当前时刻t的递归神经网络见层节点和t-1时刻的递归神经网络可见层节点的连接权重矩阵,
具体方法为:设训练样本的标签为
Figure GDA0002443560250000086
将高阶特征信息
Figure GDA0002443560250000087
Figure GDA0002443560250000088
和训练样本的标签
Figure GDA0002443560250000089
分别作为递归神经网络的输入和输出,进行监督训练,得到递归神经网络的初始化参数。
该训练通过最小化
Figure GDA00024435602500000810
Figure GDA00024435602500000811
之间的误差估计出递归神经网络的权重Wyn,Wnx和Wnn以及偏置量bn和by,假设递归神经网络的隐含层数为1,
Figure GDA00024435602500000812
的表达为:
Figure GDA00024435602500000813
其中s为sigmoid函数、n(t-1)是递归神经网络t-1时刻的输出、bn、by分别是递归神经网络的权重Wnx和Wnn对应的偏置量。
在获得条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x,递归神经网络参数Wyn,Wnx和Wnn后,将条件受限玻尔兹曼机和递归神经网络由下至上搭建起来,实现从语音特征到情感标签的映射,其中受限玻尔兹曼机的可见层作为整个网络的最底层,受限玻尔兹曼机的隐含层节点和递归神经网络的可见层相连,最后用递归神经网络的隐含层作为整个网络的顶层;并在递归神经网络的验证数据集上基于最小二乘准则来调整递归神经网络参数Wyn,Wnx和Wnn
步骤四、利用建立的神经网络对说话人的语音特征向量进行测试。
本发明在具体实施过程中,设计并录制了CSC数据库。虽然在实验室环境下,伦理和实践性的考虑排除了范式的使用,比如害怕恐惧,但是因为场景设计以开发被试者的“自我表现”为观点,因此被试者通常由物质奖励引诱而欺骗。为提取与说谎有关的语音特征,首先采用基于短时能量的语音端点检测技术(Voice Activity Detection,VAD)检测有效的语音中有效的说话内容,然后在说话内容上提取帧级特征,帧长为128ms。由于情感识别的对象是长时未分割语音,在时间间隔为640ms,时长为1280ms的说话内容上对帧级特征进行统计计算,得到与情感有关的特征。
为平衡算法的执行时间和语音情感的识别性能,采用openEAR工具箱提取26个帧级特征,并用19个统计函数对这26个帧级特征及相应的差分进行统计计算。因此每一固定时长(1280ms)上的语句可提取到26×2×19=988个特征。26个帧级特征和19个统计函数分列于表1和表2。
表1 26个帧级特征
Figure GDA0002443560250000091
表2 19个统计函数
Figure GDA0002443560250000092
Figure GDA0002443560250000101
然后对这988个语音特征向量进行特征规范化,并级联成特征向量。
(2)估计条件受限玻尔兹曼参数
估计条件受限玻尔兹曼参数时,在梯度下降的过程中,对比散度算法使用一次吉布斯采样完成对权重的更新。参数更新的迭代步长设为0.0001,学习率为0.001,学习轮次(epoch)为200,权值衰减因子为0.0002。对于RNN-DRBM中的声学特征CRBM,隐含层节点数设置为500。
(3)估计递归神经网络的参数
对于递归神经网络的隐含层RNN,其隐含层节点数设置为300。这样递归型条件受限玻尔兹曼机的网络结构为988-500-300-x,x代表网络顶层的说谎人标签的维度。
(4)微调递归神经网络参数
在验证数据集上,微调递归神经网络的参数,其中迭代参数设置为200,收敛误差设置为0.0001。
分别使用现有的SVM、k-近邻法以及本发明的方法进行对比实验,最终得到如表3所示的实验结果。
表3测试结果
Figure GDA0002443560250000102
由表3可知,在说谎的识别上,本发明的算法要优于SVM法和K-近邻法。无论对于说话人是否说谎、怀疑还是未说谎识别率均高于SVM法和K-近邻法。
由实验结果可知,本实例中所采用的一种深度递归型条件受限玻尔兹曼机的测谎方法能够有效地识别语段中是否含有说谎成分,从而实现测谎的功能,相较于基于心理学知识的经验型测谎方法,以及一些常用的自动识别算法,本发明方法具有相对较好的识别性能。

Claims (7)

1.一种基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于:包括以下步骤:
步骤一、获取多个语音作为训练样本,每个训练样本都有各自的情感标签,利用条件受限玻尔兹曼机提取训练样本语音特征向量的高阶特征信息;对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x;Wxh是t时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′h是t-1时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′x是t时刻的条件受限玻尔兹曼机可见层节点和t-1时刻的条件受限玻尔兹曼机可见层节点的连接权重矩阵;
步骤二、利用训练样本的标签和提取的高阶特征信息对递归神经网络进行监督的训练,获得初始化的递归神经网络参数Wyn,Wnx和Wnn;Wyn是t时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnx是t-1时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnn是t时刻的递归神经网络见层节点和t-1时刻的递归神经网络可见层节点的连接权重矩阵;
步骤三、在获得条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x,递归神经网络参数Wyn,Wnx和Wnn后,将条件受限玻尔兹曼机和递归神经网络由下至上搭建起来,实现从语音特征到情感标签的映射,其中受限玻尔兹曼机的可见层作为整个网络的最底层,受限玻尔兹曼机的隐含层节点和递归神经网络的可见层相连,最后用递归神经网络的隐含层作为整个网络的顶层;并在递归神经网络的验证数据集上基于最小二乘准则来调整递归神经网络参数Wyn,Wnx和Wnn
步骤四、利用新建立的网络对说话人的语音特征向量进行测试。
2.根据权利要求1所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于,步骤一的具体方法为:
(1)设训练样本语音特征向量为x=[x1,x2,…,xm]T,m为维数;将语音特征向量作为条件受限玻尔兹曼机的输入;
(2)基于
Figure FDA0002443560240000011
最大似然估计原理,采用对比散度法,对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x
这样已知t时刻的语音特征向量x(t)和t-1时刻的语音特征向量x(t-1),利用平均场近似得到语音特征向量x(t)和x(t-1)的高阶特征信息
Figure FDA0002443560240000012
Figure FDA0002443560240000013
其中,s是sigmoid函数;cx是可见层神经元和隐含层神经元的偏置量偏置向量。
3.根据权利要求2所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于,步骤二中获得递归神经网络的初始化参数的方法为:
设训练样本的标签为
Figure FDA0002443560240000021
将高阶特征信息
Figure FDA0002443560240000022
和训练样本的标签
Figure FDA0002443560240000023
分别作为递归神经网络的输入和输出,进行监督训练,得到递归神经网络的初始化参数。
4.根据权利要求1至3任一所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于,所述情感标签分为说谎、怀疑和未说谎三类。
5.根据权利要求1至3任一所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于:步骤一中的语音特征向量获取:包括采用openEAR工具箱提取出的26个帧级特征,并用19个统计函数对这26个帧级特征及帧级特征的差分进行统计计算;训练样本的时长固定,且从每个训练样本中提取出26×2×19=988个语音特征向量。
6.根据权利要求1或2所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于:步骤一中的条件受限玻尔兹曼机的能量函数定义为:
Figure FDA0002443560240000024
式中
Figure FDA0002443560240000025
是递归神经网络中可见层节点i在t时刻的单元值,
Figure FDA0002443560240000026
是可见层节点k在t-p时刻的单元值;hj是隐含层h第j个节点的变量;σi是可见层节点i的方差;ai和cj是可见层节点i和隐含层节点j的偏置量;
Figure FDA0002443560240000027
是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵;
Figure FDA0002443560240000028
是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵;Wxh是t时刻可见层节点与隐含层节点对称连接权重矩阵;若给定多个可见层过去观察值
Figure FDA0002443560240000029
隐含层节点
Figure FDA00024435602400000210
当前时刻可见层节点的观察值
Figure FDA00024435602400000211
似于受限玻尔兹曼机可见层神经元和隐含层神经元的偏置量,条件受限玻尔兹曼机中参数Wx′h
Figure FDA00024435602400000212
和Wxh的求解也可用通过最大似然准则得到,训练的目标函数为:
Figure FDA00024435602400000213
其中
Figure FDA0002443560240000031
Figure FDA0002443560240000032
Figure FDA0002443560240000033
Figure FDA0002443560240000034
Figure FDA0002443560240000035
其中,V′(t)给定多个可见层过去观察值
Figure FDA0002443560240000036
Figure FDA0002443560240000037
使得对
Figure FDA0002443560240000038
的训练过程能产生非零值和非负值的求解,关于zi参数更新梯度为:
Figure FDA0002443560240000039
b、c分别是可见层神经元和隐含层神经元的偏置量参数
Figure FDA00024435602400000310
Figure FDA00024435602400000311
的更新梯度,且有:
Figure FDA00024435602400000312
Figure FDA00024435602400000313
其中<·>data表示在训练数据集上的期望,<·>model表示在模型分布上的期望,当给定随机的隐含层矢量h时,可见层vi的状态为v的条件概率和给定随机的训练样本v、隐含层单元hj状态为1的条件概率分别为:
Figure FDA00024435602400000314
Figure FDA00024435602400000315
N表示均值为μ、方差为σ2高斯分布N(μ,σ2),S为sigmoid函数。
7.根据权利要求3所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于:步骤二中的训练通过最小化
Figure FDA00024435602400000316
Figure FDA00024435602400000317
之间的误差估计出递归神经网络的权重Wyn,Wnx和Wnn以及偏置量bn和by,假设递归神经网络的隐含层数为1,
Figure FDA0002443560240000041
的表达为:
Figure FDA0002443560240000042
其中s为sigmoid函数、n(t-1)是递归神经网络t-1时刻的输出、bn、by分别是递归神经网络的权重Wnx和Wnn对应的偏置量。
CN201711315604.5A 2017-12-11 2017-12-11 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 Active CN108175426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711315604.5A CN108175426B (zh) 2017-12-11 2017-12-11 一种基于深度递归型条件受限玻尔兹曼机的测谎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711315604.5A CN108175426B (zh) 2017-12-11 2017-12-11 一种基于深度递归型条件受限玻尔兹曼机的测谎方法

Publications (2)

Publication Number Publication Date
CN108175426A CN108175426A (zh) 2018-06-19
CN108175426B true CN108175426B (zh) 2020-06-02

Family

ID=62546012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711315604.5A Active CN108175426B (zh) 2017-12-11 2017-12-11 一种基于深度递归型条件受限玻尔兹曼机的测谎方法

Country Status (1)

Country Link
CN (1) CN108175426B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118763B (zh) * 2018-08-28 2021-05-18 南京大学 基于腐蚀去噪深度信念网络的车流量预测方法
CN110009025B (zh) * 2019-03-27 2023-03-24 河南工业大学 一种用于语音测谎的半监督加性噪声自编码器
CN110265063B (zh) * 2019-07-22 2021-09-24 东南大学 一种基于固定时长语音情感识别序列分析的测谎方法
CN111616702A (zh) * 2020-06-18 2020-09-04 北方工业大学 一种基于认知负荷增强的测谎分析***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
US9524730B2 (en) * 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
US9687208B2 (en) * 2015-06-03 2017-06-27 iMEDI PLUS Inc. Method and system for recognizing physiological sound
CN106782518A (zh) * 2016-11-25 2017-05-31 深圳市唯特视科技有限公司 一种基于分层循环神经网络语言模型的语音识别方法
CN107146615A (zh) * 2017-05-16 2017-09-08 南京理工大学 基于匹配模型二次识别的语音识别方法及***

Also Published As

Publication number Publication date
CN108175426A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN111461176B (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
Rubin et al. Classifying heart sound recordings using deep convolutional neural networks and mel-frequency cepstral coefficients
CN108175426B (zh) 一种基于深度递归型条件受限玻尔兹曼机的测谎方法
CN105741832B (zh) 一种基于深度学习的口语评测方法和***
Cai et al. Deep maxout neural networks for speech recognition
Ling et al. Modeling spectral envelopes using restricted Boltzmann machines for statistical parametric speech synthesis
CN110265063B (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
Qian et al. Computer audition for fighting the SARS-CoV-2 corona crisis—Introducing the multitask speech corpus for COVID-19
Zhao et al. DNN-HMM based acoustic model for continuous pig cough sound recognition
Reddy et al. The automatic detection of heart failure using speech signals
Aibinu et al. Artificial neural network based autoregressive modeling technique with application in voice activity detection
Shen et al. A high-precision feature extraction network of fatigue speech from air traffic controller radiotelephony based on improved deep learning
Srinivas et al. Optimization-based support vector neural network for speaker recognition
Kumar et al. Comparison of Machine learning models for Parkinson’s Disease prediction
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别***
CN112466284B (zh) 一种口罩语音鉴别方法
Cetin Accent recognition using a spectrogram image feature-based convolutional neural network
Chou et al. Bird species recognition by comparing the HMMs of the syllables
Coro et al. A self-training automatic infant-cry detector
Tashakori et al. Designing the Intelligent System Detecting a Sense of Wonder in English Speech Signal Using Fuzzy-Nervous Inference-Adaptive system (ANFIS)
Rammohan et al. Speech signal-based modelling of basic emotions to analyse compound emotion: Anxiety
Huynh A Survey of Machine Learning algorithms in EEG
CN114299925A (zh) 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和***
Mishra et al. Emotional Intelligence: An Approach to Analyze Stress Using Speech and Face Recognition
Munoli et al. Human voice analysis to determine age and gender

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant