CN108175426A - 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 - Google Patents

一种基于深度递归型条件受限玻尔兹曼机的测谎方法 Download PDF

Info

Publication number
CN108175426A
CN108175426A CN201711315604.5A CN201711315604A CN108175426A CN 108175426 A CN108175426 A CN 108175426A CN 201711315604 A CN201711315604 A CN 201711315604A CN 108175426 A CN108175426 A CN 108175426A
Authority
CN
China
Prior art keywords
layer
neural network
recurrent neural
boltzmann machine
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711315604.5A
Other languages
English (en)
Other versions
CN108175426B (zh
Inventor
赵力
查诚
魏昕
徐新洲
黄程韦
塔什甫拉提·尼扎木丁
余华
邹采荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711315604.5A priority Critical patent/CN108175426B/zh
Publication of CN108175426A publication Critical patent/CN108175426A/zh
Application granted granted Critical
Publication of CN108175426B publication Critical patent/CN108175426B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/164Lie detection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Physiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度递归型条件受限玻尔兹曼机的测谎方法,首先在连续语音段落中,利用条件受限玻尔兹曼机对时间序列具有良好的建模特性和简易的推理过程,对训练样本进行建模,得到说话人是否说谎的高阶统计信息;接着用该高阶统计信息和训练样本的标签对递归神经网络进行有监督的参数训练。在获得条件受限玻尔兹曼机和递归神经网络的初始化参数后,将这两个基本网络单元由下至上搭建而成;并在验证数据集上,基于最小二乘回归微调递归神经网络的参数;利用建立的网络,对说话人的语音信号特征进行测试。本发明能够自动得到测谎的结果,且具有相对较高的识别率,该方法对评测者的专业知识和技能要求不高,有较高的测试效率。

Description

一种基于深度递归型条件受限玻尔兹曼机的测谎方法
技术领域
本发明涉及一种语音测谎技术,尤其是利用说话人上下文的语音信息进行测谎的方法。
背景技术
“测谎”的基本原理是人在说谎时的心理变化必然引起一些生理参数(如皮肤电、心跳、血压、呼吸脑电波、声音)的变化,通常它只受植物神经制约而很难受大脑意识控制。因此传统测谎技术是将心理学和生理学等多种学科交叉融和,通过电生理参数测试***对个体内心隐瞒意图和状态进行探测。目前,大量的心理学工作都是将面部表情,生理活动和手势等作为谎言的测试线索。谎言研究的主要工作有三种:理论工作(研究欺骗的类型、形式和动机等),经验性研究(通过实验性研究发现对谎言检测有意义的特征)和对谎言检测技术的开发工作,大部分当前基于经验信息的研究都存在着缺乏自动化和自适应性,以及有一定的主观偏差的缺点。
声音及韵律特征是语音分析的常用特征,在语音情绪分析与识别方面也有重要的应用。2009年,Enos在其博士论文中,总结了大约200种声音及韵律特征,包括持续时间、停顿、声调和音强特征。特征基于多维时间尺度提取,从几秒到整个句子。1)音调特征从每段语音的浊音区获得。此外,大量的二阶特征集包括:基音最大值,基音平均值,基音最小值,上升帧/下降帧/整帧/半帧/有声帧中的基音数,第一/最后一个斜率的长度,从下降到上升的变化数和第一/最后一个/平均斜率值。对这些特征有五种标准化方法:原始值,除以平均值,减去平均值,特征累计分布函数值,减去平均值再除以标准误差;2)两类基本能量特征被计算:每一段的原始能量和浊音的能量。此类特征也包括大量的二阶能量特征,如最小值,最大值和平均值等;3)(音素)持续特征:音长的最大值和平均值。同样这两个特征也表现为三种形式中的一个:原始值,使用说话者的持续时间进行归一化,使用整个语音库的持续时长来进行归一化;4)其它韵律特征,包括发言的最后一个音节的基音的斜率、发言的第一个音节的持续时间等。
在语音测谎方面,目前所用的特征都是上述特征的分支,区别在于特征的统计量的求法和个数的不同。Ekman等人通过采访影视片段观后感的方式采集谎话语料,通过对语料的基频特征进行统计分析,发现说谎语音段与说真话语音段相比较,基频有明显提升。Hansen等人用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients;MFCC),以及MFCC的一阶差分、二阶差分、自相关、互相关构造出一组特征,以神经网络的方法为分类器对特定说话人的声音分11个压力等级进行研究,结果表明,与平和状态相比,以上特征在压力状态下的变化反应了声道发音器官的微抖动。2003年,De Paulo等人对现有测谎研究工作中提出的158种特征的元分析研究表明,其中有23种特征表现较为明显,包括16种语音及语言相关特征,如相较于说真话,人在说谎话时会出现说话时长变短、表述细节变少、重复变多、基频变高等现象。美国普渡大学的研究小组利用幅度调制和频率调制模型进行测谎研究,结果显示,Teager能量相关特征有区分真谎话的可能性。但是现有技术中,一般的测谎方法通常依赖于心理学研究以及人的主观评测,这些方法需要评测者有着较强的专业知识和技能,效率相对较低,也存在着较大程度的主观误差。利用经验信息进行测谎成本太高,而且有时测谎结果会存在偏差。而且先前的对谎言的研究主要是由心理学家在实验性的欺骗情境中进行的,同时运用影像来记录实验的具体情况,这些研究大多只针对语音的强度和音调,并没有利用最新的语音处理技术。因此,针对目前技术的障碍,语音测谎必须采用更复杂的语音处理算法。
发明内容
发明目的:为了针对现有技术的不足,解决现有技术中,利用经验信息进行测谎成本过高以及存在偏差的问题,本发明提出一种基于深度递归型条件受限玻尔兹曼机的测谎方法。
技术方案:为解决上述技术问题,本发明采用以下技术方案:
一种基于深度递归型条件受限玻尔兹曼机的测谎方法,包括以下步骤:
步骤一、获取多个语音作为训练样本,每个训练样本都有各自的情感标签,利用条件受限玻尔兹曼机提取训练样本语音特征向量的高阶特征信息;对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x;Wxh是t时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′h是t-1时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′x是t时刻的条件受限玻尔兹曼机可见层节点和t-1时刻的条件受限玻尔兹曼机可见层节点的连接权重矩阵;
步骤二、利用训练样本的标签和提取的高阶特征信息对递归神经网络进行监督的训练,获得初始化的递归神经网络参数Wyn,Wnx和Wnn;Wyn是t时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnx是t-1时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnn是t时刻的递归神经网络见层节点和t-1时刻的递归神经网络可见层节点的连接权重矩阵;
步骤三、在获得条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x,递归神经网络参数Wyn,Wnx和Wnn后,将条件受限玻尔兹曼机和递归神经网络由下至上搭建起来,实现从语音特征到情感标签的映射,其中受限玻尔兹曼机的可见层作为整个网络的最底层,受限玻尔兹曼机的隐含层节点和递归神经网络的可见层相连,最后用递归神经网络的隐含层作为整个网络的顶层;并在递归神经网络的验证数据集上基于最小二乘准则来调整递归神经网络参数Wyn,Wnx和Wnn
步骤四、利用新建立的网络对说话人的语音特征向量进行测试。
进一步的,步骤一的具体方法包括:
(1)设训练样本语音特征向量为x=[x1,x2,…,xm]T,m为维数;将语音特征向量作为条件受限玻尔兹曼机的输入;
(2)基于最大似然估计原理,采用对比散度法,对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x
这样已知t时刻的语音特征向量x(t)和t-1时刻的语音特征向量x(t-1),利用平均场近似得到语音特征向量x(t)和x(t-1)的高阶特征信息
其中,s是sigmoid函数;cx是可见层神经元和隐含层神经元的偏置量偏置向量。
进一步的,步骤二中获得递归神经网络的初始化参数的方法为:
设训练样本的标签为将高阶特征信息和训练样本的标签分别作为递归神经网络的输入和输出,进行监督训练,得到递归神经网络的初始化参数。
进一步的,所述情感标签分为说谎、怀疑和未说谎三类。
进一步的,步骤一中的语音特征向量获取:包括采用openEAR工具箱提取出的26个帧级特征,并用19个统计函数对这26个帧级特征及帧级特征的差分进行统计计算;训练样本的时长固定,且从每个训练样本中提取出26×2×19=988个语音特征向量。
进一步的,步骤一中的条件受限玻尔兹曼机的能量函数定义为:
式中是递归神经网络中可见层节点i在t时刻的单元值,是可见层节点k在t-p时刻的单元值;hj的递归神经网络中隐含层h第j个节点的变量;σi是可见层节点i的方差;ai和cj是可见层节点i和隐含层节点j的偏置量;是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵;是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵;Wxh是t时刻可见层节点与隐含层节点对称连接权重矩阵;若给定多个可见层过去观察值隐含层节点当前时刻可见层节点的观察值 似于受限玻尔兹曼机可见层神经元和隐含层神经元的偏置量,条件受限玻尔兹曼机中参数和Wxh的求解也可用通过最大似然准则得到,训练的目标函数为:
其中,V′(t)给定多个可见层过去观察值使得对的训练过程能产生非零值和非负值的求解,关于zi参数更新梯度为:
b、c分别是可见层神经元和隐含层神经元的偏置量参数的更新梯度,且有:
其中<·>data表示在训练数据集上的期望,<·>model表示在模型分布上的期望,当给定随机的隐含层矢量h时,可见层vi的状态为v的条件概率和给定随机的训练样本v、隐含层单元hj状态为1的条件概率分别为:
N表示均值为μ、方差为σ2高斯分布N(μ,σ2),S为sigmoid函数。
进一步的,步骤二中的训练通过最小化之间的误差估计出递归神经网络的权重Wyn,Wnx和Wnn以及偏置量bn和by,假设递归神经网络的隐含层数为1,的表达为:
其中s为sigmoid函数、n(t-1)是递归神经网络t-1时刻的输出、bn、by分别是递归神经网络的权重Wnx和Wnn对应的偏置量。
有益效果:本发明公开了一种基于深度递归型条件受限玻尔兹曼机的测谎方法,首先在连续语音段落,利用条件受限玻尔兹曼机对时间序列具有良好的建模特性和简易的推理过程,对训练样本进行建模,得到说话人是否说谎的高阶统计信息;接着用该高阶统计信息和训练样本的标签对递归神经网络进行有监督的参数训练。在获得条件受限玻尔兹曼机和递归神经网络的初始化参数后,由下至上将这两个基本网络单元由下至上搭建而成。并在验证数据集上,基于最小二乘回归微调递归神经网络的参数。测试时,利用建立的网络,对说话人的语音信号特征进行测试。本发明能够自动得到测谎的结果,且具有相对较高的识别率,该方法对评测者的专业知识和技能要求不高,测试效率较高。实验表明,本发明的方法可以有效的识别说话人是否说谎。
附图说明
图1为基于声学特征的条件受限玻尔兹曼机的网络结构图;
图2为条件受限玻尔兹曼机结构图。
具体实施方式
下面结合附图及具体实施方式对本发明作更进一步的说明。
图2为条件受限玻尔兹曼机结构图,是可见层节点i在t时刻的单元值,是可见层节点k在t-p时刻的单元值。hj的隐含层h第j个节点的变量。σi是可见层节点i的方差。bi和cj是可见层节点i和隐含层节点j的偏置量。是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵。是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵。Wvh是t时刻可见层节点与隐含层节点对称连接权重矩阵。若给定多个可见层过去观察值隐含层节点当前时刻可见层节点的观察值
一种基于深度递归型条件受限玻尔兹曼机的测谎方法,包括以下步骤:
步骤一、获取多个语音作为训练样本,每个训练样本都有各自的情感标签,本实施例把情感标签分为说谎、怀疑和未说谎三类;利用条件受限玻尔兹曼机提取训练样本语音特征向量的高阶特征信息;对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x;Wxh是当前时刻t的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′ht-1时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′x是当前时刻t的条件受限玻尔兹曼机可见层节点和t-1时刻的条件受限玻尔兹曼机可见层节点的连接权重矩阵,.
具体包括:
(1)设训练样本语音特征向量为x=[x1,x2,…,xm]T,m为维数;将语音特征向量作为条件受限玻尔兹曼机的输入;
条件受限玻尔兹曼机的能量函数定义为:
式中是递归神经网络中可见层节点i在t时刻的单元值,是可见层节点k在t-p时刻的单元值;hj的递归神经网络中隐含层h第j个节点的变量;σi是可见层节点i的方差;ai和cj是可见层节点i和隐含层节点j的偏置量;是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵;是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵;Wxh是t时刻可见层节点与隐含层节点对称连接权重矩阵;若给定多个可见层过去观察值隐含层节点当前时刻可见层节点的观察值 似于受限玻尔兹曼机可见层神经元和隐含层神经元的偏置量,条件受限玻尔兹曼机中参数和Wxh的求解也可用通过最大似然准则得到,训练的目标函数为:
其中
其中,V′(t)给定多个可见层过去观察值使得对的训练过程能产生非零值和非负值的求解,关于zi参数更新梯度为:
b、c分别是可见层神经元和隐含层神经元的偏置量参数的更新梯度,且有:
其中<·>data表示在训练数据集上的期望,<·>model表示在模型分布上的期望,当给定随机的隐含层矢量h时,可见层vi的状态为v的条件概率和给定随机的训练样本v、隐含层单元hj状态为1的条件概率分别为:
N表示均值为μ、方差为σ2高斯分布N(μ,σ2),S为sigmoid函数。
(2)基于最大似然估计原理,采用对比散度法,对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x
这样已知t时刻的语音特征向量x(t)和t-1时刻的语音特征向量x(t-1),利用平均场近似得到语音特征向量x(t)和x(t-1)的高阶特征信息
其中,s是sigmoid函数;cx是可见层神经元和隐含层神经元的偏置量偏置向量。
如图1所示,估计声学特征,将声学特征向量x=[x1,x2,…,xm]T(m为维数)作为GBRBM的输入,然后基于最大似然估计原理,采用CD法对其进行非监督训练得到GBRBM的参数Wxh、Wx′h和Wx′x。这样已知x(t)和x(t-1),利用平均场近似可得到声学特征x(t)和x(t-1)的声学特征高阶情感统计信息
其中,语音特征向量获取方法为:采用openEAR工具箱提取出的26个帧级特征,并用19个统计函数对这26个帧级特征及帧级特征的差分进行统计计算;训练样本的时长固定,且从每个训练样本中提取出26×2×19=988个语音特征向量。
步骤二、利用训练样本的标签和提取的高阶特征信息对递归神经网络进行监督的训练,获得初始化的递归神经网络参数Wyn,Wnx和Wnn;Wyn是当前时刻t递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnx是t-1时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵Wnn是当前时刻t的递归神经网络见层节点和t-1时刻的递归神经网络可见层节点的连接权重矩阵,
具体方法为:设训练样本的标签为将高阶特征信息 和训练样本的标签分别作为递归神经网络的输入和输出,进行监督训练,得到递归神经网络的初始化参数。
该训练通过最小化之间的误差估计出递归神经网络的权重Wyn,Wnx和Wnn以及偏置量bn和by,假设递归神经网络的隐含层数为1,的表达为:
其中s为sigmoid函数、n(t-1)是递归神经网络t-1时刻的输出、bn、by分别是递归神经网络的权重Wnx和Wnn对应的偏置量。
在获得条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x,递归神经网络参数Wyn,Wnx和Wnn后,将条件受限玻尔兹曼机和递归神经网络由下至上搭建起来,实现从语音特征到情感标签的映射,其中受限玻尔兹曼机的可见层作为整个网络的最底层,受限玻尔兹曼机的隐含层节点和递归神经网络的可见层相连,最后用递归神经网络的隐含层作为整个网络的顶层;并在递归神经网络的验证数据集上基于最小二乘准则来调整递归神经网络参数Wyn,Wnx和Wnn
步骤四、利用建立的神经网络对说话人的语音特征向量进行测试。
本发明在具体实施过程中,设计并录制了CSC数据库。虽然在实验室环境下,伦理和实践性的考虑排除了范式的使用,比如害怕恐惧,但是因为场景设计以开发被试者的“自我表现”为观点,因此被试者通常由物质奖励引诱而欺骗。为提取与说谎有关的语音特征,首先采用基于短时能量的语音端点检测技术(Voice Activity Detection,VAD)检测有效的语音中有效的说话内容,然后在说话内容上提取帧级特征,帧长为128ms。由于情感识别的对象是长时未分割语音,在时间间隔为640ms,时长为1280ms的说话内容上对帧级特征进行统计计算,得到与情感有关的特征。
为平衡算法的执行时间和语音情感的识别性能,采用openEAR工具箱提取26个帧级特征,并用19个统计函数对这26个帧级特征及相应的差分进行统计计算。因此每一固定时长(1280ms)上的语句可提取到26×2×19=988个特征。26个帧级特征和19个统计函数分列于表1和表2。
表1 26个帧级特征
表2 19个统计函数
然后对这988个语音特征向量进行特征规范化,并级联成特征向量。
(2)估计条件受限玻尔兹曼参数
估计条件受限玻尔兹曼参数时,在梯度下降的过程中,对比散度算法使用一次吉布斯采样完成对权重的更新。参数更新的迭代步长设为0.0001,学习率为0.001,学习轮次(epoch)为200,权值衰减因子为0.0002。对于RNN-DRBM中的声学特征CRBM,隐含层节点数设置为500。
(3)估计递归神经网络的参数
对于递归神经网络的隐含层RNN,其隐含层节点数设置为300。这样递归型条件受限玻尔兹曼机的网络结构为988-500-300-x,x代表网络顶层的说谎人标签的维度。
(4)微调递归神经网络参数
在验证数据集上,微调递归神经网络的参数,其中迭代参数设置为200,收敛误差设置为0.0001。
分别使用现有的SVM、k-近邻法以及本发明的方法进行对比实验,最终得到如表3所示的实验结果。
表3测试结果
由表3可知,在说谎的识别上,本发明的算法要优于SVM法和K-近邻法。无论对于说话人是否说谎、怀疑还是未说谎识别率均高于SVM法和K-近邻法。
由实验结果可知,本实例中所采用的一种深度递归型条件受限玻尔兹曼机的测谎方法能够有效地识别语段中是否含有说谎成分,从而实现测谎的功能,相较于基于心理学知识的经验型测谎方法,以及一些常用的自动识别算法,本发明方法具有相对较好的识别性能。

Claims (7)

1.一种基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于:包括以下步骤:
步骤一、获取多个语音作为训练样本,每个训练样本都有各自的情感标签,利用条件受限玻尔兹曼机提取训练样本语音特征向量的高阶特征信息;对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x;Wxh是t时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′h是t-1时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,Wx′x是t时刻的条件受限玻尔兹曼机可见层节点和t-1时刻的条件受限玻尔兹曼机可见层节点的连接权重矩阵;
步骤二、利用训练样本的标签和提取的高阶特征信息对递归神经网络进行监督的训练,获得初始化的递归神经网络参数Wyn,Wnx和Wnn;Wyn是t时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnx是t-1时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵,Wnn是t时刻的递归神经网络见层节点和t-1时刻的递归神经网络可见层节点的连接权重矩阵;
步骤三、在获得条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x,递归神经网络参数Wyn,Wnx和Wnn后,将条件受限玻尔兹曼机和递归神经网络由下至上搭建起来,实现从语音特征到情感标签的映射,其中受限玻尔兹曼机的可见层作为整个网络的最底层,受限玻尔兹曼机的隐含层节点和递归神经网络的可见层相连,最后用递归神经网络的隐含层作为整个网络的顶层;并在递归神经网络的验证数据集上基于最小二乘准则来调整递归神经网络参数Wyn,Wnx和Wnn
步骤四、利用新建立的网络对说话人的语音特征向量进行测试。
2.根据权利要求1所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于,步骤一的具体方法为:
(1)设训练样本语音特征向量为x=[x1,x2,…,xm]T,m为维数;将语音特征向量作为条件受限玻尔兹曼机的输入;
(2)基于最大似然估计原理,采用对比散度法,对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数Wxh、Wx′h和Wx′x
这样已知t时刻的语音特征向量x(t)和t-1时刻的语音特征向量x(t-1),利用平均场近似得到语音特征向量x(t)和x(t-1)的高阶特征信息
其中,s是sigmoid函数;cx是可见层神经元和隐含层神经元的偏置量偏置向量。
3.根据权利要求2所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于,步骤二中获得递归神经网络的初始化参数的方法为:
设训练样本的标签为将高阶特征信息和训练样本的标签分别作为递归神经网络的输入和输出,进行监督训练,得到递归神经网络的初始化参数。
4.根据权利要求1至3任一所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于,所述情感标签分为说谎、怀疑和未说谎三类。
5.根据权利要求1至3任一所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于:步骤一中的语音特征向量获取:包括采用openEAR工具箱提取出的26个帧级特征,并用19个统计函数对这26个帧级特征及帧级特征的差分进行统计计算;训练样本的时长固定,且从每个训练样本中提取出26×2×19=988个语音特征向量。
6.根据权利要求1或2所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于:步骤一中的条件受限玻尔兹曼机的能量函数定义为:
式中是递归神经网络中可见层节点i在t时刻的单元值,是可见层节点k在t-p时刻的单元值;hj的递归神经网络中隐含层h第j个节点的变量;σi是可见层节点i的方差;ai和cj是可见层节点i和隐含层节点j的偏置量;是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵;是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵;Wxh是t时刻可见层节点与隐含层节点对称连接权重矩阵;若给定多个可见层过去观察值隐含层节点当前时刻可见层节点的观察值似于受限玻尔兹曼机可见层神经元和隐含层神经元的偏置量,条件受限玻尔兹曼机中参数Wx′h和Wxh的求解也可用通过最大似然准则得到,训练的目标函数为:
其中
其中,V′(t)给定多个可见层过去观察值使得对的训练过程能产生非零值和非负值的求解,关于zi参数更新梯度为:
b、c分别是可见层神经元和隐含层神经元的偏置量参数的更新梯度,且有:
其中<·>data表示在训练数据集上的期望,<·>model表示在模型分布上的期望,当给定随机的隐含层矢量h时,可见层vi的状态为v的条件概率和给定随机的训练样本v、隐含层单元hj状态为1的条件概率分别为:
N表示均值为μ、方差为σ2高斯分布N(μ,σ2),S为sigmoid函数。
7.根据权利要求3所述的基于深度递归型条件受限玻尔兹曼机的测谎方法,其特征在于:步骤二中的训练通过最小化之间的误差估计出递归神经网络的权重Wyn,Wnx和Wnn以及偏置量bn和by,假设递归神经网络的隐含层数为1,的表达为:
其中s为sigmoid函数、n(t-1)是递归神经网络t-1时刻的输出、bn、by分别是递归神经网络的权重Wnx和Wnn对应的偏置量。
CN201711315604.5A 2017-12-11 2017-12-11 一种基于深度递归型条件受限玻尔兹曼机的测谎方法 Expired - Fee Related CN108175426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711315604.5A CN108175426B (zh) 2017-12-11 2017-12-11 一种基于深度递归型条件受限玻尔兹曼机的测谎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711315604.5A CN108175426B (zh) 2017-12-11 2017-12-11 一种基于深度递归型条件受限玻尔兹曼机的测谎方法

Publications (2)

Publication Number Publication Date
CN108175426A true CN108175426A (zh) 2018-06-19
CN108175426B CN108175426B (zh) 2020-06-02

Family

ID=62546012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711315604.5A Expired - Fee Related CN108175426B (zh) 2017-12-11 2017-12-11 一种基于深度递归型条件受限玻尔兹曼机的测谎方法

Country Status (1)

Country Link
CN (1) CN108175426B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118763A (zh) * 2018-08-28 2019-01-01 南京大学 基于腐蚀去噪深度信念网络的车流量预测方法
CN110009025A (zh) * 2019-03-27 2019-07-12 河南工业大学 一种用于语音测谎的半监督加性噪声自编码器
CN110265063A (zh) * 2019-07-22 2019-09-20 东南大学 一种基于固定时长语音情感识别序列分析的测谎方法
CN111616702A (zh) * 2020-06-18 2020-09-04 北方工业大学 一种基于认知负荷增强的测谎分析***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
CN106251880A (zh) * 2015-06-03 2016-12-21 创心医电股份有限公司 识别生理声音的方法以及***
CN106782518A (zh) * 2016-11-25 2017-05-31 深圳市唯特视科技有限公司 一种基于分层循环神经网络语言模型的语音识别方法
CN107146615A (zh) * 2017-05-16 2017-09-08 南京理工大学 基于匹配模型二次识别的语音识别方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
CN106251880A (zh) * 2015-06-03 2016-12-21 创心医电股份有限公司 识别生理声音的方法以及***
CN106782518A (zh) * 2016-11-25 2017-05-31 深圳市唯特视科技有限公司 一种基于分层循环神经网络语言模型的语音识别方法
CN107146615A (zh) * 2017-05-16 2017-09-08 南京理工大学 基于匹配模型二次识别的语音识别方法及***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109118763A (zh) * 2018-08-28 2019-01-01 南京大学 基于腐蚀去噪深度信念网络的车流量预测方法
CN109118763B (zh) * 2018-08-28 2021-05-18 南京大学 基于腐蚀去噪深度信念网络的车流量预测方法
CN110009025A (zh) * 2019-03-27 2019-07-12 河南工业大学 一种用于语音测谎的半监督加性噪声自编码器
CN110009025B (zh) * 2019-03-27 2023-03-24 河南工业大学 一种用于语音测谎的半监督加性噪声自编码器
CN110265063A (zh) * 2019-07-22 2019-09-20 东南大学 一种基于固定时长语音情感识别序列分析的测谎方法
CN110265063B (zh) * 2019-07-22 2021-09-24 东南大学 一种基于固定时长语音情感识别序列分析的测谎方法
CN111616702A (zh) * 2020-06-18 2020-09-04 北方工业大学 一种基于认知负荷增强的测谎分析***

Also Published As

Publication number Publication date
CN108175426B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN110556129B (zh) 双模态情感识别模型训练方法及双模态情感识别方法
Cernak et al. Characterisation of voice quality of Parkinson’s disease using differential phonological posterior features
Koolagudi et al. IITKGP-SEHSC: Hindi speech corpus for emotion analysis
CN106073706B (zh) 一种面向简易精神状态量表的个性化信息和音频数据分析方法及***
CN108175426A (zh) 一种基于深度递归型条件受限玻尔兹曼机的测谎方法
Travieso et al. Detection of different voice diseases based on the nonlinear characterization of speech signals
CN108899049A (zh) 一种基于卷积神经网络的语音情感识别方法及***
Hahm et al. Parkinson's condition estimation using speech acoustic and inversely mapped articulatory data
Caponetti et al. Biologically inspired emotion recognition from speech
CN109727608A (zh) 一种基于中文语音的病态嗓音评估方法
Petroni et al. Classification of infant cry vocalizations using artificial neural networks (ANNs)
He Stress and emotion recognition in natural speech in the work and family environments
CN107452370A (zh) 一种中文鼻韵母发音障碍患者的判断装置的使用方法
CN112618911B (zh) 基于信号处理的音乐反馈调节***
Sharma et al. Processing and analysis of human voice for assessment of Parkinson disease
Chou et al. Bird species recognition by comparing the HMMs of the syllables
Waghmare et al. A comparative study of recognition technique used for development of automatic stuttered speech dysfluency Recognition system
Mijić et al. Classification of cognitive load using voice features: a preliminary investigation
Patil et al. A review on emotional speech recognition: resources, features, and classifiers
Firdausillah et al. Implementation of neural network backpropagation using audio feature extraction for classification of gamelan notes
Safdar et al. Prediction of Specific Language Impairment in Children using Cepstral Domain Coefficients
Hair et al. Assessing Posterior-Based Mispronunciation Detection on Field-Collected Recordings from Child Speech Therapy Sessions.
Marck et al. Identification, analysis and characterization of base units of bird vocal communication: The white spectacled bulbul (Pycnonotus xanthopygos) as a case study
Singh et al. Analyzing machine learning algorithms for speech impairment related issues
Zheng et al. The Extraction Method of Emotional Feature Based on Children's Spoken Speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200602