CN108175426B

CN108175426B - 一种基于深度递归型条件受限玻尔兹曼机的测谎方法

Info

Publication number: CN108175426B
Application number: CN201711315604.5A
Authority: CN
Inventors: 赵力; 查诚; 魏昕; 徐新洲; 黄程韦; 塔什甫拉提·尼扎木丁; 余华; 邹采荣
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2020-06-02
Anticipated expiration: 2037-12-11
Also published as: CN108175426A

Abstract

本发明公开了一种基于深度递归型条件受限玻尔兹曼机的测谎方法，首先在连续语音段落中，利用条件受限玻尔兹曼机对时间序列具有良好的建模特性和简易的推理过程，对训练样本进行建模，得到说话人是否说谎的高阶统计信息；接着用该高阶统计信息和训练样本的标签对递归神经网络进行有监督的参数训练。在获得条件受限玻尔兹曼机和递归神经网络的初始化参数后，将这两个基本网络单元由下至上搭建而成；并在验证数据集上，基于最小二乘回归微调递归神经网络的参数；利用建立的网络，对说话人的语音信号特征进行测试。本发明能够自动得到测谎的结果，且具有相对较高的识别率，该方法对评测者的专业知识和技能要求不高，有较高的测试效率。

Description

一种基于深度递归型条件受限玻尔兹曼机的测谎方法

技术领域

本发明涉及一种语音测谎技术，尤其是利用说话人上下文的语音信息进行测谎的方法。

背景技术

“测谎”的基本原理是人在说谎时的心理变化必然引起一些生理参数(如皮肤电、心跳、血压、呼吸脑电波、声音)的变化，通常它只受植物神经制约而很难受大脑意识控制。因此传统测谎技术是将心理学和生理学等多种学科交叉融和，通过电生理参数测试***对个体内心隐瞒意图和状态进行探测。目前，大量的心理学工作都是将面部表情，生理活动和手势等作为谎言的测试线索。谎言研究的主要工作有三种：理论工作(研究欺骗的类型、形式和动机等)，经验性研究(通过实验性研究发现对谎言检测有意义的特征)和对谎言检测技术的开发工作，大部分当前基于经验信息的研究都存在着缺乏自动化和自适应性，以及有一定的主观偏差的缺点。

声音及韵律特征是语音分析的常用特征，在语音情绪分析与识别方面也有重要的应用。2009年，Enos在其博士论文中，总结了大约200种声音及韵律特征，包括持续时间、停顿、声调和音强特征。特征基于多维时间尺度提取，从几秒到整个句子。1)音调特征从每段语音的浊音区获得。此外，大量的二阶特征集包括：基音最大值，基音平均值，基音最小值，上升帧/下降帧/整帧/半帧/有声帧中的基音数，第一/最后一个斜率的长度，从下降到上升的变化数和第一/最后一个/平均斜率值。对这些特征有五种标准化方法：原始值，除以平均值，减去平均值，特征累计分布函数值，减去平均值再除以标准误差；2)两类基本能量特征被计算：每一段的原始能量和浊音的能量。此类特征也包括大量的二阶能量特征，如最小值，最大值和平均值等；3)(音素)持续特征：音长的最大值和平均值。同样这两个特征也表现为三种形式中的一个：原始值，使用说话者的持续时间进行归一化，使用整个语音库的持续时长来进行归一化；4)其它韵律特征，包括发言的最后一个音节的基音的斜率、发言的第一个音节的持续时间等。

在语音测谎方面，目前所用的特征都是上述特征的分支，区别在于特征的统计量的求法和个数的不同。Ekman等人通过采访影视片段观后感的方式采集谎话语料，通过对语料的基频特征进行统计分析，发现说谎语音段与说真话语音段相比较，基频有明显提升。Hansen等人用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients；MFCC)，以及MFCC的一阶差分、二阶差分、自相关、互相关构造出一组特征，以神经网络的方法为分类器对特定说话人的声音分11个压力等级进行研究，结果表明，与平和状态相比，以上特征在压力状态下的变化反应了声道发音器官的微抖动。2003年，De Paulo等人对现有测谎研究工作中提出的158种特征的元分析研究表明，其中有23种特征表现较为明显，包括16种语音及语言相关特征，如相较于说真话，人在说谎话时会出现说话时长变短、表述细节变少、重复变多、基频变高等现象。美国普渡大学的研究小组利用幅度调制和频率调制模型进行测谎研究，结果显示，Teager能量相关特征有区分真谎话的可能性。但是现有技术中，一般的测谎方法通常依赖于心理学研究以及人的主观评测，这些方法需要评测者有着较强的专业知识和技能，效率相对较低，也存在着较大程度的主观误差。利用经验信息进行测谎成本太高，而且有时测谎结果会存在偏差。而且先前的对谎言的研究主要是由心理学家在实验性的欺骗情境中进行的，同时运用影像来记录实验的具体情况，这些研究大多只针对语音的强度和音调，并没有利用最新的语音处理技术。因此，针对目前技术的障碍，语音测谎必须采用更复杂的语音处理算法。

发明内容

发明目的：为了针对现有技术的不足，解决现有技术中，利用经验信息进行测谎成本过高以及存在偏差的问题，本发明提出一种基于深度递归型条件受限玻尔兹曼机的测谎方法。

技术方案：为解决上述技术问题，本发明采用以下技术方案：

一种基于深度递归型条件受限玻尔兹曼机的测谎方法，包括以下步骤：

步骤一、获取多个语音作为训练样本，每个训练样本都有各自的情感标签，利用条件受限玻尔兹曼机提取训练样本语音特征向量的高阶特征信息；对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数W_xh、W_x′h和W_x′x；W_xh是t时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵，W_x′h是t-1时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵，W_x′x是t时刻的条件受限玻尔兹曼机可见层节点和t-1时刻的条件受限玻尔兹曼机可见层节点的连接权重矩阵；

步骤二、利用训练样本的标签和提取的高阶特征信息对递归神经网络进行监督的训练，获得初始化的递归神经网络参数W_yn，W_nx和W_nn；W_yn是t时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵，W_nx是t-1时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵，W_nn是t时刻的递归神经网络见层节点和t-1时刻的递归神经网络可见层节点的连接权重矩阵；

步骤三、在获得条件受限玻尔兹曼机的参数W_xh、W_x′h和W_x′x，递归神经网络参数W_yn，W_nx和W_nn后，将条件受限玻尔兹曼机和递归神经网络由下至上搭建起来，实现从语音特征到情感标签的映射，其中受限玻尔兹曼机的可见层作为整个网络的最底层，受限玻尔兹曼机的隐含层节点和递归神经网络的可见层相连，最后用递归神经网络的隐含层作为整个网络的顶层；并在递归神经网络的验证数据集上基于最小二乘准则来调整递归神经网络参数W_yn，W_nx和W_nn；

步骤四、利用新建立的网络对说话人的语音特征向量进行测试。

进一步的，步骤一的具体方法包括：

(1)设训练样本语音特征向量为x＝[x₁,x₂,…,x_m]^T，m为维数；将语音特征向量作为条件受限玻尔兹曼机的输入；

(2)基于

最大似然估计原理，采用对比散度法，对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数W_xh、W_x′h和W_x′x；

这样已知t时刻的语音特征向量x^(t)和t-1时刻的语音特征向量x^(t-1)，利用平均场近似得到语音特征向量x^(t)和x^(t-1)的高阶特征信息

其中，s是sigmoid函数；c_x是可见层神经元和隐含层神经元的偏置量偏置向量。

进一步的，步骤二中获得递归神经网络的初始化参数的方法为：

设训练样本的标签为

将高阶特征信息

和训练样本的标签

分别作为递归神经网络的输入和输出，进行监督训练，得到递归神经网络的初始化参数。

进一步的，所述情感标签分为说谎、怀疑和未说谎三类。

进一步的，步骤一中的语音特征向量获取：包括采用openEAR工具箱提取出的26个帧级特征，并用19个统计函数对这26个帧级特征及帧级特征的差分进行统计计算；训练样本的时长固定，且从每个训练样本中提取出26×2×19＝988个语音特征向量。

进一步的，步骤一中的条件受限玻尔兹曼机的能量函数定义为：

式中

是递归神经网络中可见层节点i在t时刻的单元值，

是可见层节点k在t-p时刻的单元值；h_j是隐含层h第j个节点的变量；σ_i是可见层节点i的方差；a_i和c_j是可见层节点i和隐含层节点j的偏置量；

是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵；

是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵；W_xh是t时刻可见层节点与隐含层节点对称连接权重矩阵；若给定多个可见层过去观察值

隐含层节点

当前时刻可见层节点的观察值

似于受限玻尔兹曼机可见层神经元和隐含层神经元的偏置量，条件受限玻尔兹曼机中参数

和W_xh的求解也可用通过最大似然准则得到，训练的目标函数为：

其中

其中，V′^(t)给定多个可见层过去观察值

使得对

的训练过程能产生非零值和非负值的求解，关于z_i参数更新梯度为：

b、c分别是可见层神经元和隐含层神经元的偏置量参数

和

的更新梯度，且有：

其中<·>_data表示在训练数据集上的期望，<·>_model表示在模型分布上的期望，当给定随机的隐含层矢量h时，可见层v_i的状态为v的条件概率和给定随机的训练样本v、隐含层单元h_j状态为1的条件概率分别为：

N表示均值为μ、方差为σ²高斯分布N(μ,σ²)，S为sigmoid函数。

进一步的，步骤二中的训练通过最小化

和

之间的误差估计出递归神经网络的权重W_yn，W_nx和W_nn以及偏置量b_n和b_y，假设递归神经网络的隐含层数为

的表达为：

其中s为sigmoid函数、n^(t-1)是递归神经网络t-1时刻的输出、b_n、b_y分别是递归神经网络的权重W_nx和W_nn对应的偏置量。

有益效果：本发明公开了一种基于深度递归型条件受限玻尔兹曼机的测谎方法，首先在连续语音段落，利用条件受限玻尔兹曼机对时间序列具有良好的建模特性和简易的推理过程，对训练样本进行建模，得到说话人是否说谎的高阶统计信息；接着用该高阶统计信息和训练样本的标签对递归神经网络进行有监督的参数训练。在获得条件受限玻尔兹曼机和递归神经网络的初始化参数后，由下至上将这两个基本网络单元由下至上搭建而成。并在验证数据集上，基于最小二乘回归微调递归神经网络的参数。测试时，利用建立的网络，对说话人的语音信号特征进行测试。本发明能够自动得到测谎的结果，且具有相对较高的识别率，该方法对评测者的专业知识和技能要求不高，测试效率较高。实验表明，本发明的方法可以有效的识别说话人是否说谎。

附图说明

图1为基于声学特征的条件受限玻尔兹曼机的网络结构图；

图2为条件受限玻尔兹曼机结构图。

具体实施方式

下面结合附图及具体实施方式对本发明作更进一步的说明。

图2为条件受限玻尔兹曼机结构图，

是可见层节点i在t时刻的单元值，

是可见层节点k在t-p时刻的单元值。h_j的隐含层h第j个节点的变量。σ_i是可见层节点i的方差。b_i和c_j是可见层节点i和隐含层节点j的偏置量。

是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵。

是t-p时刻可见层节点到隐含层节点的有向连接权重矩阵。W_vh是t时刻可见层节点与隐含层节点对称连接权重矩阵。若给定多个可见层过去观察值

隐含层节点

当前时刻可见层节点的观察值

步骤一、获取多个语音作为训练样本，每个训练样本都有各自的情感标签，本实施例把情感标签分为说谎、怀疑和未说谎三类；利用条件受限玻尔兹曼机提取训练样本语音特征向量的高阶特征信息；对训练样本进行非监督训练得到条件受限玻尔兹曼机的参数W_xh、W_x′h和W_x′x；W_xh是当前时刻t的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵，W_x′ht-1时刻的条件受限玻尔兹曼机可见层节点和隐含层节点的连接权重矩阵,W_x′x是当前时刻t的条件受限玻尔兹曼机可见层节点和t-1时刻的条件受限玻尔兹曼机可见层节点的连接权重矩阵,.

具体包括：

条件受限玻尔兹曼机的能量函数定义为：

式中

是递归神经网络中可见层节点i在t时刻的单元值，

是t-p时刻到t时刻可见层节点之间的有向连接权重矩阵；

隐含层节点

当前时刻可见层节点的观察值

其中

其中，V′^(t)给定多个可见层过去观察值

使得对

b、c分别是可见层神经元和隐含层神经元的偏置量参数

和

的更新梯度，且有：

N表示均值为μ、方差为σ²高斯分布N(μ,σ²)，S为sigmoid函数。

(2)基于

如图1所示，估计声学特征，将声学特征向量x＝[x₁,x₂,…,x_m]^T(m为维数)作为GBRBM的输入，然后基于

最大似然估计原理，采用CD法对其进行非监督训练得到GBRBM的参数W_xh、W_x′h和W_x′x。这样已知x^(t)和x^(t-1)，利用平均场近似可得到声学特征x^(t)和x^(t-1)的声学特征高阶情感统计信息

其中，语音特征向量获取方法为：采用openEAR工具箱提取出的26个帧级特征，并用19个统计函数对这26个帧级特征及帧级特征的差分进行统计计算；训练样本的时长固定，且从每个训练样本中提取出26×2×19＝988个语音特征向量。

步骤二、利用训练样本的标签和提取的高阶特征信息对递归神经网络进行监督的训练，获得初始化的递归神经网络参数W_yn，W_nx和W_nn；W_yn是当前时刻t递归神经网络可见层节点和隐含层节点的连接权重矩阵，W_nx是t-1时刻的递归神经网络可见层节点和隐含层节点的连接权重矩阵W_nn是当前时刻t的递归神经网络见层节点和t-1时刻的递归神经网络可见层节点的连接权重矩阵,

具体方法为：设训练样本的标签为

将高阶特征信息

和训练样本的标签

该训练通过最小化

和

之间的误差估计出递归神经网络的权重W_yn，W_nx和W_nn以及偏置量b_n和b_y，假设递归神经网络的隐含层数为1，

的表达为：

在获得条件受限玻尔兹曼机的参数W_xh、W_x′h和W_x′x，递归神经网络参数W_yn，W_nx和W_nn后，将条件受限玻尔兹曼机和递归神经网络由下至上搭建起来，实现从语音特征到情感标签的映射，其中受限玻尔兹曼机的可见层作为整个网络的最底层，受限玻尔兹曼机的隐含层节点和递归神经网络的可见层相连，最后用递归神经网络的隐含层作为整个网络的顶层；并在递归神经网络的验证数据集上基于最小二乘准则来调整递归神经网络参数W_yn，W_nx和W_nn；

步骤四、利用建立的神经网络对说话人的语音特征向量进行测试。

本发明在具体实施过程中，设计并录制了CSC数据库。虽然在实验室环境下，伦理和实践性的考虑排除了范式的使用，比如害怕恐惧，但是因为场景设计以开发被试者的“自我表现”为观点，因此被试者通常由物质奖励引诱而欺骗。为提取与说谎有关的语音特征，首先采用基于短时能量的语音端点检测技术(Voice Activity Detection，VAD)检测有效的语音中有效的说话内容，然后在说话内容上提取帧级特征，帧长为128ms。由于情感识别的对象是长时未分割语音，在时间间隔为640ms，时长为1280ms的说话内容上对帧级特征进行统计计算，得到与情感有关的特征。

为平衡算法的执行时间和语音情感的识别性能，采用openEAR工具箱提取26个帧级特征，并用19个统计函数对这26个帧级特征及相应的差分进行统计计算。因此每一固定时长(1280ms)上的语句可提取到26×2×19＝988个特征。26个帧级特征和19个统计函数分列于表1和表2。

表1 26个帧级特征

表2 19个统计函数

然后对这988个语音特征向量进行特征规范化，并级联成特征向量。

(2)估计条件受限玻尔兹曼参数

估计条件受限玻尔兹曼参数时，在梯度下降的过程中，对比散度算法使用一次吉布斯采样完成对权重的更新。参数更新的迭代步长设为0.0001，学习率为0.001，学习轮次(epoch)为200，权值衰减因子为0.0002。对于RNN-DRBM中的声学特征CRBM，隐含层节点数设置为500。

(3)估计递归神经网络的参数

对于递归神经网络的隐含层RNN,其隐含层节点数设置为300。这样递归型条件受限玻尔兹曼机的网络结构为988-500-300-x，x代表网络顶层的说谎人标签的维度。

(4)微调递归神经网络参数

在验证数据集上，微调递归神经网络的参数，其中迭代参数设置为200，收敛误差设置为0.0001。

分别使用现有的SVM、k-近邻法以及本发明的方法进行对比实验，最终得到如表3所示的实验结果。

表3测试结果

由表3可知，在说谎的识别上，本发明的算法要优于SVM法和K-近邻法。无论对于说话人是否说谎、怀疑还是未说谎识别率均高于SVM法和K-近邻法。

由实验结果可知，本实例中所采用的一种深度递归型条件受限玻尔兹曼机的测谎方法能够有效地识别语段中是否含有说谎成分，从而实现测谎的功能，相较于基于心理学知识的经验型测谎方法，以及一些常用的自动识别算法，本发明方法具有相对较好的识别性能。

Claims

1.一种基于深度递归型条件受限玻尔兹曼机的测谎方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于深度递归型条件受限玻尔兹曼机的测谎方法，其特征在于，步骤一的具体方法为：

(2)基于

3.根据权利要求2所述的基于深度递归型条件受限玻尔兹曼机的测谎方法，其特征在于，步骤二中获得递归神经网络的初始化参数的方法为：

设训练样本的标签为

将高阶特征信息

和训练样本的标签

4.根据权利要求1至3任一所述的基于深度递归型条件受限玻尔兹曼机的测谎方法，其特征在于，所述情感标签分为说谎、怀疑和未说谎三类。

5.根据权利要求1至3任一所述的基于深度递归型条件受限玻尔兹曼机的测谎方法，其特征在于：步骤一中的语音特征向量获取：包括采用openEAR工具箱提取出的26个帧级特征，并用19个统计函数对这26个帧级特征及帧级特征的差分进行统计计算；训练样本的时长固定，且从每个训练样本中提取出26×2×19＝988个语音特征向量。

6.根据权利要求1或2所述的基于深度递归型条件受限玻尔兹曼机的测谎方法，其特征在于：步骤一中的条件受限玻尔兹曼机的能量函数定义为：