CN108648748A

CN108648748A - 医院噪声环境下的声学事件检测方法

Info

Publication number: CN108648748A
Application number: CN201810297418.1A
Authority: CN
Inventors: 邵虹; 田影; 刘阳; 崔文成
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-10-12
Anticipated expiration: 2038-03-30
Also published as: CN108648748B

Abstract

本发明涉及声学事件检测方法，尤其涉及一种医院噪声环境下的声学事件检测方法。其较为准确的将语音识别成文字，提高了语音录入电子病历的识别率并且降低了误识率。包括以下几个步骤：步骤1、对每个声学事件的音频信号进行特征截取，并对音频信号的音频片段做相应的标注；步骤2、提取音频中每个目标声学事件的MFCC特征系数；步骤3、对语音音素进行作对齐；步骤4、生成语音的特征矩阵；步骤5、为每个目标声学事件建立一个CRNN模型；步骤6、对医院噪声环境下实时采集的待检测目标声学事件的音频信号经过预处理之后进行MFCC特征提取；步骤7、获得待检测目标声学事件的类别；步骤8、滤除与目标声学事件无关的音频片段。

Description

医院噪声环境下的声学事件检测方法

技术领域

本发明涉及声学事件检测方法，尤其涉及一种医院噪声环境下的声学事件检测方法。

背景技术

现有语音电子病历在很低信噪比情况下，或多个人讲话的情况下，识别率会大幅下降，因此声学事件检测成为如何去除医院环境中的噪声影响过程中关键的一步。

目前的语音识别器把非语音的都统一归为一类：噪声，实际上现实中的噪声可能比语音还要复杂，如果也能对各种噪声类型建模，有助于语音识别区分出哪些是有用的语音，这对语音电子病历的识别有着重大意义。

发明内容

本发明就是针对现有技术存在的缺陷，提供一种医院噪声环境下的声学事件检测方法，其较为准确的将语音识别成文字，提高了语音录入电子病历的识别率并且降低了误识率。

为实现上述目的，本发明采用如下技术方案，包括以下几个步骤。

步骤1、训练阶段，将目标声学事件的音频信号和医院环境噪声信号作为训练数据，对每个声学事件的音频信号进行特征截取，并对音频信号的音频片段做相应的标注。

步骤2、根据步骤1截取的特征，提取音频中每个目标声学事件的MFCC特征系数，包含声学事件所述特征的音频片段。

步骤3、根据提取的MFCC特征系数，采用HMM-CNN训练对齐模型，对语音音素进行作对齐。

步骤4、计算步骤3对齐后MFCC特征的倒谱均值和方差归一化的统计量，以声音事件编号为索引，每个统计量集合都是一个矩阵，即生成语音的特征矩阵。

步骤5、根据步骤4生成的特征矩阵，使用Theano作为Keras开发工具的后台为每个目标声学事件建立一个CRNN模型。

步骤6、在识别阶段，对医院噪声环境下实时采集的待检测目标声学事件的音频信号经过预处理之后进行MFCC特征提取。

步骤7、根据步骤6提取的MFCC系数，采用步骤5获得的CRNN模型进行分类识别，获得待检测目标声学事件的类别。

步骤8、在步骤7确定类别的声学事件中，对噪音事件进行基于时序和方位的综合分析，获得相应的事件序列编码，根据获得的事件序列编码，对当前的事件序列进行过滤，滤除与目标声学事件无关的音频片段。

优选地，所述步骤3中的对语音因素进行对齐的模型采用的方法包括以下几个步骤。

步骤3-1、根据MFCC特征进行处理以提取一个帧序列；每个帧被归一化到相同的比例，并馈送到产生与其属于一个类别后验概率的CNN中。

步骤3-2、CNN权重共享的特性降低训练参数来抑制过拟合，通过卷积层的卷积运算使原语音信号特征增强，并且降低底噪。

步骤3-3、在池化层利用语音信号频谱局部相关性原理，对特征进行子抽样，对数据进行降维并保留有用信息。

步骤3-4、在归一化之后，这个概率被用作HMM的输出概率，HMM被用来推断出最可能的特征帧序列。

优选地，所述步骤4中采用特征矩阵的方法为：计算提取特征的倒谱均值和方差归一化的统计量，以声音事件编号为索引，每个统计量集合都是一个特征矩阵。

优选地，所述步骤5中训练CRNN声学模型中的方法包括以下几个步骤。

步骤5-1、CNN中使用门控线性单元(GLU)作为激活函数，在音频分类中使用门控线性单元将注意力机制引入到神经网络的所有层中；通过将其值设置为接近于零的时域来处理相关的音频事件；应用卷积层以提取高级特征。

步骤5-2、采用双向递归神经网络(Bi-RNN)捕捉时间上下文信息，用向前神经网络(FNN)和音频类别的数量来预测每个帧的每个音频类别的后验。每个音频标签的预测概率是通过对所有帧的后验进行平均而获得的。

步骤5-3、将二进制交叉熵损失应用于音频记录的预测概率和基本事实之间；神经网络的权重可以通过使用反向传播计算的权重的梯度来更新。

其中GLU公式为。

Y＝(W*X+b)⊙σ(V*X+c) (1)

上式中，σ是S型非线性，⊙是元素乘积，*是卷积算子；W和V是卷积滤波器，b和c是偏差；X表示第一层中的输入T-F表示或者间隔层的特征映射。

另外训练二进制交叉熵损失公式为。

其中，E是二元交叉熵，On和Pn分别表示样本指数n处的估计和参考标签向量；簇的大小由N.Adam表示作为随机优化方法。

与现有技术相比本发明有益效果。

本发明可以是使语音录入电子病历在医院噪声环境下较为准确的将语音识别成文字，提高了语音录入电子病历的识别率并且降低了误识率。实现了医院噪声环境下的目标声学事件检测，对噪声有一定的鲁棒性。

附图说明

下面结合附图和具体实施方式对本发明做进一步说明。本发明保护范围不仅局限于以下内容的表述。

图1是本发明整体结构框图。

图2是本发明CNN-HMM模型图。

图3是本发明CRNN模型图。

图中，1为池化层、2为隐藏层、3为卷积层。

具体实施方式

如图1-3所示，本发明涉及声学事件检测方法的研究尤其是医院环境下的噪音数据。具体步骤包括如下步骤。

在训练阶段。

1、首先对医院噪声进行全面的分析，本发明采用医院中各种声学事件进行检测分类，医疗设备声音数据包括：呼吸机，心电监护仪，心脏除颤起搏设备，护理车移动的声音，另外包括：打印机，患者哭声，共六种声学事件进行检测。数据各包括100个，每种事件长度不小于1秒，音频长度为十秒以上，目标声音事件类别是根据它们在原始注释中出现的频率和它们出现的不同记录的数量来选择的。数据集根据示例的数量将数据划分为训练和评估子集可用于每个事件类，同时也考虑到记录位置。为调整参数使之达到最佳效果，开发集进一步分为四个层次，每个记录只用一次作为测试数据。在这个阶段，强加的唯一条件是测试子集不包含训练中数据。声音事件数据由评估集中的五个记录组成，四个折叠分布12个记录到训练和测试子集中。声音事件数据由评估集中的五个记录组成，并且四个折叠分布10个记录到训练和测试子集中。

2、然后利用麦克风阵列语音录入***，采集各种目标声学事件的音频信号和噪声信号，将目标声学事件的音频和医院噪声信号作为训练数据，对每个声学事件的音频信号进行特征截取，并对音频片段做相应的标注。

3、根据截取的特征，提取音频中每个目标声学事件的MFCC特征系数，包含声学事件所述特征的音频片段。

4、根据提取的MFCC系数，对语音因素进行对齐的模型采用的方法为。

(1)根据MFCC特征进行处理以提取一个帧序列。每个帧被归一化到相同的比例，并馈送到产生与其属于一个类别后验概率的CNN中。

(2)CNN权重共享的特性降低训练参数来抑制过拟合，通过卷积层的卷积运算使原语音信号特征增强，并且降低底噪。CNN模型分为三层：池化层、隐藏层及卷积层。

(3)在池化层利用语音信号频谱局部相关性原理，对特征进行子抽样，对数据进行降维并保留有用信息。

(4)在归一化之后，这个概率被用作HMM的输出概率，HMM被用来推断出最可能的特征帧序列。

如图2为CNN-HMM模型图，通过训练好的CNN-HMM声学模型，对语音音素进行作对齐。

5、计算步骤三对齐后特征的倒谱均值和方差归一化的统计量，以声音事件编号为索引，每个统计量集合都是一个矩阵，即生成语音的特征矩阵。

6、根据步骤四生成的特征矩阵，使用Theano作为Keras开发工具的后台为每个目标声学事件建立一个CRNN模型。

训练CRNN声学模型中的方法为。

(1)、CNN中使用门控线性单元(GLU)作为激活函数，在音频分类中使用门控线性单元将注意力机制引入到神经网络的所有层中。通过将其值设置为接近于零的时域来处理相关的音频事件。如果一个GLU接近1，那么就应该有相应的 T-F单元。如果一个GLU接近0，那么相应的T-F单元应该被忽略。通过这种方式，网络将学习关注音频事件并忽略不相关的声音。应用卷积层以提取高级特征。

(2)、采用双向递归神经网络(Bi-RNN)捕捉时间上下文信息，用向前神经网络(FNN)和音频类别的数量来预测每个帧的每个音频类别的后验。每个音频标签的预测概率是通过对所有帧的后验进行平均而获得的。

(3)、将二进制交叉熵损失应用于音频记录的预测概率和基本事实之间。神经网络的权重可以通过使用反向传播计算的权重的梯度来更新；为每个目标声学事件建立一个CRNN声学模型，如图3为CRNN模型图。

结合图1，在识别阶段。

1、利用麦克风阵列语音录入***，对医院噪声环境下实时采集的待检测目标声学事件的音频信号经过预处理之后进行MFCC特征提取。

2、根据提取的MFCC系数，采用步骤五获得的CRNN模型进行分类识别，获得待检测目标声学事件的类别。

3、在步骤七确定类别的声学事件中，对噪音事件进行基于时序和方位的综合分析，获得相应的事件序列编码，根据获得的事件序列编码，对当前的事件序列进行过滤，滤除与目标声学事件无关的音频片段。

所述GLU公式为。

Y＝(W*X+b)⊙σ(V*X+c) (1)

其中σ是S型非线性，⊙是元素乘积，*是卷积算子。W和V是卷积滤波器， b和c是偏差。X表示第一层中的输入T-F表示或者间隔层的特征映射。

另外训练二进制交叉熵损失公式为。

其中E是二元交叉熵，On和Pn分别表示样本指数n处的估计和参考标签向量。簇的大小由N.Adam表示作为随机优化方法。

本发明很好的解决了以往语音录入电子病历中噪声环境下的识别率问题，可以大大提高医护人员的工作效率和效果，可以很好的在语音录入电子病例领域推广应用。

可以理解的是，以上关于本发明的具体描述，仅用于说明本发明而并非受限于本发明实施例所描述的技术方案，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换，以达到相同的技术效果；只要满足使用需要，都在本发明的保护范围之内。

Claims

1.医院噪声环境下的声学事件检测方法，其特征在于，包括以下几个步骤：

步骤1、训练阶段，将目标声学事件的音频信号和医院环境噪声信号作为训练数据，对每个声学事件的音频信号进行特征截取，并对音频信号的音频片段做相应的标注；

步骤2、根据步骤1截取的特征，提取音频中每个目标声学事件的MFCC特征系数，包含声学事件所述特征的音频片段；

步骤3、根据提取的MFCC特征系数，采用HMM-CNN训练对齐模型，对语音音素进行作对齐；

步骤4、计算步骤3对齐后MFCC特征的倒谱均值和方差归一化的统计量，以声音事件编号为索引，每个统计量集合都是一个矩阵，即生成语音的特征矩阵；

步骤5、根据步骤4生成的特征矩阵，使用Theano作为Keras开发工具的后台为每个目标声学事件建立一个CRNN模型；

步骤6、在识别阶段，对医院噪声环境下实时采集的待检测目标声学事件的音频信号经过预处理之后进行MFCC特征提取；

步骤7、根据步骤6提取的MFCC系数，采用步骤5获得的CRNN模型进行分类识别，获得待检测目标声学事件的类别；

2.根据权利要求1所述的医院噪声环境下的声学事件检测方法，其特征在于：所述步骤3中的对语音因素进行对齐的模型采用的方法包括以下几个步骤：

步骤3-1、根据MFCC特征进行处理以提取一个帧序列；每个帧被归一化到相同的比例，并馈送到产生与其属于一个类别后验概率的CNN中；

步骤3-2、CNN权重共享的特性降低训练参数来抑制过拟合，通过卷基层的卷积运算使原语音信号特征增强，并且降低底噪；

步骤3-3、在池化层利用语音信号频谱局部相关性原理，对特征进行子抽样，对数据进行降维并保留有用信息；

3.根据权利要求1所述的医院噪声环境下的声学事件检测方法，其特征在于：所述步骤4中采用特征矩阵的方法为：计算提取特征的倒谱均值和方差归一化的统计量，以声音事件编号为索引，每个统计量集合都是一个特征矩阵。

4.根据权利要求1所述的医院噪声环境下的声学事件检测方法，其特征在于：所述步骤5中训练CRNN声学模型中的方法包括以下几个步骤：

步骤5-1、CNN中使用门控线性单元(GLU)作为激活函数，在音频分类中使用门控线性单元将注意力机制引入到神经网络的所有层中；通过将其值设置为接近于零的时域来处理相关的音频事件；应用卷积层以提取高级特征；

步骤5-2、采用双向递归神经网络(Bi-RNN)捕捉时间上下文信息，用向前神经网络(FNN)和音频类别的数量来预测每个帧的每个音频类别的后验。每个音频标签的预测概率是通过对所有帧的后验进行平均而获得的；

步骤5-3、将二进制交叉熵损失应用于音频记录的预测概率和基本事实之间；神经网络的权重可以通过使用反向传播计算的权重的梯度来更新；

其中GLU公式为：

Y＝(W*X+b)⊙σ(V*X+c) (1)

另外训练二进制交叉熵损失公式为：