CN108711419A

CN108711419A - 一种人工耳蜗的环境声感知方法和***

Info

Publication number: CN108711419A
Application number: CN201810856692.8A
Authority: CN
Inventors: 张晓薇; 韩彦; 孙晓安; 黄穗
Original assignee: Zhejiang Nurotron Neural Electronic Technology Co Ltd
Current assignee: Zhejiang Nurotron Neural Electronic Technology Co Ltd
Priority date: 2018-07-31
Filing date: 2018-07-31
Publication date: 2018-10-26
Anticipated expiration: 2038-07-31
Also published as: ES2849124A1; WO2020024807A1; ES2849124B2; CN108711419B

Abstract

本发明公开了人工耳蜗的环境声感知方法和***，方法包括以下步骤：声音采集模块采用麦克风实时采集环境声，将采集到的一段离散声音信号输出给声音特征提取模块；声音特征提取模块将声音采集模块发送来的声音信号作处理，提取一组代表声音信号特点的特征值，输出给神经网络分类模块；神经网络分类模块在收到声音特征提取模块提取的一组特征值，通过训练好的神经网络对该组特征值进行分类，然后将分类结果输出给综合决策模块；综合决策模块在收到神经网络分类模块的分类结果之后，综合分析给出当前场景的判定，并将判定结果输出给语音处理选择模块；语音处理选择模块根据综合决策模块对当前场景的判定结果，选择最优的语音处理程序及其参数配置。

Description

一种人工耳蜗的环境声感知方法和***

技术领域

本发明属于信号处理领域，涉及一种人工耳蜗的环境声感知方法和***。

背景技术

人工耳蜗是目前市场上唯一一种可以有效地让重度或极重度耳聋患者恢复听力的医疗器械。一般的人工耳蜗的工作原理是将麦克风采集的声音信号，经过信号处理单元，将声音信号转为刺激编码发送给植入体，植入体按照刺激编码，通过微电极刺激听神经，从而使植入者恢复听力。跟助听器等其他辅听设备一样，这类***缺少常人听力***的一项重要功能，即可以在复杂的声音场景中分辨目标信号，并将其提取出来。比如在一群人或者相对嘈杂的环境下，听清聊天对象所说的话。通常的解决办法是通过一定的去噪算法，减少噪音对听声的影响。然而不同的环境(比如纯语音、待噪语音或者噪音环境)下的去噪算法和算法的参数配置是不同的。

为了解决这类问题，又引入了环境声感知算法，***可以根据环境声感知算法的判定结果，有针对性的开启降噪算法并配置相关参数。早期的人工耳蜗或者助听器的***中，环境声感知算法的分类器采用的是隐马尔可夫模型。该模型相对简单，理论成熟较早，对训练数据要求不高，也保有一定的正确识别率。并且其运算量比较低，能够适应人工耳蜗这种运算能力有限的设备。随着近几年模式识别，机器学习等领域的不断创新，算力算法上的不断进步，更多的分类算法(支持向量机、神经网络等)在环境声感知领域上的表现更为突出，分类正确率更高。而且支持向量机、神经网络这类分类器相对于隐马尔可夫模型，将重心放在区别类别上，而无须提供类别转换的先验概率。也就是说只需要分析不同环境声的数据，不需要考虑从一种环境声转换另一种环境声的概率是多少。得到这种转换概率非常困难，而且从数据上分析又不够准确。但是神经网络的变化很多，根据输入特征值的数目，隐含层的数目，每层网络节点数目的不同，其网络结构可以有很多种组合。而且通常神经网络的分类正确率跟其规模成正比，因而所需运算量也比较大。

发明内容

为解决上述问题，本发明针对现有声音感知处理的缺点，提出了一种人工耳蜗的环境声感知方法，采用神经网络，对环境声分类，该神经网络的输入特征值、网络结构是在人工耳蜗***上进行的优化，即在满足一定的分类正确率的情况下，使运算量达到最小。

为实现上述目的，本发明的技术方案为一种人工耳蜗的环境声感知方法，包括以下步骤：

声音采集模块采用麦克风实时采集环境声，然后将采集到的一段离散声音信号输出给声音特征提取模块；

声音特征提取模块将声音采集模块发送来的声音信号作处理，提取一组代表声音信号特点的特征值，输出给神经网络分类模块；

神经网络分类模块在收到声音特征提取模块提取的一组特征值之后，通过训练好的神经网络对该组特征值进行分类，然后将分类结果输出给综合决策模块；

综合决策模块在收到神经网络分类模块的分类结果之后，综合分析给出当前场景的判定，并将判定结果输出给语音处理选择模块；

语音处理选择模块根据综合决策模块对当前场景的判定结果，选择最优的语音处理程序及其参数配置。

优选地，所述麦克风实时采集环境声使用全向麦克风或者麦克风阵列。

优选地，所述声音采集模块的采样率为16K。

优选地，所述提取一组代表声音信号特点的特征值提取的特征值在8个。

优选地，所述神经网络分类模块采用包含两个隐含层、每层15个神经元的深度神经网络或者延迟神经网络。

优选地，8个所述特征值从60个特征值中筛选而来。

优选地，所述特征值筛选采用综合分析特征值的统计值和高斯混合模型、平均影响值算法、序列前向选择算法、以及分类器训练结果评估的方法。

优选地，所述特征值的计算量和神经网络的计算量不超过人工耳蜗言语处理器运算能力的20％。

基于上述目的，本发明还提供了一种人工耳蜗的环境声感知***，包括依次连接的声音采集模块、声音特征提取模块、神经网络分类模块、综合决策模块、语音处理选择模块，其中，

所述声音采集模块，用于采用麦克风实时采集环境声，然后将采集到的一段离散声音信号输出给声音特征提取模块；

所述声音特征提取模块，用于将声音采集模块发送来的声音信号作处理，提取一组代表声音信号特点的特征值，输出给神经网络分类模块；

所述神经网络分类模块，用于在收到声音特征提取模块提取的一组特征值之后，通过训练好的神经网络对该组特征值进行分类，然后将分类结果输出给综合决策模块；

所述综合决策模块，用于在收到神经网络分类模块的分类结果之后，综合分析给出当前场景的判定，并将判定结果输出给语音处理选择模块；

所述语音处理选择模块，用于根据综合决策模块对当前场景的判定结果，选择最优的语音处理程序及其参数配置。

附图说明

图1为本发明实施例的人工耳蜗的环境声感知方法的步骤流程图；

图2为本发明实施例的人工耳蜗的环境声感知***的结构框图；

图3为本发明实施例的人工耳蜗的环境声感知方法和***的神经网络分类模块具体示意图；

图4为本发明实施例的人工耳蜗的环境声感知方法的对不同隐含层和不同神经元数目的网络的运算量和正确率的对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参见图1，为本发明实施例的本发明的技术方案为人工耳蜗的环境声感知方法的步骤流程图，包括以下步骤：

S10，声音采集模块采用麦克风实时采集环境声，然后将采集到的一段离散声音信号输出给声音特征提取模块；

S20，声音特征提取模块将声音采集模块发送来的声音信号作处理，提取一组代表声音信号特点的特征值，输出给神经网络分类模块；

S30，神经网络分类模块在收到声音特征提取模块提取的一组特征值之后，通过训练好的神经网络对该组特征值进行分类，然后将分类结果输出给综合决策模块；

S40，综合决策模块在收到神经网络分类模块的分类结果之后，综合分析给出当前场景的判定，并将判定结果输出给语音处理选择模块；

S50，语音处理选择模块根据综合决策模块对当前场景的判定结果，选择最优的语音处理程序及其参数配置。

本发明的***实施例参见图2，包括依次连接的声音采集模块10、声音特征提取模块20、神经网络分类模块30、综合决策模块40、语音处理选择模块50，其中，

声音采集模块10，用于采用麦克风实时采集环境声，然后将采集到的一段离散声音信号输出给声音特征提取模块20；

声音特征提取模块20，用于将声音采集模块发送来的声音信号作处理，提取一组代表声音信号特点的特征值，输出给神经网络分类模块30；

神经网络分类模块30，用于在收到声音特征提取模块提取的一组特征值之后，通过训练好的神经网络对该组特征值进行分类，然后将分类结果输出给综合决策模块40；

综合决策模块40，用于在收到神经网络分类模块的分类结果之后，综合分析给出当前场景的判定，并将判定结果输出给语音处理选择模块50；

语音处理选择模块50，用于根据综合决策模块对当前场景的判定结果，选择最优的语音处理程序及其参数配置。

具体实施例中，S10中麦克风实时采集环境声使用全向麦克风或者麦克风阵列，声音采集模块10的采样率为16K。

S20中提取一组代表声音信号特点的特征值提取的特征值在8个，8个特征值从60个特征值中筛选而来。在提取特征值之前做归一化处理，公式如下：

其中，x_norm为归一化结果，X_max为该特征值所在训练样本最大值，X_min为该特征值所在训练样本最小值。

S30中神经网络分类模块采用包含两个隐含层、每层15个神经元的深度神经网络或者延迟神经网络。神经网络模块是通过大量数据样本训练得到的，以判别4类环境声(纯语音、带噪语音、噪音、音乐和安静)为例，其神经网络模型参见图3。特征值选取1、2、3、4、5和6，一共六种组成一组。训练样本是从大量收集的音频文件中提取出来，一共包含了144000组样本特征值，每类环境声包含36000组特征值。为了找到运算量与正确率的平衡点，参见图4，我们尝试了1隐含层和2隐含层，每层不同神经元数目。从图中可以看出，两隐含层的神经网络的正确率明显高于单隐含层的神经网络，最佳神经元数目为15。

S40中神经网络判定公式如下：

其中，X_input为输入特征值矩阵，W¹、W²、W³为训练好的神经网络每层权值矩阵，B¹、B²、B³为训练好的神经网络每层偏置矩阵，activeFcn为激活函数，Y_out为网络计算结果。

为了减少运算量，我们将隐含层的激活函数activeFcn_H和输出层的激活函数activeFcn_O分别定义为：

其中，x为激活函数的输入，i为环境声类别。

综合决策模块在收到神经网络分类模块的分类结果之后，综合分析一系列因素，主要包括一小段时间内神经网络的识别结果和声音能量大小，给出当前场景的判定，并将判定结果输出给语音处理选择模块。

特征值筛选采用综合分析特征值的统计值和高斯混合模型、平均影响值算法、序列前向选择算法、以及分类器训练结果评估的方法。

特征值的计算量和神经网络的计算量不超过人工耳蜗言语处理器运算能力的20％。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人工耳蜗的环境声感知方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述麦克风实时采集环境声使用全向麦克风或者麦克风阵列。

3.根据权利要求1所述的方法，其特征在于，所述声音采集模块的采样率为16K。

4.根据权利要求1所述的方法，其特征在于，所述提取一组代表声音信号特点的特征值提取的特征值在8个。

5.根据权利要求1所述的方法，其特征在于，所述神经网络分类模块采用包含两个隐含层、每层15个神经元的深度神经网络或者延迟神经网络。

6.根据权利要求4所述的方法，其特征在于，8个所述特征值从60个特征值中筛选而来。

7.根据权利要求6所述的方法，其特征在于，所述特征值筛选采用综合分析特征值的统计值和高斯混合模型、平均影响值算法、序列前向选择算法、以及分类器训练结果评估的方法。

8.根据权利要求1所述的方法，其特征在于，所述特征值的计算量和神经网络的计算量不超过人工耳蜗言语处理器运算能力的20％。

9.采用权利要求1-8之一所述方法的***，其特征在于，包括依次连接的声音采集模块、声音特征提取模块、神经网络分类模块、综合决策模块、语音处理选择模块，其中，