WO2020087716A1

WO2020087716A1 - 人工耳蜗听觉场景识别方法

Info

Publication number: WO2020087716A1
Application number: PCT/CN2018/123296
Authority: WO
Inventors: 樊伟; 刘新东; 刘根芳; 魏清
Original assignee: 上海力声特医学科技有限公司
Priority date: 2018-10-30
Filing date: 2018-12-25
Publication date: 2020-05-07
Also published as: CN109448702A

Abstract

一种人工耳蜗听觉场景识别方法，其包括如下步骤：(A)预处理程序模块将声音信号进行分帧与加窗处理；(B)特征提取程序模块将预处理后的声音信号进行特征提取；(C)场景识别程序模块将特征提取后的声音信号进行CNN运算，得出各预设场景的概率值，将概率值最大的场景判定为最终场景并输出。该通过CNN处理，能识别不同的听觉场景，为语音处理器后续语音增强及言语策略等信号处理模块提供指示，使语音处理器的信号处理与听觉场景更加匹配，输出与实际听觉场景更加相符的刺激信号，提高患者在噪声环境下的语音信号的清晰度、可懂度，同时还可提高音乐场景下的聆听效果，进一步改善人工耳蜗植入患者的生活质量。

Description

人工耳蜗听觉场景识别方法

技术领域

本发明涉及一种听觉场景识别方法，尤其涉及一种人工耳蜗听觉场景识别方法。

背景技术

人工耳蜗是目前世界公认的能使双侧重度或极重度感音神经性耳聋患者恢复听觉的唯一有效方法及装置。现有的人工耳蜗运作流程为：声音先由麦克风采集转换为电信号，经过特殊的数字化处理，再按照一定的策略编码，通过载在耳后的发射线圈传送到体内，植入体的接收线圈感应到信号后，经过解码芯片解码，使植入体的刺激电极产生电流，从而刺激听神经产生听觉。由于使用环境的限制，声音中必然掺杂着环境杂音，需要对声音信号进行一定的算法优化，但鉴于使用环境的多样化，如果只使用单一算法优化，则算法优化后的信号有时会与实际情况有所偏差，无法达到最佳的听觉效果，故需要一种听觉场景的识别方法，使得不同场景使用不同的优化算法，已达到最佳的听觉效果。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种人工耳蜗听觉场景识别方法，其能识别不同的听觉场景。

为实现上述目的，本发明提供了一种人工耳蜗听觉场景识别方法，其包括如下步骤：(A)预处理程序模块将声音信号进行分帧与加窗处理；(B)特征提取程序模块将预处理后的声音信号进行特征提取；(C)场景识别程序模块将特征提取后的声音信号进行CNN运算，得出各预设场景的概率值，将概率值最大的场景判定为最终场景。

在步骤A中，该加窗处理使用Hamming窗或Hanning窗。

进一步，Hamming窗：

其中，窗长N＝256，帧移取128。

在步骤B中，该特征向量提取采用MFCC、FBank或语谱图。

进一步，Fbank的特征提取方法：对预处理输出的每一帧声音信号进行FFT变换:X[i,k]＝FFT[x _i(m)]；对每一帧FFT后的数据计算谱线能量：E[i,k]＝[x _i(k)] ²；计算Mel滤波器能量：

其中，H _m(k)为Mel滤波器的频率响应，m为Mel滤波器个数，这里取40；取对数运算：Fbank＝log[S(i,m)]。

在步骤C中，该CNN包括输入层，中间层及输出层，其中，该输入层为声音信号特征构成的二维数据矩阵，该中间层包括卷积输出层，池化输出层以及全连接输出层，该全连接输出层由一个一维数据组成，该池化输出层比该卷积输出层少一个。

进一步，池化处理采用Maxpooling或Meanpooling。

再进一步，激活函数使用ReLU、sigmoid、tanh或Logistic，其中，ReLU公式：

本发明人工耳蜗听觉场景识别方法通过CNN处理，能识别不同的听觉场景，为语音处理器后续语音增强及言语策略等信号处理模块提供指示，使语音处理器的信号处理与听觉场景更加匹配，输出与实际听觉场景更加相符的刺激信号，提高患者在噪声环境下的语音信号的清晰度、可懂度，同时还可提高音乐场景下的聆听效果，进一步改善人工耳蜗植入患者的生活质量。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明人工耳蜗听觉场景识别方法的流程示意图。

图2是本发明CNN处理声音信号的流程示意图。

图3是本发明CNN处理声音信号一具体实施例的流程图。

具体实施方式

本发明提供了一种人工耳蜗听觉场景识别方法，用于识别不同的听觉场景，比如教室、街道、音乐厅、商场、火车站、菜市场等。

如图1所示，该人工耳蜗听觉场景识别方法包括预处理，特征提取，场景识别三个步骤。

预处理：预处理程序模块将声音信号进行分帧与加窗处理，其中，预处理的目的是使用窗函数平滑地在对采样后的声音信号以帧为单位进行切分，不同的帧长及窗函数都会影响***输出的结果，加窗的目的是减少信号频域中的泄露，降低旁瓣幅度。

以***采样频率为16kHz为例。

该加窗处理使用Hamming窗，窗长N＝256，帧移取窗长一半，即128。

Hamming窗：

该加窗处理也可以使用Hanning窗等其他窗函数，帧长和帧移也可以根据***需要进行变化设置。

特征提取：特征提取程序模块将预处理后的声音信号进行特征提取，其中，该特征提取采用MFCC(Mel-Frequency Cepstrum Coefficient,梅尔频率倒谱系数)、FBank(Mel-scale Filter Bank，梅尔标度滤波器组)或语谱图。

采用Fbank的特征提取方法如下：

对预处理输出的每一帧声音信号进行FFT变换:X[i,k]＝FFT[x _i(m)]；

对每一帧FFT后的数据计算谱线能量：E[i,k]＝[x _i(k)] ²；

计算Mel滤波器能量：

其中，H _m(k)为Mel滤波器的频率响应，m为Mel滤波器个数，这里取40；

取对数运算：Fbank＝log[S(i,m)]。

场景识别：场景识别程序模块将特征提取后的声音信号进行CNN(Convolution Neural Network，卷积神经网络)运算，得出各预设场景的概率值，将概率值最大的场景判定为最终场景，从而为语音处理器后续语音增强及言语策略等信号处理模块提供指示，使语音处理器的信号处理与听觉场景更加匹配。

如图2所示，该CNN包括输入层，中间层及输出层，其中，该输入层为声音信号特征构成的二维数据矩阵，该中间层包括卷积输出层，池化输出层以及全连接输出层，该卷积池输出层其卷积作用，该池化输出层其池化作用，该全连接输出层也起池化作用且由一个一维数据组成，其目的是降维，卷积及池化是成对出现的，即，该池化输出层比该卷积输出层少一个。该CNN处理声音信号的流程为：声音信号由该输入层进入第一个卷积输出层，经卷积处理后输出特征组C_1；该特征组C_1进入第一个池化输出层，经池化处理后输出特征组S_1；该特征组S_1进入第二个卷积输出层进行卷积处理后输出特征组C_2，然后进入第二个池化输出层输出进行池化处理后输出特征组S_2，以此类推，最后由第N个卷积输出层输出最终特征组，该最终特征组由该全连接输出层进行最后池化处理，以得出各预设场景分类结果，即各预设场景的概率值，最后由该输出层将最大概率的预设场景判定为最终场景，其中，N大于等于2。

如图3所示，举一CNN框架参数配置属性进行说明，见下表。

池化处理采用Maxpooling或Meanpooling。

激活函数使用ReLU(Rectified Linear Units)，公式如下：

该激活函数也可以采用sigmoid、tanh或Logistic。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

一种人工耳蜗听觉场景识别方法，其包括如下步骤：(A)预处理程序模块将声音信号进行分帧与加窗处理；(B)特征提取程序模块将预处理后的声音信号进行特征提取；(C)场景识别程序模块将特征提取后的声音信号进行CNN运算，得出各预设场景的概率值，将概率值最大的场景判定为最终场景。
如权利要求1所述的人工耳蜗听觉场景识别方法，其特征在于：在步骤A中，该加窗处理使用Hamming窗或Hanning窗。
如权利要求2所述的人工耳蜗听觉场景识别方法，其特征在于：Hamming窗：
其中，窗长N＝256，帧移取128。
如权利要求1所述的人工耳蜗听觉场景识别方法，其特征在于：在步骤B中，该特征向量提取采用MFCC、FBank或语谱图。
如权利要求4所述的人工耳蜗听觉场景识别方法，其特征在于：Fbank的特征提取流程：对预处理输出的每一帧声音信号进行FFT变换:X[i,k]＝FFT[x _i(m)]；对每一帧FFT后的数据计算谱线能量：E[i,k]＝[x _i(k)] ²；计算Mel滤波器能量：
其中，H _m(k)为Mel滤波器的频率响应，m为Mel滤波器个数，这里取40；取对数运算：Fbank＝log[S(i,m)]。
如权利要求1所述的人工耳蜗听觉场景识别方法，其特征在于：在步骤C中，该CNN包括输入层，中间层及输出层，其中，该输入层为声音信号特征构成的二维数据矩阵，该中间层包括卷积输出层，池化输出层以及全连接输出层，该全连接输出层由一个一维数据组成，该池化输出层比该卷积输出层少一个。
如权利要求6所述的人工耳蜗听觉场景识别方法，其特征在于：池化处理采用Maxpooling或Meanpooling。
如权利要求7所述的人工耳蜗听觉场景识别方法，其特征在于：激活函数使用ReLU、sigmoid、tanh或Logistic，其中，ReLU公式：