CN112534500A

CN112534500A - 用于听力植入物的神经网络音频场景分类器

Info

Publication number: CN112534500A
Application number: CN201980049500.5A
Authority: CN
Inventors: 赖纳·梅尔廷; 塞米赫·阿贾尔; 弗洛里安·弗吕奥夫; 恩斯特·埃施巴赫尔; 埃哈德·兰克
Original assignee: MED EL Elektromedizinische Geraete GmbH
Current assignee: MED EL Elektromedizinische Geraete GmbH
Priority date: 2018-07-26
Filing date: 2019-07-24
Publication date: 2021-03-19
Also published as: AU2019312209A1; US20230226352A1; EP3827428A4; WO2020023585A1; US20210174824A1; AU2019312209B2; EP3827428A1

Abstract

音频场景分类器对来自音频场景的音频输入信号进行分类，并且包括：预处理神经网络，其被配置成用于基于初始分类参数预处理音频输入信号以产生初始信号分类；以及场景分类器神经网络，其被配置成用于基于场景分类参数处理初始场景分类以产生音频场景分类输出。初始分类参数反映基于第一初始音频训练数据集的神经网络训练，并且场景分类参数反映基于第二分类音频训练数据集的神经网络训练，该第二分类音频训练数据集与第一初始音频训练数据集分离并且与其不同。听力植入物信号处理器被配置成用于处理音频输入信号和音频场景分类输出，以向听力植入物生成刺激信号，以便由患者感知为声音。

Description

用于听力植入物的神经网络音频场景分类器

相关申请的交叉引用

本申请要求来自于2018年7月26日提交的美国临时专利申请62/703,490的优先权，其全部内容通过引用结合于此。

技术领域

本发明涉及诸如耳蜗植入物的听力植入***，并且具体地说，涉及其中使用的与音频场景分类相关联的信号处理。

背景技术

正常耳朵如图1所示通过外耳101将声音传输到鼓膜102，该鼓膜移动中耳103的骨骼(锤骨、砧骨和镫骨)，这些骨骼使耳蜗104的卵圆窗和圆窗开口振动。耳蜗104是围绕其轴线螺旋缠绕大约两圈半的长窄导管。它包括被已知为前庭阶的上通道和被已知为鼓阶的下通道，该上通道和下通道由蜗管连接。耳蜗104形成直立的螺旋锥体，该螺旋锥体具有被称为蜗轴的中心，听神经113的螺旋神经节细胞驻留于该蜗轴中。响应于由中耳103传输的所接收的声音，填充流体的耳蜗104起到换能器的作用，以生成电脉冲，这些电脉冲被传输到耳蜗神经113，并且最终传输到大脑。

当沿耳蜗104的神经基质将外部声音转换成有意义的动作电势的能力方面存在问题时，听力受到损坏。为了改善受损的听力，已经开发了听觉假体。例如，当损伤与中耳103的操作有关时，可以使用常规的助听器以放大的声音的形式向听觉***提供机械刺激。或者当损伤与耳蜗104相关联时，具有植入的刺激电极的耳蜗植入物可以用由沿着电极分布的多个电极触点递送的小电流电刺激听觉神经组织。

图1还示出了典型耳蜗植入物***的一些部件，包括向外部信号处理器111提供音频信号输入的外部麦克风，在该外部信号处理器中可以实施各种信号处理方案。经处理的信号然后被转换成数字数据格式(诸如数据帧序列)以便传输到植入物108中。除了接收经处理的音频信息之外，植入物108还执行附加的信号处理，诸如纠错、脉冲形成等，并且产生刺激模式(基于所提取的音频信息)，该刺激模式通过电极引线109发送到所植入的电极阵列110。

通常，该电极阵列110包括在其表面上的多个电极触点112，这些刺激触点提供耳蜗104的选择性刺激。根据上下文，电极触点112也被称为电极通道。在当今的耳蜗植入物中，相对较少数量的电极通道各自与相对较宽的频带相关联，其中每个电极触点112利用具有根据该频带内的信号包络的瞬时幅值导出的电荷的电刺激脉冲寻址一组神经元。

在本领域中众所周知的是，耳蜗内的不同位置处的电刺激产生不同频率感知。正常听觉倾听中的潜在机制被称为音质分布原理。在耳蜗植入体使用者中，耳蜗的音质分布组织得到了广泛研究；例如参见Vermeire等人的Neural tonotopy in cochlearimplants:An evaluation in unilateral cochlear implant patients withunilateral deafness and tinnitus,Hear Res,245(1-2),2008Sep 12p.98-106；以及Electric-acoustic pitch comparisons in single-sided-deaf cochlear implantusers:Frequency-place functions and rate pitch,Hear Res,309,2014Mar,p.26-35(两者均通过引用整体结合于此)。

在一些激励信号编码策略中，跨越所有电极通道以恒定速率施加激励脉冲，而在其他编码策略中，以通道特定的速率施加激励脉冲。可以实施各种特定的信号处理方案来产生电激励信号。在耳蜗植入物领域中公知的信号处理方法包括连续交错采样(continuous interleaved sampling，CIS)、通道特定采样序列(CSSS)(如美国专利6,348,070中所述，其通过引用结合于此)、谱峰(spectral peak,SPEAK)、以及压缩模拟(compressed analog,CA)处理。

在CIS策略中，信号处理器仅使用带通信号包络进行进一步处理，即它们包含整个刺激信息。对于每个电极通道，信号包络被表示为恒定重复速率下的双相脉冲序列。CIS的特性特征是对于所有电极通道而言激励速率相等，并且与各个通道的中心频率没有关系。预期的是，脉冲重复速率不是针对患者的时间提示(即，它应该足够高，使得患者不能感知其频率等于脉冲重复速率的音调)。脉冲重复速率通常以大于包络信号的带宽的两倍进行选择(基于奈奎斯特定理)。

在CIS***中，以严格不重叠的序列施加激励脉冲。因此，作为典型的CIS特征，一次只有一个电极通道式激活的，并且整体激励速率相当高。例如，假定18kpps的整体激励速率以及12个滤波器的通道滤波器组，那么每个通道的激励速率为1.5kpps。每个通道的这种激励速率通常足以用于包络信号的充分时间表示。最大整体激励速率受每个脉冲的最小相位持续时间限制。相位持续时间不能任意短，因为脉冲越短，诱发神经元中的动作电位的电流幅值就必须越高，并且由于各种实际原因，电流幅值受到限制。对于18kpps的整体激励速率，相位持续时间为27μs，其接近下限。

由Med-El进行的精细结构处理(Fine Structure Processing，FSP)策略在较高频率通道中使用CIS，并使用较低频率、更多顶端电极通道中的带通信号中存在的精细结构信息。在FSP电极通道中，跟踪带通滤波时间信号的过零，并在每个负到正过零处开始通道特定采样序列(CSSS)。通常，CSSS序列施加到多达最顶端的电极通道中的3个上，从而覆盖高达200或330Hz的频率范围。在Hochmair I,Nopp P,Jolly C,Schmidt M,H,Garnham C,Anderson I,MED-EL Cochlear Implants:State of the Art and a Glimpse into theFuture,Trends in Amplification,vol.10,201-219,2006(其通过引用结合于此)中进一步描述了FSP装置。FS4编码策略与FSP的不同之处在于多达4个顶端通道可以使用其精细结构信息。在FS4-p中，可以在4个FSP电极通道中的任何2个上并行递送激励脉冲序列。利用FSP和FS4编码策略，精细结构信息是给定电极通道的瞬时频率信息，这可以为用户提供改进的听觉感受、更好的语音理解和提高的感知音频质量。例如参见美国专利7,561,709、Lorens等人的"Fine structure processing improves speech perception as well asobjective and subjective benefits in pediatric MED-EL COMBI 40+users."International journal of pediatric otorhinolaryngology 74.12(2010):1372-1378、以及Vermeire等人的"Better speech recognition in noise with the fine structureprocessing coding strategy."ORL 72.6(2010):305-311，以上全部通过引用全部结合于此。

很多耳蜗植入体编码策略使用所谓的n-of-m方法，其中在给定的采样时间帧中仅激励具有最大幅值的某些数量的n个电极通道。如果对于给定的时间帧，特定电极通道的幅值保持高于其他通道的幅值，那么对于整个时间帧选择该通道。随后，将可用于编码信息的电极通道的数量减1，这导致激励脉冲的聚类。因此，更少的电极通道可用于编码声音信号的重要时间和频谱特性，诸如语音起始。

除了上面讨论的具体处理和编码方法之外，不同的特定脉冲激励模式也可以用特定电极递送激励脉冲——即单极、双极、三极、多极、以及相控阵列激励。并且还有不同的激励脉冲形状——即双相脉冲形状、对称三相脉冲形状、不对称三相脉冲形状、或不对称脉冲形状。这些不同的脉冲激励模式和脉冲形状分别提供不同的益处；例如，更高的音质分布选择性、更小的电子阈值、更高的电动态范围、更少不需要的副作用(诸如面部神经激励)等等。

精细结构编码策略(诸如FSP和FS4)使用带通信号的过零来开始用于递送到相对应的电极触点的通道特定的采样序列(CSSS)脉冲序列。在没有其他频谱分量的情况下，过零相当鲁棒性地反映主导瞬时频率。但是在出现更高次谐波和噪音的情况下，问题可能出现。例如参见WO 2010/085477以及Gerhard,David,Pitch extraction and fundamentalfrequency:History and current techniques,Regina:Department of ComputerScience,University of Regina,2003，两者通过引用全部结合于此。

图2示出包括通过评估信号过零所反映的通道1和3的估计的瞬时频率的干净语音的样本的频谱图的示例，如竖直虚线所示。水平黑色虚线示出通道频率边界——通道1、2、3和4范围分别在100、198、325、491和710Hz之间。在图2中可见的是，在给定频率通道中单个主谐波的时段期间，瞬时频率的估计是平滑和鲁棒的；例如，在通道1中为从1.6秒到1.9秒，或者在通道3中为从3.4到3.5秒。当给定通道中存在附加频率谐波时，或者当通道信号强度较低时，瞬时频率估计变得不准确，并且特别地，估计的瞬时频率甚至可能离开通道的频率范围。

图3示出了典型听力植入物的信号处理布置中的各种功能块。初始输入声音信号由一个或多个感测麦克风产生，这些麦克风可以是全向的和/或定向的。预处理器滤波器组301用一组多个并行带通滤波器(这些滤波器中的每一个与音频的特定频带相关联)(例如，无限冲激响应(Infinite Impulse Response，IIR)滤波器或有限冲激响应(FiniteImpulse Response，FIR)滤波器)例如使用具有12个6阶无限冲激响应(IIR)型数字Butterworth带通滤波器的滤波器组预处理这个输入声音信号，使得声学音频信号被滤波成一些K个带通信号U₁到U_K，其中每个信号对应于带通滤波器中的一个的频带。用于有声语音输入信号的足够窄的CIS带通滤波器的每个输出可以粗略地被视为由包络信号调制的带通滤波器的中心频率下的正弦波。这也是由于滤波器的品质因数(Q≈3)引起的。在有声语音段的情况下，这个包络是近似周期性的，并且重复率等于音调频率。替代性地且非限制性地，预处理器滤波器组301可以基于快速傅立叶变换(fast Fourier transform，FFT)或短时傅立叶变换(short-time Fourier transform，STFT)的使用来实施。基于耳蜗的音质组织，鼓阶中的每个电极触点通常与预处理器滤波器组301的特定带通滤波器相关联。预处理器滤波器组301还可以执行其他初始信号处理功能，诸如但不限于自动增益控制(automatic gain control，AGC)和/或噪声降低和/或风噪声降低和/或波束形成以及其他众所周知的信号增强功能。

图4示出了来自感测麦克风的输入语音信号的短时间段的示例，以及图5示出了通过由滤波器组进行的带通滤波分解的麦克风信号。Fontaine等人给出了基于直接型II转置结构的无限冲激响应滤波器组的伪代码示例：Brian Hears:Online Auditory ProcessingUsing Vectorization Over Channels,Frontiers in Neuroinformatics,2011；其全部内容通过引用结合于此。

带通信号U₁到U_K(其也可以认为是电极通道))被输出到包络检测器302和精细结构检测器303。包络检测器302提取表示信道特定的带通包络的特征包络信号输出Y₁，...，Y_K。包络提取可以由Y_k＝LP(|U_k|)表示，其中|.|表示绝对值和LP(.)是低通滤波器；例如，使用12个整流器和12个二阶IIR型数字Butterworth低通滤波器。替代性地，如果带通信号X₁，...，X_K是由正交滤波器生成的，则包络检测器302可以提取Hilbert包络。

精细结构检测器303起作用来获得信号通道中瞬时频率的平滑和稳健估计，从而处理带通信号X₁，...，X_K的选所选择的时间精细结构特征以升刺激定时信号X₁，...，X_K。在下面的讨论中，带通信号U₁、……、U_k可以被假设为实值信号，因此在解析正交滤波器组的特定情况下，精细结构检测器303仅考虑U_k的实值部分。精细结构检测器303由K个独立的、同等结构的并行子模块构成。

从包络检测器302提取的带通信号包络X₁，...，X_K和来自精细结构检测器303的刺激定时信号X₁，...，X_K是脉冲发生器304的输入信号，该脉冲发生器为植入的电极阵列305中的电极触点产生电极刺激信号Z。脉冲发生器304应用适于植入体的拟合期间的单独耳蜗植入物用户的需要以便实现自然响度增长的患者特定的映射函数——例如，使用包络信号的瞬时非线性压缩(映射定律)。脉冲发生器304可以应用具有形状因子C的对数函数作为响度映射函数，其通常在所有带通分析通道上是相同的。在不同的***中，可以使用除对数函数之外的不同的特定响度映射函数，其中仅将一个相同的函数应用于所有通道或每个通道一个单独的函数来产生电极刺激信号。电极刺激信号通常是对称的双相电流脉冲集。

发明内容

本发明的实施例涉及一种为植入患者体内的听力植入物生成刺激信号的信号处理***和方法。音频场景分类器被配置成用于对来自音频场景的音频输入信号进行分类，并且包括：预处理神经网络，其被配置成用于基于初始分类参数预处理音频输入信号以产生初始信号分类；以及场景分类器神经网络，其被配置成用于基于场景分类参数处理初始场景分类以产生音频场景分类输出。初始分类参数反映基于第一初始音频训练数据集的神经网络训练，并且场景分类参数反映基于第二分类音频训练数据集的神经网络训练，该第二分类音频训练数据集与第一初始音频训练数据集分离并且与其不同。听力植入物信号处理器被配置成用于处理音频输入信号和音频场景分类输出，以向听力植入物生成刺激信号，以便由患者感知为声音。

在另外的具体实施例中，预处理神经网络包括连续的递归卷积层，这些连续的递归卷积层可以被实施为递归滤波器组。预处理神经网络可以包括包络处理块，该包络处理块被配置成用于计算音频输入信号的子带信号包络。预处理神经网络还可以包括被配置成用于预处理神经网络内的信号抽取的池化层。初始信号分类可以是多维特征向量。场景分类器神经网络可以是全连接神经网络层或线性判别分析(linear discriminantanalysis，LDA)分类器。

附图说明

图1示出了典型人耳的解剖结构和耳蜗植入物***中的部件。

图2示出了语音样本的示例声谱图。

图3示出了典型耳蜗植入物***的主要信号处理模块。

图4示出了来自感测麦克风的输入语音信号的短时间段的示例。

图5示出了通过由滤波器组进行的带通滤波分解的麦克风信号。

图6示出了根据本发明的实施例的信号处理***中的主要功能块。

图7示出了根据本发明的实施例的初始训练预处理神经网络中的处理步骤。

图8示出了根据本发明的实施例的迭代地训练分类器神经网络中的处理步骤。

图9示出了根据本发明的一个具体实施例的预处理神经网络的功能细节。

图10示出了根据本发明的实施例的可以如何构造滤波器组滤波器带宽的示例。

具体实施方式

神经网络训练是复杂而要求高的过程，其需要大量的训练数据来优化网络的参数。训练的有效性在很大程度上还取决于使用的训练数据。训练后可能会出现许多不期望的副作用，甚至可能发生神经网络甚至无法执行预期任务。当试图对用于听力植入物的音频场景进行分类时，这个问题尤其明显，其中对于每个分类的场景存在几乎无限数量的变化，并且在不同的场景之间出现无缝过渡。

本发明的实施例涉及一种用于听力植入物的音频场景分类器，该音频场景分类器使用被优化用于进行少量参数的迭代训练的多层神经网络，这些参数可以利用合理的工作量和大小确定的训练集进行训练。这是通过将神经网络分成其输出然后被输入到分类神经网络的初始预处理神经网络来实现的。这允许分离地训练各个神经网络，并且从而允许使用更小的训练集和进行更快的训练，该训练在如下所述的两步过程中实行。

图6示出了根据本发明实施例的信号处理***中的、用于为植入在患者体内的听力植入物生成刺激信号的主要功能块。音频场景分类器601被配置成用于对来自音频场景的音频输入信号进行分类，并且包括：预处理神经网络603，其被配置成用于基于初始分类参数预处理音频输入信号以产生初始信号分类；以及场景分类器神经网络604，其被配置成用于基于场景分类参数处理初始场景分类以产生音频场景分类输出。初始分类参数反映基于第一初始音频训练数据集的神经网络训练，并且场景分类参数反映基于第二分类音频训练数据集的神经网络训练，该第二分类音频训练数据集与第一初始音频训练数据集分离并且与其不同。听力植入物体信号处理器602被配置成用于处理音频输入信号和音频场景分类器601的输出，以向脉冲发生器304生成刺激信号，从而提供给听力植入物体305，以便由患者感知为声音。

图7示出了初始训练预处理神经网络603中的处理步骤，其在通过以下方式开始：利用在预期的参数范围内(例如在参数范围的中间)的预先计算的参数初始化预处理神经网络603(步骤701)。选择音频训练数据的第一训练集(训练集1)(步骤702)，并且将其输入用于训练预处理神经网络603(步骤703)。然后，来自预处理神经网络603的输出被用作分类器神经网络604的输入，以便使用各种已知的优化方法对其进行优化(步骤704)。

然后，图8示出了迭代训练分类器神经网络604中的各种后续处理步骤，其以如上面参考图7所讨论的、来自预处理神经网络的初始训练的经优化的参数开始(步骤801)。选择不同于第一训练集的音频训练数据的第二训练集(训练集2)(步骤802)，并将其输入到预处理神经网络603。来自预处理神经网络603的输出被进一步输入到分类神经网络604中并被其进行处理(步骤804)。然后，通过将来自分类神经网络604的输出与第二训练集数据应该属于的音频场景进行比较，来计算误差向量(步骤805)。然后，将误差向量用于优化预处理神经网络603(步骤806)。预处理神经网络603的新参数化然后导致两步迭代训练过程，当满足所选择的停止标准时两步迭代训练过程结束。

图9示出了根据本发明的一个具体实施例的具有几个线性和非线性处理块的预处理神经网络的功能细节。在所示的具体示例中，有两个连续的递归卷积层、池化层、非线性函数和平均化层。递归卷积层可以被实施为递归滤波器组。不失一般性，假设输入信号是具有长度N的音频信号x(k)，其首先被高通滤波(HPF块)，并且然后被馈送到充当带通滤波器的N_TF个并行处理块。这导致输出具有不同频谱内容的N_TF个子带信号x_T，i(k)。带通滤波的子带信号可以由以下等式表示：

其中b_i，n是前馈系数，以及a_i，n是第i个滤波器块的反馈系数。滤波器顺序为P＝max(P₁，P₂)。

然后通过整流和低通滤波计算子带信号包络。注意，也可以使用用于确定包络的任何其他方法。低通滤波器可以是，例如，在阻带中具有30dB的衰减的五阶递归ChebyshevII滤波器。截止频率f_T，s可以由下一滤波器组的最高带通滤波器上边缘频率加上附加偏移来确定。池化层(抽取模块)之前的低通滤波器有助于避免混叠效应。池化层的输出是二次采样的子带包络信号x_R，i(n)，其然后通过非线性功能块进行处理。这个非线性函数可以包括例如范围限制、归一化和另外的非线性函数(诸如对数或指数)。该级的输出Y_TF是

的矩阵N_TF×N_R，其中R是抽取因子，以及

是向下取整运算。

输出信号y_R，i＝[y_R，i(1)y_R，i(2)...y_R，i(N_R)]被布置成矩阵

其中每行对应于特定的频带。这个层的输出Y_TF(每一行对应特定的频带)首先被逐行馈送到N_M个递归卷积层，递归卷积层可以表示调制滤波器组。调制滤波器可以针对每个频带单独参数化，从而产生总的滤波器数N_M×N_TF。每个频率的并行带通滤波器的排序类似于并行带通。这些滤波器组

的、i∈{1，...N_TF，×N_M}的经滤波的信号

的绝对值被平均化，并且最终结果是具有维数N_TF×N_M的特征向量Y_MF。这个特征向量是预处理神经网络的输出和分类神经网络的输入。

分类神经网络可以是例如全连接神经网络层、线性判别分析(LDA)分类器或更复杂的分类层。这个层的输出是预定义的类标签C_i或/和它们的概率P_i。

如上所解释那样，多层神经网络布置被迭代地进行优化。首先，选择预处理神经网络的初始设置，并计算训练集1的特征向量Y_MF。对于这个特征向量，分类神经网络可以通过标准方法(诸如反向传播或LDA)来训练。然后，对于训练集2，计算相对应的类别标签或/和概率，并将其用于计算输入到预处理神经网络的训练方法的误差向量。这为预处理神经网络产生了新的设置。利用这个新的设置，下一迭代的训练程序开始。

预处理神经网络的训练在最小化误差函数的意义上优化了它，从而最小化了估计的类别标签和地面真值类别标签之间的不匹配。代替通过反向传播过程(这是用于训练神经网络的现有技术算法)明确地训练预处理神经网络的权重，元参数被优化，例如利用一般算法或基于模型的优化方法。这显著减少了可调权重的数量，并且由于较低的权重向量维数还减少了所需的训练数据的量。因此，神经网络具有更好的泛化能力，这对于它在以前看不到的条件下的性能很重要。

元参数可以是例如滤波器带宽，并且神经网络权重可以是相对应的滤波器的系数。在这个示例中，可以应用任何滤波器设计规则来计算滤波器系数。然而，也可以使用用于将元参数映射到网络权重的其他规则。这种映射可以通过优化过程自动学习和/或可以是自适应的使得网络权重在优化期间和/或在经训练的网络的操作期间被更新。对于给定的分类问题的滤波器的最佳带宽可以通过已知的优化算法来找到。在运行优化过程之前，选择滤波器设计规则来将元参数映射到滤波器系数。例如，对于第一滤波器组可以选择Butterworth滤波器，以及对于第二滤波器组可以选择Chebychev 2滤波器，反之亦然。

图10示出了根据本发明的实施例的可以如何构造滤波器组滤波器带宽的示例。滤波器组中的第一滤波器是低通滤波器，其中边缘频率是连续带通滤波器的较低边缘频率，依此类推。从元参数到网络权重的这种映射规则确保网络使用输入信号中全部可用的信息。经由元参数和滤波器设计规则的网络结构的规范降低了优化复杂性。每个滤波器的上边缘频率和下边缘频率也可以独立训练，并且其他设计规则是可能的。利用这种方法，预处理神经网络的初始化可以通过根据

选择全部边界频率来完成，其中fs是相对应的输入信号的采样频率。网络权重可以通过使用定义的映射规则来实现。

如上所提及那样，有独立N_TF·(N_M+1)-1个可调参数。由于高维数，使用穷举搜索来寻找最优参数可能是不可行的。梯度下降算法也可能不适合，因为多峰成本函数(分类误差)是不可微的。因此，可以使用协方差矩阵自适应进化策略(Covariance MatrixAdaptation Evolution Strategy，CMA-ES)以便为特征提取步骤找到理想的参数集(例如，参见，N.Hansen,“The CMA evolution strategy:A comparing review,”in Towards anew evolutionary computation.Advances in estimation of distributionalgorithms.Springer,2006,pp.75–102，其全部内容通过引用结合于此)。ES是进化算法(evolutionary algorithm，EA)的子类，并且共享模仿自然进化(例如通过变异和选择)的思想，并且它不需要计算任何导数(H.Beyer,Theory of Evolution Strategies,Springer,2001edition，其全部内容通过引用结合于此)。最佳参数集可以通过在每个步骤之后评估适应度函数来迭代地近似，其中适应度函数或成本函数可以是LDA分类器的分类误差(误分类对象的数量与全部对象的数量之比)作为独立可调参数的函数。

CMA-ES的基本方程是新搜索点的采样方程(Hansen 2006)：

其中g是当前代(迭代)的指数，

是来自代g+1的第k个后代，λ是后代的数量，m^(g)是代g下的搜索分布的平均值，

是代g的具有协方差矩阵C^(g)的多元正态分布，以及σ^(g)是代g的步长大小。从λ个采样的新的解候选中，选择μ个最佳点(根据最小成本函数)，并根据以下等式通过加权平均确定代g+1的新的均值：

在CMA-ES的每次迭代中，协方差矩阵C和步长大小σ根据经采样的后代的成功进行调整。多元正态分布的形状是在旧的均值m^(g)朝向新的均值m^(g+1)的方向上形成的。重复采样、选择和重组步骤，直到达到成本函数上的预定义阈值或最大代数，或者当前功能评估的范围在阈值(达到局部最小值)之下。参数的所允许的搜索空间可以被限制于由Colutto等人在S.Colutto,F.Frühauf,M.Fuchs,and O.Scherzer,“The CMA-ES on Riemannianmanifolds to reconstruct shapes in 3-D voxel images,”IEEE Transactions onEvolutionary Computation,vol.14,no.2,pp.227–245,April 2010中描述的区间，其全部内容通过引用结合于此。对于CMA-ES的更详细的描述，特别是关于协方差矩阵C和步长大小σ如何在每个步骤中进行调整，以及Matlab实施方式，请参考Hansen2006。也可以使用其他通用算法，诸如粒子群优化。

优化用于导出网络的权重的滤波器组参数以减少分类误差由于其高维数和多模态误差函数而是具有挑战性的任务。暴力算法和梯度下降对这个任务可能不可行。一个有用的方法可以基于以模型为基础的优化(Model-Based Optimization，MBO)(参见Alexander Forrester,Andras Sobester,and Andy Keane.Engineering Design viaSurrogate Modeling:A Practical Guide.Wiley,September 2008、以及Claus Weihs,Swetlana Herbrandt,Nadja Bauer,Klaus Friedrichs,and Daniel Horn.EfficientGlobal Optimization:Motivation,Variations,and Applications.In ARCHIVES OFDATA SCIENCE,2016，两者全部内容通过引用结合于此)。

MBO是用于优化黑盒目标函数的迭代方法。它用于目标函数的评估(例如，取决于不同滤波器组参数的分类误差)在可用资源(诸如计算时间)方面非常昂贵的情况。近似模型(即所谓的替代模型)是由这个昂贵的目标函数构建以便为给定的问题找到最佳参数。替代模型的评估比原始目标函数更便宜。MBO步骤可以被划分如下：

·设计采样计划，

·构建替代模型，

·探索和开发替代模型。

假设高维多模态参数空间，并且优化的目标是找到最小化成本函数的点。MBO的初始步骤是构建采样计划。这意味着确定n个点，然后由目标函数对其进行评估。这些n个点应该覆盖参数空间的整个区域，并且为此可以使用称为拉丁超立方体设计的空间填充设计。参数空间被分成n个大小相等的超立方体(箱(bins))，其中n∈{5k，6k，...，10k}是推荐的，并且k是参数的数量。然后将这些点放置在箱中，使得“从每个被占用的箱中，我们可以沿着平行于轴线中的任何一个的任何方向离开参数空间，而不会遇到任何其他被占用的箱”(Forrester 2008)。随机设置的点不能保证采样计划X(nxk矩阵)的空间填充特性，并且为了评估X的空间填充性，使用了Morris和Mitchell的最大最小度量：

“如果X在对于其这是真的计划当中最大化d₁、在对于其这是真的计划当中最小化J₁，在对于其这是真的计划当中最大化d₂，最小化J₂、……、最小化J_m，则我们将其称为所有可用计划当中的最大最小计划”。

其中d₁、d₂、d₃、……、d_m为采样计划X中所有可能的点对之间距离的以升序排序的唯一值列表，以及J_j是由距离d_j分离的、X中的点对的数量。

以上定义是指一个计划顺序地最大化d₁并且然后最小化J₁，最大化d₂并且然后最小化J₂，依此类推。或者换句话说，目标要尽可能具有带有最大距离的最小不同对。作为两点之间距离d的度量，使用p范数：

其中p＝1用作矩形范数。基于最大最小计划的上述定义，Morris和Mitchell建议根据以下标准比较采样计划：

Φ_q越小，X越好地满足空间填充性能(Forrester 2008)。对于最好的Latin超立方，Morris和Mitchell建议最小化Φ_q和100的Φ_q，并选择具有最小Φ_q的采样计划。

可以构建替代模型

使得其成为未知目标函数f(x)的合理近似(其中x是指向参数空间中点的k维向量)。可以构建不同类型的模型(诸如普通克里金模型)：

其中μ是恒定全局平均值，以及Z(x)是高斯过程。这个高斯过程的均值为0，并且其协方差为：

C_OV(Z(x)，Z(x))＝σ²ρ(x-x′，Ψ)

其中ρ为Matren 3/2内核函数以及Ψ为缩放参数。常数σ²是全局方差。Matren 3/2内核定义为：

所以这个模型的未知参数是μ、σ²和Ψ，它们是通过先前由目标函数评估的点y＝(y₁，...，y_n)^T使用n来估计。

似然函数是：

其中R(Ψ)＝(ρ(x_i-x_j，Ψ))_{i，j＝1，...，n}和det(R)是其决定因素。由此，可以确定未知参数的最大似然估计：

替代预测

和相对应的预测不确定性

(参见Weihs 2016)可以基于f的第一n个评估来确定。评估的替代函数遵循正态分布

在具有实际的最佳值

的情况下，那么点x和评估的替代物

的改进是

要评估的下一点是通过最大化预期改进来找到：

上述标准给出了探索(提高替代模型的全局精度)和开发(提高替代模型的最优的区域中的局部精度)之间的平衡。这确保了优化器不会陷入局部最优，并且仍收敛到最优。MBO每次迭代后，将更新替代模型。可以选择不同的收敛标准来确定何时停止评估用于更新替代模型的新点。一些标准可以是例如定义预设数量的迭代并在此之后停止，或者在预期的改善下降到预定阈值以下之后停止。

听力植入物可以是但不限于耳蜗植入物，其中多通道电极阵列的电极被定位成使得它们例如在耳蜗内被空间分割。耳蜗植入物可以是部分植入的，并且包括但不限于具有植入的刺激器和/或电极阵列的外部语音/信号处理器、麦克风和/或线圈。在其他实施例中，耳蜗植入物可以是完全植入的耳蜗植入物。在另外的实施例中，多通道电极可以与脑干植入物相关联，诸如听觉脑干植入物(auditory brainstem implant，ABI)。

本发明的实施例可以部分地以任何常规的计算机编程语言来实施。例如，优选实施例可以以过程编程语言(例如，“C”)或面向对象编程语言(例如，“C++”，Python)实施。本发明的替代性实施例可以被实施为预编程的硬件元件、其他相关组件或者硬件和软件部件的组合。

实施例可以部分实施为用于与计算机***一起使用的计算机程序产品。这种实施方式可以包括一系列计算机指令，这些指令或者固定在有形介质(诸如计算机可读介质(例如，磁盘、CD-ROM、ROM或固定盘))上，或者可通过调制解调器或其他接口设备(诸如通过介质连接到网络的通信适配器)传输到计算机***。该介质可以是有形介质(例如，光通信线路或模拟通信线路)或利用无线技术(例如，微波、红外或其他传输技术)实施的介质。该系列计算机指令实施了先前在此针对该***描述的全部或部分功能。本领域技术人员应该理解，这种计算机指令可以以多种编程语言编写，用于与许多计算机体系架构或操作***一起使用。而且，这样的指令可以存储在任何存储器设备中，诸如半导体、磁、光或其他存储器设备，并且可以使用任何通信技术来传输，诸如光传输技术、红外传输技术、微波传输技术或其他传输技术。预期的是这种计算机程序产品可以作为带有附带的印刷或电子文档(例如，紧缩套装软件)的可移动介质来分发、预载有计算机***(例如，在***ROM或固定磁盘上)、或者通过网络(例如，因特网或万维网)从服务器或电子公告板分发。当然，本发明的一些实施例可以被实施为软件(例如，计算机程序产品)和硬件两者的组合。本发明的其他实施例被实施为完全硬件或完全软件(例如，计算机程序产品)。

尽管已经公开了本发明的各种示例性实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本发明的真实范围的情况下，可以进行各种改变和修改，这些改变和修改将实现本发明的优点中的一些。

Claims

1.一种用于为植入患者体内的听力植入物生成刺激信号的信号处理方法，所述方法包括：

利用多层神经网络对来自音频场景的音频输入信号进行分类，所述分类包括：

a)使用初始分类参数利用预处理神经网络预处理所述音频输入信号，以产生初始信号分类，以及

b)使用场景分类参数利用场景分类器神经网络处理所述初始场景分类，以产生音频场景分类输出，

其中，所述初始分类参数反映基于第一初始音频训练数据集的神经网络训练，并且所述场景分类参数反映基于第二分类音频训练数据集的神经网络训练，所述第二分类音频训练数据集与所述第一初始音频训练数据集分离并且与所述第一初始音频训练数据集不同；

利用用于生成所述刺激信号的听力植入物信号处理器处理所述音频输入信号和所述音频场景分类输出。

2.根据权利要求1的方法，其中，所述预处理神经网络包括连续的递归卷积层。

3.根据权利要求2的方法，其中，所述递归卷积层被实施为递归滤波器组。

4.根据权利要求1所述的方法，其中，所述预处理神经网络包括包络处理块，所述包络处理块被配置成用于计算所述音频输入信号的子带信号包络。

5.根据权利要求1所述的方法，其中，所述预处理神经网络包括池化层，所述池化层被配置成用于所述预处理神经网络内的信号抽取。

6.根据权利要求1所述的方法，其中，所述初始信号分类是多维特征向量。

7.根据权利要求1所述的方法，其中，所述场景分类器神经网络包括全连接神经网络层。

8.根据权利要求1所述的***，其中，所述场景分类器神经网络包括线性判别分析(LDA)分类器。

9.一种用于为植入患者体内的听力植入物生成刺激信号的信号处理***，所述***包括：

音频场景分类器，所述音频场景分类器包括被配置成用于对来自音频场景的音频输入信号进行分类的多层神经网络，其中，所述音频场景分类器包括：

c)预处理神经网络，所述预处理神经网络被配置成用于基于初始分类参数预处理所述音频输入信号以产生初始信号分类；以及

d)场景分类器神经网络，所述场景分类器神经网络被配置成用于基于场景分类参数处理所述初始场景分类以产生音频场景分类输出，

听力植入物信号处理器，所述听力植入物信号处理器被配置成用于处理所述音频输入信号和所述音频场景分类输出，以生成所述刺激信号。

10.根据权利要求9的***，其中，所述预处理神经网络包括连续的递归卷积层。

11.根据权利要求10的***，其中，所述递归卷积层被实施为递归滤波器组。

12.根据权利要求9所述的***，其中，所述预处理神经网络包括包络处理块，所述包络处理块被配置成用于计算所述音频输入信号的子带信号包络。

13.根据权利要求9所述的***，其中，所述预处理神经网络包括池化层，所述池化层被配置成用于所述预处理神经网络内的信号抽取。

14.根据权利要求9所述的***，其中，所述初始信号分类是多维特征向量。

15.根据权利要求9所述的***，其中，所述场景分类器神经网络包括全连接神经网络层。

16.根据权利要求9所述的***，其中，所述场景分类器神经网络包括线性判别分析(LDA)分类器。