CN106331969A

CN106331969A - 基于统计语音和噪声模型的有噪声语音的增强

Info

Publication number: CN106331969A
Application number: CN201610515154.3A
Authority: CN
Inventors: J·延森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2015-07-01
Filing date: 2016-07-01
Publication date: 2017-01-11
Anticipated expiration: 2036-07-01
Also published as: US10262675B2; US20170004841A1; EP3118851A1; EP3118851B1; DK3118851T3; CN106331969B

Abstract

本申请公开了基于统计语音和噪声模型的有噪声语音的增强，其中用于增强噪声环境中的语音的方法包括：提供多个子频带(k)的有噪声输入信号(23)；对于每一所述子频带，提供对应于可观测有噪声信号样本序列[X(k,m'‑D+1)…X(k,m')]的时频系数X(k,m)，其中k和m分别为频率指数和时间指数，及D大于1；增强(25)所述时频系数X(k,m)，从而提供增强的时频系数提供语音统计模型(30)；提供噪声统计模型(31,33)；在考虑可观测有噪声信号样本序列[X(k,m'‑D+1)…X(k,m')]的同时，使用所述语音统计模型和所述噪声统计模型提供所述增强的时频系数

Description

基于统计语音和噪声模型的有噪声语音的增强

技术领域

本发明整体上涉及用于提高有噪声环境中的语音可懂度的方法和***，尤其涉及基于语音和噪声的统计模型的应用的前述方法和***。本发明还涉及为实施在助听器中进行设计的前述方法和***。

背景技术

众所周知，助听器用户在有噪声状况下面临理解语音的问题。

参考图1，示意性地示出了用于在有噪声情形下增强语音的现有技术方法的例子，其中该方法基于时频分解。感兴趣的整个频率范围被再分为多个子频带，在该例子中分为子频带2、3、4、5、6和7。在图1所示的例子中，滤波器带宽随频率增加，但该带宽的特定选择不切合一般想法。现有技术方法目标在于基于有噪声(可观测)时频系数估计特定时刻m’的突出的无噪声频谱1。

在给定时刻m’，现有技术方法目标在于将有噪声的(可观测)信号的功率谱密度(psd)P_X(k,m)分解为纯净信号的功率谱密度P_S(k,m)和噪声的功率谱密度P_W(k,m)的和。现有技术方法使用语音信号和噪声信号的统计模型。具体地，每一信号时间帧假定为随机向量的实现。该向量的概率密度函数(pdf)可经统计模型进行建模，例如使用用于估计参数的广义矩方法(GMM)，或者如本发明中例示为零均值高斯pdf的字典，即每一字典元素均为协方差矩阵(由于均值向量假定为零)。在实践中，纯净信号和噪声信号的协方差矩阵可简洁地表示，例如通过使用线性预测系数的向量(在另外的假设之下，即除高斯之外，信号还为自回归过程的输出)。实际上，线性预测系数可被认为是所涉及信号的基本psd的简洁表示。换言之，在该特定特殊情形下，语音和噪声模型包括典型语音和噪声psd的字典。

这些现有技术背后的一般想法在图2中通过框图图示。

由传声器8拾取的有噪声传声器信号x(n)通过分析滤波器组9以获得时频表示X(k,m)，其在增强模块10中增强，及经合成滤波器组11变换回时域。来自合成滤波器组11的增强的输出信号提供给扬声器或助听器接收器12。通过(在功能模块13中)找到无噪声功率谱密度P_S(k,m)(来自语音模型14)和最佳地适合可观测有噪声功率谱密度P_X(k,m)的噪声功率谱密度P_W(k,m)(来自噪声模型15)的(正)线性组合执行增强，及使该增强基于前述线性组合。

统计语音和噪声模型可由典型的语音和噪声psd的字典组成。然而，在更先进的***中，使用隐马尔可夫模型，其不仅表示典型的语音和噪声psd，而且表示它们的时间演化。现有技术方法的目标是，对于有噪声(可观测)信号的给定功率谱密度P_X(k,m)，找到语音和噪声psd的组合(即分别为语音和噪声统计模型的元素)，其最佳地对应于有噪声信号psd。P_X(k,m)和语音及噪声数据库的元素的给定线性组合之间的匹配可以不同的方式量化，例如最小均方误差、最大似然或最大后验概率。例如，对于最大似然判据，从下述表达式找到最佳语音和噪声模型psd和及它们对应的最佳换算因子和

P_{W, j *}^{*} (k, m), P_{S, i *}^{*} (k, m), α_{S}^{*}, α_{W}^{*} = \underset{P_{W, j} (k, m), P_{S, i} (k, m), α_{S}, α_{W} > = 0}{argmax} L (.)

其中j、i分别为噪声字典和语音字典的指数，及其中L(.)指似然函数。使似然函数最大化例如可通过下述方式实现：穷举搜索语音和噪声模型，即搜索两个模型的项P_S,i(k,m),P_W,j(k,m),k＝0,...,K-1的每个组合，找到换算因子α_S,α_W的最大似然估计量，最后例如选择导致最大似然的项组合。

上面简要说明的现有技术方法在统计语音和噪声模型准确反映***的传声器在现实生活情形下观察到的实际信号时可能效率高。然而，在实践中很难满足该条件。具体地，这些现有技术方法的主要缺点包括：

D1，配错的统计信号模型：用于分别训练语音和噪声统计模型的语音和噪声信号必须反映传声器在现实生活中记录的语音和噪声信号。然而，这些测得的信号可能失真，例如谱倾斜，原因包括现实生活和离线训练情形之间的传声器失配、使测得的psd是声源相对于助听器用户的角度的函数的头部阴影效应(这在助听器应用中不可避免)、及其它非附加噪声失真，例如由可变室内脉冲响应引起。

D2：它们要求相当精细的统计噪声模型，即声学噪声情形如车厢情形必须提前很好地知道。在助听器情形下，该要求通常很难满足。当然，可能一般化该***使得其由用于任何可能的噪声情形的特定噪声数据库组成。然而，这需要在线噪声分类算法(其通常不正确)以及存储器复杂性和容量的大幅增加。

因此，需要提供一种消除或至少减少上面提及的缺点的方法和对应的***或装置。

发明内容

上述及其它目标和优点通过根据本发明的方法、***或装置实现。

具体地，本发明目标在于在目标语音信号呈现给助听器用户之前降低传声器信号的噪声电平。

根据本发明的第一方面，提供一种方法，其基于有噪声语音信号x(n)(假定为无噪声目标语音信号s(n)和噪声信号w(n)的和)估计潜在的无噪声语音信号。该估计的无噪声(或噪声降低的)语音信号优选可播放给助听器用户。

根据本发明第一方面的方法依赖于语音和噪声信号的统计结构的先验知识(或假设)(统计模型的形式)。

类似于现有技术方法，根据本发明第一方面的方法也在时频域工作。然而，不是作用于单一时间帧的表示如功率谱密度(psd)，尽管也可使用其它度量，所提出的方法作用于特定子频带内的信号样本的时间序列。

在某一子频带内，根据本发明第一方面的方法将可观测有噪声信号样本的序列[X(k,m'-D+1)…X(k,m')]分解为无噪声目标信号序列[S(k,m'-D+1)…S(k,m')]和噪声信号序列[W(k,m'-D+1)…W(k,m')]的和。

根据本发明第一方面的方法使用给定子频带内的语音信号的统计模型。此外，如下面详细描述的，本发明包括两种不同类型的实施方式，即一种类型的实施方式为其中语音模型和噪声模型均被使用；另一种类型的实施方式为其中噪声模型特别简单，因为假定对于所涉及的子频带信号序列，噪声统计数字(如统计学意义的噪声过程的矩)随时间(如考虑的时间，例如至少随时间序列的持续时间)保持恒定。

在实施例中，对于所涉及的子频带信号序列，噪声过程的矩恒定。在实施例中，噪声模型为单元素模型，如包含单一元素的字典形式，如协方差矩阵C_w,1(k)，其中k为频率指数。

根据本发明的第一方面，提供一种用于增强噪声环境中的语音的方法，该方法包括：

-提供多个子频带(k)的有噪声输入信号；

-对于每一所述子频带，提供对应于可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的时频系数X(k,m)，其中k和m分别为频率指数和时间指数；

-增强所述时频系数X(k,m)，从而提供增强的时频系数

-提供语音统计模型；

-提供噪声统计模型；

-使用语音统计模型和噪声统计模型提供增强的时频系数同时考虑可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]。

在实施例中，D大于1，如大于2。

在实施例中，根据本发明第一方面的方法包括：

-提供有噪声输入信号；

-将所述有噪声输入信号再分为多个子频带；

-对于每一所述子频带，提供对应于可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的时频系数X(k,m)；

-基于序列[X(k,m'-D+1)…X(k,m')]，增强时频系数X(k,m)，从而提供增强的时频系数

-将增强的时频系数变换到时域，从而提供增强的时域信号其中时频系数X(k,m)的增强通过下述步骤实现：

-对于每一相应的子频带中的每一相继样本，估计时频系数X(k,m)的协方差矩阵C_X(k,m)；

-提供语音统计模型；

-提供噪声统计模型；

-基于协方差矩阵C_X(k,m)、语音统计模型和噪声统计模型，确定从语音统计模型得到的无噪声信号的协方差矩阵C_S,i*(k)和从噪声统计模型得到的噪声信号的协方差矩阵C_W,j*(k)的最佳线性组合，其按需接近地说明有噪声观测信号；

-应用所述线性组合的最佳分量C_S,i*(k),C_W,j*(k),以增强时频系数X(k,m)(其中和为确定语音和噪声分量的相应权重(贡献)的权重因子)。

在根据本发明第一方面的方法的实施例中，统计噪声模型为单元素模型，如由单一协方差矩阵表示的模型。

在根据本发明第一方面的方法的实施例中，有噪声输入信号为传声器如助听器中的传声器的输出信号。

在根据本发明第一方面的方法的实施例中，语音统计模型包括表示同一子频带内跨时间的第一多个频谱样本序列(统计模型)的字典，每一序列表示特征语音元素。

在根据本发明第一方面的方法的实施例中，特定子频带的特征语音元素包括音素或音节或单词或其它语音元素(或多个这样的语音元素的平均)的子频带时间表示。

在根据本发明第一方面的方法的实施例中，噪声统计模型包括表示同一子频带内跨时间的第二多个不同的频谱样本序列(统计模型)的字典，每一序列表示特征噪声元素。

在根据本发明第一方面的方法的实施例中，语音统计模型包括第一多个协方差矩阵C_S,i(k)，其中i＝1,...I为语音字典指数。

在根据本发明第一方面的方法的实施例中，噪声统计模型包括第二多个协方差矩阵C_W,j(k)，其中j＝1,...J为噪声字典指数。

在根据本发明第一方面的方法的实施例中，同一子频带内的噪声统计数字假定随时间恒定不变。

在根据本发明第一方面的方法的实施例中，时频系数X(k,m)的增强通过下述步骤实现：

-用对应的与协方差矩阵C_X(k,m)表示的有噪声观测信号最佳匹配的正换算因子α_s*和α_w*选择字典元素C_s,i*(k)和C_w,i*(k)。

在根据本发明第一方面的方法的实施例中，该方法包括应用所述分量C_s,i*(k),α_s*和C_w,i*(k),α_w*的最佳线性组合以增强时频系数X(k,m)，从而提供增强的时频系数

在根据本发明第一方面的方法的实施例中，该方法包括在仅考虑可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的同时使用语音统计模型和噪声统计模型提供增强的时频系数

在根据本发明第一方面的方法的实施例中，该方法包括提供有噪声输入信号。

在根据本发明第一方面的方法的实施例中，该方法包括将有噪声输入信号再分为多个子频带(k’)。

在根据本发明第一方面的方法的实施例中，该方法包括将增强的时频系数变换到时域以提供增强的时域信号

在根据本发明第一方面的方法的实施例中，有噪声输入信号为传声器或传声器***如助听器的传声器或传声器***的输出信号。

总的来说，用于实施根据本发明的方法的***的复杂性(计算运算的数量、存储器的大小等)随序列[X(k,m'-D+1)…X(k,m')]的持续时间t_D增加而增加。

在根据本发明第一方面的方法的实施例中，t_D适应所涉及的应用。

在根据本发明第一方面的方法的实施例中，t_D适应所涉及的预期噪声特性。

在根据本发明第一方面的方法的实施例中，t_D被选择为确保(预期)噪声实质上不改变的值。

在根据本发明第一方面的方法的实施例中，该序列包括大于1的多个时间帧(D≥2)。

在根据本发明第一方面的方法的实施例中，本发明方法(或***)考虑的序列的D个时间帧的持续时间t_D大于5ms。

在根据本发明第一方面的方法的实施例中，t_D在5ms和100ms之间的范围中。

在根据本发明第一方面的方法的实施例中，t_D大于100ms。

在根据本发明第一方面的方法的实施例中，t_D在5ms和500ms之间的范围中。

在根据本发明第一方面的方法的实施例中，t_D大于500ms。

在根据本发明第一方面的方法的实施例中，术语“噪声统计数字”包括“噪声的矩”(如0阶、1阶、2阶、…、N阶矩)。

根据本发明的第二方面，提供一种包括处理器和程序代码的数据处理***，程序代码使得处理器执行根据本发明第一方面的方法的步骤。

根据本发明的第三方面，提供一种用于增强噪声环境中的语音的***，该***包括：

-输入单元，配置成提供多个子频带的有噪声输入信号，及对于每一所述子频带，提供可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的时频系数X(k,m)，其中k和m分别为频率指数和时间指数，及D大于1；

-增强处理单元，配置成接收所述时频系数X(k,m)并提供增强的时频系数

-包括语音统计模型的存储器；

-包括噪声统计模型的存储器；

-优化单元，配置成使用语音统计模型和噪声统计模型提供增强的时频系数同时考虑可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]。

在根据本发明第三方面的***的实施例中，该***包括：

-分析滤波器组，配置成接收输入信号并将所述输入信号的频谱再分为多个子频带，及对于每一所述子频带，提供可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的时频系数X(k,m)；

-增强装置，配置成接收所述时频系数X(k,m)并提供增强的时频系数

-合成滤波器组，配置成接收增强的时频系数并提供增强的时域信号

-协方差估计器，配置成对于每一相应的子频带中的相继样本，估计和提供时频系数X(k,m)的协方差矩阵C_X(k,m)；

-最佳线性组合优化器，配置成接收协方差矩阵C_X(k,m)、从语音统计模型得到的无噪声信号的协方差矩阵C_S,i*(k)和从噪声统计模型得到的噪声信号的协方差矩阵C_W,j*(k)，并提供无噪声信号的协方差矩阵C_S,i*(k)和噪声信号的协方差矩阵C_W,j*(k)的按需接近地说明有噪声观测信号的线性组合；

-包括语音统计模型的存储器；

-包括噪声统计模型的存储器；

-其中所述最佳线性组合优化器将无噪声信号的协方差矩阵C_S,i*(k)和噪声信号的协方差矩阵C_Wj*(k)的线性组合提供给增强装置，从而使所述增强装置能基于每一所述子频带的时频系数X(k,m)确定增强的时频系数

在根据本发明第三方面的***的实施例中，该***包括：

-分析滤波器组，配置成接收有噪声输入信号并将该输入信号的频谱再分为多个子频带，及对每一子频带提供可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的时频系数X(k,m)；

在根据本发明第三方面的***的实施例中，输入单元包括一个或多个提供有噪声输入信号的传声器。在实施例中，有噪声输入信号由单一传声器提供。

在根据本发明第三方面的***的实施例中，(特定子频带中的)噪声电平随时间(如该子频带的时间序列的持续时间t_D)恒定不变。

在根据本发明第三方面的***的实施例中，(特定子频带中的)噪声电平具有时间周期性。这具有噪声特性可被单元素字典捕获的优点。

在根据本发明第三方面的***的实施例中，统计噪声模型包括单元素模型或由其构成，如单一协方差矩阵表示的模型。

在根据本发明第三方面的***的实施例中，输入单元包括用于提供波束成形信号的多输入波束形成器单元，有噪声输入信号源自(如等于)该波束成形信号。

在根据本发明第三方面的***的实施例中，该***包括用于增强的时域信号的输出单元，其向用户提供可感知为所述增强的时域信号的声音表示的刺激。

根据本发明的第四方面，提供包括根据本发明第三方面的***的助听器。

在根据本发明第四方面的助听器的实施例中，该助听器包括配置成从环境接收声音并提供输出信号的传声器(或传声器***)、及配置成将声音提供到人的耳道的接收器，其中该助听器还包括“具体实施方式”中描述的和权利要求中限定的***，使得来自传声器(或传声器***)的输出信号被提供给分析滤波器组，及增强的时域信号被直接提供给接收器或者经适当的放大装置和/或其它适当的处理装置提供给接收器。

定义

在本说明书中，“助听器”指适于改善、增强和/或保护用户的听觉能力的装置如听力仪器或有效耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“助听器”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

助听器可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元、或作为整个或部分植入的单元等。助听器可包括单一单元或几个彼此电子通信的单元。

更一般地，助听器包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路、及用于根据处理后的音频信号将听得见的信号提供给用户的输出装置。在一些助听器中，放大器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件，用于执行程序和/或用于保存处理中使用(或可能使用)的参数和/或用于保存适合助听器的功能的信息和/或用于保存信息如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些助听器中，输出装置可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些助听器中，输出装置可包括用于提供电信号的一个或多个输出电极。

在一些助听器中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些助听器中，振动器可植入在中耳和/或内耳中。在一些助听器中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些助听器中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些助听器中，输出电极可植入在耳蜗中或植入在颅骨内侧上并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉皮层和/或大脑皮层的其它部分。

“听力***”指包括一个或两个助听器的***。“双耳听力***”指包括两个助听器并适于协同地向用户的两只耳朵提供听得见的信号的***。听力***或双耳听力***还可包括一个或多个“辅助装置”，其与助听器通信并影响和/或受益于助听器的功能。辅助装置可以是例如遥控器、音频网关设备、移动电话(如智能电话)、广播***、汽车音频***或音乐播放器。助听器、听力***或双耳听力***例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图。

图1示意性地示出了用于在有噪声情形下增强语音的现有技术方法的例子，其中该方法基于时频分解。

图2通过示意性框图示出了现有技术方法的例子。

图3示意性地示出了根据本发明的时频分解的例子。

图4通过示意性框图示出了本发明的第一实施例。

图5通过示意性框图示出了本发明的第二实施例。

具体实施方式

下面结合附图给出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。本发明的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

如本发明的发明内容部分中所提及的及如图3中示意性所示的，根据本发明的方法和对应的***或装置作用于特定子频带k’内的信号样本17,18,19,20,21,22的时间序列(一个这样的时间序列由附图标记16指明)。根据本发明的方法、***和装置目标在于总体上估计突出的无噪声时频系数的序列[S(k,m'-D+1)…S(k,m')]或S(k,m’)，尤其基于对应的有噪声(可观测)时频系数。

在某一子频带内，该方法试图将可观测有噪声信号样本17,18,19,20,21,22的序列[X(k,m'-D+1)…X(k,m')]分解为无噪声目标信号序列[S(k,m'-D+1)…S(k,m')]及噪声信号序列[W(k,m'-D+1)…W(k,m')]的和。该时频单元的序列在图3中突出显示，如附图标记16指明的。如图3中例示的，D(表示相继时间帧的数量)大于1(在此示意性地指明为6个；在实践中，根据所涉及的应用进行选择)。根据本发明的方法使用特定子频带内的语音信号的统计模型。

在下面，详细描述了根据本发明的方法(和对应的***及装置)的两个不同实施例。第一实施例使用语音模型和噪声模型，而第二实施例仅使用语音模型和简化的噪声模型。

参考图4，示出了根据第一实施例的方法的框图，该方法使用语音模型和噪声模型。有噪声传声器信号x(n)23经分析滤波器组24变换到时频域，及所得的时频系数X(k,m)在增强模块25中增强得到增强的时频系数其之后通过合成滤波器组26以产生增强的时域信号27。应当理解，除语音增强之外，其它信号处理可另外在信号处理通路中的适当步骤处发生。这样的其它信号处理例如可与听力损失补偿、信号压缩或限制等有关。

根据本发明，语音和噪声的统计模型表示同一子频带内跨时间的频谱样本的序列，即图3中的[S(k,m'-D+1)…S(k,m')]和[W(k,m'-D+1)…W(k,m')]，而不是从现有技术方法知道的同一时间帧内跨频率的频谱样本。通常，语音和噪声序列(向量)假定随机。在特定子频带内，它们中的每一个以I和J协方差矩阵C_S,i(k)和C_W,j(k)的字典表示，其中i＝1,...I和j＝1,…,J为字典指数(其中I可以等于或不同于J)。在特殊情形下，每一字典元素(协方差矩阵)近似为功率谱密度的向量；换言之，在该特殊情形下，该方法目标在于将有噪声调制谱分解为无噪声和只有噪声的调制谱的和。

参考图4，示出了根据本发明的实施根据本发明的方法的***的实施例，在该***中，使用语音模型30和噪声模型31。有噪声传声器信号x(n)23通过分析滤波器组24以获得时频表示X(k,m)，其在功能模块25中增强，及增强的信号经合成滤波器组26变换回到时域。处理通路中的虚线指明其它类型的处理例如听力损失补偿等也可发生。

在该例子中，有噪声子频带信号样本序列[X(k,m'-D+1)…X(k,m')]的协方差矩阵C_X(k,m')分解为无噪声信号的协方差矩阵C_S,i*(k)(来自语音模型30)和噪声信号的协方差矩阵C_W,j*(k)(来自噪声模型31)的(正)线性组合，即α_SC_S,i*(k)+α_WC_W,j*(k)，其最佳地说明有噪声观测序列[X(k,m'-D+1)…X(k,m')]。

根据本发明，不同的判据可用于测量有噪声信号的特定模型(由协方差模型α_SC_S,i*(k)+α_WC_W,j*(k)表示)和可观测有噪声观测序列[X(k,m'-D+1)…X(k,m')]的适合。例如，对于最大似然判据，最佳语音和噪声模型协方差矩阵C_S,i*(k)和C_W,j*(k)及其对应的最佳换算因子和从下式找到：

C_{S, i *} (k), C_{W, j *} (k), α_{S}^{*}, α_{W}^{*} = \underset{C_{S, i} (k), C_{W, j} (k), α_{S}, α_{W} > = 0}{argmax} L (.)

其中L(.)为似然函数。最大化例如可使用数值最大化实现。

根据本发明第一实施例的方法、***或装置相较现有技术提供多个优点。具体地，上面提及的缺点D1已被减少：

-根据第一实施例的方法对于失配现实生活和训练条件(这是现有技术方法、***和装置的特定缺点)要鲁棒得多。这是作用于子频带信号的时间序列而不是作用于频谱的结果。具体地，对于窄子频带，现实生活和训练条件之间的任何失配可近似为psd之间的简单电平差。任何这样的电平差将通过换算因子α_S ^*和α_W ^*吸收，因此将不重要。换言之，即使在观测的信号为用于构建语音和噪声模型的信号的滤波版本时(即现有技术***中的失配条件)，所提出的***仍然最佳地运行。

此外，根据本发明第一实施例的方法提供另外的优点：

由于其在子频带工作，从而使能随频率而变的语音建模，这是现有技术方法、***和装置不提供的优点。

参考图5，示出了根据第二实施例的方法的框图，该实施例仅使用语音模型。

根据上面描述的第一实施例的方法、***和装置减少了上面提及的现有技术的缺点D1但未减少D2，然而，下面描述的根据第二实施例的方法、***或装置还减少缺点D2。实施该方法的***实质上与图4中描述的***一样，单一重要的区别在于不需要噪声模型。如前所述，其作用于每一子频带(如图3中所示)内的有噪声可观测样本序列[X(k,m'-D+1)…X(k,m')]。使可能排除噪声模型的关键观测在于，当图3中的标记区域16足够小时，即当子频带的带宽足够小时，及跨其进行观测的持续时间D足够小时，噪声信号的统计数字可假定跨标记区域16恒定不变(该假定可通过减小带宽和观测时间而被使得任意地准确，而由于许多噪声源跨时间和频率相当缓慢地变化，该假定甚至对几百Hz的带宽和对应于几十甚或几百ms的D值仍有效)。使用该假设，噪声模型简化为单元素模型，如由单一协方差矩阵表示，如图5的框图所示。

实施根据本发明第二实施例的方法的、根据本发明第二实施例的***的框图如图5中所示，其中对应于图4中所示的功能模块由同样的附图标记指定。有噪声传声器信号23通过分析滤波器组24以获得时频表示，其在功能模块25中增强并经合成滤波器组26变换回到时域。处理通路中的虚线指明其它类型的处理如听力损失补偿等也可发生。

在该实施例中，有噪声子频带信号样本序列[X(k,m'-D+1)…X(k,m')]的协方差矩阵C_X(k,m')分解为无噪声信号的协方差矩阵C_S,i*(k)(来自语音模型30)和噪声信号的协方差矩阵33的(正)线性组合，即最佳地说明有噪声观测序列[X(k,m'-D+1)…X(k,m')]的线性组合。

如前所述，存在几个用于找到语音模型C_S,i*(k)的最佳元素和最佳换算因子α_S和α_W的判据，如最大似然、最小均方误差、最大后验概率等。

除上面结合使用语音和噪声模型的第一实施例描述的之外，根据本发明第二实施例的方法、***或装置相较现有技术方法、***和装置提供另外的优点。具体地，缺点D2已通过应用第二实施例减少：

使用简化的噪声模型。这是优点，因为在助听器上下文中，很难决定声学噪声情形将跨助听器的工作日出现的先验。此外，所提出的使用语音模型和简化的噪声模型的***提供降低的计算和存储器复杂性，因为避免了噪声模型中的存储和搜索。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间***元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

因而，本发明的范围应依据权利要求进行判断。

Claims

1.用于增强噪声环境中的语音的方法，所述方法包括：

-提供多个子频带(k)的有噪声输入信号(23)；

-对于每一所述子频带，提供对应于可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的时频系数X(k,m)，其中k和m分别为频率指数和时间指数，及D大于1；

-增强(25)所述时频系数X(k,m)，从而提供增强的时频系数

-提供语音统计模型(30)；

-提供噪声统计模型(31,33)；

-在考虑可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的同时，使用所述语音统计模型和所述噪声统计模型提供所述增强的时频系数

2.根据权利要求1所述的方法，其中所述语音统计模型包括表示同一子频带内跨时间的第一多个频谱样本序列的统计模型字典，每一序列表示特征语音元素。

3.根据权利要求1所述的方法，其中所述噪声统计模型包括表示同一子频带内跨时间的第二多个不同的频谱样本序列的统计模型字典，每一序列表示特征噪声元素。

4.根据权利要求2所述的方法，其中所述语音统计模型包括第一多个协方差矩阵C_S,i(k)，其中i＝1,...I为语音字典指数。

5.根据权利要求3所述的方法，其中所述噪声统计模型包括第二多个协方差矩阵C_W,j(k)，其中j＝1,...J为噪声字典指数。

6.根据权利要求3所述的方法，其中同一子频带内的噪声统计数字假定随时间恒定不变。

7.根据权利要求3所述的方法，其中所述噪声统计模型包括单一元素。

8.根据权利要求3所述的方法，其中所述时频系数X(k,m)的增强通过下述步骤实现：

9.根据权利要求8所述的方法，包括应用所述分量C_s,i*(k),α_s*和C_w,i*(k),α_w*的最佳线性组合以增强(25)时频系数X(k,m)，从而提供增强的时频系数

10.根据权利要求1所述的方法，其中有噪声输入信号为传声器(8)或传声器***的输出信号。

11.一种数据处理***，包括处理器和程序代码，所述程序代码使得所述处理器执行根据权利要求1所述的方法的步骤。

12.一种用于增强噪声环境中的语音的***，所述***包括：

-输入单元(24)，配置成提供多个子频带的有噪声输入信号，及对于每一所述子频带，提供可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的时频系数X(k,m)，其中k和m分别为频率指数和时间指数，及D大于1；

-增强处理单元(25)，配置成接收所述时频系数X(k,m)并提供增强的时频系数

-包括语音统计模型(30)的存储器；

-包括噪声统计模型(31)的存储器；

13.根据权利要求12所述的***，包括：

-分析滤波器组(24)，配置成接收有噪声输入信号(23)并将该输入信号的频谱再分为多个子频带，及对每一子频带提供可观测有噪声信号样本序列[X(k,m'-D+1)…X(k,m')]的时频系数X(k,m)；

-合成滤波器组(26)，配置成接收增强的时频系数并提供增强的时域信号(27)。

14.根据权利要求13所述的***，其中输入单元包括一个或多个提供有噪声输入信号的传声器。

15.一种助听器，包括根据权利要求12所述的***。