CN117321681A

CN117321681A - 嘈杂环境中的语音优化

Info

Publication number: CN117321681A
Application number: CN202280034750.3A
Authority: CN
Inventors: 约翰·菲利普森; 乔纳斯·隆德贝克
Original assignee: Edeldu Co
Current assignee: Edeldu Co
Priority date: 2021-05-12
Filing date: 2022-05-11
Publication date: 2023-12-29
Also published as: KR20240007168A; WO2022240346A1; JP2024517721A; SE2150611A1; EP4115413A1; SE545513C2

Abstract

本发明涉及一种提高包括言语音频的音频流(20)的言语清晰度的方法。所述方法由音频设备实时执行，并且包括：检测环境噪声(40)；以及基于所述环境噪声(40)估计内部噪声。基于所估计的内部噪声和所述音频流(20)确定语音滤波器(50)，并且将所述语音滤波器(50)应用于所述音频流(20)以提供目标音频流(20’)。将所述目标音频流(20’)输出到一个或多个换能器(35)，以便生成所述音频设备的内部声音(37)。检测所述音频设备(30)的所述内部声音(37)，并且其中所述语音滤波器(50)的所述确定进一步基于所检测到的内部声音(37)。还提出了一种音频设备、一种音频***和一种计算机程序产品。

Description

嘈杂环境中的语音优化

技术领域

本发明涉及音频的语音优化，并且更确切地涉及用于在嘈杂环境中提供语音优化的方法和设备。

背景技术

便携式电子装备几乎每个人都在使用，无处不在。例如，手机随时随身携带，并且可用来打电话或收听音频。收听的音频可能是音乐，但是播客和有声读物正变得越来越普遍。随着用于通信和娱乐的电子设备的使用和便携性的增加，在嘈杂的环境中消耗音频的风险也增加了。对于音乐来说，嘈杂的环境可能只不过是一种滋扰，但当涉及到收听言语音频时，嘈杂的环境可能会使言语在噪声中难以理解。

言语音频的言语清晰度将取决于信噪比，在这种情况下是言语音频与噪声之间的比率。从历史上看，言语清晰度是通过修改信噪比来改进的。暴力方法是放大语音信号，使得其在噪声中可被理解，不用说，这种方法可能会对收听言语音频的人的听力造成损害。另一种方法是，如果使用耳机，则通过使耳机形成为衰减外部噪声或利用主动降噪来降低噪声。噪声衰减取决于声学设计和耳机对用户的适配。主动降噪需要强大的处理能力，因此材料成本和能源消耗随之增加。

综上所述，应当理解还有改进的空间。

发明内容

本发明的目的是提供一种新型的语音优化，所述新型的语音优化相对于现有技术有所改进，并且消除或至少减轻了以上讨论的缺点。更具体地，本发明的目的是提供一种提高噪声环境中言语或有声音频的清晰度的方法和音频设备。这些目的是通过所附独立权利要求中阐述的技术以及与所附独立权利要求相关的从属权利要求中限定的优选实施方案来实现的。

在第一方面，提出了一种提高包括言语音频的音频流的言语清晰度的方法。所述方法由音频设备实时执行，并且包括：检测环境噪声、基于所述环境噪声估计内部噪声、以及基于所估计的内部噪声和所述音频流确定语音滤波器。所述方法还包括：将语音滤波器应用于音频流以提供目标音频流，以及将目标音频流输出到一个或多个换能器，从而生成音频设备的内部声音。除此之外，所述方法包括：检测音频设备的内部声音，并且确定语音滤波器的步骤进一步基于所检测到的内部声音，并且包括从是检测的内部声音中减去估计的内部噪声以提供真实的音频流。所述方法还包括：基于所述目标音频流与所述真实音频流之间的差值来更新所述语音滤波器。

在一种变型中，确定所述语音滤波器的步骤还包括：将所估计的内部噪声与一个或多个掩蔽阈值进行比较，并且基于所述比较来更新语音滤波器。这是有益的，因为它提供了一种确定音频是否被噪声掩蔽的能量和计算效率的方式。

在一种变型中，所述一个或多个掩蔽阈值通过执行音频流的临界频带分析来计算。临界频带分析包括通过频率扩展进行的听觉掩蔽。这是有益的，因为它提高了掩蔽阈值的准确性。

在一种变型中，所述方法还包括：对音频流进行滤波以补偿与音频设备的用户相关联的听力概况。这对于用户来说是有益的，因为言语清晰度得到进一步提高和优化。

在一种变型中，确定语音滤波器的步骤是在滤波之后完成的，使得所述确定基于针对与音频设备的用户相关联的听力概况补偿的音频流。这是有益的，因为无论用户如何都可使用相同的语音滤波器算法，并且由于已经通过听力概况应用了一些补偿，因此可减少计算工作量。

在一种变型中，确定语音滤波器的步骤还包括：基于回放音量确定回放音素，并且更新语音滤波器的步骤进一步基于与所确定的音素相关联的等响曲线。这是有益的，因为言语清晰度将随音量改变，但并非在所有频率上均匀改变，并且无论回放音量如何，都补偿了这种提高的言语清晰度。

在一种变型中，确定回放音素的步骤进一步基于内部声音。这是有益的，因为它可准确读取用户体验到的实际声压级。

在一种变型中，确定语音滤波器的步骤还包括：通过使用频率窗口函数的卷积来平滑所述语音滤波器在频率上的增益。这是有益的，因为它去除了相邻频率组之间不需要的差异。

在一种变型中，确定语音滤波器的步骤还包括：使用包括一个或多个加权参数的指数加权移动平均值来对语音滤波器的增益进行平均。这是有益的，因为它去除了相邻频率组之间不需要的差异。

在一种变型中，确定语音滤波器的步骤还包括：应用可配置的混合设定来选择将语音滤波器应用于音频流的程度。这是有益的，因为它使得改进量可定制并且用户可选择期望的补偿量。

在一种变型中，估计内部噪声的步骤由一个或多个循环神经网络RNN来实施。RNN的使用是有益的，因为它提供了估计内部噪声的准确且有效的方式。

在一种变型中，环境噪声由可操作地连接到音频设备的外部麦克风检测。这是有益的，因为它提供了环境噪声的准确测量。

在一种变型中，环境噪声限于高达10kHz、优选地高达8kHz的最大音频带宽。这是有益的，因为它进一步降低了本方法的计算复杂度。

在一种变型中，所述方法还包括：在将语音滤波器应用于音频流之后将主动降噪ANC应用于音频流。这是有益的，因为进一步降低了内部声音的噪声。

在第二方面，提出了一种音频设备。所述音频设备包括一个或多个换能器；至少一个内部麦克风，所述至少一个内部麦克风被布置成检测用户的耳腔处的内部声音；以及处理模块，所述处理模块可操作地连接到所述内部麦克风，连接到所述一个或多个换能器以及连接到外部麦克风。所述处理模块被配置为执行本发明的方法。

在一种变型中，外部麦克风被包括在音频设备中。这是有益的，因为来自麦克风的数据可容易地供处理模块使用。

在第三方面，提出了一种用于实时提高言语清晰度的音频***。所述***包括：便携式电子设备，所述便携式电子设备可操作地连接到音频设备并且被配置为将包括言语音频的音频流传递到所述音频设备，其中所述音频设备是根据本发明的音频设备。

在一种变型中，环境噪声由包括在所述电子设备中的外部麦克风感测，并且所述电子设备进一步被配置为将由所述外部麦克风感测的所述环境噪声传递到所述音频设备。这是有益的，因为另外的噪声数据可由音频设备的外部麦克风提供。替代地或除此之外，音频设备可被配置为没有外部麦克风，从而降低了音频设备的成本。

在第四方面，提出了一种计算机程序产品。所述计算机程序产品被配置为在由处理模块执行时致使处理模块执行本发明的方法。

附图说明

以下将描述本发明的实施方案；参考附图，所述附图示出如何将本发明概念付诸实践的非限制性示例。

图1a至图1b是根据本发明的实施方案的音频***的示意图。

图2是根据本发明的实施方案的语音滤波器及其信号的示意图。

图3是根据本发明的实施方案的提高音频流的言语清晰度的方法的框图。

图4是根据本发明的实施方案的言语优化的示例性曲线图。

图5是根据本发明的实施方案的等响曲线的示例性曲线图。

图6是根据本发明的实施方案的言语优化的示例性曲线图。

图7是根据本发明实施方案的确定语音滤波器的框图。

图8是根据本发明的实施方案的计算机程序产品。

具体实施方式

在下文中，将参考附图更全面地描述某些实施方案。然而，本发明可以许多不同的形式来体现并且不应被解释为受限于本文所阐述的实施方案；相反，这些实施方案以示例的方式提供，使得本公开将是透彻的和完整的，并且将本发明的范围诸如在所附权利要求中限定的范围充分地传达给本领域技术人员。

术语“耦接”被限定为连接，但不一定是直接地连接，并且不一定是机械地连接。“耦接”的两个或多个项可彼此成为一体。除非本公开另外明确要求，否则术语“一个”和“一种”被限定为一个或多个。如本领域普通技术人员所理解的，术语“基本上”、“大约”和“约”被限定为很大程度上但不一定完全是所指定的。术语“包含(comprise)”(以及包含的任何形式，诸如“包含(comprises)”和“包含(comprising)”)、“具有(have)”(以及具有的任何形式，诸如“具有(has)”和“具有(having)”)、“包括(include)”(以及包括的任何形式，诸如“包括(includes)”和“包括(including)”)，或“含有(contain)”(以及含有的任何形式，诸如“含有(contains)”和“含有(containing)”)为开放式的连系动词。因此，“包含”、“具有”、“包括”或“含有”一个或多个步骤的方法拥有这些一个或多个步骤，但不限于仅拥有这些一个或多个步骤。

图1a是用于改进呈音频流20形式的音频源信号20的言语清晰度的实时音频***1的简化视图。对应的音频***1也在图1b的示意图中描绘，以给出部件和特征位置的替代说明。音频流20包括言语音频并且可以是任何合适形式的流式音频。言语音频可以是呈数字形式的任何言语音频，诸如播客、有声读物、语音通信等。音频流20通常从电子设备10传递到音频设备30。所述传递优选地是无线的，经由合适的无线接口诸如BLE等，但是也可以是有线的。电子设备10可以是任何合适的电子设备10，但优选地是便携式电子设备10，诸如移动终端10。音频设备30优选地是一对耳机30并且可具有任何合适的设计，例如耳上式、耳罩式或入耳式，但是，如本领域技术人员容易理解的，可与本发明一起使用的任何音频设备30都是合适的。音频设备30适于从移动终端10接收音频流20，这意味着如果音频流20经由BLE传递，则音频设备包括一个或多个BLE芯片组。除此之外，音频设备30包括一个或多个换能器35，优选地两个换能器35，以及必要的硬件和软件模块以将接收到的音频流20转换为可由一个或多个换能器35输出的模拟信号。音频流20与回放音量15相关联，所述回放音量由音频***1的任何设备10、30设定，指示音频流20以哪种级别播放。音频设备30的硬件包括至少一个处理模块32。处理模块32可包括合适的MCU、或多个MCU、一个或多个DSP、一个或多个存储器，并且还可包括用于跨接口通信所需的硬件，例如，BLE收发器。

音频设备30的换能器35被配置为生成引导到音频设备30的用户的耳腔的声音。音频设备30设置有一个或多个内部麦克风36，所述一个或多个内部麦克风被布置为测量由换能器35生成的声音。当用户使用音频设备30时，优选地在用户的耳腔处测量声音。优选地，提供一个内部麦克风36以测量由换能器35中的每一个生成的声音。

音频***1进一步设置有一个或多个外部麦克风5。外部麦克风5在音频设备30的外部并且可以是可操作地连接到音频设备30的处理模块32的任何合适的麦克风5。例如，当音频设备30是头戴式耳机时，外部麦克风5可被包括在音频设备20中，外部麦克风可被布置成检测音频设备30的用户的语音。替代地或除此之外，当例如便携式电子设备10是移动终端10时，外部麦克风5可被包括在便携式电子设备10中。

现在转向图2，将给出本发明的概念性概述。本发明优选地在本文所呈现的音频设备30上实施。音频流20的言语清晰度通过语音滤波器50来提高。此语音滤波器50应用于音频流20，从而形成输出到一个或多个换能器35的目标音频流20’。与音频流20相比，目标音频流20'被滤波以提高言语清晰度。关于音频滤波器50的内在运作的另外的细节将在本公开全文中给出。至少基于环境噪声40和内部声音37来确定语音滤波器50。环境噪声40可由可操作地连接到音频设备30的处理模块32的一个或多个外部麦克风5来检测。内部声音37是音频设备30的用户的耳腔处的声音或者是其估计。内部声音37由与一个或多个换能器35相关联的内部麦克风36测量。优选地，音频设备30包括与音频设备30的换能器35中的每一个相关联的至少一个语音滤波器50。

参考图3，将描述提高包括言语音频的音频流20的言语清晰度的方法100的综述。应当提及的是，方法100可被描述为通过处理包括言语音频的音频流20来提高言语清晰度。方法100可由如本文所呈现的音频设备30来执行。方法100的步骤中的每一个将在本公开的别处进一步详细描述。方法100包括向音频设备30的用户输出150目标音频流20’。也就是说，音频滤波器50被应用140到音频流20以提供目标音频流20’，所述目标音频流被提供到换能器35以便生成内部声音37。内部声音37被检测160，通常由内部麦克风36检测110环境噪声40。这通常由测量环境噪声并且将其提供给音频设备30的处理模块32的一个或多个外部麦克风5来执行。环境噪声40用于估计120内部噪声40’，内部噪声40’是用户耳膜感知的噪声。音频流20、估计的内部噪声40’和所检测到的内部声音37用于确定言语滤波器50。

在方法100的一些实施方案中，其还包括滤波105音频流20以补偿***1的用户的听力概况HL(f_k)。这是有益的，因为除了所述方法的言语清晰度之外还补偿了用户的听力障碍和/或损伤。优选地是听力概况HL(f_k)在应用或确定130语音滤波器50之前对音频源信号20应用补偿，使得基于为用户的听力障碍和/或损伤补偿的音频流20来确定语音滤波器50。这是有益的，因为它有效地去除了用户之间的差异，并且用于确定130语音滤波器50的相同方法可用于所有用户。除此之外，因为对听力能力的补偿仅影响音频流20，因此在大多数情况下，它将直接提高言语清晰度。除此之外，可在确定语音滤波器50时考虑听力概况补偿，并且在应用140语音滤波器50之前不需要预处理。听力概况HL(f_k)与环境噪声40之间的关系可为重要的，因为如果不考虑用户听力概况HL(f_k)，则对于一些用户而言，提高言语清晰度的处理结果可能对用户的听力能力具有降低的影响。

应当提及的是，在利用噪声消除诸如主动降噪ANC的技术的音频***1或音频设备30中，噪声消除优选地在应用于语音滤波器50之后应用于音频流20。这是有益的，因为进行噪声消除降低噪声水平，但同时可使音频信号失真。失真程度取决于噪声消除的配置以及噪声消除技术的调谐和/或校准。

目标音频流20’可能失真或另外受到例如数模转换器、转换器操作和音频设备30在用户上的位置的负面影响。因此，有益的是检测通过噪声消除去除噪声之后呈现在用户的耳膜处的内部声音37，将真实音频流37’(即去除内部噪声40’之后的内部声音37)与目标音频流20'进行比较并且采取行动以最小化差异。

如已经指示的，音频***1是具有实时约束的音频***1。音频流20被接收为基于每个样本或基于每个帧的数字样本。帧中样本的收集可在其他地方或作为***1的一部分例如通过电子设备10完成。音频流20包括以下集合：采样速率为每秒F_s个样本的N个样本的集合，这些样本被形成具有帧(时间)索引l的音频信号帧。音频流20可以是单声道或立体声。

语音滤波器50优选地基于心理声学掩蔽并且包括从言语清晰度指数或等效物发音指数、言语传输指数或短期目标清晰度，以及噪声的音调掩蔽理论导出的心理声学模型。计算语音滤波器50的频率增益，使得内部噪声40’被目标音频流20’掩蔽，这将在本公开的其他部分中更详细地解释。

所估计的内部噪声40’可以多种不同的方式提供，并且内部噪声40’的估计120的输入至少是由外部麦克风5中的一个检测110的环境噪声40。环境噪声40由外部麦克风作为麦克风信号提供，并且优选地以基本上等于音频流20的逐帧结构的逐帧结构表示。麦克风信号还可以是立体声信号，这种信号通常被称为双麦克风信号。双麦克风信号包括格式化为单个立体声信号的两个独立的麦克风信号。如先前所解释的，***1中可有若干个外部麦克风5，并且估计120内部噪声40’的步骤可包括确定例如仅使用由外部麦克风5提供的所有麦克风信号中的一个麦克风信号。关于使用哪个外部麦克风的决定可基于例如最高信号水平、与换能器的接近程度等。所有外部麦克风5可被单独地处理以便从已处理的外部麦克风5中的每一个获得环境噪声40。外部麦克风5可被处理以获得立体声信号，并且甚至可被处理以获得环境噪声40的方向，使得每个换能器35可与不同的环境噪声40相关联。

如本领域技术人员在消化本文的教导后将理解的，基于实时音频***1中的资源管理和可用处理功率的优化，可能需要权衡是否利用若干个外部麦克风5来检测110环境噪声40。此权衡可能取决于应用。当音频设备30例如是一对耳机30时，并且如果存在足够的处理能力，则内部噪声40'的两个单独的估计120是可行的，一个用于用户的左耳，并且一个用于用户的右耳。然而，如果例如处理能力不足，或者如果存在对电流消耗的严格要求，则合理的假设可以是环境噪声40对于左耳和右耳基本相等，并且相同的内部噪声40’可用于两只耳朵。

与音频信号相比，可以不同的采样速率对外部麦克风5进行采样。给定语音通信的重要频率范围高达8kHz，则外部麦克风5的频带限制为最大带宽10kHz，或者优选地8kHz。较低的带宽减少了处理负载、存储器负载和电流消耗。甚至可进一步减小最大带宽以另外减小处理负载、存储器负载和电流消耗，但是必须针对环境噪声40的要求来权衡最大带宽。

应当注意的是，如本领域技术人员在阅读本公开之后将理解的，外部麦克风5将产生包括环境噪声40和另外的声源两者的信号。只有环境噪声40是相关的，这意味着例如源自换能器的回声和来自参与对话的收听者的近端串音有利于从外部麦克风5产生的信号中排除。这是有益的，因为它降低了另外的声源被错误分类为环境噪声40的风险。

避免将另外的声音错误分类为环境噪声的一种解决方案是使用一种或多种噪声估计技术，例如更高程度的统计、倒谱分析、自回归建模或非参数方法，如韦尔奇谱和最小方差方法。通常，对于最小工作量具体实施，如果外部麦克风5检测另外的声源，则方法100可停止环境噪声40的检测110和/或内部噪声40’的估计120。背景噪声与语音源之间的区别可使用例如语音活动检测器(VAD)来解决。

在本发明的一个实施方案中，通过循环神经网络RNN来估计120内部噪声40’。这将在本公开的其他部分中更详细地解释，但是一个好处是：将例如估计120内部噪声120、检测另外的声音、语音检测等的具体实施和配置的复杂度交换为训练和操作RNN，这在机器学习理论中得到了很好的描述。

不管如何估计120内部噪声40’，内部噪声40’的表示包括平均能量值E_v(b)，内部噪声40’的b＝1...N_B仅针对每个听觉滤波器频带或临界频带b。临界频带b的概念将在以下各部分中进行解释。

如先前所解释的，计算语音滤波器50的频率增益，使得内部噪声40’被目标音频流20’掩蔽。为了实现这一点，音频流20被滤波，以频率或临界频带b表示。这可以通过将音频流20划分成子帧来实现，从而允许与前一个子帧高达例如50％的重叠。可使用合适的窗口函数例如汉明窗、汉宁窗、三角窗等对子帧进行加窗。使用子帧时域数据和快速傅立叶变换FFT具体实施计算功率谱P_x(k)＝|X(k)|²，其中k是频率槽索引。频率变换的分辨率优选地基于采样速率F_s和子帧大小进行选择。通常，需要在分辨率与资源需求之间进行权衡。

频域中描述的量均以声压级SPL表示，使得P_x(k)/N是以SPL为单位的每个频率槽索引k的功率谱密度，并且参考位于收听者耳腔处的自由场参考点。从数字信号到声压级的转换是通过适当的频率相关缩放、每个麦克风5、36的一个缩放频率函数和每个换能器35的一个缩放频率函数来完成的。缩放函数是预定的和/或可配置的，并且优选地存储在可操作地耦接到处理模块32的存储器中。缩放函数可被认为是在音频设备30的设计或配置期间进行一次的校准步骤。通常但不限于，麦克风5、36的缩放函数由每个频率槽索引k的一个缩放值组成并且可根据麦克风频率响应进行估计。换能器35的缩放频率函数将对应于换能器频率响应，所述换能器频率响应包括由于例如到参考点(通常是收听者的耳朵)的距离而导致的缩放。作为例证，对于一对耳机30，音频流20的缩放频率函数将基于换能器35相对于耳朵参考点ERP的频率响应。

耳蜗模型将音频流20划分为N_B频带，每个频带表示一个临界频带b。临界频带N_B可根据频域中的期望分辨率来设定，使得可直接控制语音滤波器50可调整音频流20的粒度。如本领域技术人员将理解的，在频率分辨率与资源需求之间存在权衡，增加分辨率需要较大的耳蜗模型，并且因此需要较高的计算量和更复杂的具体实施。本公开背后的发明人发现20个频带，N_B＝20，关于频率分辨率和计算复杂度来说是合理的选择。在不丧失一般性的同时，可使用等效矩形带宽、ERB、音阶和伽玛音调滤波器组来进行对临界频带b的划分。可利用其他音阶和滤波器类型来正确地提供耳蜗模型。对于一般信号，对于每个临界频带b，平均能量e_x(b)＝1/N∑_kP_x(k)|F_b(k)|²使用功率谱计算，并且其中F_b(k)是与伽马音调滤波器组中的临界频带b相关联的滤波器的频率响应。每个频带中的能量表示为以下矢量：

在以下中，将更详细地解释掩蔽的心理声学特性，并且特别是第一信号如何能够掩蔽第二信号，从而导致第二信号不被感知。出于解释的目的，假设音频流20由音调信号近似，而环境噪声40是宽带噪声，则应用音调掩蔽噪声的理论。

基于音频流20的临界频带分析来计算与临界频带b相关联的掩蔽阈值T(b)，所述临界频带分析可包括频率掩蔽、通过扩展的同时频率掩蔽以及通过增益平滑的时间掩蔽。

应用临界频带分析以便获得音频流20的临界频带表示需注意，这意味着在首先应用根据听力概况HL(f_k)进行补偿105的实施方案中，如上所述的掩蔽阈值T(b)将考虑到用户的听力损伤。

以上提及的通过扩展实现的同时频率掩蔽可通过对频率扩展建模的扩展函数SF来描述。扩展函数SF可由以下给出：其中x具有单位Barks¹并且-SF_dB(x)以dB为单位描述。应当指出的是，频率扩展是临界频带域中的卷积并且可由卷积核矩阵/>表示。然后音调掩蔽噪声的每个临界频带b的掩蔽阈值T(b)被作为掩蔽阈值向量给出：/>其中-/> 并且/>并且x等于Bark数量。SF_dB(x)和γ(x)可从Bark变换到本文所使用的临界频带域。X_L是陈述掩蔽阈值/>与噪声能量即内部噪声40’之间的恒定差值(以dB为单位)的配置参数，每临界频带噪声/>此配置参数的典型值为X_L＝14.5。较高的值导致对噪声能量的较高敏感度，并且因此需要较高的音频流20能量来掩蔽环境噪声40。

音频***1优选地被配置为计算将在语音优化中即在改进言语清晰度中使用的至少一个掩蔽阈值T。根据应用，例如耳机30等，可有由音频***1计算的两个或更多个掩蔽阈值每个掩蔽阈值/>通常与一个或多个换能器35相关。

基于掩蔽阈值可包括听力损伤补偿的音频流20的临界频带表示/>和噪声临界频带表示/>语音优化将计算呈语音滤波器50形式的频率相关增益，以改进收听者的言语清晰度。

本上下文中的语音优化是指计算由矢量表示的频率相关增益的过程，所述频率相关增益被应用于音频流，然后所述音频流被认为是以目标音频流20’的形式进行语音优化的。对于每个临界频带b，将与每个临界频带b相关联的噪声能量e_v(b)，即内部噪声40’与和每个临界频带b相关联的掩蔽阈值T(b)进行比较。如果噪声能量低于掩蔽阈值T(b)，则音频流20被确定为已经掩蔽了噪声并且在对应的临界频带b处不需要对音频流20进行放大。也就是说，对于此临界频带b，确定130语音滤波器50的增益为1或更低，但优选地至少与满足低于掩蔽阈值T(b)的噪声能量所需的大小一样大。如果噪声能量超过掩蔽阈值T(b)，则噪声没有被掩蔽，并且需要对音频源信号进行放大。也就是说，对于此临界频带b，语音滤波器50的增益被确定130为大于1。放大可以用许多方式来表示，并且本领域技术人员在消化本公开之后，在将本文的任何教导产业化方面将没有问题。

音频流20在每个临界频带b中由进行的放大产生语音优化信号，即目标音频流20’。

需注意，本文描述的公开在包括在模型(矩阵)中的频率中执行同时掩蔽。当计算最佳增益g_opt(b)时，可能优选地陈述包括所有频带的一般公式，而不是针对每个频带单独计算增益。根据本发明的最佳增益的公式/>包括所有频带和频率中的同时掩蔽。因此，与单独计算每个增益并且在模型中不包括同时掩蔽时相比，本发明将导致可用增益参数的优化使用。

如先前所陈述，音频流用于计算掩蔽阈值T(b)，估计的内部噪声40’与所述掩蔽阈值进行比较，并且被认为是掩蔽的还是未掩蔽的。语音优化信号20’、目标音频流20’经由换能器35在用户耳腔处的呈现可能受到若干频率相关部件的影响，其中可能最重要的是耳机30的位置和适配，从而导致所呈现的目标音频流20’的版本不具有期望的频率内容。感知到的优化语音信号/>与估计的内部环境噪声40’一起是麦克风信号37的一部分。

与通过外部麦克风5和内部麦克风36的组合来测量噪声的ANC或降噪技术相反，在本发明中，内部噪声40’、是基于外部噪声40估计的。因此，所提出的语音优化信号/>可通过但不限于例如从内部声音37减去/>来估计。这样做的另一个好处是，它能够对语音优化处理进行实时调整，使得/>将收敛于某个预限定度量例如均方根中的/>然后这可考虑例如改变耳机30的位置或适配程度并且使得方法100更加可靠和有力量。

在一个非限制性示例中，放大可使得计算增益，该增益在应用于音频流20时将对应于所得到的掩蔽阈值假设当噪声能量等于或小于掩蔽阈值/>时，不需要放大，而在噪声能量超过阈值的情况下频带需要放大。需注意，相反的情况很可能是正确的，并且在两种情况下都可能出现负增益，即衰减。所得的最佳语音滤波器50将仅包括必要的放大，并且在一些情况下将能量从非掩蔽频率重新分配到所应用的掩蔽频率。每频带b的期望的目标函数T_d(b)可被限定为：

使用所期望的目标函数可公式化加权最小二乘范数优化问题，所述问题可使用拉格朗日乘子和阶优化条件²的方法来为/>求解，这意味着最小化经受/>

W是是对角线加权矩阵，在此示例中，主对角线由言语清晰度指数³给出的频带加权来填充。所述优化明确地利用了频率扩展，在所述过程中，频率应该被放大或衰减，并且对频率进行重要性加权。

在另一个非限制性示例中，加权矩阵W可基于提供给换能器35的目标音频流20’与在内部噪声40’已经被去除之后由内部麦克风36提供的对应的所检测到的内部声音37之间的误差(即从内部麦克风36提供的信号中减去所估计120的内部噪声40’)来填充。在这种情况下，合适的加权矩阵W可基于频域中优选地基于听觉频带域中的误差，并且甚至更优选地使得适当的加权值在[0-1]的范围内并且最优选地被归一化为例如单位的均方根值，例如使用和/>之间的相关系数，在高相关即信号高度相似的情况下，对应于低加权即不关注此频带下的误差，反之亦然。

最佳增益优选地从临界频带表示转换为频率槽表示H_g(k)上的振幅。这种转换优选地包括在所采用的临界频带划分上的插值，例如，在此示例中为伽玛音调滤波器组，使得/>

观察到H_g(k)对于音频流20的每个新帧l和内部噪声40’被更新一次。通常，音频帧相对较短，音频帧的样本的数量可能小于100ms的等效持续时间。另一方面，人耳的整合时间高达100-300ms。除此之外，当应用自适应频率调整时，收听者必须体验音频流20的音调平衡的稳定性，未能实现这一点可能会导致用户的不适。另一方面是语音优化信号即目标音频流20’中的频率变化。相邻频带在调整程度上不能有太大的差异，否则可能产生烦人的感觉。所有这些性质都是主观的，并且在阅读本公开之后，是本领域技术人员已知的。

本公开背后的发明人已经认识到，可对语音滤波器50的增益进行处理以减轻上述主观影响。在一个实施方案中，语音滤波器50的增益通过与频率窗口函数例如三角窗口或类似函数的卷积而在频率上被平滑，以断言与相邻频率槽相比，隔离的频率槽不具有太高的放大或太高的衰减，即，频率槽之间的增益变化是有限的。在一个实施方案中，窗口可被设定为[0.15,0.7,0.15]的典型值，即，在卷积之后，每个频带中的所得增益由相邻频带的15/15百分比的比率和当前频带的70百分比的比率组成。通常，在此类卷积运算中包括超过3-5个临界频带可能是不明智的，因为每个临界频带在频率上相距越远，就越独立于相邻频带。在另一另外的或替代实施方案中，使用具有加权参数T_i的指数加权移动平均来对语音滤波器50的增益进行平均。加权参数T_i可例如由用户选择或者设定为与例如人耳的整合时间相对应的固定值，即-T_i.＝0.3。这也将有效地减慢更新速率，并且因此允许用户根据频率着色调整听力。

在学习了根据本公开的方法100之后，对于技术人员来说显而易见的是，方法100涉及处理(滤波、改变)音频流20以提高音频流20的言语清晰度。方法100在其最一般的形式中不包括添加环境噪声40或估计的内部噪声40’的任何倒数。方法100而是通过语音滤波器50改变(滤波、处理)音频流20。语音滤波器50是适于提高言语清晰度的滤波器，其不涉及去除环境噪声40或估计的内部噪声40’，而是涉及调节音频流20以在嘈杂环境中收听音频流20时，提高包括在所述音频流中的言语的清晰度。滤波音频流20的言语音频使得其清晰度提高将改变言语音频的频率内容。换句话说，发出言语音频的人的语音在经过语音滤波器之后可能显得陌生或失真，但言语的清晰度提高了。

应当强调的是，由于同时掩蔽和能量约束，语音滤波器50的增益调整将分布在源信号带宽的所有频率上。因此，在噪声被掩蔽的一些频率下，音频源信号可能被衰减，反之亦然。这种现象在图4中示出，显示了以下示例，音频流20为实线，内部噪声40’为密集虚线，掩蔽阈值T为虚线，并且目标音频流20’为点划线。图4中可视化的优化对于一个帧有效。目标音频流20’已被重新分配能量以掩蔽所有频带下的内部噪声40’。从图4中可看出，当将目标音频流20’与音频流20进行比较时，根据本文的教导，通过语音滤波器50，目标音频流20’在一些频率下被放大，而在其他频率下被衰减。应当指出的是，如果内部噪声40’对于所有频率都低于掩蔽阈值T，则没有由于背景噪声而进行的语音增强。

如果适用，听力损伤补偿可被描述为但不限于时域或频域中抵消或减轻用户的听力损伤的滤波器。听力损伤可通过听力概况HL(f_k)、频率函数HL(f_k)来描述，f_k指示以每频率的听力水平dB即dB HL为单位的一组离散频率(通常使用一组5个至7个频率)。听力概况HL(fk)等于或等效于但不限于作为进行音调听力图的听力学检查的结果的听力图。无损伤对应于0dB HL，并且增加的值(即大于0的值)指示听力损伤或缺陷。稍后将描述减轻听力损伤的补偿的形成。在一个实施方案中，听力损伤补偿在频域中由频率函数H_HI(k)即滤波器限定，所述听力损伤补偿是由于用户听力概况HL(f_k)而进行的补偿，并且可在语音优化之前应用105到音频流20。替代的，它可被包括在语音优化130中，而不需要预先处理音频流20。如先前所示，H_HI(k)可被分组为临界频带表示并且作为频率槽缩放应用于从而将它包括在最终的最佳增益H_g(k)中。最终频率振幅调整由语音滤波器50的H_HI(k)H_g(k)＝H_vo(k)给出。这意味着在低噪声条件下由于环境噪声40而由语音滤波器50提供的语音增强可以是所有频率上的单位增益语音滤波器50，因为听力损伤补偿提供了足够的言语清晰度改进。

在一个实施方案中，用户可经由例如混合设定选择应当应用语音补偿以掩蔽环境噪声40的程度m。对于每个频率槽和-m＝[0,…1]，使得：

20*log₁₀(|H_vo(k)|)dB＝(1-m)·20log₁₀(|H(k)|)+m*20log₁₀(H_g(k))，其中m＝0对应于没有由于背景噪声而进行的频率调整。值得注意的是，相位响应保持原样，即∠H_vo(k)＝∠H_HI(k)。

除了补偿用户的听力概况HL(f_k)之外，本发明可任选地与体积相关补偿VDC组合。如所解释的，音频流20包括频谱，并且音频信号的此频谱将在不同的回放声压级处被不同地感知。这可在比较不同SPL下的等响曲线300时看到，参见图5。通过补偿不同等响曲线300之间的差异，音频流20更有可能被感知为预期的，即，当由于预记录数据诸如播客或有声读物而在主机处被掌握时被感知。

图5显示多个等响曲线300。等响曲线300是SPL的量度，通常以分贝表示为dB声压级SPL。声压级是在频谱上提供的，通常是人类的可听频谱。等响曲线300中的每个点表示当与以1kHz呈现的具有特定音素的纯音素相比时收听者感知到恒定响度的声压级。在DIN45631和ISO 532中限定了音素，并且在本文中将音素限定为意指具有50dB SPL的1kHz音调具有50音素的响度，并且以与此信号相同的响度感知的所有其他频率也具有50音素的响度。

在图5中，为六个不同的音素绘制了等响曲线300，即图5的图表中有六个曲线图。在图5中，呈现了0、20、40、60、80和100音素的等响曲线300。图5的响度曲线300是根据ISO226:213的响度曲线300。与Harvey Fletcher和Wilden A.Munson在1933年提供的Fletcher-Munson曲线相比，这些轮廓300被校正。Fletcher-Munson曲线通常被称为等响度的概念的第一描述。如果声压级对收听者如何感知音频信号的频谱没有影响，则图5中的轮廓300之间的偏移在所有频率上将是相同的。

除此之外，或者替代听力概况滤波105，方法100还可包括基于音频流的回放音量15和/或所检测到的内部声音37来确定136回放音素。

如上所述，如果内部噪声40’对于所有频率都低于掩蔽阈值T，则没有由于背景噪声而进行的语音增强。这可能是例如低环境噪声环境中的结果，或者是例如听力损伤补偿导致对应阈值T高于内部环境噪声40’的信号电平的结果。

在以下的实施方案中，基于用户听力概况HL(f_k)来计算听力损伤。利用所谓的语音清晰度指数计数点音频形式，可执行另外的优化问题。给出听力概况HL(f_k)，期望提供滤波器H_HI(k)调整听力阈值，以最大化标准化发音指数AI或言语清晰度指数SII，如计数点听力图给出的。当听力概况HL(f_k)绘制在限定的图表上时，AI被计算为听力概况HL(f_k)下方的点的数量，如图6中的虚线所示。

在一个可被描述为优化公式的实施方案中，其中作为频率槽的函数的一组增益h_HI(k)被优化以放大/衰减并且重新分配音频流的能量，使得清晰度指数最大化，

因此滤波器H_HI(k)＝h_HI(k)是由频率k下的必要增益形成的，使得由所产生的滤波器在目标音频流20’中的总能量改变等于伽玛。在一个实施方案中，γ＝l对应于如图6中例证的能量重新分布，另一个示例是γ＝2，其中在所有频率上获得2的恒定增益。可根据***1中的放大可能性来设定伽玛，通常如果不允许放大则将其设定为1(单位)，或者如果可加倍则将其设定为2，如上所例证。同样，相同的推理也适用于此处由于背景噪声引起的能量分布，不可能在所有频率上进行放大。

图6描绘了示例性计数点听力图，其中点划线是以dB HL(听力水平)为单位的听力测试结果。实线是应用补偿滤波器后的结果。如所见，AI增加了，即实线下方的点多于虚线下方的点。因为期望滤波器H_HI(k)提供的总体能量改变为1，因此丢掉了一些点。图6所示的结果对于60dB的声压，即正常对话水平或安静环境中的收听水平是有效的。由于当由换能器35播放时目标音频流20’的近似声压级是可用的，因此例如通过***1的音量阶跃的预校准和对应的声压级，通过使用内部麦克风36测量声压级，可相应地调整例如听力概况。

如以上所提及，在一个任选实施方案中，VDC是使用预校准表来实施的，使其成为不基于音频流20的动态改变滤波器H_HI(k)的固定方法。因此，滤波器H_HI(k)仅在音量设定(即音频设备30的播放音量15)改变的情况下才更新。在一个实施方案中，预校准表包含用于每个音量阶跃和频率槽的缩放因子a(k)，所述缩放因子应用于H_HI(k)，例如，a(k)H_HI(k)。预校准表的大小取决于计算中使用的音量阶跃的数量和频率槽的数量。

在一个实施方案中，VDC计算频域中的两个听力补偿，每只耳朵一个听力补偿。在另一个实施方案中，其可被配置为组合左耳补偿和右耳补偿，以便提供适合双耳的单一听力补偿。当回放利用若干个换能器并且来自每个换能器的声音可物理地到达收听者的每只耳朵时，这一点很重要。

在VDC的具体实施的可很好地与以上实施方案结合的另一个实施方案中，使用反馈麦克风信号使其成为动态方法，所述方法在换能器35播放目标音频流20’时基于目标音频流的水平来更新滤波器H_HI(k)。这种方法更频繁地计算补偿。为了避免音频信号中的急剧瞬变，滤波器H_HI(k)的更新速率可保持较低，约0.25-1Hz。

尽管在假设信号或言语水平为60dB SPL的情况下提供计数点听力图，但是本文的结果和方法100可很好地利用声压级来缩放并且具有正确的结果。作为非限制性示例，对应于10dB SPL的音量增加10dB将对应于图6的点划线在听力水平标度(y轴)上向0dB HL偏移10dB。这意味着，由于音量增加，言语清晰度增加，并且对应的听力障碍补偿也相应地调整。较低的音量有模拟示例。正如本领域技术人员将推断的，如果点划线位于具有包括由于信号水平增加而引起的任何偏移的点的区域之上，则不需要增强。

基于计数点听力图和此处的教导来缩放结果和调整听力损伤的其他方法现在对于本领域技术人员来说应该是显而易见的。

如先前所提及，本公开背后的发明人已经认识到可基于环境噪声40通过机器学习来准确地建模内部噪声40’。从ANC技术已知内部噪声40’是由主(声学)路径滤波的外部噪声40。其中后者描述了当外部噪声40从耳机30外部传播到耳腔中时对外部噪声40的影响。主要路径是重要的(未知的)噪声传递函数，必须实时且高准确度地找到所述函数，以便ANC正确地操作，即ANC技术才能形成消除(并且因此衰减)内部噪声40’的正确抗噪声。对ANC技术的实时性和准确性要求通常规定ANC技术在专用硬件中执行。

对于本发明，估计内部噪声40’时的实时性和准确性要求比ANC技术要低得多，这将在后面描述。除此之外，不需要专用硬件。本领域技术人员已知的许多相同方面仍然存在，例如当由换能器35渲染时，内部噪声40’的估计必须从近端音频流中排除回声，并且代替复杂的实时自适应滤波和校准(对于ANC)，神经网络用于对主要路径包括噪声、回声和近端通话者之间的分离进行建模。

优选实施方案的神经网络是RNN。RNN通常基于长短期记忆LSTM或门控循环单元GRU。一般来说，RNN的特征向量和输出向量可以多种方式选择，并且两者的选择、RNN的大小以及训练数据质量和RNN的训练将决定RNN在给定输入的情况下输出期望输出数据即特征数据的能力的性能。

RNN的大小由训练结果和实时音频***实现所带来的资源约束来设定。一般来说，RNN的大小(即单元的数量和隐藏层的数量)是设计选择，FFT计算中的点的数量也是如此。RNN的典型大小是200-300个单元，具有3-4个隐藏层。可例如通过选择较低阶RNN并且增加输出上的误差和/或通过跳过和结构化RNN单元的修剪来减少RNN的计算需求。

应当指出的是，外部麦克风5提供的信号的绝对水平对于应用来说是重要的。因此，可采用用于数据扩充的方法，在所述方法中用随机生成的二阶滤波器对每个训练示例进行预滤波。从而训练RNN对由于外部麦克风5频率响应容限和外部麦克风5放置变化引起的频率变化具有鲁棒性。为了对水平变化的鲁棒性，优选地变化训练示例中的单个信号的水平。

显而易见，以上RNN描述只是作为RNN的一个工作示例而提供的一个非限制性示例。本领域技术人员在理解本文的教导之后，当然可设计不同的示例，变化特征集、输出集和/或训练，例如，数据集、损失函数、优化过程等。

RNN的特征提取可由言语识别理论提供。并且以下实施方案将被视为特征提取的非穷举示例，其可以任何可想象的顺序或集合彼此组合。

在一个实施方案中，所述特征包括由麦克风5提供的信号的每个临界频带的能量的对数的离散余弦变换。在一个实施方案中，所述特征包括由麦克风5提供的信号的频谱，所述频谱以临界频带表示，如本公开中所描述的。在另外的实施方案中，所述特征还包括整个子帧中的平均能量。在一个实施方案中，所述特征包括覆盖高达至少600Hz、优选地高达至少1000Hz的当前子帧与先前子帧倒谱对数系数之间的振幅的增量改变。从而高度确定地包括典型声音的发声基础。在一个实施方案中，所述特征包括说明非噪声源信号是否有效的二进制信号，例如，用于说明用户是否正在说话或是否存在来自传感器的回声的简单的水平检测器。

RNN的输出通常包括每个听觉滤波器频带的内部噪声40’的平均能量值E_v(b),b＝1...N_B。在一个实施方案中，除了上述之外，RNN的输出还包括指示噪声或非噪声的二进制信号、指示低水平或高水平的第二二进制信号、指示近端信号有效的第三二进制信号。类似于所描述的二进制信号的另外的信号可能不会直接用在算法中来计算最佳语音滤波器50，但是对于本领域技术人员来说，容易认识到，诸如所描述的相关输出可帮助在训练RNN时获得更好的结果。

在训练RNN时，一个重要的方面是RNN的泛化能力，这样即使在训练期间未使用的条件下，它也能正确操作。因此，下雨的示例优选地由背景噪声(例如100km/h的全尺寸轿车和自助餐厅)、回声信号和具有如上所述的不同水平和滤波的近端通话的组合构成。回声信号和近端通话信号优选地是独立的，即相同的话语不同时存在。

在一个实施方案中，训练的地面真值由(仅)基于噪声信号的频谱的每个听觉滤波器的(仅)噪声功率构成，被划分为听觉滤波器，并且在耳机和耳腔中被参考(测量)。因此，这将包括主要路径，即耳机外部到耳机和耳腔内部。这一点很重要，因为耳机由于在佩戴时的声学密封(取决于耳机类型，入耳式、包耳式和贴耳式)而至少对噪声具有高频衰减。如果耳机还具有主动降噪(通常在150-900Hz的频率范围内操作)，则耳机外部的噪声与腔内部的噪声大不相同。

能够促进噪声、近端言语和回声的呈现并且同时记录内部噪声40’(地面真值)的***是行业标准，并且所述过程是完全自动化的。在一个非限制性示例中，开始场景，在所述场景中从测量室中的多扬声器设置渲染背景噪声，被测耳机位于头部和躯干模拟器上，所述头部和躯干模拟器将内部噪声记录为到达放置在每个耳朵模拟器中的麦克风的信号。同时，背景噪声由耳机30上的外部麦克风5记录。场景完成后，每个信号都会经过调节、时间调整并且转换为特征集或地面真值集。

概括地说，在内部噪声40’的建模中使用机器学习和循环神经网络导致听觉频带模型中的噪声估计，在不使用复杂的语音活动检测或回声消除的情况下去除近端通话和回声，并且它将对从耳机外部到耳机和耳腔内部的主要路径进行建模。

贯穿本公开呈现了语音滤波器50的不同方面的若干具体实施方式。不管如何确定语音滤波器50，语音滤波器50H_vo(k)如上所述被应用140到数字源信号、音频流20。可存在多个语音滤波器50，每个语音滤波器50提供要在换能器35上渲染的目标音频流20’。存在若干种处理音频流20的方法，并且本领域技术人员在阅读本公开之后将看到除以下两个示例之外的若干种其他方法。在一个实施方案中，语音滤波器50可通过例如将频率函数转换为有限脉冲响应滤波器来应用140，如果相位响应不那么重要，则它可以是导致线性相位的对称脉冲响应滤波器。在一个实施方案中，语音滤波器50可通过重叠相加方法在频域中相乘来应用140，以避免在相乘到频率函数时出现循环卷积。

在一个优选实施方案中，音频设备30根据每个换能器35包括至少一个语音滤波器50。

在一个实施方案中，提供目标音频流20’的语音滤波器50是能量归一化的。这可能导致时域信号中的高峰值振幅。在另一个实施方案中，目标音频流20’被衰减以确保目标音频流20’的信号振幅对于最终信号格式来说不是太高。然后可使用例如标准限制器或动态范围控制器DRC将信号幅度转换成正确的格式而不失真。应当指出的是，除了控制信号振幅之外不需要另外的处理。限制器和DRC可以是数字音频***的其他部件，并且为了听力安全而优选地被包括在内。

参考图7，将解释确定130语音滤波器50的一些另外的非穷举步骤。以下实施方案可与本文提出的任何其他实施方案组合，并且与本文公开的详细示例和计算完全兼容。

在方法100的一个实施方案中，确定130语音滤波器50的步骤包括从所检测到的内部声音37中减去132估计的内部噪声40’。这将提供真实的音频流37’，即目标音频流20’在用户的耳朵处实际听起来的样子。基于目标音频流20’和真实音频流37’之间的差异，因此可基于此差异来更新138语音滤波器50。这有效地形成了控制循环，其中可确保目标音频流37实际上是用户听到的。这是有益的，因为它使得可基于例如用户如何佩戴音频设备以及音频设备在用户耳朵处的贴合度来更新语音滤波器。

在方法100的一个实施方案中，确定130语音滤波器50的步骤包括将估计的内部噪声40’与一个或多个掩蔽阈值T进行比较134。这实质上是将图4的密集的虚线(估计的内部噪声40’)与虚线(掩蔽阈值T)进行比较134。然后基于比较134更新语音滤波器以提供目标音频流20’。在方法100的另外的任选的实施方案中，掩蔽阈值T通过执行音频流20的临界频带分析137来计算。临界频带分析137包括通过频率扩展进行的听觉掩蔽。

在方法100的一个实施方案中，其被配置为补偿音频设备30的回放音量15，诸如参考图5所描述的。这包括在确定130语音滤波器50的步骤中，基于回放音量15确定136回放音素。可通过描述声音通过换能器35的传递函数的传递函数从回放音素确定回放音素。除此之外，更新138语音滤波器50的步骤进一步基于与所确定的音素相关联的等响曲线。在另一个实施方案中，回放音素进一步基于检测到160的内部声音37。

除了解决先前提出的问题之外，本发明将基本上提供提高的言语清晰度，而不管音频设备30的用户如何选择携带音频设备30。通常，音频设备的换能器35被配置为在特定负载下工作。此负载呈用户与换能器35之间的气腔的形式。如果音频设备30是例如一对封闭式耳机，则通过将耳机30牢固且紧密地携带在用户的外耳周围来形成气腔。然而，由于并非所有的耳朵都相同，并且并非所有用户都以相同的方式携带他们的音频设备30，因此换能器35的负载在用户之间将不同，并且从而音频设备30的声音也将不同。本发明还通过检测160内部声音37来解决这个问题，内部声音37将根据音频设备30的佩戴方式而不同。

Claims

1.一种由音频设备(30)实时执行的提高包括言语音频的音频流(20)的言语清晰度的方法(100)，所述方法(100)包括：

检测(110)环境噪声(40)，

基于所述环境噪声(40)估计(120)内部噪声(40’)，

基于所估计的内部噪声(40’)和音频流(20)确定(130)语音滤波器(50)，

将所述语音滤波器(50)应用(140)于所述音频流(20)以提供目标音频流(20’)，

将所述目标音频流(20’)输出(150)到一个或多个换能器(35)，从而生成所述音频设备(30)的内部声音(37)，以及

检测(160)所述音频设备(30)的所述内部声音(37)，

其中确定(130)所述语音滤波器(50)还进一步基于所检测到的内部声音(37)并且包括：

从所检测到的内部声音(37)中减去(132)所估计的内部噪声(40’)以提供真实的音频流(37’)，以及

基于所述目标音频流(20’)与所述真实音频流(37’)之间的差值来更新(138)所述语音滤波器(50)。

2.如权利要求1所述的方法(100)，其中确定(130)所述语音滤波器(50)还包括：

将所估计的内部噪声(40’)与一个或多个掩蔽阈值(T)进行比较(134)，以及

基于所述比较(134)更新(138)所述语音滤波器(50)。

3.如权利要求2所述的方法(100)，其中所述一个或多个掩蔽阈值(T)通过执行所述音频流(20)的临界频带分析(137)来计算，其中所述临界频带分析(137)包括由频率扩展进行的听觉掩蔽。

4.如前述权利要求中任一项所述的方法(100)，还包括：对所述音频流(20)进行滤波(105)以补偿与所述音频设备(30)的用户相关联的听力概况(HL(f_k))。

5.如权利要求4所述的方法(100)，其中确定(130)所述语音滤波器(50)是在所述滤波(105)之后执行，使得所述确定(130)基于针对与所述音频设备(30)的所述用户相关联的听力概况(HL(f_k))补偿的音频流(20)。

6.如前述权利要求中任一项所述的方法(100)，其中确定(130)所述语音滤波器(50)还包括：

基于回放音量(15)确定(136)回放音素，并且其中更新(138)所述语音滤波器(50)的步骤进一步基于与所确定的音素相关联的等响曲线。

7.如权利要求6所述的方法(100)，其中所述回放音素的所述确定(136)进一步基于所述内部声音(37)。

8.如前述权利要求中任一项所述的方法(100)，其中确定所述语音滤波器(50)还包括：通过使用频率窗口函数的卷积来平滑所述语音滤波器(50)在频率上的增益。

9.如前述权利要求中任一项所述的方法(100)，其中确定所述语音滤波器(50)还包括：使用包括一个或多个加权参数(T_i)的指数加权移动平均值对所述语音滤波器(50)的所述增益进行平均。

10.如前述权利要求中任一项所述的方法，其中确定(130)所述语音滤波器(5)还包括：应用可配置的混合设定以选择将所述语音滤波器(5)应用于所述音频流(20)的程度(m)。

11.如前述权利要求中任一项所述的方法(100)，其中估计(120)内部噪声(37’)的步骤由一个或多个循环神经网络RNN来实施。

12.如前述权利要求中任一项所述的方法(100)，其中所述环境噪声(40)由可操作地连接到所述音频设备(30)的外部麦克风(5)检测。

13.如前述权利要求中任一项所述的方法(100)，其中所述环境噪声(40)限于高达10kHz、优选地高达8kHz的最大音频带宽。

14.如前述权利要求中任一项所述的方法(100)，其还包括：在将所述语音滤波器(50)应用(140)于所述音频流(20)之后，将主动降噪ANC应用于所述音频流(20)。

15.一种音频设备(30)，其包括：一个或多个换能器(35)；至少一个内部麦克风(36)，所述至少一个内部麦克风被布置成检测用户的耳腔处的内部声音(37)；以及处理模块(32)，所述处理模块可操作地连接到所述内部麦克风(36)，连接到所述一个或多个换能器(35)并且连接到外部麦克风(5)，其中所述处理模块(32)被配置为执行如权利要求1至14中任一项所述的方法(100)。

16.如权利要求15所述的音频设备(30)，其中所述外部麦克风(5)包括在所述音频设备(30)中。

17.一种用于实时提高言语清晰度的音频***(1)，所述***(1)包括：便携式电子设备(10)，所述便携式电子设备可操作地连接到音频设备(30)并且被配置为将包括言语音频的音频流(20)传递到所述音频设备(30)，其中所述音频设备是如权利要求15或16中任一项所述的音频设备。

18.如权利要求17所述的音频***(1)，其中环境噪声(40)由包括在所述电子设备(10)中的外部麦克风(5)感测，并且所述电子设备(10)进一步被配置为将由所述外部麦克风(5)所感测的所述环境噪声(40)传递到所述音频设备(30)。

19.一种计算机程序产品(200)，其被配置为在由处理模块(32)执行时致使所述处理模块(32)执行如权利要求1至14中任一项所述的方法(100)。