CN109087659A

CN109087659A - 音频优化方法及设备

Info

Publication number: CN109087659A
Application number: CN201810878268.3A
Authority: CN
Inventors: 叶韵
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2018-12-25

Abstract

提供了一种音频优化方法及设备。所述音频优化方法包括：获取适用于不同环境的多个环境噪声模型；获取音频数据；针对音频数据从所述多个环境噪声模型中选择一个环境噪声模型；使用选择的环境噪声模型对音频数据进行优化。本发明的音频优化方法和设备可从多个环境噪声模型中选择出最佳的环境噪声模型对音频数据进行优化。

Description

音频优化方法及设备

技术领域

以下描述涉及一种音频优化方法及设备，更具体地，涉及一种可从多个环境噪声模型中选择一种环境噪声模型，并使用选择出的环境噪声模型对音频数据进行优化的方法及设备。

背景技术

语音优化是以语音录音和播放中的干扰因素为处理对象的一种方法，其中，干扰因素包括干扰噪音、语音模糊、口音、发音错误、破音、失真等多个导致语音不清晰的情况。语音优化***就是将这些干扰因素减少并消除的一种***，从而从各方面提升语音通话的舒适性、便利性和适应性。

在智能设备接听电话或发送语音信息时，通常会遇到有干扰的情况。干扰较大时，会影响录制的声音质量，需要对语音进行音频优化。目前的音频优化技术主要依靠硬件完成，需要搭配使用外部设备和接口，外部设备需要进行单独充电，在使用过程中多有不便。同时，硬件的音频优化方案较为固定，通常采用高通滤波、低通滤波或高斯滤波等固定方法，无法针对环境做出适应性地调整，通常优化效果较不稳定。

发明内容

提出本发明可至少解决上述缺点并提供下述优点。

本发明的一方面在于可使用户可从预先配置的多个环境噪声模型中选择一个期望的环境噪声模型对音频数据进行优化。

本发明的另一方面在于可通过对音频数据进行预优化处理来自动地从预先配置的环境噪声模型中选择出最佳的环境噪声模型对音频数据进行优化。

本发明的另一方面在于可根据音频数据重新选择最佳的环境噪声模型，并使用重新选择的最佳环境噪声模型对音频数据进行优化，使得可在对音频数据进行优化的过程中始终使用最佳的环境噪声模型对音频数据进行优化。

本发明的另一方面在于可在获取音频数据和对获取的音频数据进行优化的过程中，不断地收集数据，并将数据不同地存储在各个数据集中，并通过对收集的数据进行处理，实现对音频优化设备配置的多个环境噪声模型的进一步优化，使得环境噪声模型能够更准确地体现特定环境下的噪声特征。

本发明的另一方面在于可使用户建立新的环境噪声模型，使得用户可在不满意现有的环境噪声模型对音频数据的优化效果的情况下，建立新的环境噪声模型对音频数据进行优化。

根据本发明的一方面，提供了一种音频优化方法，所述方法包括：获取适用于不同环境的多个环境噪声模型；获取音频数据；针对音频数据从所述多个环境噪声模型中选择一个环境噪声模型；使用选择的环境噪声模型对音频数据进行优化。

从所述多个环境噪声模型中选择一个环境噪声模型的步骤可包括：在手动选择模式下，接收用户对所述多个环境噪声模型中的一个环境噪声模型的指定的输入，并将用户指定的环境噪声模型确定为选择的环境噪声模型。

从所述多个环境噪声模型中选择一个环境噪声模型的步骤可包括：在自适应选择模式下，分别使用所述多个环境噪声模型中的每个环境噪声模型对音频数据进行预优化，并根据预优化结果从所述多个环境噪声模型中选择一个环境噪声模型。

分别使用所述多个环境噪声模型中的每个环境噪声模型对音频数据进行预优化，并根据预优化结果从所述多个环境噪声模型中选择一个环境噪声模型的步骤可包括：从音频数据中截取出预定长度的音频数据；分别使用所述多个环境噪声模型中的每个环境噪声模型对所述预定长度的音频数据进行优化，获取分别与所述多个环境噪声模型相应的多个优化结果；分别对多个优化结果中的每个优化结果进行评价，从所述多个环境噪声模型中选择评价结果最好的环境噪声模型。

分别对多个优化结果中的每个优化结果进行评价的步骤可包括：分别计算每个优化结果的信噪比、主观语音质量评估和分段信噪比；分别计算每个优化结果的信噪比、主观语音质量评估和分段信噪比的加权平均值；将与加权平均值最高的优化结果相应的环境噪声模型确定为评价结果最好的环境噪声模型。

在自适应选择模式下，使用选择的环境噪声模型对音频数据进行优化的步骤可包括：每隔预定时间间隔，对音频数据进行一次预优化，并根据预优化结果从多个环境噪声模型中选择一个环境噪声模型，使用选择的环境噪声模型对音频数据之中的从选择出该环境噪声模型的时刻起到下一次选择出环境噪声模型的时刻为止的音频数据进行优化。

对音频数据进行优化的步骤可包括：通过从音频数据的频谱中减去与选择的环境噪声模型相应的噪声特征的频谱来获取优化后的音频数据。

所述优化方法还可包括：在获取音频数据之后，确定音频数据是否需要被优化；如果音频数据不需要被优化，则将音频数据添加到预先设置的训练样本库中的纯净数据集中；如果音频数据需要被优化，则在使用选择的环境噪声模型对音频数据进行优化之后，将与优化后的音频数据相应的原始音频数据添加到所述训练样本库中的与选择的环境噪声模型相应的噪声数据集中；基于纯净数据集中的音频数据和与选择的环境噪声模型相应的噪声数据集中的音频数据，对选择的环境噪声模型进行优化。

在使用选择的环境噪声模型对音频数据进行优化之后，将与优化后的音频数据相应的原始音频数据加入所述训练样本库中的与选择的环境噪声模型相应的噪声数据集中的步骤可包括：在自适应选择模式下，确定选择的环境噪声模型是否满足预定条件；如果选择的环境噪声模型不满足预定条件，则提示用户是否建议新的环境噪声模型；如果用户选择建立新的环境噪声模型，则建立新的环境噪声模型，并将与优化后的音频数据相应的原始音频数据加入所述训练样本库中的与新的环境噪声模型相应的噪声数据集中。

确定选择的环境噪声模型是否满足预定条件的步骤可包括：计算所述预定长度的音频数据的信噪比、主观语音质量评估和分段信噪比的第一加权平均值；计算使用选择的环境噪声模型对预定长度的音频数据进行优化后的音频数据的信噪比、主观语音质量评估和分段信噪比的第二加权平均值；计算第二加权平均值与第一加权平均值的比值；如果所述比值没有达到预定值，则确定选择的环境噪声模型不满足所述预定条件。

对选择的环境噪声模型进行优化的步骤可包括：将与选择的环境噪声模型相应的噪声数据集中的音频数据的音频特征与纯净数据集中的音频数据的音频特征之间的差确定为与选择的环境噪声模型相应的噪声特征。

根据本发明的另一方面，提供了一种音频优化设备，所述设备包括：模型获取模块，被配置为获取适用于不同环境的多个环境噪声模型；数据采集模块，被配置为获取音频数据；模型选择模块，被配置为针对音频数据从所述多个环境噪声模型中选择一个环境噪声模型；音频优化模块，被配置为使用选择的环境噪声模型对音频数据进行优化。

模型选择模块可被配置为：在手动选择模式下，接收用户对所述多个环境噪声模型中的一个环境噪声模型的指定的输入，并将用户指定的环境噪声模型确定为选择的环境噪声模型。

模型选择模块可被配置为：在自适应选择模式下，分别使用所述多个环境噪声模型中的每个环境噪声模型对音频数据进行预优化，并根据预优化结果从所述多个环境噪声模型中选择一个环境噪声模型。

模型选择模块可被配置为：从音频数据中截取出预定长度的音频数据；分别使用所述多个环境噪声模型中的每个环境噪声模型对所述预定长度的音频数据进行优化，获取分别与所述多个环境噪声模型相应的多个优化结果；分别对多个优化结果中的每个优化结果进行评价，从所述多个环境噪声模型中选择评价结果最好的环境噪声模型。

模型选择模块可被配置为：分别计算每个优化结果的信噪比、主观语音质量评估和分段信噪比；分别计算每个优化结果的信噪比、主观语音质量评估和分段信噪比的加权平均值；将与加权平均值最高的优化结果相应的环境噪声模型确定为评价结果最好的环境噪声模型。

模型选择模块可被配置为：在自适应选择模式下，每隔预定时间间隔，对音频数据进行一次预优化，并根据预优化结果从多个环境噪声模型中选择一个环境噪声模型，使用选择的环境噪声模型对音频数据之中的从选择出该环境噪声模型的时刻起到下一次选择出环境噪声模型的时刻为止的音频数据进行优化。

音频优化模块可被配置为：通过从音频数据的频谱中减去与选择的环境噪声模型相应的噪声特征的频谱来获取优化后的音频数据。

所述音频优化设备还可包括：模型优化模块，被配置为：在获取音频数据之后，确定音频数据是否需要被优化；如果音频数据不需要被优化，则将音频数据添加到预先设置的训练样本库中的纯净数据集中；如果音频数据需要被优化，则在音频优化模块使用模型选择模块选择的环境噪声模型对音频数据进行优化之后，将与优化后的音频数据相应的原始音频数据添加到所述训练样本库中的与选择的环境噪声模型相应的噪声数据集中；基于纯净数据集中的音频数据和与选择的环境噪声模型相应的噪声数据集中的音频数据，对选择的环境噪声模型进行优化。

所述音频优化设备还可包括：模型建立模块，被配置为：在自适应选择模式下，确定选择的环境噪声模型是否满足预定条件；如果选择的环境噪声模型不满足预定条件，则提示用户是否建议新的环境噪声模型；如果用户选择建立新的环境噪声模型，则建立新的环境噪声模型，并将与优化后的音频数据相应的原始音频数据加入所述训练样本库中的与新的环境噪声模型相应的噪声数据集中。

模型建立模块可被配置为：计算所述预定长度的音频数据的信噪比、主观语音质量评估和分段信噪比的第一加权平均值；计算使用选择的环境噪声模型对预定长度的音频数据进行优化后的音频数据的信噪比、主观语音质量评估和分段信噪比的第二加权平均值；计算第二加权平均值与第一加权平均值的比值；如果所述比值没有达到预定值，则确定选择的环境噪声模型不满足所述预定条件。

模型优化模块可被配置为：将与选择的环境噪声模型相应的噪声数据集中的音频数据的音频特征与纯净数据集中的音频数据的音频特征之间的差确定为与选择的环境噪声模型相应的噪声特征。

一种计算机可读存储介质，存储有程序，被配置为：所述程序包括执行上述音频优化方法的代码。

一种计算机，包括存储有计算机程序的可读介质，被配置为：所述计算机程序包括执行上述音频优化方法的代码。本发明可通过从多个环境噪声模型中选择出最佳的环境噪声模型对音频数据进行优化。此外，本发明还可根据用户是否满意音频优化效果，建立新的环境噪声模型，使得随着音频优化设备的使用时间增加，音频优化设备中可选的环境噪声模型变多，环境噪声模型对音频数据的适配性逐渐增加。此外，本发明还可在不断使用音频优化设备的过程中，存储不带噪声的纯净数据和带噪声的噪声数据，并通过纯净数据和噪声数据对所有的环境噪声模型不断地进行优化，使得各个环境噪声模型可更精确地表示相应环境的噪声特征，使得随着音频优化设备的使用时间增加，对音频数据的优化效果更好。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本发明示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1是根据示例性实施例的音频优化方法的流程图；

图2是根据示例性实施例的在自适应选择模式下从多个环境噪声模型中选择一个环境噪声模型的流程图；

图3是根据示例性实施例的在自适应选择模式下对音频数据进行优化的示意图；

图4是根据示例性实施例的对环境噪声模型进行训练优化的方法的流程图；

图5是根据示例性实施例的音频优化设备的框图。

具体实施方式

现将详细参照本发明的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指示相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

用户在发出语音或收听语音时，由于用户的口音、语言种类、用户所在环境中的干扰等因素，用户发出的语音或接收到的语音可能受到干扰，导致语音质量较差，因此需要对语音进行优化。由于用户在发送语音或接收语音时，干扰语音质量的因素可实时变化，因此，使用一种优化方式持续对语音进行优化可能导致语音中的某一段的优化效果较好，某一段的优化效果较差的现象，因此，提出了一种可通过选择优化方案来对用户语音进行优化的方法。在下文中，音频数据中的噪声可指口音、说话卡壳、方言、背景噪声等所有能够导致语音不清晰的因素。

图1是根据本公开的实施例的音频优化方法的流程图。

在步骤101，获取适用于不同环境的多个环境噪声模型。在用户购买音频优化设备后初次启动音频优化设备时，可提示用户为音频优化设备配置适用于不同环境的多个环境噪声模型。

当用户初次使用音频优化设备时，音频优化设备可提示用户是否需要自定义配置多个环境噪声模型。根据本发明的实施例，如果用户不需要自定义配置，则音频优化设备可提供默认的多个环境噪声模型。

根据本发明的另一实施例，用户可自定义配置多个环境噪声模型。例如，用户可根据音频优化设备的使用环境、场景等，从音频优化设备中存储的所有环境噪声模型中选择多个环境噪声模型，作为为音频优化设备配置的多个环境噪声模型。可选地，用户还可从服务器上下载期望的环境噪声模型作为为音频优化设备配置的多个环境噪声模型中的一个。以上示例仅是示例性的，本发明不限于此，用户还可通过其他方法为音频优化设备获取环境噪声模型。

为音频优化设备配置的多个环境噪声模型中的每个环境噪声模型适用于不同的环境，具有表示不同的环境的噪声特征。例如，音频优化设备可存储适用于人声环境的英语人声模型、韩语人声模型、中文人声模型、适用于室内环境的电视背景音模型、适用于室外环境的街景背景音模型、通用的标准噪声模型等。当用户不需要自定义配置环境噪声模型时，可默认提供英语人声模型和标准噪声模型。可选地，当用户选择自定义配置环境噪声模型时，如果音频优化设备是适用于家庭的音箱设备，则用户可从本地存储的所有的环境噪声模型中选择中文人声模型和电视背景音模型。可选地，当用户选择自定义配置环境噪声模型时，用户还可从服务器上下载音箱设备中没有存储的环境噪声模型。例如，用户可从服务器上下载适用于音乐背景环境的音乐背景音模型。以上示例仅是示例性的，本发明不限于此。

在步骤102，获取音频数据。音频优化设备可录入通过麦克风输入的音频数据，或通过扬声器播放的音频数据。

根据本发明的实施例，当用户通过麦克风输入语音或通过扬声器播放语音时，音频优化设备可进行数据收集，从而录入语音。用户可根据提示自主选择是否录入语音或选择在特定场景下自动录入语音。在录入语音的过程中，与智能设备处于同一网络下的其他设备也可用作录入设备，同时录入用户的语音以获取更准确和更丰富的音频数据源。

根据本发明的另一实施例，用户可进行传统的语音通话，或可通过音频优化设备中安装的应用(例如，微信等)进行语音通话或收发语音消息。根据本发明的实施例，当用户进行传统的语音通话时，可将用户通过麦克风输入的语音作为模拟信号进行采集，在采集到模拟信号的音频数据之后，将模拟信号的音频数据转换为数字信号的音频数据，并将转换为数字信号的音频数据保存为数字文件格式，例如，WAV格式或PCM格式。此外，在将模拟信号的音频数据转换为数字信号的音频数据之后，可将音频数据中的空白数据过滤去除，再保存为数字文件格式，以增加音频数据的效率。此外，在用户进行传统的语音通话时，通过扬声器、蓝牙耳机等播放的语音被直接录入为数字文件格式，例如，WAV格式或PCM格式。

根据本发明的另一实施例，当用户通过音频优化设备中安装的应用(例如，微信等)进行语音通话或收发语音消息时，用户通过麦克风输入的语音、通过扬声器播放的语音和收发的语音消息均是数字信号的音频数据，在这种情况下，直接将语音通话或语音消息中用户的语音保存为数字文件格式的音频数据，例如，WAV格式或PCM格式。此外，当用户在应用内收发语音消息时，如果在一条语音消息之前或之后，存在文字消息，即，一条语音消息是对上一条文字消息的应答，或对一条语音消息进行应答的下一条消息是文字消息，则可将语音消息的上下文文字消息中的文字信息作为这条语音消息的标签，并将文字信息保存为txt格式的文字数据。

在步骤103，针对音频数据从多个环境噪声模型中选择一个环境噪声模型。音频优化设备可具有多种选择环境噪声模型的模式，例如，手动选择模式和自适应选择模式。

根据本发明的实施例，用户可将音频优化设备设置为手动地从多个环境噪声模型中选择一个环境噪声模型的手动选择模式。在手动选择模式下，当音频优化设备获取到需要被优化的音频数据时，音频优化设备可接收用户对多个环境噪声模型中的一个环境噪声模型的指定的输入，并将用户指定的环境噪声模型确定为选择的环境噪声模型。例如，在手动选择模式下，音频优化设备可显示所有可选的环境噪声模型的列表，用户可通过触摸屏幕、按键或语音输入等方式从显示的列表中指定一个期望的环境噪声模型。可选地，在手动模式下，音频优化设备可根据其所处的环境为用户推荐一个环境噪声模型，例如，将推荐的环境噪声模型突出显示在列表的第一位，用户可指定推荐的环境噪声模型，或可指定其他的环境噪声模型。以上示例仅是示例性的，本发明不限于此。

根据本发明的另一实施例，用户可将音频优化设备设置为自适应地从多个环境噪声模型中选择一个环境噪声模型的自适应选择模式。在自适应选择模式下，音频优化设备可分别使用多个环境噪声模型中的每个环境噪声模型对音频数据进行预优化，并根据预优化的结果从多个环境噪声模型中选择一个环境噪声模型。将在下面参照图2对在自适应选择模式下对音频数据进行优化的过程进行详细描述。

在步骤104，在从多个环境噪声模型中选择出一个环境噪声模型之后，使用选择的环境噪声模型对音频数据进行优化。根据本发明的实施例，在对音频数据优化的过程中，可通过从待优化的音频数据的频谱中减去与选择的环境噪声模型相应的噪声特征的频谱，来获取优化后的音频数据，并将优化后的音频数据代替原始未优化的音频数据提供给用户。此外，除了通过从音频数据的频谱中减去噪声特征的频谱来对音频数据进行优化的方法以外，本领域的技术人员还可使用音频优化领域中的其他方法对音频数据进行优化。

图2是根据示例性实施例的在自适应选择模式下从多个环境噪声模型中选择一个环境噪声模型的流程图。

在步骤201，从获取的音频数据中截取出预定长度的音频数据。

根据本发明的实施例，如果音频数据是用户正在使用音频优化设备进行实时语音通话时的音频数据，则可从音频数据中截取出从音频数据开始的时刻起预定时间长度的音频数据。例如，可从音频数据中截取出前5秒的音频数据。以上示例仅是示例性的，本发明不限于此。

根据本发明的另一实施例，如果音频数据是用户在应用内接收发的语音消息，则可从因数据中截取出从音频数据开始的时刻起预定时间长度的音频数据。例如，可从音频数据中截取出前5秒的音频数据，或可从音频数据中截取出从音频数据开始的时刻起长度为整条音频数据的长度的1/10的音频数据。

根据本发明的另一实施例，在从音频数据中截取出预定长度的音频数据之后，可对截取出的预定长度的音频数据进行处理，以将截取出的预定长度的音频数据转换为数字文件格式。例如，如果音频优化设备中存储音频数据的数字文件格式为WAV格式时，可对截取出的预定义长度的音频数据进行WAV格式化。此外，还可对截取出的预定长度的音频数据进行采样、调整码参数等处理。

在步骤202，分别使用多个环境噪声模型中的每个环境噪声模型对截取出的预定长度的音频数据进行优化，并获取多个优化结果。根据本发明的实施例，可通过从截取出的预定长度的音频数据的频谱中减去环境噪声模型的噪声特征的频谱来对截取出的预定长度的音频数据进行优化。在分别使用每个环境噪声模型对截取出的预定长度的音频数据进行优化后，可获取分别与每个环境噪声模型相应的优化结果。

在步骤203，分别对多个优化结果进行评价。根据本发明的实施例，在获取多个优化结果(即，多个优化后的预定长度的音频数据)后，可分别计算每个优化结果的信噪比(SNR)、主观语音质量评估(PESQ)和分段SNR，再分别计算每个优化结果的SNR、PESQ和分段SNR的加权平均值。例如，SNR、PESQ和分段SNR的权重比值可以是1：1：1，或2：1：1，但本发明不限于此，用户还可根据音频数据的优化效果或期望的优化效果设置权重比值。在对多个优化结果评价完成后，可将与加权平均值最高的优化结果相应的环境噪声模型确定为评价结果最好的环境噪声模型。

在步骤204，从多个环境噪声模型中选择评价结果最好的环境噪声模型。根据本发明的实施例，当多个环境噪声模型中的第一环境噪声模型的加权平均值大于其他环境噪声模型的加权平均值时，从多个环境噪声模型中选择第一环境噪声模型。例如，在室内环境中使用的音频优化设备具有英语人声模型、中文人声模型、电视背景音模型和音乐背景音模型，当使用每个环境噪声模型对用户进行语音通话时的音频数据进行预优化时，确定使用电视背景音模型对截取出的一定长度的音频数据的优化效果的SNR、PESQ和分段SNR的加权平均值最高，则从所有的环境噪声模型中选择电视背景音模型。

此外，在自适应选择模式下，根据本发明的优选实施例，在开始获取音频数据后，可每隔预定时间间隔对音频数据进行一次预优化，并根据预优化结果从多个环境噪声模型中选择一个环境噪声模型，再使用选择出的环境噪声模型对音频数据中的从选择出该环境噪声模型的时刻起到下一次选择出环境噪声模型的时刻为止的音频数据进行优化。下面将参照图3详细描述上述过程。

图3是根据示例性实施例的在自适应选择模式下对音频数据进行优化的示意图。

参照图3，从音频数据开始的时刻起，可每隔30秒开始从音频数据中截取出5秒的音频数据。也就是说，可在第0秒开始从音频数据中截取出从第0秒到第5秒的音频数据，在第30秒开始从音频数据中截取出从第30秒到第35秒的音频数据，在第60秒从音频数据中截取出从第60秒到第65秒的音频数据。

如图3所示，在每次截取出5秒的音频数据之后，可在3秒内实现分别使用多个环境噪声模型中的每个环境噪声模型对截取出的5秒的音频数据进行优化以获取多个优化结果，并分别对多个优化结果进行评价。即，可在第5秒开始对截取出的从第0秒到第5秒的音频数据进行优化，并可在第8秒获取每个优化结果的评价结果，可在第35秒开始对截取出的从第30秒到第35秒的音频数据进行优化，并可在第38秒获取每个优化结果的评价结果，可在第65秒开始对截取出的从第60到第65秒的音频数据进行优化，并可在第68秒获取每个优化结果的评价结果。

随后，如图3所示，在第8秒可获取使用每个环境噪声模型对第0秒到第5秒的音频数据进行优化后的每个优化结果的评价结果，并可从多个环境噪声模型中选择出与评价结果最好的优化结果相应的环境噪声模型，并可使用选择出的环境噪声模型对从第8秒开始到第37秒结束的音频数据进行优化，在第38秒可获取使用每个环境噪声模型对第30秒到第35秒的音频数据进行优化后的每个优化结果的评价结果，并可从多个环境噪声模型中选择出与评价结果最好的优化结果相应的环境噪声模型，并可使用选择出的环境噪声模型对从第38开始到第67秒结束的音频数据进行优化。以上示例尽是示例性的，本发明不限于此。此外，在对音频数据进行优化的过程中，可实时地将优化后的音频数据提供给用户。

此外，参照图3进行的描述仅是示例性的，本发明不限于此。

如上所述，已经参照图2和图3描述了在自适应选择模式下对音频数据进行优化的方法。根据本发明的另一实施例，在手动模式下，用户可根据音频优化设备所处的环境的改变，即，获取音频数据的环境的改变，手动地改变对音频数据进行优化的环境噪声模型。或者，用户可在使用手动选择的环境噪声对音频数据进行了一段时间的优化后，根据优化效果，改变对音频数据进行优化的环境噪声模型。此外，根据本发明的另一实施例，用户可在对音频优化的过程中，从手动选择模式切换为自适应选择模式，并根据如上所述的自适应选择模式下对音频数据进行优化的方法继续对音频数据进行优化。

此外，为了使环境噪声模型对音频数据的优化效果更好，可使用不带噪声的纯净数据和带噪声的噪声数据对各个环境噪声模型进行优化，使得各个环境噪声模型可更精确地表示特定环境的噪声特征。下面将参照图4详细描述对环境噪声模型进行优化的方法。

图4是根据示例性实施例的对环境噪声模型进行优化的方法的流程图。

在步骤401，在获取音频数据之后，确定获取的音频数据是否需要优化。当音频优化设备获取到音频数据时，音频优化设备可根据音频数据的质量确定音频数据是否需要被优化。例如，当用户认为音频质量较好时，可选择不对音频数据进行优化。当用户认为音频质量不好时，可选择对音频数据进行优化来提高音频数据的音频质量。此外，用户还可手动指定获取的音频数据是否需要被优化。可选地，用户可在即将进行一段语音通话之前指定接下来的语音通话需要被优化。可选地，用户可预先设置音频优化设备在特定的环境中获取的音频数据默认不需要被优化，或可预先设置音频优化设备在特定的环境中获取的音频数据默认需要被优化。此外，以上示例仅是示例性的，本公开不限于此。

在步骤402，如果确定获取的音频数据不需要被优化，即，认为获取的音频数据是不具有噪声干扰的或噪声干扰较小的纯净数据，则可将获取的音频数据添加到在音频优化设备中预先设置的训练样本库中的纯净数据集中，作为纯净的音频数据的训练样本。

在步骤403，如果确定获取的音频数据需要被优化，则可在使用从多个环境噪声模型中选择出的一个环境噪声模型对音频数据进行优化后，将与使用选择的环境噪声模型进行优化后的音频数据相应的原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与选择的环境噪声模型相应的噪声数据集中，作为带有噪声的音频数据的样本。

根据本发明的实施例，在手动选择模式下，音频优化设备使用用户选择的环境噪声模型对音频数据进行优化，在完成对音频数据的优化后，用户可手动地指定是否将原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与用户手动选择的环境噪声模型相应的噪声数据集中。可选地，在音频优化设备使用用户选择的环境噪声模型对音频数据进行优化后，可询问用户对优化结果是否满意，如果用户选择满意，则可默认将原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与用户手动选择的环境噪声模型相应的噪声数据集中。此外，以上示例仅是示例性的，本发明不限于此。

根据本发明的另一实施例，在自适应选择模式下，在使用从多个环境噪声模型中选择出的一个环境噪声模型对音频数据进行优化后，将与使用选择出的环境噪声模型进行优化的音频数据相应的原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与该环境噪声模型相应的噪声数据集中。例如，可将如图3所示的第8秒到第37秒的音频数据添加到训练样本库中的与在第8秒确定的评价结果最好的环境噪声模型相应的噪声数据集中，可将如图3所示的第38秒到第67秒的音频数据添加到训练样本库中的与在第38秒确定的评价结果最好的环境噪声模型相应的噪声数据集中。

根据本发明的另一实施例，在自适应选择模式下，在从多个环境噪声模型中选择出一个环境噪声模型之后，可确定选择出的环境噪声模型是否满足预定条件。根据本发明的实施例，当从音频数据中截取出预定长度的音频数据时，可计算截取出的预定长度的音频数据的SNR、PESQ和分段SNR的加权平均值，并在根据计算出的加权平均值从多个环境噪声模型中选择出评价结果最好的环境噪声模型后，将评价结果最好的环境噪声模型对截取出的预定长度的音频数据进行优化的优化结果的SNR、PESQ和分段SNR的加权平均值与截取出的预定长度的音频数据的SNR、PESQ和分段SNR的加权平均值进行比较，如果比较结果大于或等于预定值，例如，10％，则确认选择出的环境噪声模型满足预定条件。如果比较结果小于预定值，例如，10％，则确认选择出的环境噪声模型不满足预定条件。此外，以上示例仅是示例性的，本发明不限于此。

如果选择出的环境噪声模型满足预定条件，则在使用选择出的环境噪声模型对音频数据进行优化后，将与使用该环境噪声模型进行优化的音频数据相应的原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与该环境噪声模型相应的噪声数据集中。如果选择出的环境噪声模型不满足预定条件，则在对音频数据的优化完成后，音频优化设备可提示用户是否建立新的环境噪声模型，用户可选择建立或不建立新的环境噪声模型。

例如，当用户认为使用不满足预定条件的环境噪声模型进行优化后的音频数据满足需要，则可选择不建立环境噪声模型。如果用户选择不建立新的环境噪声模型，则可将与使用该环境噪声模型进行优化的音频数据相应的原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与该环境噪声模型相应的噪声数据集中。如果用户选择建立新的环境噪声模型，则可建立新的环境噪声模型和与新的环境噪声模型相应的噪声训练集，并可将与使用该环境噪声模型进行优化的音频数据相应的原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与新建立的环境噪声模型相应的噪声数据集中，而不是添加到训练样本库中的与该环境噪声模型相应的噪声数据集中。此外，如果与新建立的环境噪声模型中的噪声数据集中的音频数据较少，则当用户再次处于与新建立的环境噪声模型相应的环境中时，音频优化设备可提示用户在该环境下录入一段音频数据，并添加到训练样本库中的与新建立的环境噪声模型相应的噪声数据集中，以丰富该噪声数据集中的数据，便于后续对新建立的环境噪声模型的训练优化。

此外，根据本发明的另一实施例，无论是在手动选择模式下，还是在自适应选择模式下，如果用户对优化后的音频数据不满意，则可主动建立新的环境噪声模型，并将带有噪音的原始音频数据添加到训练样本库中的与新建立的环境噪声模型相应的噪声数据集中。

根据本发明的另一实施例，如果纯净数据集中的纯净数据较少，则可根据用户指示或***设置将优化后的音频数据加入到纯净数据集中。例如，如果纯净数据集中的数据较少，则在对一段语音通话中的音频数据进行优化之后，音频优化设备可询问用户对优化后的音频数据是否满意，当用户选择满意时，可继续询问用户是否将优化后的音频数据添加到纯净数据库中，并可根据用户的选择将优化后的音频数据添加到纯净数据库中。可选地，音频优化设备可在用户确定满意优化后的音频数据后，自动地将优化后的音频数据添加到纯净数据库中。可选地，音频优化设备可在对一段音频数据进行优化之后，直接询问是否将优化后的音频数据添加到纯净数据库中，并可根据用户的选择将优化后的音频数据添加到纯净数据库中。

在步骤404，基于纯净数据集中的音频数据和与选择的环境噪声模型相应的噪声数据集中的音频数据，对与选择的环境噪声模型相应的噪声特定进行优化。

根据本发明的实施例，音频优化设备可默认设置在设备空闲时对环境噪声模型进行优化，例如，在夜间2：00-6：00期间对环境噪声模型进行优化，或在音频优化设备停止使用超过一定时间，例如，30分钟时对环境噪声模型进行优化。此外，音频优化设备还可默认设置仅当纯净数据集中的音频数据的时长累计超过例如30分钟时才可对环境噪声模型进行优化。此外，以上示例仅是示例性的，本发明不限于此。

根据本发明的另一实施例，当纯净数据集中的数据发生变化时，在音频优化设备空闲期间，如果纯净数据集中的音频数据的时长累计超过30分钟，则可将与每个环境噪声模型相应的噪声数据集与纯净数据集进行对比，将噪声数据集中的音频数据的音频特征与纯净数据集中的音频数据的音频特征进行对比训练，将每个环境噪声模型的噪声数据集中的音频数据的音频特征与纯净数据集中的音频数据的音频特征之间的差分别确定为与每个环境噪声模型相应的噪声特征。或者，当纯净数据集中的音频数据没有发生变化，但与多个环境噪声模型中特定的环境噪声模型相应的噪声数据集中的音频数据发生变化时，则在音频优化设备空闲时，如果纯净数据集中的音频数据的时长累计超过30分钟，则可将音频数据发生变化的噪声数据集中的音频数据的音频特征与纯净数据集中的音频数据的音频特征进行对比训练，将特定的环境噪声模型的噪声数据集中的音频数据的音频特征和纯净数据集中的音频数据的音频特征之间的差确定为与特定的环境噪声模型相应的噪声特征。此外，除了上述的对环境噪声模型进行优化的方法以外，本领域的技术人员还可使用其他方法对环境噪声模型进行优化。

通过上述音频优化方法，可从多个环境噪声模型中选择出最佳的环境噪声模型对音频数据进行优化。此外，还可根据用户是否满意音频优化效果，建立新的环境噪声模型，使得随着音频优化设备的使用时间增加，音频优化设备中可选的环境噪声模型变多，环境噪声模型对音频数据的适配性逐渐增加。此外，还可在不断使用音频优化设备的过程中，存储不带噪声的纯净数据和带噪声的噪声数据，并通过纯净数据和噪声数据对所有的环境噪声模型不断地进行优化，使得各个环境噪声模型可更精确地表示相应环境的噪声特征，使得随着音频优化设备的使用时间增加，对音频数据的优化效果更好。

图5是根据示例性实施例的音频优化设备的框图。

音频优化设备500可包括模型获取模块501、数据采集模块502、模型选择模块503和音频优化模块504。

模型获取模块501可获取适用于不同环境的多个环境噪声模型。在用户购买音频优化设备500后初次启动音频优化设备500时，模型获取模块501可提示用户为音频优化设备500配置适用于不同环境的多个环境噪声模型。

当用户初次使用音频优化设备500时，模型获取模块501可提示用户是否需要自定义配置多个环境噪声模型。根据本发明的实施例，如果用户不需要自定义配置，则模型获取模块501可提供默认的多个环境噪声模型。

根据本发明的另一实施例，如果用户需要自定义配置多个环境噪声模型，则模型获取模块501可将用户选择的环境噪声模型确定为音频优化设备500配置的环境噪声模型。例如，用户可根据音频优化设备500的使用环境、场景等，从音频优化设备500中存储的所有环境噪声模型中选择多个环境噪声模型，作为为音频优化设备500配置的多个环境噪声模型。可选地，用户还可从服务器上下载期望的环境噪声模型作为为音频优化设备500配置的多个环境噪声模型中的一个。以上示例仅是示例性的，本发明不限于此，用户还可通过其他方法为音频优化设备500获取环境噪声模型。

为音频优化设备配置的多个环境噪声模型中的每个环境噪声模型适用于不同的环境，具有表示不同的环境的噪声特征。例如，音频优化设备500可存储适用于人声环境的英语人声模型、韩语人声模型、中文人声模型、适用于室内环境的电视背景音模型、适用于室外环境的街景背景音模型、通用的标准噪声模型等。当用户不需要自定义配置环境噪声模型时，模型获取模块501可默认提供英语人声模型和标准噪声模型。可选地，当用户选择自定义配置环境噪声模型时，如果音频优化设备500是适用于家庭的音箱设备，则用户从本地存储的所有的环境噪声模型中选择中文人声模型和电视背景音模型。可选地，当用户选择自定义配置环境噪声模型时，用户还可从服务器上下载音频优化设备中没有存储的环境噪声模型。例如，用户可从服务器上下载适用于音乐背景环境的音乐背景音模型。在用户选择环境噪声模型后，模型获取模块501可将用户选择的环境噪声模型确定为音频优化设备500配置的多个环境噪声模型。以上示例仅是示例性的，本发明不限于此。

数据采集模块502可获取音频数据。数据采集模块502可录入通过麦克风输入的音频数据，或通过扬声器播放的音频数据。其中，麦克风和扬声器未在图5中示出。

根据本发明的实施例，当用户通过麦克风输入语音或通过扬声器播放语音时，数据采集模块502可进行数据收集，从而录入语音。用户可根据提示自主选择是否录入语音或选择在特定场景下自动录入语音。在录入语音的过程中，与智能设备处于同一网络下的其他设备也可用作录入设备，同时录入用户的语音以获取更准确和更丰富的音频数据源。

根据本发明的另一实施例，用户可进行传统的语音通话，或可通过音频优化设备500中安装的应用(例如，微信等)进行语音通话或收发语音消息。根据本发明的实施例，当用户进行传统的语音通话时，数据采集模块502可将用户通过麦克风输入的语音作为模拟信号进行采集，在采集到模拟信号的音频数据之后，将模拟信号的音频数据转换为数字信号的音频数据，并将转换为数字信号的音频数据保存为数字文件格式，例如，WAV格式或PCM格式。此外，在将模拟信号的音频数据转换为数字信号的音频数据之后，可将音频数据中的空白数据过滤去除，再保存为数字文件格式，以增加音频数据的效率。此外，在用户进行传统的语音通话时，数据采集模块502可将通过扬声器、蓝牙耳机等播放的语音直接录入为数字文件格式，例如，WAV格式或PCM格式。

根据本发明的另一实施例，当用户通过音频优化设备500中安装的应用(例如，微信等)进行语音通话或收发语音消息时，用户通过麦克风输入的语音、通过扬声器播放的语音和收发的语音消息均是数字信号的音频数据，在这种情况下，数据采集模块502直接将语音通话或语音消息中用户的语音保存为数字文件格式的音频数据，例如，WAV格式或PCM格式。此外，当用户在应用内收发语音消息时，如果在一条语音消息之前或之后，存在文字消息，即，一条语音消息是对上一条文字消息的应答，或对一条语音消息进行应答的下一条消息是文字消息，则数据采集模块502可将语音消息的上下文文字消息中的文字信息作为这条语音消息的标签，并将文字信息保存为txt格式的文字数据。

模型选择模块503可针对音频数据从多个环境噪声模型中选择一个环境噪声模型。音频优化设备500可具有多种选择环境噪声模型的模式，例如，手动选择模式和自适应选择模式。

根据本发明的实施例，用户可将音频优化设备500设置为手动地从多个环境噪声模型中选择一个环境噪声模型的手动选择模式。在手动选择模式下，当数据采集模块502获取到需要被优化的音频数据时，模型选择模块503可接收用户对多个环境噪声模型中的一个环境噪声模型的指定的输入，并将用户指定的环境噪声模型确定为选择的环境噪声模型。例如，在手动选择模式下，音频优化设备500可显示所有可选的环境噪声模型的列表，用户可通过触摸屏幕、按键或语音输入等方式从显示的列表中指定一个期望的环境噪声模型。可选地，在手动模式下，模型选择模块503可根据其所处的环境为用户推荐一个环境噪声模型，例如，将推荐的环境噪声模型突出显示在列表的第一位，用户可指定推荐的环境噪声模型，或可指定其他的环境噪声模型。模型选择模块503可将用户指定的环境噪声模型确定为用户选择的环境噪声模型。以上示例仅是示例性的，本发明不限于此。

根据本发明的另一实施例，用户可将音频优化设备500设置为自适应地从多个环境噪声模型中选择一个环境噪声模型的自适应选择模式。在自适应选择模式下，模型选择模块503可分别使用多个环境噪声模型中的每个环境噪声模型对音频数据进行预优化，并根据预优化的结果从多个环境噪声模型中选择一个环境噪声模型。

根据本发明的实施例，在自适应模式下，模型选择模块503可从获取的音频数据中截取出预定长度的音频数据，并分别使用多个环境噪声模型中的每个环境噪声模型对截取出的预定长度的音频数据进行优化，获取分别与所述多个环境噪声模型相应的多个优化结果；再分别对多个优化结果中的每个优化结果进行评价，从所述多个环境噪声模型中选择评价结果最好的环境噪声模型。

根据本发明的实施例，如果音频数据是用户正在使用音频优化设备500进行实时语音通话时的音频数据，则模型选择模块503可从音频数据中截取出从音频数据开始的时刻起预定时间长度的音频数据，例如，模型选择模块503可从音频数据中截取出前5秒的音频数据。以上示例仅是示例性的，本发明不限于此。

根据本发明的另一实施例，如果音频数据是用户在应用内接收发的语音消息，则模型选择模块503可从因数据中截取出从音频数据开始的时刻起预定时间长度的音频数据。例如，模型选择模块503可从音频数据中截取出前5秒的音频数据，或可从音频数据中截取出从音频数据开始的时刻起长度为整条音频数据的长度的1/10的音频数据。

根据本发明的另一实施例，模型选择模块503在从音频数据中截取出预定长度的音频数据之后，可对截取出的预定长度的音频数据进行处理，以将截取出的预定长度的音频数据转换为数字文件格式。例如，如果音频优化设备500中存储音频数据的数字文件格式为WAV格式时，模型选择模块503可对截取出的预定义长度的音频数据进行WAV格式化。此外，模型选择模块503还可对截取出的预定长度的音频数据进行采样、调整码参数等处理。

模型选择模块503在从获取的音频数据中截取出预定长度的音频数据后，可分别使用多个环境噪声模型中的每个环境噪声模型对截取出的预定长度的音频数据进行优化，并获取多个优化结果。根据本发明的实施例，模型选择模块503可通过从截取出的预定长度的音频数据的频谱中减去环境噪声模型的噪声特征的频谱来对截取出的预定长度的音频数据进行优化。模型选择模块503在分别使用每个环境噪声模型对截取出的预定长度的音频数据进行优化后，可获取分别与每个环境噪声模型相应的优化结果。

模型选择模块503在获取分别与每个环境噪声模型相应的优化结果后，可分别对多个优化结果进行评价。根据本发明的实施例，模型选择模块503在获取多个优化结果(即，多个优化后的预定长度的音频数据)后，可分别计算每个优化结果的信噪比(SNR)、主观语音质量评估(PESQ)和分段SNR，再分别计算每个优化结果的SNR、PESQ和分段SNR的加权平均值。例如，SNR、PESQ和分段SNR的权重比值可以是1：1：1，或2：1：1，但本发明不限于此，用户还可根据音频数据的优化效果或期望的音频数据的效果设置权重比值。模型选择模块503在对多个优化结果评价完成后，可将与加权平均值最高的优化结果相应的环境噪声模型确定为评价结果最好的环境噪声模型，并从多个环境噪声模型中选择评价结果最好的环境噪声模型。

此外，在自适应选择模式下，根据本发明的优选实施例，在开始获取音频数据后，模型选择模块503可每隔预定时间间隔对音频数据进行一次预优化，并根据预优化结果从多个环境噪声模型中选择一个环境噪声模型，再使用选择出的环境噪声模型对音频数据中的从选择出该环境噪声模型的时刻起到下一次选择出环境噪声模型的时刻为止的音频数据进行优化。由于已经在上文中参照图3详细描述了上述过程，因此将不再进行重复描述。

音频优化模块504可在模型选择模块503从多个环境噪声模型中选择出一个环境噪声模型之后，使用选择的环境噪声模型对音频数据进行优化。根据本发明的实施例，在对音频数据优化的过程中，音频优化模块504可通过从待优化的音频数据的频谱中减去与选择的环境噪声模型相应的噪声特征的频谱，来获取优化后的音频数据，并将优化后的音频数据代替原始未优化的音频数据提供给用户。此外，除了通过从音频数据的频谱中减去噪声特征的频谱来对音频数据进行优化的方法以外，本领域的技术人员还可使用音频优化领域中的其他方法对音频数据进行优化。

根据本发明的优选实施例，音频优化设备500还可包括模型优化模块(未示出)。模型优化模块可在开始获取音频数据之后，确定获取的音频数据是否需要优化。当数据采集模块502获取到音频数据时，模型优化模块可根据音频数据的质量确定音频数据是否需要优化。例如，当用户认为音频质量较好时，模型优化模块可选择不对音频数据进行优化。当用户认为音频质量不好时，模型优化模块可选择对音频数据进行优化来提高音频数据的音频质量。此外，用户还可手动指定获取的音频数据是否需要被优化。例如，用户可在即将进行一段语音通话之前指定接下来的语音通话需要被优化。可选地，用户可预先设置音频优化设备500在特定的环境中获取的音频数据默认不需要被优化，或可预先设置音频优化设备500在特定的环境中获取的音频数据默认需要被优化。此外，以上示例仅是示例性的，本公开不限于此。

如果模型优化模块确定获取的音频数据不需要被优化，即，认为获取的音频数据是不具有噪声干扰的或噪声干扰较小的纯净数据，则模型优化模块可将获取的音频数据添加到在音频优化设备500中预先设置的训练样本库中的纯净数据集中，作为纯净的音频数据的训练样本。

如果模型优化模块确定获取的音频数据需要被优化，则可在音频优化模块504使用模型选择模块503选择出的环境噪声模型对音频数据进行优化后，将与使用选择的环境噪声模型进行优化后的音频数据相应的原始音频数(即，进行优化之前的带有噪声的音频数据)据添加到训练样本库中的与选择的环境噪声模型相应的噪声数据集中，作为带有噪声的音频数据的样本。

根据本发明的实施例，在手动选择模式下，在音频优化模块504使用模型选择模块503从多个环境噪声模型中选择出的一个环境噪声模型对音频数据进行优化后，用户可手动地指定是否将原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与用户手动选择的环境噪声模型相应的噪声数据集中。可选地，在音频优化模块504使用模型选择模块503选择的环境噪声模型对音频数据进行优化后，模型优化模块可询问用户对优化结果是否满意，如果用户选择满意，则模型优化模块可默认将原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与用户手动选择的环境噪声模型相应的噪声数据集中。此外，以上示例仅是示例性的，本发明不限于此。

根据本发明的另一实施例，在自适应选择模式下，在音频优化模块504使用模型选择模块503从多个环境噪声模型中选择出的一个环境噪声模型对音频数据进行优化后，模型优化模块将与使用选择出的环境噪声模型进行优化的音频数据相应的原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与该环境噪声模型相应的噪声数据集中。例如，模型优化模块可将如图3所示的第8秒到第37秒的音频数据添加到训练样本库中的与在第8秒确定的评价结果最好的环境噪声模型相应的噪声数据集中，可将如图3所示的第38秒到第67秒的音频数据添加到训练样本库中的与在第38秒确定的评价结果最好的环境噪声模型相应的噪声数据集中。

根据本发明的另一实施例，如果纯净数据集中的纯净数据较少，则模型优化模块可根据用户指示或***设置将优化后的音频数据加入到纯净数据集中。例如，如果纯净数据集中的数据较少，则在对一段语音通话中的音频数据进行优化之后，音频优化设备500可询问用户对优化后的音频数据是否满意，当用户选择满意时，可继续询问用户是否将优化后的音频数据添加到纯净数据库中，模型优化模块可根据用户的选择将优化后的音频数据添加到纯净数据库中。可选地，模型优化模块可在用户确定满意优化后的音频数据后，自动地将优化后的音频优化设备添加到纯净数据库中。可选地，音频优化设备500可在对一段音频数据进行优化之后，直接询问是否将优化后的音频数据添加到纯净数据库中，模型优化模块可根据用户的选择将优化后的音频数据添加到纯净数据库中。

模型优化模块可基于纯净数据集中的音频数据和与选择的环境噪声模型相应的噪声数据集中的音频数据，对与选择的环境噪声模型相应的噪声特定进行优化。例如，模型优化模块可默认设置在设备空闲时对环境噪声模型进行优化，例如，在夜间2：00-6：00期间对环境噪声模型进行优化，或在音频优化设备500停止使用超过一定时间，例如，30分钟时对环境噪声模型进行优化。此外，模型优化模块还可默认设置仅当纯净数据集中的音频数据的时长累计超过例如30分钟时才可对环境噪声模型进行优化。此外，以上示例仅是示例性的，本发明不限于此。

例如，当纯净数据集中的数据发生变化时，在音频优化设备500空闲期间，如果纯净数据集中的音频数据的时长累计超过30分钟，则模型优化模块可将与每个环境噪声模型相应的噪声数据集与纯净数据集进行对比，将噪声数据集中的音频数据的音频特征与纯净数据集中的音频数据的音频特征进行对比训练，将每个环境噪声模型的噪声数据集中的音频数据的音频特征与纯净数据集中的音频数据的音频特征之间的差分别确定为与每个环境噪声模型相应的噪声特征。或者，当纯净数据集中的音频数据没有发生变化，但与多个环境噪声模型中特定的环境噪声模型相应的噪声数据集中的音频数据发生变化时，则在音频优化设备500空闲时，如果纯净数据集中的音频数据的时长累计超过30分钟，则模型优化模块可将音频数据发生变化的噪声数据集中的音频数据的音频特征与纯净数据集中的音频数据的音频特征进行对比训练，将特定的环境噪声模型的噪声数据集中的音频数据的音频特征和纯净数据集中的音频数据的音频特征之间的差确定为与特定的环境噪声模型相应的噪声特征。此外，除了上述的对环境噪声模型进行优化的操作以外，本领域的技术人员还可使用其他方法对环境噪声模型进行优化。

根据本发明的另一优选实施例，音频优化设备500还可包括模型建立模块(未示出)。模型建立模块可建立新的环境噪声模型。根据本发明的实施例，在自适应选择模式下，在模型选择模块503从多个环境噪声模型中选择出一个环境噪声模型之后，模型建立模块可确定选择出的环境噪声模型是否满足预定条件。根据本发明的实施例，当模型选择模块503从音频数据中截取出预定长度的音频数据时，模型建立模块可计算截取出的预定长度的音频数据的SNR、PESQ和分段SNR的加权平均值，并在根据计算出的加权平均值从多个环境噪声模型中选择出评价结果最好的环境噪声模型后，将评价结果最好的环境噪声模型对截取出的预定长度的音频数据进行优化的优化结果的SNR、PESQ和分段SNR的加权平均值与截取出的预定长度的音频数据的SNR、PESQ和分段SNR的加权平均值进行比较，如果比较结果大于或等于预定值，例如，10％，则模型建立模块确认选择出的环境噪声模型满足预定条件。如果比较结果小于预定值，例如，10％，则模型建立模块确认选择出的环境噪声模型不满足预定条件。此外，以上示例仅是示例性的，本发明不限于此。

如果模型建立模块确认模型选择模块503选择出的环境噪声模型满足预定条件，则在音频优化模块504使用模型选择模块503选择出的环境噪声模型对音频数据进行优化后，模型建立模块将与使用该环境噪声模型进行优化的音频数据相应的原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与该环境噪声模型相应的噪声数据集中。如果模型选择模块503选择出的环境噪声模型不满足预定条件，则在音频优化模块504对音频数据的优化完成后，模型建立模块可提示用户是否建立新的环境噪声模型，用户可选择建立或不建立新的环境噪声模型。例如，当用户认为使用不满足预定条件的环境噪声模型进行优化后的音频数据满足需要，则可选择不建立环境噪声模型。

如果用户选择不建立新的环境噪声模型，则模型建立模块可将与使用该环境噪声模型进行优化的音频数据相应的原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与该环境噪声模型相应的噪声数据集中。如果用户选择建立新的环境噪声模型，则模型建立模块可建立新的环境噪声模型和与新的环境噪声模型相应的噪声训练集，并可将与使用该环境噪声模型进行优化的音频数据相应的原始音频数据(即，进行优化之前的带有噪声的音频数据)添加到训练样本库中的与新建立的环境噪声模型相应的噪声数据集中。此外，如果与新建立的环境噪声模型中的噪声数据集中的音频数据较少，则当用户再次处于与新建立的环境噪声模型相应的环境中时，模型建立模块可提示用户在该环境下录入一段音频数据，并添加到训练样本库中的与新建立的环境噪声模型相应的噪声数据集中，以丰富该噪声数据集中的数据，便于后续对新建立的环境噪声模型的训练优化。

此外，根据本发明的另一实施例，无论是在手动选择模式下，还是在自适应选择模式下，如果用户对优化后的音频数据不满意，则模型建立模块可主动建立新的环境噪声模型，并将带有噪音的原始音频数据添加到训练样本库中的与新建立的环境噪声模型相应的噪声数据集中。

因此，通过上述音频优化设备，可从多个环境噪声模型中选择出最佳的环境噪声模型对音频数据进行优化。此外，还可根据用户是否满意音频优化效果，建立新的环境噪声模型，使得随着音频优化设备的使用时间增加，音频优化设备中可选的环境噪声模型变多，环境噪声模型对音频数据的适配性逐渐增加。此外，还可在不断使用音频优化设备的过程中，存储不带噪声的纯净数据和带噪声的噪声数据，并通过纯净数据和噪声数据对所有的环境噪声模型不断地进行优化，使得各个环境噪声模型可更精确地表示相应环境的噪声特征，使得随着音频优化设备的使用时间增加，对音频数据的优化效果更好。

根据本发明的实施例还提供一种存储有计算机程序的计算机可读存储介质。该计算机可读存储介质存储有当被处理器执行时使得处理器执行上述音频优化方法的计算机程序。该计算机可读存储介质是可存储由计算机***读出的数据的任意数据存储装置。计算机可读存储介质的示例包括：只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。

根据本发明的实施例还提供一种计算装置。该计算装置包括处理器和存储器。存储器用于存储计算机程序。所述计算机程序被处理器执行使得处理器执行如上所述的音频优化方法的计算机程序。

虽然已示出和描述了本发明的一些示例性实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改。

Claims

1.一种音频优化方法，所述方法包括：

获取适用于不同环境的多个环境噪声模型；

获取音频数据；

针对音频数据从所述多个环境噪声模型中选择一个环境噪声模型；

使用选择的环境噪声模型对音频数据进行优化。

2.如权利要求1所述的音频优化方法，其中，从所述多个环境噪声模型中选择一个环境噪声模型的步骤包括：

在手动选择模式下，接收用户对所述多个环境噪声模型中的一个环境噪声模型的指定的输入，并将用户指定的环境噪声模型确定为选择的环境噪声模型。

3.如权利要求1所述的音频优化方法，其中，从所述多个环境噪声模型中选择一个环境噪声模型的步骤包括：

在自适应选择模式下，分别使用所述多个环境噪声模型中的每个环境噪声模型对音频数据进行预优化，并根据预优化结果从所述多个环境噪声模型中选择一个环境噪声模型。

4.如权利要求3所述的音频优化方法，其中，分别使用所述多个环境噪声模型中的每个环境噪声模型对音频数据进行预优化，并根据预优化结果从所述多个环境噪声模型中选择一个环境噪声模型的步骤包括：

从音频数据中截取出预定长度的音频数据；

分别使用所述多个环境噪声模型中的每个环境噪声模型对所述预定长度的音频数据进行优化，获取分别与所述多个环境噪声模型相应的多个优化结果；

分别对多个优化结果中的每个优化结果进行评价，从所述多个环境噪声模型中选择评价结果最好的环境噪声模型。

5.如权利要求4所述的音频优化方法，其中，分别对多个优化结果中的每个优化结果进行评价的步骤包括：

分别计算每个优化结果的信噪比、主观语音质量评估和分段信噪比；

分别计算每个优化结果的信噪比、主观语音质量评估和分段信噪比的加权平均值；

将与加权平均值最高的优化结果相应的环境噪声模型确定为评价结果最好的环境噪声模型。

6.如权利要求3所述的音频优化方法，其中，在自适应选择模式下，使用选择的环境噪声模型对音频数据进行优化的步骤包括：

每隔预定时间间隔，对音频数据进行一次预优化，并根据预优化结果从多个环境噪声模型中选择一个环境噪声模型，使用选择的环境噪声模型对音频数据之中的从选择出该环境噪声模型的时刻起到下一次选择出环境噪声模型的时刻为止的音频数据进行优化。

7.如权利要求1所述的音频优化方法，其中，对音频数据进行优化的步骤包括：

通过从音频数据的频谱中减去与选择的环境噪声模型相应的噪声特征的频谱来获取优化后的音频数据。

8.如权利要求1或权利要求4所述的音频优化方法，还包括：

在获取音频数据之后，确定音频数据是否需要被优化；

如果音频数据不需要被优化，则将音频数据添加到预先设置的训练样本库中的纯净数据集中；

如果音频数据需要被优化，则在使用选择的环境噪声模型对音频数据进行优化之后，将与优化后的音频数据相应的原始音频数据添加到所述训练样本库中的与选择的环境噪声模型相应的噪声数据集中；

基于纯净数据集中的音频数据和与选择的环境噪声模型相应的噪声数据集中的音频数据，对选择的环境噪声模型进行优化。

9.如权利要求8所述的音频优化方法，其中，在使用选择的环境噪声模型对音频数据进行优化之后，将与优化后的音频数据相应的原始音频数据加入所述训练样本库中的与选择的环境噪声模型相应的噪声数据集中的步骤包括：

在自适应选择模式下，确定选择的环境噪声模型是否满足预定条件；

如果选择的环境噪声模型不满足预定条件，则提示用户是否建议新的环境噪声模型；

如果用户选择建立新的环境噪声模型，则建立新的环境噪声模型，并将与优化后的音频数据相应的原始音频数据加入所述训练样本库中的与新的环境噪声模型相应的噪声数据集中。

10.如权利要求9所述的音频优化方法，其中，确定选择的环境噪声模型是否满足预定条件的步骤包括：

计算所述预定长度的音频数据的信噪比、主观语音质量评估和分段信噪比的第一加权平均值；

计算使用选择的环境噪声模型对预定长度的音频数据进行优化后的音频数据的信噪比、主观语音质量评估和分段信噪比的第二加权平均值；

计算第二加权平均值与第一加权平均值的比值；

如果所述比值没有达到预定值，则确定选择的环境噪声模型不满足所述预定条件。

11.如权利要求8所述的音频优化方法，其中，对选择的环境噪声模型进行优化的步骤包括：将与选择的环境噪声模型相应的噪声数据集中的音频数据的音频特征与纯净数据集中的音频数据的音频特征之间的差确定为与选择的环境噪声模型相应的噪声特征。

12.一种音频优化设备，所述设备包括：

模型获取模块，被配置为获取适用于不同环境的多个环境噪声模型；

数据采集模块，被配置为获取音频数据；

模型选择模块，被配置为针对音频数据从所述多个环境噪声模型中选择一个环境噪声模型；

音频优化模块，被配置为使用选择的环境噪声模型对音频数据进行优化。

13.一种计算机可读存储介质，存储有程序，被配置为：所述程序包括执行如权利要求1-11中任意一项所述的音频优化方法的代码。

14.一种计算机，包括存储有计算机程序的可读介质，被配置为：所述计算机程序包括执行如权利要求1-11中任意一项所述的音频优化方法的代码。