CN110580910A

CN110580910A - 一种音频处理方法、装置、设备及可读存储介质

Info

Publication number: CN110580910A
Application number: CN201810589891.7A
Authority: CN
Inventors: 文仕学; 潘逸倩
Original assignee: Beijing Sogou Technology Development Co Ltd; Sogou Hangzhou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2019-12-17
Anticipated expiration: 2038-06-08
Also published as: CN110580910B

Abstract

本发明实施例提供了一种音频处理方法、装置、设备及可读存储介质，该方法包括：预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型；在接收到混合语音信号后，依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，其中，所述权重偏置参数为依据所述权重信息训练得到的；依据所述目标语音信号进行输出。本发明实施例解决了现有语音增强模型对各语音频段一视同仁导致降噪效果差的问题，提升了语音增强效果。

Description

一种音频处理方法、装置、设备及可读存储介质

技术领域

本发明涉及通信技术领域，特别是涉及一种音频处理方法、一种音频处理装置、一种设备和一种可读存储介质。

背景技术

随着通信技术的快速发展，诸如手机、平板电脑等终端越来越普及，给人们的生活、学习、工作带来了极大的便利。

这些终端可以通过麦克风收集语音信号，使用语音增强技术对收集到的语音信号进行处理，以降低噪声干扰的影响。其中，语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。

发明内容

本发明实施例所要解决的技术问题是提供一种音频处理方法，以提升语音增强效果。

相应的，本发明实施例还提供了一种音频处理装置、一种设备以及一种可读存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种音频处理方法，包括：预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型；在接收到混合语音信号后，依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，其中，所述权重偏置参数为依据所述权重信息训练得到的；依据所述目标语音信号进行输出。

可选地，所述依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，包括：对所述混合语音信号进行特征提取，得到带噪语音数据，所述带噪语音数据包括至少一个语音频段数据；将所述带噪语音信号输入到所述语音增强模型；通过所述语音增强模型，按照各语音频段对应的权重偏置参数，对所述带噪语音数据中的各语音频段数据进行降噪处理，得到目标用户对应的目标语音信号。

可选地，所述预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型，包括：针对接收到的语音信号，获取预设的各语音频段误差对应的权重信息；依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练，得到语音增强模型。

可选地，依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练，得到语音增强模型，包括：为所述语音信号添加噪声信号，生成带噪语音信号；对所述带噪语音信号进行特征提取，得到所述带噪语音数据对应的语音特征；基于所述语音特征，采用所述带噪语音信号、所述语音信号以及所述各语音频段误差对应的权重信息进行模型训练，得到语音增强模型。

可选地，所述采用所述带噪语音信号、所述语音信号以及所述各语音频段误差对应的权重信息进行模型训练，得到语音增强模型，包括：确定所述带噪语音信号对应的输出估计信号；依据所述语音信号，确定所述输出估计信号对应的输出预测误差；依据所述语音频段误差对应的权重信息，对所述输出预测误差进行自适应处理，得到各语音频段对应的语音增强误差；依据所述各语音频段对应的语音增强误差，确定各语音频段对应的权重偏置参数；依据所述各语音频段对应的权重偏置参数，生成语音增强模型。

可选地，所述按照各语音频段对应的权重偏置参数，对所述带噪语音数据中的各语音频段数据进行降噪处理，得到所述目标用户对应的目标语音信号，包括：基于所述各语音频段对应的权重偏置参数，确定所述带噪语音数据中每一语音频段数据对应的目标权重偏置参数；针对所述带噪语音数据中每一语音频段数据，按照所述目标权重偏置参数进行降噪处理，得到所述每一语音频段对应的降噪语音数据；依据所述语音特征和所述降噪语音数据，生成所述目标用户对应的目标语音信号。

可选地，依据所述目标语音信号进行输出，包括：依据所述目标语音信号进行语音输出；和/或，对所述目标语音信号进行语音识别，生成识别结果，以及，输出所述识别结果。

本发明实施例还公开了一种音频处理装置，包括：

模型训练模块，用于预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型；

语音增强模块，用于在接收到混合语音信号后，依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号；

输出模块，用于依据所述目标语音信号进行输出。

可选地，所述语音增强模块包括如下子模块：

特征提取子模块，用于对所述混合语音信号进行特征提取，得到带噪语音数据，所述带噪语音数据包括至少一个语音频段数据；

信号输入子模块，用于将所述带噪语音信号输入到所述语音增强模型；

降噪处理子模块，用于通过所述语音增强模型，按照各语音频段对应的权重偏置参数，对所述带噪语音数据中的各语音频段数据进行降噪处理，得到目标用户对应的目标语音信号。

可选地，所述模型训练模块包括如下子模块：

权重信息获取子模块，用于针对接收到的语音信号，获取预设的各语音频段误差对应的权重信息；

模型训练子模块，用于依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练，得到语音增强模型。

可选地，所述模型训练子模块包括如下单元：

噪声添加单元，用于为所述语音信号添加噪声信号，生成带噪语音信号；

特征提取单元，用于对所述带噪语音信号进行特征提取，得到所述带噪语音数据对应的语音特征；

模型训练单元，用于基于所述语音特征，采用所述带噪语音信号、所述语音信号以及所述各语音频段误差对应的权重信息进行模型训练，得到语音增强模型。

可选地，所述模型训练单元包括如下子单元：

估计信号确定子单元，用于确定所述带噪语音信号对应的输出估计信号；

预测误差确定子单元，用于依据所述语音信号，确定所述输出估计信号对应的输出预测误差；

自适应处理子单元，用于依据所述语音频段误差对应的权重信息，对所述输出预测误差进行自适应处理，得到各语音频段对应的语音增强误差；

权重参数确定子单元，用于依据所述各语音频段对应的语音增强误差，确定各语音频段对应的权重偏置参数；

模型生成子单元，用于依据所述各语音频段对应的权重偏置参数，生成语音增强模型。

可选地，所述降噪处理子模块包括如下单元：

目标权重偏置参数确定单元，用于基于所述各语音频段对应的权重偏置参数，确定所述带噪语音数据中每一语音频段数据对应的目标权重偏置参数；

降噪处理单元，用于针对所述带噪语音数据中每一语音频段数据，按照所述目标权重偏置参数进行降噪处理，得到所述每一语音频段对应的降噪语音数据；

目标语音信号生成单元，用于依据所述语音特征和所述降噪语音数据，生成所述目标用户对应的目标语音信号。

可选地，所述输出模块包括如下子模块：

语音输出子模块，用于依据所述目标语音信号进行语音输出；和/或，

语音识别子模块，用于对所述目标语音信号进行语音识别，生成识别结果；输出所述识别结果。

本发明实施例还公开了一种设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型；在接收到混合语音信号后，依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，其中，所述权重偏置参数为依据所述权重信息训练得到的；依据所述目标语音信号进行输出。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由设备的处理器执行时，使得设备能够执行本发明实施例中的一个或多个所述的音频处理方法。

本发明实施例包括以下优点：

本发明实施例可以依据各语音频段误差对应的权重信息进行模型训练，使得训练出的语音增强模型包含了各语音频段对应的权重偏置参数，从而在接收到混合语音信号后，可依据该语音增强模型中各语音频段对应的权重偏置参数，对混合语音信号进行语音增强，以将语音增强的重点放在该混合语音信号中含有语音能量较大的语音频段，解决了现有语音增强模型对各语音频段一视同仁导致降噪效果差的问题，提升语音增强模型的降噪效果，进而提升了语音增强效果。

附图说明

图1是本发明的一种音频处理方法实施例的步骤流程图；

图2是本发明一个可选实施例中预先训练语音增强模型的步骤流程图；

图3是本发明的一种音频处理方法可选实施例的步骤流程图；

图4是本发明的一种音频处理装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于音频处理的设备600的结构框图；

图6是本发明实施例中一种设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

目前，传统语音增强方法通常是对各语音频段一视同仁，按照相同的权重参数对各语音频段对应的语音信号进行降噪处理。具体而言，传统语音增强方法在训练阶段，基于均方误差(Mean Squared Error)计算方法，仅采用语音信号的各频段对应的误差，确定出语音增强模型的目标函数对应的均方误差，即对各语音频段对应的误差一视同仁，进行模型训练，得到语音增强模型；在语音增强阶段，通过训练出的语音增强模型，对各语音频段一视同仁进行语音增强，即各语音频段对应的降噪程度是一样的。这限制了语音增强模型的降噪效果，即影响了语音增强效果。

本发明实施例的核心构思之一在于，提出了一种新的音频处理方法，依据语音增强模型中各语音频段对应的权重偏置参数，进行语音增强，避免了对各语音频段一视同仁导致语音增强模型的降噪效果差的问题，提高语音增强效果。

参照图1，示出了本发明的一种音频处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型。

在本发明实施例中，可以预先依据各语音频段误差对应的权重信息进行模型训练，使得训练出的语音增强模型可以包含各语音频段对应的权重偏置参数。其中，语音频段误差可以用于表征一个语音频段的语音信号对应的误差。

需要说明的是，语音频段可以依据预先设定的采样频率进行确定。例如，可以将采集到的语音信号分成256个语音频段进行处理，并且可以基于这256个语音频段，预先设定256个语音频段误差对应的权重信息，且每一个语音频段误差可以对应一个权重，从而可在模型训练阶段，依据这256个语音频段误差对应的权重信息进行模型训练，使得训练出的语音增强模型的网络参数可以包括这256个语音频段对应的权重偏置参数。

当然，还可以将语音信号划分为其他数量对应的语音频段进行处理，如可以将语音信号划分为到512个语音频段进行等等，本发明实施例对语音频段的数量不作具体限制。

为了便于理解，下文结合两个简单示例，对本发明实施例进行说明。

作为本发明的一个示例，在将语音信号划分成3个语音频段进行处理的情况下，第一个语音频段可以对应低频，即可以用于表征低频的语音信号；第二个语音频段可以对应中频，即可以用于表征中频的语音信号；第三个语音频段可以对应高频，即可以用于表征高频的语音信号。例如，在采样频率为16000赫兹的情况下，根据奈奎斯特定理，最高可以采样到0-8000赫兹的语音信号，可以将0-2000赫兹的语音信号确定为低频的语音信号，将2000-6000赫兹的语音信号确定为中频的语音信号，以及将6000-8000赫兹的语音信号确定为中频的语音信号。其中，第一个语音频段可以是0-2000赫兹，第二个语音频段对应的语音频段可以是2000-6000赫兹，第三个语音频段对应的语音频段可以是6000-8000赫兹。

同理，在将语音信号划分成4个语音频段进行处理的情况下，第一个语音频段可以对应低频，即可以用于表征低频的语音信号，如可以用于表征0-2000赫兹的语音信号；第二个语音频段可以用于对应中低频，即可以用于表征中低频的语音信号，如可以用于表征2000-4000赫兹的语音信号；第三个语音频段可以对应中高频，即可以用于表征中高频的语音信号，如可以用于表征4000-6000赫兹的语音信号；第四个语音频段可以对应高频，即可以用于表征高频的语音信号，如可以用于表征6000-8000赫兹的语音信号，等等。

具体而言，可以在语音增强模型的训练阶段，获取预先设置的各语音频段误差对应的权重信息，以依据各语音频段误差对应的权重信息和接收到语音信号进行模型训练，从而训练出语音增强模型。该语音增强模型可以具有各语音频段对应的权重偏置参数，从而可依据各语音频段对应的权重偏置参数，对各语音频段对应的语音数据进行降噪处理，以避免各语音频段对应的降噪程度一致所导致的降噪效果差的问题。

作为本发明的一个示例，结合上述例子，可以获取预先设置的4个语音频段误差对应的权重信息，随后可以基于这4个频段误差对应的权重信息，按照预先设定的训练次数对接收到的语音信号进行模型训练，从而使得训练出的语音增强模型可以包含4个语音频段对应的权重偏置参数，以将语音增强重点放在含有对识别非常重要信息的语音频段，如第一个语音频段0-2000赫兹对应的权重参数可以为2，第二个语音频段2000-4000赫兹和第三个语音频段4000-6000赫兹对应的权重参数均可以为1，第四个语音频段6000-8000赫兹对应的权重参数可以为0.5，使得语音增强模型重点关注语音能量较大的低频部分的降噪，而降低在噪声能量较大的高频部分的降噪权重。

步骤104，在接收到混合语音信号后，依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号。

本发明实施例中，权重偏置参数为依据权重信息训练得到的。在具体实现中，可以依据语音信号对应的采样频率，确定出至少两个语音频段，如可以基于采样频率确定出256个语音频段，又如可以基于采样频率确定出512或1024个语音频段等。在语音增强阶段，在接收到输入的混合语音信号后，可以按照语音增强模型中各语音频段对应的权重偏置参数，对该混合语音信号所包含的各语音频段信号进行降噪处理，以去除各语音频段信号中的干扰噪声，得到语音增强后的目标语音信号。其中，混合语音信号可以包括目标用户的语音信号和需要去除的噪声信号等。目标用户的语音信号可以是指目标用户说话的干净语音信号，如目标说话人语音对应的时域信号；噪声信号可以是指干扰噪声所对应的信号，如可以包括其他说话人所说的干扰语音对应的时域信号等等，本发明实施例对此不作限制。

例如，当接收到混合语音信号的频率在1000-7000赫兹之间，结合上例子，可以确定该混合语音信号包含高频、中频以及低频这3个语音频段信号，随后可以按照语音增强模型中预先训练好的权重偏置参数，对该混合语音信号中的低频、中频和高频语音信号进行降噪处理，得到目标语音信号。该目标语音信号可以包括各语音频段降噪后的干净语音信号，可以用于表征目标用户的干净语音信号，如可以是指目标说话人语音对应的干净语音信号等。

步骤106，依据所述目标语音信号进行输出。

本发明实施例在得到目标语音信号后，可以依据该目标语音信号进行输出。例如，可以依据该目标语音信号进行语音输出，以输出用户所说的干净语音；又如，可以依据目标语音信号进行语音识别，以识别出用户所说的干净语音对应的文字，随后可基于识别出的文字生成识别结果，以及对识别结果进行输出，即可以通过语音识别，将目标语音信号转换为对应的文字信息，然后依据文字信息进行输出，如在设备的屏幕上展示文字、展示文字对应的搜索结果，等等。

综上，本发明实施例可以依据各语音频段误差对应的权重信息进行模型训练，使得训练出的语音增强模型包含了各语音频段对应的权重偏置参数，从而在接收到混合语音信号后，可依据该语音增强模型中各语音频段对应的权重偏置参数，对混合语音信号进行语音增强，以将语音增强的重点放在该混合语音信号中含有语音能量较大的语音频段，解决了现有语音增强模型对各语音频段一视同仁导致降噪效果差的问题，提升语音增强模型的降噪效果，进而提升了语音增强效果。

在具体实现中，可以基于注意力机制，预先设置一个或多个语音频段误差对应的权重信息，并可依据预先设置的权重信息，使用深度学习技术进行语音增强模型训练，使得训练出的语音增强模型可以具有各语音频段对应的权重偏置参数。可选地，预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型，具体可以包括：针对接收到的语音信号，获取预设的各语音频段误差对应的权重信息；依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练，得到语音增强模型。

参照图2，示出了本发明一个可选实施例中预先训练语音增强模型的步骤流程图，具体可以包括如下步骤：

步骤202，针对接收到的语音信号，获取预设的各语音频段误差对应的权重信息。

具体而言，在语音增强模型的训练阶段，可以将接收到的语音信号作为语音增强模型的训练数据，以采用这些语音信号进行模型训练。其中，接收到的语音信号可以是指干净的语音信号，如可以是在语音输入过程中实时接收到的当前输入的干净语音信号，也可以是预先录制的一段干净语音的时域信号，又如可以是预先合成的一段干净语音的时域信号等，本发明实施例对此不作限制。

本发明实施例在接收到语音信号后，可以针对接收到的语音信号，获取预先设定的各语音频段误差对应的权重信息，以便后续模型训练过程依据权重信息确定语音信号的各语音频段对应的语音增强误差。该语音增强误差可以表征语音增强模型预测出的估计语音信号与实际所需要输出的语音信号之间的误差。其中，预设的各语音频段误差对应的权重信息可以包括各语音频段误差对应的权重参数，即可以包括预先设定的所有语音频段的误差对应的权重参数。各语音频段误差对应的权重参数可以相同，也可以不相同，如上述例子中预设的4个语音频段误差对应的权重参数可以均为1；又如，预设的第一个语音频段误差对应的权重参数可以为2，第二个语音频段和第三个语音频段误差对应的权重参数均可以为1，第四个语音频段误差对应的权重参数可以为0.5等等，本发明实施例对此不作限制。

步骤204，依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练，得到语音增强模型。

在具体实现中，可以对接收到的语言信号添加噪声信号，生成带噪语音信号，以依据该带噪语音信号进行特征提取，得到该带噪语音信号对应的语音特征；随后，可以针对得到的语音特征，采用生成的带噪语音信号、接收到的语音信号以及各语音频段误差对应的权重信息进行模型训练，从而训练出语音增强模型。

在本发明的一个可选实施例中，依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练，得到语音增强模型，可以包括：为所述语音信号添加噪声信号，生成带噪语音信号；对所述带噪语音信号进行特征提取，得到所述带噪语音数据对应的语音特征；基于所述语音特征，采用所述带噪语音信号、所述语音信号以及所述各语音频段误差对应的权重信息进行模型训练，得到语音增强模型。

具体的，在训练阶段，可以对接收到的干净的语音信号进行噪声加噪，即可以为接收的语音信号添加噪声信号，生成带噪语音信号。其中，噪声信号可以包括仿真噪声信号和预先收集的噪声信号等。该仿真噪声信号可以用于表征预先通过语音合成技术合成的噪声；预先收集的噪声信号可以用于表征预先收集到的真实噪声，如可以是预先录制的噪声信号等。

随后，可采用添加噪声信号的带噪语音信号进行特征提取，得到对应的语音特征，以便可以后续可以结合语音特征进行模型训练，生成语音增强模型。其中，语音特征可以用于表征语音声纹特征，具体可以包括时域语音特征和/或频域语音特征等，本发明实施例对此不作限制。需要说明的是，时域语音特征可以用于表征时域上的语音特征，频域语音特征可以用于表征频域上的语音特征。

在一个可选实施方式，采用所述带噪语音信号、所述语音信号以及所述各语音频段误差对应的权重信息进行模型训练，得到语音增强模型，可以包括：确定所述带噪语音信号对应的输出估计信号；依据所述语音信号，确定所述输出估计信号对应的输出预测误差；依据所述语音频段误差对应的权重信息，对所述输出预测误差进行自适应处理，得到各语音频段对应的语音增强误差；依据所述各语音频段对应的语音增强误差，确定各语音频段对应的权重偏置参数；依据所述各语音频段对应的权重偏置参数，生成语音增强模型。

在具体实现中，可以基于训练确定的权重偏置参数对带噪语音信号进行预测，使得神经网络可以基于这些权重偏置参数对带噪语音信号进行预测，得到该带噪语音信号对应的输出估计信号。随后，可以将该输出估计语音信号与接收到的语音信号进行比较，从而可以基于比较结果确定出该输出估计语音信号对应的输出预测误差。该输出预测误差可以包括各语音频段对应的误差。例如，在采用4个语音频段对应的标注向量表征接收到的语音信号y的情况下，可以依据训练确定的权重偏置参数对该语音信号对应的带噪语音信号进行预测，得到该带噪语音信号对应的输出估计信号随后可以将这输出估计信号与语音信号y进行比较，得到输出估计信号对应的输出预测误差，且输出预测误差可以包括4个语音频段误差。

在确定出输出预测误差后，可以基于各语音频段误差对应的权重信息，对该输出预测误差中所包含的各语音频段误差进行自适应处理，得到各语音频段对应的语音增强误差。例如，在固定各语音频段误差对应的权重信息的情况下，可以基于各语音频段误差对应的权重信息，对各语音频段误差进行自适应加权，得到各语音频段对应的语音增强误差，如可以采用各语音频段对应的均方误差和各语音频段误差对应的权重矩阵进行乘操作，得到语音增强误差。其中，语音频段对应的均方误差可以是依据语音频段误差确定的，如可以是语音频段误差的平方；权重矩阵可以表征各语音频段误差对应的权重信息，具体可以包括各语音频段误差对应的权重参数，如在权重矩阵为一个方阵的情况下，可以采用该方阵的对角线的元素记录各语音频段误差对应的权重参数。

作为本发明的一个示例，第一个语音频段误差对应的权重参数可以记录在权重矩阵的第一行第一列的元素中，第二个语音频段误差对应的权重参数可以记录在权重矩阵的第二行第二列的元素中，第三个语音频段误差对应的权重参数可以记录在权重矩阵的第三行第三列的元素中……如此类推，第N个语音频段误差对应的权重参数可以记录在权重矩阵的第N行第N列的元素，N为整数。

在确定出各语音频段对应的语音增强误差后，可以判断各语音频段对应的语音增强误差是否超出预设的误差范围，以确定是否训练出带噪语音信号与语音信号之间的映射关系。若语音增强误差超出预设的误差范围，则可以基于按照预先设定的随机梯度下降算法(Stochastic Gradient Descent，SDG)，对神经网络的权重偏置参数进行更新。随后，可按照更新后的权重偏置参数，更新带噪语音信号对应的输出估计信号；以及，可对更新后的输出估计信号对应的输出预测误差进行自适应处理，直到各语音频段对应的语音增强误差在预设误差范围内。若语音增强误差在预设的误差范围，即在预测出的输出估计信号能够表征接收到语音信号y时，则可以确定已训练出带噪语音信号与语音信号之间的映射关系，可以基于神经网络的权重偏置参数，生成基于深层神经网络的最小均方误差准则的语音增强模型。

从而，在语音增强阶段，可以依据语音增强模型中的各语音频段对应的权重偏置参数，对接收到混合语音信号进行降噪处理，避免了语音增强模型对各语音频段一视同仁导致降噪效果差的问题。

在本发明的一个可选实施例中，上述依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，具体可以包括：对所述混合语音信号进行特征提取，得到带噪语音数据，所述带噪语音数据包括至少一个语音频段数据；将所述带噪语音信号输入到所述语音增强模型；通过所述语音增强模型，按照各语音频段对应的权重偏置参数，对所述带噪语音数据中的各语音频段数据进行降噪处理，得到目标用户对应的目标语音信号。其中，混合语音信号可以包含噪声信号和所述目标用户的语音信号。

参照图3，示出了本发明的一种音频处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤302，在接收到混合语音信号后，对所述混合语音信号进行特征提取，得到带噪语音数据。

本发明实施例中，混合语音信号可以包含有需要保留的目标用户的语音信号和需要去除的噪声信号，如可以包括目标用户说话对应的干净语音信号和其他用户说话对应的干扰语音信号等。

具体的，在接收到混合语音信号后，可以将该混合语音信号确定为需要进行语音增强处理的信号，随后可对该混合语音信号进行特征提取，得到带噪语音数据和该带噪语音数据对应的语音特征。其中，带噪语音数据可以是指语音特征提取后带有噪声的语音数据，可以包括至少一个语音频段数据，即可以包括一个或多个语音频段的语音数据，如可以包括有需要去除的噪声数据和需要保留的目标语音数据等。

步骤304，将所述带噪语音信号输入到语音增强模型。

步骤306，通过语音增强模型，按照各语音频段对应的权重偏置参数，对带噪语音数据中的各语音频段数据进行降噪处理，得到目标用户对应的目标语音信号。

本发明实施例在特征提取后，可以基于提取到的语音特征，将带噪语音数据输入到预先训练得到的语音增强模型中，以通过语音增强模型去除该带噪语音数据中所包含的噪声数据。具体的，在语音增强模型中，可以按照各语音频段对应的权重偏置参数，对输带噪语音数据中所包含的各语音频段数据进行降噪处理，以去除该带噪语音数据中各频段的噪声数据，同时可以保留该带噪语音数据中所包含的目标语音数据，随后可基于保留的目标语音数据生成目标用户对应的目标语音信号。

在本发明的一个可选实施例中，按照各语音频段对应的权重偏置参数，对所述带噪语音数据中的各语音频段数据进行降噪处理，得到所述目标用户对应的目标语音信号，可以包括：基于所述各语音频段对应的权重偏置参数，确定所述带噪语音数据中每一语音频段数据对应的目标权重偏置参数；针对所述带噪语音数据中每一语音频段数据，按照所述目标权重偏置参数进行降噪处理，得到所述每一语音频段对应的降噪语音数据；依据所述语音特征和所述降噪语音数据，生成所述目标用户对应的目标语音信号。

在具体实现中，可以按照语音增强模型中各语音频段对应的权重偏置参数，对输入到语音增强模型中的带噪语音数据进行分段，确定该带噪语音数据中所包含的各语音频段数据，随后可基于带噪语音数据中每一语音频段数据所属的语音频段，确定出每一语音频段数据对应的目标权重偏置参数，如可以针对每一语音频段数据，将其所属的语音频段对应的权重偏置参数确定为其所对应的目标权重偏置参数。从而，可以按照每一语音频段数据对应的目标权重偏置参数，对带噪语音数据中的每一语音频段数据进行降噪处理，即可以按照不同的权重偏置参数，分别对该带噪语音数据中的各语音频段数据进行降噪处理，得到各语音频段对应的降噪语音数据，避免了按照相同的权重参数对该带噪语音数据中的所有语音频段数据进行降噪导致降噪效果受限的问题。

在得到各语音频段对应的降噪语音数据后，可以基于语音特征，采用各语音频段对应的降噪语音数据生成目标用户对应的目标语音信号。

作为本发明的一个示例，可以参照注意力模型的训练，依据各语音频段误差对应的权重信息进行语音增强模型训练，使得训练出的语音增强模型可以包括至少两个权重偏置参数。其中，一个权重偏置参数可以对应一个语音频段的降噪处理，使得语音增强模型可以依据各语音频段对应的权重偏置参数，可以重点放在含有对语音增强任务非常重要的语音数据所在的频段。例如，在语音增强模型的3个语音频段对应的权重偏置参数分别为0.5，2和3的情况下，语音增强模型可以按照第一个语音频段对应的权重偏置参数0.5，对属于第一个语音频段的带噪语音数据进行降噪处理，得到第一个语音频段对应的降噪语音数据A；并可按照第二个语音频段对应的权重偏置参数2，对属于第二个语音频段的带噪语音数据进行降噪处理，得到第二个语音频段对应的降噪语音数据B；以及，可按照第三个语音频段对应的权重偏置参数3，对属于第3个语音频段的带噪语音数据进行降噪处理，得到第二个语音频段对应的降噪语音数据C；随后，可以基于语音特征，对降噪语音数据A、降噪语音数据B、降噪语音数据C进行合成，生成语音增强后的目标语音信号。可见，本示例中的语音增强模型可分别按照这3个语音频段对应的权重偏置参数，对属于3个语音频段的带噪语音数据进行降噪处理，并且可以将重点放在权重偏置参数为3这一语音频段上，以重点对第三个语音频段的语音数据进行降噪处理，而对权重偏置参数为0.5的第二语音频段不那么关注，从而能够提升语音降噪效果。其中，第三个语音频段可以是包含对语音识别非常重要信息的频段，如可以是语音能量较大的低频部分；第一个语音频段可以是包含有对语音识别有用的部分信息的频段，如可以是噪声能量较大的高频部分等。

步骤308，依据所述目标语音信号进行输出。

在一种可选实施方式中，依据所述目标语音信号进行输出，可以包括：依据所述目标语音信号进行语音输出。

具体而言，本发明实施例可以应用在带噪环境中语音对话的产品中，如可以应用在语音通话场景中的电话手表，使得通话双方可以只听到其所关心的主说话人的纯净语音。例如，在家长使用电话手表给参加活动的孩子打电话，应用本发明实施例提供的音频处理方法，可以让家长只听到自己孩子的清晰声音，降低其他孩子说话的影响，即能够降低噪声干扰的影响。

当然，本发明实施例还可以应用在其他场景中，如可以应用在语音输入场景中，也可以应用在语音识别场景等等，本发明实施例对此不作限制。

在另一种可选实施方式中，依据所述目标语音信号进行输出，可以包括：对所述目标语音信号进行语音识别，生成识别结果；输出所述识别结果。具体的，在语音增强模型输出语音增强后的目标语音信号后，可采用该目标语音信号进行语音识别，即可采用目标说话人的纯净语音进行语音识别，以识别出该目标说话人所说的语音，如在采用语音增强模型输出的目标语音为“大家好，我叫李XX，很高兴认识大家”的情况下，可以对该目标语音“大家好，我叫李XX，很高兴认识大家”进行语音识别。然后，可以依据识别到的识别结果进行输出，如输出识别到的语音对应的文字“大家好，我叫李XX，很高兴认识大家”、“李XX”的个人相片等等。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种音频处理装置实施例的结构框图，具体可以包括如下模块：

模型训练模块402，用于预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型；

语音增强模块404，用于在接收到混合语音信号后，依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，其中，所述权重偏置参数为依据所述权重信息训练得到的；

输出模块406，用于依据所述目标语音信号进行输出。

在本发明的一个可选实施例中，所述语音增强模块404可以包括如下子模块：

在本发明的一个可选实施例中，所述模型训练模块402可以包括如下子模块：

在本发明的一个可选实施例中，所述模型训练子模块可以包括如下单元：

本发明实施例中，可选地，所述模型训练单元具体可以包括如下子单元：

在本发明的一个可选实施例中，所述降噪处理子模块可以包括如下单元：

在本发明的一个可选实施例中，所述输出模块406可以包括如下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图5是根据一示例性实施例示出的一种用于音频处理的设备500的结构框图。例如，设备500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理、服务器等。

参照图5，设备500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为设备500的各种组件提供电力。电源组件506可以包括电源管理***，一个或多个电源，及其他与为设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为设备500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为设备500的显示器和小键盘，传感器组件514还可以检测设备500或设备500一个组件的位置改变，用户与设备500接触的存在或不存在，设备500方位或加速/减速和设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于设备500和其他设备之间有线或无线方式的通信。设备500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由设备500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由设备的处理器执行时，使得终端能够执行一种音频处理方法，所述方法包括：预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型；在接收到混合语音信号后，依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，其中，所述权重偏置参数为依据所述权重信息训练得到的；依据所述目标语音信号进行输出。

图6是本发明实施例中设备的结构示意图。该设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对设备中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在设备600上执行存储介质630中的一系列指令操作。

设备600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作***641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，设备经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型；在接收到混合语音信号后，依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，其中，所述权重偏置参数为依据所述权重信息训练得到的；依据所述目标语音信号进行输出。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种音频处理方法和装置、一种设备，以及一种可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型；

在接收到混合语音信号后，依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，其中，所述权重偏置参数为依据所述权重信息训练得到的；

依据所述目标语音信号进行输出。

2.根据权利要求1所述的方法，其特征在于，所述依据所述语音增强模型中各语音频段对应的权重偏置参数，对所述混合语音信号进行语音增强，得到目标语音信号，包括：

对所述混合语音信号进行特征提取，得到带噪语音数据，所述带噪语音数据包括至少一个语音频段数据；

将所述带噪语音信号输入到所述语音增强模型；

通过所述语音增强模型，按照各语音频段对应的权重偏置参数，对所述带噪语音数据中的各语音频段数据进行降噪处理，得到目标用户对应的目标语音信号。

3.根据权利要求1或2所述的方法，其特征在于，所述预先依据获取到的各语音频段误差对应的权重信息，训练语音增强模型，包括：

针对接收到的语音信号，获取预设的各语音频段误差对应的权重信息；

依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练，得到语音增强模型。

4.根据权利要求3所述的方法，其特征在于，依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练，得到语音增强模型，包括：

为所述语音信号添加噪声信号，生成带噪语音信号；

对所述带噪语音信号进行特征提取，得到所述带噪语音数据对应的语音特征；

基于所述语音特征，采用所述带噪语音信号、所述语音信号以及所述各语音频段误差对应的权重信息进行模型训练，得到语音增强模型。

5.根据权利要求4所述的方法，其特征在于，所述采用所述带噪语音信号、所述语音信号以及所述各语音频段误差对应的权重信息进行模型训练，得到语音增强模型，包括：

确定所述带噪语音信号对应的输出估计信号；

依据所述语音信号，确定所述输出估计信号对应的输出预测误差；

依据所述语音频段误差对应的权重信息，对所述输出预测误差进行自适应处理，得到各语音频段对应的语音增强误差；

依据所述各语音频段对应的语音增强误差，确定各语音频段对应的权重偏置参数；

依据所述各语音频段对应的权重偏置参数，生成语音增强模型。

6.根据权利要求2所述的方法，其特征在于，所述按照各语音频段对应的权重偏置参数，对所述带噪语音数据中的各语音频段数据进行降噪处理，得到所述目标用户对应的目标语音信号，包括：

基于所述各语音频段对应的权重偏置参数，确定所述带噪语音数据中每一语音频段数据对应的目标权重偏置参数；

针对所述带噪语音数据中每一语音频段数据，按照所述目标权重偏置参数进行降噪处理，得到所述每一语音频段对应的降噪语音数据；

依据所述语音特征和所述降噪语音数据，生成所述目标用户对应的目标语音信号。

7.根据权利要求1或2或6所述的方法，其特征在于，依据所述目标语音信号进行输出，包括：

依据所述目标语音信号进行语音输出；和/或，

对所述目标语音信号进行语音识别，生成识别结果；输出所述识别结果。

8.一种音频处理装置，其特征在于，包括：

输出模块，用于依据所述目标语音信号进行输出。

9.一种设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据所述目标语音信号进行输出。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如方法权利要求1-7中任一所述的音频处理方法。