CN105336327B

CN105336327B - 音频数据的增益控制方法及装置

Info

Publication number: CN105336327B
Application number: CN201510790525.4A
Authority: CN
Inventors: 徐杨飞; 魏建强; 崔玮玮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-11-17
Filing date: 2015-11-17
Publication date: 2016-11-09
Anticipated expiration: 2035-11-17
Also published as: CN105336327A

Abstract

本发明提供一种音频数据的增益控制方法及装置。本发明实施例通过获取第N帧音频数据和所述第N帧音频数据的VAD信息，以及根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益，进而根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，使得能够利用所述控制增益，对所述第N帧音频数据进行增益控制处理，从而将待识别音频数据的幅度数值控制在识别阈值之上，能够有效避免语音识别性能的降低。

Description

音频数据的增益控制方法及装置

【技术领域】

本发明涉及音频信号处理技术，尤其涉及一种音频数据的增益控制方法及装置。

【背景技术】

随着通信技术的发展，终端集成了越来越多的功能，从而使得终端的***功能列表中包含了越来越多相应的应用程序。有些应用程序中会涉及语音识别服务，例如，微信中的语音输入功能，搜索应用中的语音助手，等。

然而，在语音识别服务中，通常要求采集的音频数据的幅度数值大于或等于一定的识别阈值，一旦音频数据的幅度数值小于该识别阈值，则识别性能就会大大降低。因此，亟需提供一种音频数据的增益控制方法及装置，以将待识别音频数据的幅度数值控制在识别阈值之上，避免语音识别性能的降低。

【发明内容】

本发明从多个方面提供一种音频数据的增益控制方法及装置，用以将待识别音频数据的幅度数值控制在识别阈值之上，避免语音识别性能的降低。

本发明的一方面，提供一种音频数据的增益控制方法，包括：

获取第N帧音频数据和所述第N帧音频数据的VAD信息，N为大于M的整数，M为大于或等于1的整数；

根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益；

根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益；

利用所述控制增益，对所述第N帧音频数据进行增益控制处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，包括：

根据所述第N帧音频数据的VAD信息，确定所述第N帧音频数据是否为语音帧；

若所述第N帧音频数据为语音帧，对所述第N帧音频数据的VAD信息和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息进行运算处理，以获得运算结果；

若所述运算结果满足预先设置的控制条件，根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，包括：

根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，选择P个最小的期望增益，P为大于1且小于或等于M的奇数，对所述P个最小的期望增益进行中值滤波处理，以获得所述第N帧音频数据的最小增益；

若所述第N帧音频数据的最小增益小于最小增益值，利用所述第N帧音频数据的最小增益更新所述最小增益值；

若所述第N帧音频数据的最小增益大于或等于所述最小增益值，维持所述最小增益值，并记录所述最小增益值的持续时间；

根据所述最小增益值，获得所述第N帧音频数据的控制增益。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述若所述第N帧音频数据的最小增益大于或等于所述最小增益值，维持所述最小增益值，并记录所述最小增益值得持续时间之后，还包括：

若所述最小增益值的持续时间大于最小增益跟踪窗长的K1倍，K1为大于0且小于1的数值，且所述第N帧音频数据的最小增益小于最小增益暂时值，利用所述第N帧音频数据的最小增益更新所述最小增益暂时值；

若所述最小增益值的持续时间大于最小增益跟踪窗长的K2倍，K2为大于K1的数值，利用所述最小增益暂时值更新所述最小增益值，并将所述最小增益值的持续时间设置为最小增益跟踪窗长的K1倍，将所述最小增益暂时值恢复为初始值。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述最小增益值，获得所述第N帧音频数据的控制增益，包括：

根据增益平滑因子、所述第N-1帧音频数据的控制增益和所述最小增益值，获得所述第N帧音频数据的控制增益。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，还包括：

若所述第N帧音频数据的最小增益大于或等于所述最小增益值的K3倍，K3为指定数值，将所述最小增益值，作为所述第N帧音频数据的控制增益。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述利用所述控制增益，对所述第N帧音频数据进行增益控制处理，包括：

若所述第N帧音频数据的控制增益小于或等于所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益中最小期望增益，利用所述控制增益，对所述第N帧音频数据进行增益控制处理；

若所述第N帧音频数据的控制增益大于所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益中最小期望增益，利用所述最小期望增益，对所述第N帧音频数据进行增益控制处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，还包括：

若所述第N帧音频数据为噪声帧，利用对所述第N-1帧音频数据进行增益控制处理的增益，对所述第N帧音频数据进行增益控制处理。

若所述运算结果不满足预先设置的控制条件，利用对所述第N-1帧音频数据进行增益控制处理的增益，对所述第N帧音频数据进行增益控制处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

获取第Q帧音频数据和所述第Q帧音频数据的VAD信息，Q为小于或等于M的整数；

利用增益初始值，对所述第Q帧音频数据进行增益控制处理。

本发明的另一方面，提供一种音频数据的增益控制装置，包括：

获取单元，用于获取第N帧音频数据和所述第N帧音频数据的VAD信息，N为大于M的整数，M为大于或等于1的整数；

期望增益获得单元，用于根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益；

控制增益获得单元，用于根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益；

控制单元，用于利用所述控制增益，对所述第N帧音频数据进行增益控制处理。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述控制增益获得单元，具体用于

若所述第N帧音频数据的最小增益大于或等于所述最小增益值，维持所述最小增益值，并记录所述最小增益值的持续时间；以及

根据所述最小增益值，获得所述第N帧音频数据的控制增益。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述控制增益获得单元，还用于

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述控制单元，具体用于

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，

所述获取单元，还用于

所述控制单元，还用于

利用增益初始值，对所述第Q帧音频数据进行增益控制处理。

由上述技术方案可知，本发明实施例通过获取第N帧音频数据和所述第N帧音频数据的VAD信息，以及根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益，进而根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，使得能够利用所述控制增益，对所述第N帧音频数据进行增益控制处理，从而将待识别音频数据的幅度数值控制在识别阈值之上，能够有效避免语音识别性能的降低。

另外，采用本发明所提供的技术方案，同时提高识别***的稳健性。

另外，采用本发明所提供的技术方案，通过根据所述第N帧音频数据的VAD信息，确定所述第N帧音频数据是否为语音帧，无需进行模型参数估计，从而减小了运算量，能够有效提高语音识别性能。

另外，采用本发明所提供的技术方案，通过跟踪最小增益跟踪窗长内的最小增益值，能够有效降低音频数据帧与音频数据帧之间的音频跳变，能够进一步有效提高语音识别性能。

另外，采用本发明所提供的技术方案，通过对加载在音频数据上的控制增益进行平滑处理，使得在调整音频数据幅度的同时，能够尽可能多的保留了音频数据的包络信息。

另外，采用本发明所提供的技术方案，采用流式操作方式，可以实时地对输入的每帧音频数据进行增益控制处理，并且得到了稳健的识别性能，更加适合线上语音识别***的实时性处理要求。

另外，采用本发明所提供的技术方案，无需设定处理曲线以及处理次数，对于各种输入的每帧音频数据，只需要一次就能够将每帧音频数据的幅度调整到最优幅度。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的音频数据的增益控制方法的流程示意图；

图2为本发明另一实施例提供的音频数据的增益控制装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer，PC)、MP3播放器、MP4播放器、可穿戴设备(例如，智能眼镜、智能手表、智能手环等)等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的音频数据的增益控制方法的流程示意图，如图1所示。

101、获取第N帧音频数据和所述第N帧音频数据的语音活动检测(Voice ActivityDetection，VAD)信息，N为大于M的整数，M为大于或等于1的整数。

所谓的音频数据，是指由对音频信号转换而来的数字信号，例如，对所述音频信号进行抽样、量化和编码处理，所获得的脉冲编码调制(Pulse Code Modulation，PCM)数据。编码处理的详细描述可以参见现有技术中的相关内容，此处不再赘述。

在一个具体的实现过程中，具体可以利用声音采集设备例如，麦克风等，实时采集说话者的音频信号，然后，对所述音频信号进行抽样、量化和编码处理，以获得待处理的音频数据。

在另一个具体的实现过程中，具体可以从终端的存储设备中获取预先录制或下载的音频文件，进而，对所述音频文件进行解码，以获得待处理的音频数据。

其中，所述音频文件可以包括现有技术中各种编码格式的音频文件，例如，动态图像专家组(Moving Picture Experts Group，MPEG)层3(MPEGLayer-3，MP3)格式音频文件、WMA(Windows Media Audio)格式音频文件、高级音频编码(Advanced Audio Coding，AAC)格式音频文件或APE格式音频文件等，本实施例对此不进行特别限定。

例如，所述终端的存储设备可以慢速存储设备，具体可以为计算机***的硬盘，或者还可以为手机的非运行内存即物理内存，例如，只读存储器(Read-Only Memory，ROM)和内存卡等，本实施例对此不进行特别限定。

或者，再例如，所述终端的存储设备还可以为快速存储设备，具体可以为计算机***的内存，或者还可以为手机的运行内存即***内存，例如，随机存储器(Random AccessMemory，RAM)等，本实施例对此不进行特别限定。

通常来说，对所输入的音频数据，对所述音频数据进行分帧处理，帧间没有重叠部分，以获得若干帧音频数据，例如，可以按照预设时间大小如10毫秒(ms)等。这样，可以对每帧音频数据，执行101～104的处理。

关于M的取值，一般可以根据每帧音频数据的时间进行灵活设置，以尽量保证M+1帧的音频数据中能够包含一个音节，例如，在汉语中一般一个汉字的读音即为一个音节，假设每帧音频数据的时间长度为10ms，那么，M的取值可以为7。

102、根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益。

其中，期望幅度数值，在进行初始化时，可以设置一个初始值例如，25000。

可选地，在本实施例的一个可能的实现方式中，具体可以将期望幅度数值与所述第N帧音频数据的幅度峰值即最大幅度值的比值，作为所述第N帧音频数据的期望增益。

103、根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益。

104、利用所述控制增益，对所述第N帧音频数据进行增益控制处理。

需要说明的是，101～104的执行主体可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式***，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行特别限定。

这样，通过获取第N帧音频数据和所述第N帧音频数据的VAD信息，以及根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益，进而根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，使得能够利用所述控制增益，对所述第N帧音频数据进行增益控制处理，从而将待识别音频数据的幅度数值控制在识别阈值之上，能够有效避免语音识别性能的降低。

本发明中，所获取的第N帧音频数据的VAD信息，是利用VAD技术，在噪声环境中检测语音的存在与否，通常可以用于语音编码、语音增强等语音处理***中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。VAD信息可以包括语音帧和噪声帧两种，具体可以利用变量值来表示，例如，可以利用1表示语音帧，利用0表示噪声帧。

可选地，在本实施例的一个可能的实现方式中，本发明中，若所获取的某帧音频数据，不满足101中所获取的音频数据对帧号的要求，即获取第Q帧音频数据和所述第Q帧音频数据的VAD信息，Q为小于或等于M的整数，那么，则可以直接利用增益初始值，对所述第Q帧音频数据进行增益控制处理。具体来说，所述增益初始值，可以设置为1，也就是说，可以不对所述第Q帧音频数据进行增益控制处理。

可选地，在本实施例的一个可能的实现方式中，在103中，具体可以根据所述第N帧音频数据的VAD信息，确定所述第N帧音频数据是否为语音帧。具体可以通过判断所述第N帧音频数据的VAD信息的变量值，确定所述第N帧音频数据是否为语音帧。若变量值为0，则可以确定所述第N帧音频数据为非语音帧即噪声帧；若变量值为1，则可以确定所述第N帧音频数据为语音帧。这样，通过根据所述第N帧音频数据的VAD信息，确定所述第N帧音频数据是否为语音帧，无需进行模型参数估计，从而减小了运算量，能够有效提高语音识别性能。

在一个具体的实现过程中，若所述第N帧音频数据为语音帧，则可以进一步对所述第N帧音频数据的VAD信息和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息进行运算处理，以获得运算结果。例如，进行求和运算处理，以获得一个求和值。

然后，可以对所述运算结果进行判断，判断其是否满足预先设置的控制条件。例如，判断求和值是否大于2/3(M+1)。若所述运算结果满足预先设置的控制条件，那么，则可以根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益。

具体来说，具体可以根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，选择P个最小的期望增益，P为大于1且小于或等于M的奇数，对所述P个最小的期望增益进行中值滤波处理，以获得所述第N帧音频数据的最小增益。

然后，对所述第N帧音频数据的最小增益进行判断，判断其是否小于最小增益值。该最小增益值，在进行初始化时，可以设置一个初始值例如，100。

若所述第N帧音频数据的最小增益小于最小增益值，则可以进一步利用所述第N帧音频数据的最小增益更新所述最小增益值；若所述第N帧音频数据的最小增益大于或等于所述最小增益值，维持所述最小增益值，并记录所述最小增益值的持续时间。接着，则可以根据所述最小增益值，获得所述第N帧音频数据的控制增益。

当所在场景相对固定时，音频数据在相邻帧之间其峰值变化较小，可能会出现若所述第N帧音频数据的最小增益大于或等于所述最小增益值的K3倍的情况，说明所述第N帧音频数据为噪声帧，那么，则可以进一步将所述最小增益值，作为所述第N帧音频数据的控制增益。

在记录所述最小增益值的持续时间之后，如果所述最小增益值发生变化，则将所记录的该最小增益值的持续时间进行清零处理。若所述最小增益值一直没有发生变化，则持续记录所述的持续时间。

若所述最小增益值的持续时间大于最小增益跟踪窗长的K1倍，K1为大于0且小于1的数值例如，0.5，且所述第N帧音频数据的最小增益小于最小增益暂时值，则可以进一步利用所述第N帧音频数据的最小增益更新所述最小增益暂时值。该最小增益暂时值，在进行初始化时，可以设置一个初始值例如，100。

其中，关于最小增益跟踪窗长的取值，一般可以根据每帧音频数据的时间进行灵活设置，以尽量保证M+1帧的音频数据中能够包含一个完整的意思即包含3个音节～4个音节，假设每帧音频数据的时间长度为10ms，那么，最小增益跟踪窗长的取值可以为960ms。这样，通过跟踪最小增益跟踪窗长内的最小增益值，能够有效降低音频数据帧与音频数据帧之间的音频跳变，能够进一步有效提高语音识别性能。

若所述最小增益值的持续时间大于最小增益跟踪窗长的K2倍，K2为大于K1的数值例如1.5，则可以进一步利用所述最小增益暂时值更新所述最小增益值，并将所述最小增益值的持续时间设置为最小增益跟踪窗长的K1倍，将所述最小增益暂时值恢复为初始值。

更为具体地说，具体可以根据增益平滑因子、所述第N-1帧音频数据的控制增益和所述最小增益值，获得所述第N帧音频数据的控制增益。该增益平滑因子，在进行初始化时，可以设置一个固定值例如，0.98。例如，具体可以对增益平滑因子与所述第N-1帧音频数据的控制增益的乘积，与，1-增益平滑因子的差值与所述最小增益值的乘积，进行求和处理，将其结果作为所述第N帧音频数据的控制增益。

这样，通过对加载在音频数据上的控制增益进行平滑处理，使得在调整音频数据幅度的同时，能够尽可能多的保留了音频数据的包络信息。

可选地，在本实施例的一个可能的实现方式中，在104中，为了保证所述第N帧音频数据不会被截幅，还可以进一步对所述第N帧音频数据的控制增益，与，所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益中最小期望增益，进行比较，以对所述第N帧音频数据进行增益控制处理的增益，进行额外的限制。

若所述第N帧音频数据的控制增益小于或等于所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益中最小期望增益，则可以进一步利用所述控制增益，对所述第N帧音频数据进行增益控制处理；

若所述第N帧音频数据的控制增益大于所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益中最小期望增益，则可以进一步利用所述最小期望增益，对所述第N帧音频数据进行增益控制处理。

可选地，在本实施例的一个可能的实现方式中，若所述第N帧音频数据为噪声帧，则可以进一步利用对所述第N帧音频数据前一帧音频数据即所述第N-1帧音频数据进行增益控制处理的增益，对所述第N帧音频数据进行增益控制处理。

可选地，在本实施例的一个可能的实现方式中，若所获得的所述运算结果不满足预先设置的控制条件，则可以进一步利用对所述第N-1帧音频数据进行增益控制处理的增益，对所述第N帧音频数据进行增益控制处理。

本实施例中，通过获取第N帧音频数据和所述第N帧音频数据的VAD信息，以及根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益，进而根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，使得能够利用所述控制增益，对所述第N帧音频数据进行增益控制处理，从而将待识别音频数据的幅度数值控制在识别阈值之上，能够有效避免语音识别性能的降低。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的音频数据的增益控制装置的结构示意图，如图2所示。本实施例的音频数据的增益控制装置可以包括获取单元21、期望增益获得单元22、控制增益获得单元23和控制单元24。其中，获取单元21，用于获取第N帧音频数据和所述第N帧音频数据的VAD信息，N为大于M的整数，M为大于或等于1的整数；期望增益获得单元22，用于根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益；控制增益获得单元23，用于根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益；控制单元24，用于利用所述控制增益，对所述第N帧音频数据进行增益控制处理。

需要说明的是，本实施例所提供的音频数据的增益控制装置可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的处理引擎，或者还可以为位于网络侧的分布式***，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，本发明中，若所述获取单元21所获取的某帧音频数据，不满足对帧号N的要求，即获取第Q帧音频数据和所述第Q帧音频数据的VAD信息，Q为小于或等于M的整数，那么，所述控制单元24，具体则可以用于直接利用增益初始值，对所述第Q帧音频数据进行增益控制处理。具体来说，所述增益初始值，可以设置为1，也就是说，可以不对所述第Q帧音频数据进行增益控制处理。

可选地，在本实施例的一个可能的实现方式中，所述控制增益获得单元23，具体可以用于根据所述第N帧音频数据的VAD信息，确定所述第N帧音频数据是否为语音帧；若所述第N帧音频数据为语音帧，对所述第N帧音频数据的VAD信息和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息进行运算处理，以获得运算结果；若所述运算结果满足预先设置的控制条件，根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益。

具体来说，所述控制增益获得单元23，具体可以用于根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，选择P个最小的期望增益，P为大于1且小于或等于M的奇数，对所述P个最小的期望增益进行中值滤波处理，以获得所述第N帧音频数据的最小增益；若所述第N帧音频数据的最小增益小于最小增益值，利用所述第N帧音频数据的最小增益更新所述最小增益值；若所述第N帧音频数据的最小增益大于或等于所述最小增益值，维持所述最小增益值，并记录所述最小增益值的持续时间；以及根据所述最小增益值，获得所述第N帧音频数据的控制增益。

当所在场景相对固定时，音频数据在相邻帧之间其峰值变化较小，可能会出现若所述第N帧音频数据的最小增益大于或等于所述最小增益值的K3倍的情况，说明所述第N帧音频数据为噪声帧，那么，所述控制增益获得单元23，还可以进一步用于若所述第N帧音频数据的最小增益大于或等于所述最小增益值的K3倍，K3为指定数值，将所述最小增益值，作为所述第N帧音频数据的控制增益。

在记录所述最小增益值的持续时间之后，如果所述最小增益值发生变化，所述控制增益获得单元23则将所记录的该最小增益值的持续时间进行清零处理。若所述最小增益值一直没有发生变化，所述控制增益获得单元23则持续记录所述的持续时间。

所述控制增益获得单元23，还可以进一步用于若所述最小增益值的持续时间大于最小增益跟踪窗长的K1倍，K1为大于0且小于1的数值，且所述第N帧音频数据的最小增益小于最小增益暂时值，利用所述第N帧音频数据的最小增益更新所述最小增益暂时值；若所述最小增益值的持续时间大于最小增益跟踪窗长的K2倍，K2为大于K1的数值，利用所述最小增益暂时值更新所述最小增益值，并将所述最小增益值的持续时间设置为最小增益跟踪窗长的K1倍，将所述最小增益暂时值恢复为初始值。

更为具体地说，所述控制增益获得单元23，具体可以用于根据增益平滑因子、所述第N-1帧音频数据的控制增益和所述最小增益值，获得所述第N帧音频数据的控制增益。

可选地，在本实施例的一个可能的实现方式中，所述控制单元24，具体可以用于若所述第N帧音频数据的控制增益小于或等于所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益中最小期望增益，利用所述控制增益，对所述第N帧音频数据进行增益控制处理；若所述第N帧音频数据的控制增益大于所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益中最小期望增益，利用所述最小期望增益，对所述第N帧音频数据进行增益控制处理。

可选地，在本实施例的一个可能的实现方式中，所述控制增益获得单元23，还可以进一步用于若所述第N帧音频数据为噪声帧，利用对所述第N-1帧音频数据进行增益控制处理的增益，对所述第N帧音频数据进行增益控制处理。

可选地，在本实施例的一个可能的实现方式中，所述控制增益获得单元23，还可以进一步用于若所述运算结果不满足预先设置的控制条件，利用对所述第N-1帧音频数据进行增益控制处理的增益，对所述第N帧音频数据进行增益控制处理。

需要说明的是，图1对应的实施例中方法，可以由本实施例提供的音频数据的增益控制装置实现。详细描述可以参见图1对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过获取单元获取第N帧音频数据和所述第N帧音频数据的VAD信息，以及期望增益获得单元根据期望幅度数值和所述第N帧音频数据，获得所述第N帧音频数据的期望增益，进而由控制增益获得单元根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，使得控制单元能够利用所述控制增益，对所述第N帧音频数据进行增益控制处理，从而将待识别音频数据的幅度数值控制在识别阈值之上，能够有效避免语音识别性能的降低。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频数据的增益控制方法，其特征在于，包括：

利用所述控制增益，对所述第N帧音频数据进行增益控制处理；其中，

所述根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，包括：

根据所述最小增益值，获得所述第N帧音频数据的控制增益。

3.根据权利要求2所述的方法，其特征在于，所述若所述第N帧音频数据的最小增益大于或等于所述最小增益值，维持所述最小增益值，并记录所述最小增益值得持续时间之后，还包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述最小增益值，获得所述第N帧音频数据的控制增益，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，还包括：

6.根据权利要求1所述的方法，其特征在于，所述利用所述控制增益，对所述第N帧音频数据进行增益控制处理，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，还包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述第N帧音频数据的VAD信息、所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的VAD信息、所述第N帧音频数据的期望增益和所述第N帧音频数据之前相邻的M帧音频数据中每帧音频数据的期望增益，获得所述第N帧音频数据的控制增益，还包括：

9.根据权利要求1～8任一权利要求所述的方法，其特征在于，所述方法还包括：

利用增益初始值，对所述第Q帧音频数据进行增益控制处理。

10.一种音频数据的增益控制装置，其特征在于，包括：

控制单元，用于利用所述控制增益，对所述第N帧音频数据进行增益控制处理；其中，

所述控制增益获得单元，具体用于

11.根据权利要求10所述的装置，其特征在于，所述控制增益获得单元，具体用于

根据所述最小增益值，获得所述第N帧音频数据的控制增益。

12.根据权利要求11所述的装置，其特征在于，所述控制增益获得单元，还用于

13.根据权利要求11所述的装置，其特征在于，所述控制增益获得单元，具体用于

14.根据权利要求11所述的装置，其特征在于，所述控制增益获得单元，还用于

15.根据权利要求10所述的装置，其特征在于，所述控制单元，具体用于

16.根据权利要求10所述的装置，其特征在于，所述控制增益获得单元，还用于

17.根据权利要求10所述的装置，其特征在于，所述控制增益获得单元，还用于

18.根据权利要求10～17任一权利要求所述的装置，其特征在于，

所述获取单元，还用于

所述控制单元，还用于

利用增益初始值，对所述第Q帧音频数据进行增益控制处理。