CN104916288B

CN104916288B - 一种音频中人声突出处理的方法及装置

Info

Publication number: CN104916288B
Application number: CN201410096336.2A
Authority: CN
Inventors: 高伟标; 何文辉; 刘飞祥; 朱生林
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2019-01-18
Anticipated expiration: 2034-03-14
Also published as: CN104916288A

Abstract

本发明公开了一种音频中人声突出处理的方法及装置，其中，该方法包括：对音频信号进行分帧处理，以得到各个音频帧信号；对得到的音频帧信号进行分组，每N个音频帧信号分为一组，分析每一分组中音频帧信号的频带范围、频带能量、低能量帧率及过零率的特性，并根据每一分组对应的分析结果，确定每一分组音频帧信号中是否有人声，N取大于1的正整数；若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号。采用本发明，可方便准确的识别人声并对识别出的人声进行突出。

Description

一种音频中人声突出处理的方法及装置

技术领域

本发明涉及到多媒体信息领域，特别涉及到一种音频中人声突出处理的方法及装置。

背景技术

随着多媒体技术不断的发展，音视频信息在人们的工作、文体和娱乐生活中的作用越来越重。然而，TV上的一些节目源，会出现背景声音较大导致节目中的人物对话听起来不够清晰的情况，例如雨声中的人物对话，枪战背景的人物对话，新闻节目中的现场采访。针对这类问题，现有的TV在“声音设置“中有“语音清晰”、“新闻”选项，用户在观看这类节目时，可以手动打开这些选项，但是对于一些节目源调用该功能效果会更差，例如一些音乐类的节目，用户需手动关闭该功能，这样用户为了达到比较好的声音效果，必须频繁手动开关，这给用户来带来不少麻烦，以至于该功能形同摆设，并没有多少用户去频繁开它。

另外传统的“语音清晰”、“新闻”算法是通过提升中频段(200Hz至8kHz)的增益，或者降低该频段以外的频域增益，或者两种措施同时加入。但是实际的节目中的人声在某个小时间段并未有这么宽的带宽，多数仅是该频段内的一小部分，因此并不能很好的达到突出人声的效果。

发明内容

本发明的主要目的为提供一种音频中人声突出处理的方法及装置，旨在方便准确的识别人声并对识别出的人声进行突出。

本发明提供一种音频中人声突出处理的方法，该方法包括：

对音频信号进行分帧处理，以得到各个音频帧信号；

对得到的音频帧信号进行分组，每N个音频帧信号分为一组，分析每一分组中音频帧信号的频带范围、频带能量、低能量帧率及过零率的特性，并根据每一分组对应的分析结果，确定每一分组音频帧信号中是否有人声，N取大于1的正整数；

若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号。

优选地，所述对得到的音频帧信号进行分组，每N个音频帧信号分为一组，分析每一分组中音频帧信号的频带范围、频带能量、低能量帧率及过零率的特性，并根据每一分组对应的分析结果，确定每一分组音频帧信号中是否有人声频带范围步骤包括：

对得到的音频帧信号进行分组，每N个音频帧信号分为一组；

分析每一分组音频帧信号的频带范围是否与预设人声频带范围有交集；

若所述分组音频帧信号的频带范围与预设人声频带范围有交集，则分析所述分组音频帧信号在预设人声频带范围内的能量与所述分组音频帧信号在预设人声频带范围外的能量的比例是否大于等于第一预设阀值；

若所述分组音频帧信号在预设人声频带范围内的能量与所述分组音频帧信号在预设人声频带范围外的能量的比例大于等于第一预设阀值，分析所述分组音频帧信号的低能量帧率是否小于第二预设阀值；

若所述分组音频帧信号的低能量帧率小于第二预设阀值，则分析所述分组音频帧信号的每帧音频信号的过零率是否按照一预设规律交替变化；

若所述分组音频帧信号的每帧音频信号的过零率按照一预设规律交替变化，则确定所述分组音频帧信号中有人声。

优选地，所述若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号的步骤包括：

若有分组音频帧信号中有人声，则将所述分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，并计算各个频段的能量及找出最大能量；

将分成预设数量的频段从低频段到高频段排序，获取与最大能量之差大于预设差值的第一个频段的中心频点及获取与最大能量之差小于预设差值的第一个频段的中心频点；

调用截止频率范围包括与最大能量之差大于预设差值的该第一个频段的中心频点的高通滤波器对所述分组的音频帧信号进行滤波，以输出第二音频信号；及并调用截止频率范围包括与最大能量之差小于预设差值的该第一个频段的中心频点低通滤波器对所述第二音频信号进行滤波，以输出第一音频信号。

优选地，所述调用截止频率范围包括与最大能量之差大于预设差值的该第一个频段的中心频点的高通滤波器对所述分组的音频帧信号进行滤波，以输出第二音频信号；及并调用截止频率范围包括与最大能量之差小于预设差值的该第一个频段的中心频点低通滤波器对所述第二音频信号进行滤波，以输出第一音频信号的步骤之后，该方法还包括：

对输出的第一音频信号通过以下公式处理，以输出第三音频信号；

其中：其中ω＝2πf，f是频率，X(ω)是第一音频信号f对应的信号幅度，将预设人声频带范围(f1-f5)分为四个频段，分别是(f1-f2)、(f2-f3)、(f3-f4)、(f4-f5)。

优选地，所述若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号的步骤之后，该方法还包括：

将所述第一音频信号通过一预设截止频率的低通滤波器，以输出第四音频信号。

本发明还提供一种音频中人声突出处理的装置，该装置包括：

分帧处理模块，用于对音频信号进行分帧处理；

分析确定模块，用于对得到的音频帧信号进行分组，每N个音频帧信号分为一组，分析每一分组中音频帧信号的频带范围、频带能量、低能量帧率及过零率的特性，并根据每一分组对应的分析结果，确定每一分组音频帧信号中是否有人声，N取大于1的正整数；

第一处理模块，用于在若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号。

优选地，所述分析确定模块包括：

分组单元，用于对得到的音频帧信号进行分组，每N个音频帧信号分为一组；

第一分析单元，用于分析每一分组音频帧信号的频带范围是否与预设人声频带范围有交集；

第二分析单元，用于在分组音频帧信号的频带范围与预设人声频带范围有交集时，分析所述分组音频帧信号在预设人声频带范围内的能量与所述分组音频帧信号在预设人声频带范围外的能量的比例是否大于等于第一预设阀值；

第三分析单元，用于在分组音频帧信号在预设人声频带范围内的能量与所述分组音频帧信号在预设人声频带范围外的能量的比例大于等于第一预设阀值时，分析所述分组音频帧信号的低能量帧率是否小于第二预设阀值；

第四分析单元，用于在分组音频帧信号的低能量帧率小于第二预设阀值时，分析所述分组音频帧信号的每帧音频信号的过零率是否按照一预设规律交替变化；

确定单元，用于在所述分组音频帧信号的每帧音频信号的过零率按照一预设规律交替变化时，确定所述分组音频帧信号中有人声。

优选地，所述第一处理模块包括：

第一处理单元，用于在若有分组音频帧信号中有人声时，将所述分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，并计算各个频段的能量及找出最大能量；

获取单元，用于将分成预设数量的频段从低频段到高频段排序，获取与最大能量之差大于预设差值的第一个频段的中心频点及获取与该最大能量之差小于预设差值的第一个频段的中心频点；

调用单元，用于调用截止频率范围包括与最大能量之差大于预设差值的该第一个频段的中心频点的高通滤波器对所述分组的音频帧信号进行滤波，以输出第二音频信号；及并调用截止频率范围包括与最大能量之差小于预设差值的该第一个频段的中心频点低通滤波器对所述第二音频信号进行滤波，以输出第一音频信号。

优选地，所述第一处理模块还包括：

第二处理单元，用于对输出的第一音频信号通过以下公式处理，以输出第三音频信号；

优选地，所述装置还包括：

第二处理模块，用于将所述第一音频信号通过一预设截止频率的低通滤波器，以输出第四音频信号。

采用本发明，对音频信号进行分帧处理，以得到各个音频帧信号；对得到的音频帧信号进行分组，每N个音频帧信号分为一组，分析每一分组中音频帧信号的频带范围、频带能量、低能量帧率及过零率的特性，并根据每一分组对应的分析结果，确定每一分组音频帧信号中是否有人声，N取大于1的正整数；若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号，可方便准确的识别人声并对识别出的人声进行突出。

附图说明

图1为本发明音频中人声突出处理的方法的第一实施例流程示意图；

图2为图1中步骤S20的详细流程示意图；

图3为图1中步骤S30的详细流程示意图；

图4为本发明音频中人声突出处理的方法的第二实施例流程示意图；

图5为本发明音频中人声突出处理的装置的第一实施例结构示意图；

图6为图5中分析确定模块的详细结构示意图；

图7为图5中第一处理模块的详细结构示意图；

图8为本发明音频中人声突出处理的装置的第二实施例结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明音频中人声突出处理的方法的第一实施例流程示意图，该方法包括：

S10、对音频信号进行分帧处理，以得到各个音频帧信号。

在本实施例中，输入的音频信号可以是单声道、双声道或多声道，如果检测到音频信号是单声道，则直接对音频信号采样数据序列按照预设帧长进行分帧处理；如果是双声道、甚至多声道，则每一路均按本发明的方法处理。

在对音频信号进行分帧时，如可以采用以1ms时长为一帧，对于采样率为48kHz的采样率，每帧有48个采样点。

通常，可将音频信号分为三个大类：“音乐类”、“人说话声+背景声”和“其他背景声”，需要对有人声的音频信号进行人声突出处理。

其中：“音乐类”包含三种小类：最常见的“背景音乐+歌唱”、“音乐背景+语音”(常见的说唱类的节目)以及纯音乐背景，该音乐类音频信号的频谱较宽且频率能量变化平缓、时域上低能量帧率较低和过零率平稳，不需要进行人声突出处理。

“人说话声+背景声”这一类中的背景声分为一般背景声和幅度较小的音乐背景声。该“人说话声+背景声”音频信号在频域上中频能量较为集中，因人说话声音结构是每个字节有短暂停顿，“人说话声+背景声”音频信号在时域上能量有明显的高低变化过程，造成起低能量帧率高于“音乐类”和“其他背景声”，人类说话声由清音和浊音交替组成，相对来说轻音有较高的频率，一般在3kHz以上，浊音频率一般在3kHz以下，这造成了人说话声有明显的过零率交替变化的规律，因此，“人说话声+背景声”，需要进行人声突出处理。

“其他背景声”的音频信号在频域上频谱能量分布较为均匀，时域上低能量帧率分布也较为均匀，过零率变化也较为平缓，不需要进行人声突出处理。

S20、对得到的音频帧信号进行分组，每N个音频帧信号分为一组，分析每一分组中音频帧信号的频带范围、频带能量、低能量帧率及过零率的特性，并根据每一分组对应的分析结果，确定每一分组音频帧信号中是否有人声，N取大于1的正整数，若有分组音频帧信号中有人声，则执行步骤S30。

对得到的音频帧信号进行分组，每N个音频帧信号分为一组，该N取大于1的正整数，在具体实施时，可将该N取24，即将24帧音频帧信号分为一组。在该步骤S20中，对每一分组中音频帧信号的频带范围、能量特性、低能量帧率、过零率特性，以确定该每24帧的音频信号中是否有人声。

在具体实施过程中，该步骤S20包括以下步骤(如图2所示)：

S21、对得到的音频帧信号进行分组，每N个音频帧信号分为一组；

S22、分析每一分组音频帧信号的频带范围是否与预设人声频带范围有交集，若该分组音频帧信号的频带范围与预设人声频带范围有交集，则执行步骤S23；

该预设人声频带范围可根据实际情况设置，如可将该预设人声频带范围设置为200Hz-8kHz。在该步骤S22中，分析每一分组音频帧信号的频带范围是否与预设人声频带范围有交集，如当一分组音频帧信号的频带范围为100Hz～3kHz、800Hz～9kHz或100Hz～10kHz，则认为该分组音频帧信号的频带范围与预设人声频带范围200Hz-8kHz有交集，如当一分组音频帧信号的频带范围为100Hz～150Hz或9kHz～10kHz，则认为该分组音频帧信号的频带范围与预设人声频带范围200Hz-8kHz没有交集。

S23、分析该分组音频帧信号在预设人声频带范围内的能量与该分组音频帧信号在预设人声频带范围外的能量的比例是否大于等于第一预设阀值，若是，则执行步骤S24；

其中，所述能量的计算可采用现有技术计算得到。该第一预设阀值可根据实际情况设置，如可将第一预设阀值设置为45％。在该步骤S23中，计算该分组音频帧信号在预设人声频带范围内的能量，如该分组音频帧信号频带范围为100Hz～3kHz，该预设人声频带范围为200Hz-8kHz，则计算该分组音频帧信号中频带范围为200Hz～3kHz的能量为A1，计算该分组音频帧信号中200Hz以下频率的能量为A2，分析该A1与A2的比值是否大于等于45％，若该A1与A2的比值大于等于45％，则执行步骤S24；若该A1与A2的比值小于45％，则认为该分组音频帧信号中没有人声，该分组音频帧信号为音乐类音频信号；

S24、分析该分组音频帧信号的低能量帧率是否小于第二预设阀值，若是，则执行步骤S25；

该第二预设阀值可根据实际情况设置，如可将第二预设阀值设置为40％。该低能量帧率是指在n帧信号中，以最高能量的那一帧信号的能量为参考，能量小于其m％的其他帧的数量与n的比值，其中，m为大于0且小于100的自然数。在本实施例中，例如该n为24，m＝30，最高能量的那一帧信号的能量为B1，能量小于30％*B1的帧的数量为6，则该低能量帧率为25％。当该分组音频帧信号的低能量帧率小于第二预设阀值，则执行步骤S25；当该分组音频帧信号的低能量帧率大于等于第二预设阀值，则认为该分组音频帧信号中没有人声，该分组音频帧信号为其他背景声。

S25、分析该分组音频帧信号的每帧音频信号的过零率是否按照一预设规律交替变化，若是，则执行步骤S26；

该过零率是指每帧音频信号内信号通过零值的次数与给定次数之比，例如该给定次数可以为20，每帧信号包括24个采样点，某一帧音频信号中通过零值的采样点数量为2，则该帧的过零率为10％。

该预设规律可根据实际需要设置，如可设置为连续数量帧(如连续5帧、或连续10帧)的过零率先小于一预设过零率，然后过零率再大于一预设过零率，接着过零率又小于一预设过零率，然后过零率再大于一预设过零率等交替变化。该预设过零率可以为12.5％。

S26、确定该分组音频帧信号中有人声。

S30、对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号。

在该步骤S30中，对该每第一预设数量帧的音频信号进行带通滤波，具体的，该步骤S30包括以下步骤(如图3所示)：

S31、将该分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，并计算各个频段的能量及找出最大能量。

将该分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，在具体实施时，可预先将预设人声频带范围200Hz-8kHz按照对数规律分成16个频段，分别为：频段一大于等于200Hz且小于252Hz，频段二大于等于252Hz且小于317Hz，频段三大于等于317Hz且小于399Hz，频段四大于等于399Hz且小于502Hz，频段五大于等于502Hz且小于632Hz，频段六大于等于632Hz且小于796Hz，频段七大于等于796Hz且小于1003Hz，频段八大于等于1003Hz且小于1265Hz，频段九大于等于1265Hz且小于1594Hz，频段十大于等于1594Hz且小于2006Hz，频段十一大于等于2006Hz且小于2526Hz，频段十二大于等于2526Hz且小于3181Hz，频段十三大于等于3181Hz且小于4006Hz，频段十四大于等于4006Hz且小于5045Hz，频段十五大于等于5045Hz且小于6353Hz，频段***于等于6353Hz且小于等于8000Hz。

在该步骤S31中将该分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，具体的根据上述预设人声频带范围200Hz-8kHz分成的16个频段可确定该分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，如当该分组的音频帧信号在预设人声频带范围的音频信号为200Hz～3kHz，则该预设数量为12，即可将该200Hz～3kHz分成上述的频段一到频段十二。

在该步骤S31中，计算各个频段的能量及找出最大能量，可通过以下公式计算各个频段的能量P_j：

其中，P_j是第j个频段的能量，ω_j1＝2πf_j1，f_j1是第j段频道的起始频率，ω_j2＝2πf_j2，f_j2是第j段频道的终结频率，ω＝2πf,D(ω)是f频点对应的信号幅度，f为第j个频段内的频点。

根据上述公式可计算出频段一到频段十二的能量(如能量为P₁、P₂、P₃、P₄……P₁₁、P₁₂)，然后找出最大能量，如找出的最大能量为P₃。

S32、将分成预设数量的频段从低频段到高频段排序，获取与最大能量之差大于预设差值的第一个频段的中心频点及获取与该最大能量之差小于预设差值的第一个频段的中心频点。

该预设差值可根据实际需要设置，如可将该预设差值设置为6dB。将分成预设数量的频段从低频段到高频段排序，如上述的从频段一到频段十二各频段递增。获取与最大能量之差大于预设差值的第一个频段的中心频点及获取与该最大能量之差小于预设差值的第一个频段的中心频点，如与最大能量P₃之差大于预设差值的第一个频段为频段五，则获取该频段五的中心频点，如与最大能量P₃之差小于预设差值的第一个频段为频段七，则获取该频段七的中心频点。

S33、调用截止频率范围包括该与最大能量之差大于预设差值的第一个频段的中心频点的高通滤波器对该分组的音频帧信号进行滤波，以输出第二音频信号；及并调用截止频率范围包括与最大能量之差小于预设差值的该第一个频段的中心频点低通滤波器对该第二音频信号进行滤波，以输出第一音频信号。

在该步骤S33中，根据步骤S32获取的与最大能量之差大于预设差值的第一个频段的中心频点及与该最大能量之差小于预设差值的第一个频段的中心频点分别调用对应的高通滤波器和低通滤波器，实现带通滤波对该分组的音频帧信号进行处理，实时取出了人声所在的频段。由于人声以外的频段被滤除，因此很大程度的突出了人声。

进一步的，在步骤S33之后，该方法还包括：

S34、对输出的第一音频信号通过以下公式处理，以输出第三音频信号；

其中：其中ω＝2πf，f是频率，X(ω)是第一音频信号f对应的信号幅度，将预设人声频带范围(f1-f5)分为四个频段，分别是(f1-f2)、(f2-f3)、(f3-f4)、(f4-f5)，将所述第一音频信号落在所述四个频段内的信号做上述公式的处理，以得到第三音频信号Y(ω)，以进一步突出人声。

本实施例中，以预设人声频带范围为(200HZ-8KHZ)，并将其分为(200Hz-750Hz)、(750Hz-850Hz)、(850Hz-2kHz)、(2k Hz-8kHz)来举例说明，上述公式变为：

即在该步骤S34中，当步骤S33输出的第一音频信号的频带在200Hz≤f<750Hz之间的信号，输出的第三音频信号为经转换相当于第一音频信号的频带在200Hz≤f<750Hz之间的信号其增益提升了同理，第一音频信号的频带在750Hz≤f<850Hz之间的信号，其不做提升；第一音频信号的频带在850Hz≤f<2kHz之间的信号，其增益提升了20lg2＝6dB；第一音频信号的频带在2kHz≤f≤8kHz之间的信号，其增益提升了

参照图4，图4为本发明音频中人声突出处理的方法的第二实施例流程示意图。

基于上述音频中人声突出处理的方法的第一实施例，在步骤S30之后，该方法还包括：

S40、将该第一音频信号通过一预设截止频率的低通滤波器，以输出第四音频信号。

该预设截止频率可根据实际需要设置，如可设置为15kHz。

在该步骤S40中，将该第一音频信号通过一预设截止频率的低通滤波器，可有效的降低高频分量，在时域上表现为信号连续缓和，信号失真大大降低。

参照图5，图5为本发明音频中人声突出处理的装置的第一实施例结构示意图，该装置包括：分帧处理模块10、与该分帧处理模块10连接的分析确定模块20、与该分析确定模块20连接的第一处理模块30，其中：

该分帧处理模块10，用于对音频信号进行分帧处理；

该分析确定模块20，用于对得到的音频帧信号进行分组，每N个音频帧信号分为一组，分析每一分组中音频帧信号的频带范围、频带能量、低能量帧率及过零率的特性，并根据每一分组对应的分析结果，确定每一分组音频帧信号中是否有人声，N取大于1的正整数；

该第一处理模块30，用于在若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号。

在本实施例中，输入的音频信号可以是单声道、双声道或多声道，如果输入的音频信号是双声道或多声道，该分帧处理模块10可以提取音频信号的左声道或者右声道或者将所有声道融合到一起再进行分帧处理；如果检测到音频信号是单声道，则该分帧处理模块10直接对音频信号采样数据序列按照预设帧长进行分帧处理。

该分帧处理模块10在对音频信号进行分帧时，如可以采用以1ms时长为一帧，对于采样率为48kHz的采样率，每帧有48个采样点。

该分析确定模块20对得到的音频帧信号进行分组，每N个音频帧信号分为一组，该N取大于1的正整数，在具体实施时，可将该N取24，即将24帧音频帧信号分为一组。该分析确定模块20对每一分组中音频帧信号的频带范围、能量特性、低能量帧率、过零率特性，以确定该每24帧的音频信号中是否有人声。

在具体实施过程中，该分析确定模块20包括(如图6所示)：分组单元21、与该分组单元21连接的第一分析单元22、与该第一分析单元22连接的第二分析单元23、与该第二分析单元23连接的第三分析单元24、与该第三分析单元24连接的第四分析单元25、与该第四分析单元25连接的确定单元26，其中：

该分组单元21，用于对得到的音频帧信号进行分组，每N个音频帧信号分为一组；

该第一分析单元22，用于分析每一分组音频帧信号的频带范围是否与预设人声频带范围有交集；

该第二分析单元23，用于在分组音频帧信号的频带范围与预设人声频带范围有交集时，分析该分组音频帧信号在预设人声频带范围内的能量与该分组音频帧信号在预设人声频带范围外的能量的比例是否大于等于第一预设阀值；

该第三分析单元24，用于在分组音频帧信号在预设人声频带范围内的能量与该分组音频帧信号在预设人声频带范围外的能量的比例大于等于第一预设阀值时，分析该分组音频帧信号的低能量帧率是否小于第二预设阀值；

该第四分析单元25，用于在分组音频帧信号的低能量帧率小于第二预设阀值时，分析该分组音频帧信号的每帧音频信号的过零率是否按照一预设规律交替变化；

该确定单元26，用于在该分组音频帧信号的每帧音频信号的过零率按照一预设规律交替变化时，确定该分组音频帧信号中有人声。

该预设人声频带范围可根据实际情况设置，如可将该预设人声频带范围设置为200Hz-8kHz。该第一分析单元22分析每一分组音频帧信号的频带范围是否与预设人声频带范围有交集，如当一分组音频帧信号的频带范围为100Hz～3kHz、800Hz～9kHz或100Hz～10kHz，则认为该分组音频帧信号的频带范围与预设人声频带范围200Hz-8kHz有交集，如当一分组音频帧信号的频带范围为100Hz～150Hz或9kHz～10kHz，则认为该分组音频帧信号的频带范围与预设人声频带范围200Hz-8kHz没有交集。

该第一预设阀值可根据实际情况设置，如可将第一预设阀值设置为45％。该第二分析单元23计算该分组音频帧信号在预设人声频带范围内的能量，如该分组音频帧信号频带范围为100Hz～3kHz，该预设人声频带范围为200Hz-8kHz，则计算该分组音频帧信号中频带范围为200Hz～3kHz的能量为A1，计算该分组音频帧信号中200Hz以下频率的能量为A2，分析该A1与A2的比值是否大于等于45％，若该A1与A2的比值小于45％，则认为该分组音频帧信号中没有人声，该分组音频帧信号为音乐类音频信号。

该第二预设阀值可根据实际情况设置，如可将第二预设阀值设置为40％。该低能量帧率是指在n帧信号中，以最高能量的那一帧信号的能量为参考，能量小于其m％的其他帧的数量与n的比值，其中，m为大于0且小于100的自然数。在本实施例中，例如该n为24，m＝30，最高能量的那一帧信号的能量为B1，能量小于30％*B1的帧的数量为6，则该第三分析单元24分析出该分组音频信号的低能量帧率为25％。当该分组音频帧信号的低能量帧率大于等于第二预设阀值，则认为该分组音频帧信号中没有人声，该分组音频帧信号为其他背景声。

进一步的，该第一处理模块30包括(如图7所示)：第一处理单元31、与该第一处理单元31连接的获取单元32、与该获取单元32连接的调用单元33，其中：

该第一处理单元31，用于在若有分组音频帧信号中有人声时，将该分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，并计算各个频段的能量及找出最大能量；

该获取单元32，用于将分成预设数量的频段从低频段到高频段排序，获取与最大能量之差大于预设差值的第一个频段的中心频点及获取与该最大能量之差小于预设差值的第一个频段的中心频点；

该调用单元33，用于调用截止频率范围包括与最大能量之差大于预设差值的该第一个频段的中心频点的高通滤波器对该分组的音频帧信号进行滤波，以输出第二音频信号；及并调用截止频率范围包括与最大能量之差小于预设差值的该第一个频段的中心频点低通滤波器对该第二音频信号进行滤波，以输出第一音频信号。

该第一处理单元31将该分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，在具体实施时，可预先将预设人声频带范围200Hz-8kHz按照对数规律分成16个频段，分别为：频段一大于等于200Hz且小于252Hz，频段二大于等于252Hz且小于317Hz，频段三大于等于317Hz且小于399Hz，频段四大于等于399Hz且小于502Hz，频段五大于等于502Hz且小于632Hz，频段六大于等于632Hz且小于796Hz，频段七大于等于796Hz且小于1003Hz，频段八大于等于1003Hz且小于1265Hz，频段九大于等于1265Hz且小于1594Hz，频段十大于等于1594Hz且小于2006Hz，频段十一大于等于2006Hz且小于2526Hz，频段十二大于等于2526Hz且小于3181Hz，频段十三大于等于3181Hz且小于4006Hz，频段十四大于等于4006Hz且小于5045Hz，频段十五大于等于5045Hz且小于6353Hz，频段***于等于6353Hz且小于等于8000Hz。

该第一处理单元31将该分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，具体的根据上述预设人声频带范围200Hz-8kHz分成的16个频段可确定该分组的音频帧信号在预设人声频带范围的音频信号分成预设数量的频段，如当该分组的音频帧信号在预设人声频带范围的音频信号为200Hz～3kHz，则该预设数量为12，即可将该200Hz～3kHz分成上述的频段一到频段十二。

该第一处理单元31计算各个频段的能量及找出最大能量，可通过以下公式计算各个频段的能量P_j：

该预设差值可根据实际需要设置，如可将该预设差值设置为6dB。该获取单元32将分成预设数量的频段从低频段到高频段排序，如上述的从频段一到频段十二各频段递增；获取与最大能量之差大于预设差值的第一个频段的中心频点及获取与该最大能量之差小于预设差值的第一个频段的中心频点，如与最大能量P₃之差大于预设差值的第一个频段为频段五，则获取该频段五的中心频点，如与最大能量P₃之差小于预设差值的第一个频段为频段七，则获取该频段七的中心频点。

在该调用单元33根据获取单元32获取的与最大能量之差大于预设差值的第一个频段的中心频点及与该最大能量之差小于预设差值的第一个频段的中心频点分别调用对应的高通滤波器和低通滤波器，实现带通滤波对该分组的音频帧信号进行处理，实时取出了人声所在的频段。由于人声以外的频段被滤除，因此很大程度的突出了人声。

进一步的，该第一处理模块30还包括与调用单元33连接的第二处理单元34，该第二处理单元34用于对输出的第一音频信号通过以下公式处理，以输出第三音频信号；

即当调用单元33输出的第一音频信号的频带在200Hz≤f<750Hz之间的信号，该第二处理单元34输出的第三音频信号为经转换相当于第一音频信号在200Hz≤f<750Hz其增益提升了同理，第一音频信号的频带在750Hz≤f<850Hz之间的信号，其不做提升；第一音频信号的频带在850Hz≤f<2kHz之间的信号，其增益提升了20lg2＝6dB；第一音频信号的频带在2k Hz≤f≤8kHz之间的信号，其增益提升了

参照图8，图8为本发明音频中人声突出处理的装置的第二实施例结构示意图。

基于上述音频中人声突出处理的装置的第一实施例，该装置还包括与该第一处理模块30连接的第二处理模块40，该第二处理模块40，用于将该第一音频信号通过一预设截止频率的低通滤波器，以输出第四音频信号。

该预设截止频率可根据实际需要设置，如可设置为15kHz。

该第二处理模块40将该第一音频信号通过一预设截止频率的低通滤波器，可有效的降低高频分量，在时域上表现为信号连续缓和，信号失真大大降低。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

Claims

1.一种音频中人声突出处理的方法，其特征在于，该方法包括：

对音频信号进行分帧处理，以得到各个音频帧信号；

若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号；

其中，所述对得到的音频帧信号进行分组，每N个音频帧信号分为一组，分析每一分组中音频帧信号的频带范围、频带能量、低能量帧率及过零率的特性，并根据每一分组对应的分析结果，确定每一分组音频帧信号中是否有人声的步骤包括：

对得到的音频帧信号进行分组，每N个音频帧信号分为一组；

2.根据权利要求1所述的方法，其特征在于，所述若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述调用截止频率范围包括与最大能量之差大于预设差值的该第一个频段的中心频点的高通滤波器对所述分组的音频帧信号进行滤波，以输出第二音频信号；及并调用截止频率范围包括与最大能量之差小于预设差值的该第一个频段的中心频点低通滤波器对所述第二音频信号进行滤波，以输出第一音频信号的步骤之后，该方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号的步骤之后，该方法还包括：

5.一种音频中人声突出处理的装置，其特征在于，该装置包括：

分帧处理模块，用于对音频信号进行分帧处理；

第一处理模块，用于在若有分组音频帧信号中有人声，则对该分组的音频帧信号进行带通滤波，以输出滤波后的第一音频信号；

其中，所述分析确定模块包括：

6.根据权利要求5所述的装置，其特征在于，所述第一处理模块包括：

7.根据权利要求6所述的装置，其特征在于，所述第一处理模块还包括：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：