CN116847245A - 一种数字音频自动增益方法、***、计算机存储介质 - Google Patents
一种数字音频自动增益方法、***、计算机存储介质 Download PDFInfo
- Publication number
- CN116847245A CN116847245A CN202310797829.8A CN202310797829A CN116847245A CN 116847245 A CN116847245 A CN 116847245A CN 202310797829 A CN202310797829 A CN 202310797829A CN 116847245 A CN116847245 A CN 116847245A
- Authority
- CN
- China
- Prior art keywords
- data
- audio
- framing
- frame
- silence detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000009432 framing Methods 0.000 claims abstract description 137
- 238000001514 detection method Methods 0.000 claims abstract description 111
- 238000013507 mapping Methods 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 238000009825 accumulation Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明涉及音频处理技术领域中的一种数字音频自动增益方法、***、计算机存储介质,包括以下步骤:将音频滤波数据分别进行一次数据分帧处理以及二次数据分帧处理,分别得到音频分帧数据一和音频分帧数据二;将音频分帧数据一进行静音检测,并基于静音检测结果,将音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志;将静音检测标志和非静音检测标志映射到音频分帧数据二中,得到音频映射数据;基于静音检测标志和非静音检测标志,将音频映射数据中的每帧数据区分为静音段和非静音段;对静音段和非静音段分别进行增益处理,解决了现有音频增益处理时,原始音频数据特点无法保持的问题。
Description
技术领域
本发明涉及音频处理技术领域,具体涉及一种数字音频自动增益方法、***、计算机存储介质。
背景技术
在音视频安防领域或语音通话过程中,往往会出现以下问题:由于音源与麦克风之间距离的忽远忽近或音源自身忽高忽低,导致麦克风采集到的音量忽大忽小,影响用户体验感。因此,需要对采集到的音频数据进行处理,而现有方案中,通常用峰值作为指标来实现音频的自动增益控制。
然而针对现有的音频自动增益控制存在以下几点缺陷:其一,现有方案下用实际设备抓取到的音频数据存在较大的背景噪声;其二,现有方案下环境噪声被放大到较高幅值;其三,现有方案的增益系数更新方案只是简单的将幅值限定在某一固定值上,一定程度上会影响原始音频数据的特点;其四,现有方案的增益系数更新的响应速度较慢,往往需要较长的时间才能得到满意的增益值。
发明内容
本发明针对现有技术中的缺点,提供了一种数字音频自动增益方法、***、计算机存储介质,解决了现有音频增益处理时,原始音频数据特点无法保持的问题。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种数字音频自动增益方法,包括以下步骤:
将音频滤波数据分别进行一次数据分帧处理以及二次数据分帧处理,分别得到音频分帧数据一和音频分帧数据二,其中,所述二次数据分帧处理的分帧帧长与一次数据分帧处理的分帧帧长成倍数关系,且所述二次数据分帧处理的分帧帧长为一次数据分帧处理的分帧帧长的倍数;
将所述音频分帧数据一进行静音检测,并基于静音检测结果,将所述音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志;
将所述静音检测标志和非静音检测标志映射到所述音频分帧数据二中,得到音频映射数据;
基于所述静音检测标志和非静音检测标志,将所述音频映射数据中的每帧数据区分为静音段和非静音段;
对所述静音段和非静音段分别进行增益处理。
可选的,所述静音检测,包括以下步骤:
获取所述音频分帧数据一的每帧数据的信号峰值,并基于每帧数据的信号峰值计算音频分帧数据一中各组相邻帧之间的峰值差值;
设定差值阈值,判断各组相邻帧之间的所述峰值差值的绝对值是否大于差值阈值;
若是,则判定相邻帧为非静音音频,反之,则判定相邻帧为静音音频。
可选的,将所述音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志,包括以下步骤:
基于各组相邻帧之间的峰值差值、静音检测结果,将各组相邻帧中的每帧数据标记为静音检测标志或非静音检测标志。
可选的,将所述音频映射数据中的每帧数据区分为静音段和非静音段,包括以下步骤:
设定静音标志阈值和非静音标志阈值,并基于所述静音标志阈值和非静音标志阈值设定累计条件;
获取所述音频映射数据中的每帧数据对应的静音检测标志数值和非静音检测标志数值;
判断音频映射数据中的每帧数据的对应的静音检测标志数值和非静音检测标志数值是否均满足累计条件;
若是,则将满足累计条件的帧数据划分为非静音段,若否,则将不满足累计条件的帧数据划分为静音段。
可选的,将所述静音段和非静音段分别进行增益处理,包括以下步骤:
基于所述静音段和非静音段,更新音频映射数据中每帧数据的增益系数;
获取所述音频映射数据中每帧数据的信号峰值;
设定增益阈值,并基于音频映射数据中各帧数据的信号峰值以及对应的增益系数,计算所述音频映射数据中各帧数据的初步增益值;
判断所述初步增益值是否大于增益阈值,若是,则重新计算增益系数,若否,则基于更新的增益系数,计算音频分帧数据二中每帧数据增益后的输出数据。
可选的,更新音频映射数据中每帧数据的增益系数,包括以下步骤:
当音频映射数据中的帧数据为静音段时,根据更新公式一更新增益系数;
当音频映射数据中的帧数据为非静音段时,根据更新公式二更新增益系数。
可选的,所述更新公式一为:
G(n)=k*G(n-1),其中,G(n)为当前帧数据的增益系数;k为参数值;G(n-1)为前一帧数据的增益系数。
可选的,所述更新公式二为:
其中,G(n)为当前帧数据的增益系数;MAX-X(n-1)为上一帧数据的信号峰值;G(n-1)为前一帧数据的增益系数;pre-control为音频分帧数据二增益控制的目标值;a为控制增益系数更新速度的参数。
一种数字音频自动增益***,包括音频分帧单元、静音检测单元、标志映射单元、静音区分单元和增益处理单元;
所述音频分帧单元用于,将音频滤波数据分别进行一次数据分帧处理以及二次数据分帧处理,分别得到音频分帧数据一和音频分帧数据二,其中,所述二次数据分帧处理的分帧帧长与一次数据分帧处理的分帧帧长成倍数关系,且所述二次数据分帧处理的分帧帧长为一次数据分帧处理的分帧帧长的倍数;
所述静音检测单元用于,将所述音频分帧数据一进行静音检测,并基于静音检测结果,将所述音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志;
所述标志映射单元用于,将所述静音检测标志和非静音检测标志映射到所述音频分帧数据二中,得到音频映射数据;
所述静音区分单元用于,基于所述静音检测标志和非静音检测标志,将所述音频映射数据中的每帧数据区分为静音段和非静音段;
所述增益处理单元用于,对所述静音段和非静音段分别进行增益处理。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,执行上述任意一项所述的数字音频自动增益方法。
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
通过设置两次数据分帧处理,并将二次数据分帧处理的分帧帧长设置为一次数据分帧处理的分帧帧长的倍数,其中一次分帧处理用于执行静音检测,即一次数据分帧处理,另一次用于实现自动增益处理,即二次数据分帧处理,实现提高静音检测的准确度,确保一些非静音段不会被识别为静音段;同时在增益控制阶段,保证增益后的音频分帧数据即使在小范围的一帧内不会保持较高的幅值,保证原始音频小范围内高低起伏的特性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例一提出的一种数字音频自动增益方法的处理流程图;
图2为本实施例一提出的信号峰值与增益倍数对应图;
图3为本实施例一提出的原始音频效果图;
图4为本实施例一提出的音频分帧数据二的分帧帧长设置为音频分帧数据一的5倍时的音频效果图;
图5为本实施例一提出的音频分帧数据二的分帧帧长与音频分帧数据一的分帧帧长相等时的音频效果图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例一
一种数字音频自动增益方法,包括以下步骤:首先获取音频数据,并对音频数据进行数字滤波处理,具体地,首先设计一个高通数字滤波器,其中由于实际语音通信中可用的语音频带范围在300~3400Hz之间,而噪声主要集中在低于300赫兹的低频段,因此选取300Hz的高通数字滤波器进行滤波处理,从而将音频数据通过高通数字滤波器滤除低于300Hz的噪声。
进一步地,高通数字滤波器的滤波过程如下:首先确定高通数字滤波器的归一化性能指标:通带截止频率0.075,阻带截止频率0.8,通带最大衰减1dB,阻带最小衰减40dB;然后根据性能指标确定高通数字滤波器的最小阶数n=1和频率响应的截止频率Wn=0.1724;接着由最小阶数,确定模拟滤波器的系数,然后进行S域变换,并将其转换成传递函数形式,并由传递函数系数和频率响应的截止频率,将模拟低通滤波器转变成模拟高通滤波器;最后,将模拟高通滤波器转变成数字高通滤波器,生成对应的传递函数的系数、传递函数及其系数,如下所示,由最终的传递函数对音频数据进行滤波,公式为:
其中,b0~b3均为参数值,依次可以为0.8419、-2.5256、-0.8419;a0~a3均为参数值,依次可以为2.6565、2.3696、-0.7087;H(z)是***z变换的传递函数;Y(z)是输出;X(z)是输入;Z-1表示延迟一拍,在数字***中表示上一个值;Z-2表示延迟两拍,在数字***中表示上上个值;Z-3表示延迟三拍,在数字***中表示上上上个值;a1~a3是输出对应的系数;b0~b3是输入对应的系数。
完成数字滤波处理后,将处理得到的音频滤波数据分别进行一次数据分帧处理以及二次数据分帧处理,分别得到音频分帧数据一和音频分帧数据二,其中,二次数据分帧处理的分帧帧长与一次数据分帧处理的分帧帧长成倍数关系,且二次数据分帧处理的分帧帧长为一次数据分帧处理的分帧帧长的倍数。
由于若静音检测时所处理的音频分帧数据与增益控制时所处理的音频分帧数据的分帧帧长相同时,会导致静音检测的准确度下降,使得一些非静音段也会被识别为静音段,同时在增益控制阶段,会导致增益后的音频分帧数据即使在小范围的一帧内也保持较高的幅值,进而失去原始音频小范围内高低起伏的特性,即出现音频失真现象,因此,在本实施例中,将音频滤波数据的分帧处理分为两次进行,其中一次分帧处理用于执行静音检测,即一次数据分帧处理,另一次用于实现自动增益处理,即二次数据分帧处理,且为保证能够对音频滤波数据的静音段和非静音段实现准确的自动增益处理,将二次数据分帧处理的分帧帧长设置为一次数据分帧处理的分帧帧长的倍数,以确保音频分帧数据二中每帧数据包含音频分帧数据一的多个静音检测结果。
分帧处理时,设定一帧长度为divnum,则分帧处理后产生的第n帧数据的计算公式为:
X(n)=X((divnum*(n-1)+1:(divnum*n)))。
完成分帧处理后,将音频分帧数据一进行静音检测,并基于静音检测结果,将音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志,其中,静音检测,包括以下步骤:获取音频分帧数据一的每帧数据的信号峰值,并基于每帧数据的信号峰值计算音频分帧数据一中各组相邻帧之间的峰值差值;设定差值阈值,判断各组相邻帧之间的峰值差值的绝对值是否大于差值阈值;若是,则判定相邻帧为非静音音频,反之,则判定相邻帧为静音音频。
具体地,在进行音频分帧数据一的静音检测时,首先需要得到每帧数据的信号峰值,而得到每帧数据的信号峰值则需要获取每帧数据的音频信号,在本实施例中以第n帧音频信号为例,进行阐述信号峰值的获取过程:设置第n帧音频信号的峰值初始值,遍历第n帧音频信号内的所有数值,并在下一个数值大于当前数值时,更新信号峰值MAX-X(n),从而通过不断将新的较大值赋值给MAX-X(n),最终选出第n帧音频信号的信号峰值,更进一步地,,每帧数据的信号峰值执行公式如下:
MAX-X(n)初始化:MAX-X(n)=X(divnum*(n-1)+1);
其中,MAX_X(n)为第n帧数据的信号峰值;X为原始音频数据经过滤波后的数据流;i为指针,遍历整帧范围;X(divnum*(n-1)+i)帧数据中指针i指向的当前数值;i遍历2~divnum。
得到音频分帧数据一的每帧数据的信号峰值后,将音频分帧数据一中每相邻的两组音频帧数据之间的峰值差值然后取绝对值,其中,峰值差值的计算公式为:
delta-MAX-X(n)=MAX-X(n)-MAX-X(n-1),其中,delta-MAX-X(n)表示第n帧音频信号的峰值差值;MAX-X(n)表示第n帧音频信号的峰值;MAX-X(n-1)表示第n-1帧音频信号的峰值。
进一步地,通过比较峰值差值的绝对值与差值阈值的大小对相邻的两组分帧数据进行判定为非静音音频或静音音频,而为进一步将相邻两组分帧数据进行标记,即:将音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志,具体包括以下步骤:基于各组相邻帧之间的峰值差值、静音检测结果,将各组相邻帧中的每帧数据标记为静音检测标志或非静音检测标志。
具体地,本实施例通过下表一对标记过程进行阐述,表一为以三组连续的相邻分帧数据为例,在第一组中,当三组连续的相邻分帧数据(ΔF1 F2-ΔF2 F3-ΔF3 F4)的静音检测结果为静音音频-非静音音频-静音音时,此时根据第一个分帧数据F1和第二个分帧数据F2的峰值差值比较结果为静音音频,因此F1与F2只能为静音检测标志;进一步地,由于第二个分帧数据F2和第三个分帧数据F3的峰值差值比较结果为非静音音频,且在F2为静音检测标志的情况下,得到F3为非静音检测标志,同理,得到F4也为非静音检测标志。
再参考第二组和第三组中,当三组连续的相邻分帧数据(ΔF1 F2-ΔF2 F3-ΔF3F4)的静音检测结果为非静音音频-静音音频-非静音音频时,此时,根据第一个分帧数据F1和第二个分帧数据F2的峰值差值比较结果为非静音音频,因此分为两种情况考虑,第一种为第一个分帧数据F1和第二个分帧数据F2的峰值差值为负值时(对应第二组数据),此时由于其为负值,因此可知F1为静音检测标志,而F2只能为非静音检测标志;进一步地,依次判断F2、F3和F4;第二种情况为,第一个分帧数据F1和第二个分帧数据F2的峰值差值为正值时(对应第三组数据),此时由于其为正值,因此可知F1为非静音检测标志,而F2只能为静音检测标志;进一步地,依次判断F2、F3和F4,至此完成对音频分帧数据一中的每帧数据进行标记的操作。
表一
完成对音频分帧数据一中的每帧数据进行标记的操作后,需要将静音检测标志和非静音检测标志映射到音频分帧数据二中,得到音频映射数据,以便进行自动增益处理,在本实施例中,由于音频分帧数据一和音频分帧数据二仅分帧处理的分帧长度不同,因此,在进行标志映射时,以时间戳为标准,将音频分帧数据一中的所有静音检测标志和非静音检测标幅值到各自对应时间节点的音频分帧数据二上,从而完成映射过程。
进一步地,基于静音检测标志和非静音检测标志,将音频映射数据中的每帧数据区分为静音段和非静音段,其中,将音频映射数据中的每帧数据区分为静音段和非静音段,包括以下步骤:设定静音标志阈值和非静音标志阈值,并基于静音标志阈值和非静音标志阈值设定累计条件;获取音频映射数据中的每帧数据对应的静音检测标志数值和非静音检测标志数值;判断音频映射数据中的每帧数据的对应的静音检测标志数值和非静音检测标志数值是否均满足累计条件;若是,则将满足累计条件的帧数据划分为非静音段,若否,则将不满足累计条件的帧数据划分为静音段。
具体地,累计条件为音频映射数据中,每帧数据对应的静音检测标志数值num小于静音标志阈值,且非静音检测标志数值count大于非静音标志阈值,从而通过在音频映射数据中每帧数据内的静音检测标志的连续数量,将音频映射数据中的各帧数据更精准地划分为静音段和非静音段。
进一步地,对静音段和非静音段分别进行增益处理,具体包括以下步骤:基于静音段和非静音段,更新音频映射数据中每帧数据的增益系数;获取音频映射数据中每帧数据的信号峰值;设定增益阈值,并基于音频映射数据中各帧数据的信号峰值以及对应的增益系数,计算音频映射数据中各帧数据的初步增益值,具体计算方法为:将每一帧的增益系数G(n)乘以各帧峰值MAX-X(n);判断初步增益值是否大于增益阈值,若是,则重新计算增益系数,若否,则基于更新的增益系数,计算音频分帧数据二中每帧数据增益后的输出数据,计算方法为,将最终的增益系数乘以音频滤波数据,即可得到输出数据。
更具体地,更新音频映射数据中每帧数据的增益系数,包括以下步骤:
当音频映射数据中的帧数据为静音段时,根据更新公式一更新增益系数,其中,更新公式一为:G(n)=k*G(n-1),其中,G(n)为当前帧数据的增益系数;k为参数值;G(n-1)为前一帧数据的增益系数。
当音频映射数据中的帧数据为非静音段时,根据更新公式二更新增益系数,其中,更新公式二为:其中,G(n)为当前帧数据的增益系数;MAX-X(n-1)为上一帧数据的信号峰值;G(n-1)为前一帧数据的增益系数;pre-control为音频分帧数据二增益控制的目标值;a为控制增益系数更新速度的参数,其中,图2中的曲线分别对应a为不同参数时的增益系数更新速度,从图中可知当信号峰值远离设定的控制值时,增益系数更新速度加快;反之,增益系数更新速度减缓。
进一步地,本实施例将音频分帧数据二的分帧帧长设置为音频分帧数据一的5倍,最终得到如图4所示的音频效果图,同时与原始音频效果图图3以及图5(音频分帧数据二的分帧帧长与音频分帧数据一的分帧帧长相等)的音频效果图进行对比,可以得出,当两者帧长保持一致时,经过增益控制后的音频数据失去了原始音频的特点,同时放大了噪声的影响。而帧长为设置为倍数关系时,不仅拥有较快的响应速度,也保留了原始音频的特点。
至此,本实施例通过静音检测处理,自动增益处理等过程,在尽可能的消除背景噪声影响的同时,实现音频增益系数的快速更新,将原始音频控制在某一固定的范围内,一定程度上保持原始音频数据特点,使得原本忽大忽小的音频变得基本一致,提高用户的听觉体验。
实施例二
一种数字音频自动增益***,包括音频分帧单元、静音检测单元、标志映射单元、静音区分单元和增益处理单元;音频分帧单元用于,将音频滤波数据分别进行一次数据分帧处理以及二次数据分帧处理,分别得到音频分帧数据一和音频分帧数据二,其中,二次数据分帧处理的分帧帧长与一次数据分帧处理的分帧帧长成倍数关系,且二次数据分帧处理的分帧帧长为一次数据分帧处理的分帧帧长的倍数;静音检测单元用于,将音频分帧数据一进行静音检测,并基于静音检测结果,将音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志;标志映射单元用于,将静音检测标志和非静音检测标志映射到音频分帧数据二中,得到音频映射数据;静音区分单元用于,基于静音检测标志和非静音检测标志,将音频映射数据中的每帧数据区分为静音段和非静音段;增益处理单元用于,对静音段和非静音段分别进行增益处理。
由于本实施例执行如实施例一所述的数字音频自动增益方法,因此在实施中,不做进一步的详细赘述。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,执行实施例一任意一项所述的数字音频自动增益方法。
计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线段、电线段、光缆、RF等等,或者上述的任意合适的组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块、模组或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元、模组或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
所述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的***、装置或器件,或者任意以上的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种数字音频自动增益方法,其特征在于,包括以下步骤:
将音频滤波数据分别进行一次数据分帧处理以及二次数据分帧处理,分别得到音频分帧数据一和音频分帧数据二,其中,所述二次数据分帧处理的分帧帧长与一次数据分帧处理的分帧帧长成倍数关系,且所述二次数据分帧处理的分帧帧长为一次数据分帧处理的分帧帧长的倍数;
将所述音频分帧数据一进行静音检测,并基于静音检测结果,将所述音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志;
将所述静音检测标志和非静音检测标志映射到所述音频分帧数据二中,得到音频映射数据;
基于所述静音检测标志和非静音检测标志,将所述音频映射数据中的每帧数据区分为静音段和非静音段;
对所述静音段和非静音段分别进行增益处理。
2.根据权利要求1所述的一种数字音频自动增益方法,其特征在于,所述静音检测,包括以下步骤:
获取所述音频分帧数据一的每帧数据的信号峰值,并基于每帧数据的信号峰值计算音频分帧数据一中各组相邻帧之间的峰值差值;
设定差值阈值,判断各组相邻帧之间的所述峰值差值的绝对值是否大于差值阈值;
若是,则判定相邻帧为非静音音频,反之,则判定相邻帧为静音音频。
3.根据权利要求2所述的一种数字音频自动增益方法,其特征在于,将所述音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志,包括以下步骤:
基于各组相邻帧之间的峰值差值、静音检测结果,将各组相邻帧中的每帧数据标记为静音检测标志或非静音检测标志。
4.根据权利要求1所述的一种数字音频自动增益方法,其特征在于,将所述音频映射数据中的每帧数据区分为静音段和非静音段,包括以下步骤:
设定静音标志阈值和非静音标志阈值,并基于所述静音标志阈值和非静音标志阈值设定累计条件;
获取所述音频映射数据中的每帧数据对应的静音检测标志数值和非静音检测标志数值;
判断音频映射数据中的每帧数据的对应的静音检测标志数值和非静音检测标志数值是否均满足累计条件;
若是,则将满足累计条件的帧数据划分为非静音段,若否,则将不满足累计条件的帧数据划分为静音段。
5.根据权利要求1所述的一种数字音频自动增益方法,其特征在于,将所述静音段和非静音段分别进行增益处理,包括以下步骤:
基于所述静音段和非静音段,更新音频映射数据中每帧数据的增益系数;
获取所述音频映射数据中每帧数据的信号峰值;
设定增益阈值,并基于音频映射数据中各帧数据的信号峰值以及对应的增益系数,计算所述音频映射数据中各帧数据的初步增益值;
判断所述初步增益值是否大于增益阈值,若是,则重新计算增益系数,若否,则基于更新的增益系数,计算音频分帧数据二中每帧数据增益后的输出数据。
6.根据权利要求5所述的一种数字音频自动增益方法,其特征在于,更新音频映射数据中每帧数据的增益系数,包括以下步骤:
当音频映射数据中的帧数据为静音段时,根据更新公式一更新增益系数;
当音频映射数据中的帧数据为非静音段时,根据更新公式二更新增益系数。
7.根据权利要求6所述的一种数字音频自动增益方法,其特征在于,所述更新公式一为:
G(n)=k*G(n-1),其中,G(n)为当前帧数据的增益系数;k为参数值;G(n-1)为前一帧数据的增益系数。
8.根据权利要求6所述的一种数字音频自动增益方法,其特征在于,所述更新公式二为:
其中,G(n)为当前帧数据的增益系数;MAX-X(n-1)为上一帧数据的信号峰值;G(n-1)为前一帧数据的增益系数;pre-control为音频分帧数据二增益控制的目标值;a为控制增益系数更新速度的参数。
9.一种数字音频自动增益***,其特征在于,包括音频分帧单元、静音检测单元、标志映射单元、静音区分单元和增益处理单元;
所述音频分帧单元用于,将音频滤波数据分别进行一次数据分帧处理以及二次数据分帧处理,分别得到音频分帧数据一和音频分帧数据二,其中,所述二次数据分帧处理的分帧帧长与一次数据分帧处理的分帧帧长成倍数关系,且所述二次数据分帧处理的分帧帧长为一次数据分帧处理的分帧帧长的倍数;
所述静音检测单元用于,将所述音频分帧数据一进行静音检测,并基于静音检测结果,将所述音频分帧数据一内的每帧数据标记为静音检测标志或非静音检测标志;
所述标志映射单元用于,将所述静音检测标志和非静音检测标志映射到所述音频分帧数据二中,得到音频映射数据;
所述静音区分单元用于,基于所述静音检测标志和非静音检测标志,将所述音频映射数据中的每帧数据区分为静音段和非静音段;
所述增益处理单元用于,对所述静音段和非静音段分别进行增益处理。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,执行权利要求1-8任意一项所述的数字音频自动增益方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310797829.8A CN116847245B (zh) | 2023-06-30 | 2023-06-30 | 一种数字音频自动增益方法、***、计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310797829.8A CN116847245B (zh) | 2023-06-30 | 2023-06-30 | 一种数字音频自动增益方法、***、计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116847245A true CN116847245A (zh) | 2023-10-03 |
CN116847245B CN116847245B (zh) | 2024-04-09 |
Family
ID=88168386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310797829.8A Active CN116847245B (zh) | 2023-06-30 | 2023-06-30 | 一种数字音频自动增益方法、***、计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116847245B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01286643A (ja) * | 1988-05-13 | 1989-11-17 | Fujitsu Ltd | 音声検出装置 |
US5890109A (en) * | 1996-03-28 | 1999-03-30 | Intel Corporation | Re-initializing adaptive parameters for encoding audio signals |
CN1684143A (zh) * | 2004-04-14 | 2005-10-19 | 华为技术有限公司 | 一种语音增强的方法 |
CN106941008A (zh) * | 2017-04-05 | 2017-07-11 | 华南理工大学 | 一种基于静音段的异源音频拼接篡改盲检测方法 |
CN108847217A (zh) * | 2018-05-31 | 2018-11-20 | 平安科技(深圳)有限公司 | 一种语音切分方法、装置、计算机设备及存储介质 |
CN111833900A (zh) * | 2020-06-16 | 2020-10-27 | 普联技术有限公司 | 音频增益控制方法、***、设备和存储介质 |
CN112614506A (zh) * | 2020-12-23 | 2021-04-06 | 苏州思必驰信息科技有限公司 | 语音激活检测方法和装置 |
CN114596870A (zh) * | 2022-03-07 | 2022-06-07 | 广州博冠信息科技有限公司 | 实时音频处理方法和装置、计算机存储介质、电子设备 |
CN114727194A (zh) * | 2021-01-04 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 麦克风音量控制方法、装置、设备及存储介质 |
CN115714948A (zh) * | 2022-09-30 | 2023-02-24 | 北京小米移动软件有限公司 | 一种音频信号处理方法、装置及存储介质 |
CN115831132A (zh) * | 2021-09-17 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 音频编解码方法、装置、介质及电子设备 |
CN116339673A (zh) * | 2023-01-13 | 2023-06-27 | 全时云商务服务股份有限公司 | 一种uac设备静音状态的检测方法、装置和电子设备 |
-
2023
- 2023-06-30 CN CN202310797829.8A patent/CN116847245B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01286643A (ja) * | 1988-05-13 | 1989-11-17 | Fujitsu Ltd | 音声検出装置 |
US5890109A (en) * | 1996-03-28 | 1999-03-30 | Intel Corporation | Re-initializing adaptive parameters for encoding audio signals |
CN1684143A (zh) * | 2004-04-14 | 2005-10-19 | 华为技术有限公司 | 一种语音增强的方法 |
CN106941008A (zh) * | 2017-04-05 | 2017-07-11 | 华南理工大学 | 一种基于静音段的异源音频拼接篡改盲检测方法 |
CN108847217A (zh) * | 2018-05-31 | 2018-11-20 | 平安科技(深圳)有限公司 | 一种语音切分方法、装置、计算机设备及存储介质 |
CN111833900A (zh) * | 2020-06-16 | 2020-10-27 | 普联技术有限公司 | 音频增益控制方法、***、设备和存储介质 |
CN112614506A (zh) * | 2020-12-23 | 2021-04-06 | 苏州思必驰信息科技有限公司 | 语音激活检测方法和装置 |
CN114727194A (zh) * | 2021-01-04 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 麦克风音量控制方法、装置、设备及存储介质 |
CN115831132A (zh) * | 2021-09-17 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 音频编解码方法、装置、介质及电子设备 |
CN114596870A (zh) * | 2022-03-07 | 2022-06-07 | 广州博冠信息科技有限公司 | 实时音频处理方法和装置、计算机存储介质、电子设备 |
CN115714948A (zh) * | 2022-09-30 | 2023-02-24 | 北京小米移动软件有限公司 | 一种音频信号处理方法、装置及存储介质 |
CN116339673A (zh) * | 2023-01-13 | 2023-06-27 | 全时云商务服务股份有限公司 | 一种uac设备静音状态的检测方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116847245B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100745977B1 (ko) | 음성 구간 검출 장치 및 방법 | |
CN109257675B (zh) | 一种防风噪方法、耳机及存储介质 | |
CN110838301B (zh) | 抑制啸叫的方法、装置终端和非临时性计算机可读存储介质 | |
CN107358964B (zh) | 用于检测在变化的环境中的警戒信号的方法 | |
CN105992100B (zh) | 一种音频均衡器预置集参数的确定方法及装置 | |
EP2828853B1 (en) | Method and system for bias corrected speech level determination | |
CN116847245B (zh) | 一种数字音频自动增益方法、***、计算机存储介质 | |
CN112669878B (zh) | 声音增益值的计算方法、装置和电子设备 | |
WO2017045512A1 (zh) | 一种语音识别的方法、装置、终端及语音识别设备 | |
CN114040317B (zh) | 音响的声道补偿方法及装置、电子设备和存储介质 | |
CN111045633A (zh) | 用于检测音频信号的响度的方法和装置 | |
US9313582B2 (en) | Hearing aid and method of enhancing speech output in real time | |
CN111370017B (zh) | 一种语音增强方法、装置、*** | |
CN110022514B (zh) | 音频信号的降噪方法、装置、***及计算机存储介质 | |
CN110809222B (zh) | 一种多段动态范围控制方法、***及扬声器 | |
CN110097888B (zh) | 人声增强方法、装置及设备 | |
CN109716432B (zh) | 增益处理方法及其装置、电子设备、信号采集方法及其*** | |
CN108932953B (zh) | 一种音频均衡函数确定方法、音频均衡方法及设备 | |
WO2018129854A1 (zh) | 一种语音处理方法及装置 | |
CN111048108B (zh) | 音频处理方法和装置 | |
JP2615551B2 (ja) | 適応型雑音除去装置 | |
CN114724576B (zh) | 一种啸叫检测中的门限实时更新方法、装置以及*** | |
CN112312258B (zh) | 一种具有听力防护及听力补偿的智能耳机 | |
CN113470692B (zh) | 音频处理方法、装置、可读介质及电子设备 | |
CN111145776B (zh) | 音频处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 311400 4th floor, building 9, Yinhu innovation center, No.9 Fuxian Road, Yinhu street, Fuyang District, Hangzhou City, Zhejiang Province Applicant after: Zhejiang Xinmai Microelectronics Co.,Ltd. Address before: 311400 4th floor, building 9, Yinhu innovation center, No.9 Fuxian Road, Yinhu street, Fuyang District, Hangzhou City, Zhejiang Province Applicant before: Hangzhou xiongmai integrated circuit technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |