CN117424665A

CN117424665A - 一种自动增益控制的数字语音广播***及其控制方法

Info

Publication number: CN117424665A
Application number: CN202311317461.7A
Authority: CN
Inventors: 严嘉奇; 梁肇聪
Original assignee: Guangzhou Chengzhi Intelligent Machine Technology Co ltd
Current assignee: Guangzhou Chengzhi Intelligent Machine Technology Co ltd
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2024-01-19

Abstract

本发明公开了一种自动增益控制的数字语音广播***及其控制方法，所述***包括音源输入模块，用于捕获输入音源数据；增益控制模块，用于根据所述输入音源数据的幅值进行判断；若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益；若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益；切频处理模块，用于对增益后的音源数据的频率成分进行切频处理，以削弱低频成分；音源输出模块，用于将切频处理后的音源数据推送至***发声组件或者进行存储；能够根据输入音源数据的幅值进行动态调整增益控制，在保证声压输出的同时对语音广播***设备进行保护。

Description

一种自动增益控制的数字语音广播***及其控制方法

技术领域

本发明涉及数字语音广播***技术领域，尤其涉及一种自动增益控制的数字语音广播***及其控制方法。

背景技术

现有的语音广播***对声压的放大通过依靠硬件***的放大系数进行调整，或者通过调整***音量进行调整；但硬件***的放大系数往往都是固定大小，而***音量往往只作用于输出信号的处理。当输入音源信号幅值较小时，放大不明显；当幅值较大时，放大存在失真风险，可能还会损坏设备。语音广播***主要以传递语音信息为主，主要用于警告、宣传、搜救等。而现有的语音广播***由于受应用场景的限制一般限于在地面进行使用，但地面障碍物过多时，会无法及时有效的传递消息，为此提出一种无人机数字语音广播***。

无人机语音广播***通过空中广播，很大程度上降低了由于地面障碍物的阻挡造成消息传递的困难，使得广播信息能够覆盖更广的范围。但是无人机由于载重续航等因素的限制，对***硬件的重量有着严苛的要求。扬声器是无人机语音广播***的传导信息的唯一部件，为了兼具声压及重量等因素，扬声器选型是让无人机语音广播***发挥最大作用的关键前提。考虑到无人机语音广播***主要以语音广播传递信息为主，播放警笛、驱鸟等其他警示类音频为辅，语音广播的功率往往偏小，而警示类音频的功率往往偏大；为了提高语音广播的播放平均功率，同时控制播放警示类音频时的功率保证扬声器不被损坏，需要根据音源特性进行算法处理，因此，在语音广播***中引入自动增益控制对音频进行处理非常重要。

发明内容

本发明提供一种自动增益控制的数字语音广播***及其控制方法，能够根据输入音源的不同进行不同的增益控制算法，从而根据输入音源数据的幅值进行动态调整，在保证声压输出的同时对语音广播***设备进行有效的保护。

为了实现上述目的，第一方面，本发明实施例提供了一种自动增益控制的数字语音广播***，包括：

音源输入模块，用于捕获输入音源数据；

增益控制模块，用于根据所述输入音源数据的幅值进行判断；若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益；若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益；

切频处理模块，用于对增益后的音源数据的频率成分进行切频处理，以削弱低频成分；

音源输出模块，用于将切频处理后的音源数据推送至***发声组件或者进行存储。

第二方面，本发明实施例提供了一种自动增益控制的数字语音广播***控制方法，包括：

捕获输入音源数据；

根据所述输入音源数据的幅值进行判断；若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益；若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益；

对增益后的音源数据的频率成分进行切频处理，以削弱低频成分；

将切频处理后的音源数据推送至***发声组件或者进行存储。

与现有技术相比，本发明实施例公开的一种自动增益控制的数字语音广播***及其控制方法，包括音源输入模块，用于捕获输入音源数据；增益控制模块，用于根据所述输入音源数据的幅值进行判断；若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益；若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益；切频处理模块，用于对增益后的音源数据的频率成分进行切频处理，以削弱低频成分；音源输出模块，用于将切频处理后的音源数据推送至***发声组件或者进行存储。因此，本发明实施例采用高音扬声器输出，在提升响度的同时还保证了传输距离，扩大了广播的覆盖范围；根据音源的幅值动态调整输入音源增益，保证恒定声压输出；对于实时语言广播，在保证实时性的前提下同时对输入音源进行增益调整；对于静态音频文件输入声源，结合人声识别检测对输入声源进行人声分析，根据***的硬件参数(如功率)及输入声源的特性进行合理增益调整，使得人声广播的音频虽然会有瞬态失真，但提高了整体音量，保证响度的同时保护***硬件功能；针对扬声器对不同频率的处理程度不同以及高频信号传输距离远等特性，结合人耳对高频信号的敏感度，引入切频机制对音源进行处理，削弱低频成分，保护扬声器的同时也保证了广播的传输距离。

附图说明

图1是本发明实施例提供的一种自动增益控制的数字语音广播***的结构示意图；

图2是本发明实施例提供的一种自动增益控制的数字语音广播***控制方法的流程示意图；

图3是一种预设的实时语音增益系数曲线图；

图4是一种预设的静态音频增益系数曲线图；

图5是一种等响曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的术语“包括”和“具体”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本发明实施例提供的一种自动增益控制的数字语音广播***的流程示意图，该自动增益控制的数字语音广播***，包括：

音源输入模块11，用于捕获输入音源数据；

增益控制模块12，用于根据所述输入音源数据的幅值进行判断；若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益；若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益；

切频处理模块13，用于对增益后的音源数据的频率成分进行切频处理，以削弱低频成分；

音源输出模块14，用于将切频处理后的音源数据推送至***发声组件或者进行存储。

需要说明的是，语音广播***主要以语音广播为主，语音广播***的衡量标准主要以人声可懂度、声压等作为重要指标，所谓人声可懂度即播放语音广播时，能听懂的字数占完整广播内容的比例。为了提高人声可懂度、声压等一系列指标，在软件上融合了自动增益与切频技术，自动增益分为两种处理模式，分别是实时语音自动增益控制和静态音频文件自动增益控制。实时语音侧重的是实时性，数据量大小的未知性以及数据到达时间的不确定性，实时语音的输出还需考虑实时性及卡顿现象，会适当调整缓存大小。静态音频文件则是指一系列已知数据量大小的音频类文件，其处理不需对实时性做硬性要求，但为了确保增益系数的准确性，计算程度较复杂。

具体的，所述若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益，具体包括：

若所述输入音源数据为实时语音数据，则切换至实时语音自动增益控制模式，逐帧读取所述实时语音数据的幅值；

比较所述实时语音数据的幅值，获取当前帧的实时语音数据的最大幅值；

根据所述最大幅值以及预设的实时语音增益系数计算所述当前帧的实时语音数据的放大倍数的临界值；

若所述临界值小于或等于放大倍数阈值，则对所述当前帧的实时语音数据进行放大处理后，再进行移频操作；若所述临界值大于放大倍数阈值，则对所述当前帧的实时语音数据进行移频操作；

其中，所述预设的实时语音增益系数由输入实时语音数据以及所述放大倍数阈值决定。

需要说明的是，实时语音由于说话人不会长时间进行说话广播，也会根据实际情况进行适当的停顿等，所以会出现静音片段，即实时语音的数据间可以看成是独立的短时语音帧，可以按帧进行增益调节。通常数字音频信号由16位二进制数表示，幅值范围-32768～32767。为了避免啸叫的产生，在输出前对信号做移频操作。

具体的，所述若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益，具体包括：

若所述输入音源数据为静态音频文件，且所述静态音频文件存在未经增益处理的音频文件，则切换至静态音频文件自动增益控制模式；

对于所述音频文件进行转码处理，并进行人声识别检测，获取当前音频文件的采样率；

根据所述采样率设置计算窗口大小，对所述当前音频文件进行加窗分帧处理；

逐帧计算所述当前音频文件的平均能量，得到各帧平均能量并进行比较，获取所述当前音频文件的最大平均能量；

根据硬件***参数及音频文件特性进行增益系数配置，通过所述最大平均能量以及预设的静态音频增益系数，计算得到所述当前音频文件的增益系数，对所述当前音频文件进行增益调整；

其中，所述预设的静态音频增益系数由输入静态音频文件、所述硬件***参数以及最大平均能量阈值决定。

需要说明的是，由于歌曲、警报等音频数据具有连续性，如果采用实时语音处理模式会造成增益系数各异，播放会出现声音忽大忽小顿挫感现象，所以为了保证增益系数的一致性，设计针对静态音频文件的自动增益控制模式。数字语音广播***会自动判断文件是否被处理，当存在未经处理的文件，数字语音广播***会自动切换静态音频文件自动增益控制模式，首先会将音频文件转码成特定格式的WAV文件，然后获取当前文件的采样率，并根据采样率来设置计算窗口大小，紧接着对文件数据进行加窗分帧，逐帧计算平均能量，将各帧平均能量进行比较，确定当前文件最大平均能量幅值。根据硬件***参数及音频文件特性进行增益系数配置，通过最大平均能量结合预设的静态音频增益系数获取增益系数及幅值能量对应的初始值，并结合当前音频的最大平均能量进行计算确定最优增益系数，对音频数据进行增益调整。

具体的，所述自动增益控制的公式为：

y[n]＝α·x[n]，

式中，y[n]为输出信号，x[n]为输入信号，α为增益系数，分为所述预设的实时语音增益系数和所述预设的静态音频增益系数。

示例的，所述预设的实时语音增益系数和所述预设的静态音频增益系数的曲线图如图3和图4所示。

具体的，所述***发声组件为以高频信号为主的高音扬声器。

需要说明的是，数字语音广播***被广泛应用于警告、宣传、搜救等特殊应用场景，主要以传递语音消息为主。扬声器作为***发声的唯一组件，是整个***的关键，所以扬声器选型尤为关键。为了让听众能快速准确地获取消息内容以及传输更远的距离，首先须确保***输出级获取足够的声压，声压越大传播距离越远。此外，不同频率的声压级存在较大差异，等响曲线如图5所示。

研究表明人耳的可听频率范围在20Hz～20000Hz之间，结合等响曲线可以得出，人耳对高频声音信号敏感，特别是对频率范围在2000Hz～5000Hz的声音最为敏感，而对低频声音信号较为迟钝。结合应用场景，采用无人机搭载高音、低音扬声器分别以最大音量播放男女语音广播进行可懂度对比测试，根据测试结果得出，低音扬声器的语音广播，在200米高空男声广播可懂度下降至85％，女声广播可懂度下降至90％，极限距离仅为180米。而高音扬声器在200米高空男女声广播可懂度均为100％，极限距离高达300米，极大提升了语音广播的可懂度。结合等响曲线及高低音扬声器语音广播可懂度对比测试结果，采用以高频信号为主的高音扬声器作为数字语音广播***的输出级。

具体的，所述输入音源数据通过采用拾音咪头经通信链路推流或者直接读取本地音频文件获得。

具体的，所述对增益后的音源数据的频率成分进行切频处理，以削弱低频成分，具体为：

根据所述高音扬声器对不同频率的音源数据的处理程度以及高频信号传输距离特性，结合人耳对高频信号的敏感度，采用高通滤波器对所述增益后的音源数据的低频成分进行切除。

需要说明的是，为了保证语音广播的可懂度及覆盖范围，结合人耳对不同频率成分的敏感度，本数字语音广播***末端输出级采用的是高音扬声器。但由于高音扬声器对低频信号处理的不足，低频主要以发热为主，如果通过硬件或者结构进行处理会增加设计成本，引入软件切频机制对低频成分进行处理。现有对低频成分切除主要采用高通滤波器为主，本实施例基于巴特沃斯二阶滤波器进行实现。

巴特沃斯滤波器属于常见的IIR(无限冲击响应)滤波器，具有平坦的通频带和陡峭的阻频带特性。考虑到不同的阶数处理的效果越显著，但是考虑到***的硬件成本，软件实现的算法应该尽可能占用较少的***资源，结合***对实时性有一定的要求，阶数不宜过高。二阶巴特沃斯滤波器在通带内不引入相位延迟，滤波后的信号能够在时域上保持相位一致，占用的***资源少，在完成切频的同时还应尽可能缩短信号的处理时延，保证了语音广播的时效性。基于以上特性，本数字语音广播***采用二阶巴特沃斯滤波器实现的高通滤波器对音源信号进行低频信号切频操作，有效地缓解了***工作时扬声器的由于发热造成的功耗流失，提高了***的工作时长，既保护了***的硬件资源，同时也保持稳定的声压输出，满足实际需求。

针对数字语音广播***的应用场景，分别对实时语音广播及以警笛为代表的警示类音频进行处理，从幅值、频谱、声压等进行比较，警示类音频幅值较大，为了保护扬声器，以降低输出的幅值为主，进而降低输出功率，达到保护扬声器的作用，警示类音频的声压得到了很好地控制，此外还对低频进行了切除。实时语音广播一般输入幅值较小，以提高输出幅值为主，进而提高输出功率，实时语音广播的声压得到了很好的放大。经本数字语音广播***进行处理，诸如警笛等警示类静态音频文件得到很好的幅值控制，降低了输出功率；实时语音广播幅值得到一定程度上的放大，提高了输出功率，符合语音广播的应用场景。

分别对男声、女声、歌曲、警笛声采取本数字语音广播***进行处理前后进行声压对比测试，声压较处理前得到显著提升。保持环境噪声一致的前提下，采用无人机搭载本数字语音广播***以最大音量进行男声、女声语音广播测试，对比处理前后的语音广播可懂度。未经处理的语音广播极限距离仅为300米。而经由本***算法处理后极限距离高达370米，极大提升了语音广播的覆盖范围。

采用本数字语音广播***对不同音频进行处理前后平均功率对比测试，结果表明未经本***处理，输出功率偏小，处理后输出平均功率得到显著提升，尤其是语音广播。根据能量守恒定律，***的输出平均功率越大，侧面反映了输出声压级越大，在一定程度上提高了广播发覆盖范围。

图2是本发明实施例提供的一种自动增益控制的数字语音广播***控制方法的流程示意图，该自动增益控制的数字语音广播***控制方法，包括：

S21，捕获输入音源数据；

S22，根据所述输入音源数据的幅值进行判断；若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益；若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益；

S23，对增益后的音源数据的频率成分进行切频处理，以削弱低频成分；

S24，将切频处理后的音源数据推送至***发声组件或者进行存储。

本发明实施例所提供的一种自动增益控制的数字语音广播***控制方法能够实现上述实施例的自动增益控制的数字语音广播***中的各个模块的作用以及实现的技术效果分别与上述实施例的自动增益控制的数字语音广播***的作用以及实现的技术效果对应相同，这里不再赘述。

综上所述，本发明实施例公开的一种自动增益控制的数字语音广播***及其控制方法，包括音源输入模块，用于捕获输入音源数据；增益控制模块，用于根据所述输入音源数据的幅值进行判断；若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益；若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益；切频处理模块，用于对增益后的音源数据的频率成分进行切频处理，以削弱低频成分；音源输出模块，用于将切频处理后的音源数据推送至***发声组件或者进行存储。因此，本发明实施例采用高音扬声器输出，在提升响度的同时还保证了传输距离，扩大了广播的覆盖范围；根据音源的幅值动态调整输入音源增益，保证恒定声压输出；对于实时语言广播，在保证实时性的前提下同时对输入音源进行增益调整；对于静态音频文件输入声源，结合人声识别检测对输入声源进行人声分析，根据***的硬件参数(如功率)及输入声源的特性进行合理增益调整，使得人声广播的音频虽然会有瞬态失真，但提高了整体音量，保证响度的同时保护***硬件功能；针对扬声器对不同频率的处理程度不同以及高频信号传输距离远等特性，结合人耳对高频信号的敏感度，引入切频机制对音源进行处理，削弱低频成分，保护扬声器的同时也保证了广播的传输距离。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种自动增益控制的数字语音广播***，其特征在于，包括：

音源输入模块，用于捕获输入音源数据；

2.如权利要求1所述的自动增益控制的数字语音广播***，其特征在于，所述若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益，具体包括：

3.如权利要求1所述的自动增益控制的数字语音广播***，其特征在于，所述若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益，具体包括：

4.如权利要求2和3所述的自动增益控制的数字语音广播***，其特征在于，所述自动增益控制的公式为：

y[n]＝α·x[n]，

5.如权利要求1所述的自动增益控制的数字语音广播***，其特征在于，所述***发声组件为以高频信号为主的高音扬声器。

6.如权利要求1所述的自动增益控制的数字语音广播***，其特征在于，所述输入音源数据通过采用拾音咪头经通信链路推流或者直接读取本地音频文件获得。

7.如权利要求5所述的自动增益控制的数字语音广播***，其特征在于，所述对增益后的音源数据的频率成分进行切频处理，以削弱低频成分，具体为：

8.一种自动增益控制的数字语音广播***控制方法，其特征在于，包括：

捕获输入音源数据；

将切频处理后的音源数据推送至***发声组件或者进行存储。

9.如权利要求8所述的自动增益控制的数字语音广播***控制方法，其特征在于，所述若所述输入音源数据为实时语音数据，则通过实时语音自动增益控制模式调整所述输入音源数据的增益，具体包括：

10.如权利要求8所述的自动增益控制的数字语音广播***控制方法，其特征在于，所述若所述输入音源数据为静态音频文件，则通过静态音频文件自动增益控制模式调整所述输入音源数据的增益，具体包括：