CN115312071A

CN115312071A - 一种语音数据的处理方法、装置、电子设备和存储介质

Info

Publication number: CN115312071A
Application number: CN202110426528.5A
Authority: CN
Inventors: 林平; 杜湘洋; 许超
Original assignee: Hytera Communications Corp Ltd
Current assignee: Hytera Communications Corp Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-11-08

Abstract

本申请提供了一种语音数据的处理方法、装置、电子设备和存储介质，通过获取用于采集语音数据的拾音器与发出所述语音数据的声源之间的距离；判断所述距离是否大于预设目标距离，若否，直接输出经过自动增益补偿处理后的语音数据；若是，确定与所述距离对应的目标均衡参数集合；其中，所述目标均衡参数集合包括不同频段与不同增益的对应关系；基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿；本申请保证了语音数据的辨识度和清晰度，提高了声音的还原度。

Description

一种语音数据的处理方法、装置、电子设备和存储介质

技术领域

本发明涉及语音数据处理技术领域，更具体的说是涉及一种语音数据的处理方法、装置、电子设备和存储介质。

背景技术

在声学领域中，由于音源与拾音设备之间的距离会影响拾音设备的拾音效果，因此，通常采用AGC(Automatic Gain Control，自动增益控制)来改善这种影响。当语音信号偏小时，通过AGC增大增益使得语音信号放大，当语音信号偏大时，通过AGC衰减信号使得语音信号变小，从而改善拾音距离对用户听感上的影响。

目前的AGC控制通常采用对语音数据分频处理的方式，即将语音信号分为高频段和低频段，从而利用分别与分频后的高频段和低频段对应目标增益放大器进行增益补偿。

但是上述方式存在一个明确的缺陷，即会改变发出该语音数据的讲话人的声音音色，导致声音还原度差。

发明内容

有鉴于此，本发明提供一种语音数据的处理方法和电子设备，以提升声音的还原度。

为实现上述目的，本发明提供如下技术方案：

一种语音数据的处理方法，包括：

获取用于采集语音数据的拾音器与发出所述语音数据的声源之间的距离；

判断所述距离是否大于预设目标距离，若否，直接输出经过自动增益补偿处理后的语音数据；

若是，确定与所述距离对应的目标均衡参数集合EQ；其中，所述目标均衡参数集合包括不同频段与不同增益的对应关系；

基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿。

进一步的，所述基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿，包括：

对经过自动增益补偿处理后的语音数据进行第一预处理；

采用目标变换算法将处理后的语音数据变换到频域；

基于所述目标均衡参数集合，对变换到频域后的各个频段上的语音数据进行增益补偿。

进一步的，所述基于所述目标均衡参数集合，对变换到频域后的各个频段上的语音数据进行增益补偿之后，还包括：

采用目标逆变换算法将补偿后的语音数据由频域转换到时域，通过第二预处理后输出。

进一步的，对所述拾音器采集的语音数据进行自动增益补偿处理，包括：

获取当前语音数据帧的能量；所述当前语音数据帧来自所述拾音器采集的语音数据；

基于所述当前语音数据帧的能量以及预设目标能量阈值确定增益参数；

将所述增益参数作用于所述当前语音帧，生成经过自动增益补偿处理的语音数据。

进一步的，所述基于所述当前语音数据帧的能量以及预设目标能量阈值确定增益参数，包括：

将所述预设目标能量阈值与所述当前语音帧的能量做差得到增益参数。

进一步的，在所述确定增益参数之前，还包括：

确定与所述距离对应的预设目标能量阈值。

进一步的，在所述判断所述距离是否大于预设目标距离之前，还包括：

确定拾音器采集语音数据的当前应用场景；

确定与所述当前应用场景对应的预设目标距离。

一种电子设备，包括：

拾音器，用于采集语音数据；

传感器，用于检测所述拾音器与发出所述语音数据的声源之间的距离；

输出器；

处理器，用于判断所述距离是否大于预设目标距离，若否，控制所述输出器直接输出经过自动增益补偿处理后的语音数据；若是，确定与所述距离对应的目标均衡参数集合；基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿；其中，所述目标均衡参数集合包括不同频段与不同增益的对应关系。

一种语音数据的处理装置，包括：

第一获取单元，用于获取用于采集语音数据的拾音器与发出所述语音数据的声源之间的距离；

第一判断单元，用于判断所述距离是否大于预设目标距离；

第一输出单元，用于在所述距离小于等于所述预设目标距离时，直接输出经过自动增益补偿处理后的语音数据；

第一确定单元，用于在在所述距离小于所述预设目标距离时，确定与所述距离对应的目标均衡参数集合；其中，所述目标均衡参数集合包括不同频段与不同增益的对应关系；

第一补偿单元，用于基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。

经由上述的技术方案可知，与现有技术相比，本申请提供了一种语音数据的处理方法，通过获取用于采集语音数据的拾音器与发出所述语音数据的声源之间的距离；判断所述距离是否大于预设目标距离，若否，直接输出经过自动增益补偿处理后的语音数据；若是，确定与所述距离对应的目标均衡参数集合；其中，所述目标均衡参数集合包括不同频段与不同增益的对应关系；基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿；由此可见，本申请能够在拾音器与声源之间的距离大于预设目标距离时，将自动增益补偿与均衡参数进行联动，在完成语音数据放大的同时最大程度的优化语音数据的频率，使得调整后的语音数据的频率部分不受音源距离的影响，声音的声色变化小，保证了语音数据的辨识度和清晰度，提高了声音的还原度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请方法实施例一提供的一种语音数据的处理方法的流程示意图；

图2为本申请提供的一种自动增益补偿处理前后语音数据的曲线示意图；

图3为本申请提供了关于语音数据的频响曲线图；

图4为本申请方法实施例二提供的一种语音数据的处理方法的流程示意图；

图5为本申请方法实施例三提供的一种语音数据的处理方法的流程示意图；

图6为本申请装置实施例一提供的一种电子设备的结构示意图；

图7为本申请装置实施例五提供的一种语音数据的处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请方法实施例一提供了一种语音数据的处理方法，如图1所示，该方法包括如下步骤：

步骤101：获取用于采集语音数据的拾音器与发出所述语音数据的声源之间的距离；

本申请提供的一种语音数据的处理方法可以应用于电子设备中，电子设备上可设置有传感器，通过传感器来检测拾音器与发出语音数据的声源之间的距离，该传感器具体为距离传感器。

步骤102：判断所述距离是否大于预设目标距离，若否，进入步骤103；如是，进入步骤104；

步骤103：直接输出经过自动增益补偿处理后的语音数据；

需说明的是，本步骤中直接输出的是经过自动增益补偿处理后的语音数据，也就是说，在输出语音数据之前，需要对拾音器采集的语音数据进行自动增益补偿处理，即AGC处理，该自动增益补偿处理可以在确定距离小于等于预设目标距离之后执行，也可以在确定距离小于等于预设目标距离之前进行，甚至可以与步骤101同时执行，或在步骤101之前执行，这均是可以实现的。

其中，对所述拾音器采集的语音数据进行自动增益补偿处理，可以包括如下过程：

(1)获取当前语音数据帧的能量；

其中，所述当前语音数据帧来自所述拾音器采集的语音数据。

(2)基于所述当前语音数据帧的能量以及预设目标能量阈值确定增益参数；

其中，可以预先仅设置一个目标能量阈值，从而使用该目标能量阈值和当前语音数据帧的能量确定增益参数。当然，也可以预先设置多个能量阈值与距离的对应关系，那么该方法还包括：确定与拾音器与声源之间的距离对应的目标能量阈值。

具体的，可以将所述预设目标能量阈值与所述当前语音帧的能量做差得到增益参数。

(3)将所述增益参数作用于所述当前语音帧，生成经过自动增益补偿处理的语音数据。

例如，当前语音帧的能量为a，预设目标能量阈值为b，增益参数c＝b-a；当c为负数时，表示当前语音帧的能量过大，需要对当前语音帧降低c的绝对值的增益来减小当前语音帧的能量；当c为正数时，表示当前语音帧的能量过小，需要对当前语音帧放大c的增益来增加当前语音帧的能量。

例如，图2示出了一种自动增益补偿处理前后语音数据的曲线示意图，-22dBm可以看做为预设目标能量阈值。

步骤104：确定与距离对应的目标均衡参数集合；

其中，目标均衡参数集合包括频率和增益，对于不同频率的声音其对应的增益值不同，通过改变不同频率的声音的增益值，改变声音的主观听感。

本申请中，预先设置有不同距离与不同的均衡参数集合的对应关系，在确定了拾音器与声源的距离后，可以确定与该距离对应的目标均衡参数集合，该目标均衡参数集合包括不同频段与不同增益的对应关系。

步骤105：基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿。

需说明的是，本步骤中是对经过自动增益补偿处理后的语音数据，采用目标均衡参数进行各个频段的增益补偿。也就是说，在基于目标均衡参数对各个频段的语音数据进行增益补偿之前，需要对拾音器采集的语音数据进行自动增益补偿处理，该自动增益补偿处理可以在确定距离大于预设目标距离之后执行，也可以在确定距离大于预设目标距离之前进行，甚至可以与步骤101同时执行，或在步骤101之前执行，这均是可以实现的。

本步骤中提及的对语音数据的自动增益补偿处理与步骤103中提及的对语音数据的自动增益补偿处理可以同时执行，即在步骤102之前的执行一次对拾音器采集的语音数据进行自动增益补偿处理；在确定距离小于等于预设目标距离时直接输出经过自动增益补偿处理后的语音数据；在确定距离大于预设目标距离时，确定与距离对应的目标均衡参数集合，基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿。

另一种方式，本步骤中提及的对语音数据的自动增益补偿处理与步骤103中提及的对语音数据的自动增益补偿处理也可以不同时执行，即在确定距离小于等于预设目标距离时，对拾音器采集的语音数据进行自动增益补偿处理，然后输出；在确定距离大于预设目标距离时，对拾音器采集的语音数据进行自动增益补偿处理以及确定与距离对应的目标均衡参数集合，从而基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿。

其中，对所述拾音器采集的语音数据进行自动增益补偿处理的过程可以参考上述描述的实现方式，此处不再详细赘述。

由此可见，本申请能够在拾音器与声源之间的距离大于预设目标距离时，将自动增益补偿与均衡参数进行联动，在完成语音数据放大的同时最大程度的优化语音数据的频率，使得调整后的语音数据的频率部分不受音源距离的影响，声音的声色变化小，保证了语音数据的辨识度和清晰度，提高了声音的还原度。

其中，当拾音器与声源之间的距离较近时，如：拾音器与声源之间的距离大于预设目标距离，且小于第一距离，低频段语音衰减较小，拾取到的低频段语音数据较多，通过自动增益补偿EQ的处理，衰减部分低频语音数据；当拾音器与声源之间的距离较远时，如：拾音器与声源之间的距离大于第一距离，高频段语音衰减较小，拾取到的高频段语音数据会较多，通过自动增益补偿EQ的处理，衰减部分高频语音数据，从而保证最终拾取到的语音数据，无论其拾音器与声源之间的距离远近，都更有辨识度。

图3为本申请提供了关于语音数据的频响曲线图。其中，曲线S1下，拾音器到声源的距离为20cm，经过自动增益补偿处理，但是未经过目标均衡参数集合的调整；

曲线S2下，拾音器到声源的距离为5cm，经过自动增益补偿处理，但是未经过目标均衡参数集合的调整；

曲线S3下，拾音器到声源的距离为20cm，经过自动增益补偿处理，经过目标均衡参数集合的调整；具体的，目标均衡参数集合的增益补偿EQ为：调整为<350Hz：+10db；460Hz：+4db；920Hz：+3db；1.5KHz：+3db。

在实际应用中，拾音器与声源之间的距离会区分更多的距离阈值，针对每一个距离阈值，也可以区分不同的衰减和不同的增益值。

本申请方法实施例二提供了一种语音数据的处理方法，如图4所示，该方法包括如下步骤：

步骤401：获取用于采集语音数据的拾音器与发出所述语音数据的声源之间的距离；

步骤402：判断所述距离是否大于预设目标距离，若否，进入步骤403；若是，进入步骤404；

步骤403：直接输出经过自动增益补偿处理后的语音数据；

步骤404：确定与所述距离对应的目标均衡参数集合；

其中，所述目标均衡参数集合包括不同频段与不同增益的对应关系。

步骤405：对经过自动增益补偿处理后的语音数据进行第一预处理；

为了实现对语音数据的实时调整，需要先对经过自动增益补偿处理后的语音数据进行第一预处理，其中，第一预处理包括：分帧处理、帧重叠处理以及加窗处理中的一个或多个。

其中，分帧处理可以以指定的时间长度对经过自动增益补偿处理后的语音数据进行分帧，如10ms一个处理帧。帧重叠处理指代在分帧处理过程中，设置在相邻两帧之间有一部分重叠。加窗处理就是使得不连续的帧信号变得连续。

步骤406：采用目标变换算法将处理后的语音数据变换到频域；

目标变换算法具体可以为短时傅里叶变换算法STFT，具体用于将处理的语音数据变换到频域。

步骤407：基于所述目标均衡参数集合，对变换到频域后的各个频段上的语音数据进行增益补偿；

步骤408：采用目标逆变换算法将补偿后的语音数据由频域转换到时域，通过第二预处理后输出。

目标逆变换算法具体可以为短时傅里叶逆变换算法ISTFT，具体用于补偿后的语音数据由频域转换到时域。

其中，第二预处理知识包括组帧处理、加窗处理中的一个或多个。

本申请方法实施例三提供了一种语音数据的处理方法，如图5所示，该方法包括如下步骤：

步骤501：获取用于采集语音数据的拾音器与发出所述语音数据的声源之间的距离；

步骤502：确定拾音器采集语音数据的当前应用场景；

拾音器采集语音数据具有不同的应用场景，如拾音器在电子设备处于免提状态下采集语音数据与拾音器在电子设备未处于免提状态下采集语音数据属于不同的应用场景。

步骤503：确定与所述当前应用场景对应的预设目标距离；

不同的应用场景所对应的预设距离不同，通过当前应用场景来确定与其对应的预设目标距离。

步骤504：判断所述距离是否大于预设目标距离，若否，进入步骤505；若是，进入步骤506；

步骤505：直接输出经过自动增益补偿处理后的语音数据；

步骤506：确定与所述距离对应的目标均衡参数集合；

其中，所述目标均衡参数集合包括不同频段与不同增益的对应关系；

步骤507：基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿。

与上述一种语音数据的处理方法对应的，本申请装置实施例一还提供了一种电子设备，如图6所示，该电子设备包括：拾音器610、传感器620、输出器630以及处理器640；其中：

拾音器610，用于采集语音数据；

传感器620，用于检测所述拾音器与发出所述语音数据的声源之间的距离；

处理器640，用于判断所述距离是否大于预设目标距离，若否，控制所述输出器630直接输出经过自动增益补偿处理后的语音数据；若是，确定与所述距离对应的目标均衡参数集合；基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿。

其中，处理器对所述拾音器采集的语音数据进行自动增益补偿处理，具体可以包括：获取当前语音数据帧的能量，基于所述当前语音数据帧的能量以及预设目标能量阈值确定增益参数，将所述增益参数作用于所述当前语音帧，生成经过自动增益补偿处理的语音数据。

其中，所述当前语音数据帧来自所述拾音器采集的语音数据。可以预先仅设置一个目标能量阈值，从而使用该目标能量阈值和当前语音数据帧的能量确定增益参数。当然，也可以预先设置多个能量阈值与距离的对应关系，那么处理器还用于确定与拾音器与声源之间的距离对应的目标能量阈值。

具体的，处理器可以将所述预设目标能量阈值与所述当前语音帧的能量做差得到增益参数。

本申请装置实施例二中，处理器基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿，包括：对经过自动增益补偿处理后的语音数据进行第一预处理；采用目标变换算法将处理后的语音数据变换到频域；基于所述目标均衡参数集合，对变换到频域后的各个频段上的语音数据进行增益补偿。

可选的，目标变换算法具体可以为短时傅里叶变换算法STFT，具体用于将处理的语音数据变换到频域。

在本申请装置实施例三中，处理器基于所述目标均衡参数集合，对变换到频域后的各个频段上的语音数据进行增益补偿之后，还用于采用目标逆变换算法将补偿后的语音数据由频域转换到时域，通过第二预处理后输出。

本申请装置实施例四中，处理器还用于确定拾音器采集语音数据的当前应用场景；确定与所述当前应用场景对应的预设目标距离。

拾音器采集语音数据具有不同的应用场景，如拾音器在电子设备处于免提状态下采集语音数据与拾音器在电子设备未处于免提状态下采集语音数据属于不同的应用场景。不同的应用场景所对应的预设距离不同，通过当前应用场景来确定与其对应的预设目标距离。

与上述一种语音数据处理方法对应的，本申请装置实施例五还提供了一种语音数据的处理装置，如图7所示，该装置包括：

第一获取单元710，用于获取用于采集语音数据的拾音器与发出所述语音数据的声源之间的距离；

第一判断单元720，用于判断所述距离是否大于预设目标距离；

第一输出单元730，用于在所述距离小于等于所述预设目标距离时，直接输出经过自动增益补偿处理后的语音数据；

第一确定单元740，用于在在所述距离小于所述预设目标距离时，确定与所述距离对应的目标均衡参数集合；其中，所述目标均衡参数集合包括不同频段与不同增益的对应关系；

第一补偿单元750，用于基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿。

可选的，所述第一补偿单元，包括：

第一处理模块，用于对经过自动增益补偿处理后的语音数据进行第一预处理；

第一变换模块，用于采用目标变换算法将处理后的语音数据变换到频域；

第一补偿模块，用于基于所述目标均衡参数集合，对变换到频域后的各个频段上的语音数据进行增益补偿。

可选的，该装置还可以包括：

转换输出单元，用于采用目标逆变换算法将补偿后的语音数据由频域转换到时域，通过第二预处理后输出。

可选的，该装置还可以包括：第一处理单元，用于对所述拾音器采集的语音数据进行自动增益补偿处理；具体的，第一处理单元可以包括：

第一获取模块，获取当前语音数据帧的能量；所述当前语音数据帧来自所述拾音器采集的语音数据；

第一确定模块，用于基于所述当前语音数据帧的能量以及预设目标能量阈值确定增益参数；其中，第一确定模块可以用于将所述预设目标能量阈值与所述当前语音帧的能量做差得到增益参数。

第一生成模块，用于将所述增益参数作用于所述当前语音帧，生成经过自动增益补偿处理的语音数据。

可选的，该装置还可以包括：第二确定单元，用于确定与所述距离对应的预设目标能量阈值。

可选的，该装置还可以包括：

场景确定单元，用于确定拾音器采集语音数据的当前应用场景；

第三确定单元，用于确定与所述当前应用场景对应的预设目标距离。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的一种语音数据的处理方法。

综上，本申请通过获取用于采集语音数据的拾音器与发出所述语音数据的声源之间的距离；判断所述距离是否大于预设目标距离，若否，直接输出经过自动增益补偿处理后的语音数据；若是，确定与所述距离对应的目标均衡参数集合；其中，所述目标均衡参数集合包括不同频段与不同增益的对应关系；基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿；由此可见，本申请能够在拾音器与声源之间的距离大于预设目标距离时，将自动增益补偿与均衡参数进行联动，在完成语音数据放大的同时最大程度的优化语音数据的频率，使得调整后的语音数据的频率部分不受音源距离的影响，声音的声色变化小，保证了语音数据的辨识度和清晰度，提高了声音的还原度。

本说明书中各个实施例中记载的特征可以相互替换或组合，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音数据的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标均衡参数集合，对经过自动增益补偿处理后的语音数据的各个频段进行增益补偿，包括：

对经过自动增益补偿处理后的语音数据进行第一预处理；

采用目标变换算法将处理后的语音数据变换到频域；

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标均衡参数集合，对变换到频域后的各个频段上的语音数据进行增益补偿之后，还包括：

4.根据权利要求1所述的方法，其特征在于，对所述拾音器采集的语音数据进行自动增益补偿处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述当前语音数据帧的能量以及预设目标能量阈值确定增益参数，包括：

6.根据权利要求4所述的方法，其特征在于，在所述确定增益参数之前，还包括：

确定与所述距离对应的预设目标能量阈值。

7.根据权利要求1所述的方法，其特征在于，在所述判断所述距离是否大于预设目标距离之前，还包括：

确定拾音器采集语音数据的当前应用场景；

确定与所述当前应用场景对应的预设目标距离。

8.一种电子设备，其特征在于，包括：

拾音器，用于采集语音数据；

输出器；

9.一种语音数据的处理装置，其特征在于，包括：

第一判断单元，用于判断所述距离是否大于预设目标距离；

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7所述的方法。