CN113782050A

CN113782050A - 声音变调方法、电子设备及存储介质

Info

Publication number: CN113782050A
Application number: CN202111052275.6A
Authority: CN
Inventors: 史巍; 王宝俊; 张锦铖; 林聚财; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-10

Abstract

本申请公开了一种声音变调方法、电子设备及计算机可读存储介质。该方法包括：获取待处理音频数据；以当前起点按照时长从短到长的顺序搜索音高周期，以确定当前第一音频帧，其中，当前第一音频帧的音高周期数量大于音高周期阈值，搜索的时长越短，对应的音高周期阈值越大；为当前第一音频帧加窗，以得到当前分析帧；利用当前分析帧合成目标音频数据。通过上述方式，能够提高声音变调过程对声音处理的实时性。

Description

声音变调方法、电子设备及存储介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种声音变调方法、电子设备及计算机可读存储介质。

背景技术

出于保护个人信息或者娱乐等目的，经常需要通过变声(声音变调)方法改变原始音频数据中的声音。声音变调方法是在声音速度不变的前提下，改变声音的语调。例如，在一些匿名的视频会议中，如果要保护个人信息，需要利用声音变调方法对会议过程的音频数据进行处理，将视频会议过程中说话人的声音改变，使得原始音频数据中说话人的声音无法被分辨出来。然而，现有的声音变调方法对声音的处理实时性不高。

发明内容

本申请提供一种声音变调方法、电子设备及计算机可读存储介质，能够解决现有的声音变调方法对声音的处理实时性不高的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种声音变调方法。该方法包括：获取待处理音频数据；以当前起点按照时长从短到长的顺序搜索音高周期，以确定当前第一音频帧，其中，当前第一音频帧的音高周期数量大于音高周期阈值，搜索的时长越短，对应的音高周期阈值越大；为当前第一音频帧加窗，以得到当前分析帧；利用当前分析帧合成目标音频数据。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括处理器、与处理器连接的存储器，其中，存储器存储有程序指令；处理器用于执行存储器存储的程序指令以实现上述方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，存储有程序指令，该程序指令被执行时能够实现上述方法。

通过上述方式，本申请中在确定当前第一音频帧时，以当前起点按照时长从短到长的顺序搜索音高周期，即根据多级时长策略自适应搜索的音高周期数量，从而能够保证对当前第一音频帧加窗之后，得到的分析帧的音高周期数量大于音高周期阈值的同时，时长也在允许范围内，从而分析帧的时长不会过长，提高对声音处理的实时性。

附图说明

图1是本申请声音变调方法一实施例的流程示意图；

图2是图1中S11的具体流程示意图；

图3是本申请声音变调方法另一实施例的流程示意图；

图4是本申请电子设备一实施例的结构示意图；

图5是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，在不冲突的情况下，本文所描述的实施例可以与其它实施例相结合。

在介绍本申请提供的方法之前，先对现有的声音变调方法处理无法实时的原因进行说明：

本申请提及的对音频数据的处理是从时域的角度来说的。待处理音频数据包括多个采样点，每个采样点具有对应的采样时间点和序号。音高周期是基音周期在时域的表现形式，音高周期的位置就是基音周期在时域的起始位置，在时域表现为具体采样点的序号。

现有方案中，用于合成目标音频数据的分析帧的音高周期数量是固定的。以固定数量M(M≥2)为例，将一个分析帧定义为原始音频数据中M个音高周期间隔的部分乘以一个长度为M_interval的汉宁窗。分析帧可以用如下的公式表示：

x_s(n)＝x(e(n):e(n+M))*h_win n++

其中，x_s(n)表示第n个分析帧，x表示原始音频数据，h_win表示汉宁窗函数，表示第n个音高周期对应的采样点的序号。

由于音高周期只存在于原始音频数据中有声音的部分，因此在确定分析帧时，只会在有声音的部分才能搜索到音高周期，而在噪声和静音的部分搜索不到音高周期。当原始音频数据中很长时间内没有声音时，相邻两个音高周期的时间间隔就会非常长，从而导致分析帧的时长非常长，处理起来无法实时。

为此，本申请提供的方法如下：

图1是本申请声音变调方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例可以包括：

S11：获取待处理音频数据。

待处理音频数据可以是获取到的原始音频数据，也可以是对原始音频数据处理得到的数据。相较于前者，后者能够改变音高周期的分布情况，避免声音变调得到的目标音频数据中语音帧和非语音帧之间出现噪声。结合参阅图2，后者情况下，S11可以包括以下子步骤：

S111：获取原始音频数据。

原始音频数据可以是实时的，也可以是非实时的。

S112：将原始音频数据划分为若干个第二音频帧。

可以利用窗函数将原始音频数据划分为若干个第二音频帧，第二音频帧的长度/窗的长度可以任意确定，也可以基于原始音频数据的采样率确定，采样率和第二音频帧的长度成正比。

S113：检测若干个第二音频帧中的语音帧和非语音帧。

可以利用VAD(动态语音检测)算法检测语音帧和非语音帧。VAD算法可以是Thomas、Rabin等等。

S114：利用语音帧对与其相邻的至少部分非语音帧进行平滑处理。

可以理解的是，利用语音帧对非语音帧进行平滑处理，能够将非语音帧转换成语音帧与非语音帧之间的过渡帧。从而在后续确定分析帧时，能够在过渡帧中搜索到音高周期。

可以基于采样率fs确定利用单个语音帧平滑的非语音帧的最大数量N。其中，利用单个语音帧平滑的非语音帧的最大数量与采样率正相关。例如，通过下式确定利用单个语音帧平滑的非语音帧的数量：

N＝fs*T₁，

T₁₁<T₁₂v

其中，N表示利用一个语音帧平滑的非语音帧的数量，fs表示采样率，T₁₁和T₁₂表示平滑的候选时长，T₁表示平滑的时长。

与语音帧相邻的非语音帧，可以是语音帧之后相邻的非语音帧，也可以是语音帧之前相邻的非语音帧。利用语音帧对非语音帧的平滑处理可以分为单向平滑处理和双向平滑处理。

单向平滑处理为仅进行正向平滑处理或仅进行反向平滑处理。正向平滑处理即利用语音帧对其之后相邻的非语音帧进行平滑处理，反向平滑处理即利用语音帧对其之前相邻的非语音帧进行平滑处理。双向平滑处理为既进行正向平滑处理也进行反向平滑处理。

利用语音帧对其之后相邻的非语音帧进行平滑处理(正向平滑处理)可以体现为下式：

x_n(j)＝x_n-1(j)*β+x_n(j)*(1-β)n++，

其中，x_n(j)表示语音帧和其之后相邻的非语音帧中的第n帧的第j个采样点的值，x_n-1(j)表示第n-1帧的第j个采样点的值，β表示平滑系数。

利用语音帧对其之前相邻的非语音帧进行平滑处理(反向平滑处理)可以体现为下式：

x_n(j)＝x_n+1(j)*β+x_n(j)*(1-β)n--，

其中，x_n(j)表示语音帧和其之前相邻的非语音帧中的第n帧的第j个采样点的值，x_n+1(j)表示第n+1帧的第j个采样点的值。

在利用语音帧对与其相邻的多个非语音帧进行平滑时，距离语音帧越远的非语音帧(或者说与语音帧的帧号相差越大的非语音帧)对应的平滑系数越小。

例如，在利用一个语音帧平滑的非语音帧的数量为N的情况下，平滑系数β可以从1开始，逐帧递减1/N，直到0为止。

作为一实施例，S114中均利用语音帧对其之后相邻的非语音帧进行平滑处理(正向平滑处理)。

作为另一实施例，S114中均利用语音帧对其之前相邻的非语音帧进行平滑处理(反向平滑处理)。

作为又一实施例，S114中既利用语音帧对其之后相邻的非语音帧进行平滑处理，也利用语音帧对其之前相邻的非语音帧进行平滑处理(双向平滑处理)。

作为再一实施例，S114中通过相邻的两个语音帧之间的非语音帧数量来限制进行单向平滑处理还是进行双向平滑处理。

具体而言，可以基于采样率得到预设数量阈值，该预设数量阈值与采样率正相关。该预设数量阈值可以等于利用单个语音帧平滑处理的非语音帧的最大数量。

以相邻两个语音帧之间的非语音帧为目标非语音帧；若目标非语音帧数量大于或者等于预设数量阈值，则将相邻的两个语音帧中的一个(前一个或者后一个)作为第一起始语音帧，并利用第一起始语音帧对与其相邻的至少部分目标非语音帧进行平滑处理；若目标非语音帧数量小于预设数量阈值，则分别将相邻的两个语音帧作为第一起始语音帧和第二起始语音帧，并利用第二起始语音帧与其相邻的至少部分目标非语音帧进行平滑处理，以及利用第三起始语音帧对与其相邻的至少部分目标非语音帧进行平滑处理。

举例说明，当目标非语音帧数量小于N时，采用双向平滑处理生成过渡帧。首先从第一个目标非语音帧进行正向平滑处理，平滑系数从1开始，逐帧递减1/N，直至最后一个目标非语音帧。然后从最后一个目标非语音帧进行反向平滑处理，平滑系数从1开始，逐帧递减1/N，直至第一个目标非语音帧。具体可以通过如下公式实现：

当目标非语音帧数量大于或者等于N时，采用正向平滑处理生成过渡帧。从第一个非语音帧开始进行平滑，平滑系数从1开始，逐帧递减1/N，直至0为止。具体可以通过如下公式实现：

x_n(j)＝x_n-1(j)*β+x_n(j)*(1-β)n++，

S12：以当前起点按照时长从短到长的顺序搜索音高周期，以确定当前第一音频帧。

其中，当前音频帧的音高周期数量大于音高周期阈值，搜索的时长越短，对应的音高周期阈值越大。

当前起点即为确定当前第一音频帧时搜索的时长的时间起点。本步骤中，为了避免当前第一音频帧的时长过长，给定搜索的时长的允许范围。该允许范围的每个时长/时长范围具有对应的音高周期阈值，且短的时长/时长范围对应的音高周期阈值越大，长的时长/时长范围对应的音高周期阈值越小。

在搜索过程中，按照允许范围内的时长从短到长的顺序，依次将时长作为目标时长，若在目标时长搜索到的音高周期数量大于目标时长对应的音高周期阈值，则停止搜索，并将待处理音频数据中，以目标时长搜索到的第一个音高周期和最后一个音高周期之间的部分确定为当前第一音频帧。

若在所有时长搜索到的音高周期数量均不大于对应的音高周期阈值，即按照允许范围的最大时长进行搜索，搜索到的音高周期数量也不大于对应的音高周期阈值，则对当前起点向后偏移，以更新当前起点，并重新开始搜索。向后偏移的采样时间点数量取决于相邻两个分析帧重叠的长度、处理精度等因素。

如下对本步骤的搜索过程进行举例说明：

给定三个时长阈值，分别是第一时长阈值T_min、第二时长阈值T_mid和第三时长阈值T_max，T_min<T_mid<T_max。利用该三个时长阈值将允许范围划分为三个部分，分别是(0,T_min]、(T_min,T_mid]和(T_mid,T_max]。(0,T_min]对应的音高周期阈值为M，(T_min,T_mid]对应的音高周期阈值为M-1，(T_mid,T_max]对应的音高周期阈值为2。搜索时长为T。

1)在(0,T_min]内按照T从短到长的顺序进行音高周期搜索；若搜索到的音高周期数量大于M，则将待处理音频数据中，按照T搜索得到的第一个音高周期和最后一个音高周期之间的部分，确定为当前第一音频帧；若搜索到的音高周期数量不大于M，则进入2)。

2)在(T_min,T_mid]内按照T从短到长的顺序进行音高周期搜索；若搜索到的音高周期数量大于M-1，则确定当前第一音频帧；若搜索到的音高周期数量不大于M-1，则进入3)。

3)在(T_mid,T_max]内按照T从短到长的顺序进行音高周期搜索；若搜索到的音高周期数量大于2，则确定当前第一音频帧；若搜索到的音高周期数量不大于2，则修改当前起点(将当前起点向后偏移)，跳转至1)，以重复执行上述步骤，直至确定当前第一音频帧。

S13：为当前第一音频帧加窗，以得到当前分析帧。

为当前第一音频帧加窗，即利用当前第一音频帧乘以窗函数，窗函数包括但不限于为汉宁窗函数。以汉宁窗函数为例，当前第一音频帧可以表示为：

其中，m表示在搜索时长T搜索到的音高周期数量。

S14：利用当前分析帧合成目标音频数据。

利用当前分析帧合成目标音频数据的方法可以是SOLA、PSOLA、WSOLA算法等等。

通过本实施例的实施，本申请中在确定当前第一音频帧时，以当前起点按照时长从短到长的顺序搜索音高周期，即根据多级时长策略自适应搜索的音高周期数量，从而能够保证对当前第一音频帧加窗之后，得到的分析帧的音高周期数量大于音高周期阈值的同时，时长也在允许范围内，从而分析帧的时长不会过长，提高处理的实时性。

图3是本申请声音变调方法另一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图3所示的流程顺序为限。本实施例是对S14的进一步扩展。如图3所示，本实施例可以包括：

S141：基于时间尺度因子确定当前分析帧与已合成的中间音频数据重叠的时长。

时间尺度因子为最后一次叠加后得到的中间音频数据的时长与待处理数据的时长的比值。

重叠的时长为已合成的中间音频数据的尾部与当前分析帧的头部重叠的时间长度。时间尺度因子可以是预设设定的，也可以是应用过程中由用户指定的。由于待处理数据的时长已知，因此在时间尺度因子确定的情况下，可以确定最后一次叠加后得到的中间音频数据的时长。

最后一次叠加后得到的中间语音

时间尺度因子大于1或者小于1。若时间尺度因子大于1，则代表在处理过程中会对待处理音频数据进行拉伸，使得待处理音频数据中的声音***犷；若时间尺度因子小于1，则代表在处理过程中会对待处理音频数据进行压缩，使得待处理音频数据中的声音变尖锐。

S142：将当前分析帧按照重叠的时长叠加至已合成的中间音频数据。

将当前分析帧与已合成的中间音频数据重叠的部分采样点的值对应相加，其他部分保持不变。

将当前分析帧叠加值已合成的中间音频数据可以体现为：

S143：对最后一次叠加后得到的中间音频数据进行采样处理，以得到目标音频数据。

采样处理是为了使得目标音频数据的时长与待处理音频数据的时长一致，从而实现声音的变调而不变速。由此，若时间尺度因子大于1，则对中间音频数据进行下采样处理；若时间尺度因子小于1，则对中间音频数据进行上采样处理。

另外，在采样处理之前，还可以对最后一次叠加后得到的中间音频数据进行归一化处理。

另外，为避免最后一次叠加后得到的中间音频数据的实际长度大于目标长度，在S14之前，还可以将当前分析帧的时长和时间尺度因子相乘，以确定当前分析帧叠加后得到的中间音频数据的目标；判断当前分析帧叠加后得到的中间音频数据的实际长度是否小于目标长度。若小于，则执行S14；否则当前分析帧不参与目标音频数据的合成。

图4是本申请电子设备一实施例的结构示意图。如图4所示，该电子设备包括处理器21、与处理器21耦接的存储器22。

其中，存储器22存储有用于实现上述任一实施例的方法的程序指令；处理器21用于执行存储器22存储的程序指令以实现上述方法实施例的步骤。其中，处理器21还可以称为CPU(Central Processing Unit，中央处理单元)。处理器21可能是一种集成电路芯片，具有信号的处理能力。处理器21还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

图5是本申请计算机可读存储介质一实施例的结构示意图。如图5所示，本申请实施例的计算机可读存储介质30存储有程序指令31，该程序指令31被执行时实现本申请上述实施例提供的方法。其中，该程序指令31可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质30中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质30包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种声音变调方法，其特征在于，包括：

获取待处理音频数据；

以当前起点按照时长从短到长的顺序搜索音高周期，以确定当前第一音频帧，其中，所述当前第一音频帧的音高周期数量大于音高周期阈值，搜索的所述时长越短，对应的所述音高周期阈值越大；

为所述当前第一音频帧加窗，以得到当前分析帧；

利用所述当前分析帧合成目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述以当前起点按照时长从短到长的顺序搜索音高周期，以确定当前第一音频帧，包括：

若在所有时长搜索到的所述音高周期数量均不大于对应的音高周期阈值，则对所述当前起点向后偏移，以更新所述当前起点，并重新开始搜索。

3.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

按照所述时长从短到长的顺序，依次将所述时长作为目标时长；

若在所述目标时长搜索到的所述音高周期数量大于所述目标时长对应的所述音高周期阈值，则停止搜索，并将所述待处理音频数据中，以所述目标时长搜索到的第一个所述音高周期和最后一个所述音高周期之间的部分，确定为所述当前第一音频帧。

4.根据权利要求1所述的方法，其特征在于，所述获取待处理音频数据之前，包括：

获取原始音频数据；

将所述原始音频数据划分为若干个第二音频帧；

检测所述若干个第二音频帧中的语音帧和非语音帧；

利用所述语音帧对与其相邻的至少部分非语音帧进行平滑处理。

5.根据权利要求4所述的方法，其特征在于，所述利用所述语音帧对与其相邻的至少部分非语音帧进行平滑处理，包括：

以相邻的两个语音帧之间的非语音帧为目标非语音帧；

若所述目标非语音帧数量大于或等于预设数量阈值，则将所述相邻的两个语音帧中的一个作为第一起始语音帧，并利用所述第一起始语音帧对与其相邻的至少部分所述目标非语音帧进行平滑处理；

若所述目标非语音帧数量小于所述预设数量阈值，则分别将所述相邻的两个语音帧作为第二起始语音帧和第三起始语音帧，并利用所述第二起始语音帧与其相邻的至少部分所述目标非语音帧进行平滑处理，以及利用所述第三起始语音帧对与其相邻的至少部分所述目标非语音帧进行平滑处理。

6.根据权利要求5所述的方法，其特征在于，所述预设数量阈值为利用单个所述语音帧平滑的所述非语音帧的最大数量，所述预设数量阈值与所述原始音频数据的采样率正相关。

7.根据权利要求1所述的方法，其特征在于，所述利用所述当前分析帧合成目标音频数据，包括：

基于时间尺度因子确定所述当前分析帧与已合成的中间音频数据重叠的时长，所述时间尺度因子为最后一次叠加后得到的中间音频数据的时长与所述待处理数据的时长的比值；

将所述当前分析帧按照所述重叠的时长叠加至所述已合成的中间音频数据；

对所述最后一次叠加后得到的中间音频数据进行采样处理，以得到所述目标音频数据。

8.根据权利要求7所述的方法，其特征在于，在所述利用所述当前分析帧合成目标音频数据之前，包括：

将所述当前分析帧的时长和所述时间尺度因子相乘，以确定所述当前分析帧叠加后得到的所述中间音频数据的目标长度；

判断所述当前分析帧叠加后得到的中间音频数据的实际长度是否小于所述目标长度；

若小于，则执行所述利用所述当前分析帧合成所述目标音频数据的步骤。

9.根据权利要求7所述的方法，其特征在于，所述对最后一次叠加后得到的所述中间音频数据进行采样处理，以得到所述目标音频数据，还包括：

若所述时间尺度因子大于1，则对所述中间音频数据进行下采样处理；

若所述时间尺度因子小于1，则对所述中间音频数据进行上采样处理。

10.一种电子设备，其特征在于，包括处理器、与所述处理器连接的存储器，其中，

所述存储器存储有程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以实现权利要求1-9中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储程序指令，所述程序指令被执行时实现如权利要求1-9中任一项所述的方法。