CN112863530A

CN112863530A - 一种声音作品的生成方法和装置

Info

Publication number: CN112863530A
Application number: CN202110018240.4A
Authority: CN
Inventors: 熊佳; 罗箫; 马金龙; 焦南凯; 汪暾; 吴斌科; 郑泽南; 卢萧潇; 徐志坚; 谢睿; 陈光尧
Original assignee: Guangzhou Huancheng Culture Media Co ltd
Current assignee: Guangzhou Huancheng Culture Media Co ltd
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-05-28

Abstract

本发明公开了一种声音作品的生成方法和装置，方法包括：接收多个录音子片段；根据接收到的音效配置指令，为多个所述录音子片段分别配置音效，得到多个待合成声音片段；采用多个所述待合成声音片段进行拼接处理，生成目标声音作品。从而便于用户对录音片段的灵活创作，实现对声音片段和音效等选择方案的多样化选择，进而生成音效更为多样化，音质更好的声音作品。

Description

一种声音作品的生成方法和装置

技术领域

本发明涉及音频处理技术领域，尤其涉及一种声音作品的生成方法和装置。

背景技术

声音是人与人之间进行交流的最自然和便捷的方式。

随着互联网社交的不断发展，声音社交类产品也越来越多，声音的玩法也越来越多。例如很多声音类APP都会提供这样的功能：用户可录制自己的声音，以及预设一些效果，用户可以试听不同的音效效果，最后选择一种满意的效果生成一段声音片段。

但在现有的声音类APP上，录制和生成声音片段的过程中，用户只能选择一种效果生成最终的声音片段，对声音片段和音效的选择方案通常较为单一，无法满足用户对声音作品的灵活创作需求。

发明内容

本发明提供了一种声音作品的生成方法和装置，解决了现有技术中对声音片段和音效的选择方案单一，无法满足用户对声音作品的灵活创作需求的技术问题。

本发明提供的一种声音作品的生成方法，包括：

接收多个录音子片段；

根据接收到的音效配置指令，为多个所述录音子片段分别配置音效，得到多个待合成声音片段；

采用多个所述待合成声音片段进行拼接处理，生成目标声音作品。

可选地，所述音效包括变声效果和场景音效，所述根据接收到的音效配置指令，为多个所述录音子片段分别配置音效，得到多个待合成声音片段的步骤，包括：

响应于输入的音效配置指令，从预置的音效库中选择与所述音效配置指令对应的所述变声效果和场景音效；

采用所述变声效果和所述场景音效，分别对多个所述录音子片段进行配置，得到多个待合成声音片段。

可选地，所述采用多个所述待合成声音片段进行拼接处理，生成目标声音作品的步骤，包括：

采用多个所述待合成声音片段进行拼接并进行短时淡入淡出处理，生成中间声音片段；

对所述中间声音片段进行音量协调性处理，生成目标声音作品。

可选地，所述对所述中间声音片段进行音量协调性处理，生成目标声音作品的步骤，包括：

按照预设时间长度将所述中间声音片段划分为多帧待处理声音片段并计算每帧所述待处理声音片段的输入帧幅度；

根据预置的动态范围控制曲线，确定每个所述输入帧幅度对应的对数域幅度增益；

基于所述对数域幅度增益对每帧所述待处理声音片段执行双重增益平滑操作，生成目标声音作品。

可选地，所述双重增益平滑操作包括第一平滑处理过程和第二平滑处理过程，所述基于所述对数域幅度增益对每帧所述待处理声音片段执行双重增益平滑操作，生成目标声音作品的步骤，包括：

根据所述待处理声音片段的第j帧对应的所述对数域幅度增益以及所述待处理声音片段的第j-3帧对应的所述对数域幅度增益，计算所述待处理声音片段的第j帧对应的第一平滑增益值；其中，j≥4，j为整数；

采用所述第一平滑增益值对第j帧所述待处理声音片段执行第一增益平滑操作，使得所述待处理声音片段的第j帧的所述第一平滑处理过程完成；

将所述对数域幅度增益转换为所述线性域幅度增益；

从所述平滑声音片段的第j帧中确定多个采样点；

根据所述平滑声音片段的第j帧对应的所述线性域幅度增益计算每个所述采样点的采样点增益；

采用所述采样点增益对每个所述采样点执行第二增益平滑操作，使得所述待处理声音片段的第j帧的所述第二平滑处理过程完成；

当所述待处理声音片段的每一帧的所述第二平滑处理过程完成后，得到目标声音作品。

本发明还提供了一种声音作品的生成装置，包括：

录音子片段接收模块，用于接收多个录音子片段；

音效配置模块，用于根据接收到的音效配置指令，为多个所述录音子片段分别配置音效，得到多个待合成声音片段；

拼接处理模块，用于采用多个所述待合成声音片段进行拼接处理，生成目标声音作品。

可选地，所述音效包括变声效果和场景音效，所述音效配置模块包括：

音效选择子模块，用于响应于输入的音效配置指令，从预置的音效库中选择与所述音效配置指令对应的所述变声效果和场景音效；

待合成声音片段生成子模块，用于采用所述变声效果和所述场景音效，分别对多个所述录音子片段进行配置，得到多个待合成声音片段。

可选地，所述拼接处理模块包括：

拼接子模块，用于采用多个所述待合成声音片段进行拼接并进行短时淡入淡出处理，生成中间声音片段；

音量协调性处理子模块，用于对所述中间声音片段进行音量协调性处理，生成目标声音作品。

可选地，所述音量协调性处理子模块包括：

片段划分单元，用于按照预设时间长度将所述中间声音片段划分为多帧待处理声音片段并计算每帧所述待处理声音片段的输入帧幅度；

对数域幅度增益确定单元，用于根据预置的动态范围控制曲线，确定每个所述输入帧幅度对应的对数域幅度增益；

双重增益平滑操作单元，用于基于所述对数域幅度增益对每帧所述待处理声音片段执行双重增益平滑操作，生成目标声音作品。

可选地，所述双重增益平滑操作包括第一平滑处理过程和第二平滑处理过程，所述双重增益平滑操作单元包括：

第一平滑增益值确定单元，用于根据所述待处理声音片段的第j帧对应的所述对数域幅度增益以及所述待处理声音片段的第j-3帧对应的所述对数域幅度增益，计算所述待处理声音片段的第j帧对应的第一平滑增益值；其中，j≥4，j为整数；

第一增益平滑操作执行单元，用于采用所述第一平滑增益值对第j帧所述待处理声音片段执行第一增益平滑操作，使得所述待处理声音片段的第j帧的所述第一平滑处理过程完成；

增益转换单元，用于将所述对数域幅度增益转换为所述线性域幅度增益；

采样点确定单元，用于从所述平滑声音片段的第j帧中确定多个采样点；

采样点增益确定单元，用于根据所述平滑声音片段的第j帧对应的所述线性域幅度增益计算每个所述采样点的采样点增益；

第二增益平滑操作执行单元，用于采用所述采样点增益对每个所述采样点执行第二增益平滑操作，使得所述待处理声音片段的第j帧的所述第二平滑处理过程完成；

目标声音作品生成单元，用于当所述待处理声音片段的每一帧的所述第二平滑处理过程完成后，得到目标声音作品。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过接收用户输入的多个录音子片段，再根据用户对每个录音子片段输入的音效配置指令，为每个录音子片段分别配置对应的音效，得到多个待合成声音片段，最后采用多个待合成声音片段进行拼接处理，以生成目标声音作品。解决了现有技术中对声音片段和音效的选择方案单一，无法满足用户对声音作品的灵活创作需求的技术问题。便于用户对录音片段的灵活创作，实现对声音片段和音效等选择方案的多样化选择，进而生成音效更为多样化，音质更好的声音作品。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一提供的一种声音作品的生成方法的步骤流程图；

图2为本发明实施例二提供的一种声音作品的生成方法的步骤流程图；

图3为本发明实施例二提供的一种动态范围控制曲线示意图；

图4为本发明实施例三提供的一种声音作品的生成装置的结构框图。

具体实施方式

本发明实施例提供了一种声音作品的生成方法和装置，用于解决现有技术中对声音片段和音效的选择方案单一，无法满足用户对声音作品的灵活创作需求的技术问题。用户能够单人录制一段多人台词，通过选择不同的声音处理方法，对每个子片段采用不同的音效，最终合成一个“多人对话”的声音作品。整个过程像是声优给一些影视作品配音，后期在剪辑拼接成一个完整的作品的过程。这个过程通常需要多人合作配音、剪辑、合成才能完成，通过对声音子片段可设置不同变声等声音效果的方案，使整个过程变成简单，单个用户简便操作就可以自动生成一个声音对白作品。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例一提供的一种声音作品的生成方法的步骤流程图。

本发明提供的一种声音作品的生成方法，包括：

步骤101，接收多个录音子片段；

在本发明实施例中，多个录音子片段可以通过单个用户录制，也可以通过多个用户录制。

值得一提的是，每个录音子片段可以具有相同的录制时长，也可以有不同的录制时长，本发明实施例对此不作限制。

步骤102，根据接收到的音效配置指令，为多个所述录音子片段分别配置音效，得到多个待合成声音片段；

在获取到多个录音子片段后，可以基于用户所输入的音效配置指令，为多个录音子片段分别配置对应的音效，使得每个录音子片段可以设置符合所需要的场景音效和人物变声效果，以得到多个待合成声音片段。

步骤103，采用多个所述待合成声音片段进行拼接处理，生成目标声音作品。

在获取到多个待合成声音片段后，由于不同的待合成声音片段在录制时或者音效设置时的状况不同，可能存在声音大小不一、音效大小不一和端点不规则等缺陷，因此还需要对多个待合成声音片段进行进一步的拼接，以便于对声音片段的对接处进行平滑和后处理等，生成目标声音作品。

在本发明实施例中，通过接收用户输入的多个录音子片段，再根据用户对每个录音子片段输入的音效配置指令，为每个录音子片段分别配置对应的音效，得到多个待合成声音片段，最后采用多个待合成声音片段进行拼接处理，以生成目标声音作品。解决了现有技术中对声音片段和音效的选择方案单一，无法满足用户对声音作品的灵活创作需求的技术问题。便于用户对录音片段的灵活创作，实现对声音片段和音效等选择方案的多样化选择，进而生成音效更为多样化，音质更好的声音作品。

请参阅图2，图2为本发明实施例二提供的一种声音作品的生成方法的步骤流程图。

本发明提供的一种声音作品的生成方法，包括：

步骤201，接收多个录音子片段；

在本发明实施例中，步骤201的具体实施过程与上述步骤101类似，在此不再赘述。

步骤202，根据接收到的音效配置指令，为多个所述录音子片段分别配置音效，得到多个待合成声音片段；

可选地，所述音效包括变声效果和场景音效，步骤202可以包括以下子步骤：

在本发明实施例中，当获取到多个录音子片段后，可以响应于用户输入的音效配置指令，从预置的音效库中选择与音效配置指令对应的变声效果和场景音效，以对应的变声效果对录音子片段中的人声进行变声，再为录音子片段的背景音配置对应的场景音效，以得到对应的多个待合成声音片段。

其中，音效库可以存储有各种变声效果，例如萝莉音、少女音、正太音、大叔音、惊悚音、怪兽音、机器人音、搞怪音、重型机械音、电音等，以及各种场景音效，例如鸟鸣声、潮水声、轻音乐、紧张气氛音、惊悚气氛音等，本发明实施例对此不作限制。

在本发明实施例中，上述实施例一中的步骤103的技术特征“所述采用多个所述待合成声音片段进行拼接处理，生成目标声音作品”可以替换为以下步骤203-204：

步骤203，采用多个所述待合成声音片段进行拼接并进行短时淡入淡出处理，生成中间声音片段；

由于录制声音的过程是由用户主动控制的，起始和终止通常不是渐变的过程，若是直接将相邻声音片段拼接，在拼接处可能会产生杂音，例如“哒”。

为了避免最终生成的声音作品中出现多处拼接杂音，本发明实施例在采用多个待合成声音片段进行拼接时，可以采用短时淡入淡出处理，使得在每个声音片段的起始时声音是渐大的，而结束时声音是渐小的，相邻声音片段拼接时可以有个平滑的过渡，不会产生杂音。再将多个待合成声音片段按照顺序进行拼接，以生成中间声音片段。

可选地，为了不影响主体声音的效果，淡入淡出处理的时长均控制在100ms，或者由技术人员根据场景需要进行设定，本发明实施例对此不作限制。

步骤204，对所述中间声音片段进行音量协调性处理，生成目标声音作品。

在多个声音片段拼接在一起之后，还需要对整体声音作品进行一个音量协调性处理，即声音的动态范围控制。为了兼顾效果并提高处理效率，步骤204可以包括以下子步骤S1-S3：

S1、按照预设时间长度将所述中间声音片段划分为多帧待处理声音片段并计算每帧所述待处理声音片段的输入帧幅度；

进一步地，在得到中间声音片段后，先按照预设时间长度将中间声音片段划分为多帧待处理声音片段，同时计算每帧待处理声音片段的输入帧幅度。

在具体实现中，以预设时间长度为10ms分帧，计算输入帧幅度A为例，可以采用peak或rms两种计算方式，计算方式分别如式(1)和式(2)：

A_peak＝max{|x_i||i＝1,2,...,N} (1)

其中，N是每帧数据的采样点数，|x_i|是表示第i个采样点的幅值的绝对值。A_peak是每帧数据的幅度绝对值最大点，A_rms是每帧数据的均方根。

而根据人耳心理声学原理，人耳对信号响度的响应与信号幅度是近似对数关系，而不是线性关系。所以可以将线性域的输入帧幅度A换算为对数域的输入帧幅度A_dB，在对数域计算待处理声音片段待调节的增益值。

以采样数据为16比特位宽举例，换算公式如式(3)所示：

A_dB＝20*log(A/32768) (3)

其中，32768为16bit位宽可以表示的最大绝对值数值，2¹⁵＝32768，1位为符号位。

S2、根据预置的动态范围控制曲线，确定每个所述输入帧幅度对应的对数域幅度增益；

动态范围(dynamic range)是可变化信号(例如声音或光)最大值和最小值的比值。也可以用以10为底的对数(分贝)或以2为底的对数表示。

在具体实现中，可以基于用户输入配置对应的动态范围控制曲线，如图3所示，其中包括输入幅度A和输出幅度B，单位为dB，直线部分为未调节的输入幅度与输出幅度的动态范围控制曲线，曲线部分为本发明实施例已调节后的输入幅度与输出幅度的动态范围控制曲线。

可以基于每个输入幅度A得到每个对应的输出幅度B，以此计算需要的需要提升或降低的对数域幅度增益Δ，公式为式(4)。

Δ＝B_dB-A_dB (4)

S3、基于所述对数域幅度增益对每帧所述待处理声音片段执行双重增益平滑操作，生成中间声音片段。

进一步地，所述双重增益平滑操作包括第一平滑处理过程和第二平滑处理过程，步骤S4可以包括以下子步骤：

将所述对数域幅度增益转换为所述线性域幅度增益；

从所述平滑声音片段的第j帧中确定多个采样点；

在本发明的一个示例中，为了使调整之后的信号帧与帧之间平滑过渡，不产生断裂的杂音，需要对在临近帧之间做双重增益平滑操作，其中包括第一平滑处理过程和第二平滑处理过程。

第一平滑处理过程：计算出对数域增益之后做一次增益平滑，采用当前第j帧和历史3帧加权滑动平均，得到平滑后的当前第j帧增益，计算方式如式(5)：

其中，θ_k表示第k帧的加权系数，Δ_k表示第k帧的对数域增益值。

在具体实现中，采用该增益进行平滑的帧数可以取是40～60ms时长，或者由技术人员根据调试自行设定，本发明实施例对此不作限制。

由于输入的待处理声音片段与输出的目标声音作品的幅度表示是线性域的，因此在执行第一平滑处理过程后，需要把对数域的增益值Δ换算为线性域增益δ，才能对输入信号进行增益处理，转换方式如式(6)所示：

在执行第二平滑处理过程时，先求取当前第j帧相对第j-1帧的增益差α_j和每点增益增值α_j/N(N为每帧数据点数)，最终得到第j帧每个采样点的增益g_j,i，与输入信号对应采样点x_j,i相乘，得到目标声音作品y_j,i。

α_j＝δ_j-δ_j-1 (7)

g_j,i＝δ_j-1+i*α_j/N (8)

y_j,i＝g_j,i*x_j,i (9)

其中，i表示每帧平滑声音片段中第i个采样点。

可选地，以上多段动态范围控制的方式不但可以用于按文件处理的非实时场景，还可以用于按帧处理的实时场景。对于按文件处理的非实时场景，还可以根据整体音频文件的情况做进一步的声音音量调整，使多段声音拼接之后整体听感更和谐。

请参阅图4，图4为本发明实施例三提供的一种声音作品的生成装置的结构框图。

本发明提供的一种声音作品的生成装置，包括：

录音子片段接收模块401，用于接收多个录音子片段；

音效配置模块402，用于根据接收到的音效配置指令，为多个所述录音子片段分别配置音效，得到多个待合成声音片段；

拼接处理模块403，用于采用多个所述待合成声音片段进行拼接处理，生成目标声音作品。

可选地，所述音效包括变声效果和场景音效，所述音效配置模块402包括：

可选地，所述拼接处理模块403包括：

可选地，所述音量协调性处理子模块包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声音作品的生成方法，其特征在于，包括：

接收多个录音子片段；

2.根据权利要求1所述的声音作品的生成方法，其特征在于，所述音效包括变声效果和场景音效，所述根据接收到的音效配置指令，为多个所述录音子片段分别配置音效，得到多个待合成声音片段的步骤，包括：

3.根据权利要求1所述的声音作品的生成方法，其特征在于，所述采用多个所述待合成声音片段进行拼接处理，生成目标声音作品的步骤，包括：

4.根据权利要求3所述的声音作品的生成方法，其特征在于，所述对所述中间声音片段进行音量协调性处理，生成目标声音作品的步骤，包括：

5.根据权利要求4所述的声音作品的生成方法，其特征在于，所述双重增益平滑操作包括第一平滑处理过程和第二平滑处理过程，所述基于所述对数域幅度增益对每帧所述待处理声音片段执行双重增益平滑操作，生成目标声音作品的步骤，包括：

将所述对数域幅度增益转换为所述线性域幅度增益；

从所述平滑声音片段的第j帧中确定多个采样点；

6.一种声音作品的生成装置，其特征在于，包括：

录音子片段接收模块，用于接收多个录音子片段；

7.根据权利要求6所述的声音作品的生成装置，其特征在于，所述音效包括变声效果和场景音效，所述音效配置模块包括：

8.根据权利要求6所述的声音作品的生成装置，其特征在于，所述拼接处理模块包括：

9.根据权利要求8所述的声音作品的生成装置，其特征在于，所述音量协调性处理子模块包括：

10.根据权利要求9所述的声音作品的生成装置，其特征在于，所述双重增益平滑操作包括第一平滑处理过程和第二平滑处理过程，所述双重增益平滑操作单元包括：