CN110782866A

CN110782866A - 一种演唱声音转换器

Info

Publication number: CN110782866A
Application number: CN201910868874.1A
Authority: CN
Inventors: 杨宇娟; 王小侠; 曹鑫
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2020-02-11

Abstract

本发明公开了一种演唱声音转换器，属于音乐器械技术领域。演唱声音转换器包括：用户演唱***、音频识别***、即时合成器、人声音色库和播放器；用户演唱***，用于实时检测转换用户演唱歌曲的演唱声音，并将演唱声音发送给音频识别***；音频识别***，用于通过预设神经网络模型识别演唱声音，确定演唱声音的声音特征，并将声音特征发送给即时合成器；即时合成器，用于从人声音色库中确定出目标人声音色库，并根据声音特征，调用目标人声音色库中的音色，合成新演唱声音，并将新演唱声音发送给播放器。本发明可以在用户演唱歌曲的同时，即时合成新演唱声音，减少了合成前的计算时间，加快了合成新演唱声音的速度，保证了合成的及时性。

Description

一种演唱声音转换器

技术领域

本发明涉及音乐器械技术领域，特别涉及一种演唱声音转换器。

背景技术

在音乐演唱中，同一首歌有不同的唱法，不同的人对同一首歌也有不同的情感表达，有时需要将一个人演唱的声音转换为另一个人演唱的声音，而有时需要将一个人演唱的声音转换成不同的声音版本(如美声唱法、民族唱法等)。

现有技术中，***或变声软件往往是先采集并识别用户演唱声音的音频信号，然后再对识别到的音频信号进行处理，修改其音频特征，从而对识别到的音频信号进行转换，得到新的演唱声音。

然而，上述转换均是通过对音频信号的改变，实现对演唱声音的改变，依然会保留原始演唱声音的音频特征，不能对演唱声音进行很好的处理，演唱声音转换的准确率较低；另外，上述转换均是先识别用户演唱声音的音频信号，然后再进行演唱声音的转换，也即将音频识别和声音转换分开处理，无法进行即时转换，演唱声音转换的效率较低。

发明内容

为了解决相关技术中演唱声音转换的准确率较低和效率较低的问题，本发明实施例提供了一种演唱声音转换器，所述演唱声音转换器包括：用户演唱***、音频识别***、即时合成器、人声音色库和播放器；

所述用户演唱***，用于实时检测转换用户演唱歌曲的演唱声音，并将所述演唱声音发送给所述音频识别***；

所述音频识别***，用于通过预设神经网络模型识别所述演唱声音，确定所述演唱声音的声音特征，并将所述声音特征发送给所述即时合成器；

所述即时合成器，用于从所述人声音色库中确定出目标人声音色库，并根据所述声音特征，调用所述目标人声音色库中的音色，合成新演唱声音，并将所述新演唱声音发送给所述播放器；

所述播放器，用于实时播放所述新演唱声音。

可选地，所述实时检测转换用户演唱歌曲的演唱声音，并将所述演唱声音发送给所述音频识别***，包括：

每当检测到转换用户演唱歌曲的一个音频时，将所述一个音频确定为所述演唱声音，并将所述演唱声音发送给所述音频识别***；或者，

当检测到转换用户演唱歌曲的预设数值个音频时，将所述预设数值个音频确定为所述演唱声音，并将所述演唱声音发送给所述音频识别***。

可选地，所述通过预设神经网络模型识别所述演唱声音，确定所述演唱声音的声音特征，包括：

将所述演唱声音输入所述预设神经网络模型，并将所述预设神经网络模型的输出确定为所述演唱声音的声音特征。

可选地，所述通过预设神经网络模型识别所述演唱声音之前，还包括：

获取演唱声音集，通过所述演唱声音集对神经网络的参数进行训练，得到所述预设神经网络模型。

可选地，所述通过所述演唱声音集对神经网络的参数进行训练，得到所述预设神经网络模型，包括：

标注所述演唱声音集中的各个演唱声音的声音特征；

将所述演唱声音集中的各个演唱声音输入神经网络，根据所述神经网络的输出与标注的声音特征之间的差值，调整所述神经网络的参数；

当所述演唱声音集中的各个演唱声音输入所述神经网络后，所述神经网络的输出均与标注的声音特征之间的差值小于预设参数阈值时，将所述神经网络确定为所述预设神经网络模型。

可选地，所述声音特征包括音高和拼音，所述从人声音色库中确定出目标人声音色库之前，还包括：

用户预先录制汉语的所有拼音组合的第一预设声调对应的音色；

识别所述音色的音高是否为第一预设音高，如果所述音色的音高不是第一预设音高，则通过变速变调算法，将所述音色的音高调整为第一预设音高；

根据所述音色的音高和拼音的声调，通过预设算法扩展出第二预设音高和第二预设声调的音色，并标记每个音色的音高和拼音，生成一个所述人声音色库。

可选地，所述根据所述声音特征，调用目标人声音色库中的音色，合成新演唱声音，包括：

在所述目标人声音色库中查找所述声音特征；

当查找到所述声音特征时，调用所述声音特征对应的音色，合成新演唱声音。

可选地，所述在所述目标人声音色库中查找所述声音特征之后，还包括：

当无法查找到所述声音特征时，调用与所述声音特征相似度大于预设相似度阈值的音色，合成新演唱声音。

当无法查找到所述声音特征时，返回合成失败信号，并提示用户更新所述目标人声音色库。

本发明实施例提供的技术方案带来的有益效果是：

在本发明实施例中使用目标人声音色库中的音色代替转换用户的演唱声音，即同源替换，并不是通过对音频信号的改变实现对演唱声音的改变，转换用户的演唱声音可以被彻底的过滤，提高了合成新演唱声音的准确率；另外，本发明中是预先生成覆盖所有拼音和音高的音色，不需要即时进行变速变调生成新的音色，因而在用户演唱歌曲的同时，可以即时调用预先生成的音色，即时合成新演唱声音，不需要等到用户演唱完毕，再进行合成，减少了合成前的计算时间，加快了合成新演唱声音的速度，即提高了合成新演唱声音的效率，保证了合成的及时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种演唱声音转换器的结构框图；

图2是本发明实施例提供的一种录制人声音色库的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了便于理解，在对本发明实施例进行详细的解释说明之前，先对本发明实施例涉及的应用场景进行介绍。

随着音乐器械技术的快速发展，人们经常会使用***或变声软件进行演唱声音转换。目前，***或变声软件往往是先采集并识别用户演唱声音的音频信号，然后再对识别到的音频信号进行处理，修改其音频特征，从而对识别到的音频信号进行转换，得到新的演唱声音，如此依然会保留原始演唱声音的音频特征，不能对演唱声音进行很好的处理，演唱声音转换的准确率较低，且由于是将音频识别和声音转换分开处理，无法进行即时转换，因而导致演唱声音转换的效率也较低。为此，本发明提供了一种演唱声音转换器，来提高演唱声音转换的准确率和效率。

接下来将结合附图1-附图2对本发明实施例提供的演唱声音转换器进行详细介绍。

图1是本发明实施例提供的一种演唱声音转换器的结构框图。参见图1，演唱声音转换器包括：用户演唱***、音频识别***、即时合成器、人声音色库和播放器；其中，用户演唱***，用于实时检测转换用户演唱歌曲的演唱声音，并将该演唱声音发送给音频识别***；音频识别***，用于通过预设神经网络模型识别该演唱声音，确定该演唱声音的声音特征，并将该声音特征发送给即时合成器；即时合成器，用于从人声音色库中确定出目标人声音色库，并根据该声音特征，调用目标人声音色库中的音色，合成新演唱声音，并将该新演唱声音发送给播放器；播放器，用于实时播放该新演唱声音。

进一步地，用户演唱***实时检测转换用户演唱歌曲的演唱声音，并将该演唱声音发送给音频识别***的具体工作过程可以为：每当检测到转换用户演唱歌曲的一个音频时，用户演唱***将该一个音频确定为演唱声音，并将该演唱声音发送给音频识别***；或者，当检测到转换用户演唱歌曲的预设数值个音频时，用户演唱***将该预设数值个音频确定为演唱声音，并将该演唱声音发送给音频识别***。

其中，转换用户是指需要进行演唱声音转换的用户；预设数值可以预先进行设置，本发明对此不作限制，例如预设数值可以为5、10、15等，此时用户演唱***可以将检测到的5个音频作为演唱声音一起发送给音频识别***。

另外，用户演唱***实时检测转换用户演唱歌曲的演唱声音，并将该演唱声音发送给音频识别***的具体工作过程还可以为：用户演唱***将检测到的连续音频确定为演唱声音，并发送给音频识别***。具体地，用户演唱***一直检测转换用户演唱歌曲的音频，当用户演唱***在预设时长内未检测到任何音频时，将该预设时长之前检测到的连续音频确定为演唱声音，并发送给音频识别***。

需要说明的是，歌曲往往会分为很多小句，转换用户在演唱时会依次演唱每个小句，且演唱每个小句之间均会间隔一定时长，因而用户演唱***可以当检测到完整的一小句后，再将该小句确定为演唱声音发送给音频识别***。

进一步地，音频识别***通过预设神经网络模型识别该演唱声音，确定该演唱声音的声音特征的具体工作过程可以为：音频识别***将该演唱声音输入预设神经网络模型，并将该预设神经网络模型的输出确定为该演唱声音的声音特征。具体地，音频识别***可以将演唱声音的自相关系数、功率谱密度函数、傅里叶变换频域(包含虚部)等参数输入预设神经网络模型，该预设神经网络模型输出的音高和拼音等，即为该演唱声音的声音特征。

需要说明的是，神经网络模型是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型，由大量的节点(或称神经元)相互联接构成，这种网络模型依靠***的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的，并具有自学习和自适应的能力。

还需要说明的是，本发明中的预设神经网络模型中可以包括有CNN(Convolutional Neural Network，卷积神经网络)和/或RNN(Recurrent Neural Network，循环神经网络)，也就是说，本发明中可以单独通过CNN对演唱声音进行识别，也可以单独通过RNN对演唱声音进行识别，还可以通过CNN和RNN相结合对演唱声音进行识别，当演唱声音的声音特征包括音高和拼音时，CNN可以用于对共振峰和音高特征进行识别，RNN可以用于对拼音进行识别。

进一步地，在通过预设神经网络模型识别演唱声音之前，音频识别***还可以先获取演唱声音集，通过该演唱声音集对神经网络的参数进行训练，以得到该预设神经网络模型。具体地，音频识别***可以标注该演唱声音集中的各个演唱声音的声音特征，并将该演唱声音集中的各个演唱声音输入神经网络，根据该神经网络的输出与标注的声音特征之间的差值，调整该神经网络的参数，当该演唱声音集中的各个演唱声音输入该神经网络后，该神经网络的输出均与标注的声音特征之间的差值小于预设参数阈值时，将该神经网络确定为预设神经网络模型。

其中，预设参数阈值是判断神经网络参数训练程度的一个标准，该预设参数阈值可以预先进行设置，其值越小，最后训练出的预设神经网络模型识别演唱声音的准确率就越高。另外，为了保证预设神经网络模型识别演唱声音的准确率，需要大量的演唱声音对神经网络进行训练，也即，用于训练神经网络的演唱声音集中应该包含有大量的演唱声音，且该演唱声音集中包含的演唱声音越多，最后训练出的预设神经网络模型识别演唱声音的准确率就越高。

进一步地，声音特征可以包括有音高和拼音，即时合成器从人声音色库中确定出目标人声音色库之前，还可以先录制人声音色库。参见图2，录制人声音色库的具体操作过程可以为：用户预先录制汉语的所有拼音组合的第一预设声调对应的音色，识别该音色的音高是否为第一预设音高，如果该音色的音高不是第一预设音高，则通过变速变调算法，将该音色的音高调整为第一预设音高，然后再根据该音色的音高和拼音的声调，通过预设算法扩展出第二预设音高和第二预设声调的音色，并标记每个音色的音高和拼音，以生成一个人声音色库。

其中，预设算法可以为PSOLA(Pitch Synchronous OverLap-and-Add，基音同步叠加)算法，PSOLA算法的相关原理和具体工作过程可以参考现有技术，本发明在此不做详细赘述。

需要说明的是，即时合成器需要从人声音色库中确定出目标人声音色库，然后根据声音特征，调用目标人声音色库中的音色，因而在此之前，即时合成器必须要先获取到人声音色库，此时可以由即时合成器预先录制并存储人声音色库；或者，还可以由其他计算机设备预先录制人声音色库，然后即时合成器直接从其他计算机设备中获取录制好的人声音色库。

另外，即时合成器上可以预先存储有多个人声音色库，每个人声音色库均标注有演唱者的信息和演唱法信息，然后即时合成器可以根据用户的选择确定出对应的目标人声音色库。

再者，目标人声音色库是指目标用户录制的音色库，以实现将转换用户的演唱声音转换为目标用户的演唱声音。由于一个用户在演唱一首歌时，可以使用不同的演唱方法(如美声唱法、民族唱法等)，因而用户可以预先录入自己不同唱法的音色库，此时目标用户和转换用户为同一个人，目标人声音色库为该用户不同唱法的音色库。另外，一些缺乏足够演唱技巧的人，可以使用其他人的声音来替代自己的演唱声音，以美化自己的演唱声音，此时目标用户和转换用户不是同一个人，目标人声音色库是目标用户录制的音色库。

还需要说明的是，汉语的所有拼音组合是指所有声母和韵母进行左右组合；另外，由于汉语拼音中每个拼音均存在4个声调，如果用户录制每个拼音包含的所有声调，会费时费力，因而本发明中用户仅需录制每个拼音的第一预设声调，后续再扩展出第二预设声调的拼音。并且，由于每个声音均存在许多音高，如果用户录制每个拼音的所有音高，会费时费力，且不同用户的音乐基础并不相同，因而不能很好的把握录音时的音高，此时可以由即时合成器或计算机设备判断用户录入的音高是否为第一预设音高，如果不是，则可以对其进行规范调整，将其调整到第一预设音高，后续再扩展出第二预设音高的拼音。

也就是说，第一预设声调可以预先进行设置，其为用户在录制每个拼音时选择的一个声调，例如，预设声调可以为一声。第一预设音高也可以预先进行设置，其为用户在录制每个拼音时选择的一个音高，例如，第一预设音高可以为中央C。第二预设音高也可以预先进行设置，其为需要扩展出的音高，例如，第二预设音高可以为音高A、音高B。第二预设声调也可以预先进行设置，其为需要扩展出的声调，例如，第二预设声调可以为二声、三声、四声。

例如，第一预设声调为一声，第一预设音高为中央C，第二预设音高为音高A、音高B，第二预设声调为二声、三声、四声，假设要录制拼音hao，则用户先录入中央C、一声的hao，然后扩展出音高A、一声的hao，音高A、二声的hao，音高A、三声的hao，音高A、四声的hao，音高B、一声的hao，音高B、二声的hao，音高B、三声的hao，音高B、四声的hao，中央C、二声的hao，中央C、三声的hao，中央C、四声的hao，并对扩展出的每个hao的音高和拼音进行标记。

进一步地，即时合成器从人声音色库中确定出目标人声音色库的具体操作过程可以为：即时合成器根据用户选择的演唱者信息和演唱法信息，从即时合成器存储的多个人声音色库中确定出对应的目标人声音色库。

进一步地，即时合成器根据声音特征，调用目标人声音色库中的音色，合成新演唱声音的具体操作过程可以为：即时合成器在该目标人声音色库中查找该声音特征，当查找到该声音特征时，调用该声音特征对应的音色，合成新演唱声音。

例如，声音特征为音高A、三声的hao，音高B、四声的duo，音高A、二声的hua，用户选择的演唱者信息和演唱法信息为用户A美声唱法，此时，即时合成器在其存储的多个人声音色库中找到用户A美声唱法对应的人声音色库，在该音色库中分别查找上述声音特征，并调用对应的音色，将其合成新演唱声音。

另外，当即时合成器在目标人声音色库中无法查找到该声音特征时，可以调用与该声音特征相似度大于预设相似度阈值的音色，合成新演唱声音；或者，可以返回合成失败信号，并提示用户更新目标人声音色库。

其中，相似度阈值可以预先进行设置，用于判断两个声音特征之间的相似度，当两个声音特征之间的相似度小于相似度阈值时，说明该两个声音特征较为相似，因而其对应的音色也较为相似。

需要说明的是，由于汉语拼音的组合相对来说比较多，用户在录制时可能会遗漏某个拼音组合，且每个用户在念每个拼音时的发音可能并不完全相同，如果识别错误，则可能会遗落原本要录入的拼音组合，从而可能会导致后续即时合成器无法在目标人声音色库中查找到相应的音色。本发明中当即时合成器无法在目标人声音色库中查找到演唱声音对应的声音特征时，可以调用与该声音特征相似的声音特征对应的音色；也可以返回合成失败信号，并提示用户更新目标人声音色库；还可以调用与该声音特征相似的声音特征对应的音色，合成新演唱声音后，再提示用户更新目标人声音色库，如此当目标人声音色库中的音色不完整时，也可以正常进行即时合成，提高了合成新演唱声音的成功率，且可以使用户及时获知目标人声音色库不完整，及时进行更新。

例如，演唱声音对应的声音特征是中央C、一声的shen，中央C、一声的yin，但即时合成器无法在目标人声音色库中查找到该声音特征，此时即时合成器确定与该声音特征的相似度小于相似度阈值的声音特征为中央C、一声的sheng，中央C、一声的yin，此时即时合成器可以调用该声音特征为C、一声的sheng，中央C、一声的yin对应的音色，合成新演唱声音，合成完成后，提示用户更新目标人声音色库。

值得说明的是，本发明中是使用目标人声音色库中的音色代替转换用户的演唱声音，即同源替换，并不是通过对音频信号的改变实现对演唱声音的改变，转换用户的演唱声音可以被彻底的过滤，提高了合成新演唱声音的准确率；另外，本发明中是预先生成覆盖所有拼音和音高的音色，不需要即时进行变速变调生成新的音色，因而在用户演唱歌曲的同时，可以即时调用预先生成的音色，即时合成新演唱声音，不需要等到用户演唱完毕，再进行合成，减少了合成前的计算时间，加快了合成新演唱声音的速度，即提高了合成新演唱声音的效率，保证了合成的及时性。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种演唱声音转换器，其特征在于，所述演唱声音转换器包括：用户演唱***、音频识别***、即时合成器、人声音色库和播放器；

所述播放器，用于实时播放所述新演唱声音。

2.根据权利要求1所述的演唱声音转换器，其特征在于，所述实时检测转换用户演唱歌曲的演唱声音，并将所述演唱声音发送给所述音频识别***，包括：

3.根据权利要求1所述的演唱声音转换器，其特征在于，所述通过预设神经网络模型识别所述演唱声音，确定所述演唱声音的声音特征，包括：

4.根据权利要求1所述的演唱声音转换器，其特征在于，所述通过预设神经网络模型识别所述演唱声音之前，还包括：

5.根据权利要求4所述的演唱声音转换器，其特征在于，所述通过所述演唱声音集对神经网络的参数进行训练，得到所述预设神经网络模型，包括：

标注所述演唱声音集中的各个演唱声音的声音特征；

6.根据权利要求1所述的演唱声音转换器，其特征在于，所述声音特征包括音高和拼音，所述从人声音色库中确定出目标人声音色库之前，还包括：

7.根据权利要求1所述的演唱声音转换器，其特征在于，所述根据所述声音特征，调用目标人声音色库中的音色，合成新演唱声音，包括：

在所述目标人声音色库中查找所述声音特征；

8.根据权利要求7所述的演唱声音转换器，其特征在于，所述在所述目标人声音色库中查找所述声音特征之后，还包括：

9.根据权利要求7所述的演唱声音转换器，其特征在于，所述在所述目标人声音色库中查找所述声音特征之后，还包括：