CN108053814A

CN108053814A - 一种模拟用户歌声的语音合成***及方法

Info

Publication number: CN108053814A
Application number: CN201711079095.0A
Authority: CN
Inventors: 孟猛
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2018-05-18
Anticipated expiration: 2037-11-06
Also published as: CN108053814B

Abstract

本发明公开了一种模拟用户歌声的语音合成***及方法，属于语音模拟技术领域；其原理在于：获取外部输入的用户正常说话语音并转换成发音文本，根据发音文本形成音子序列；根据音子序列处理得到基本音子的原始时段信息；将基本音子的原始时段信息调整为对应曲谱信息的节拍时段信息；针对基本音子比较原始时段信息和节拍时段信息，并根据判断结果相应调整基本音子的语音合成参数；根据基本音子的经过调整的语音合成参数以及发音文本，形成模拟用户歌声的合成语音并输出。上述技术方案的有益效果是：无需建模就能模拟用户唱歌，提高语音模拟的效率，达到近乎实时反馈的效果，保留用户的音色信息，细节丰富，效果逼真，由此提升了用户体验。

Description

一种模拟用户歌声的语音合成***及方法

技术领域

本发明涉及语音模拟技术领域，尤其涉及一种模拟用户歌声的语音合成***及方法。

背景技术

随着语音合成技术的不断发展，越来越多的应用软件开始采用语音合成技术来模拟人的说话内容，例如采用语音合成技术模拟人说话的内容以得到“学舌”的目的，或者采用语音合成技术来模拟人唱歌等与普通说话场景不同的语音。

具体地，现有技术中，在模拟用户唱歌的场景中，通常的做法是采用语音合成数据库中固有的音色来生成歌曲，并且需要对用户的音色信息进行建模，采用音色变换技术在歌曲固有音色的基础上实现用户声音的歌声效果。这种做法的缺陷主要在于：

1.需要事先对用户的音色信息进行建模，使得语音合成的过程比较复杂；

2.需要根据构建的模型来实现用户声音的变换，从而得到合成的歌声，其处理速度较慢，处理效率低，无法实现实时处理并输出歌声的效果；

3.采用合成器数据库中固有的音色信息来实现语音合成和模拟的方式无法保留用户本身的音色特征，使得语音模拟的结果比较呆板，模拟效果与实际音色不符。

发明内容

根据现有技术中存在的上述问题，现提供一种模拟用户歌声的语音合成***及方法的技术方案，直接将用户正常说话时的说话声音转换成某种曲调的唱歌声，旨在提高语音模拟的效率，达到近乎实时反馈给用户唱歌的效果，并且保留用户的音色信息，合成的语音细节丰富，效果逼真，由此提升了用户体验。

上述技术方案具体包括：

一种模拟用户歌声的语音合成***，适用于语音模拟应用中；其中，包括：

第一获取单元，用于获取外部输入的用户正常说话时的用户语音；

第一转换单元，连接所述第一获取单元，用于将所述用户语音转换成对应的发音文本，以及根据所述发音文本形成对应的包括基本音子的音子序列；

第一处理单元，连接所述第一转换单元，用于根据所述音子序列处理得到每个所述基本音子对应的原始时段信息，所述原始时段信息用于表示每个所述基本音子在所述用户语音中的起止时间；

第一合成单元，分别连接所述第一获取单元和所述第一处理单元，用于根据所述用户语音的基频信息以及每个所述基本音子的所述原始时段信息分别处理得到所述用户语音每个所述基本音子的语音合成参数；

第二获取单元，用于获取一预设的目标歌曲中的曲谱信息；

第二处理单元，分别连接所述第一处理单元和所述第二获取单元，用于将每个所述基本音子的所述原始时段信息分别调整为对应所述曲谱信息的节拍时段信息，所述节拍时段信息用于表示每个所述基本音子在所述目标歌曲中对应的节拍中的起止时间；

第二合成单元，分别连接所述第一合成单元和所述第二处理单元，用于针对每个所述基本音子比较所述原始时段信息和所述节拍时段信息，并根据判断结果相应调整每个所述基本音子的所述语音合成参数；

语音模拟单元，分别连接所述第二合成单元、第二获取单元和所述第一转换单元，用于根据每个所述基本音子的经过调整的所述语音合成参数以及所述发音文本，形成模拟用户歌声的合成语音并输出。

优选的，该语音合成***，其中，所述第一处理单元采用维特比方法分别处理得到每个所述基本音子的所述原始时段信息。

优选的，该语音合成***，其中，所述曲谱信息中包括对应的所述目标歌曲的节拍信息，所述节拍信息用于表示对应的所述目标歌曲中每一节拍的时间信息，于一个所述节拍中包括一个或多个所述基本音子；

则所述第二处理单元根据所述节拍信息，分别将每个所述基本音子的所述原始时段信息调整为用于表示所述基本音子在所述目标歌曲中覆盖的节拍数目所对应的时间的节拍时段信息。

优选的，该语音合成***，其中，所述第二合成单元具体包括：

判断模块，用于分别将每个所述基本音子的所述原始时段信息与所述节拍时段信息进行比较，并输出相应的比较结果；

第一处理模块，连接所述判断模块，用于根据所述比较结果：

在所述比较结果表示所述原始时段信息表示的时间长度短于所述节拍时段信息表示的时间长度时，对所述基本音子对应的所述语音合成参数执行时间域上的插值处理，以得到对应所述基本音子的经过调整的所述语音合成参数；以及

在所述比较结果表示所述原始时段信息表示的时间长度长于所述节拍时段信息表示的时间长度时，对所述基本音子对应的所述语音合成参数执行时间域上的抽减处理，以得到对应所述基本音子的经过调整的所述语音合成参数。

优选的，该语音合成***，其中，所述第二合成单元中还包括：

第二处理模块，连接所述第一处理模块，用于对所述基本音子的所述语音合成参数进行调整之后，对所述语音合成参数进行平滑处理。

优选的，该语音合成***，其中，所述目标歌曲的所述曲谱信息中还包括用于所述目标歌曲的每个音符的曲调信息；

所述语音模拟单元中包括：

基频替换模块，用于采用所述曲调信息分别替换每个所述基本音子的所述语音合成参数中的基频信息；

语音模拟模块，连接所述基频替换模块，用于根据经过替换的所述语音合成参数和所述发音文本，形成模拟用户歌声的所述合成语音并输出。

一种模拟用户歌声的语音合成方法，适用于语音模拟应用中；其中，预先获取一预设的目标歌曲的曲谱信息，还包括：

步骤S1，获取外部输入的用户正常说话时的用户语音，并将所述用户语音转换成对应的发音文本，以及根据所述发音文本形成对应的包括基本音子的音子序列；

步骤S2，根据所述音子序列处理得到每个所述基本音子对应的原始时段信息，所述原始时段信息用于表示每个所述基本音子在所述用户语音中的起止时间；

步骤S3，将每个所述基本音子的所述原始时段信息分别调整为对应所述曲谱信息的节拍时段信息，所述节拍时段信息用于表示每个所述基本音子在所述目标歌曲中对应的节拍中的起止时间；

步骤S4，针对每个所述基本音子比较所述原始时段信息和所述节拍时段信息，并根据判断结果相应调整每个所述基本音子的所述语音合成参数；

步骤S5，根据每个所述基本音子的经过调整的所述语音合成参数以及所述发音文本，形成模拟用户歌声的合成语音并输出。

优选的，该语音合成方法，其中，所述曲谱信息中包括对应的所述目标歌曲的节拍信息，所述节拍信息用于表示对应的所述目标歌曲中每一节拍的时间信息，于一个所述节拍中包括一个或多个所述基本音子；

则所述步骤S3中，根据所述节拍信息，分别将每个所述基本音子的所述原始时段信息调整为用于表示所述基本音子在所述目标歌曲中覆盖的节拍数目所对应的时间的所述节拍时段信息。

优选的，该语音合成方法，其中，所述步骤S4具体包括：

步骤S41，分别将每个所述基本音子的所述原始时段信息与所述节拍时段信息进行比较：

若所述基本音子的所述原始时段信息大于所述节拍时段信息，则转向步骤S42；

若所述基本音子的所述原始时段信息小于所述节拍时段信息，则转向步骤S43；

步骤S42，对所述基本音子对应的所述语音合成参数执行时间域上的插值处理，以得到对应所述基本音子的经过调整的所述语音合成参数，随后转向步骤S44；

步骤S43，对所述基本音子对应的所述语音合成参数执行时间域上的抽减处理，以得到对应所述基本音子的经过调整的所述语音合成参数，随后转向步骤S44；

步骤S44，对经过调整的所述语音合成参数做平滑处理，随后转向所述步骤S5。

优选的，该语音合成方法，其中，所述目标歌曲的所述曲谱信息中还包括用于所述目标歌曲的每个音符的曲调信息；

则所述步骤S5具体包括：

步骤S51，采用所述曲调信息分别替换每个所述基本音子的所述语音合成参数中的基频信息；

步骤S52，根据经过替换的所述语音合成参数和所述发音文本，形成模拟用户歌声的所述合成语音并输出。

上述技术方案的有益效果是：

1)提供一种模拟用户歌声的语音合成***，无需建模就能根据用户正常说话的语音形成模拟用户唱歌的用户歌声，能够提高语音模拟的效率，达到近乎实时反馈给用户唱歌的效果，并且保留用户的音色信息，合成的语音细节丰富，效果逼真，由此提升了用户体验。

2)提供一种模拟用户歌声的语音合成方法，能够支持上述语音合成***正常运行。

附图说明

图1是本发明的较佳的实施例中，一种模拟用户歌声的语音合成***的总体结构示意图；

图2是本发明的较佳的实施例中，对基本音子按照节拍信息进行调整的示意图；

图3是本发明的较佳的实施例中，于图1的基础上，第二合成单元的具体结构示意图；

图4是本发明的较佳的实施例中，于图1的基础上，语音模拟单元的具体结构示意图；

图5是本发明的较佳的实施例中，一种模拟用户歌声的语音合成方法的总体流程示意图；

图6是本发明的较佳的实施例中，于图5的基础上，对基本音子的语音合成参数进行调整的流程示意图；

图7是本发明的较佳的实施例中，于图5的基础上，形成合成语音的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

基于现有技术中存在的上述问题，现提供一种模拟用户歌声的语音合成***，该***适用于语音模拟应用中，所谓语音模拟应用，是一种通过模拟用户说话或者唱歌等以达到“学舌”目的的应用程序，这种应用程序通常多见于移动终端或者计算机终端内。

则本发明的较佳的实施例中，上述模拟用户歌声的语音合成***具体如图1所示，包括：

第一获取单元1，用于获取外部输入的用户正常说话时的用户语音；

第一转换单元2，连接第一获取单元1，用于将用户语音转换成对应的发音文本，以及根据发音文本形成对应的包括基本音子的音子序列；

第一处理单元3，连接第一转换单元2，用于根据音子序列处理得到每个基本音子对应的原始时段信息，原始时段信息用于表示每个基本音子在用户语音中的起止时间；

第一合成单元4，分别连接第一获取单元1和第一处理单元3，用于根据用户语音的基频信息以及每个基本音子的原始时段信息分别处理得到用户歌声每个基本音子的语音合成参数；

第二获取单元5，用于获取用户歌声对应的目标歌曲中的曲谱信息；

第二处理单元6，分别连接第一处理单元3和第二获取单元5，用于将每个基本音子的原始时段信息分别调整为对应曲谱信息的节拍时段信息，节拍时段信息用于表示每个基本音子在目标歌曲中对应的节拍中的起止时间；

第二合成单元7，分别连接第一合成单元4和第二处理单元6，用于针对每个基本音子比较原始时段信息和节拍时段信息，并根据判断结果相应调整每个基本音子的语音合成参数；

语音模拟单元8，分别连接第二合成单元7、第二获取单元5和第一转换单元2，用于根据每个基本音子的经过调整的语音合成参数以及发音文本，形成模拟用户歌声的合成语音并输出。

具体地，本实施例中，上述第一获取单元1获取用户输入的用户正常说话时的用户语音，该用户语音即采集用户正常说话时所发出的声音得到。上述第一获取单元1可以连接例如移动终端的拾音设备，拾音设备在用户说话的过程中采集到用户语音并被第一获取单元1所获取，随后送入第一转换单元2中。第一转换单元2将上述用户语音转换成对应的发音文本，转换方式依据现有技术中的语音转换文本的方式进行在此不再赘述。

随后，第一转换单元2根据上述发音文本，将其转换成对应的音子序列。该音子序列中包括依序排列的基本音子。将发音文本中的每个文字转换成对应的基本音子可依照现有技术中的音子转换表格进行。例如汉语的发音文本可以依照汉语音子(音标)对照表格进行，英语的发音文本可以依照英语音子(音标)对照表格进行，在此不再赘述。

当转换得到音子序列之后，根据该音子序列以及用户语音，可以采用维特比(Veterbi)方法处理得到每个基本音子在用户语音中的原始时段信息，该原始时段信息用于表示对应的基本音子在用户语音中的起止时间，即可以表示对应的基本音子在用户语音中所占用的时段。因此上述原始时段信息中可以包括基本音子的起始时刻和终止时刻，即采用一个基本音子的起始时刻和终止时刻来表示该基本音子在用户歌声中所占用的时段。上述第一处理单元3中采用上述方法分别获得每个基本音子的原始时段信息。

本实施例中，同时根据上述输入的用户语音，采用基于参数的语音合成技术对用户语音中的各个部分提取语音合成参数，该语音合成参数中包括用户声音的基频信息以及其他语音合成所需的参数信息，例如频率谱包络信息、非周期性信息，或者其他某一声码器所需要参数信息等。

本实施例中，上述第二获取单元5用于获取一预设的目标歌曲的曲谱信息。具体地，上述目标歌曲为用户所期望其歌声能够匹配的目标歌曲，可以事先设定多首歌曲在语音模拟应用中，当用户要输入用户语音到应用中时，可以通过选中一首事先被设定的歌曲为目标歌曲并作为伴奏的方式进行，换言之，上述第二获取单元5所获取的曲谱信息事先就被设定在应用中，无需采用额外的采集方式获取。

本实施例中，随后，上述第二处理单元6根据上述曲谱信息，将每个基本音子的原始时段信息调整为节拍时段信息，以使每个基本音子与目标歌曲的节拍相契合，上述节拍时段信息用于表示每个基本音子在目标歌曲中对应的节拍中的起止时间。

最后，本实施例中，上述第二合成单元7根据每个基本音子的原始时段信息和节拍时段信息对每个基本音子的语音合成参数进行调整。上述语音模拟单元8最终根据经过调整的语音合成参数以及上述转换形成的发音文本对用户歌声进行模拟，以形成合成语音并输出，达到对用户歌声进行模拟的目的。

本发明的较佳的实施例中，曲谱信息中包括对应的目标歌曲的节拍信息，节拍信息用于表示对应的目标歌曲中每一节拍的时间信息，于一个节拍中包括一个或多个基本音子；

则第二处理单元6根据节拍信息，分别将每个基本音子的原始时段信息调整为用于表示基本音子在目标歌曲中覆盖的节拍数目所对应的时间的节拍时段信息。

具体地，本实施例中，在一首目标歌曲中，一个基本音子(也即一个发音单元)可以覆盖一个节拍或者多个节拍，也可以仅覆盖一个节拍的一部分。反之，一个节拍中可以包括一个基本音子或者多个基本音子，上述节拍信息就用于表示目标歌曲的标准唱法中，每个基本音子所覆盖的节拍数目。因此，上述第二处理单元6可以根据上述节拍信息，将每个基本音子的原始时段信息分别调整为适配于目标歌曲的节拍时段信息，该节拍时段信息用于表示每个基本音子所持续的总的节拍时间，该节拍时间可以通过节拍数目来表示。

具体地，如图2中所示，第一行为第一处理单元3处理形成的基本音子的原始时段信息。图2中Phone1-4用于表示基本音子，其中的每一个方块可以理解为一个节拍，或者节拍的一个基本组成部分。第二行为第二处理单元6处理得到的基本音子的节拍时段信息。从图2中可以看到，经过调整之后，每个基本音子均被对齐到了目标歌曲的节拍上。

本发明的较佳的实施例中，如图3中所示，上述第二合成单元7具体包括：

判断模块71，用于分别将每个基本音子的原始时段信息与节拍时段信息进行比较，并输出相应的比较结果；

第一处理模块72，连接判断模块71，用于根据比较结果：

在比较结果表示原始时段信息表示的时间长度短于节拍时段信息表示的时间长度时，对基本音子对应的语音合成参数执行时间域上的插值处理，以得到对应基本音子的经过调整的语音合成参数；以及

在比较结果表示原始时段信息表示的时间长度长于节拍时段信息表示的时间长度时，对基本音子对应的语音合成参数执行时间域上的抽减处理，以得到对应基本音子的经过调整的语音合成参数。所谓抽减处理，是指以基本相同的时间间隔删除掉多出来的时间帧。

具体地，本实施例中，上述第二合成单元7对基本音子的语音合成参数做调整的具体原理可以为：

首先采用上述判断模块71对基本音子的原始时段信息和节拍时段信息进行比较，以判断基本音子在时段信息调整前后的状况。随后采用上述第一处理模块72根据判断模块71的判断结果对基本音子对应的语音合成参数做调整。具体为：

当基本音子的原始时段信息的时间长度短于节拍时段信息的时间长度，即经过调整后基本音子所占用的时间变长了(如图2中所示的Phone1和3)，此时第一处理模块72对基本音子对应的语音合成参数做时间域上的插值处理，以对其进行调整。所谓插值处理，可以直接采用复制的方式，对某些时间帧进行重复使用达到插值的效果，也可以采用线形插值的方式得到相邻时间帧之间的新增语音合成参数帧。

当基本音子的原始时段信息的时间长度长于节拍时段信息的时间长度，即经过调整后基本音子所占用的时间变短了(如图2中所示的Phone2)，此时第一处理模块72对基本音子对应的语音合成参数做时间域上的抽减处理，以对其进行调整。

当然，当基本音子的原始时段信息的时间长度与节拍时段信息的时间长度相等，即调整前后基本音子所占用的时间保持不变(如图2中所示的Phone4)，此时第一处理模块72也不对基本音子对应的语音合成参数做任何调整。

本发明的较佳的实施例中，仍然如图3中所示，上述第二合成单元7中还包括：

第二处理模块73，连接第一处理模块72，用于对基本音子的语音合成参数进行调整之后，可以参考基于隐马尔科夫模型的参数合成技术中的基于差分的动态特征生成平滑参数的过程对语音合成参数进行平滑处理。

具体地，本实施例中，为了保证调整后的基本音子在时间上是平滑的，不存在突兀的基本音子，则在对基本音子的语音合成参数进行调整之后，需要对其进行平滑处理，以保证所有基本音子的语音合成参数在时间上的平滑度。

本发明的较佳的实施例中，上述目标歌曲的曲谱信息中还包括用于目标歌曲的每个音符的曲调信息；

则如图4中所示，上述语音模拟单元8中包括：

基频替换模块81，用于采用曲调信息分别替换每个基本音子的语音合成参数中的原始用户语音的基频信息；

语音模拟模块82，连接基频替换模块81，用于根据经过替换的语音合成参数和发音文本，形成模拟用户歌声的合成语音并输出。

具体地，本实施例中，上述第二获取单元5获取的曲谱信息中包括用于表示目标歌曲中每一个音符的曲调信息，该曲调信息主要用于表示音符的音准，采用曲调信息对用户语音进行节奏和音调的修改，以使得模拟出的语音契合于目标歌曲，不至于出现走音的情况。

则上述基频替换模块81采用上述曲调信息替换掉原本语音合成参数中用户的基频信息并相应调整用户语音中每个发音单元的时间长度，使其拟合目标曲谱中的节拍，但是由于表达用户的音色信息的其他语音合成参数不作修改，因此用户的音色基本没有改变，最后通过语音模拟模块82得到的就是用户原本的歌声。

综上，本发明技术方案中，采用上述方式对用户歌声进行模拟，可以得到发音时长和发音腔调都与用户完全一致的合成语音，而该合成语音的音色仍然是用户本来的音色。这样既保留了用户自身音色的独立性，又完成了模仿用户唱歌的互动，并且模拟速度非常快，能够达到近乎实时模拟的程度，从而给用户带来一种完全不同的用户体验。

本发明的较佳的实施例中，基于上文中所述的语音合成***，现提供一种模拟用户歌声的语音合成方法，该方法同样适用于语音模拟应用中。

该方法中，预先获取用户唱歌时对应的目标歌曲的曲谱信息，并且执行如图5中所示的下述步骤，具体包括：

步骤S1，获取外部输入的用户正常说话的声音，并将用户语音转换成对应的发音文本，以及根据发音文本形成对应的包括基本音子的音子序列；

步骤S2，根据音子序列处理得到每个基本音子对应的原始时段信息，原始时段信息用于表示每个基本音子在用户语音中的起止时间；

步骤S3，将每个基本音子的原始时段信息分别调整为对应曲谱信息的节拍时段信息，节拍时段信息用于表示每个基本音子在目标歌曲中对应的节拍中的起止时间；

步骤S4，针对每个基本音子比较原始时段信息和节拍时段信息，并根据判断结果相应调整每个基本音子的语音合成参数；

步骤S5，根据每个基本音子的经过调整的语音合成参数以及发音文本，形成模拟用户歌声的合成语音并输出。

则步骤S3中，根据节拍信息，分别将每个基本音子的原始时段信息调整为用于表示基本音子在目标歌曲中覆盖的节拍数目所对应的时间的节拍时段信息。

本发明的较佳的实施例中，如图6中所示，上述步骤S4进一步包括：

步骤S41，分别将每个基本音子的原始时段信息与节拍时段信息进行比较：

若基本音子的原始时段信息大于节拍时段信息，则转向步骤S42；

若基本音子的原始时段信息小于节拍时段信息，则转向步骤S43；

步骤S42，对基本音子对应的语音合成参数执行时间域上的插值处理，以得到对应基本音子的经过调整的语音合成参数，随后转向步骤S44；

步骤S43，对基本音子对应的语音合成参数执行时间域上的抽减处理，以得到对应基本音子的经过调整的语音合成参数，随后转向步骤S44；

步骤S44，对经过调整的语音合成参数做平滑处理，随后转向步骤S5。

则如图7所示，上述步骤S5进一步包括：

步骤S51，采用曲调信息分别替换每个基本音子的语音合成参数中的基频信息；

步骤S52，根据经过替换的语音合成参数和发音文本，形成模拟用户歌声的合成语音并输出。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种模拟用户歌声的语音合成***，适用于语音模拟应用中；其特征在于，包括：

第二获取单元，用于获取一预设的目标歌曲中的曲谱信息；

2.如权利要求1所述的语音合成***，其特征在于，所述第一处理单元采用维特比方法分别处理得到每个所述基本音子的所述原始时段信息。

3.如权利要求1所述的语音合成***，其特征在于，所述曲谱信息中包括对应的所述目标歌曲的节拍信息，所述节拍信息用于表示对应的所述目标歌曲中每一节拍的时间信息，于一个所述节拍中包括一个或多个所述基本音子；

4.如权利要求1所述的语音合成***，其特征在于，所述第二合成单元具体包括：

5.如权利要求4所述的语音合成***，其特征在于，所述第二合成单元中还包括：

6.如权利要求1所述的语音合成***，其特征在于，所述目标歌曲的所述曲谱信息中还包括用于所述目标歌曲的每个音符的曲调信息；

所述语音模拟单元中包括：

7.一种模拟用户歌声的语音合成方法，适用于语音模拟应用中；其特征在于，预先获取一预设的目标歌曲的曲谱信息，还包括：

8.如权利要求7所述的语音合成方法，其特征在于，所述曲谱信息中包括对应的所述目标歌曲的节拍信息，所述节拍信息用于表示对应的所述目标歌曲中每一节拍的时间信息，于一个所述节拍中包括一个或多个所述基本音子；

9.如权利要求7所述的语音合成方法，其特征在于，所述步骤S4具体包括：

10.如权利要求7所述的语音合成方法，其特征在于，所述目标歌曲的所述曲谱信息中还包括用于所述目标歌曲的每个音符的曲调信息；

则所述步骤S5具体包括：