CN102024453B

CN102024453B - 歌声合成***、方法以及装置

Info

Publication number: CN102024453B
Application number: CN2009101694254A
Authority: CN
Inventors: 李幸辑; 李宏儒; 王文男; 徐志浩; 张智星
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2009-09-09
Filing date: 2009-09-09
Publication date: 2012-05-23
Anticipated expiration: 2029-09-09
Also published as: CN102024453A

Abstract

本发明公开了一种歌声合成***，所述***具有储存单元、节拍单元、输入单元以及处理单元。其中储存单元用以储存至少一旋律；节拍单元用以提示节拍；输入单元用以接收多个声音信号；处理单元用以针对声音信号进行处理并产生合成歌声信号。本发明实施例中的声音信号是使用者依据该旋律、节拍所诵读或哼唱所产生，因此每个声音信号分别对应至该旋律及其节拍，可直接将该声音信号进行处理，节省需大量预先录制的大量使用者语料库的时间和成本，达到节省***资源以及加速歌曲合成速度的效果，而且最终获得的合成歌声更具有使用者的音色，效果相当拟真。

Description

歌声合成***、方法以及装置

技术领域

本发明涉及一种歌声合成技术，尤其涉及一种能够产生拟真歌声的歌声合成***、装置及方法。

背景技术

近年来，随着信息科技的发展逐渐成熟，电子计算装置所具备的处理能力也大幅提升，使得许多复杂的应用得以实现，其中之一便是语音或歌声合成的相关技术。一般而言，语音合成可泛指为以人工方式产生接近真人语音的技术，目前已有许多相关应用存在，例如：虚拟歌手、电子宠物、练唱软件、作曲家与歌手的仿真组合等，其相应的需求也逐日渐增。而在传统架构上，如图1所示，普遍的语音、歌声合成方法必须预先录制真人的语音数据以建立语料库(Corpus Database)20，以此作为文字与语音之间转换的依据，其中语料的输入又可分为单音节语料(Single-Syllable-based Corpus)21的输入，以中文为例：ㄅ、ㄆ、ㄇ等中文单音节，还有字词语料(Coarticulation-basedCorpus)22的输入，如：明天、后天等等，以及歌曲词句语料(Song-based Corpus)23的输入。

图1为显示传统歌声合成方法的流程图。首先，输入选定歌曲的乐器数字接口(Musical Instrument Digital Interface，MIDI)文件与歌词数据，其中该乐器数字接口文件包含有选定歌曲的乐谱(score)，包括节拍与音符等信息，在步骤S101，根据所输入的乐器数字接口文件与歌词数据进行字词切割(Word Segmentation)取得语音卷标(Phonetic Label)，然后在步骤S102进行字词推导，从语料库20中挑选出最符合的语料，而后在步骤S103调校音长(duration)与音高(pitch)，最后，在步骤S103进行音与音之间的连接与平滑处理、加入回音效果、伴奏音乐，并得到合成的歌声。然而，上述传统技术却存在下列缺点：

(一)建立语料库需耗费长时间进行语料的录制，且语料库需要庞大的储存空间。

(二)字词推导程序复杂，需耗费大量***资源，且容易发生字词切割错误的问题。

(三)以中文语言而言，歌声合成的效果不佳，听起来有明显的机械音。

(四)受限于预录的语料库，只能产出固定音色，若要更换音色则必须重新录制语料库。

(五)整体程序复杂，产生合成歌声所需时间较长，无法实时取得合成歌声。

因此，整体而言，传统的歌声合成方法在成本上、效率上以及合成歌声的流畅度上，无法满足一般使用者的需求。

发明内容

本发明的目的在于提供一种直觉式的歌声合成***、方法以及装置，让使用者不必熟习乐理或擅长歌唱，只要用口语的方式按照节拍输入声音信号，即可得到拥有个人音色的歌声。

本发明所提供的歌声合成***，包括一储存单元、一节拍单元、一输入单元、以及一处理单元。储存单元用以储存至少一旋律；节拍单元用以依据上述至少一旋律中一特定旋律来提示一节拍；输入单元用以接收多个声音信号，其中上述声音信号对应上述特定旋律；处理单元用以依据上述特定旋律及上述声音信号产生一合成歌声信号。

本发明所提供的歌声合成方法，适用于一电子计算装置，其步骤包括根据一旋律提示一节拍；透过上述电子计算装置的一收音模块接收多个声音信号，其中上述声音信号对应上述特定旋律；依据上述特定旋律及上述声音信号产生一合成歌声信号，并透过上述电子计算装置的一播音模块输出上述合成歌声信号。

本发明所提供的歌声合成装置，包括一壳体、一储存器、一节拍机构、一收音器、以及一处理器。储存器设置于上述壳体内部，连接至上述处理器，储存有至少一旋律；节拍机构设置于上述壳体外部，连接至上述处理器，依据上述至少一旋律中一特定旋律来提示一节拍；由收音器设置于上述壳体外部，连接至上述处理器，接收多个声音信号，其中上述声音信号对应上述特定旋律；以及，处理器设置于上述壳体内部，依据上述特定旋律及上述声音信号产生一合成歌声信号。

本发明实施例中的声音信号是使用者依据该旋律、节拍所诵读或哼唱所产生，因此每个声音信号分别对应至该旋律及其节拍，可直接将该声音信号进行处理，节省现有技术中需大量预先录制的大量使用者语料库的时间和成本，达到节省***资源以及加速歌曲合成速度的效果，而且最终获得的合成歌声更具有使用者的音色，且效果相当拟真。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为根据传统语音合成架构所述的歌声合成方法的流程图。

图2为根据本发明一实施例所述的歌声合成装置的架构图。

图3为根据本发明一实施例所述的语音输入误差侦测示意图。

图4为根据本发明一实施例所述使用基周同步叠加法的音高调校示意图。

图5为根据本发明一实施例所述使用交叉消退法的音高调校示意图。

图6A、6B为根据本发明一实施例所述使用重新取样法的音高调校示意图。

图7A、7B、7C为根据本发明一实施例所述使用贝兹曲线的平滑处理示意图。

图8为根据本发明一实施例所述的歌声合成方法的流程图。

图9A、9B、9C、9D为根据本发明其它实施例所述的歌声合成方法的流程图。

图10为根据本发明一实施例所述的歌声合成装置的架构图。

附图标号：

20～语料库；

21～单音节语料；

22～字词语料；

23～歌曲词句语料；

200～歌声合成***；

201～储存单元；

202～节拍单元；

203～输入单元；

204～处理单元；

1000～歌声合成装置；

1010～外壳；

1020～储存器；

1030～节拍机构；

1040～收音器；

1050～处理器。

具体实施方式

为使本发明的目的、特征和优点能更明显易懂，下文特举一些较佳实施例，并配合附图作详细说明如下：

图2为根据本发明一实施例所述的歌声合成***的架构图。歌声合成***200中包含有储存单元201、节拍单元202、输入单元203以及处理单元204。当一歌曲要进行歌声合成时，储存单元201储存有多首歌曲的旋律，可提供该歌曲的旋律给节拍单元202，节拍单元202再根据该歌曲的旋律提示对应的节拍(tempo)，该节拍指的是依据该歌曲旋律的固定频率的拍子，可辅助使用者以口语的方式诵读或哼唱该歌曲的歌词，输入单元203则用以接收上述使用者诵读或哼唱所产生的多个声音信号，上述声音信号对应上述该旋律，且符合该节拍。最后，处理单元204再依据该旋律和上述声音信号进行处理，产生一合成歌声信号。

在某些实施例中，上述旋律可为一声波(Waveform Audio，WAV)文件，节拍单元202可通过拍子追踪(beat tracking)的技术标记出该歌曲的节拍。而在其它实施例中，上述旋律可为一乐器数字接口(Musical Instrument DigitalInterface，MIDI)文件，节拍单元202可直接抓取乐器数字接口文件中的节拍事件(tempo event)数据以得到该歌曲的节拍。而节拍单元202依据旋律来提示的节拍，可以有多种实施方式，如经由一显示单元所产生的视觉信号，例如移动、跳跃、闪烁或变色的符号；或为由一输出单元所产生的声音信号，例如模仿节拍器的「答、答～」声，或是由一机械结构所提供的节拍动作，例如摇摆、旋转、跳动或是如节拍器的摆针摆动；亦或是由一发光单元所产生灯光的闪烁、变色等。

在某些实施例中，为了让使用者所输入的多个声音信号的节奏(rhythm)具有一定程度的正确性，节奏分析单元(未绘示)在接收到使用者所输入的多个声音信号后，根据该歌曲的旋律判断该声音信号所具有的既定节奏是否超过一预设容许误差值，该节奏指的是歌词的每个字配合旋律出现的快慢状态。如果上述既定节奏超过预设容许误差值，则节奏分析单元(未绘示)提示使用者重复上述输入声音信号的步骤；此关于判断节奏误差的运作细节将在稍后在图3进一步描述。或者，节奏分析单元(未绘示)也可以设计成在接收到使用者所输入的多个语音信号后，再进一步将该声音信号输出由使用者自行决定是否接受此录制版本，若不接受，则提供一操作接口以供使用者操作选择重新输入多个声音信号，以取代旧声音信号。另外，在其它实施例中，使用者也可以歌唱的方式产生并输入该声音信号，或者也可输入事先所录制或处理过的声音信号。

上述处理单元204主要是依据该旋律和上述声音信号进行处理，产生一合成歌声信号。在一些实施例中，所进行的处理包括将上述声音信号执行音高拉平以取得多个相同音高信号，以及依据该旋律，将上述相同音高信号调校至对应于该歌曲的旋律所指示的多个标准音高，以取得多个调校后声音信号。更进一步时，可再将该调校过的多个调校后声音信号执行平滑处理，以产生一平滑处理后声音信号。以下再以一些详细实施例来进行说明。

在一些实施例中，处理单元204可执行一音高分析程序，透过音高追踪(Pitch Tracking)、音高标记(Pitch Marking)，以将上述声音信号执行音高拉平以取得多个相同音高信号。接着，处理单元204针对多个相同音高信号执行音高调校程序，例如运用基周同步叠加法(Pitch SynchronousOverLap-Add，PSOLA)、交叉消退法(Cross-Fadding)或重新取样法(Resample)，将多个相同音高信号分别调校至对应于该歌曲的旋律所指示的多个标准音高，以取得多个调校后声音信号；此关于基周同步叠加法、交叉消退法以及重新取样法的运作细节将在稍后分别在图4、图5、图6A与图6B中进一步描述。然后，处理单元204再针对多个调校后声音信号执行平滑处理程序，例如运用线性内插法(interpolation)、双线性内插法或多项式内插法将上述调校后声音信号连接起来以取得一平滑处理后声音信号；其中关于多项式内插法的运作细节将在稍后在图7A～7C中进一步描述。

在另一些实施例中，处理单元204进一步将该平滑处理后声音信号执行歌声特效处理程序，其可根据歌声合成***200的***负载状况决定取样音框的大小，然后将该平滑处理后声音信号以取样音框大小依序进行音量调整、加入抖音以及加入回音效果，产生一特效处理后声音信号。在另一些实施例中，处理单元204可针对上述的多种声音信号，如多个调校后声音信号、平滑处理后声音信号或特效处理后声音信号等，执行伴奏合成程序，将该歌曲的伴奏音乐与上述各种声音信号合成以取得一伴奏歌声信号。前述的调校后声音信号、平滑处理后声音信号、特效处理后声音信号、伴奏歌声信号等，皆为本发明的合成歌声信号的实施样态，一合成歌声信号可以是一包含有多个声音信号(如上述调校后、平滑处理后、特效处理后或伴奏处理后的声音信号)的档案，且该合成歌声即具有该使用者的音色。在某些实施例中，歌声合成***200可再包括一输出单元，用以将合成歌声信号输出，而该输出单元可更进一步结合节拍单元202或其它显示单元，在输出该合成歌声信号时，依据该合成歌声信号来显示节拍，如上述的摇摆、旋转、跳动等动作，或移动、跳跃、闪烁、变色等视觉符号，或模仿节拍器「答、答～」声的声音信号等。

图3为根据本发明一实施例所述的判断节奏误差的示意图。如图3所示，一段歌词的声音信号输入包括有歌词1～歌词3。在某些实施例中，储存单元201中除了储存上述歌曲的旋律之外，可进一步储存对应该旋律的歌词，以及对应于歌词的节奏。节奏分析单元(未绘示)根据歌曲的旋律取得这段歌词的标准节拍r(i)，其中r(1)、r(2)代表歌词1的时间区间端点，r(3)、r(4)代表歌词2的时间区间端点，r(5)、r(6)代表歌词3的时间区间端点，位于时间区间端点前的虚线代表提前输入的误差容许时间，位于时间区间端点后的虚线代表延迟输入的误差容许时间，所以截线与虚线所形成的区间即为误差容许值μ。而使用者所输入的多个语音信号具有一既定节奏，该既定节奏以c(i)表示，那么在此实施例中，累计误差值可用计算公式(1)表示：

P (j) = Σ_{i = -}^{n} | r (i) - c (j) |, j = 1 ~ 3 - - - (1)

其中j代表每个歌词，且当计算出的结果P(j)大于μ时，则可重新输入该歌词的声音信号。

图4为根据本发明一实施例所述使用基周同步叠加法的音高调校示意图。如图4所示，最上方的横轴代表的是完成音高分析程序的语音信号，箭号指针代表标记音高，在此实施例中，所要调校的目标音高为原来音高的2倍，所以将标记音高之间的距离缩减为原来的1/2；反之，若所要调校的目标音高为原来音高的1/2，则将标记音高之间的距离放大2倍。然后每两个音高之间，皆以一个汉明窗(Hamming window)来重新塑型(model)，其中汉明窗的计算可用计算公式(2)表示：

W (m) = 0.54 - 0.46 \times \cos (\frac{2 πm}{N - 1}), 0 \leq m \leq N - - - (2)

其中N代表取样(sample)的时间宽度，m代表在取样的时间宽度内的时间点。最后再将此经过汉明窗加成的波形以重叠方式累加起来，形成一个新的语音信号波形。

图5为根据本发明一实施例所述使用交叉消退法的音高调校示意图。交叉消退法是一种类似基周同步叠加法的音高调校方法，所需计算时间较少，但相对地，语音的合成就没有基周同步叠加法来的平滑。利用交叉消退法能很轻易地改变音高的高低，而且以三角窗(triangular window)的方式取代了基周同步叠加法中汉明窗的做法，其流程与基周同步叠加法相同，在得到正确的音高后，再由这些音高和三角窗做内积相乘出一个语音信号波形。

图6A、6B为根据本发明一实施例所述使用重新取样法的音高调校示意图。如图6A所示的重新取样法是根据旋律的指示，以降低取样(downsampling)的方式将原语音信号移位(shift)升为原来的2倍音高，反之，如图6B所示，若要将原语音信号移位，使其音高降为原来的1/2倍，则是以提高取样(up sampling)的方式进行。

由于在真人演唱歌曲的过程中，不同音高之间的转换并没有办法像计算机一样，每次都直接从一个音高精准地到达目标音高，尤其在音高变化幅度较大的时候，通常会先超过目标音高一些，再平滑地到达目标音高，因此为了要模拟这个真人歌声的特征，所以在本发明的一实施例中，采用了贝兹曲线(Bézier curve)来进行平滑处理程序的运作。以三次方贝兹曲线为例，四个控制点P0、P1、P2、P3标示如图7A所示，其中控制点之间的关系以计算公式(4)代表：

δ = 1 - \exp (\frac{- | P_{3} - P_{0} |}{100})

P_{y - 1} = P_{y} &PlusMinus; P_{y} (\sqrt[12]{2} - 1) \times δ,, 1 \leq y \leq 3 - - - (4)

其中，δ为一参数，随着音高变化幅度而增加，且其值介于0与1之间，为十二平均律音阶半音的比值。另外，计算公式(4)中的运算符号「±」表示若音高变化是向上，则为「+」，反之，则为「-」。如图7A所示，设定控制点P0为起始音高、控制点P3为目标音高，取控制点P0往右2毫秒为控制点P2，取控制点P2往左1毫秒为控制点P1，而后，以计算公式(4)带入三次方贝兹曲线的公式B(t)＝P₀(1-t)³+3P₁t(1-t)²+3P₂t²(1-t)+P₃t³，t∈[0，1]，计算出连接P0与P3的曲线。

在本发明的另一实施例中，使用四次方贝兹曲线来进行平滑处理程序的运作。五个控制点P0、P1、P2、P3、P4之间的关系以计算公式(5)代表：

δ = 1 - \exp (\frac{- | P_{4} - P_{0} |}{100})

P_{y - 1} = P_{y} &PlusMinus; P_{y} (\sqrt[12]{2} - 1) \times δ, 1 \leq y \leq 4 - - - (5)

其中，δ为一参数，随着音高变化幅度而增加，且其值介于0与1之间，

为十二平均律音阶半音的比值。另外，计算公式(5)中的运算符号「±」表示若音高变化是向上，则为「+」，反之，则为「-」。如图7B所示，设定控制点P0为起始音高，取控制点P0往右60毫秒为控制点P2，取控制点P2往左10毫秒为控制点P1，取控制点P2往右40毫秒为控制点P4，取控制点P4往左20毫秒为控制点P3，而后，以计算公式(5)带入四次方贝兹曲线的公式：

B(t)＝P₀(1-t)⁴+4P₁(1-t)³t+6P₂(1-t)²t²+4P₃(1-t)t³+P₄t⁴，t∈[0，1]，计算出连接P0与P4的曲线。

在本发明的另一实施例中，使用五次方贝兹曲线来进行平滑处理程序的运作。六个控制点P0、P1、P2、P3、P4、P5之间的关系以计算公式(6)代表：

δ = 1 - \exp (\frac{- | P_{5} - P_{0} |}{100})

P_{y - 1} = P_{y} &PlusMinus; P_{y} (\sqrt[12]{2} - 1) \times δ,, 1 \leq y \leq 5 - - - (6)

为十二平均律音阶半音的比值。另外，计算公式(6)中的运算符号「±」表示若音高变化是向上，则为「+」，反之，则为「-」。如图7C所示，设定控制点P0为起始音高、控制点P5为目标音高，取控制点P0往右2毫秒为控制点P2，取控制点P2往左1毫秒为控制点P1，取控制点P2往右2毫秒为控制点P4，取控制点P4往左1毫秒为控制点P3，而后，以计算公式(6)带入五次方贝兹曲线的公式：

B(t)＝P₀(1-t)⁴+4P₁(1-t)³t+6P₂(1-t)²t²+4P₃(1-t)t³+P₄t⁴，t∈[0，1]，计算出连接P0与P5的曲线。

图8为根据本发明一实施例所述的歌声合成方法的流程图。该歌声合成方法适用于一电子计算装置，首先，根据一选定歌曲的旋律取得该歌曲的节拍，然后提示该节拍(步骤S801)，提示该节拍的主要功效，是可让一使用者可根据节拍提示以口语的方式诵读或哼唱该歌曲的歌词，然后透过该电子计算装置的一收音模块接收多个声音信号(步骤S802)，上述声音信号可以是该使用者根据该歌曲的歌词信息产生，且较佳地上述声音信号是依据该节拍所产生。该歌声合成方法再针对该旋律和上述声音信号进行处理，并透过上述电子计算装置的一播音模块输出一合成歌声信号(步骤S803)。

该电子计算装置可包括一显示单元，产生视觉信号作为上述的节拍，例如移动、跳跃、闪烁或变色的符号；或该电子计算装置可包括一输出单元，产生声音信号作为上述的节拍，例如模仿节拍器的「答、答～」声；或该电子计算装置可包括一机械结构，提供节拍动作作为上述的节拍，例如摇摆、旋转、跳动或是节拍器的摆针结构；或该电子计算装置也可包括一发光单元，产生灯光的闪烁、变色等作为上述的节拍。而为了让使用者所输入的多个声音信号的节奏具有一定程度的正确性，上述歌声合成方法可在接收到使用者所输入的多个语音信号后，进一步根据该歌曲的旋律判断该声音信号所具有的既定节奏是否超过一预设容许误差值，若是，则提示使用者重复上述输入声音信号的步骤；此关于判断节奏误差的运作可采用如图3所示的方式。或者，上述歌声合成方法也可以设计成在接收到使用者所输入的多个语音信号后，进一步将该声音信号输出由使用者自行决定是否接受此录制版本，若不接受，则重复上述输入声音信号的步骤。另外，在其它实施例中，使用者也可以歌唱的方式产生并输入该声音信号，或者也可输入事先所录制或处理过的声音信号。

如图9A所示，上述歌声合成方法针对该声音信号所进行的处理可进一步再细分为以下步骤：首先，针对该声音信号执行音高分析程序(步骤S803-1)，透过音高追踪、音高标记，以将上述声音信号执行音高拉平以取得多个相同音高信号。接着，针对多个相同音高执行音高调校程序(步骤S803-2)，例如运用基周同步叠加法、交叉消退法或重新取样法，将多个相同音高信号分别调校至对应于该歌曲的旋律所指示的多个标准音高，以取得多个调校后声音信号；此关于基周同步叠加法、交叉消退法以及重新取样法的运作可采用如上述关于图4、图5、图6A与图6B的方式。

如图9B所示，在某些实施例中，上述歌声合成方法在音高分析程序与音高调校程序之后，可再继续针对多个调校后声音信号执行平滑处理程序(步骤S803-3)，例如运用线性内插法、双线性内插法或多项式内插法，将上述调校后声音信号连接起来以取得一平滑处理后声音信号；其中关于多项式内插法的运作可采用如上述关于图7A～7C的方式。

如图9C所示，在某些实施例中，上述歌声合成方法在音高分析程序、音高调校程序以及平滑处理程序之后，可再进一步针对该平滑处理后声音信号执行歌声特效处理程序(步骤S803-4)，其可根据该电子计算装置的***负载状况决定取样音框的大小，然后将该平滑处理后声音信号以取样音框大小依序进行音量调整、加入抖音以及加入回音效果，产生一特效处理后声音信号。

如图9D所示，在某些实施例中，上述歌声合成方法可将上述的多种声音信号，如多个调校后声音信号、平滑处理后声音信号或特效处理后声音信号等，执行伴奏合成程序(步骤S803-5)，将该歌曲的伴奏音乐与仿真歌声信号合成以取得一伴奏歌声信号后，再将该伴奏歌声信号输出。前述的多个调校后声音信号、平滑处理后声音信号、特效处理后声音信号、伴奏歌声信号等，皆为本发明的合成歌声信号的实施样态，且该合成歌声即具有该使用者的音色。

实施该歌声合成方法的电子计算装置可为桌上型计算机、笔记型计算机、手持通讯装置、电子公仔、电子宠物等。另外，该电子计算装置可包括一歌曲数据库，用以储存多首(如使用者喜爱的)歌曲的旋律，让使用者可从中挑选欲进行歌声合成的歌曲，且该歌曲数据库也可储存歌曲所对应的歌词，以及对应于歌词的节奏。

图10为根据本发明一实施例所述的歌声合成装置的架构图。如图10所示，歌声合成装置1000可为一电子公仔，在其它实施例中，歌声合成装置1000也可为桌上型计算机、笔记型计算机、手持通讯装置、掌上型装置、个人数字助理器、电子宠物装置、机器人、收录音机、或是音乐光盘播放机等。歌声合成装置1000至少包括一壳体1010、一储存器1020、一节拍机构1030、一收音器1040、一处理器1050。储存器1020设置于壳体1010内部，连接至处理器1050，储存有多首歌曲的旋律，可提供该歌曲的旋律给节拍机构1030。节拍机构1030设置于壳体1010外部，连接至处理器1050，可依据上述旋律中的一特定旋律提示对应的节拍，辅助使用者按照以口语的方式诵读或哼唱该歌曲的歌词。收音器1040设置于壳体1010外部，接收上述使用者诵读或哼唱所产生的多个声音信号。而处理器1050设置于壳体1010内部，依据上述特定旋律和上述声音信号进行处理，产生一合成歌声信号。

如图10的实施例，储存器1020可设置于电子公仔的躯干部位，为一内存，如Flash、Hard disk、Cache等。上述旋律可为一声波文件或一乐器数字接口文件，而节拍机构1030可以有多种实施方式，例如为一发光器，如图10所示设置于电子公仔的眼部区域，可产生灯光的闪烁、变色等，实作上可运用发光二极管或其它具有发光性质的对象来完成；或另一种节拍机构1030可设置于电子公仔的手部区域，为一可动式机械结构，提供摇摆、旋转、跳动，或是如节拍器的摆针摆动，实作上可运用类似钢琴节拍器的摆针对象来完成；或另一种节拍机构1030可为一显示器，设置于电子公仔的腹部区域，产生例如移动、跳跃、闪烁或变色的符号等等的视觉信号；亦或又一种节拍机构1030可为一播音器设置于电子公仔的口部区域，输出例如模仿节拍器的「答、答～」声。收音器1040可设置于电子公仔的耳部区域，例如为一麦克风、一集音器、一录音器或其它具有收音功能的对象，其中上述声音信号对应上述特定旋律且符合该节拍。

处理器1050可设置于电子公仔的壳体内部，为一嵌入式微型处理器及其运作时所需的其它对象。处理器1050其连接储存器1020、节拍机构1030、以及收音器1040，主要是依据上述特定旋律和上述声音信号进行处理，产生一合成歌声信号。在一些实施例中，所进行的处理包括将上述声音信号执行音高拉平以取得多个相同音高信号，以及依据上述特定旋律，将上述相同音高信号调校至对应于上述特定旋律所指示的多个标准音高，以取得多个调校后声音信号。更进一步时，处理器1050可再将该调校过的多个调校后声音信号执行平滑处理，以产生一平滑处理后声音信号。

在另一些实施例中，处理器1050可执行一音高分析处理，透过音高追踪、音高标记，再执行音高拉平以取得多个相同音高。接着，处理器1050针对多个相同音高执行一音高调校处理，运用基周同步叠加法、交叉消退法或重新取样法将多个相同音高分别调校至对应于上述特定旋律所指示的多个标准音高，以取得多个调校后声音信号；此关于基周同步叠加法、交叉消退法以及重新取样法的运作细节可参照上述关于图4、图5、图6A与图6B的叙述。然后，处理器1050再针对多个调校后声音信号执行一平滑处理，运用线性内插法、双线性内插法或多项式内插法将上述调校后声音信号连接起来以取得一平滑处理后声音信号；其中关于多项式内插法的运作细节可参照上述关于图7A～7C的叙述。

在另一些实施例中，处理器1050可进一步针对该平滑处理后声音信号，执行一歌声特效处理，根据歌声合成装置1000的***负载状况决定取样音框的大小，然后将仿真歌声信号以取样音框大小依序进行音量调整、加入抖音、以及加入回音效果。在另一些实施例中，处理器1050可针对上述的多种声音信号，如多个调校后声音信号、平滑处理后声音信号或特效处理后声音信号等，执行一伴奏合成处理，将该歌曲的伴奏音乐与上述各种声音信号合成以取得一伴奏歌声信号。前述的多个调校后声音信号、平滑处理后声音信号、特效处理后声音信号、伴奏歌声信号等，皆为本发明的合成歌声信号的实施样态，且该合成歌声即具有该使用者的音色。

在某些实施例中，歌声合成装置1000可再包括一播音器(未绘示)，设置于壳体1010外部，连接于处理器1050，将合成歌声信号输出。如图10的实施例，播音器可设置于电子公仔的口部区域，为一喇叭、一扩音器、一耳机、一声音播放器、或其它具有播音功能的器材、对象。更进一步时，节拍机构1030可在播音器输出该合成歌声信号时，配合显示该合成歌声信号的节拍，如上述的摇摆、旋转、跳动等动作，或移动、跳跃、闪烁、变色等视觉符号，或模仿节拍器「答、答～」声的声音信号。

为了让使用者所输入的多个声音信号的节奏具有一定程度的正确性，处理器1050可再进行一节奏分析处理，在接收到使用者所输入的多个语音信号后，根据该歌曲的旋律判断该声音信号所具有的既定节奏是否超过一预设容许误差值。如果上述既定节奏超过预设容许误差值，则提示使用者重新输入声音信号，细节可参照上述关于图3的叙述。另一种实施方式，也可由处理器1050和收音器1040，在接收到使用者所输入的多个语音信号后，将该声音信号经由播音器输出，让使用者自行决定是否接受，或是重新输入多个声音信号以取代旧声音信号。另外，在其它实施例中，使用者也可以歌唱的方式产生并输入上述声音信号，或者也可输入事先所录制或处理过的声音信号。

如上述的实施例，本发明所述的声音信号是使用者依据该旋律、节拍所诵读或哼唱所产生，因此每个声音信号分别对应至该旋律及其节拍，可直接将该声音信号进行处理，节省现有技术中需大量预先录制的大量使用者语料库的时间和成本，达到节省***资源以及加速歌曲合成速度的效果，而且最终获得的合成歌声更具有使用者的音色，效果相当拟真。

本发明虽以各种实施例揭露如上，然而其仅为范例参考而非用以限定本发明的范围，任何熟知此项技艺者，在不脱离本发明的精神和范围内，当可做些许的更动与润饰。因此上述实施例并非用以限定本发明的范围，本发明的保护范围当视权利要求范围所界定者为准。

Claims

1.一种歌声合成***，其特征在于，所述歌声合成***包括：

一储存单元，用以储存至少一旋律；

一节拍单元，用以依据所述至少一旋律中一特定旋律来提示一节拍；

一输入单元，用以接收多个声音信号，其中所述声音信号对应所述特定旋律，且所述声音信号是由一使用者根据一歌词信息与所述节拍所产生，且所述声音信号依序分别对应至所述歌词信息中的每一歌词；以及

一处理单元，用以依据所述特定旋律处理所述声音信号并产生一合成歌声信号。

2.如权利要求1所述的歌声合成***，其特征在于，所述声音信号具有一既定节奏，且所述歌声合成***进一步包括一节奏分析单元，用以判断所述既定节奏是否超过一预设容许误差值。

3.如权利要求1所述的歌声合成***，其特征在于，所述处理单元针对所述声音信号所进行的处理包括：

执行一音高分析程序与一音高调校程序以取得多个调校后声音信号，并以所述调校后声音信号为所述合成歌声信号，

其中所述音高分析程序透过音高追踪取得分别对应至所述声音信号的多个音高，再将所述音高拉平以取得多个相同音高。

4.如权利要求3所述的歌声合成***，其特征在于，所述处理单元针对所述声音信号所进行的处理进一步包括：

针对所述调校后声音信号执行一平滑处理程序以取得一平滑处理后声音信号，并以所述平滑处理后声音信号为所述合成歌声信号。

5.如权利要求4所述的歌声合成***，其特征在于，所述处理单元针对所述声音信号所进行的处理进一步包括：

针对所述平滑处理后声音信号执行一歌声特效处理程序以取得一特效处理后声音信号，并以所述特效处理后声音信号为所述合成歌声信号。

6.如权利要求5所述的歌声合成***，其特征在于，所述处理单元针对所述声音信号所进行的处理进一步包括：

针对所述调校后声音信号、所述平滑处理后声音信号以及所述特效处理后声音信号中的其中之一，执行一伴奏合成程序以取得一伴奏歌声信号，并以所述伴奏歌声信号为所述合成歌声信号。

7.一种歌声合成方法，适用于一电子计算装置，其特征在于，所述歌声合成方法包括：

依据至少一旋律中一特定旋律提示一节拍；

透过所述电子计算装置的一收音模块接收多个声音信号，其中所述声音信号对应所述特定旋律，且所述声音信号由一使用者根据一歌词信息与所述节拍所产生，且所述声音信号具有一既定节奏并依序分别对应至所述歌词信息中的每一歌词；以及

依据所述特定旋律处理所述声音信号并透过所述电子计算装置的一播音模块输出一合成歌声信号。

8.如权利要求7所述的歌声合成方法，其特征在于，还包括：所述歌声合成方法判断所述既定节奏是否超过一预设容许误差值，若是，则重复产生所述声音信号。

9.如权利要求7所述的歌声合成方法，其特征在于，针对所述声音信号所进行的处理进一步包括：

10.如权利要求9所述的歌声合成方法，其特征在于，针对所述声音信号所进行的处理进一步包括：

11.如权利要求10所述的歌声合成方法，其特征在于，针对所述声音信号所进行的处理进一步包括：

12.如权利要求11所述的歌声合成方法，其特征在于，针对所述声音信号所进行的处理进一步包括：

13.一种歌声合成装置，其特征在于，所述歌声合成装置至少包括一壳体、一储存器、一节拍机构、一收音器、一处理器，其中：

所述储存器设置于所述壳体内部，连接至所述处理器，储存至少一旋律；

所述节拍机构设置于所述壳体外部，连接至所述处理器，依据所述旋律的一特定旋律提示一节拍；

所述收音器设置于所述壳体外部，连接至所述处理器，接收多个声音信号，且所述声音信号对应所述特定旋律，且所述声音信号是由一使用者根据一歌词信息与所述节拍所产生，且所述声音信号具有一既定节奏并依序分别对应至所述歌词信息中的每一歌词；以及

所述处理器设置于所述壳体内部，依据所述特定旋律将所述声音信号进行处理并产生一合成歌声信号。

14.如权利要求13所述的歌声合成装置，其特征在于，所述储存器为一内存；所述节拍机构为一发光器、一可动式机械结构、一显示器或一播音器；所述收音器为一麦克风、一集音器或一录音器；以及，所述处理器为一嵌入式微型处理器。

15.如权利要求13所述的歌声合成装置，其特征在于，还包括：所述处理器进一步判断所述既定节奏是否超过一预设容许误差值，若是，则提示所述使用者重复产生所述声音信号。

16.如权利要求13所述的歌声合成装置，其特征在于，所述处理器针对所述声音信号所进行的处理为执行一音高分析处理与一音高调校处理以取得一多个调校后声音信号，并以所述调校后声音信号为所述合成歌声信号，所述音高分析处理透过音高追踪取得分别对应至所述声音信号的多个音高，再将所述音高拉平以取得多个相同音高。

17.如权利要求16所述的歌声合成装置，其特征在于，所述处理器对所述声音信号所进行的处理，进一步包括将所述调校后声音信号执行一平滑处理以取得一平滑处理后声音信号，并以所述平滑处理后声音信号为所述合成歌声信号。

18.如权利要求17所述的歌声合成装置，其特征在于，所述处理器对所述声音信号所进行的处理，进一步包括对所述平滑处理后声音信号执行一歌声特效处理以取得一特效处理后声音信号，并以所述特效处理后声音信号为所述合成歌声信号。

19.如权利要求18所述的歌声合成装置，其特征在于，所述处理器对所述声音信号所进行的处理，进一步包括将所述调校后声音信号、所述平滑处理后声音信号以及所述特效处理后声音信号中的其中之一，执行一伴奏合成处理以取得一伴奏歌声信号，并以所述伴奏歌声信号为所述合成歌声信号。

20.如权利要求13所述的歌声合成装置，其特征在于，所述歌声合成装置进一步包括：

一播音器，输出所述合成歌声信号。