CN101399036A

CN101399036A - 将语音转换为说唱音乐的设备和方法

Info

Publication number: CN101399036A
Application number: CNA2007101641328A
Authority: CN
Inventors: 朱璇; 史媛媛; 邓菁; 严基完; 李在原
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd; Samsung C&T Corp
Priority date: 2007-09-30
Filing date: 2007-09-30
Publication date: 2009-04-01
Anticipated expiration: 2027-09-30
Also published as: CN101399036B

Abstract

本发明提供一种将语音转换为说唱音乐的设备和方法。所述设备包括：伴奏音乐生成部分，用于生成说唱伴奏音乐；语音转换部分，基于伴奏音乐生成部分所生成的伴奏音乐，将用户输入的语音转换为说唱形式；音乐混合器，将伴奏音乐生成部分所生成的说唱伴奏音乐以及由语音转换部分所转换的说唱形式的语音相混合，以形成说唱音乐。

Description

将语音转换为说唱音乐的设备和方法

技术领域

本发明涉及一种将语音(speech)转换为说唱(说唱)音乐的设备和方法，更具体地讲，涉及一种能够直接作用于用户输入的语音将该语音转换为说唱音乐并保持用户语音的基音和音色的设备和方法。

背景技术

说唱(Rap)是目前流行的一种音乐形式，它是嘻哈(Hip-hop)音乐的核心元素之一。说唱音乐以在机械的节奏声背景下，快速地诉说一连串押韵的词句为特征。说唱音乐常常以简单的打击乐为伴奏，也有很多说唱音乐没有伴奏音乐。说唱音乐的歌词幽默、风趣，常带有讽刺性。因此目前，说唱音乐很受人们，尤其是年青人的喜爱。

随着人们对个性元素的追求，人们在听别人演唱的说唱音乐的同时，越来越多地希望能够制作由自己演唱的说唱音乐，并以此作为自己的个性标识，如作为自己的***等。但是，演唱说唱音乐往往需要演唱者具有一定的乐理知识以及歌唱技巧，而这对普通消费者而言有一定难度。因此，普通用户往往希望仅通过简单的说一些话语，然后将所说的语音(speech)转换为配有伴奏的说唱音乐，来制作自己的说唱音乐。即，需要一种将用户所说的语音转换为说唱音乐的音乐合成技术。

目前音乐合成领域主要有两类技术，一类是基于预存储的模板进行作曲的自动音乐作曲(automatic music composition)技术，另一类是对歌唱声音进行合成的歌唱声音合成(singing voice synthesis)技术。

传统的自动音乐作曲技术主要包括5个部分：模板库，包括多个波形片段或者多个音乐特征数据(多数是基于MIDI的)；音乐结构模板或规则，用于自动组织乐曲；MIDI界面，允许用户输入曲调或其它信号，如基音和韵律等；交互式界面，使用户能够修改基音、时长、和弦、节奏、重复、乐器、均衡、滤波、混音等；读出装置，合成所作的乐曲。例如，在美国专利申请公开第US6,835,884B2号、第US6,576,828B2号、第US6,175,072B1号、第US6,153,821号、第US6,169,242号、第US6,353,170号以及第US5,801,694号中公开了几种传统的自动音乐作曲技术。

传统的歌唱声音合成技术则主要由6个部分组成：声音数据库，包括多个波形声音片段或声音建模参数；输入装置，用于接收乐谱和歌词；语言装置，用于选择声音单元并将选择的声音单元连接为语音或者歌唱声音；用于基于语音合成方法来合成和平滑连接的语音或者歌唱声音的装置；用于对应于乐谱和音乐歌唱条件来修改合成的语音或歌唱声音的基音、时长、声谱特性等的装置；读出装置，合成歌唱声音。例如，在美国专利申请公开第US6,304,846号以及第US7,016,841号中公开了几种传统的歌唱声音合成技术。

然而，这两类技术有如下缺点：用户无法仅通过说话来输入歌词；不能自动产生说唱伴奏音乐；无法自动将用户的语音转换为说唱形式。

因此，需要一种能够将用户输入的语音转换成说唱音乐的设备和方法。

发明内容

本发明的目的在于提供一种能够直接作用于用户输入的语音将该语音转换为说唱音乐并保持用户语音的基音和音色的设备和方法。

根据本发明的一方面，提供一种将语音转换为说唱音乐的设备，所述设备包括：伴奏音乐生成部分，用于生成说唱伴奏音乐；语音转换部分，基于伴奏音乐生成部分所生成的伴奏音乐，将用户输入的语音转换为说唱形式；音乐混合器，将伴奏音乐生成部分所生成的说唱伴奏音乐以及由语音转换部分所转换的说唱形式的语音相混合，以形成说唱音乐。

根据本发明的另一方面，提供一种将语音转换为说唱音乐的方法，包括步骤：a)生成说唱伴奏音乐；b)基于生成的伴奏音乐，将用户输入的语音转换为说唱形式；c)将生成的说唱伴奏音乐以及转换的说唱形式的语音相混合，以形成说唱音乐。

附图说明

通过下面结合附图进行的对实施例的描述，本发明的上述和/或其他目的和优点将会变得更加清楚，其中：

图1是示出根据本发明示例性实施例的将语音转换为说唱音乐的设备的结构的框图；

图2是示出根据本发明示例性实施例的音节分割单元的结构的框图；

图3示出根据本发明示例性实施例的无监督音节分割单元的解码网络；

图4示出根据本发明示例性实施例的有监督音节分割单元所使用的强制对齐方法；

图5是示出根据本发明示例性实施例的韵律分析器的结构的框图；

图6示出了三种不同的音乐节拍中的加强音符；

图7是示出根据本发明示例性实施例的伴奏音乐生成器的结构的框图；

图8是示出根据本发明示例性实施例的语音转换器的结构的框图；

图9A至图11B示出了根据本发明示例性实施例的将语音转换为说唱音乐的设备所提供的用户界面的示例；

图12是示出根据本发明示例性实施例的将语音转换为说唱音乐的方法的流程图；

图13至图15分别示出图12所示的方法中的步骤的详细过程。

具体实施方式

现在，将详细描述本发明的实施例，附图中示出了本发明实施例的示例。在附图中，相同的标号始终指代相同的部件。下面，将参照附图描述本发明的实施例以解释本发明。

大体上，根据本发明的用于将语音转换为说唱音乐的设备可分为两个部分：伴奏音乐生成部分和语音信号转换部分。

在伴奏音乐生成部分，建立说唱伴奏音乐模板库。该伴奏音乐模板库包括按照不同音乐节拍、不同节奏、不同乐器进行分类的各种典型说唱伴奏音乐。由于说唱伴奏音乐一般为4/4拍，所以该说唱伴奏音乐模板库中的伴奏音乐模板大多为4/4拍。

说唱伴奏音乐一般都是比较简单、重复性强的音乐。因此，模板库中的伴奏音乐模板大多为较短的仅包含8个小节的音乐片段。在生成伴奏音乐过程中，一般通过将这些短的音乐片段不断重复来形成有节奏的伴奏音乐。

除了说唱伴奏音乐模板库中的伴奏音乐之外，用户还可导入自己喜欢的音乐片段作为伴奏音乐。此外，如果伴奏音乐的韵律信息未知，则还可设置用于自动检测伴奏音乐中每一节拍(beat)的位置和强度以提取韵律(rhythm)信息的装置。

在语音信号转换部分，首先可由音节分割单元基于语音识别算法来将输入的语音分割为辅音和元音，并且可由韵律分析器识别每一韵脚(rhythm feet)的可能位置。此外，可根据用户所选择或导入的伴奏音乐的韵律模式修改输入语音的每一音节的时长(duration)和位置，并将输入语音中元音的起始位置(onset)与伴奏音乐中的节拍的起始位置同步。对于强节拍位置上的元音，可通过提高强度和改变基音轨迹(pitch trend)来进行加强处理。在完成语音转换操作之后，还需要对相邻音节之间的边界进行平滑，以保证波形的连贯性。

此外，根据本发明的用于将语音转换为说唱音乐的设备还可包括交互用户界面部分。通过该交互用户界面部分，用户可导入所喜爱的音乐片段作为说唱伴奏音乐。此外，用户还可通过交互用户界面修改输入语音的音节和伴奏音乐的节拍之间的对齐，然后可对语音重新对齐，从而使其和伴奏音乐同步。用户可以修改输入语音中的每一音节的基音属性(如升高、降低或者弯曲基音轨迹)，可以修改输入语音的每一音节的强度(如加强或者减弱音节强度)。另外，用户还可以使用预存储的音效片段来修饰合成的说唱音乐，并减慢或加快合成的说唱音乐的速度。

下面，将参照图1更详细地描述根据本发明示例性实施例的用于将语音转换为说唱音乐的设备。

图1是示出根据本发明示例性实施例的用于将语音转换为说唱音乐的设备的框图。参照图1，所述用于将语音转换为说唱音乐的设备(以下，简称为“语音-说唱转换设备”)100包括：用户接口101、音节分割单元102、语音转换器103、韵律分析器104、伴奏音乐生成器105和音乐混合器106。

如图1所示，用户可通过麦克风来输入语音信号。此外，用户可通过键盘输入操作命令等。通过语音-说唱转换设备100而合成的说唱音乐可通过扬声器播放。

用户接口101为音节分割单元102、语音转换器103、伴奏音乐生成器105和音乐混合器106提供用户接口。

音节分割单元102用于对输入语音信号的每一音节进行分割。可用语音识别器(speech recognizer)通过检测输入语音中的短时停顿(short-pause)和静音(silence)来实现音节分割单元102的功能。此外，还可采用清音/浊音判决来将每一音节分割为辅音和元音。音节分割单元102可向语音转换器103输出关于每一音节的时长和强度的信息。此外，音节分割单元102还可向韵律分析器104提供音节识别结果，以便提取输入语音的韵律模式。稍后将参照图2至图4对音节分割单元102的结构和操作进行更详细的描述。

韵律分析器104用于分析用户输入的语音信号的韵律模式。韵律分析器104根据音节分割单元102(即，语音识别器)输出的结果来对输入语音的每一音节的时长和强度进行计数，检测可能的韵脚，然后概括输入语音的韵律模式(rhythm pattern)。得到的输入语音的韵律模式可被输入到伴奏音乐生成器105，以用于选择适当的伴奏音乐。稍后将参照图5至图6对韵律分析器104的结构进行更详细的描述。

伴奏音乐生成器105用于为用户输入的语音生成说唱伴奏音乐。根据韵律分析器104所提供的输入语音的韵律模式，伴奏音乐生成器105可自动从说唱伴奏音乐模板库中选择适合的伴奏音乐模板并将其不断重复，以实现输入语音和伴奏音乐之间的最佳韵律模式匹配。此外，伴奏音乐生成器105还可向用户提供交互用户界面，从而用户可通过该交互用户界面导入喜欢的音乐片段作为伴奏音乐，伴奏音乐生成器105自动提取导入的伴奏音乐的韵律模式并获得与输入语音的最佳匹配路径。选择或导入的伴奏音乐被输出给音乐混合器106，并且其韵律模式被输出给语音转换器103。稍后将参照图7对伴奏音乐生成器105的结构进行更详细的描述。

根据用户输入的语音和伴奏音乐生成器105所提供的伴奏音乐之间的最佳韵律模式匹配结果，语音转换器103对经过音节分割的输入语音进行转换，以使输入语音符合伴奏音乐的韵律模式。为了实现这一功能，语音转换器103需要执行如下步骤：使输入语音中的元音的起始位置与伴奏音乐的节拍的起始位置同步；根据伴奏音乐的韵律模式来修改每一音节的时长；根据伴奏音乐的韵律模式修改停顿的时长；针对需要加强的音节，增强该音节的强度并改变其基音轨迹；对相邻音节之间的边界进行平滑。转换后的语音被输入到音乐混合器106中。稍后将参照图8对语音转换器103的结构和操作进行更详细的描述。

音乐混合器106用于将来自伴奏音乐生成器105的伴奏音乐和由语音转换器103转换后的语音相混合，以产生合成的说唱音乐。音乐混合器106还可向用户提供交互用户界面，从而用户能够改变每一音轨的合成比例并调节说唱音乐的均衡。此外，用户还能够通过所提供的用户界面向合成的说唱音乐添加一些特定的音效，或者调节说唱音乐的一些参数(如，说唱音乐的速度)。

以下，将参照图2至图8对语音-说唱转换设备100中的音节分割单元102、语音转换器103、韵律分析器104、伴奏音乐生成器105和音乐混合器106的结构和功能进行更详细的描述。

图2是示出根据本发明示例性实施例的语音-说唱转换设备100中的音节分割单元102的框图。参照图2，音节分割单元102包括特征提取器201、隐马尔可夫模型(HMM)数据库202、无监督(unsupervised)音节分割单元203和有监督(supervised)音节分割单元204。

无监督音节分割单元203和有监督音节分割单元204分别在不同的模式下工作。在自动模式下，音节分割单元102的输入是用户输入的语音信号，而其输出是从无监督音节分割单元203输出的输入语音的每一音节的时长、强度、发音等。如果用户通过用户界面手动输入语音的歌词，则音节分割单元102的输出来自监督音节分割单元203。

下面，对音节分割单元102的各个组成部件进行更详细地描述。

特征提取器201是一个特征提取单元，其从用户输入的语音提取传统的Mel倒谱系数(MFCC)特征向量。每一特征向量包括13维MFCC特征、13维MFCC一阶差分特征以及13维MFCC二阶差分特征，共39维。每一特征分析窗口的时间宽度和时间位移分别为20毫秒和10毫秒。由于MFCC是语音识别领域中的一种常见特征，并且在许多语音识别***中广泛使用，是本领域技术人员所公知的，因此将不再对其细节进行描述。

隐马尔可夫模型(HMM)是语音识别***中常用的一种统计模式识别算法。利用几百小时的标注过的语料(speech corpus)以及特征提取器201，可通过期望最大化(EM)算法训练出基于音素(phone)的HMM。在HMM数据库202中存储有训练好的HMM。这些HMM是无监督音节分割单元203和有监督音节分割单元204的输入参数之一。在例如Prentice Hall PTR出版的X.D.Huang、A.Acero和H.W.Hon所著的＂Spoken Language Processing：AGuide to Theory，Algorithm，and System Development＂以及电子工业出版社出版的杨行峻、迟惠生等所著的“语音信号数字处理”中详细介绍了MFCC特征向量以及HMM的细节，因此这里将不再对其进行详细描述。

无监督音节分割单元203用于自动对输入语音的音节进行分割。在这种情况下，输入语音的内容是未知的。

无监督音节分割单元203的输入参数包括：由特征提取器201从输入语音中提取的39维MFCC特征向量；预存储在HMM数据库202中的通过EM算法训练出的HMM。从无监督音节分割单元203输出的参数可包括输入语音中的每一音节的时长和能量强度、每一元音的起始位置、韵脚的可能位置等。

图3示出了无监督音节分割单元203的解码网络。如图3所示，无监督音节分割单元203的解码网络是使用Viterbi方法的音节回路(syllable loop)，其中，“音节N”表示第N音节的状态链(state-chain)，“SP”表示短时停顿模型的状态链，“SIL”表示静音模型的状态链。该解码网络的输出是与输入语音最佳匹配的状态串(state string)。通过沿着时间轴回溯，可分割每一音节中的辅音和元音。

与无监督音节分割单元203类似，有监督音节分割单元204也具有39维特征向量流和预训练的HMM的输入。此外，与无监督音节分割单元203不同，有监督音节分割单元204还具有另一输入参数：输入语音信号的歌词。由于用户除了通过诸如麦克风输入了语音信号之外，还输入了与语音对应的歌词，所以输入语音的内容是预先已知的。因此，在有监督音节分割单元204中不需要具有上述音节回路结构的解码网络。

根据本发明示例性实施例，有监督音节分割单元204中采用语音识别的训练阶段中常用的强制对齐(force-alignment)方法来对输入语音的音节进行分割。图4示出了根据本发明示例性实施例的有监督音节分割单元204中所使用的强制对齐方法。在图4中，横轴表示沿着时间标记的输入语音的特征向量，纵轴表示按照输入歌词的顺序排列的状态链，每一点表示通过当前特征向量和状态计算的似然度分数(likelihood score)。按照最大似然准则，可描绘出最佳匹配路径。然后，可分割出输入语音中的每一音节。由于输入语音的内容是预先已知的，所以有监督音节分割单元204中的音节分割结果将非常精确。

下面，将参照图5和图6对韵律分析器104进行详细描述。

图5是示出根据本发明示例性实施例的韵律分析器104的结构的框图。如图5所示，韵律分析器104包括：静音检测器301、韵脚检测器302、重音检测器303、音节时长规范化单元304和韵律模式生成器305。

首先，对韵律模式进行简单解释。在西方音乐中，最典型的音乐节拍(music meter)为2/4拍、3/4拍和4/4拍，分别表示每一小节中包括两个、三个和四个四分音符。通常，说唱音乐的音乐节拍为4/4拍。对于每一种音乐节拍，有一定规则来决定应该加强哪一个音符。当演唱者演唱歌曲时，他/她或多或少都会受到音乐节拍规则的影响。

图6示出了三种不同的音乐节拍中的加强音符，其中，黑色圆点表示加强音符，灰色圆点表示半加强音符，白色圆点表示弱音符。如上所述，音乐节拍决定了应该加强哪一音符。

除此之外，还应该考虑韵脚，以便获得音乐的更好的韵律模式。韵脚一般由具有相同元音的字来限定。如果每一句话都以相同的韵脚结束，则听起来这些语句就会像诗一样押韵。实际上，大多数好听的歌曲的歌词都是押韵的。

为了获得效果更好的说唱音乐，应该对输入语音信号的韵律模式进行分析。如上所述，在对韵律模式进行分析过程中，有三个重要元素需要考虑：重音、韵脚和音乐节拍。韵律分析器104用于从输入语音信号中提取这些重要元素。

韵律分析器104中的静音检测器301在由音节分割单元102识别的音节串中寻找“SIL(静音)”。静音通常表示一句话的结束。关于找到的静音的信息被输入给韵脚检测器302以用于分析韵脚。

韵脚检测器302的输入参数包括：由静音检测器301检测到的输入语音中的静音的位置以及每一静音之前的元音。利用这些输入信息，韵脚检测器302可找出韵脚所在的位置。

重音检测器303利用输入语音中的每一音节的能量强度，寻找具有较高强度的音节作为输入语音中的重音。

音节时长规范化单元用于将每一音节的时长规范化为全音符、半分音符、四分之一音符或八分之一音符的长度。

韵律模式生成器305利用韵脚检测器302、重音检测器303以及音节时长规范化单元304的输出来生成输入语音的韵律模式。

下面，将参照图7描述伴奏音乐生成器105的结构和功能。

图7是示出根据本发明示例性实施例的伴奏音乐生成器105的结构的框图。参照图7，根据伴奏音乐生成器105所工作的模式(自动模式和半自动模式)，伴奏音乐生成器105大致可分为两个部分：自动伴奏音乐生成部分和半自动伴奏音乐生成部分。

首先介绍自动伴奏音乐生成部分。自动伴奏音乐生成部分接收来自韵律分析器104的输入语音信号的韵律模式，其可包括伴奏音乐模板库401、模板重复单元402、模板选择器403和音乐信号生成器404。

伴奏音乐模板库401是伴奏音乐片段的数据库。每一伴奏音乐模板根据其音乐节拍、节奏(tempo)、乐器(instruments)和乐谱(score)等进行分类。

伴奏音乐模板库401中采用三种简单的音乐节拍，包括2/4拍、3/4拍和4/4拍，这些音乐节拍的特性已经参照图6进行了描述。伴奏音乐模板库401包括三种典型的节奏，即60、90、120BPM(每分钟节拍数)，分别表示慢速、中速和快速。此外，在伴奏音乐模板库401中选择了数十种乐器，如弦乐器、键盘乐器、管乐器等，并且针对每种音乐节拍、节奏和乐器预存储了若干首独奏曲。

此外，针对伴奏音乐模板的文件格式，MIDI格式实际上比原始波形格式或压缩波形格式更适合。由于MIDI是一种符号化的音乐格式，所以MIDI在改变一些属性(如节奏或乐器)方面更灵活。当然，原始波形格式或者是压缩波形格式的音乐文件，也可以作为伴奏音乐的模板，只是其应用方式不如MIDI文件灵活。

伴奏音乐模板的韵律模式信息，如节拍和强节拍的位置和强度、韵脚的位置等，可被预存储在伴奏音乐模板库401中的存储器中。

说唱伴奏音乐通常非常简单，并且仅具有重复的4个或8个小节。因此，伴奏音乐模板库401中的伴奏音乐模板的时间长度一般非常短。模板重复单元402用于在模板选择器403中对短的伴奏音乐模板进行重复。为了保证语音转换的音质，进行模板重复之后的时间长度必须在输入语音的时间长度的0.5～2倍之间。例如，如果输入语音长度为40秒的话。那么伴奏音乐长度应该在20～80秒之间。如果1个伴奏音乐模板的长度是8秒，则应该将其分别重复3次(24秒)、4次(32秒)、5次(40秒)、6次(48秒)、7次(56秒)、8次(64秒)、9次(72秒)、10次(80秒)，形成8个伴奏音乐模板。然后通过动态规划(DP)算法，选择最合适的伴奏音乐模板。

根据从韵律分析器104输入的输入语音的韵律模式以及伴奏音乐模板的韵律模式，模板选择器403采用动态规划(DP)算法来计算输入语音和每一伴奏音乐模板之间的匹配分数(matching score)。得到最高匹配分数的伴奏音乐模板是与输入语音最佳匹配的伴奏音乐。模板选择器403还可将DP匹配结果发送给语音转换器103作为语音转换的参考。

所述DP算法如下所示：

D(i，j)＝MAX{D(i-1，j)，D(i-1，j-1)，D(i-2，j-1)}+d(i，j)

For all the(i，j)：

Initial:d(i，j)＝0

Matching a stressed beat:d(i，j)＝d(i，j)+2

Matching a weak beat:d(i，j)＝d(i，j)+1

Matching a rhythm feet:d(i，j)＝d(i，j)+1

其中，i表示输入语音的音节序列的序号，而j表示伴奏音乐的节拍序列的序号。而d(i，j)为输入语音的第i个音节的韵律模式和伴奏音乐第j个节拍的韵律模式的匹配分数(local score)，D(i，j)为输入语音的第i个音节的韵律模式和伴奏音乐第j个节拍的韵律模式的总匹配分数((accumulated score)。

所有d(i，j)的初始值均为0。如果输入语音的第i个音节和伴奏音乐第j个节拍均为强节拍，则d(i，j)加2分；如果输入语音的第i个音节和伴奏音乐第j个节拍均为弱节拍，则d(i，j)加1分；如果输入语音的第i个音节和伴奏音乐第j个节拍均为韵脚，则d(i，j)加1分。

D(i，j)应该在D(i-1，j)、D(i-1，j-1)和D(i-2，j-1)三个数值中选择最大值，然后加上d(i，j)，即为输入语音的第i个音节的韵律模式和伴奏音乐第j个节拍的韵律模式的总匹配分数。

而每一个D(i，j)是由D(i，-1j)、D(i-1，j-1)和D(i-2，j-1)三个数值中哪一个累积而得的信息，需要被记录下来。通过比较动态匹配分数的大小，应该选择动态匹配分数最高的伴奏音乐模板作为最终的伴奏音乐。而输入语音的韵律模式和该伴奏音乐的韵律模式的最佳匹配路径，即可由路径跳转信息回溯得到。

如果伴奏音乐模板被预存储为MIDI格式，则还需要音乐信号生成器404根据特定参数来合成音乐信号。所生成的音乐信号被发送给音乐混合器106作为说唱伴奏音乐。

现在，将描述半自动伴奏音乐生成部分。如图7所示，半自动伴奏音乐生成部分接收由用户通过用户接口101指定的音乐片段，其主要包括音频信号节拍检测器405、节拍强度检测器406和韵律匹配单元407。

音频信号节拍检测器405用于检测音乐音频信号中的打击乐器的节拍。根据本发明示例性实施例，例如，可以通过基于音乐声信号的每一子带检测峰值，对每一子带信号的峰值计数，组合相同时间标签处的所有峰值，寻找每一节拍的位置，来检测音乐音频信号中的打击乐器的节拍。但是，本领域技术人员应该理解，还可采用其它常用方法来检测音频信号的节拍(参见J.Foote，“The Beat Spectrum：A New Approach to Rhythm Analysis”in Proc.ofICME，pp.881-884，2001；E.Scheirer，“Tempo and Beat Analysis of AcousticMusic Signals”，J.Acoust.Soc.Am.，vol.103，no.1，pp.588-601，1998；以及M.Alonso，B.David and G.Richard，“Tempo and Beat Estimation of MusicalSignals”in Proc.of ISMIR，pp.158-163.2004)。

节拍强度检测器406用于获得在音频信号节拍检测器405中检测到的每一节拍的强度。节拍强度检测器406计算并比较检测的每一节拍的强度，将所有节拍划分为两类：强节拍和非强节拍。

通过结合音频信号节拍检测器405以及节拍强度检测器406输出的结果，可以提取简单形式的韵律模式。在这种韵律模式中仅包括有关强节拍的信息，并且在韵律匹配单元407中使用该强节拍信息来与输入语音进行匹配。

韵律匹配单元407用于获得输入语音的韵律模式和指定的伴奏音乐的韵律模式之间的最佳匹配路径。韵律匹配单元407中所使用的方法与模板选择器403中所使用的DP匹配算法类似。但是，韵律匹配单元407中所使用的方法与模板选择器403中所使用的DP匹配算法有一点不同，在于：由节拍强度检测器提取的伴奏音乐的韵律模式是简化形式。

韵律匹配单元407中所使用的DP匹配算法如下所示：

D(i，j)＝MAX{D(i-1，j)，D(i-1，j-1)，D(i-2，j-1)}+d(i，j)

For all the(i，j)：

Initial:d(i，j)＝0

Matchinga stressed beat:d(i，j)＝d(i，j)+2

Matching a unstressed beat:d(i，j)＝d(i，j)+1

其中，i表示输入语音的音节序列的序号，而j表示伴奏音乐的节拍序列的序号。而d(i，j)为输入语音的第i个音节的韵律模式和伴奏音乐第j个节拍的韵律模式的匹配分数，D(i，j)为输入语音的第i个音节的韵律模式和伴奏音乐第j个节拍的韵律模式的总匹配分数。

所有d(i，j)的初始值均为0。如果输入语音的第i个音节和伴奏音乐第j个节拍均为强节拍，则d(i，j)加2分；如果输入语音的第i个音节和伴奏音乐第j个节拍均为非强节拍，则d(i，j)加1分。

D(i，j)应该在D(i，-1j)、D(i-1，j-1)和D(i-2，j-1)三个数值中选择最大值，然后加上d(i，j)，即为输入语音的第i个音节的韵律模式和伴奏音乐第j个节拍的韵律模式的总匹配分数。

而每一个D(i，j)是由D(i，-1j)、D(i-1，j-1)和D(i-2，j-1)三个数值中哪一个累积而得的信息，需要被记录下来。通过比较动态匹配距离的大小，应该选择动态匹配分数最高的伴奏音乐模板作为最终的伴奏音乐。而输入语音的韵律格式和该伴奏音乐的韵律模式的最佳匹配路径，即可由路径跳转信息回溯得到。

如上所述，伴奏音乐生成器105包括在不同的模式下工作的自动伴奏音乐生成部分和半自动伴奏音乐生成部分。伴奏音乐生成器105的输出主要包括：伴奏音乐的音频信号，将在音乐混合单元106中使用；伴奏音乐的韵律模式，将在语音转换器103中使用；输入语音的韵律模式和伴奏音乐的韵律模式之间的最佳匹配路径，将在语音转换器103中使用。

以下，将参照图8描述语音-说唱转换设备100中的语音转换器103的结构和功能。

图8是根据本发明示例性实施例的语音转换器103的结构的框图。参照图8，语音转换器103用于根据输入语音的韵律模式和生成的伴奏音乐的韵律模式及其之间的最佳匹配路径来将经过音节分割的输入语音转换为说唱形式。如图8所示，语音转换器103包括：起始位置同步单元501、音节时长修改单元502、音节加强单元503、音节减弱单元504和音节边界平滑器505。

起始位置同步单元501用于使输入语音中的元音的起始位置与伴奏音乐的节拍的起始位置同步。

音节时长修改单元502用于根据伴奏音乐的韵律模式来修改输入语音中的每一音节的时长，并根据伴奏音乐的韵律模式来修改停顿的时长。

音节加强单元503用于增强需要加强的音节的强度，并将该音节的基音轨迹改变为上升形状以获得加强效果。

如果在弱节拍位置的音节的强度太高，则音节减弱单元504用于减小该音节的强度。

音节边界平滑器505用于对相邻音节之间的边界进行平滑。音节边界平滑器505调节音频信号的相位以保证一对相邻音节之间的波形连贯性。

此外，语音转换器103除了上述自动模式之外，还可以通过用户接口101来控制。语音转换器103可向用户提供用户界面以改变匹配结果，例如，用户能够组合一个节拍中的两个音节，或者将一个音节扩展到两个节拍。此外，语音转换器103还可向用户提供用户界面以改变每一音节的属性，例如，用户能够升高、降低或者弯曲任何音节的基音，并且能够加强或减弱任何音节的强度。

音乐混合器106接收来自语音转换器104的说唱形式的语音的音频音轨以及来自伴奏音乐生成器105的伴奏音乐的音频音轨，并将其混合成带有伴奏的说唱音乐。

音乐混合器106的主要操作如下：按照用户指定的比例或者默认的1比1比例来合成两个音频音轨；向用户提供用户界面以修饰合成的音乐；向用户提供用户界面以减慢或加快说唱音乐；还可对说唱音乐进行均衡。针对修饰合成的音乐，用户能够添加诸如“嗯”、“啊”、“哈”、“唔”、“呀”、“嘢”等的感叹词，添加诸如风声、车铃声等的一些自然声音，并且可添加刮擦声以及嘻哈音乐中的其它一些音效。

下面，将以语音-说唱转换设备100应用于移动电话为例描述根据本发明示例性实施例的用户界面。但是，本领域技术人员应该理解，本发明不限于此。所述语音-说唱转换设备100还可应用在其它装置中，例如音乐播放器、PDA、PC等中。

图9A至图12B示出了根据本发明示例性实施例的语音-说唱转换设备100中提供的用户界面。

图9A和图9B示出了在自动模式下的语音-说唱转换设备100所提供的用户界面。如图9A所示，用户仅需要通过例如移动电话上的麦克风录制一段语音信号，然后根据本发明的语音-说唱转换设备100即可将输入语音自动转换为带有说唱伴奏音乐的说唱歌曲。之后，如图9B所示，用户可通过例如移动电话上的耳机来欣赏合成的说唱音乐。

图10A示出了根据本发明的语音-说唱转换设备100所提供的用于导入伴奏音乐片段的用户界面。如前面所描述的，除了从伴奏音乐模板库中选择伴奏音乐之外，用户还可通过如图10A所示的用户界面导入自己喜欢的音乐片段作为说唱伴奏音乐。根据本发明的语音-说唱转换设备100可从导入的音乐片段中提取韵律信息，获得最佳匹配路径，并将其应用于输入语音。图10B示出了根据本发明的语音-说唱转换设备100所提供的用于输入语音信号的歌词的用户界面。用户可通过如图10B所示的用户界面输入歌词，从而使得对输入语音的韵律模式分析结果更精确。

图11A和图11B示出了根据本发明的语音-说唱转换设备100所提供的用于修改和编辑说唱音乐属性的用户界面。

如图11A所示，用户可通过该用户界面来编辑音节分割和韵律模式匹配的结果。该用户界面可以针对输入语音的每一音节修改其属性。由于当前示例针对移动电话上的应用，因此移动电话上经常使用的一些按钮可以被指定为特定用途。例如，移动电话上的上/下/左/右方向键可分别用作使屏幕上的光标移动以选择将要编辑的音节的方向键，数字键1、2和3可分别用作调节音节的基音(升高、弯曲或降低)的按钮，数字键4和6可用作加强和减弱音节的强度的按钮，而数字键7和9可用于使被选择的音节移动到前一节拍或后一节拍的按钮。

图11B示出了根据本发明的语音-说唱转换设备100所提供的用于向合成的说唱音乐添加音效的用户界面。与上面的示例相似，数字键1～6可分别用作添加“嗯”、“啊”、“哈”、“唔”、“呀”、“嘢”感叹词以修饰说唱音乐的按钮，数字键7和9可用于加快和减慢说唱音乐的速度，而不改变说唱音乐的基音和音色。此外，用户还可通过该用户界面播放并收听合成的说唱音乐，通过相应的按钮在合适的位置添加期望的音效，从而可获得更理想的说唱音乐。

下面，将参照图12至图15描述根据本发明的将语音转换为说唱音乐的方法。

图12是示出根据本发明示例性实施例的将语音转换为说唱音乐的方法的流程图。如图12所示，当用户通过例如麦克风输入一段语音时，在步骤1201，对输入语音信号的每一音节进行分割。如参照图2所描述的，根据本发明的将语音转换为说唱音乐的方法可预先使用EM算法利用几百小时的语料来训练HMM并建立HMM数据库，并根据用户的输入从输入语音中提取39维MFCC特征向量，从而利用HMM数据库中的HMM来获得输入语音的每一音节的时长和强度、每一元音的起始位置等。此外，如果用户还输入了与语音对应的歌词，则在步骤1201，可以更精确地对输入语音信号的音节进行分割。

在步骤1203，根据在步骤1201中获得的结果来分析输入语音，以获得输入语音的韵律模式。在步骤1203中，主要考虑重音、韵脚以及音乐节拍这三个元素来分析韵律模式。

将参照图13对步骤1203的过程进行更描述的描述。参照图13，在分析输入语音的韵律模式时，首先，在步骤1301，已经在步骤1201中进行了分割的输入语音中的静音(通常表示一句话的结束)被检测。随后，在步骤1303，利用步骤1301中所检测到的输入语音中的静音的位置以及每一静音之前的元音，检测输入语音中的韵脚所在的位置。

接下来，在步骤1305，使用输入语音中的每一音节的强度来检测重音所在的位置。在步骤1307，将每一音节的时长规范化为全音符、半分音符、四分之一音符或八分之一音符的长度。利用上述步骤的结果，在步骤1309，生成输入语音的韵律模式。

再返回图12，在步骤1203之后的步骤1205中生成说唱伴奏音乐。

在根据本发明的将语音转换为说唱音乐的方法中，生成说唱伴奏音乐的方式有两种：自动伴奏音乐生成方式，其中，依据输入语音的韵律模式从伴奏音乐模板库中选择合适的伴奏音乐；半自动伴奏音乐生成方式，其中，用户可导入喜欢的音乐片段作为伴奏音乐。

下面，将参照图14A和图14B分别根据这两种方式对步骤1205的过程进行更详细的描述。

图14A示出了在自动伴奏音乐生成模式下生成伴奏音乐的过程。参照图14A，在自动伴奏音乐生成模式下，将使用预建立的伴奏音乐模板库来选择伴奏音乐。所述伴奏音乐模板库中存储了若干根据其音乐节拍、节奏、乐器等进行分类的典型伴奏音乐模板。由于说唱伴奏音乐通常非常简单，仅具有4个或8个小节，所以伴奏音乐模板库中的伴奏音乐模板通常很短。因此，在步骤1401，首先将来自伴奏音乐模板库的伴奏音乐模板不断重复，以形成合适长度的伴奏音乐模板。然后，在步骤1403中，基于对输入语音的韵律模式的分析结果，从伴奏音乐模板库中选择适合的伴奏音乐。

如上面参照图7所描述的，可采用DP算法来计算输入语音和每一经过重复的伴奏音乐模板之间的匹配分数，并选择具有最高匹配分数的伴奏音乐模板。同时，还可以获得选择的伴奏音乐的韵律模式。此外，如果存储的伴奏音乐模板是MIDI格式的，则需要在步骤1405中合成音乐信号。

图14B示出了在半自动伴奏音乐生成模式下生成伴奏音乐的过程。参照图14B，在半自动伴奏音乐生成模式下，如果用户导入特定的音乐片段作为伴奏音乐，则在步骤1407中，首先检测所导入的音频信号中的打击乐器的节拍。之后，在步骤1409，检测在步骤1407中获得的每一节拍的强度，并根据强度将所有节拍划分为强节拍和非强节拍。根据上述步骤的检测结果，可以获得导入的音乐片段的简单的韵律模式信息，该韵律模式信息仅包括有关强节拍的信息。

在步骤1411，根据导入音乐的韵律模式，获得输入语音的韵律模式和指定的伴奏音乐的韵律模式之间的最佳匹配路径。在步骤1411中，同样可采用DP匹配算法来计算输入语音和伴奏音乐之间的最佳匹配路径。

再返回图12，利用在步骤1205中获得的伴奏音乐的韵律模式以及最佳匹配路径，在操作1207中，将经过音节分割的输入语音转换为说唱形式。

详细地讲，参照图15，在将输入语音转换为说唱形式的过程中，首先在步骤1501，根据伴奏音乐的韵律模式，将输入语音中的元音的起始位置与伴奏音乐的节拍的起始位置同步。在步骤1503，根据伴奏音乐的韵律模式修改输入语音中的每一音节以及停顿的时长。然后，在步骤1505，针对输入语音中需要加强的音节，通过将该音节的基音轨迹改变为上升形状来获得加强该音节的效果。

在步骤1507，如果弱节拍位置处的音节的强度太高，则可以减小该音节的强度。最后，在步骤1509中，对相邻音节之间的边界进行平滑，以使得相邻音节之间的波形连续、无断点。需要注意的是，步骤1501至1509可以根据需要按照不同的顺序执行。

此外，在步骤1207过程中，还可由用户来控制语音转换过程。例如，用户可以升高、降低或弯曲任何音节的基音，或者加强或减弱任何音节的强度。

再返回图12，在完成输入语音的转换之后，在步骤1209，利用在步骤1205中获得的伴奏音乐以及在步骤1207中转换的语音来合成带有伴奏的说唱音乐。此外，用户还可通过交互用户界面向合成的说唱音乐添加音效。

应该注意，在本发明的一些修改中，流程图方框或操作中所描述的功能可以不按所示顺序执行。例如，连续显示的两个方框或操作实际上可以同时执行，或者某些时候可以根据相应的功能而以相反的顺序执行。

本发明提供了一种将用户输入的语音转换为说唱音乐的设备和方法。该设备和方法可直接作用于用户输入的语音，将其转换为说唱形式，并配以伴奏音乐，同时保持了用户语音的基音和音色。同时，本发明的设备和方法还为用户提供了丰富的交互式界面，让用户可以修改输入语音每一个字的属性，以达到用户期待的效果。

通过根据本发明的将语音转换为说唱音乐的设备和方法，可以基于用户输入的语音自动产生有用户特色的说唱音乐。此外，可以自动为用户输入的语音产生说唱伴奏，同时用户还可选择其它喜欢的音乐作为伴奏音乐。该设备和方法可应用于移动电话、音乐播放器、PDA等具有记录和回放装置的便携式装置，也可以应用于个人计算机、便携式计算等设备当中。

根据本发明的将语音转换为说唱音乐的设备和方法满足了用户谱写自己的说唱歌曲的愿望，从而满足了用户对个性的追求。用户可仅通过例如麦克风说出自己喜欢的文章、诗歌、歌词等即可形成由用户自己的声音演唱的说唱音乐。因此，即使没有任何作曲知识或演唱技巧的用户也可通过本发明的设备和方法制作自己的说唱音乐。

尽管已显示和描述了几个示例性实施例，但是本领域技术人员应该理解，在不脱离在权利要求及其等同物中限定其范围的实施例的原理和精神的情况下，可对这些示例性实施例进行改变。

Claims

1、一种将语音转换为说唱音乐的设备，包括：

伴奏音乐生成部分，用于生成说唱伴奏音乐；

语音转换部分，基于伴奏音乐生成部分所生成的伴奏音乐，将用户输入的语音转换为说唱形式；

音乐混合部分，将伴奏音乐生成部分所生成的说唱伴奏音乐以及由语音转换部分所转换的说唱形式的语音相混合，以形成说唱音乐。

2、如权利要求1所述的设备，其中，所述语音转换部分包括：

音节分割器，将输入语音分割为多个音节以获得关于每一音节的信息；

韵律分析器，基于音节分割单元获得的信息，分析输入语音以检测输入语音的韵律模式；

语音转换器，根据伴奏音乐生成部分所生成的伴奏音乐的韵律模式，将经过音节分割的输入语音转换为说唱形式。

3、如权利要求2所述的设备，其中，所述音节分割器包括：

特征提取器，从输入语音中提取MFCC特征向量；

HMM数据库，存储有通过期望最大化算法训练出的基于音素的HMM；

音节分割单元，利用由特征提取器提取的MFCC特征向量以及存储在HMM数据库中的HMM，将输入语音分割为多个音节。

4、如权利要求3所述的设备，其中，所述关于每一音节的信息包括每一音节的时长和强度、每一元音的起始位置和韵脚的可能位置中的至少一种。

5、如权利要求3所述的设备，其中，每一MFCC特征向量包括13维MFCC特征、13维MFCC一阶差分特征以及13维MFCC二阶差分特征，共39维。

6、如权利要求3所述的设备，其中，所述音节分割单元包括：

无监督音节分割单元，利用提取的MFCC特征向量以及存储的HMM来对输入语音的音节进行分割；

有监督音节分割单元，利用提取的MFCC特征向量、存储的HMM以及用户输入的歌词来对输入语音的音节进行分割。

7、如权利要求6所述的设备，其中，所述无监督音节分割单元的解码网络是使用Viterbi方法的音节回路。

8、如权利要求6所述的设备，其中，所述有监督音节分割单元采用强制对齐方法来对输入语音的音节进行分割。

9、如权利要求2所述的设备，其中，所述韵律分析器检测输入语音中的重音、韵脚以及音乐节拍中的至少一种。

10、如权利要求9所述的设备，其中，所述韵律分析器包括：

静音检测器，检测输入语音中的静音；

韵脚检测器，基于由静音检测器检测到的静音的位置以及每一静音前面的元音，检测韵脚所在的位置；

重音检测器，检测具有高强度的音节；

音节时长规范化单元，将每一音节的时长规范化。

11、如权利要求2所述的设备，其中，所述伴奏音乐生成部分包括：

伴奏音乐模板库，存储说唱伴奏音乐模板；

模板选择器，基于由所述韵律分析器检测到的输入语音的韵律模式，从伴奏音乐模板库中选择说唱伴奏音乐模板，作为输入语音的伴奏音乐。

12、如权利要求11所述的设备，其中，所述模板选择器计算输入语音和每一说唱伴奏音乐模板之间的匹配分数，并选择具有最高匹配分数的说唱伴奏音乐模板作为输入语音的伴奏音乐。

13、如权利要求12所述的设备，其中，所述模板选择器使用动态规划算法来计算输入语音和每一说唱伴奏音乐模板之间的匹配分数。

14、如权利要求11所述的设备，其中，所述伴奏音乐生成部分还包括：

模板重复单元，根据输入语音的长度，将伴奏音乐模板库中的说唱伴奏音乐模板进行重复。

15、如权利要求14所述的设备，其中，模板重复单元对说唱伴奏音乐模板进行重复，以使得重复后的说唱伴奏音乐模板的长度在输入语音的长度的0.5～2倍之间。

16、如权利要求11所述的设备，其中，伴奏音乐模板库中的说唱伴奏音乐模板是MIDI格式或者是标注了韵律模式的音乐格式。

17、如权利要求16所述的设备，其中，所述伴奏音乐生成部分还包括：

音乐信号生成器，基于由模板选择器选择的MIDI格式的说唱伴奏音乐模板生成音乐信号。

18、如权利要求11所述的设备，其中，伴奏音乐模板库中的说唱伴奏音乐模板按照音乐节拍、节奏、乐器和乐谱中的至少一种进行分类。

19、如权利要求18所述的设备，其中，说唱伴奏音乐模板的韵律信息被预存储在伴奏音乐模板库中。

20、如权利要求2所述的设备，其中，所述伴奏音乐生成部分包括：

节拍检测器，检测用户指定作为输入语音的伴奏音乐的音乐片段的节拍；

节拍强度检测器，检测由节拍检测器检测到的节拍的强度，并将所有节拍划分为强节拍和非强节拍，从而获得所指定的伴奏音乐的韵律模式；

韵律匹配单元，计算输入语音的韵律模式和指定的伴奏音乐的韵律模式之间的最佳匹配路径。

21、如权利要求20所述的设备，其中，所述韵律匹配单元使用动态规划算法来计算所述最佳匹配路径。

22、如权利要求11或20所述的设备，其中，所述语音转换器包括：

起始位置同步单元，使输入语音的元音的起始位置与伴奏音乐的节拍的起始位置同步；

音节时长修改单元，根据伴奏音乐的韵律模式，修改输入音乐中的每一音节的时长以及停顿的时长；

音节加强单元，根据伴奏音乐的韵律模式，提高输入语音中需要加强的音节的强度；

音节减弱单元，根据伴奏音乐的韵律模式，减小输入语音中处于弱节拍位置的音节的强度；

音节边界平滑单元，对相邻音节之间的边界进行平滑。

23、如权利要求22所述的设备，还包括：用户接口，用户可通过该用户接口执行下列操作中的至少一种：编辑音节分割和韵律模式匹配的结果；添加修饰音效；改变说唱音乐的速度。

24、一种将语音转换为说唱音乐的方法，包括：

a)生成说唱伴奏音乐；

b)基于生成的伴奏音乐，将用户输入的语音转换为说唱形式；

c)将生成的说唱伴奏音乐以及转换的说唱形式的语音相混合，以形成说唱音乐。

25、如权利要求24所述的方法，其中，步骤b)包括：

d)将输入语音分割为多个音节以获得关于每一音节的信息；

e)基于获得的信息分析输入语音，以检测输入语音的韵律模式；

f)根据伴奏音乐的韵律模式，将经过音节分割的输入语音转换为说唱形式。

26、如权利要求25所述的方法，其中，步骤d)包括：

g)从输入语音中提取MFCC特征向量；

h)利用提取的MFCC特征向量以及预存储在HMM数据库中的HMM，将输入语音分割为多个音节。

27、如权利要求26所述的方法，其中，步骤h)包括：

当用户没有输入歌词时，通过使用Viterbi方法的音节回路，利用提取的MFCC特征向量以及存储的HMM来对输入语音的音节进行分割；

当用户输入了歌词时，采用强制对齐方法，利用提取的MFCC特征向量、存储的HMM以及用户输入的歌词来对输入语音的音节进行分割。

28、如权利要求25所述的方法，其中，步骤e)包括：

检测输入语音中的静音；

基于检测到的静音的位置以及每一静音前面的元音，检测韵脚所在的位置；

检测具有高强度的音节；

将每一音节的时长规范化。

29、如权利要求25所述的方法，其中，步骤a)包括：

i)基于在步骤e)中检测到的输入语音的韵律模式，从伴奏音乐模板库中选择说唱伴奏音乐模板，作为输入语音的伴奏音乐。

30、如权利要求29所述的方法，其中，在步骤i)中，使用动态规划算法计算输入语音和每一说唱伴奏音乐模板之间的匹配分数，并选择具有最高匹配分数的说唱伴奏音乐模板作为输入语音的伴奏音乐。

31、如权利要求29所述的方法，其中，步骤a)还包括：

j)根据输入语音的长度，将伴奏音乐模板库中的说唱伴奏音乐模板进行重复。

32、如权利要求31所述的方法，其中，在步骤j)中，对说唱伴奏音乐模板进行重复，以使得重复后的说唱伴奏音乐模板的长度在输入语音的长度的0.5～2倍之间。

33、如权利要求29所述的方法，其中，当所述伴奏音乐模板库中的说唱伴奏音乐模板是MIDI格式时，步骤a)还包括：基于选择的MIDI格式的说唱伴奏音乐模板生成音乐信号。

34、如权利要求25所述的方法，其中，步骤a)包括：

检测用户指定作为输入语音的伴奏音乐的音乐片段的节拍；

检测节拍的强度，并将所有节拍划分为强节拍和非强节拍，从而获得所指定的伴奏音乐的韵律模式；

计算输入语音的韵律模式和指定的伴奏音乐的韵律模式之间的最佳匹配路径。

35、如权利要求34所述的方法，其中，使用动态规划算法来计算所述最佳匹配路径。

36、如权利要求29或34所述的方法，其中，步骤f)包括：

使输入语音的元音的起始位置与伴奏音乐的节拍的起始位置同步；

根据伴奏音乐的韵律模式，修改输入音乐中的每一音节的时长以及停顿的时长；

根据伴奏音乐的韵律模式，提高输入语音中需要加强的音节的强度；

根据伴奏音乐的韵律模式，减小输入语音中处于弱节拍位置的音节的强度；

对相邻音节之间的边界进行平滑。