CN106205571A

CN106205571A - 一种歌声语音的处理方法和装置

Info

Publication number: CN106205571A
Application number: CN201610471870.6A
Authority: CN
Inventors: 冯穗豫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2016-12-07

Abstract

本发明公开一种歌声语音的处理方法和装置，用于通过MIDI形式记录歌声语音，实现真人原唱歌曲在MIDI文件中的记录。本发明实施例提供的处理方法中，从待处理的歌声语音文件中确定出歌声原唱音符；从歌声原唱音符中提取出歌声原唱特征，歌声原唱特征包括：歌声原唱音高、歌声原唱响度和歌声原唱音素，歌声原唱音高包括：歌声原唱音符的音符时间长度；根据歌声原唱特征生成乐器数字接口MIDI文件，MIDI文件的音符起止参数中记录有歌声原唱音高，MIDI文件的发音响度参数中记录有歌声原唱响度，MIDI文件的可见文字参数中记录有歌声原唱音素，音符起止参数中音符开始和音符结束之间的时间长度与歌声原唱音符的音符时间长度相等。

Description

一种歌声语音的处理方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种歌声语音的处理方法和装置。

背景技术

在音频处理技术领域中，乐器数字接口(英文全称：Musical Instrument DigitalInterface，英文简称：MIDI)格式是被接受作为实际标准的音乐标准格式。一般地，通过控制称作MIDI声源的数字声源而用MIDI格式产生音乐声音。其中，MIDI声源可以是由MIDI格式的数据激发产生的声源，如计算机声源或电子乐器的声源。歌词数据可引入到MIDI文件中，例如可形成标准MIDI文件(英文全称：Standard MIDI File，英文简称：SMF)，从而可自动地编制具有歌词的音乐声音。

虽然上述方案可以用MIDI格式的数据形式来表现音乐声音，MIDI格式是为记录乐器的演奏而生的产物，比如采用MIDI格式的数据记录小提琴演奏的时候，小提琴演奏某个音符的强弱变化就可以通过MIDI格式的数据记录下来。但是上述MIDI数据是为控制乐器编制的MIDI数据，在该MIDI数据只能记录乐器的音乐声音，而无法记录真人的原唱歌曲。

发明内容

本发明实施例提供了一种歌声语音的处理方法和装置，用于通过MIDI形式记录歌声语音，从而实现真人原唱歌曲在MIDI文件中的记录。

为解决上述技术问题，本发明实施例提供以下技术方案：

第一方面，本发明实施例提供一种歌声语音的处理方法，包括：

从待处理的歌声语音文件中确定出歌声原唱音符；

从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高、歌声原唱响度和歌声原唱音素，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度；

根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等。

第二方面，本发明实施例还提供一种歌声语音的处理装置，包括：

音符确定模块，用于从待处理的歌声语音文件中确定出歌声原唱音符；

原唱特征提取模块，用于从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高、歌声原唱响度和歌声原唱音素，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度；

原唱特征记录模块，用于根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，首先通过歌声语音文件确定出歌声原唱音符，通过该歌声原唱音符可以获取到歌声原唱特征，该歌声原唱特征中包括有歌声原唱音高、歌声原唱响度和歌声原唱音素，接下来将歌声原唱特征记录在MIDI文件中，具体的MIDI文件的音符起止参数中记录有歌声原唱音高，MIDI文件的发音响度参数中记录有歌声原唱响度，MIDI文件的可见文字参数中记录有歌声原唱音素。通过歌声原唱特征生成的MIDI文件中可以记录歌声语音，从而实现真人原唱歌曲在MIDI文件中的记录，记录有歌声原唱特征的MIDI文件可以方便用户的交流和普及，有利于数字音乐体系的规范化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种歌声语音的处理方法的流程方框示意图；

图2为本发明实施例提供的一种生成MIDI文件的流程方框示意图；

图3-a为本发明实施例中歌声原唱音符的一种应用场景示意图；

图3-b为本发明实施例中歌声原唱音符的另一种应用场景示意图；

图4-a为本发明实施例提供的歌声原唱音高的弯音参数的应用场景示意图；

图4-b为本发明实施例提供的歌声原唱音高的弯音参数的表示方法示意图；

图5-a为本发明实施例提供的歌声原唱对应的波形示意图；

图5-b为本发明实施例提供的图5-a中波形对应的发音响度参数的变化示意图；

图6为本发明实施例中歌声原唱歌词在MIDI文件中的应用场景示意图；

图7-a为本发明实施例提供的一种歌声语音的处理装置的组成结构示意图；

图7-b为本发明实施例提供的另一种歌声语音的处理装置的组成结构示意图；

图7-c为本发明实施例提供的另一种歌声语音的处理装置的组成结构示意图；

图7-d为本发明实施例提供的另一种歌声语音的处理装置的组成结构示意图；

图8为本发明实施例提供的歌声语音的处理方法应用于终端的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明歌声语音的处理方法的一个实施例，具体可以应用于对真人发声的歌声语音的精确记录中，便于用户的后续还原使用。请参阅图1所示，本发明一个实施例提供的歌声语音的处理方法，可以包括如下步骤：

101、从待处理的歌声语音文件中确定出歌声原唱音符。

在本发明实施例中，对于用户的歌声语音文件需要进行标准格式记录时，首先获取到歌声语音文件，该歌声语音文件可以作为待处理的歌声语音文件。例如，用户可以通过麦克风录入歌声语音文件，该歌声语音文件中承载有用户所唱歌曲的数据内容，又如可以从存储设备中获取到待处理的歌声语音文件。然后对待处理的歌声语音文件进行语音分析，从歌声语音文件中识别出独立的歌声原唱音符，该歌声原唱音符是指歌声语音文件中分割出的最小单位，通过对每个歌声原唱音进行后续处理过程，可以生成多个MIDI事件，通过多个MIDI事件组合得到MIDI文件。该歌声原唱音符可以是用户唱歌时发声的具体音符，该歌声原唱音符可以是用户要唱的中央C的音符。另外，从歌声语音文件中确定出的歌声原唱音符的音符数目不做限定，例如可以是一个歌声原唱音符，也可以是连续或者不连续的多个歌声原唱音符。

102、从歌声原唱音符中提取出歌声原唱特征，歌声原唱特征包括：歌声原唱音高、歌声原唱响度和歌声原唱音素，歌声原唱音高包括：歌声原唱音符的音符时间长度。

在本发明实施例中，确定出歌声原唱音符之后，通过对歌声原唱音符的分析，可以从歌声原唱音符中分别提取出歌声原唱音高、歌声原唱响度和歌声原唱音素，则歌声原唱音高、歌声原唱响度和歌声原唱音素可以构成歌声原唱音符对应的歌声原唱特征。其中，歌声原唱音高是指用户唱歌时发出的各种不同高低的声音，在歌声原唱音高中包括有歌声原唱音符的音符时间长度，即用户唱歌时一个音符所占的时长，对于不同的歌声原唱音符需要具体确定该音符的时间长度。比如歌声原唱特征中，歌声原唱音高是一个很典型且重要的特征。音高的提取也可以称为Pitch Extraction，可以是根据歌声语音文件的基频(英文名称：Base Frequency)参数来获取的，例如基频参数的提取用Sound Touch开源库就可以实现。歌声原唱响度是指用户唱歌时发音对听者人耳感受到的声音强弱，歌声原唱响度的大小决定于声音接收处的波幅。歌声原唱音素是拆分成复音的元音。以英语为例共有48个音素，元音20个，辅音28个。歌声原唱音素可以使用音标作为符号。

具体的，歌声原唱音高可以通过从歌声原唱音符中提取出的基频参数计算得到。例如，首先从歌声原唱音符中提取出基频参数，接下来根据基频参数计算歌声原唱音高。常采用的计算方式可以如下：

p = 69 + 12 \times \log_{2} (\frac{f}{440 H z});

其中，f是基频参数，即歌声原唱音符的频率，p是歌声原唱音高。当用户精准地唱到A3的时候，f＝440赫兹(英文名称：Hz)。

在本发明的一些实施例中，歌声原唱特征还可以包括：对歌声原唱音素进行语音评测后得到的歌声原唱歌词，该歌声原唱歌词可以采用多种编码方式，例如可变长度字符编码(英文名称：Unicode Transformation Format，英文简称：UTF)，具体的，可以使用UTF-8编码或者UTF-16编码或者UTF-32编码等。

103、根据歌声原唱特征生成MIDI文件，MIDI文件的音符起止参数中记录有歌声原唱音高，MIDI文件的发音响度参数中记录有歌声原唱响度，MIDI文件的可见文字参数中记录有歌声原唱音素，音符起止参数中音符开始和音符结束之间的时间长度与歌声原唱音符的音符时间长度相等。

在本发明实施例中，从歌声原唱音符中获取到歌声原唱音高、歌声原唱响度和歌声原唱音素作为歌声原唱特征，然后根据该歌声原唱特征生成乐器数字接口MIDI文件，MIDI文件的音符起止参数中记录有歌声原唱音高，MIDI文件的发音响度参数中记录有歌声原唱响度，MIDI文件的可见文字参数中记录有歌声原唱音素。本发明实施例中，MIDI标准早期为解决电声乐器之间的通信问题而提出的，MIDI是编曲界最广泛的音乐标准格式，可称为计算机能理解的乐谱，它用音符的数字控制信号来记录乐器演奏的音乐。本发明实施例中使用MIDI格式这一广泛通用的标准来记录用户的歌声语音，从而使得歌声语音能够具有统一规范的文件格式，并且在MIDI文件中存储的歌声原唱特征还可以通过MIDI文件中的各个参数进行还原输出。这种记录有歌声原唱特征的MIDI文件具有广泛的应用基础，例如在歌曲合成和歌曲评分测试中均可以使用。

通过以上实施例对本发明实施例的描述可知，首先通过歌声语音文件确定出歌声原唱音符，通过该歌声原唱音符可以获取到歌声原唱特征，该歌声原唱特征中包括有歌声原唱音高、歌声原唱响度和歌声原唱音素，接下来将歌声原唱特征记录在MIDI文件中，具体的MIDI文件的音符起止参数中记录有歌声原唱音高，MIDI文件的发音响度参数中记录有歌声原唱响度，MIDI文件的可见文字参数中记录有歌声原唱音素。通过歌声原唱特征生成的MIDI文件中可以记录歌声语音，从而实现真人原唱歌曲在MIDI文件中的记录，记录有歌声原唱特征的MIDI文件可以方便用户的交流和普及，有利于数字音乐体系的规范化。

为便于更好的理解和实施本发明实施例的上述方案，下面举例相应的应用场景来进行具体说明。在发明前述实施例提供的步骤103中根据歌声原唱特征生成乐器数字接口MIDI文件，针对歌声原唱特征中包括的具体特征内容可以记录在MIDI文件的具体参数中，以便于该MIDI文件能够无失真的输出这些歌声原唱特征。也就是说，本发明实施例中步骤103中可以包括如下步骤，请参阅图2所示，步骤103具体包括：

A1、将歌声原唱音高记录在MIDI文件的音符起止参数中，音符起止参数中音符开始和音符结束之间的时间长度与歌声原唱音符的音符时间长度相等。

A2、根据歌声原唱响度修改MIDI文件的发音响度参数。

A3、将歌声原唱音素记录在MIDI文件的可见文字参数中。

其中，步骤A1、步骤A2和步骤A3之间没有严格的先后顺序关系，可以先执行步骤A1再执行步骤A2和步骤A3，也可以先执行步骤A2再执行步骤A1和步骤A3，还可以先执行步骤A3再执行步骤A1和步骤A2，对此不作限定，图2中仅以先执行步骤A1，然后执行步骤A2，接下来执行步骤A3进行示意说明。接下来分别对步骤A1至步骤A3的具体实现方式进行举例说明，首先在步骤A1中，MIDI文件中的音符起止参数可以包括音符开始(英文名称：NOTE ON)和音符结束(英文名称：NOTE OFF)，则NOTE ON和NOTE OFF在之间的时间长度即为一个歌声原唱音符的音符时间长度。

在本发明的一些实施例中，步骤103根据歌声原唱特征生成MIDI文件，具体包括如下步骤：

A11、将歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中，歌声原唱音高通过从歌声原唱音符中提取出的基频参数计算得到。

其中，步骤A11中具体描述了步骤A1的一种实现方式，歌声原唱音高通过从歌声原唱音符中提取出的基频参数计算得到，例如前述歌声原唱音高的计算公式，再对该歌声原唱音高进行取整处理，例如可以是向上取整，也可以是向下取整，也可以是通过四舍五入计算得到歌声原唱音高对应的整数部分。例如通过基频参数f计算出歌声原唱音高p后，通过四舍五入计算，得到歌声原唱音高p的整数部分。

进一步的，在本发明的一些实施例中，步骤103根据歌声原唱特征生成乐器数字接口MIDI文件中除了执行步骤A11之后，还可以包括如下步骤：

A12、将歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中之后，根据歌声原唱音高和整数部分确定歌声原唱音高对应的小数部分，并将歌声原唱音高对应的小数部分记录在MIDI文件的弯音参数中。

其中，在计算出歌声原唱音高p对应的整数部分之后，还可以计算出歌声原唱音高p对应的小数部分，将歌声原唱音高对应的小数部分记录在MIDI文件的弯音参数(英文名称：PITCH BEND)中，其中，弯音参数的MIDI信息可以采用表达方式0xE0LL HH来记录歌声原唱音高对应的小数部分。

进一步的，步骤A12将歌声原唱音高对应的小数部分记录在MIDI文件的弯音参数中，可以包括如下步骤：

A121、根据预置的弯音敏感度(英文全称：Pitch Bend Sensitivity，英文简称：PBS)将歌声原唱音高对应的小数部分记录在MIDI文件的弯音参数中。

其中，弯音敏感度定义了弯音参数最大可表示的半音范围。也就是说，当弯音敏感度设置为1的时候，表示弯音的最小值和最大值跨越1个半音，当弯音敏感度设置为2的时候，可以跨越2个半音(即一个全音)。

接下来对MIDI文件中的音符起止参数中记录歌声原唱音高进行说明如下。用户在唱歌的时候，不会像机械一样完美地唱到一个音符上，比如要唱中央C(为了方便描述，后续中央C用C3表示，高八度的C调的Do就是C4)，用户总会在其附近抖动。请参阅图3-a所示，为本发明实施例中歌声原唱音符的一种应用场景示意图。在图3-a中，给出了两个歌声原唱音符分别用音符1和音符2来表示，音符1和音符2的曲线类似图3-a中的波浪线，每个方框圈住的一段波浪线表示一个歌声原唱音符。例如，方框中的音符就是用户在歌唱C3的音符，而方框中间的曲线就是用户在唱C3时的实际情况，会在音符区域内上下浮动。

当波浪线位于C3(即图3中C3所在白色区域)正中间的时候，此时认为歌声原唱音符和C3所在的频率100％一致，对应的音分(英文名称：Cent)为±0。在MIDI文件中，C3对应的音符数值是60，当音分为0的时候，用浮点数60.00表示完美C3。

请参阅图3-b所示，为本发明实施例中歌声原唱音符的另一种应用场景示意图。图3-b中给出了中央C上下各一个半音(英文名称：Semitone)的示意图，接下来对音分进行举例说明。为了方便描述采用标记为代号。Z所在的横坐标是音符数值60.00所在的位置，而比C3高一个半音的#C3，对应的位置是H，比中央C低一个半音的B2在L的位置。比如Z所在的Y坐标就是Note＝60.0的位置，N所在的Y坐标就是59.5的位置。一个半音等于100个音分，因此M所在的位置对应C3+50个音分，同时也是#C3-50个音分，N所在的位置是C3-50个音分，同时也是L+50个音分。不管是+50音分还是-50音分，最终都是表示为一个浮点数，如Z可表示为60，H可表示为61，L可表示为59，M可表示为60.5，N可表示为59.5。夹在Z和M正中间的P表示为60.25，Q夹N和L的正中间，Q可表示为59.75。

例如，所有浮点数表示方法可以是歌声原唱音高，歌声原唱音高与从歌声中提取的基频参数f具有对应关系，例如前述歌声原唱音高p的计算方法，当用户精准地唱到A3的时候，f＝440Hz。此时计算得的歌声原唱音高就是69.0。

歌声原唱音高p的整数部分取其四舍五入结果，如69.88，就取70(记为i)，小数部分(记为j)取p与i的差，既j＝p-i。例如j＝-0.12，即表示负12个音分。

其中，歌声原唱音高p中截取到的整数部分，使用MIDI文件中的NOTE ON和NOTEOFF表示。NOTE ON表示从NOTE ON信息开始，在没有遇到NOTE OFF之前，这段时间的p的整数部分都是同一个音高值。举例说明，从2分12秒开始到2分14秒分别出现一个表示n＝65的NOTE ON和NOTE OFF，表示这段时间内的音高将围绕65进行上下浮动，具体浮动值参考下面说的弯音参数(英文名称：Pitch Bend)。如果Pitch Bend持续为0，就说明这2秒时间内是完美的n＝65的音高，如果出现了上下浮动的Pitch Bend，其对应时刻的实际音高p就是n+Pitch Bend的和，从2分12秒开始到2分14秒整个时间段的音高起伏变化就被完美地表达出来了。

在MIDI文件中记录有多个音轨时，第一个通道上的音符开始信息用0x90N V表示，其中N是前面计算到的i值，V是力度，在此用0x64作为默认，V的最大值可以是0x7F。需要说明的是，0x90表示在第一个通道上发生的NOTE ON信息，N表示音符(英文名称:note，)V表示力度(英文名称：Velocity)，当V为0x00的时候，表示一个歌声原唱音符结束。

例如，在MIDI文件中的音符起止参数中，要表示一个时长为T的中央C音符，用如下方式表示(全部是十六进制)：90 3C 64 T 90 3C 00，其中T是两个MIDI事件的时间间隔，当T＝0时，表示前后两个时间在同一时刻发生，在MIDI文件中处理逻辑上前一个事件比后一个事件要先处理。例如都是表示为23分12秒879毫秒的MIDI事件，先出现的事件就需要先处理。又如表示歌声原唱音高p的整数部分的Note信息和表示p的小数部分的Pitch Bend信息，就是同一时刻的两个MIDI事件。Note排在前面就先有整数部分，Pitch Bend在前面就先有小数部分，但是由于两个的时间是一样的，所以最终表示这一时刻的两个MIDI事件都可以记录在MIDI文件中的音符起止参数中。

需要说明的是，当T＝非0时，计算方式和MIDI文件定义的拍速(英文全称：BESATPER MINUTE，英文简称：BPM)以及基准时钟(英文名称：Clock Base)相关，例如T＝0x835E等效为一个四分音符的时间。如下序列表示中央C唱了一个四分音符的时间：90 3C 64 83 5E90 3C 00，歌声原唱音符的长度取决于唱的歌曲对应的每个字的长度。值得注意的是，MIDI文件同时也采用0x80N V的方式表示NOTE OFF，其中V是停止时候的力度，一般来说基本不使用，即忽略V的具体值。也就是下面的两种序列意义等同：90 3C 64 83 5E 80 3C 65和903C 64 83 5E 80 3C 00，歌声原唱音高p的小数部分j，在MIDI文件中使用Pitch Bend来表示。弯音敏感度的MIDI文件表达方式为0xE0 LL HH，其中LL是Pitch Bend的低7位，HH是Pitch Bend的高7位。对应的十进制表达范围是0～16383，对应到二进制就是11111111111111，共14位，LL和HH分别表示为0x7F和0x7F。其中±0音分表示为8192，对应二进制就是10000000000000，LL和HH分别表示为0x00和0x40。-50音分在弯音敏感度(英文全称：Pitch Bend Sensitivity)为1的时候表示为0，LL和HH分别表示为0和0，+50音分在弯音敏感度为1的时候则表示为16383。

弯音敏感度定义了弯音信息最大表示的半音范围。也就是说，当弯音敏感度设置为1的时候，表示弯音的最小值和最大值跨越1个半音，当设置为2的时候，跨越2个半音(即一个全音)。在没有特别写入弯音敏感度信息的MIDI文件中，通用MIDI(英文全称：GeneralMIDI，英文简称：GM)规范定义默认值为2，通用MIDI中如果一个MIDI曲子不使用弯音效果(比如钢琴曲)，就不使用弯音敏感度信息，又或者是虽然用了弯音效果(比如吉他)，但是整个曲子的弯音变化都在一个大二度(也就是2个半音)之内的话，也不需要专门显示写入弯音敏感度信息。因此在默认情况下，16383表示的是100个音分，也就是高一个半音。0表示-100音分，也就是低一个半音。为了方便记录与描述，有必要写入弯音敏感度信息。MIDI的弯音敏感度信息的表达方式为：B0 65 00 00 B0 64 00 00 B0 06 01 00 B0 26 00，其中B0表示1号通道的控制器(英文全称：Controller，英文简称：CC)，0x65表示控制的类型RPNMSB，00是数据0，0x64是低元组数值(英文名称：RPN LSB)，数据也是0，前两个MIDI事件指定了当前要控制的RPN号为0，对应于弯音敏感度。那么弯音敏感度的值，由后面两个数据决定，分别是06的Data MSB与0x26的Data LSB。上述序列中的01就是表示指定了数值为1，整个完整地表达了设置弯音敏感度为1个半音。要设置为两个半音，就把上述序列中的01写为2，以此类推。在设定为1个半音后，所有的说明都变得非常方便，不限定的是，如果想保持默认的2个半音，表示方法都是相通的，后续内容仍以保持1个半音作为弯音敏感度进行举例说明。因此，要表述和之前图3-a中一样音高变化的MIDI内容，可等效于如4-a中所示的MIDI信息序列，以Cubase样式展示，图4-a为本发明实施例提供的歌声原唱音高的弯音参数的应用场景示意图，图4-a中的下面波浪线，就是对应了Pitch Bend的信息，该曲线反应了和前面图3-a中一致的音分变化，由于导出成MIDI数据量太大，接下来构建一个精简的数据来说明保存结果，在图4-a中的曲线如果放大来看会有几百个点，每个点都对应有数据，所以全部列出来就会很多，请参阅图4-b所示，图4-b为本发明实施例提供的歌声原唱音高的弯音参数的表示方法示意图，图4-b中取了几个弯音点来表示弯音，这些黑点先后分别是8192、0、16383、12394，需要说明的是，图4-b只是图4-a中局部的弯音参数采用弯音点的表示方式，弯音点是图4-b中的黑点在Y坐标上的值，比如左边曲线左端的弯音点，就是8192，右边下到底的弯音点就是0，再右边的弯音点就是16383。那么根据0x E0 LL HH的方式，最终保存成MIDI文件后，可以是如下的序列：E0 00 40 78 E0 00 00 78 E0 7F 7F 78 E0 6A 60。

其中，12394的二进制是11000001101010，因此LL＝1101010＝0x6A，HH＝1100000＝0x60，换算到音分是(12394–8192)/8192.0*50＝25.64音分，所以结合C3的音符，这个序列就在60.0、59.5、60.5、60.2564(后略)上进行，达到了记录基频参数精确到音分上变化的目的。

前述实施例对步骤A1的实现方式进行了举例说明，接下来对步骤A2的实现方式进行详细说明。在本发明的一些实施例中，步骤103根据歌声原唱特征生成MIDI文件，具体包括如下步骤：

A21、根据歌声原唱响度修改MIDI文件中的11号控制器，并在发音响度参数中记录修改结果；或，

A22、根据歌声原唱响度修改MIDI文件中的11号控制器和43号控制器，并在发音响度参数中记录修改结果。

其中，步骤A21和步骤A22中具体描述了步骤A2的一种实现方式，歌声原唱响度是指用户唱歌时发音对听者人耳感受到的声音强弱，歌声原唱响度的大小决定于声音接收处的波幅。在MIDI文件中记录歌声原唱响度具体可以通过修改MIDI文件中的控制器来实现，例如可以修改11号控制器，也可以同时修改11号控制器和43号控制器，修改后再发音响度参数中记录修改结果，

接下来对MIDI文件中的发音响度参数中记录歌声原唱响度进行说明如下。歌声原唱响度是指用户在歌唱的时候，可以控制强弱使得同一个字的发音的响度可大可小，对应到波形上就是振幅的大小变化，也是可以提取并记录到MIDI文件中的一种信息。在MIDI标准中，可以使用11号控制器(CC#11)来表示情感，通称Expression Controller。其范围是0～127，其中127表示响度最大、1表示最弱，0表示无声。如果觉得精确到127个等级不够，可以将11号控制器结合43号控制器使用，在MIDI标准中，CC#43表示情感的最低有效位(英文全称：Least Significant Bit，英文简称：LSB)，因此CC#11相对成为了最高有效位(英文全称：Most Significant Bit，英文简称：MSB)。结合LSB后，情感的有效范围也从0～127拓展成0～16283。在127等级够用的情况下(基本是够用的)，就可以不使用LSB增加描述的复杂度。

需要说明的是，虽然MIDI标准规定CC#7是音量控制器，但这个#7多数用来表示混音层次的音量，用来平衡多个乐器之间的音量，或者调整乐章之间的音量变化，而CC#11被定义成歌声原唱中途发生强弱变化时使用的控制器，因此也称为情感控制器。例如控制器11的MIDI表达方式为B0 0B V，其中V是0～127，用来表示响度，比如B0 0B 7F表述最大响度。如图5-a和图5-b所示，图5-a为本发明实施例提供的歌声原唱对应的波形示意图，图5-b为本发明实施例提供的图5-a中波形对应的发音响度参数的变化示意图。

前述实施例对步骤A1和A2的实现方式进行了举例说明，接下来对步骤A3的实现方式进行详细说明。在MIDI文件的可见文字参数中可以记录歌声原唱音素。接下来对歌声原唱音素进行举例说明，歌声原唱音素是拆分成了复音的元音，侧重在发音上，无关对应哪国语言，记录了歌声原唱音素以后，可以解决歌词可能遇到的同音字等问题，有利于合成引擎合成出歌声。为了记录全球语言，本发明实施例中可选用X-SAMPA方式来表达，这是一种可以用ASC-II可见字符(0～127)来表示全部国际音标的标记方式。MIDI文件中表示可见文字参数的信息通过如下序列来表示：FF 01 LL TT1 TT2 TTN。例如中文的“歌词”用X-SAMPA方式表示为：g7ts_hM。ASC-II的表述方式与前述的UTF-8具有类似之处，不再详述。

前述实施例对步骤A1、A2和A3的实现方式进行了举例说明，接下来请参阅本发明的另一些实施例，步骤102中从歌声原唱音符中提取出的歌声原唱特征还可以包括：对歌声原唱音素进行语音评测后得到的歌声原唱歌词。即在提取到歌声原唱音素之后，再通过语音评测的方法可以提取到歌声原唱歌词。在这种实现场景下，步骤103根据歌声原唱特征生成MIDI文件，具体包括如下步骤：

A4、将歌声原唱歌词记录在MIDI文件的歌词参数中。

其中，步骤A4并未在图2中示意出，歌声原唱特征中的歌声原唱歌词也可以记录在MIDI文件中，例如用户在唱歌时一般会唱出歌词，该歌词可以记录在MIDI文件的歌词参数中。接下来对歌声原唱歌词进行举例说明，结合语音评测技术可以提取出对应的歌声原唱歌词，而歌声原唱歌词在MIDI文件中可以采用如下序列进行定义：FF 05 LL TT1 TT2 TTN，其中，FF 05表示歌词，LL表示歌词字节数，TT1～TTN是歌词的逐个字节，N表示歌词的最大字节数，请参阅图6所示，图6为本发明实施例中歌声原唱歌词在MIDI文件中的应用场景示意图，例如UTF-8编码的歌词的“歌”字，是E6AD 8C，则LL为03，TT1～TTN分别是E6 AD 8C。联合歌词的“词”，表示为：FF 05 03 E6 AD 8C 78 FF 05 03 E8 AF 8D，在该序列中，78之前表示的是“歌”，在78之后表示的是“词”。进一步的，如下表1所示，为MIDI文件中记录各种信息的示意表。

在MIDI文件中的相同位置以及不同位置，分别记录有歌声原唱音高和歌声原唱歌词，例如在位置153.200上，先后产生的两个MIDI事件分别为歌词“歌”和音高“C4”。通过采用MIDI文件的标准方式保存的歌声原唱歌词，可以识别出歌声原唱歌词后并和歌声原唱音符对应关联，例如，歌词对于使用软件观看(比如K歌渲染***)来说，也是有实用价值的，因此在一种可能的实现场景下，歌声原唱歌词和歌声原唱音素都可以同步保留。

A5、根据歌声原唱特征将MIDI文件的主音色参数配置为锯齿波音色。

其中，对于本发明实施例中需要在MIDI文件中记录歌声原唱特征，MIDI文件的主音色参数可以配置为锯齿波音色。接下来进行举例说明，用GM音色库试听歌声旋律。前述内容已经保存了歌声原唱音高与歌声原唱响度这两个最基本的信息，在GM标准中，可使用主音用锯齿波即Lead(Sawtooth)这个音色来回放，相对其他原声乐器(如Flute/长笛)等拥有更稳定的特征。GM定义了128种乐器，其中Lead有8个，而Sawtooth是Lead的一种，因此，在生成MIDI文件的时候，可追加选择该音色为默认音色。例如MIDI规范的音色选择为：PROGRAMCHANGE,0xC0 0x51，其中0x51对应Lead(Sawtooth)这个音色，需要出现在第一个音符开始之前一次即可。MIDI文件是用来表示歌声原唱时，所有的音符都按默认的乐器“钢琴”来演奏，所以为了表示歌声原唱可以选用Sawtooth，就在所有音符开始之前指定一次即可。例如用0x90表示NOTE ON一样，0xC0表示选择音色的信息，而0x51就是Sawtooth对应的音色序号。

在本发明的一些实施例中，待处理的歌声语音文件来自至少两个不同的用户。即有多个用户分别对应有各自的歌声语音文件时，步骤101从待处理的歌声语音文件中确定出歌声原唱音符，具体包括如下步骤：

B1、从待处理的歌声语音文件中按照多个音轨分别确定出对应于不同用户的歌声原始音符。

其中，对于不同用户对应的歌声语音文件，可以按照本发明实施例前述的内容分别对每个用户的歌声语音文件进行处理，对于每个用户按照一个音轨来记录MIDI文件，其中，每条音轨分别定义了该条音轨的属性，如音轨的音色，音色库，通道数，输入/输出端口，音量等。举例说明如下，在多个歌手分别输出歌声语音文件的情况下，例如对于一些男女对唱的歌曲(包括男男和女女，和女女女等)，很多时候，在同一时刻唱的文字是不同的，比如经典的《射雕英雄传》主题歌《铁血丹心》，按照目前的歌词处理方案，都会让晚一点唱的那一句歌词覆盖了早一点唱的那句歌词，从而导致很差的歌词体验。而本发明实施例中MIDI文件是支持多轨道的一种格式，因为本来就是用来记录多种乐器同时演奏的，所以，只要每个歌声语音文件使用一个单独的MIDI音轨记录，即可轻松做到记录多歌手的歌词、音高、强弱等信息。MIDI音轨在MIDI格式中用MTRK同步字表示。之前所记录的音符起止参数、发音响度参数、可见文字参数和歌词参数都可以认为是在其中一个MTRK中实施的记录参数。

进一步的，在本发明的一些实施例中，在前述执行了步骤B1的实现场景下，步骤103根据歌声原唱特征生成MIDI文件之后，本发明实施例提供的歌声原唱的处理方法还可以包括如下步骤：

C1、当生成的MIDI文件还包括歌词参数时，从生成的MIDI文件中按照多个音轨从不同用户对应的歌词参数中分别提取到歌声原唱歌词。

其中，在步骤C1中可以按照多个音轨分别提取出不同用户所唱的歌词。举例说明如下，可以在歌词渲染的场景下，由于MIDI文件中记录了时间与Lyric，因此可以记录的换行符进行换行。而MIDI文件是多音轨的，所以对于多歌手独立歌词的记录很容易实现。渲染器针对渲染单个音轨的方式，采用面向对象的方式来渲染第二个和第N个音轨就能做到多个歌手的歌词独立渲染。优于现有播放器的表现方式。另外，由于本发明实施例中MIDI文件中还记录了歌声原唱音素，而音素可以兑换到指定语言的音标。其中最经典的是日语，会有自己的“汉字”和“假名”两个部分，而且还是日常显示方式，例如在广告、影视、文献中显示歌词，例如在歌词“明日”和“勇者”中可以显示着其在歌曲中的使用的发音。对于“明日”来说，日语有两种发音，一个是“あした”，另一个是“あす”，而且频度相当。因此对很久没唱过的人突然要唱的话，会容易想不起用的是哪个发音。但是在本发明实施例中按照多个音轨实现的MIDI文件中输出歌词后，歌词渲染***就可以提供多个音轨分别对应的歌词，而且这种表达方式让日语爱好者有非常“接地气”的亲切感。

如下表2所示，为歌声原唱特征中记录各种信息的示意表。表2概述了本发明实施例中歌声原唱特征中基本的映射关系，详见前述实施例中的详细说明。

本发明实施例中通过采用MIDI文件的标准方式保存的歌声原唱特征，使歌声原唱特征和歌声原唱音符对应关联，从而可以实现在多种应用场景下的歌声原唱特征的还原。接下来分别以不同的应用场景进行举例说明。

在本发明的一些实施例中，步骤103根据歌声原唱特征生成MIDI文件之后，本发明实施例提供的歌声原唱的处理方法还可以包括如下步骤：

D1、从生成的MIDI文件中还原出歌声原唱音高、歌声原唱响度和歌声原唱音素；

D2、根据还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素对待测试歌声文件进行打分测试。

其中，本发明实施例生成的MIDI文件可以记录有歌声原唱特征，该MIDI文件中还可以包括歌词参数，从MIDI文件中还原出的歌声原唱特征可以用于打分测试。举例说明如下，当对歌声原唱特征记录在MIDI文件中之后，可以将该MIDI文件用于K歌评分。因为MIDI文件中记录了音高、强弱和发音，因此可以从这3个维度去评分。每个维度的评分，都是分成如下三个步骤：

D11、提取被测人员的歌声特征；

D12、从MIDI文件中还原出歌声原唱特征；

D13、对比上述两种信息。

其中，提取被测试的歌声特征和从原唱中提取歌声原唱特征实现方式类似，从MIDI文件中还原出歌声原唱特征可以是记录歌声原唱特征的完全可逆步骤。其中，还原歌声原唱音高由如下步骤完成：

从MIDI文件中解析出弯音敏感度，记为PBS，该PBS＝1。当然，该PBS也可以是1以外的其他数值，以下用PBS标记代表该参数。从MIDI文件中解析出当前音符信息(NOTE ON)，得到歌声原唱音高的整数部分，记为N。假设当前音符为中央C，则N＝60。从MIDI文件中解析出当前的弯音参数(Pitch Bend)，记为PB。假设取到的值为12345(十进制，则用(PB–8192)/8192*50*PBS换算出音分C。例如本实施例中C＝(12345–8192)/8192*50*1＝25.347900390625。由N和C算得歌声原唱音高(Pitch)，即P＝N+C/100，本实施例中就是60.253479。获得了Pitch后，就可以和提取的参评者的Pitch进行对比了。当相差的值越小，则评分越高。这个和目前广为使用的量化到整数部分的音高评分是一致的。

另外，对歌声原唱响度的还原可以通过如下步骤完成，即还原强弱信息，从MIDI文件中解析出控制器11和43的值，得到强弱的量为L＝#CC11*100/128.0+#CC43/128.0。得到的L会在0～100以表示强弱。其中#CC11表示控制器11的值，#CC43表示控制器43的值。这个值在对比参评者音量的时候，通常因为录音响度的差异，会统一扣去一个长时间统计的音量差。比如前5秒总是和对比的差24的话，后面将去除这24的差异来对比，并弥补之前因为差24扣除的分数。

另外，对歌声原唱音素的还原可以通过如下步骤完成，即还原发音信息，还原发音如下步骤完成：从MIDI文件中解析出TEXT(FF 01 LL TT1 TT2 TTN)的序列，得到X-SAMPA文本，该文本对应到音素，比如g7对应拼音“ge”，可以和参评者提取的音素进行对比，不一致就扣除对应项的分数。至此，对于从MIDI中还原评分音素的全过程就以完成，而各项扣分的权重可根据评分娱乐***进行实际定制。

E1、从生成的MIDI文件中还原出歌声原唱音高、歌声原唱响度和歌声原唱音素；

E2、将还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素输入合成器，并通过该合成器输出歌声原唱歌曲。

其中，本发明实施例生成的MIDI文件还可以用于歌声合成，即歌声合成可以通过基本素材的合成来实现，就是歌声原唱音高、歌声原唱响度和歌声原唱音素。上述分别说明了如何还原这些歌声原唱特征，然后合成器用来作为参数输入，即可生成歌声原唱歌曲。

本发明实施例中可以让歌声原唱特征和MIDI格式的文件相结合，达到在K歌评分领域、K歌歌词展示领域与歌声合成领域中的统一规范。通过使用标准MIDI格式保存歌声原唱特征以达到学术交流与相关领域资源统一的目的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图7-a所示，本发明实施例提供的一种歌声语音的处理装置700，可以包括：音符确定模块701、原唱特征提取模块702和原唱特征记录模块703，其中，

音符确定模块701，用于从待处理的歌声语音文件中确定出歌声原唱音符；

原唱特征提取模块702，用于从所述歌声原唱音符中提取出歌声原唱特征，所述歌声原唱特征包括：歌声原唱音高、歌声原唱响度和歌声原唱音素，所述歌声原唱音高包括：所述歌声原唱音符的音符时间长度；

原唱特征记录模块703，用于根据所述歌声原唱特征生成乐器数字接口MIDI文件，所述MIDI文件的音符起止参数中记录有所述歌声原唱音高，所述MIDI文件的发音响度参数中记录有所述歌声原唱响度，所述MIDI文件的可见文字参数中记录有所述歌声原唱音素，所述音符起止参数中音符开始和音符结束之间的时间长度与所述歌声原唱音符的音符时间长度相等。

在本发明的一些实施例中，所述原唱特征记录模块703，具体用于将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中，所述歌声原唱音高通过从所述歌声原唱音符中提取出的基频参数计算得到。

在本发明的一些实施例中，所述原唱特征记录模块703，还用于将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中之后，根据所述歌声原唱音高和所述整数部分确定所述歌声原唱音高对应的小数部分，并将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。

在本发明的一些实施例中，所述原唱特征记录模块703，具体用于根据预置的弯音敏感度将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。

在本发明的一些实施例中，所述原唱特征记录模块703，具体用于根据所述歌声原唱响度修改所述MIDI文件中的11号控制器，并在所述发音响度参数中记录修改结果；或，根据所述歌声原唱响度修改所述MIDI文件中的11号控制器和43号控制器，并在所述发音响度参数中记录修改结果。

在本发明的一些实施例中，所述歌声原唱特征还包括：对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词；

所述原唱特征记录模块703，具体用于将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中。

在本发明的一些实施例中，所述原唱特征记录模块703，具体用于根据所述歌声原唱特征将所述MIDI文件的主音色参数配置为锯齿波音色。

在本发明的一些实施例中，若待处理的歌声语音文件来自至少两个不同的用户；

所述音符确定模块701，具体用于从待处理的歌声语音文件中按照多个音轨分别确定出对应于不同用户的歌声原始音符。

在本发明的一些实施例中，请参阅图7-b所示，所述歌声原唱的处理装置700还包括：歌词提取模块704，其中，

所述歌词提取模块704，用于所述原唱特征记录模块703根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，当生成的MIDI文件还包括歌词参数时，从所述生成的MIDI文件中按照所述多个音轨从不同用户对应的歌词参数中分别提取到歌声原唱歌词。

在本发明的一些实施例中，请参阅图7-c所示，相对于图7-a所示，所述歌声原唱的处理装置700还包括：原唱特征输出模块705和歌声打分模块706，其中，

所述原唱特征输出模块705，用于所述原唱特征记录模块703根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，从生成的MIDI文件中还原出歌声原唱音高、歌声原唱响度和歌声原唱音素；

所述歌声打分模块706，用于根据还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素对待测试歌声文件进行打分测试。

在本发明的一些实施例中，请参阅图7-d所示，相对于图7-a所示，所述歌声原唱的处理装置700还包括：原唱特征输出模块705和歌声合成模块707，其中，

所述歌声合成模块707，用于将还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素输入合成器，并通过该合成器输出歌声原唱歌曲。

通过以上对本发明实施例的描述可知，首先通过歌声语音文件确定出歌声原唱音符，通过该歌声原唱音符可以获取到歌声原唱特征，该歌声原唱特征中包括有歌声原唱音高、歌声原唱响度和歌声原唱音素，接下来将歌声原唱特征记录在MIDI文件中，具体的MIDI文件的音符起止参数中记录有歌声原唱音高，MIDI文件的发音响度参数中记录有歌声原唱响度，MIDI文件的可见文字参数中记录有歌声原唱音素。通过歌声原唱特征生成的MIDI文件中可以记录歌声语音，从而实现真人原唱歌曲在MIDI文件中的记录，记录有歌声原唱特征的MIDI文件可以方便用户的交流和普及，有利于数字音乐体系的规范化。

本发明实施例还提供了另一种终端，该终端可以执行前述实施例描述的歌声原唱的处理方法，如图8所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图8示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图8，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图8中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理***与处理器1080逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器1080还具有控制执行以上由终端执行的方法流程。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种歌声语音的处理方法，其特征在于，包括：

从待处理的歌声语音文件中确定出歌声原唱音符；

2.根据权利要求1所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：

将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中，所述歌声原唱音高通过从所述歌声原唱音符中提取出的基频参数计算得到。

3.根据权利要求2所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，还包括：

将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中之后，根据所述歌声原唱音高和所述整数部分确定所述歌声原唱音高对应的小数部分，并将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。

4.根据权利要求3所述的方法，其特征在于，所述将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中，包括：

根据预置的弯音敏感度将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。

5.根据权利要求1所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：

根据所述歌声原唱响度修改所述MIDI文件中的11号控制器，并在所述发音响度参数中记录修改结果；或，

根据所述歌声原唱响度修改所述MIDI文件中的11号控制器和43号控制器，并在所述发音响度参数中记录修改结果。

6.根据权利要求1所述的方法，其特征在于，所述歌声原唱特征还包括：对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词；

所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：

将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件，包括：

根据所述歌声原唱特征将所述MIDI文件的主音色参数配置为锯齿波音色。

8.根据权利要求1至6中任一项所述的方法，其特征在于，若待处理的歌声语音文件来自至少两个不同的用户；

所述从待处理的歌声语音文件中确定出歌声原唱音符，包括：

从待处理的歌声语音文件中按照多个音轨分别确定出对应于不同用户的歌声原始音符。

9.根据权利要求8所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，所述方法还包括：

当生成的MIDI文件还包括歌词参数时，从所述生成的MIDI文件中按照所述多个音轨从不同用户对应的歌词参数中分别提取到歌声原唱歌词。

10.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，所述方法还包括：

从生成的MIDI文件中还原出歌声原唱音高、歌声原唱响度和歌声原唱音素；

根据还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素对待测试歌声文件进行打分测试。

11.根据权利要求1至6中任一项所述的方法，其特征在于，所述根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，所述方法还包括：

将还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素输入合成器，并通过该合成器输出歌声原唱歌曲。

12.一种歌声语音的处理装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述原唱特征记录模块，具体用于将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中，所述歌声原唱音高通过从所述歌声原唱音符中提取出的基频参数计算得到。

14.根据权利要求13所述的装置，其特征在于，所述原唱特征记录模块，还用于将所述歌声原唱音高进行取整处理后对应的整数部分记录在MIDI文件的音符起止参数中之后，根据所述歌声原唱音高和所述整数部分确定所述歌声原唱音高对应的小数部分，并将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。

15.根据权利要求14所述的装置，其特征在于，所述原唱特征记录模块，具体用于根据预置的弯音敏感度将所述歌声原唱音高对应的小数部分记录在所述MIDI文件的弯音参数中。

16.根据权利要求12所述的装置，其特征在于，所述原唱特征记录模块，具体用于根据所述歌声原唱响度修改所述MIDI文件中的11号控制器，并在所述发音响度参数中记录修改结果；或，根据所述歌声原唱响度修改所述MIDI文件中的11号控制器和43号控制器，并在所述发音响度参数中记录修改结果。

17.根据权利要求12所述的装置，其特征在于，所述歌声原唱特征还包括：对所述歌声原唱音素进行语音评测后得到的歌声原唱歌词；

所述原唱特征记录模块，具体用于将所述歌声原唱歌词记录在所述MIDI文件的歌词参数中。

18.根据权利要求12至17中任一项所述的装置，其特征在于，所述原唱特征记录模块，具体用于根据所述歌声原唱特征将所述MIDI文件的主音色参数配置为锯齿波音色。

19.根据权利要求12至17中任一项所述的装置，其特征在于，若待处理的歌声语音文件来自至少两个不同的用户；

所述音符确定模块，具体用于从待处理的歌声语音文件中按照多个音轨分别确定出对应于不同用户的歌声原始音符。

20.根据权利要求19所述的装置，其特征在于，所述歌声原唱的处理装置还包括：歌词提取模块，其中，

所述歌词提取模块，用于所述原唱特征记录模块根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，当生成的MIDI文件还包括歌词参数时，从所述生成的MIDI文件中按照所述多个音轨从不同用户对应的歌词参数中分别提取到歌声原唱歌词。

21.根据权利要求12至17中任一项所述的装置，其特征在于，所述歌声原唱的处理装置还包括：原唱特征输出模块和歌声打分模块，其中，

所述原唱特征输出模块，用于所述原唱特征记录模块根据所述歌声原唱特征生成乐器数字接口MIDI文件之后，从生成的MIDI文件中还原出歌声原唱音高、歌声原唱响度和歌声原唱音素；

所述歌声打分模块，用于根据还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素对待测试歌声文件进行打分测试。

22.根据权利要求12至17中任一项所述的装置，其特征在于，所述歌声原唱的处理装置还包括：原唱特征输出模块和歌声合成模块，其中，

所述歌声合成模块，用于将还原出的歌声原唱音高、歌声原唱响度和歌声原唱音素输入合成器，并通过该合成器输出歌声原唱歌曲。