CN111862913B

CN111862913B - 将语音转换为说唱音乐的方法、装置、设备及存储介质

Info

Publication number: CN111862913B
Application number: CN202010688502.3A
Authority: CN
Inventors: 徐雯
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2023-09-05
Anticipated expiration: 2040-07-16
Also published as: WO2022012164A1; CN111862913A

Abstract

本发明实施例公开了将语音转换为说唱音乐的方法、装置、设备及存储介质。该方法包括识别所获得语音段以及处理所选定背景音乐，获得语音段内文字的文字属性信息以及背景音乐的音乐节奏信息；根据文字属性信息以及音乐节奏信息，确定至少一个用于将语音段与背景音乐对齐的对齐周期，并获得各对齐周期的对齐信息表；按照各对齐信息表控制语音段中的文字与背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。该方法将随意录制语音转化为配合背景音乐的说唱片段，无需限制待转换语音内容，保证了待转换语音内容的自由化录制，还简化了语音转换的实现过程，避免了语音文字与音乐节奏点错位的情况，提升了语音转换说唱音乐的应用范围。

Description

将语音转换为说唱音乐的方法、装置、设备及存储介质

技术领域

本发明实施例涉及音乐制作技术领域，尤其涉及将语音转换为说唱音乐的方法、装置、设备及存储介质。

背景技术

随着各类K歌软件的普及，修音算法、人声转音乐算法的研究逐渐受到广泛的关注，人们对于自动修音、说话变唱歌的兴趣也越来越高涨。近年来，说唱文化逐渐进入大众的视野，说唱音乐的特点是创作者一种在背景音乐下快速有节奏的说出一连串押韵的文字，在说唱音乐制作过程中往往要经过复杂的过程，对于大多数非音频处理人员来说不仅需要学习使用专业的音频处理软件，还要进行复杂的手动操作较为耗时。

针对上述问题，当前出现了一些适合非音频处理人员操作的语音转换软件，然而，现有的不同语音转换软件在实现语音转换说唱的过程中，存在不同的缺陷，如，其中一种语音转说唱的技术方案，其限定了需要朗读特定歌词，由于歌词与背景音乐完全匹配，因此字与节奏点的对齐位置是固定的，该方案对于未知歌词内容、长度的情况，并不能很好的处理，由此缩小了用户应用时的创作空间，进而限制了该方案的应用前景。又如，另一种语音转说唱的技术方案，其在音频分割以及音频对齐上的算法设计都较为复杂，增加了转换难度，同时存在语音文字与音乐节奏点错位的问题，该种转换方式并不利于对用户自行上传音乐的有效处理。

发明内容

有鉴于此，本发明实施例提供了将语音转换为说唱音乐的方法、装置、设备及存储介质，以解决现有语音转换中语音内容受限以及语音转换效果差的问题。

第一方面，本发明实施例提供了一种将语音转换为说唱音乐的方法，包括：

识别所获得语音段以及处理所选定背景音乐，获得所述语音段内文字的文字属性信息以及所述背景音乐的音乐节奏信息；

根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表；

按照各所述对齐信息表控制所述语音段中的文字与所述背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。

第二方面，本发明实施例提供一种将语音转换为说唱音乐的装置，包括：

信息确定模块，用于识别所获得语音段以及处理所选定背景音乐，获得所述语音段内文字的文字属性信息以及所述背景音乐的音乐节奏信息；

对齐信息确定模块，用于根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表；

转换控制模块，用于按照各所述对齐信息表控制所述语音段中的文字与所述背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。

第三方面，本发明实施例提供了一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面实施例提供的将语音转换为说唱音乐的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面实施例提供的将语音转换为说唱音乐的方法。

本发明实施例提供的将语音转换为说唱音乐的方法、装置、设备及存储介质中，首先可以识别所获得语音段以及对所选定背景音乐进行处理，获得语音段内文字的文字属性信息以及背景音乐内的音乐节奏信息；之后可以根据文字属性信息以及音乐节奏信息来确定至少一个用于语音段与背景音乐匹配的对齐周期，并获得各对应周期的对齐信息表；最终按照各对齐信息表控制语音段中文字与背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。上述技术方案，有效实现了将用户随意录制的语音内容片段转化为配合背景音乐的说唱片段，简化了手动音频剪辑制作的繁琐过程，为非专业音频处理人员提供了说唱音乐制作的可能；同时，与现有的语音转换说唱的方法相比，无需限制待转换语音内容，保证了待转换语音内容的自由化录制，还简化了语音转换的实现过程，避免了语音文字与音乐节奏点错位的情况，提升了语音转换说唱音乐的应用范围。

附图说明

图1给出了本发明实施例一提供的一种将语音转换为说唱音乐的方法的流程示意图；

图2给出了本发明实施例二提供的一种将语音转换为说唱音乐的方法的流程示意图；

图3给出了本实施例所提供将语音转换为说唱音乐方法中确定对齐周期的实现流程图；

图4给出了本实施例所提供将语音转换为说唱音乐方法内确定对齐周期中对齐单元及对齐单元信息的实现流程图；

图5给出了本发明实施例中确定对齐周期中对齐单元及对齐单元信息的具体展开流程图；

图6给出了本发明实施例三提供的一种将语音转换为说唱音乐的装置的结构框图；

图7给出了本发明实施例四提供的一种计算机设备的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例方式作进一步地详细描述。应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

实施例一

图1给出了本发明实施例一提供的一种将语音转换为说唱音乐的方法的流程示意图，该方法适用于将用户录制的语音段转换为说唱音乐的情况，该方法可以由将语音转换为说唱音乐的装置执行，其中，该装置可以由软件和/或硬件实现，并一般可集成在计算机设备上。

在该应用模式下，可以先向用户提供一个背景音乐的选择界面，由此获得用户所选定的背景音乐；之后，还可以向用户提供一个语音内容的选择界面，由此获得用户通过触发录制按钮实时录制的语音段，或者，获得用户通过触发上传按钮而上传的预先录制语音段；然后就可以本实施例下述提供的语音转换为说唱音乐的方法，实现将上述所获得语音段转换为配合背景音乐的说唱片段。

如图1所示，本发明实施例一提供的一种将语音转换为说唱音乐的方法，具体包括如下操作：

S101、识别所获得语音段以及处理所选定背景音乐，获得所述语音段内文字的文字属性信息以及所述背景音乐的音乐节奏信息。

在本实施例中，所获得语音段可理解为在执行本步骤之前获得到的用户实时录制或预先录制的语音片段，所选定背景音乐可理解为在执行本步骤之前接收到的用户从背景音乐集中选定的待使用音乐。

本步骤可以对语音段进行语音识别，由此可以获取到语音段所包括文字的文字序号、文字发音时长(文字起止时间)以及文字中的首个元音的起始位置等相关的文字属性信息；也可以对背景音乐进行音乐节拍的检测处理，由此可以获取到背景音乐所包括各节奏点的节奏点序号、节奏点所在位置以及划分所形成每个节拍周期内所包括节奏点数等相关的音乐节奏信息。

可以知道的是，本实施例不对语音识别、文字检测以及节奏点检测的具体方式进行限定，只要可以获取到所需的文字属性信息以及音乐节奏信息即可。

S102、根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表。

需要说明的是，对于用户语音到音乐片段的形成，除了上述步骤的语音识别以及节拍检测，最重要的环节在于将语音段中对应的文字与背景音乐中的节奏点进行对齐。所谓语音段和背景音乐的对齐，可认为是将语音分割为单个文字后，每个文字到强节奏、规律性的重音点上，其中可能还伴有一些首尾字或中间字的重复用来加强节奏感。由此，本实施例在实现语音在说唱音乐的转换时，需要先通过本步骤来确定用于语音段和背景音乐对齐的对齐周期以及相应的对齐信息表。

具体的，所述对齐周期可理解为一个包括了能够与语音段内所有文字对齐的节奏点的最小重复单元，即从某一个时间t开始，该背景音乐的节奏以一个能够对齐语音段内所有文字的固定周期T进行重复。所述对齐信息表具体可理解为包含了一个对齐周期内进行节奏点与文字对齐时，所需的节奏点与待对齐文字的对应关系信息(如节奏点序号、文字序号)以及变速比等信息的信息声明表。

本步骤的具体实现可表述为：

首先可以从文字属性信息中确定语音段所包括的文字总数，以及可以从音乐节奏信息中确定背景音乐所包括节奏点的节奏点总量，以及对这些节奏点的划分所形成节拍周期的周期信息。其中，所述节拍周期可理解为根据节奏点找到的一个最小的节奏重复单元，即，从某一个时间开始，该背景音乐的节奏以一个固定周期Z进行重复。

之后，根据文字总数以及一个节拍周期中所包括节奏点的个数，可以确定现有的节拍周期能否满足作为一个对齐周期的条件，如果满足，则直接将每个节拍周期看作对齐周期，如果不满足，则需要更新节拍周期的周期长度，获得可作为对齐周期的节拍周期。

然后，因为每个对齐周期的节奏是重复的，可以随机选取一个对齐周期，结合文字属性信息中的文字起止时间、文字所具备首个元音的起始位置，以及从音乐节奏信息中提取相对一个对齐周期内节奏点的节奏点信息，来确定语音段中每个文字在该对齐周期内待对齐的节奏点，以及对该节奏点进行对齐时所要具备的变速比，由此形成包括节奏点序号与所关联文字的文字序号以及相应变速比的信息表，来作为该对齐周期的对齐信息表。

最终，本步骤可以将该对齐信息表看作每个完整的对齐周期的对齐信息表，而对于非完整的对齐周期，则可以从对齐信息表中提取部分对齐信息构成相对应的对齐信息表，由此通过本步骤获得了至少一个对齐周期，以及与各对齐周期对应的对齐信息表。

S103、按照各所述对齐信息表控制所述语音段中的文字与所述背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。

在本实施例中，本步骤可以直接通过上述对背景音乐的节奏点划分形成的对齐周期以及包括语音段文字与节奏点对齐关系的对齐信息表，确定相匹配的文字和节奏点，并控制语音段中的文字与背景音乐中节奏点的对齐以及基于相应的变速比对相对齐后的音频进行变速，在此之后，还可以根据背景音乐的音高对变速后的音频进行变调调整以及加入混响等特效，形成转换后的说唱音频。

本发明实施例一提供的一种将语音转换为说唱音乐的方法，首先可以识别所获得语音段以及对所选定背景音乐进行处理，获得语音段内文字的文字属性信息以及背景音乐内的音乐节奏信息；之后可以根据文字属性信息以及音乐节奏信息来确定至少一个用于语音段与背景音乐匹配的对齐周期，并获得各对应周期的对齐信息表；最终按照各对齐信息表控制语音段中文字与背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。上述技术方案，有效实现了将用户随意录制的语音内容片段转化为配合背景音乐的说唱片段，简化了手动音频剪辑制作的繁琐过程，为非专业音频处理人员提供了说唱音乐制作的可能；同时，与现有的语音转换说唱的方法相比，无需限制待转换语音内容，保证了待转换语音内容的自由化录制，还简化了语音转换的实现过程，避免了语音文字与音乐节奏点错位的情况，提升了语音转换说唱音乐的应用范围。

作为本发明实施例一的一个可选实施例，在上述实施例的基础上，本可选实施例还在根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表之前，优化包括了：如果所述文字属性信息中的文字总量大于所述音乐节奏信息中的节奏点总量，则结束将所述语音段转换为说唱音乐的处理，并给出重新获得语音段或背景音乐的提示。

需要说明的是，本实施例所提供将语音转换为说唱音乐的方法的实现中，上述S102及其S103的执行条件可默认为通过S101所获得的文字属性信息中的文字总量小于或等于音乐节奏信息中的节奏点总量，即，相当于要所获得语音段中的总字数大于背景音乐中的节奏点数。当上述条件不满足时，可认为不具备继续进行语音转换为说唱音乐的条件，此时，可以执行本可选实施例的操作，即，在确定文字总量大于节奏点总量时，可以结束后续将语音段转换为说唱音乐步骤的执行，同时进行一个重新录制语音段的提示，以告知用户进行语音段的重新录制。或者，还存在其他可选的操作，如，本可选实施例也可以给一个重新选择背景音乐的提示，告知用户重新选择背景音乐。

本可选实施例的操作，保证了待转换语音段与背景音乐的有效匹配，从而提升语音转换为说唱音乐的用户体验。

实施例二

图2给出了本发明实施例二提供的一种将语音转换为说唱音乐的方法的流程示意图，本实施例二以上述实施例一为基础进行优化，在本实施例中，具体将识别所获得语音段以及处理所选定背景音乐，获得所述语音段内文字的文字属性信息以及所述背景音乐的音乐节奏信息进一步优化为：对用户所选定所获得语音段进行降噪处理以及端点检测处理，通过对处理后语音段的语音识别获得所述语音段内各文字的文字序号、起止时间、首个元音的起始位置以及文字总量，构成所述语音段的文字属性信息；对用户所选定背景音乐进行节奏点检测和节拍周期划分，确定所述背景音乐中包含节奏点总量、节奏点序号、以及各节拍周期的周期信息，构成所述背景音乐的音乐节奏信息；其中，所述周期信息包括：周期号、节拍周期内所包括节奏点的节奏点个数以及各节奏点的节奏点序号和节奏点起始时间。

同时，本实施例将根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表进一步优化为：根据所述文字属性信息中的文字总量以及所述音乐节奏信息中各节拍周期的周期信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期；选取一个完整的对齐周期作为待对齐节奏段，根据所述文字属性信息及待对齐节奏段内待对齐节奏点的节奏点信息，确定至少一个对齐单元及相应的对齐单元信息；汇总各所述对齐单元信息形成所述待对齐节奏段的当前对齐信息表，并根据所述当前对齐信息表确定余下各对齐周期的对齐信息表。

如图2所示，本实施例二提供的一种将语音转换为说唱音乐的方法，具体包括如下操作：

S201、对用户所选定所获得语音段进行降噪处理以及端点检测处理，通过对处理后语音段的语音识别获得所述语音段内各文字的文字序号、起止时间、首个元音的起始位置以及文字总量，构成所述语音段的文字属性信息。

在本实施例中，可以采用音频处理中的噪声处理策略对所录制的语音段进行降噪处理，以及采用端点检测策略对降噪后的语音段进行静音段的去除，之后可以采语音识别策略对经过处理的语音段进行识别，从而获得构成语音段的每个文字的相关信息。

上述所获得的信息中具体可以包括整个语音段所包括文字的文字总量、每个文字的文字序号、该文字在语音段中对应的起止时间，该文字所对应发音的首个元音的起始位置，其中，文字的起止时间以及首个元音的起始位置均可看作一个相对时间点，即，可以按照整个语音的播放顺序，将首个文字的起始时间看作0秒。本实施例可以将上述信息记为语音段对应的文字属性信息。

示例性的，表1给出了一个文字属性信息的数据表效果展示，如表1所示，表1中的每列可以看做一个文字属性项，至少可以包括文字序号、文字的开始时间、文字中首个元音的开始时间以及文字的结束时间，表的行数则可看作语音段内所包括文字的总数。

表1语音段内文字的文字属性信息

S202、对用户所选定背景音乐进行节奏点检测和节拍周期划分，确定所述背景音乐中包含节奏点总量、节奏点序号、以及各节拍周期的周期信息，构成所述背景音乐的音乐节奏信息。

在本实施例中，可以采用音频处理中的节奏点检测策略从背景音乐中先检测出强节奏的重音点(即，节奏点)，然后采用节拍划分策略来发现所检测出节奏点的发音规律，从而划分出具备最小节奏重复单元的节拍周期。对于一段背景音乐来说，检测出的节奏点本身具备一定的属性信息，如节奏点的序号，节奏点的总量、节奏点所处的位置(即节奏点出现的相对时间)，同时，进行节拍检测后，也会对应每个节拍周期形成相应的周期信息，示例性的，所述周期信息可以包括：周期号、节拍周期内所包括节奏点的节奏点个数以及各节奏点的节奏点序号和节奏点起始时间。本实施例可以把这些信息汇总形成一个音乐节奏信息。

示例性的，本实施例给出了一个数据表形式的音乐节奏信息，由此将音乐节奏信息以信息表的信息进行了展示，如表2所示，表2给出了一个音乐节奏信息的数据表效果展示，可以看出表2为一个级联表，表2的第一列展示了以周期号为标识的节拍周期，第二列给出了节奏点序号，同时以级联的形式展现了哪些节奏点包含在周期号为1的节拍周期内，每个周期号下级联了该节拍周期所包括的节奏点序号以及节奏点位置(即起始时间)，而每个周期号下所级联的节奏点的行数可以作为该节拍周期的节奏点个数。

表2背景音乐对应的音乐节奏信息

本实施例下述S203至S205给出了通过文字属性信息以及音乐节奏信息确定语音段与背景音乐对齐所需对齐周期及对齐信息表的具体实现。

S203、根据所述文字属性信息中的文字总量以及所述音乐节奏信息中各节拍周期的周期信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期。

在本实施例中，可以先通过本步骤来确定整段背景音乐中可以包括多少个用于对齐语音段内所有文字的对齐周期，可以知道，当对齐周期的数量大于1时，确定出的最后一个对齐周期可能是一个非完整周期 (即，并未包含全部文字)。本步骤相当于先对背景音乐进行一个大概的对齐周期划分。整个划分的过程需要借助语音段内所包括文字的文字总量，以及背景音乐中一个完整的节拍周期内的节奏点个数，通过文字总量与该节拍周期下节奏点个数的比对，来确定是否直接将节拍周期作为对齐周期，或者通过对节拍周期进行合并来获的对齐周期。

进一步地，图3给出了本实施例所提供将语音转换为说唱音乐方法中确定对齐周期的实现流程图，如图3所示，所述根据所述文字属性信息中的文字总量以及所述音乐节奏信息中各节拍周期的周期信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期可具体优化为：

S2031、选定一个完整的节拍周期，并获取所对应周期信息内节奏点个数。

可以理解的是，整段背景音乐中至少可以检测出一个节拍周期，当检测出一个节拍周期时认为该节拍周期为一个完整周期，当大于1个节拍周期时，划分形成的最后一个周期可能是非完整周期，即并没有包含一个固定周期内的全部节奏点。本实施例可以从完整的节拍周期中挑选一个，获取其所对应周期信息中的节奏点个数。其中，每个完整节拍周期中的节奏点个数的值是相同的。

S2032、判定该节奏点个数是否大于或等于所述文字总量，若是，则执行S2033；若否，则执行S2034。

本步骤的判定目的主要在于确定当前检测获得的一个完整的节拍周期能否容纳进所获得语音段中的所有文字，如果可以，则执行S2033；如果不可以，则需要执行S2034。

S2033、将各所述节拍周期分别看作一个对齐周期。

接上述判定，在节奏点个数大于或等于文字总量时，可以直接将该节拍周期看作一个对齐周期。可以知道的是，当判定一个完整的节拍周期具备该条件时，检测出的其他完整的节拍周期同样也可看做一个完整的对齐周期，而所包括的一个非完整的节拍周期，也可看做一个非完整的对齐周期。

S2034、所述背景音乐中所包括节拍周期的个数是否大于1，若是，则执行S2035；若否，则执行S2036。

接上述判定，在节奏点个数小于文字总量时，相当于一个完整的节拍周期不能容纳进所获得语音段中的所有文字，此时，需要通过本步骤对节拍周期进行合并，而合并的条件前提是背景音乐中所包括的节拍周期的个数至少为两个。可以通过本步骤继续判定背景音乐中节拍周期的个数是否大于1，若是，则满足合并条件，可继续执行S2035；否则，相当于该段背景音乐与语音段不匹配，则需要执行S2036。

S2035、按照周期号的排列顺序进行节拍周期的两两合并，形成至少一个新的节拍周期，返回执行 S2031。

在本实施例中，当节拍周期的个数大于1时，可以按照周期号顺序进行节拍周期的两两合并，由此形成新的节拍周期，可以知道，新形成的节拍周期，其对应的周期信息也将发生相应的变化。以上述表2 为例，假设周期号为1与周期号为2的两个节拍周期合并，形成的新节拍周期内所包含的节奏点个数为之前两个节奏点个数之和。同时也可以知道，本步骤进行两两合并后，所形成的节拍周期个数为原有节拍周期个数的一半加1，之后可返回S2031进一步依据新形成的节拍周期的周期信息进行对齐周期的确定，如此循环，直至找到适合的对齐周期，或者查找失败时结束后续语音到说唱音乐的转换操作。

S2036、结束将所述语音段转换为说唱音乐的处理，并给出重新获得语音段或背景音乐的提示。

在本实施例中，如果节拍周期的个数只有一个，且节奏点个数还小于文字总量，可认为语音段与选定的背景音乐不匹配，需要通过本实施例一可选实施例的操作重新获得再次上传或再次录制语音段，或则，重选背景音乐。

S204、选取一个完整的对齐周期作为待对齐节奏段，根据所述文字属性信息及待对齐节奏段内待对齐节奏点的节奏点信息，确定至少一个对齐单元及相应的对齐单元信息。

上述进行了对齐周期划分后，可以通过本步骤以一个对齐周期为基准，来确定语音段所包括各文字相对该对齐周期内各节奏点的匹配。本实施例具体将一段时长内所包括节奏点与语音段内文字的匹配看作一个对齐单元，每个对齐单元信息则具体包括了所存在节奏点的节奏点序号，以及与该节奏点所匹配文字的文字序号，以及将所存在节奏点与所匹配文字进行对齐时所需的变速比。

其中，每个对齐单元存在一行至少包括了节奏点序号、文字序号以及变速比的对齐单元信息。同时，由于每个对齐周期所包括的节奏点数量相同，所具备的音乐节奏相同，因此，本步骤可以仅对任一个完整的对齐周期进行有关对齐单元及对齐单元信息的确定。

具体的，本步骤确定对齐单元及对齐单元信息的实现过程可描述为：本步骤首先将选定进行信息确定的对齐周期记为待对齐节奏段，而该对齐周期所具备的节奏点信息可直接作为待对齐节奏段内待对齐节奏点的节奏点信息；之后，本步骤可以根据文字属性信息以及节奏点信息确定一个用于字和节奏点对齐的对齐匹配值；然后确定该对齐匹配值在预先设定的节奏点-文字对齐规则表中所属的对齐范围；最终基于该对齐范围对应的对齐规则来进行待对齐节奏段内对齐单元的确定，以及各对齐单元所具备对齐单元信息的确定，其中，节奏点-文字对齐规则表所存在的对齐范围及相应的对齐规则均可通过历史经验预先设定。

进一步地，图4给出了本实施例所提供将语音转换为说唱音乐方法内确定对齐周期中对齐单元及对齐单元信息的实现流程图，如图4所示，根据所述文字属性信息及待对齐节奏段内待对齐节奏点的节奏点信息，确定至少一个对齐单元及相应的对齐单元信息可具体优化为：

可以知道的是，本实施例下述S2041至S2048为对上述S204的具体展开执行。

S2041、选取一个完整的对齐周期作为待对齐节奏段，基于待对齐节奏段内待对齐节奏点的节奏点信息，形成与各所述待对齐节奏点一一对应的待对齐节奏块，并将所述待对齐节奏点的数量记为初始的剩余点个数。

在本实施例中，可以从上述确定的对齐周期中，选定一个完整的对齐周期作为进行对齐信息表确定的待对齐节奏段，所述待对齐节奏段中待对齐节奏点为该对齐周期中包括的各节奏点，所包括节奏点的节奏点信息为待对齐节奏点的节奏点信息。

需要说明的是，本实施例可以将相邻两个待对齐节奏点形成的间隔记为一个待对齐节奏块，由此，本步骤可首先按照待对齐节奏段所包括待对齐节奏点的数量形成相同数量个待对齐节奏块，即可认为所形成的待对齐节奏块分别于待对齐节奏点一一对应，其中，本步骤可以为各待对齐节奏块设置相应的块序号，之后，本步骤还可以将待对齐节奏点的数量优选记为初始的剩余点个数。

S2042、确定所述剩余点个数与所述文字属性信息中文字总量的比值，并记为对齐匹配值。

本实施例为了实现待对齐节奏段内各待对齐节奏点与语音段内文字的匹配，首先通过本步骤来确定待对齐节奏段内未与文字匹配的各待对齐节奏点与文字总量的比值，并将该比值记为对齐匹配值。

可以理解的是，当在待对齐节奏段内不存在已匹配的节奏点时，需要匹配的节奏点数为全部待对齐节奏点，因此，最初时将剩余点个数初始为所包括待对齐节奏点的数量。

S2043、查找预设的节奏点-文字对齐规则表，确定所述对齐匹配值归属的长度比值范围。

本实施例预先设定了一个节奏点-文字对齐规则表，该规则表为一个二元关联表，两个关联的对象分别为长度比值范围及对齐规则。所述长度比值范围具体可通过一个对齐周期内未匹配的节奏点个数与整个语音段所包括文字总量的比值来设定。优选地，本实施例基于历史经验形成6个不同区间的长度比值范围，分别为：(0,0.2]、(0.2,0.8]、(0.8,1]、(1,1.1]、(1.1,1.3]和(1.3,∞)。

在本实施例中，可以确定上述所获得的对齐匹配值在节奏点-文字对齐规则表中所处的长度比值范围。

S2044、按照所述长度比值范围对应的对齐规则确定存在相匹配文字的待对齐节奏块，并记为候选对齐单元。

通过上述步骤确定对齐匹配值归属的长度比值范围，可以获得该长度比值范围所关联的对齐规则，本步骤可以通过该对齐规则为该待对齐节奏段进行候选对齐单元的划分。

本实施例中，可以将文字与节奏点的匹配，看作文字与一个待对齐节奏块的匹配，基于长度比值范围对应的对齐规则，可以为每个待对齐节奏块确定出与其相匹配的文字(文字个数不确定，但至少为1个)，且匹配后的待对齐节奏块就可作为一个候选对齐单元。

接上述对节奏点-文字对齐规则表的描述，对应于不同的长度比值范围，本实施例设定了相应的对齐规则，示例性的，表3给出了预先设定的节奏点-文字对齐规则表。本步骤就可通过表3中各长度比值范围对应的对齐规则为剩余节奏点(剩余的待对齐节奏段)进行文字匹配。

表3节奏点-文字对齐规则表

S2045、统计剩余待对齐节奏块的块数，作为新的剩余点个数。

采用上述S2044进行一次对齐匹配后，还能还存在未匹配的待对齐节奏块，本步骤可以统计出待对齐节奏段中剩余的待对齐节奏块的块数，并将该块数作为新的剩余点个数。

S2046、确定所述剩余点个数是否为0，若是，则执行S2047；若否，返回执行S2042。

通过本步骤，可以判定剩余点个数是否为0，如果为0，则可认为待对齐节奏段中剩余的待对齐节奏块为0，即所有的待对齐节奏块均已完成了匹配，此时可以执行S2047的操作；如果不为0，则可认为待对齐节奏段中还存在未匹配的待对齐节奏块，此时可以返回重新执行S2042的对齐匹配值确定操作。

可以理解的是，基于本步骤的操作，当一个待对齐节奏段内所有的待对齐节奏块均完成匹配后，其所形成的候选对齐单元的个数实际与所包括待对齐节奏点的个数相同。即，可认为一个待对齐节奏点(待对齐节奏块)对应存在一个候选对齐单元，而所形成各候选对齐单元的单元序号可以按照其对齐顺序从0 开始依次递增标记。

为便于更好的理解候选对齐单元的确定过程，本实施例给出了一个示例性描述。示例性的，假设一个待对齐节奏段中的待对齐节奏点数量为8，且当前确定的剩余点个数为8；用户所获得语音段包括的文字总量为5，如“淡黄色长裙”，则将“淡黄色长裙”与8个剩余节奏点进行匹配确定各候选对齐单元的过程可描述为：

1)对齐匹配值为：8/5＝1.6，落入(1.3,∞)的长度比值范围，查找上述表3，可以获得其对应的对齐规则。

2)按照长度比值范围(1.3,∞)所关联对齐规则进行文字与节奏点的匹配。

具体的，该对齐规则为：“从首个文字开始选择10％字长的文字进行从首个剩余节奏点开始的匹配，之后将100％字长的剩余节奏点分别与文字顺序匹配，然后对之后20％字长的剩余节奏点，从最后一个文字开始选择20％字长的文字进行重复匹配”。基于该对齐规则，首先需要从“淡黄色长裙”的首个字开始，选择10％字长，即0.5个字进行重复。需要说明的是，当遇到待重复的字长小于1时，就进行向下取整的操作，因此，当前需要重复的字数为0。之后，可以直接从首个剩余节奏点开始，选择100％字长的节奏点，分别与5个文字顺序匹配，此时，节奏点0-4形成的待对齐节奏块0-4分别对应了“淡”“黄”“色” “长”“裙”5个字；然后，需要从“淡黄色长裙”的最后一个字开始，选择20％字长，即1.5个字进行重复，如上所述，基于向下取整，当前需要重复的字数为1，即最后一个字“裙”，此时，节奏点6形成的待对齐节奏块对应了“裙”这个字。至此，完成了按照长度比值范围(1.3,∞)所关联对齐规则进行文字与节奏点匹配的操作，当前确定出的候选对齐单元的单元序号分别为0-5，且各候选匹配单元所对应的文字分别为：“淡”“黄”“色”“长”“裙”“裙”。

3)上述操作后，8个待对齐节奏块中还余下2个未匹配的待对齐节奏块，认为剩余点个数大于0，由此可重新进行对齐匹配值确定，新的对齐匹配值为2/5＝0.4，落入(0.2,0.8]的长度比值范围，查找上述表3，可以获得其对应的对齐规则。

4)按照长度比值范围(0.2,0.8]所关联对齐规则进行文字与节奏点的匹配。

具体的，该对齐规则为：“当L小于或等于0.5，则随机选定L*字长的待重复文字，调整已匹配的节奏点-文字的位置，在所选定文字后进行重复添加；当L大于0.5，随机选定50％字长的待重复文字，调整已匹配的节奏点-文字的位置，在所选定文字后进行重复添加，并对余下(L-0.5)*字长的剩余节奏点进行静音段添加，其中，L为对齐匹配值。”

分析该对齐匹配值0.4，可知按照该对齐规则，该对齐匹配值0.4小于0.5，因此可以直接进行随机选定40％字长(即2个字)的操作，假设字号0-4中随机选定的字号为1和3，分别对应的字为“黄”和“长”，则之后需要对上述已匹配形成的“淡黄色长裙裙”进行调整，使得待重复的字能够位于所选定文字的位置之后，按照该对齐规则，余下两个待对齐节奏块匹配的文字分别为“黄”和“长”，由此形成了分别匹配 “黄”和“长”两个文字的新的候选对齐单元，由于对上述已匹配形成的“淡黄色长裙裙”进行了调整，基于该操作后，各候选匹配单元所对应的文字分别为：“淡”“黄”“黄”“色”“长”“长”“裙”“裙”。

5)上述操作后，余下未匹配的待对齐节奏块为0，即剩余点个数为0，符合结束候选对齐单元的匹配条件，由此可以结束上述操作。

通过本步骤5)之后，就可以形成8个单元序号依次为0-7的候选对齐单元。由此完成语音段内文字到待对齐节奏段的对齐匹配。

S2047、根据各候选对齐单元的单元时长结合所匹配文字的匹配文字属性信息，确定至少一个对齐单元并获得相应的变速比。

根据上述描述，可知从待对齐节奏段内确定出的候选对齐单元的个数与所包括待对齐节奏块的块数相同，而一个待对齐节奏块为相应节奏点到相邻下一节奏点或者节奏结束点(该种情况主要针对最后一个节奏点)所形成的间隔块，即，一个待对齐节奏块的持续时长为两节奏点(或节奏结束点)的间隔时长。本实施例中，由于一个候选对齐单元对应一个待对齐节奏块，所以可将待对齐节奏块的持续时长作为相应候选对齐单元的单元时长。

需要说明的是，确定出候选对齐单元相匹配的文字后，需要做的就是将所匹配文字与候选对齐单元进行文字发音与单元时长的对齐。一般情况下，该种对齐可以直接是在播放该候选对齐单元音频信号的同时混入所匹配文字的发音。考虑到有些文字的发音时间较短，但与其匹配的候选对齐单元的单元时长又较长，又或者，有些文字的发音时间较长，但与其匹配的候选对齐单元的单元时长又较短，为了实现文字与待对齐单元的对齐，则需要调整文字的发音速率，比如将文字的发音时间拉伸(减小发音速度)或则压缩(加快发音速度)以使其等于单元时长。

本实施例将文字需要拉伸或者压缩的比例值记为变速比，且本步骤具体可以根据候选对齐单元的单元时长，以及与候选对齐单元所匹配文字的匹配文字属性信息(如所匹配文字的文字起止时间，文字中首个元音的起始位置等)，来确定所匹配的文字与相应候选对齐单元进行对齐时所需的变速比。

然而，通过拉伸或压缩文字发音，将文字与待对齐单元对齐的实现中，文字发音能够拉伸或者压缩的程度是有限定的，如果仅考虑对齐而无限的拉伸或压缩文字发音，在实际执行对齐操作后，所形成的音频就存在失真的风险，因此，本实施例需要为文字发音的压缩或者拉伸设定一个合适的范围，即，需要保证文字所对应的变速比为处于一个正常的比值范围，该比值范围就可看作适合拉伸或压缩的适合条件。

由此，本步骤还可以根据上述计算所得的变速比，通过将该变速比与所设定适合条件的比对，来确定相应的候选对齐单元是否适合作为对齐单元，如果适合，则可直接将候选对齐单元确定为对齐单元，并将其对应的变速比确定为该对齐单元的变速比；如果不适合，则需要对候选对齐单元进行静音填补或者两个或多个候选对齐单元的合并处理，从而获得满足上述适合条件的对齐单元，且将进行适合条件判定的变速比作为该对齐单元的变速比。

经过本步骤的操作，上述所确定的待对齐节奏点数量个的候选对齐单元最终能形成至少一个对齐单元，每个对齐单元中至少可以包括一个节奏点，同时至少也可以包括一个相匹配的文字，每个对齐单元的变速比就可看作将所包括文字与所包括节奏点进行对齐时，对文字进行拉伸或者伸缩所需的比例值。

S2048、将各所述对齐单元的单元序号、所包括节奏点中的起始节奏点序号、所匹配文字的文字序号以及变速比确定为相应的对齐单元信息。

可以知道的是，在进行上述对齐单元及相应变速比的确定操作时，也相应获得了每个对齐单元的单元序号，以及该对齐单元中所包括的各节奏点的节奏点序号，同时，也可以获得该对齐单元中所匹配各文字的文字序号。通过本步骤的操作，可以针对每个对齐单元进行上述信息的汇总，由此对应每个对齐单元形成相应的对齐单元信息。

S205、汇总各所述对齐单元信息形成所述待对齐节奏段的当前对齐信息表，并根据所述当前对齐信息表确定余下各对齐周期的对齐信息表。

本实施例通过上述S204可以确定出待对齐节奏段中包括的至少一个对齐单元，以及相应各对齐单元信息，本步骤可以对上述确定的各对齐单元信息按照对齐单元的单元序号顺序排列汇总，由此形成一个当前对齐信息表。之后还可以根据该当前对齐信息表确定上述S203确定出的其余各对齐周期的对齐信息表。

具体的，对于剩余的其他对齐周期，如果是一个完整的对齐周期，则可复制上述当前对齐信息表直接作为相应的对齐信息表；若果是一个非完整的对齐周期，则可从当前对齐信息表中取出与该对齐周期所包括节奏点个数相同行的对齐单元信息形成相应的对齐信息表。

表4一个对齐周期中基于各对齐单元的信息形成的对齐信息表

单元序号	起始节奏点序号	文字序号	变速比
				1	1	2	1.0
2	2	3,4	1.2
				3	3	5	0.9
…	…	…	…

示例性的，表4给出了一个对齐周期中基于各对齐单元的信息形成的对齐信息表，如表4所示，该对齐信息表中的各列相当于对齐单元的属性信息，可以包括：对齐单元的单元序号、该对齐单元内起始节奏点的节奏点序号、所匹配各文字的文字序号以及进行对齐所需的变速比，该对齐信息表的行数代表了该对齐周期所具备对齐单元的单元个数。

进一步地，所述根据所述当前对齐信息表确定余下各对齐周期的对齐信息表可具体化为：针对余下的每个对齐周期，如果所述对齐周期为一个完整周期，则将所述当前对齐信息表作为所述对齐周期的对齐信息表；如果所述对齐周期为一个非完整周期，则确定所述对齐周期下所包括节奏点的目标点个数；从所述当前对齐信息表中逆序选定所述目标点个数行的对齐单元信息，形成所述对齐周期的对齐信息表。

本实施例上述描述具体给出了背景音乐内其余对齐周期的对齐信息表的确定过程，对于非完整的对齐周期，假设其中包括2个节奏点，则可直接从当前对齐信息表中由下至上选择两行对齐单元信息构成相应的对齐信息表。

S206、按照各所述对齐信息表控制所述语音段中的文字与所述背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。

在本实施例中，具体可以知道对应每个对齐周期所形成的对齐信息表中至少包括了一个对齐单元及相应的对齐单元信息，而每个对齐单元信息中包括了实际用于文字和节奏点对齐的节奏点序号、所匹配的文字序号以及对齐所需的变速比等。本实施例通过上述步骤获得各对齐周期的对齐信息表后，就可以依据每个对齐信息表中包括各对齐单元信息，控制相应的节奏点与所匹配的文字按照对应的变速比进行对齐，由此来实现语音段中文字与背景音乐中节奏点的对齐匹配。

需要说明的是，本步骤控制语音段内文字与所匹配的节奏点对齐时，对于每个对齐周期内的匹配，实际均相当于先根据该对齐周期内下各对齐单元内所包括文字的发音占据时长(该对齐单元的首个元音起始点到下一个单元的首个元音起始点的间隔时长)来获取各对齐单元在语音段内实际对应的音频数据，然后根据各对齐单元的变速比来对实际对应的音频数据进行变速调整，最终，可以对变速调整后的音频数据在进行变调调整以及特效处理等操作，从而形成转换后的说唱音乐。

本发明实施例二提供的一种将语音转换为说唱音乐方法，具体给出了文字属性信息以及音乐节奏信息的确定操作，还给出了确定语音段与背景音乐对齐所需的对齐周期及相关对齐信息表的具体操作。通过本实施例提供的方法，能够使用户在选定背景音乐以及录制一段随意内容的说话语音后，通过获得到的节奏点位置，单字的起止时间以及元音开始时间，确定字与节奏点匹配对齐及变速的对齐策略，由此通过对齐策略短时间内就能获得字与节奏点对齐后形成的说唱音乐。整个技术方案的实现，简化了手动音频剪辑制作的繁琐过程，为非专业音频处理人员提供了说唱音乐制作的可能；同时，与现有的语音转换说唱的方法相比，无需限制待转换语音内容，保证了待转换语音内容的自由化录制，还简化了语音转换的实现过程，避免了语音文字与音乐节奏点错位的情况，提升了语音转换说唱音乐的应用范围。

作为本发明实施例二的一个可选实施例，本可选实施例在执行上述S202中确定所述背景音乐中包含节奏点总量、节奏点序号、以及各节拍周期的周期信息，构成所述背景音乐的音乐节奏信息之前，还进一步优化包括了：

获取检测出的初始节奏点，并确定相邻两初始节奏点形成的间隔时长；根据所述语音段所包括文字的平均字长结合各所述间隔时长，确定各所述初始节奏点中的待删除节奏点并删除，获得所述背景音乐中有效的节奏点。

在本可选实施例中，具体给出了对从背景音乐中所检测出节奏点进行优化处理的操作，通过该操作可以从所检测出的节奏点(本可选实施例记为初始节奏点)中去除掉相邻两节奏点间隔时长小于平均字长一半的间隔较密集的节奏点。

具体的，文字的平均字长为全部文字所占用的时长与文字总量的比值，一般来说，如果相邻两节奏点间的间隔时长小于平均字长的一半，不利于文字与节奏点的对齐，因此，需要对相邻两节奏点中的任一个进行删除，从而使未删除的那个节奏点与所删除掉节奏点的前一个或者后一个构成新的间隔时长，且可以再次通过本可选实施例的方式对新形成的间隔时长再次进行判定，由此循环更新去除无效的节奏点，保留下有效的节奏点。

作为本发明实施例二的另一个可选实施例，进一步对上述S2047的执行进行了优化，图5给出了本发明实施例中确定对齐周期中对齐单元及对齐单元信息的具体展开流程图，如图5所示，进一步将根据各候选对齐单元的单元时长结合所匹配文字的匹配文字属性信息，确定至少一个对齐单元并获得相应的变速比，具体化为：

可以知道的是，本可选实施例为上述S2047的具体执行过程。通过上述S2046的操作，在待对齐节奏段内可以获得一定数量的候选对齐单元，本可选实施例下述操作可以实现从候选对齐单元中对齐单元以及对齐单元相应变速比的确定操作。

S1、按照单元序号的顺序选取一个未选中的候选对齐单元作为当前处理单元。

在本实施例中，待对齐节奏段内的候选对齐单元存在相应的单元序号，本步骤可以按照单元序号的顺序先选取一个之前未被选中的候选对齐单元，作为当前处理单元，未选中可理解为未被选取作为过当前处理单元。

示例性的，本步骤首先选取首个候选处理单元作为当前处理单元。

S2、根据所述当前处理单元的单元时长，结合所述当前处理单元及相邻下一候选对齐单元中分别所匹配文字的起止时间和首个元音的起始位置，确定所述当前处理单元的当前变速比。

根据本实施例的上述描述，可知文字与候选对齐单元的对齐主要表现在文字实际的发音时长与候选对齐单元所具备单元时长的对齐，二者的对齐具体可通过对文字发音时长的拉伸或者压缩来实现，而对文字发音时长的拉伸或者压缩可通过一个变速比决定。而变速比相当于发音时长与文字实际发音时长的比值。

需要说明的是，对于一个文字而言，其实际的发音时长是从首个元音的起始位置处开始的，而实际发音的结束时间可看做相邻下一文字的首个元音起始位置处。将文字与候选对齐单元相结合来考虑的话，一个候选对齐单元中，所匹配全部文字实际发音所占用的时长应该是从该候选对齐单元首个匹配文字的首个元音位置开始，到与其相邻的下一候选对齐单元中首个匹配文字的首个元音位置结束。因此，本步骤可以通过当前处理单元及相邻下一候选对齐单元中分别所匹配文字的起止时间和首个元音的起始位置来确定当前处理单元中所匹配全部文字的实际发音时长，并由此根据已知的单元时长及确定出的实际发音时长来获得当前处理单元的当前变速比。

具体的，本实施例还可以将根据所述当前处理单元的单元时长，结合所述当前处理单元及相邻下一候选对齐单元中分别所匹配文字的起止时间和首个元音的起始位置，确定所述当前处理单元的当前变速比进一步地优化为：

S21、根据所述当前处理单元相匹配全部文字的起止时间及首个元音的起始位置，确定相匹配全部文字在所述当前处理单元内的发音占据时长。

本步骤可以获取到当前处理单元中相匹配的全部文字的匹配文字属性信息，具体可以是每个文字的起止时间以及该文字首个原因的起始位置，基于这些信息，可以确定出相匹配全部文字在所述当前处理单元内的发音占据时长。

示例性的，假设当前处理单元中目前仅有一个文字，该文字的起止时间分别为t1和t2，首个元音的起始位置为t3，其中，t1<t3<t2，则该文字在当前处理单元内的发音占据时长实际为t2-t3。

假设当前处理单元中目前有两个文字，第一个文字的起止时间分别为t1和t2，首个元音的起始位置为t3，第二个文字的起止时间分别为t2和t4，首个元音的起始位置为t5，其中，t1<t3<t2<t5<t4，则这两个文字在当前处理单元内共同具备的发音占据时长为：t4-t3或者为(t2-t3)+(t4-t5)。可以看出，当前处理单元中所匹配全部文字的发音占据时长仅为全部文字起止时长之和与第一个文字起始到首个元音的间隔时长的差值。

需要知道的是，这里的发音占据时长并不是当前处理单元中相匹配全部文字的实际发音时长，实际发音时长中还包括了当前处理单元相邻下一候选对齐单元所匹配首个文字的元音间隔时长，该元音间隔时长可通过下述S22获得。本实施例采用上述方式确定发音占据时长的目的在于使语音段中每个文字的首个元音位置能够对齐到所匹配候选对齐处理单元的节奏点上，由此来保证采用该种方式对齐后的文字和节奏点的播放效果更优于直接把字首与节奏点对齐的播放效果。

S22、根据所述当前处理单元相邻下一候选对齐单元所匹配首个文字的起止时间及首个元音的起始位置，确定所述首个文字的元音间隔时长。

接上述示例，以当前处理单元包括两个文字为例，假设当前处理单元相邻下一候选对齐单元所匹配文字中首个文字的起止时间为t4和t6，首个元音的起始位置为t7，其中，t1<t3<t2<t5<t4<t7<t6，则首个文字的元音间隔时长为t7-t4。

通过S21和S22，可以确定当前处理单元中相匹配全部文字的实际发音时长为当前处理单元内相匹配所有文字的发音占据时长与相邻下一候选对齐单元所匹配首个文字的元音间隔时长。接上述示例，当前处理单元中相匹配全部文字的实际发音时长为(t4-t3)+(t7-t4)。

S23、将所述当前处理单元的单元时长与所确定实际发音时长的比值作为所述当前处理单元的当前变速比，其中，所述实际发音时长为发音时长与元音间隔时长的和。

接上述示例，假设当前处理单元的单元时长为t，当前处理单元的当前变速比为可表示为： t/[(t4-t3)+(t7-t4)]。

S3、将所述当前变速比与设定的第一变速比值及第二变速比值的进行比对，其中，所述第二变速比值大于所述第一变速比值。

通过S2确定出当前处理单元的当前变速比之后，可以将当前变速比与设定的第一变速比值以及第二变速比值进行比较，以此来确定通过当前变速比对相匹配的文字进行拉伸或者压缩是否满足常规的拉伸/ 压缩条件。

本实施例优选设定处于第一变速比值和第二变速比值之间的变速比满足拉伸/压缩条件，小于第一变速比值的不满足压缩条件，大于第二变速比值的不满足拉伸条件。

S4、如果所述当前变速比大于或等于第一变速比值且小于或等于第二变速比值，则将所述当前处理单元确定为对齐单元，并记所述当前变速比为所述对齐单元的变速比，之后执行S7。

具体的，当所述当前变速比大于或等于第一变速比值且小于或等于第二变速比值时，认为该当前处理单元的当前变速比满足常规的拉伸/压缩条件，此时可直接将当前处理单元看作一个对齐单元，以及将当前变速比看作该对齐单元的变速比，并跳转至S7继续执行操作。

S5、如果所述当前变速比大于所述第二变速比值，则确定用于填补所述当前处理单元的静音时长，并根据所述静音时长确定新的当前变速比，之后执行S3。

具体的，当所述当前变速比大于所述第二变速比值时，认为该当前处理单元的当前变速比不满足常规的拉伸条件，此时相当于当前处理单元的单元时长过长于相匹配全部文字的实际发音时长，需要在当前处理单元中补入一个静音时长，以此来增加文字的实际发音时长。

本步骤确定所补入的静音时长优选为一个文字的起止时长，由此，本步骤根据该静音时长与已确定的实际发音时长相结合，重新确定一个以单元时长为分子，静音时长与实际发音时长之和为分母的当前变速比。并在此之后重新返回S3进行变速比的比对操作。

S6、如果所述当前变速比小于所述第一变速比值，则将当前处理单元与相邻下一候选对齐单元合并形成新的当前处理单元，返回执行S2。

具体的，当所述当前变速比小于所述第一变速比值时，认为该当前处理单元的当前变速比不满足常规的压缩条件，此时相当于当前处理单元的单元时长过小于相匹配全部文字的实际发音时长，本步骤需要在当前处理单元的基础上，再并入一个候选对齐单元，形成一个新的当前处理单元，此次来增加当前处理单元的单元时长。

其中，本实施例优选待并入的候选对齐单元为现有当前处理单元相邻的下一候选对齐单元，此时，新形成的当前处理单元的单元时长为原有单元时长与下一候选对齐单元所对应单元时长的和，之后，可返回 S2重新计算新形成的当前处理单元中相匹配全部文字的实际发音时长。

需要说明的是，本实施例中进行了选择下一候选对齐单元并入现有当前处理单元的操作，同样认为所选取的下一候选对齐单元已经被选中，后续在需要执行S1时，可以跳过对该下一候选对齐单元的选取，不再单独选取该下一候选对齐单元作为当前处理单元。

S7、判定所有候选对齐单元是否均被选中参与处理，若是，则执行S8；若否，返回执行S1；

通过上述步骤确定出一个对齐单元后，该待对齐节奏段中可能还存在未被选中的候选对齐单元，可以通过本步骤进行一下判定，如果所有候选对齐单元均被选中参与了上述处理，则可执行S8，否则，需要返回S1重新选择一个未被选中的候选对齐单元循环进行上述操作。

S8、汇总所确定的各对齐单元以及相应的变速比。

本步骤可以将上述确定出的各对齐单元以及相应的变速比进行汇总，以获得待对齐节奏段中包括的至少一个对齐单元及变速比。

本可选实施例给出了待对齐节奏段中有效的对齐单元及相应变速比的实现过程，通过本可选实施例的执行，能够保证待对齐节奏段中节奏点与语音段中文字的有效对齐，避免了语音文字与音乐节奏点错位的情况发生，由此为本实施例中语音到说唱音乐的转换提供了有效的理论支撑。

实施例三

图6为本发明实施例三提供的一种将语音转换为说唱音乐的装置的结构框图，该装置适用于对用户录制的语音进行说唱音乐转换的情况，其中，该装置可以由软件或硬件实现，并一般可集成在计算机设备上。如图6所示，该装置包括：信息确定模块31、对齐信息确定模块32以及转换控制模块33。

信息确定模块31，用于识别所获得语音段以及处理所选定背景音乐，获得所述语音段内文字的文字属性信息以及所述背景音乐的音乐节奏信息；

对齐信息确定模块32，用于根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表；

转换控制模块33，用于按照各所述对齐信息表控制所述语音段中的文字与所述背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。

本发明实施例三提供的一种将语音转换为说唱音乐的装置，有效实现了将用户随意录制的语音内容片段转化为配合背景音乐的说唱片段，简化了手动音频剪辑制作的繁琐过程，为非专业音频处理人员提供了说唱音乐制作的可能；同时，与现有的语音转换说唱的方法相比，无需限制待转换语音内容，保证了待转换语音内容的自由化录制，还简化了语音转换的实现过程，避免了语音文字与音乐节奏点错位的情况，提升了语音转换说唱音乐的应用范围。

实施例四

图7给出了本发明实施例四提供的一种计算机设备的硬件结构示意图，具体地，该计算机设备包括：处理器和存储装置。存储装置中存储有至少一条指令，且指令由所述处理器执行，使得所述计算机设备执行如上述方法实施例所述的将语音转换为说唱音乐的方法。

参照图7，该计算机设备具体可以包括：处理器40、存储装置41、显示屏42、输入装置43、输出装置44以及通信装置45。该计算机设备中处理器40的数量可以是一个或者多个，图6中以一个处理器40 为例。该计算机设备中存储装置41的数量可以是一个或者多个，图7中以一个存储装置41为例。该计算机设备的处理器40、存储装置41、显示屏42、输入装置43、输出装置44以及通信装置45可以通过总线或者其他方式连接，图7中以通过总线连接为例。

具体的，实施例中，处理器40执行存储装置41中存储的一个或多个程序时，具体实现如下操作：识别所获得语音段以及处理所选定背景音乐，获得所述语音段内文字的文字属性信息以及所述背景音乐的音乐节奏信息；根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表；按照各所述对齐信息表控制所述语音段中的文字与所述背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的程序由计算机设备的处理器执行时，使得计算机设备能够执行如上述实施例所述的将语音转换为说唱音乐的方法。示例性的，上述实施例所述的将语音转换为说唱音乐的方法包括：识别所获得语音段以及处理所选定背景音乐，获得所述语音段内文字的文字属性信息以及所述背景音乐的音乐节奏信息；根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表；按照各所述对齐信息表控制所述语音段中的文字与所述背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频。

需要说明的是，对于装置、计算机设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的将语音转换为说唱音乐的方法。

值得注意的是，上述将语音转换为说唱音乐的装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种将语音转换为说唱音乐的方法，其特征在于，包括：

按照各所述对齐信息表控制所述语音段中的文字与所述背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频；

所述根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表，包括：

根据所述文字属性信息中的文字总量以及所述音乐节奏信息中各节拍周期的周期信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期；

选取一个完整的对齐周期作为待对齐节奏段，根据所述文字属性信息及待对齐节奏段内待对齐节奏点的节奏点信息，确定至少一个对齐单元及相应的对齐单元信息；

汇总各所述对齐单元信息形成所述待对齐节奏段的当前对齐信息表，并根据所述当前对齐信息表确定余下各对齐周期的对齐信息表。

2.根据权利要求1所述的方法，其特征在于，所述识别所获得语音段以及处理所选定背景音乐，获得所述语音段内文字的文字属性信息以及所述背景音乐的音乐节奏信息，包括：

对用户所选定所获得语音段进行降噪处理以及端点检测处理，通过对处理后语音段的语音识别获得所述语音段内各文字的文字序号、起止时间、首个元音的起始位置以及文字总量，构成所述语音段的文字属性信息；

对用户所选定背景音乐进行节奏点检测和节拍周期划分，确定所述背景音乐中包含节奏点总量、节奏点序号、以及各节拍周期的周期信息，构成所述背景音乐的音乐节奏信息；

其中，所述周期信息包括：周期号、节拍周期内所包括节奏点的节奏点个数以及各节奏点的节奏点序号和节奏点起始时间。

3.根据权利要求2所述的方法，其特征在于，在确定所述背景音乐中包含节奏点总量、节奏点序号、以及各节拍周期的周期信息，构成所述背景音乐的音乐节奏信息之前，还包括：

获取检测出的初始节奏点，并确定相邻两初始节奏点形成的间隔时长；

根据所述语音段所包括文字的平均字长结合各所述间隔时长，确定各所述初始节奏点中的待删除节奏点并删除，获得所述背景音乐中有效的节奏点。

4.根据权利要求1所述的方法，其特征在于，所述根据所述文字属性信息中的文字总量以及所述音乐节奏信息中各节拍周期的周期信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，包括：

判定一个完整的节拍周期所对应周期信息内节奏点个数是否大于或等于所述文字总量；

若是，则将各所述节拍周期分别看作一个对齐周期；

若否，当所述背景音乐中所包括节拍周期的个数大于1时，按照周期号的排列顺序进行节拍周期的两两合并，形成至少一个新的节拍周期，并返回继续进行节奏点个数与所述文字总量的判定。

5.根据权利要求1所述的方法，其特征在于，所述根据所述当前对齐信息表确定余下各对齐周期的对齐信息表，包括：

针对余下的每个对齐周期，如果所述对齐周期为一个完整周期，则将所述当前对齐信息表作为所述对齐周期的对齐信息表；

如果所述对齐周期为一个非完整周期，则确定所述对齐周期下所包括节奏点的目标点个数；

从所述当前对齐信息表中逆序选定所述目标点个数行的对齐单元信息，形成所述对齐周期的对齐信息表。

6.根据权利要求1所述的方法，其特征在于，所述根据所述文字属性信息及待对齐节奏段内待对齐节奏点的节奏点信息，确定至少一个对齐单元及相应的对齐单元信息，包括：

基于待对齐节奏段内待对齐节奏点的节奏点信息，形成与各所述待对齐节奏点一一对应的待对齐节奏块，并将所述待对齐节奏点的数量记为初始的剩余点个数；

确定所述剩余点个数与所述文字属性信息中文字总量的比值，并记为对齐匹配值；

查找预设的节奏点-文字对齐规则表，确定所述对齐匹配值归属的长度比值范围；

按照所述长度比值范围对应的对齐规则确定存在相匹配文字的待对齐节奏块，并记为候选对齐单元；

统计剩余待对齐节奏块的块数，作为新的剩余点个数，返回重新执行对齐匹配值的确定操作，直至剩余点个数为0；

根据各候选对齐单元的单元时长结合所匹配文字的匹配文字属性信息，确定至少一个对齐单元并获得相应的变速比；

将各所述对齐单元的单元序号、所包括节奏点中的起始节奏点序号、所匹配文字的文字序号以及变速比确定为相应的对齐单元信息。

7.根据权利要求6所述的方法，其特征在于，所述根据各候选对齐单元的单元时长结合所匹配文字的匹配文字属性信息，确定至少一个对齐单元并获得相应的变速比，包括：

a)按照单元序号的顺序选取一个未选中的候选对齐单元作为当前处理单元；

b)根据所述当前处理单元的单元时长，结合所述当前处理单元及相邻下一候选对齐单元中分别所匹配文字的起止时间和首个元音的起始位置，确定所述当前处理单元的当前变速比；

c)将所述当前变速比与设定的第一变速比值及第二变速比值的进行比对，其中，所述第二变速比值大于所述第一变速比值；

d)如果所述当前变速比大于或等于第一变速比值且小于或等于第二变速比值，则将所述当前处理单元确定为对齐单元，并记所述当前变速比为所述对齐单元的变速比，之后执行步骤g)；

e)如果所述当前变速比大于所述第二变速比值，则确定用于填补所述当前处理单元的静音时长，并根据所述静音时长确定新的当前变速比，之后返回步骤c)；

f)如果所述当前变速比小于所述第一变速比值，则将当前处理单元与相邻下一候选对齐单元合并形成新的当前处理单元，并返回执行步骤b)；

g)判定所有候选对齐单元是否均被选中参与处理，若是，则执行步骤h)；若否，返回执行步骤a)；

h)汇总所确定的各对齐单元以及相应的变速比。

8.根据权利要求7所述的方法，其特征在于，所述根据所述当前处理单元的单元时长，结合所述当前处理单元及相邻下一候选对齐单元中分别所匹配文字的起止时间和首个元音的起始位置，确定所述当前处理单元的当前变速比，包括：

根据所述当前处理单元相匹配全部文字的起止时间及首个元音的起始位置，确定相匹配全部文字在所述当前处理单元内的发音占据时长；

根据所述当前处理单元相邻下一候选对齐单元所匹配首个文字的起止时间及首个元音的起始位置，确定所述首个文字的元音间隔时长；

将所述当前处理单元的单元时长与所确定实际发音时长的比值作为所述当前处理单元的当前变速比，其中，所述实际发音时长为发音时长与元音间隔时长的和。

9.根据权利要求1-8任一项所述的方法，其特征在于，在所述根据所述文字属性信息以及所述音乐节奏信息，确定至少一个用于将所述语音段与所述背景音乐对齐的对齐周期，并获得各所述对齐周期的对齐信息表之前，还包括：

如果所述文字属性信息中的文字总量大于所述音乐节奏信息中的节奏点总量，则结束将所述语音段转换为说唱音乐的处理，并给出重新获得语音段或背景音乐的提示。

10.一种将语音转换为说唱音乐的装置，其特征在于，包括：

转换控制模块，用于按照各所述对齐信息表控制所述语音段中的文字与所述背景音乐中的节奏点对齐，并在变调调整以及特效处理后形成说唱音频；

所述对齐信息确定模块，具体用于：

11.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9任一项所述的将语音转换为说唱音乐的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9任一项所述的将语音转换为说唱音乐的方法。