CN115116428B

CN115116428B - 韵律边界标注方法、装置、设备、介质及程序产品

Info

Publication number: CN115116428B
Application number: CN202210555616.XA
Authority: CN
Inventors: 余剑威; 王琰; 戴子茜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2024-03-15
Anticipated expiration: 2042-05-19
Also published as: CN115116428A

Abstract

本申请公开了一种韵律边界标注方法、装置、设备、介质及程序产品，涉及机器学习领域。该方法包括：获取目标文本和目标音频，以字符为分析粒度提取目标文本的文本韵律特征表示；以及，以发声内容为分析基础提取目标音频的音频韵律特征表示；将文本韵律特征表示和音频韵律特征表示进行融合，得到融合韵律特征表示；基于所述融合韵律特征表示对目标文本进行韵律边界预测，得到与目标文本等长的韵律边界标注结果。通过对融合韵律特征表示进行韵律边界预测，提高了对目标文本进行韵律边界标注的准确度；且以字符为粒度对目标文本进行分析和预测韵律边界，提高了韵律边界标注结果的细粒度，从而进一步提高了对目标文本进行韵律边界标注的准确度。

Description

韵律边界标注方法、装置、设备、介质及程序产品

技术领域

本申请实施例涉及机器学习领域，特别涉及一种韵律边界标注方法、装置、设备、介质及程序产品。

背景技术

语音合成(Text-to-speech，TTS)***是一种可以将任意输入文本转换成相应语音的计算机***，在语音合成***中，需要对输入文本的韵律边界进行预测。精确的韵律边界可以使得输入文本合成的语音更贴近人声，表达更为自然和准确。因此，精确标注了韵律边界的训练数据对于构建一个高质量的语音合成***至关重要。

相关技术中，韵律边界标注方法通常是从文本内容中提取相关特征信息，然后对这些相关特征信息进行特征分析，从而对文本内容的韵律边界进行预测。

然而，上述相关技术中的韵律边界标注方法的准确度较低。

发明内容

本申请实施例提供了一种韵律边界标注方法、装置、设备、介质及程序产品，能够提高韵律边界标注的准确度。所述技术方案如下：

一方面，提供了一种韵律边界标注方法，所述方法包括：

获取目标文本和目标音频，所述目标文本的文本内容与所述目标音频的音频内容匹配，所述目标文本为待进行韵律边界识别的文本；

以字符为分析粒度提取所述目标文本的文本韵律特征表示；以及，以发声内容为分析基础提取所述目标音频的音频韵律特征表示；

将所述文本韵律特征表示和所述音频韵律特征表示进行融合，得到融合韵律特征表示；

基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，得到与所述目标文本等长的韵律边界标注结果，所述韵律边界标注结果中包括以字符为粒度在所述目标文本上的进行划分的韵律边界。

另一方面，提供了一种韵律边界标注装置，所述装置包括：

数据获取模块，用于获取目标文本和目标音频，所述目标文本的文本内容与所述目标音频的音频内容匹配，所述目标文本为待进行韵律边界识别的文本；

特征提取模块，用于以字符为分析粒度提取所述目标文本的文本韵律特征表示；以及，用于以发声内容为分析基础提取所述目标音频的音频韵律特征表示；

特征融合模块，用于将所述文本韵律特征表示和所述音频韵律特征表示进行融合，得到融合韵律特征表示；

特征分析模块，用于基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，得到与所述目标文本等长的韵律边界标注结果，所述韵律边界标注结果中包括以字符为粒度在所述目标文本上的进行划分的韵律边界。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的韵律边界标注方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现本申请实施例中任一所述的韵律边界标注方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中任一所述的韵律边界标注方法。

本申请实施例提供的技术方案至少包括以下有益效果：

通过将目标文本的文本韵律特征表示和目标音频的音频韵律特征表示进行融合，得到融合韵律特征表示，对融合韵律特征表示进行韵律边界预测，由于音频韵律特征表示中包含有韵律边界信息，从而提高了对目标文本进行韵律边界标注的准确度；且以字符为粒度对目标文本进行分析和预测韵律边界，提升了韵律边界标注结果的细粒度，从而进一步提高了对目标文本进行韵律边界标注的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的韵律边界标注方法的示意图；

图2是本申请一个示例性实施例提供的实施环境的示意图；

图3是本申请一个示例性实施例提供的韵律边界标注方法的流程图；

图4是本申请一个示例性实施例提供的韵律边界文本标注示意图；

图5是本申请一个示例性实施例提供的韵律等级分层示意图；

图6是本申请另一个示例性实施例提供的韵律边界标注方法的流程图；

图7是本申请一个示例性实施例提供的多模态融合模型的示意图；

图8是本申请另一个示例性实施例提供的韵律边界标注方法的流程图；

图9是本申请一个示例性实施例提供的韵律边界标注模型的示意图；

图10是本申请一个示例性实施例提供的自动指标评测数据；

图11是本申请一个示例性实施例提供的一致性检验系数矩阵的示意图；

图12是本申请一个示例性实施例提供的训练数据的获取流程示意图；

图13是本申请一个示例性实施例提供的评测数据；

图14是本申请一个示例性实施例提供的韵律边界标注装置的结构框图；

图15是本申请另一个示例性实施例提供的韵律边界标注装置的结构框图；

图16是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

首先，针对本申请实施例中涉及的名词进行简单介绍：

语音技术(Speech Technology)：语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来被看好的人机交互方式之一。

韵律边界：韵律边界用于对文本进行韵律等级的划分，其位置会影响文本在表达时的自然程度和所表达的含义。不同的韵律等级代表不同的韵律，韵律是指音频中声音的节奏和规律。可选地，韵律用于指示在一段音频中，每个字符对应的声音的高低、强弱、发音的长短，以及字符与字符之间的停顿时间。其中，韵律等级包括：字(Character，CC)，语法词(Lexicon Word，LW)，韵律词(Prosodic Word，PW)，韵律短语(Prosodic Phrase，PPH)，语调短语(Intonational Phrase，IPH)。

音素：音素是语音的最小单位，一个发音动作形成一个音素，例如：普通话“我”包含“w”和“o”两个音素。其中，音素包括元音音素和辅音音素。

相关技术中，韵律边界标注方法主要通过如下方式：

(1)通过人工标注韵律边界。这种方式耗时较久且成本较高，并且不同标注员对于韵律词和韵律短语的评判标准不一致，从而不同标注员标注的同一批数据不能直接一起使用。

(2)通过韵律边界标注模型自动标注韵律边界。相关技术中，韵律边界标注模型通常是从文本内容中提取相关特征信息，然后对这些相关特征信息进行特征分析，从而对文本内容的韵律边界进行预测，韵律边界标注的准确度较低。

本申请实施例提供了一种韵律边界标注方法，示意性的，请参考图1，获取目标文本101和与目标文本101匹配的目标音频102，然后，对目标文本101和目标音频102进行分析，从而对目标文本101进行细粒度韵律边界标注预测，预测的具体过程如下：

示意性的，通过文本编码器103提取目标文本101的文本韵律特征向量104，可选地，文本韵律特征向量104为包含目标文本101上下文特征的字向量；以及，通过音频编码器105提取目标音频102的音频韵律特征向量106，可选地，音频韵律特征向量106为包含有目标音频102韵律相关信息(例如：音高、音强等)的向量；将文本韵律特征向量104和音频韵律特征向量106输入到多模态融合解码器107中，将文本韵律特征向量104和音频韵律特征向量106进行融合得到融合韵律特征向量，对融合韵律特征向量进行分析预测，从而获取与目标文本中的每个字符对应的韵律边界标注序列，将目标文本与韵律边界标注序列进行对齐，则可得到精确标注了韵律边界的文本数据108。

本申请实施例提供的韵律边界标注方法具有与人工标注相当的性能，能节省标注时间和成本，且使用统一标准来区分不同粒度的韵律边界，从而获得更高的标注一致性；本申请实施例提供的韵律边界标注方法从文本和音频中分别提取韵律边界相关信息，通过多模态解码器进行融合后解码，从而获取韵律边界标注结果，由于韵律边界信息本身包含在音频模态中，音频信息的引入能够提高韵律边界标注的准确度。

本申请实施例提供的韵律边界标注方法至少可以应用于如下应用场景：

1、应用于语音合成***。示意性的，语音合成***实现为普通话语音合成***，则获取中文文本和与中文文本匹配的目标音频，以中文文本中的每个汉字为分析粒度提取中文文本的文本韵律特征表示；以及，提取普通话音频的音频韵律特征表示；对文本韵律特征表示和音频韵律特征表示进行融合，得到融合韵律特征表示；通过对融合特征表示的分析和预测，获取与以中文文本中的每个汉字对应的韵律边界标注序列，将中文文本和韵律边界标注序列进行对齐和连接，则得到精确标注了韵律边界的文本数据。将该文本数据输入到语音合成***中，输出得到合成音频，该合成音频是基于文本数据中的韵律标注生成的音频，提升了韵律自然度。可选地，上述合成音频可以是任意音色的与文本数据匹配的合成音频。

2、应用于朗读/歌唱练***。

值得注意的是，上述应用场景仅为示意性的举例，本申请实施例对韵律边界标注方法的其他应用场景不加以限定。

本申请实施例提供的韵律边界标注方法可以由终端或者服务器单独实现，也可以由终端和服务器共同实现。以终端和服务器共同实现该韵律边界标注方法为例。图2本申请一个示例性实施例提供的实施环境示意图，如图2所示，该实施环境中包括终端210、服务器220和通信网络230，其中，终端210和服务器220之间通过通信网络230连接。

在一些可选的实施例中，终端210中安装和运行有具有韵律边界标注功能的目标应用程序。该目标应用程序可以实现为语音合成应用程序、语音识别应用程序、口语练习应用程序、车载语音导航应用程序等，本申请实施例对此不加以限定。示意性的，当需要对目标文本进行韵律边界标注时，对象将目标文本和与目标文本对应的目标音频输入到终端210中，终端210将对象输入的目标文本和目标音频发送至服务器220。

在一些可选的实施例中，服务器220用于为终端210中安装的目标应用程序提供韵律边界标注服务，服务器220中设置有文本编码器、音频编码器和多模态融合解码器。示意性的，服务器220接收到终端210发送的目标文本和目标音频后，将目标文本输入到文本编码器中提取目标文本的文本韵律特征表示；以及，将目标音频输入到音频编码器中提取目标音频的音频韵律特征表示；将文本韵律特征表示和音频韵律特征表示输入到多模态融合解码器中，从而将文本韵律特征表示和音频韵律特征表示进行融合，得到融合韵律特征表示，基于融合韵律特征表示对目标文本进行韵律边界预测，得到与目标文本等长的韵律边界标注结果；最终服务器220将该韵律边界标注结果反馈给终端210，可选的，终端210对韵律边界标注结果进行显示。

在一些可选的实施例中，音频编码器、文本编码器以及多模态融合解码器中的至少一种也可以部署在终端210，由终端210实现部分或者全部韵律边界标注过程，本申请实施例对此不加以限定。

在一些可选的实施例中，上述终端210中安装的目标应用程序还提供有语音转换功能，示意性的，对象将目标文本输入到终端210中，终端210将对象输入的目标文本转换为与目标文本对应的目标音频。

在一些可选的实施例中，上述终端210中安装的目标应用程序还提供有语音识别功能，示意性的，对象将目标音频输入到终端210中，终端210将对象输入的目标音频转化为与目标音频对应的目标文本，该目标文本为无韵律边界标注的文本。

其中，终端210包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备、智能语音交互设备、智能家电、车载终端等终端中的至少一种。

值得注意的是，服务器220能够是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式***，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

可选地，服务器220还可以实现为区块链***中的节点。

值得注意的是，上述通信网络230可以实现为有线网络，也可以实现为无线网络，且通信网络230可以实现为局域网、城域网或广域网中的任意一种，本申请实施例对此不加以限定。

值得注意的是，上述服务器220实现的韵律边界标注服务也可以实现在终端210中，本实施例对此不加以限定。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的目标文本和目标音频都是在充分授权的情况下获取的。

结合上述介绍和实施环境，对本申请实施例提供的韵律边界标注方法进行说明，图3是本申请一个示例性实施例提供的一种韵律边界标注方法的流程图，以该方法应用于如图2所示的服务器220中为例进行说明，该方法包括：

步骤301，获取目标文本和目标音频。

目标文本的文本内容与目标音频的音频内容匹配，目标文本为待进行韵律边界识别的文本。

可选地，目标文本是中文文本、英文文本等文本中的至少一种，本申请实施例对目标文本的语言的种类不加以限定。可选地，目标文本中的文本内容可以包括字符和标点符号，也可以只包括字符，示意性的，目标文本可以是“你好！欢迎你～”，也可以是“你好欢迎你”。

可选地，目标音频是普通话音频、其他中文方言音频、英文英式发音音频、英文美式发音音频等中的其中一种，本申请实施例对目标音频的语言的种类不加以限定。

可选地，目标文本的文本内容与目标音频的音频内容是匹配的，示意性的，以目标文本实现为中文文本、目标音频实现为普通话音频为例进行说明，若目标文本的文本内容是“你好！欢迎你！”，则目标音频中的音频内容是用普通话读出的“你好！欢迎你！”。值得注意的是，一种语言的目标文本可以有多个与其匹配的目标音频，其中，多个目标音频的语言的种类是不同的，示意性的，目标文本的文本内容是“你好！欢迎你！”，则目标音频中的音频内容可以是用普通话读出的“你好！欢迎你！”，也可以是用粤语方言读出的“你好！欢迎你！”。根据需要训练的语音合成***的语言种类，可以选择不同的目标音频，示意性的，如果需要获取的是训练普通话语音合成***的数据，则中文文本对应的目标音频实现为普通话音频。

可选地，目标文本中包括至少一段需要进行韵律边界识别的连续的字符。

可选地，韵律边界识别主要是通过字符或者连续的字符组合对应的语义信息、字符与字符之间的发音停顿时间、单个字符的发音时间、单个字符的发音高低、连续的字符组合的发音的变化等信息来判断字符与字符之间的韵律边界的类型。

上述韵律边界包括字边界、语法词边界、韵律词边界、韵律短语边界、语调短语边界中的至少一种：

1、字边界是对目标文本中的字符进行划分的边界。

可选地，字边界是目标文本中相邻的字符与字符之间的边界。

示意性的，中文文本中的字符是文本中的每个汉字，则中文文本中字边界为汉字与汉字之间的边界。

可选地，目标文本中的每个字符都对应有一个字边界标识，其中，字边界标识用于指示其对应的字符与下一字符之间的边界为字边界。示意性的，“我们”中的“我”对应有字边界标识，则代表“我”和“们”之间的边界为字边界。

可选地，字边界标识的标注方法包括以下方法中的至少一种：

方法一、上述字边界标识为基础标识，语法词边界标识、韵律词边界标识、韵律短语边界标识、语调短语边界标识可以对字边界标识进行修改。

示意性的，以目标文本实现为中文文本为例进行说明，在对中文文本进行韵律边界标注时，首先给中文文本中的每个汉字标注一个字边界标识，然后继续韵律边界识别过程，若识别出其中相邻的A汉字和B汉字之间的边界为语法词边界，则对A汉字的字边界标识进行修改，修改为语法词边界标识。

方法二、上述字边界为给目标文本标注完语法词边界标识、韵律词边界标识、韵律短语边界标识、语调短语边界标识后自动为目标文本分配的标识。

示意性的，以目标文本实现为中文文本为例进行说明，识别中文文本的语法词边界、韵律词边界、韵律短语边界、语调短语边界，根据识别到的语法词边界、韵律词边界、韵律短语边界、语调短语边界，对中文文本中的汉字标注相应的语法词边界标识、韵律词边界标识、韵律短语边界标识和语调短语边界标识，最后，未被标注的汉字则标注字边界标识。

例如：在中文文本“我们提出”中，识别出“们”和“提”之间的边界为语法词边界，则对“们”标注语法词边界标识，“出”与下一个字符之间的边界为韵律词边界，则对“出”标注韵律词边界标识。其中，“我”和“提”还未进行标注，则对“我”和“提”标注字边界标识。

2、语法词边界是对目标文本中的语法词进行划分的边界。

可选地，语法词为目标文本中一个或者一个以上的字符组成具有独立语义的词，示意性的，以目标文本实现为中文文本为例进行说明，语法词为中文文本中词的基本单位，用于确定每个词中各个字的发音，区分多音字。

可选的，若识别出相邻的C字符与D字符之间的边界为语法词边界，则对C字符标注语法词边界标识。可选地，对C字符标注语法词边界标识的方法包括以下方法中的至少一种：

方法一、若C字符未标注字边界标识，则直接对C字符标注语法词边界标识。

示意性的，中文文本“我们提出”中“们”和“提”之间的边界为语法词边界，直接对“们”标注语法词边界标识。

方法二、若C字符标注有字边界标识，则将该字边界标识修改为语法词边界标识。

示意性的，中文文本“我们提出”中“们”和“提”之间的边界为语法词边界，且“们”上标注有字边界标识，则将“们”的字边界标识修改为语法词边界标识。

3、韵律词边界是对目标文本中的韵律词进行划分的边界。

可选地，韵律词为一个或者一个以上的语法词组成的发音无停顿的词，也就是说，韵律词是由一个或者一个以上连续发音的语法词组成的词。

可选的，若识别出相邻的E字符与F字符之间的边界为韵律词边界，则对E字符标注韵律词边界标识。可选地，对E字符标注韵律词边界标识的方法包括以下方法中的至少一种：

方法一、若E字符未标注字边界标识，则直接对F字符标注韵律词边界标识。

示意性的，中文文本“我们提出用”中“出”和“用”之间的边界为韵律词边界，直接对“出”标注韵律词边界标识。

方法二、若E字符标注有字边界标识，则将该字边界标识修改为韵律词边界标识。

示意性的，中文文本“我们提出用”中“出”和“用”之间的边界为韵律词边界，且“出”上标注有字边界标识，则将“出”的字边界标识修改为韵律词边界标识。

4、韵律短语边界是对目标文本中的韵律短语进行划分的边界。

可选地，韵律短语为一个或者一个以上的韵律词组成的不具有完整语法结构的短语。

可选的，若识别出相邻的G字符与H字符之间的边界为韵律短语边界，则对G字符标注韵律短语边界标识。可选地，对G字符标注韵律短语边界标识的方法包括以下方法中的至少一种：

方法一、若G字符未标注字边界标识，则直接对G字符标注韵律短语边界标识。

示意性的，中文文本“我们提出用自动标注器标注韵律”中“器”和“注”之间的边界为韵律短语边界，直接对“器”标注韵律短语边界标识。

方法二、若G字符标注有字边界标识，则将该字边界标识修改为韵律短语边界标识。

示意性的，中文文本“我们提出用自动标注器标注韵律”中“器”和“注”之间的边界为韵律短语边界，且“器”上标注有字边界标识，则将“器”的字边界标识修改为韵律短语边界标识。

5、语调短语边界是对目标文本中的语调短语进行划分的边界。

可选地，语调短语为一个或者一个以上的韵律短语组成的具有完成语法结构短语。示意性的，在中文文本中，语调短语为听感上可独立成句的一段发音，语调短语一般对应句法上的句子。

可选的，若识别出相邻的I字符与J字符之间的边界为语调短语边界，则对I字符标注语调短语边界标识。可选地，标注语调短语边界标识的过程包括以下方法中的至少一种：

方法一、若I字符未标注字边界标识，则直接对I字符标注语调短语边界标识。

示意性的，中文文本“我们提出用自动标注器标注韵律其中”中“律”和“其”之间的边界为语调短语边界，直接对“律”标注语调短语边界标识。

方法二、若I字符标注有字边界标识，则将该字边界标识修改为语调短语边界标识。

示意性的，中文文本“我们提出用自动标注器标注韵律其中”中“律”和“其”之间的边界为语调短语边界，且“律”上标注有字边界标识，则将“律”的字边界标识修改为韵律短语边界标识。

可选地，获取目标文本和目标音频的方式包括以下方式中的至少一种：

1、获取目标文本；基于目标文本，获取与目标文本的文本内容匹配的目标音频。

示意性的，服务器获取需要进行韵律边界标注的目标文本，并获取通过终端录制的人工朗读目标文本的音频，作为目标音频。

2、获取目标音频；基于目标音频，获取与目标音频的音频内容匹配的目标文本。

示意性的，服务器获取到需要进行韵律边界标注的目标音频后，通过语音识别***将目标音频转化成无韵律标注的目标文本；或者，服务器获取需要进行韵律边界标注的目标音频，并获取通过终端接收的人工识别目标音频的文本内容，作为目标文本。

值得注意的是，上述获取目标文本和目标音频的方式仅为示意性的举例，本申请实施例对此不加以限定。

步骤302，以字符为分析粒度提取目标文本的文本韵律特征表示。

可选地，文本韵律特征表示为包含有目标文本的上下文信息的特征表示。

在一些可选的实施例中，其中，上下文信息包括：上下文语义信息、上下文位置信息、上下文字符长度信息等中的其中一种，本实施对此不加以限定。

其中，字符可以实现为中文文本中的每个汉字，还可以实现为英文文本中的每个单词，示意性的，以目标文本实现为中文文本为例进行说明，对中文文本中的每个汉字进行分析，提取每个汉字包含的上下文特征，将包含有上下文特征的特征表示作为文本韵律特征表示；以目标文本实现为英文文本为例进行说明，对英文文本中的每个单词进行分析，提取每个单词包含的上下文特征，将包含有上下文特征的特征表示作为文本韵律特征表示。

可选地，在提取目标文本的文本韵律特征表示之前还包括对目标文本的预处理，其中，预处理的方法包括以下方法中的至少一种：

1、去冗余信息处理。

示意性的，目标文本中可能包含一些不必要的空格、重复的标点符号、不必要的重复的字等冗余信息，则在提取目标文本的文本韵律特征表示之前可以对这些冗余信息进行检查，并删除这些冗余信息。

2、错别字的纠正处理。

示意性的，目标文本中可能包含有错别字，则需要对错别字进行检测，然后改正目标文本中的错别字。例如：目标文本中的一句话是“案件的真想是什么？”,其中的“想”是错别字，“真想”应该是“真相”，则需要将这句话中的“想”改为“相”；或者，目标文本中的一句话是“I don't like apbles.”，其中，“apbles”是错误的拼写，则需要将这句话中的“apbles”改为“apples”。

3、词性标记处理。

可选地，对目标文本中的词进行词性的标记，其中，词性是指词的词类，包括：名词、形容词、动词、冠词、连词、代词、副词、数词、介词、感叹词等。

示意性的，以目标文本实现为中文文本为例进行说明，对目标文本进行分词处理得到多个分词；获取标注了词性的词语库；将目标文本的多个分词与标注了词性的词语库进行匹配，获取目标文本的词性标记结果。

4、预分句处理。

可选的，若目标文本中的文本内容包括字符和标点符号，示意性的，可以按照句号对目标文本中的文本内容进行分句处理，将目标文本中的文本内容分为多个目标语句。

5、标点符号处理。

可选地，目标文本中可能包含标点符号，则可以对这些标点符号进行标记，或者，将这些标点符号从目标文本中删除。

需要说明的是，上述预处理的方法仅为示意性的举例，本申请实施例对此不加以限定。

步骤303，以发声内容为分析基础提取目标音频的音频韵律特征表示。

可选地，音频韵律特征表示为包含有目标音频的韵律边界相关信息的特征表示。

可选地，音频韵律特征表示包括：包含有目标音频的全局韵律边界相关信息的特征表示，或者，包含有目标音频的局部韵律边界相关信息的特征表示，本申请实施例对此不加以限定。

可选地，提取目标音频的音频韵律特征表示还包括：提取目标音频的目标特征表示；基于提取到的目标特征表示，提取目标音频的音频韵律特征表示。

其中，目标特征表示包括：时域特征表示、频域特征表示、音高特征表示、音强特征表示、音长特征表示、音色特征表示等中的至少一种，上述时域特征表示、频域特征表示、音高特征表示、音强特征表示、音长特征表示、音色特征表示等都是用于指示目标音频的发声内容，本申请实施例对目标特征表示的数量和种类不加以限定。

示意性的，目标特征表示可以实现为目标音频的频域特征表示和音高特征表示，则提取目标音频的音频韵律特征表示的过程包括：提取目标音频的频域特征表示和音高特征表示；基于频域特征表示和音高特征表示，提取目标音频的音频韵律特征表示。

值得注意的是，上述步骤302和步骤303可以为两个并列步骤，也可以有先后顺序，本申请对此并不限定，即，可以先执行步骤302再执行步骤303，也可以先执行步骤303再执行步骤302，还可以同步执行步骤302和步骤303。

步骤304，将文本韵律特征表示和音频韵律特征表示进行融合，得到融合韵律特征表示。

在一些可选的实施例中，上述得到融合韵律特征表示的方法，包括以下方法中的至少一种：

1、将文本韵律特征表示和音频韵律特征表示直接连接，得到融合韵律特征表示。则融合后的融合特征表示的维度是文本韵律特征表示的维度与音频韵律特征表示的维度的和。

示意性的，若文本韵律特征表示为A，维度为a；音频韵律特征表示为B，为度为b，则融合后的融合韵律特征的维度为a+b。

2、以文本韵律特征表示的维度为目标，对音频韵律特征表示进行维度转换；将维度转换后的音频韵律特征表示与文本韵律特征表示进行融合，得到融合韵律特征表示。

可选地，对音频韵律特征表示进行维度转换，使其与文本韵律特征表示的维度相同，将进行维度转换后的音频韵律特征表示和文本韵律特征表示进行融合，得到融合韵律特征表示。示意性的，若文本韵律特征表示为C，维度为c；音频韵律特征表示为D，维度为d，则融合后的融合韵律特征的维度为c。

需要说明的是，上述得到融合韵律特征表示的方法仅为示意性的举例，本申请实施例对此不加以限定。

步骤305，基于融合韵律特征表示对目标文本进行韵律边界预测，得到与目标文本等长的韵律边界标注结果。

韵律边界标注结果中包括以字符为粒度在目标文本上的进行划分的韵律边界。

可选的，基于融合韵律特征表示对目标文本进行韵律边界预测，获取韵律边界标注序列，其中，韵律边界标注序列与目标文本中的字符一一对应；将韵律边界标注序列与目标文本中的字符对齐，获取韵律边界标注结果。

示意性的，请参考图4，其示出了一种韵律边界标注结果400，“我”对应的韵律边界标注为“CC”，指示的是“我”与“们”之间是字边界；“们”对应的韵律边界标注为“LW”，指示的是“们”与“提”之间是语法词边界；“出”对应的韵律边界标注为“PW”，指示的是“出”与“用”之间是韵律词边界；“器”对应的韵律边界标注为“PPH”，指示的是“器”与“标”之间是韵律短语边界；“律”对应的韵律边界标注为“IPH”，指示的是“律”与下一个字之间是语调短语边界。

需要说明的是，上述字边界、语法词边界、韵律词边界、韵律短语边界、语调短语边界是层层递进的，例如：目标文本中标注韵律短语边界的位置也必然是韵律词边界、语法词边界、字边界的位置。则可以根据目标文本中的韵律边界，对目标文本进行韵律分层。示意性的，请参考图5，其示出了图4中目标文本的韵律分层结果500，其中，语调短语包括：“我们提出用自动标注器标注韵律”；韵律短语包括：“我们提出用自动标注器”、“标注韵律”；韵律词包括：“我们提出”、“用自动标注器”、“标注韵律”；语法词包括：“我们”、“提出”、“用”、“自动”、“标注器”、“标注”、“韵律”；字包括：“我”、“们”、“提”、“出”、“用”、“自”、“动”、“标”、“注”、“器”、“标”、“注”、“韵”、“律”。

综上所述，本申请实施例提供的韵律边界标注方法，通过将目标文本的文本韵律特征表示和目标音频的音频韵律特征表示进行融合，得到融合韵律特征表示，对融合韵律特征表示进行韵律边界预测，由于音频韵律特征表示中包含有韵律边界信息，从而提高了对目标文本进行韵律边界标注的准确度；且以字符为粒度对目标文本进行分析和预测韵律边界，提升了韵律边界标注结果的细粒度，从而进一步提高了对目标文本进行韵律边界标注的准确度。

本申请实施例提供的韵律边界标注方法，对目标文本中的每个字符都进行了韵律边界标注，且标注的韵律边界包括字边界、语法词边界，韵律词边界，韵律短语边界，语调短语边界等中的至少一种，从而提升了韵律标注结果的细粒度。

在一些可选的实施例中，上述文本韵律特征表示是通过预训练的文本编码器提取的特征；以及，上述音频韵律特征表示是通过预训练的音频编码器提取的特征。图6是本申请一个示例性实施例提供的一种韵律边界标注方法的流程图，以该方法应用于如图2所示的服务器220中为例进行说明，该方法包括：

步骤601，获取目标文本和目标音频。

可选地，目标文本是中文文本、英文文本等文本中的至少一种，本申请实施例对目标文本的语言的种类不加以限定。目标音频是普通话音频、其他中文方言音频、英文英式发音音频、英文美式发音音频等中的其中一种，本申请实施例对目标文本和目标音频的语言的种类不加以限定。

示意性的，以目标文本实现为中文文本，目标音频实现为普通话音频为例进行说明，服务器通过终端获取目标文本；以及，获取通过终端录制说话人对目标文本进行普通话朗读的音频数据，从而获取目标音频。或者，服务器从普通话音频数据集中获取目标音频；以及，对象通过人工识别的方式将目标音频中的内容转化成中文文本数据，将该中文文本数据输入至终端后，终端将该中文文本数据上传至服务器，作为目标文本。

步骤602，对目标文本进行字符分割，得到目标文本中的多个字符数据。

可选地，字符是指从语义的角度，目标文本中可以被分割的最小单位。例如：中文文本中的字和英文文本中的单词，都是单独的一部分，且为组成一句话的最小单位。

示意性的，若目标文本实现为中文文本，则对目标文本进行分字处理，得到目标文本中的多个字的集合。例如：中文文本为“我们提出用自动标注器标注韵律”，则将这句话切分成每个单独的汉字的集合，即“我”、“们”、“提”、“出”、“用”、“自”、“动”、“标”、“注”、“器”、“标”、“注”、“韵”、“律”这14个汉字的集合。

示意性的，若目标文本实现为英文文本，则对目标文本进行分词处理，得到目标文本中的多个单词的集合。例如：英文文本为“We propose to label prosody withautomatic annotator”，则将这句话按照英文中的每个单词之间的空格切分成每个单独的单词的集合，即“We”、“propose”、“to”、“label”、“prosody”、“with”、“automatic”、“annotator”这8个单词的集合。

步骤603，提取多个字符数据分别对应的字向量。

可选地，上述字向量是指字符数据中各个字符对应的原始向量表示。

示意性的，以目标文本实现为中文文本进行说明，提取中文文本中每个汉字对应的原始向量表示；或者，通过查询字向量表将目标文本中的每个汉字转换成一维向量，也即字向量。

步骤604，将字向量输入文本编码器，输出目标文本的文本韵律特征表示。

可选地，上述文本韵律特征表示包括：字符数据对应的文本向量、位置向量等中的至少一种。

示意性，以目标文本实现为中文文本为例进行说明，将字向量输入文本编码器中，获取该字向量对应的文本向量，其中，文本向量中包括中文文本的全局语义信息以及该字向量对应的汉字的语义信息，文本向量用于指示该字向量对应的汉字在中文文本中的具体语义；以及，基于中文文本，获取该汉字对应的位置向量，其中，位置向量用于指示该字向量对应的汉字在中文文本中的位置信息；最后，将字向量、文本向量、位置向量的和，作为该汉字对应的字韵律特征表示；输出中文文本中的每个汉字对应的字韵律特征表示的集合，作为中文文本的文本韵律特征表示，或者将中文文本中的每个汉字对应的字韵律特征表示进行拼接，作为中文文本的文本韵律特征表示。

可选地，上述中文文本中每个汉字对应的字韵律特征表示的长度是相同的。

在一些可选的实施例中，上述字韵律特征表示可以实现为加权的字韵律特征表示，可选地，字韵律特征表示的加权方法包括：基于字符对应的字向量，查询字向量权重表；获取该字向量对应的权重；基于该权重，将字向量对应的字韵律特征表示进行加权处理，得到加权的字韵律特征表示。其中，字向量权重表用于指示字向量对应的字符在目标文本中的重要性。

值得注意的是，上述文本编码器是通过文本语料库预训练得到的编码器。

示意性的，文本编码器包括：长短期记忆网络(Long Short-Term Memory，LSTM)、双向编码器表征(Bidirectional EncoderRepresentation from Transformers，BERT)模型、生成式预训练模型(Gererate Pre-Training Model，GPT)、RoBERTa模型等中的至少一种，本申请实施例对此不加以限定。下面以文本编码器实现为BERT模型进行说明。

示意性的，BERT模型是经过预训练的文本编码器，若目标文本实现为中文文本，则BERT模型的预训练数据集为中文语料库。可选地，基于BERT模型的预训练过程确定上述文本向量的初始取值参数。

步骤605，提取目标音频的频域特征表示和音高特征表示。

频域特征表示和音高特征表示用于指示目标音频的发声内容。

示意性，频域特征表示包括：滤波器组(Filter bank，Fbank)特征、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征等中的至少一种，本申请实施例对此不加以限定。

示意性的，提取频域特征表示的具体过程如下：

可选地，将目标音频进行分帧处理，获取多个时间帧；针对目标音频中的每个时间帧分别提取其对应的子频域特征表示；将目标音频中所有时间帧对应的子频域特征表示进行拼接，获取目标音频的频域特征表示，或者，将子频域特征表示的集合作为目标音频的频域特征表示。

示意性的，提取音高特征表示的具体过程如下：

可选地，将目标音频进行分帧处理，获取多个时间帧；针对目标音频中的每个时间帧分别提取其对应的子音高特征表示；将目标音频中所有时间帧对应的子音高特征表示进行拼接，获取目标音频的音高特征表示，或者，将子音高特征表示的集合作为目标音频的音高特征表示。

步骤606，对频域特征表示和音高特征表示进行拼接，得到目标特征表示。

可选地，上述得到目标特征表示的方式包括以下方式中的至少一种：

1、对频域特征表示和音高特征表示进行加权求和，得到目标特征表示；

2、获取频域特征表示和音高特征表示的乘积，作为目标特征表示；

3、获取频域特征表示和音高特征表示的笛卡尔积，作为目标特征表示；

4、将频域特征表示和音高特征表示的集合作为目标特征表示。

值得注意的是，上述得到目标特征表示的方法仅为示意性的举例，本申请实施例对此不加以限定。

步骤607，将目标特征表示输入音频编码器，输出得到目标音频的音频韵律特征表示。

其中，音频编码器是通过语音数据集预训练得到的编码器。

可选地，上述得到目标音频的音频韵律特征表示的方法包括以下方法中的至少一种：

1、将目标特征表示输入音频编码器，得到第一语音后验概率图，第一语音后验概率图用于指示目标音频的音素级别后验概率；基于第一语音后验概率图，输出得到目标音频的音频韵律特征表示。

可选地，输出第一语音后验概率图作为目标音频的音频韵律特征表示。

示意性的，上述音频编码器可以实现为基于音素级别的语音后验概率图提取器，则将目标特征表示输入到基于音素级别的语音后验概率图提取器中，输出得到第一语音后验概率图，作为目标音频的音频韵律特征表示。

其中，在第一语音后验概率图中，横坐标用于指示目标音频的时间线，纵坐标用于指示音素的类别，图中每个坐标点用于指示在给定时间点出现该类别音素的后验概率大小，在每个坐标点处的颜色越深，概率越大。

示意性的，若目标音频实现为普通话音频，则基于音素级别的语音后验概率图提取器在普通话语音数据集上进行预训练，下面对基于音素级别的语音后验概率图提取器的预训练过程进行说明：

其中，预训练的目标为与上下文无关的218个帧级别音素。

示意性的，将普通话语音数据集中的语音输入高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model，GMM-HMM)中获取普通话语音数据集对应的音素；将该音素作为训练数据，交叉熵作为损失函数训练基于音素级别的语音后验概率图提取器。

2、将目标特征表示输入音频编码器，得到第二语音后验概率图，第二语音后验概率图用于指示目标音频的字级别后验概率；基于第二语音后验概率图，输出得到目标音频的音频韵律特征表示。

上述音频编码器可以实现为基于字级别的语音识别模型，可选地，将目标特征表示输入到基于字级别的语音识别模型中，输出得到第二语音后验概率图，作为目标音频的音频韵律特征表示。

示意性的，以目标文本实现为中文文本进行说明，其中，在第二语音后验概率图中，横坐标用于指示目标音频的时间线，纵坐标用于指示汉字的种类，图中每个坐标点用于指示在给定时间点出现该汉字的后验概率大小，在每个坐标点处的颜色越深，概率越大。

在一些可选的实施例中，将上述目标音频分割为多个音频片段分别进行分析，其中，目标特征表示中包括目标音频片段对应的片段特征表示，则得到第二语音后验概率图的过程还包括：

将片段特征表示输入音频编码器，得到片段特征表示对应的后验概率子图；将多个音频片段分别对应的后验概率子图进行整合，得到第二语音后验概率图。

示意性的，若目标音频实现为普通话音频，则基于字级别的语音识别模型在普通话语音数据集上进行预训练，可选地，连接时序分类(Connectionist TemporalClassification，CTC)作为损失函数端到端训练对基于字级别的语音识别模型进行预训练，预训练的过程如下：

将普通话语音数据集中的语音输入基于字级别的语音识别模型，获取预测数据；基于预测数据和预先获取的真实数据，得到CTC损失；基于CTC损失对基于字级别的语音识别模型进行训练。

步骤608，将文本韵律特征表示和音频韵律特征表示进行融合，得到融合韵律特征表示。

可选地，通过注意力机制对音频韵律特征表示进行维度转换，使其与文本韵律特征表示的维度相同，将进行维度转换后的音频韵律特征表示和文本韵律特征表示进行融合，得到融合韵律特征表示。

示意性的，上述文本韵律特征表示和音频韵律特征表示实现为文本韵律特征向量和音频韵律特征向量，将文本韵律特征向量和音频韵律特征向量输入到多模态融合模型中获取融合韵律特征向量，下面对获取融合韵律特征向量的过程进行说明：

请参考图7，多模态融合模型700中包括第一网络层710和第二网络层720，第一网络层710中包括多头自注意力层、第一前向传播层、第一线性层；第二层网络层720中包括多头交叉注意力层。

首先将音频韵律特征向量711输入第一网络层710中，输出得到与文本韵律特征向量721维度相同的音频韵律特征向量712；将与文本韵律特征向量721维度相同的音频韵律特征向量712和文本韵律特征向量721输入第二网络层720中，其中，在多头交叉注意力层中对与文本韵律特征向量721维度相同的音频韵律特征向量712和文本韵律特征向量721进行融合计算，文本韵律特征向量721作为查询值(query)，与文本韵律特征向量721维度相同的音频韵律特征向量712作为关键值(key)和值(value)，具体计算公式如下:

公式一：Q_x,K_o,V_o＝W_QX,W_kO,W_vO

公式二：

公式一中，用O＝[o₁,…,o_T]∈R^T×D和X＝[x₁,…,x_T]∈R^N×D分别表示多头交叉注意力层的音频和文本端输入；Q_x,K_o,V_o分别表示文本端的query输入、音频端key输入、音频端的value输入；W_Q,W_k,W_v分别表示Q_x,K_o,V_o的可训练的矩阵。

公式二中，H∈R^N×D是多头交叉注意力层的输出，即融合韵律特征向量；D表示融合韵律特征向量的维度；softmax为激活函数。

最后，输出得到的H∈R^N×D，作为融合韵律特征向量722。

步骤609，基于融合韵律特征表示对目标文本进行韵律边界预测，确定目标文本中的字符对应的韵律边界类型。

其中，韵律边界类型包括字(CC)边界、语法词(LW)边界、韵律词(PW)边界、韵律短语(PPH)边界、语调短语(IPH)边界中的至少一种，本申请实施例对此不加以限定。

步骤610，以韵律边界类型对目标文本中的字符进行标注，得到与目标文本等长的韵律边界标注结果。

可选的，以韵律边界类型对目标文本中的字符进行标注，获取韵律边界标注序列，其中，韵律边界标注序列与目标文本中的字符一一对应；将韵律边界标注序列与目标文本中的字符对齐，获取韵律边界标注结果。

示意性的，请参考图4，“我”对应的韵律边界标识为“CC”，则代表“我”与“们”之间的韵律边界类型为字边界。

在一个可选的实施例中，上述得到与目标文本等长的韵律边界标注结果的方法，还包括：

基于文本韵律特征表示对目标文本进行韵律边界预测，得到与目标文本等长的韵律边界文本特征预测结果；基于音频韵律特征表示对目标文本进行韵律边界预测，得到与目标文本等长的韵律边界音频特征预测结果；基于韵律边界文本特征预测结果和韵律边界音频特征预测结果，得到与目标文本等长的韵律边界标注结果。

示意性的，分别获取文本韵律特征表示预测的韵律边界文本特征标注结果和音频韵律特征表示预测的韵律边界音频特征标注结果，选择其中韵律自然度高的标注结果作为最终的韵律边界标注结果。

获取目标文本和目标音频；响应于目标文本中的字符数量小于或者等于预设字符阈值，则提取目标文本的文本韵律特征表示；基于文本韵律特征表示对目标文本进行韵律边界预测，得到与目标文本等长的韵律边界预测结果。或者，响应于目标文本中的字符数量大于预设字符阈值，则提取目标文本的文本韵律特征表示以及提取目标音频的音频韵律特征表示；将文本韵律特征表示和音频韵律特征表示进行融合，得到融合韵律特征表示；基于融合韵律特征表示对目标文本进行韵律边界预测，得到与目标文本等长的韵律边界标注结果。

也就是说，在对文本进行韵律边界预测之前，首先判断文本中的字符的数量，若字符的数量较少，小于或者等于预设的字符阈值，则代表该文本中的韵律边界较为简单，可直接通过对文本进行语义分析获取韵律边界标注结果；若文本中的字符的数量较多，大于预设的字符阈值，则通过对文本的语义信息和音频中的韵律边界相关信息进行联合分析获取韵律边界标注结果。

本申请实施例提供的韵律边界标注方法，通过预训练的文本编码器和预训练的音频编码器分别提取目标文本的文本韵律特征表示和目标音频的音频韵律特征表示，提升了韵律标注方法的准确率和泛化性。

图8是本申请一个示例性实施例提供的一种韵律边界标注方法的流程图，以该方法应用于如图2所示的服务器220中为例进行说明，该方法包括：

步骤801，获取候选文本和预设语句库。

候选文本中包括多个目标语句，预设语句库中包括多个预设语句。

示意性的，预设目标文本可能是长文本，则其中包含有多条完整语句；预设语句库中的预设语句包括经常会用到的语句、日常固定发音节奏的语句(也即，韵律边界标注基本不会有变化的语句)等。

可选地，获取预设目标文本还包括：对预设目标文本的分句处理。示意性的，预设目标文本中多个目标语句之间可能有明显的分割符号(例如：句号，逗号，问号等标点符号)，按照分割符号，对预设目标文本进行分句处理，获取多个语句。

可选地，对预设目标文本进行分句处理的同时，按照目标语句在预设目标文本中的前后位置对目标语句进行顺序编号。

步骤802，将多个目标语句分别与预设语句库中的预设语句进行匹配，得到多个语句匹配结果。

示意性的，将获取的多个目标语句，分别与预设语句库中的预设语句进行匹配。若某一目标语句为“你好！”，预设语句库中存储有“你好！”这句话和“你好！”这句话的韵律标注结果，则代表该目标语句匹配成功，可选地，一条目标语句必须所有的字符和标点符号与预设语句库中预设语句的字符和标点符号一一对应，才代表该目标语句匹配成功，否则，匹配失败。则当所有的目标语句匹配结束时，多个语句匹配结果分为匹配成功的目标语句和匹配失败的目标语句。

步骤803，对多个语句匹配结果进行筛选，得到候选文本中与预设语句库中的预设语句匹配失败的目标语句，作为目标文本。

其中，目标文本为待进行韵律边界识别的文本。

示意性的，对多个语句匹配结果进行筛选，将其中所有的匹配失败的目标语句作为筛选后的语句匹配结果，并将匹配失败的目标语句按照编号顺序重新组合，得到目标文本。

可选地，将匹配成功的目标语句存储在临时存储空间，当目标文本中的匹配失败的目标语句的韵律边界标注流程结束，则将匹配成功的目标语句与标注了韵律边界的目标语句按照语句编号顺序进行拼接。

步骤804，获取与目标文本相匹配的音频，作为目标音频。

示意性的，提取匹配失败的目标语句对应的音频数据，作为目标音频。

步骤805，获取预设短语库。

预设短语库中包括多个预设短语。

示意性的，该预设短语包括固定韵律词，常用韵律词、特殊韵律词等。

步骤806，将目标文本与预设短语库中的预设短语进行匹配，得到参考匹配结果。

示意性的，将目标文本与预设短语库中的固定韵律词，常用韵律词、特殊韵律词等进行匹配，得到标注了参考韵律边界的目标文本，作为参考匹配结果。

步骤807，以字符为分析粒度提取目标文本的文本韵律特征表示。

可选地，对目标文本进行字符分割，得到目标文本中的多个字符数据；提取多个字符数据分别对应的字向量；将字向量输入文本编码器，输出目标文本的文本韵律特征表示。其中，文本编码器是通过文本语料库预训练得到的编码器。

步骤808，以发声内容为分析基础提取目标音频的音频韵律特征表示。

可选地，提取目标音频的频域特征表示和音高特征表示；对频域特征表示和音高特征表示进行拼接，得到目标特征表示；将目标特征表示输入音频编码器，输出得到目标音频的音频韵律特征表示。其中，音频编码器是通过语音数据集预训练得到的编码器。

可选地，音频编码器是基于音素级别的编码器，或者，音频编码器是基于字级别的编码器。

步骤809，将文本韵律特征表示和音频韵律特征表示进行融合，得到融合韵律特征表示。

步骤810，基于融合韵律特征表示对目标文本进行韵律边界预测，得到预测结果。

可选地，基于融合韵律特征表示对目标文本进行韵律边界预测，确定目标文本中的字符对应的韵律边界类型；以韵律边界类型对目标文本中的字符进行标注，得到与目标文本等长的预测结果。

步骤811，基于预测结果与参考匹配结果，得到与目标文本等长的韵律边界标注结果。

在一些可选的实施例中，上述得到与目标文本等长的韵律边界标注结果的方法包括：

1、基于参考匹配结果对预测结果进行调整，得到与目标文本等长的韵律边界标注结果。

在一个可选的实施例中，参考匹配结果中包括韵律边界参考标注序列，预测结果中包括韵律边界预测标注序列；则对韵律边界参考标注序列和韵律边界预测标注序列进行比对，得到韵律边界对比结果，其中，韵律边界对比结果用于指示参考匹配结果和预测结果之前的差异性；基于韵律边界对比结果，确定与目标文本等长的韵律边界标注结果。

可选地，预设短语库中的预设短语对应有权重，韵律边界参考标注序列中包括第一韵律边界标识；则上述基于韵律边界对比结果，得到与目标文本等长的韵律边界标注结果，包括：

响应于所述第一韵律边界标识在所述韵律边界预测标注序列中不存在，获取目标文本中第一韵律边界标识指示的短语；将短语与预设短语库匹配，获取与短语匹配的权重；响应于与短语匹配的权重达到预设权重阈值，更新韵律边界预测标注序列，得到韵律边界标注结果。

示意性的，对比预测结果和参考匹配结果在韵律边界标注序列上的差异；若在目标文本的某一位置，参考匹配结果的韵律边界标识与预测结果不同，则获取该位置上的韵律边界标识指示的短语；查询该短语在预设短语库中对应的权重，若其权重达到预设的权重阈值，则将预测结果在该位置的韵律边界标识替换成参考匹配结果在该位置的韵律边界标识。

2、选择参考匹配结果或者预测结果，作为韵律边界标注结果。

示意性的，通过打分的方式，对参考匹配结果和测试结果进行打分，若参考匹配结果比测试结果得分高，则选择参考匹配结果作为韵律边界标注结果；若参考匹配结果比测试结果得分低，则选择测试结果作为韵律边界标注结果。

本申请实施例提供的韵律边界标注方法，在对目标文本进行韵律边界预测之前，筛选出目标文本中与预设语句库中的预设语句匹配失败的语句进行分析，减少了韵律边界标注方法的计算量；且通过对比参考匹配结果和预测结果，得到韵律边界标注结果，提高了对目标文本进行韵律边界标注的准确度。

图9是本申请一个示例性实施例提供的一种韵律边界标注模型，请参考图9，韵律边界标注模型900中包括文本编码器910、音频编码器920以及多模态融合解码器930，用于对输入的文本和音频进行分析，得到与文本等长的韵律边界标注结果。下面对通过韵律边界标注模型900得到韵律边界标注结果的具体实现步骤进行说明，如图9所示：

S1：服务器获取在终端输入的中文文本911“我们提出用自动标注器标注韵律”；以及，获取通过终端录制的说话人朗读“我们提出用自动标注器标注韵律”的普通话音频921。

S2：将中文文本911分割为每个汉字组成的文本数据，获取每个汉字组成的文本数据的原始字向量；将中文文本911中所有汉字对应的字向量集合912输入到文本编码器910中，其中文本编码器910实现为预训练的中文BERT编码器，且文本编码器910在300GB的新闻语料库中进行预训练；输出得到固定长度的包含上下文特征的文本韵律特征向量913。

示意性的，上述通过预训练的中文BERT编码器提取文本韵律特征向量913的具体过程为：将字向量集合912输入文本编码器910中，获取该字向量集合912对应的文本向量集合，其中，文本向量集合中包括中文文本911的全局语义信息以及该字向量集合912对应的汉字的语义信息，用于指示字向量集合912对应的汉字在中文文本911中的具体语义；以及，基于中文文本911，获取该汉字对应的位置向量集合，其中，位置向量集合用于指示字向量集合912对应的汉字在中文文本911中的位置信息；最后，分别将每个汉字对应的字向量、文本向量、位置向量的和，作为该汉字对应的字韵律特征向量，且每个汉字的字韵律特征向量的长度是固定的；输出中文文本911中的每个汉字对应的字韵律特征向量的集合，作为中文文本911的文本韵律特征向量913。

S3：将普通话音频921分割成多个时间帧，获取每个时间帧的80维的FBank特征和3维的音高特征，将每个时间帧的80维的FBank特征和3维的音高特征进行拼接得到时间帧输入特征；将普通话音频921中所有的时间帧对应的时间帧输入特征集合922输入音频编码器920中。

其中，音频编码器包括：基于卷积增强的转换器(conformer)结构的语音后验概率图提取器、基于卷积神经网络(convolutional neural network，CNN)结构的语音识别模型、基于conformer结构的语音识别模型。下面分别介绍这三个模型实现为音频编码器时，提取普通话音频921的音频韵律特征向量923的过程：

(1)音频编码器920实现为基于conformer结构的语音后验概率图提取器。

需要说明的是，基于conformer结构的语音后验概率图提取器是一个与说话人无关的帧级别分类器，会将每一个输入时间帧映射为音素类别的后验概率，其提取的语音后验概率图可以表示出音频中各音素的持续时间和转换信息。基于conformer结构的语音后验概率图提取器的模型结构由2个卷积层和12个conformer模块组成。

示意性的，将普通话音频921中所有的时间帧对应的时间帧输入特征集合922输入音频编码器920中，通过2个卷积层和12个conformer模块将每个时间帧对应的时间帧输入特征映射为音素类别的时间帧后验概率图，其中，时间帧后验概率图的横坐标用于指示每个时间帧的时间线，纵坐标用于指示音素的类别，图中每个坐标点用于指示在给定时间点出现该类别音素的后验概率大小，在每个坐标点处的颜色越深，概率越大；获取普通话音频921中所有的时间帧对应的时间帧后验概率图的集合，作为普通话音频921的音频韵律特征向量923。

值得注意的是，基于conformer结构的语音后验概率图提取器是在10k小时的WenetSpeech数据集上预训练过的音频编码器，下面对基于conformer结构的语音后验概率图提取器的预训练过程进行说明：

其中，预训练的目标为与上下文无关的218个帧级别音素。

示意性的，将10k小时的WenetSpeech数据集中的语音输入GMM-HMM模型中获取10k小时的WenetSpeech数据集对应的音素；将该音素作为训练数据，交叉熵作为损失函数训练基于conformer结构的语音后验概率图提取器。

然而，上述语音后验概率图没有考虑字级别的上下文特征，但字和词级别的信息对韵律边界的预测是很重要的。比如，序列“大学生物，必修课”和“大学生，务必修课”有相同的音素序列，但它们的韵律边界不同。因此，只考虑音素信息的语音后验概率图有可能不能达到最优的预测效果。故，提供了将两种字级别的语音识别模型用于韵律边界预测，它们分别基于CNN和conformer结构。

(2)音频编码器920实现为基于CNN结构的语音识别模型。

需要说明的是，基于CNN结构的语音识别模型将每一个输入时间帧映射为字类别的后验概率，保留了字级别的信息，且基于CNN结构的语音识别模型侧重于局部信息，它由2个卷积层和1个线性层组成。

示意性的，将普通话音频921中所有的时间帧对应的时间帧输入特征集合922输入音频编码器920中，通过2个卷积层和1个线性层会将每个时间帧对应的时间帧输入特征映射为字级别的时间帧后验概率图，其中，时间帧后验概率图的横坐标用于指示每个时间帧的时间线，纵坐标用于指示字的类别，图中每个坐标点用于指示在给定时间点出现该字的后验概率大小，在每个坐标点处的颜色越深，概率越大；输出基于CNN结构的语音识别模型中倒数第二层512维的隐藏层的向量集合，作为普通话音频921的音频韵律特征向量923。

值得注意的是，基于CNN结构的语音识别模型是在10k小时的WenetSpeech数据集上预训练过的音频编码器，下面对基于CNN结构的语音识别模型的预训练过程进行说明：

将10k小时的WenetSpeech数据集中的语音输入基于CNN结构的语音识别模型，获取预测数据；基于预测数据和预先获取的真实数据，得到CTC损失；基于CTC损失对基于CNN结构的语音识别模型进行训练。

(3)音频编码器920实现为基于conformer结构的语音识别模型。

需要说明的是，基于conformer结构的语音识别模型将每一个输入时间帧映射为字类别的后验概率，保留了字级别的信息，且基于conformer结构的语音识别模型侧重普通话音频921中包含的整个话语信息，它由2个卷积层、12个conformer模块以及1个线性层组成。

示意性的，将普通话音频921中所有的时间帧对应的时间帧输入特征集合922输入音频编码器920中，通过2个卷积层、12个conformer模块以及1个线性层会将每个时间帧对应的时间帧输入特征映射为字级别的时间帧后验概率图，其中，时间帧后验概率图的横坐标用于指示每个时间帧的时间线，纵坐标用于指示字的类别，图中每个坐标点用于指示在给定时间点出现该字的后验概率大小，在每个坐标点处的颜色越深，概率越大；输出基于conformer结构的语音识别模型中倒数第二层512维的隐藏层的向量集合，作为普通话音频921的音频韵律特征向量923。

值得注意的是，基于conformer结构的语音识别模型是在10k小时的WenetSpeech数据集上预训练过的音频编码器，下面对基于conformer结构的语音识别模型的预训练过程进行说明：

将10k小时的WenetSpeech数据集中的语音输入基于conformer结构的语音识别模型，获取预测数据；基于预测数据和预先获取的真实数据，得到CTC损失；基于CTC损失对基于conformer结构的语音识别模型进行训练。

S4：音频韵律特征向量923输入多模态融合解码器中。

由于帧级别的音频特征向量比字级别的文本特征向量长很多，故采用交叉注意力结构解决这个问题。

其中，多模态融合解码器中包含第一网络层931、第一线性层932、第二网络层933和第二线性层934，第一网络层931中包含有6个相同的网络层，每个网络层包括一个多头自注意力层和一个前向传播层，图9中仅示出了一个网络层进行说明。

将音频韵律特征向量923输入堆叠第一网络层931中6个相同的网络层中，通过多头自注意力层和前向传播层和线性层932，对音频韵律特征向量923进行维度转换，获取与文本韵律特征向量913的维度相同的音频韵律特征向量935。

S5：将与文本韵律特征向量913的维度相同的音频韵律特征向量935和文本韵律特征向量913输入第二网络层933。

其中，第二网络层933中包含有6个相同的网络层，每个网络层包括一个多头交叉注意力层和一个前向传播层，图9中仅示出了一个网络层进行说明。

将与文本韵律特征向量913的维度相同的音频韵律特征向量935和文本韵律特征向量913输入第二网络层933中6个相同的网络层中，在多头交叉注意力层中对与文本韵律特征向量913维度相同的音频韵律特征向量935和文本韵律特征向量913进行融合计算，文本韵律特征向量913作为查询值(query)，与文本韵律特征向913量维度相同的音频韵律特征向量935作为关键值(key)和值(value)，具体计算公式如下:

公式一：Q_x,K_o,V_o＝W_QX,W_kO,W_vO

公式二：

公式一中，用O＝[o₁,…,o_T]∈R^T×D和K＝[x₁,…,x_T]∈R^N×D分别表示多头交叉注意力层的音频和文本端输入；Q_x,K_o,V_o分别代文本端的query输入、音频端key输入、音频端的value输入；W_Q,W_k,W_v分别代表Q_x,K_o,V_o的可训练的矩阵。

值得注意的是，该多头交叉注意力允许多模态融合解码器自动学习与文本韵律特征向量913维度相同的音频韵律特征向量935和文本韵律特征向量913的对齐。

S6：在多头交叉注意力层输出得到的H∈R^N×D，作为融合韵律特征向量，并将融合韵律特征向量输入第二线性层934，获取韵律边界标注序列936：“CC LW CC PW LW CC LW CCCC PPH CC LW CC IPH”。

示意性的，韵律边界标注序列936中每个序列与中文文本911“我们提出用自动标注器标注韵律”中的每个汉字一一对应，用于指示每个汉字右侧的韵律边界类型。

下面，对本申请实施例提供的韵律边界标注方法的自动指标评测和人工评测结果进行说明，具体介绍如下：

首先，介绍评测的数据集。数据集为12.2k条话语(约160小时)，其音频共由28个不同的说话人录制得到，将其中95％作为训练集，5％作为验证集。5.9k条话语(约8.8小时)构成测试集，其音频由另外9个说话人录制得到，这9个人与前述28个人没有重合。

1、自动指标评测。

请参考图10，其示出了方法一至方法五的测评指标数据。

需要说明的是，其中方法一、方法三、方法四、方法五属于自动韵律边界标注模型，且均通过上述训练集训练得到；方法二为七个标注员人工标注。图10中的数据为方法一、方法二、方法三、方法四、方法五在测试集上的韵律边界标注结果分数。

其中，方法一为基于文本输入的韵律边界标注方法、方法三为本申请实施例提出的音频编码器实现为基于CNN结构的语音识别模型的韵律边界标注方法、方法四为本申请实施例提出的音频编码器实现为基于conformer结构的语音识别模型的韵律边界标注方法、方法五为本申请实施例提出的音频编码器实现为基于conformer结构的语音后验概率图提取器的韵律边界标注方法。

其中，条件一代表音频编码器是否经过预训练，条件二代表在自动韵律边界标注模型训练过程中音频编码器是否冻结参数，“-”代表不包括音频编码器。

其中，“pre.”、“rec.”、“f1”分别代表在测试集上的准确率、召回率和平衡F分数。

中文中的韵律边界分为五个等级，由低到高分别是字(CC)，语法词(LW)，韵律词(PW)，韵律短语(PPH)，语调短语(IPH)，图10中展示了后四个韵律边界的预测结果分数。由图中结果可见，等级“LW”和“IPH”的f1分数基本在0.9以上，即它们的预测较为简单。则实际，主要对等级“PW”和“PPH”的进行分析，得到以下结论：

(1)音频模态信息的加入可使得韵律边界标注方法更为准确。

(2)预训练能够提高大模型的性能。基于conformer的方法参数量较大，经过预训练后有更好的性能，且当模型规模较大时，在训练中微调会导致过拟合，降低性能。

(3)基于conformer结构的方法比基于CNN结构的方法性能更好，不仅归功于conformer更大的模型规模，还得益于其对上下文语义韵律的建模能力。

(4)本申请实施例提出的韵律边界标注方法在性能上比人工标注要好。

此外，请参考图11，其示出了上述方法二中七个标注员的一致性检验系数矩阵1100，可以看到不同的标注员对韵律词和韵律短语的边界的理解并不完全一致。如图11所示，对于韵律词，不同标注员之间的一致性检验系数值显著低于0.6。这样会导致，不同批次的，不同标注员的韵律边界标注由于对于韵律词和韵律短语的评判标准不一致，而不能直接一起使用。本申请实施例提供的韵律边界标注方法可以使用统一标准来区分不同粒度的韵律，从而获得更高的标注一致性。

2、人工评测

进一步通过两种人工评测，评价本申请实施例提出的韵律边界标注方法的性能。

(1)对照测试

从测试集中随机选取300条话语，这些话语由方法五(其中，音频编码器经过预训练，其方法对应的模型在训练时冻结预训练得到的音频编码器参数)产生的预测结果与原数据集中的人工标签不同。通过3个标注员比较两种标注哪一种与音频更为符合。为消除偏差，由方法五自动标注数据和人工标注的数据被打乱。

结果表明，有51％(153条)话语，由方法五自动标注的数据比人工标注的数据得到更多的票数。这说明，本申请实施例提出的韵律边界标注方法准确率与人工标注相当。

(2)语音合成***评测

本申请实施例提供的韵律边界标注方法的其中一个应用场景为语音合成***提供训练数据，从而降低标注语音合成***训练数据的成本。请参考图12，服务器获取到文本1201和音频1202，将文本1201和音频1202输入到本申请实施例提供的韵律边界标注方法对应的韵律边界标注模型1203中，则输出得到标注了韵律边界的语音合成***训练数据1204。

因此，本申请实施例提供的韵律边界标注方法是否足够替代人工标注需要在语音合成***的训练中探究。

分别使用本申请实施例提供的韵律边界标注方法标注(标注方法一)、人工标注(标注方法二)和无韵律标注(标注方法三)的数据训练语音合成***。将相同的文本和韵律输入这些***，并对生成的语音进行平均意见得分(Mean Opinion Score，MOS)测试。由24个标注员对生成的语音进行打分，根据合成语音的自然程度，最低分为1分，最高分为5分。对于不同韵律标注训练的语音合成***所产生的语音，使用95％置信区间的MOS测试结果如图13所示。从结果可以看出，任何种类的韵律边界标注的数据训练均可以显著提升语音合成***的自然程度。使用本申请实施例提供的韵律边界标注方法标注的数据训练的语音合成***比人工标注韵律的评分更好。这与对照测试的结果是一致的，表明人工标注韵律不一致性使得语音合成***对韵律边界产生混淆，难以对其中的韵律建模，相反，本申请实施例提供的韵律边界标注方法的韵律边界更利于语音合成***对韵律的建模。

请参考图14，其示出了本申请一个示例性的实施例提供的韵律边界标注装置结构框图，该装置包括如下模块：

数据获取模块1400，用于获取目标文本和目标音频，所述目标文本的文本内容与所述目标音频的音频内容匹配，所述目标文本为待进行韵律边界识别的文本；

特征提取模块1410，用于以字符为分析粒度提取所述目标文本的文本韵律特征表示；以及，用于以发声内容为分析基础提取所述目标音频的音频韵律特征表示；

特征融合模块1420，用于将所述文本韵律特征表示和所述音频韵律特征表示进行融合，得到融合韵律特征表示；

特征分析模块1430，用于基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，得到与所述目标文本等长的韵律边界标注结果，所述韵律边界标注结果中包括以字符为粒度在所述目标文本上的进行划分的韵律边界。

在一些可选的实施例中，所述韵律边界包括字边界、语法词边界、韵律词边界、韵律短语边界、语调短语边界中的至少一种；

所述字边界是对所述目标文本中的字符进行划分的边界；

所述语法词边界是对所述目标文本中的语法词进行划分的边界；

所述韵律词边界是对所述目标文本中的韵律词进行划分的边界；

所述韵律短语边界是对所述目标文本中的韵律短语进行划分的边界；

所述语调短语边界是对所述目标文本中的语调短语进行划分的边界。

请参考图15，在一些可选的实施例中，所述特征分析模块1430，包括：

确定子模块1431，用于基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，确定所述目标文本中的字符对应的韵律边界类型；

标注子模块1432，用于以所述韵律边界类型对所述目标文本中的字符进行标注，得到与所述目标文本等长的韵律边界标注结果。

在一些可选的实施例中，所述特征提取模块1410，包括：

分割子模块1411，用于对所述目标文本进行字符分割，得到所述目标文本中的多个字符数据；

提取子模块1412，用于提取多个字符数据分别对应的字向量；

第一处理子模块1413，用于将所述字向量输入文本编码器，输出所述目标文本的文本韵律特征表示，所述文本编码器是通过文本语料库预训练得到的编码器。

所述提取子模块1412，还用于提取所述目标音频的频域特征表示和音高特征表示，所述频域特征表示和所述音高特征表示用于指示所述目标音频的发声内容；在一些可选的实施例中，所述特征提取模块1410，还包括：

拼接子模块1414，用于对所述频域特征表示和所述音高特征表示进行拼接，得到目标特征表示；

所述第一处理子模块1413，还用于将目标特征表示输入音频编码器，输出得到所述目标音频的音频韵律特征表示，所述音频编码器是通过语音数据集预训练得到的编码器。

在一些可选的实施例中，所述第一处理子模块1413，还包括：

输入单元1415，用于将所述目标特征表示输入所述音频编码器，得到第一语音后验概率图，所述第一语音后验概率图用于指示所述目标音频的音素级别后验概率；

输出单元1416，用于基于所述第一语音后验概率图，输出得到所述目标音频的音频韵律特征表示。

所述输入单元1415，还用于将所述目标特征表示输入所述音频编码器，得到第二语音后验概率图，所述第二语音后验概率图用于指示所述目标音频的字级别后验概率；所述输出单元1416，还用于基于所述第二语音后验概率图，输出得到所述目标音频的音频韵律特征表示。

在一些可选的实施例中，所述目标音频分割为多个音频片段分别进行分析，所述目标特征表示中包括目标音频片段对应的片段特征表示；所述输入单元1415，还用于将所述片段特征表示输入所述音频编码器，得到所述片段特征表示对应的后验概率子图；所述输出单元1416，还用于将多个音频片段分别对应的后验概率子图进行整合，得到所述第二语音后验概率图。

在一些可选的实施例中，所述特征融合模块1420，包括：

转换子模块1421，用于以所述文本韵律特征表示的维度为目标，对所述音频韵律特征表示进行维度转换；所述特征融合模块1420，还用于将维度转换后的音频韵律特征表示与所述文本韵律特征表示进行融合，得到所述融合韵律特征表示。

在一些可选的实施例中，所述数据获取模块1400，还用于获取预设短语库，所述预设短语库中包括多个预设短语；所述装置还包括：

数据匹配模块1440，用于将所述目标文本与所述预设短语库中的预设短语进行匹配，得到参考匹配结果；所述特征分析模块1430，还包括：

预测子模块1433，用于基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，得到预测结果；

第二处理子模块1434，用于基于所述预测结果与所述参考匹配结果，得到与所述目标文本等长的所述韵律边界标注结果。

在一些可选的实施例中，所述第二处理子模块1434，还用于基于所述参考匹配结果对所述预测结果进行调整，得到与所述目标文本等长的所述韵律边界标注结果。

在一些可选的实施例中，所述参考匹配结果中包括韵律边界参考标注序列，所述预测结果中包括韵律边界预测标注序列；所述第二处理子模块1434，还包括：

比对单元1435，用于对所述韵律边界参考标注序列和所述韵律边界预测标注序列进行比对，得到韵律边界对比结果，所述韵律边界对比结果用于指示所述参考匹配结果和所述预测结果之前的差异性；所述第二处理子模块1434，还用于基于所述韵律边界对比结果，确定与所述目标文本等长的所述韵律边界标注结果。

在一些可选的实施例中，所述预设短语库中的预设短语对应有权重，所述韵律边界参考标注序列中包括第一韵律边界标识；所述第二处理子模块1434，还包括：

获取单元1436，用于响应于所述第一韵律边界标识在所述韵律边界预测标注序列中不存在，获取所述目标文本中所述第一韵律边界标识指示的短语；

所述获取单元1436，还用于将所述短语与所述预设短语库匹配，获取与所述短语匹配的权重；

更新单元1437，用于响应于与所述短语匹配的权重达到预设权重阈值，更新所述韵律边界预测标注序列，得到所述韵律边界标注结果。

在一些可选的实施例中，所述数据获取模块1400，还用于获取候选文本和预设语句库，所述候选文本中包括多个目标语句，所述预设语句库中包括多个预设语句；所述数据获取模块1400，还包括：

匹配子模块1401，用于将多个目标语句分别与所述预设语句库中的预设语句进行匹配，得到多个语句匹配结果；

筛选子模块1402，用于对多个语句匹配结果进行筛选，得到所述候选文本中与所述预设语句库中的预设语句匹配失败的目标语句，作为所述目标文本；以及获取与所述目标文本相匹配的音频，作为所述目标音频。

综上所述，本申请实施例提供的韵律边界标注装置，通过将目标文本的文本韵律特征表示和目标音频的音频韵律特征表示进行融合，得到融合韵律特征表示，对融合韵律特征表示进行韵律边界预测，由于音频韵律特征表示中包含有韵律边界信息，从而提高了对目标文本进行韵律边界标注的准确度；且以字符为粒度对目标文本进行分析和预测韵律边界，提高了韵律边界标注结果的细粒度，从而进一步提高了对目标文本进行韵律边界标注的准确度。

需要说明的是：上述实施例提供的韵律边界标注装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的韵律边界标注装置和韵律边界标注方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图16示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是如图2所示的服务器。具体来讲包括以下结构：

服务器1600包括中央处理单元(Central Processing Unit，CPU)1601、包括随机存取存储器(Random Access Memory，RAM)1602和只读存储器(Read Only Memory，ROM)1603的***存储器1604，以及连接***存储器1604和中央处理单元1601的***总线1605。服务器1600还包括用于存储操作***1613、应用程序1614和其他程序模块1615的大容量存储设备1606。

大容量存储设备1606通过连接到***总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。大容量存储设备1606及其相关联的计算机可读介质为服务器1600提供非易失性存储。也就是说，大容量存储设备1606可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1604和大容量存储设备1606可以统称为存储器。

根据本申请的各种实施例，服务器1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1600可以通过连接在***总线1605上的网络接口单元1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机***(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备可以实现为如图3所示的终端或者服务器。该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的韵律边界标注方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的韵律边界标注方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例提供的韵律边界标注方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种韵律边界标注方法，其特征在于，所述方法包括：

以字符为分析粒度提取所述目标文本的文本韵律特征表示；

提取所述目标音频的频域特征表示和音高特征表示，所述频域特征表示和所述音高特征表示用于指示所述目标音频的发声内容；

对所述频域特征表示和所述音高特征表示进行拼接，得到目标特征表示；

将所述目标特征表示输入音频编码器，输出得到所述目标音频的音频韵律特征表示，所述音频编码器是通过语音数据集预训练得到的编码器；

基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，得到与所述目标文本等长的韵律边界标注结果，所述韵律边界标注结果中包括以字符为粒度在所述目标文本上进行划分的韵律边界。

2.根据权利要求1所述的方法，其特征在于，所述韵律边界包括字边界、语法词边界、韵律词边界、韵律短语边界、语调短语边界中的至少一种；

所述字边界是对所述目标文本中的字符进行划分的边界；

3.根据权利要求2所述的方法，其特征在于，所述基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，得到与所述目标文本等长的韵律边界标注结果，包括：

基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，确定所述目标文本中的字符对应的韵律边界类型；

以所述韵律边界类型对所述目标文本中的字符进行标注，得到与所述目标文本等长的韵律边界标注结果。

4.根据权利要求1至3任一所述的方法，其特征在于，所述以字符为分析粒度提取所述目标文本的文本韵律特征表示，包括：

对所述目标文本进行字符分割，得到所述目标文本中的多个字符数据；

提取多个字符数据分别对应的字向量；

将所述字向量输入文本编码器，输出所述目标文本的文本韵律特征表示，所述文本编码器是通过文本语料库预训练得到的编码器。

5.根据权利要求1至3任一所述的方法，其特征在于，所述将所述目标特征表示输入音频编码器，输出得到所述目标音频的音频韵律特征表示，包括：

将所述目标特征表示输入所述音频编码器，得到第一语音后验概率图，所述第一语音后验概率图用于指示所述目标音频的音素级别后验概率；

基于所述第一语音后验概率图，输出得到所述目标音频的音频韵律特征表示。

6.根据权利要求1至3任一所述的方法，其特征在于，所述将所述目标特征表示输入音频编码器，输出得到所述目标音频的音频韵律特征表示，包括：

将所述目标特征表示输入所述音频编码器，得到第二语音后验概率图，所述第二语音后验概率图用于指示所述目标音频的字级别后验概率；

基于所述第二语音后验概率图，输出得到所述目标音频的音频韵律特征表示。

7.根据权利要求6所述的方法，其特征在于，所述目标音频分割为多个音频片段分别进行分析，所述目标特征表示中包括目标音频片段对应的片段特征表示；

所述将所述目标特征表示输入所述音频编码器，得到第二语音后验概率图，包括：

将所述片段特征表示输入所述音频编码器，得到所述片段特征表示对应的后验概率子图；

将多个音频片段分别对应的后验概率子图进行整合，得到所述第二语音后验概率图。

8.根据权利要求1至3任一所述的方法，其特征在于，所述将所述文本韵律特征表示和所述音频韵律特征表示进行融合，得到融合韵律特征表示，包括：

以所述文本韵律特征表示的维度为目标，对所述音频韵律特征表示进行维度转换；

将维度转换后的音频韵律特征表示与所述文本韵律特征表示进行融合，得到所述融合韵律特征表示。

9.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

获取预设短语库，所述预设短语库中包括多个预设短语；

将所述目标文本与所述预设短语库中的预设短语进行匹配，得到参考匹配结果；

所述基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，得到与所述目标文本等长的韵律边界标注结果，包括：

基于所述融合韵律特征表示对所述目标文本进行韵律边界预测，得到预测结果；

基于所述预测结果与所述参考匹配结果，得到与所述目标文本等长的所述韵律边界标注结果。

10.根据权利要求9所述的方法，其特征在于，所述基于所述预测结果与所述参考匹配结果，得到与所述目标文本等长的所述韵律边界标注结果，包括：

基于所述参考匹配结果对所述预测结果进行调整，得到与所述目标文本等长的所述韵律边界标注结果。

11.根据权利要求10所述的方法，其特征在于，所述参考匹配结果中包括韵律边界参考标注序列，所述预测结果中包括韵律边界预测标注序列；

所述基于所述参考匹配结果对所述预测结果进行调整，得到与所述目标文本等长的所述韵律边界标注结果，包括：

对所述韵律边界参考标注序列和所述韵律边界预测标注序列进行比对，得到韵律边界对比结果，所述韵律边界对比结果用于指示所述参考匹配结果和所述预测结果之前的差异性；

基于所述韵律边界对比结果，确定与所述目标文本等长的所述韵律边界标注结果。

12.根据权利要求11所述的方法，其特征在于，所述预设短语库中的预设短语对应有权重，所述韵律边界参考标注序列中包括第一韵律边界标识；

所述基于所述韵律边界对比结果，得到与所述目标文本等长的所述韵律边界标注结果，包括：

响应于所述第一韵律边界标识在所述韵律边界预测标注序列中不存在，获取所述目标文本中所述第一韵律边界标识指示的短语；

将所述短语与所述预设短语库匹配，获取与所述短语匹配的权重；

响应于与所述短语匹配的权重达到预设权重阈值，更新所述韵律边界预测标注序列，得到所述韵律边界标注结果。

13.根据权利要求1至3任一所述的方法，其特征在于，所述获取目标文本和目标音频，包括：

获取候选文本和预设语句库，所述候选文本中包括多个目标语句，所述预设语句库中包括多个预设语句；

将多个目标语句分别与所述预设语句库中的预设语句进行匹配，得到多个语句匹配结果；

对多个语句匹配结果进行筛选，得到所述候选文本中与所述预设语句库中的预设语句匹配失败的目标语句，作为所述目标文本；以及获取与所述目标文本相匹配的音频，作为所述目标音频。

14.一种韵律边界标注装置，其特征在于，所述装置包括：

特征提取模块，用于以字符为分析粒度提取所述目标文本的文本韵律特征表示；

所述特征提取模块，还用于提取所述目标音频的频域特征表示和音高特征表示，所述频域特征表示和所述音高特征表示用于指示所述目标音频的发声内容；对所述频域特征表示和所述音高特征表示进行拼接，得到目标特征表示；将所述目标特征表示输入音频编码器，输出得到所述目标音频的音频韵律特征表示，所述音频编码器是通过语音数据集预训练得到的编码器；

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至13任一所述的韵律边界标注方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至13任一所述的韵律边界标注方法。

17.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至13任一所述的韵律边界标注方法。