CN109326281A

CN109326281A - 韵律标注方法、装置和设备

Info

Publication number: CN109326281A
Application number: CN201810988973.9A
Authority: CN
Inventors: 孟君; 曹琼; 廖晓玲; 郝玉峰
Original assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Current assignee: Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-02-12
Anticipated expiration: 2038-08-28
Also published as: CN109326281B

Abstract

本发明提供一种韵律标注方法、装置和设备。其中，韵律标注方法包括：获取待标注文本的语音数据；根据语音数据，确定语音数据中的韵律信息，韵律信息用于指示语音数据中的停顿时长；根据语音数据中的韵律信息，对待标注文本进行韵律符号标注。本发明提供的韵律标注方法，提升了韵律标注的效率和准确性。

Description

韵律标注方法、装置和设备

技术领域

本发明涉及韵律标注技术领域，尤其涉及一种韵律标注方法、装置和设备。

背景技术

韵律，又称为超音段特征、节律或者音律，通常包括节奏、强调、语调等。韵律信息是人们表达思想情感的一种必要手段。相同的文字采用不同的语气和节奏能表达出完全不同的意思。因此，韵律信息在语音合成***中起到了十分重要的作用。

目前，语音合成***中的韵律标注一般采用基于文本信息预测韵律的方式。以中文标注为例，基于文本信息进行韵律预测，通常根据声母、韵母、词、短语、段落等信息确定韵律预测结果。专业的标注人员根据韵律预测结果完成韵律标注。

但是，语言表述具有丰富性。仅仅根据文本信息通过人工的方式进行韵律标注，对于文本中需要有明显停顿或者需要有明显静音的部分不能正确预测韵律信息。标注人员需要改动的地方很多。导致韵律标注的效率和准确度较低。

发明内容

本发明提供一种韵律标注方法、装置和设备，提升了韵律标注的效率和准确度。

第一方面，本发明提供一种韵律标注方法，包括：

获取待标注文本的语音数据；

根据所述语音数据，确定所述语音数据中的韵律信息，所述韵律信息用于指示所述语音数据中的停顿时长；

根据所述语音数据中的韵律信息，对所述待标注文本进行韵律符号标注。

可选的，在一种可能的实施方式中，还包括：

获取所述待标注文本的文本数据中的韵律信息；

可选的，在一种可能的实施方式中，所述根据所述语音数据中的韵律信息，对所述待标注文本进行韵律符号标注，包括：

根据所述语音数据中的韵律信息和所述文本数据中的韵律信息，对所述待标注文本进行韵律符号标注。

可选的，在一种可能的实施方式中，所述根据所述语音数据中的韵律信息和所述文本数据中的韵律信息，对所述待标注文本进行韵律符号标注，包括：

根据所述语音数据中的韵律信息，对所述待标注文本进行韵律符号标注；

根据所述文本数据中的韵律信息，对所述待标注文本中标注的韵律符号进行更新。

可选的，在一种可能的实施方式中，所述根据所述文本数据中的韵律信息，对所述待标注文本中标注的韵律符号进行更新，包括：

若所述文本数据中的韵律信息指示所述待标注文本中已标注的至少一个韵律符号的位置无需标注韵律符号，则删除已标注的所述至少一个韵律符号。

可选的，在一种可能的实施方式中，所述根据所述语音数据，确定所述语音数据中的韵律信息，包括：

根据所述语音数据，获取所述语音数据中的至少一个静音段；

针对每个静音段，根据该静音段，确定所述语音数据中该静音段对应的韵律信息。

可选的，在一种可能的实施方式中，所述根据所述语音数据，获取所述语音数据中的至少一个静音段，包括：

对所述待标注文本的文本数据进行音素分割，获得语音标注序列；

根据所述语音标注序列、所述语音数据以及预设声学模型，对所述语音数据进行音素分割，获取所述语音数据中的所述至少一个静音段；其中，所述预设声学模型用于表示不同音素对应的语音特征。

第二方面，本发明提供一种韵律标注装置，包括：

第一获取模块，用于获取待标注文本的语音数据；

韵律信息确定模块，用于根据所述语音数据，确定所述语音数据中的韵律信息，所述韵律信息用于指示所述语音数据中的停顿时长；

标注模块，用于根据所述语音数据中的韵律信息，对所述待标注文本进行韵律符号标注。

可选的，在一种可能的实施方式中，还包括第二获取模块；

所述第二获取模块，用于获取所述待标注文本的文本数据中的韵律信息；

所述标注模块具体用于：

可选的，在一种可能的实施方式中，所述标注模块具体用于：

第三方面，本发明提供一种韵律标注设备，该韵律标注设备包括处理器和存储器。存储器用于存储指令。处理器用于执行存储器中存储的指令，以使韵律标注设备执行本发明第一方面任一实施方式提供的韵律标注方法。

第四方面，本发明提供一种存储介质，包括：可读存储介质和计算机程序，所述计算机程序用于实现本发明第一方面任一实施方式提供的韵律标注方法。

本发明提供一种韵律标注方法、装置和设备，根据待标注文本的语音数据对待标注文本进行韵律符号的标注，考虑了语言表述的丰富性，尤其考虑了语音中的明显停顿或者明显静音段，提升了韵律标注的效率和准确性，降低了韵律标注的成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的韵律标注方法的流程图；

图2为本发明实施例提供的韵律标注装置的结构示意图；

图3为本发明实施例提供的韵律标注设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的韵律标注方法的流程图。本实施例提供的韵律标注方法，执行主体可以为韵律标注装置，或者为韵律标注设备。如图1所示，本实施例提供的韵律标注方法，可以包括：

S101、获取待标注文本的语音数据。

S102、根据语音数据，确定语音数据中的韵律信息。

其中，韵律信息用于指示语音数据中的停顿时长。

S103、根据语音数据中的韵律信息，对待标注文本进行韵律符号标注。

具体的，在本实施例中，需要进行韵律标注的文本可以称为待标注文本。待标注文本的语音数据为朗读者对待标注文本进行朗读后生成的语音数据。本实施例对于朗读者不做限定。根据待标注文本的语音数据可以确定语音数据中的韵律信息。其中，韵律信息用于指示语音数据中的停顿时长。进而，可以根据语音数据中的停顿时长对待标注文本进行韵律符号的标注。

本实施例提供的韵律标注方法，根据待标注文本的语音数据对待标注文本进行韵律符号的标注，考虑了语言表述的丰富性。基于朗读者对待标注文本进行朗读生成的语音数据，充分考虑了语音中的明显停顿或者明显静音段。相比于基于待标注文本通过人工方式进行韵律标注，提升了韵律标注的准确性。由于减少了需要改动的地方，因此提升了韵律标注的效率，降低了韵律标注成本。

需要说明的是，本实施例对于韵律符号的实现方式不做限定，根据需要进行设置。其中，不同的韵律符号对应的停顿时长范围可以预先设置。本实施例对于停顿时长范围的具体数值不做限定。

例如，韵律符号可以包括#1、#2、#3和#4。此时，语音数据中的停顿时长可以有4种。

下面通过示例进行说明。

表1示出了韵律符号、韵律符号表示的含义以及停顿时长范围之间的对应关系。其中，#1和#2场景一对应的停顿由于在听感上不易觉察，主观性较强，因此，在本实施例中可以不定义停顿时长范围。当然，也可以定义停顿时长范围。本实施例对此不做限定。其中，t3<t4≤t5<t6。本实施例对于t3～t6的具体取值不做限定。例如，t4＝t5＝90ms。假设，待标注文本的一个示例为xxxxxxx，xxxxxxxx。待标注文本在进行韵律符号标注后可以为xxxx#2xxx#3，xxx#2xxxxx#4。

表1

可选的，本实施例提供的韵律标注方法，还可以包括：

获取待标注文本的文本数据中的韵律信息。

S103，根据语音数据中的韵律信息，对待标注文本进行韵律符号标注，可以包括：

根据语音数据中的韵律信息和文本数据中的韵律信息，对待标注文本进行韵律符号标注。

具体的，待标注文本的文本数据中的韵律信息，用于指示待标注文本的文本数据中的停顿时长。需要说明的是，本实施例对于获取待标注文本的文本数据中的韵律信息的实现方式不做限定，可以采用现有的基于文本信息进行韵律预测的方法。

根据语音数据中的韵律信息和文本数据中的韵律信息对待标注文本进行韵律符号标注，综合考虑了文本韵律预测结果和语音韵律分析结果，进一步提升了韵律标注的效率和准确性。

可选的，根据语音数据中的韵律信息和文本数据中的韵律信息，对待标注文本进行韵律符号标注，可以包括：

根据语音数据中的韵律信息，对待标注文本进行韵律符号标注。

根据文本数据中的韵律信息，对待标注文本中标注的韵律符号进行更新。

通过以语音数据中的韵律信息为基础对待标注文本进行韵律符号标注，根据文本数据中的韵律信息更新韵律符号的标注，在语音韵律分析结果的基础上考虑了文本韵律预测结果，进一步提升了韵律标注的效率和准确性。

可选的，根据文本数据中的韵律信息，对待标注文本中标注的韵律符号进行更新，可以包括：

若文本数据中的韵律信息指示待标注文本中已标注的至少一个韵律符号的位置无需标注韵律符号，则删除已标注的至少一个韵律符号。

具体的，文本数据中的韵律信息是根据待标注文本的文本数据确定的文本韵律预测结果。文本数据中的韵律信息通常反映了语法上可以进行停顿的停顿时长，也包括不能停顿的位置。在一些场景中，文本数据中的韵律信息指示待标注文本中已标注的至少一个韵律符号的位置无需标注韵律符号。例如，在语法词的中间通常不会有停顿，语法词可以包括短语、成语、俗语等。此时，可以根据文本数据中的韵律信息删除待标注文本中已标注的至少一个韵律符号，进一步提升了韵律标注的准确性。

可选的，S102，根据语音数据，确定语音数据中的韵律信息，可以包括：

根据语音数据，获取语音数据中的至少一个静音段。

针对每个静音段，根据该静音段，确定语音数据中该静音段对应的韵律信息。

具体的，根据语音数据获取语音数据中的至少一个静音段。所述静音段的时长为语音数据中的停顿时长。

可选的，针对每个静音段，根据该静音段，确定语音数据中该静音段对应的韵律信息，可以包括：

根据静音段在语音数据中的起始时间和结束时间，获取静音段的时长。

下面通过示例进行说明。

假设，一个静音段的起始时间为00:22:07:300，结束时间为00:22:07:360。静音段的时长为60ms。参见表1。假设，t3＝30ms，t4＝90ms。那么，可以根据该静音段的时长在待标注文本中标注韵律符号为#2。

可选的，根据语音数据，获取语音数据中的至少一个静音段，可以包括：

对待标注文本的文本数据进行音素分割，获得语音标注序列。

根据语音标注序列、语音数据以及预设声学模型，对语音数据进行音素分割，获取语音数据中的至少一个静音段。其中，预设声学模型用于表示不同音素对应的语音特征。

具体的，音素是从音质的角度划分出来的最小语音单位。对待标注文本的文本数据进行音素分割，可以将文本数据分割成时序相邻的一系列与音素对应的音段。该音段可以称为语音标注序列。预设声学模型表示了不同音素对应的语音特征。根据语音标注序列、语音数据以及预设声学模型，可以对语音数据进行音素分割，获取语音数据中的至少一个静音段。

需要说明的是，本实施例对于音素分割方法不做限定，可以采用现有的音素分割方法。例如，基于马尔可夫模型(Hidden Markov Model，HMM)的语音自动切分算法。在该算法中，可以基于HMM的语言模型为给定的标注序列，使用Viterbi算法将语音信号与语音学标注单元(音素)相应的HMM序列强制对齐。

需要说明的是，本实施例对于预设声学模型的类型和获取方式不做限定。例如，可以基于开源工具Kaldi，使用待预测韵律的语音数据和对应的文本训练预设声学模型。又例如，可以基于深度神经网络(Deep Neural Networks，DNN)算法获得预设声学模型。可选的，当语音数据量较小时，预设声学模型可以为GMM-HMM声学模型。当语音数据量较大时，预设声学模型可以为DNN-HMM模型。

可选的，对待标注文本的文本数据进行音素分割，获得语音标注序列，可以包括：

对待标注文本的文本数据进行音素分割，并在待标注文本中相邻的两个字之间***停顿符，获得语音标注序列。

下面通过示例进行说明。

假设，音素包括声母和韵母。待标注文本为“你好，亲爱的祖国。”。待标注文本的文本数据为“ni hao，qin ai de zu guo”。那么，语音标注序列可以为“n i sp h ao sp q insp ai sp d e sp z u sp g uo”。其中，sp表示停顿符。

本实施例提供一种韵律标注方法，包括：获取待标注文本的语音数据，根据语音数据确定语音数据中的韵律信息，根据语音数据中的韵律信息对待标注文本进行韵律符号标注。本实施例提供的韵律标注方法，根据待标注文本的语音数据对待标注文本进行韵律符号的标注，提升了韵律标注的效率和准确性。

图2为本发明实施例提供的韵律标注装置的结构示意图。本实施例提供的韵律标注装置，用于执行图1所示实施例提供的韵律标注方法。如图2所示，本实施例提供的韵律标注装置，可以包括：

第一获取模块11，用于获取待标注文本的语音数据。

韵律信息确定模块12，用于根据语音数据，确定语音数据中的韵律信息，韵律信息用于指示语音数据中的停顿时长。

标注模块13，用于根据语音数据中的韵律信息，对待标注文本进行韵律符号标注。

可选的，还包括第二获取模块14。

第二获取模块14，用于获取待标注文本的文本数据中的韵律信息。

标注模块13具体用于：

可选的，标注模块13具体用于：

可选的，韵律信息确定模块12具体用于：

根据语音数据，获取语音数据中的至少一个静音段。

可选的，韵律信息确定模块12具体用于：

本实施例提供的韵律标注装置，用于执行图1所示实施例提供的韵律标注方法，原理和技术效果类似，此处不再赘述。

图3为本发明实施例提供的韵律标注设备的结构示意图。本实施例提供的韵律标注设备，用于执行图1所示实施例提供的韵律标注方法。

如图3所示，韵律标注设备可以包括处理器21和存储器22。所述存储器22用于存储指令，所述处理器21用于执行所述存储器22中存储的指令，以使所述韵律标注设备执行图1所示实施例提供的韵律标注方法，具体实现方式和技术效果类似，这里不再赘述。

本发明实施例还提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述图1所示实施例的韵律标注方法。

本发明实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述图1所示实施例的韵律标注方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：只读内存(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种韵律标注方法，其特征在于，包括：

获取待标注文本的语音数据；

2.根据权利要求1所述的方法，其特征在于，还包括：

获取所述待标注文本的文本数据中的韵律信息；

所述根据所述语音数据中的韵律信息，对所述待标注文本进行韵律符号标注，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音数据中的韵律信息和所述文本数据中的韵律信息，对所述待标注文本进行韵律符号标注，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述文本数据中的韵律信息，对所述待标注文本中标注的韵律符号进行更新，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述语音数据，确定所述语音数据中的韵律信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述语音数据，获取所述语音数据中的至少一个静音段，包括：

7.一种韵律标注装置，其特征在于，包括：

第一获取模块，用于获取待标注文本的语音数据；

8.根据权利要求7所述的装置，其特征在于，还包括第二获取模块；

所述标注模块具体用于：

9.根据权利要求8所述的装置，其特征在于，所述标注模块具体用于：

10.一种韵律标注设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用所述存储器中存储的所述程序指令以实现如权利要求1-6中任一项所述的韵律标注方法。