CN112463921B

CN112463921B - 韵律层级划分方法、装置、计算机设备和存储介质

Info

Publication number: CN112463921B
Application number: CN202011339547.6A
Authority: CN
Inventors: 李俊杰; 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2024-03-19
Anticipated expiration: 2040-11-25
Also published as: CN112463921A

Abstract

本申请涉及人工智能技术领域，提供了一种韵律层级划分方法、装置、计算机设备和存储介质，获取待划分韵律层级的文本；对所述文本进行词性识别，得到所述文本中每个词的词性；将词性识别后的所述文本输入至预设的条件随机场模型中，得到所述文本的每个词的韵律层级标签；基于该条件随机场模型中包括的特征函数，所述特征函数用于分别统计每个词的上下文的词性结构、文本结构，根据所述词性结构、文本结构确定每个词的韵律层级标签。本申请采用上述条件随机场模型，结合文本中每个词的词性，并结合考虑上下文的词性结构，对文本进行韵律层级划分，避免了目前只考虑词性进行韵律层级划分时粒度过细的缺陷。

Description

韵律层级划分方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种韵律层级划分方法、装置、计算机设备和存储介质。

背景技术

韵律层级的划分在语音合成领域具有重要的意义，良好的韵律划分能够使得合成的语音更加的自然。韵律划分不合理时，不仅会使得合成的声音效果不佳，而且可能让听者产生歧义。

目前通过统计词性之间是否需要进行韵律层级的划分能够有效的减少标注数据的使用，但是其结果只考虑了词性的信息，这种方法往往会使得划分的结果过细。例如对于句子：”男孩问：“你不喜欢我了吗？”通过对词性的统计，这种方法可能的划分结果是：“男孩#1问#3：”你#1不#1喜欢#1我#1了#1吗？。在这种方法中会受到词粒度大小的影响。由于词性的标注往往是基于分词结果的，并且分词的结果相比于常见的韵律层级划分结果粒度更细，所以目前这类方法存在划分的结果过细的问题。

发明内容

本申请的主要目的为提供一种韵律层级划分方法、装置、计算机设备和存储介质，旨在克服目前基于词性进行韵律层级划分时粒度细的缺陷。

为实现上述目的，本申请提供了一种韵律层级划分方法，包括以下步骤：

获取待划分韵律层级的文本；

对所述文本进行词性识别，得到所述文本中每个词的词性；

将词性识别后的所述文本输入至预设的条件随机场模型中，得到所述文本的每个词的韵律层级标签；其中，所述条件随机场模型中包括特征函数，所述特征函数用于分别统计每个词的上下文的词性结构、文本结构，根据所述词性结构、文本结构确定每个词的韵律层级标签；

根据所述文本中每个词的韵律层级标签对所述文本进行韵律层级划分。

进一步地，所述获取待划分韵律层级的文本的步骤之前，包括：

获取训练数据集；其中，所述训练数据包括多个训练文本，所述训练文本携带有训练文本中每个词的词性，以及每个词的韵律层级标签；

将所述训练文本输入至初始条件随机场模型中进行训练，得到所述预设的条件随机场模型；其中，所述初始条件随机场模型中包括特征模板，所述特征模板用于分别统计所述训练文本中每个词的上下文的词性结构、文本结构，并根据所述词性结构、文本结构以及训练样本中每个词的韵律层级标签，确定所述特征模板中的模型参数，以得到所述特征函数。

进一步地，所述训练文本包括三列：

其中，第一列为所述训练文本中每个词的竖向排列，第二列为所述训练文本每个词对应的词性，第三列为所述训练文本中每个词对应的韵律层级标签。

进一步地，所述初始条件随机场模型中包括的特征模板为：

(1)

(2)

(3)

其中，x_i,1表示训练样本中第i行第2列的数据，w_i-a表示对应的词性m_i-a表示对应的文本；a、b分别表示上下文文字的范围；n为预设的超参数，y_i为文字对应的韵律层级标签。

进一步地，所述将所述训练文本输入至初始条件随机场模型中进行训练，得到所述预设的条件随机场模型的步骤之后，包括：

获取测试数据中的测试文本；其中，所述测试文本包括所述测试文本中每个词的词性；

将所述测试文本输入至所述预设的条件随机场模型中，得到所述测试文本中每个词的预测韵律层级标签；

获取所述测试文本的正确韵律层级标签，并对比所述预测韵律层级标签与所述正确韵律层级标签获取所述预设的条件随机场模型的预测准确率；

若所述预测准确率高于阈值，则确定所述预设的条件随机场模型训练完成。

进一步地，所述获取训练数据集的步骤，包括：

获取文字样本；

对所述文字样本进行词性识别，得到所述文字样本中每个词的词性；

获取所述文字样本中每个词的韵律层级标签；

基于所述文字样本、文字样本中每个词的词性以及文字样本中每个词的韵律层级标签，构建得到每个所述训练文本；

基于多个训练文本，得到所述训练数据集。

进一步地，所述方法还包括：

将所述预设的条件随机场模型存储于区块链中。

本申请还提供了一种韵律层级划分装置，包括：

第一获取单元，用于获取待划分韵律层级的文本；

识别单元，用于对所述文本进行词性识别，得到所述文本中每个词的词性；

标签获取单元，用于将词性识别后的所述文本输入至预设的条件随机场模型中，得到所述文本的每个词的韵律层级标签；其中，所述条件随机场模型中包括特征函数，所述特征函数用于分别统计每个词的上下文的词性结构、文本结构，根据所述词性结构、文本结构确定每个词的韵律层级标签；

划分单元，用于根据所述文本中每个词的韵律层级标签对所述文本进行韵律层级划分。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的韵律层级划分方法、装置、计算机设备和存储介质，获取待划分韵律层级的文本；对所述文本进行词性识别，得到所述文本中每个词的词性；将词性识别后的所述文本输入至预设的条件随机场模型中，得到所述文本的每个词的韵律层级标签；基于该条件随机场模型中包括的特征函数，所述特征函数用于分别统计每个词的上下文的词性结构、文本结构，根据所述词性结构、文本结构确定每个词的韵律层级标签。本申请采用上述条件随机场模型，结合文本中每个词的词性，并结合考虑上下文的词性结构，对文本进行韵律层级划分，避免了目前只考虑词性进行韵律层级划分时粒度过细的缺陷。

附图说明

图1是本申请一实施例中韵律层级划分方法步骤示意图；

图2是本申请一实施例中训练文本的示意图；

图3是本申请一实施例中韵律层级划分装置结构框图；

图4为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种韵律层级划分方法，包括以下步骤：

步骤S1，获取待划分韵律层级的文本；

步骤S2，对所述文本进行词性识别，得到所述文本中每个词的词性；

步骤S3，将词性识别后的所述文本输入至预设的条件随机场模型中，得到所述文本的每个词的韵律层级标签；其中，所述条件随机场模型中包括特征函数，所述特征函数用于分别统计每个词的上下文的词性结构、文本结构，根据所述词性结构、文本结构确定每个词的韵律层级标签；

步骤S4，根据所述文本中每个词的韵律层级标签对所述文本进行韵律层级划分。

在本实施例中，上述方法应用于对文本进行韵律层级的划分，在对文本进行合理的韵律层级划分之后，则可以根据韵律层级将文本转换为对应的语音时，使得得到的语音更加自然。上述方法也可以应用于智慧城市领域中，以推动智慧城市的建设。

如上述步骤S1所述的，上述文本为待进行韵律层级划分的文本。上述文本通常由用户输入得到。

如上述步骤S2所述的，对上述文本进行词性识别，得到所述文本中每个词的词性。具体地，可以采用jieba，Hanlp等方法进行词性识别。上述词性识别指的是，对上述文本进行分词、并识别出每个词的词性，上述词性包括动词、名称、语气词等。在本实施例中，得到的每个词的词性不仅包含了词性的信息，也包含了分词的信息，而常见的韵律划分点都出现在不同的词之间(分词的边界)，因此引入词性的信息有益于韵律的预测。

例如，在一实施例中，对于文本“致以诚挚的问候”，对其进行词性识别时，可将其标注为“致以/v，诚挚/a，的/ude1，问候/vn”。

如上述步骤S3所述的，将词性识别后的所述文本输入至预设的条件随机场模型中，得到所述文本的每个词的韵律层级标签，上述条件随机场模型统计每个词的上下文的词性结构，根据所述词性结构确定每个词的韵律层级标签。例如，韵律层级标签包括0、1、2、3、5；针对上述“致以/v，诚挚/a，的/ude1，问候/vn”，若直接根据该词性标注进行韵律层级划分，则对应的韵律层级标签为“致/5以/1诚5挚/1的/0问/5候/3”，其中“0”“1”,“2”，“3”分别表示第一、二、三、四韵律层级，“5”表示在对应的字后面没有韵律层级划分。可以理解的是，按照此方式进行划分，则会造成划分粒度过细，而由正常的语音发音可知，上述文本中“诚挚的”之间不应当进行韵律层级划分，即不需要任何停顿。因此，本实施例中，采用上述条件随机场模型，基于文本每个词的词性，获取每个词的上下文的词，并获取其词性结构、文本结构；进而根据该词性结构在条件随机场模型中对应的韵律层级标签，对上述文本进行韵律层级标签的预测。最终则可以预测得到上述文本的韵律层级标签为：“致/5以/1诚5挚/5的/0问/5候/3”。

如上述步骤S4所述的，根据上述文本中每个词的韵律层级标签，则可以对所述文本进行韵律层级划分。即可以获取到上述文本中每个字在转换成语音时，是否需要停顿，若需要停顿，则根据韵律层级标签获取停顿层级。

在一具体实施例中，例如只采用词性的信息进行韵律层级预测会使得“玩吗”这种本应该是一个整体的情况，因为前后词性的不同(动词，语气助词)被某个韵律层级分开。又如“揣测而已”这类句子的前后也是动词加语气助词，并且在“揣测”和“而已”之间有韵律划分。这将导致合成的语音不够自然。在本实施例中，通过引入文本信息以及词性结构可有效避免这种情况的发生，因为在模型的训练中，多数情况下“吗”和前文都是相连的。因此通过将文本本身的信息与词性的信息相结合能够使得韵律层级的划分更为合理。

在一实施例中，所述获取待划分韵律层级的文本的步骤S1之前，包括：

步骤S10，获取训练数据集；其中，所述训练数据包括多个训练文本，所述训练文本携带有训练文本中每个词的词性，以及每个词的韵律层级标签；

步骤S11，将所述训练文本输入至初始条件随机场模型中进行训练，得到所述预设的条件随机场模型；其中，所述初始条件随机场模型中包括特征模板，所述特征模板用于分别统计所述训练文本中每个词的上下文的词性结构、文本结构，并根据所述词性结构、文本结构以及训练样本中每个词的韵律层级标签，确定所述特征模板中的模型参数，以得到所述特征函数。

在本实施例中，条件随机场中特征函数的构造有很多的方法，常用的方法是先构造上述特征模板，然后通过训练数据构造对应的模型函数，从而得到上述上述特征函数。这种方式构造的特征函数较为简单，并且参数数量相较于神经网络的方法少，训练速度也会更快。得到上述特征函数之后，则可以利用上述条件随机场模型进行文本的韵律层级标签的预测。

在一实施例中，参照图2，所述训练文本包括三列：

在本实施例中，所述初始条件随机场模型中包括的特征模板为：

(1)

(2)

(3)

其中，x_i,1表示训练样本中第i行第2列的数据，w_i-a表示对应的词性，m_i-a表示对应的文本；a、b分别表示上下文文字的范围；n为预设的超参数，y_i为文字对应的韵律层级标签。上述训练文本为x，对应于第j列特征的第i行为x_ij。

公式(1)表示当某种词性结构结构出现的次数大于n次的情况下这个函数返回1，否则返回0。例如当a＝1,b＝1的时候表示考虑了上下文以及当前词性，共三个范围，比如“x_i-1,1＝名词，x_i,1＝名词，x_i+1,1＝动词，y_i＝#1”这种词性结构下，在训练数据中出现次数大于n，我们可以通过函数模板(1)定义一个函数，该函数在满足“x_i-1,1＝名词，x_i,1＝名词，x_i+1,1＝动词，y_i＝#1”的情况下返回1，否则返回0。基于上述训练文本以及上述特征模板，则可以训练得到对应的模型参数。

公式(2)和公式(1)类似，区别在于它考虑的是文本本身的文本结构。公式(3)定义为预测的上一个韵律层级标签对当前韵律层级标签的影响。

上述特征模板中不仅引入了词性结构特征，而且还结合了训练数据的文本结构特性，将文本本身的信息与词性的信息相结合能够使得韵律层级的划分更为合理，构造的特征函数就能够充分利用文本上下文信息以及词性的变化和分词的信息。相较于目前基于神经网络的方法，在时间复杂度，模型复杂度以及训练的数据量上都会小很多。

在一实施例中，所述将所述训练文本输入至初始条件随机场模型中进行训练，得到所述预设的条件随机场模型的步骤S11之后，包括：

在本实施例中，还需要对上述训练得到的条件随机场模型进行测试，上述测试文本输入至上述预设的条件随机场模型的运算过程与上述训练样本类似，区别在于，上述测试文本中不包括对应的韵律层级标签信息，仅包括对应的词性标注。

在一实施例中，所述获取训练数据集的步骤S10，包括：

获取文字样本；

获取所述文字样本中每个词的韵律层级标签；

基于多个训练文本，得到所述训练数据集。

在本实施例中，构建训练文本时，需要三列数据，第一列为训练文本中每个词的竖向排列，第二列为所述训练文本每个词对应的词性，第三列为所述训练文本中每个词对应的韵律层级标签。

例如，对于训练文本“致以诚挚的问候”，其对应的词性识别表示为“致以/v，诚挚/a，的/ude1，问候/vn”，则在构建训练文本时，对其进行词性标注时，可以表达为“致/v以/v诚/a挚/a的/ude1问/vn候/vn”。其对应的标签则为“致/5以/1诚5挚/5的/0问/5候/3”。

在一实施例中，所述方法还包括：

将所述预设的条件随机场模型存储于区块链中。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

参照图3，本申请一实施例中还提供了一种韵律层级划分装置，包括：

第一获取单元10，用于获取待划分韵律层级的文本；

识别单元20，用于对所述文本进行词性识别，得到所述文本中每个词的词性；

标签获取单元30，用于将词性识别后的所述文本输入至预设的条件随机场模型中，得到所述文本的每个词的韵律层级标签；其中，所述条件随机场模型中包括特征函数，所述特征函数用于分别统计每个词的上下文的词性结构、文本结构，根据所述词性结构、文本结构确定每个词的韵律层级标签；

划分单元40，用于根据所述文本中每个词的韵律层级标签对所述文本进行韵律层级划分。

在一实施例中，上述装置还包括：

第二获取单元，用于获取训练数据集；其中，所述训练数据包括多个训练文本，所述训练文本携带有训练文本中每个词的词性，以及每个词的韵律层级标签；

在一实施例中，所述训练文本包括三列：

在一实施例中，所述初始条件随机场模型中包括的特征模板为：

(1)

(2)

(3)

其中，x_i,1表示训练样本中第i行第2列的数据，w_i-a表示对应的词性，m_i-a表示对应的文本；a、b分别表示上下文文字的范围；n为预设的超参数，y_i为文字对应的韵律层级标签。

在一实施例中，上述装置还包括：

第三获取单元，用于获取测试数据中的测试文本；其中，所述测试文本包括所述测试文本中每个词的词性；

预测单元，用于将所述测试文本输入至所述预设的条件随机场模型中，得到所述测试文本中每个词的预测韵律层级标签；

对比单元，用于获取所述测试文本的正确韵律层级标签，并对比所述预测韵律层级标签与所述正确韵律层级标签获取所述预设的条件随机场模型的预测准确率；

确定单元，用于若所述预测准确率高于阈值，则确定所述预设的条件随机场模型训练完成。

在一实施例中，第二获取单元，具体用于：

获取文字样本；

获取所述文字样本中每个词的韵律层级标签；

基于多个训练文本，得到所述训练数据集。

在一实施例中，上述装置还包括：

存储单元，用于将所述预设的条件随机场模型存储于区块链中。

在本实施例中，上述装置实施例中各个单元的具体实现，请参照上述方法实施例中所述，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储条件随机场模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种韵律层级划分方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种韵律层级划分方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的韵律层级划分方法、装置、计算机设备和存储介质，获取待划分韵律层级的文本；对所述文本进行词性识别，得到所述文本中每个词的词性；将词性识别后的所述文本输入至预设的条件随机场模型中，得到所述文本的每个词的韵律层级标签；基于该条件随机场模型中包括的特征函数，所述特征函数用于分别统计每个词的上下文的词性结构，根据所述词性结构确定每个词的韵律层级标签。本申请采用上述条件随机场模型，结合文本中每个词的词性，并结合考虑上下文的词性结构，对文本进行韵律层级划分，避免了目前只考虑词性进行韵律层级划分时粒度过细的缺陷。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种韵律层级划分方法，其特征在于，包括以下步骤：

获取待划分韵律层级的文本；

对所述文本进行词性识别，得到所述文本中每个词的词性；

根据所述文本中每个词的韵律层级标签对所述文本进行韵律层级划分；

所述获取待划分韵律层级的文本的步骤之前，包括：

将所述训练文本输入至初始条件随机场模型中进行训练，得到所述预设的条件随机场模型；其中，所述初始条件随机场模型中包括特征模板，所述特征模板用于分别统计所述训练文本中每个词的上下文的词性结构、文本结构，并根据所述词性结构、文本结构以及训练样本中每个词的韵律层级标签，确定所述特征模板中的模型参数，以得到所述特征函数；

所述训练文本包括三列：

其中，第一列为所述训练文本中每个词的竖向排列，第二列为所述训练文本每个词对应的词性，第三列为所述训练文本中每个词对应的韵律层级标签；

所述初始条件随机场模型中包括的特征模板为：

(1)

(2)

(3)

2.根据权利要求1所述的韵律层级划分方法，其特征在于，所述将所述训练文本输入至初始条件随机场模型中进行训练，得到所述预设的条件随机场模型的步骤之后，包括：

3.根据权利要求1所述的韵律层级划分方法，其特征在于，所述获取训练数据集的步骤，包括：

获取文字样本；

获取所述文字样本中每个词的韵律层级标签；

基于多个训练文本，得到所述训练数据集。

4.根据权利要求1所述的韵律层级划分方法，其特征在于，所述方法还包括：

将所述预设的条件随机场模型存储于区块链中。

5.一种韵律层级划分装置，其采用权利要求1-4任一项所述的方法，其特征在于，包括：

第一获取单元，用于获取待划分韵律层级的文本；

划分单元，用于根据所述文本中每个词的韵律层级标签对所述文本进行韵律层级划分；

所述获取待划分韵律层级的文本的步骤之前，包括：

所述训练文本包括三列：

所述初始条件随机场模型中包括的特征模板为：

(1)

(2)

(3)

6.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。