CN111145719B

CN111145719B - 将中英混合及语气标签化的数据标注方法及装置

Info

Publication number: CN111145719B
Application number: CN201911404092.9A
Authority: CN
Inventors: 戴健; 周伟东; 刘华; 刘凯; 喻凌
Original assignee: Beijing Taiji Huabao Technology Co ltd
Current assignee: Beijing Taiji Huabao Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-04-05
Anticipated expiration: 2039-12-31
Also published as: CN111145719A

Abstract

本申请实施例公开了一种应用在深度学习语音合成算法中的，将中英混合及语气标签化的数据标注方法及装置，所述方法包括：从数据源中抓取训练文本，所述训练文本涵盖有中英文字符；为所抓取的所述训练文本添加情感标签，记录发音人根据情感标签标注后的训练文本的朗读音频文件，作为训练用音频文件；核检训练用音频文件与对应的训练文本的情感标签是否一致，不一致的部分对音频文件进行修订；将训练文本映射为文本向量，将文本向量及发音人的朗读音频文件，提交给神经网络的深度学习引擎进行训练，通过深度学习训练，学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。

Description

将中英混合及语气标签化的数据标注方法及装置

技术领域

本申请实施例涉及一种将中英混合及语气标签化的数据标注方法及装置。

背景技术

目前的语音合成技术，极大改进了语音合成质量，能够直接从文本直接生成逼真的语音，从而可以应用于语音导航、自动播报、自动排队叫号服务等领域。但是，目前的基于文本的语音输出技术中，语音输出过程中往往音调被拉平，虽然听起来流畅，但感情色彩不足，给人的体验非常不好。同时传统的语音输出技术中，不能同时适用中英混合的情况。涉及到中、英文混合发音，往往要调用两个模型进行处理，导致处理效率低下，语音输出效果较差。这是因为，传统的文本标注技术，采取的是直接把文字转拼音，再把拼音转成向量，作为神经网络的输入。在这种标注数据下，由于数据准备的单一性，基本无法训练出抑扬顿挫的语音。

发明内容

为解决上述技术问题，本申请实施例期望提供一种将中英混合及语气标签化的数据标注方法及装置。

本发明的技术方案是这样实现的：

本申请实施例提供一种将中英混合及语气标签化的数据标注方法，包括：

从数据源中抓取训练文本，所述训练文本涵盖有中英文字符；

为所抓取的所述训练文本添加情感标签，所述情感标签包括短时停顿、平调、惊喜、疑问、拖音、反问、强调中的至少一种；

记录发音人根据情感标签标注后的训练文本的朗读音频文件，作为训练用音频文件；

核检训练用音频文件与对应的训练文本的情感标签是否一致，不一致的部分对音频文件进行修订；

将训练文本映射为文本向量，将文本向量及发音人的朗读音频文件，提交给神经网络的深度学习引擎进行训练，通过深度学习训练，学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。

作为一种实现方式，所述将训练文本映射为文本向量，包括：

对所述训练文本中的文字、数字及英文字符进行读音标注，将标注后的读音中的字母按字母与标定数字之间的对应关系，将句子标注的语音转换为数字串，将文字对应的声调转换为对应的数字，将句子的情感标签转换为对应的数字标识；音素之间以设定标识符标识，将该设定标识符转换为数字；

将转换为数字串的文本映射成向量。

作为一种实现方式，所述方法还包括：

对训练文本中的文字进行儿化音进行标注，文字的轻声不进行标注；

在将标注后的文本映射成向量之前，将文字对应的声调中的儿化音转换为对应的数字。

作为一种实现方式，对音频文件进行修订后，所述方法还包括：

音频文件修订后无法达到需求时，将音频文件删除或基于音频文件对应的训练文本重新进行朗读而重新生成音频文件。

一种将中英混合及语气标签化的数据标注装置，包括：

抓取单元，用于从数据源中抓取训练文本；所述训练文本涵盖有中英文字符；

添加单元，用于为所抓取的所述训练文本添加情感标签，所述情感标签包括短时停顿、平调、惊喜、疑问、拖音、反问、强调中的至少一种；

记录单元，用于记录发音人根据情感标签标注后的训练文本的朗读音频文件，作为训练用音频文件；

核检单元，用于核检训练用音频文件与对应的训练文本的情感标签是否一致，不一致时触发修订单元；

修订单元，用于对训练用音频文件的与对应的训练文本不一致的部分进行修订；

映射单元，用于将训练文本映射为文本向量；

训练单元，用于将文本向量及发音人的朗读音频文件，提交给神经网络的深度学习引擎进行训练，通过深度学习训练，学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。

作为一种实现方式，所述映射单元，还用于对所述训练文本中的文字、数字及英文字符进行读音标注，将标注后的读音中的字母按字母与标定数字之间的对应关系，将句子标注的语音转换为数字串，将文字对应的声调转换为对应的数字，将句子的情感标签转换为对应的数字标识；音素之间以设定标识符标识，将该设定标识符转换为数字；

将转换为数字串的文本映射成向量。

作为一种实现方式，所述映射单元，还用于对训练文本中的文字进行儿化音进行标注，文字的轻声不进行标注；

作为一种实现方式，所述修订单元，还用于：

对音频文件进行修订后，确定音频文件修订后无法达到需求时，将音频文件删除或基于音频文件对应的训练文本重新进行朗读而重新生成音频文件。

本申请实施例的技术方案与现有技术相比具有如下优点：

本申请实施例通过可以解决传统端到端的深度学***淡以及中英文不能混读的问题，通过对文本进行数据标注算法，可以训练出一个更好的语音模型，合成出抑扬顿挫的语音效果，在一个模型中即可支持中英文混读，从而使输出语音与人的直觉一致，也不增加神经网络复杂度，方便网络学习。本申请实施例提供的符合直觉的用于端到端的语音合成模型的数据标注方法，既可以满足基本语调定义的需要，又不增加额外的复杂度。

附图说明

图1为本申请实施例的将中英混合及语气标签化的数据标注方法的流程示意图；

图2为本申请实施例的将中英混合及语气标签化的数据标注装置的组成结构示意图。

具体实施方式

在不冲突的情况下，本发明所记载的实施例之间的技术方案能够合并。

下面将结合附图对本发明的技术方案做具体地描述。

图1为本申请实施例的将中英混合及语气标签化的数据标注方法的流程示意图，如图1所示，本申请实施例的将中英混合及语气标签化的数据标注方法包括以下步骤：

步骤101，从数据源中抓取训练文本，所述训练文本涵盖有中英文字符。

本申请实施例中，可以从数据训练库中获取训练文本。数据源可以是网络中的各种网页，如百度百科中的文本等，数据源也可以是教科书或杂志文本等。本申请实施例从数据源中抓取含有中英文字符的训练文本。

步骤102，为所抓取的所述训练文本添加情感标签，所述情感标签包括短时停顿、平调、惊喜、疑问、拖音、反问、强调中的至少一种。

本申请实施例中，需要为训练文本添加情感标签，如短时停顿、平调、惊喜、疑问、拖音、反问、强调等。本申请实施例中，由于通过标点符号确定句子的语气太过粗糙，很多时候语气与上下文的语义还有很大的关联关系，如同样一句话，在不同的应用场景下其语气有很大区别，如以语气热烈、平淡、反讽来读一句话时，其语气的差别非常明显，因此，本申请实施例基于上下文语义分析、标点符号、文字及文字在句子中的位置而确定句子语气，以更准确地为训练文本添加感情标签。

步骤103，记录发音人根据情感标签标注后的训练文本的朗读音频文件，作为训练用音频文件。

本申请实施例中，当抓取完所述训练文本后，由发音人根据情感标签标注后的训练文本的朗读音频文件，记录该朗读音频文件并存储，作为训练用音频文件。

步骤104，核检训练用音频文件与对应的训练文本的情感标签是否一致，不一致的部分对音频文件进行修订。

本申请实施例中，需要对所朗读生成的音频文件进行核检，达不到需求时对音频文件不达标的部分进行修订；若音频文件修订后无法达到需求时，将音频文件删除或基于音频文件对应的训练文本重新进行朗读而重新生成音频文件。

步骤105，将训练文本映射为文本向量，将文本向量及发音人的朗读音频文件，提交给神经网络的深度学习引擎进行训练，通过深度学习训练，学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。

以下详细说明如何将训练文本映射为文本向量。

本申请实施例中，首先对训练文本中的各个文字及词语、数字、英文字符等进行读音标注。其中，汉字直接转换为对应汉字的拼音。带有音调符号，其中轻音不标记，1-4声依次在拼音后置数字1-4。如“小数点”，转成的拼音是：“xiao3 shu4 dian3 er”。如“点积”转成的拼音为：“dian3 ji1”。

英文标签使用国际音标标记。采用CMU体系标记，具体如下

对于用CMU音标标记的发音，用“{}”括起来，英文字母Q，应转为：{K Y UW}。

句子“您的京Q3HM21”的丰田汽车是您或您的家人在开吗？”

应转为：

“nin2 de jing1{K Y UW}san1{HH AH M}er4 yi1 de feng1 tian2 qi4 che1shi4 nin2 huo4 nin2 de jia1 ren2 zai4 kai1 ma？”。

本申请实施例中，情感标签包括：

1、儿音：如：“小数点”，转成的拼音是：xiao3 shu4 dian3 er。

2、短时停顿：“，”。表示朗读时短暂停顿。

3、平调读：“。”。表示正常语气朗读。

4、惊喜读：“！”，表示此句话应读出惊喜的感觉。

5、疑问读：“？”，表示此句应用疑问的语气读。

6、拖音读：“～”，表示此字应拖长音。如“请问您是～”，中，最后一个“是”应该拖长音。

7、反问读：“^”，表示此句应以反问的语气读。一般来讲应是用第三调加重来读。如讽刺意味的“我很好^”。

8、强调读：”*”，加重读。如“你确认您同意*张三*先生代替您签字吗？”，转为：”ni3que4 ren4 nin2 tong2 yi4 zhang1*san1*xian1 sheng1 dai4 ti4 nin2 qian1 zi4ma”。其中“张三”，在读时，应逐字强调。

本申请实施例中，将标注后的文本数据进行数字转化，转化的规则如下：

1)拼音按英文字母与数字，一一映射一个数字；

2)每个音标标签单独映射一个数字；

3)每个语气标签单独映射一个数字；

4)忽略其它所有符号；

5)每个音素用空格连接，空格单独映射一个数字。

按上述规则，整理出标签与数字的映射规则如下：

按此映射表，把文本转成的标签，映射成向量，即可提交给神经网络进行模型学习。

将转换为数字串的文本映射成向量，并将向量输入端到端的神经网络进行模型训练，记录训练结果。

本申请实施例中，可以基于神经网络训练后的训练结果，对新输入的文本进行语气标注参考和修正。

作为一种实现方式，本申请实施例的将中英混合及语气标签化的数据标注方法还包括：

图2为本申请实施例的将中英混合及语气标签化的数据标注装置的组成结构示意图，如图2所示，本申请实施例的将中英混合及语气标签化的数据标注装置包括：

抓取单元20，用于从数据源中抓取训练文本；所述训练文本涵盖有中英文字符；

添加单元21，用于为所抓取的所述训练文本添加情感标签，所述情感标签包括短时停顿、平调、惊喜、疑问、拖音、反问、强调中的至少一种；

记录单元22，用于记录发音人根据情感标签标注后的训练文本的朗读音频文件，作为训练用音频文件；

核检单元23，用于核检训练用音频文件与对应的训练文本的情感标签是否一致，不一致时触发修订单元；

修订单元24，用于对训练用音频文件的与对应的训练文本不一致的部分进行修订；

映射单元25，用于将训练文本映射为文本向量；

训练单元26，用于将文本向量及发音人的朗读音频文件，提交给神经网络的深度学习引擎进行训练，通过深度学习训练，学习中文、英文、情感标签的各种组合搭配下的文本的发音特点。

本申请实施例中，所述映射单元25，还用于对所述训练文本中的文字、数字及英文字符进行读音标注，将标注后的读音中的字母按字母与标定数字之间的对应关系，将句子标注的语音转换为数字串，将文字对应的声调转换为对应的数字，将句子的情感标签转换为对应的数字标识；音素之间以设定标识符标识，将该设定标识符转换为数字；

将转换为数字串的文本映射成向量。

本申请实施例中，所述映射单元25，还用于对训练文本中的文字进行儿化音进行标注，文字的轻声不进行标注；

本申请实施例中，所述修订单元24，还用于：

本领域技术人员应当理解，本发明实施例的将中英混合及语气标签化的数据标注装置中各处理单元的功能，可参照前述的将中英混合及语气标签化的数据标注方法的相关描述而理解，本发明实施例的将中英混合及语气标签化的数据标注装置中各处理单元，可通过实现本发明实施例所述的功能的模拟电路而实现，也可以通过执行本发明实施例所述的功能的软件在智能设备上的运行而实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请实施例通过构建高效的数据中心智能运维管理***，有效地提高了信息资源的运行管理水平，保障了服务器的稳定运行，提高了机房的使用效率，实时监测服务器的稳定性并通过实时告警而提高了故障的处理效率，保障了***的稳定有效。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种将中英混合及语气标签化的数据标注方法，其特征在于，所述方法包括：

为所抓取的所述训练文本添加情感标签；

2.根据权利要求1所述的标注方法，其特征在于，所述将训练文本映射为文本向量，包括：

将转换为数字串的文本映射成向量。

3.根据权利要求2所述的标注方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的标注方法，其特征在于，对音频文件进行修订后，所述方法还包括：

5.一种将中英混合及语气标签化的数据标注装置，其特征在于，所述装置包括：

添加单元，用于为所抓取的所述训练文本添加情感标签；

映射单元，用于将训练文本映射为文本向量；

6.根据权利要求5所述的标注装置，其特征在于，所述映射单元，还用于对所述训练文本中的文字、数字及英文字符进行读音标注，将标注后的读音中的字母按字母与标定数字之间的对应关系，将句子标注的语音转换为数字串，将文字对应的声调转换为对应的数字，将句子的情感标签转换为对应的数字标识；音素之间以设定标识符标识，将该设定标识符转换为数字；

将转换为数字串的文本映射成向量。

7.根据权利要求6所述的标注装置，其特征在于，所述映射单元，还用于对训练文本中的文字进行儿化音进行标注，文字的轻声不进行标注；

8.根据权利要求5所述的标注装置，其特征在于，所述修订单元，还用于：