CN105225657A

CN105225657A - 多音字标注模板生成方法和装置

Info

Publication number: CN105225657A
Application number: CN201510695421.5A
Authority: CN
Inventors: 肖朔; 白洁; 李秀林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-10-22
Filing date: 2015-10-22
Publication date: 2016-01-06
Anticipated expiration: 2035-10-22
Also published as: CN105225657B

Abstract

本发明公开了一种多音字标注模板生成方法和装置，其中，多音字标注模板生成方法包括：获取原始语料；对原始语料进行预处理，并生成包含多音字的语料数据；切分语料数据以生成多个分词，并对多个分词进行词性标注，以及进行近义词归一化处理；对归一化后的多个分词进行组合，并生成对应的句型；以及反向生成句型对应的多音字标注语料，并根据多音字标注语料生成多音字标注模板。本发明实施例的多音字标注模板生成方法和装置，减少了人工标注的工作量，并提升了多音字标注语料的抗噪性和容错性，进而在对多音字的读音进行预测时，提高了准确性。

Description

多音字标注模板生成方法和装置

技术领域

本发明涉及文语转换技术领域，尤其涉及一种多音字标注模板生成方法和装置。

背景技术

语音合成，又称文语转换技术，是一种能够将文字信息转化为语音并进行朗读的技术。语音合成***性能的主要评价指标主要包括可懂度和流畅度两方面。其中，对多音字的转换正确与否，极大地影响了用户对合成的声音语义的理解情况，即用户是否能听懂转换后的语音。如果对多音字的转换准确率高，则合成的语音更易于用户理解，也更加自然流畅。

目前，对多音字进行标注主要包括两种方法，一是通过人工总结并建立标注规则的方法，二是通过机器学习的方法对多音字进行标注。其中，基于人工的方法，需要具有一定语言专业知识的人，针对每个不同的多音字所蕴含的各类语言现象进行归纳总结，整理出规则，再将这些规则转写成计算机能够理解的代码，从而实现对多音字的标注。通过机器学习的方法，主要基于TBL算法(Transformation—BasedError-DrivenLearning,错误驱动的规则学习算法)、ME(MaximumEntropyModels，最大熵模型)、决策树等，通过获取样本数据和分词的输入特征，计算出全局最优的统计模型，进而实现对多音字的标注。

但是，上述方法均需要耗费较多的人力和时间去总结规则、标注训练语料，并且工作量大，更新周期长，建立的规则具有一定局限性和片面性，扩展性差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种多音字标注模板生成方法，能够减少人工标注的工作量，并提升多音字标注语料的抗噪性和容错性，进而在对多音字的读音进行预测时，提高准确性。

本发明的第二个目的在于提出一种多音字标注模板生成装置。

为了实现上述目的，本发明第一方面实施例提出了一种多音字标注模板生成方法，包括：获取原始语料；对所述原始语料进行预处理，并生成包含多音字的语料数据；切分所述语料数据以生成多个分词，并对所述多个分词进行词性标注，以及进行近义词归一化处理；对归一化后的所述多个分词进行组合，并生成对应的句型；以及反向生成所述句型对应的多音字标注语料，并根据所述多音字标注语料生成多音字标注模板。

本发明实施例的多音字标注模板生成方法，通过获取原始语料，对所述原始语料进行预处理，并生成包含多音字的语料数据，以及切分所述语料数据以生成多个分词，并对所述多个分词进行词性标注，以及进行近义词归一化处理，并对归一化后的所述多个分词进行组合，生成对应的句型；以及反向生成所述句型对应的多音字标注语料，并根据多音字标注语料生成多音字标注模板，减少了人工标注的工作量，并提升了多音字标注语料的抗噪性和容错性，进而在对多音字的读音进行预测时，提高了准确性。

本发明第二方面实施例提出了一种多音字标注模板生成装置，包括：获取模块，用于获取原始语料；第一生成模块，用于对所述原始语料进行预处理，并生成包含多音字的语料数据；处理模块，用于切分所述语料数据以生成多个分词，并对所述多个分词进行词性标注，以及进行近义词归一化处理；第二生成模块，用于对归一化后的所述多个分词进行组合，并生成对应的句型；以及反向生成模块，用于反向生成所述句型对应的多音字标注语料，并根据多音字标注语料生成多音字标注模板。

本发明实施例的多音字标注模板生成装置，通过获取原始语料，对所述原始语料进行预处理，并生成包含多音字的语料数据，以及切分所述语料数据以生成多个分词，并对所述多个分词进行词性标注，以及进行近义词归一化处理，并对归一化后的所述多个分词进行组合，生成对应的句型；以及反向生成所述句型对应的多音字标注语料，并根据多音字标注语料生成多音字标注模板，减少了人工标注的工作量，并提升了多音字标注语料的抗噪性和容错性，进而在对多音字的读音进行预测时，提高了准确性。

附图说明

图1是根据本发明一个实施例的多音字标注模板生成方法的流程图。

图2是根据本发明一个实施例的多音字标注模板生成装置的结构示意图一。

图3是根据本发明一个实施例的多音字标注模板生成装置的结构示意图二。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的多音字标注模板生成方法和装置。

如图1所示，多音字标注模板生成方法可包括：

S1、获取原始语料。

其中，原始语料可为互联网中的文本语料，可包括小说、新闻等文体。

S2、对原始语料进行预处理，并生成包含多音字的语料数据。

其中，预处理可包括但不仅限于断句、符号过滤、去重排序等。举例来说，可根据标点符号对原始语料进行断句，然后将重复的部分删除并重新排序，并将无实际语义的标点符号删除，然后根据预先建立的多音字列表，选取出包含多音字的语料数据。由于数据量巨大，可通过MapReduce进行处理。其中，MapReduce是一种编程模型，用于大规模数据的并行运算。

S3、切分语料数据以生成多个分词，并对多个分词进行词性标注，以及进行近义词归一化处理。

具体地，可对包含多音字的语料数据进行切分，从而生成多个分词，然后对上述分词进行词性标注，例如：“我吃苹果”，“我”和“苹果”可标注为名词，“吃”可标注为动词。然后可将词性为属于虚词的分词删除，即无实际语义的分词，例如“的”、“也”、“又”、“不”等。之后，再对近义词进行归一化处理，即将语义相近的分词进行聚类，可以避免语料数据稀疏的问题，又可以减少特征空间维数，提升机器学习模型的稳定性和泛化能力。

另外，还可过滤掉在词典中已有的语料数据，因为该语料数据的多音字标注已经保存在词典中，无需再次进行训练。

S4、对归一化后的多个分词进行组合，并生成对应的句型。

具体地，可对归一化后的多个分词进行组合，并生成多个分词组合。例如：“我们要有志气变得勇敢”，可生成分词组合“要有”、“要志气”、“要有志气”等。然后，可对多个分词组合的词频进行统计，获取词频大于频率阈值的分词组合，例如分词组合“要有志气”在语料数据中出现了10次，大于预设频率阈值5次，则可获取该分词组合。

在此之后，可过滤不满足预设条件的分词组合，以生成对应的句型。其中，预设条件可包括未登录词数量、单字数量以及分词的近义词数量。未登录词为词典中未包含的分词，如果未登录词数量过少，则说明该分词组合中的分词大部分都为词典中已包含的词，无需再次进行训练。而近义词数量过少，则会影响后续步骤中生成多音字标注语料的质量。最终，过滤后的分词组合可作为对应的句型，例如“长得。。。好看”、“要。。。勇敢”等，并根据句型的权重进行排序，例如句型出现的次数作为权重，按照次数从大到小的顺序进行排列，并获取出现次数最多的N个句型。举例来说，句型可表达为“多音字+关键字+近义词”的形式，如：喝(多音字)+好喝的(近义词)+饮料(关键字)。其中，近义词为可替换的部分。

S5、反向生成句型对应的多音字标注语料，并根据多音字标注语料生成多音字标注模板。

在获取对应的句型之后，首先可将句型与训练语料进行匹配。如果句型与训练语料匹配，则可根据训练语料对句型进行标注。例如：训练语料为“我长(zhang3)个子了”而生成的句型为“我长身高”，“身高”与“个子”是近义词，两者相匹配，则可直接根据训练语料的注音对“长”进行标注，将其标注为“zhang3”，并将其作为多音字标注语料。如果句型与训练语料不匹配，则可通过人工方式对句型进行标注，然后将标注后的句型作为多音字标注语料。

在此之后，可基于近义词表反向生成句型对应的多音字标注语料。举例来说，句型为“我要yao4吃饭”，而“吃饭”在近义词表中可具有如“进食”、“吃午饭”、“喝水”等近义词，则可生成“我要yao4进食”“我要yao4吃午饭”“我要yao4喝水”等多音字标注语料。

在生成多音字标注语料之后，可对多音字标注语料进行切分，并抽取多音字标注语料中每个分词的特征，然后将所述特征代入至特征模板中，以生成对应的特征组合；以及为预测算法生成对应的格式模板。其中，特征可包括词面、词性、相对位置、关键字等。特征模板为预先设置，机器能够识别的格式。预测算法可包括最大熵算法、TBL算法、决策树等。例如：当前使用最大熵算法预测多音字的读音时，可将抽取的多音字标注语料中每个分词的特征带入至预设的特征模板中，从而生成对应的特征组合，再将特征组合转换为最大熵算法能够支持的格式模板。将待预测的包含多音字的文本输入到该格式模板中，即可实现最大熵算法对多音字的读音的预测。通过对预测算法的黑盒化，可实现预测算法的快速替换，而无需局限于某个算法的性能。

本发明实施例的多音字标注模板生成方法，通过获取原始语料，对原始语料进行预处理，并生成包含多音字的语料数据，以及切分语料数据以生成多个分词，并对多个分词进行词性标注，以及进行近义词归一化处理，并对归一化后的多个分词进行组合，生成对应的句型；以及反向生成句型对应的多音字标注语料，并根据多音字标注语料生成多音字标注模板，减少了人工标注的工作量，并提升了多音字标注语料的抗噪性和容错性，进而在对多音字的读音进行预测时，提高了准确性。

为实现上述目的，本发明还提出一种多音字标注模板生成装置。

如图2所示，多音字标注模板生成装置可包括：获取模块110、第一生成模块120、处理模块130、第二生成模块140和反向生成模块150。

获取模块110用于获取原始语料。其中，原始语料可为互联网中的文本语料，可包括小说、新闻等文体。

第一生成模块120用于对原始语料进行预处理，并生成包含多音字的语料数据。其中，预处理可包括但不仅限于断句、符号过滤、去重排序等。举例来说，可根据标点符号对原始语料进行断句，然后将重复的部分删除并重新排序，并将无实际语义的标点符号删除，然后根据预先建立的多音字列表，选取出包含多音字的语料数据。由于数据量巨大，可通过MapReduce进行处理。其中，MapReduce是一种编程模型，用于大规模数据的并行运算。

处理模块130用于切分语料数据以生成多个分词，并对多个分词进行词性标注，以及进行近义词归一化处理。具体地，处理模块130可对包含多音字的语料数据进行切分，从而生成多个分词，然后对上述分词进行词性标注，例如：“我吃苹果”，“我”和“苹果”可标注为名词，“吃”可标注为动词。然后可将词性为属于虚词的分词删除，即无实际语义的分词，例如“的”、“也”、“又”、“不”等。之后，再对近义词进行归一化处理，即将语义相近的分词进行聚类，可以避免语料数据稀疏的问题，又可以减少特征空间维数，提升机器学习模型的稳定性和泛化能力。

第二生成模块140用于对归一化后的多个分词进行组合，并生成对应的句型。具体地，第二生成模块140可对归一化后的多个分词进行组合，并生成多个分词组合。例如：“我们要有志气变得勇敢”，可生成分词组合“要有”、“要志气”、“要有志气”等。然后，可对多个分词组合的词频进行统计，获取词频大于频率阈值的分词组合，例如分词组合“要有志气”在语料数据中出现了10次，大于预设频率阈值5次，则可获取该分词组合。

反向生成模块150用于反向生成句型对应的多音字标注语料，并根据多音字标注语料生成多音字标注模板。举例来说，句型为“我要yao4吃饭”，而“吃饭”在近义词表中可具有如“进食”、“吃午饭”、“喝水”等近义词，则可生成“我要yao4进食”“我要yao4吃午饭”“我要yao4喝水”等多音字标注语料。

在生成多音字标注语料之后，反向生成模块150可对多音字标注语料进行切分，并抽取多音字标注语料中每个分词的特征，然后将所述特征代入至特征模板中，以生成对应的特征组合；以及为预测算法生成对应的格式模板。其中，特征可包括词面、词性、相对位置、关键字等。特征模板为预先设置，机器能够识别的格式。预测算法可包括最大熵算法、TBL算法、决策树等。例如：当前使用最大熵算法预测多音字的读音时，可将抽取的多音字标注语料中每个分词的特征带入至预设的特征模板中，从而生成对应的特征组合，再将特征组合转换为最大熵算法能够支持的格式模板。将待预测的包含多音字的文本输入到该格式模板中，即可实现最大熵算法对多音字的读音的预测。通过对预测算法的黑盒化，可实现预测算法的快速替换，而无需局限于某个算法的性能。

如图3所示，本发明实施例的多音字标注模板生成装置还可包括标注模块160。

标注模块160用于在基于近义词表反向生成句型对应的多音字标注语料之前，将句型与训练语料进行匹配，若句型与训练语料匹配，则根据训练语料对句型进行标注，以及若句型与训练语料不匹配，则通过人工方式对句型进行标注。首先可将句型与训练语料进行匹配。如果句型与训练语料匹配，则可根据训练语料对句型进行标注。例如：训练语料为“我长(zhang3)个子了”而生成的句型为“我长身高”，“身高”与“个子”是近义词，两者相匹配，则可直接根据训练语料的注音对“长”进行标注，将其标注为“zhang3”，并将其作为多音字标注语料。如果句型与训练语料不匹配，则可通过人工方式对句型进行标注，然后将标注后的句型作为多音字标注语料。

本发明实施例的多音字标注模板生成装置，通过获取原始语料，对原始语料进行预处理，并生成包含多音字的语料数据，以及切分语料数据以生成多个分词，并对多个分词进行词性标注，以及进行近义词归一化处理，并对归一化后的多个分词进行组合，生成对应的句型；以及反向生成句型对应的多音字标注语料，并根据多音字标注语料生成多音字标注模板，减少了人工标注的工作量，并提升了多音字标注语料的抗噪性和容错性，进而在对多音字的读音进行预测时，提高了准确性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多音字标注模板生成方法，其特征在于，包括以下步骤：

获取原始语料；

对所述原始语料进行预处理，并生成包含多音字的语料数据；

切分所述语料数据以生成多个分词，并对所述多个分词进行词性标注，以及进行近义词归一化处理；

对归一化后的所述多个分词进行组合，并生成对应的句型；以及

反向生成所述句型对应的多音字标注语料，并根据所述多音字标注语料生成多音字标注模板。

2.如权利要求1所述的方法，其特征在于，所述预处理包括断句、符号过滤、去重排序中的一种或多种。

3.如权利要求1所述的方法，其特征在于，所述对归一化后的所述多个分词进行组合，并生成对应的句型，包括：

对归一化后的所述多个分词进行组合，并生成多个分词组合；

对所述多个分词组合的词频进行统计，获取所述词频大于频率阈值的分词组合；以及

过滤不满足预设条件的分词组合，以生成对应的句型，其中，所述预设条件包括未登录词数量、单字数量以及所述分词的近义词数量。

4.如权利要求1所述的方法，其特征在于，所述反向生成所述句型对应的多音字标注语料，包括：

基于近义词表反向生成所述句型对应的多音字标注语料。

5.如权利要求4所述的方法，其特征在于，在所述基于近义词表反向生成所述句型对应的多音字标注语料之前，还包括：

将所述句型与训练语料进行匹配；

若所述句型与所述训练语料匹配，则根据所述训练语料对所述句型进行标注；以及

若所述句型与所述训练语料不匹配，则通过人工方式对所述句型进行标注。

6.如权利要求1所述的方法，其特征在于，所述根据所述多音字标注语料生成多音字标注模板，包括：

对所述多音字标注语料进行切分，并抽取所述多音字标注语料中每个分词的特征；

将所述特征代入至特征模板中，以生成对应的特征组合；以及

根据所述特征组合为预测算法生成对应的格式模板。

7.一种多音字标注模板生成装置，其特征在于，包括：

获取模块，用于获取原始语料；

第一生成模块，用于对所述原始语料进行预处理，并生成包含多音字的语料数据；

处理模块，用于切分所述语料数据以生成多个分词，并对所述多个分词进行词性标注，以及进行近义词归一化处理；

第二生成模块，用于对归一化后的所述多个分词进行组合，并生成对应的句型；以及

反向生成模块，用于反向生成所述句型对应的多音字标注语料，并根据所述多音字标注语料生成多音字标注模板。

8.如权利要求7所述的装置，其特征在于，所述预处理包括断句、符号过滤、去重排序中的一种或多种。

9.如权利要求7所述的装置，其特征在于，所述第二生成模块，具体用于：

10.如权利要求7所述的装置，其特征在于，所述反向生成模块，具体用于：

基于近义词表反向生成所述句型对应的多音字标注语料。

11.如权利要求10所述的装置，其特征在于，所述装置还包括：

标注模块，用于在所述基于近义词表反向生成所述句型对应的多音字标注语料之前，将所述句型与训练语料进行匹配，若所述句型与所述训练语料匹配，则根据所述训练语料对所述句型进行标注，以及若所述句型与所述训练语料不匹配，则通过人工方式对所述句型进行标注。

12.如权利要求7所述的装置，其特征在于，所述反向生成模块，具体用于：

根据所述特征组合为预测算法生成对应的格式模板。