CN112580335A

CN112580335A - 多音字消歧方法及装置

Info

Publication number: CN112580335A
Application number: CN202011581165.4A
Authority: CN
Inventors: 庞帅; 袁晟君; 李宸; 杨辰雨; 庄磊
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-30
Anticipated expiration: 2040-12-28
Also published as: CN112580335B

Abstract

本发明提供了一种多音字消歧方法及装置，该方法包括：获取包含多音字的待检测语句文本数据；根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型；根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。能够将待检测语句文本数据与多音字的候选读音逐一匹配，相较于分类的方法，能够提升在非常规发音上的识别准确率。将全部多音字以及对应的读音数据导入，即使文本匹配模型未见过的罕见读音，也能够准确识别。

Description

多音字消歧方法及装置

技术领域

本发明涉及语音识别领域，尤其涉及一种多音字消歧方法及装置。

背景技术

在语音识别***中，字音转换是必不可少的模块之一，其准确率直接影响识别出的语音的可懂性。在普通话语音合成***中，字音转换任务就是将文字序列转换为对应的拼音序列。大多数情况下，字音转换都是在词典中检索当前词，配以对应的拼音。然而，普通话中有的字对应多个拼音。如“好”字，在“好成绩”中读“hao(3声)”，在“好客”中读“hao(4声)”。字音转换的关键和难点就是如何解决这种一字多音的问题。

在普通话中常见的多音字约200个，每个多音字有常规发音和非常规发音，为了将语音数据中的多音字确定为正确的文字，需要进行多音字消歧，其中，多音字消歧是指在语音合成***中，将数据中的多音字预测为正确的拼音序列。现有技术进行多音字消歧时，采用的是基于分类方法的模型，但在真实场景中，多音字的发音是非常不平衡的，例如表1中展示的发音分布统计情况：

由于非常规发音数据的数量远远少于常规发音数据，利用基于分类方法的模型在非常规发音这种小样本数据中性能表现较差，且对于模型未见过的数据集外的读音数据，例如在真实场景中，多音字存在罕见发音，训练语料中有可能无法覆盖。如发音为“zhe 1声”的“折”字，基于分类方法的模型无法识别。

因此，现有的多音字消歧方法对多音字识别准确率低。

发明内容

本发明实施例提供一种多音字消歧方法，用以提高对多音字的识别准确率，该方法包括：

获取包含多音字的待检测语句文本数据；

根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；所述四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；

根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；

将待检测语句文本数据和所述候选读音数据集合结合后，输入文本匹配模型；其中，所述文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型；

根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。

具体实施时，每个多音字对应的四级字词表，包括：

每个多音字的文本、每个多音字的不同读音、每个多音字不同读音对应的释义信息以及每个多音字不同读音对应的常用词组。

本发明具体实施例中，还提供一种多音字消歧方法，还包括：

迭代执行以下步骤，直至文本匹配模型的输出效率和/或输出结果的准确率满足预设要求或迭代次数超过预设值：

根据文本匹配模型的输出效率和/或输出结果的准确率，对所述四级多音字词表进行更新；

利用更新后的四级多音字词表，重新得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；

根据新得到的候选读音数据集合，重新确定文本匹配模型的输出结果。

本发明具体实施例中，根据文本匹配模型的输出效率和/或输出结果的准确率，对所述四级多音字词表进行更新，包括：

根据文本匹配模型的文本匹配模型的输出效率和/或输出结果的准确率，在所述四级多音字词表中对每个多音字不同读音对应的释义信息以及每个多音字不同读音对应的常用词组，进行调整、增加或删除。

具体实施时，根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合，包括：

根据待检测语句文本数据所包含的多音字对应的四级字词表，确定待检测语句文本数据所包含的多音字对应的多个候选读音及每个候选读音对应的释义信息和常用词组；

根据待检测语句文本数据所包含的多音字对应的多个候选读音及每个候选读音对应的释义信息和常用词组，确定每个候选读音数据子集；

合并多个候选读音数据子集，得到所述候选读音数据集合。

具体实施时，将待检测语句文本数据和所述候选读音数据集合结合后，输入文本匹配模型，包括：

将待检测语句文本数据和每个候选读音数据子集逐一进行拼接后，输入文本匹配模型。

具体实施例中，所述文本匹配模型的建立过程，包括：

获取多个训练数据和多个训练数据对应的正确读音；所述训练数据包括：包含多音字的语句文本数据和所包含多音字对应的多个候选读音数据集合；

根据每个训练数据对应的正确读音，确定语句文本数据和每个候选读音数据集合之间的适配度；

以训练数据为BERT模型的输入，语句文本数据和每个候选读音数据集合之间的适配度为BERT模型的输出，进行深度机器学习构建文本匹配模型。

具体实施过程中，所述文本匹配模型的建立过程还包括：

将多个训练数据输入构建的文本匹配模型中，得到多个训练数据对应的文本匹配模型输出结果；

根据多个训练数据对应的正确读音和多个训练数据对应的文本匹配模型输出结果，对构建的文本匹配模型进行调整。

具体实施例中，根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音，包括：

对文本匹配模型的输出的待检测语句文本数据与多音字的每个候选读音之间的适配度进行排序；

将排序最靠前的候选读音确定为待检测语句文本数据中所包含的多音字的读音。

本发明实施例还提供一种多音字消歧装置，用以提高对多音字的识别准确率，该装置包括：

数据获取模块，用于获取包含多音字的待检测语句文本数据；

四级字词表确定模块，用于根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；所述四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；

候选读音数据集合确定模块，用于根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；

文本匹配模块，用于将待检测语句文本数据和所述候选读音数据集合结合后，输入文本匹配模型；其中，所述文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型；

读音确定模块，用于根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。

本发明具体实施例中，每个多音字对应的四级字词表，包括：

具体实施例中，还包括：四级多音字词表迭代更新模块，用于：

具体实施时，根据文本匹配模型的输出效率和/或输出结果的准确率，对所述四级多音字词表进行更新，包括：

本发明具体实施例中，所述候选读音数据集合确定模块，具体用于：

合并多个候选读音数据子集，得到所述候选读音数据集合。

本发明具体实施例中，所述文本匹配模块，具体用于：

本发明具体实施例中，所述文本匹配模块包括：文本匹配模型构建单元，用于：

具体实施时，所述文本匹配模型构建单元，还用于：

具体实施时，所述读音确定模块，具体用于：

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多音字消歧方法。

本发明实施例也提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述多音字消歧方法的计算机程序。

本发明实施例中，通过获取包含多音字的待检测语句文本数据；根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；其中，四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型；其中，文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型；根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。通过利用BERT模型构建文本匹配模型，能够将待检测语句文本数据与多音字的候选读音逐一匹配，相较于分类的方法，能够提升在非常规发音上的识别准确率。通过预先构建四级多音字词表，将全部多音字以及对应的读音数据导入，即使文本匹配模型未见过的罕见读音，也能够准确识别，从而提高对多音字的识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中多音字消歧方法的示意图。

图2为本发明具体实施例中步骤103的具体实现方法示意图。

图3为本发明具体实施例中文本匹配模型的建立过程示意图。

图4为本发明具体实施例中文本匹配模型的另一建立过程示意图。

图5为本发明具体实施例中步骤105的具体实现方法示意图。

图6为本发明具体实施例中多音字消歧方法的示意图。

图7为本发明具体实施中的多音字消歧的***的框架示意图。

图8为本发明实施例中多音字消歧装置示意图。

图9为本发明具体实施例中多音字消歧装置示意图。

图10为本发明实施例中用于多音字消歧的电子设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种多音字消歧方法，用以提高多音字的识别准确率，如图1所示，该方法包括：

步骤101：获取包含多音字的待检测语句文本数据；

步骤102：根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；

步骤103：根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；

步骤104：将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型；

步骤105：根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。

其中，四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型。

由图1所示流程可以得知，本发明实施例中，通过获取包含多音字的待检测语句文本数据；根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；其中，四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型；其中，文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型；根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。通过利用BERT模型构建文本匹配模型，能够将待检测语句文本数据与多音字的候选读音逐一匹配，相较于分类的方法，能够提升在非常规发音上的识别准确率。通过预先构建四级多音字词表，将全部多音字以及对应的读音数据导入，即使文本匹配模型未见过的罕见读音，也能够准确识别，从而提高对多音字的识别准确率。

具体实施时，首先获取包含多音字的待检测语句文本数据。

获取包含多音字的待检测语句文本数据后，根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表。具体实施例中，四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系。其中，每个多音字对应的四级字词表，包括：

通过构建了一个多音字-发音-解释-词组相关联的四级多音字词表，引入多音字的先验知识，解决了现有技术中基于分类的模型对模型数据集外数据的识别准确率较低的问题。

得到待检测语句文本数据所包含的多音字对应的四级字词表后，根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合，具体过程如图2所示，包括：

步骤201：根据待检测语句文本数据所包含的多音字对应的四级字词表，确定待检测语句文本数据所包含的多音字对应的多个候选读音及每个候选读音对应的释义信息和常用词组；

步骤202：根据待检测语句文本数据所包含的多音字对应的多个候选读音及每个候选读音对应的释义信息和常用词组，确定每个候选读音数据子集；

步骤203：合并多个候选读音数据子集，得到候选读音数据集合。

得到候选读音数据集合后，将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型。其中，文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型。BERT模型的全称是Bidirectional EncoderRepresentation from Transformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和NextSentence Prediction两种方法分别捕捉词语和句子级别的representation，在本具体实施例中，BERT模型是一个预训练的语言模型，用于把文字转换成数字，供计算机查看。

具体实施例中，文本匹配模型的建立过程，如图3所示，包括：

步骤301：获取多个训练数据和多个训练数据对应的正确读音；

步骤302：根据每个训练数据对应的正确读音，确定语句文本数据和每个候选读音数据集合之间的适配度；

步骤303：以训练数据为BERT模型的输入，语句文本数据和每个候选读音数据集合之间的适配度为BERT模型的输出，进行深度机器学习构建文本匹配模型。

其中，训练数据包括：包含多音字的语句文本数据和所包含多音字对应的多个候选读音数据集合。

由于BERT模型能够实现一一匹配，能够将待检测语句文本数据与多音字的候选读音逐一匹配，相较于分类的方法，从而能够提升在非常规发音上的识别准确率。

为了提高所建立的文本匹配模型的预测准确性，如图4所示的文本匹配模型的建立过程，在图3的基础上，还包括：

步骤401：将多个训练数据输入构建的文本匹配模型中，得到多个训练数据对应的文本匹配模型输出结果；

步骤402：根据多个训练数据对应的正确读音和多个训练数据对应的文本匹配模型输出结果，对构建的文本匹配模型进行调整。

将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型，具体实施时，包括：将待检测语句文本数据和每个候选读音数据子集逐一进行拼接后，输入文本匹配模型。

输入文本匹配模型后，根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。具体实施过程，如图5所示，包括：

步骤501：对文本匹配模型的输出的待检测语句文本数据与多音字的每个候选读音之间的适配度进行排序；

步骤502：将排序最靠前的候选读音确定为待检测语句文本数据中所包含的多音字的读音。

例如含多音字的待检测语句文本数据为A，候选读音数据集合为{B，C，D}，即候选读音数据子集为B、C和D，则分别拼出AB，AC，AD作为文本匹配模型的输入，最终分别输出AB，AC，AD的适配度得分，取其中最高者，作为多音字的读音确定结果。

由于预先构建的四级多音字词表是源于词典，数据较为全面，但实际应用中，某些读音对应的释义或词组并不常用，四级多音字词表过于复杂反而会拖慢多音字读音确定的速度，因此，本发明具体实施例中还提供一种多音字消歧方法，如图6所示，在图1的基础上，还包括：

步骤601：迭代执行以下步骤，直至文本匹配模型的输出效率和/或输出结果的准确率满足预设要求或迭代次数超过预设值：

步骤602：根据文本匹配模型的输出效率和/或输出结果的准确率，对四级多音字词表进行更新；

步骤603：利用更新后的四级多音字词表，重新得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；

步骤604：根据新得到的候选读音数据集合，重新确定文本匹配模型的输出结果。

其中，文本匹配模型的输出效率是指文本匹配模型运行后得到输出结果的速度，具体实施时，如果输出效率过慢和/或输出结果的准确率较低，就对四级多音字词表进行迭代更新。具体的输出效率过慢和/或输出结果的准确率较低的判断标准，按照实际情况具体设定，此处不再进行赘述。根据文本匹配模型的输出效率和/或输出结果的准确率，对四级多音字词表进行更新，具体包括：

通过四级多音字词表的更新，无需重新训练部署文本匹配模型，解决了文本匹配模型的迭代升级慢的问题。

为了更好地说明本发明实施例所提供的多音字消歧方法，通过一具体实施详细阐述。

该具体实施依据本发明实施例所提供的多音字消歧方法，构建了一种多音字消歧的***，该***的框架如图7所示，包括三大部分：

一是通过迭代的方式构建了一个多音字-发音-解释-词组相关联的四级多音字词表，通过四级多音字词表的更新，无需重新训练部署模型，解决了模型的迭代升级慢的问题。

首先，选择了常见的190个多音字，整理了其对应的解释以及词组，构建四级多音字词表。

举例来说，构建的多音字“佛”的四级字词表如表2所示：

表2“佛”的四级字词表

二是基于匹配的方式，将含有多音字的语句与多音字词表进行一一匹配，选择匹配程度最高的多音字拼音，确定为该多音字读音。通过匹配以及引入外部先验知识，解决了在小样本数据集上准确度性能较差的问题。

相比于传统方法，基于深度学习的文本匹配模型能够从大量的样本中自动提取出词语之间的关系，并能结合短语匹配中的结构信息和文本匹配的层次化特性，更精细地描述文本匹配问题。

基于深度学习的文本匹配模型，虽然能够很大的提高匹配准确性，但是由于分别进行了一一匹配，如果候选集过多，通常需要较长的等待时间。但在多音字消歧的场景中，通常一个多音字仅对应2-4个发音，即仅有2-4个候选集，在时间性能上不受影响。故基于深度学习的文本匹配模型非常适合于该场景。

三是构建基于BERT的文本匹配模型，利用预训练模型BERT，对文本匹配过程进行微调的深度学习方法。

为了验证本发明所提供的多音字消歧方法能够有效提高对多音字读音确定的准确率，本具体实施还进行了实验验证。实验验证所用的测试数据集来自于真实业务场景中的包含多音字的数据集。

为了避免实验结果的偶然性，设置三个不同的随机种子，计算三次实验结果均值作为实验结果。这里采用的评价指标为准确率P，具体定义为Precision＝|A∩B|/|A|，其中，A表示多音字消歧模型识别的多音字读音，B表示文本语料中的真实的多音字读音。

文本匹配模型使用BERT模型，所使用的环境为python3.6；训练过程中使用batchsize大小为64；Dropout设置为0.1；训练轮数为3。

设计以下对比实验：

与基于分类的现有方法进行对比，分别在正常多音字测试集中和非常规发音测试数据集中进行验证。

实验结果：在非常规的多音字测试数据集中，本发明所提供的多音字消歧方法性能远远优于基于分类的现有方法。

实验数据及结论如表3所示：

表3实验结果对比表

由上表可见，本发明实施例所提供的多音字消歧方法，通过构建四级多音字词表，引入多音字的先验知识，解决了模型在未见过的罕见读音中的识别准确率较低的问题。通过更新四级多音字词表信息，无需重新训练部署模型，解决了基于深度学习的模型迭代升级慢的问题。通过构建文本匹配模型，通过一一匹配的方式，解决了模型在在非常规发音这种小样本数据集上识别准确率较低的问题。

基于同一发明构思，本发明实施例还提供一种多音字消歧装置，由于多音字消歧装置所解决问题的原理与多音字消歧方法相似，因此多音字消歧装置的实施可以参见多音字消歧方法的实施，重复之处不再赘述，具体结构如图8所示：

数据获取模块801，用于获取包含多音字的待检测语句文本数据；

四级字词表确定模块802，用于根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；其中，四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；

候选读音数据集合确定模块803，用于根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；

文本匹配模块804，用于将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型；其中，文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型；

读音确定模块805，用于根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。

本发明具体实施例中，候选读音数据集合确定模块803，具体用于：

合并多个候选读音数据子集，得到候选读音数据集合。

本发明具体实施例中，文本匹配模块804，具体用于：

本发明具体实施例中，文本匹配模块804包括：文本匹配模型构建单元，用于：

获取多个训练数据和多个训练数据对应的正确读音；

其中训练数据包括：包含多音字的语句文本数据和所包含多音字对应的多个候选读音数据集合；

具体实施时，该文本匹配模型构建单元，还用于：

具体实施时，读音确定模块805，具体用于：

具体实施例中，还提供一种多音字消歧装置，如图9所示，在图8的基础上，还包括：

四级多音字词表迭代更新模块901，用于：

根据文本匹配模型的输出效率和/或输出结果的准确率，对四级多音字词表进行更新；

具体实施时，根据文本匹配模型的输出效率和/或输出结果的准确率，对四级多音字词表进行更新，包括：

本发明实施例提供一种用于实现上述多音字消歧方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现多音字消歧方法的实施例及用于实现多音字消歧装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图10为本申请实施例的电子设备1000的***构成的示意框图。如图10所示，该电子设备1000可以包括中央处理器1001和存储器1002；存储器1002耦合到中央处理器1001。值得注意的是，该图10是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，多音字消歧功能可以被集成到中央处理器1001中。其中，中央处理器1001可以被配置为进行如下控制：

获取包含多音字的待检测语句文本数据；

根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；

将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型；

从上述描述可知，本申请的实施例提供的电子设备，通过获取包含多音字的待检测语句文本数据；根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；其中，四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；将待检测语句文本数据和候选读音数据集合结合后，输入文本匹配模型的；其中，文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型；根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。通过利用BERT模型构建文本匹配模型，能够将待检测语句文本数据与多音字的候选读音逐一匹配，相较于分类的方法，能够提升在非常规发音上的识别准确率。通过预先构建四级多音字词表，将全部多音字以及对应的读音数据导入，即使文本匹配模型未见过的罕见读音，也能够准确识别，从而提高对多音字的识别准确率。

在另一个实施方式中，多音字消歧装置可以与中央处理器1001分开配置，例如可以将多音字消歧装置配置为与中央处理器1001连接的芯片，通过中央处理器的控制来实现多音字消歧功能。

如图10所示，该电子设备1000还可以包括：通信模块1003、输入单元1004、音频处理器1005、显示器1006、电源1007。值得注意的是，电子设备1000也并不是必须要包括图10中所示的所有部件；此外，电子设备1000还可以包括图10中没有示出的部件，可以参考现有技术。

如图10所示，中央处理器1001有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器1001接收输入并控制电子设备1000的各个部件的操作。

其中，存储器1002，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器1001可执行该存储器1002存储的该程序，以实现信息存储或处理等。

输入单元1004向中央处理器1001提供输入。该输入单元1004例如为按键或触摸输入装置。电源1007用于向电子设备1000提供电力。显示器1006用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器1002可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器1002还可以是某种其它类型的装置。存储器1002包括缓冲存储器1021(有时被称为缓冲器)。存储器1002可以包括应用/功能存储部1022，该应用/功能存储部1022用于存储应用程序和功能程序或用于通过中央处理器1001执行电子设备1000的操作的流程。

存储器1002还可以包括数据存储部1023，该数据存储部1023用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器1002的驱动程序存储部1024可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块1003即为经由天线1008发送和接收信号的发送机/接收机1003。通信模块(发送机/接收机)1003耦合到中央处理器1001，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块1003，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)1003还经由音频处理器1005耦合到扬声器1009和麦克风1010，以经由扬声器1009提供音频输出，并接收来自麦克风1010的音频输入，从而实现通常的电信功能。音频处理器1005可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器1005还耦合到中央处理器1001，从而使得可以通过麦克风1010能够在本机上录音，且使得可以通过扬声器1009来播放本机上存储的声音。

本发明实施例还提供一种计算机可读存储介质，存储有执行上述多音字消歧方法的计算机程序。

综上所述，本发明实施例提供的多音字消歧方法及装置具有如下优点：

通过获取包含多音字的待检测语句文本数据；根据待检测语句文本数据，在预先构建的四级多音字词表中查询得到待检测语句文本数据所包含的多音字对应的四级字词表；其中，四级多音字词表中记录有多个多音字与每个多音字对应的四级字词表之间的关联关系；根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合；将待检测语句文本数据和候选读音数据集合结合后，作为文本匹配模型的输入；其中，文本匹配模型是预先构建的用于确定待检测语句文本数据与多音字的候选读音之间的适配度的BERT模型；根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音。通过利用BERT模型构建文本匹配模型，能够将待检测语句文本数据与多音字的候选读音逐一匹配，相较于分类的方法，能够提升在非常规发音上的识别准确率。通过预先构建四级多音字词表，将全部多音字以及对应的读音数据导入，即使文本匹配模型未见过的罕见读音，也能够准确识别，从而提高对多音字的识别准确率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种多音字消歧方法，其特征在于，包括：

获取包含多音字的待检测语句文本数据；

2.如权利要求1所述的方法，其特征在于，每个多音字对应的四级字词表，包括：

3.如权利要求2所述的方法，其特征在于，还包括：

4.如权利要求3所述的方法，其特征在于，根据文本匹配模型的输出效率和/或输出结果的准确率，对所述四级多音字词表进行更新，包括：

5.如权利要求2所述的方法，其特征在于，根据待检测语句文本数据所包含的多音字对应的四级字词表，得到待检测语句文本数据所包含的多音字对应的候选读音数据集合，包括：

合并多个候选读音数据子集，得到所述候选读音数据集合。

6.如权利要求5所述的方法，其特征在于，将待检测语句文本数据和所述候选读音数据集合结合后，输入文本匹配模型，包括：

7.如权利要求1所述的方法，其特征在于，所述文本匹配模型的建立过程，包括：

8.如权利要求7所述的方法，其特征在于，还包括：

9.如权利要求1所述的方法，其特征在于，根据文本匹配模型的输出结果，确定待检测语句文本数据中所包含的多音字的读音，包括：

10.一种多音字消歧装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，每个多音字对应的四级字词表，包括：

12.如权利要求11所述的装置，其特征在于，还包括：四级多音字词表迭代更新模块，用于：

13.如权利要求12所述的装置，其特征在于，根据文本匹配模型的输出效率和/或输出结果的准确率，对所述四级多音字词表进行更新，包括：

14.如权利要求11所述的装置，其特征在于，所述候选读音数据集合确定模块，具体用于：

合并多个候选读音数据子集，得到所述候选读音数据集合。

15.如权利要求14所述的装置，其特征在于，所述文本匹配模块，具体用于：

16.如权利要求10所述的装置，其特征在于，所述文本匹配模块包括：文本匹配模型构建单元，用于：

17.如权利要求16所述的装置，其特征在于，所述文本匹配模型构建单元，还用于：

18.如权利要求10所述的装置，其特征在于，所述读音确定模块，具体用于：

19.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一所述方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至9任一所述方法的计算机程序。