CN113268974A

CN113268974A - 多音字发音标注方法、装置、设备及存储介质

Info

Publication number: CN113268974A
Application number: CN202110550710.1A
Authority: CN
Inventors: 李俊杰; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-17
Anticipated expiration: 2041-05-18
Also published as: CN113268974B

Abstract

本发明涉及大数据领域，公开了一种多音字发音标注方法、装置、设备及存储介质。本方法包括：采集目标语料数据，获取目标语料数据中的字特征表示向量集和多音字特征表示向量；对目标语料数据进行分词处理，得到目标分词；对确定的目标语料数据对应语义信息进行向量化处理，得到对应语义信息向量；对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到目标表示向量；通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音。本方案通过将语音信息和向量化处理，解决了预测多音字发音准确率低的技术问题。本发明中的语料数据可以存储于区块链中。

Description

多音字发音标注方法、装置、设备及存储介质

技术领域

本发明涉及大数据领域，尤其涉及一种多音字发音标注方法、装置、设备及存储介质。

背景技术

文字到音素(G2P)转换是从文本到语音(TTS)***中的重要组成部分，而多音字读音如何标注是中文TTS***的核心问题。不同于其他语言，中文里一个字符有多个发音的现象非常常见，甚至一句话中会出现多个多音字。因此，获取多音字的正确发音，对于高质量的中文文本语音合成***至关重要。

目前，国内多家企业诸如腾讯、百度、字节跳动等都有对多音字标注的方法进行研究，但是仍旧存在准确率不高，数据质量和数量要求过高的问题。因此，如何提高预测多音字发音的准确率成为了本领域技术人员需要面临的技术问题。

发明内容

本发明的主要解决了现有技术中对于预测多音字发音的准确率低的技术问题。

本发明第一方面提供了一种多音字发音标注方法，包括：数据清洗，得到目标语料数据，其中，所述目标语料数据包含中文句子，所述中文句子包括目标多音字；将所述目标语料数据输入预置Bert预训练模型进行特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量；对所述目标语料数据进行分词处理得到目标分词，并对所述目标分词进行语义识别处理，得到所述目标语料数据中所有中文句子对应的语义信息；调用词嵌入算法对所述语义信息进行向量化处理，得到所述语义信息的语义信息向量；对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量；将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量的目标发音概率，确定所述目标多音字的目标发音，对所述多音字发音进行标注。

可选地，在本发明第一方面的第一种实现方式中，所述对所述待标注原始语料数据进行数据清洗，得到目标语料数据包括：采集待标注原始语料数据；获取所述待标注原始语料数据的清洗需求；根据所述待标注原始语料数据和所述清洗需求，确定用于对所述待标注原始语料数据进行数据清洗的目标清洗规则；根据所述目标清洗规则对所述待标注原始语料数据进行数据清洗，得到目标语料数据。

可选地，在本发明第一方面的第二种实现方式中，所述将所述目标语料数据输入预置Bert预训练模型，获取所述目标语料数据中的字特征表示向量集和多音字特征表示向量包括：将所述目标语料数据输入预置Bert预训练模型，获取所述目标语料数据中的中文句子，所述中文句子中的目标多音字和所述目标多音字对应位置信息；根据所述目标多音字对应位置信息，对所述中文句子中的目标多音字进行标注，得到待处理中文句子；对所述待处理中文句子进行字特征向量表征和多音字特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量。

可选地，在本发明第一方面的第三种实现方式中，所述对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量包括：通过预置的前馈注意力机制，对所述多音字特征表示向量和所述语义信息向量进行注意力计算，得到注意力向量；将所述注意力向量与所述多音字特征表示向量进行拼接，得到目标表示向量。

可选地，在本发明第一方面的第四种实现方式中，所述通过预置的前馈注意力机制，对所述多音字特征表示向量和所述语义信息向量进行注意力计算，得到注意力向量包括：通过预置的前馈注意力机制，将所述语义信息向量与所述多音字特征表示向量拼接后输入预置Double-LSTMs神经网络模型进行特征提取，得到更加准确的隐层表示向量；将所述Double-LSTMs神经网络增加一层注意力层，确定所述中文句子中相对重要的信息赋予更高的权重；基于注意力层获得的权重，将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量，并分别将正向编码所获得的隐层向量与反向编码所获得的隐层向量进行拼接，并对所述多音字特征表示向量和所述语义信息向量进行注意力计算，得到注意力向量。

可选地，在本发明第一方面的第五种实现方式中，所述将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量的目标发音概率，确定所述目标多音字的目标发音，对所述多音字发音进行标注包括：将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量基于每一个拼音的概率，得到多音字拼音概率值集；基于预设排序方式，对所述多音字拼音概率值集中的多音字拼音概率值进行排序，并将排序第一的多音字拼音概率值确定为目标拼音概率；将所述目标拼音概率对应的拼音确定为所述目标多音字的目标发音，根据所述目标发音对所述多音字进行标注。

可选地，在本发明第一方面的第六种实现方式中，在所述将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层之前，还包括：从预置数据库中获取语音数据集和与所述语音数据集对应的文本数据集；对所述语音数据集和所述文本数据集进行处理，生成训练样本数据集，其中，所述训练样本数据集中的汉字标注有规范读音，所述汉字包含一个正确标注发音并标明位置的多音字；基于所述训练样本数据集中每个汉字的规范读音对所述Bert预训练模型进行前向训练，以确定损失函数值；根据所述损失函数值，对所述Bert预训练模型中的模型参数进行逐层反向传播修正，对所述神经网络模型的模型参数进行同步更新，得到汉字的多音字标注模型。

本发明第二方面提供了一种多音字发音标注装置，包括：数据清洗模块，用于采集待标注原始语料数据，并对所述待标注原始语料数据进行数据清洗，得到目标语料数据，其中，所述目标语料数据包含中文句子，所述中文句子包括目标多音字；向量提取模块，用于将所述目标语料数据输入预置Bert预训练模型进行特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量；语义识别模块，用于对所述目标语料数据进行分词处理得到目标分词，并对所述目标分词进行语义识别处理，得到所述目标语料数据中所有中文句子对应的语义信息；向量化模块，用于调用词嵌入算法对所述语义信息进行向量化处理，得到所述语义信息的语义信息向量；拼接模块，用于对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量；计算模块，用于将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量的目标发音概率，确定所述目标多音字的目标发音，对所述多音字发音进行标注。

可选地，在本发明第二方面的第一种实现方式中，所述数据清洗模块具体用于：采集待标注原始语料数据；获取所述待标注原始语料数据的清洗需求；根据所述待标注原始语料数据和所述清洗需求，确定用于对所述待标注原始语料数据进行数据清洗的目标清洗规则；根据所述目标清洗规则对所述待标注原始语料数据进行数据清洗，得到目标语料数据。

可选地，在本发明第二方面的第二种实现方式中，所述向量提取模块具体用于：获取所述目标语料数据中的中文句子，其中，所述中文句子中的目标多音字和所述目标多音字对应位置信息；根据所述目标多音字对应位置信息，对所述中文句子中的目标多音字进行标注，得到待处理中文句子；将所述待处理中文句子输入预置Bert预训练模型进行字特征向量提取和多音字特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量。

可选地，在本发明第二方面的第三种实现方式中，所述拼接模块包括：第一计算单元，用于通过预置的前馈注意力机制，对所述多音字特征表示向量和所述语义信息向量进行注意力计算，得到注意力向量；拼接单元，用于将所述注意力向量与所述多音字特征表示向量进行拼接，得到目标表示向量。

可选地，在本发明第二方面的第四种实现方式中，所述第一计算单元具体用于：通过预置的前馈注意力机制，将所述语义信息向量与所述多音字特征表示向量拼接后输入预置Double-LSTMs神经网络模型进行特征提取，得到更加准确的隐层表示向量；将所述Double-LSTMs神经网络增加一层注意力层，确定所述中文句子中相对重要的信息赋予更高的权重；基于注意力层获得的权重，将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量，并分别将正向编码所获得的隐层向量与反向编码所获得的隐层向量进行拼接，并对所述多音字特征表示向量和所述语义信息向量进行注意力计算，得到注意力向量。

可选地，在本发明第二方面的第五种实现方式中，所述拼接模块包括：第二计算单元，用于将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量基于每一个拼音的概率，得到多音字拼音概率值集；排序单元，用于基于预设排序方式，对所述多音字拼音概率值集中的多音字拼音概率值进行排序，并将排序第一的多音字拼音概率值确定为目标拼音概率；标注单元，用于将所述目标拼音概率对应的拼音确定为所述目标多音字的目标发音，根据所述目标发音对所述多音字进行标注。

可选地，在本发明第二方面的第六种实现方式中，所述多音字发音标注装置还包括：获取模块，用于从预置数据库中获取语音数据集和与所述语音数据集对应的文本数据集；生成模块，用于对所述语音数据集和所述文本数据集进行处理，生成训练样本数据集，其中，所述训练样本数据集中的汉字标注有规范读音，所述汉字包含一个正确标注发音并标明位置的多音字；训练模块，用于基于所述训练样本数据集中每个汉字的规范读音对所述Bert预训练模型进行前向训练，以确定损失函数值；更新模块，用于根据所述损失函数值，对所述Bert预训练模型中的模型参数进行逐层反向传播修正，对所述神经网络模型的模型参数进行同步更新，得到汉字的多音字标注模型。

本发明第三方面提供了一种多音字发音标注设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述多音字发音标注设备执行上述的多音字发音标注方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的多音字发音标注方法。

本发明提供的技术方案中，通过采集目标语料数据，获取目标语料数据中的字特征表示向量集和多音字特征表示向量；对目标语料数据进行分词处理，得到目标分词；对确定的目标语料数据对应语义信息进行向量化处理，得到对应语义信息向量；对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到目标表示向量；通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音。本方案通过将语音信息和向量化处理，解决了预测多音字发音准确率低的技术问题。

附图说明

图1为本发明多音字发音标注方法的第一个实施例示意图；

图2为本发明多音字发音标注方法的第二个实施例示意图；

图3为本发明多音字发音标注方法的第三个实施例示意图；

图4为本发明多音字发音标注方法的第四个实施例示意图；

图5为本发明多音字发音标注方法的第五个实施例示意图；

图6为本发明多音字发音标注装置的第一个实施例示意图；

图7为本发明多音字发音标注装置的第二个实施例示意图；

图8为本发明多音字发音标注设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种多音字发音标注方法、装置、设备及存储介质，本发明的技术方案中，首先采集目标语料数据，获取目标语料数据中的字特征表示向量集和多音字特征表示向量；对目标语料数据进行分词处理，得到目标分词；对确定的目标语料数据对应语义信息进行向量化处理，得到对应语义信息向量；对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到目标表示向量；通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音。本方案通过将语音信息和向量化处理，解决了预测多音字发音准确率低的技术问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中多音字发音标注方法的第一个实施例包括：

101、采集待标注原始语料数据，并对待标注原始语料数据进行数据清洗，得到目标语料数据，其中，目标语料数据包含中文句子，中文句子包括目标多音字；

本实施例中，采集待标注原始语料数据，并对待标注原始语料数据进行数据清洗，得到目标语料数据。服务器接收预置界面发送的待标注原始语料数据，对待标注原始语料数据进行数据清理，得到候选中文句子，获取预先创建的多音字标签，该多音字标签可为基于通用字典、业务领域词典和用户画像标签中至少一种的多音字创建的便签，以提高多音字基于多领域标注的普适性和准确性，以及通过基于用户画像标签的兴趣爱好，提高多音字的标注准确性，多音字标签包括多音字和多音字基于语义信息的发音，识别候选中文句子的业务领域和用户信息，基于业务领域和用户信息，调用对应的多音字标签，通过该多音字标签，识别候选中文句子中的目标多音字，并对目标多音字进行标注，从而得到经过标注的待处理中文句子。

本实施例中，数据清洗(Data cleaning)是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。数据清洗包括数据脱敏、数据校验和数据转换。其中，数据脱敏用于对源业务数据中的敏感数据进行加密处理。比如，该数据中包括个人的身份证号等，可对该身份证号进行加密。数据校验用于查询源业务数据中是否存在脏数据，并删除该脏数据，以消除脏数据对精算结果的影响。服务器针对各个类型的数据设置了脏数据判定方法，根据预设的判定方法检测是否为脏数据。比如，可设置每个类型的数据的字符长度范围或数值的大小范围等，当某一类型的数据的字符长度不处于预设范围之内，或数值的大小不处于预设的大小范围之内，则判定该数据为脏数据。数据校验是将存在多种不同表述方式的数据统一转换成同一种预设表述方式的过程。

数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务***中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

102、将目标语料数据输入预置Bert预训练模型进行特征向量提取，得到目标语料数据中的字特征表示向量集和多音字特征表示向量；

本实施例中，将目标语料数据输入预置Bert预训练模型进行特征向量提取，得到目标语料数据中的字特征表示向量集和多音字特征表示向量。服务器得到经过标注的待处理目标语料数据后，调用预先训练好的字特征表示向量和预置的字特征表示向量转换算法，对待处理目标语料数据的字进行特征向量转换，得到字特征表示向量集，根据标注的目标多音字，提取字特征表示向量集中目标多音字对应的表示向量，从而得到多音字特征表示向量；或者服务器提取经过标注的待处理目标语料数据中的目标多音字，调用预先训练好的字特征表示向量和预置的字特征表示向量转换算法，分别对待处理目标语料数据的字和目标多音字进行向量转换，得到字特征表示向量集和多音字特征表示向量。其中，目标多音字的数量包括一个或一个以上。

103、对目标语料数据进行分词处理得到目标分词，并对目标分词进行语义识别处理，得到目标语料数据中所有中文句子对应的语义信息；

本实施例中，对目标语料数据进行分词处理得到目标分词，并对目标分词进行语义识别处理，得到目标语料数据中所有中文句子对应的语义信息。服务器调用预置的斯坦福CoreNLP工具或汉语言处理包hanlp分词工具或其他分词工具，对待处理目标语料数据进行基于原句顺序的分词处理，得到初始分词；或者，服务器调用预置的基于词典的中文分词算法或基于统计的中文分词算法，对待处理目标语料数据进行基于原句顺序的分词处理，得到初始分词，按照预置的词语拼接规则，对初始分词进行拼接，得到目标分词，其中，初始分词和目标分词的数量均包括一个或一个以上。并根据每一个目标分词，得到目标语料数据的语义信息。服务器按照目标分词，将字特征表示向量集中的字特征表示向量进行分类，得到每个目标分词对应的字特征表示向量组，将每个目标分词对应的字特征表示向量组进行拼接，得到语义信息向量，语义信息向量的数量包括一个或一个以上，一个目标分词对应一个语义信息向量。

104、调用词嵌入算法对语义信息进行向量化处理，得到语义信息的语义信息向量；

本实施例中，调用词嵌入算法对语义信息进行向量化处理，得到语义信息的语义信息向量。其中，词嵌入(Word Embedding)是一种将文本中的词转换成数字向量的方法，为了使用标准机器学习算法来对它们进行分析，就需要把这些被转换成数字的向量以数字形式作为输入。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，词嵌入的结果就生成了词向量。

词向量是各种NLP任务中文本向量化的首选技术，如词性标注、命名实体识别、文本分类、文档聚类、情感分析、文档生成、问答***等。

本实施例中，词嵌入(Wordembeddings)是一种单词的表示形式，它允许意义相似的单词具有类似的表示形式。词嵌入是文本的学习表示，其中意义相同的单词具有相似的表示形式。实际上，词嵌入是一类技术，这种技术将单独的词在预定义的向量空间中表示为实值向量。其中每个单词映射到一个向量上，向量值是以类似于神经网络的方式学习得来，该技术因此常被归类于深度学习领域。

105、对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量；

本实施例中，对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量。服务器可通过预置的注意力机制，计算多音字特征表示向量的多音字注意力值，将该多音字注意力值与多音字特征表示向量进行相乘，得到多音字向量矩阵，计算语义信息向量基于多音字特征表示向量的词注意力值，得到词向量矩阵，将多音字向量矩阵与词向量矩阵进行矩阵相加或矩阵相乘，得到目标表示向量；或服务器也可通过预置的注意力机制，计算多音字特征表示向量相对语义信息向量的第一注意力值，计算语义信息向量相对多音字特征表示向量的第二注意力值，将第一注意力值与语义信息向量相乘，得到第一向量，将第二注意力值与多音字特征表示向量相乘，得到第二向量，将第一向量和第二向量进行矩阵相加或矩阵相乘，得到目标表示向量。

106、将目标表示向量输入预置多音字预测模型，通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音，对多音字发音进行标注。

本实施例中，将目标表示向量输入预置多音字预测模型，通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音，对多音字发音进行标注。其中，多音字预测模型的线性层和softmax层的层数可为多层，每层对应一个分类器，即线性层包括多个分类器，服务器通过多个分类器，分别对目标表示向量进行拼音分类和概率值计算，得到每个分类器对应的多个初始拼音概率，将多个个分类器对应的初始拼音概率进行加权求和，得到目标表示向量的目标拼音概率，该初始拼音概率的数量包括一个或者多个，将初始拼音概率与预设阈值以及初始拼音概率之间的大小进行对比分析，得到目标拼音概率，将目标拼音概率对应的拼音确定为目标多音字的目标发音，例如：多个分类器分别为分类器1、分类器2和分类器3，分类器1对目标表示向量进行拼音分类和概率值计算，得到基于拼音1的概率为A₁和基于拼音2的概率为A₂，分类器2对目标表示向量进行拼音分类和概率值计算，得到基于拼音1的概率为B1和基于拼音2的概率为B₂，分类器3对目标表示向量进行拼音分类和概率值计算，得到基于拼音1的概率为C₁和基于拼音2的概率为C₂，将A₁、B₁和C₁进行加权求和，得到目标表示向量基于拼音1的初始拼音概率1，将A₂、B₂和C₂进行加权求和，得到目标表示向量基于拼音2的初始拼音概率2，若初始拼音概率1和初始拼音概率2中存在一个大于预设阈值，则将大于预设阈值的初始拼音概率确定为目标拼音概率，若初始拼音概率1和初始拼音概率2均大于预设阈值，则将初始拼音概率1和初始拼音概率2中较大的初始拼音概率确定为目标拼音概率，若初始拼音概率1和初始拼音概率2均小于或等于预设阈值，则重新计算初始拼音概率。服务器得到目标拼音概率后，将目标拼音概率对应的拼音确定为目标多音字的目标发音。

其中，在另一实施例中，服务器根据待处理中文句子和目标多音字，对预置数据库中存储的初始历史多音字信息进行匹配，得到对应的目标历史多音字信息，目标历史多音字信息包括目标历史中文句子、目标历史中文句子中的历史多音字和历史多音字的发音；计算目标多音字的目标发音与历史多音字的发音之间的相似度；计算该相似度与1的差值得到目标值，判断目标值是否小于预设相似度值，若是，则目标多音字的目标发音确定为最终的目标发音，若否，则将历史多音字的发音确定为目标多音字的目标发音。

本发明实施例中，通过采集目标语料数据，获取目标语料数据中的字特征表示向量集和多音字特征表示向量；对目标语料数据进行分词处理，得到目标分词；对确定的目标语料数据对应语义信息进行向量化处理，得到对应语义信息向量；对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到目标表示向量；通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音。本方案通过将语音信息和向量化处理，解决了预测多音字发音准确率低的技术问题。

请参阅图2，本发明实施例中多音字发音标注方法的第二个实施例包括：

201、采集待标注原始语料数据；

本实施例中，采集待标注原始语料数据。从预置数据库中采集待标注的原始语料数据，对原始语料数据进行数据清理，得到候选中文句子，获取预先创建的多音字标签，该多音字标签可为基于通用字典、业务领域词典和用户画像标签中至少一种的多音字创建的便签，以提高多音字基于多领域标注的普适性和准确性，以及通过基于用户画像标签的兴趣爱好，提高多音字的标注准确性，多音字标签包括多音字和多音字基于语义信息的发音，识别候选中文句子的业务领域和用户信息，基于业务领域和用户信息，调用对应的多音字标签，通过该多音字标签，识别候选中文句子中的目标多音字，并对目标多音字进行标注，从而得到经过标注的待处理的目标语料数据。

202、获取待标注原始语料数据的清洗需求；

本实施例中，获取问诊数据的清洗需求。可以理解的是，现实世界的数据往往是多维度的、不完整的、有噪声的以及不一致的，数据清洗的目的就在于填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致等。

本实施例中，电子设备在获取到需要进行数据清洗的待清洗数据之后，进一步获取到待清洗数据的清洗需求。通俗的说，清洗需求描述了对待清洗数据进行数据清洗想要达到的清洗效果，比如，原始的待清洗数据含有多个维度的数据，而这些维度之间往往不是独立的，也就是说也许其中之间若干的维度之间存在关联，待执行数据的清洗需求可以是将待清洗数据降维到指定维度。

203、根据待标注原始语料数据和清洗需求，确定用于对待标注原始语料数据进行数据清洗的目标清洗规则；

本实施例中，根据待标注原始语料数据和清洗需求，确定用于对待标注原始语料数据进行数据清洗的目标清洗规则。可以预先整合所有可能的清洗规则，同时收集每个清洗规则对应的待清洗样本数据及其清洗效果；然后，获取能够表征清洗规则的清洗规则特征，以及获取能够表征待清洗样本数据及其清洗效果的联合特征；然后，将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出，按照预先设定的训练算法来进行模型训练，以训练得到用于选取何种清洗规则对待清洗数据进行数据清洗的清洗规则分类模型。

由此，电子设备在获取到需要进行数据清洗的待清洗数据，以及获取到待清洗数据的清洗需求之后，即可将待清洗数据和清洗需求输入到清洗规则分类模型，使得清洗规则分类模型输出能够对待清洗数据进行数据清洗且清洗效果满足清洗需求的清洗规则，将该清洗规则作为对待清洗数据进行数据清洗的目标清洗规则。

204、根据目标清洗规则对待标注原始语料数据进行数据清洗，得到目标语料数据；

本实施例中，根据目标清洗规则对待标注原始语料数据进行数据清洗，得到目标待标注原始语料数据。在确定用于对待清洗数据进行数据清洗的目标清洗规则之后，即可根据该目标清洗规则对待清洗数据进行数据清洗，使得对待清洗数据的清洗效果满足前述清洗需求，最终得到所需的数据。

本实施例中，首先获取需要进行数据清洗的待清洗数据，以及获取待清洗数据的清洗需求，然后根据获取到的待清洗数据、清洗需求以及预先训练的清洗规则分类模型，确定出用于对待清洗数据进行数据清洗的目标清洗规则，最后根据确定出的目标清洗规则对待清洗数据进行数据清洗，得到符合要求的目标待标注原始语料数据。

205、获取目标语料数据中的中文句子，中文句子中的目标多音字和目标多音字对应位置信息；

本实施例中，获取目标语料数据中的中文句子，中文句子中的目标多音字和目标多音字对应位置信息。其中，将目标语料数据中的句子输入预训练模型BERT，BERT会将句子中每个字转换成一个预训练向量，并将其做多次高维的变换来学习每个字相互的信息，得到句子中每个字对应的含有丰富上下文信息的特征表示向量。

206、根据目标多音字对应位置信息，对中文句子中的目标多音字进行标注，得到待处理中文句子；

本实施例中，根据目标多音字对应位置信息，对中文句子中的目标多音字进行标注，得到待处理中文句子。服务器接收预置界面发送的待标注初始语料数据，调用预先创建的多音字词典，对语料数据中的中文句子进行多音字识别，得到目标多音字，提取目标多音字在初始中文语句中的位置信息(即多音字位置信息)，在初始中文语句中多音字位置信息对应的目标多音字进行标注，标注的内容包括目标多音字和目标多音字的多音字位置信息，标注的内容还可以包括目标多音字基于与初始中文语句对应的中文语句的发音，其中，可通过计算语义相似度、情绪相似度和句式相似度的权重和值，来匹配与初始中文语句对应的中文语句，从而得到待处理中文句子。

207、将待处理中文句子输入预置Bert预训练模型进行字特征向量提取和多音字特征向量提取，得到目标语料数据中的字特征表示向量集和多音字特征表示向量；

本实施例中，对待处理中文句子进行字特征向量表征和多音字特征向量提取，得到目标语料数据中的字特征表示向量集和多音字特征表示向量。服务器调用预置的有监督的神经网络编码器和/或无监督的预训练网络编码器，比如，Bert预训练模型对待处理中文句子进行字特征表示向量编码，得到字特征表示向量集，从字特征表示向量集中提取目标多音字对应的多音字特征表示向量。具体地，服务器通过预置Bert预训练模型，对待处理中文句子中的每个字进行编码，得到字特征表示向量集，一个字特征表示向量对应一个字；根据多音字位置信息，从字特征表示向量集中提取目标多音字对应的表示向量，得到多音字特征表示向量。

服务器调用预置的有监督的神经网络编码器中的深度神经网络编码器，深度神经网络编码器可包括但不限于长短期记忆人工神经网络(long short-term memory，LSTM)模型和基于变压器的双向编码器表示(bidirectional encoder representationsfromtransformers，BERT)模型、Bert预训练模型中至少一种，通过深度神经网络编码器，按照待处理中文句子中每个字的序列顺序，对待处理中文句子中的每个字进行基于上下文语义信息的编码，得到每个字的表示向量，即字特征表示向量集，提取字特征表示向量集中对应多音字位置信息的表示向量，得到多音字特征表示向量，例如：待处理中文句子为“所有商品都打折出售”，多音字位置信息为待处理中文句子中的第七个字，从字特征表示向量集中提取第七个字特征表示向量，得到目标多音字对应的多音字特征表示向量。

208、对目标语料数据进行分词处理得到目标分词，并对目标分词进行语义识别处理，得到目标语料数据中所有中文句子对应的语义信息；

209、调用词嵌入算法对语义信息进行向量化处理，得到语义信息的语义信息向量；

210、对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量；

211、将目标表示向量输入预置多音字预测模型，通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音，对多音字发音进行标注。

本实施例中步骤208-211与第一实施例中的步骤103-106类似，此处不再赘述。

请参阅图3，本发明实施例中多音字发音标注方法的第三个实施例包括：

301、采集待标注原始语料数据，并对待标注原始语料数据进行数据清洗，得到目标语料数据；

302、将目标语料数据输入预置Bert预训练模型进行特征向量提取，得到目标语料数据中的字特征表示向量集和多音字特征表示向量；

303、对目标语料数据进行分词处理得到目标分词，并对目标分词进行语义识别处理，得到目标语料数据中所有中文句子对应的语义信息；

304、调用词嵌入算法对语义信息进行向量化处理，得到语义信息的语义信息向量；

305、通过预置的前馈注意力机制，将语义信息向量与多音字特征表示向量拼接后输入预置Double-LSTMs神经网络模型进行特征提取，得到更加准确的隐层表示向量；

本实施例中，通过预置的前馈注意力机制，将语义信息向量与多音字特征表示向量拼接后输入预置Double-LSTMs神经网络模型进行特征提取，得到更加准确的隐层表示向量。

本实施例中，服务器通过预置的前馈注意力机制feed-forward attention，计算多音字特征表示向量和语义信息向量之间的注意力值，通过该注意力值将多音字特征表示向量和语义信息向量进行加权求和，得到注意力向量；或者，服务器通过预置的前馈注意力机制feed-forward attention，计算多音字特征表示向量相对语义信息向量的注意力值，将注意力值与多音字特征表示向量相乘，得到多音字特征表示向量矩阵，将多音字特征表示向量矩阵与语义信息向量进行矩阵相加或矩阵相乘，得到注意力向量。

本实施例中，隐层向量是使用两个LSTM分别对文本进行正向、反向编码，形成Double-LSTMs层，正向编码所获得的每个词的隐层向量表示为hi，反向编码所获得的每个词的隐层向量表示为hi'。其中，正向编码所获得的每个词的隐层向量表示为hi具体的数学表达式为：

ft＝σ(Wf·[ht-1，xt]+bf)；it＝σ(Wi·[ht-1，xt]+bi)；

ot＝σ(WO·[ht-1，xt]+bo)；ht＝ot*tanh(ct)；

其中，ft、it、ct分别表示标准LSTM结构中的遗忘门、输入门、临时单元状态、单元状态；ht与ot分别表示标准LSTM的隐层状态与输出门，也是标准LSTM的两个输出；Wf、Wi、Wc、Wo分别表示遗忘门、输入门、临时单元状态、输出门对应的权重矩阵；bf、bi、bc、bo分别表示遗忘门、输入门、临时单元状态、输出门对应的偏置项；*表示按元素乘；σ表示sigmoid函数；tanh函数表示激活函数；sigmoid函数与tanh函数的数学表达式为：

ct＝tanh(W_c.[h_t-1,x_t]+b_c)

其中，反向编码所获得的每个词的隐层向量表示为h'i的计算方式同正向编码所获得的每个词的隐层向量表示为hi。

306、将Double-LSTMs神经网络增加一层注意力层，确定中文句子中相对重要的信息赋予更高的权重；

本实施例中，将Double-LSTMs神经网络增加一层注意力层，确定中文句子中相对重要的信息赋予更高的权重。基于Double-LSTMs神经网络，增加一层注意力层，为文本中相对重要的信息赋予更高的权重，突出其作用；使用标准的LSTM对文本中的词进行编码，其默认每个词在文本中的重要性是一致的，那么单纯使用LSTM编码得到的隐层向量作为特征向量输入到分类层，命名实体显然更易受到一些非相关词的影响，因此，针对这一问题，本发明在Double-LSTMs层之后增加了注意力层，通过注意力层为文本中出现的命名实体赋予较高的权重，突出其在文本中的作用，这样形成特征向量用于命名实体识别，将会提高识别的性能。

307、基于注意力层获得的权重，将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量，并分别将正向编码所获得的隐层向量与反向编码所获得的隐层向量进行拼接，并对多音字特征表示向量和语义信息向量进行注意力计算，得到注意力向量；

本实施例中，基于注意力层获得的权重，将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量，并分别将正向编码所获得的隐层向量与反向编码所获得的隐层向量进行拼接，并对多音字特征表示向量和语义信息向量进行注意力计算，得到注意力向量。

308、将注意力向量与多音字特征表示向量进行拼接，得到目标表示向量；

本实施例中，将注意力向量与多音字特征表示向量进行拼接，得到目标表示向量。服务器得到注意力向量后，将注意力向量与多音字特征表示向量进行矩阵相乘或矩阵相加，得到目标表示向量；或者服务器，即将注意力向量与多音字特征表示向量进行加权求和，得到目标表示向量。通过预置的前馈注意力机制获取目标表示向量，表示对于目标多音字，待处理中文语句中哪一个词的信息更重要，需要更大的权重，从而提高目标多音字的上下文语义融合的准确性。

309、将目标表示向量输入预置多音字预测模型，通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音，对多音字发音进行标注。

本实施例中步骤301-304、309与第一实施例中的步骤101-104、106类似，此处不再赘述。

请参阅图4，本发明实施例中多音字发音标注方法的第四个实施例包括：

401、采集待标注原始语料数据，并对待标注原始语料数据进行数据清洗，得到目标语料数据；

402、将目标语料数据输入预置Bert预训练模型进行特征向量提取，得到目标语料数据中的字特征表示向量集和多音字特征表示向量；

403、对目标语料数据进行分词处理得到目标分词，并对目标分词进行语义识别处理，得到目标语料数据中所有中文句子对应的语义信息；

404、调用词嵌入算法对语义信息进行向量化处理，得到语义信息的语义信息向量；

405、对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量；

406、将目标表示向量输入预置多音字预测模型，通过多音字预测模型的线性层和softmax层，计算目标表示向量基于每一个拼音的概率，得到多音字拼音概率值集；

本实施例中，将目标表示向量输入预置多音字预测模型，通过多音字预测模型的线性层和softmax层，计算目标表示向量基于每一个拼音的概率，得到多音字拼音概率值集。具体地，服务器通过预置的线性层，计算目标向量基于每一个拼音的概率，得到多音字拼音概率值集，例如，线性层的数量为一层，服务器将目标向量输入至预置的线性层，通过该线性层计算目标向量基于每一个拼音的概率，得到多音字拼音概率值集，为多音字拼音概率值1和多音字拼音概率值2。

407、基于预设排序方式，对多音字拼音概率值集中的多音字拼音概率值进行排序，并将排序第一的多音字拼音概率值确定为目标拼音概率；

本实施例中，基于预设排序方式，对多音字拼音概率值集中的多音字拼音概率值进行排序，并将排序第一的多音字拼音概率值确定为目标拼音概率。按照值从大到小或者从小到大的顺序，对多音字拼音概率值集中的多音字拼音概率值进行排序，并将排序第一的多音字拼音概率值确定为目标拼音概率。比如，按照值从大到小的顺序，对多音字拼音概率值1和多音字拼音概率值2进行排序，得到序列“多音字拼音概率值2-多音字拼音概率值1”，多音字拼音概率值2排序第一，则排序第一为目标拼音概率。

408、将目标拼音概率对应的拼音确定为目标多音字的目标发音，根据目标发音对多音字进行标注。

本实施例中，将目标拼音概率对应的拼音确定为目标多音字的目标发音，根据目标发音对多音字进行标注。将目标拼音概率对应的拼音确定为目标多音字的目标发音，例如，线性层的数量为一层，服务器将目标向量输入至预置的线性层，通过该线性层计算目标向量基于每一个拼音的概率，得到多音字拼音概率值集，为多音字拼音概率值1和多音字拼音概率值2，按照值从大到小的顺序，对多音字拼音概率值1和多音字拼音概率值2进行排序，得到序列“多音字拼音概率值2-多音字拼音概率值1”，多音字拼音概率值2排序第一，则排序第一为目标拼音概率，将目标拼音概率对应的拼音确定为目标多音字的目标发音。

具体地，服务器通过预置的线性层和softmax层，计算目标向量的目标拼音概率，并根据目标拼音概率确定目标多音字的目标发音之后，获取目标发音基于标注发音的误差值，并根据误差值对目标发音的获取策略进行优化，获取策略包括获取目标发音的执行过程、算法和网络结构。

本实施例中步骤401-405与第一实施例中的步骤101-105类似，此处不再赘述。

请参阅图5，本发明实施例中多音字发音标注方法的第五个实施例包括：

501、采集待标注原始语料数据，并对待标注原始语料数据进行数据清洗，得到目标语料数据；

502、将目标语料数据输入预置Bert预训练模型进行特征向量提取，得到目标语料数据中的字特征表示向量集和多音字特征表示向量；

503、对目标语料数据进行分词处理得到目标分词，并对目标分词进行语义识别处理，得到目标语料数据中所有中文句子对应的语义信息；

504、调用词嵌入算法对语义信息进行向量化处理，得到语义信息的语义信息向量；

505、对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量；

506、从预置数据库中获取语音数据集和与语音数据集对应的文本数据集；

本实施例中，从预置数据库中获取语音数据集和与语音数据集对应的文本数据集。其中，文本集合与语音数据集合对应，训练语料集合包括多音字的句子的文本和与文本对应的拼音序列。为了进一步提高用于训练多音字模型的数据的准确性，可通过语音识别***对第一候选数据集合中的以句子为单位的语音数据进行识别，以生成对应语音数据的文本信息。其中，第二预设阈值是***中预先设置的相似度的阈值，例如，第二预设阈值为80％，针对一段语音数据，语音识别***对其进行语音识别，所获得的语音识别结果为“他们一行访问公司”，假定第一候选文本集合中与该语音数据对应的文本信息为“他们一行人访问公司”，通过计算可确定上述两个文本信息之间的相似度为(相同的字符数)/原始文本的字符数＝8/9＝88.9％，计算出的相似度大于第二预设值，因此，可保留该文本信息。

507、对语音数据集和文本数据集进行处理，生成训练样本数据集；

本实施例中，对语音数据集和文本数据集进行处理，生成训练样本数据集。从第一候选语音数据集合中获取与被删除的文本信息对应的语音数据，并将对应的语音数据从第一候选语音数据集合中删除，以生成目标候选语音数据集合。在生成文本信息的有限音子网络结构后，可获取该文本信息对应的语音数据，并提取该语音数据的声学特征信息，并将声学特征信息输入至声学模型，并利用声学模型和有限音子网络结构对语音数据进行有限网络解码，生成该语音数据的音子序列。

其中，声学模型可以是采用隐马尔科夫模型(HMM，HidenMarkovModel)进行建模的。如果采用隐马尔科夫模型，则每个音子对应一个基于上下文的HMM，每个HMM一般由多个状态组成。有限网络解码的过程，就是对每一帧的声学参数，判断其在不同HMM的概率，找到一条最优路径。根据第二拼音序列确定文本信息的拼音序列，根据文本信息和文本信息的拼音序列，生成训练语料集合。

508、基于训练样本数据集中每个汉字的规范读音对Bert预训练模型进行前向训练，以确定损失函数值；

本实施例中，基于训练样本数据集中每个汉字的规范读音对Bert预训练模型进行前向训练，以确定损失函数值。将训练样本数据集输入到Bert预训练模型后，Bert预训练模型对训练样本数据集进行前向传播，最后通过输出层输出经过模型训练之后的预测值，将得到的预测值及对应的标注值代入损失函数中，即可计算出相应的损失函数值。

509、根据损失函数值，对Bert预训练模型中的模型参数进行逐层反向传播修正，对神经网络模型的模型参数进行同步更新，得到汉字的多音字标注模型；

本实施例中，根据损失函数值，对Bert预训练模型中的模型参数进行逐层反向传播修正，对神经网络模型的模型参数进行同步更新，得到汉字的多音字标注模型。其中，第i个网络层与模型的输出层间的距离，小于第j个网络层与模型的输出层间的距离，i和j分别为正整数。其中，反向传播修正，就是利用前向传播得到的损失函数值由输出层至输入层，对每个网络层的每个参数的梯度进行修正，从而重新确定各层的参数值。神经网络模型的训练就是不停的前向-反向传播的过程，直到模型的预测能力达到预期。

在进行参数计算时，梯度从高层到低层反向传播，其中高层的梯度不受低层梯度的影响，同时低层梯度需要在层层传播后才能计算得到，更容易发生梯度***、消失。举例来说，若神经网络模型中一共有10层，第2层和第9层共享一组模型参数，在进行反向传播确定参数时，先计算出了第9层修正后的模型参数，可以直接将其作为第2层的模型参数使用。因为第2层和第9层使用同一组模型参数，所以可以直接用其中一个修正后的模型参数来作为另一个网络层对应的模型参数，不再需要从输出层一直往输入层方向逐层计算得到，提高了模型参数的准确性。比如，第i个网络层和第j个网络层是两个单独的网络层，确定了第i个网络层的模型参数后，直接将其应用到第j个网络层上，作为第j个网络层的模型参数，得到汉字的多音字标注模型。

510、将目标表示向量输入预置多音字预测模型，通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音，对多音字发音进行标注。

本实施例中步骤501-505、510与第一实施例中的101-105、106类似，此处不再赘述。

在本发明实施例中，通过采集目标语料数据，获取目标语料数据中的字特征表示向量集和多音字特征表示向量；对目标语料数据进行分词处理，得到目标分词；对确定的目标语料数据对应语义信息进行向量化处理，得到对应语义信息向量；对语义信息向量和多音字特征表示向量进行基于注意力机制的拼接处理，得到目标表示向量；通过多音字预测模型的线性层和softmax层，计算目标表示向量的目标发音概率，确定目标多音字的目标发音。本方案通过将语音信息和向量化处理，解决了预测多音字发音准确率低的技术问题。

上面对本发明实施例中多音字发音标注方法进行了描述，下面对本发明实施例中多音字发音标注装置进行描述，请参阅图6，本发明实施例中多音字发音标注装置的第一个实施例包括：

数据清洗模块601，用于采集待标注原始语料数据，并对所述待标注原始语料数据进行数据清洗，得到目标语料数据，其中，所述目标语料数据包含中文句子，所述中文句子包括目标多音字；

向量提取模块602，用于将所述目标语料数据输入预置Bert预训练模型进行特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量；

语义识别模块603，用于对所述目标语料数据进行分词处理得到目标分词，并对所述目标分词进行语义识别处理，得到所述目标语料数据中所有中文句子对应的语义信息；

向量化模块604，用于调用词嵌入算法对所述语义信息进行向量化处理，得到所述语义信息的语义信息向量；

拼接模块605，用于对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量；

计算模块606，用于将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量的目标发音概率，确定所述目标多音字的目标发音，对所述多音字发音进行标注。

请参阅图7，本发明实施例中多音字发音标注装置的第二个实施例，该多音字发音标注装置具体包括：

本实施例中，所述数据清洗模块601具体用于：

采集待标注原始语料数据；

获取所述待标注原始语料数据的清洗需求；

根据所述待标注原始语料数据和所述清洗需求，确定用于对所述待标注原始语料数据进行数据清洗的目标清洗规则；

根据所述目标清洗规则对所述待标注原始语料数据进行数据清洗，得到目标语料数据。

本实施例中，所述向量提取模块602具体用于：

将所述目标语料数据输入预置Bert预训练模型，获取所述目标语料数据中的中文句子，所述中文句子中的目标多音字和所述目标多音字对应位置信息；

根据所述目标多音字对应位置信息，对所述中文句子中的目标多音字进行标注，得到待处理中文句子；

对所述待处理中文句子进行字特征向量表征和多音字特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量。

本实施例中，所述拼接模块605包括：

第一计算单元6051，用于通过预置的前馈注意力机制，对所述多音字特征表示向量和所述语义信息向量进行注意力计算，得到注意力向量；

拼接单元6052，用于将所述注意力向量与所述多音字特征表示向量进行拼接，得到目标表示向量。

本实施例中，所述第一计算单元6051具体用于：

通过预置的前馈注意力机制，将所述语义信息向量与所述多音字特征表示向量拼接后输入预置Double-LSTMs神经网络模型进行特征提取，得到更加准确的隐层表示向量；

将所述Double-LSTMs神经网络增加一层注意力层，确定所述中文句子中相对重要的信息赋予更高的权重；

基于注意力层获得的权重，将权值赋予对应的正向编码所获得的隐层向量与反向编码所获得的隐层向量，并分别将正向编码所获得的隐层向量与反向编码所获得的隐层向量进行拼接，并对所述多音字特征表示向量和所述语义信息向量进行注意力计算，得到注意力向量。

本实施例中，所述拼接模块606包括：

第二计算单元6061，用于将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量基于每一个拼音的概率，得到多音字拼音概率值集；

排序单元6062，用于基于预设排序方式，对所述多音字拼音概率值集中的多音字拼音概率值进行排序，并将排序第一的多音字拼音概率值确定为目标拼音概率；

标注单元6063，用于将所述目标拼音概率对应的拼音确定为所述目标多音字的目标发音，根据所述目标发音对所述多音字进行标注。

本实施例中，所述多音字发音标注装置还包括：

获取模块607，用于从预置数据库中获取语音数据集和与所述语音数据集对应的文本数据集；

生成模块608，用于对所述语音数据集和所述文本数据集进行处理，生成训练样本数据集，其中，所述训练样本数据集中的汉字标注有规范读音，所述汉字包含一个正确标注发音并标明位置的多音字；

训练模块609，用于基于所述训练样本数据集中每个汉字的规范读音对所述Bert预训练模型进行前向训练，以确定损失函数值；

更新模块610，用于根据所述损失函数值，对所述Bert预训练模型中的模型参数进行逐层反向传播修正，对所述神经网络模型的模型参数进行同步更新，得到汉字的多音字标注模型。

上面图6和图7从模块化功能实体的角度对本发明实施例中的多音字发音标注装置进行详细描述，下面从硬件处理的角度对本发明实施例中多音字发音标注设备进行详细描述。

图8是本发明实施例提供的一种多音字发音标注设备的结构示意图，该多音字发音标注设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对多音字发音标注设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在多音字发音标注设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的多音字发音标注方法的步骤。

多音字发音标注设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作***831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的多音字发音标注设备结构并不构成对本申请提供的多音字发音标注设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述多音字发音标注方法的步骤。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多音字发音标注方法，其特征在于，所述多音字发音标注方法包括：

采集待标注原始语料数据，并对所述待标注原始语料数据进行数据清洗，得到目标语料数据，其中，所述目标语料数据包含中文句子，所述中文句子包括目标多音字；

将所述目标语料数据输入预置Bert预训练模型进行特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量；

对所述目标语料数据进行分词处理得到目标分词，并对所述目标分词进行语义识别处理，得到所述目标语料数据中所有中文句子对应的语义信息；

调用词嵌入算法对所述语义信息进行向量化处理，得到所述语义信息的语义信息向量；

对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量；

将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量的目标发音概率，确定所述目标多音字的目标发音，对所述多音字发音进行标注。

2.根据权利要求1所述的多音字发音标注方法，其特征在于，所述对所述待标注原始语料数据进行数据清洗，得到目标语料数据包括：

采集待标注原始语料数据；

获取所述待标注原始语料数据的清洗需求；

3.根据权利要求1所述的多音字发音标注方法，其特征在于，所述将所述目标语料数据输入预置Bert预训练模型进行特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量包括：

获取所述目标语料数据中的中文句子，其中，所述中文句子中的目标多音字和所述目标多音字对应位置信息；

将所述待处理中文句子输入预置Bert预训练模型进行字特征向量提取和多音字特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量。

4.根据权利要求1所述的多音字发音标注方法，其特征在于，所述对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量包括：

通过预置的前馈注意力机制，对所述多音字特征表示向量和所述语义信息向量进行注意力计算，得到注意力向量；

将所述注意力向量与所述多音字特征表示向量进行拼接，得到目标表示向量。

5.根据权利要求4所述的多音字发音标注方法，其特征在于，所述通过预置的前馈注意力机制，对所述多音字特征表示向量和所述语义信息向量进行注意力计算，得到注意力向量包括：

6.根据权利要求1所述的多音字发音标注方法，其特征在于，所述将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量的目标发音概率，确定所述目标多音字的目标发音，对所述多音字发音进行标注包括：

将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量基于每一个拼音的概率，得到多音字拼音概率值集；

基于预设排序方式，对所述多音字拼音概率值集中的多音字拼音概率值进行排序，并将排序第一的多音字拼音概率值确定为目标拼音概率；

将所述目标拼音概率对应的拼音确定为所述目标多音字的目标发音，根据所述目标发音对所述多音字进行标注。

7.根据权利要求2所述的多音字发音标注方法，其特征在于，在所述将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层之前，还包括：

从预置数据库中获取语音数据集和与所述语音数据集对应的文本数据集；

对所述语音数据集和所述文本数据集进行处理，生成训练样本数据集，其中，所述训练样本数据集中的汉字标注有规范读音，所述汉字包含一个正确标注发音并标明位置的多音字；

基于所述训练样本数据集中每个汉字的规范读音对所述Bert预训练模型进行前向训练，以确定损失函数值；

根据所述损失函数值，对所述Bert预训练模型中的模型参数进行逐层反向传播修正，对所述神经网络模型的模型参数进行同步更新，得到汉字的多音字标注模型。

8.一种多音字发音标注装置，其特征在于，所述多音字发音标注装置包括：

数据清洗模块，用于采集待标注原始语料数据，并对所述待标注原始语料数据进行数据清洗，得到目标语料数据，其中，所述目标语料数据包含中文句子，所述中文句子包括目标多音字；

向量提取模块，用于将所述目标语料数据输入预置Bert预训练模型进行特征向量提取，得到所述目标语料数据中的字特征表示向量集和多音字特征表示向量；

语义识别模块，用于对所述目标语料数据进行分词处理得到目标分词，并对所述目标分词进行语义识别处理，得到所述目标语料数据中所有中文句子对应的语义信息；

向量化模块，用于调用词嵌入算法对所述语义信息进行向量化处理，得到所述语义信息的语义信息向量；

拼接模块，用于对所述语义信息向量和所述多音字特征表示向量进行基于注意力机制的拼接处理，得到注意力机制的目标表示向量；

计算模块，用于将所述目标表示向量输入预置多音字预测模型，通过所述多音字预测模型的线性层和softmax层，计算所述目标表示向量的目标发音概率，确定所述目标多音字的目标发音，对所述多音字发音进行标注。

9.一种多音字发音标注设备，其特征在于，所述多音字发音标注设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述多音字发音标注设备执行如权利要求1-7中任一项所述的多音字发音标注方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的多音字发音标注方法的步骤。