CN110277085A

CN110277085A - 确定多音字发音的方法及装置

Info

Publication number: CN110277085A
Application number: CN201910555855.3A
Authority: CN
Inventors: 吴志勇; 代东洋; 康世胤; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-24
Anticipated expiration: 2039-06-25
Also published as: CN110277085B

Abstract

本申请提供了确定多音字发音的方法及装置，该方法首先获取包含目标多音字的待测文本对应的待测字符序列；将待测字符序列输入预构建的多音字消歧模型的第一输入端；将目标多音字对应的序列位于待测字符序列的位置输入预构建的多音字消歧模型的第二输入端。通过多音字消歧模型获取目标多音字对应的预测发音。由于多音字消歧模型具有将所述目标多音字对应的预测发音趋于所述目标多音字的实际发音的能力，所以可以准确得到目标多音字对应的发音。

Description

确定多音字发音的方法及装置

技术领域

本申请涉及语音通信技术领域，更具体的说，是涉及确定多音字发音的方法及装置。

背景技术

字音转换即将字符转换成相应的发音，字音转换可以应用于很多场景，例如，语音合成(Text To Speech，TTS)应用场景，字音转换的准确率直接影响语音合成的可懂度。

若字符具有确定的读音，即该字符不是多音字，那么可以通过查找字典的方式确定其发音。若字符为多音字，如何确定该字符对应的发音称为本领域技术人员的难题。

发明内容

有鉴于此，本申请提供了一种确定多音字发音的方法及装置。

为实现上述目的，本申请提供如下技术方案：

一种确定多音字发音的方法，包括：

获取包含目标多音字的待测文本对应的待测字符序列；所述待测文本包括多个字符，其中，所述待测字符序列包括所述多个字符分别对应的序列；

将所述待测字符序列输入预构建的多音字消歧模型的第一输入端；将所述目标多音字对应的序列位于所述待测字符序列的位置输入预构建的多音字消歧模型的第二输入端；

通过所述多音字消歧模型获取所述目标多音字对应的预测发音；

其中，所述多音字消歧模型具有将所述目标多音字对应的预测发音趋于所述目标多音字的实际发音的能力。

一种确定多音字发音的装置，包括：

第一获取模块，用于获取包含目标多音字的待测文本对应的待测字符序列；所述待测文本包括多个字符，其中，所述待测字符序列包括所述多个字符分别对应的序列；

第二获取模块，用于将所述待测字符序列输入预构建的多音字消歧模型的第一输入端；将所述目标多音字对应的序列位于所述待测字符序列的位置输入预构建的多音字消歧模型的第二输入端；

第三获取模块，用于通过所述多音字消歧模型获取所述目标多音字对应的预测发音；

经由上述的技术方案可知，本申请提供的确定多音字发音的方法中，首先获取包含目标多音字的待测文本对应的待测字符序列；将待测字符序列输入预构建的多音字消歧模型的第一输入端；将目标多音字对应的序列位于待测字符序列的位置输入预构建的多音字消歧模型的第二输入端。通过多音字消歧模型获取目标多音字对应的预测发音。由于多音字消歧模型具有将所述目标多音字对应的预测发音趋于所述目标多音字的实际发音的能力，所以可以准确得到目标多音字对应的发音。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的多音字消歧模型的一种实现方式的结构图；

图2为本申请实施例提供的确定多音字发音的方法的一种实现方式的流程图；

图3为本申请实施例提供的获取待测字符序列的方式的一种实现方式的结构图；

图4为本申请实施例提供的多音字消歧模型的另一种实现方式的结构图；

图5为本申请实施例提供的基于多音字消歧模型得到目标多音字的预测发音的一种实现方式的示意图；

图6a至6b为本申请提供的第一分类器的两种实现方式的结构图；

图7为本申请实施例提供的训练第一神经网络子模型以得到语义特征提取器的过程示意图；

图8为本申请实施例提供的确定多音字发音的装置的一种实现方式的结构图；

图9为本申请实施例提供的电子设备的一种实现方式的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了确定多音字发音的方法及装置。

上述确定多音字发音装置可包括运行于终端中的确定多音字发音装置和运行于后台服务器/平台中的确定多音字发音装置。

上述终端可以是诸如台式机、移动终端(例如智能手机)、ipad等的电子设备。运行于后台服务器/平台中的确定多音字发音装置可为服务器/平台的一个硬件组成部分，也可为功能模块或组件。

上述后台服务器或平台可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

下面对本申请提供的确定多音字发音的方法及装置进行说明。

如图1所示，为本申请实施例提供的多音字消歧模型的一种实现方式的结构图。

如图1所示，可以在多音字消歧模型11的第一输入端输入包含目标多音字的待测文本对应的待测字符序列。

在一可选实施例中，待测文本可以为中文文本或日文文本或韩文文本或英文文本等包含多音字的文本。一个待测文本包括多个字符，一个字符可以表示一个中文字符，或，一个日文字符，或，一个韩文字符，或，一个英文单词等等。

多音字是指具有两个以上发音的字符，不同的发音表义不同，用法不同，词性也往往不同，例如，英文单词“desert”的发音可以是此时可以表示名词词性的“沙漠”，或者，形容词词性的“像沙漠的”含义；英文单词“desert”的发音还可以是[dit]，此时表示动词词性的“抛弃”等含义；再例如，汉字“为”的发音可以为“wei 2”，此时可以表示“当”、“是”的含义；“为”的发音还可以为“wei 4”，此时可以表示“行为的对象”、“给”等含义。

可以理解的是，包含目标多音字的待测文本是多音字消歧模型不能识别的数据，在一可选实施例中，可以将包含目标多音字的待测文本转换成多音字消歧模型能够识别的待测字符序列。

本申请实施例提及的“目标多音字”是为了与样本文本包含的多音字进行区分，并不是特指某个多音字，目标多音字可以为任一多音字。

在一可选实施例中，待测文本对应的待测字符序列包括该待测文本包含的多个字符分别对应的序列。

在一可选实施例中，可以利用one-hot独热编码，将字符转换为其对应的序列。独热编码又称一位有效编码，使用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候，其中只有一位有效。

例如，假设字典包括2万个字符，其中，“我在古都西安”中“我”位于字典的第2万-1个位置，那么，可选的，“我”对应的序列可以为[0,0,0,0,0,0,...,0,0,0,0,0,1,0]，即“我”对应的序列仅有第2万-1位数值为“1”其他均为0。

在一可选实施例中，字符对应的序列还可以是在得到字符对应的独热编码后，再次对独热编码进行处理，得到字符对应的序列，对此本申请实施例不进行限制。

在一可选实施例中，也可以直接将待测文本输入至多音字消歧模型，多音字消歧模型自身可以将待测文本转换成自己能够识别的待测字符序列。

假设，“我在古都西安”对应的待测字符序列如下：[0,0,0,0,0,0,...,0,0,0,0,0,1,0](“我”对应的序列)，[0,0,0,0,0,0,...,0,1,0,0,0,0,0](“在”对应的序列)，[0,0,0,0,0,0,...,0,0,1,0,0,0,0](“古”对应的序列)，[0,0,0,0,0,0,...,0,0,0,1,0,0,0](“都”对应的序列)，[0,0,0,0,0,0,...,0,0,0,0,1,0,0](“西”对应的序列)，[0,0,0,0,0,0,...,0,0,0,0,0,0,1](“安”对应的序列)；即每一个行向量为一个字符对应的序列；目标多音字“都”位于待测字符序列的第4个位置。

图1所示的多音字消歧模型基于待测字符序列以及目标多音字对应的序列位于所述待测字符序列的位置，可以输出目标多音字的发音，例如，“都”的发音“du 1”。其中，“du1”中“du”为目标多音字的发音的字母组成，“1”为目标多音字的声调，例如，“1”表示阴平，“2”表示阳平，“3”表示上声，“4”表示去声。

图1所示的多音字消歧模型11不包括将待测文本转化成待测字符序列的功能，可选的，多音字消歧模型11可以包括将待测文本转化成待测字符序列的功能。

本申请实施例提供的多音字消歧模型具有将目标多音字对应的预测发音趋于目标多音字的实际发音的能力，因此，很大概率上能够准确的预测目标多音字的发音。

结合图1，下面对本申请提供的确定多音字发音的方法进行详细说明。

如图2所示，为本申请实施例提供的确定多音字发音的方法的一种实现方式的流程图，该方法包括：

步骤S201：获取包含目标多音字的待测文本对应的待测字符序列。

所述待测文本包括多个字符，其中，所述待测字符序列包括所述多个字符分别对应的序列。

在一可选实施例中，获取待测文本对应的待测字符序列的方式有多种，本申请实施例提供但不限于以下几种。

第一种获取待测字符序列的方式：对待测文本包含的字符进行编码，得到待测文本对应的待测字符序列。

在一可选实施例中，对字符进行编码的方式包括但不限于one-hot独热编码。

在一可选实施例中，在对字符进行编码后，字符对应的序列的维度可能较大，例如针对图1提及的one-hot独热编码，若字典包括2万个字符，那么字符对应的序列为1*2万的向量，维度较大，为了加快多音字消歧模型输出目标多音字对应的预测发音的速度，可选的，可以利用字符编码模型降低字符对应的序列的维度。

在一可选实施例中，字符编码模型可以是通过训练神经网络得到的，假设字符编码模型包括2万*256的矩阵，那么字符对应的1*2万的向量经过字符编码模型后，可以得到1*256的向量，可以将1*256的向量作为字符对应的序列，大大降低了字符对应序列的维度。

综上，对待测文本包含的字符进行编码，得到待测文本对应的待测字符序列包括以下任一方法：对待测文本包含的任一字符进行编码，得到该字符对应的序列，以所述待测字符序列；或者，对待测文本包含的任一字符进行编码，得到该字符对应的元素向量(例如，1*2万的向量)；将该字符对应的元素向量输入至字符编码模型，通过字符编码模型得到该字符对应的序列(例如，1*256的向量)，以得到待测字符序列。

在一可选实施例中，字符编码模型可以属于多音字消歧模型，也可以独立于多音字消歧模型。

在一可选实施例中，待测字符序列包括待测文本包含的多个字符分别对应的序列，即一个字符对应的序列至少能够表征自己本身，例如，若待测文本为“我在古都西安”，那么，“我”对应的序列至少能够表征“我”这个字符。

在一可选实施例中，字符对应的序列能够表征与自身关联的字符之间的关联关系，例如，与“我”关联的字符可能包括“你”、“他”等字符，那么“我”对应的序列还能够表征与“你”和/或“他”之间的关联关系。

在一可选实施例中，基于字符编码模型可以得到能够表征与自身关联的字符之间的关联关系的字符对应的序列。

可以理解的是，若字符对应的序列表征与自身关联的字符之间的关联关系，那么，可以使得多音字消歧模型能够更加准确的获得字符所要表征的含义。

综上，一个字符对应的序列能够表征自己本身，和/或，能够表征与自身关联的字符之间的关联关系。

在一可选实施例中，若多音字消歧模型具有基于输入待测字符序列的顺序确定各字符对应的序列分别在待测字符序列中的位置的功能，则可以采用第一种获取待测字符序列的方式。

仍以图1为例，以待测文本为“我在古都西安”为例，输入至多音字消歧模型的顺序可以依次为“我”对应的序列、“在”对应的序列、“古”对应的序列、“都”对应的序列、“西”对应的序列、“安”对应的序列。多音字消歧模型可以基于上述输入顺序，即可确定各序列在待测字符序列中的位置。即上述序列的位置依次为：“我”对应的序列为第一位置、“在”对应的序列为第二位置、“古”对应的序列为第三位置等等，依次类推，这里不再赘述。

在一可选实施例中，若多音字消歧模型不具有基于输入待测字符序列的顺序确定各字符对应的序列分别在待测字符序列中的位置的功能，或者，多音字消歧模型具有基于输入待测字符序列的顺序确定各字符对应的序列分别在待测字符序列中的位置的功能，但多个字符分别对应的序列同时输入至多音字消歧模型的第一输入端。那么可以采用第二种获取待测字符序列的方式。

第二种获取待测字符序列的方式：对待测文本包含的字符进行编码，得到待测字符向量；基于待测文本中各字符分别位于所述待测文本中的位置，获得所述各字符分别位于所述待测文本中的位置向量；基于所述待测字符向量以及所述各字符分别位于所述待测文本中的位置向量，获得所述待测字符序列。

对待测文本包含的字符进行编码得到待测字符向量的过程可以按照第一种获取待测字符序列方式中对字符进行编码的过程，即至少有两种方式，例如，对待测文本包含的字符进行编码，得到待测文本对应的待测字符向量包括以下任一方法：对待测文本包含的任一字符进行编码，得到该字符对应字符向量，以所述待测字符向量；或者，对待测文本包含的任一字符进行编码，得到该字符对应的元素向量(例如，1*2万的向量)；将该字符对应的元素向量输入至字符编码模型，通过字符编码模型得到该字符对应的字符向量(例如，1*256的向量)，以得到待测字符向量。即待测字符向量即为未标注字符在待测文本中的位置的待测字符序列。相同之处可以相互参见，这里不再赘述。

待测文本对应的待测字符向量包括该待测文本包含的各字符分别对应的字符向量。可选的，一个字符对应的字符向量能够表征自己本身，和/或，能够表征与自身关联的字符之间的关联关系。

在一可选实施例中，一个字符对应的位置向量可以按照如下方式表示。

仍以待测文本为“我在古都西安”为例，“我”的位置向量可以为[1,0,0,0,0,0,...,0]，“在”的位置向量可以为[0,1,0,0,0,0,...,0]，“古”的位置向量可以为[0,0,1,0,0,0,...,0]，“都”的位置向量可以为[0,0,0,1,0,0,...,0]，“西”的位置向量可以为[0,0,0,0,1,0,...,0]，“安”的位置向量可以为[0,0,0,0,0,1,...,0]。

在一可选实施例中，还可以采用其他编码方式得到字符对应的位置向量，本申请对此不进行限定。

在一可选实施例中，可以将一个字符对应的字符向量和该字符对应的位置向量相加，以得到该字符对应的序列，例如，“我”的序列＝[0,0,0,0,0,0,...,0,0,0,0,0,1,0]+[1,0,0,0,0,0,...,0]＝[1,0,0,0,0,0,...,0,0,0,0,0,1,0]。

可以理解的是，一个字符对应的字符向量和该字符对应的位置向量的维度在相同的情况下，两者可以相加。

在一可选实施例中，可以先对字符进行编码以得到该字符对应的初始向量(初始向量的维度可能与位置向量的维度不同)；再将字符对应的初始向量输入至位置编码模型，位置编码模型输出字符对应的位置向量。

在一可选实施例中，位置编码模型可以是通过训练神经网络得到的。

在一可选实施例中，通过位置编码模型可以得到与字符的字符向量维度相同的位置向量，例如，位置编码模型包括M*256矩阵，其中M为初始位置向量的列数。通过位置编码模型得到的字符对应的位置向量为1*256维；在一可选实施例中，若字符的字符向量是通过字符编码模型输出的，那么字符的字符向量可以为1*256维，这样两者的维度相同，可以相加。

如图3所示，为本申请实施例提供的第二种获取待测字符序列的方式的一种实现方式的结构图。

如图3所示，在一可选实施例中，可以直接将待测文本分别输入至字符编码模型31以及位置编码模型32，字符编码模型31可以输入各字符分别对应的字符向量，位置编码模型32可以输入各字符分别对应的位置向量。针对每一字符，将该字符对应的字符向量和位置向量相加，即得到该字符对应的序列，以得到待测字符序列。

在一可选实施例中，可以将待测文本包含的各字符分别对应的元素向量输入至字符编码模型31，将待测文本包含的各字符分别对应的初始向量输入至位置编码模型32，字符编码模型31可以基于待测文本包含的各字符分别对应的元素向量得到待测字符向量，位置编码模型32可以基于待测文本包含的各字符分别对应的初始向量得到各字符分别位于所述待测文本中的位置向量。

步骤S202：将所述待测字符序列输入预构建的多音字消歧模型的第一输入端；将所述目标多音字对应的序列位于所述待测字符序列的位置输入预构建的多音字消歧模型的第二输入端。

在一可选实施例中，基于“目标多音字对应的序列位于所述待测字符序列的位置”能够得到多音字消歧模型提取的关于目标多音字对应的特征；使得多音字消歧模型可以进一步对关于目标多音字对应的特征进行处理，从而提高多音字消歧模型得到目标多音字对应的预测发音的准确性。

步骤S203：通过所述多音字消歧模型获取所述目标多音字对应的预测发音。

本申请实施例提供的确定多音字发音的方法中，首先获取包含目标多音字的待测文本对应的待测字符序列；将待测字符序列输入预构建的多音字消歧模型的第一输入端；将目标多音字对应的序列位于待测字符序列的位置输入预构建的多音字消歧模型的第二输入端。通过多音字消歧模型获取目标多音字对应的预测发音。由于多音字消歧模型具有将所述目标多音字对应的预测发音趋于所述目标多音字的实际发音的能力，所以可以准确得到目标多音字对应的发音。

本申请提供的多音字消歧模型的具体结构的实现方式有多种，本申请提供但不限于以下几种。

第一种多音字消歧模型的结构如图4所示，多音字消歧模型11包括：语义特征提取器41、选择器42、第一分类器43。

其中，多音字消歧模型11的第一输入端为语义特征提取器41的输入端，多音字消歧模型的第二输入端为选择器42的输入端。第一分类器43的输出端为多音字消歧模型11的输出端。

下面分别介绍语义特征提取器41、选择器42以及第一分类器43的功能。

在一可选实施例中，语义特征提取器41、选择器42以及第一分类器43均为具有一定层(例如，卷积层和/或池化层和/或全连接层等等)结构的神经网络。

语义特征提取器41，用于基于待测字符序列，获取所述待测字符序列对应的预测语义特征序列；所述预测语义特征序列包括待测文本包含的多个字符分别对应的预测语义特征，一个字符对应的预测语义特征用于表征该字符在所述待测文本中的含义。

其中，所述语义特征提取器具有预测得到的所述待测字符序列对应的预测语义特征序列趋于所述待测字符序列对应的准确语义特征序列的能力。

在一可选实施例中，“一个字符对应的预测语义特征用于表征该字符在所述待测文本中的含义”中“字符在所述待测文本中的含义”包括但不限于以下内容：字符的上下文信息，和/或，字符在待测文本中的释义，和/或，字符的声母、韵母和声调。

字符的上下文信息包括该字符从前至后和从后之前两个方向的上下文信息，上下文信息包括字符所属待测文本的成分、字符在上下文文本中各分词的词性。

字符所属待测文本的成分是指字符属于待测文本的主语、谓语、宾语、状语或定语等。字符在上下文文本中各分词的词性，例如，字符为动词或名词。

下面举例说明字符在待测文本中的释义，仍以待测文本为“我在古都西安”为例进行说明，“都”在待测文本中的释义是指“大城市，也指以盛产某种东西而闻名的城市”。

选择器42，用于接收语义特征提取器42输出的待测文本包含的多个字符分别对应的预测语义特征；基于所述目标多音字对应的序列位于所述待测字符序列的位置，从所述语义特征提取器输出的预测语义特征序列中，获取所述目标多音字对应的预测语义特征。

在一可选实施例中，目标多音字在待测文本中的位置，即为，目标多音字对应的序列在待测字符序列中的位置。

如图5所示，为本申请实施例提供的基于多音字消歧模型得到目标多音字的预测发音的一种实现方式的示意图。

其中，选择器42接收到语义特征提取器输出的预测语义特征序列，以待测为本为“我在古都西安”为例，选择器42可以接收到“我”对应的预测语义特征、“在”对应的预测语义特征、“古”对应的预测语义特征、“都”对应的预测语义特征、“西”对应的预测语义特征、“安”对应的预测语义特征。从中选择出“都”对应的预测语义特征。

在一可选实施例中，字符对应的预测语义特征为一高维向量。

第一分类器43，用于接收选择器42输出的目标多音字对应的预测语义特征；基于所述目标多音字对应的预测语义特征，获得所述目标多音字的预测发音。

其中，所述第一分类器具有预测得到的所述目标多音字的预测发音趋于所述目标多音字的实际发音的能力。

在一可选实施例中，第一分类器43至少包括一个或多个网络层(例如，全连接层或CNN网络层等等)，如图5所示，第一分类器的最后一层网络层可以为共享输出层。本申请实施例中，共享输出层是指不同的多音字对应同一个输出层。

第一分类器43可以包括多个节点，在图5中一个圆圈表示一个节点，每个节点用于预测该多音字为相应发音的概率。

可以理解的是，由于一个节点预测多音字的发音的情况有多种，可能导致预测的目标多音字的发音，为其他多音字的发音，例如，“古都”的“du1”被预测成“地”的发音“di4”。

为了避免上述问题，在一可选实施例中，第一分类器43至少包括非共享输出层，如图6a至6b所示，为本申请提供的第一分类器的两种实现方式的结构图。

如图6a所示第一分类器的结构，第一分类器仅包括非共享输出层。如图6b所示第一分类器的结构，第一分类器包括的第一层网络可以为是共享网络层(共享网络层可以包括至少一层，例如全连接层或CNN网络层等等)，第二层网络是非共享输出层，下面对非共享输出层进行说明。

其中，一个多音字对应一个非共享输出层，本申请实施例中，有多少个多音字就有多少个非共享输出层，其中，一个多音字对应的非共享输出层包括多个节点，其中，一个节点与该多音字对应的一个读音相对应；一个节点用于预测该多音字的发音为该节点对应的读音的概率。

例如，多音字“都”由于仅有两个发音，因此，“都”对应的非共享输出层包括两个节点，其中，一个节点用于预测多音字发音为“du1”的概率，一个节点用于预测多音字发音为“dou1”的概率。

可以理解的是，多音字对应的非共享输出层输出最大概率对应的发音，例如，仍以待测文本为“我在古都西安”为例，“都”对应的非共享输出层中一个节点预测“都”的发音为“du1”的概率为98％，另一个节点预测“都”的发音为“dou1”的概率为2％，那么，“都”对应的非共享输出层输出“du1”。

综上，在一可选实施例中，第一分类器的最后一层为非共享输出层，若第一分类器仅包括非共享输出层(如图6a所示)，那么，一个多音字A对应的非共享输出层仅基于目标多音字的预测语义特征预测该目标多音字的发音为多音字A分别对应的发音的概率。若多音字A正好为目标多音字，那么目标多音字对应的非共享输出层仅基于目标多音字的预测语义特征预测该目标多音字的发音为目标多音字分别对应的各发音的概率。

在一可选实施例中，若第一分类器除包括最后一层非共享输出层外，还包括至少一层网络层(例如图6b所示的第一层网络层)，那么，一个多音字A对应的非共享输出层仅基于前一层的输出，预测该目标多音字的发音为多音字A分别对应的发音的概率。若多音字A正好为目标多音字，那么目标多音字对应的非共享输出层仅基于前一层的输出预测该目标多音字的发音为目标多音字分别对应的各发音的概率。

综上，若第一分类器43能够获知目标多音字对应哪个非共享输出层，那么，可以仅输出目标多音字对应的非共享输出层预测的发音。这样，就可以避免上述预测的目标多音字的发音，为其他多音字的发音的情况。

在一可选实施例中，选择器，还用于从各多音字分别对应的非共享输出层中，确定所述目标多音字对应的目标非共享输出层；一个多音字对应的非共享输出层包括多个节点，一个节点与该多音字对应的一个读音相对应；一个节点用于预测该多音字的发音为该节点对应的读音的概率。

在一可选实施例中，第一分类器43获知目标多音字对应哪个非共享输出层后，可选的，仅目标多音字对应的非共享输出层能够基于目标多音字的预测语义特征预测该目标多音字的发音。其他多音字对应的非共享输出层不能够基于目标多音字的预测语义特征预测该目标多音字的发音。这样仅目标多音字对应的非共享输出层能够输出预测发音。

在一可选实施例中，第一分类器43的各非共享输出层均可以基于目标多音字的预测语义特征预测该目标多音字的发音，但第一分类器43在输出结果时，仅输出目标多音字对应的非共享输出层预测的发音。

综上，本申请实施例中，可选的，第一分类器43采用非共享输出层，杜绝了将目标多音字预测成其他多音字发音的情况，另外，多音字消歧模型可以很方便的处理新增加的多音字，例如，只需要在第一分类器中增加该多音字对应的非共享输出层即可。

第二种多音字消歧模型的结构包括：

将待测文本转换成待测字符序列的转换器、图4所示的语义特征提取器41、选择器42以及第一分类器43。

转换器的输入端用于输入待测文本，转换器将自身输出的待测字符序列输入至语义特征提取器41。

转换器还用于获得目标多音字在待测字符序列中的位置，并将目标多音字在待测字符序列中的位置输入至选择器42的输入端。

在一可选实施例中，转换器包括：字符编码模型；在另一可选实施例中，转换器包括字符编码模型以及位置编码模型(如图3所示)。

第三种多音字消歧模型的结构与第一种多音字消歧模型的结构的区别在于，第一种多音字消歧模型包括语义特征提取器以及第一分类器等至少两个神经网络模型，在训练第一种多音字消歧模型的过程中，至少训练语义特征提取器对应的神经网络模型，以得到语义特征提取器；至少训练第一分类器对应的神经网络模型，以得到第一分类器。第三种多音字消歧模型为训练一个整体的神经网络模型得到的。

第四种多音字消歧模型的结构包括：

第二种多音字消歧模型提及的转换器以及第三种训练完毕的整体的神经网络模型。

下面对训练上述神经网络以得到多音字消歧模型的过程进行说明。

第一种训练神经网络以得到多音字消歧模型的方式。

若多音字消歧模型至少包括：语义特征提取器、选择器以及第一分类器(例如第一种或第二种多音字消歧模型的结构)，那么训练神经网络模型以得到语义特征提取器的过程至少包括：

步骤一：训练第一神经网络子模型以得到语义特征提取器。

步骤一包括以下步骤：

步骤A1：获得多个第一样本文本分别对应的第一样本字符序列。

其中，每一个第一样本文本至少残缺一个字符，一个第一样本文本对应的第一样本字符序列包括该第一样本文本包含的多个字符分别对应的序列。

假设，完整的第一样本文本为：只要手机还有电和流量<sep>孤独就追不上我。其中，“<sep>”是表征两个语句之间间隔的标识。在一可选实施例中，第一样本文本可以包括至少一个语句。若第一样本文本仅包括一个语句，那么第一样本文本不包括表征两个语句之间间隔的标识。

残缺至少一个字符的该第一样本文本可以为：只要手_还有_和流_<sep>孤_就追_上我。该第一样本文本中残缺的字符为：机、电、量、独、不。

在一可选实施例中，第一样本文本中的至少一个字符可以被随机掩蔽掉，以得到至少残缺一个字符的第一样本文本。

第一样本文本对应的第一样本字符序列，可以参见待测文本对应的待测字符序列的说明，两者相同，这里不再进行说明。

可以理解的是，由于第一样本文本残缺至少一个字符，所以第一样本文本对应的第一样本字符序列不包括残缺字符对应的序列。例如，第一样本文本为：只要手_还有_和流_<sep>孤_就追_上我，那么第一样本文本对应的第一样本字符序列不包括：“机”对应的序列、“电”对应的序列、“量”对应的序列、“独”对应的序列以及“不”对应的序列。

可以理解的是，第一样本文本中虽然不包括残缺字符，但是第一样本文本包括表征残缺字符的标识(例如，“_”)和/或表征两个语句之间间隔的标识(例如，“<sep>”)，所以第一样本字符序列包括表征残缺字符的标识对应的序列，和/或，表征两个语句之间间隔的标识对应的序列。

仍以第一样本文本为“只要手_还有_和流_<sep>孤_就追_上我”为例，那么第一样本文本对应的第一样本字符序列包括：“只”对应的序列、“要”对应的序列、“手”对应的序列、“_”对应的序列、“还”对应的序列、“有”对应的序列、“_”对应的序列、“和”对应的序列、“流”对应的序列、“_”对应的序列、“<sep>”对应的序列、“孤”对应的序列、“_”对应的序列、“就”对应的序列、“追”对应的序列、“_”对应的序列、“上”对应的序列、“我”对应的序列。

步骤A2：将多个第一样本字符序列分别输入至第一神经网络集合，通过所述第一神经网络集合获得多个第一样本字符序列分别对应的预测残缺字符。

其中，所述第一神经网络集合包括：第一神经网络子模型以及第二神经网络子模型，针对每一第一样本字符序列，所述第一神经网络子模型用于基于该第一样本字符序列预测该第一样本字符序列包含的各字符分别对应的预测语义特征；所述第二神经网络子模型用于基于所述第一神经网络子模型输出的该第一样本字符序列包含的各字符分别对应的预测语义特征，得到该第一样本字符序列中的预测残缺字符。

如图7所示，为本申请实施例提供的训练第一神经网络子模型以得到语义特征提取器的过程示意图。

图7中，假设，第一样本文本为“只要手_还有_和流_<sep>孤_就追_上我”，第一样本字符序列包括：“只”对应的序列、“要”对应的序列、“手”对应的序列、“_”对应的序列、“还”对应的序列、“有”对应的序列、“_”对应的序列、“和”对应的序列、“流”对应的序列、“_”对应的序列、“<sep>”对应的序列、“孤”对应的序列、“_”对应的序列、“就”对应的序列、“追”对应的序列、“_”对应的序列、“上”对应的序列、“我”对应的序列。

在一可选实施例中，第一样本文本可以仅包括一个语句；在一可选实施例中，第一样本文本可以包括至少两个语句。

在一可选实施例中，第一神经网络集合可以包括用于将第一样本文本转换成第一样本字符序列的转换器；即直接将第一样本文本输入至第一神经网络集合，即可自动得到第一样本字符序列；在另一可选实施例中，先将第一样本文本转换成第一样本字符序列后，再输入至第一神经网络集合。

第一神经网络子模型71可以得到第一样本文本包含的各字符分别对应的预测语义特征，如图7所示的，“只”对应的预测语义特征(用一立体方框表示)、“要”对应的预测语义特征(用一立体方框表示)，“手”对应的预测语义特征(用一立方体表示)、“_”对应的预测语义特征(用一加黑的立方体表示)、“还”对应的预测语义特征(用一立方体表示)、“有”对应的预测语义特征(用一立方体表示)、“_”对应的预测语义特征(用一加黑的立方体表示)、“和”对应的预测语义特征(用一立方体表示)、“流”对应的预测语义特征(用一立方体表示)、“_”对应的预测语义特征(用一加黑的立方体表示)、“<sep>”对应的预测语义特征(用一立方体表示)、“孤”对应的预测语义特征(用一立方体表示)、“_”对应的预测语义特征(用一加黑的立方体表示)、“就”对应的预测语义特征(用一立方体表示)、“追”对应的预测语义特征(用一立方体表示)、“_”对应的预测语义特征(用一加黑的立方体表示)、“上”对应的预测语义特征(用一立方体表示)、“我”对应的预测语义特征(用一立方体表示)。

第二神经网络子模型72基于第一样本文本包含的各字符分别对应的预测语义特征，预测得到残缺字符，如图7所示，第二神经网络子模型72输出“机、电、量、独、不”。

步骤A3：针对每一第一样本字符序列，至少基于该第一样本字符序列对应的预测残缺字符与真实残缺字符，训练所述第一神经网络集合，以得到所述第一神经网络子模型对应的所述语义特征提取器。

可选的，第二神经网络子模型对应第二分类器。

可以理解的是，由于第二神经网络子模型72仅具有基于第一样本文本包含的各字符分别对应的预测语义特征，预测得到残缺字符，不具有获得第一样本文本包含的各字符分别对应的预测语义特征的功能，所以在经过不断训练后，可以确保第一神经网络子模型的最后一层隐层的输出结果包含第一样本文本包含的各字符分别对应的预测语义特征。

若仅需要第一神经网络集合输出预测残缺字符，那么第一样本文本可以包括一个或多个语句；若除需要第一神经网络集合输出预测残缺字符外，还需要第一神经网络集合输出第一样本文本包含的至少两个语句是否为相关联的上下文的预测关联信息，则第一样本文本至少包括两个语句。

在一可选实施例中，为了进一步的确保第一神经网络子模型能够输出第一样本文本包含的各字符分别对应的预测语义特征，输入至第一神经网络集合的每一个第一样本文本至少包括两个语句。

步骤A2还包括：针对每一第一样本文本，通过所述第一神经网络集合得到表征该第一样本文本包含的至少两个语句是否为相关联的上下文的预测关联信息。

在一可选实施例中，一个第一样本文本对应的预测关联信息为该第一样本文本包含的至少两个语句是否为相关联的上下文。例如，“是”代表该第一样本文本包含的至少两个语句为相关联的上下文，“否”代表该第一样本文本包含的至少两个语句不是相关联的上下文。

在一可选实施例中，针对每一第一样本文本，第一神经网络子模型可以具有得到第一样本文本包含的至少两个语句是否为相关联的上下文的预测关联信息的功能；在另一可选实施例中，针对每一第一样本文本，第二神经网络子模型可以具有得到第一样本文本包含的至少两个语句是否为相关联的上下文的预测关联信息的功能。如图7所示。

相应的步骤A3在执行至少基于该第一样本字符序列对应的预测残缺字符与真实残缺字符，训练所述第一神经网络集合时，具体用于：

基于该第一样本字符序列对应的预测关联信息与实际的关联信息，以及，该第一样本字符序列对应的预测残缺字符与真实残缺字符，训练所述第一神经网络集合。

综上，在训练得到语义特征集合的过程中，是基于第一样本文本的预测残缺字符和真实残缺字符的比较结果来训练第一神经网络集合的；或者，是基于第一样本文本的预测残缺字符和真实残缺字符的比较结果，以及，基于第一样本文本包含的至少两个语句的预测关联信息和实际的关联信息的比较结果，来训练第一神经网络集合的。

在一可选实施例中，在对第一神经网络集合进行训练之前，需要人工标注各第一样本文本对应的真实残缺字符，第一样本文本包含的至少两个语句的实际的关联信息。

在另一可选实施例中，在对第一神经网络集合进行训练之前，可以利用计算机随机掩蔽掉第一样本文本中的一些字符，这样就可以得到第一神经网络集合的输入了。可以理解的是，由于在计算机随机掩蔽掉第一样本文本中的一些字符之前，计算机已经获知第一样本文本中被掩蔽掉的是哪些字符，所以可以利用计算机获得第一样本文本中的真实残缺字符，无需人为进行真实残缺字符的标注。

在一可选实施例中，第一样本文本包含的至少两个语句的实际的关联信息的标注，也可以使用计算机获取。例如，在一篇文章中找到连续的两个语句组成的第一样本文本，计算机可以得到该第一样本文本包含的两个语句的实际的关联信息为“是”；若从一篇文章的不同段落找到的两个语句组成的第一样本文本，或者，从不同文章中找到的两个语句组成的第一样本文本，计算机可以得到该第一样本文本包含的两个语句的实际的关联信息为“否”。

综上，计算机能代人工完成各第一样本文本对应的真实残缺字符，第一样本文本包含的至少两个语句的实际的关联信息的标注，无需人为标注，实现了针对第一神经网络集合的无监督数据的训练。

可以理解的是，多音字的发音是由其语境下的语义决定的，目前，都需要人工对多音字的上下文信息进行标注，再基于标注后的样本文本训练神经网络以得到多音字消歧模型。这些对多音字的上下文信息进行标注(例如进行词性标注)的方式，往往繁琐而昂贵。与这些标注工作相比于，本申请利用计算机进行标注的方式，较为简单，较为节省时间。由于计算机进行标注时，仅进行简单的标注，例如，真实残缺字符和实际的关联信息的标注，所以计算机标注快速且准确。

由于对多音字的上下文信息进行标注的方式繁琐而昂贵，所以得到的样本文本是有限的，基于有限的样本文本训练神经网络得到的多音字消歧模型，很难从有限的样本文本中学到对多音字消歧有效的语义特征。由于本申请利用计算机进行标注，所以可以得到大量样本文本；基于大量样本文本训练第一神经网络子模型以得到语义特征提取器，可以很容易学到对多音字消歧有效的语义特征。

由于在训练第一神经网络子模型以得到语义特征提取器的过程中，并不是基于某个多音字对应的上下文信息进行训练的，而是包含或不包含多音字的样本文本进行训练的，且由于训练完毕的第一神经网络集合能够准确预测出第一样本文本对应的残缺字符，所以语义特征提取器能够准确提取任意字符的语义特征，所以可以使用统一的包含语义特征提取器的多音字消歧模型预测所有多音字的发音。无需针对每个多音字单独训练一个模型。

综上，上述第一样本文本可以不包括多音字，也可以包括多音字。

综上，上述第一神经网络子模型在训练过程，与目前对包含多音字的样本文本的训练过程不同，无需标注多音字的上下文信息等等。

在训练完毕第一神经网络子模型，得到语义特征提取器后，可以训练第三神经网络子模型以得到第一分类器。

在训练完毕第一神经网络子模型得到语义特征提取器后，得到包含语义特征提取器、选择器以及第三神经网络子模型的第二神经网络集合。其中，所述第二神经网络集合的第一输入端为所述语义特征提取器的输入端；所述第二神经网络集合的第二输入端为所述选择器的输入端。

步骤二：训练第二神经网络集合，以得到第一分类器。

在一可选实施例中，步骤二包括：

步骤B1：获取多个第二样本文本分别对应的第二样本字符序列。

其中，每一个第二样本文本包括多个字符；一个第二样本文本对应的第二样本字符序列包括该第二样本文本包含的多个字符分别对应的序列。

第二样本文本对应的第二样本字符序列，可以参见待测文本对应的待测字符序列的说明，两者相同，这里不再进行说明。

在一可选实施例中，第二神经网络集合可以包括用于将第二样本文本转换成第二样本字符序列的转换器；即直接将第二样本文本输入至第二神经网络集合，即可自动得到第二样本字符序列；在另一可选实施例中，先将第二样本文本转换成第二样本字符序列后，再输入至第二神经网络集合。

步骤B2：针对每一第二样本文本对应的第二样本字符序列，将该第二样本字符序列输入至第二神经网络集合的第一输入端；将该第二样本文本包含的多音字对应的序列位于该第二样本字符序列中的位置输入至所述第二神经网络集合的第二输入端；通过所述第二神经网络集合获取该第二样本文本包含的多音字对应的预测发音。

步骤B3：针对每一第二样本字符序列，基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述第二神经网络集合，以得到所述多音字消歧模型，从而得到第一分类器。

综上，本申请在训练第二神经网络集合的过程中，仅需要对第二样本文本标注多音字的实际发音，无需标注多音字的上下文信息，标注简单，节省了标注时间。

在一可选实施例中，步骤B3的具体实现方式包括但不限于以下两种：

第一种：针对每一第二样本字符序列，基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述第三神经网络子模型，以得到所述多音字消歧模型，所述第三神经网络子模型对应所述第一分类器。

由于语义特征提取器已经训练完毕，所以在训练第二神经网络集合的过程中，无需再次训练语义特征提取器，可以仅训练第三神经网络子模型以得到第一分类器。

在一可选实施例中，由于选择器具有的功能是很简单的，选择器可以是采用软件或硬件得到的，可以不是经过神经网络训练得到的。在另一可选实施例中，选择器也可以是通过训练神经网络得到的。

第二种：针对每一第二样本字符序列，基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述语义特征提取器以及所述第二神经网络子模型，以得到所述多音字消歧模型。

尽管语义特征提取器已经训练完毕，在训练第二神经网络集合的过程中，可以再次对语义特征提取器进行训练，以及，对第三神经网络子模型进行训练，以得到最终的语义特征提取器和第一分类器。

本发明实施例中对第一神经网络集合和第二神经网络集合中的参数更新的过程，因为是自后向前的反向进行，因此更新过程也称为神经网络的反向传播过程(BackBackpropagatio)。

可选的，第一神经网络子模型、第二神经网络子模型、第三神经网络子模型可以选用全连接神经网络(如MLP网络，MLP表示Multi-layer Perceptron，是多层感知器的意思)，也可以选用卷积神经网络(CNN，Convolutional Neural Network)、深度神经网络等，例如，VGG16，还可以采用注意力机制和全连接网络相结合的神经网络；还可以采用循环神经网络，例如，长短期记忆网络(LSTM，Long Short-Term Memory)，本申请实施例对此不进行限制。

第二种训练神经网络以得到多音字消歧模型的方式。

可以理解的是，第一种训练神经网络以得到多音字消歧模型的方式中，是对语义特征提取器、第一分类器分别进行训练的，最后在结合在一起；在一可选实施例中，多音字消歧模型可以是通过训练一个整体的神经网络得到的，即第三种和第四种多音字消歧模型的结构。

训练神经网络以得到多音字消歧模型的方法包括：

步骤一：获取多个第三样本文本分别对应的第三样本字符序列；其中，每一个第三样本文本包括多个字符；一个第三样本文本对应的第三样本字符序列包括该第三样本文本包含的多个字符分别对应的序列。

第三样本文本对应的第三样本字符序列，可以参见待测文本对应的待测字符序列的说明，两者相同，这里不再进行说明。

步骤二：针对每一第三样本文本对应的第三样本字符序列，将该第三样本字符序列输入至第三神经网络模型的第一输入端；将该第三样本文本包含的多音字对应的序列位于该第三样本字符序列中的位置输入至所述第三神经网络模型的第二输入端；通过所述第三神经网络模型获取该第三样本文本包含的多音字对应的预测发音。

步骤三：针对每一第三样本字符序列，基于该第三样本字符序列对应的多音字的预测发音与实际发音，训练所述第三神经网络模型，以得到所述多音字消歧模型。

上述本申请公开的实施例中详细描述了方法，对于本申请的方法可采用多种形式的装置实现，因此本申请还公开了一种装置，下面给出具体的实施例进行详细说明。

如图8所示，为本申请实施例提供的确定多音字发音的装置的一种实现方式的结构图，该装置包括：

第一获取模块81，用于获取包含目标多音字的待测文本对应的待测字符序列；所述待测文本包括多个字符，其中，所述待测字符序列包括所述多个字符分别对应的序列；

第二获取模块82，用于将所述待测字符序列输入预构建的多音字消歧模型的第一输入端；将所述目标多音字对应的序列位于所述待测字符序列的位置输入预构建的多音字消歧模型的第二输入端；

第三获取模块83，用于通过所述多音字消歧模型获取所述目标多音字对应的预测发音；

可选的，所述多音字消歧模型包括语义特征提取器、选择器以及第一分类器，所述第一输入端为所述语义特征提取器的输入端，所述第二输入端为所述选择器的输入端；第三获取模块包括：

第一获取单元，用于通过所述语义特征提取器获取所述待测字符序列对应的预测语义特征序列；所述预测语义特征序列包括所述多个字符分别对应的预测语义特征，一个字符对应的预测语义特征用于表征该字符在所述待测文本中的含义；

其中，所述语义特征提取器具有预测得到的所述待测字符序列对应的预测语义特征序列趋于所述待测字符序列对应的准确语义特征序列的能力；

第二获取单元，用于通过所述选择器基于所述目标多音字对应的序列位于所述待测字符序列的位置，从所述语义特征提取器输出的预测语义特征序列中，获取所述目标多音字对应的预测语义特征，并输入至所述第一分类器；

第三获取单元，用于通过所述第一分类器基于所述目标多音字对应的预测语义特征，获得所述目标多音字的预测发音；

可选的，所述第一分类器至少包括与各多音字分别对应的非共享输出层，还包括：

第一确定模块，用于通过所述选择器从各多音字分别对应的非共享输出层中，确定所述目标多音字对应的目标非共享输出层；一个多音字对应的非共享输出层包括多个节点，一个节点与该多音字对应的一个读音相对应；一个节点用于预测该多音字的发音为该节点对应的读音的概率；

所述第三获取单元，包括：

第一获取子单元，用于至少通过所述第一分类器中所述目标非共享输出层获得所述目标多音字的预测发音。

可选的，第一获取模块包括：

第四获取单元，用于基于所述待测文本，获得待测字符向量，所述待测字符向量包括所述多个字符分别对应的字符向量；

第五获取单元，用于基于所述多个字符分别位于所述待测文本中的位置，获得所述多个字符分别位于所述待测文本中的位置向量；

第六获取单元，用于基于所述待测字符向量以及所述多个字符分别位于所述待测文本中的位置向量，获得所述待测字符序列。

可选的，还包括：

第四获取模块，用于获得多个第一样本文本分别对应的第一样本字符序列；其中，每一个第一样本文本至少残缺一个字符，一个第一样本文本对应的第一样本字符序列包括该第一样本文本包含的多个字符分别对应的序列；

第五获取模块，用于将多个第一样本字符序列分别输入至第一神经网络集合，通过所述第一神经网络集合获得多个第一样本字符序列分别对应的预测残缺字符；

其中，所述第一神经网络集合包括：第一神经网络子模型以及第二神经网络子模型，针对每一第一样本字符序列，所述第一神经网络子模型用于基于该第一样本字符序列预测该第一样本字符序列包含的各字符分别对应的预测语义特征；所述第二神经网络子模型用于基于所述第一神经网络子模型输出的该第一样本字符序列包含的各字符分别对应的预测语义特征，得到该第一样本字符序列中的预测残缺字符；

第一训练模块，用于针对每一第一样本字符序列，至少基于该第一样本字符序列对应的预测残缺字符与真实残缺字符，训练所述第一神经网络集合，以得到所述第一神经网络子模型对应的所述语义特征提取器。

可选的，每一第一样本文本包括至少两个语句；还包括：

第六获取模块，用于针对每一第一样本文本，通过所述第一神经网络集合得到表征该第一样本文本包含的至少两个语句是否为相关联的上下文的预测关联信息；

所述第一训练模块，包括：

第一训练单元，用于基于该第一样本字符序列对应的预测关联信息与实际的关联信息，以及，该第一样本字符序列对应的预测残缺字符与真实残缺字符，训练所述第一神经网络集合。

可选的，还包括：

第七获取模块，用于获取多个第二样本文本分别对应的第二样本字符序列；其中，每一个第二样本文本包括多个字符；一个第二样本文本对应的第二样本字符序列包括该第二样本文本包含的多个字符分别对应的序列；

第八获取模块，用于针对每一第二样本文本对应的第二样本字符序列，将该第二样本字符序列输入至第二神经网络集合的第一输入端；将该第二样本文本包含的多音字对应的序列位于该第二样本字符序列中的位置输入至所述第二神经网络集合的第二输入端；通过所述第二神经网络集合获取该第二样本文本包含的多音字对应的预测发音；

第二训练模块，用于针对每一第二样本字符序列，基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述第二神经网络集合，以得到所述多音字消歧模型。

可选的，所述第二神经网络集合包括：所述语义特征提取器、所述选择器以及第三神经网络子模型；其中，所述第二神经网络集合的第一输入端为所述语义特征提取器的输入端；所述第二神经网络集合的第二输入端为所述选择器的输入端；第二训练模块包括：

第二训练单元，用于基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述第二神经网络子模型，以得到所述多音字消歧模型，所述第三神经网络子模型对应所述第一分类器；

或，

第三训练单元，用于基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述语义特征提取器以及所述第三神经网络子模型，以得到所述多音字消歧模型。

如图9所示，为本申请实施例提供的电子设备的一种实现方式的结构图，该电子设备包括：

存储器91，用于存储程序；

处理器92，用于执行所述程序，所述程序具体用于：

处理器92可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

第一服务器还可以包括通信接口93以及通信总线94，其中，存储器91、处理器92以及通信接口93通过通信总线94完成相互间的通信。

可选的，通信接口可以为通信模块的接口，如GSM模块的接口。

本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述任一所述的确定多音字发音的方法实施例包含的各个步骤。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置或***类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种确定多音字发音的方法，其特征在于，包括：

2.根据权利要求1所述确定多音字发音的方法，其特征在于，所述多音字消歧模型包括语义特征提取器、选择器以及第一分类器，所述第一输入端为所述语义特征提取器的输入端，所述第二输入端为所述选择器的输入端；

所述通过所述多音字消歧模型获取所述目标多音字对应的预测发音包括：

通过所述语义特征提取器获取所述待测字符序列对应的预测语义特征序列；所述预测语义特征序列包括所述多个字符分别对应的预测语义特征，一个字符对应的预测语义特征用于表征该字符在所述待测文本中的含义；

通过所述选择器基于所述目标多音字对应的序列位于所述待测字符序列的位置，从所述语义特征提取器输出的预测语义特征序列中，获取所述目标多音字对应的预测语义特征，并输入至所述第一分类器；

通过所述第一分类器基于所述目标多音字对应的预测语义特征，获得所述目标多音字的预测发音；

3.根据权利要求2所述确定多音字发音的方法，其特征在于，所述第一分类器至少包括与各多音字分别对应的非共享输出层；还包括：

通过所述选择器从各多音字分别对应的非共享输出层中，确定所述目标多音字对应的目标非共享输出层；一个多音字对应的非共享输出层包括多个节点，一个节点与该多音字对应的一个读音相对应；一个节点用于预测该多音字的发音为该节点对应的读音的概率；

所述通过所述第一分类器基于所述目标多音字对应的预测语义特征，获得所述目标多音字的预测发音，包括：

至少通过所述第一分类器中所述目标非共享输出层获得所述目标多音字的预测发音。

4.根据权利要求1所述确定多音字发音的方法，其特征在于，所述获取包含目标多音字的待测文本对应的待测字符序列包括：

基于所述待测文本，获得待测字符向量，所述待测字符向量包括所述多个字符分别对应的字符向量；

基于所述多个字符分别位于所述待测文本中的位置，获得所述多个字符分别位于所述待测文本中的位置向量；

基于所述待测字符向量以及所述多个字符分别位于所述待测文本中的位置向量，获得所述待测字符序列。

5.根据权利要求2所述确定多音字发音的方法，其特征在于，还包括：

获得多个第一样本文本分别对应的第一样本字符序列；其中，每一个第一样本文本至少残缺一个字符，一个第一样本文本对应的第一样本字符序列包括该第一样本文本包含的多个字符分别对应的序列；

将多个第一样本字符序列分别输入至第一神经网络集合，通过所述第一神经网络集合获得多个第一样本字符序列分别对应的预测残缺字符；

针对每一第一样本字符序列，至少基于该第一样本字符序列对应的预测残缺字符与真实残缺字符，训练所述第一神经网络集合，以得到所述第一神经网络子模型对应的所述语义特征提取器。

6.根据权利要求5所述确定多音字发音的方法，其特征在于，每一第一样本文本包括至少两个语句；还包括：

针对每一第一样本文本，通过所述第一神经网络集合得到表征该第一样本文本包含的至少两个语句是否为相关联的上下文的预测关联信息；

所述至少基于该第一样本字符序列对应的预测残缺字符与真实残缺字符，训练所述第一神经网络集合，包括：

7.根据权利要求2或5或6所述确定多音字发音的方法，其特征在于，还包括：

获取多个第二样本文本分别对应的第二样本字符序列；其中，每一个第二样本文本包括多个字符；一个第二样本文本对应的第二样本字符序列包括该第二样本文本包含的多个字符分别对应的序列；

针对每一第二样本文本对应的第二样本字符序列，将该第二样本字符序列输入至第二神经网络集合的第一输入端；将该第二样本文本包含的多音字对应的序列位于该第二样本字符序列中的位置输入至所述第二神经网络集合的第二输入端；通过所述第二神经网络集合获取该第二样本文本包含的多音字对应的预测发音；

针对每一第二样本字符序列，基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述第二神经网络集合，以得到所述多音字消歧模型。

8.根据权利要求7所述确定多音字发音的方法，其特征在于，所述第二神经网络集合包括：所述语义特征提取器、所述选择器以及第三神经网络子模型；其中，所述第二神经网络集合的第一输入端为所述语义特征提取器的输入端；所述第二神经网络集合的第二输入端为所述选择器的输入端；

所述基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述第二神经网络集合，以得到所述多音字消歧模型包括以下任一种：

基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述第二神经网络子模型，以得到所述多音字消歧模型，所述第三神经网络子模型对应所述第一分类器；

或，

基于该第二样本字符序列对应的多音字的预测发音与实际发音，训练所述语义特征提取器以及所述第三神经网络子模型，以得到所述多音字消歧模型。

9.一种确定多音字发音的装置，其特征在于，包括：

10.根据权利要求9所述确定发音字发音的装置，其特征在于，所述多音字消歧模型包括语义特征提取器、选择器以及第一分类器，所述第一输入端为所述语义特征提取器的输入端，所述第二输入端为所述选择器的输入端；第三获取模块包括：