CN111444710B

CN111444710B - 分词方法及分词装置

Info

Publication number: CN111444710B
Application number: CN201910036059.9A
Authority: CN
Inventors: 王潇斌; 谢朋峻; 马春平; 李林琳; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2023-04-18
Anticipated expiration: 2039-01-15
Also published as: CN111444710A

Abstract

本发明实施例提供了一种分词方法以及分词装置。分词方法包括：确定目标文本的每个字符对应的匹配概率集合，所述匹配概率集合中的匹配概率与隐变量一一对应，所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系，所述隐变量用于标识所述字符在分词结果的位置以及所属的领域；根据各个字符对应的所述匹配概率集合，预测各个字符在分词结果中的位置以及所属的领域，以确定所述目标文本的分词结果。

Description

分词方法及分词装置

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种分词方法及分词装置。

背景技术

现有技术中的分词方法，一般是基于“目标文本的领域是单一且确定的”这个假设确定的，在使用分词方法对目标文本进行分词的过程中，大多是先根据目标文本的单一领域选择对应的分词方法，再根据选择的分词方法对目标文本进行分词，来保证分词的精确性。

但是，在实际应用中，目标文本的领域未必是单一的，也未必是确定的，使得现有的分词方法不能准确地输出其对应的分词结果。例如，使用新闻领域的分词方法时，如果在一篇新闻中出现了“吉他全单纯手工”，新闻领域的分词方法对其的分词结果为“吉他/全/单纯/手工”，因为新闻领域中“单纯”的出现频率高于“纯手工”的出现频率，使得分词方法倾向于选择将“单纯”分为一个词，但是“吉他全单纯手工”所属的领域应该是制造业领域，其正确的分词结果为“吉他/全单/纯手工”，即分词方法输出的分词结果错误。

发明内容

有鉴于此，本发明实施例提供一种分词方法以及分词装置，以解决上述问题。

根据本发明实施例的第一方面，提供了一种分词方法，其包括：确定目标文本的每个字符对应的匹配概率集合，所述匹配概率集合中的匹配概率与隐变量一一对应，用于表征所述字符与对应的隐变量之间的匹配关系，所述隐变量用于标识所述字符在分词结果的位置以及所属的领域；根据各个字符对应的所述匹配概率集合，预测各个字符在分词结果中的位置以及所属的领域，以确定所述目标文本的分词结果。

根据本发明实施例的第二方面，提供了一种分词装置，其包括：概率模块，用于确定目标文本的每个字符对应的匹配概率集合，所述匹配概率集合中的匹配概率与隐变量一一对应，用于表征所述字符与对应的隐变量之间的匹配关系，所述隐变量用于标识所述字符在分词结果的位置以及所属的领域；分词模块，用于根据各个字符对应的所述匹配概率集合，预测各个字符在分词结果中的位置以及所属的领域，以确定所述目标文本的分词结果。

根据本发明实施例提供的方案，采用隐变量来标识所述字符在分词结果的位置以及所属的领域，且每个字符均对应有隐变量，字符与对应的隐变量的匹配关系通过匹配概率来表征，则可以通过匹配概率，确定目标文本中单独字符的领域，使得分词结果受目标文本整体所属的领域的限制较小，同时使得本实施例提供的分词方案可以适用于各个领域；进一步地，由于分词结果受目标文本整体所属的领域的限制较小，则根据匹配概率集合进行预测时，可以通过本实施例提供的分词方案，准确地确定领域不确定或领域不单一的文本的分词结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种分词方法的步骤流程图；

图2为本发明实施例二提供的一种分词方法的步骤流程图；

图3为本发明实施例二的一种处理目标文本的数据流程图；

图4为本发明实施例三的分词模型的训练方法的步骤流程图；

图5为本发明实施例四的分词模型的训练方法的步骤流程图；

图6为本发明实施例五的一种分词装置的结构框图；

图7为本发明实施例六的一种终端设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1，示出了根据本发明实施例一提供的一种分词方法的步骤流程图。

本实施例的分词方法包括以下步骤：

S102、确定目标文本的每个字符对应的匹配概率集合。

其中，所述匹配概率集合中的匹配概率与隐变量一一对应，所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系，所述隐变量用于标识所述字符在分词结果的位置以及所属的领域。

首先需要说明的是，隐变量用于标识所述字符在分词结果的位置以及所属的领域，对于每一个隐变量来说，其可以包括不同的元素，比如有标识分词结果中字符的位置的元素和标识字符的领域的元素。字符的位置可以为在一个词的开始位置、一个词的内部位置、一个词的结束位置、一个单字词等。领域反应了根据词表和表达方式划分文本的方式，不同领域的文本有不同的词表和差异化的表达方式，通过隐变量中标识字符的领域的元素，可以标识同一字符的不同领域，例如，标识同一字符“苹”的领域为不同领域如水果领域或者手机领域等的标签。

本实施例中，由于隐变量用于标识字符在分词结果中的位置以及字符对应的领域，且，针对一个字符而言，其可以属于不同的领域，字符属于的领域不同时，在分词结果中的位置可能相同也可能不同，则，一个字符可以对应有多个隐变量。

由于匹配概率用于表征所述字符与对应的隐变量之间的匹配关系，且一个字符可以对应有多个隐变量，使得一个字符可以对应有多个匹配概率，多个匹配概率形成了匹配概率集合。

另外，匹配概率表征的字符与对应的隐变量之间的匹配关系，即在分词结果中字符的位置及所述的领域，为该隐变量标识的字符在分词结果中的位置以及字符对应的领域的概率。

S104、根据各个字符对应的所述匹配概率集合，预测各个字符在分词结果中的位置以及所属的领域，以确定所述目标文本的分词结果。

本实施例中，确定各个字符对应的匹配概率集合后，即可根据匹配概率集合对目标文本进行预测。具体地，进行预测时，还可以考虑目标文本中各个字符之间的关联关系，例如“单纯”两个字符大多被分为一个词等，从而可以确定目标文本中各个字符在分词结果中的位置以及所述的领域，进而可以根据预测结果中各个字符在分词结果中的位置确定目标文本的分词结果。

本实施例提供的方案，采用隐变量来标识所述字符在分词结果的位置以及所属的领域，且每个字符均对应有隐变量，字符与对应的隐变量的匹配关系通过匹配概率来表征，则可以通过匹配概率，确定目标文本中单独字符的领域，使得分词结果受目标文本整体所属的领域的限制较小，同时使得本实施例提供的分词方案可以适用于各个领域；进一步地，由于分词结果受目标文本整体所属的领域的限制较小，则根据匹配概率集合进行预测时，可以通过本实施例提供的分词方案，准确地确定领域不确定或领域不单一的文本的分词结果。

实施例二

参照图2，示出了根据本发明实施例二提供的一种分词方法的步骤流程图。

本实施例的分词方法包括以下步骤：

S202、预先确定目标文本中每个字符对应的向量。

本实施例中，可以通过查表的方式确定目标文本中字符对应的向量，所查的表为字符与其向量的对应关系表，表可以为预先建立的，也可以是通过其他方式获取的，本实施例对此不进行限定。

参照图3，示出了本发明实施例二的一种处理目标文本的数据流程图。字符对应的向量可以参考图3，图3中的C1，C2……Cn-1,Cn分别为目标文本中字符对应的向量，其中，Ci为目标文本中第i个字符对应的向量。

本实施例中，可以将目标文本看作一字符序列，确定目标文本中每个字符对应的向量后，可以根据字符序列，将目标文本转换为一字符矩阵，目标文本中的每个字符对应的向量，可以作为字符矩阵中一行或者一列。当然，也可以不将目标文本转换为字符矩阵，直接将目标文本中各个字符对应的向量按照字符序列的顺序排序或标号亦可，本实施例对此不进行限定。

S204、根据目标文本中所有字符对应的向量，确定所述目标文本中的各个字符分别对应的隐变量。

每个字符均对应多个隐变量。隐变量具体可以包括第一元素以及第二元素，所述第一元素用于标识规划的分词结果中字符的位置，所述第二元素用于标识字符所属的领域。

例如，第一元素可以包括：B、I、E、S，其中，B标识字符是一个词的开始，I标识字符在一个词内部，E标识字符是一个词的结尾，S标识字符是一个单字词；第二元素可以包括x、y、z，x标识字符所属的领域为领域一，y标识字符所属的领域为领域二，z标识字符所属的领域为领域三，领域一、领域二、领域三具体代表的领域可以灵活自定义；对应的，由上述第一元素和第二元素组成的标签为：[Bx，By，Bz，Ix，Iy，Iz，Ex，Ey，Ez，Sx，Sy，Sz]。

目标文本中的某个字符所属的领域为多个时，该字符可以对应多个隐变量。例如，目标文本为“买菜”时，目标文本“买菜”的分词结果为均为单字词，且字符“买”所属的领域可以为x领域或者z领域，字符“菜”所属的领域可以为x领域、或者y领域，则目标文本“买菜”中“买”对应的隐变量可以包括“Sx”、“Sz”，“菜”对应的隐变量可以包括“Sx”、“Sy”。

另外，还可以预先设置一个隐变量集合，并将其中的隐变量作为每个字符对应的隐变量。例如，预先设置的隐变量的集合可以为[Bx，By，Bz，Ix，Iy，Iz，Ex，Ey，Ez，Sx，Sy，Sz]。

S206、计算所述字符与其对应的各个隐变量之间的匹配概率，以根据计算得到的多个匹配概率确定该字符对应的匹配概率集合。

本实施例中，确定隐变量集合后，即可确定分别与目标文本中的多个字符对应的多个匹配概率集合。

例如，若预先设置一个隐变量集合，并将其中的隐变量作为每个字符对应的隐变量，且隐变量的集合可以为[Bx，By，Bz，Ix，Iy，Iz，Ex，Ey，Ez，Sx，Sy，Sz]，则可以确定字符对应的匹配概率集合[P1，P2，P3，P4，P5，P6，P7，P8，P9，P10，P11，P12]。如上所述，目标文本中的每个字符均对应有一个匹配概率集合，匹配概率集合中的值与标签集合中的标签一一对应，即匹配概率P1为字符与标签Bx的匹配概率，以此类推，匹配概率P12为字符与标签Sz的匹配概率。此处输出的匹配概率的值可以为0，也可以不为0，本实施例对此不进行限定。

另外，参见图3，通过三种圆圈来表示标签，每一种圆圈均可以对应一种领域的标签，每个字符均可以对应有属于三个领域的三个标签。例如，图3中的空心圆圈可以对应x领域，其可以为标签Bx、Ix、Ex或者Sx，虚线圆圈可以对应y领域，其可以为标签By、Iy、Ey或者Sy，斜线圆圈可以对应z领域，其可以为标签Bz、Iz、Ez或者Sz。

另外，本实施例中，具体可以通过标签模型确定所述目标文本中的每个字符与其对应的各个隐变量之间的匹配概率。所述标签模型具体可以为卷积神经网络模型CNN或者长短时记忆网络模型LSTM。当然，标签模型也可以是其他神经网络模型，只要其能够准确地确定匹配概率集合即可，本实施例对此不进行限定。

当然，本实施例中，上述仅通过B、I、E、S，以及x、y、z进行举例说明，其也可以为其他；另外，第一元素和/或第二元素也可以由多个元素组成，由第一元素和第二元素组成的标签也可以为其他形式的隐变量，只要隐变量能够标识规划的分词结果中字符的位置和字符所属的领域即可，本实施例对此不进行限定。

S208、根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列，根据所述预测标签序列确定所述目标文本的分词结果。

本实施例中，所述预测标签序列由所述隐变量组成，且其中的隐变量与所述目标文本中的字符一一对应。

如上所述，若隐变量包括第一元素以及第二元素，所述第一元素用于指示分词结果中字符的位置，所述第二元素用于指示所述字符所属的领域，则根据所述预测标签序列中各个所述隐变量的所述第一元素确定所述目标文本对应的分词结果。

具体地，可以直接去除预测标签序列中的第二元素，仅保留第一元素，然后将保留的第一元素组成的序列作为分词模型最终的输出序列，以根据分词模型的输出序列确定分词结果。参见图3，图3中最上层的菱形即可代表去除第二元素后分词模型的输出。

例如，若目标文本为“我喜欢吃白米饭”，则去除预测标签序列中的第二元素后，由保留的第一元素组成的输出序列可以为：SBESBIE，其中，B标识字符是一个词的开始，I标识字符在一个词内部，E标识字符是一个词的结尾，S标识字符是一个单字词。则，可以根据上述序列确定序词边界，例如，确定词边界后的输出序列为S/BE/S/BIE，其中，词边界用“/”标识；确定词边界后，即可确定目标文本的分词结果，例如“我/喜欢/吃/白米饭”。

另外，本实施例中，具体可以通过序列模型根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列。其中，所述序列模型包括CRF模型。

以下以序列模型为条件随机场模型CRF为例，对预测过程进行举例说明。

CRF是一种用于标注和划分序列数据的概率化模型，可以给定观测序列X和输出序列Y，然后通过定义条件概率P(Y|X)来描述模型。

其中，在本实施例中，X即为上述目标文本，输出序列Y即为上述预测标签序列。

首先，假设目标文本为X＝(C₁，C₂，C₃，…C_m)，其中C_i为目标文本中的字符对应的向量。假设，每个字符均对应有12个隐变量，则m个字符可以对应有一个12行m列的隐变量矩阵，则通过上述步骤S206可以确定一个与隐变量矩阵对应的12行m列的概率矩阵S，概率矩阵S中第j列即为第j个字符对应的匹配概率集合，概率矩阵S中第i行第j列的值S_i,j为第i个标签与第j个字符间的匹配概率，其中，i＝1,2，…12，j＝1,2，…m。

在进行计算时，CRF模型可以将上述隐变量矩阵转换为多个节点构成的无向图，隐变量矩阵中的一个标签为无向图中的一个节点，无向图中的某一列中某个节点与其上一列或下一列中的节点存在依赖边，同一列中的节点不存在依赖边。

转为无向图后，CRF可以确定转移矩阵，转移矩阵中的概率值与依赖边一一对应，其用于表征当前依赖边存在于预测标签序列中的概率值，后续将其称为转移概率。参照图3，图3中的虚线框中的内容即可视为无向图，其中的圆圈为无向图的节点，连接圆圈的实线和虚线即为各个节点间的依赖边。

由于预测标签序列中的隐变量与目标文本中的字符一一对应，因此，预测标签序列中的一个位置可以对应隐变量矩阵中的一列，即预测标签序列中第i个位置的隐变量是隐变量矩阵中第i列标签中的一个，i∈(1,2…，m)，然后可以根据概率矩阵S、转移矩阵确定进行预测，并确定概率值最大的序列为预测标签序列。具体地，可以通过所述CRF模型中的维比特算法根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列。

本实施例提供的方案，由于采用隐变量来标识所述字符在分词结果的位置以及所属的领域，且每个字符均对应有隐变量，字符与对应的隐变量的匹配关系通过匹配概率来表征，则可以通过匹配概率，确定目标文本中单独字符的领域，使得分词结果受目标文本整体所属的领域的限制较小，同时使得本实施例提供的分词方案可以适用于各个领域；进一步地，由于分词结果受目标文本整体所属的领域的限制较小，则根据匹配概率集合进行预测时，可以通过本实施例提供的分词方案，准确地确定领域不确定或领域不单一的文本的分词结果。

实施例三

具体地，在实际使用时，上述实施例二中的标签模型以及序列模型可以组合成分词模型，并通过分词模型对上述目标文本进行分词，因此，本实施例三提供一种分词模型的训练方法，以训练得到可以执行上述分词方案的分词模型。在训练分词模型时，可以将多个样本文本分别输入分词模型中，并将每个所述样本文本对应的多个标注序列作为监督，以训练所述分词模型，分词模型的具体训练方法详见下述实施例。

具体地，参照图4，示出了根据本发明实施例三的分词模型的训练方法的步骤流程图。

本实施例的分词模型的训练方法包括以下步骤：

S302、将所述样本文本输入所述分词模型，通过分词模型根据该样本文本对应的多个标注序列进行预测，确定多个标注序列分别对应的概率值。

本实施例中，分词模型的结构为预先设置好的，比如分词模型可以为神经网络模型，神经网络模型具体可以为通过tensorflow构造的神经网络模型。

本实施例中，所述样本文本对应有多个标注序列，每个标注序列中包括多个隐变量，每个所述隐变量用于标识标注序列对应的分词结果中字符的位置和字符所属的领域。

进一步地，本实施例中，可以预先规划样本文本的多个分词结果，确定分词结果中字符的位置和字符所属的领域，并将其记录在字符对应的隐变量中，以形成分别用于表征多个分词结果的所述多个标注序列。由于样本文本中，同一个字符可以属于不同的领域，因此，不同的标注序列中同一字符对应的隐变量所标识的领域会存在差异。

如上述实施例所述，对于每一个隐变量来说，其可以包括不同的元素，比如有标识规划的分词结果中字符的位置的元素和标识字符的领域的元素，本实施例在此不再赘述。

本实施例中，样本文本输入至分词模型后，通过分词模型可以输出多个标注序列对应的概率值，概率值反映了分词模型将对应的标注序列作为样本文本的分词结果进行输出的概率大小。

S304、根据确定的多个所述概率值确定损失值。

本实施例中，在分词模型的实际使用过程中，如果将样本文本作为目标文本输入至分词模型，分词模型会确定概率值最大的预测标签序列为样本文本的预测结果，真实结果即可以为与规划的样本文本的多个分词结果分别对应的多个标注序列。

具体地，可以将概率值作为分词模型的损失函数的输入，并通过计算损失函数确定损失值。损失函数(Loss Function)是用来计算分词模型输出的预测结果和真实结果之间的不一致程度的函数；损失值即为量化分词模型输出的预测结果和真实结果之间不一致程度的值。

S306、根据所述损失值调整所述分词模型的参数，以将多个标注序列作为监督来训练所述分词模型。

本实施例中，通过多个标注序列对应的概率值来计算损失函数得到损失值，然后根据损失值调整分词模型的参数后，通过调整参数后的分词模型输出的样本文本对应的预测结果与多个标注序列一致，由于标注序列与针对样本文本规划的分词结果存在一一对应关系，因此，进一步实现了将针对样本文本规划的、字符所属领域存在差异的多个分词结果作为备选，以及使得分词模型学习所述样本文本中字符所属的领域与所述多个标注序列之间的关系。

具体地，在上述步骤S306中分词模型学习所述样本文本中字符所属的领域与所述多个标注序列之间的关系时，分词模型可以首先学习字符与标签之间的关系，即分词模型学习样本文本中某一字符及其与多个标签之间的对应关系。由于标签标识字符在分词结果中的位置以及标识字符的领域，因此，通过学习字符与多个标签之间的关系，即可以实现学习字符与其多个领域之间的关系，以及可以学习字符所属的领域固定时，字符与其在分词结果中的位置之间的关系。如前所述，标签属于标注序列，因此，分词模型可以进一步学习样本文本中字符所属的领域与所述多个标注序列之间的关系。如前所述，由于不同的标注序列中同一字符对应的标签所标识的领域会存在差异，因此，分词模型学习的样本文本中字符所属的领域与所述多个标注序列之间的关系还包括同一字符所属不同的领域对应不同的标注序列之间的关系。

示例性地，例如，样本文本中某一字符对应有两个领域a、b，则对应地，样本文本对应有两个标注序列A、B，分词模型学习的为：字符属于领域a时样本文本对应的标注序列为A，字符属于b领域时样本文本对应的标注序列为B，从而在实际使用分词模型对目标文本进行分词时，若目标文本中包括上述样本文本，且通过分词模型对样本文本进行处理时，根据样本文本在目标文本中的前后文，可以地确定样本文本中上述字符所属的领域，则，分词模型可以准确地从上述两个标注序列中确定目标文本中的样本文本部分对应的分词结果，从而解决现有技术中存在的文本在不同的领域中分词结果存在冲突，导致分词结果不正确的情况。

本实施例提供的方案，采用了一种新的标签来标识样本文本中的字符，标签既可以标识规划的分词结果中字符的位置也可以标识字符所属的领域，则，采用这种标签，可以确定样本文本对应的多个标注序列，以标识样本文本的多个规划好的分词结果；同时，在训练分词模型时，根据多个标注序列确定分词模型的损失值，使得分词模型可以将字符所属领域存在差异的多个分词结果作为备选，且分词模型学习了所述样本文本中字符所属的领域与所述多个标注序列之间的关系，进一步使得分词模型可以准确地确定领域不确定或领域不单一的文本的分词结果，从而避免现有技术中分词模型针对领域不单一或领域不确定的文本输出的分词结果准确性较低的问题；此外标签与字符一一对应，使得通过分词模型可以确定单独字符的领域、受文本整体所属的领域的限制较小，还使得分词模型可以适用于各个领域。

实施例四

参照图5，示出了根据本发明实施例四的分词模型的训练方法的步骤流程图。

本实施例的分词模型的训练方法包括以下步骤：

S402、预先确定样本文本中每个字符对应的向量，以及预先确定样本文本对应的多个标注序列。

本实施例中，确定样本文本中每个字符对应的向量的方法，与上述实施例中确定目标文本中每个字符对应的向量的方法相同，本实施例对此不进行限定。

例如，参照图3，图3同样可以作为本实施例提供的处理样本文本的数据流程图，图3中的C1，C2……Cn-1,Cn还可以分别为样本文本中字符对应的向量，其中，Ci为样本文本中第i个字符对应的向量。

本实施例中，可以将样本文本看作以字符序列，确定样本文本中每个字符对应的向量后，可以根据字符序列，将样本文本转换为一字符矩阵，样本文本中的每个字符对应的向量，可以作为字符矩阵中一行或者一列。当然，也可以不将样本文本转换为字符矩阵，直接将样本文本中各个字符对应的向量按照字符序列的顺序排序或标号亦可，本实施例对此不进行限定。

本实施例中，每个标注序列中均包括多个隐变量，隐变量与样本文本的字符一一对应。隐变量具体可以包括第一元素以及第二元素，所述第一元素用于标识规划的分词结果中字符的位置，所述第二元素用于标识字符所属的领域，隐变量的具体内容可参照上述实施例，本实施例在此不再赘述。

另外，如上所述，样本文本中的某个字符所属的领域为多个时，样本文本可以对应有多个标注序列。例如，样本文本为“买菜”时，样本文本“买菜”在预先规划的分词结果中均为单字词，且字符“买”所属的领域可以为x领域或者z领域，字符“菜”所属的领域可以为x领域、或者y领域，则样本文本“买菜”对应的标注序列至少可以有三个，具体分别为“Sx Sx”、“SxSy”、“SzSx”；另外，若样本文本“买菜”在预先规划的分词结果中为一个词，且该词所属的领域可以为x领域或者z领域，则样本文本“买菜”对应的标注序列具体可以为“BxEx”、“BzEz”。

S404、将样本文本中所有字符对应的向量输入至分词模型中，通过分词模型对输入的所有字符对应的向量进行处理，生成多个标注序列对应的概率值。

本实施例中，所述分词模型可以包括标签模型和序列模型，其中，通过标签模型，根据输入的样本文本，输出所述样本文本中的各个字符分别对应的多个隐变量以及字符与隐变量的匹配概率；通过序列模型，根据所述匹配概率生成所述多个标注序列对应的概率值。

本实施例中，通过设置标签模型以及序列模型，并将标签序列的输出作为序列模型的输入，可以使得两个模型相互独立，修改一个模型时不会影响到另一个模型，进而使得分词模型中参数的调整方案更加简单。

本实施例中，直接通过标签模型输出字符与对应隐变量的匹配概率，而隐变量不仅可以标识字符对应的位置，也可以标识字符对应的领域，则通过标签模型确定的是单个字符的领域，使得通过本实施例提供的方案训练得到的分词模型可以确定单独字符的领域、受文本整体所属的领域的限制较小；同时使得分词模型可以适用于各个领域，只要通过该领域的样本文本进行训练即可。

具体地，通过标签模型对输入的所述样本文本进行处理的过程具体可以参见上述实施例二中标签模型对目标文本的过程，本实施例在此不再赘述。

本实施例中，标签模型可以为卷积神经网络模型CNN或者长短时记忆网络模型LSTM，当然，标签模型也可以是其他神经网络模型，只要其能够学习字符与隐变量之间的关系即可，本实施例对此不进行限定。

本实施例中，通过标签模型输出匹配概率后，通过序列模型可以根据所述匹配概率生成所述多个标注序列对应的概率值。具体地，序列模型可以为条件随机场模型。

通过序列模型生成概率值时，可以通过所述序列模型，根据所述匹配概率计算标注序列对应的概率值。

以下以标签模型为条件随机场模型CRF为例，对计算概率值的过程进行举例说明。

具体地，可以通过定义条件概率P(Y|X)来描述CRF模型。其中，在本实施例中，X即为上述样本文本，输出序列Y中可以包括上述多个标注序列。CRF模型根据标签模型输出的概率矩阵S确定转移矩阵，具体确定转移矩阵的方法同样可以参见上述实施例二。

另外，由于标注序列中的隐变量与样本文本中的字符一一对应，因此，标注序列中的一个位置可以为概率矩阵S对应的标签矩阵中的一列，即标注序列中第i个位置的隐变量是隐变量矩阵中第i列隐变量中的一个，i∈(1,2…，m)。

因此，确定转移矩阵后，可以根据标注序列与隐变量矩阵的对应关系、转移矩阵以及概率矩阵，确定标注序列对应的概率值。

例如，针对标注序列D₁＝(D_1,1，D_1,2，D_1,3，…D_1,n)，在确定D₁对应的概率值时，可以确定D₁中的每个隐变量在隐变量序列中各自对应的隐变量，然后可以确定该隐变量在概率矩阵中对应的匹配概率。例如确定隐变量矩阵的第2列中与D_1,2相同的隐变量为第3行的隐变量，则隐变量D_1,2在概率矩阵中对应的匹配概率S_3,2。

同时，确定了D₁中两个位置临近的隐变量在隐变量序列中各自对应的隐变量后，可以根据转移矩阵确定这两个隐变量之间的转移概率。例如，确定了隐变量D_1,2和D_1,3在隐变量矩阵中各自对应的隐变量后，即可根据隐变量矩阵中两个隐变量之间的依赖边确定对应的转移概率。

在确定标注序列D₁中所有的隐变量对应的匹配概率，以及标注序列D₁中所有位置相邻的两个隐变量之间的转移概率之后，可以根据确定的匹配概率和转移概率，通过条件随机场模型的前向算法进行计算，生成标注序列D₁对应的概率值。

本实施例中，上述仅以标注序列D₁进行举例说明，在进行计算时，可以根据上述原理，计算多个标注序列对应的概率值，本实施例对此不进行限定。

S406、根据所述概率值以及所述分词模型的损失函数确定损失值。

具体地，本实施例中，每个标注序列均对应有一概率值，则在计算损失函数时，可以计算确定的多个所述概率值之和，根据概率值之和确定所述损失值，可以同时根据多个标注序列的概率值调整分词模型的参数，计算简单且调参效率高。

计算损失值时，可以将概率值之和作为损失函数的自变量代入损失函数，得到损失值。损失函数具体可以使用极大似然估计的损失函数，在进行计算前，可以先将概率值进行归一化处理，然后再计算多个标注序列分别对应的多个概率值的和，并将和代入极大似然估计的损失函数，从而计算得到损失值。

当然，可以对概率值进行其他处理再将其代入损失函数，损失函数也可以为其他损失函数，本实施例对此不进行限定。

与其他损失函数相比，极大似然估计的函数是高阶连续可导凸函数，方便通过一些凸优化算法求解，使用更加方便。

S408、根据所述损失值调整所述分词模型的参数。

本实施例中，具体可以通过反向传播算法调整分词模型中的参数，使得通过调整完成后的分词模型输出的多个标注序列的概率值为最大概率值。

进一步地，由于上述步骤中，将多个标注序列的概率值的和代入损失函数计算损失值，则本实施例中，调整完成后的分词模型，输出的最大概率值为多个标注序列的概率值的和。

当然，上述得到调整完成后的分词模型时，可能经过了多次步骤S404-S408的迭代，本实施例对此不进行限定。

另外，上述步骤S404中，由于分词模型可以包括标签模型和序列模型，因此步骤S408具体可以包括：根据所述损失值调整所述标签模型的参数，使得所述标签模型学习所述样本文本中字符与其所属的领域之间的关系。本实施例中，由于通过标签模型输出的是字符对应的多个隐变量以及字符与隐变量的匹配概率，则标签模型学习的是字符与其对应隐变量之间的匹配关系，从而达到学习字符与其所述领域之间的关系的目的。

步骤S408具体还可以包括：根据所述损失值调整所述序列模型的参数，使得所述序列模型学习样本文本中字符所属的领域与所述多个标注序列之间的关系。本实施例中，由于通过序列模型输出的是标注序列的概率值，则序列模型学习的是字符的隐变量与标注序列之间的对应关系，由于隐变量可以用于指示字符所属的领域，从而通过学习隐变量与标注序列的关系，达到学习字符所属的领域与所述多个标注序列之间的关系的目的。

另外，根据上述步骤的叙述可知，标签模型可以包括CNN模型或者LSTM模型，若为CNN模型，则调整标签模型的参数可以包括调整CNN模型的学习率等；若为LSTM模型，则调整标签模型的参数可以包括调整LSTM模型的遗忘门输出函数中的参数等。具体调整参数的方法可参考相关技术，本实施例对此不再赘述。序列模型可以为CRF模型，在通过CRF模型的前向算法进行计算时，匹配概率和转移概率可以分别对应的不同的权重，则调整序列模型的参数可以包括调整CRF中各个权重等。

通过调整标签模型和序列模型中参数，使得通过分词模型生成的概率值中多个标注序列对应的概率值最大，即通过标签模型可以准确地输出字符与隐变量的匹配概率，通过序列模型根据标签模型输出的匹配概率，确定的样本文本的预测结果与多个标注序列一致。

S410、迭代上述步骤S404-S408，直到满足分词模型的稳定条件。

本实施例中，分词模型的稳定条件可以包括：模型的损失值小于预设范围。当然也可以使用其他稳定条件，具体可以参考相关技术，本实施例对此不再赘述。

另外需要说明的是，本实施例提供的分词模型的训练方法中，用于训练的样本文本，也可以为仅对应有一个标注序列的样本文本，标注序列中的隐变量与上述实施例中的相同，本实施例在此不再赘述。

本实施例提供的分词模型的训练方法，采用一种新的隐变量来标识样本文本中的字符，隐变量既可以标识规划的分词结果中字符的位置也可以标识字符所属的领域，则，采用这种隐变量可以准确标识样本文本的多个领域存在差异的分词结果；同时，在训练分词模型时，根据多个标注序列确定分词模型的损失值，使得分词模型可以将字符所属领域存在差异的多个分词结果作为备选，且隐变量与字符一一对应，使得通过分词模型可以确定单独字符的领域、受文本整体所属的领域的限制较小，以及使得分词模型可以适用于各个领域；此外，本实施例中的分词模型包括标签模型和序列模型，两个模型在结构上相互独立，使得分词模型中参数的调整方案更加简单。

实施例五

参照图6，示出了根据本发明实施例五的一种分词装置的结构框图。

图6示出的分词装置包括：概率模块502、分词模块504。

概率模块502用于确定目标文本的每个字符对应的匹配概率集合，所述匹配概率集合中的匹配概率与隐变量一一对应，所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系，所述隐变量用于标识所述字符在分词结果的位置以及所属的领域。

分词模块504用于根据各个字符对应的所述匹配概率集合，预测各个字符在分词结果中的位置以及所属的领域，以确定所述目标文本的分词结果。

在一种可选的实施方式中，若隐变量包括第一元素以及第二元素，所述第一元素用于指示分词结果中字符的位置，所述第二元素用于指示所述字符所属的领域预测标签序列预测标签序列。

在一种可选的实施方式中，所述概率模块502具体包括：变量确定模块，用于确定所述目标文本中的各个字符分别对应的隐变量，其中，每个字符均对应多个隐变量；概率计算模块，用于计算所述字符与其对应的各个隐变量之间的匹配概率，以根据计算得到的多个匹配概率确定该字符对应的匹配概率集合。

在一种可选的实施方式中，所述概率模块502具体为标签模型，则通过标签模型确定所述目标文本中的每个字符与其对应的各个隐变量之间的匹配概率。

在一种可选的实施方式中，所述标签模型为卷积神经网络(CNN)模型或者长短时记忆网络(LSTM)模型。

在一种可选的实施方式中，分词模块504包括：预测模块，用于根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列，所述预测标签序列由所述隐变量组成，且其中的隐变量与所述目标文本中的字符一一对应；结果确定模块，用于根据所述预测标签序列确定所述目标文本的分词结果。

在一种可选的实施方式中，若隐变量包括第一元素以及第二元素，所述第一元素用于指示分词结果中字符的位置，所述第二元素用于指示所述字符所属的领域，则结果确定模块具体用于根据所述预测标签序列中各个所述隐变量的所述第一元素确定所述目标文本对应的分词结果。

在一种可选的实施方式中，所述分词模块具体为序列模型，则通过序列模型根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列。

在一种可选的实施方式中，所述序列模型包括条件随机场(CRF)模型。

在一种可选的实施方式中，通过所述CRF模型中的维比特算法根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列。

实施例六

一种终端设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的分词方法对应的操作。

具体地，参照图7，示出了根据本发明实施例六的一种终端设备的结构示意图，本发明具体实施例并不对终端设备的具体实现做限定。

如图7所示，该终端设备可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。

其中：

处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。

通信接口604，用于与其它终端设备或服务器进行通信。

处理器602，用于执行程序610，具体可以执行上述分词方法实施例中的相关步骤。

具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序610具体可以用于使得处理器602执行以下分词操作：确定目标文本的每个字符对应的匹配概率集合，所述匹配概率集合中的匹配概率与隐变量一一对应，所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系，所述隐变量用于标识所述字符在分词结果的位置以及所属的领域；根据各个字符对应的所述匹配概率集合，预测各个字符在分词结果中的位置以及所属的领域，以确定所述目标文本的分词结果。

在一种可选的实施方式中，确定所述目标文本中的各个字符分别对应的隐变量，其中，每个字符均对应多个隐变量；计算所述字符与其对应的各个隐变量之间的匹配概率，以根据计算得到的多个匹配概率确定该字符对应的匹配概率集合。

在一种可选的实施方式中，通过标签模型确定所述目标文本中的每个字符与其对应的各个隐变量之间的匹配概率。

在一种可选的实施方式中，根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列，所述预测标签序列由所述隐变量组成，且其中的隐变量与所述目标文本中的字符一一对应；根据所述预测标签序列确定所述目标文本的分词结果。

在一种可选的实施方式中，若隐变量包括第一元素以及第二元素，所述第一元素用于指示分词结果中字符的位置，所述第二元素用于指示所述字符所属的领域，则根据所述预测标签序列中各个所述隐变量的所述第一元素确定所述目标文本对应的分词结果。

在一种可选的实施方式中，通过序列模型根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列。

在一种可选的实施方式中，将多个样本文本分别输入分词模型中，并将每个所述样本文本对应的多个标注序列作为监督，以训练所述分词模型，所述标注序列由所述隐变量组成，且所述标注序列中的隐变量与所述样本文本中的字符一一对应；通过训练得到的分词模型确定目标文本中每个字符与其对应的隐变量集合之间的匹配概率集合，并根据各个字符对应的所述匹配概率集合进行预测，确定各个字符在分词结果中的位置以及所属的领域，以确定所述目标文本的分词结果。

在一种可选的实施方式中，将所述样本文本输入所述分词模型，通过分词模型根据该样本文本对应的多个标注序列进行预测，确定多个标注序列各自对应的概率值；根据确定的多个所述概率值确定损失值，根据所述损失值调整所述分词模型的参数，以将多个标注序列作为监督来训练所述分词模型。

在一种可选的实施方式中，计算确定的多个所述概率值之和，根据概率值之和确定所述损失值。

程序610中各步骤的具体实现可以参见上述分词方法实施例中的相应步骤和单元中对应的描述，其有益效果也可参考上述实施例，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的分词方法。此外，当通用计算机访问用于实现在此示出的分词方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的分词方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种分词方法，其特征在于，包括：

确定目标文本中的各个字符分别对应的隐变量，其中，每个字符均对应多个隐变量，所述隐变量包括第一元素以及第二元素，所述第一元素用于指示分词结果中字符的位置，所述第二元素用于指示所述字符所属的领域；

通过标签模型确定所述字符与其对应的各个隐变量之间的匹配概率；

根据计算得到的多个匹配概率确定目标文本的每个字符对应的匹配概率集合，所述匹配概率集合中的匹配概率与隐变量一一对应，所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系；

通过序列模型根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列，所述预测标签序列由所述隐变量组成，且其中的隐变量与所述目标文本中的字符一一对应；

根据所述预测标签序列中各个所述隐变量的所述第一元素确定所述目标文本对应的分词结果。

2.根据权利要求1所述的方法，其中，所述标签模型为卷积神经网络CNN模型或者长短时记忆网络LSTM模型。

3.根据权利要求1所述的方法，其中，所述序列模型包括条件随机场CRF模型。

4.根据权利要求3所述的方法，其中，通过所述CRF模型中的维比特算法根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列。

5.根据权利要求1所述的方法，其中，所述标签模型以及所述序列模型组合成分词模型，将多个样本文本分别输入所述分词模型中，并将每个所述样本文本对应的多个标注序列作为监督，以训练所述分词模型，所述标注序列由所述隐变量组成，且所述标注序列中的隐变量与所述样本文本中的字符一一对应；

通过训练得到的分词模型确定目标文本中每个字符与其对应的隐变量集合之间的匹配概率集合，并根据各个字符对应的所述匹配概率集合进行预测，确定各个字符在分词结果中的位置以及所属的领域，以确定所述目标文本的分词结果。

6.根据权利要求5所述的方法，其中，将所述样本文本输入所述分词模型，通过分词模型根据该样本文本对应的多个标注序列进行预测，确定多个标注序列各自对应的概率值；

根据确定的多个所述概率值确定损失值，根据所述损失值调整所述分词模型的参数，以将多个标注序列作为监督来训练所述分词模型。

7.根据权利要求6所述的方法，其中，计算确定的多个所述概率值之和，根据概率值之和确定所述损失值。

8.一种分词装置，其特征在于，包括：

变量确定模块，用于确定目标文本中的各个字符分别对应的隐变量，其中，每个字符均对应多个隐变量，所述隐变量包括第一元素以及第二元素，所述第一元素用于指示分词结果中字符的位置，所述第二元素用于指示所述字符所属的领域；

标签模型，用于确定所述字符与其对应的各个隐变量之间的匹配概率；

概率计算模块，用于根据计算得到的多个匹配概率确定目标文本的每个字符对应的匹配概率集合，所述匹配概率集合中的匹配概率与隐变量一一对应，所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系；

序列模型，用于根据各个字符对应的所述匹配概率集合进行预测，确定所述目标文本对应的预测标签序列，所述预测标签序列由所述隐变量组成，且其中的隐变量与所述目标文本中的字符一一对应；

结果确定模块，用于根据所述预测标签序列中各个所述隐变量的所述第一元素确定所述目标文本对应的分词结果。