CN111274788A

CN111274788A - 一种双通道联合处理方法和装置

Info

Publication number: CN111274788A
Application number: CN202010048414.7A
Authority: CN
Inventors: 宋彦; 田元贺; 王咏刚
Original assignee: Innovation Workshop (guangzhou) Artificial Intelligence Research Co Ltd
Current assignee: Innovation Workshop (guangzhou) Artificial Intelligence Research Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-12

Abstract

本申请实施例的目的是提供一种用于分词和词性标注***的双通道联合处理方法和装置。本申请实施的方法包括以下步骤：获取输入序列中包含的每个字对应的上下文特征信息和知识信息；在特征通道和知识通道内，分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算，得到输入序列的上下文特征向量和知识向量；通过将所述上下文特征向量和所述知识向量串联，得到所述输入序列对应的加权字序列向量，其中，所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。

Description

一种双通道联合处理方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于分词和词性标注***的双通道联合处理方法和装置。

背景技术

中文分词和词性标注的联合任务(Joint Chinese Word Segmentation andPart-of-speech Tagging)，指把分词和词性标注视为一个联合任务，即对输入的中文字序列，同时进行分词和词性标注，而不是先分词，再对分词的结果进行词性标注。

现有技术的方案中，面向中文分词和词性标注的联合任务的技术可以分为基于特征的传统方法和深度学习方法。

基于特征的方法指，通过人工设计、选取特征的方法，对输入文本进行特征提取，基于这些特征对当前字的联合标签进行判断。常用的特征包括当前字、前字、后字等。然而，这种方法的效果高度依赖于人工设计、提取的特征的质量，而设计高质量的特征提取方法非常困难。此外，特征提取的方法，对于因句意不同而造成的歧义，并没有相应的解决办法。

近年来，深度学习方法被逐渐应用在中文分词中。该方法能够依据具体任务的特点，自动实现对文本特征的提取，免去了人工设计、提取特征的巨大成本。深度学习的识别效果远远超过了单纯的传统方法。一般来讲，基于深度学习的联合任务的***均以基本的序列标注模式为基础，具体包括以下三个模块输入嵌入层、上下文信息编码层和解码输出层。

其中，输入嵌入层把输入的文本中的每个字映射到高维连续空间的字向量，并用这个新的字向量代表这个字的特征。上下文信息编码层在字向量的基础之上，提取每个字的上下文的信息，计算其它字的字向量对其的影响。该层的输入为嵌入层的输出(即一句话中的不同字的字向量)，输出为经过上下文编码的不同字向量。解码输出层对经过上下文信息提取后的每一个字向量解码，输出预测的联合标签。

然而，基于现有技术的方案一般直接将上下文特征向量和知识向量与字向量直接串联，而没有考虑不同的上下文特征和知识对该字的联合标签的贡献的差异，使得那些贡献小的或者自动方法获取的不准确的上下文特征以及知识，误导模型去预测错误的联合标签。例如，对于语句子“他马上功夫很好”，使用现有的Stanford CoreNLP Toolkits(斯坦福自然语言处理工具)分析后，得到的上下文特征错误地把“马上”(“立即”、“立刻”的意思)视为一个词，而且其携带的词性知识也被错误的视为“副词”，而不是正确地把其视为两个词“马/上”(“马的上面”的意思)。这样一来，这种不准确的上下文特征和知识将会对联合任务***产生负面的影响。

发明内容

本申请实施例的目的是提供一种用于分词和词性标注***的双通道联合处理方法和装置。

本申请实施例提供的一种用于分词和词性标注***的双通道联合处理方法，其中，所述方法包括以下步骤：

获取输入序列中包含的每个字对应的上下文特征信息和知识信息；

在特征通道和知识通道内，分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算，得到输入序列的上下文特征向量和知识向量；

通过将所述上下文特征向量和所述知识向量串联，得到所述输入序列对应的加权字序列向量，其中，所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。

本申请实施例提供的一种用于分词和词性标注***的双通道联合处理装置，其中，所述双通道联合处理装置包括：

获取模块，用于获取输入序列中包含的每个字对应的上下文特征信息和知识信息；

双通道计算模块，用于在特征通道和知识通道内，分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算，得到输入序列的上下文特征向量和知识向量；

加权串联模块，用于通过将所述上下文特征向量和所述知识向量串联，得到所述输入序列对应的加权字序列向量，其中，所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。

本申请实施例提供的一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法。

本申请实施例提供的一种计算机可读的存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述方法。

本申请实施例具有以下优点：通过在两个独立的通道中依据输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献分别建模并进行加权计算，考虑到了征和知识对于联合标签的贡献，因而能够避免由此带来的错误的预测，并且充分利用了上下文特征和知识，进一步提升了分词和词性标注***的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出了根据本申请实施例的一种用于分词和词性标注***的双通道联合处理方法流程图；

图2示出了根据本申请实施例的一个分词和词性标注***的示意图；

图3示出了根据本申请实施例的一种用于分词和词性标注***的双通道联合处理装置的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出了根据本申请实施例的一种用于分词和词性标注***的双通道联合处理方法流程图。所述方法包括步骤S1、步骤S2和步骤S3。

其中，根据本发明的方法通过包含于计算机设备中的双通道联合处理装置来实现。所述计算机设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备和/或用户设备。其中，所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、PDA、游戏机、或IPTV等。其中，所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备以及网络仅为举例，其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

参照图1，在步骤S1中，双通道联合处理装置获取输入序列中包含的每个字对应的上下文特征信息和知识信息。

其中，所述上下文特征信息包括各种用于表示上下文分词的信息。所述知识信息包括各种用于表示词性信息，成分句法信息等知识的信息。

其中，每个字对应的上下文特征信息和知识信息是成对出现的。具体地，上下文特征和其所对应的知识是两个同样长度的列表，分别用

和

来表示，其中

中某一位置t的上下文特征，其对应的知识在

中的位置同样为t。

优选地，双通道联合处理装置通过外部自动工具获取输入序列中包含的每个字对应的上下文特征信息和知识信息。

其中，所述外部自动工具包括各种中文自动分析工具，例如斯坦福大学发布的中文处理工具，其包含中文分词、词性标注、成分句法分析、依存句法分析等等多种语言分析功能。

双通道联合处理装置可通过其他方式来获取输入序列中包含的每个字对应的上下文特征信息和知识信息，例如通过人工标注、查询词典、知识库等方式。

在步骤S2中，双通道联合处理装置在特征通道和知识通道内，分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算，得到输入序列的上下文特征向量和知识向量。

其中，所述联合标签是中文分词和词性标注的联合标签，指把分词标签与词性按照“分词标签-词性”的形式组合而成的标签。例如，“张三担任学生会会长”中每一个字的联合标签依次为“B-NR”、“E-NR”、“B-VV”、“E-VV”、“B-NN”、“I-NN”、“E-NN”、“B-NN”、“E-NN”。

其中，所述特征通道和知识通道是两个彼此独立的通道。

具体地，通道联合处理装置在特征通道内基于上下文特征信息计算特征通道对应的上下文特征集合相对于输入序列中每个字的权重，接着根据得到的特征通道的上下文特征集合相对于输入序列中每个字的权重，通过计算其加权和来得到输入序列的上下文特征向量。并且，通道联合处理装置在知识通道内基于知识信息计算知识通道对应的知识集合相对于输入序列中每个字的权重，接着根据得到的知识通道的知识集合相对于输入序列中每个字的权重，通过计算其加权和来得到输入序列的知识向量。

根据本发明的第一示例，记输入字序列为

(其中，x_i是一个汉字，l是句子的长度)。多频道联合处理装置在步骤S1中通过外部自动工具获取

所有的上下文特征

和其所对应的知识

对

中的每一个字x_i，从

和

中提取与该字相关的上下文特征和知识，分别记为

和

并且，用上下文特征嵌入函数E_s和知识嵌入函数E_k，分别把S_i,j和k_i,j映射为特征嵌入向量和知识嵌入向量，记为

和

接着，多频道处理装置在步骤S2中按照以下算法来计算输入序列的上下文特征向量和知识向量：

在特征通道内，特征通道对应的上下文特征集合s_i,j相对于输入序列中第i个字x_i的权重，按照以下公式来计算：

其中，

是x_i经过输入嵌入层以及上下文信息编码层后得到的字向量h_i和S_i,j的特征嵌入向量的内积。

接着，在特征通道中，按照以下公式来依据权重

计算上下文特征集合相对于输入序列中每个字的权重的加权和：

这样，就得到了输入序列

的上下文特征向量

并且，在知识通道内，知识通道对应的知识集合

相对于输入序列中第i个字x_i的权重，按照以下公式来计算：

其中，

是x_i经过输入嵌入层以及上下文信息编码层后得到的字向量h_i和k_i,j的特征嵌入向量的内积。

接着，在知识通道中，按照以下公式来依据权重

计算知识集合相对于输入序列中每个字的权重的加权和：

这样，就得到了输入序列

的知识向量

继续参照图1进行说明，在步骤S3中，双通道联合处理装置通过将所述上下文特征向量和所述知识向量串联，得到所述输入序列对应的加权字序列向量。

其中，所述加权字序列向量用于反映输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献。

继续对前述第一示例进行说明，把特征通道的上下文特征向量和知识通道的指示向量加权串联，得到输入序列对应的加权字序列向量的表达式为：

需要说明的是，前述上下文特征集合/知识集合相对于输入序列中每个字的权重、上下文特征向量、知识向量，以及输入序列对应的加权字序列向量的公式均为示例性的，而非对本发明的限制，本领域技术人员应该理解，其他用于计算上下文特征集合/知识集合相对于输入序列中每个字的权重、上下文特征向量、知识向量，以及输入序列对应的加权字序列向量的公式，均应包含在本发明的范围内。

优选地，所述方法还包括步骤S4(图未示)、步骤S5(图未示)和步骤S6(图未示)。

在步骤S4中，双通道联合处理装置将所述加权字序列向量与输入序列的字向量串联。

在步骤S5中，双通道联合处理装置基于串联后的向量，在分词和词性标注***中得到输入序列的预测标签。

在步骤S6中，双通道联合处理装置通过得到的各个分词的预测标签和对应的真实标签来计算并优化目标函数，进而训练联合标签的模型。

优选地，所述方法还包括步骤S7(图未示).

在步骤S7中，双通道联合处理装置使用训练好的联合标签的模型，对输入的中文序列进行分析，从而获得该中文序列的分词和词性标注的联合标注结果。

根据本申请实施例的方法，通过在两个独立的通道中依据输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献分别建模并进行加权计算，考虑到了征和知识对于联合标签的贡献，因而能够避免由此带来的错误的预测，并且充分利用了上下文特征和知识，进一步提升了分词和词性标注***的准确率。

图2示出了根据本申请实施例的一个分词和词性标注***的示意图。

参照图2，根据本实施例的分词和词性标注***包括输入嵌入层，上下文信息编码层，解码输出层和双通道注意力模块，根据本发明的方法由双通道注意力模块执行。其中，所述双通道注意力模块位于上下文信息编码层和解码输出层之间。该双通道注意力模块的输入为通过外部自动工具获取

所有的上下文特征和其所对应的知识(上下文特征和知识)，记为

和来自输入嵌入层的含有上下文信息的字向量h_i，该双通道注意力模块的输出为包含上下文特征信息和知识信息的加权字序列向量a_i。

对于输入序列“张三担任学生会会长”，基于前述第一示例的输入序列

特征嵌入向量

和知识嵌入向量

根据本实施例的分词和词性标注***中训练联合标签的模型的算法流程如下：

1.把

输入至输入嵌入层，通过一个字嵌入函数E_x，把文本中的每个字x_i被转化为一个输入字向量

2.将转换后文本中的所有字向量

输入上下文信息编码层，对每个字输出一个含有上下文信息的字向量

3.在双通道注意力模块中，基于输入的字向量h_i、特征嵌入向量

和知识嵌入向量

其中j＝1,2,…m_i，并基于前述公式(1)至公式(5)，使得所有

和

分别在特征通道和知识通道内部被加权，从而得到并输出包含上下文特征信息和知识信息的加权字序列向量a_i；

4.把包含上下文特征信息和知识信息的加权字序列向量a_i与字向量h_i串联，并把得到的向量输入至解码输出层，输出分词的预测标签

如图2所示，解码输出层输出的“张三担任学生会会长”中每一个字的联合标签依次为“B-NR”、“E-NR”、“B-VV”、“E-VV”、“B-NN”、“I-NN”、“E-NN”、“B-NN”、“E-NN”。

5.把预测标签y＇与对应的真实结果y做比对，计算目标函数，并通过优化目标函数来更新分词和词性标注***的网络参数；

6.重复上述步骤1至5，来训练分词和词性标注***的联合标签的模型，直至达到预期效果。

根据本申请实施例的分词和词性标注***，通过在两个独立的通道中依据输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献分别建模并进行加权计算，考虑到了征和知识对于联合标签的贡献，因而能够避免由此带来的错误的预测，并且充分利用了上下文特征和知识，进一步提升了分词和词性标注***的准确率。

图3示出了根据本申请实施例的一种用于分词和词性标注***的双通道联合处理装置的结构示意图。所述双通道联合处理装置包括获取模块1、双通道计算模块2和加权串联模块3。

参照图3，获取模块1获取输入序列中包含的每个字对应的上下文特征信息和知识信息。

和

来表示，其中

中某一位置t的上下文特征，其对应的知识在

中的位置同样为t。

优选地，获取模块1通过外部自动工具获取输入序列中包含的每个字对应的上下文特征信息和知识信息。

获取模块1可通过其他方式来获取输入序列中包含的每个字对应的上下文特征信息和知识信息，例如通过人工标注、查询词典、知识库等方式。

双通道计算模块2在特征通道和知识通道内，分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算，得到输入序列的上下文特征向量和知识向量。

其中，所述特征通道和知识通道是两个彼此独立的通道。

具体地，双通道计算模块2在特征通道内基于上下文特征信息计算特征通道对应的上下文特征集合相对于输入序列中每个字的权重，接着根据得到的特征通道的上下文特征集合相对于输入序列中每个字的权重，通过计算其加权和来得到输入序列的上下文特征向量。并且，双通道计算模块2在知识通道内基于知识信息计算知识通道对应的知识集合相对于输入序列中每个字的权重，接着根据得到的知识通道的知识集合相对于输入序列中每个字的权重，通过计算其加权和来得到输入序列的知识向量。

加权串联模块3通过将所述上下文特征向量和所述知识向量串联，得到所述输入序列对应的加权字序列向量。

优选地，所述多频道联合处理装置还包括向量串联模块(图未示)、标签预测模块(图未示)和函数计算模块(图未示)。

向量串联模块将所述加权字序列向量与输入序列的字向量串联。

标签预测模块基于串联后的向量，在分词和词性标注***中得到输入序列的预测标签。

函数计算模块通过得到的各个分词的预测标签和对应的真实标签来计算并优化目标函数，进而训练联合标签的模型。

优选地，所述多频道联合处理装置还包括标注结果模块(图未示)

标注结果模块使用训练好的联合标签的模型，对输入的中文序列进行分析，从而获得该中文序列的分词和词性标注的联合标注结果。

根据本申请实施例的方案，通过在两个独立的通道中依据输入序列包含的每个字对应的上下文特征和知识对于联合标签的贡献分别建模并进行加权计算，考虑到了征和知识对于联合标签的贡献，因而能够避免由此带来的错误的预测，并且充分利用了上下文特征和知识，进一步提升了分词和词性标注***的准确率。

本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个功能或步骤的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于分词和词性标注***的双通道联合处理方法，其中，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其中，所述在特征通道和知识通道内，分别基于各个字的上下文特征和知识对于联合标签的贡献来建模并进行加权计算，得到输入序列的上下文特征向量和知识向量的步骤包括：

在特征通道内基于上下文特征信息计算特征通道对应的上下文特征集合相对于输入序列中每个字的权重，

根据得到的特征通道的上下文特征集合相对于输入序列中每个字的权重，通过计算其加权和来得到输入序列的上下文特征向量；

并且，

在知识通道内基于知识信息计算知识通道对应的知识集合相对于输入序列中每个字的权重；

根据得到的知识通道的知识集合相对于输入序列中每个字的权重，通过计算其加权和来得到输入序列的知识向量。

3.根据权利要求1所述的方法，其中，所述方法包括以下步骤：

将所述加权字序列向量与输入序列的字向量串联；

基于串联后的向量，在分词和词性标注***中得到输入序列的预测标签；

通过得到的各个分词的预测标签和对应的真实标签来计算并优化目标函数，进而训练联合标签的模型。

4.根据权利要求1至3中任一项所述的方法，其中，所述方法包括以下步骤：

使用训练好的联合标签的模型，对输入的中文序列进行分析，从而获得该中文序列的分词和词性标注的联合标注结果。

5.根据权利要求1中所述的方法，其中，所述获取输入序列中包含的每个字对应的上下文特征信息和知识信息的步骤包括：

通过外部自动工具获取输入序列中包含的每个字对应的上下文特征信息和知识信息。

6.一种用于分词和词性标注***的双通道联合处理装置，其中，所述双通道联合处理装置包括：

7.根据权利要求6所述的双通道联合处理装置，其中，所述双通道计算模块用于：

并且，

8.根据权利要求6所述的双通道联合处理装置，其中，所述双通道联合处理装置包括：

向量串联模块，用于将所述加权字序列向量与输入序列的字向量串联；

标签预测模块，用于基于串联后的向量，在分词和词性标注***中得到输入序列的预测标签；

函数计算模块，用于通过得到的各个分词的预测标签和对应的真实标签来计算并优化目标函数，进而训练联合标签的模型。

9.根据权利要求6至8中任一项所述的双通道联合处理装置，其中，所述双通道联合处理装置包括：

标注结果模块，用于使用训练好的联合标签的模型，对输入的中文序列进行分析，从而获得该中文序列的分词和词性标注的联合标注结果。

10.根据权利要求6所述的双通道联合处理装置，其中，所述获取模块用于：

通过外部工具获取输入序列中包含的每个字对应的上下文特征信息和知识信息。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一所述的方法。

12.一种计算机可读的存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一所述的方法。