CN104462066A

CN104462066A - 语义角色标注方法及装置

Info

Publication number: CN104462066A
Application number: CN201410821721.9A
Authority: CN
Inventors: 吴先超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2015-03-25
Anticipated expiration: 2034-12-24
Also published as: CN104462066B

Abstract

本发明实施例公开了一种语义角色标注方法及装置。其中，所述方法包括：获取待标注的目标语句中分词的至少一个分类特征；确定所获取的各个分类特征的语义表示信息；将各个分类特征的语义表示作为预先生成的神经网络分类器的输入，采用所述神经网络分类器对所述分词进行语义角色标注。本发明实施例提供的技术方案，能够将基于多个词、多个词性、多个依存弧标签、多个依存路径的复杂而且稀疏的特征，简单映射为稠密特征，从而降低特征空间的维度和特征构建的复杂度，并且可以自动实现对多个特征的组合。

Description

语义角色标注方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及语义角色标注方法及装置。

背景技术

语义角色标注，作为分析句子语义主干的主流方法之一，着重从语义角度刻画句子的结构信息，其在摘要自动生成、知识挖掘、情感分析、统计机器翻译、搜索相关性计算等多个领域具有重要的应用价值。

目前，用于进行语义角色标注的***，其输入通常是待标注的句子，输出是该句子的语义结构树。其中，语义结构树描述了句子中谓词的所有语义角色以及各个语义角色的类别。在现有技术中，该***在接收某条句子后，往往是通过如下方案来实现对该句子进行语义角色标注：先提取该句子中各个分词的词、词性、依存弧、依存路径、词性路径等一系列基于字符串的特征，并将这些特征进行组合，然后查找一个大表(该表中包含了数以百万，千万计的稀疏特征)，进而根据查找结果调用多个分类器来识别句子中的谓词，对除谓词之外的其他分词进行语义角色的识别与分类。

但是，在研究的过程当中发明人发现现有技术存在如下缺陷(1)-(3)：

(1)当前用于进行语义角色标注的***所使用的用于分类的特征存在严重的稀疏性问题。

(2)在将不同的特征进行组合时，这些特征往往是人工预先设定好的，也即主要是人工组合特征，这样过于以偏概全。

(3)超过90％的时间被用在了稀疏特征的构造、查表、以及调用分类器上面，成本很高。

发明内容

本发明实施例提供一种语义角色标注方法及装置，以将基于多个词、多个词性、多个依存弧标签、多个依存路径的复杂而且稀疏的特征，简单映射为稠密特征，从而降低特征空间的维度和特征构建的复杂度，并且能够自动实现对多个特征的组合。

一方面，本发明实施例提供了一种语义角色标注方法，该方法包括：

获取待标注的目标语句中分词的至少一个分类特征；

确定所获取的各个分类特征的语义表示信息；

将各个分类特征的语义表示信息作为预先生成的神经网络分类器的输入，采用所述神经网络分类器对所述分词进行语义角色标注。

另一方面，本发明实施例还提供了一种语义角色标注装置，该装置包括：

分类特征获取单元，用于获取待标注的目标语句中分词的至少一个分类特征；

语义表示信息确定单元，用于确定所获取的各个分类特征的语义表示信息；

语义角色标注单元，用于将各个分类特征的语义表示信息作为预先生成的神经网络分类器的输入，采用所述神经网络分类器对所述分词进行语义角色标注。

本发明实施例提供的技术方案，通过使用句子中分词的分类特征的语义表示信息和神经网络分类器，来对句子进行语义角色标注，可以将基于多个词、多个词性、多个依存弧标签、多个依存路径的复杂而且稀疏的特征，简单映射为稠密特征，从而降低特征空间的维度和特征构建的复杂度，并且能够自动实现对多个特征的组合。

附图说明

图1是本发明实施例一提供的一种语义角色标注方法的流程示意图；

图2A是本发明实施例二提供的一种语义角色标注方法的流程示意图；

图2B是本发明实施例二提供的一种第一神经网络模型的拓扑结构示意图；

图2C是本发明实施例二提供的四种不同传递函数的曲线图。

图3A是本发明实施例三提供的一种语义角色标注方法的流程示意图；

图3B是本发明实施例三提供的一种第二神经网络模型的拓扑结构示意图；

图4A是本发明实施例三提供的一种语义角色标注方法的流程示意图；

图4B是本发明实施例三提供的一种第三神经网络模型的拓扑结构示意图；

图5是本发明实施例五提供的一种语义角色标注装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种语义角色标注方法的流程示意图。本实施例可适用于在摘要自动生成、知识挖掘、情感分析、统计机器翻译或搜索相关性计算等需要得到句子的语义角色标注的应用场景中，对句子进行语义角色标注的情况。该方法可以由语义角色标注装置来执行，所述装置由软件实现，可被内置在诸如智能手机、平板电脑、笔记本电脑、台式电脑或个人数字助理之类的终端设备上。参见图1，本实施例提供的语义角色标注方法具体包括如下操作：

操作110、获取待标注的目标语句中分词的至少一个分类特征。

操作120、确定所获取的各个分类特征的语义表示信息。

操作130、将各个分类特征的语义表示信息作为预先生成的神经网络分类器的输入，采用神经网络分类器对分词进行语义角色标注。

在本实施例中，目标语句中分词的分类特征为用于分类时所采用的分词的特征。目标语句中任一分词的特征可包括如下四种特征：词特征、词性特征、依存弧标签特征、依存路径特征。

其中，词特征可包括：目标语句中的当前词、左边词、右边词等；词性特征可包括：在目标语句中，当前词的词性、左边词的词性、右边词的词性、当前词到达谓词的词性路径等；依存弧标签特征可包括：在目标语句中，当前词的父亲节点到当前词的依存弧标签等；依存路径特征可包括：在目标语句中，谓词到当前词的依存路径、当前词到它和谓词的最近共同父节点的依存路径等。

需要说明的是，本实施例对分类特征不作具体限定，只要分词的某一特征能够对分类起到作用的，该特征就可作为分类特征被使用。

在本实施例中，语义角色标注的任务可包括如下至少一个任务：识别目标语句中的谓词(也即动词)；识别谓词的语义格；识别目标语句中的语义角色类型。其中，识别谓词的语义格，指的是对谓词进行分类。例如，对于“吃”这个谓词而言，在句子“我吃苹果”中的分类是对食物的一个吃的动作，而在句子“游客吃的是业者的手工”中的分类是“喜欢”这一类别，在句子“这次大家要好好吃透会议精神”中的分类是“领悟”这一类别。

为了要完成待标注的目标语句的语义角色标注，可预先生成三个神经网络分类器：第一神经网络分类器(用于识别句子中的谓词)、第二神经网络分类器(用于识别谓词的语义格)以及第三神经网络分类器(用于识别目标语句中的语义角色类型)。具体的，对于其中的任意一个神经网络分类器，均是根据大量的训练语料、设定的训练算法以及神经网络模型，学习神经网络模型中的权重系数和偏置系数，进而将学习完毕后的神经网络模型作为神经网络分类器。其中，神经网络模型至少为三层，也即至少包括输入层、一个隐层和输出层。输入层包含各个神经元，用于接收并输出外界传输过来的分词的各个分类特征的语义表示信息；隐层包含多个神经元，用于对输入层输出的各个分类特征的语义表示信息进行组合和降维处理，得到稠密特征；输出层包含多个神经元，用于根据隐层输出的稠密特征对当前的输入进行相应的分类识别。

在本实施例中，隐层中的神经元能够自动利用学习得到的权重系数，对各个分类特征的语义表示信息进行组合和降维处理，从而得到当前被关注的分词在稠密特征上的语义表示信息。相较于采用人工的方式来组合分词的各个分类特征，本实施例提供的智能组合方式更为合理有效，不会以偏概全，因为用于进行组合的权重系数是通过大量的训练语料学习得到的。并且，本实施例在组合各个分类特征的同时，进行了降维处理，因此能够降低特征空间的维度以及特征构建的复杂度。

其中，对于识别目标语句中的谓词这一任务而言，可基于二元分类的思想来实现，也即对目标语句中的各个分词进行分类，以识别各个分词是属于谓词这一类别，还是属于非谓词这一类别。具体的，可先提取目标语句中的各个分词，然后分别针对各个分词，执行如下操作：获取分词的至少一个分类特征；确定所获取的各个分类特征的语义表示信息；将各个分类特征的语义表示信息作为第一神经网络分类器的输入，采用第一神经网络分类器对分词进行分类识别，以确定分词是属于谓词这一类别，还是属于非谓词这一类别。此处所获取的分词的分类特征，为对当前二分类起到作用的分词的特征。

对于识别谓词的语义格这一任务而言，可基于多元分类的思想来实现，也即对已确定的目标语句中的谓词进行语义格分类，以识别该谓词具体属于预设的多种语义格中的哪种语义格。具体的，可先得到目标语句中的谓词，然后针对该谓词，执行如下操作：获取谓词的至少一个分类特征；确定所获取的各个分类特征的语义表示信息；将各个分类特征的语义表示信息作为第二神经网络分类器的输入，采用第二神经网络分类器对谓词进行语义格分类。此处所获取的谓词的分类特征，为对当前多元分类(也即语义格的分类)起到作用的谓词的特征。

对于识别目标语句中的语义角色类型这一任务而言，可基于多元分类的思想来实现，也即对目标语句中除谓词之外的其他分词进行语义角色类型的识别，以判断所述其他分词为预设的多个语义角色类型中的哪种语义角色类型。具体的，可针对目标语句中除谓词之外的其他分词，执行如下操作：获取分词的至少一个分类特征；确定所获取的各个分类特征的语义表示信息；将各个分类特征的语义表示信息作为第三神经网络分类器的输入，采用第三神经网络分类器对分词进行语义角色类型的分类。此处所获取的分词的分类特征，为对当前多元分类(也即语义角色的分类)起到作用的分词的特征。

由于现有技术在对句子进行语义角色标注的过程中，通常所使用的用于分类的特征是句子中分词的词、词性、依存弧、依存路径、词性路径等一系列基于字符串的特征，故这些特征存在严重的稀疏性问题。

例如，当识别一个词是否是谓词的时候，往往使用词的原形作为判别的一个特征，然而词的原形是数以十万级的，单独依靠人工标注这些数据，会使得成本太高，而且无法覆盖所有可能的谓词。例如，“审议”是一个谓词，当训练语料里面有这个词出现的时候，分类器可以简单地识别出来当前新输入的句子中出现的这个词为谓词。但是，如果“审议”没有出现在训练数据中，而其同义词“讨论”出现在了训练语料中的时候，如果简单地依靠词形来进行分类的话，就无法判定出来“审议”这个词属于谓词，进而无法正确地判定这个谓词的语义格，以及关联的主语宾语等其他语义角色。

为此，本实施例并不直接将待标注的目标语句中分词的各个分类特征(是基于字符串的特征)作为分类器的输入，而是先将各个分类特征映射为相应的语义表示信息，进而将各语义表示信息作为输入传输至分类器。这样，可以很好地解决直接使用“词/词性/依存弧标签/依存路径”基于字符串的特征所带来的稀疏性问题。

在获取到待标注的目标语句中分词的至少一个分类特征(为基于字符串的特征)之后，可根据预先生成分类特征与分类特征向量之间的多对多的映射关系，查找与当前所针对的分类特征具有映射关系的分类特征向量，作为当前所针对的分类特征的语义表示信息。

具体的，如果将词特征作为其中的一种分类特征来使用，则可预先创建有多个词与多个向量之间的映射关系。不同的词对应有不同的向量。这样，可以通过两个词在向量上的相似度，来描述这两个词之间的语义关系。例如，如果两个词在语义上是近似的，为同义词，则在设置这两个词各自所对应的向量时，可按照如下规则：这两个词所对应的向量间具有很高的相似度，因此这两个词虽然在字符串形状上差别较大，但是在向量上却是比较相似的。

相应的，如果将词性特征作为其中的一种分类特征来使用，则可预先创建有多个词性与多个向量之间的映射关系。不同的词性，对应有不同的向量。这样，可以通过两个词性在向量上的相似度，来描述这两个词性之间的语义关系。例如，动词性名词对应的向量为第一向量，动词对应的向量为第二向量，形容词对应的向量为第三向量，考虑到动词与动词性名词语义相近的概率要大于与形容词语义相近的概率，则在设定第一向量、第二向量以及第三向量时，可按照如下规则进行设定：第一向量与第二向量的相似度，大于第三向量与第二向量的相似度。

同理，如果将依存弧标签特征作为其中的一种分类特征来使用，还可创建多个依存弧标签与多个向量之间的映射关系。不同的依存弧标签，对应有不同的向量。这样，可以通过两个依存弧标签在向量上的相似度，来描述这两个依存弧标签之间的语义关系。例如，一个依存弧标签att(修饰关系，例如“事故原因”中，“事故”修饰“原因”，而且其修饰关系是att)和一个依存弧标签adv(副词修饰动词关系，例如“正在详细调查”中，“正在”和“详细”都是修饰“调查”的副词，而且依存弧标签都是adv)这两种修饰关系之间的语义距离，要小于依存弧标签sbv和依存弧标签vob之间的语义距离，因为依存弧标签sbv表示的是主谓关系，依存弧标签vob表示的是谓宾关系。因此，依存弧标签att对应的向量与依存弧标签adv对应的向量之间的相似度，要高于依存弧标签sbv对应的向量与依存弧标签vob对应的向量之间的相似度。

如果将依存路径特征作为其中的一种分类特征来使用，还可创建多个依存路径与多个向量之间的映射关系。不同的依存路径，对应有不同的向量。这样，可以通过两个依存路径在向量上的相似度，来描述这两个依存路径之间的语义关系。

本实施例提供的技术方案，通过使用句子中分词的分类特征的语义表示信息和神经网络分类器，来对句子进行语义角色标注，可以将基于多个词、多个词性、多个依存弧标签、多个依存路径的复杂而且稀疏的特征，简单映射为稠密特征，从而降低特征空间的维度和特征构建的复杂度，并且能够自动实现对多个特征的组合。

实施例二

图2A是本发明实施例二提供的一种语义角色标注方法的流程示意图。本实施例在上述实施例一的基础上，针对进行语义角色标注的三个任务中的“识别目标语句中的谓词”这一任务，作进一步优化。参见图2A，本实施例提供的语义角色标注方法，具体包括如下操作：

操作210、获取待标注的目标语句中分词的至少一个分类特征。

操作220、确定所获取的各个分类特征的语义表示信息。

操作230、将各个分类特征的语义表示信息作为预先生成的第一神经网络分类器的输入，采用第一神经网络分类器识别所述分词是否为谓词。

在本实施例中，可预先确定待标注的目标语句，然后对该目标语句进行切词处理，以得到多个分词，进而分别针对得到的各个分词，执行上述操作210-操作230。

在本实施例中，所获取的分词的分类特征，为对当前分类起到作用的分词的特征。优选的，获取的分词的至少一个分类特征包括词特征和/或词性特征。其中，词特征的个数可以为一个或多个，词性特征的个数也可为一个或多个。每个词特征和词性特征，均被视为一个分类特征。

确定所获取的词特征的语义表示信息，包括：分别针对获取到的各个词特征，根据预先生成的词与词向量之间的多对多的映射关系，查找与当前所针对的词特征具有映射关系的词向量，作为当前所针对的词特征的语义表示信息。

例如，预先生成的词与词向量之间的多对多的映射关系，如下表1所示：

表1

词特征	警方	调查	收购	……	企业
						词向量	(x1,x2,x3)^T	(x4,x7,x3)^T	(x3,x9,x8)^T	……	(x1,x6,x2)^T

在实际执行当中，上述预先生成的映射关系中的各个词特征，应尽量涵盖中文语言中的各个分词。词向量(x1,x2,x3)^T中的T表示转置，x1,x2,x3均可为实数。其他词向量类似，在此不再赘述。

确定所获取的词性特征的语义表示信息，包括：分别针对获取到的各个词性特征，根据预先生成的词性与词性向量之间的多对多的映射关系，查找与当前所针对的词性特征具有映射关系的词性向量，作为当前所针对的词性特征的语义表示信息。

例如，预先生成的词性与词性向量之间的多对多的映射关系，如下表2所示：

表2

词性特征	动词	名词	形容词	……	副词
						词性向量	(y1,y2,y3)^T	(y1,y6,y9)^T	(y3,y2,y2)^T	……	(y10,y6,y7)^T

在实际执行当中，上述预先生成的映射关系中的各个词性特征，应尽量涵盖中文语言中的各个词性。词性向量(y1,y2,y3)^T中的T表示转置，其中的各元素均为实数。其他词性向量类似，在此不再赘述。

在确定完毕所获取的分词的各个分类特征的语义表示信息之后，可将确定结果作为第一神经网络分类器的输入，采用第一神经网络分类器识别分词是否为谓词。

为此，需预设训练预料库，然后根据训练预料库生成第一神经网络分类器。其中，训练预料库中包含有大量的样本语句，并且每条样本语句对应一条已知的语义角色标注信息，该结果可以是人工预先确定的。在本实施例中，每一条样本语句的语义角色标注信息可具体包括：用于描述该条样本语句中各个分词是否为谓词的子标注信息。示例性的，生成第一神经网络分类器，包括：

获取预设的训练预料库中样本语句的各分词的至少一个分类特征，以及用于描述该条样本语句中各个分词是否为谓词的子标注信息；

确定所获取的样本语句中各分词的各个分类特征的语义表示信息(可视为训练输入)；

针对样本语句中的各分词，将分词的各个分类特征的语义表示信息作为当前正在被训练的第一神经网络模型的输入，基于第一神经网络模型识别分词是否为谓词(可视为激励响应)；

根据对分词是否为谓词的识别结果和所获取的子标注信息，更新第一神经网络模型中的权重系数和偏置系数，以将更新后的第一神经网络模型作为第一神经网络分类器。

其中，所获取的样本语句中各分词的至少一个分类特征，应与当前待标注的目标语句中各分词的至少一个分类特征，是对应的。例如，在得到第一神经网络分类器的过程中，如果将样本语句中的当前词性、左边词性以及右边词性作为四个分类特征，那么在利用第一神经网络分类器对目标语句中的某个分词进行谓词识别的过程中，获取的也应是该分词在目标语句中的当前词性、左边词性以及右边词性这四个分类特征。

在上述示例中，第一神经网络模型包括：输入层、隐层和输出层。

输入层的输出为由样本语句中分词的至少一个分类特征的语义表示信息组成的目标向量。该目标向量由分词的所有分类特征向量拼接而成。例如，分词的至少一个分类特征总共包含两个分类特征，其中一个分类特征的语义表示信息由第一向量(x1,x2,x3)^T表示，其中另一个分类特征的语义表示信息由第二向量(y1,y2,y3)^T表示，则目标向量可为(x1,x2,x3,y1,y2,y3)^T。

具体的，输入层的每个神经元负责接收并输出样本语句中分词的一个分类特征向量，如果样本语句中分词的分类特征向量个数为L，则输入层的神经元个数为L。当然，如果各个分类特征向量均是R维的，输入层的每R个神经元可接收并输出一个分类特征对应的特征向量，其中的每个神经元仅接收和输出一个分类特征向量中的一个元素，此时输入层的神经元个数为L*R。

隐层中的第j个神经元的数学模型表达式为：其中，h_j为隐层中的第j个神经元的输出；x_j为目标向量中的第i个元素；ω_ij为隐层中的第j个神经元对所述第i个元素的权重系数；M为目标向量中的各元素的个数；b_j为隐层中的第j个神经元的偏置系数；f₁为隐层中的各神经元所采用的传递函数。

具体的，隐层中的第j个神经元对同一分类特征向量中的各个元素的权重系数可相同，也可不同。隐层中的各神经元所采用的传递函数可以是：f₁(z)＝z³(也即cube函数)，或者，f₁(z)＝1/(1+e^-z)(也即sigmoid函数)，或者，f₁(z)＝(e^z-e^-z)/(e^z+e^-z)(也即tanh函数)，或者f₁(z)＝z(也即identify函数)。其中，具体的，cube函数、sigmoid函数、tanh函数以及identify函数，可参见图2C。

输出层中的第k个神经元的数学模型表达式为其中，O_k为输出层中的第k个神经元的输出；为输出层中的第k个神经元对隐层中的第j个神经元的输出的权重系数；N为隐层中的神经元的个数；c_k为输出层中的第k个神经元的偏置系数；f₂为输出层中的各神经元所采用的传递函数。具体的，c_k可以为0，也可不为0。f₂可以为柔性最大值传输函数softmax。在本实施例中，为能够达到降维的效果，隐层中的神经元的个数N应小于目标向量中的各元素的个数M。输出层可由两个神经元组成，其中的一个神经元的输出用于表示当前词是谓词的概率，另一个神经元的输出用于表示当前词不是谓词的概率。

在对第一神经网络模型进行训练前，需初始化该模型中的各个权重系数和偏置系数。在基于第一神经网络模型识别得到样本语句中的分词是否为谓词之后，提取样本语句的语义角色标注信息中用于描述该分词是否为谓词的子标注信息，并将提取得到的子标注信息转换为相应的二维向量(其中的一个元素表示是谓词的概率，另一个元素表示不是谓词的概率)。进而，利用基于第一神经网络模型，对训练预料库中各条样本语句中的各个分词是否为谓词的识别结果，以及提取的相应的二维向量(可视为目标输出)，来更新第一神经网络模型中的权重系数和偏置系数。具体的更新算法可采用反向传播算法。其中所采用的目标函数为最小化交叉熵损失函数，并且使用L2-正则化项。

假设训练预料库中给定的一条样本语句为：“警方正在详细调查事故原因”，下表3给出了用于描述该句子中各个分词是否为谓词的子标注信息，以及各个分词的词特征(当前词)和词性特征(当前词性)。

表3

其中，“Y”表示当前词是谓词，“N”表示当前词不是谓词，“Word”表示当前词，“POS”表示当前词的词性，“n”表示名词，“d”表示副词，“v”表示动词。

在得到第一神经网络分类器之后，如果外界将目标语句中分词的各个分类特征的语义表示信息输入至该分类器之后，该分类器的输入层会接收并输出由目标语句中分词的各个分类特征的语义表示信息组成的目标向量；之后，隐层接收并处理输入层的输出结果；最后，输出层将隐层的处理结果再次进行加工得到最终的分类结果。具体过程，与上述将样本语句中分词的各个分类特征的语义表示信息，作为第一神经网络分类器的输入，来得到分类结果的过程完全相同，在此不再赘述。二者的区别仅在于：输入至第一神经网络分类器中的语义表示信息所对应的语句的来源不同，一个是样本语句，一个是目标语句。

为了更清楚的描述本实施例提供的技术方案，先进行举例说明。图2B是本发明实施例二提供的一种第一神经网络模型的拓扑结构示意图。在图2B中，设样本语句或目标语句中任一分词的分类特征总共有6个：当前分词(当前词)、位于当前分词左边的分词(左边词)、位于当前分词右边的分词(右边词)、当前分词的词性(当前词的词性)、位于当前分词左边的分词的词性(左边词的词性)以及位于当前分词右边的分词的词性(右边词的词性)。例如，对于“我爱北京”这条句子而言，如果当前所针对的分词是“我”，则其对应的分类特征依次为：“我”(当前词)、“NULL”(左边词)、“爱”(右边词)、“名词”(当前词的词性)、“NULL”(左边词的词性)、“动词”(右边词的词性)。其中“NULL”表示空。如果当前所针对的分词是“爱”，则其对应的分类特征依次为：“爱”(当前词)、“我”(左边词)、“北京”(右边词)、“动词”(当前词的词性)、“名词”(左边词的词性)、“名词”(右边词的词性)。

对于输入层，总共有6个神经元，假设该层中的每一个神经元负责接收并输出一个分类特征的3维分类特征向量，因此所述6个分类特征向量组成了一个6*3＝18维的目标向量(x₁，x₂……x₁₈)^T。其中，x₁，x₃和x₃属于当前分词的词向量；x₄，x₅和x₆属于位于当前分词左边的分词的词向量；……；x₁₆，x₁₇和x₁₈属于位于当前分词右边的分词的词性向量。

隐层共有4个神经元，能够将18维的目标向量映射为4维向量。该层中的第j个神经元的数学模型表达式为：该层中的第j个神经元对同一分类特征向量中的各个元素的权重系数相同。也即，分别与x₁，x₂和x₃对应的权重系数ω_1j、ω_2j和ω_3j是相同的，为α_1j；分别与x₄，x₅和x₆对应的权重系数ω_4j、ω_5j和ω_6j是相同的，为α_2j；……；分别与x₁₆，x₁₇和x₁₈对应的权重系数ω_16j、ω_17j和ω_18j是相同的，为α_6j。

输出层共有2个神经元，第k个神经元的数学模型表达式为 f₂为柔性最大值传输函数softmax。该层中的一个神经元的输出O₁用于表示是谓词的概率，另一个神经元的输出O₂用于表示不是谓词的概率。

本实施例提供的技术方案，通过使用句子中分词的分类特征的语义表示信息和神经网络分类器，来识别句子中各分词是否为谓词，可以将基于多个词、词性的复杂而且稀疏的特征，简单映射为稠密特征，从而降低特征空间的维度和特征构建的复杂度，并且能够自动完成对多个特征的组合，实现从单个词的语义表示到短语的语义表示、从单个词性的语义表示到短语词性的语义表示。因此，本实施例能够很好的保证对句子中谓词识别的准确度。

实施例三

图3A是本发明实施例三提供的一种语义角色标注方法的流程示意图。本实施例在上述实施例一的基础上，针对进行语义角色标注的三个任务中的“识别谓词的语义格”这一任务，作进一步优化。参见图3A，本实施例提供的语义角色标注方法，具体包括如下操作：

操作310、获取待标注的目标语句中谓词的至少一个分类特征。

操作320、确定所获取的各个分类特征的语义表示信息。

操作330、将各个分类特征的语义表示信息作为预先生成的第二神经网络分类器的输入，采用第二神经网络分类器识别谓词的语义格。

在本实施例中，可预先根据设定算法识别出待标注的目标语句中的谓词。其中，所述设定算法可以是上述实施例二中所提供的识别谓词的算法，也可以是其他任何能够识别出目标语句中的谓词的算法。

在得知目标语句中的谓词之后，可进一步获取该谓词的至少一个分类特征。其中，此时所获取的谓词的分类特征，为对当前谓词的语义格的分类起到作用的特征。优选的，获取的谓词的至少一个分类特征包括如下至少一种特征：词特征、词性特征、依存弧标签特征和依存路径特征。其中，每种特征所包括的分类特征个数可以为一个或多个。

确定所获取的依存弧标签特征的语义表示信息，包括：分别针对获取到的各个依存弧标签特征，根据预先生成的依存弧标签与依存弧标签向量之间的多对多的映射关系，查找与当前所针对的依存弧标签特征具有映射关系的依存弧标签向量，作为当前所针对的依存弧标签特征的语义表示信息。在实际执行当中，预先生成的映射关系中的各个依存弧标签特征，应尽量涵盖中文语言中的各个依存弧标签。

同理，确定所获取的依存路径特征的语义表示信息，包括：分别针对获取到的各个依存路径特征，根据预先生成的依存路径与依存路径向量之间的多对多的映射关系，查找与当前所针对的依存路径特征具有映射关系的依存路径向量，作为当前所针对的依存路径特征的语义表示信息。在实际执行当中，预先生成的映射关系中的各个依存弧标签特征，应尽量涵盖中文语言中的各个依存弧标签。

在确定完毕所获取的谓词的各个分类特征的语义表示信息之后，可将确定结果作为第二神经网络分类器的输入，采用第二神经网络分类器识别谓词的语义格。

为此，需预设训练预料库，然后根据训练预料库生成第二神经网络分类器。其中，训练预料库中包含有大量的样本语句，并且每条样本语句对应一条已知的语义角色标注信息，该结果可以是人工预先确定的。在本实施例中，每一条样本语句的语义角色标注信息可具体包括：用于描述该条样本语句中谓词的语义格的子标注信息。示例性的，生成第二神经网络分类器，包括：

获取预设的训练预料库中样本语句的谓词的至少一个分类特征，以及用于描述该条样本语句中谓词的语义格的子标注信息；

确定所获取的样本语句中谓词的各个分类特征的语义表示信息(可视为训练输入)；

针对样本语句中的谓词，将谓词的各个分类特征的语义表示信息作为当前正在被训练的第二神经网络模型的输入，基于第二神经网络模型识别谓词的语义格(可视为激励响应)；

根据对谓词的语义格的识别结果和所获取的子标注信息，更新第二神经网络模型中的权重系数和偏置系数，以将更新后的第二神经网络模型作为第二神经网络分类器。

在上述示例中，第二神经网络模型包括：输入层、隐层和输出层。

输入层的输出为由样本语句中谓词的至少一个分类特征的语义表示信息组成的目标向量。该目标向量由谓词的所有分类特征向量拼接而成。

具体的，输入层的每个神经元负责接收并输出样本语句中谓词的一个分类特征向量。当然，如果各个分类特征向量均是R维的，输入层的每R个神经元可接收并输出一个分类特征对应的特征向量，其中的每个神经元仅接收和输出一个分类特征向量中的一个元素，此时输入层的神经元个数为L*R。

隐层中的第j个神经元的数学模型表达式为：其中，h_j为隐层中的第j个神经元的输出；x_i为目标向量中的第i个元素；ω_ij为隐层中的第j个神经元对所述第i个元素的权重系数；M为目标向量中的各元素的个数；b_j为隐层中的第j个神经元的偏置系数；f₁为隐层中的各神经元所采用的传递函数。

具体的，隐层中的第j个神经元对同一分类特征向量中的各个元素的权重系数可相同，也可不同。隐层中的各神经元所采用的传递函数可以是：f₁(z)＝z³，或者，f₁(z)＝1/(1+e^-z)，或者，f₁(z)＝(e^z-e^-z)/(e^z+e^-z)，或者f₁(z)＝z。其中，

z = Σ_{i = 1}^{M} ω_{ij} \times x_{i} + b_{j} .

输出层中的第k个神经元的数学模型表达式为其中，O_k为输出层中的第k个神经元的输出；为输出层中的第k个神经元对隐层中的第j个神经元的输出的权重系数；N为隐层中的神经元的个数；c_k为输出层中的第k个神经元的偏置系数；f₂为输出层中的各神经元所采用的传递函数。具体的，c_k可以为0，也可不为0。f₂可以为柔性最大值传输函数softmax。在本实施例中，为能够达到降维的效果，隐层中的神经元的个数N应小于目标向量中的各元素的个数M。输出层可由Q个神经元组成，其中Q为目前中文语言中所有谓词的所有语义格的数量。输出层中的第k个神经元的输出可以表示：本次输入至第二神经网络模型的分类特征向量所对应的谓词的语义格，为中文语言下所有谓词的所有语义格中第k个语义格的概率。如果预先为当前所针对的谓词设定有q(q＜Q)个语义格，则只需从输出层的输出结果中，获取中文语言下所有谓词的所有语义格中对应于这q(q＜Q)个语义格的位置上的概率，并选取其中最大的概率所对应的语义格，作为谓词在语句中所对应的语义格。

根据训练预料库来更新第二神经网络模型中的权重系数和偏置系数的过程，与上述更新第一神经网络模型中的权重系数和偏置系数的过程类似，在此不再赘述。

假设，训练预料库中给定的一条样本语句为：“警方正在详细调查事故原因”，下表4给出了用于描述该句子中谓词的语义格的子标注信息，以及谓词的词特征(当前词)、词性特征(当前词性)、依存弧标签特征(当前词的父亲节点到当前词的依存弧标签)、依存路径特征(谓词到其所有的左右的孩子的依存路径)。

表4

其中，“调查.01”表示在该样本语句中谓词“调查”的语义格为预设的“调查”的多个语义格中的第一个语义格；“Word＝{调查}”表示当前的谓词为“调查”；“POS＝{v}”表示谓词的词性POS为动词v；“Label＝{HED}”表示当前谓词的父亲节点到当前谓词的依存弧标签为HED；当前谓词到其所有的左右的孩子的依存路径Path.parent、Path.child1、Path.child2、Path.child3和Path.child4，分别为：“ROOT->HED调查”、“警方<-SBV调查”、“正在<-ADV调查”、“详细<-ADV调查”和“调查->VOB原因”。

在得到第二神经网络分类器之后，如果外界将目标语句中的谓词的各个分类特征的语义表示信息输入至该分类器之后，该分类器的输入层会接收并输出由目标语句中谓词的各个分类特征的语义表示信息组成的目标向量；之后，隐层接收并处理输入层的输出结果；最后，输出层将隐层的处理结果再次进行加工得到最终的分类结果。具体过程，与上述将样本语句中谓词的各个分类特征的语义表示信息，作为第二神经网络分类器的输入，来得到分类结果的过程完全相同，在此不再赘述。二者的区别仅在于：输入至第二神经网络分类器中的语义表示信息所对应的语句的来源不同，一个是样本语句，一个是目标语句。

为了更清楚的描述本实施例提供的技术方案，先进行举例说明。图3B是本发明实施例三提供的一种第二神经网络模型的拓扑结构示意图。在图3B中，设样本语句或目标语句中谓词的分类特征总共有7个：当前谓词，当前谓词的词性，当前谓词的父亲节点到当前谓词的依存弧标签，当前谓词到其左边第一个孩子的依存路径，当前谓词到其左边第二个孩子的依存路径，当前谓词到其右边第一个孩子的依存路径，当前谓词到其右边第二个孩子的依存路径。

对于输入层，总共有7个神经元，假设该层中的每一个神经元负责接收并输出一个分类特征的3维分类特征向量，因此所述7个分类特征向量组成了一个7*3＝21维的目标向量(x₁，x₂……x₂₁)T。其中，x₁，x₂和x₃属于谓词的词向量；x₄，x₅和x₆属于谓词的词性向量；……；x₁₉，x₂₀和x₂₁属于当前谓词到其右边第二孩子的依存路径向量。

隐层共有4个神经元，能够将21维的目标向量映射为4维向量。输出层共有Q(为目前中文语言下所有谓词的所有语义格的数量)个神经元。

本实施例提供的技术方案，通过使用句子中谓词的分类特征的语义表示信息和神经网络分类器，来识别句子中谓词的语义格，可以将基于多个词、词性、依存弧标签、依存路径的复杂而且稀疏的特征，简单映射为稠密特征，从而降低特征空间的维度和特征构建的复杂度，并且能够自动完成对多个特征的组合，实现从单个词的语义表示到短语的语义表示、从单个词性的语义表示到短语词性的语义表示、从单个词的依存弧标签的语义表示到短语的依存弧标签的语义表示、从单个词的依存路径的语义表示到短语的依存路径的语义表示。因此，本实施例能够很好的保证对句子中谓词的语义格类别的识别精度。

实施例四

图4A是本发明实施例三提供的一种语义角色标注方法的流程示意图。本实施例在上述实施例一的基础上，针对进行语义角色标注的三个任务中的“识别分词的语义角色类型”这一任务，作进一步优化。参见图4A，本实施例提供的语义角色标注方法，具体包括如下操作：

操作410、获取待标注的目标语句中分词的至少一个分类特征。

操作420、确定所获取的各个分类特征的语义表示信息。

操作430、将各个分类特征的语义表示信息作为预先生成的第三神经网络分类器的输入，采用第三神经网络分类器对分词进行语义角色的识别与分类。

在本实施例中，所述的分词为目标语句中除谓词之外的分词。在得知目标语句中的谓词之后，可进一步识别目标语句中除谓词之外的分词的语义角色类型。语义角色类型可以是施事、受事、与事、工具、结果、处所等。当然，语义角色类型还可为空，以表明该分词并不是谓词的论元，也即并不是谓词的语义角色。

在本实施例中，所获取的分词的分类特征，为对分词的语义角色类型的识别起到作用的特征。优选的，获取的分词的至少一个分类特征包括如下至少一种特征：词特征、词性特征、依存弧标签特征和依存路径特征。其中，每种特征所包括的分类特征个数可以为一个或多个。

在确定完毕所获取的分词的各个分类特征的语义表示信息之后，可将确定结果作为第三神经网络分类器的输入，采用第三神经网络分类器识别分词的语义角色类型。

为此，需预设训练预料库，然后根据训练预料库生成第三神经网络分类器。其中，训练预料库中包含有大量的样本语句，并且每条样本语句对应一条已知的语义角色标注信息，该结果可以是人工预先确定的。在本实施例中，每一条样本语句的语义角色标注信息可具体包括：用于描述该条样本语句中各个分词的语义角色类型的子标注信息。示例性的，生成第三神经网络分类器，包括：

获取预设的训练预料库中样本语句的分词的至少一个分类特征，以及用于描述该条样本语句中分词的语义角色类型的子标注信息；

确定所获取的样本语句中分词的各个分类特征的语义表示信息(可视为训练输入)；

针对样本语句中的各个分词，将分词的各个分类特征的语义表示信息作为当前正在被训练的第三神经网络模型的输入，基于第三神经网络模型识别分词的语义角色类型(可视为激励响应)；

根据对分词的语义角色类型的识别结果和所获取的子标注信息，更新第三神经网络模型中的权重系数和偏置系数，以将更新后的第三神经网络模型作为第三神经网络分类器。

在上述示例中，第三神经网络模型包括：输入层、隐层和输出层。

输入层的输出为由样本语句中分词的至少一个分类特征的语义表示信息组成的目标向量。该目标向量由分词的所有分类特征向量拼接而成。

具体的，输入层的每个神经元负责接收并输出样本语句中分词的一个分类特征向量。当然，如果各个分类特征向量均是R维的，输入层的每R个神经元可接收并输出一个分类特征对应的特征向量，其中的每个神经元仅接收和输出一个分类特征向量中的一个元素，此时输入层的神经元个数为L*R。

隐层中的第j个神经元的数学模型表达式为：其中，h_j为隐层中的第j个神经元的输出；x_i为目标向量中的第i个元素；ω_ij为隐层中的第j个神经元对所述第i个元素的权重系数；M为目标向量中的各元素的个数；b_i为隐层中的第j个神经元的偏置系数；f₁为隐层中的各神经元所采用的传递函数。

z = Σ_{i = 1}^{M} ω_{ij} \times x_{i} + b_{j} .

输出层中的第k个神经元的数学模型表达式为其中，O_k为输出层中的第k个神经元的输出；为输出层中的第k个神经元对隐层中的第j个神经元的输出的权重系数；N为隐层中的神经元的个数；c_k为输出层中的第k个神经元的偏置系数；f₂为输出层中的各神经元所采用的传递函数。具体的，c_k可以为0，也可不为0。f₂可以为柔性最大值传输函数softmax。在本实施例中，为能够达到降维的效果，隐层中的神经元的个数N应小于目标向量中的各元素的个数M。输出层可由U个神经元组成，其中U为目前中文语言下所有语义角色类型的数量。输出层中的第k个神经元的输出可以表示：本次输入至第二神经网络模型的分类特征向量所对应的分词的语义角色类型，为中文语言下所有语义角色类型中第k个语义角色类型的概率。在输出层的输出结果中，选取其中最大的概率所对应的语义角色类型，作为谓词在语句中所对应的语义角色类型。

根据训练预料库来更新第三神经网络模型中的权重系数和偏置系数的过程，与上述更新第一神经网络模型中的权重系数和偏置系数的过程类似，在此不再赘述。

假设，训练预料库中给定的一条样本语句为：“警方正在详细调查事故原因”，下表5给出了用于描述该句子中各个分词的语义角色类型的子标注信息，以及分词的词特征(当前词)、词性特征(当前词性)、依存弧标签特征(当前词的父亲节点到当前词的依存弧标签)、依存路径特征(谓词到当前词的依存路径)。

表5

在得到第三神经网络分类器之后，如果外界将目标语句中的分词的各个分类特征的语义表示信息输入至该分类器之后，该分类器的输入层会接收并输出由目标语句中分词的各个分类特征的语义表示信息组成的目标向量；之后，隐层接收并处理输入层的输出结果；最后，输出层将隐层的处理结果再次进行加工得到最终的分类结果。具体过程，与上述将样本语句中分词的各个分类特征的语义表示信息，作为第三神经网络分类器的输入，来得到分类结果的过程完全相同，在此不再赘述。二者的区别仅在于：输入至第三神经网络分类器中的语义表示信息所对应的语句的来源不同，一个是样本语句，一个是目标语句。

为了更清楚的描述本实施例提供的技术方案，先进行举例说明。图4B是本发明实施例三提供的一种第三神经网络模型的拓扑结构示意图。在图4B中，设样本语句或目标语句中谓词的分类特征总共有4个：当前词，当前词的词性，语句中当前词的父亲节点到当前词的依存弧标签，语句中谓词到当前词的依存路径。

对于输入层，总共有4个神经元，假设该层中的每一个神经元负责接收并输出一个分类特征的3维分类特征向量，因此所述4个分类特征向量组成了一个4*3＝12维的目标向量(x₁，x₂……x₁₂)T。其中，x₁，x₂和x₃属于当前词的词向量；x₄，x₆和x₆属于当前词的词性向量；……；x₁₀，x₁₁和x₁₂属于样本语句或目标语句中谓词到当前词的依存路径向量。

隐层共有3个神经元，能够将12维的目标向量映射为3维向量。输出层共有U(为目前中文语言下所有语义角色类型的数量)个神经元。

本实施例提供的技术方案，通过使用句子中分词的分类特征的语义表示信息和神经网络分类器，来识别句子中分词的语义角色类型，可以将基于多个词、词性、依存弧标签、依存路径的复杂而且稀疏的特征，简单映射为稠密特征，从而降低特征空间的维度和特征构建的复杂度，并且能够自动完成对多个特征的组合，实现从单个词的语义表示到短语的语义表示、从单个词性的语义表示到短语词性的语义表示、从单个词的依存弧标签的语义表示到短语的依存弧标签的语义表示、从单个词的依存路径的语义表示到短语的依存路径的语义表示。因此，本实施例能够很好的保证对句子中分词的语义角色类型的识别精度。

实施例五

图5是本发明实施例五提供的一种语义角色标注装置的结构示意图。参见图5，该装置的具体结构如下：

分类特征获取单元510，用于获取待标注的目标语句中分词的至少一个分类特征；

语义表示信息确定单元520，用于确定所获取的各个分类特征的语义表示信息；

语义角色标注单元530，用于将各个分类特征的语义表示信息作为预先生成的神经网络分类器的输入，采用所述神经网络分类器对所述分词进行语义角色标注。

示例性的，所述语义表示信息确定单元520，具体用于：

分别针对各个分类特征，根据预先生成的分类特征与分类特征向量之间的多对多的映射关系，查找与当前所针对的分类特征具有映射关系的分类特征向量，作为当前所针对的分类特征的语义表示信息。

示例性的，所述至少一个分类特征包括词特征和/或词性特征；

所述语义角色标注单元530，具体用于：

将各个分类特征的语义表示信息作为预先生成的第一神经网络分类器的输入，采用所述第一神经网络分类器识别所述分词是否为谓词。

示例性的，所述分词为谓词；

所述至少一个分类特征包括如下至少一种特征：词特征、词性特征、依存弧标签和依存路径；

所述语义角色标注单元530，具体用于：

将各个分类特征的语义表示信息作为预先生成的第二神经网络分类器的输入，采用所述第二神经网络分类器识别所述谓词的语义格。

示例性的，所述分词为所述目标语句中除谓词之外的分词；

所述语义角色标注单元530，具体用于：

将各个分类特征的语义表示信息作为预先生成的第三神经网络分类器的输入，采用所述第三神经网络分类器对所述分词进行语义角色的识别与分类。

示例性的，本实施例提供的装置还包括神经网络分类器生成单元500，用于在所述语义角色标注单元530将各个分类特征的语义表示信息作为预先生成的神经网络分类器的输入，采用所述神经网络分类器对所述分词进行语义角色标注之前：

获取预设的训练语料库中样本语句的各分词的至少一个分类特征，以及与所述样本语句对应的语义角色标注信息；

确定所获取的所述样本语句中各分词的各个分类特征的语义表示信息；

针对所述样本语句中的各分词，将分词的各个分类特征的语义表示信息作为当前正在被训练的神经网络模型的输入，基于所述神经网络模型对分词进行语义角色标注；

根据对分词进行语义角色标注的结果和所述语义角色标注信息，更新所述神经网络模型中的权重系数和偏置系数，以将更新后的神经网络模型作为神经网络分类器。

示例性的，所述神经网络模型包括：输入层、隐层和输出层；

所述输入层的输出为由所述样本语句中分词的至少一个分类特征的语义表示信息组成的目标向量；

所述隐层中的第j个神经元的数学模型表达式为：其中，所述h_j为所述第j个神经元的输出；所述x_i为所述目标向量中的第i个元素；所述ω_ij为所述第j个神经元对所述第i个元素的权重系数；所述M为所述目标向量中的各元素的个数；所述b_j为所述第j个神经元的偏置系数；f₁为所述隐层中的各神经元所采用的传递函数；

所述输出层中的第k个神经元的数学模型表达式为其中，所述O_k为所述第k个神经元的输出；所述为所述第k个神经元对所述隐层中的第j个神经元的输出的权重系数；所述N为所述隐层中的神经元的个数；所述c_k为所述第k个神经元的偏置系数；所述f₂为所述输出层中的各神经元所采用的传递函数；

所述N小于所述M。

需要说明的是，本实施例提供的装置，与本发明任意实施例所提供的方法属于同一发明构思，可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的可参见本发明任意实施例所提供的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语义角色标注方法，其特征在于，包括：

获取待标注的目标语句中分词的至少一个分类特征；

确定所获取的各个分类特征的语义表示信息；

2.根据权利要求1所述的语义角色标注方法，其特征在于，确定所获取的各个分类特征的语义表示信息，包括：

3.根据权利要求1所述的语义角色标注方法，其特征在于，所述至少一个分类特征包括词特征和/或词性特征；

将各个分类特征的语义表示信息作为预先生成的神经网络分类器的输入，采用所述神经网络分类器对所述分词进行语义角色标注，包括：

4.根据权利要求1所述的语义角色标注方法，其特征在于，所述分词为谓词；

5.根据权利要求1所述的语义角色标注方法，其特征在于，所述分词为所述目标语句中除谓词之外的分词；

6.根据权利要求1-5中任一项所述的语义角色标注方法，其特征在于，在将各个分类特征的语义表示信息作为预先生成的神经网络分类器的输入，采用所述神经网络分类器对所述分词进行语义角色标注之前，还包括：

7.根据权利要求6所述的语义角色标注方法，其特征在于，所述神经网络模型包括：输入层、隐层和输出层；

所述N小于所述M。

8.一种语义角色标注装置，其特征在于，包括：

9.根据权利要求8所述的语义角色标注装置，其特征在于，所述语义表示信息确定单元，具体用于：

10.根据权利要求8所述的语义角色标注装置，其特征在于，所述至少一个分类特征包括词特征和/或词性特征；

所述语义角色标注单元，具体用于：

11.根据权利要求8所述的语义角色标注装置，其特征在于，所述分词为谓词；

所述语义角色标注单元，具体用于：

12.根据权利要求8所述的语义角色标注装置，其特征在于，所述分词为所述目标语句中除谓词之外的分词；

所述语义角色标注单元，具体用于：

13.根据权利要求8-12中任一项所述的语义角色标注装置，其特征在于，还包括神经网络分类器生成单元，用于在所述语义角色标注单元将各个分类特征的语义表示信息作为预先生成的神经网络分类器的输入，采用所述神经网络分类器对所述分词进行语义角色标注之前：

14.根据权利要求13所述的语义角色标注装置，其特征在于，所述神经网络模型包括：输入层、隐层和输出层；

所述N小于所述M。