CN106886516A

CN106886516A - 自动识别语句关系和实体的方法及装置

Info

Publication number: CN106886516A
Application number: CN201710108288.8A
Authority: CN
Inventors: 简仁贤; 王海波
Original assignee: Intelligent Technology (shanghai) Co Ltd
Current assignee: Intelligent Technology (shanghai) Co Ltd
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2017-06-23

Abstract

本发明属于智能识别技术领域，提供了一种自动识别语句关系和实体的方法及装置。本发明的自动识别语句关系和实体的方法包括：将用户的输入语句投影到一个固定维度的空间中，得到所述输入语句在所述固定维度的空间中的句子向量；将所述句子向量输入预先训练好的深度学习分类器，得到所述输入语句的关系类别；若识别出关系类别，则识别所述输入语句中的实体。本发明提供的方法及***，利用深度学习，从语义上对用户输入进行判断，可以精准识别关系；将实体识别建模为序列标注问题，利用条件随机场求解最优标注，从而精准识别实体；结合深度学习和条件随机场，实现了关系和实体的自动化抽取。

Description

自动识别语句关系和实体的方法及装置

技术领域

本发明涉及智能识别术领域，具体涉及一种自动识别语句关系和实体的方法及装置。

背景技术

在人机对话***中，我们常常要识别用户是否是在表达某些特定领域的信息，比如喜好、昵称等信息；如果用户是在表达这些信息，我们往往还需要能够精确提取到这些信息所指的具体对象。通常，这些信息可以通过关系和实体来进行表示。关系主要是指用户在表达什么样的信息，比如是否是喜好、昵称等；而实体则是指关系所指的具体对象。比如用户表达“我喜欢吃麻辣香锅”，对应的关系是“喜欢”，对应的实体是“麻辣香锅”。在对话***中，如何自动识别这种特定领域的关系和实体是一个颇具挑战性的问题。

最常用来识别关系和实体的方法主要有两种：基于关键词和基于正则表达式。

基于关键词的方法主要是通过关键词来识别关系。以喜好为例，如果用户输入的句子中包含“喜欢”一词，就认为是在表达喜欢；如果包含“不喜欢”一词，就认为是在表达不喜欢。然后再结合语法依存分析或者语义角色标注(SRL)来提取该关系的实体。比如“我喜欢周杰伦”，其中包含喜欢，基于关键词的方法认为这句话是在表达“喜欢”；通过依存分析可以知道，“周杰伦”依存于核心词“喜欢”，因此喜欢的对象是“周杰伦”，即识别出的实体是“周杰伦”。基于关键词的方法的缺点是存在大量的误判，即包含某个关键词的句子并不一定必然表达该关系。拿上面的喜好为例，用户输入“我目前还说不好是不是喜欢周杰伦”，里面既包含关键词“喜欢”，表达的意思却是一种不确定的状态。如果根据里面包含“喜欢”，就认为是喜欢关系，就难免有失偏颇了。这个例子揭示了仅仅根据关键词本身还是无法判断出关系，因为关键词包含的信息有限。对于判断关系所需要的信息比关键词本身所包含的信息大的情形，比如“说不好是不是喜欢”所包含的信息比单独的“喜欢”一词的信息量要大，基于关键词的方法就无能为力了。

为了解决上面的问题，人们通常利用正则表达式来添加更多的限定条件，从而进行关系判断和实体抽取。比如通过正则表达式“我喜欢(.*)”来识别喜欢关系，表示只有句子中包含“我喜欢”的，才算是表达喜欢关系；后面的“(.*)”表示跟在“我喜欢”后面的所有文字，都认为是喜欢的对象，即实体。例如“我喜欢周杰伦”，可以识别到的关系是“喜欢”，实体是“周杰伦”。

基于正则表达式的方法也存在跟基于关键词的方法同样的缺点，即存在大量的误判，连不属于该关系的情形也被识别为该关系。基于正则表达式的方法的另一个缺点是实体提取的功能比较脆弱，常常会提取到错误的实体。比如“我喜欢周杰伦才怪”符合上面的“我喜欢(.*)”模式，而意思却截然相反，用户表达的是不喜欢的关系。如果根据上面的正则，***识别为喜欢的关系，而喜欢的对象是“周杰伦才怪”；这种情况之下，关系和实体皆识别错误。

基于关键词和正则表达式的方法的另一个缺点是难以维护。由于自然语言表达的多样性，需要大量的关键词和正则表达式来覆盖各种各样的情形。而随着关键词和正则表达式的增多，***也会变得很复杂。新增的关键词和正则表达式有可能跟现存在关键词和正则表达式相冲突。更糟的是，这种冲突通常比较隐蔽，人们通常很难事先判断是否存在这种冲突。很多情况是当出现问题之后，通过追踪问题的根源，才发现原来是规则之间的冲突所导致的。

基于SRL或者依存关系来提取实体也不尽完善。由于中文表达的复杂性，SRL或者依存关系本身的准确率就不高。这种准确性不高情况之下，再利用各种规则进行实体识别，其精度也会受到影响，导致实体提取不准确的问题。

综上所述，现有技术的缺陷如下：

1、关系判断不准确的问题。仅仅根据关键词或者正则，没有考虑到句子本身的语义，从而导致关系误判。

2、实体提取不准确的问题。根据正则表达式、SRL、语法分析、依存分析所提取到的实体，容易受到该方法本身存在的精度影响，导致实体提取错误。

3、随着规则的增多，***复杂度变高，很难事先判断新增的规则是否能够与原有的规则兼容，因此***难以维护。

发明内容

针对现有技术中的缺陷，本发明提供的自动识别语句关系和实体的方法及装置，利用深度学习，从语义上对用户输入进行判断，可以精准识别关系；将实体识别建模为序列标注问题，利用条件随机场求解最优标注，从而精准识别实体；结合深度学习和条件随机场，实现了关系和实体的自动化抽取。

第一方面，本发明提供的一种自动识别语句关系和实体的方法，包括：将用户的输入语句投影到一个固定维度的空间中，得到所述输入语句在所述固定维度的空间中的句子向量；将所述句子向量输入预先训练好的深度学习分类器，得到所述输入语句的关系类别；若识别出关系类别，则识别所述输入语句中的实体。

本发明提供的自动识别语句关系和实体的方法，利用深度学习，从语义上对用户的输入语句进行判断，可以精准识别关系，有助于提高实体识别的准确度。

优选地，所述将用户的输入语句投影到一个固定维度的空间中，得到所述输入语句在所述固定维度的空间中的句子向量，包括：对用户的输入语句进行分词；通过查找word2vec词向量，将每个分词转换成对应的词向量；根据每个分词的词向量，得到所述输入语句在一个固定维度的空间中的句子向量。

优选地，所述将所述句子向量输入预先训练好的深度学习分类器，得到所述输入语句的关系类别，包括：将所述句子向量输入CNN层进行卷积操作，得到所述输入语句的局部特征；将所述局部特征输入LSTM层，得到所述输入语句中的前后词之间的关系编码；将所述关系编码输入ReLU层进行非线性变换；将非线性变换结果传递给输出层，得到所述输入语句的关系类别。

优选地，所述深度学习分类器包括多个CNN层。

优选地，所述深度学习分类器包括多个LSTM层。

优选地，所述深度学习分类器的输出层采用Softmax函数或Sigmoid函数。

优选地，所述识别所述输入语句中的实体，包括：将所述输入语句输入CRF模型，得到所述输入语句的最优序列标注，根据所述最优序列标注得到所述输入语句中的实体。

优选地，所述深度学习分类器的训练步骤包括：将训练样本的句子向量输入预先构建的深度学习分类器，经过前馈得到训练样本的预测关系类别LP；通过损失函数F(LP，L)得到loss值，其中，L为样本实际标注的关系类别，loss值为LP与L之间的差异程度，根据所述loss值，使用随机梯度下降来进行梯度反向传播，修改所述深度学习分类器的参数；迭代训练所述深度学习分类器，直到所述深度学习分类器输出的预测关系类别与样本实际标注的关系类别的loss值小于预先设定的阈值，或者迭代次数超过预先设定的次数阈值。

优选地，所述损失函数可以是交叉熵或者均方误差。

第二方面，本发明提供的一种自动识别语句关系和实体的装置，包括：预处理模块，用于将用户的输入语句投影到一个固定维度的空间中，得到所述输入语句在所述固定维度的空间中的句子向量；关系识别模块，用于将所述句子向量输入预先训练好的深度学习分类器，得到所述输入语句的关系类别；实体识别模块，用于若识别出关系类别，则识别所述输入语句中的实体。

本发明提供的自动识别语句关系和实体的装置，利用深度学习，从语义上对用户的输入语句进行判断，可以精准识别关系，有助于提高实体识别的准确度。

附图说明

图1为本发明实施例所提供的一种自动识别语句关系和实体的方法的流程图；

图2为本发明实施例所提供的一种自动识别语句关系和实体的装置的结构框图；

图3为本发明实施例提供的深度学习分类器采用的深度学习架构。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示，本发明实施例提供的一种自动识别语句关系和实体的方法，包括：

步骤S1，将用户的输入语句投影到一个固定维度的空间中，得到输入语句在固定维度的空间中的句子向量。

步骤S2，将句子向量输入预先训练好的深度学习分类器，得到输入语句的关系类别。

步骤S3，若识别出关系类别，则识别输入语句中的实体。

其中，首先实体一定是一个名词，并且实体指代一个独立存在的对象，比如人名或者事物名等，但不包括代词，如“我”“你”“他”等。如，输入语句为“我喜欢周杰伦”，其中的实体为“周杰伦”。

本实施例提供的自动识别语句关系和实体的方法，利用深度学习，从语义上对用户的输入语句进行判断，可以精准识别关系，有助于提高实体识别的准确度。

其中，步骤S1的优选方式如下，包括：

步骤S11，对用户的输入语句进行分词。

步骤S12，通过查找word2vec词向量，将每个分词转换成对应的词向量。

步骤S13，根据每个分词的词向量，得到输入语句在一个固定维度的空间中的句子向量。

其中，步骤S11～步骤S13的具体实现方法如下：

对输入语句进行分词，如果词汇数量超过N，则舍弃超过部分的词汇。N为预先设定的输入语句的词汇数量的最大值，比如N为25。由于用户是以聊天的形式进行输入，N值并不是很大。经过统计，用户的在聊天时，绝大部分的时候输入的字数在10个字以内。

通过查找word2vec词向量，将每个分词转换成对应的词向量。不妨假设每个词向量的维度为M，比如M为300维。其中，Word2vec词向量是离线训练好的，只需调用相关已公开的接口，通过查找Word2vec词向量，将分词词汇转换成对应的词向量。

将这些词向量进行拼接。如果词汇数量不足N，则在后面补0，直到形成NM维的向量。比如N为25，M为300，如果用户输入只有23个词汇，则除了拼接这23个300维的词向量之外，还需要在后面补上2个M维的0向量，即补上2×300个零(即600个零)。此种填充M维0向量的做法叫做padding。

经过以上步骤，可以将输入语句投影到一个固定维度的空间中，比如上面的例子是投影到N×M维空间中，如果N为25，M为300，则投影到25×300维的空间中。

该输入语句在N×M维空间中的向量表示即为该输入语句的句子向量。

其中，步骤S2中的深度学习分类器采用的深度学习架构如图3所示，最底层采用卷积神经网络(Convolutional Neural Network,CNN)，用来对从输入语句中提取的句子向量进行卷积操作，得到输入语句的局部特征，优选采用两层CNN叠加，可以获取到更为抽象的局部特征；该局部特征作为时间递归神经网络(Long Short-Term Memory，LSTM)的输入，经过两层LSTM，对语句中前后词之间的依赖关系进行编码；得到的关系编码再传递给激活函数层(Rectified Linear Units，ReLu)，进行非线性变换；非线性变换结果传递给输出层，最终得到输入语句的关系类别。其中，输出层可以采用Softmax函数或者Sigmoid函数，若采用Softmax函数，则深度学习分类器的输出为多值输出，比如对于喜好分类器，可以建模为多值分类器：喜欢、不喜欢、其他；若采用Sigmoid函数，则深度学习分类器的输出为二值输出，比如对于昵称分类器，可以建模为二值分类器：昵称、其他。

基于上述深度学习架构，通过特定领域的标注数据进行有监督的训练，使得深度学习分类器能够精确高效地识别语句中表示的关系类别，深度学习分类器的训练步骤包括：

步骤S21，将训练样本的句子向量输入预先构建的深度学习分类器，经过前馈(forward pass)得到训练样本的预测关系类别LP。

步骤S22，通过损失函数F(LP，L)得到loss值。其中，LP为预测关系类别，L为样本实际标注的关系类别，loss值衡量了预测关系类别与样本实际标注的关系类别之间的差异程度，F可以是交叉熵(Cross Entropy)或者均方误差(MSE，Mean Squared Error)。

步骤S23，根据loss值，使用随机梯度下降(SGD)来进行backward pass(也叫backpropagation，梯度反向传播)，修改深度学习分类器的参数，使得修改之后的深度学习分类器输出的预测关系类别更接近样本实际标注的关系类别。

步骤S24，迭代训练深度学习分类器，直到深度学习分类器输出的预测关系类别与样本实际标注的关系类别的loss值小于预先设定的阈值，或者迭代次数超过预先设定的次数阈值。

上述深度学习分类器采用的架构，可以很好地建模句子中词汇之间的前后次序关系。由于这个原因，本架构对否定词有相当的敏感性，能够区分诸如“我喜欢周杰伦”和“我喜欢周杰伦才怪”这样的差异，同时也能够识别“我不太喜欢周杰伦”这样表达否定的情形以及“我不是不喜欢周杰伦”这样多重否定的情形。

识别实体可以建模为序列标注问题，具体地说，对语句中的每个字符，标注为BMESO，其中B(Begin)表示是实体的开始字符，M(Middle)表示是实体的中间字符，E(End)表示是实体的结束字符，S(Single)表示单个字符组成的实体。对于非实体的字符，可以用O(Other)进行标注，表示不属于实体的部分。比如“我/喜/欢/周/杰/伦”，可以标记为“我O/喜O/欢O/周B/杰M/伦E”，其中BME合起来，得到“周杰伦”，表示喜欢的实体是“周杰伦”；又比如“我/喜/欢/歌”，可以标记为“我O/喜O/欢O/歌S”，其中S表示单个字符实体，这里喜欢的实体是“歌”。

实体识别问题可以用条件随机场来求解最优标注，从而精准地提取到语句中的实体，因此，步骤S3采用的优选方式如下：将输入语句输入CRF模型，得到输入语句的最优序列标注，根据最优序列标注得到输入语句中的实体。

其中，经过CRF模型得到输入语句的最优序列标注的具体过程如下：

序列标注问题可以通过条件随机场来解决。形式化地，对于给定的输入语句x(即一个字符序列)和基于该序列的标注序列y，条件随机场建模了条件概率：

其中，exp(x)表示e^x，e是自然常数，w是可以训练的权重向量，w^T是向量w的转置，y'是序列x所有可能的标注，F(x,y)是标注序列y在x上的特征向量。该条件概率p(y|x,w)表示了在给定权重w的情形下，将字符序列x标注成标注序列y的可能性大小。

给定n对训练数据{x_i,y_i}，求解下面的目标函数：

可以通过随机梯度下降(SGD)的方法来找到最优的w。

找到最优的w之后，对于每一个可能的标注y'，我们可以计算其对应的p(y'|x,w)的值。最优标注y是使得p(y|x,w)最大的标注序列。为了提高计算性能，可以通过Viterbi算法来寻找最优标注序列。

找到最优标注序列之后，再通过其中的BME或者S标注来精准地提取语句中的实体。

基于与上述自动识别语句关系和实体的方法相同的发明构思，本发明实施例还提供了一种自动识别语句关系和实体的装置，包括：预处理模块101，用于将用户的输入语句投影到一个固定维度的空间中，得到输入语句在固定维度的空间中的句子向量；关系识别模块102，用于将句子向量输入预先训练好的深度学习分类器，得到输入语句的关系类别；实体识别模块103，用于若识别出关系类别，则识别输入语句中的实体。

本发明实施例提供的自动识别语句关系和实体的方法及装置，利用深度学习，从语义上对用户的输入语句进行判断，可以精准识别关系；将实体识别建模为序列标注问题，利用条件随机场求解最优标注，从而精准识别实体；结合深度学习和条件随机场，实现了关系和实体的自动化抽取；利用机器学习，从语义上对关系和实体进行判断，克服了由于自然语言表达多样性所带来影响。比如“我喜欢周杰伦的歌”，“周杰伦的歌是我的最爱”，“爱死周杰伦的歌了”都能够被识别出是在表达“喜欢”关系，而喜欢的对象则是“周杰伦的歌”。另外，本发明实施例提供的方法及***相比传统的方法更易于维护。如果需要增加覆盖率，只需要添加新的数据，训练新的模型即可。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种自动识别语句关系和实体的方法，其特征在于，包括：

将用户的输入语句投影到一个固定维度的空间中，得到所述输入语句在所述固定维度的空间中的句子向量；

将所述句子向量输入预先训练好的深度学习分类器，得到所述输入语句的关系类别；

若识别出关系类别，则识别所述输入语句中的实体。

2.根据权利要求1所述的方法，其特征在于，所述将用户的输入语句投影到一个固定维度的空间中，得到所述输入语句在所述固定维度的空间中的句子向量，包括：

对用户的输入语句进行分词；

通过查找word2vec词向量，将每个分词转换成对应的词向量；

根据每个分词的词向量，得到所述输入语句在一个固定维度的空间中的句子向量。

3.根据权利要求2所述的方法，其特征在于，所述将所述句子向量输入预先训练好的深度学习分类器，得到所述输入语句的关系类别，包括：

将所述句子向量输入CNN层进行卷积操作，得到所述输入语句的局部特征；

将所述局部特征输入LSTM层，得到所述输入语句中的前后词之间的关系编码；

将所述关系编码输入ReLU层进行非线性变换；

将非线性变换结果传递给输出层，得到所述输入语句的关系类别。

4.根据权利要求3所述的方法，其特征在于，所述深度学习分类器包括多个CNN层。

5.根据权利要求3所述的方法，其特征在于，所述深度学习分类器包括多个LSTM层。

6.根据权利要求3所述的方法，其特征在于，所述深度学习分类器的输出层采用Softmax函数或Sigmoid函数。

7.根据权利要求1所述的方法，其特征在于，所述识别所述输入语句中的实体，包括：

将所述输入语句输入CRF模型，得到所述输入语句的最优序列标注，根据所述最优序列标注得到所述输入语句中的实体。

8.根据权利要求1所述的方法，其特征在于，所述深度学习分类器的训练步骤包括：

将训练样本的句子向量输入预先构建的深度学习分类器，经过前馈得到训练样本的预测关系类别LP；

通过损失函数F(LP，L)得到loss值，其中，L为样本实际标注的关系类别，loss值为LP与L之间的差异程度，

根据所述loss值，使用随机梯度下降来进行梯度反向传播，修改所述深度学习分类器的参数；

迭代训练所述深度学习分类器，直到所述深度学习分类器输出的预测关系类别与样本实际标注的关系类别的loss值小于预先设定的阈值，或者迭代次数超过预先设定的次数阈值。

9.根据权利要求8所述的方法，其特征在于，所述损失函数是交叉熵或者均方误差。

10.一种自动识别语句关系和实体的装置，其特征在于，包括：

预处理模块，用于将用户的输入语句投影到一个固定维度的空间中，得到所述输入语句在所述固定维度的空间中的句子向量；

关系识别模块，用于将所述句子向量输入预先训练好的深度学习分类器，得到所述输入语句的关系类别；

实体识别模块，用于若识别出关系类别，则识别所述输入语句中的实体。