CN107133212B

CN107133212B - 一种基于集成学习和词句综合信息的文本蕴涵识别方法

Info

Publication number: CN107133212B
Application number: CN201710311135.3A
Authority: CN
Inventors: 魏薇; 万小军
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2020-06-26
Anticipated expiration: 2037-05-05
Also published as: CN107133212A

Abstract

本发明公开了一种基于集成学习和词句综合信息的文本蕴涵识别方法，涉及语言文字处理领域。目前的中文文本蕴涵识别***主要基于词汇特征、句法特征、知识库、人工定义的规则等，然而词汇、句法信息作为独立特征训练出的模型对数据的拟合度过低，规则、知识库覆盖范围有限。本发明提出加入综合词汇和句法信息的特征来训练分类器，并利用集成学习技术，有效提高文本蕴涵识别的准确性。其包括如下步骤：数据预处理；一致性转化；特征提取；集成学习训练；投票决策分类。本发明适用于各领域句子间蕴涵关系的识别。

Description

一种基于集成学习和词句综合信息的文本蕴涵识别方法

技术领域

本发明涉及语言文字处理领域，特别涉及一种基于集成学习和词句综合信息的文本蕴涵自动识别方法。

背景技术

文本蕴涵关系被定义为两文本段之间的定向关系，根据人类共同的语言理解和共同的背景知识，由一个文本所蕴涵的内容可以推断另一个文本很可能是正确的。文本蕴涵识别技术具有极强的应用前景，信息抽取、问答***、文档摘要和机器翻译等领域都与之有密切联系。文本蕴涵识别评测自2005年以来已经连续举办了11届。文本蕴涵识别评测的开展吸引了大量研究机构的参加，推动了文本蕴涵的研究和发展。自2005年来，关于文本蕴涵识别的优秀论文已陆续发表在国际重要会议和期刊上。

由于文本蕴涵识别在自然语言处理领域的基础性地位，已有多个研究单位发布了针对英文的文本蕴涵识别***，例如意大利威尼斯大学的VENSES，美国伊利诺大学香槟分校的Entailment Demo，日本国立情报学研究所的TIFMO等。国内学术界和工业界则少有针对中文文本蕴涵识别的突破性研究，也很少有相关学术成果发表在重要学术会议和期刊上。

目前的文本蕴涵识别方法主要分为以下几种：基于文本相似度的方法、基于知识库的方法、基于规则的方法，以及基于机器学习的方法。基于文本相似度的方法认为两个文本的相似度越高，文本间存在蕴涵关系的可能性越大,这种方法思想过于简单，忽视了词语间的语义关系，丢失了文本蕴涵关系的方向性，性能一般；基于知识库的方法依赖于基于认知语言学的词典，例如英文的WordNet、中文知网等，由于知识库主要是专业人员手动构建的，词汇之间的语义关系质量较高，信息比较准确，但是知识库资源，尤其是中文资源有限，无法解决中文词语中存在的复杂的语义关系；基于规则的方法主要是设定一系列规则，当满足某一规则或一组规则时得出蕴涵或非蕴涵的结论，对符合规则的实例可以给出准确的判断，但是由于语言表达的多样性，很难用规则覆盖语言中存在的各种现象。本发明主要使用机器学习方法，目前基于机器学习的方法由于所选择的特征比较简单，导致对数据的拟合程度不足，另外由于训练数据较少，模型结果不够稳定。为了克服这些问题，本发明提出抽取综合词汇和句法信息的特征，从而提高拟合效果，并且利用集成学习中的Bagging技术提高模型稳定性，使文本蕴涵识别准确性得以提高。

发明内容

针对当前机器学习方法在文本蕴涵识别任务中的缺陷，本发明提供一种基于集成学习和词句综合信息的文本蕴涵识别方法，该方法通过结合词汇信息和句法信息抽取综合特征，提高对数据的拟合程度，为避免训练数据不足影响模型稳定性，该方法采用集成学习中的Bagging技术进行模型训练。

本发明提出的一种基于集成学习和词句综合信息的文本蕴涵识别方法，包括如下步骤：

(1)对输入的文本句进行预处理和分词纠正；

(2)进行中文数字和时间表达的一致性转化；

(3)提取相似度、词汇、句法以及基于综合信息的特征；

(4)基于集成学习技术的训练和基于投票的分类：

进一步，对输入的文本句进行预处理和分词纠正：

我们使用哈工大语言技术平台(Language Technology Platform,LTP)对t1(推理文本)和t2(假设文本)进行预处理。主要步骤包括分词，词性标注，命名实体识别，依存句法分析。为了提高对t1和t2处理的一致性，在分词步骤之后，进行自动的分词纠正。如果t1和t2中包含相同字串，但只切分方式不同，则进行最长匹配修正。

进一步，进行中文数字和时间表达的一致性转化步骤如下：

中文中数字和时间有多种表达方式，为了后续特征提取中的匹配工作，首先进行数字和时间的表示方法统一化。

数字表示形式包括：汉字、***数字、百分数、小数、分数等。表达不一致可能导致的蕴涵关系判断错误。所以将所有整数统一转换成***数字表示，分数、小数、百分数统一转换成小数表示且小数点后保留两位。

中文时间表示也有多种形式，包括：2015年9月28日、20150928、二零一五年九月二十八日等。统一转化为“2015年9月28日”的形式。世纪、时、分、秒同理转化成“***数字+单位”的形式。

进一步，提取相似度、词汇、句法以及基于综合信息的特征步骤如下：

我们使用四维向量表示重合度特征：[句长比例，unigram重合度，bigram重合度，最大公共子串长度]。

我们用十维向量表示词汇特征：[时间矛盾，数字矛盾，实体矛盾，方位矛盾，否定词，极端词，同义词，反义词，上位词，下位词]。其中，对于时间矛盾，数字矛盾，实体矛盾，方位矛盾，我们认为时间、数字、人名、地名、机构名、方位词在句中表达了关键信息，如果t2中出现的以上信息在t1中找不到推理来源，则两个句子倾向于不具有蕴涵关系。时间、数字、方位通过词性标注信息筛选，实体通过命名实体识别筛选。在时间匹配中，考虑时间范围的匹配。在实体、方位的匹配中，考虑同义词的匹配。t2中不能找到匹配信息的时间/数字/实体/方位词个数作为特征的值。对于否定词，用t1和t2中否定词个数之差的绝对值作为特征的值。对于极端词，极端词指程度级别较高的词，对于t2中出现的极端词，在t1中寻找推理来源，使用Hownet发布的“情感分析用词语集”中的程度级别词语词典筛选出t1和t2中的极端词，在匹配时，考虑同义词的匹配。t2中不能找到匹配信息的极端词个数作为特征的值。对于同义词，反义词，上位词，下位词：对t2中的词在t1中查找匹配，同义匹配、反义匹配、上位匹配、下位匹配的个数作为特征的值。

我们用六维向量表示句法特征：[主谓关系，动宾关系，主谓-动宾，介宾关系，定中关系，状中关系]。对于主谓，动宾，介宾，定中，状中关系，用t2中的句法依赖关系对，在t1中查找匹配.。对于主谓-动宾关系，用t2中的主谓关系，在t1中查找相应的动宾关系，或对于t2中的动宾关系，在t1中查找相应的主谓关系。

上述的特征分别单独考虑了相似度信息，词汇信息和句法信息，由于一些词汇信息，尤其是上下位词，需要借助句法信息的约束才能更好的区分正负例，为了解决这一问题，我们加入一组基于词汇-句法综合信息的特征，用四维向量表示：[主语上位，宾语上位，主语下位，宾语下位]。以主语上位为例：对于t2中的词w2i，它是t1中w1j的上位词，且在依存句法中是主语角色，则是一个主语上位。特征的值为t2中这样词的个数。

进一步，基于集成学习技术的训练和基于投票的分类步骤如下：

我们使用尝试各种分类算法，最终选用SVM分类器，采用RBF核函数。为了分类的稳定性和预测的准确性，我们采用集成学习技术，集成学习的思路是在对新的实例进行分类的时候，把若干个单个分类器集成起来，通过对多个分类器的分类结果进行某种组合来决定最终的分类，以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。具体来说，我们使用Bagging策略。每次从训练样例中随机抽样70％，训练出一个分类器。重复9次，构造出9个不同的分类器。对于一个新的要预测的实例，我们使用9个分类器同时分类，最后投票得出最终分类结果。

本发明的效果在于：利用基于词汇和句法的综合信息，通过集成学***均每0.017s处理一对文本。

附图说明

图1是本发明所提供的基于集成学习和词句综合信息的文本蕴涵识别方法的流程图；

具体实施方式

下面结合实施例和附图进一步阐明本发明所述的技术方案：

如图1所示，一种基于智能模板选择的短新闻自动写稿方法，包括如下步骤：

(1)对输入的文本句进行预处理和分词纠正：

我们使用哈工大语言技术平台(Language Technology Platform,LTP)对t1(推理文本)和t2(假设文本)进行预处理。主要步骤包括分词，词性标注，命名实体识别，依存句法分析。为了提高对t1和t2处理的一致性，在分词步骤之后，进行自动的分词纠正。如果t1和t2中包含相同字串，但只切分方式不同，则进行最长匹配修正。例如：

则用“失聪者”替换t2中的“失聪/者”。

(2)进行中文数字和时间表达的一致性转化：

数字表示形式包括：汉字、***数字、百分数、小数、分数等。表达不一致可能导致的蕴涵关系判断错误。所以将所有整数统一转换成***数字表示，分数、小数、百分数统一转换成小数表示且小数点后保留两位。例如：

转换为

(3)提取相似度、词汇、句法以及基于综合信息的特征；

我们使用四维向量表示重合度特征：[句长比例，unigram重合度，bigram重合度，最大公共子串长度]。其中，句长比例指根据分词结果统计t1和t2中的单词个数，则句长比例＝t2词数/t1词数。Unigram重合度指句子中每个单词作为一个Unigram，则Unigram重合度＝t1和t2公共单词数/t2词数。Bigram重合度指句子中两个连续的词作为一个Bigram，则Bigram重合度＝t1和t2公共Bigram数/t2中Bigram。最大公共子串长度中公共子串指t1和t2中连续出现的单词串，长度指词语个数占比，则最大公共子串长度＝最大公共子串中词数/t2词数。

我们用十维向量表示词汇特征：[时间矛盾，数字矛盾，实体矛盾，方位矛盾，否定词，极端词，同义词，反义词，上位词，下位词]。其中，对于时间矛盾，数字矛盾，实体矛盾，方位矛盾，我们认为时间、数字、人名、地名、机构名、方位词在句中表达了关键信息，如果t2中出现的以上信息在t1中找不到推理来源，则两个句子倾向于不具有蕴涵关系。时间、数字、方位通过词性标注信息筛选，实体通过命名实体识别筛选。在时间匹配中，考虑时间范围的匹配。例如：

“20世纪之前”可以由1889年推出。在实体、方位的匹配中，考虑同义词的匹配。t2中不能找到匹配信息的时间/数字/实体/方位词个数作为特征的值。对于否定词，用t1和t2中否定词个数之差的绝对值作为特征的值。对于极端词，极端词指程度级别较高的词，对于t2中出现的极端词，在t1中寻找推理来源，使用Hownet发布的“情感分析用词语集”中的程度级别词语词典筛选出t1和t2中的极端词，在匹配时，考虑同义词的匹配。t2中不能找到匹配信息的极端词个数作为特征的值。对于同义词，反义词，上位词，下位词：对t2中的词在t1中查找匹配，同义匹配、反义匹配、上位匹配、下位匹配的个数作为特征的值。

我们用六维向量表示句法特征：[主谓关系，动宾关系，主谓-动宾，介宾关系，定中关系，状中关系]。对于主谓，动宾，介宾，定中，状中关系，用t2中的句法依赖关系对，在t1中查找匹配.。以主谓关系为例，特征的值为主谓关系匹配对数/t2中主谓关系总数。例如：

t2中有一对主谓关系，“使用者-是”，但在t1中不存在这对主谓关系，所以特征的值为0。对于主谓-动宾关系，用t2中的主谓关系，在t1中查找相应的动宾关系，或对于t2中的动宾关系，在t1中查找相应的主谓关系。特征的值为匹配数/t2中主谓关系和动宾关系总数。例如：上例中t2的主谓关系“使用者-是”可以在t1中找到相应的动宾关系“是-使用者”

上述的特征分别单独考虑了相似度信息，词汇信息和句法信息，由于一些词汇信息，尤其是上下位词，需要借助句法信息的约束才能更好的区分正负例，为了解决这一问题，我们加入一组基于词汇-句法综合信息的特征，用四维向量表示：[主语上位，宾语上位，主语下位，宾语下位]。以主语上位为例：对于t2中的词w_2i，它是t1中w_1j的上位词，且在依存句法中是主语角色，则是一个主语上位。特征的值为t2中这样词的个数。

(4)基于集成学习Bagging技术的训练和基于投票的分类：

我们使用Python机器学习包sklearn中的各种分类算法，最终选用其中表现最好的SVM分类器，采用RBF核函数。为了分类的稳定性和预测的准确性，我们采用集成学习技术，集成学习的思路是在对新的实例进行分类的时候，把若干个单个分类器集成起来，通过对多个分类器的分类结果进行某种组合来决定最终的分类，以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。具体来说，我们使用Bagging策略。每次从训练样例中随机抽样70％，训练出一个分类器。重复9次，构造出9个不同的分类器。对于一个新的要预测的实例，我们使用9个分类器同时分类，最后投票得出最终分类结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims

1.一种基于集成学习和词句综合信息的文本蕴涵识别方法，其特征在于，该方法通过结合词汇信息和句法信息抽取综合特征，提高对数据的拟合程度，并通过集成学习提高分类稳定性，具体包括如下步骤：

(1)对输入的文本句进行预处理和分词纠正；

(2)进行中文数字和时间表达的一致性转化；

(3)提取相似度、词汇、句法以及基于综合信息的特征；具体做法如下：

使用向量表示相似度特征、词汇特征、句法特征；

时间、数字、人名、地名、机构名、方位词在句中表达了关键信息，如果假设文本中出现的以上信息在推理文本中找不到推理来源，则两个句子倾向于不具有蕴涵关系，时间、数字、方位通过词性标注信息筛选，实体通过命名实体识别筛选，在时间匹配中，考虑时间范围的匹配，在实体、方位的匹配中，考虑同义词的匹配，对于否定词，用t1和t2中否定词个数之差的绝对值作为特征的值，对于极端词，极端词指程度级别较高的词，对于t2中出现的极端词，在t1中寻找推理来源，对于同义词，反义词，上位词，下位词，对t2中的词在t1中查找匹配，同义匹配、反义匹配、上位匹配、下位匹配的个数作为特征的值；

对于主谓，动宾，介宾，定中，状中关系，用t2中的句法依赖关系对，在t1中查找匹配；对于主谓-动宾关系，用t2中的主谓关系，在t1中查找相应的动宾关系，或对于t2中的动宾关系，在t1中查找相应的主谓关系；

上述的特征分别单独考虑了相似度信息，词汇信息和句法信息，由于一些词汇信息，需要借助句法信息的约束才能更好的区分正负例，加入一组基于词汇-句法综合信息的特征，用四维向量表示：[主语上位，宾语上位，主语下位，宾语下位]，以主语上位为例：对于t2中的词w2i，它是t1中w1j的上位词，且在依存句法中是主语角色，则是一个主语上位，特征的值为t2中这样词的个数；

(4)基于集成学习技术的训练和基于投票的分类。

2.根据权利要求1所述的基于集成学习和词句综合信息的文本蕴涵识别方法，其特征在于，对输入的文本句进行预处理和分词纠正，其具体做法如下：

对推理文本(t1)和假设文本(t2)进行预处理，主要步骤包括分词，词性标注，命名实体识别，依存句法分析，为了提高对推理文本和假设文本处理的一致性，在分词步骤之后，进行自动的分词纠正，如果推理文本和假设文本中包含相同字串，但只切分方式不同，则进行修正。

3.根据权利要求1所述的基于集成学习和词句综合信息的文本蕴涵识别方法，其特征在于，进行中文数字和时间表达的一致性转化，具体做法如下：

中文中数字和时间有多种表达方式，为了后续特征提取中的匹配工作，首先进行数字和时间的表示方法统一化，数字表示形式包括：汉字、***数字、百分数、小数、分数，中文时间表示有多种形式，分别选定一种表示方法，将数字和时间进行统一的表示方法转换。

4.根据权利要求1所述的基于集成学习和词句综合信息的文本蕴涵识别方法，其特征在于，基于集成学习技术的训练和基于投票的分类，具体做法如下：

使用SVM分类器，采用RBF核函数，为了分类的稳定性和预测的准确性，采用集成学习技术，集成学习的思路是在对新的实例进行分类的时候，把若干个单个分类器集成起来，通过对多个分类器的分类结果进行某种组合来决定最终的分类，以取得比单个分类器更好的性能，如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策，具体来说使用Bagging策略，每次从训练样例中随机抽样，训练出一个分类器，重复若干次，构造出若干个不同的分类器，对于一个新的要预测的实例，使用上述若干分类器同时分类，最后投票得出最终分类结果。