CN107133212B - 一种基于集成学习和词句综合信息的文本蕴涵识别方法 - Google Patents

一种基于集成学习和词句综合信息的文本蕴涵识别方法 Download PDF

Info

Publication number
CN107133212B
CN107133212B CN201710311135.3A CN201710311135A CN107133212B CN 107133212 B CN107133212 B CN 107133212B CN 201710311135 A CN201710311135 A CN 201710311135A CN 107133212 B CN107133212 B CN 107133212B
Authority
CN
China
Prior art keywords
information
word
text
matching
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710311135.3A
Other languages
English (en)
Other versions
CN107133212A (zh
Inventor
魏薇
万小军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710311135.3A priority Critical patent/CN107133212B/zh
Publication of CN107133212A publication Critical patent/CN107133212A/zh
Application granted granted Critical
Publication of CN107133212B publication Critical patent/CN107133212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于集成学习和词句综合信息的文本蕴涵识别方法,涉及语言文字处理领域。目前的中文文本蕴涵识别***主要基于词汇特征、句法特征、知识库、人工定义的规则等,然而词汇、句法信息作为独立特征训练出的模型对数据的拟合度过低,规则、知识库覆盖范围有限。本发明提出加入综合词汇和句法信息的特征来训练分类器,并利用集成学习技术,有效提高文本蕴涵识别的准确性。其包括如下步骤:数据预处理;一致性转化;特征提取;集成学习训练;投票决策分类。本发明适用于各领域句子间蕴涵关系的识别。

Description

一种基于集成学习和词句综合信息的文本蕴涵识别方法
技术领域
本发明涉及语言文字处理领域,特别涉及一种基于集成学习和词句综合信息的文本蕴涵自动识别方法。
背景技术
文本蕴涵关系被定义为两文本段之间的定向关系,根据人类共同的语言理解和共同的背景知识,由一个文本所蕴涵的内容可以推断另一个文本很可能是正确的。文本蕴涵识别技术具有极强的应用前景,信息抽取、问答***、文档摘要和机器翻译等领域都与之有密切联系。文本蕴涵识别评测自2005年以来已经连续举办了11届。文本蕴涵识别评测的开展吸引了大量研究机构的参加,推动了文本蕴涵的研究和发展。自2005年来,关于文本蕴涵识别的优秀论文已陆续发表在国际重要会议和期刊上。
由于文本蕴涵识别在自然语言处理领域的基础性地位,已有多个研究单位发布了针对英文的文本蕴涵识别***,例如意大利威尼斯大学的VENSES,美国伊利诺大学香槟分校的Entailment Demo,日本国立情报学研究所的TIFMO等。国内学术界和工业界则少有针对中文文本蕴涵识别的突破性研究,也很少有相关学术成果发表在重要学术会议和期刊上。
目前的文本蕴涵识别方法主要分为以下几种:基于文本相似度的方法、基于知识库的方法、基于规则的方法,以及基于机器学习的方法。基于文本相似度的方法认为两个文本的相似度越高,文本间存在蕴涵关系的可能性越大,这种方法思想过于简单,忽视了词语间的语义关系,丢失了文本蕴涵关系的方向性,性能一般;基于知识库的方法依赖于基于认知语言学的词典,例如英文的WordNet、中文知网等,由于知识库主要是专业人员手动构建的,词汇之间的语义关系质量较高,信息比较准确,但是知识库资源,尤其是中文资源有限,无法解决中文词语中存在的复杂的语义关系;基于规则的方法主要是设定一系列规则,当满足某一规则或一组规则时得出蕴涵或非蕴涵的结论,对符合规则的实例可以给出准确的判断,但是由于语言表达的多样性,很难用规则覆盖语言中存在的各种现象。本发明主要使用机器学习方法,目前基于机器学习的方法由于所选择的特征比较简单,导致对数据的拟合程度不足,另外由于训练数据较少,模型结果不够稳定。为了克服这些问题,本发明提出抽取综合词汇和句法信息的特征,从而提高拟合效果,并且利用集成学习中的Bagging技术提高模型稳定性,使文本蕴涵识别准确性得以提高。
发明内容
针对当前机器学习方法在文本蕴涵识别任务中的缺陷,本发明提供一种基于集成学习和词句综合信息的文本蕴涵识别方法,该方法通过结合词汇信息和句法信息抽取综合特征,提高对数据的拟合程度,为避免训练数据不足影响模型稳定性,该方法采用集成学习中的Bagging技术进行模型训练。
本发明提出的一种基于集成学习和词句综合信息的文本蕴涵识别方法,包括如下步骤:
(1)对输入的文本句进行预处理和分词纠正;
(2)进行中文数字和时间表达的一致性转化;
(3)提取相似度、词汇、句法以及基于综合信息的特征;
(4)基于集成学习技术的训练和基于投票的分类:
进一步,对输入的文本句进行预处理和分词纠正:
我们使用哈工大语言技术平台(Language Technology Platform,LTP)对t1(推理文本)和t2(假设文本)进行预处理。主要步骤包括分词,词性标注,命名实体识别,依存句法分析。为了提高对t1和t2处理的一致性,在分词步骤之后,进行自动的分词纠正。如果t1和t2中包含相同字串,但只切分方式不同,则进行最长匹配修正。
进一步,进行中文数字和时间表达的一致性转化步骤如下:
中文中数字和时间有多种表达方式,为了后续特征提取中的匹配工作,首先进行数字和时间的表示方法统一化。
数字表示形式包括:汉字、***数字、百分数、小数、分数等。表达不一致可能导致的蕴涵关系判断错误。所以将所有整数统一转换成***数字表示,分数、小数、百分数统一转换成小数表示且小数点后保留两位。
中文时间表示也有多种形式,包括:2015年9月28日、20150928、二零一五年九月二十八日等。统一转化为“2015年9月28日”的形式。世纪、时、分、秒同理转化成“***数字+单位”的形式。
进一步,提取相似度、词汇、句法以及基于综合信息的特征步骤如下:
我们使用四维向量表示重合度特征:[句长比例,unigram重合度,bigram重合度,最大公共子串长度]。
我们用十维向量表示词汇特征:[时间矛盾,数字矛盾,实体矛盾,方位矛盾,否定词,极端词,同义词,反义词,上位词,下位词]。其中,对于时间矛盾,数字矛盾,实体矛盾,方位矛盾,我们认为时间、数字、人名、地名、机构名、方位词在句中表达了关键信息,如果t2中出现的以上信息在t1中找不到推理来源,则两个句子倾向于不具有蕴涵关系。时间、数字、方位通过词性标注信息筛选,实体通过命名实体识别筛选。在时间匹配中,考虑时间范围的匹配。在实体、方位的匹配中,考虑同义词的匹配。t2中不能找到匹配信息的时间/数字/实体/方位词个数作为特征的值。对于否定词,用t1和t2中否定词个数之差的绝对值作为特征的值。对于极端词,极端词指程度级别较高的词,对于t2中出现的极端词,在t1中寻找推理来源,使用Hownet发布的“情感分析用词语集”中的程度级别词语词典筛选出t1和t2中的极端词,在匹配时,考虑同义词的匹配。t2中不能找到匹配信息的极端词个数作为特征的值。对于同义词,反义词,上位词,下位词:对t2中的词在t1中查找匹配,同义匹配、反义匹配、上位匹配、下位匹配的个数作为特征的值。
我们用六维向量表示句法特征:[主谓关系,动宾关系,主谓-动宾,介宾关系,定中关系,状中关系]。对于主谓,动宾,介宾,定中,状中关系,用t2中的句法依赖关系对,在t1中查找匹配.。对于主谓-动宾关系,用t2中的主谓关系,在t1中查找相应的动宾关系,或对于t2中的动宾关系,在t1中查找相应的主谓关系。
上述的特征分别单独考虑了相似度信息,词汇信息和句法信息,由于一些词汇信息,尤其是上下位词,需要借助句法信息的约束才能更好的区分正负例,为了解决这一问题,我们加入一组基于词汇-句法综合信息的特征,用四维向量表示:[主语上位,宾语上位,主语下位,宾语下位]。以主语上位为例:对于t2中的词w2i,它是t1中w1j的上位词,且在依存句法中是主语角色,则是一个主语上位。特征的值为t2中这样词的个数。
进一步,基于集成学习技术的训练和基于投票的分类步骤如下:
我们使用尝试各种分类算法,最终选用SVM分类器,采用RBF核函数。为了分类的稳定性和预测的准确性,我们采用集成学习技术,集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。具体来说,我们使用Bagging策略。每次从训练样例中随机抽样70%,训练出一个分类器。重复9次,构造出9个不同的分类器。对于一个新的要预测的实例,我们使用9个分类器同时分类,最后投票得出最终分类结果。
本发明的效果在于:利用基于词汇和句法的综合信息,通过集成学***均每0.017s处理一对文本。
附图说明
图1是本发明所提供的基于集成学习和词句综合信息的文本蕴涵识别方法的流程图;
具体实施方式
下面结合实施例和附图进一步阐明本发明所述的技术方案:
如图1所示,一种基于智能模板选择的短新闻自动写稿方法,包括如下步骤:
(1)对输入的文本句进行预处理和分词纠正:
我们使用哈工大语言技术平台(Language Technology Platform,LTP)对t1(推理文本)和t2(假设文本)进行预处理。主要步骤包括分词,词性标注,命名实体识别,依存句法分析。为了提高对t1和t2处理的一致性,在分词步骤之后,进行自动的分词纠正。如果t1和t2中包含相同字串,但只切分方式不同,则进行最长匹配修正。例如:
Figure BDA0001287138990000051
则用“失聪者”替换t2中的“失聪/者”。
(2)进行中文数字和时间表达的一致性转化:
中文中数字和时间有多种表达方式,为了后续特征提取中的匹配工作,首先进行数字和时间的表示方法统一化。
数字表示形式包括:汉字、***数字、百分数、小数、分数等。表达不一致可能导致的蕴涵关系判断错误。所以将所有整数统一转换成***数字表示,分数、小数、百分数统一转换成小数表示且小数点后保留两位。例如:
Figure BDA0001287138990000061
转换为
Figure BDA0001287138990000062
中文时间表示也有多种形式,包括:2015年9月28日、20150928、二零一五年九月二十八日等。统一转化为“2015年9月28日”的形式。世纪、时、分、秒同理转化成“***数字+单位”的形式。
(3)提取相似度、词汇、句法以及基于综合信息的特征;
我们使用四维向量表示重合度特征:[句长比例,unigram重合度,bigram重合度,最大公共子串长度]。其中,句长比例指根据分词结果统计t1和t2中的单词个数,则句长比例=t2词数/t1词数。Unigram重合度指句子中每个单词作为一个Unigram,则Unigram重合度=t1和t2公共单词数/t2词数。Bigram重合度指句子中两个连续的词作为一个Bigram,则Bigram重合度=t1和t2公共Bigram数/t2中Bigram。最大公共子串长度中公共子串指t1和t2中连续出现的单词串,长度指词语个数占比,则最大公共子串长度=最大公共子串中词数/t2词数。
我们用十维向量表示词汇特征:[时间矛盾,数字矛盾,实体矛盾,方位矛盾,否定词,极端词,同义词,反义词,上位词,下位词]。其中,对于时间矛盾,数字矛盾,实体矛盾,方位矛盾,我们认为时间、数字、人名、地名、机构名、方位词在句中表达了关键信息,如果t2中出现的以上信息在t1中找不到推理来源,则两个句子倾向于不具有蕴涵关系。时间、数字、方位通过词性标注信息筛选,实体通过命名实体识别筛选。在时间匹配中,考虑时间范围的匹配。例如:
Figure BDA0001287138990000071
“20世纪之前”可以由1889年推出。在实体、方位的匹配中,考虑同义词的匹配。t2中不能找到匹配信息的时间/数字/实体/方位词个数作为特征的值。对于否定词,用t1和t2中否定词个数之差的绝对值作为特征的值。对于极端词,极端词指程度级别较高的词,对于t2中出现的极端词,在t1中寻找推理来源,使用Hownet发布的“情感分析用词语集”中的程度级别词语词典筛选出t1和t2中的极端词,在匹配时,考虑同义词的匹配。t2中不能找到匹配信息的极端词个数作为特征的值。对于同义词,反义词,上位词,下位词:对t2中的词在t1中查找匹配,同义匹配、反义匹配、上位匹配、下位匹配的个数作为特征的值。
我们用六维向量表示句法特征:[主谓关系,动宾关系,主谓-动宾,介宾关系,定中关系,状中关系]。对于主谓,动宾,介宾,定中,状中关系,用t2中的句法依赖关系对,在t1中查找匹配.。以主谓关系为例,特征的值为主谓关系匹配对数/t2中主谓关系总数。例如:
Figure BDA0001287138990000081
t2中有一对主谓关系,“使用者-是”,但在t1中不存在这对主谓关系,所以特征的值为0。对于主谓-动宾关系,用t2中的主谓关系,在t1中查找相应的动宾关系,或对于t2中的动宾关系,在t1中查找相应的主谓关系。特征的值为匹配数/t2中主谓关系和动宾关系总数。例如:上例中t2的主谓关系“使用者-是”可以在t1中找到相应的动宾关系“是-使用者”
上述的特征分别单独考虑了相似度信息,词汇信息和句法信息,由于一些词汇信息,尤其是上下位词,需要借助句法信息的约束才能更好的区分正负例,为了解决这一问题,我们加入一组基于词汇-句法综合信息的特征,用四维向量表示:[主语上位,宾语上位,主语下位,宾语下位]。以主语上位为例:对于t2中的词w2i,它是t1中w1j的上位词,且在依存句法中是主语角色,则是一个主语上位。特征的值为t2中这样词的个数。
(4)基于集成学习Bagging技术的训练和基于投票的分类:
我们使用Python机器学习包sklearn中的各种分类算法,最终选用其中表现最好的SVM分类器,采用RBF核函数。为了分类的稳定性和预测的准确性,我们采用集成学习技术,集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。具体来说,我们使用Bagging策略。每次从训练样例中随机抽样70%,训练出一个分类器。重复9次,构造出9个不同的分类器。对于一个新的要预测的实例,我们使用9个分类器同时分类,最后投票得出最终分类结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims (4)

1.一种基于集成学习和词句综合信息的文本蕴涵识别方法,其特征在于,该方法通过结合词汇信息和句法信息抽取综合特征,提高对数据的拟合程度,并通过集成学习提高分类稳定性,具体包括如下步骤:
(1)对输入的文本句进行预处理和分词纠正;
(2)进行中文数字和时间表达的一致性转化;
(3)提取相似度、词汇、句法以及基于综合信息的特征;具体做法如下:
使用向量表示相似度特征、词汇特征、句法特征;
时间、数字、人名、地名、机构名、方位词在句中表达了关键信息,如果假设文本中出现的以上信息在推理文本中找不到推理来源,则两个句子倾向于不具有蕴涵关系,时间、数字、方位通过词性标注信息筛选,实体通过命名实体识别筛选,在时间匹配中,考虑时间范围的匹配,在实体、方位的匹配中,考虑同义词的匹配,对于否定词,用t1和t2中否定词个数之差的绝对值作为特征的值,对于极端词,极端词指程度级别较高的词,对于t2中出现的极端词,在t1中寻找推理来源,对于同义词,反义词,上位词,下位词,对t2中的词在t1中查找匹配,同义匹配、反义匹配、上位匹配、下位匹配的个数作为特征的值;
对于主谓,动宾,介宾,定中,状中关系,用t2中的句法依赖关系对,在t1中查找匹配;对于主谓-动宾关系,用t2中的主谓关系,在t1中查找相应的动宾关系,或对于t2中的动宾关系,在t1中查找相应的主谓关系;
上述的特征分别单独考虑了相似度信息,词汇信息和句法信息,由于一些词汇信息,需要借助句法信息的约束才能更好的区分正负例,加入一组基于词汇-句法综合信息的特征,用四维向量表示:[主语上位,宾语上位,主语下位,宾语下位],以主语上位为例:对于t2中的词w2i,它是t1中w1j的上位词,且在依存句法中是主语角色,则是一个主语上位,特征的值为t2中这样词的个数;
(4)基于集成学习技术的训练和基于投票的分类。
2.根据权利要求1所述的基于集成学习和词句综合信息的文本蕴涵识别方法,其特征在于,对输入的文本句进行预处理和分词纠正,其具体做法如下:
对推理文本(t1)和假设文本(t2)进行预处理,主要步骤包括分词,词性标注,命名实体识别,依存句法分析,为了提高对推理文本和假设文本处理的一致性,在分词步骤之后,进行自动的分词纠正,如果推理文本和假设文本中包含相同字串,但只切分方式不同,则进行修正。
3.根据权利要求1所述的基于集成学习和词句综合信息的文本蕴涵识别方法,其特征在于,进行中文数字和时间表达的一致性转化,具体做法如下:
中文中数字和时间有多种表达方式,为了后续特征提取中的匹配工作,首先进行数字和时间的表示方法统一化,数字表示形式包括:汉字、***数字、百分数、小数、分数,中文时间表示有多种形式,分别选定一种表示方法,将数字和时间进行统一的表示方法转换。
4.根据权利要求1所述的基于集成学习和词句综合信息的文本蕴涵识别方法,其特征在于,基于集成学习技术的训练和基于投票的分类,具体做法如下:
使用SVM分类器,采用RBF核函数,为了分类的稳定性和预测的准确性,采用集成学习技术,集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能,如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策,具体来说使用Bagging策略,每次从训练样例中随机抽样,训练出一个分类器,重复若干次,构造出若干个不同的分类器,对于一个新的要预测的实例,使用上述若干分类器同时分类,最后投票得出最终分类结果。
CN201710311135.3A 2017-05-05 2017-05-05 一种基于集成学习和词句综合信息的文本蕴涵识别方法 Active CN107133212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710311135.3A CN107133212B (zh) 2017-05-05 2017-05-05 一种基于集成学习和词句综合信息的文本蕴涵识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710311135.3A CN107133212B (zh) 2017-05-05 2017-05-05 一种基于集成学习和词句综合信息的文本蕴涵识别方法

Publications (2)

Publication Number Publication Date
CN107133212A CN107133212A (zh) 2017-09-05
CN107133212B true CN107133212B (zh) 2020-06-26

Family

ID=59731445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710311135.3A Active CN107133212B (zh) 2017-05-05 2017-05-05 一种基于集成学习和词句综合信息的文本蕴涵识别方法

Country Status (1)

Country Link
CN (1) CN107133212B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717408B (zh) * 2018-05-11 2023-08-22 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及***
CN109032780A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 一种语义网服务接口装置
CN110889274B (zh) * 2018-08-17 2022-02-08 北大方正集团有限公司 信息质量评估方法、装置、设备及计算机可读存储介质
CN111368506B (zh) * 2018-12-24 2023-04-28 阿里巴巴集团控股有限公司 文本处理方法及装置
CN113051918B (zh) * 2019-12-26 2024-05-14 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN111914560B (zh) * 2020-07-31 2023-01-31 平安科技(深圳)有限公司 文本蕴含关系识别方法、装置、设备及存储介质
CN112580070B (zh) * 2020-12-04 2022-09-16 河南大学 一种基于前缀字典树的rbac角色分层辅助构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101238459A (zh) * 2005-05-13 2008-08-06 柯廷技术大学 比较文本文件
CN103425640A (zh) * 2012-05-14 2013-12-04 华为技术有限公司 一种多媒体问答***及方法
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7313515B2 (en) * 2006-05-01 2007-12-25 Palo Alto Research Center Incorporated Systems and methods for detecting entailment and contradiction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101238459A (zh) * 2005-05-13 2008-08-06 柯廷技术大学 比较文本文件
CN103425640A (zh) * 2012-05-14 2013-12-04 华为技术有限公司 一种多媒体问答***及方法
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Learning to Recognize Textual Entailment in Japanese Texts;MINH QUANG NHAT PHAM;《ACM Transactions on Asian Language Information Processing》;20121231;第11卷(第4期);第1-23页 *
Minh-Tien Nguyen.Recognizing Textual Entailment in Vietnamese Text: An Experimental Study.《2015 Seventh International Conference on Knowledge and Systems Engineering》.2015, *
Recognizing Textual Entailment in Vietnamese Text: An Experimental Study;Minh-Tien Nguyen;《2015 Seventh International Conference on Knowledge and Systems Engineering》;20151010;第108-112页 *
基于集成方法的文本蕴涵识别;梅荣月;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第3期);第I138-7645页 *
文本蕴含识别研究;王志浩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815(第8期);第I138-1622页,论文第17-24页,第29-34页 *

Also Published As

Publication number Publication date
CN107133212A (zh) 2017-09-05

Similar Documents

Publication Publication Date Title
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110188347B (zh) 一种面向文本的知识主题间认知关系抽取方法
Louis et al. What makes writing great? First experiments on article quality prediction in the science journalism domain
CN110851599B (zh) 一种中文作文自动评分方法及教辅***
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
Suleiman et al. Comparative study of word embeddings models and their usage in Arabic language applications
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
Rahimi et al. An overview on extractive text summarization
US11170169B2 (en) System and method for language-independent contextual embedding
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
Othman et al. Learning english and arabic question similarity with siamese neural networks in community question answering services
Stathopoulos et al. Variable typing: Assigning meaning to variables in mathematical text
Zheng et al. Learning context-specific word/character embeddings
Lahbari et al. Arabic question classification using machine learning approaches
Wahbeh et al. Comparative assessment of the performance of three WEKA text classifiers applied to arabic text
CN104573030A (zh) 一种文本情绪预测方法及装置
Chandra et al. A literature survey on various approaches of word sense disambiguation
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
CN109543036A (zh) 基于语义相似度的文本聚类方法
CN113761128A (zh) 领域同义词典与模式匹配相结合的事件关键信息抽取方法
Barteld et al. Token-based spelling variant detection in Middle Low German texts
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
Hassani et al. Disambiguating spatial prepositions using deep convolutional networks
Rondon et al. Never-ending multiword expressions learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant