CN110968665A - 一种基于梯度增强决策树的上下位词关系识别方法 - Google Patents

一种基于梯度增强决策树的上下位词关系识别方法 Download PDF

Info

Publication number
CN110968665A
CN110968665A CN201911086620.0A CN201911086620A CN110968665A CN 110968665 A CN110968665 A CN 110968665A CN 201911086620 A CN201911086620 A CN 201911086620A CN 110968665 A CN110968665 A CN 110968665A
Authority
CN
China
Prior art keywords
sample
word
path
samples
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911086620.0A
Other languages
English (en)
Other versions
CN110968665B (zh
Inventor
潘翔
阮义彰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201911086620.0A priority Critical patent/CN110968665B/zh
Publication of CN110968665A publication Critical patent/CN110968665A/zh
Application granted granted Critical
Publication of CN110968665B publication Critical patent/CN110968665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于梯度增强决策树的上下位词关系识别方法,本发明将上述问题建模为一个两类任务,以确定一个实体对是否为上下位实体关系。为了训练分类模型,输入是实体对及其路径信息,输出是1(对于上下关系)或0(对于没有上下关系)。通过联合训练两个分类器,得到了一个基于正分类结果的高置信度推荐集。该模型通过不断迭代高置信度集来快速适应无标记语料库文本的规则模式。本发明可更好的挖掘电商域的上下位词关系。

Description

一种基于梯度增强决策树的上下位词关系识别方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于梯度增强决策树的上下位词关系识别方法。
背景技术
实体间的上下位关系的自动挖掘与验证是电子商务中的一项重要任务。上下位关系表示了一种通用实体(hypernym)和它的一个具体实例(hyponym)之间的关系。例如电器和冰箱。在电子商务中,挖掘这种下位关系有助于更好地理解用户查询和商品推荐。
然而,在电子商务中,这一任务面临着许多挑战。首先,网络上的文本语料库往往含有大量的噪声,文本更新频繁。噪声使得一般方法难以从电子商务文本中获取有效信息。高频率的更新使得在标记新单词和专有单词上浪费了大量的劳动力成本。第二,目前已知的商品实体大约有10亿(包括大量同构词)。假设类别树中的每个节点至少有一个根节点(y),并且其关联的叶节点(x)大于或等于0。那么商品实体的类目树将是巨大的。这就需要一个良好的召回率,同时确保准确性的方法。针对电子商务领域语料库文本的特殊性,借鉴其半监督思想,提出了一种基于联合训练的梯度增强决策树方法。该方法可以自动挖掘出特定域文本和噪声文本中的上下超词实体关系。从已有发明的各种实体关系挖掘方法来看,所有的实体关系挖掘方法也可以分为有监督的、半监督的和无监督的。其中在二分类学习中,多个分类器训练联合在一起比单独学习具有更高的准确性。这个方法要求相关任务要共享相似的表示。bootstrapping方法是基于少量标记样本训练分类器,然后利用当前模型中的高可信样本迭代地增大训练集。bootstrapping善于通过小样本引导种子引入新的或大型的电子商务无标签文本语料库。但是这种方法在多次迭代后出现了“语义漂移”的问题。为了减少半监督学习迭代中不断引入的误差,一种方法是对不同类别样本进行交叉训练,防止精度下降;或者通过特征空间的条件独立分割来减少标记误差的偏差。其他非bootstrapping技术利用同的提取方法,产生独立的错误,从而激发多个提取器的预测。这些预测结果组合起来提高提取的准确性。除了这些以外,还有一些方法使用了两种互补的方法来处理上下位实体关系挖掘:基于分布式方法和基于路径的方法。分布式方法来寻找实体关系是十分优秀的。但有些基于路径的方法用递归神经网络编码,其结果可与分布方法相媲美。
上下位词关系挖掘在复杂文本种的挖掘方法对于电商域可实际解决的业务需求和问题现状主要包括:
一、用户在搜索商品时,通过上下位词扩充搜索内容,减少二次搜索提高用户体验。
二、增加商品信息召回。在不改变维度的情况下,提高召回信息精度丰富召回信息量。
三、提高场景卡片在应用场景可以多次利用。
四、对商品域的相关词汇进行分层成类目,属性,属性值,辅助分类树体系的构成。
五、对热点新词进行定位。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于梯度增强决策树的上下位词关系识别方法,本发明将上述问题建模为一个两类任务,以确定一个实体对是否为上下位实体关系。为了训练分类模型,输入是实体对及其路径信息,输出是1(对于上下关系)或0(对于没有上下关系)。通过联合训练两个分类器,得到了一个基于正分类结果的高置信度推荐集。该模型通过不断迭代高置信度集来快速适应无标记语料库文本的规则模式。本发明可更好的挖掘电商域的上下位词关系。
本发明是通过以下技术方案达到上述目的:一种基于梯度增强决策树的上下位词关系识别方法,包括如下步骤:
(1)随机错位样本训练集的构建;
(2)基于路径的样本训练集的构建;
(3)根据构建得到的随机错位样本训练集、基于路径的样本训练集对半监督联合梯度增强决策树模型进行训练,并利用训练好的模型进行上下位词关系识别。
作为优选,所述的随机错位样本训练集的构建方法为:
(1.1)基于Alibaba Word Segmenter词法分析***对语料文本进行分词;并从已有的词库中提取上下位词对进行匹配,结合词对之间的文本构造正样本;
(1.2)将成功匹配的词对上下位词错位,作为负样本词对;采用错位词对在文本进行匹配,构建随机错位负样本;
(1.3)将上述步骤得到的正负样本结合,构建得到随机错位样本训练集。
作为优选,所述基于路径的样本训练集的构建方法为:
(2.1)将语料文本碎片化,记作Ssplit=Split({S1,S2,S3,…,Sn});(2.2)取随机错位样本中的错位词对,与语料文本进行匹配,得到含错位上下位词对的句子集合S<x,y>={S<x1,y1>,S<x2,y2>,S<x3,y3>,…,S<xn,yn>};(2.3)将错位词对之间的路径取出,记作P={P1,P2,P3…,Pn};
(2.4)将这些路径提取后与语料碎片{S1,S2,S3,…,Sn}进行匹配,匹配成功后查询碎片原型句,取路径P′前后第一个但不是原有错位词对的词作为基于路径的负样本词对;与正样本结合得到基于路径的样本训练集。
作为优选,所述的语料碎片化采用Ngarm算法,枚举所有连续的分词构成的句子碎片,每一个分词记作长度1,取路径长度不大于5的片段。
作为优选,所述的半监督联合梯度增强决策树模型为加法模型,学习算法为前向分步算法,基函数为CART树;损失函数是均方误差函数损失,即:
Figure BDA0002265607880000041
则负梯度:
Figure BDA0002265607880000042
其中,y-f(x)即为残差;输出是:分类树F(x)。
作为优选,所述的半监督联合梯度增强决策树训练方法如下:
输入:文本语料库T,预先训练的词嵌入和最大迭代I;
(i)对T进行数据预处理,提取两类训练样本Xp和Xd,其中Xp为基于路径的样本训练集,Xd为随机错位样本训练集;
(ii)利用词嵌入W将每个训练样本转换成向量表示;
(iii)设
Figure BDA0002265607880000051
Figure BDA0002265607880000052
X′p表示路径样本,X′d表示随机错位样本;
(iv)分别使用Xp∪X′p和Xd∪X′d用训练两个分类器f1和f2
(v)对未标记样本进行预测,选择置信度高的正性样本作对新的训练样本X′p和X′d进行扩展;
(vi)循环步骤(iv)与步骤(v),直到X′p和X′d不在出现新的已标注样本;
输出:两个分类器和测试样本的预测标签。
本发明的有益效果在于:本发明可完成复杂文本的样本构建,在无标注实体的预测打标;本发明分析了电商域文本的特点,通过substring,patter,规则学习等方式总结了一些电商域的上下位词对,可更好的挖掘电商域的上下位词关系。
附图说明
图1是本发明的方法流程示意图;
图2是本发明实施例的随机错位样本训练集的构建示意图;
图3是本发明实施例的基于路径样本训练集的构建示意图;
图4是本发明实施例的梯度增强决策树模型训练流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,一种基于梯度增强决策树的上下位词关系识别方法,包括如下步骤:
(1)随机错位样本训练集的构建,如图2所示,具体如下:
先通过基于AliWS(Alibaba Word Segmenter的简称)词法分析***对语料文本进行分词。再从已有的词库中提取上下位词对进行匹配,结合词对之间的文本构造正样本。将成功匹配的词对上下位词错位,作为负样本词对。再用错位词对在文本进行匹配构建随即错位负样本,如:
(1)<苹果是一种水果>
(2)<苹果等水果>
(3)<狗是一种动物>
错位后由<苹果,水果>,<狗,动物>变成<苹果,动物><狗,水果>。然后在语料中寻找与之匹配的句路径。筛选后得到如:
(1)<苹果对于热带的动物>
(2)<狗不会吃水果>
将错位词对和他们的路径信息作为整体构造成负样本。正负样本结合结合构成随机错位样本训练集。
其中取两个词对之间的路径需要满足:
1.词个数不超过5个词的长度,如“是一种”长度为3。
2.排除非上下词对中包含“一”,“否”,“不”,单个词字节长度小于2的词对。
3.当语料中无法匹配到同时包含两个词对时,则无法根据这个词对构建出训练语料。
基于以上得到的词模式特征向量表示,将词语对的词嵌入和词模式特征向量拼接,利用最终拼接的特征向量做为词语对的表示。计算过程如式下所示:
Figure BDA0002265607880000071
Figure BDA0002265607880000072
Figure BDA0002265607880000073
Figure BDA0002265607880000074
Figure BDA0002265607880000075
即为给定词对<x,y>的路径所表示的向量。
(2)基于路径的样本训练集的构建,如图3所示,具体如下:首先,将语料文本碎片化,记作Ssplit=Split({S1,S2,S3,…,Sn})。语料碎片化利用的是Ngarm算法,枚举所有连续的分词构成的句子碎片,每一个分词记作长度1,取路径长度不大于5的片段。如“火龙果是一种玫瑰红的水果”长度为7的句子碎片化后得:
(1)火龙果
(2)火龙果是
(3)火龙果是一
(4)火龙果是一种
(5)火龙果是一种玫瑰
等28种片段。
取随机错位样本中的错位词对,与语料文本进行匹配,得到含错位上下位词对的句子集合S<x,y>={S<x1,y1>,S<x2,y2>,S<x3,y3>,…,S<xn,yn>}例如:
(1)S<x1,y1>=<苹果对于热带的动物>
(2)S<x2,y2>=<狗不会吃水果>
将错位词对之间的路径取出,记作P={P1,P2,P3…,Pn}。将这些路径提取后与语料碎片{S1,S2,S3,…,Sn}进行匹配。匹配成功后查询碎片原型句,取路径P′前后第一个但不是原有错位词对的词作为路径负样本词对。如:
P1=<对于热带的>
P2=<不会吃>
与文本碎片匹配后得到语句:
S′=<这样的温度对于热带的动物是非常合适的>
S″=<寒冷的天气人们不会吃寒食>
可以得到基于路径的负样本词对<温度,动物>,<人们,寒食>。最后与正样本合并得到基于路径的样本训练集。
(3)根据构建得到的随机错位样本训练集、基于路径的样本训练集对半监督联合梯度增强决策树模型进行训练,构建训练流程如图4所示;并利用训练好的模型进行上下位词关系识别。
构建了两种训练样本后,即随机错位样本和基于路径的样本,就开始构建半监督联合梯度增强决策树模型训练。基于错位的样本在构造时改变了路径300的维和下位词的100维向量,基于路径的样本在构造时改变了上位词和下位词共200维向量。
所述的半监督联合梯度增强决策树训练方法如下:
输入:文本语料库T,预先训练的词嵌入和最大迭代I;
(i)对T进行数据预处理,提取两类训练样本Xp和Xd,其中Xp为基于路径的样本训练集,Xd为随机错位样本训练集;
(ii)利用词嵌入W将每个训练样本转换成向量表示;
(iii)设
Figure BDA0002265607880000092
Figure BDA0002265607880000093
X′p表示路径样本,X′d表示随机错位样本;
(iv)分别使用Xp∪X′p和Xd∪X′d用训练两个分类器f1和f2
(v)对未标记样本进行预测,选择置信度高的正性样本作对新的训练样本X′p和X′d进行扩展;
(vi)循环步骤(iv)与步骤(v),直到X′p和X′d不在出现新的已标注样本;
输出:两个分类器和测试样本的预测标签。
上下位词的关系挖掘本质上是一个二分类任务。梯度增强决策树在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。使用的梯度增强决策树模型为加法模型,学习算法为前向分步算法,基函数为CART树。损失函数是均方误差函数损失,即:
Figure BDA0002265607880000091
则负梯度:
Figure BDA0002265607880000101
而y-f(x)即为残差,每次迭代中模型通过拟合残差来学习一个弱分类器。对弱分类器的要求一般是足够简单,并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。核心就在于,每一弱分类器学的是之前所有分类器结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。模型的输入是已打标样本,分为路径样本和错位样本两种。label为标签,因为是二分类任务,所以label用[1,0]表示是上下位词对或非上下位词对。格式如下:
Figure BDA0002265607880000102
输出是:分类树F(x)。
主要步骤分为:
(1)初始化:C为估计使损失函数极小化的常数值,它是只有一个根节点的树,一般平方损失函数为节点的均值
Figure BDA0002265607880000103
(2)对m=1,2,3,…,M:
(a)对样本i=1,2,3…,N,计算残差;
Figure BDA0002265607880000111
(b)对{(x1,rm1),…,(xN,rmN)}拟合一个分类树,得到第m棵树的叶节点区域Rmj,j=1,2,…,J
(c)对j=1,2,…,J,利用线性搜索,估计叶节点区域的值,使损失函数最小化,计算
Figure BDA0002265607880000112
K表示第m棵树的第j个节点中的样本数量。上式表示cmj的取值位第m棵树的第j个节点中残差的平均数。
(d)更新使损失函数极小化,I为控制负梯度的参数。
Figure BDA0002265607880000113
(3)得到最终的分类树:
Figure BDA0002265607880000114
得到梯度增强决策树分类函数后,将未打标数据T′1做路径样本构建处理后放入分类树进行预测。步骤如下:
输入为:
Figure BDA0002265607880000115
Figure BDA0002265607880000121
(4)训练的时候,是针对样本X每个可能的类都训练一个分类回归树。训练集共有两类,是上下位关系或者非上下位词关系,对样本<x,y>,预测结果0表示非上下位词关系,1表示是上下位词关系。对多轮迭代训练后产生两颗树,对新来一个样本<x’,y’>的类别预测值分别是F1(x),F2(x),则样本属于某个类别c的概率为:
Figure BDA0002265607880000122
通过构建不同的样本训练两个分类器取同一个样本在两个分类器上预测结果都大于0.8的样本作为高置信度样本。
当文本{T1,T2,T3,…,Tn}不存在交集时,新文本T2产生的高置信集审核后直接将添加到训练集中。此时增长率:
Figure BDA0002265607880000123
当半监督模型学习第n个互不相交的文本的高置信度集时,增长率趋向于0:
Figure BDA0002265607880000124
当文本{T′1,T′2,T′3,...,T′N},对于任意两个文本T′n,T′m存在交集时
T′n∪T′m=T′n\T′m+T′n∩T′m+T′m\Tn
即对于T′1新增T′m,T′n文本的效果等价于新增T′n\T′m+T′n∩T′m+T′m\T′n。取交集的意思上下位词对的交集。
那么当新增n个文档时,
Figure BDA0002265607880000131
即再文本间存在交集时,任意n个文本可以拆成最多
Figure BDA0002265607880000136
个互不相交的文本。在学习第n个文本时,假设i≠j,文本增长率为:
Figure BDA0002265607880000132
设T′i\T′j=T′ij,T′i\T′j=T′ji,T′i∩T′j=T′(j,i)且T′ij,T′ji,T′(j,i)互不相交,则:
Figure BDA0002265607880000133
当n→N时
Figure BDA0002265607880000134
由于
Figure BDA0002265607880000137
在完全不相交时涉及到的名词数量相同
Figure BDA0002265607880000135
所以当n→N即文本趋向于加入全量文本时,新增信息量趋向于0。若对于任意T′i,学习T′i时模型的增长率大于等于0,则当i趋向于无穷大时,模型增长率趋向于0;所以模型收敛。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (6)

1.一种基于梯度增强决策树的上下位词关系识别方法,其特征在于,包括如下步骤:
(1)随机错位样本训练集的构建;
(2)基于路径的样本训练集的构建;
(3)根据构建得到的随机错位样本训练集、基于路径的样本训练集对半监督联合梯度增强决策树模型进行训练,并利用训练好的模型进行上下位词关系识别。
2.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的随机错位样本训练集的构建方法为:
(1.1)基于Alibaba Word Segmenter词法分析***对语料文本进行分词;并从已有的词库中提取上下位词对进行匹配,结合词对之间的文本构造正样本;
(1.2)将成功匹配的词对上下位词错位,作为负样本词对;采用错位词对在文本进行匹配,构建随机错位负样本;
(1.3)将上述步骤得到的正负样本结合,构建得到随机错位样本训练集。
3.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述基于路径的样本训练集的构建方法为:
(2.1)将语料文本碎片化,记作Ssplit=Split({S1,S2,S3,…,Sn});
(2.2)取随机错位样本中的错位词对,与语料文本进行匹配,得到含错位上下位词对的句子集合S<x,y>={S<x1,y1>,S<x2,y2>,S<x3,y3>,…,S<xn,yn>};
(2.3)将错位词对之间的路径取出,记作P={P1,P2,P3…,Pn};
(2.4)将这些路径提取后与语料碎片{S1,S2,S3,…,Sn}进行匹配,匹配成功后查询碎片原型句,取路径P′前后第一个但不是原有错位词对的词作为基于路径的负样本词对;与正样本结合得到基于路径的样本训练集。
4.根据权利要求3所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的语料碎片化采用Ngarm算法,枚举所有连续的分词构成的句子碎片,每一个分词记作长度1,取路径长度不大于5的片段。
5.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的半监督联合梯度增强决策树模型为加法模型,学习算法为前向分步算法,基函数为CART树;损失函数是均方误差函数损失,即:
Figure FDA0002265607870000021
则负梯度:
Figure FDA0002265607870000022
其中,y-f(x)即为残差;输出是:分类树F(x)。
6.根据权利要求1所述的一种基于梯度增强决策树的上下位词关系识别方法,其特征在于:所述的半监督联合梯度增强决策树训练方法如下:
输入:文本语料库T,预先训练的词嵌入和最大迭代I;
(i)对T进行数据预处理,提取两类训练样本Xp和Xd,其中Xp为基于路径的样本训练集,Xd为随机错位样本训练集;
(ii)利用词嵌入W将每个训练样本转换成向量表示;
(iii)设
Figure FDA0002265607870000031
Figure FDA0002265607870000032
X′p表示路径样本,X′d表示随机错位样本;
(iv)分别使用Xp∪X′p和Xd∪X′d用训练两个分类器f1和f2
(v)对未标记样本进行预测,选择置信度高的正性样本作对新的训练样本X′p和X′d进行扩展;
(vi)循环步骤(iv)与步骤(v),直到X′p和X′d不在出现新的已标注样本;
输出:两个分类器和测试样本的预测标签。
CN201911086620.0A 2019-11-08 2019-11-08 一种基于梯度增强决策树的上下位词关系识别方法 Active CN110968665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911086620.0A CN110968665B (zh) 2019-11-08 2019-11-08 一种基于梯度增强决策树的上下位词关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911086620.0A CN110968665B (zh) 2019-11-08 2019-11-08 一种基于梯度增强决策树的上下位词关系识别方法

Publications (2)

Publication Number Publication Date
CN110968665A true CN110968665A (zh) 2020-04-07
CN110968665B CN110968665B (zh) 2022-09-23

Family

ID=70030486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911086620.0A Active CN110968665B (zh) 2019-11-08 2019-11-08 一种基于梯度增强决策树的上下位词关系识别方法

Country Status (1)

Country Link
CN (1) CN110968665B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2008202384A1 (en) * 2008-05-23 2009-12-10 O'Collins, Frank Anthony Mr Ucadia Semantic Classification System
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN108733702A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2008202384A1 (en) * 2008-05-23 2009-12-10 O'Collins, Frank Anthony Mr Ucadia Semantic Classification System
CN108733702A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN107506486A (zh) * 2017-09-21 2017-12-22 北京航空航天大学 一种基于实体链接的关系扩充方法
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭茂盛等: "文本蕴含关系识别与知识获取研究进展及展望", 《计算机学报》 *

Also Published As

Publication number Publication date
CN110968665B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN107330032B (zh) 一种基于递归神经网络的隐式篇章关系分析方法
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN108182295B (zh) 一种企业知识图谱属性抽取方法及***
CN108829722B (zh) 一种远程监督的Dual-Attention关系分类方法及***
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN111694924A (zh) 一种事件抽取方法和***
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN106649561A (zh) 面向税务咨询业务的智能问答***
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN101561805A (zh) 文档分类器生成方法和***
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN110210036A (zh) 一种意图识别方法及装置
CN112131876A (zh) 一种基于相似度确定标准问题的方法及***
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN116932661A (zh) 一种面向网络安全的事件知识图谱构建方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及***
CN112115259A (zh) 一种特征词驱动的文本多标签层次分类方法和***
Katumullage et al. Using neural network models for wine review classification
CN113722439B (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及***
Parvathi et al. Identifying relevant text from text document using deep learning
Hassan et al. Reviews Sentiment analysis for collaborative recommender system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant