CN112215000B - 一种基于实体替换的文本分类方法 - Google Patents

一种基于实体替换的文本分类方法 Download PDF

Info

Publication number
CN112215000B
CN112215000B CN202011131161.6A CN202011131161A CN112215000B CN 112215000 B CN112215000 B CN 112215000B CN 202011131161 A CN202011131161 A CN 202011131161A CN 112215000 B CN112215000 B CN 112215000B
Authority
CN
China
Prior art keywords
document
vector
entity
disambiguation
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011131161.6A
Other languages
English (en)
Other versions
CN112215000A (zh
Inventor
刘洪涛
章家涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011131161.6A priority Critical patent/CN112215000B/zh
Publication of CN112215000A publication Critical patent/CN112215000A/zh
Application granted granted Critical
Publication of CN112215000B publication Critical patent/CN112215000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明请求保护一种基于实体替换的文本分类方法,属于自然语言处理领域,具体包括以下步骤:(1)利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合;(2)将文档词向量求平均,得到文档的上下文向量;(3)分别计算各锚定短语对应实体在上下文表示向量下的注意力权重,得到各短语的去歧向量(4)将原文位置上的锚定短语替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将其输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;(5)利用训练好的模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。该方法能够消除文档中词语语义含糊不清的情况,并且保留了语序信息和上下文信息,可以更准确地对文本内容进行分类。

Description

一种基于实体替换的文本分类方法
技术领域
本发明属于自然语言处理领域,特别是涉及一种基于实体替换的文本分类方法。
背景技术
文本分类是自然语言处理的一项重要任务,指的是在一个被事先定义好的固定类别中根据文本的特征将给定的文本对象进行分类的技术。其广泛应用于例如主题分类、垃圾邮件检测和情感分类等诸多场景。近年来,深度学***均、卷积神经网络(CNN)或循环神经网络(RNN)等方法将这些向量组合起来捕获文档的语义。
除了上述方法,还有研究尝试使用知识库(KB)中的实体来捕获语义信息。这种方法使用一组与文档相关的实体(或实体袋)来表示文档。使用实体的好处在于:与词不同,实体提供了明确的语义信息,因为它们在知识库中是唯一标识的,而词可能存在语义含糊不清的现象(如:“苹果”可以指水果,也可以指苹果公司,在不同的语境下可能有不同的含义)。但是,如之前使用词袋模型的方法一样,只简单地使用一组实体表示文档会丢失掉语序信息。同时,一些非实体的描述性文字也同样具有丰富的信息。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种通过找出合适的实体来替换掉原文中语义模糊的词,在解决语义模糊问题的同时还保留了语序信息和原文中的描述性信息的基于实体替换的文本分类方法。本发明的技术方案如下:
一种基于实体替换的文本分类方法,其包括以下步骤:
S1:利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合;
S2:将文档词向量获得的实体集合来求嵌入矩阵求平均,得到文档的上下文向量;
S3:分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各实体的去歧向量;
S4:将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将去歧后的文档表示向量输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;
S5:利用训练好的模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。
进一步的,所述步骤S1中,利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合,包括以下步骤:
S11:定义“实体”为知识库中确定,无歧义的对象;“锚定短语”为字面形式的文字,一个锚定短语可对应多个实体,一个实体也可以由多个锚定短语来表示;
S12:在外部资料库Wikipedia中收集所有的锚定短语,对于每一个锚定短语s,将所有与其有连接的实体{e1,e2,...eK}作为它的实体字典,所有的锚定短语与其实体字典共同构成Wikipedia字典;
S13:抽取出文档T中所有n-grams短语(n≤k),n-grams短语指由n个词构成的短语,如果一个n-grams可以在Wikipedia字典中作为锚定短语存在,并且有至少两个对应的实体,那么就把这个n-grams加入候选锚定短语,对于有矛盾覆盖的n-grams短语,采取“最先最长”的方法,即选取最长的最先出现的n-grams短语,一个文档中的所有锚定短语表示为:
U(T)={c1,c2,...}
第i个锚定短语对应的实体集合表示为:
E(ci)={e1,e2,...}。
进一步的,所述步骤S2中,将文档词向量求平均,得到文档的上下文向量,包括以下步骤:
S21:使用Wikipedia2Vec工具进行预训练,得到单词和实体的嵌入矩阵,令文档中第i个词的词向量
Figure BDA0002735206930000035
表示x是d维向量),
Figure BDA0002735206930000036
表示d维空间,d表示维度数,文档长度为n,则句子表示为:
x1:n=[x1;x2;...;xn]
S22:对文档T,将词向量求平均,得到文档的上下文向量,计算公式如下:
Figure BDA0002735206930000031
其中,C为文档的上下文向量。
进一步的,所述步骤S3中,分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各锚定短语的去歧向量,包括以下步骤:
S31:借助步骤S21中Wikipedia2Vec工具预训练的嵌入矩阵,得到步骤S1中匹配到的实体对应的向量表示,令文档中第i个锚定短语对应的第j个实体向量
Figure BDA0002735206930000032
S32:对于每个锚定短语,计算其对应的实体向量在步骤S2中得到的上下文表示向量下的注意力权重,然后对实体向量加权求和,得到各锚定短语的去歧向量,计算公式如下:
Figure BDA0002735206930000033
Figure BDA0002735206930000034
其中,αij为文档第i个锚定短语对应的第j个实体在上下文C下的注意力权重,v为文档第i个锚定短语对应实体的个数,zi为文档第i个锚定短语的去歧向量。
进一步的,所述步骤S4中,将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将其输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络,包括以下步骤:
S41:将原文档的锚定短语替换为步骤S3所得的对应去歧向量,则文档可表示为T=[x1;...;z1;...;zv;...;xn],zv表示最后一个去歧向量,xn表示最后一个原文词向量,为方便描述,记为[l1;...;lr],其中r为替换后所含向量数目;
S42:对于文档T,将词向量和去歧向量按照顺序依次输入到一个双向的长短时记忆网络中,对于长短期记忆网络的正向,依次输入l1,...,lr,对于长短期记忆网络的反向,则依次输入lr,...,l1;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求和,得到最终去歧后的文档表示向量,计算公式如下:
Figure BDA0002735206930000041
Figure BDA0002735206930000042
Figure BDA0002735206930000043
Figure BDA0002735206930000044
其中,li为文档表示中第i个向量,f为长短时记忆网络中隐层状态计算函数,
Figure BDA0002735206930000045
表示文档中第i个向量在正向长短时记忆网络中的隐层状态向量,
Figure BDA0002735206930000046
表示文档中第i个向量在反向长短时记忆网络中的隐层状态向量,o为文档的去歧向量;
S43:将文档的去歧向量输入到全连接层,并使用softmax归一化,计算文档属于各类别的概率,最后以对数似然函数为损失函数,通过随机梯度下降,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
p=softmax(Wco+bc)
Figure BDA0002735206930000051
其中,Wc为全连接层权重矩阵,bc为偏置项,softmax是归一化操作,p为文档属于各个类别的概率,x为训练集中的文档,y为其真实类别标签,θ为模型参数。
本发明的优点及有益效果如下:
本发明提供了一种基于实体替换的文本分类方法,利用知识库以及注意力机制找出合适的实体来替换掉原文中语义模糊的词,得到去除歧义后的文档表示向量。在解决语义模糊问题的同时还保留了语序信息和原文中的描述性信息。从而提升了模型对文档的语义的理解,更可靠准确地对文档进行分类。
本发明主要创新是将文档原文中对应位置的语义不清的短语或词语替换为知识库中的无歧义实体,这样相对于只找出实体并将其视作无序集合的方法而言,保留了语序信息和其他描述性信息。对于每一个有歧义的短语,都使用注意力机制找出短语最有可能的实体,提高了确定实体的准确性。
附图说明
图1是本发明提供优选实施例的流程图;
图2为本发明提供的基于实体替换的文本分类方法的网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明主要提供了一种基于实体替换的文本分类方法。采用图1所示处理流程。利用知识库找出与文档相关的实体集,利用图2所示注意力机制来选择正确的实体并替换掉原文中语义模糊的词,得到去除歧义后的文档表示向量,在解决语义模糊问题的同时还保留了语序信息和原文中的描述性信息。
本发明的一种基于实体替换的文本分类方法包括以下步骤:
S1:利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合;
本实施例中,具体实现S1的子步骤如下:
S11:定义“实体”为知识库中确定,无歧义的对象;“锚定短语”为字面形式的文字。一个锚定短语可对应多个实体,一个实体也可以由多个锚定短语来表示;
S12:在外部资料库Wikipedia中收集所有的锚定短语,对于每一个锚定短语s,将所有与其有连接的实体{e1,e2,...eK}作为它的实体字典。所有的锚定短语与其实体字典共同构成Wikipedia字典;
S13:抽取出文档T中所有n-grams短语(n≤k),如果一个n-grams可以在Wikipedia字典中作为锚定短语存在,并且有至少两个对应的实体,那么就把这个n-grams加入候选锚定短语。一个文档中的所有锚定短语表示为:
U(T)={c1,c2,...}
第i个锚定短语对应的实体集合表示为:
E(ci)={e1,e2,...}
S2:将文档词向量求平均,得到文档的上下文向量;
本实施例中,具体实现S2的子步骤如下:
S21:使用Wikipedia2Vec工具进行预训练,得到单词和实体的嵌入矩阵,令文档中第i个词的词向量
Figure BDA0002735206930000061
文档长度为n,则句子表示为:
x1:n=[x1;x2;...;xn]
S22::对文档T,将词向量求平均,得到文档的上下文向量,计算公式如下:
Figure BDA0002735206930000062
其中,C为文档的上下文向量。
S3:分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各实体的去歧向量;
本实施例中,具体实现S3的子步骤如下:
S31:借助步骤S21中Wikipedia2Vec工具预训练的嵌入矩阵,得到步骤S1中匹配到的实体对应的向量表示。令文档中第i个锚定短语对应的第j个实体向量
Figure BDA0002735206930000073
S32:对于每个锚定短语,计算其对应的实体向量在步骤S2中得到的上下文表示向量下的注意力权重,然后对实体向量加权求和,得到各锚定短语的去歧向量。计算公式如下:
Figure BDA0002735206930000071
Figure BDA0002735206930000072
其中,αij为文档第i个锚定短语对应的第j个实体在上下文C下的注意力权重,v为文档第i个锚定短语对应实体的个数,zi为文档第i个锚定短语的去歧向量。
S4:将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将其输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;
本实施例中,具体实现S4的子步骤如下:
S41:将原文档的锚定短语替换为步骤S3所得的其对应去歧向量,则文档可表示为T=[x1;...;z1;...;zv;...;xn],为方便描述,记为[l1;...;lr],其中r为替换后所含向量数目;
S42:对于文档T,将词向量和去歧向量按照顺序依次输入到一个双向的长短时记忆网络中,对于长短期记忆网络的正向,依次输入l1,...,lr,对于长短期记忆网络的反向,则依次输入lr,...,l1;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求和,得到最终去歧后的文档表示向量。计算公式如下:
Figure BDA0002735206930000081
Figure BDA0002735206930000082
Figure BDA0002735206930000083
Figure BDA0002735206930000084
其中,li为文档表示中第i个向量,f为长短时记忆网络中隐层状态计算函数,
Figure BDA0002735206930000085
表示文档中第i个向量在正向长短时记忆网络中的隐层状态向量,
Figure BDA0002735206930000086
表示文档中第i个向量在反向长短时记忆网络中的隐层状态向量,o为文档的去歧向量;
S43:将文档的去歧向量输入到全连接层,并使用softmax归一化,计算文档属于各类别的概率,最后以对数似然函数为损失函数,通过随机梯度下降,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,计算
公式如下:
p=softmax(Wco+bc)
Figure BDA0002735206930000087
其中,Wc为全连接层权重矩阵,bc为偏置项,softmax是归一化操作,p为文档属于各个类别的概率,x为训练集中的文档,y为其真实类别标签,θ为模型参数。
S5:利用训练好的模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (1)

1.一种基于实体替换的文本分类方法,其特征在于,包括以下步骤:
S1:利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合;
S2:将文档词向量获得的实体集合来求嵌入矩阵求平均,得到文档的上下文向量;
S3:分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各实体的去歧向量;
S4:将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将去歧后的文档表示向量输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;
S5:利用训练好的模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出;
所述步骤S1中,利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合,包括以下步骤:
S11:定义“实体”为知识库中确定,无歧义的对象;“锚定短语”为字面形式的文字,一个锚定短语可对应多个实体,一个实体也可以由多个锚定短语来表示;
S12:在外部资料库Wikipedia中收集所有的锚定短语,对于每一个锚定短语s,将所有与其有连接的实体{e1,e2,...eK}作为它的实体字典,所有的锚定短语与其实体字典共同构成Wikipedia字典;
S13:抽取出文档T中所有n-grams短语(n≤k),n-grams短语指由n个词构成的短语,如果一个n-grams可以在Wikipedia字典中作为锚定短语存在,并且有至少两个对应的实体,那么就把这个n-grams加入候选锚定短语,对于有矛盾覆盖的n-grams短语,采取“最先最长”的方法,即选取最长的最先出现的n-grams短语,一个文档中的所有锚定短语表示为:
U(T)={c1,c2,...}
第i个锚定短语对应的实体集合表示为:
E(ci)={e1,e2,...};
所述步骤S2中,将文档词向量求平均,得到文档的上下文向量,包括以下步骤:
S21:使用Wikipedia2Vec工具进行预训练,得到单词和实体的嵌入矩阵,令文档中第i个词的词向量
Figure FDA0003668348440000021
表示x是d维向量,
Figure FDA0003668348440000022
表示d维空间,d表示维度数,文档长度为n,则句子表示为:
x1:n=[x1;x2;...;xn]
S22:对文档T,将词向量求平均,得到文档的上下文向量,计算公式如下:
Figure FDA0003668348440000023
其中,C为文档的上下文向量;
所述步骤S3中,分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各锚定短语的去歧向量,包括以下步骤:
S31:借助步骤S21中Wikipedia2Vec工具预训练的嵌入矩阵,得到步骤S1中匹配到的实体对应的向量表示,令文档中第i个锚定短语对应的第j个实体向量
Figure FDA0003668348440000024
S32:对于每个锚定短语,计算其对应的实体向量在步骤S2中得到的上下文表示向量下的注意力权重,然后对实体向量加权求和,得到各锚定短语的去歧向量,计算公式如下:
Figure FDA0003668348440000025
Figure FDA0003668348440000026
其中,αij为文档第i个锚定短语对应的第j个实体在上下文C下的注意力权重,v为文档第i个锚定短语对应实体的个数,zi为文档第i个锚定短语的去歧向量;
所述步骤S4中,将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将其输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络,包括以下步骤:
S41:将原文档的锚定短语替换为步骤S3所得的对应去歧向量,则文档可表示为T=[x1;...;z1;...;zv;...;xn],zv表示最后一个去歧向量,xn表示最后一个原文词向量,为方便描述,记为[l1;...;lr],其中r为替换后所含向量数目;
S42:对于文档T,将词向量和去歧向量按照顺序依次输入到一个双向的长短时记忆网络中,对于长短期记忆网络的正向,依次输入l1,...,lr,对于长短期记忆网络的反向,则依次输入lr,...,l1;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求和,得到最终去歧后的文档表示向量,计算公式如下:
Figure FDA0003668348440000031
Figure FDA0003668348440000032
Figure FDA0003668348440000033
Figure FDA0003668348440000034
其中,li为文档表示中第i个向量,f为长短时记忆网络中隐层状态计算函数,
Figure FDA0003668348440000035
表示文档中第i个向量在正向长短时记忆网络中的隐层状态向量,
Figure FDA0003668348440000036
表示文档中第i个向量在反向长短时记忆网络中的隐层状态向量,o为文档的去歧向量;
S43:将文档的去歧向量输入到全连接层,并使用softmax归一化,计算文档属于各类别的概率,最后以对数似然函数为损失函数,通过随机梯度下降,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
p=softmax(Wco+bc)
Figure FDA0003668348440000041
其中,Wc为全连接层权重矩阵,bc为偏置项,softmax是归一化操作,p为文档属于各个类别的概率,x为训练集中的文档,y为其真实类别标签,θ为模型参数。
CN202011131161.6A 2020-10-21 2020-10-21 一种基于实体替换的文本分类方法 Active CN112215000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011131161.6A CN112215000B (zh) 2020-10-21 2020-10-21 一种基于实体替换的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011131161.6A CN112215000B (zh) 2020-10-21 2020-10-21 一种基于实体替换的文本分类方法

Publications (2)

Publication Number Publication Date
CN112215000A CN112215000A (zh) 2021-01-12
CN112215000B true CN112215000B (zh) 2022-08-23

Family

ID=74056225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011131161.6A Active CN112215000B (zh) 2020-10-21 2020-10-21 一种基于实体替换的文本分类方法

Country Status (1)

Country Link
CN (1) CN112215000B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引***及其方法
CN103150382A (zh) * 2013-03-14 2013-06-12 中国科学院计算技术研究所 基于开放知识库的短文本语义概念自动化扩展方法及***
CN103177075A (zh) * 2011-12-30 2013-06-26 微软公司 基于知识的实体检测和消歧
CN106716402A (zh) * 2014-05-12 2017-05-24 迪飞奥公司 以实体为中心的知识发现
CN108549723A (zh) * 2018-04-28 2018-09-18 北京神州泰岳软件股份有限公司 一种文本概念分类方法、装置及服务器
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、***、终端及介质
CN110825848A (zh) * 2019-06-10 2020-02-21 北京理工大学 一种基于短语向量的文本分类方法
CN111199155A (zh) * 2018-10-30 2020-05-26 飞狐信息技术(天津)有限公司 一种文本分类方法及装置
CN111209410A (zh) * 2019-12-27 2020-05-29 中国地质大学(武汉) 一种基于锚点的动态知识图谱表示学习方法及***
CN111488455A (zh) * 2020-04-03 2020-08-04 上海携旅信息技术有限公司 模型训练的方法、文本分类的方法、***、设备及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引***及其方法
CN103177075A (zh) * 2011-12-30 2013-06-26 微软公司 基于知识的实体检测和消歧
CN103150382A (zh) * 2013-03-14 2013-06-12 中国科学院计算技术研究所 基于开放知识库的短文本语义概念自动化扩展方法及***
CN106716402A (zh) * 2014-05-12 2017-05-24 迪飞奥公司 以实体为中心的知识发现
CN108549723A (zh) * 2018-04-28 2018-09-18 北京神州泰岳软件股份有限公司 一种文本概念分类方法、装置及服务器
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN111199155A (zh) * 2018-10-30 2020-05-26 飞狐信息技术(天津)有限公司 一种文本分类方法及装置
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、***、终端及介质
CN110825848A (zh) * 2019-06-10 2020-02-21 北京理工大学 一种基于短语向量的文本分类方法
CN111209410A (zh) * 2019-12-27 2020-05-29 中国地质大学(武汉) 一种基于锚点的动态知识图谱表示学习方法及***
CN111488455A (zh) * 2020-04-03 2020-08-04 上海携旅信息技术有限公司 模型训练的方法、文本分类的方法、***、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions";Wei Shen 等;《IEEE Transactions on Knowledge and Data Engineering》;20150228;1-20 *
Entity Linking via Symmetrical Attention-Based Neural Network and Entity Structural Features;Shengze Hu 等;《Symmetry》;20190401;1-18 *
基于知识图谱的命名实体消歧方法研究;牛翊童;《计算机产品与流通》;20200519;249+255 *

Also Published As

Publication number Publication date
CN112215000A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
Kim et al. Two-stage multi-intent detection for spoken language understanding
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109726389B (zh) 一种基于常识和推理的中文缺失代词补全方法
WO2021109671A1 (zh) 一种支持跨语言迁移的细粒度情感分析方法
McDonald et al. Identifying gene and protein mentions in text using conditional random fields
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN107832306A (zh) 一种基于Doc2vec的相似实体挖掘方法
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN111324752B (zh) 基于图神经网络结构建模的图像与文本检索方法
CN110263325B (zh) 中文分词***
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
US20180357531A1 (en) Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof
CN107391614A (zh) 一种基于wmd的中文问答匹配方法
CN111104509B (zh) 一种基于概率分布自适应的实体关系分类方法
CN111666752B (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN109408802A (zh) 一种提升句向量语义的方法、***及存储介质
CN111222330B (zh) 一种中文事件的检测方法和***
CN113011194A (zh) 融合关键词特征和多粒度语义特征的文本相似度计算方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
CN115934951A (zh) 一种网络热点话题用户情绪预测方法
CN112380834B (zh) 藏语论文剽窃检测方法和***
Yu et al. Stance detection in Chinese microblogs with neural networks
CN112215000B (zh) 一种基于实体替换的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant