CN112215000B - 一种基于实体替换的文本分类方法 - Google Patents
一种基于实体替换的文本分类方法 Download PDFInfo
- Publication number
- CN112215000B CN112215000B CN202011131161.6A CN202011131161A CN112215000B CN 112215000 B CN112215000 B CN 112215000B CN 202011131161 A CN202011131161 A CN 202011131161A CN 112215000 B CN112215000 B CN 112215000B
- Authority
- CN
- China
- Prior art keywords
- document
- vector
- entity
- disambiguation
- anchor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明请求保护一种基于实体替换的文本分类方法,属于自然语言处理领域,具体包括以下步骤:(1)利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合;(2)将文档词向量求平均,得到文档的上下文向量;(3)分别计算各锚定短语对应实体在上下文表示向量下的注意力权重,得到各短语的去歧向量(4)将原文位置上的锚定短语替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将其输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;(5)利用训练好的模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。该方法能够消除文档中词语语义含糊不清的情况,并且保留了语序信息和上下文信息,可以更准确地对文本内容进行分类。
Description
技术领域
本发明属于自然语言处理领域,特别是涉及一种基于实体替换的文本分类方法。
背景技术
文本分类是自然语言处理的一项重要任务,指的是在一个被事先定义好的固定类别中根据文本的特征将给定的文本对象进行分类的技术。其广泛应用于例如主题分类、垃圾邮件检测和情感分类等诸多场景。近年来,深度学***均、卷积神经网络(CNN)或循环神经网络(RNN)等方法将这些向量组合起来捕获文档的语义。
除了上述方法,还有研究尝试使用知识库(KB)中的实体来捕获语义信息。这种方法使用一组与文档相关的实体(或实体袋)来表示文档。使用实体的好处在于:与词不同,实体提供了明确的语义信息,因为它们在知识库中是唯一标识的,而词可能存在语义含糊不清的现象(如:“苹果”可以指水果,也可以指苹果公司,在不同的语境下可能有不同的含义)。但是,如之前使用词袋模型的方法一样,只简单地使用一组实体表示文档会丢失掉语序信息。同时,一些非实体的描述性文字也同样具有丰富的信息。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种通过找出合适的实体来替换掉原文中语义模糊的词,在解决语义模糊问题的同时还保留了语序信息和原文中的描述性信息的基于实体替换的文本分类方法。本发明的技术方案如下:
一种基于实体替换的文本分类方法,其包括以下步骤:
S1:利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合;
S2:将文档词向量获得的实体集合来求嵌入矩阵求平均,得到文档的上下文向量;
S3:分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各实体的去歧向量;
S4:将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将去歧后的文档表示向量输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;
S5:利用训练好的模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。
进一步的,所述步骤S1中,利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合,包括以下步骤:
S11:定义“实体”为知识库中确定,无歧义的对象;“锚定短语”为字面形式的文字,一个锚定短语可对应多个实体,一个实体也可以由多个锚定短语来表示;
S12:在外部资料库Wikipedia中收集所有的锚定短语,对于每一个锚定短语s,将所有与其有连接的实体{e1,e2,...eK}作为它的实体字典,所有的锚定短语与其实体字典共同构成Wikipedia字典;
S13:抽取出文档T中所有n-grams短语(n≤k),n-grams短语指由n个词构成的短语,如果一个n-grams可以在Wikipedia字典中作为锚定短语存在,并且有至少两个对应的实体,那么就把这个n-grams加入候选锚定短语,对于有矛盾覆盖的n-grams短语,采取“最先最长”的方法,即选取最长的最先出现的n-grams短语,一个文档中的所有锚定短语表示为:
U(T)={c1,c2,...}
第i个锚定短语对应的实体集合表示为:
E(ci)={e1,e2,...}。
进一步的,所述步骤S2中,将文档词向量求平均,得到文档的上下文向量,包括以下步骤:
x1:n=[x1;x2;...;xn]
S22:对文档T,将词向量求平均,得到文档的上下文向量,计算公式如下:
其中,C为文档的上下文向量。
进一步的,所述步骤S3中,分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各锚定短语的去歧向量,包括以下步骤:
S32:对于每个锚定短语,计算其对应的实体向量在步骤S2中得到的上下文表示向量下的注意力权重,然后对实体向量加权求和,得到各锚定短语的去歧向量,计算公式如下:
其中,αij为文档第i个锚定短语对应的第j个实体在上下文C下的注意力权重,v为文档第i个锚定短语对应实体的个数,zi为文档第i个锚定短语的去歧向量。
进一步的,所述步骤S4中,将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将其输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络,包括以下步骤:
S41:将原文档的锚定短语替换为步骤S3所得的对应去歧向量,则文档可表示为T=[x1;...;z1;...;zv;...;xn],zv表示最后一个去歧向量,xn表示最后一个原文词向量,为方便描述,记为[l1;...;lr],其中r为替换后所含向量数目;
S42:对于文档T,将词向量和去歧向量按照顺序依次输入到一个双向的长短时记忆网络中,对于长短期记忆网络的正向,依次输入l1,...,lr,对于长短期记忆网络的反向,则依次输入lr,...,l1;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求和,得到最终去歧后的文档表示向量,计算公式如下:
其中,li为文档表示中第i个向量,f为长短时记忆网络中隐层状态计算函数,表示文档中第i个向量在正向长短时记忆网络中的隐层状态向量,表示文档中第i个向量在反向长短时记忆网络中的隐层状态向量,o为文档的去歧向量;
S43:将文档的去歧向量输入到全连接层,并使用softmax归一化,计算文档属于各类别的概率,最后以对数似然函数为损失函数,通过随机梯度下降,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
p=softmax(Wco+bc)
其中,Wc为全连接层权重矩阵,bc为偏置项,softmax是归一化操作,p为文档属于各个类别的概率,x为训练集中的文档,y为其真实类别标签,θ为模型参数。
本发明的优点及有益效果如下:
本发明提供了一种基于实体替换的文本分类方法,利用知识库以及注意力机制找出合适的实体来替换掉原文中语义模糊的词,得到去除歧义后的文档表示向量。在解决语义模糊问题的同时还保留了语序信息和原文中的描述性信息。从而提升了模型对文档的语义的理解,更可靠准确地对文档进行分类。
本发明主要创新是将文档原文中对应位置的语义不清的短语或词语替换为知识库中的无歧义实体,这样相对于只找出实体并将其视作无序集合的方法而言,保留了语序信息和其他描述性信息。对于每一个有歧义的短语,都使用注意力机制找出短语最有可能的实体,提高了确定实体的准确性。
附图说明
图1是本发明提供优选实施例的流程图;
图2为本发明提供的基于实体替换的文本分类方法的网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明主要提供了一种基于实体替换的文本分类方法。采用图1所示处理流程。利用知识库找出与文档相关的实体集,利用图2所示注意力机制来选择正确的实体并替换掉原文中语义模糊的词,得到去除歧义后的文档表示向量,在解决语义模糊问题的同时还保留了语序信息和原文中的描述性信息。
本发明的一种基于实体替换的文本分类方法包括以下步骤:
S1:利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合;
本实施例中,具体实现S1的子步骤如下:
S11:定义“实体”为知识库中确定,无歧义的对象;“锚定短语”为字面形式的文字。一个锚定短语可对应多个实体,一个实体也可以由多个锚定短语来表示;
S12:在外部资料库Wikipedia中收集所有的锚定短语,对于每一个锚定短语s,将所有与其有连接的实体{e1,e2,...eK}作为它的实体字典。所有的锚定短语与其实体字典共同构成Wikipedia字典;
S13:抽取出文档T中所有n-grams短语(n≤k),如果一个n-grams可以在Wikipedia字典中作为锚定短语存在,并且有至少两个对应的实体,那么就把这个n-grams加入候选锚定短语。一个文档中的所有锚定短语表示为:
U(T)={c1,c2,...}
第i个锚定短语对应的实体集合表示为:
E(ci)={e1,e2,...}
S2:将文档词向量求平均,得到文档的上下文向量;
本实施例中,具体实现S2的子步骤如下:
x1:n=[x1;x2;...;xn]
S22::对文档T,将词向量求平均,得到文档的上下文向量,计算公式如下:
其中,C为文档的上下文向量。
S3:分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各实体的去歧向量;
本实施例中,具体实现S3的子步骤如下:
S32:对于每个锚定短语,计算其对应的实体向量在步骤S2中得到的上下文表示向量下的注意力权重,然后对实体向量加权求和,得到各锚定短语的去歧向量。计算公式如下:
其中,αij为文档第i个锚定短语对应的第j个实体在上下文C下的注意力权重,v为文档第i个锚定短语对应实体的个数,zi为文档第i个锚定短语的去歧向量。
S4:将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将其输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;
本实施例中,具体实现S4的子步骤如下:
S41:将原文档的锚定短语替换为步骤S3所得的其对应去歧向量,则文档可表示为T=[x1;...;z1;...;zv;...;xn],为方便描述,记为[l1;...;lr],其中r为替换后所含向量数目;
S42:对于文档T,将词向量和去歧向量按照顺序依次输入到一个双向的长短时记忆网络中,对于长短期记忆网络的正向,依次输入l1,...,lr,对于长短期记忆网络的反向,则依次输入lr,...,l1;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求和,得到最终去歧后的文档表示向量。计算公式如下:
其中,li为文档表示中第i个向量,f为长短时记忆网络中隐层状态计算函数,表示文档中第i个向量在正向长短时记忆网络中的隐层状态向量,表示文档中第i个向量在反向长短时记忆网络中的隐层状态向量,o为文档的去歧向量;
S43:将文档的去歧向量输入到全连接层,并使用softmax归一化,计算文档属于各类别的概率,最后以对数似然函数为损失函数,通过随机梯度下降,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,计算
公式如下:
p=softmax(Wco+bc)
其中,Wc为全连接层权重矩阵,bc为偏置项,softmax是归一化操作,p为文档属于各个类别的概率,x为训练集中的文档,y为其真实类别标签,θ为模型参数。
S5:利用训练好的模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (1)
1.一种基于实体替换的文本分类方法,其特征在于,包括以下步骤:
S1:利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合;
S2:将文档词向量获得的实体集合来求嵌入矩阵求平均,得到文档的上下文向量;
S3:分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各实体的去歧向量;
S4:将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将去歧后的文档表示向量输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络;
S5:利用训练好的模型预测待预测文本所属类别,取概率最大的类别作为预测的类别输出;
所述步骤S1中,利用外部知识库检测出文档中的锚定短语并查询每个锚定短语对应的实体集合,包括以下步骤:
S11:定义“实体”为知识库中确定,无歧义的对象;“锚定短语”为字面形式的文字,一个锚定短语可对应多个实体,一个实体也可以由多个锚定短语来表示;
S12:在外部资料库Wikipedia中收集所有的锚定短语,对于每一个锚定短语s,将所有与其有连接的实体{e1,e2,...eK}作为它的实体字典,所有的锚定短语与其实体字典共同构成Wikipedia字典;
S13:抽取出文档T中所有n-grams短语(n≤k),n-grams短语指由n个词构成的短语,如果一个n-grams可以在Wikipedia字典中作为锚定短语存在,并且有至少两个对应的实体,那么就把这个n-grams加入候选锚定短语,对于有矛盾覆盖的n-grams短语,采取“最先最长”的方法,即选取最长的最先出现的n-grams短语,一个文档中的所有锚定短语表示为:
U(T)={c1,c2,...}
第i个锚定短语对应的实体集合表示为:
E(ci)={e1,e2,...};
所述步骤S2中,将文档词向量求平均,得到文档的上下文向量,包括以下步骤:
x1:n=[x1;x2;...;xn]
S22:对文档T,将词向量求平均,得到文档的上下文向量,计算公式如下:
其中,C为文档的上下文向量;
所述步骤S3中,分别计算各锚定短语对应实体在文档上下文表示向量下的注意力权重,得到各锚定短语的去歧向量,包括以下步骤:
S32:对于每个锚定短语,计算其对应的实体向量在步骤S2中得到的上下文表示向量下的注意力权重,然后对实体向量加权求和,得到各锚定短语的去歧向量,计算公式如下:
其中,αij为文档第i个锚定短语对应的第j个实体在上下文C下的注意力权重,v为文档第i个锚定短语对应实体的个数,zi为文档第i个锚定短语的去歧向量;
所述步骤S4中,将原文位置上的实体替换为去歧实体向量并输入长短时记忆网络,得到去歧后的文档表示向量,并将其输入到神经网络的全连接层,使用分类器计算各文本属于各类别的概率来训练网络,包括以下步骤:
S41:将原文档的锚定短语替换为步骤S3所得的对应去歧向量,则文档可表示为T=[x1;...;z1;...;zv;...;xn],zv表示最后一个去歧向量,xn表示最后一个原文词向量,为方便描述,记为[l1;...;lr],其中r为替换后所含向量数目;
S42:对于文档T,将词向量和去歧向量按照顺序依次输入到一个双向的长短时记忆网络中,对于长短期记忆网络的正向,依次输入l1,...,lr,对于长短期记忆网络的反向,则依次输入lr,...,l1;计算每个词在正向和反向的隐层状态值,将这些隐层状态值求和,得到最终去歧后的文档表示向量,计算公式如下:
其中,li为文档表示中第i个向量,f为长短时记忆网络中隐层状态计算函数,表示文档中第i个向量在正向长短时记忆网络中的隐层状态向量,表示文档中第i个向量在反向长短时记忆网络中的隐层状态向量,o为文档的去歧向量;
S43:将文档的去歧向量输入到全连接层,并使用softmax归一化,计算文档属于各类别的概率,最后以对数似然函数为损失函数,通过随机梯度下降,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型,计算公式如下:
p=softmax(Wco+bc)
其中,Wc为全连接层权重矩阵,bc为偏置项,softmax是归一化操作,p为文档属于各个类别的概率,x为训练集中的文档,y为其真实类别标签,θ为模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011131161.6A CN112215000B (zh) | 2020-10-21 | 2020-10-21 | 一种基于实体替换的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011131161.6A CN112215000B (zh) | 2020-10-21 | 2020-10-21 | 一种基于实体替换的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215000A CN112215000A (zh) | 2021-01-12 |
CN112215000B true CN112215000B (zh) | 2022-08-23 |
Family
ID=74056225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011131161.6A Active CN112215000B (zh) | 2020-10-21 | 2020-10-21 | 一种基于实体替换的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215000B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102207945A (zh) * | 2010-05-11 | 2011-10-05 | 天津海量信息技术有限公司 | 基于知识网络的文本标引***及其方法 |
CN103150382A (zh) * | 2013-03-14 | 2013-06-12 | 中国科学院计算技术研究所 | 基于开放知识库的短文本语义概念自动化扩展方法及*** |
CN103177075A (zh) * | 2011-12-30 | 2013-06-26 | 微软公司 | 基于知识的实体检测和消歧 |
CN106716402A (zh) * | 2014-05-12 | 2017-05-24 | 迪飞奥公司 | 以实体为中心的知识发现 |
CN108549723A (zh) * | 2018-04-28 | 2018-09-18 | 北京神州泰岳软件股份有限公司 | 一种文本概念分类方法、装置及服务器 |
CN108984745A (zh) * | 2018-07-16 | 2018-12-11 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、***、终端及介质 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN111199155A (zh) * | 2018-10-30 | 2020-05-26 | 飞狐信息技术(天津)有限公司 | 一种文本分类方法及装置 |
CN111209410A (zh) * | 2019-12-27 | 2020-05-29 | 中国地质大学(武汉) | 一种基于锚点的动态知识图谱表示学习方法及*** |
CN111488455A (zh) * | 2020-04-03 | 2020-08-04 | 上海携旅信息技术有限公司 | 模型训练的方法、文本分类的方法、***、设备及介质 |
-
2020
- 2020-10-21 CN CN202011131161.6A patent/CN112215000B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102207945A (zh) * | 2010-05-11 | 2011-10-05 | 天津海量信息技术有限公司 | 基于知识网络的文本标引***及其方法 |
CN103177075A (zh) * | 2011-12-30 | 2013-06-26 | 微软公司 | 基于知识的实体检测和消歧 |
CN103150382A (zh) * | 2013-03-14 | 2013-06-12 | 中国科学院计算技术研究所 | 基于开放知识库的短文本语义概念自动化扩展方法及*** |
CN106716402A (zh) * | 2014-05-12 | 2017-05-24 | 迪飞奥公司 | 以实体为中心的知识发现 |
CN108549723A (zh) * | 2018-04-28 | 2018-09-18 | 北京神州泰岳软件股份有限公司 | 一种文本概念分类方法、装置及服务器 |
CN108984745A (zh) * | 2018-07-16 | 2018-12-11 | 福州大学 | 一种融合多知识图谱的神经网络文本分类方法 |
CN111199155A (zh) * | 2018-10-30 | 2020-05-26 | 飞狐信息技术(天津)有限公司 | 一种文本分类方法及装置 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、***、终端及介质 |
CN110825848A (zh) * | 2019-06-10 | 2020-02-21 | 北京理工大学 | 一种基于短语向量的文本分类方法 |
CN111209410A (zh) * | 2019-12-27 | 2020-05-29 | 中国地质大学(武汉) | 一种基于锚点的动态知识图谱表示学习方法及*** |
CN111488455A (zh) * | 2020-04-03 | 2020-08-04 | 上海携旅信息技术有限公司 | 模型训练的方法、文本分类的方法、***、设备及介质 |
Non-Patent Citations (3)
Title |
---|
"Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions";Wei Shen 等;《IEEE Transactions on Knowledge and Data Engineering》;20150228;1-20 * |
Entity Linking via Symmetrical Attention-Based Neural Network and Entity Structural Features;Shengze Hu 等;《Symmetry》;20190401;1-18 * |
基于知识图谱的命名实体消歧方法研究;牛翊童;《计算机产品与流通》;20200519;249+255 * |
Also Published As
Publication number | Publication date |
---|---|
CN112215000A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN109726389B (zh) | 一种基于常识和推理的中文缺失代词补全方法 | |
WO2021109671A1 (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
McDonald et al. | Identifying gene and protein mentions in text using conditional random fields | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN107832306A (zh) | 一种基于Doc2vec的相似实体挖掘方法 | |
CN109800437A (zh) | 一种基于特征融合的命名实体识别方法 | |
CN111324752B (zh) | 基于图神经网络结构建模的图像与文本检索方法 | |
CN110263325B (zh) | 中文分词*** | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
US20180357531A1 (en) | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof | |
CN107391614A (zh) | 一种基于wmd的中文问答匹配方法 | |
CN111104509B (zh) | 一种基于概率分布自适应的实体关系分类方法 | |
CN111666752B (zh) | 一种基于关键词注意力机制的电路教材实体关系抽取方法 | |
CN109408802A (zh) | 一种提升句向量语义的方法、***及存储介质 | |
CN111222330B (zh) | 一种中文事件的检测方法和*** | |
CN113011194A (zh) | 融合关键词特征和多粒度语义特征的文本相似度计算方法 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN112784602A (zh) | 基于远程监督的新闻情感实体抽取方法 | |
CN115934951A (zh) | 一种网络热点话题用户情绪预测方法 | |
CN112380834B (zh) | 藏语论文剽窃检测方法和*** | |
Yu et al. | Stance detection in Chinese microblogs with neural networks | |
CN112215000B (zh) | 一种基于实体替换的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |