CN111368532A - 一种基于lda的主题词嵌入消歧方法及*** - Google Patents

一种基于lda的主题词嵌入消歧方法及*** Download PDF

Info

Publication number
CN111368532A
CN111368532A CN202010189104.7A CN202010189104A CN111368532A CN 111368532 A CN111368532 A CN 111368532A CN 202010189104 A CN202010189104 A CN 202010189104A CN 111368532 A CN111368532 A CN 111368532A
Authority
CN
China
Prior art keywords
word
topic
vector
model
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010189104.7A
Other languages
English (en)
Other versions
CN111368532B (zh
Inventor
唐季林
贾连印
陈明鲜
张崇德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010189104.7A priority Critical patent/CN111368532B/zh
Publication of CN111368532A publication Critical patent/CN111368532A/zh
Application granted granted Critical
Publication of CN111368532B publication Critical patent/CN111368532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于LDA的主题词嵌入消歧方法及***,属于语义分析技术领域。本发明方法包括:主题模型训练步骤:基于Wiki语料库结合LDA算法训练主题模型;主题词向量生成步骤:根据Wiki语料库和主题模型,利用Word2Vec训练出主题词向量;上下文向量生成步骤:利用主题模型和主题词向量,计算出歧义词所在上下文的向量表示;有监督词义消歧步骤:将上下文向量与其他传统语义特征结合,利用SVM进行词义消歧。

Description

一种基于LDA的主题词嵌入消歧方法及***
技术领域
本发明涉及一种基于LDA的主题词嵌入消歧方法及***,属于语义分析技术领域。
背景技术
自然语言具有天生的歧义性,很多单词普遍有多个词义,如“cricket”,该单词既可表示为一种运动,也可表示为一种昆虫,但在特定的上下文中,每个单词都有一个确定的词义。词义消歧是一种根据特定的上下文确定歧义词的正确词义的方法,被认为是AI-Complete问题。词义消歧是自然语言处理方向历史最悠久的任务之一,同时它也是很多自然语言处理中的一个关键基础任务,在机器翻译、信息检索、信息抽取等领域应用广泛。
词义消歧目前常用的解决方案可粗略分为以下三大类:
1、基于有监督机器学习算法的词义消歧方法:
有监督词义消歧方法最明显的特点就是需要利用人工词义注释的数据,而这些方法也都基于一个假设:一个单词的上下文能够提供足够的证据来对这个单词进行消歧。然而由于人工词义标注是一件又困难又非常耗时的事情,所以很快会到达“知识获取瓶颈”,因此有监督词义消歧方法不具有扩展性,并且对于一个新的语言,它都得做大量类似的重复工作。不过到目前为止,性能最好的词义消歧***都是基于有监督学习方法的。
2、基于无监督机器学习算法的词义消歧方法:
无监督词义消歧方法不需要人工创建有词义标记的语料,这类方法基于一个基本的假设:相似的词义会在相似的上下文中出现。因此通过该假设,我们便有可能根据它们共享的含义将相似上下文的单词聚类,生成的每一个簇便为应该词义。但这类方法存在一些缺陷,就是它们难以将其所归纳出来的词义映射到一个词义数据库里,因此它们仍然需要人工的干扰来进行这样的映射。
3、半监督词义消歧方法
介于有监督词义消歧和无监督词义消歧方法中间的一种方法,就是半监督词义消歧方。这类方法分为两个方向,第一个方向是先将一个小的、有人工注释的语料通过某些方法对一个大的无人工标注进行标注,进而获得一个大的、由人工注释的语料,然后再用有监督词义消歧方法进行处理;另外一个方向是基于词对齐的双语语料的方法,这种方法认为,一个语言中有歧义的词,在另一个语言中是没有歧义的,这样就可以将词义标注到前一个语言的词上。
随着Word2Vec、Glove等语义模型的提出,近年来词嵌入技术在自然语言处理的多个领域引起了众多研究者的关注。通过word2vec、Glove提供的训练模型训练得到的词向量反映了自然语言中的语义和语法关系,可以通过利用词向量获取更加丰富的语义信息进而提示词义消歧的性能。
目前基于Word2Vec的词义消歧的效果相较之前确实有比较大的进度,但多数工作多存在以下主要不足:其为每个词生成唯一一个上下文无关的词向量,但众所周知,词普遍存在多义的现象,不同上下文下词义往往不同。故为每个歧义词生成的单一的词向量往往难以捕获不同上下文的词义,从而影响消岐效果的进一步提升。
发明内容
本发明要解决的技术问题是提供一种基于LDA的主题词嵌入消歧方法及***,根据歧义词所在上下文对歧义词进行消歧得到明确的词义,用以解决上述问题。
本发明的技术方案是:一种基于LDA的主题词嵌入消歧方法,考虑结合LDA和Word2Vec生成主题词向量,通过LDA训练主题模型,然后通过Word2Vec生成主题词向量。根据主题词向量进一步生成上下文向量,最后将上下文向量作为特征与其他传统语义特征结合,利用SVM训练出消歧模型进行词义消歧,能够获得比较明显的性能提升。
具体步骤为:
Step1:基于大规模无词义标注的Wiki语料库,利用online LDA算法方式训练出主题模型;
Step2:基于主题模型,将Wiki语料库的每篇文档归类到各个主题下分别形成各种的主题文档集,然后对每个主题文档集用Word2Vec训练出每个主题下的词向量,即为主题词向量;
Step3:基于小规模有词义标注的SemCor语料库,利用主题模型和主题词向量计算出上下文向量;
Step4:将上下文向量和其他传统语义特征串联,利用SVM训练并测试消歧模型。
进一步的,所述Step1具体为:
Step1.1:对于Wiki语料库做分词处理,将每篇文档中非单词的符号去掉进行分词,转换为一篇文档一行的形式;
Step1.2:之后利用WordNet对语料库进行词形还原;
Step1.3:然后利用预设的停用词集合去掉语料库中所有停用词,生成新的Wiki语料库;
Step1.4:最后基于Wiki语料库,利用online LDA训练出主题模型,包括文档-主题概率分布p(ti|d)和词-主题概率分布p(tj|w),其中,d表示当前文档,w表示当前单词,ti表示第i个主题。
进一步的,所述Step2具体为:
Step2.1:根据主题模型的文档-主题概率分布p(ti|d)获取每篇文档的主题分布,将每篇文档归类到概率最大的一个主题下,进而为每个主题生成各自的主题文档集Dt
Step2.2:基于每个主题文档集,利用Word2Vec训练出每个文档集中每个单词的词向量,即为主题词向量
Figure BDA0002415213360000036
其表示主题t下单词w的向量表示。
进一步的,所述Step3具体为:
Step3.1:根据主题模型,由式(1)计算出歧义词上下文的主题分布:
Figure BDA0002415213360000031
其中,C为歧义词上下文,p(t|wj)为单词wj的主题分布;
Step3.2:根据得到的上下文主题分布p(t|C)和主题词向量
Figure BDA0002415213360000032
由式(2)计算出上下文中每个词的向量表示:
Figure BDA0002415213360000033
其中,K为预设的主题数量;
Step3.3:获得上下文中每个词的向量后,由式(3)计算出上下文的向量表示:
Figure BDA0002415213360000034
其中,d表示单词wj和歧义词的距离,α表示衰减因子,此处取
Figure BDA0002415213360000035
进一步的,Step4具体为:
Step4.1:利用Stanford CoreNLP工具提取传统语义特征:词性标签、本地搭配和周边词;
Step4.2:将之前获取的上下文向量作为特征,与传统语义特征串联,利用SVM训练出消歧模型进行词义消歧。
一种基于LDA的主题词嵌入消歧***,包括:
主题模型训练模块,用于主题模型的构建,对大规模无标注的Wiki语料库做分词、词形还原和去停用词后,利用LDA训练出主题模型;
主题词向量生成模块,用于生成主题词向量,利用主题模型计算出Wiki语料库每篇文档的主题分布并据此归类到主题文档集,之后利用Word2Vec训练出每个主题下每个单词的向量表示;
上下文向量生成模块,用于生成上下文向量基于小规模有词义标注的SemCor语料库,利用主题模型和主题词向量计算出上下文向量;
有监督词义消歧模块,用于生成消歧模型,将上下文向量和其他传统语义特征串联,利用SVM训练并测试消歧模型。
本发明的有益效果是:本发明提出基于LDA的主题词嵌入消歧方法,考虑结合LDA和Word2Vec生成主题词向量,根据主题词向量进一步生成上下文向量,为不同主题的上下文生成不同的向量,相比单一的向量具有更加丰富的语义信息,因此能够获得比较明显的性能提升。
附图说明
图1是本发明的步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于LDA的主题词嵌入消歧方法,具体步骤为:
Step1:基于大规模无词义标注的Wiki语料库,利用online LDA算法方式训练出主题模型;
Step2:基于主题模型,将Wiki语料库的每篇文档归类到各个主题下分别形成各种的主题文档集,然后对每个主题文档集用Word2Vec训练出每个主题下的词向量,即为主题词向量;
Step3:基于小规模有词义标注的SemCor语料库,利用主题模型和主题词向量计算出上下文向量;
Step4:将上下文向量和其他传统语义特征串联,利用SVM训练并测试消歧模型。
进一步的,所述Step1具体为:
Step1.1:对于Wiki语料库做分词处理,将每篇文档中非单词的符号去掉进行分词,转换为一篇文档一行的形式;
Step1.2:之后利用WordNet对语料库进行词形还原;
Step1.3:然后利用预设的停用词集合去掉语料库中所有停用词,生成新的Wiki语料库;
Step1.4:最后基于Wiki语料库,利用online LDA训练出主题模型,包括文档-主题概率分布p(ti|d)和词-主题概率分布p(tj|w),其中,d表示当前文档,w表示当前单词,ti表示第i个主题。
进一步的,所述Step2具体为:
Step2.1:根据主题模型的文档-主题概率分布p(ti|d)获取每篇文档的主题分布,将每篇文档归类到概率最大的一个主题下,进而为每个主题生成各自的主题文档集Dt
Step2.2:基于每个主题文档集,利用Word2Vec训练出每个文档集中每个单词的词向量,即为主题词向量
Figure BDA0002415213360000051
其表示主题t下单词w的向量表示。
进一步的,所述Step3具体为:
Step3.1:根据主题模型,由式(1)计算出歧义词上下文的主题分布:
Figure BDA0002415213360000052
其中,C为歧义词上下文,p(t|wj)为单词wj的主题分布;
Step3.2:根据得到的上下文主题分布p(t|C)和主题词向量
Figure BDA0002415213360000053
由式(2)计算出上下文中每个词的向量表示:
Figure BDA0002415213360000054
其中,K为预设的主题数量;
Step3.3:获得上下文中每个词的向量后,由式(3)计算出上下文的向量表示:
Figure BDA0002415213360000055
其中,d表示单词wj和歧义词的距离,α表示衰减因子,此处取
Figure BDA0002415213360000056
进一步的,Step4具体为:
Step4.1:利用Stanford CoreNLP工具提取传统语义特征:词性标签、本地搭配和周边词;
Step4.2:将之前获取的上下文向量作为特征,与传统语义特征串联,利用SVM训练出消歧模型进行词义消歧。
一种基于LDA的主题词嵌入消歧***,包括:
主题模型训练模块,用于主题模型的构建,对大规模无标注的Wiki语料库做分词、词形还原和去停用词后,利用LDA训练出主题模型;
主题词向量生成模块,用于生成主题词向量,利用主题模型计算出Wiki语料库每篇文档的主题分布并据此归类到主题文档集,之后利用Word2Vec训练出每个主题下每个单词的向量表示;
上下文向量生成模块,用于生成上下文向量基于小规模有词义标注的SemCor语料库,利用主题模型和主题词向量计算出上下文向量;
有监督词义消歧模块,用于生成消歧模型,将上下文向量和其他传统语义特征串联,利用SVM训练并测试消歧模型。
实施例2:一种基于LDA的主题词嵌入消歧方法,包括:
主题模型训练步骤:
Step1.1:对于Wiki语料库做分词处理,将每篇文档中非单词的符号去掉进行分词,转换为一篇文档一行的形式;
Step1.2:之后利用WordNet对语料库进行词形还原;
Step1.3:然后利用预设的停用词集合去掉语料库中所有停用词,生成新的Wiki语料库;
Step1.4:最后基于Wiki语料库,利用online LDA训练出主题模型,包括文档-主题概率分布p(ti|d)和词-主题概率分布p(tj|w)。其中,d表示当前文档,w表示当前单词,ti表示第i个主题。
示例:
假设有语料库包含文档三篇:{“Anarchism draws on many currents ofthought and strategy.”,“Anarchism does not offer a fixed body of doctrinefrom a single particular world view,instead fluxing and flowing as aphilosophy.”,“Anarchism:A Very Short Introduction.”}。
(1)对语料库做去符号并进行分词后变为:{{“anarchism”,“draws”,“on”,“many”,“currents”,“of”,“thought”,“and”,“strategy”},{“Anarchism”,“does”,“not”,“offer”,“a”,“fixed”,“body”,“of”,“doctrine”,“from”,“a”,“single”,“particular”,“world”,“view”,“instead”,“fluxing”,“and”,“flowing”,“as”,“a”,“philosophy”},{“anarchism”,“a”,“very”,“short”,“introduction”}};
(2)通过查询WordNet进行词形还原后变为:{{“anarchism”,“draw”,“on”,“many”,“current”,“of”,“think”,“and”,“strategy”},{“Anarchism”,“do”,“not”,“offer”,“a”,“fixed”,“body”,“of”,“doctrine”,“from”,“a”,“single”,“particular”,“world”,“view”,“instead”,“flux”,“and”,“flow”,“as”,“a”,“philosophy”},{“anarchism”,“a”,“very”,“short”,“introduction”}};
(3)根据预设停用词集对前面的文档集合做去停用词处理后得到:{{“anarchism”,“draw”,“many”,“current”,“think”,“strategy”},{“Anarchism”,“offer”,“fixed”,“body”,“doctrine”,“single”,“particular”,“world”,“view”,“instead”,“flux”,“flow”,“philosophy”},{“anarchism”,“short”,“introduction”}};
(4)基于以上处理后的语料库,利用online LDA并设定主题数K=2,可以得到主题模型,其中,每篇文档的对2个主题的概率分布为:
document1:{0.918,0.082},
document2:{0.052,0.948},
document3:{0.152,0.848};
每个单词对所有文档蕴含的2个主题的分布为:
anarchism:{topic1:0.49,topic2:0.506}
draw:{topic1:0.702,topic2:0.298}
……
introduction:{topic1:0.323,topic2:0.677}
主题词向量生成步骤:
Step2.1:根据主题模型的p(ti|d)获取每篇文档的主题分布,将每篇文档归类到概率最大的一个主题下,进而为每个主题生成各自的主题文档集Dt
Step2.1:基于每个主题文档集,利用Word2Vec训练出每个文档集中每个单词的词向量,即为主题词向量
Figure BDA0002415213360000071
其表示主题t下单词w的向量表示。
示例:
(1)根据前文所得的文档-主题分布,可以知道:
(2)通过Word2Vec算法,在每个主题下为每个单词生成各自的词向量:
(i)在topic1下的词向量:
Figure BDA0002415213360000072
Figure BDA0002415213360000073
……
Figure BDA0002415213360000074
(ii)在topic1下的词向量:
Figure BDA0002415213360000081
Figure BDA0002415213360000082
……
Figure BDA0002415213360000083
上下文向量生成步骤:
Step3.1:根据主题模型,由下式计算出歧义词上下文的主题分布:
Figure BDA0002415213360000084
其中,C为歧义词上下文,p(t|wj)为单词wj的主题分布;
Step3.2:根据前文所得到的上下文主题分布p(t|C)和主题词向量
Figure BDA00024152133600000810
由下式计算出上下文中每个词的向量表示:
Figure BDA0002415213360000085
其中,K为预设的主题数量;
Step3.3:获得上下文中每个词的向量后,根据“离歧义词越远的词越不能表达歧义词,离歧义词越近的词越能表达歧义词”的思想,并结合指数下降法,由下式可计算出上下文的向量表示:
Figure BDA0002415213360000086
其中,d表示单词wj和歧义词的距离,α表示衰减因子,此处取
Figure BDA0002415213360000087
示例:
对在句子“The offer in introduction is fixed.”中的歧义词“offer”:
(1)根据主题模型中的主题-词概率分布,利用以下式子可以计算出该句子的主题分布:
Figure BDA0002415213360000088
Figure BDA0002415213360000089
(2)得到上下文主题分布后,可以计算出在该上下文中每个词的向量表示:
Figure BDA0002415213360000091
Figure BDA0002415213360000092
Figure BDA0002415213360000093
(3)之后,根据上下文中每个词的向量表示,结合指数下降法,我们可以得到关于歧义词的上下文的向量表示:
Figure BDA0002415213360000094
有监督词义消歧步骤:
Step4.1:利用Stanford CoreNLP工具提取传统语义特征:词性标签、本地搭配和周边词;
Step4.2:将之前获取的上下文向量作为特征,与传统语义特征串联,利用SVM训练出消歧模型进行词义消歧。
示例:
(1)对歧义词所在上下文利用Stanford CoreNLP提取的语义特征:
词性标签:{NOUN,NOUN,ADJ}
本地搭配:{(offer,introduction),(offer,fixed)}
周边词:{introduction,fixed}
(2)将所有特征串联,利用SVM训练出消歧模型:
Modeloffer=SVM(词性标签,本地搭配,周边词,VC),
当需要对含有歧义词offer的句子消歧时,则根据以上步骤提取特征,最后用Modeloffer计算出正确词义。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.一种基于LDA的主题词嵌入消歧方法,其特征在于:
Step1:基于大规模无词义标注的Wiki语料库,利用online LDA算法方式训练出主题模型;
Step2:基于主题模型,将Wiki语料库的每篇文档归类到各个主题下分别形成各种的主题文档集,然后对每个主题文档集用Word2Vec训练出每个主题下的词向量,即为主题词向量;
Step3:基于小规模有词义标注的SemCor语料库,利用主题模型和主题词向量计算出上下文向量;
Step4:将上下文向量和其他传统语义特征串联,利用SVM训练并测试消歧模型。
2.根据权利要求1所述的基于LDA的主题词嵌入消歧方法,其特征在于所述Step1具体为:
Step1.1:对于Wiki语料库做分词处理,将每篇文档中非单词的符号去掉进行分词,转换为一篇文档一行的形式;
Step1.2:之后利用WordNet对语料库进行词形还原;
Step1.3:然后利用预设的停用词集合去掉语料库中所有停用词,生成新的Wiki语料库;
Step1.4:最后基于Wiki语料库,利用online LDA训练出主题模型,包括文档-主题概率分布p(ti|d)和词-主题概率分布p(tj|w),其中,d表示当前文档,w表示当前单词,ti表示第i个主题。
3.根据权利要求2所述的基于LDA的主题词嵌入消歧方法,其特征在于所述Step2具体为:
Step2.1:根据主题模型的文档-主题概率分布p(ti|d)获取每篇文档的主题分布,将每篇文档归类到概率最大的一个主题下,进而为每个主题生成各自的主题文档集Dt
Step2.2:基于每个主题文档集,利用Word2Vec训练出每个文档集中每个单词的词向量,即为主题词向量
Figure FDA0002415213350000011
其表示主题t下单词w的向量表示。
4.根据权利要求3所述的基于LDA的主题词嵌入消歧方法,其特征在于所述Step3具体为:
Step3.1:根据主题模型,由式(1)计算出歧义词上下文的主题分布:
Figure FDA0002415213350000021
其中,C为歧义词上下文,p(t|wj)为单词wj的主题分布;
Step3.2:根据得到的上下文主题分布p(t|C)和主题词向量
Figure FDA0002415213350000022
由式(2)计算出上下文中每个词的向量表示:
Figure FDA0002415213350000023
其中,K为预设的主题数量;
Step3.3:获得上下文中每个词的向量后,由式(3)计算出上下文的向量表示:
Figure FDA0002415213350000024
其中,d表示单词wj和歧义词的距离,α表示衰减因子,此处取
Figure FDA0002415213350000025
5.根据权利要求1或4所述的基于LDA的主题词嵌入消歧方法,其特征在于所述Step4具体为:
Step4.1:利用Stanford CoreNLP工具提取传统语义特征:词性标签、本地搭配和周边词;
Step4.2:将之前获取的上下文向量作为特征,与传统语义特征串联,利用SVM训练出消歧模型进行词义消歧。
6.一种基于LDA的主题词嵌入消歧***,其特征在于包括:
主题模型训练模块,用于主题模型的构建,对大规模无标注的Wiki语料库做分词、词形还原和去停用词后,利用LDA训练出主题模型;
主题词向量生成模块,用于生成主题词向量,利用主题模型计算出Wiki语料库每篇文档的主题分布并据此归类到主题文档集,之后利用Word2Vec训练出每个主题下每个单词的向量表示;
上下文向量生成模块,用于生成上下文向量基于小规模有词义标注的SemCor语料库,利用主题模型和主题词向量计算出上下文向量;
有监督词义消歧模块,用于生成消歧模型,将上下文向量和其他传统语义特征串联,利用SVM训练并测试消歧模型。
CN202010189104.7A 2020-03-18 2020-03-18 一种基于lda的主题词嵌入消歧方法及*** Active CN111368532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010189104.7A CN111368532B (zh) 2020-03-18 2020-03-18 一种基于lda的主题词嵌入消歧方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010189104.7A CN111368532B (zh) 2020-03-18 2020-03-18 一种基于lda的主题词嵌入消歧方法及***

Publications (2)

Publication Number Publication Date
CN111368532A true CN111368532A (zh) 2020-07-03
CN111368532B CN111368532B (zh) 2022-12-09

Family

ID=71208936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010189104.7A Active CN111368532B (zh) 2020-03-18 2020-03-18 一种基于lda的主题词嵌入消歧方法及***

Country Status (1)

Country Link
CN (1) CN111368532B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112632966A (zh) * 2020-12-30 2021-04-09 绿盟科技集团股份有限公司 一种告警信息标记方法、装置、介质和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108446269A (zh) * 2018-03-05 2018-08-24 昆明理工大学 一种基于词向量的词义消歧方法及装置
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CA3014309A1 (en) * 2017-08-16 2019-02-16 Royal Bank Of Canada Expert knowledge platform
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及***
GB201905548D0 (en) * 2019-04-18 2019-06-05 Black Swan Data Ltd Irrelevancy filtering

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CA3014309A1 (en) * 2017-08-16 2019-02-16 Royal Bank Of Canada Expert knowledge platform
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108446269A (zh) * 2018-03-05 2018-08-24 昆明理工大学 一种基于词向量的词义消歧方法及装置
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及***
GB201905548D0 (en) * 2019-04-18 2019-06-05 Black Swan Data Ltd Irrelevancy filtering

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BO MA ETC.: "Joint learning of contextal and global features for named entity disambiguation", 《2017 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》 *
唐季林: "基于主题词嵌入的词义消歧方法研究", 《中国优秀硕士论文全文数据库》 *
王瑞 等: "基于上下文词向量和主题模型的实体消歧方法", 《中文信息学报》 *
马晓军 等: "融合词向量和主题模型的领域实体消歧", 《模式识别与人工智能》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112069826B (zh) * 2020-07-15 2021-12-07 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112632966A (zh) * 2020-12-30 2021-04-09 绿盟科技集团股份有限公司 一种告警信息标记方法、装置、介质和设备
CN112632966B (zh) * 2020-12-30 2023-07-21 绿盟科技集团股份有限公司 一种告警信息标记方法、装置、介质和设备

Also Published As

Publication number Publication date
CN111368532B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及***
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
US9195646B2 (en) Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和***
CN110175246B (zh) 一种从视频字幕中提取概念词的方法
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和***
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN112860889A (zh) 一种基于bert的多标签分类方法
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及***
Lai et al. Semeval 2022 task 12: Symlink-linking mathematical symbols to their descriptions
CN113158656A (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN115017884B (zh) 基于图文多模态门控增强的文本平行句对抽取方法
Stoeckel et al. Voting for POS tagging of Latin texts: Using the flair of FLAIR to better ensemble classifiers by example of Latin
Seeha et al. ThaiLMCut: Unsupervised pretraining for Thai word segmentation
CN111444720A (zh) 一种英文文本的命名实体识别方法
Rong et al. Unambiguous text localization, retrieval, and recognition for cluttered scenes
CN112528653A (zh) 短文本实体识别方法和***
CN111737951B (zh) 一种文本语言关联关系标注方法和装置
CN115906835B (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN109241521B (zh) 一种基于引用关系的科技文献高关注度句子提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant