CN107861939A - 一种融合词向量和主题模型的领域实体消歧方法 - Google Patents
一种融合词向量和主题模型的领域实体消歧方法 Download PDFInfo
- Publication number
- CN107861939A CN107861939A CN201710913216.0A CN201710913216A CN107861939A CN 107861939 A CN107861939 A CN 107861939A CN 201710913216 A CN201710913216 A CN 201710913216A CN 107861939 A CN107861939 A CN 107861939A
- Authority
- CN
- China
- Prior art keywords
- entity
- similarity
- disambiguation
- candidate
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims description 24
- 239000000463 material Substances 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 12
- 206010028916 Neologism Diseases 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 241000531229 Caryopteris x clandonensis Species 0.000 claims description 3
- 235000001486 Salvia viridis Nutrition 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 12
- 101100421536 Danio rerio sim1a gene Proteins 0.000 description 2
- 101100495431 Schizosaccharomyces pombe (strain 972 / ATCC 24843) cnp1 gene Proteins 0.000 description 2
- 101100365794 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sim3 gene Proteins 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种融合词向量和主题模型的领域实体消歧方法,属于自然语言处理和深度学习技术领域。本发明获取待消歧实体的候选实体集合,再获取待消歧实体和候选实体的向量形式,结合上下位关系领域知识库获取待消歧实体的类别指称,进行上下文相似度和类别指称相似度计算,再利用LDA主题模型和Skip‑gram词向量模型对不同主题分类下的文档进行词向量训练,获取多义词不同含义的词向量表示,用K‑Means算法抽取文本的主题领域关键词,进行领域主题关键词相似度计算,最后对三类特征相似度进行融合,把相似度最高的候选实体作为最终的目标实体。本发明优于传统消歧方法,可以很好的满足实际应用的需求。
Description
技术领域
本发明涉及一种融合词向量和主题模型的领域实体消歧方法,属于自然语言处理和深度学习技术领域。
背景技术
实体消歧是自然语言处理领域的重要任务之一,该任务通过对文本中多义词的义项加以明确,旨在消除语义歧义,为人类和计算机更好理解自然语言信息提供帮助,实体消歧的任务万网针对通用文本,如新闻、网页等,使用的语料库由多个领域的文本构成,然而在实际的应用中,经常需要对某一特定领域的文本进行消歧,这不仅对领域知识的挖掘具有重要的意义,而且有助于领域知识库的构专业文献自动翻译等任务。
发明内容
本发明提供了一种融合词向量和主题模型的领域实体消歧方法,以用于解决现有的实体消歧方法使用Skip-gram词向量计算模型在处理多义词时只能计算出一个混合了多种语义的词向量,没能对多义词不同含义进行区分的问题。
本发明的技术方案是:一种融合词向量和主题模型的领域实体消歧方法,所述方法的具体步骤如下:
Step1、首先利用Word2vec对旅游领域的百科语料进行词向量模型训练;
所述步骤Step1的具体步骤为:
Step1.1、从***的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条,旅游网页信息等。
Step1.3、对Step1.2步骤获得的语料进行预处理,采用开源的工具包中科院汉语词法分析***ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有旅游领域的高质量的文本级语料。
Step1.4、选择Google的开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练。
本发明中词向量模型的训练过程,是领域实体消歧的前提与基础,是不可缺少的一步,同时由于中文主要由字符组成,相比英文而言,字符间的语义关系表达比较复杂,因此中文文本表示成词向量时,必须先进行分词处理。使用分词工具进行分词之后,需要人工校对。
Step2、从***知识库中获取待消歧实体的候选实体集合;
所述步骤Step2的具体步骤为:
Step2.1、下载***2014年12月的中文离线数据库,并提取其中旅游分类下的页面信息;
Step2.2、从实体页面、重定向页面、消歧页面、超链接中获取待消歧实体的候选实体。
本发明过程中候选实体的获取,主要目的是获取高质量的候选实体集合。
Step3、结合词向量模型和LDA主题模型,充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行领域实体消歧;
所述步骤Step3的具体步骤如下:
Step3.1、获取待消歧实体所在文本和候选实体所在文本的上下文环境,利用词向量模型训练上下文环境得到上下文特征,然后进行上下文特征相似度的计算;
Step3.2、利用K-means聚类算法获取待消歧实体所在文本的高频词,利用上下位关系领域知识库获取高频词在知识库中所属的类别指称特征,即上位词,与候选实体所属的类别名称进行上下位关系类别指称特征相似度的计算。
Step3.3、利用LDA主题模型对训练语料进行上下文主题建模,再进行分类,在不同主题下对多义词进行语义标注,利用词向量模型进行训练获取多义词的不同词向量,利用K-means聚类算法获取不同主题下的关键词特征,然后与候选实体进行主题关键词特征相似度的计算;
Step3.4、充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行特征相似度的融合,然后进行领域实体消歧。
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用中科院汉语词法分析***ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
所述步骤Step3.1的具体步骤为:
Step3.1.1、对于某待消歧的实体G,其背景文本经过预处理后,用训练好的词向量模型进行向量的表示,其向量表示为
Step3.1.2、对于候选实体,通过在知识库中获取实体的摘要,经过向量表示后为
Step3.1.3、待消歧实体G和候选实体G候选之间的相似度通过计算和之间的相似度来计算,相似度计算公式:
本发明中上下文相似度的计算,是实体消歧任务的基础,目的是从全局文档出发,考虑两个不同文本之间的相似度,从而获取待消歧实体与候选实体之间的相似度。
所述步骤Step3.2的具体步骤为:
Step3.2.1、对于待消歧实体所在的背景文档,对其预处理后,包括分词、去停用词,获取所有预处理后的名词类的词语将其转化为单独的词向量;
Step3.2.2、使用K-Means算法对名词类词语的词向量进行聚类操作,使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的4个词作为该类的高频词;
从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称。
Step3.2.3、从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称;
Step3.2.4、从百科的词条标签中获取每个候选实体的类别指称,然后计算x个候选实体与背景文档的y个类的相似度Ri(x),并且每个候选实体只保留一个最大相似度-与各类相似度值比较后最大的相似度值,相似度计算公式sim2(G,G候选)=max{Ri(x)}。
本发明中上下位关系类别相似度的计算,是实体消歧任务的基础,目的也是从全局文档出发,考虑两个不同文本之间所属类别指称的相似度,从而获取待消歧实体与候选实体之间的相似度。
所述步骤Step3.3的具体步骤为:
Step3.3.1、预处理:通过中科院汉语词法分析***ICTCLAS对旅游领域背景文档内容进行分词,去除停用词、对上下文按句分割;
Step3.3.2、主题建模:使用LDA主题模型对每个文档的上下文集合进行主题建模;参数推理采用MCMC方法中的Gibbs抽样算法,看成是文本生成的逆过程,即在已知文本集的情况下,通过参数估计得到参数值,根据概率图模型,得到一段上下文的概率;
Step3.3.3、上下文分类与主题分析:获取待消歧实体所在主题下前4个文本主题词,利用TextRank抽取待消歧实体所在文本的关键词,然后利用词向量模型将关键词表示为向量的形式,计算主题词与关键词的相似度大小,从而对待测上下文进行分类,确定上下文对应的主题词;
Step3.3.4、词义标注:根据多义词所处的上下文主题及其分类,对多义词进行语义标注,将该词语与主题词对看做为一个新词放回词袋,用w′=<w,t>表示多义词与主题对,将w′最为新词取代w放入原词袋模型;
Step3.3.5、多义词词向量训练:把<wi,ti>看做新词进行训练就得到多义词的多个含义的词向量;
Step3.3.6、然后对词向量进行K-Means聚类操作,在聚类过程中使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的m个词作为关键词;
Step3.3.7、获取了不同主题下的关键词集合,每个不同聚类簇下的关键词都是以词向量的形式表示的,聚类簇的个数为主题的个数,设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量,对于关键词集合S中的关键词k,其向量的形式为wk(k=1,2,...,m),候选实体G候选的摘要文本向量形式为ni,则下述公式表示候选实体含义向量与主题关键词之间的相似性,相似度计算公式为:
本发明中基于主题关键词相似度的计算,是实体消歧任务的关键,目的是从局部文档出发,获取多义词的不同向量表示,从而提高消歧的准确率。
所述步骤Step3.4的具体步骤为:
Step3.4.1、对步骤Step3.1、Step3.2、Step3.1获得的特征进行相似度融合,融合公式为
sim(G,G候选)=αsim1(G,G候选)+βsim2(G,G候选)+χsim3(G,G候选)
Step3.4.2、对于三种相似度权重的选择,采用基于经验和权值归一的方法,获得权重比值,且满足α+β+χ=1,α,β,χ表示三项相似度权重值。
所述步骤Step3.4.2中,最终使用的三项相似度权重值α,β,χ分别为0.23,0.25,0.52。
本发明中相似度的融合,是实体消歧的关键,是不可缺少的一步,只有获取合适的权值,才能获取获取高准确率的待消歧实体。
本发明的有益效果是:
1、本发明的一种融合词向量和主题模型的领域实体消歧方法,与现有的实体消歧方法相比较,提高了实体消歧的正确率,本发明取得了较好的效果;
2、本发明的一种融合词向量和主题模型的领域实体消歧方法,与现有的实体消歧方法相比较,本文将多义词表示成多个词向量的形式,通过三种相似度特征的融合,更好的对领域实体进行消歧。
3、本发明的一种融合词向量和主题模型的领域实体消歧方法,对领域实体进行了有效的消歧,为后续工作的实体链接、实体融合和知识图谱构建等工作提供强有力的支撑。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的部分领域知识库语义层次结构图;
图3为本发明上位词个数对消歧结果的影响的示意图;
图4为本发明关键词个数对消歧结果的影响的示意图。
具体实施方式
实施例1:如图1-4所示,一种融合词向量和主题模型的领域实体消歧方法,所述方法的具体步骤如下:
Step1、首先利用Word2vec对旅游领域的百科语料进行词向量模型训练;
所述步骤Step1的具体步骤为:
Step1.1、从***的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条,旅游网页信息等。
Step1.3、对Step1.2步骤获得的语料进行预处理,采用开源的工具包中科院汉语词法分析***ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有旅游领域的高质量的文本级语料。
Step1.4、选择Google的开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练。
本发明中词向量模型的训练过程,是领域实体消歧的前提与基础,是不可缺少的一步,同时由于中文主要由字符组成,相比英文而言,字符间的语义关系表达比较复杂,因此中文文本表示成词向量时,必须先进行分词处理。使用分词工具进行分词之后,需要人工校对。
Step2、从***知识库中获取待消歧实体的候选实体集合;
所述步骤Step2的具体步骤为:
Step2.1、下载***2014年12月的中文离线数据库,并提取其中旅游分类下的页面信息;
Step2.2、从实体页面、重定向页面、消歧页面、超链接中获取待消歧实体的候选实体。
本发明过程中候选实体的获取,主要目的是获取高质量的候选实体集合。
Step3、结合词向量模型和LDA主题模型,充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行领域实体消歧;
所述步骤Step3的具体步骤如下:
Step3.1、获取待消歧实体所在文本和候选实体所在文本的上下文环境,利用词向量模型训练上下文环境得到上下文特征,然后进行上下文特征相似度的计算;
Step3.2、利用K-means聚类算法获取待消歧实体所在文本的高频词,图2为本发明中的部分领域知识库语义层次结构图,包含10000个领域实体的旅游领域知识库,利用上下位关系领域知识库获取高频词在知识库中所属的类别指称特征,即上位词,与候选实体所属的类别名称进行上下位关系类别指称特征相似度的计算。
Step3.3、利用LDA主题模型对训练语料进行上下文主题建模,再进行分类,在不同主题下对多义词进行语义标注,利用词向量模型进行训练获取多义词的不同词向量,利用K-means聚类算法获取不同主题下的关键词特征,然后与候选实体进行主题关键词特征相似度的计算;
Step3.4、充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行特征相似度的融合,然后进行领域实体消歧。
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用中科院汉语词法分析***ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
所述步骤Step3.1的具体步骤为:
Step3.1.1、对于某待消歧的实体G,其背景文本经过预处理后,用训练好的词向量模型进行向量的表示,其向量表示为
Step3.1.2、对于候选实体,通过在知识库中获取实体的摘要,经过向量表示后为
Step3.1.3、待消歧实体G和候选实体G候选之间的相似度通过计算和之间的相似度来计算,相似度计算公式:
本发明中上下文相似度的计算,是实体消歧任务的基础,目的是从全局文档出发,考虑两个不同文本之间的相似度,从而获取待消歧实体与候选实体之间的相似度。
所述步骤Step3.2的具体步骤为:
Step3.2.1、对于待消歧实体所在的背景文档,对其预处理后,包括分词、去停用词,获取所有预处理后的名词类的词语将其转化为单独的词向量;
Step3.2.2、使用K-Means算法对名词类词语的词向量进行聚类操作,使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的4个词作为该类的高频词;
从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称。
Step3.2.3、从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称;,如表1所示,待消歧实体“香格里拉”经过步骤Step3.2.2、Step3.2.3可以得到实体“香格里拉”的上位词类别信息。
表1实体指称K-Means聚类及上位词类别
Step3.2.4、从百科的词条标签中获取每个候选实体的类别指称,然后计算x个候选实体与背景文档的y个类的相似度Ri(x),并且每个候选实体只保留一个最大相似度-与各类相似度值比较后最大的相似度值,相似度计算公式sim2(G,G候选)=max{Ri(x)}。
本发明中上下位关系类别相似度的计算,是实体消歧任务的基础,目的也是从全局文档出发,考虑两个不同文本之间所属类别指称的相似度,从而获取待消歧实体与候选实体之间的相似度。
所述步骤Step3.3的具体步骤为:
Step3.3.1、预处理:通过中科院汉语词法分析***ICTCLAS对旅游领域背景文档内容进行分词,去除停用词、对上下文按句分割;
Step3.3.2、主题建模:使用LDA主题模型对每个文档的上下文集合进行主题建模;参数推理采用MCMC方法中的Gibbs抽样算法,看成是文本生成的逆过程,即在已知文本集的情况下,通过参数估计得到参数值,根据概率图模型,得到一段上下文的概率;
Step3.3.3、上下文分类与主题分析:获取待消歧实体所在主题下前4个文本主题词,利用TextRank抽取待消歧实体所在文本的关键词,然后利用词向量模型将关键词表示为向量的形式,计算主题词与关键词的相似度大小,从而对待测上下文进行分类,确定上下文对应的主题词;
Step3.3.4、词义标注:根据多义词所处的上下文主题及其分类,对多义词进行语义标注,将该词语与主题词对看做为一个新词放回词袋,用w′=<w,t>表示多义词与主题对,将w′最为新词取代w放入原词袋模型;
Step3.3.5、多义词词向量训练:把<wi,ti>看做新词进行训练就得到多义词的多个含义的词向量;
Step3.3.6、然后对词向量进行K-Means聚类操作,在聚类过程中使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的m个词作为关键词;
Step3.3.7、获取了不同主题下的关键词集合,每个不同聚类簇下的关键词都是以词向量的形式表示的,聚类簇的个数为主题的个数,设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量,对于关键词集合S中的关键词k,其向量的形式为wk(k=1,2,...,m),候选实体G候选的摘要文本向量形式为ni,则下述公式表示候选实体含义向量与主题关键词之间的相似性,相似度计算公式为:
本发明中基于主题关键词相似度的计算,是实体消歧任务的关键,目的是从局部文档出发,获取多义词的不同向量表示,从而提高消歧的准确率。
所述步骤Step3.4的具体步骤为:
Step3.4.1、对步骤Step3.1、Step3.2、Step3.1获得的特征进行相似度融合,融合公式为
sim(G,G候选)=αsim1(G,G候选)+βsim2(G,G候选)+χsim3(G,G候选)
Step3.4.2、对于三种相似度权重的选择,采用基于经验和权值归一的方法,获得权重比值,且满足α+β+χ=1,α,β,χ表示三项相似度权重值。
所述步骤Step3.4.2中,最终使用的三项相似度权重值α,β,χ分别为0.23,0.25,0.52。
本发明中相似度的融合,是实体消歧的关键,是不可缺少的一步,只有获取合适的权值,才能获取获取高准确率的待消歧实体。
为了验证本发明识别出来的命名实体的效果,将采用统一的评价标准:正确率(Precision)衡量本发明的性能。
本发明为了验证该发明的的有效性、可行性设计以下几组实验进行验证:
实验一、在实际的环境中,上下文相似度特征(A)、上下位实体类别指称相似度特征(B)、基于领域主题关键词相似度(C)特征对于实体消歧结果的影响可能不同,对实体相似度贡献也不同,本实验通过选取不同的特征组合进行对比实验,表2所示为不同特征组合对实验结果的影响。
表2不同特征组合实验结果统计
特征组合 | P(%) |
A | 80.2 |
A+B | 83.6 |
A+B+C | 89.7 |
根据实验结果发现,仅仅利用上下文相似度特征和上下位实体类别相似度特征进行消歧,其准确率明显低于结合基于领域关键词相似度特征,原因是上下文相似度特征和上下位实体类别相似度特征是基于文档的全局上下文信息出发,对于相似度的计算考虑的是背景文档的上下文与候选义项的上下文是否具有整体相似性,而基于主题关键词的相似度特征从文档的局部上下文信息考虑,其充分考虑了多义词的不同含义在同一文档出现的可能性,因此准确率有了很大的提高。
实验二、本实验就上位词个数m的确定做了4组实验,分布测试m在取1,2,3,4,5时对消歧准确率的影响,实验结果如图3所示。
根据图3的实验结果发现,针对本文提出的基于上下位关系的类别指称相似度计算,其在选择指称项所在文档各个类的类别名称的情况下,选取每个类下高频词的上位词作为文档各个类的类别名称,为了验证类别名称的数量对于消歧结果的影响,实验分别选取类别名称数量为1、2、3、4、5组数据进行实验,从结果发现,当上位词个数选择3个的时候,其实体消歧准确率最高达到87.3%,而随着数量的增加,其准确率不断下降,这是因为上下位关系是一种层级的关系,越往上其上位词代表的类别信息覆盖范围更广,区分度将会越小,有时还会引入了噪音,降低了消歧的准确率。
实验三、本实验就主题关键词个数n的确定做了6组实验,分布测试n在取3、5、7、9、11、13时对消歧准确率的影响,实验结果如图4所示。
根据图4的实验结果发现,针对本文中基于主题关键词相似度计算的关键词选取个数n定为9时准确率达到最大值88.9%。考虑到领域知识库其实并不完备,并非所有的实体指称项在知识库中都有相应的目标实体,同时,关键词并不是越多越好,越多的关键词将会使一些领域关联性很小、没有区分度的词引入到相似度计算中,势必会影响消歧的准确率。
实验四、为了验证本文提出方法的可行性将本文的方法与其他几种实体消歧方法进行比较,实验结果如表3所示。
表3本文方法与其他方法的比较
方法名 | 准确率(%) |
Wikify | 70.2 |
Cucerzan | 75.3 |
SVM[15] | 82.5 |
Score[20] | 88.4 |
本文的方法 | 89.6 |
从表中可知,本文提出的方法在准确率上与其他方法相比有了很大的提高,证明了本方法在对特定领域实体消歧任务的可行性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (9)
1.一种融合词向量和主题模型的领域实体消歧方法,其特征在于:
所述方法的具体步骤为:
Step1、首先利用旅游领域的百科语料进行词向量模型训练;
Step2、从***知识库中获取待消歧实体的候选实体集合;
Step3、结合词向量模型和LDA主题模型,充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行领域实体消歧;
所述步骤Step3的具体步骤如下:
Step3.1、获取待消歧实体所在文本和候选实体所在文本的上下文环境,利用词向量模型训练上下文环境得到上下文特征,然后进行上下文特征相似度的计算;
Step3.2、利用K-means聚类算法获取待消歧实体所在文本的高频词,利用上下位关系领域知识库获取高频词在知识库中所属的类别指称特征,即上位词,与候选实体所属的类别名称进行上下位关系类别指称特征相似度的计算。
Step3.3、利用LDA主题模型对训练语料进行上下文主题建模,再进行分类,在不同主题下对多义词进行语义标注,利用词向量模型进行训练获取多义词的不同词向量,利用K-means聚类算法获取不同主题下的关键词特征,然后与候选实体进行主题关键词特征相似度的计算;
Step3.4、充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行特征相似度的融合,然后进行领域实体消歧。
2.根据权利要求1所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、从***的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
Step1.3、对Step1.2步骤获得的语料进行预处理,采用开源的工具包中科院汉语词法分析***ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
Step1.4、选择Google的开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练。
3.根据权利要求1所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、下载***的中文离线数据库,并提取其中旅游分类下的页面信息;
Step2.2、从实体页面、重定向页面、消歧页面、超链接中获取待消歧实体的候选实体。
4.根据权利要求2所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用中科院汉语词法分析***ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
5.根据权利要求1所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.1的具体步骤为:
Step3.1.1、对于某待消歧的实体G,其背景文本经过预处理后,用训练好的词向量模型进行向量的表示,其向量表示为
Step3.1.2、对于候选实体,通过在知识库中获取实体的摘要,经过向量表示后为
Step3.1.3、待消歧实体G和候选实体G候选之间的相似度通过计算和之间的相似度来计算,相似度计算公式:
6.根据权利要求5所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.2的具体步骤为:
Step3.2.1、对于待消歧实体所在的背景文档,对其预处理后,包括分词、去停用词,获取所有预处理后的名词类的词语将其转化为单独的词向量;
Step3.2.2、使用K-Means算法对名词类词语的词向量进行聚类操作,使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的4个词作为该类的高频词;
Step3.2.3、从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称;
Step3.2.4、从百科的词条标签中获取每个候选实体的类别指称,然后计算x个候选实体与背景文档的y个类的相似度Ri(x),并且每个候选实体只保留一个最大相似度-与各类相似度值比较后最大的相似度值,相似度计算公式sim2(G,G候选)=max{Ri(x)}。
7.根据权利要求6所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.3的具体步骤为:
Step3.3.1、预处理:通过中科院汉语词法分析***ICTCLAS对旅游领域背景文档内容进行分词,去除停用词、对上下文按句分割;
Step3.3.2、主题建模:使用LDA主题模型对每个文档的上下文集合进行主题建模;参数推理采用MCMC方法中的Gibbs抽样算法,看成是文本生成的逆过程,即在已知文本集的情况下,通过参数估计得到参数值,根据概率图模型,得到一段上下文的概率;
Step3.3.3、上下文分类与主题分析:获取待消歧实体所在主题下前4个文本主题词,利用TextRank抽取待消歧实体所在文本的关键词,然后利用词向量模型将关键词表示为向量的形式,计算主题词与关键词的相似度大小,从而对待测上下文进行分类,确定上下文对应的主题词;
Step3.3.4、词义标注:根据多义词所处的上下文主题及其分类,对多义词进行语义标注,将该词语与主题词对看做为一个新词放回词袋,用w′=<w,t>表示多义词与主题对,将w′最为新词取代w放入原词袋模型;
Step3.3.5、多义词词向量训练:把<wi,ti>看做新词进行训练就得到多义词的多个含义的词向量;
Step3.3.6、然后对词向量进行K-Means聚类操作,在聚类过程中使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的m个词作为关键词;
Step3.3.7、获取了不同主题下的关键词集合,每个不同聚类簇下的关键词都是以词向量的形式表示的,聚类簇的个数为主题的个数,设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量,对于关键词集合S中的关键词k,其向量的形式为wk(k=1,2,...,m),候选实体G候选的摘要文本向量形式为ni,则下述公式表示候选实体含义向量与主题关键词之间的相似性,相似度计算公式为:
8.根据权利要求7所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.4的具体步骤为:
Step3.4.1、对步骤Step3.1、Step3.2、Step3.1获得的特征进行相似度融合,融合公式为
sim(G,G候选)=αsim1(G,G候选)+βsim2(G,G候选)+χsim3(G,G候选)
Step3.4.2、对于三种相似度权重的选择,采用基于经验和权值归一的方法,获得权重比值,且满足α+β+χ=1,α,β,χ表示三项相似度权重值。
9.根据权利要求8所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.4.2中,最终使用的三项相似度权重值α,β,χ分别为0.23,0.25,0.52。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710913216.0A CN107861939B (zh) | 2017-09-30 | 2017-09-30 | 一种融合词向量和主题模型的领域实体消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710913216.0A CN107861939B (zh) | 2017-09-30 | 2017-09-30 | 一种融合词向量和主题模型的领域实体消歧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107861939A true CN107861939A (zh) | 2018-03-30 |
CN107861939B CN107861939B (zh) | 2021-05-14 |
Family
ID=61698216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710913216.0A Active CN107861939B (zh) | 2017-09-30 | 2017-09-30 | 一种融合词向量和主题模型的领域实体消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107861939B (zh) |
Cited By (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415901A (zh) * | 2018-02-07 | 2018-08-17 | 大连理工大学 | 一种基于词向量和上下文信息的短文本主题模型 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108763487A (zh) * | 2018-05-30 | 2018-11-06 | 华南理工大学 | 一种基于Mean Shift的融合词性和句子信息的词表示方法 |
CN108763189A (zh) * | 2018-04-12 | 2018-11-06 | 武汉斗鱼网络科技有限公司 | 一种直播间内容标签权重计算方法、装置及电子设备 |
CN108763192A (zh) * | 2018-04-18 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN108874772A (zh) * | 2018-05-25 | 2018-11-23 | 太原理工大学 | 一种多义词词向量消歧方法 |
CN108921213A (zh) * | 2018-06-28 | 2018-11-30 | 国信优易数据有限公司 | 一种实体分类模型训练方法及装置 |
CN108920497A (zh) * | 2018-05-23 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种人机交互方法及装置 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN108920467A (zh) * | 2018-08-01 | 2018-11-30 | 北京三快在线科技有限公司 | 多义词词义学习方法及装置、搜索结果显示方法 |
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
CN109325230A (zh) * | 2018-09-21 | 2019-02-12 | 广西师范大学 | 一种基于***双向链接的词语语义相关度判断方法 |
CN109359303A (zh) * | 2018-12-10 | 2019-02-19 | 枣庄学院 | 一种基于图模型的词义消歧方法和*** |
CN109558494A (zh) * | 2018-10-29 | 2019-04-02 | 中国科学院计算机网络信息中心 | 一种基于异质网络嵌入的学者名字消歧方法 |
CN109635297A (zh) * | 2018-12-11 | 2019-04-16 | 湖南星汉数智科技有限公司 | 一种实体消歧方法、装置、计算机装置及计算机存储介质 |
CN109902144A (zh) * | 2019-01-11 | 2019-06-18 | 杭州电子科技大学 | 一种基于改进wmd算法的实体对齐方法 |
CN109933788A (zh) * | 2019-02-14 | 2019-06-25 | 北京百度网讯科技有限公司 | 类型确定方法、装置、设备和介质 |
CN109961091A (zh) * | 2019-03-01 | 2019-07-02 | 杭州叙简科技股份有限公司 | 一种自学习的事故文字标签与摘要生成***及其方法 |
CN110110094A (zh) * | 2019-04-22 | 2019-08-09 | 华侨大学 | 基于社交网络知识图谱的跨网络人物关联方法 |
CN110134965A (zh) * | 2019-05-21 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110162769A (zh) * | 2018-07-05 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本主题输出方法和装置、存储介质及电子装置 |
CN110196907A (zh) * | 2019-04-15 | 2019-09-03 | 中国石油大学(华东) | 一种多层次文本聚类方法和装置 |
CN110232185A (zh) * | 2019-01-07 | 2019-09-13 | 华南理工大学 | 面向金融行业软件测试基于知识图谱语义相似度计算方法 |
CN110309316A (zh) * | 2018-06-08 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 一种知识图谱向量的确定方法、装置、终端设备和介质 |
CN110362723A (zh) * | 2019-05-31 | 2019-10-22 | 平安国际智慧城市科技股份有限公司 | 一种题目特征表示方法、装置及存储介质 |
CN110457711A (zh) * | 2019-08-20 | 2019-11-15 | 电子科技大学 | 一种基于主题词的社交媒体事件主题识别方法 |
CN110532541A (zh) * | 2019-06-11 | 2019-12-03 | 福建奇点时空数字科技有限公司 | 一种基于实体相似度计算的本体实体消歧方法 |
CN110580294A (zh) * | 2019-09-11 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 实体融合方法、装置、设备及存储介质 |
CN110717015A (zh) * | 2019-10-10 | 2020-01-21 | 大连理工大学 | 一种基于神经网络的多义词识别方法 |
CN110826331A (zh) * | 2019-10-28 | 2020-02-21 | 南京师范大学 | 基于交互式与迭代式学习的地名标注语料库智能构建方法 |
CN110837568A (zh) * | 2019-11-26 | 2020-02-25 | 精硕科技(北京)股份有限公司 | 实体对齐方法及装置、电子设备、存储介质 |
CN110852106A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体处理方法、装置及电子设备 |
CN111079429A (zh) * | 2019-10-15 | 2020-04-28 | 平安科技(深圳)有限公司 | 基于意图识别模型的实体消歧方法、装置和计算机设备 |
CN111191445A (zh) * | 2018-11-15 | 2020-05-22 | 北京京东金融科技控股有限公司 | 广告文本分类方法及装置 |
CN111353303A (zh) * | 2020-05-25 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 词向量构建方法、装置、电子设备及存储介质 |
CN111368532A (zh) * | 2020-03-18 | 2020-07-03 | 昆明理工大学 | 一种基于lda的主题词嵌入消歧方法及*** |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
CN111428031A (zh) * | 2020-03-20 | 2020-07-17 | 电子科技大学 | 一种融合浅层语义信息的图模型过滤方法 |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN111507098A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 多义词识别方法、装置、电子设备及计算机可读存储介质 |
CN111583072A (zh) * | 2020-04-27 | 2020-08-25 | 北京北大软件工程股份有限公司 | 法条上下位关系判断方法及处理终端 |
CN111783418A (zh) * | 2020-06-09 | 2020-10-16 | 北京北大软件工程股份有限公司 | 一种中文词义表示学习方法及装置 |
CN111831802A (zh) * | 2020-06-04 | 2020-10-27 | 北京航空航天大学 | 一种基于lda主题模型的城市领域知识检测***及方法 |
CN111931509A (zh) * | 2020-08-28 | 2020-11-13 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN111967263A (zh) * | 2020-07-30 | 2020-11-20 | 北京明略软件***有限公司 | 一种基于实体话题关联度的领域命名实体去噪方法及*** |
CN111966780A (zh) * | 2019-05-20 | 2020-11-20 | 天津科技大学 | 一种基于词向量建模和信息检索的回顾性队列选择方法及装置 |
CN112069826A (zh) * | 2020-07-15 | 2020-12-11 | 浙江工业大学 | 融合主题模型和卷积神经网络的垂直域实体消歧方法 |
CN112215008A (zh) * | 2020-10-23 | 2021-01-12 | 中国平安人寿保险股份有限公司 | 基于语义理解的实体识别方法、装置、计算机设备和介质 |
CN112307134A (zh) * | 2020-10-30 | 2021-02-02 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备及存储介质 |
CN112434169A (zh) * | 2020-11-13 | 2021-03-02 | 北京创业光荣信息科技有限责任公司 | 一种知识图谱的构建方法及其***和计算机设备 |
CN112580355A (zh) * | 2020-12-30 | 2021-03-30 | 中科院计算技术研究所大数据研究院 | 一种新闻资讯话题检测及实时聚合方法 |
CN112612892A (zh) * | 2020-12-29 | 2021-04-06 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN112612889A (zh) * | 2020-12-28 | 2021-04-06 | 中科院计算技术研究所大数据研究院 | 一种多语种文献分类方法、装置及存储介质 |
WO2021082370A1 (zh) * | 2019-10-28 | 2021-05-06 | 南京师范大学 | 基于百科知识库和词向量的中文地名语义消歧方法 |
CN112825112A (zh) * | 2019-11-20 | 2021-05-21 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机终端 |
CN112861990A (zh) * | 2021-03-05 | 2021-05-28 | 电子科技大学 | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 |
CN113010633A (zh) * | 2019-12-20 | 2021-06-22 | 海信视像科技股份有限公司 | 一种信息交互方法及设备 |
WO2021120174A1 (zh) * | 2019-12-20 | 2021-06-24 | 深圳市欢太科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113032584A (zh) * | 2021-05-27 | 2021-06-25 | 北京明略软件***有限公司 | 一种实体关联方法、装置、电子设备及存储介质 |
CN113051917A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种基于时间窗口文本相似度的文档隐式时间推断方法 |
CN113221561A (zh) * | 2021-01-27 | 2021-08-06 | 北京云天互联科技有限公司 | 基于nlp结合上下文的实体识别方法 |
CN113283236A (zh) * | 2021-05-31 | 2021-08-20 | 北京邮电大学 | 一种复杂中文文本中的实体消歧方法 |
CN113361283A (zh) * | 2021-06-28 | 2021-09-07 | 东南大学 | 面向Web表格的成对实体联合消歧方法 |
CN113407717A (zh) * | 2021-05-28 | 2021-09-17 | 数库(上海)科技有限公司 | 消除新闻中行业词歧义的方法、装置、设备和存储介质 |
CN113947087A (zh) * | 2021-12-20 | 2022-01-18 | 太极计算机股份有限公司 | 一种基于标签的关系构建方法、装置、电子设备及存储介质 |
CN114238597A (zh) * | 2021-12-06 | 2022-03-25 | 河南讯飞人工智能科技有限公司 | 一种信息抽取方法、装置、设备及存储介质 |
CN114896980A (zh) * | 2022-07-14 | 2022-08-12 | 湖南四方天箭信息科技有限公司 | 军事实体链接方法、装置、计算机设备和存储介质 |
CN115221871A (zh) * | 2022-06-24 | 2022-10-21 | 毕开龙 | 多特征融合的英文科技文献关键词提取方法 |
CN115293158A (zh) * | 2022-06-30 | 2022-11-04 | 撼地数智(重庆)科技有限公司 | 基于标签辅助的消歧方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060224565A1 (en) * | 2005-03-31 | 2006-10-05 | International Business Machines Corporation | System and method for disambiguating entities in a web page search |
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
US20140046653A1 (en) * | 2012-08-10 | 2014-02-13 | Xurmo Technologies Pvt. Ltd. | Method and system for building entity hierarchy from big data |
CN104933039A (zh) * | 2015-06-04 | 2015-09-23 | 中国科学院新疆理化技术研究所 | 面向资源缺乏语言的实体链接*** |
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
-
2017
- 2017-09-30 CN CN201710913216.0A patent/CN107861939B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060224565A1 (en) * | 2005-03-31 | 2006-10-05 | International Business Machines Corporation | System and method for disambiguating entities in a web page search |
CN101290626A (zh) * | 2008-06-12 | 2008-10-22 | 昆明理工大学 | 基于领域知识的文本分类特征选择及权重计算方法 |
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
US20140046653A1 (en) * | 2012-08-10 | 2014-02-13 | Xurmo Technologies Pvt. Ltd. | Method and system for building entity hierarchy from big data |
CN104933039A (zh) * | 2015-06-04 | 2015-09-23 | 中国科学院新疆理化技术研究所 | 面向资源缺乏语言的实体链接*** |
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
Non-Patent Citations (3)
Title |
---|
IVAN LOPEZ-AREVALO等: "Improving selection of synsets from WordNet for domain-specific", 《COMPUTER SPEECH AND LANGUAGE》 * |
曾琦等: "一种多义词词向量计算方法", 《小型微型计算机***》 * |
汪沛等: "一种结合词向量和图模型的特定领域实体消歧方法", 《智能***学报》 * |
Cited By (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415901A (zh) * | 2018-02-07 | 2018-08-17 | 大连理工大学 | 一种基于词向量和上下文信息的短文本主题模型 |
CN108763189B (zh) * | 2018-04-12 | 2022-03-25 | 武汉斗鱼网络科技有限公司 | 一种直播间内容标签权重计算方法、装置及电子设备 |
CN108763189A (zh) * | 2018-04-12 | 2018-11-06 | 武汉斗鱼网络科技有限公司 | 一种直播间内容标签权重计算方法、装置及电子设备 |
CN108763192B (zh) * | 2018-04-18 | 2022-04-19 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN108763192A (zh) * | 2018-04-18 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 用于文本处理的实体关系抽取方法及装置 |
CN108763333B (zh) * | 2018-05-11 | 2022-05-17 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
CN108920497A (zh) * | 2018-05-23 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种人机交互方法及装置 |
CN108874772A (zh) * | 2018-05-25 | 2018-11-23 | 太原理工大学 | 一种多义词词向量消歧方法 |
CN108763487A (zh) * | 2018-05-30 | 2018-11-06 | 华南理工大学 | 一种基于Mean Shift的融合词性和句子信息的词表示方法 |
CN110309316A (zh) * | 2018-06-08 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 一种知识图谱向量的确定方法、装置、终端设备和介质 |
CN110309316B (zh) * | 2018-06-08 | 2022-10-25 | 腾讯科技(深圳)有限公司 | 一种知识图谱向量的确定方法、装置、终端设备和介质 |
CN108921213B (zh) * | 2018-06-28 | 2021-06-22 | 国信优易数据股份有限公司 | 一种实体分类模型训练方法及装置 |
CN108921213A (zh) * | 2018-06-28 | 2018-11-30 | 国信优易数据有限公司 | 一种实体分类模型训练方法及装置 |
CN110162769A (zh) * | 2018-07-05 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 文本主题输出方法和装置、存储介质及电子装置 |
CN110162769B (zh) * | 2018-07-05 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 文本主题输出方法和装置、存储介质及电子装置 |
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN108920467A (zh) * | 2018-08-01 | 2018-11-30 | 北京三快在线科技有限公司 | 多义词词义学习方法及装置、搜索结果显示方法 |
CN109325230A (zh) * | 2018-09-21 | 2019-02-12 | 广西师范大学 | 一种基于***双向链接的词语语义相关度判断方法 |
CN109558494A (zh) * | 2018-10-29 | 2019-04-02 | 中国科学院计算机网络信息中心 | 一种基于异质网络嵌入的学者名字消歧方法 |
CN111191445A (zh) * | 2018-11-15 | 2020-05-22 | 北京京东金融科技控股有限公司 | 广告文本分类方法及装置 |
CN111191445B (zh) * | 2018-11-15 | 2024-04-19 | 京东科技控股股份有限公司 | 广告文本分类方法及装置 |
CN109359303B (zh) * | 2018-12-10 | 2023-04-07 | 枣庄学院 | 一种基于图模型的词义消歧方法和*** |
CN109359303A (zh) * | 2018-12-10 | 2019-02-19 | 枣庄学院 | 一种基于图模型的词义消歧方法和*** |
CN109635297B (zh) * | 2018-12-11 | 2022-01-04 | 湖南星汉数智科技有限公司 | 一种实体消歧方法、装置、计算机装置及计算机存储介质 |
CN109635297A (zh) * | 2018-12-11 | 2019-04-16 | 湖南星汉数智科技有限公司 | 一种实体消歧方法、装置、计算机装置及计算机存储介质 |
CN110232185B (zh) * | 2019-01-07 | 2023-09-19 | 华南理工大学 | 面向金融行业软件测试基于知识图谱语义相似度计算方法 |
CN110232185A (zh) * | 2019-01-07 | 2019-09-13 | 华南理工大学 | 面向金融行业软件测试基于知识图谱语义相似度计算方法 |
CN109902144B (zh) * | 2019-01-11 | 2020-01-31 | 杭州电子科技大学 | 一种基于改进wmd算法的实体对齐方法 |
CN109902144A (zh) * | 2019-01-11 | 2019-06-18 | 杭州电子科技大学 | 一种基于改进wmd算法的实体对齐方法 |
CN109933788A (zh) * | 2019-02-14 | 2019-06-25 | 北京百度网讯科技有限公司 | 类型确定方法、装置、设备和介质 |
CN109961091A (zh) * | 2019-03-01 | 2019-07-02 | 杭州叙简科技股份有限公司 | 一种自学习的事故文字标签与摘要生成***及其方法 |
CN110196907A (zh) * | 2019-04-15 | 2019-09-03 | 中国石油大学(华东) | 一种多层次文本聚类方法和装置 |
CN110110094B (zh) * | 2019-04-22 | 2022-07-01 | 华侨大学 | 基于社交网络知识图谱的跨网络人物关联方法 |
CN110110094A (zh) * | 2019-04-22 | 2019-08-09 | 华侨大学 | 基于社交网络知识图谱的跨网络人物关联方法 |
CN111966780A (zh) * | 2019-05-20 | 2020-11-20 | 天津科技大学 | 一种基于词向量建模和信息检索的回顾性队列选择方法及装置 |
CN110134965A (zh) * | 2019-05-21 | 2019-08-16 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110134965B (zh) * | 2019-05-21 | 2023-08-18 | 北京百度网讯科技有限公司 | 用于信息处理的方法、装置、设备和计算机可读存储介质 |
CN110362723B (zh) * | 2019-05-31 | 2022-06-21 | 平安国际智慧城市科技股份有限公司 | 一种题目特征表示方法、装置及存储介质 |
CN110362723A (zh) * | 2019-05-31 | 2019-10-22 | 平安国际智慧城市科技股份有限公司 | 一种题目特征表示方法、装置及存储介质 |
CN110532541A (zh) * | 2019-06-11 | 2019-12-03 | 福建奇点时空数字科技有限公司 | 一种基于实体相似度计算的本体实体消歧方法 |
CN110457711B (zh) * | 2019-08-20 | 2021-02-02 | 电子科技大学 | 一种基于主题词的社交媒体事件主题识别方法 |
CN110457711A (zh) * | 2019-08-20 | 2019-11-15 | 电子科技大学 | 一种基于主题词的社交媒体事件主题识别方法 |
CN110580294A (zh) * | 2019-09-11 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 实体融合方法、装置、设备及存储介质 |
CN110580294B (zh) * | 2019-09-11 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 实体融合方法、装置、设备及存储介质 |
CN110717015A (zh) * | 2019-10-10 | 2020-01-21 | 大连理工大学 | 一种基于神经网络的多义词识别方法 |
CN111079429A (zh) * | 2019-10-15 | 2020-04-28 | 平安科技(深圳)有限公司 | 基于意图识别模型的实体消歧方法、装置和计算机设备 |
CN111079429B (zh) * | 2019-10-15 | 2022-03-18 | 平安科技(深圳)有限公司 | 基于意图识别模型的实体消歧方法、装置和计算机设备 |
JP2022532451A (ja) * | 2019-10-28 | 2022-07-14 | 南京師範大学 | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 |
JP7228946B2 (ja) | 2019-10-28 | 2023-02-27 | 南京師範大学 | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 |
CN110826331B (zh) * | 2019-10-28 | 2023-04-18 | 南京师范大学 | 基于交互式与迭代式学习的地名标注语料库智能构建方法 |
CN110826331A (zh) * | 2019-10-28 | 2020-02-21 | 南京师范大学 | 基于交互式与迭代式学习的地名标注语料库智能构建方法 |
WO2021082370A1 (zh) * | 2019-10-28 | 2021-05-06 | 南京师范大学 | 基于百科知识库和词向量的中文地名语义消歧方法 |
CN110852106A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体处理方法、装置及电子设备 |
CN110852106B (zh) * | 2019-11-06 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体处理方法、装置及电子设备 |
CN112825112A (zh) * | 2019-11-20 | 2021-05-21 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机终端 |
CN112825112B (zh) * | 2019-11-20 | 2024-05-31 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机终端 |
CN110837568A (zh) * | 2019-11-26 | 2020-02-25 | 精硕科技(北京)股份有限公司 | 实体对齐方法及装置、电子设备、存储介质 |
CN113010633A (zh) * | 2019-12-20 | 2021-06-22 | 海信视像科技股份有限公司 | 一种信息交互方法及设备 |
WO2021120174A1 (zh) * | 2019-12-20 | 2021-06-24 | 深圳市欢太科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113010633B (zh) * | 2019-12-20 | 2023-01-31 | 海信视像科技股份有限公司 | 一种信息交互方法及设备 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
CN111368532A (zh) * | 2020-03-18 | 2020-07-03 | 昆明理工大学 | 一种基于lda的主题词嵌入消歧方法及*** |
CN111368532B (zh) * | 2020-03-18 | 2022-12-09 | 昆明理工大学 | 一种基于lda的主题词嵌入消歧方法及*** |
CN111428031B (zh) * | 2020-03-20 | 2023-07-07 | 电子科技大学 | 一种融合浅层语义信息的图模型过滤方法 |
CN111428031A (zh) * | 2020-03-20 | 2020-07-17 | 电子科技大学 | 一种融合浅层语义信息的图模型过滤方法 |
CN111507098A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 多义词识别方法、装置、电子设备及计算机可读存储介质 |
CN111507098B (zh) * | 2020-04-17 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 多义词识别方法、装置、电子设备及计算机可读存储介质 |
CN111583072B (zh) * | 2020-04-27 | 2023-11-07 | 北京北大软件工程股份有限公司 | 法条上下位关系判断方法及处理终端 |
CN111583072A (zh) * | 2020-04-27 | 2020-08-25 | 北京北大软件工程股份有限公司 | 法条上下位关系判断方法及处理终端 |
CN111353303B (zh) * | 2020-05-25 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 词向量构建方法、装置、电子设备及存储介质 |
CN111353303A (zh) * | 2020-05-25 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 词向量构建方法、装置、电子设备及存储介质 |
CN111831802B (zh) * | 2020-06-04 | 2023-05-26 | 北京航空航天大学 | 一种基于lda主题模型的城市领域知识检测***及方法 |
CN111831802A (zh) * | 2020-06-04 | 2020-10-27 | 北京航空航天大学 | 一种基于lda主题模型的城市领域知识检测***及方法 |
KR20210152924A (ko) * | 2020-06-09 | 2021-12-16 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 엔티티 연결 방법, 장치, 기기 및 저장 매체 |
CN111783418A (zh) * | 2020-06-09 | 2020-10-16 | 北京北大软件工程股份有限公司 | 一种中文词义表示学习方法及装置 |
US11727216B2 (en) | 2020-06-09 | 2023-08-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device, and storage medium for linking entity |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
KR102448129B1 (ko) * | 2020-06-09 | 2022-09-27 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 엔티티 연결 방법, 장치, 기기 및 저장 매체 |
CN111783418B (zh) * | 2020-06-09 | 2024-04-05 | 北京北大软件工程股份有限公司 | 一种中文词义表示学习方法及装置 |
CN112069826A (zh) * | 2020-07-15 | 2020-12-11 | 浙江工业大学 | 融合主题模型和卷积神经网络的垂直域实体消歧方法 |
CN112069826B (zh) * | 2020-07-15 | 2021-12-07 | 浙江工业大学 | 融合主题模型和卷积神经网络的垂直域实体消歧方法 |
CN111967263A (zh) * | 2020-07-30 | 2020-11-20 | 北京明略软件***有限公司 | 一种基于实体话题关联度的领域命名实体去噪方法及*** |
CN111931509A (zh) * | 2020-08-28 | 2020-11-13 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN112215008B (zh) * | 2020-10-23 | 2024-04-16 | 中国平安人寿保险股份有限公司 | 基于语义理解的实体识别方法、装置、计算机设备和介质 |
CN112215008A (zh) * | 2020-10-23 | 2021-01-12 | 中国平安人寿保险股份有限公司 | 基于语义理解的实体识别方法、装置、计算机设备和介质 |
CN112307134B (zh) * | 2020-10-30 | 2024-02-06 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备及存储介质 |
CN112307134A (zh) * | 2020-10-30 | 2021-02-02 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备及存储介质 |
CN112434169A (zh) * | 2020-11-13 | 2021-03-02 | 北京创业光荣信息科技有限责任公司 | 一种知识图谱的构建方法及其***和计算机设备 |
CN112434169B (zh) * | 2020-11-13 | 2024-03-15 | 海创汇科技创业发展股份有限公司 | 一种知识图谱的构建方法及其***和计算机设备 |
CN112612889A (zh) * | 2020-12-28 | 2021-04-06 | 中科院计算技术研究所大数据研究院 | 一种多语种文献分类方法、装置及存储介质 |
CN112612892B (zh) * | 2020-12-29 | 2022-11-01 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN112612892A (zh) * | 2020-12-29 | 2021-04-06 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN112580355A (zh) * | 2020-12-30 | 2021-03-30 | 中科院计算技术研究所大数据研究院 | 一种新闻资讯话题检测及实时聚合方法 |
CN113221561A (zh) * | 2021-01-27 | 2021-08-06 | 北京云天互联科技有限公司 | 基于nlp结合上下文的实体识别方法 |
CN112861990B (zh) * | 2021-03-05 | 2022-11-04 | 电子科技大学 | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 |
CN112861990A (zh) * | 2021-03-05 | 2021-05-28 | 电子科技大学 | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 |
CN113051917A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种基于时间窗口文本相似度的文档隐式时间推断方法 |
CN113032584A (zh) * | 2021-05-27 | 2021-06-25 | 北京明略软件***有限公司 | 一种实体关联方法、装置、电子设备及存储介质 |
CN113407717A (zh) * | 2021-05-28 | 2021-09-17 | 数库(上海)科技有限公司 | 消除新闻中行业词歧义的方法、装置、设备和存储介质 |
CN113407717B (zh) * | 2021-05-28 | 2022-12-20 | 数库(上海)科技有限公司 | 消除新闻中行业词歧义的方法、装置、设备和存储介质 |
CN113283236A (zh) * | 2021-05-31 | 2021-08-20 | 北京邮电大学 | 一种复杂中文文本中的实体消歧方法 |
CN113283236B (zh) * | 2021-05-31 | 2022-07-19 | 北京邮电大学 | 一种复杂中文文本中的实体消歧方法 |
CN113361283A (zh) * | 2021-06-28 | 2021-09-07 | 东南大学 | 面向Web表格的成对实体联合消歧方法 |
CN114238597A (zh) * | 2021-12-06 | 2022-03-25 | 河南讯飞人工智能科技有限公司 | 一种信息抽取方法、装置、设备及存储介质 |
CN113947087A (zh) * | 2021-12-20 | 2022-01-18 | 太极计算机股份有限公司 | 一种基于标签的关系构建方法、装置、电子设备及存储介质 |
CN115221871B (zh) * | 2022-06-24 | 2024-02-20 | 毕开龙 | 多特征融合的英文科技文献关键词提取方法 |
CN115221871A (zh) * | 2022-06-24 | 2022-10-21 | 毕开龙 | 多特征融合的英文科技文献关键词提取方法 |
CN115293158B (zh) * | 2022-06-30 | 2024-02-02 | 撼地数智(重庆)科技有限公司 | 基于标签辅助的消歧方法及装置 |
CN115293158A (zh) * | 2022-06-30 | 2022-11-04 | 撼地数智(重庆)科技有限公司 | 基于标签辅助的消歧方法及装置 |
CN114896980A (zh) * | 2022-07-14 | 2022-08-12 | 湖南四方天箭信息科技有限公司 | 军事实体链接方法、装置、计算机设备和存储介质 |
CN114896980B (zh) * | 2022-07-14 | 2022-10-28 | 湖南四方天箭信息科技有限公司 | 军事实体链接方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107861939B (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861939A (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
CN108959258B (zh) | 一种基于表示学习的特定领域集成实体链接方法 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答***构建方法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN106708966A (zh) | 基于相似度计算的垃圾评论检测方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN103886034A (zh) | 一种建立索引及匹配用户的查询输入信息的方法和设备 | |
CN101609450A (zh) | 基于训练集的网页分类方法 | |
CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN104866572A (zh) | 一种网络短文本聚类方法 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN108388914A (zh) | 一种基于语义计算的分类器构建方法、分类器 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及*** | |
CN106095791A (zh) | 一种基于上下文的抽象样本信息检索***及其抽象样本特征化表示方法 | |
Hillard et al. | Learning weighted entity lists from web click logs for spoken language understanding | |
CN112051986A (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN114997288A (zh) | 一种设计资源关联方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Yu Zhengtao Inventor after: Ma Xiaojun Inventor after: Guo Jianyi Inventor after: Chen Wei Inventor after: Zhang Zhikun Inventor before: Guo Jianyi Inventor before: Ma Xiaojun Inventor before: Yu Zhengtao Inventor before: Chen Wei Inventor before: Zhang Zhikun |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |