CN111428031B - 一种融合浅层语义信息的图模型过滤方法 - Google Patents

一种融合浅层语义信息的图模型过滤方法 Download PDF

Info

Publication number
CN111428031B
CN111428031B CN202010200084.9A CN202010200084A CN111428031B CN 111428031 B CN111428031 B CN 111428031B CN 202010200084 A CN202010200084 A CN 202010200084A CN 111428031 B CN111428031 B CN 111428031B
Authority
CN
China
Prior art keywords
entity
candidate
entities
candidate entity
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010200084.9A
Other languages
English (en)
Other versions
CN111428031A (zh
Inventor
贾海涛
刘芳
李建
任利
周焕来
赫熙煦
任金胜
许文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010200084.9A priority Critical patent/CN111428031B/zh
Publication of CN111428031A publication Critical patent/CN111428031A/zh
Application granted granted Critical
Publication of CN111428031B publication Critical patent/CN111428031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种融合浅层语义信息的图模型过滤方法,该方法包括:将中文指称输入指称扩展方法,得到精准完整的实体指称;将实体指称作为wiki搜索的关键字段放入中文***知识库中,获得实体指称的候选实体列表;将候选实体列表输入融合浅层语义信息的图模型过滤方法中,得到过滤后的候选实体列表;将过滤后的候选实体列表存入数据库,为实体消歧模块做准备。本发明通过融合浅层语义信息计算候选实体和实体指称上下文相似度获得文本相似度作为过滤算法的权重因子,并利用基于图模型出入度算法计算候选实体相关度作为过滤算法的权重因子,最后融合两个权重因子得到综合得分对候选实体进行排列,降低了实体消歧误差。

Description

一种融合浅层语义信息的图模型过滤方法
技术领域
本发明涉及实体链接技术领域,尤其涉及一种融合浅层语义信息的图模型过滤方法。
背景技术
在大数据时代,文本资源是人们获取信息的重要途径,但由于自然语言处理中广泛存在着一词多义和多词一义的情况,故如何让机器理解实体的歧义和多样性,精准的为用户提供检索内容,是自然语言处理亟待解决的难题之一。
实体链接处理各种非结构化/半结构化的输入,使用多种技术,提取各种类型的实体,并将这些信息与现有知识图谱进行集成。
假设给定一段文本(如“在旧金山的发布会上,苹果为开发者推出新编程语言Swift”),一个实体链接***包括如下研究内容:
①识别文档中的目标指称(mention)。对于上面的示例,可以提取出需要链接的实体指称为:{“旧金山”,“苹果”,“Swift”};
②将识别的实体指称输入知识库中找到可能的候选实体列表,比如文本中的实体指称“苹果”的候选实体列表为:{苹果(水果),苹果公司,苹果(电影),苹果(银行),…};
③基于实体指称的上下文信息进行实体消歧。比如“苹果”实体指称的上下文词语{发布会,编程语言,开发者,…}识别出该段文本中“苹果”指的是苹果公司,而不是其他“苹果”;
④空提及检测与聚类。如果知识库中不包含实体指称,那么就把对应的实体指称指向Null。
目前的实体链接方法把重点放在第三个步骤,有许多学者把深度学习应用在实体链接上,尝试用神经网络获取更多的语义信息,从而达到提高消歧算法精度的目的,但是都忽略了候选实体列表的数量和质量对实体消歧的精度和效率也有重大影响,比如,实体指称“苹果”公司,如果能在知识库搜索环节,能把正确的消歧对象放入候选实体列表,并且让候选实体列表尽量精简,减少后面消歧算法的运算量,在不影响消歧精度的情况下提高实体链接方法的准确度。
发明内容
现有实体链接方法包含四个步骤:实体识别、候选实体生成、实体消歧、输出。本发明主要针对候选实体生成模块,提出一种串行结构实现融合浅层语义信息的图模型的候选实体过滤方法。该串行结构主要包含三个部分:指称扩展、wiki搜索、融合浅层语义信息的图模型过滤方法。
步骤1针对实体指称经常会出现简称、别名导致实体指称获取不准确的问题。本发明将中文指称首先输入三种候选指称扩展方法:子字符串扩展、翻译扩展、特殊简写扩展中得到精准完整的实体指称。
步骤2将得到的精准完整的实体指称作为wiki搜索的关键字段放入中文***知识库中,通过比对wiki标题页面、wiki重定向页面、wiki消歧页面中获得实体指称的候选实体列表C{cl′},l′∈[0,N],其中N代表候选实体列表的容量。
步骤3将获得的实体指称的候选实体列表C{cl′},l′∈[0,N]输入融合多特征的图模型过滤方法中,得到过滤后的候选实体列表C{cl′},l′∈[0,k],其中0<k≤τ<N,其中τ为过滤因子,是一个常数。
步骤4最后将过滤后的候选实体列表存入数据库中,为实体消歧模块做准备。
本发明使用融合浅层语义的图模型过滤算法进行候选实体过滤,相比传统候选实体过滤算法选取单一的实体特征进行消歧,给实体消歧带来较大累积误差。本文提出一种新的文本相似度计算方法:通过融合浅层语义信息计算候选实体和实体指称上下文相似度获得文本相似度作为过滤算法的权重因子sim,同时利用基于图模型出入度算法计算候选实体相关度作为过滤算法的权重因子pr,最后通过融合sim和pr得到综合得分对候选实体进行排列,过滤前τ个候选实体作为最终的候选实体列表。
附图说明
图1为本发明的融合浅层语义信息的图模型过滤方法
图2为本发明的指称扩展方法流程图
图3为本发明的数据预处理流程图
图4为本发明的数据预处理伪代码示意图
图5为本发明的基于知识库匹配搜索算法流程图
图6为本发明的融合浅层语义信息的相似度计算方法
图7为本发明的基于图模型出入度的实体相关度计算方法流程图
图8为本发明的关于文本中候选实体构建图模型的示例图
图9为本发明的过滤因子τ验证分析图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
如图1所示,本发明提出了一种融合浅层语义信息的图模型过滤方法,该方法包括如下步骤:
步骤1针对实体指称经常会出现简称、别名导致实体指称获取不准确的问题。本发明将中文指称首先输入三种候选指称扩展方法:子字符串扩展、翻译扩展、特殊简写扩展中得到精准完整的实体指称。
步骤2将得到的精准完整的实体指称作为wiki搜索的关键字段放入中文***知识库中,通过比对wiki标题页面、wiki重定向页面、wiki消歧页面中获得实体指称的候选实体列表C{cl′},l′∈[0,N],其中N代表候选实体列表的容量。
步骤3将获得的实体指称的候选实体列表C{cl′},l′∈[0,N]输入融合多特征的图模型过滤方法中,得到过滤后的候选实体列表C{cl′},l′∈[0,k],其中0<k≤τ<N,其中τ为过滤因子,是一个常数。
步骤4最后将过滤后的候选实体列表存入数据库中,为实体消歧模块做准备。
1.指称扩展方法
实体指称扩展方法流程图如图2所示,主要分为3个步骤:子字符串扩展、翻译扩展和基于特殊词典扩展。下面将会对每个步骤的原理分点叙述。
(1)子字符串扩展
对于文档中的每一个实体指称,会将文档中所有包含有相同实体的命名实体都标注出来,比如,文档d中提到了“李四”,文档d的上下文中又提到了“XX·李四”,那么后者“XX·李四”会被识别成“李四”的子字符串扩展名被列出。
(2)翻译扩展名
如果实体指称是英语等其他非中文语言,本发明会调用Google翻译获得其它非中文语言,并将其翻译成中文作为翻译扩展。
(3)国家/地区扩展名
如果是国家/地区名称的缩写可以通过提前构建的扩展词典扩展到更具体的国家/地区扩展名。例如,指称地缘政治实体“CN”将扩展为“中国”。
本发明中,实体指词语,不过是特殊的词语,比如人名、地名、机构名等;实体指称指文本中有歧义的实体;候选实体,就是从知识库中匹配出可能的实体指称对象,其中一个是正确消歧对象。
2.wiki搜索
使用wiki搜索之前需要完成两个工作:数据预处理、实体指称-候选实体映射表构建。
(1)数据预处理
针对中文数据海量、难以迅速提取有效信息,并且在输入核心算法之前,需要对中文文本进行一些通用性处理。数据预处理模块主要为了方便后期实验,提前将中文***文本进行数据预处理,存入Mysql数据库中。具体处理流程图如图3所示。
本发明通过下载中文***的XML离线数据包,将获得的离线数据包根据如表1所示的数据包标签对知识库数据进行抽取存入MySQL数据库中。
表1中文***离线数据包数据XLM标签
Figure GDA0002460221830000041
导入数据的工具使用Java Wikipedia Library(JWPL)完成,JWPL是一个开源的访问中文***数据的Java AIP包,提供了访问***重定向、类别、文章和连接结构的访问接口。JWPL提供了DataMachine工具类可以解析中文***的XML格式文件,生成MySQL数据的txt文件。
中文***会掺杂着繁体字,为了让文本更加统一,方便后续处理,本文使用开源转换工具langconv将文本中所有繁体字统一转换为简体字。在提取上下文的信息时需要对文本进行分词,分词的操作使用中文分词工具jieba。
由于中文文本含有许多无实际意义的停用词,如“的,吗,呢,吧”等词,对后续词向量构建没有实际意义,因此本发明通过构建停用词表,去除文本停用词。具体数据预处理伪代码如图4所示。
(2)实体指称-候选实体映射表构建
基于知识库匹配搜索主要是利用中文***页面信息,获取实体指称相关的候选实体列表。基于知识库的匹配算法流程图如图5所示。
由于中文***容量很大,为了便于查询实体指称的候选实体列表,本发明提前将中文***中的数据进行进一步处理,主要是构建“实体指称-候选实体列表”的映射表,当输入经过数据预处理后的文本,通过实体识别获得实体指称之后,可以直接将实体指称作为数据库查询字段。
实体指称-候选实体映射表的构建需要使用如表2所示的***信息。
表2构建映射表所需的***信息表
Figure GDA0002460221830000051
通过上表的中文***信息,可以得到中文***中实体指称和可能的候选实体列表之间的映射关系。到此为止,所有实体指称-候选实体映射表构建准备工作已经完成,当实体指称确定,可以利用实体指称作为查询,在数据库的映射表中找到对应的候选实体列表。3.融合多特征的图模型过滤方法
本发明提出的融合多特征的图模型过滤方法中主要利用了本发明的浅层次语义信息和实体之间的图模型链接信息进行候选实体过滤。其中浅层次语义信息权重因子w由tf-idf系数、词性权重和位置权重组成,由w可以得到候选实体与实体指称的上下文相似度权重sim。另一边通过构建中文***实体图模型,并基于图模型出入度得到候选实体之间的相关度pr,最后给sim和pr分别赋予不同的权重α和β,得到候选实体列表的匹配度得分,具体计算公式如式1所示。
scorec=α*simc+β*prc 式1
其中,c表示候选实体,simc表示候选实体c与实体指称m的上下文相似度权重,prc表示候选实体c的图模型出入度,最后通过实验验证α=0.47,β=0.53分析可知当时,准确率可以达到最优值。
(1)基于浅层语义信息的文本相似度权重因子计算
本发明利用的浅层语义信息主要有词频信息,即tf-idf系数、词性信息、位置信息,融合这三个信息权重作为BERT词向量的权重因子,最后对句子中词汇向量累加得到融合浅层语义信息的文本向量,计算候选实体和实体指称的相似度。具体算法流程图如图6所示。
①tf-idf系数
一般来说,词语越重要在文档中出现的次数会增加,同时随着在语料库中出现的频率成反比例下降,TF-IDF算法可以度量词语在文档中的重要程度,使用fj表示词语j在文档中出现的频数,idfj表示词语j的逆文档频率。具体计算公式如式2、式3所示。
Figure GDA0002460221830000061
其中,D表示实体消歧中的消歧文本或者候选实体的实体页面描述文本。N(j|D)表示词语j出现在文本D中的次数,N(j)表示词语j出现在语料库中的总次数。
Figure GDA0002460221830000062
其中,T表示中文***语料库中的文本总数,N(D|j)为包含词语j的文本数。
由此可以得到词语j的TF-IDF系数计算公式为式4所示。
TF-IDFj=fj*idfj 式4
②词性权重
实验总结分析得知一个词的词性在某种程度上也代表了一个词在整篇文本中表达语义的程度。根据陈宏对现代汉语同义并列复合词的词性、词序分析,对名词、动词、形容词、副词、代词、介词、连词7类词性进行统计,统计分析如表3所示。
表3复合词词性分布表
词性 动词 形容词 名词 副词 介词 连词 叹词
数目 558 85 53 20 11 4 2
百分比 75.54 11.49 7.43 2.84 1.89 0.54 0.27
例词 碰撞 僵硬 寺庙 略微 自从 连同 哎呀
从上表可以看出,在现代汉语中能标识文本特性的主要是一些实词,如名词、动词、形容词、副词。而介词、连词、叹词占得比重较少,且没有实际语义信息,会给文本相似度计算造成一定噪声,因此本文直接过滤掉这些虚词,为实词词性根据表中词性分布以及语法规则,设置了实词词性语义权重如下表4所示。
表4词性权重设置表
Figure GDA0002460221830000071
③位置权重
根据Baxendal的统计结果,在一篇文章中段落的主题句为段落首句的概率为85%,为段落末句的概率为7%。根据句子位置对主题的影响可以推及到词语对句子的影响,位于句子前面和结束部分位置的词语应该享有较高的权重,具体权重表达公式如式5所示。
Figure GDA0002460221830000072
其中,p表示词语j或句子j在文本中所在位置的百分比,a1和a2为可调整的参数,在这里本文选取实验经验值a1为0.5,a2为0.7。
上面主要是对词语的TF-IDF系数、词性权重、位置权重进行相关计算说明,最终的融合浅层语义信息的增强系数,即浅层次语义信息权重因子由这三类浅层语义信息权重组合而成,具体计算公式如式6所示。
wj=tf-idfj*kj*lj 式6
其中tf-idfj代表词语j的TF-IDF权重系数,kj代表词语j的词性权重,lj代表词语j的位置权重,wj表示词语j的综合浅层信息因子。
由此可以得到代表候选实体c的句子向量x和实体指称m的句子向量y的表达公式为:
x={x1*w1,...,xn*wn}
y={y1*w1,...,yn*wn}
其中n代表x和y句子向量的维度。
最终候选实体与实体指称的上下文相似度权重计算公式如式7所示
Figure GDA0002460221830000081
(2)基于图模型出入度的候选实体之间的相关度计算
本发明通过构建同一文本中不同实体指称的候选实体之间的有向图,并对每一个候选实体的重要程度进行打分排序,选取前τ个候选实体达到过滤多余候选实体的目的,PageRank在重要程度PR的计算公式如式8所示。
Figure GDA0002460221830000082
其中
Figure GDA0002460221830000083
称之为阻尼系数,其为0与1之间的一个常数,取值为0.85,(u,v)表示网页u指向网页v,PRv表示第v个网页的PageRank值,用以衡量每一个网页的排名;若排名越高,则其PageRank值越大;网页之间的链接关系可以表示成一个有向图G(V,E),V表示图的节点,E表示图的连线。边(u,v)代表了网页u链接到了网页v;Ov为网页的出度,也可看作网页的外链数;
基于图模型出入度的候选实体之间的相关度计算方法如图7所示,整个图模型出入度算法分为三个步骤进行:候选实体图模型构建、候选实体排序、候选实体过滤。
(1)候选实体图模型构建
首先将得到实体指称的候选实体集做为图模型的顶点,每条边中代表这候选实体之间的关系。如果不同实体指称的两个候选者的中文***条目包含指向另一个候选者的链接,则在两个候选者之间***一条边。假设这种关系是双向的,所以本发明使用无向边表示。另外一点需要注意,同一个实体指称的候选实体之间不能有连线。
为了更加方便的解释PageRank在实体链接方面的应用,本文利用图8所示的例子进行详细阐述。先将待消歧文本“联合足球俱乐部位于林肯郡,这支俱乐部进入了英国足球的第六梯队,前锋德文·怀特于1985年加入该俱乐部”通过实体识别模块可以得出7个候选实体:德文怀特(足球)、德文怀特(蓝球)、波士顿联合足球俱乐部、林肯联合足球俱乐部、林肯郡、林肯·林肯郡、波士顿·林肯郡,这7个候选实体作为实体指称项分别输入***知识库中进行搜索,可以获得知识库中与之相关的候选实体。到此为止已经获得了构建有向图中的所有目标节点。
如果在目标节点的中文***的实体信息页面中还出现了其他实体指称的候选实体节点,以此构建图的边结构。将图的所有信息转换成如表5所示的文本形式存储。
表5有向图的文本存储形式input.txt示例表
Figure GDA0002460221830000091
(2)候选实体PR值计算
读入input.txt文本,存储边和节点信息于List数据结构中,并用将所有节点映射为***数字,存储为dict数据形式,示例如下:
①边信息存储示例
[['德文怀特(足球)','波士顿联合足球俱乐部'],['波士顿联合足球俱乐部','德文怀特(足球)'],['德文怀特(足球)','林肯联合足球俱乐部'],['林肯联合足球俱乐部','德文怀特(足球)'],['德文怀特(篮球)','波士顿林肯郡'],['波士顿林肯郡','德文怀特(篮球)'],...]。
②节点信息存储示例
['德文怀特(足球)','波士顿联合足球俱乐部','德文怀特(篮球)','林肯联合足球俱乐部','波士顿林肯郡','林肯郡','林肯.林肯郡']。
③映射关系字典示例
{'德文怀特(足球)':2,'波士顿联合足球俱乐部':3,'德文怀特(篮球)':1,'林肯联合足球俱乐部':2,'波士顿林肯郡':3,'林肯郡':2,'林肯.林肯郡':1}。
初始化误差值e=100,迭代次数为0,按照PageRank的计算公式进行迭代,通过经验值取最后的停止迭代条件为e<0.00000001,输出最后的PR值。
(3)候选实体过滤
至此已经得到了候选实体的PR值和sim值,根据公式(3-1)可以计算得出候选实体的得分score,最后根据score进行候选实体排序,选取前τ名候选实体,达到过滤候选实体提高算法速度的目的。其中τ是一个过滤因子,本发明将这一步命名为“候选实体过滤,”
最后,对于每个检测到的实体指称,候选者生成模块生成k个候选者列表,即,其中k∈[0,τ]。
通过实验分析τ取8时取得最佳实验效果,如图9所示。
图9的横坐标表示过滤因子τ的不同取值,纵坐标表示算法精确度值,从图中可以得出如下结论:
①随着τ值的增加,候选实体集包含正确消歧对象的可能性越大。
②当τ取3,4,5,6,7三个值时,可能存在正确消歧对象不在候选实体列表的情况,会给后续算法增加额外的累积误差,因此不适合作为过滤因子。
③当τ取8,9,10三个值,可以确保所有待消歧实体的正确消歧对象可以包含在候选实体列表中,为了让候选实体列表尽量减少达到提高算法速率的目的,故本发明的最终过滤因子选8。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种融合浅层语义信息的图模型过滤方法,针对候选实体生成模块,其特征在于,该方法包括以下步骤:
步骤1:将中文指称首先输入指称扩展方法,得到精准完整的实体指称;
步骤2:将得到的精准完整的实体指称作为wiki搜索的关键字段放入中文***知识库中,通过比对wiki标题页面、wiki重定向页面、wiki消歧页面中获得实体指称的候选实体列表C{cl′},l′∈[0,N],其中cl′表示第l′个候选实体,N代表候选实体列表的容量;
步骤3:将获得的实体指称的候选实体列表C{cl′},l′∈[0,N]输入融合多特征的图模型过滤方法中,得到过滤后的候选实体列表C{cl′},l′∈[0,k],其中0<k≤τ<N,其中τ为过滤因子,是一个预设常数;
步骤4:最后将过滤后的候选实体列表存入数据库中,为实体消歧模块做准备;
所述步骤3中所述融合多特征的图模型过滤方法利用浅层次语义信息和实体之间的图模型链接信息进行候选实体过滤,其中浅层次语义信息权重因子w由tf-idf系数、词性权重和位置权重组成,由w得到候选实体与实体指称的上下文相似度权重;另外构建中文***实体图模型出入度得到候选实体之间的相关度,最后给上下文相似度权重和相关度分别赋予不同的权重α和β,得到候选实体列表的匹配度得分,具体计算公式如式1所示:
scorec=α*simc+β*prc 式1
其中,c表示候选实体,simc表示候选实体c与实体指称m文本句向量的上下文相似度权重,prc表示候选实体之间的相关度,α和β的取值分别为α=0.47,β=0.53;
所述候选实体与实体指称的上下文相似度权重的计算方法中,利用的浅层语义信息包括tf-idf系数、词性信息、位置信息,融合这三个信息权重作为BERT词向量的权重因子,最后对句子中词汇向量累加得到融合浅层语义信息的文本向量,计算候选实体和实体指称的上下文相似度权重具体计算方法包括:
1)计算tf-idf系数
使用fj表示词语j在文档中出现的频数,idfj表示词语j的逆文档频率,具体计算公式如式2、式3所示:
Figure FDA0004237847270000021
其中,D表示实体消歧中的消歧文本或者候选实体的实体页面描述文本,N(j|D)表示词语j出现在文本D中的次数,N(j)表示词语j出现在语料库中的总次数,
Figure FDA0004237847270000022
其中,T表示中文***语料库中的文本总数,N(D|j)为包含词语j的文本数;
由此得到词语j的TF-IDF系数计算公式为式4所示:
TF-IDFj=fj*idfj 式4
2)词性权重计算
过滤掉虚词,为实词词性根据预先设置的表中的词性分布以及语法规则得到实词j的词性权重kj,其中属于一级特征词的动词权重为0.75、名词权重为0.25;属于二级特征词的副词权重为0.1、形容词权重为0.4;
3)位置权重计算
位于句子前面和结束部分位置的词语享有较高的权重,具体权重表达公式如式5所示:
Figure FDA0004237847270000023
其中,p表示词语j或句子j在文本中所在位置的百分比,a1和a2为可调整的参数,a1和a2的取值分别为a1为0.5,a2为0.7;
最终的浅层次语义信息权重因子由这三类浅层语义信息权重组合而成,具体计算公式如式6所示:
wj=tf-idfj*kj*lj 式6
其中tf-idfj代表词语j的TF-IDF权重系数,kj代表词语j的词性权重,lj代表词语j的位置权重,wj表示词语j的浅层次语义信息权重因子;
由此得到代表候选实体c的句子向量x和实体指称m的句子向量y的表达公式为:
x={x1*w1,...,xn*wn}
y={y1*w1,...,yn*wn}
其中n代表x和y句子向量的维度;
最终候选实体与实体指称的上下文相似度权重计算公式如式7所示
Figure FDA0004237847270000031
其中x代表候选实体c的句子向量,y代表实体指称m的句子向量,simc表示候选实体c与实体指称m的上下文相似度权重,n代表句子向量的维度;
得到候选实体之间的相关度的计算方法为:通过构建同一文本中不同实体指称的候选实体之间的有向图,并对每一个候选实体的重要程度进行打分排序,选取前τ个候选实体达到过滤多余候选实体的目的,PageRank在重要程度PR的计算公式如式8所示:
Figure FDA0004237847270000032
其中
Figure FDA0004237847270000033
称之为阻尼系数,其为0与1之间的一个常数,取值为0.85,(u,v)表示网页u指向网页v,PRv表示第v个网页的PageRank值,用以衡量每一个网页的排名;若排名越高,则其PageRank值越大;网页之间的链接关系表示成一个有向图G(V,E),V表示图的节点,E表示图的连线,边(u,v)代表了网页u链接到了网页v;Ov为网页的出度;
有向图图模型的构建方法为:对待消歧文本识别出了实体指称,并识别了对应的候选实体;每个图节点是一个候选实体,如果候选实体的中文***页面存在其他候选实体的超链接的话,就在这两个候选实体之间画一条边,同一个实体对应的候选实体之间是不能有联系的;
构建完图模型之后整个图模型出入度算法分为3个步骤进行:候选实体图模型构建、候选实体排序、候选实体过滤;
a.候选实体图模型构建
首先将得到实体指称的候选实体集做为图模型的顶点,每条边中代表这候选实体之间的关系,如果不同实体指称的两个候选实体的中文***条目包含指向另一个候选者的链接,则在两个候选者之间***一条边,如果这种关系是双向的,所以使用无向边表示,同一个实体指称的候选实体之间不能有连线;先将待消歧文本通过实体识别模块得出候选实体,这些候选实体作为实体指称项分别输入***知识库中进行搜索,获得知识库中与之相关的候选实体,到此为止已经获得了构建有向图中的所有目标节点;
如果在目标节点的中文***的实体页面中还出现了其他实体指称的候选实体节点,以此构建图的边结构,将图的所有信息转换成有向图的文本存储形式input.txt存储;
b.候选实体PR值计算
读入input.txt文本,存储边和节点信息于List数据结构中,并用将所有节点映射为***数字,存储为dict数据形式,初始化误差值e=100,迭代次数为0,按照PageRank的计算公式进行迭代,取最后的停止迭代条件为e<0.00000001,输出最后的PR值;
c.候选实体过滤
至此已经得到了候选实体的PR值和sim值,根据式1计算出候选实体的得分score,最后根据score进行候选实体排序,选取前τ名候选实体,达到过滤候选实体提高算法速度的目的,其中τ是一个过滤因子,最后,对于每个检测到的实体指称,候选者生成模块生成k个候选者列表,即,其中k∈[0,τ]。
2.根据权利要求1所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述步骤1中的所述指称扩展方法分为3个部分:子字符串扩展、翻译扩展和基于特殊词典扩展:
1.1.子字符串扩展
对于文档中的每一个实体指称,将文档中所有包含有相同实体的命名实体都标注出来,作为子字符串扩展名被列出;
1.2.翻译扩展
如果实体指称是非中文语言,调用Google翻译获得其它非中文语言,并将其翻译成中文作为翻译扩展;
1.3.基于特殊词典扩展
如果是国家/地区名称的缩写,通过提前构建的扩展词典扩展到更具体的国家/地区扩展名。
3.根据权利要求2所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述步骤2中进行所述wiki搜索之前具体包括以下两个步骤:
2.1.数据预处理
在输入核心算法之前,将中文***文本根据中文***的XML离线数据包的标签进行抽取,存入Mysql数据库中;
2.2.实体指称-候选实体映射表构建
将中文***中的数据进行进一步处理,构建实体指称-候选实体列表的映射表,输入经过数据预处理后的中文***文本,通过实体识别获得实体指称之后,将实体指称作为数据库查询字段,在数据库的映射表中找到对应的候选实体列表。
4.根据权利要求1-3任意一项所述的融合浅层语义信息的图模型过滤方法,其特征在于,所述τ的取值为8。
CN202010200084.9A 2020-03-20 2020-03-20 一种融合浅层语义信息的图模型过滤方法 Active CN111428031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010200084.9A CN111428031B (zh) 2020-03-20 2020-03-20 一种融合浅层语义信息的图模型过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010200084.9A CN111428031B (zh) 2020-03-20 2020-03-20 一种融合浅层语义信息的图模型过滤方法

Publications (2)

Publication Number Publication Date
CN111428031A CN111428031A (zh) 2020-07-17
CN111428031B true CN111428031B (zh) 2023-07-07

Family

ID=71548319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010200084.9A Active CN111428031B (zh) 2020-03-20 2020-03-20 一种融合浅层语义信息的图模型过滤方法

Country Status (1)

Country Link
CN (1) CN111428031B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084777B (zh) * 2020-09-03 2023-09-01 新华智云科技有限公司 一种实体链接方法
CN112380865A (zh) * 2020-11-10 2021-02-19 北京小米松果电子有限公司 识别文本中的实体方法、装置及存储介质
CN113139389B (zh) * 2021-04-29 2023-01-13 南宁师范大学 基于动态优化的图模型语义查询扩展方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183770A (zh) * 2015-08-06 2015-12-23 电子科技大学 一种基于图模型的中文集成实体链接方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
HK1244336A1 (zh) * 2018-03-16 2018-08-03 中國人民解放軍國防科學技術大學 一種改進的面向領域的命名實體消歧方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158685A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Modeling Intent and Ranking Search Results Using Activity-based Context
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines
CN108170662A (zh) * 2016-12-07 2018-06-15 富士通株式会社 缩简词的消歧方法和消歧设备
CN106951684B (zh) * 2017-02-28 2020-10-09 北京大学 一种医学疾病诊断记录中实体消歧的方法
CN106911512B (zh) * 2017-03-10 2021-04-16 山东大学 在可交换图中基于博弈的链接预测方法及***
CN108959258B (zh) * 2018-07-02 2021-06-18 昆明理工大学 一种基于表示学习的特定领域集成实体链接方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183770A (zh) * 2015-08-06 2015-12-23 电子科技大学 一种基于图模型的中文集成实体链接方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
HK1244336A1 (zh) * 2018-03-16 2018-08-03 中國人民解放軍國防科學技術大學 一種改進的面向領域的命名實體消歧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向实体链接的多特征图模型实体消歧方法;高艳红,李爱萍,段利国;《计算机应用研究》(第10期);全文 *

Also Published As

Publication number Publication date
CN111428031A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
US20100332217A1 (en) Method for text improvement via linguistic abstractions
CN111428031B (zh) 一种融合浅层语义信息的图模型过滤方法
Markert et al. Comparing knowledge sources for nominal anaphora resolution
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
Schopf et al. Patternrank: Leveraging pretrained language models and part of speech for unsupervised keyphrase extraction
JP2011118689A (ja) 検索方法及びシステム
Pandey et al. An unsupervised Hindi stemmer with heuristic improvements
Bayraktar et al. A rule-based holistic approach for Turkish aspect-based sentiment analysis
Selamat Improved N-grams approach for web page language identification
Conrado et al. Exploration of a rich feature set for automatic term extraction
Ebrahimi Rashed et al. A supervised method for constructing sentiment lexicon in persian language
Walas et al. Named entity recognition in a Polish question answering system
Sindhu et al. Text Summarization: A Technical Overview and Research Perspectives
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP4864095B2 (ja) 知識相関サーチエンジン
Kalender et al. THINKER-entity linking system for Turkish language
Khan et al. Intelligent combination of approaches towards improved bangla text summarization
Argaw et al. Dictionary-based Amharic-French information retrieval
Soltani et al. A statistical approach on persian word sense disambiguation
Krishnan et al. Employing Wikipedia as a resource for named entity recognition in morphologically complex under-resourced languages
RU2618375C2 (ru) Расширение возможностей информационного поиска
Chakraborty et al. A rule based approach for noun phrase extraction from english text document
Gupta et al. Identification and extraction of multiword expressions from Hindi & Urdu language in natural language processing
US11928427B2 (en) Linguistic analysis of seed documents and peer groups

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant