CN108170662A - 缩简词的消歧方法和消歧设备 - Google Patents

缩简词的消歧方法和消歧设备 Download PDF

Info

Publication number
CN108170662A
CN108170662A CN201611115210.0A CN201611115210A CN108170662A CN 108170662 A CN108170662 A CN 108170662A CN 201611115210 A CN201611115210 A CN 201611115210A CN 108170662 A CN108170662 A CN 108170662A
Authority
CN
China
Prior art keywords
full name
entity
breviaty
word
name entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611115210.0A
Other languages
English (en)
Inventor
宋双永
缪庆亮
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201611115210.0A priority Critical patent/CN108170662A/zh
Publication of CN108170662A publication Critical patent/CN108170662A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种缩简词的消歧方法和消歧设备。该消歧方法包括:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;在查找到多个全称实体的情况下,针对每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;基于参考实体与该全称实体之间的共现支持概率TF‑IDF,计算该全称实体的共现概率;基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;其中,所述TF‑IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。

Description

缩简词的消歧方法和消歧设备
技术领域
本发明一般地涉及自然语言处理领域。具体而言,本发明涉及一种能够为处理文本中的对应于多个全称的缩简词准确地确定所对应的单个全称的消歧方法和消歧设备。
背景技术
在自然语言中,经常出现缩简词,即相对于全称,经缩减后的缩写或简称。例如,在中文中,“海南航空股份有限公司”可以简称为“海航”,“海上航行”也能简称为“海航”。在英文中,“Machine Learning”可以缩写为“ML”,“Malcolm Lincoln”也可以缩写为“ML”。
由于缩简词存在着与全称的一对多情形,所以在自然语言处理中,缩简词的歧义消除(以下简称为消歧)就成为必须解决的问题,是词义消歧中的重要的子任务。在机器翻译、语音问答等应用中,缩简词的消歧的难度较大。然而,如果不能实现缩简词的消歧,自然语言处理的结果的可读性不佳。例如,在从英文到中文的机器翻译应用中,翻译结果是包括没有任何翻译的英文缩写的中文句子。这样的句子会让用户看起来不伦不类,有未处理完成之感,甚至让人无法理解翻译结果的意思。例如,“ML是一位令人尊敬的歌手。”。
传统的方法例如从缩简词的上下文中查找该缩简词的真实含义。然而,该方法的问题在于缩简词的上下文中并不总包含其真实含义。
因此,本发明旨在准确地将具有歧义的缩简词对应到正确的实体。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是提出一种能够对具有歧义的缩简词进行消歧的方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种缩简词的消歧方法,该方法包括:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;在查找到多个全称实体的情况下,针对每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
根据本发明的另一个方面,提供了一种缩简词的消歧设备,该设备包括:查找装置,被配置为:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;确定装置,被配置为:在查找到多个全称实体的情况下,针对每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明的实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明的实施例的缩简词消歧方法的流程图;
图2示出了共现语义知识库构建方法的流程图;
图3示出了在查找到多个全称实体的情况下确定与缩简词对应的全称实体的方法的流程图;
图4示出了根据本发明的实施例的缩简词消歧设备的结构方框图;
图5示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与***及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
下面将参照图1描述根据本发明的实施例的缩简词消歧方法的流程。
图1示出了根据本发明的实施例的缩简词消歧方法的流程图。如图1所示,该消歧方法包括如下步骤:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体(步骤S1);以及在查找到多个全称实体的情况下,确定与该缩简词对应的全称实体(步骤S2)。
在步骤S1中,针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体。
共现语义知识库是预先构建好的知识库,其中记录有缩简词实体、与缩简词实体对应的一个或更多个全称实体。缩简词实体与其所对应的全称实体之间的对应关系也记载在共现语义知识库中。
由于缩简词与缩简词实体是一一对应的关系,因此,可以根据缩简词,确定与该缩简词对应的一个或更多个全称实体。
共现语义知识库可以图2所示的共现语义知识库构建方法来构建。如图2所示,共现语义知识库构建方法包括:从百科知识库中,搜索具有消歧属性的缩简词实体、对应的多个全称实体(步骤S21);统计在包含所搜索到的全称实体的语料中出现的其它实体与全称实体之间的TF-IDF(步骤S22);基于TF-IDF,选择上述其它实体中的部分实体作为参考实体(步骤S23)以及基于参考实体、上述多个全称实体、它们之间的TF-IDF,构建所述共现语义知识库(步骤S24)。
在步骤S21中,从百科知识库中,搜索具有消歧属性的缩简词实体、对应的多个全称实体。
百科知识库例如是DBpedia等。以DBpedia为例,其中一部分缩简词实体具有消歧属性wikiPageDisambiguates,该属性是专门为具有歧义的本体设定的。例如本体<http://dbpedia.org/resource/Roark>既可以指代摄影师James Roark,也可以指代演员RoarkCritchlow;本体<http://dbpedia.org/resource/DHA>既可以指代“Dihydroartemisinin(二氢青蒿素)”,也可以指代“Defence Housing Authority(国防房屋委员会)”。
通过在百科知识库中搜索,可以找到缩简词实体、与缩简词实体对应的多个全称实体。
步骤S21中示出的通过百科知识库搜索到缩简词实体及其对应全称实体的手段还可以与下述手段结合,以获得更多的缩简词实体及其对应全称实体。
手段一:通过对文本语料的特定模式匹配,搜索缩简词实体、对应的全称实体。
该手段主要针对文本语料中同时出现缩简词实体、对应的全称实体的情况。例如,语料为:“ML(Malcolm Lincoln)is a respectable singer.”。采用模式:“缩写(全称)”可以从上述语料中提取出缩写“ML”和全称“Malcolm Lincoln”。还存在其它的模式匹配方式,在此并不一一列举。该手段的优点是速度快、发现的结果多,缺点是错误率相对高。可以根据实际情况和需求来具体设计模式。
手段二:从百科知识库中,搜索不具有消歧属性的缩简词实体、对应的全称实体。
事实上,在构建共现语义知识库的过程中,也在百科知识库中搜索其它缩简词实体,即不具有消歧属性的缩简词实体,这样,可以对搜索到的所有缩简词实体进行到全称实体的转换,而不限于具有歧义的缩简词实体。例如SparQL目前只能指代“Simple Protocoland RDF Query Language”这一实体。此类数据同样可以通过DBpedia进行收集,比如SameAs属性和InfoBox信息等内容。
在步骤S22中,统计在包含所搜索到的全称实体的语料中出现的其它实体与全称实体之间的TF-IDF。
步骤S22的目的在于找到所搜索到的全称实体的潜在参考实体。潜在参考实体存在于所有包含所搜索到的全称实体的语料中,而不仅限于在步骤S21中搜索到全称实体时,所搜索到的全称实体所在的语料。
具体地,在包含所搜索到的全称实体的语料中,统计与全称实体一同出现的其它实体与该全称实体之间的TF-IDF作为筛选潜在参考实体的因素。
TF-IDF是共现次数TF与逆向文档频率IDF之积。
因此,在包含所搜索到的全称实体的语料中出现的其它实体与全称实体之间的TF-IDF等于其它实体与该全称实体的共现次数TF和其它实体与该全称实体的逆向文件频率IDF之积。
在包含所搜索到的全称实体的语料中与全称实体一同出现的其它实体是在该语料中除了该全称实体之外的任何实体。
例如,以“Google Freebase Annotations of TREC KBA 2014Stream Corpus”作为数据,发现其它实体与全称实体之间的共现次数。该数据包含多个文档,且每个文档中的实体已经被抽取出来。本步骤的工作是挖掘与全称实体具有文档级共现关系(出现在同一文档中)的其它实体并统计两者之间的TF-IDF。
TF-IDF的意义在于能够分辨出哪个其它实体对于全称实体的指示性高。
例如,缩写词FB对应的一个全称实体为Facebook,而与Facebook这一实体具有最高TF值的实体是united states和twitter,与Facebook这一实体的具有最高TF-IDF值的实体是mark zuckerberg。按照实际的经验,mark zuckerberg确实要比united states和twitter更能代表Facebook相关的内容。
在步骤S23中,基于TF-IDF,选择上述其它实体中的部分实体作为参考实体。
因为上述其它实体很多,所以需要选择一部分其它实体作为参考实体。选择的依据是TF-IDF越高的其它实体具有越高的指示性,越应该选择为参考实体。
本领域技术人员可以设定适当的阈值来进行选择。例如,设定TF-IDF的阈值,高于该阈值的TF-IDF的其它实体被选择为参考实体。
在步骤S24中,基于参考实体、上述多个全称实体、它们之间的TF-IDF,构建所述共现语义知识库。
在共现语义知识库中,缩简词实体与多个全称实体之间的对应关系、全称实体与参考实体之间的TF-IDF以资源描述框架(Resource Description Framework,RDF)形式存在。共现语义知识库采用关联数据linked data形式,也称作知识图谱(Knowledge graph)。
以RDF形式存储的优点是查询迅速。例如,对于需要进行机器翻译的语句,如果其中包含缩简词,则利用SparQL语句查询“缩写词-全称实体”对应的RDF文件,查找该缩写词可能指代的所有全称实体(可能存在一个,也可能存在多个)。SparQL是为RDF开发的一种查询语言,该语言能够快速准确地查询RDF文件中的内容。
这样,就构建了可用于步骤S1、S2的共现语义知识库。
在步骤S1中,针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体。
在查找到一个全称实体的情况下,将该全称实体确定为与所述缩简词对应的全称实体。
在步骤S2中,在查找到多个全称实体的情况下,确定与该缩简词对应的一个全称实体。
图3示出了在查找到多个全称实体的情况下确定与缩简词对应的全称实体的方法。
如图3所示,针对查找到的多个全称实体中的每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体(步骤S31);基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率(步骤S32);基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体(步骤S33)。
在步骤S31中,针对查找到的多个全称实体中的每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体。
因为之前在共现语义知识库中已经为全称实体找到了参考实体,因此,直接根据全称实体搜索到与其关联的参考实体。查看哪个或哪些参考实体也出现在待处理文本中。
另外,之前在共现语义知识库中也计算了全称实体与参考实体之间的共现支持概率TF-IDF,所以在步骤S32中,可以基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率。其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
一个全称实体的共现概率等于该全称实体与其所有参考实体之间的共现支持概率TF-IDF之和。
在步骤S33中,基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体。
具体地,选择共现概率最高的全称实体作为与缩简词对应的全称实体。
另外,在未检索到参考实体的情况下,可以选择多个全称实体中成为消歧结果最多的全称实体,作为与所述缩简词对应的全称实体。
此外,在未检索到参考实体的情况下,也可利用消歧模型,将多个全称实体之一确定为与所述缩简词对应的全称实体。消歧模型事先针对包含缩简词和全称实体的文本进行训练得到。
综上所述,利用本发明的方法,可以为缩简词迅速准确地确定其所对应的全称。
当然,在未检索到参考实体的情况下,也可以不翻译该缩简词,保留其本身。
在此基础之上,可以进行实时性要求高的机器翻译、语音问答等应用。
举例来说,待翻译的句子一为“My favorite band is ML,and Wake Me Up Ilike best.”。待翻译的句子二为“ML is a very popular research field.”。
句子一和句子二都包括缩简词“ML”。在句子一中,利用本发明,根据共现语义知识库得知“ML”可能对应于“Malcolm Lincoln”和“Machine Learning”。搜索到参考实体“band”和“wake me up”。根据参考实体“band”和“wake me up”,确定出“Malcolm Lincoln”的共现概率高于“Machine Learning”的共现概率。所以,选择“Malcolm Lincoln”作为句子一中的“ML”对应的全称实体。将“ML”翻译为马尔科姆.林肯。
在句子二中,利用本发明,根据共现语义知识库得知“ML”可能对应于“MalcolmLincoln”和“Machine Learning”。搜索到参考实体“research field”。根据参考实体“research field”,确定出“Machine Learning”的共现概率高于Malcolm Lincoln”的共现概率。所以,选择“Machine Learning”作为句子二中的“ML”对应的全称实体。将“ML”翻译为机器学习。
下面,将参照图4描述根据本发明的实施例的缩简词消歧设备。
图4示出了根据本发明的实施例的缩简词消歧设备的结构方框图。如图4所示,根据本发明的缩简词消歧设备400包括:查找装置41,被配置为:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;确定装置42,被配置为:在查找到多个全称实体的情况下,针对每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
在一个实施例中,所述缩简词包括英文缩写和中文简称。
在一个实施例中,所述共现语义知识库通过构建装置来构建,所述构建装置包括:搜索单元,被配置为:从百科知识库中,搜索具有消歧属性的缩简词实体、对应的多个全称实体;统计单元,被配置为:统计在包含所搜索到的全称实体的语料中出现的其它实体与全称实体之间的TF-IDF;选择单元,被配置为:基于TF-IDF,选择上述其它实体中的部分实体作为参考实体;构建单元,被配置为:基于参考实体、上述多个全称实体、它们之间的TF-IDF,构建所述共现语义知识库。
在一个实施例中,所述搜索单元还被配置为:通过对文本语料的特定模式匹配,搜索缩简词实体、对应的全称实体。
在一个实施例中,所述搜索单元还被配置为:从百科知识库中,搜索不具有消歧属性的缩简词实体、对应的全称实体。
在一个实施例中,所述缩简词实体与所述多个全称实体之间的对应关系、所述全称实体与所述参考实体之间的TF-IDF以资源描述框架RDF形式存在于关联数据linkeddata形式的所述共现语义知识库中。
在一个实施例中,所述确定装置42还被配置为:在查找到一个全称实体的情况下,将该全称实体确定为与所述缩简词对应的全称实体。
在一个实施例中,所述确定装置42还被配置为:在未检索到参考实体的情况下,选择多个全称实体中成为消歧结果最多的全称实体,作为与所述缩简词对应的全称实体。
在一个实施例中,所述确定装置42还被配置为:在未检索到参考实体的情况下,利用消歧模型,将多个全称实体之一确定为与所述缩简词对应的全称实体。
在一个实施例中,所述消歧模型针对包含缩简词和全称实体的文本进行训练得到。
由于在根据本发明的缩简词消歧设备400中所包括的各个装置和单元中的处理分别与上面描述的缩简词消歧方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图5示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种缩简词的消歧方法,包括:
针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;
在查找到多个全称实体的情况下,
针对每一个全称实体,
检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;
基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;
基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;
其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
2.如附记1所述的方法,其中,所述缩简词包括英文缩写和中文简称。
3.如附记1所述的方法,其中,所述共现语义知识库通过如下步骤构建:
从百科知识库中,搜索具有消歧属性的缩简词实体、对应的多个全称实体;
统计在包含所搜索到的全称实体的语料中出现的其它实体与全称实体之间的TF-IDF;
基于TF-IDF,选择上述其它实体中的部分实体作为参考实体;
基于参考实体、上述多个全称实体、它们之间的TF-IDF,构建所述共现语义知识库。
4.如附记3所述的方法,其中,还通过对文本语料的特定模式匹配,搜索缩简词实体、对应的全称实体。
5.如附记3所述的方法,其中,还从百科知识库中,搜索不具有消歧属性的缩简词实体、对应的全称实体。
6.如附记3所述的方法,其中,所述缩简词实体与所述多个全称实体之间的对应关系、所述全称实体与所述参考实体之间的TF-IDF以资源描述框架RDF形式存在于关联数据linked data形式的所述共现语义知识库中。
7.如附记1所述的方法,其中,在查找到一个全称实体的情况下,将该全称实体确定为与所述缩简词对应的全称实体。
8.如附记1所述的方法,其中,在未检索到参考实体的情况下,选择多个全称实体中成为消歧结果最多的全称实体,作为与所述缩简词对应的全称实体。
9.如附记1所述的方法,其中,在未检索到参考实体的情况下,利用消歧模型,将多个全称实体之一确定为与所述缩简词对应的全称实体。
10.如附记9所述的方法,其中,所述消歧模型针对包含缩简词和全称实体的文本进行训练得到。
11.一种缩简词的消歧设备,包括:
查找装置,被配置为:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;
确定装置,被配置为:在查找到多个全称实体的情况下,
针对每一个全称实体,
检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;
基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;
基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;
其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
12.如附记11所述的设备,其中,所述缩简词包括英文缩写和中文简称。
13.如附记11所述的设备,其中,所述共现语义知识库通过构建装置来构建,所述构建装置包括:
搜索单元,被配置为:从百科知识库中,搜索具有消歧属性的缩简词实体、对应的多个全称实体;
统计单元,被配置为:统计在包含所搜索到的全称实体的语料中出现的其它实体与全称实体之间的TF-IDF;
选择单元,被配置为:基于TF-IDF,选择上述其它实体中的部分实体作为参考实体;
构建单元,被配置为:基于参考实体、上述多个全称实体、它们之间的TF-IDF,构建所述共现语义知识库。
14.如附记13所述的设备,其中,所述搜索单元还被配置为:通过对文本语料的特定模式匹配,搜索缩简词实体、对应的全称实体。
15.如附记13所述的设备,其中,所述搜索单元还被配置为:从百科知识库中,搜索不具有消歧属性的缩简词实体、对应的全称实体。
16.如附记13所述的设备,其中,所述缩简词实体与所述多个全称实体之间的对应关系、所述全称实体与所述参考实体之间的TF-IDF以资源描述框架RDF形式存在于关联数据linked data形式的所述共现语义知识库中。
17.如附记11所述的设备,其中,所述确定装置还被配置为:在查找到一个全称实体的情况下,将该全称实体确定为与所述缩简词对应的全称实体。
18.如附记11所述的设备,其中,所述确定装置还被配置为:在未检索到参考实体的情况下,选择多个全称实体中成为消歧结果最多的全称实体,作为与所述缩简词对应的全称实体。
19.如附记11所述的设备,其中,所述确定装置还被配置为:在未检索到参考实体的情况下,利用消歧模型,将多个全称实体之一确定为与所述缩简词对应的全称实体。
20.如附记19所述的设备,其中,所述消歧模型针对包含缩简词和全称实体的文本进行训练得到。

Claims (10)

1.一种缩简词的消歧方法,包括:
针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;
在查找到多个全称实体的情况下,
针对每一个全称实体,
检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;
基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;
基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;
其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
2.如权利要求1所述的方法,其中,所述缩简词包括英文缩写和中文简称。
3.如权利要求1所述的方法,其中,所述共现语义知识库通过如下步骤构建:
从百科知识库中,搜索具有消歧属性的缩简词实体、对应的多个全称实体;
统计在包含所搜索到的全称实体的语料中出现的其它实体与全称实体之间的TF-IDF;
基于TF-IDF,选择上述其它实体中的部分实体作为参考实体;
基于参考实体、上述多个全称实体、它们之间的TF-IDF,构建所述共现语义知识库。
4.如权利要求3所述的方法,其中,还通过对文本语料的特定模式匹配,搜索缩简词实体、对应的全称实体。
5.如权利要求3所述的方法,其中,还从百科知识库中,搜索不具有消歧属性的缩简词实体、对应的全称实体。
6.如权利要求3所述的方法,其中,所述缩简词实体与所述多个全称实体之间的对应关系、所述全称实体与所述参考实体之间的TF-IDF以资源描述框架RDF形式存在于关联数据linked data形式的所述共现语义知识库中。
7.如权利要求1所述的方法,其中,在查找到一个全称实体的情况下,将该全称实体确定为与所述缩简词对应的全称实体。
8.如权利要求1所述的方法,其中,在未检索到参考实体的情况下,选择多个全称实体中成为消歧结果最多的全称实体,作为与所述缩简词对应的全称实体。
9.如权利要求1所述的方法,其中,在未检索到参考实体的情况下,利用消歧模型,将多个全称实体之一确定为与所述缩简词对应的全称实体。
10.一种缩简词的消歧设备,包括:
查找装置,被配置为:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;
确定装置,被配置为:在查找到多个全称实体的情况下,
针对每一个全称实体,
检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;
基于参考实体与该全称实体之间的共现支持概率TF-IDF,计算该全称实体的共现概率;
基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;
其中,所述TF-IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。
CN201611115210.0A 2016-12-07 2016-12-07 缩简词的消歧方法和消歧设备 Pending CN108170662A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611115210.0A CN108170662A (zh) 2016-12-07 2016-12-07 缩简词的消歧方法和消歧设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611115210.0A CN108170662A (zh) 2016-12-07 2016-12-07 缩简词的消歧方法和消歧设备

Publications (1)

Publication Number Publication Date
CN108170662A true CN108170662A (zh) 2018-06-15

Family

ID=62526584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611115210.0A Pending CN108170662A (zh) 2016-12-07 2016-12-07 缩简词的消歧方法和消歧设备

Country Status (1)

Country Link
CN (1) CN108170662A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635285A (zh) * 2018-11-26 2019-04-16 平安科技(深圳)有限公司 企业全称与简称匹配方法、装置、计算机设备和存储介质
CN109635297A (zh) * 2018-12-11 2019-04-16 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN110347810A (zh) * 2019-05-30 2019-10-18 重庆金融资产交易所有限责任公司 对话式检索回答方法、装置、计算机设备及存储介质
CN111428031A (zh) * 2020-03-20 2020-07-17 电子科技大学 一种融合浅层语义信息的图模型过滤方法
CN112836057A (zh) * 2019-11-22 2021-05-25 华为技术有限公司 知识图谱的生成方法、装置、终端以及存储介质
US11755633B2 (en) 2020-09-28 2023-09-12 International Business Machines Corporation Entity search system

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259629A1 (en) * 2008-04-15 2009-10-15 Yahoo! Inc. Abbreviation handling in web search
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
US20140136184A1 (en) * 2012-11-13 2014-05-15 Treato Ltd. Textual ambiguity resolver
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN104731771A (zh) * 2015-03-27 2015-06-24 大连理工大学 一种基于词向量的缩写词歧义消除***及方法
CN104881397A (zh) * 2014-02-27 2015-09-02 富士通株式会社 缩写词扩展方法和装置
CN106126501A (zh) * 2016-06-29 2016-11-16 齐鲁工业大学 一种基于依存约束和知识的名词词义消歧方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259629A1 (en) * 2008-04-15 2009-10-15 Yahoo! Inc. Abbreviation handling in web search
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
US20140136184A1 (en) * 2012-11-13 2014-05-15 Treato Ltd. Textual ambiguity resolver
CN104239300A (zh) * 2013-06-06 2014-12-24 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN104881397A (zh) * 2014-02-27 2015-09-02 富士通株式会社 缩写词扩展方法和装置
CN104731771A (zh) * 2015-03-27 2015-06-24 大连理工大学 一种基于词向量的缩写词歧义消除***及方法
CN106126501A (zh) * 2016-06-29 2016-11-16 齐鲁工业大学 一种基于依存约束和知识的名词词义消歧方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUA XU等: ""Combining Corpus-derived Sense Profiles with Estimated Frequency Information to Disambiguate Clinical Abbreviations"", 《AMIA ANNUAL SYMPOSIUM PROCEEDINGS 2012》 *
SATYENDR SINGH等: ""Utilizing Corpus Statistics for Hindi Word Sense Disambiguation"", 《THE INTERNATIONAL ARAB JOURNAL OF INFORMATION TECHNOLOGY》 *
罗念: ""基于***的实体链接算法研究及***实现"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635285A (zh) * 2018-11-26 2019-04-16 平安科技(深圳)有限公司 企业全称与简称匹配方法、装置、计算机设备和存储介质
CN109635297A (zh) * 2018-12-11 2019-04-16 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN109635297B (zh) * 2018-12-11 2022-01-04 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN110347810A (zh) * 2019-05-30 2019-10-18 重庆金融资产交易所有限责任公司 对话式检索回答方法、装置、计算机设备及存储介质
CN112836057A (zh) * 2019-11-22 2021-05-25 华为技术有限公司 知识图谱的生成方法、装置、终端以及存储介质
CN112836057B (zh) * 2019-11-22 2024-03-26 华为技术有限公司 知识图谱的生成方法、装置、终端以及存储介质
CN111428031A (zh) * 2020-03-20 2020-07-17 电子科技大学 一种融合浅层语义信息的图模型过滤方法
US11755633B2 (en) 2020-09-28 2023-09-12 International Business Machines Corporation Entity search system

Similar Documents

Publication Publication Date Title
CN108170662A (zh) 缩简词的消歧方法和消歧设备
US10360308B2 (en) Automated ontology building
US11188537B2 (en) Data processing
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US20180300300A1 (en) Information Extraction and Annotation Systems and Methods for Documents
US10762297B2 (en) Semantic hierarchical grouping of text fragments
US9514098B1 (en) Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
CN104239300B (zh) 从文本中挖掘语义关键词的方法和设备
US11176323B2 (en) Natural language processing using an ontology-based concept embedding model
US8504490B2 (en) Web-scale entity relationship extraction that extracts pattern(s) based on an extracted tuple
US10102193B2 (en) Information extraction and annotation systems and methods for documents
Chen et al. Automatic ICD-10 coding algorithm using an improved longest common subsequence based on semantic similarity
CN103678316B (zh) 实体关系分类装置和实体关系分类方法
WO2012095696A2 (en) Text segmentation with multiple granularity levels
US11194772B2 (en) Preparing high-quality data repositories sets utilizing heuristic data analysis
US20210286950A1 (en) Conversation Space Artifact Generation Using Natural Language Processing, Machine Learning, and Ontology-Based Techniques
CN104881397B (zh) 缩写词扩展方法和装置
GB2569858A (en) Constructing content based on multi-sentence compression of source content
WO2023033942A1 (en) Efficient index lookup using language-agnostic vectors and context vectors
TWM423854U (en) Document analyzing apparatus
CN115062135B (zh) 一种专利筛选方法与电子设备
KR20210099661A (ko) 주석이 달린 자연어 구문들을 생성하는 방법 및 장치
Bhandarkar et al. Text summarization using combination of sequence-to-sequence model with attention approach
KR102341563B1 (ko) 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법
JP2021089473A (ja) 文書処理プログラム、文書処理装置、及び文書処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180615