CN107704480A - 扩展和强化知识图的方法和***以及计算机介质 - Google Patents

扩展和强化知识图的方法和***以及计算机介质 Download PDF

Info

Publication number
CN107704480A
CN107704480A CN201710285651.3A CN201710285651A CN107704480A CN 107704480 A CN107704480 A CN 107704480A CN 201710285651 A CN201710285651 A CN 201710285651A CN 107704480 A CN107704480 A CN 107704480A
Authority
CN
China
Prior art keywords
entity
knowledge graph
source data
subgraph
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710285651.3A
Other languages
English (en)
Other versions
CN107704480B (zh
Inventor
翟静
王俊晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN107704480A publication Critical patent/CN107704480A/zh
Application granted granted Critical
Publication of CN107704480B publication Critical patent/CN107704480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

公开了用于使用类似维基的网页作为信息源来扩展和强化知识图的***和方法。Web爬取器解析类似维基的源并从所述源获取主题实体。识别所述源内的主题实体与子主题之间的关系,并且利用所述主题和与子主题的关系来构建图。识别所述知识图中的候选主题,并且识别或生成所述知识图的子图。知识子图包含候选主题和与子主题的关系。计算源图与知识子图之间的相似度。如果两个图充分相似,那么将源主题图与知识图合并。

Description

扩展和强化知识图的方法和***以及计算机介质
技术领域
本发明的实施方案大体上涉及计算机实现的知识图的增强和强化。
背景技术
知识图是从各种各样的来源提供搜索结果的知识库的代表。知识图可通过遍历知识图的主题与节点之间的关系来提供关于主题的结构化的详细信息。给定示例性主题,例如“***合众国(United States)”,关系可以是诸如“也称为”节点“美国(America)”的别名关系。针对“***合众国”的关系的其他实例可包括“总统姓名”、“人均收入”、“政府类型”、“首都”、“最大城市”或“国家语言”。
互联网资源可以是用于扩展或强化知识图的信息的良好来源。然而,并不是所有的互联网资源都是用于扩展或强化知识图的可靠来源。当添加到知识图时,避免重复并且避免错误地添加到知识图是重要的。因此,知识图经常由一个人或一组人手动地维护。
发明内容
本申请的目的在于提供用于扩展和强化知识图的计算机实现的方法、非暂时性计算机介质以及用于扩展和强化知识图的***。
根据一个方面,提供了一种用于扩展和强化知识图的计算机实现的方法,该方法可包括:接收包括源数据主题实体和多个源数据边的源数据,其中所述多个源数据边中的每个边包括与所述源数据主题实体相关联的关系实体对;从所述源数据主题实体和所述多个源数据边生成源数据图;在知识图中识别具有多个知识图边的候选主题实体,其中所述多个知识图边中的每个边包括与所述知识图的候选主题实体相关联的知识图关系实体对;确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度,所述子图具有与所述候选主题实体相关联的多个知识图边;作为确定所述相似度大于阈值的响应,将所述源数据图合并到所述知识图中。
根据另一个方面,提供了一种非暂时性计算机介质,具有存储在其上的可执行指令,当由至少一个硬件处理器执行时,所述可执行指令可执行包括以下各项的自动化操作:接收包括源数据主题实体和多个源数据边的源数据,其中所述多个源数据边中的每个边包括与所述源数据主题实体相关联的关系实体对;从所述源数据主题实体和所述多个源数据边生成源数据图;在知识图中识别具有多个知识图边的候选主题实体,其中所述多个知识图边中的每个边包括与所述知识图的候选主题实体相关联的知识图关系实体对;确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度,所述子图具有与所述候选主题实体相关联的多个知识图边;以及响应于确定所述相似度大于阈值,将所述源数据图合并到所述知识图中。
根据又一个方面,提供了一种用于扩展和强化知识图的***,所述***包括耦合到存储器的至少一个硬件处理器,所述存储器具有在其上存储的可执行指令,当由所述至少一个硬件处理器执行时,所述可执行指令可执行包括以下各项的自动化操作:接收包括源数据主题实体和多个源数据边的源数据,其中所述多个源数据边中的每个边包括与所述源数据主题实体相关联的关系实体对;从所述源数据主题实体和所述多个源数据边生成源数据图;在知识图中识别具有多个知识图边的候选主题实体,其中所述多个知识图边中的每个边包括与所述知识图的候选主题实体相关联的知识图关系实体对;确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度,所述子图具有与所述候选主题实体相关联的多个知识图边;以及响应于确定所述相似度大于阈值,将所述源数据图合并到所述知识图中。
附图说明
在附图的各个图中通过实例而非限制的方式示出本发明的实施方案,其中相同的参考数字指示相似的元件。
图1A是根据本发明的实施方案示出可增强和强化知识图的在线***的实例的框图。
图1B是根据本发明的实施方案示出可增强和强化知识图的在线***的信息和逻辑流程的框图。
图2是根据本发明的实施方案增强和强化知识图的方法的流程框图。
图3是根据本发明的实施方案增强和强化知识图的方法的流程框图。
图4是根据本发明的一个实施方案示出将知识图的子图与源文档的子图进行合并的图。
图5是根据本发明的一个实施方案示出类似维基(wiki)的源文档的图。
图6是根据一个实施方案示出数据处理***的框图。
具体实施方式
将参照以下讨论的细节来描述本发明的各个实施方案和方面,并且附图将示出各个实施方案。以下描述和附图是本发明的说明,不应被解释为限制本发明。描述了许多具体细节以提供对本发明的各个实施方案的透彻理解。然而,在某些情况下,未描述公知或常规的细节以提供本发明实施方案的简明讨论。
在说明书中对“一个实施方案”或“实施方案”的引用意味着结合实施方案描述的特定特征、结构或特性可包括在本发明的至少一个实施方案中。在说明书中各处出现的短语“在一个实施方案中”不一定都指代相同的实施方案。
根据一些实施方案,用于强化和增强知识图的计算机实现的方法可爬取互联网并定位数据源。数据源可被解析成多个实体和实体之间的关系。至少一个实体可以是数据源的主题实体。可使用主题实体和连接到主题实体的关系以及由关系所指向的附加实体来为数据源生成子图。可从知识图中选择候选主题实体,并且可在知识图中识别或从知识图生成候选主题的子图。可比较两个子图以确定数据源主题实体子图是否与知识图的候选主题子图足够类似,数据源主题实体子图是否应与知识图合并。如果两个子图并未足够相似,那么可手动处理或丢弃数据源主题实体子图。
在一个实施方案中,上述功能中的任一个可体现为存储在非暂时性计算机可读介质上的可执行指令。在一个实施方案中,***可包括联接到存储器的至少一个硬件处理器,所述存储器包括当由至少一个硬件处理器执行时可实现上述功能中的任一个的指令。.
图1A是根据本发明实施方案示出可增强和强化知识图的在线***100的框图。参考图1A,***100包括但不限于通过网络103通信地耦合到服务器104的一个或多个客户端设备101-102。客户端设备101-102也称为用户设备,可以是任何类型的客户端设备,诸如个人计算机(例如,台式计算机、膝上型计算机和平板计算机)、“瘦”客户端、个人数字助理(PDA)、支持Web的设备、智能手表或移动电话(例如,智能手机)等。网络103可以是任何类型的有线或无线网络,诸如局域网(LAN)、广域网(WAN)(诸如因特网)或其组合。客户端设备101和102可具有一个或多个应用111(例如web浏览器)以便有助于与服务器104交互。
根据一个实施方案,用户设备101可与终端用户相关联,其中用户设备101可以是移动设备(例如,平板电脑)、智能手机、智能手表或者能够通过网络103与其他设备通信的设备。
如果用户设备是移动设备,那么用户应用111可以是浏览器应用或移动应用。搜索引擎110可以是可从百度公司获得的搜索引擎,或者可替代地,搜索引擎110可代表搜索引擎、Microsoft BingTM搜索引擎、搜索引擎或其他搜索引擎。
诸如Web搜索引擎的搜索引擎110是被设计来在万维网上搜索信息的软件***。搜索结果通常被呈现在通常称为搜索引擎结果页面的结果行中。所述信息可以是网页、图像和其他类型文件的混合。一些搜索引擎还挖掘数据库或开放目录中可用的数据。与仅由人类编辑维护的web目录不同,搜索引擎110还通过在诸如web爬取器(crawler)120的web爬取器上运行算法来维护实时信息。
网络搜索引擎110通过存储关于许多网页的信息来工作,它们从页面的超文本标记语言(HTML)标记来检索信息。这些页面由Web爬取器120检索,所述Web爬取器120是在站点(例如服务器107)上的每个链接之后的自动化Web爬取器。搜索引擎110随后分析每个页面的内容以确定它应如何被索引(例如,可从标题、页面内容、题目或称为元标签的特殊字段中提取单词)。关于网页的数据被存储在索引数据库中以供稍后查询使用。所述索引有助于尽快找到与查询相关的信息。
当用户(通常通过使用一个或多个关键字)将查询输入搜索引擎110中时,搜索引擎110检查其索引并且根据其标准来提供最佳匹配网页的列表,所述列表通常具有包含文档的标题以及有时包含部分文本的简短概述。通过与数据一起存储的信息和对信息进行索引的方法来构建索引。搜索引擎110准确地搜索所输入的单词或短语。一些搜索引擎110提供称为邻近搜索的高级特征,其允许用户定义关键字之间的距离。还存在基于概念的搜索,其中研究涉及在包含所搜索的单词或短语的页面上使用统计分析。同样,自然语言查询允许用户以与询问人类相同的形式来输入问题。
搜索引擎110的有用性取决于它所回馈的结果集的相关性。虽然可能存在包括特定词或短语的数百万个网页,但是一些页面可能比其他页面更相关、更受欢迎或者更具权威性。大多数搜索引擎110采用对结果进行排名的方法,以最先提供“最佳”结果。搜索引擎110如何决定哪些页面是最佳匹配以及结果应当以哪种顺序进行显示根据引擎的不同而变化很大。
服务器104可以是任何种类的服务器或服务器群集,诸如Web或云服务器、应用服务器、后端服务器或其组合。在一个实施方案中,服务器104包括但不限于在线知识图***115。在线知识图***115可包括搜索引擎110、web爬取器120、翻译模块125、实体提取模块130、子图生成模块135、子图相关模块140、相似度评分模块145、手动处理接口150、更新知识图模块155和知识图160。服务器104还包括接口(未示出),以允许诸如客户端设备101-102的客户端访问由服务器104提供的资源或服务。接口可包括Web接口、应用编程接口(API)和/或命令行接口(CLI)。
例如,用户设备101的客户端用户应用111可向服务器104发送搜索查询,并且由搜索引擎110通过网络103经由接口来接收搜索查询。响应于所述搜索查询,搜索引擎110从搜索查询中提取一个或多个关键字,所述关键字表示知识图160中的主题。
网络爬取器或Web爬取器(诸如web爬取器120)是自动遍历网络的超文本结构的程序。在实践中,网络爬取器可在单独的计算机或服务器上运行,每个计算机或服务器被配置来执行从URL下载文档的一个或多个进程或线程。网络爬取器接收分配的URL并在那些URL处下载文档。网络爬取器还可检索由所检索的文档引用以由内容处理***(未示出)和/或搜索引擎110来处理的文档。web爬取器120可使用各种协议来下载与URL相关联的页面,诸如超文本传输协议(HTTP)和文件传输协议(FTP)。
web爬取器120可爬取互联网以获取数据源,所述数据源诸如包含类似维基的文章、网页、文章和其他内容的服务器107。实体提取模块130可提取实体,包括数据源内的一个或多个主题以及从数据源提取的主题之间的关系。翻译模块125可提供将从数据源提取的一个或多个主题翻译到由知识图160所支持的语言。子图生成模块135可使用数据源的主要主题和所述主要主题与数据源内的一个或多个附加主题之间的关系来生成数据源的子图。子图相关模块140可确定知识图160内可与数据源的主要主题相关的候选实体。子图相关模块140可进一步将数据源的子图的关系和主题节点与知识图160中的候选实体的关系和主题节点进行比较。相似度评分模块145可确定数据源子图与知识图160的候选实体子图之间的相似度评分。如果相似度得分高于高阈值,那么数据源子图可通过更新知识图(KG)模块155来与知识图160合并。如果相似度得分低于低阈值,那么可丢弃数据源子图。另外,在一个实施方案中,数据源可通过手动处理接口150进行手动处理。在一个实施方案中,高阈值可以是数据源子图与知识图160的候选实体子图之间90%相似度。在一个实施方案中,低阈值可以是数据源子图与知识图160的候选实体子图之间10%相似度。以下参考图1B描述在线知识图***115的另外细节。
图1B是根据本发明实施方案示出可增强和强化知识图160的在线知识图***115的信息和逻辑流程的框图。
Web爬取器120可爬取互联网以例如在服务器107上寻找数据源。数据源可包括类似维基的文章、网页、文章和由web爬取器120找到的其他内容。数据源具有主题或实体名称,即数据源的主要主题。例如,数据源可具有“***合众国”的主题,如下文的图4中所示。数据源的实体名称可从数据源的标题获得。
实体提取模块130可解析数据源以识别文章中的多个实体(主题)以及数据源主题与由数据源提取的多个实体(主题)中每一个之间的对应关系。实体提取模块130可提取数据源中的所有实体和关系。在一个实施方案中,实体提取模块130可丢弃知识图160所未知的关系和实体。如果知识图160中的任何实体使用“是...的别名”(或“也称为”)关系,那么知识图160就已知该关系,例如“是...的别名”。如果知识图160中的任何关系使用实体,那么知识图160就已知该实体。例如,如果知识图160具有实体“英国(Britain)”,其具有指向实体“英语”的关系“具有国家语言”,以及具有实体“***合众国”,其具有指向实体“英语”的关系“具有国家语言”,那么关系“具有国家语言”和实体“英国”、“***合众国”和“英语”都是知识图160已知的。因此,如果数据源主题实体(例如,“***合众国”)具有“与......是盟友”的关系并且该关系指向“英国”,那么基于具有“具有国家语言”关系的知识图160中的两个实体的存在,认为两个实体“英国”和“***合众国”对于知识图160是已知的。
实体提取模块130可与翻译模块125交互,以将实体或其他数据源文本从数据源的语言翻译成知识图160的语言。例如,数据源可以是中文的,并且知识图160可以是英语。在解析主题实体期间,来自数据源的摘要或描述数据源的标题的其他文本的单词可用于生成主题实体的语境。语境可以是描述实体(在这种情况下是主题实体)的单词和频率的向量。实体提取模块130还可为数据源中的每个实体构建语境。语境可用于确定数据源子图中的实体与知识图160的子图中的潜在对应实体之间的相似度。实体提取模块130还可提取数据源中的实体之间的关系。关系可在数据结构(诸如表格)中阐述。例如,对于主题实体“***合众国”来说,表格可将“国家语言”列为“英语”。因此,国家语言是从主题实体“***合众国”到实体“英语”的关系。非结构化数据(诸如自由格式文本)的关系可通过文本的自然语言解析来提取。例如,数据源中的句子可陈述“The United States is also known as'America,'or'U.S.A.'(***合众国也被称为美国或U.S.A.)”。短语“也被称为”是主题实体“***合众国”与实体“美国”和“U.S.A.”之间的别名关系。
子图生成模块135可为数据源和知识图160生成实体和关系的子图。子图可在其中心具有主题实体,例如“***合众国”。实体节点“***合众国”与数据源中的其他实体之间的关系被添加为主题实体节点与其他实体节点之间的子图中的弧线(边)。在一个实施方案中,关系是数据源子图中的有向弧。在一个实施方案中,子图仅包含连接到子图中的实体主题节点的关系和实体节点。在一个实施方案中,数据源子图仅包含知识图160已知的关系和实体。
子图相关模块140可确定知识图160中的与数据源子图的数据源主题实体相似的候选实体。子图相关模块140随后可识别知识图160的子图,所述子图包含从知识图160中的候选实体到知识图160中的其他实体的关系以及从知识图160中的候选实体通过所述关系所指向的其他实体。在一个实施方案中,子图相关模块140可生成知识图160的子图,所述子图包含候选实体、与知识图160中的其他实体的关系以及通过所述关系所指向的其他实体。
相似度评分模块145可确定指示数据源子图与知识图160的候选实体子图的相似程度的相似度得分。如果数据源子图大于与知识图160的候选实体子图的高阈值相似度,那么数据源子图可通过更新知识图模块155来与知识图160合并。如果数据源子图低于与知识图表160的候选实体子图的低阈值相似度,那么可丢弃数据源子图。另外,可由一个或多个人使用手动处理接口150来手动地处理数据源子图。在一个实施方案中,高阈值可以是90%的相似度。在一个实施方案中,低阈值可以是10%的相似度。相似度评分模块145可通过比较数据源主题实体与候选实体的相似度以及比较数据源子图的关系(边)与候选实体子图关系的边的相似度来确定数据源子图与知识图的候选实体子图的相似度。在一个实施方案中,还可通过将数据源子图的实体节点的语境与知识图160的候选实体子图的实体节点的语境进行比较来进一步确定相似度。在一个实施方案中,相似度得分S可计算为:
S=a*实体相似度+b*边相似度+c*语境相似度,
其中a、b和c是加权常数。
在一个实施方案中,上述得分S中的每一项在[0..1]的范围内,并且被归一化成使得S在[0..1]的范围内。可初始选择加权常数a、b和c,随后用不同的值来进行调整。在一个实施方案中,手动处理接口150可用于响应于评估已指定用于手动处理的数据源子图来调整加权常数a、b和c。手动处理的子图的评估可确定一个或多个数据源子图是否以及为什么应合并到知识图160中。在一个实施方案中,高阈值和低阈值中的一个或多个可使用手动处理接口150来调整。
可通过将数据源主题名称的文本与候选实体名称的文本进行比较来确定实体相似度。在一个实施方案中,可在实体提取过程中使用翻译模块125以获取与知识图160相同的语言的数据源主题实体名称的文本。在一个实施方案中,翻译模块125还可包括词库和/或词典以消除数据源主题名称和候选实体名称的歧义。例如,数据源主题名称“苹果”可指水果或公司。
在一个实施方案中,可通过比较子图中从数据源子图主题实体以及从知识图160的子图的候选实体发出的相似或相同边(关系)的数量来确定边相似度。给定数据源子图X和候选实体子图A,那么边相似度可确定为:下文将参照图4描述边相似度的实例。
在一个实施方案中,可通过对数据源实体语境向量和候选实体语境向量的乘积取余弦来确定语境相似度。
如果数据源子图与知识图的候选实体子图之间的相似度得分大于高阈值,那么更新知识图模块155可将数据源子图与知识图160合并。如果相似度得分低于低阈值,那么可丢弃数据源子图。另外,数据源子图可由一个或多个人使用手动处理接口150来手动处理。
图2是根据本发明实施方案增强和强化知识图160的方法200的流程框图。在操作205中,web爬取器120可从服务器107接收数据源数据。在操作210中,实体提取模块130可从数据源提取已知的实体。数据源的主题实体可由实体提取模块130确定。在一个实施方案中,在操作215中,翻译模块125可用于可选地将数据源文本从数据源的语言翻译成知识图160的语言。在一个实施方案中,知识图160可包含多于一种语言的实体。在操作220中,实体提取模块130可从数据源提取数据源中实体之间的所有关系。在一个实施方案中,提取模块130可丢弃知识图160所未知的一个或多个数据源关系或实体。在操作225中,子图生成模块135可使用数据源主题实体和连接到数据源主体的关系以及通过数据源的所述关系所指向的实体来构建数据源子图。子图生成模块135还可识别知识图中对应于数据源主题实体的候选主题。子图生成模块135随后可在连接到候选实体的知识图160中使用知识图160的候选实体和关系以及通过所述关系所指向的实体来识别或生成知识图160的子图。在操作230中,子图相关模块140可确定数据源主题实体子图和知识图160的候选实体子图之间的相关性。相似度评分模块145可确定数据源主题实体子图与知识图160的候选实体子图的相似度得分。在操作235中,如果相似度得分大于高阈值,那么更新知识图模块155可在知识图160的候选实体处将数据源主题实体子图与知识图160合并。
图3是根据本发明实施方案增强和强化知识图160的方法300的流程框图。
在操作305中,web爬取器120可爬取互联网以定位可用于增强或强化知识图160的数据源。数据源可包括类似维基的文章、网页、文章和诸如服务器107上所包含的其他内容。web爬取器120可定位在方法300中处理的数据源。
在操作310中,实体提取模块130可从数据源提取主题实体X。可通过解析数据源的标题来找到主题实体X。在一个实施方案中,实体提取模块130可识别数据源的语言,并且可调用翻译模块125来将数据源主题实体翻译成由知识图160所使用的语言。在一个实施方案中,实体提取模块130可使用一个或多个应用编程接口、库或框架来调用翻译模块125。
在操作315中,实体提取模块130可将数据源解析成多个实体以及实体之间的关系。在一个实施方案中,在解析过程中,实体提取模块130可为数据源的每个实体构建语境向量。在一个实施方案中,语境向量可包括描述每个实体的单词和词频。
在操作320中,子图生成模块135可使用数据源主题实体、连接到数据源主题实体的数据源关系以及通过所述数据源关系所指向的数据源实体来构建数据源主题实体子图。在一个实施方案中,知识图160所未知的数据源关系和数据源实体可丢弃或不添加到数据源主题实体子图。
在操作325中,子图相关模块140可确定知识图160中与数据源主题实体X相对应的最近的匹配候选实体A。
在操作330中,子图生成模块135可使用候选实体、连接到候选实体的知识图关系以及通过连接到候选实体的知识图关系所指向的知识图实体来识别或构建知识图160的候选实体子图。
在操作335中,子图相关模块140可确定数据源主题实体子图X与知识图160的候选实体子图A之间的相关性。相似度评分模块145可计算数据源主题实体子图X与知识图160的候选实体子图A之间的相似度得分。在一个实施方案中,相似度得分可归一化成0..1的范围。可通过比较子图的实体名称、子图的边(关系)和子图的语境或这些的子集的相似度来确定相似度。
在操作340中,可确定相似度得分是否大于高阈值。如果相似度得分大于高阈值,那么在操作355中,更新知识图模块155可将数据源主题实体子图X与知识图160的候选实体子图A合并。
如果在操作340中确定相似度得分小于高阈值,那么在操作360中,可确定相似度得分是否小于低阈值。
如果在操作360中确定相似度得分小于低阈值,那么在操作370中,可丢弃数据源主题实体子图X。另外,在操作365中,可使用手动处理接口150来处理数据源主题实体子图X。
图4是根据本发明一个实施方案示出将知识图160的子图405与源文档的子图410合并的图400。
参考数字405示出具有候选实体“***合众国”的知识图160的子图的候选实体。候选实体A可具有任何数量的导出关系和导入关系(未示出)。“***合众国”的导入关系可以例如来自具有指向“***合众国”(未示出)的关系“成员国”(未示出)的实体“NATO”(未示出)。为了简单起见,在知识图160的示例性候选子图A中示出候选实体“***合众国”的关系和实体的小子集。
参考数字410示出具有主题实体“U.S.A”的数据源的子图X,数据源可以是例如美国期刊Today的一期,所述期刊具有关于美国股票市场的文章。实体提取模块130可解析美国期刊Today的文章以从数据源的标题中获得主题实体“U.S.A”。实体提取模块130可从数据源中的文章中提取以下实体和关系。
子图相关模块140和相似度评分模块145可确定数据源主题实体子图X与知识图160的候选实体子图A充分相似,以至于数据源主题实体子图应合并到知识图160中。数据源主题实体X在具有关系“也称为”的候选实体A处被添加到知识图160。数据源关系“最大的股票市场”和实体“NYSE”被添加到知识图的候选实体A。数据源关系“最大的股票交易”和实体“S&P 500”被添加到知识图的候选实体A,以生成知识图160的合并子图415。在一个实施方案中,在知识图160中必须存在关系“最大的股票市场”和“最大的股票交易”。在一个实施方案中,实体“NYSE”和“S&P 500”必须存在于知识图160中。
图5是根据本发明一个实施方案的示出类似维基的数据源文档500的图。
数据源500是关于主题实体“United States(***合众国)”505的类似维基的数据源。数据源500可包括非结构化数据510和结构化数据515。
非结构化数据510可以是数据源500的标题505下的文本段落。非结构化数据510可使用诸如识别动词和名词(主语,对象)和形容词的自然语言技术来进行解析,以从非结构化数据505导出关系和实体。例如,非结构化数据510的第一句陈述了“The United Statesof America(USA)is commonly referred to as the United States(U.S.)or America,is a federal republic...(***合众国(USA)通常被称为美国(U.S.)或美国(America),是联邦共和国......)”。从此句子片段,实体提取模块130可提取以下关系和实体:
结构化数据可以是表515或者示出实体与和另一实体的关系的索引。结构化数据515可使用诸如数据源500的<TABLE>或<INDEX>的网页标记语言标记来识别。实体提取模块130可从结构化数据515至少提取以下关系和实体。
图6是示出可与本发明的一个实施方式一起使用的数据处理***600的示例的框图。例如,***600可表示执行任一上述过程或方法的任一上述数据处理***,例如上述客户端设备101或102或服务器104。
***600可包括许多不同的组件。这些组件可以实施为集成电路(IC)、集成电路的部分、分立的电子设备或适用于电路板的其它模块(诸如计算机***的主板或插卡),或者实施为以其它方式并入计算机***的机架内的组件。
还应注意,***600旨在示出计算机***的许多组件的高层次视图。然而,应当理解的是,某些实现方式中可存在额外的组件,此外,其它实现方式中可出现与所示组件不同的布置。***600可表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏设备、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外,虽然仅示出了单个机器或***,但是术语“机器”或“***”还应当被理解为包括单独地或共同地执行一组(或多组)指令以执行本文所讨论的任何一种或多种方法的机器或***的任何组合。
在一个实施方式中,***600包括经由总线或互连件610连接的处理器601、存储器603以及设备605-608。处理器601可表示包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器601可表示一个或多个通用处理器,诸如微处理器、中央处理单元(CPU)等。更具体地,处理器601可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令词语(VLIW)微处理器、或实施其它指令集的处理器、或实施指令集组合的处理器。处理器601还可以是一个或多个专用处理器,诸如专用集成电路(ASIC)、蜂窝或基带处理器、场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、加密处理器、协处理器、嵌入式处理器或能够处理指令的任何其它类型的逻辑。
处理器601(其可以是低功率多核处理器套接,诸如超低电压处理器)可用作与***的各种组件通信的主处理单元和中央集线器。这种处理器可以实施为片上***(SoC)。处理器601被配置成执行指令以执行本文所讨论的操作和步骤。***600还可包括与可选的图形子***(显示控制器和/或显示设备)604通信的图形接口,图形子***604可包括显示控制器、图形处理器和/或显示设备。
处理器601可与存储器603通信,存储器603在一个实施方式中可以经由多个存储器设备实施以提供给定量的***存储。存储器603可包括一个或多个易失性存储(或存储器)设备,诸如随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或其它类型的存储设备。存储器603可存储包括由处理器601或任何其它设备执行的指令序列的信息。例如,多种操作***、设备驱动器、固件(例如,基本输入输出***或BIOS)和/或应用的可执行代码和/或数据可以加载在存储器603中并由处理器601执行。操作***可以是任何类型的操作***,例如像来自公司的操作***、来自苹果公司的Mac来自公司的或其它实时或嵌入式操作***(诸如VxWorks)。
***600还可包括I/O设备,诸如设备605-608,包括网络接口设备605、可选的输入设备606以及其它可选的I/O设备607。网络接口设备605可包括无线收发器和/或网络接口卡(NIC)。无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如,全球定位***(GPS)收发器)或其它射频(RF)收发器或其组合。NIC可以是以太网卡。
输入设备606可包括鼠标、触摸板、触敏屏幕(其可以与显示设备604整合在一起)、定点设备(诸如手写笔)和/或键盘(例如,物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如,输入设备606可包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器可例如使用多种触敏技术(包括但不限于电容性、电阻性、红外和表面声波技术)中的任一种以及使用用于确定与触摸屏的一个或多个接触点的其它近邻传感器阵列或其它元件来检测其接触、移动或间断。
I/O设备607可包括音频设备。音频设备可包括扬声器和/或麦克风,以协助支持语音的功能,诸如语音辨识、语音复制、数字记录和/或电话功能。其它I/O设备607还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如,PCI-PCI桥)、传感器(例如,诸如加速度计的运动传感器、陀螺仪、磁强计、光传感器、罗盘、近邻传感器等)或其组合。设备607还可包括成像处理子***(例如,摄像机),成像处理子***可包括用来协助摄像机功能(诸如记录照片和视频片段)的光学传感器,诸如电荷耦合设备(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可经由传感器集线器(未示出)联接到互连件610,而其它设备(诸如,键盘或热传感器)可由嵌入式控制器(未示出)控制,这取决于***600的具体配置或具体设计。
为了提供对信息(诸如,数据、应用、一个或多个操作***等)的永久性存储,大容量存储设备(未示出)也可联接到处理器601。在各种实施方式中,为了实施更薄且更轻的***设计并且改进***响应能力,这种大容量存储设备可经由固态设备(SSD)实施。然而,在其它实施方式中,大容量存储设备可主要使用硬盘驱动器(HDD)来实施,其中较少量的SSD存储设备充当SSD高速缓存以在断电事件期间实施对上下文状态以及其它此类信息的非易失性存储,从而使得在***活动重新启动时能够实施快速上电。另外,闪存设备可例如经由串行***接口(SPI)联接到处理器601。这种闪存设备可提供***软件的非易失性存储,***软件包括***的基本输入/输出软件(BIOS)以及其它固件。
存储设备608可包括计算机可访问的存储介质609(也被称为机器可读存储介质或计算机可读介质),其上存储有实现任何一种或多种本文所描述的方法或功能的一组或多组指令或软件(例如,模块、单元和/或逻辑628)。模块/单元/逻辑628可表示任一上述组件,例如上述爬取器、实体提取/评分模块或知识图。模块/单元/逻辑628还可在其被数据处理***600、存储器603和处理器601执行期间完全地或至少部分地驻存在存储器603内和/或处理器601内,从而也构成机器可访问的存储介质。模块/单元/逻辑628还可通过网络经由网络接口设备605被发送或接收。
计算机可读存储介质609也可用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质609在示例性实施方式中被示为单个介质,但是术语“计算机可读存储介质”应当被认为包括存储一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或编码一组或多组指令的任何介质,该一组或多组指令由机器执行并且致使机器执行本发明的任何一种或多种方法。因此,术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学介质和磁性介质或者任何其它非暂时性机器可读介质。
本文所述的模块/单元/逻辑628、组件以及其它特征可以实施为分立的硬件组件或整合在诸如ASICS、FPGA、DSP或类似设备的硬件组件的功能中。另外,模块/单元/逻辑628可以实施为硬件设备内的固件或功能电路。此外,模块/单元/逻辑628可以以硬件设备和软件组件的任何组合的形式实施。
应注意,虽然***600被示出为具有数据处理***的各种组件,但是其不旨在表示任何特定的架构或组件互连的方式;因为此类细节和本发明的实施方式没有密切关系。还应当认识到,具有更少组件或可能具有更多组件的网络计算机、手持计算机、移动电话、服务器和/或其它数据处理***也可与本发明的实施方式一起使用。
前述详细描述中的一些部分已经依据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域的技术人员所使用的方法,从而将他们工作的实质内容最有效地传达给该领域中的其他技术人员。这里,算法通常被认为是导致所期望结果的自洽的操作序列。这些操作是需要对物理量进行物理操控的操作。
然而,应当牢记,所有这些术语和类似的术语均意图与适当的物理量相关联,并且仅仅是适于这些物理量的适宜标记。应当了解,除非在以上讨论中另外明确地说明,否则,在本说明书全文中,利用术语(诸如以下权利要求书中所阐述的术语)的讨论是指计算机***或类似电子计算设备的动作和处理,计算机***或类似电子计算设备操控计算机***的寄存器和存储器中的表示为物理(例如,电子)量的数据,并将该数据变换成计算机***存储器或寄存器或其它此类信息存储器、传输或显示设备内类似地表示为物理量的其它数据。
图中所示的技术可以使用存储和执行于一个或多个电子设备上的代码及数据来实施。此类电子设备使用计算机可读介质来存储和传递(在内部和/或通过网络与其它电子设备)代码及数据,计算机可读介质诸如非暂时性计算机可读存储介质(例如,磁盘、光盘、随机存取存储器、只读存储器、闪存存储器设备、相变存储器)和暂时性计算机可读传输介质(例如,电学、光学、声学或其它形式的传播信号—诸如载波、红外信号、数字信号)。
前述附图中所描绘的过程或方法可由处理逻辑来执行,处理逻辑包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,体现在非暂时性计算机可读介质上)或其组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的,但是应当了解,所描述的一些操作可按不同的顺序执行。此外,一些操作可并行地执行而不是顺序地执行。
在以上的说明中,已经参考本发明的特定示例性实施方式对本发明的实施方式进行了描述。将显而易见的是:在不脱离如以下权利要求书中阐述的本发明的更宽泛的精神和范围的情况下,可对其作出各种修改。因此,应当以说明性含义而不是限制性含义来理解本说明书和附图。

Claims (24)

1.一种用于扩展和强化知识图的计算机实现的方法,所述方法包括:
接收包括源数据主题实体和多个源数据边的源数据,其中所述多个源数据边中的每个边包括与所述源数据主题实体相关联的关系实体对;
从所述源数据主题实体和所述多个源数据边生成源数据图;
在知识图中识别具有多个知识图边的候选主题实体,其中所述多个知识图边中的每个边包括与所述知识图的候选主题实体相关联的知识图关系实体对;
确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度,所述子图具有与所述候选主题实体相关联的多个知识图边;
作为确定所述相似度大于阈值的响应,将所述源数据图合并到所述知识图中。
2.如权利要求1所述的方法,还包括:
使用所述知识图的候选主题实体和所述多个知识图边来生成所述知识图的子图。
3.如权利要求1所述的方法,其中,所述多个源数据边中的每一个中的关系存在于所述知识图中。
4.如权利要求1所述的方法,其中,所述多个源数据边中的每一个中的实体存在于所述知识图中。
5.如权利要求1所述的方法,其中,确定相似度包括:
确定所述源数据主题实体与所述知识图的候选主题实体之间的相似度;以及
确定所述多个源数据边与所述子图的多个知识图边之间的相似度。
6.如权利要求5所述的方法,其中,确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度还包括:
确定所述源数据主题实体的语境与所述知识图的候选主题实体的语境之间的相似度;
其中语境包括用于实体的多个词和词频。
7.如权利要求5所述的方法,其中,确定所述源数据主题实体与所述知识图的候选主题实体之间的相似度包括:翻译所述源数据主题实体的语言。
8.如权利要求5所述的方法,其中,确定所述多个源数据图边与所述子图的多个知识图边之间的相似度包括:确定所述多个源数据图边与所述子图的多个知识图边的交集和所述多个源数据边与所述子图的多个知识图边的并集的比率。
9.一种非暂时性计算机介质,具有存储在其上的可执行指令,当由至少一个硬件处理器执行时,所述可执行指令执行包括以下各项的自动化操作:
接收包括源数据主题实体和多个源数据边的源数据,其中所述多个源数据边中的每个边包括与所述源数据主题实体相关联的关系实体对;
从所述源数据主题实体和所述多个源数据边生成源数据图;
在知识图中识别具有多个知识图边的候选主题实体,其中所述多个知识图边中的每个边包括与所述知识图的候选主题实体相关联的知识图关系实体对;
确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度,所述子图具有与所述候选主题实体相关联的多个知识图边;以及
响应于确定所述相似度大于阈值,将所述源数据图合并到所述知识图中。
10.如权利要求9所述的介质,还包括:
使用所述知识图的候选主题实体和所述多个知识图边来生成所述知识图的子图。
11.如权利要求9所述的介质,其中,所述多个源数据边中的每一个中的关系存在于所述知识图中。
12.如权利要求9所述的介质,其中,所述多个源数据边中的每一个中的实体存在于所述知识图中。
13.如权利要求9所述的介质,其中确定相似度包括:
确定所述源数据主题实体与所述知识图的候选主题实体之间的相似度;以及
确定所述多个源数据边与所述子图的多个知识图边之间的相似度。
14.如权利要求13所述的介质,其中,确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度还包括:
确定所述源数据主题实体的语境与所述知识图的候选主题实体的语境之间的相似度;
其中语境包括用于实体的多个词和词频。
15.如权利要求13所述的介质,其中,确定所述源数据主题实体与所述知识图的候选主题实体之间的相似度包括:翻译所述源数据主题实体的语言。
16.如权利要求13所述的介质,其中,确定所述多个源数据图边与所述子图的多个知识图边之间的相似度包括:确定所述多个源数据图边与所述子图的多个知识图边的交集和所述多个源数据边与所述子图的多个知识图边的并集的比率。
17.一种用于扩展和强化知识图的***,所述***包括耦合到存储器的至少一个硬件处理器,所述存储器具有在其上存储的可执行指令,当由所述至少一个硬件处理器执行时,所述可执行指令执行包括以下各项的自动化操作:
接收包括源数据主题实体和多个源数据边的源数据,其中所述多个源数据边中的每个边包括与所述源数据主题实体相关联的关系实体对;
从所述源数据主题实体和所述多个源数据边生成源数据图;
在知识图中识别具有多个知识图边的候选主题实体,其中所述多个知识图边中的每个边包括与所述知识图的候选主题实体相关联的知识图关系实体对;
确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度,所述子图具有与所述候选主题实体相关联的多个知识图边;
作为确定所述相似度大于阈值的响应,将所述源数据图合并到所述知识图中。
18.如权利要求17所述的***,还包括:
使用所述知识图的候选主题实体和所述多个知识图边来生成所述知识图的子图。
19.如权利要求17所述的***,其中,所述多个源数据边中的每一个中的关系存在于所述知识图中。
20.如权利要求17所述的***,其中,所述多个源数据边中的每一个中的实体存在于所述知识图中。
21.如权利要求17所述的***,其中,确定相似度包括:
确定所述源数据主题实体与所述知识图的候选主题实体之间的相似度;以及
确定所述多个源数据边与所述子图的多个知识图边之间的相似度。
22.如权利要求21所述的***,其中,确定所述源数据图与具有所述候选主题实体的所述知识图的子图之间的相似度还包括:
确定所述源数据主题实体的语境与所述知识图的候选主题实体的语境之间的相似度;
其中语境包括用于实体的多个词和词频。
23.如权利要求21所述的***,其中,确定所述源数据主题实体与所述知识图的候选主题实体之间的相似度包括:翻译所述源数据主题实体的语言。
24.如权利要求21所述的***,其中,确定所述多个源数据图边与所述子图的多个知识图边之间的相似度包括:确定所述多个源数据图边与所述子图的多个知识图边的交集和所述多个源数据边与所述子图的多个知识图边的并集的比率。
CN201710285651.3A 2016-08-08 2017-04-27 扩展和强化知识图的方法和***以及计算机介质 Active CN107704480B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/231,522 US10423652B2 (en) 2016-08-08 2016-08-08 Knowledge graph entity reconciler
US15/231,522 2016-08-08

Publications (2)

Publication Number Publication Date
CN107704480A true CN107704480A (zh) 2018-02-16
CN107704480B CN107704480B (zh) 2021-06-11

Family

ID=61069190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710285651.3A Active CN107704480B (zh) 2016-08-08 2017-04-27 扩展和强化知识图的方法和***以及计算机介质

Country Status (2)

Country Link
US (1) US10423652B2 (zh)
CN (1) CN107704480B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN112199957A (zh) * 2020-11-03 2021-01-08 中国人民解放军战略支援部队信息工程大学 基于属性和关系信息联合嵌入的人物实体对齐方法及***
CN112214584A (zh) * 2019-07-10 2021-01-12 国际商业机器公司 使用知识图利用实体关系来发现答案
US10956487B2 (en) 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
CN112567394A (zh) * 2018-08-16 2021-03-26 甲骨文国际公司 用于在有限的知识领域中构建知识图的技术
CN112784058A (zh) * 2021-01-11 2021-05-11 北京欧拉认知智能科技有限公司 一种基于动态图谱的实体相关性获取方法
CN113767403A (zh) * 2019-05-29 2021-12-07 国际商业机器公司 知识图中过指定和欠指定的自动解析

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018209254A1 (en) * 2017-05-11 2018-11-15 Hubspot, Inc. Methods and systems for automated generation of personalized messages
US11204929B2 (en) 2014-11-18 2021-12-21 International Business Machines Corporation Evidence aggregation across heterogeneous links for intelligence gathering using a question answering system
US11244113B2 (en) 2014-11-19 2022-02-08 International Business Machines Corporation Evaluating evidential links based on corroboration for intelligence analysis
US10318870B2 (en) 2014-11-19 2019-06-11 International Business Machines Corporation Grading sources and managing evidence for intelligence analysis
US11836211B2 (en) 2014-11-21 2023-12-05 International Business Machines Corporation Generating additional lines of questioning based on evaluation of a hypothetical link between concept entities in evidential data
JP6663826B2 (ja) * 2016-09-08 2020-03-13 株式会社日立製作所 計算機及び応答の生成方法
US10606893B2 (en) * 2016-09-15 2020-03-31 International Business Machines Corporation Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication
US10467229B2 (en) 2016-09-30 2019-11-05 Microsoft Technology Licensing, Llc. Query-time analytics on graph queries spanning subgraphs
EP3306501A1 (en) * 2016-10-06 2018-04-11 Fujitsu Limited A computer apparatus and method to identify healthcare resources used by a patient of a medical institution
US10545945B2 (en) 2016-10-28 2020-01-28 Microsoft Technology Licensing, Llc Change monitoring spanning graph queries
WO2018089619A1 (en) 2016-11-09 2018-05-17 HubSpot Inc. Methods and systems for a content development and management platform
US10445361B2 (en) * 2016-12-15 2019-10-15 Microsoft Technology Licensing, Llc Caching of subgraphs and integration of cached subgraphs into graph query results
US10402403B2 (en) 2016-12-15 2019-09-03 Microsoft Technology Licensing, Llc Utilization of probabilistic characteristics for reduction of graph database traversals
US10931623B2 (en) 2017-01-30 2021-02-23 Hubspot, Inc. Introducing a new message source into an electronic message delivery environment
US10242223B2 (en) 2017-02-27 2019-03-26 Microsoft Technology Licensing, Llc Access controlled graph query spanning
CN110392913B (zh) 2017-05-16 2023-09-29 谷歌有限责任公司 在共用的启用语音的装置上处理呼叫
US10725982B2 (en) * 2017-11-20 2020-07-28 International Business Machines Corporation Knowledge graph node expiration
CN108038183B (zh) * 2017-12-08 2020-11-24 北京百度网讯科技有限公司 结构化实体收录方法、装置、服务器和存储介质
US11954613B2 (en) * 2018-02-01 2024-04-09 International Business Machines Corporation Establishing a logical connection between an indirect utterance and a transaction
CN108629043B (zh) * 2018-05-14 2023-05-12 平安科技(深圳)有限公司 网页目标信息的提取方法、装置及存储介质
CN110598073B (zh) * 2018-05-25 2024-04-26 微软技术许可有限责任公司 基于拓扑关系图的实体网页链接的获取技术
US10614086B2 (en) * 2018-07-06 2020-04-07 Accenture Global Solutions Limited Orchestrated hydration of a knowledge graph
US10915820B2 (en) * 2018-08-09 2021-02-09 Accenture Global Solutions Limited Generating data associated with underrepresented data based on a received data input
US11636123B2 (en) * 2018-10-05 2023-04-25 Accenture Global Solutions Limited Density-based computation for information discovery in knowledge graphs
CN110245241A (zh) * 2019-06-18 2019-09-17 卓尔智联(武汉)研究院有限公司 塑料知识图谱构建装置、方法及计算机可读存储介质
KR20210045837A (ko) * 2019-10-17 2021-04-27 삼성전자주식회사 지식 그래프를 업데이트하는 시스템 및 방법
CN112905712B (zh) * 2019-12-04 2023-08-15 北京百度网讯科技有限公司 知识图谱处理方法、装置、电子设备和介质
CN111259166B (zh) * 2020-01-22 2023-02-03 清华大学 基于知识图谱的科研实体链接方法及装置
US11687570B2 (en) 2020-02-03 2023-06-27 Samsung Electronics Co., Ltd. System and method for efficient multi-relational entity understanding and retrieval
US11176137B2 (en) 2020-02-19 2021-11-16 Bank Of America Corporation Query processing platform for performing dynamic cluster compaction and expansion
US11640540B2 (en) 2020-03-10 2023-05-02 International Business Machines Corporation Interpretable knowledge contextualization by re-weighting knowledge graphs
US11487820B2 (en) * 2020-03-31 2022-11-01 International Business Machines Corporation Dynamic natural question generation via semantic knowledge representation
US11775494B2 (en) 2020-05-12 2023-10-03 Hubspot, Inc. Multi-service business platform system having entity resolution systems and methods
US11630826B2 (en) * 2020-05-29 2023-04-18 Rn Technologies, Llc Real-time processing of a data stream using a graph-based data model
US11556636B2 (en) * 2020-06-30 2023-01-17 Microsoft Technology Licensing, Llc Malicious enterprise behavior detection tool
CN112084383B (zh) * 2020-09-07 2023-08-18 中国平安财产保险股份有限公司 基于知识图谱的信息推荐方法、装置、设备及存储介质
CA3130236A1 (en) * 2020-09-09 2022-03-09 Royal Bank Of Canada Web services for data aggregation and application for path traversal in knowledge graphs
US11954605B2 (en) * 2020-09-25 2024-04-09 Sap Se Systems and methods for intelligent labeling of instance data clusters based on knowledge graph
US11775778B2 (en) * 2020-11-05 2023-10-03 Microsoft Technology Licensing, Llc Machine translation of entities
CN112417162B (zh) * 2020-11-13 2024-07-05 中译语通科技股份有限公司 实体关系线索片段的关联方法及装置
CN112541346A (zh) * 2020-12-24 2021-03-23 北京百度网讯科技有限公司 摘要生成方法、装置、电子设备及可读存储介质
US12026185B2 (en) * 2021-03-01 2024-07-02 Chevron U.S.A. Inc. Document search and analysis tool
US20230019410A1 (en) * 2021-07-15 2023-01-19 Qatar Foundation For Education, Science And Community Development Systems and methods for bias profiling of data sources
US11928145B1 (en) 2022-12-09 2024-03-12 International Business Machines Corporation Creating a knowledge graph for a video

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0471484A2 (en) * 1990-08-02 1992-02-19 Xerox Corporation Image display systems
CN1534476A (zh) * 2003-03-27 2004-10-06 矢量图形的标记语言和对象模型
US20090024556A1 (en) * 2007-07-16 2009-01-22 Semgine, Gmbh Semantic crawler
CN102439594A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于知识搜索的***和方法
US20140280307A1 (en) * 2013-03-15 2014-09-18 Google Inc. Question answering to populate knowledge base
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗***及方法
CN104704488A (zh) * 2012-08-08 2015-06-10 谷歌公司 聚类的搜索结果
CN104937587A (zh) * 2012-12-12 2015-09-23 谷歌公司 基于组合查询提供搜索结果
CN105493082A (zh) * 2013-06-29 2016-04-13 微软技术许可有限责任公司 利用实体扩展的人搜索
CN105608624A (zh) * 2015-12-29 2016-05-25 武汉理工大学 基于用户体验的微博大数据兴趣社区分析优化方法
CN105706078A (zh) * 2013-10-09 2016-06-22 谷歌公司 实体集合的自动定义
CN106462608A (zh) * 2014-05-16 2017-02-22 微软技术许可有限责任公司 改进语言模型的知识源个性化
US20170132329A1 (en) * 2015-11-05 2017-05-11 Microsoft Technology Licensing, Llc Techniques for digital entity correlation
CN107609152A (zh) * 2017-09-22 2018-01-19 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8788261B2 (en) * 2008-11-04 2014-07-22 Saplo Ab Method and system for analyzing text
US8635233B2 (en) * 2011-06-27 2014-01-21 Microsoft Corporation Techniques to automatically build a language dependency graph for localizable resources
WO2013063537A1 (en) * 2011-10-28 2013-05-02 Justin Ormont Social media network user analysis and related advertising methods
US9785696B1 (en) * 2013-10-04 2017-10-10 Google Inc. Automatic discovery of new entities using graph reconciliation
US9483474B2 (en) * 2015-02-05 2016-11-01 Microsoft Technology Licensing, Llc Document retrieval/identification using topics

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0471484A2 (en) * 1990-08-02 1992-02-19 Xerox Corporation Image display systems
CN1534476A (zh) * 2003-03-27 2004-10-06 矢量图形的标记语言和对象模型
US20090024556A1 (en) * 2007-07-16 2009-01-22 Semgine, Gmbh Semantic crawler
CN102439594A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于知识搜索的***和方法
CN104704488A (zh) * 2012-08-08 2015-06-10 谷歌公司 聚类的搜索结果
CN104937587A (zh) * 2012-12-12 2015-09-23 谷歌公司 基于组合查询提供搜索结果
US20140280307A1 (en) * 2013-03-15 2014-09-18 Google Inc. Question answering to populate knowledge base
CN105051761A (zh) * 2013-03-15 2015-11-11 谷歌公司 用于扩增知识库的问题回答
CN105493082A (zh) * 2013-06-29 2016-04-13 微软技术许可有限责任公司 利用实体扩展的人搜索
CN105706078A (zh) * 2013-10-09 2016-06-22 谷歌公司 实体集合的自动定义
CN106462608A (zh) * 2014-05-16 2017-02-22 微软技术许可有限责任公司 改进语言模型的知识源个性化
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗***及方法
US20170132329A1 (en) * 2015-11-05 2017-05-11 Microsoft Technology Licensing, Llc Techniques for digital entity correlation
CN105608624A (zh) * 2015-12-29 2016-05-25 武汉理工大学 基于用户体验的微博大数据兴趣社区分析优化方法
CN107609152A (zh) * 2017-09-22 2018-01-19 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和***

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN108804599B (zh) * 2018-05-29 2022-01-04 浙江大学 一种相似交易模式的快速查找方法
CN112567394A (zh) * 2018-08-16 2021-03-26 甲骨文国际公司 用于在有限的知识领域中构建知识图的技术
US10956487B2 (en) 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
CN113767403B (zh) * 2019-05-29 2024-02-27 勤达睿公司 知识图中过指定和欠指定的自动解析
CN113767403A (zh) * 2019-05-29 2021-12-07 国际商业机器公司 知识图中过指定和欠指定的自动解析
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN112214584A (zh) * 2019-07-10 2021-01-12 国际商业机器公司 使用知识图利用实体关系来发现答案
CN112214584B (zh) * 2019-07-10 2024-06-07 国际商业机器公司 使用知识图利用实体关系来发现答案
CN112199957A (zh) * 2020-11-03 2021-01-08 中国人民解放军战略支援部队信息工程大学 基于属性和关系信息联合嵌入的人物实体对齐方法及***
CN112199957B (zh) * 2020-11-03 2023-12-08 中国人民解放军战略支援部队信息工程大学 基于属性和关系信息联合嵌入的人物实体对齐方法及***
CN112784058A (zh) * 2021-01-11 2021-05-11 北京欧拉认知智能科技有限公司 一种基于动态图谱的实体相关性获取方法
CN112784058B (zh) * 2021-01-11 2022-04-22 北京欧拉认知智能科技有限公司 一种基于动态图谱的实体相关性获取方法

Also Published As

Publication number Publication date
CN107704480B (zh) 2021-06-11
US20180039696A1 (en) 2018-02-08
US10423652B2 (en) 2019-09-24

Similar Documents

Publication Publication Date Title
CN107704480A (zh) 扩展和强化知识图的方法和***以及计算机介质
US11182445B2 (en) Method, apparatus, server, and storage medium for recalling for search
KR101932618B1 (ko) 검색 쿼리에 응답하여 유사성 스코어에 기초하여 이미지와 콘텐츠에 대해 평가 및 랭킹을 진행하기 위한 방법 및 시스템
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
CN107301195B (zh) 生成用于搜索内容的分类模型方法、装置和数据处理***
KR101932619B1 (ko) 콘텐츠 항목과 이미지를 매칭시키기 위한 방법, 장치 및 데이터 처리 시스템
US20110184981A1 (en) Personalize Search Results for Search Queries with General Implicit Local Intent
CN107103016A (zh) 基于关键词表示使图像与内容匹配的方法
CN107423535B (zh) 用于确定用户的医疗状况的方法、装置和***
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
JP2022073981A (ja) ソースコード取得
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理***
CN107273392A (zh) 用于搜索图像的计算机实现方法、装置及数据处理***
CN107145497A (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
US12013903B2 (en) System and method for search discovery
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN112581327A (zh) 基于知识图谱的法律推荐方法、装置和电子设备
Lu et al. Learning to infer API mappings from API documents
CN107766398A (zh) 用于使图像与内容项目匹配的方法、装置和数据处理***
TWM423854U (en) Document analyzing apparatus
CN107463590B (zh) 自动的对话阶段发现
CN111985217B (zh) 一种关键词提取方法、计算设备及可读存储介质
US11150871B2 (en) Information density of documents
JP2018055620A (ja) 情報処理装置及びプログラム
Saha et al. A Lightweight and Precise Information Retrieval System for Organisational Wiki

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant