CN108132947A - 实体挖掘***和方法 - Google Patents

实体挖掘***和方法 Download PDF

Info

Publication number
CN108132947A
CN108132947A CN201611089730.9A CN201611089730A CN108132947A CN 108132947 A CN108132947 A CN 108132947A CN 201611089730 A CN201611089730 A CN 201611089730A CN 108132947 A CN108132947 A CN 108132947A
Authority
CN
China
Prior art keywords
entity
group
several
knowledge information
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611089730.9A
Other languages
English (en)
Other versions
CN108132947B (zh
Inventor
张喜媛
曾刚
何戬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611089730.9A priority Critical patent/CN108132947B/zh
Publication of CN108132947A publication Critical patent/CN108132947A/zh
Application granted granted Critical
Publication of CN108132947B publication Critical patent/CN108132947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种实体挖掘***和方法,该***包括:标注单元,配置用于获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注;规则挖掘单元,配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选若干高频词汇中共现频率最高的若干词组以生成有序关联规则;实体挖掘单元,配置用于获取当前领域的第二组知识信息,根据有序关联规则对第二组知识信息进行挖掘,得到若干实体候选;过滤单元,配置用于根据预定的过滤规则对各实体候选进行过滤,生成实体挖掘结果并输出。本发明利用有序关联规则进行实体挖掘,提高了实体挖掘的准确率,并对挖掘结果进行有效过滤,保障了挖掘结果的准确性。

Description

实体挖掘***和方法
技术领域
本申请涉及数据挖掘技术领域,具体涉及一种实体挖掘***和方法。
背景技术
目前,在部分领域中,***中存储的实体数据不够全面和完善,难以满足用户搜索查询信息的需求,导致用户需要耗费大量的时间进行信息的查找、阅读和判断分析。
例如,在医疗领域中,患者在得知自己患有某种疾病或者推测自己可能有某种疾病时,通常会借助搜索来查找相应的疾病信息,而当***中没有存储该疾病的名称,或者只存储有该疾病的学名,而没有存储其别名或简称时,就会导致搜索结果难以满足用户的需求,用户需要在搜索时耗费大量的时间和精力进行查找和判断。
现有的实体挖掘的解决方案通常在结构化数据页面内挖掘实体标签和属性,通过预定的无序规则获取实体,挖掘的准确率有待提升。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种通过挖掘有序关联规则对实体进行挖掘以提高挖掘准确率的实体挖掘***和方法。
第一方面,本发明提供一种实体挖掘***,该***包括标注单元、规则挖掘单元、实体挖掘单元和过滤单元。
标注单元配置用于获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注。
规则挖掘单元配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选若干高频词汇中共现频率最高的若干词组以生成有序关联规则。
实体挖掘单元配置用于获取当前领域的第二组知识信息,根据有序关联规则对第二组知识信息进行挖掘,得到若干实体候选。
过滤单元配置用于根据预定的过滤规则对各实体候选进行过滤,生成实体挖掘结果并输出。
第二方面,本发明提供一种实体挖掘方法,该方法包括:
获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注;
从标注实体的第一组知识信息中筛选若干高频词汇,并筛选若干关联的高频词汇中共现频率最高的若干词组以生成有序关联规则;
获取当前领域的第二组知识信息,根据有序关联规则对第二组知识信息进行挖掘,得到若干实体候选;
根据预定的过滤规则对各实体候选进行过滤,生成实体挖掘结果并输出。
第三方面,本发明还提供一种设备,包括一个或多个处理器和存储器,其中存储器包含可由该一个或多个处理器执行的指令以使得该一个或多个处理器执行根据本发明各实施例提供的实体挖掘方法。
第四方面,本发明还提供一种存储有计算机程序的计算机可读存储介质,该计算机程序使计算机执行根据本发明各实施例提供的实体挖掘方法。
本发明诸多实施例提供的实体挖掘***和方法通过从标注实体的结构化知识信息中筛选关联的高频词汇,并进一步筛选其中共现频率最高的若干词组以生成有序关联规则,再利用该有序关联规则进行实体挖掘,提高了实体挖掘的准确率;并且对挖掘结果进行有效过滤,保障了挖掘结果的准确性;
本发明一些实施例提供的实体挖掘***和方法进一步通过确认待挖掘实体的属性,进行定向挖掘,以提高具有明确挖掘对象时的挖掘效率;并通过加入相关联属性的实体标注,提高了有序关联规则的分泛化能力;
本发明一些实施例提供的实体挖掘***和方法进一步通过进行人工过滤进一步保障了医疗等敏感领域的实体挖掘结果准确性;
本发明一些实施例提供的实体挖掘***和方法进一步通过采用描述多样性的问答数据作为挖掘对象,进一步提高挖掘的准确率和效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中实体挖掘***的结构示意图;
图2为图1所示***的一种优选实施方式的结构示意图;
图3为本发明一实施例中实体挖掘方法的流程图;
图4为图3所示方法的一种优选实施方式中步骤S40的流程图;
图5为图3所示方法的一种优选实施方式中步骤S60的流程图;
图6为图3所示方法的一种优选实施方式中步骤S20的流程图;
图7为图3所示方法的一种优选实施方式中步骤S80的流程图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为本发明一实施例中实体挖掘***的结构示意图。
如图1所示,在本实施例中,本发明提供的实体挖掘***包括标注单元10、规则挖掘单元30、实体挖掘单元50和过滤单元70。
在本实施例中,本发明提供的实体挖掘***配置为服务器中的软件程序,在另一实施例中配置为专用于挖掘并输出实体的硬件装置,在更多实施例中,还可根据实际需求配置为本领域技术人员可以理解的各单元之间通信连接的软硬件组合的形式,可实现相同的技术效果。
标注单元10配置用于获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注。
具体地,以下以当前领域为医疗领域、知识信息为医疗问答数据为例进行详细阐述,在更多实施例中,还可根据实际需求将当前领域配置为生物领域、保健领域、广告领域、体育领域等各类不同的领域,以及将知识信息配置为文献、科普科教等不同类型的知识数据。
标注单元10分别从预定的数据库中获取若干医疗问答数据作为第一组知识信息,并获取若干医疗领域的实体,例如若干手术名称实体、若干疾病名称实体,等,并根据获取的各实体对第一组知识信息进行标注。
图2为图1所示***的一种优选实施方式的结构示意图。
如图2所示,在一优选实施例中,***还包括知识信息存储单元50,配置用于存储至少一个领域的知识信息。在本实施例中,标注单元10可直接从知识信息存储单元50中获取第一组知识信息。
在一优选实施例中,***还包括实体存储单元60,配置用于存储至少一个领域的实体字典。在本实施例中,标注单元10可直接从实体存储单元60的实体字典中获取当前领域的若干实体。
在一优选实施例中,***还包括输入单元70,配置用于输入实体。在本实施例中,标注单元10可获取人工输入的当前领域的若干实体。
在一优选实施例中,***还包括知识爬取单元80,配置用于从互联网爬取知识信息。具体地,当***同时包括知识信息存储单元50时,知识爬取单元80可以定时对知识信息存储单元50存储的各领域的知识信息进行更新,标注单元10可通过知识信息存储单元50获取第一组知识信息;当***不包括知识信息存储单元50时,标注单元10可以直接通过知识爬取单元80获取实时爬取的若干知识信息作为第一组知识信息。
在一优选实施例中,标注单元10进一步配置用于确认待挖掘实体的属性。上述若干实体的属性与待挖掘实体相同或相关联。
具体地,例如,当标注单元10确认待挖掘实体的属性为消化科手术时,可以获取所有属性同样为消化科手术的实体来进行标注;
标注单元10还可以进一步获取属性与消化科手术相关联的实体来进行标注,例如属性为消化科疾病/消化科药物的实体等。
上述优选实施例通过确认待挖掘实体的属性,进行定向挖掘,以提高具有明确挖掘对象时的挖掘效率;并通过加入相关联属性的实体标注,提高了后续生成的有序关联规则的分泛化能力。
规则挖掘单元30配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选若干高频词汇中共现频率最高的若干词组以生成有序关联规则。
具体地,对于一篇标注了医疗领域实体的医疗问答数据,规则挖掘单元30对其进行分词并去除无用的助词语气词等字词,再根据标注单元10标注的实体及其属性关联,筛选出若干关联的高频词汇。例如,对于标注了实体“自体肺动脉瓣移植术”的医疗问答数据,可以筛选出若干相互关联、同时每个词出现频率高于预定阈值的高频词汇:“肺动脉瓣”、“无支架生物瓣膜”、“年轻人”、“耐久性”等等。
筛选出若干高频词汇后,规则挖掘单元30再从中筛选共现频率最高的若干词组,例如“风险”-“高”共同出现的频率最高,“年轻人”-“耐久性”-“不好”共同出现的频率第二高,等,即可取共现频率最高的一个或数个词组,再根据每个词组分别生成一项有序关联规则。
在一优选实施例中,规则挖掘单元30进一步配置用于:首先,对标注实体的第一组知识信息进行分词筛选,得到一阶频繁项集;其次,在一阶频繁项集中筛选出现频率最高的若干高频词汇,得到高频项集;再次,对高频项集进行排列组合,并筛选共现频率最高的若干词组;最后,根据筛选出的词组生成有序关联规则。
在更多实施例中,规则挖掘单元30还可配置为通过其它本领域技术人员可以理解的方式筛选出若干关联的高频词汇,并利用共现频率高的特点进行进一步筛选,生成有序关联规则。
实体挖掘单元50配置用于获取当前领域的第二组知识信息,根据有序关联规则对第二组知识信息进行挖掘,得到若干实体候选。
具体地,在本实施例中,实体挖掘单元50可通过上述从预定数据库获取知识信息、从知识信息存储单元50获取知识信息、通过知识爬取单元80获取知识信息等任一方式获取当前领域的第二组知识信息,并根据上述规则挖掘单元30筛选出的高频词汇对第二组知识信息进行标注,最后根据上述有序关联规则的正则表达式对标注高频词汇的第二组知识信息进行挖掘。
例如,利用上述高频词汇“肺动脉瓣”、“无支架生物瓣膜”、“年轻人”、“耐久性”等对第二组知识信息的各篇医疗问答数据进行标注,再根据由词组“年轻人”-“耐久性”-“不好”所生成的有序关联规则的正则表达式进行挖掘,得到“瓣膜置换手术”、“ROSS手术”、“自体肺动脉瓣移植术”等若干实体候选。
在更多实施例中,还可根据实际需求将实体挖掘单元50配置为利用标注单元10获取的若干实体对第二组知识信息进行标注等不同标注方式。
过滤单元70配置用于根据预定的过滤规则对各实体候选进行过滤,生成实体挖掘结果并输出。
具体地,在本实施例中,预定的过滤规则具体包括长度过滤、标点过滤、前缀过滤、后缀过滤和已知实体过滤。
例如,通过已知实体过滤可以过滤上述“瓣膜置换手术”、“ROSS手术”、“自体肺动脉瓣移植术”中实体字典已知的“瓣膜置换手术”和“自体肺动脉瓣移植术”。
在更多实施例中,可根据实际需求将过滤规则配置为上述任一一项或多项,并可进一步包括本领域技术人员所理解的其它过滤手段。
在一优选实施例中,过滤单元70进一步配置用于输出实体候选以供人工评估过滤,并接收人工过滤结果。
具体地,人工评估过滤可以根据实际需求配置为在过滤单元70自动过滤之前或之后进行,利用医学专家的经验为最终的挖掘结果施加进一步的保障。
上述实施例进一步通过进行人工过滤进一步保障了医疗等敏感领域的实体挖掘结果准确性。
上述实施例还进一步通过采用描述多样性的问答数据作为挖掘对象,进一步提高挖掘的准确率和效率。
图3为本发明一实施例中实体挖掘方法的流程图。图3所示的实体挖掘方法可对应应用于上述任一实施例提供的***中。
如图3所示,在本实施例中,本发明提供的实体挖掘方法包括:
S20:获取当前领域的第一组知识信息和若干实体,根据该若干实体对第一组知识信息进行标注;
S40:从标注实体的第一组知识信息中筛选若干高频词汇,并筛选若干关联的高频词汇中共现频率最高的若干词组以生成有序关联规则;
S60:获取当前领域的第二组知识信息,根据有序关联规则对第二组知识信息进行挖掘,得到若干实体候选;
S80:根据预定的过滤规则对各实体候选进行过滤,生成实体挖掘结果并输出。
图4为图3所示方法的一种优选实施方式中步骤S40的流程图。
如图4所示,在一优选实施例中,步骤S40包括:
S41:对标注实体的第一组知识信息进行分词筛选,得到一阶频繁项集;
S43:在一阶频繁项集中筛选出现频率最高的若干高频词汇,得到高频项集;
S45:对高频项集进行排列组合,并筛选共现频率最高的若干词组;
S47:根据筛选出的词组生成有序关联规则。
图5为图3所示方法的一种优选实施方式中步骤S60的流程图。
如图5所示,在一优选实施例中,步骤S60包括:
S61:获取当前领域的第二组知识信息;
S63:根据高频词汇对第二组知识信息进行标注;
S65:根据有序关联规则的正则表达式对标注高频词汇的第二组知识信息进行挖掘。
图6为图3所示方法的一种优选实施方式中步骤S20的流程图。
如图6所示,在一优选实施例中,步骤S20包括:
S21:确认待挖掘实体的属性;
S23:获取当前领域的第一组知识信息,以及具有与待挖掘实体相同或相关联属性的若干实体;
S25:根据若干实体对第一组知识信息进行标注。
图7为图3所示方法的一种优选实施方式中步骤S80的流程图。
如图7所示,在一优选实施例中,步骤S80包括:
S81:根据预定的过滤规则对若干实体候选进行过滤;
S83:输出实体候选以供人工评估过滤,并接收人工过滤结果;
S85:生成实体挖掘结果并输出。
上述各实施例通过从标注实体的结构化知识信息中筛选关联的高频词汇,并进一步筛选其中共现频率最高的若干词组以生成有序关联规则,再利用该有序关联规则进行实体挖掘,提高了实体挖掘的准确率;并且对挖掘结果进行多重有效过滤,保障最终挖掘结果的准确性。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的***来实现,或者可以通过专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,标注单元可以是设置在计算机或移动智能设备中的软件程序,也可以是单独进行实体标注的硬件装置。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种设备,包括一个或多个处理器和存储器,并可进一步包括本领域技术人员可以理解的其它计算机***组件,例如显示器、各类输入输出设备等。其中存储器包含可由该一个或多个处理器执行的一个或多个程序以使得该一个或多个处理器执行根据本申请的实体挖掘方法。
作为又一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例的装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,该程序被一个或者一个以上的处理器用来执行描述于本申请的实体挖掘方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离本申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种实体挖掘***,其特征在于,所述***包括:
标注单元,配置用于获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;
规则挖掘单元,配置用于从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选所述若干高频词汇中共现频率最高的若干词组以生成有序关联规则;
实体挖掘单元,配置用于获取当前领域的第二组知识信息,根据所述有序关联规则对所述第二组知识信息进行挖掘,得到若干实体候选;
过滤单元,配置用于根据预定的过滤规则对所述若干实体候选进行过滤,生成实体挖掘结果并输出。
2.根据权利要求1所述的实体挖掘***,其特征在于,所述规则挖掘单元进一步配置用于对标注实体的第一组知识信息进行分词筛选,得到一阶频繁项集,在所述一阶频繁项集中筛选出现频率最高的若干高频词汇,得到高频项集,对所述高频项集进行排列组合,并筛选共现频率最高的若干词组,根据筛选出的词组生成有序关联规则。
3.根据权利要求1所述的实体挖掘***,其特征在于,所述实体挖掘单元进一步配置用于根据所述高频词汇对所述第二组知识信息进行标注,根据所述有序关联规则的正则表达式对标注高频词汇的第二组知识信息进行挖掘。
4.根据权利要求1所述的实体挖掘***,其特征在于,所述标注单元进一步配置用于确认待挖掘实体的属性,所述若干实体的属性与所述待挖掘实体相同或相关联。
5.根据权利要求1所述的实体挖掘***,其特征在于,所述过滤规则包括以下至少一项:长度过滤、标点过滤、前缀过滤、后缀过滤和已知实体过滤。
6.根据权利要求1所述的实体挖掘***,其特征在于,所述过滤单元进一步配置用于输出实体候选以供人工评估过滤,并接收人工过滤结果。
7.根据权利要求1-6任一项所述的实体挖掘***,其特征在于,还包括以下至少一项:
知识信息存储单元,配置用于存储至少一个领域的知识信息;
实体存储单元,配置用于存储至少一个领域的实体字典;
输入单元,配置用于输入实体;
知识爬取单元,配置用于从互联网爬取知识信息。
8.根据权利要求1-6任一项所述的实体挖掘***,其特征在于,所述当前领域为医疗领域,所述知识信息为医疗问答数据。
9.一种实体挖掘方法,其特征在于,所述方法包括:
获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注;
从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选所述若干高频词汇中共现频率最高的若干词组以生成有序关联规则;
获取当前领域的第二组知识信息,根据所述有序关联规则对所述第二组知识信息进行挖掘,得到若干实体候选;
根据预定的过滤规则对所述若干实体候选进行过滤,生成实体挖掘结果并输出。
10.根据权利要求9所述的实体挖掘方法,其特征在于,所述从标注实体的第一组知识信息中筛选若干关联的高频词汇,并筛选所述若干高频词汇中共现频率最高的若干词组以生成有序关联规则包括:
对标注实体的第一组知识信息进行分词筛选,得到一阶频繁项集;
在所述一阶频繁项集中筛选出现频率最高的若干高频词汇,得到高频项集;
对所述高频项集进行排列组合,并筛选共现频率最高的若干词组;
根据筛选出的词组生成有序关联规则。
11.根据权利要求9所述的实体挖掘方法,其特征在于,所述获取当前领域的第二组知识信息,根据所述有序关联规则对所述第二组知识信息进行挖掘,得到若干实体候选包括:
获取当前领域的第二组知识信息;
根据所述高频词汇对所述第二组知识信息进行标注;
根据所述有序关联规则的正则表达式对标注高频词汇的第二组知识信息进行挖掘。
12.根据权利要求9所述的实体挖掘方法,其特征在于,所述获取当前领域的第一组知识信息和若干实体,根据所述若干实体对所述第一组知识信息进行标注包括:
确认待挖掘实体的属性;
获取当前领域的第一组知识信息,以及具有与所述待挖掘实体相同或相关联属性的若干实体;
根据所述若干实体对所述第一组知识信息进行标注。
13.根据权利要求9所述的实体挖掘方法,其特征在于,所述过滤规则包括以下至少一项:长度过滤、标点过滤、前缀过滤、后缀过滤和已知实体过滤。
14.根据权利要求9所述的实体挖掘方法,其特征在于,所述根据预定的过滤规则对所述若干实体候选进行过滤,生成实体挖掘结果并输出包括:
根据预定的过滤规则对所述若干实体候选进行过滤;
输出实体候选以供人工评估过滤,并接收人工过滤结果;
生成实体挖掘结果并输出。
15.根据权利要求9-14任一项所述的实体挖掘方法,其特征在于,所述当前领域为医疗领域,所述知识信息为医疗问答数据。
16.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求9-15中任一项所述的方法。
CN201611089730.9A 2016-12-01 2016-12-01 实体挖掘***和方法 Active CN108132947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611089730.9A CN108132947B (zh) 2016-12-01 2016-12-01 实体挖掘***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611089730.9A CN108132947B (zh) 2016-12-01 2016-12-01 实体挖掘***和方法

Publications (2)

Publication Number Publication Date
CN108132947A true CN108132947A (zh) 2018-06-08
CN108132947B CN108132947B (zh) 2022-06-03

Family

ID=62387992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611089730.9A Active CN108132947B (zh) 2016-12-01 2016-12-01 实体挖掘***和方法

Country Status (1)

Country Link
CN (1) CN108132947B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189900A (zh) * 2018-08-03 2019-01-11 北京捷易迅信息技术有限公司 一种用于bot***的实体抽取方法
CN109522396A (zh) * 2018-10-22 2019-03-26 中国船舶工业综合技术经济研究院 一种面向国防科技领域的知识处理方法及***
CN110413793A (zh) * 2019-06-11 2019-11-05 福建奇点时空数字科技有限公司 一种基于翻译模型的知识图谱实体特征挖掘方法
CN111401388A (zh) * 2018-12-13 2020-07-10 北京嘀嘀无限科技发展有限公司 数据挖掘方法、装置、服务器及可读存储介质
CN111666379A (zh) * 2020-06-11 2020-09-15 腾讯科技(深圳)有限公司 一种事件元素提取方法和装置
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012015743A1 (en) * 2010-07-30 2012-02-02 Certusview Technologies, Llc System for and methods of confirming locate operation work orders with respect to municipal permits
CN102968408A (zh) * 2012-11-23 2013-03-13 西安电子科技大学 识别用户评论的实体特征方法
CN104965992A (zh) * 2015-07-13 2015-10-07 南开大学 一种基于在线医疗问答信息的文本挖掘方法
CN105404668A (zh) * 2015-11-11 2016-03-16 内蒙古大学 一种序列规则的挖掘方法及***
CN106021413A (zh) * 2016-05-13 2016-10-12 清华大学 基于主题模型的自展式特征选择方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012015743A1 (en) * 2010-07-30 2012-02-02 Certusview Technologies, Llc System for and methods of confirming locate operation work orders with respect to municipal permits
CN102968408A (zh) * 2012-11-23 2013-03-13 西安电子科技大学 识别用户评论的实体特征方法
CN104965992A (zh) * 2015-07-13 2015-10-07 南开大学 一种基于在线医疗问答信息的文本挖掘方法
CN105404668A (zh) * 2015-11-11 2016-03-16 内蒙古大学 一种序列规则的挖掘方法及***
CN106021413A (zh) * 2016-05-13 2016-10-12 清华大学 基于主题模型的自展式特征选择方法及***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189900A (zh) * 2018-08-03 2019-01-11 北京捷易迅信息技术有限公司 一种用于bot***的实体抽取方法
CN109522396A (zh) * 2018-10-22 2019-03-26 中国船舶工业综合技术经济研究院 一种面向国防科技领域的知识处理方法及***
CN111401388A (zh) * 2018-12-13 2020-07-10 北京嘀嘀无限科技发展有限公司 数据挖掘方法、装置、服务器及可读存储介质
CN111401388B (zh) * 2018-12-13 2023-06-30 北京嘀嘀无限科技发展有限公司 数据挖掘方法、装置、服务器及可读存储介质
CN110413793A (zh) * 2019-06-11 2019-11-05 福建奇点时空数字科技有限公司 一种基于翻译模型的知识图谱实体特征挖掘方法
CN111666379A (zh) * 2020-06-11 2020-09-15 腾讯科技(深圳)有限公司 一种事件元素提取方法和装置
CN111666379B (zh) * 2020-06-11 2023-09-22 腾讯科技(深圳)有限公司 一种事件元素提取方法和装置
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及***

Also Published As

Publication number Publication date
CN108132947B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN108132947A (zh) 实体挖掘***和方法
Hoffart et al. YAGO2: exploring and querying world knowledge in time, space, context, and many languages
Michener et al. Long term ecological research and information management
US10748226B2 (en) Method of generating, storing and mining data related to key opinion leaders in scientific fields and computer system configured for presenting an explorable graphical user interface
AU2011352972B2 (en) Systems and methods for creating and using a research map
Schandl et al. PoolParty: SKOS thesaurus management utilizing linked data
CN106156335A (zh) 一种教材知识点的挖掘整理方法和***
Nylander et al. Exploring the adult learning research field by analysing who cites whom
Kucher et al. Text visualization browser: A visual survey of text visualization techniques
CN105893485A (zh) 一种基于图书目录的专题自动生成方法
Walsh et al. Topologies as techniques for a post-critical rhetoric
JP2012511767A (ja) オントロジーから関係データベースを作成するための方法及びモジュール
Piasecki et al. WordNetLoom: a WordNet development system integrating form-based and graph-based perspectives
Yadav et al. Ontology engineering and development aspects: a survey
CN112116331A (zh) 一种人才推荐方法及装置
US11275772B2 (en) Method and system for managing network of field-specific entity records
US20200293581A1 (en) Systems and methods for crawling web pages and parsing relevant information stored in web pages
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Visser et al. Reuse of designs: desperately seeking an interdisciplinary cognitive approach
Correa et al. A deep search method to survey data portals in the whole web: toward a machine learning classification model
Mulholland et al. Using event spaces, setting and theme to assist the interpretation and development of museum stories
Graves et al. Towards Visual Overviews for Open Government Data.
Sorensen et al. Recovering and Reusing Historical Data for Science: Retrospective Curation Practices Across Disciplines
Van Thang Algebraic operations in fuzzy object-oriented databases based on hedge algebras
McVeigh Citation Indexes and the Web of Science

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant