CN110569335A - 基于人工智能的三元组校验方法、装置及存储介质 - Google Patents

基于人工智能的三元组校验方法、装置及存储介质 Download PDF

Info

Publication number
CN110569335A
CN110569335A CN201810244843.4A CN201810244843A CN110569335A CN 110569335 A CN110569335 A CN 110569335A CN 201810244843 A CN201810244843 A CN 201810244843A CN 110569335 A CN110569335 A CN 110569335A
Authority
CN
China
Prior art keywords
webpage
processed
webpages
triple
confidence score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810244843.4A
Other languages
English (en)
Other versions
CN110569335B (zh
Inventor
余淼
杨仁凯
郑杰鹏
袁鹏程
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810244843.4A priority Critical patent/CN110569335B/zh
Priority to US16/218,174 priority patent/US11275810B2/en
Priority to KR1020180161868A priority patent/KR102255238B1/ko
Priority to EP18214458.4A priority patent/EP3543871A1/en
Priority to JP2018244583A priority patent/JP6756079B2/ja
Publication of CN110569335A publication Critical patent/CN110569335A/zh
Application granted granted Critical
Publication of CN110569335B publication Critical patent/CN110569335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)

Abstract

本发明公开了基于人工智能的三元组校验方法、装置及存储介质,其中方法包括:根据待校验的三元组生成搜索query;获取query对应的搜索结果网页;根据搜索结果网页确定出三元组的置信度评分;根据置信度评分确定出三元组是否为准确的三元组。应用本发明所述方案,能够实现对于三元组的高效校验等。

Description

基于人工智能的三元组校验方法、装置及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的三元组校验方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
精准问答是区分于自然结果展现形态、直接精准地满足用户检索需求的产品。在精准问答产品中,保证结构化的主谓宾(SPO,Subject Predicate Object)三元组的准确性是精准问答产品的基本要求,同时也是满足用户检索需求及提高用户体验的基础。
SPO三元组是知识图谱中结构化数据的基本单元,例如,一个SPO三元组中,S=刘*华,P=妻子,O=朱*倩。
为获取准确的SPO三元组,现有技术中通常采用以下处理方式:
1)从高质量网站提取准确的SPO三元组;
2)基于人工审核标注提供准确的SPO三元组。
上述两种方式在小规模的数据上虽然可以适用,但是随着信息抽取(IE,Information Extraction)技术的逐步迭代成熟,SPO三元组数据得到了前所未有的扩充,大规模的SPO三元组数据受限于有限的高质量网站以及人工审核标注的不可持续性,无法进行统一、有效的校验,成为知识图谱进一步扩充的瓶颈。
【发明内容】
有鉴于此,本发明提供了基于人工智能的三元组校验方法、装置及存储介质。
具体技术方案如下:
一种基于人工智能的三元组校验方法,包括:
根据待校验的三元组生成搜索query;
获取所述query对应的搜索结果网页;
根据所述搜索结果网页确定出所述三元组的置信度评分;
根据所述置信度评分确定出所述三元组是否为准确的三元组。
根据本发明一优选实施例,所述根据所述搜索结果网页确定出所述三元组的置信度评分包括:
从所述搜索结果网页中选出M个符合要求的网页,将选出的网页作为待处理网页,M为大于一的正整数;
针对每个待处理网页,分别进行以下处理:
若所述待处理网页中包含所述三元组的信息,则分别获取所述待处理网页的N个预定参数值,N为正整数,并根据所述N个预定参数值确定出所述待处理网页的质量评分;
若所述待处理网页中不包含所述三元组的信息,则将零作为所述待处理网页的质量评分;
根据各待处理网页的质量评分确定出所述三元组的置信度评分。
根据本发明一优选实施例,所述M个符合要求的网页包括:所述搜索结果网页中排在前M位的网页;
所述从所述搜索结果网页中选出M个符合要求的网页之后,进一步包括:
对选出的M个符合要求的网页进行预处理,所述预处理包括:去重处理,将进行预处理后的网页作为待处理网页。
根据本发明一优选实施例,所述去重处理包括:保留内容重复的网页中来源站点的可信度最高的网页。
根据本发明一优选实施例,所述N个预定参数值包括:
所述待处理网页的来源站点的可信度;
所述待处理网页的内容与所述三元组的相关性;
所述待处理网页的内容的可信度。
根据本发明一优选实施例,所述根据所述N个预定参数值确定出所述待处理网页的质量评分包括:
计算所述N个预定参数值的乘积,将计算结果作为所述待处理网页的质量评分;
所述根据各待处理网页的质量评分确定出所述三元组的置信度评分包括:
将各待处理网页的质量评分相加,将相加之和作为所述三元组的置信度评分。
根据本发明一优选实施例,所述根据所述置信度评分确定出所述三元组是否为准确的三元组包括:
将所述置信度评分与预先设定的第一阈值进行比较;
若所述置信度评分大于所述第一阈值,则确定所述三元组为准确的三元组。
根据本发明一优选实施例,该方法进一步包括:
若确定所述三元组为准确的三元组,按照质量评分从大到小的顺序对各待处理网页进行排序,选出排序后处于前N’位的网页,N’为正整数;
从选出的N’个网页中进一步选出质量评分大于预先设定的第二阈值的网页,将选出的网页作为所述三元组的网页语料数据辅证。
一种基于人工智能的三元组校验装置,包括:生成单元、获取单元、评分单元以及校验单元;
所述生成单元,用于根据待校验的三元组生成搜索query;
所述获取单元,用于获取所述query对应的搜索结果网页;
所述评分单元,用于根据所述搜索结果网页确定出所述三元组的置信度评分;
所述校验单元,用于根据所述置信度评分确定出所述三元组是否为准确的三元组。
根据本发明一优选实施例,所述评分单元中包括:选择子单元以及处理子单元;
所述选择子单元,用于从所述搜索结果网页中选出M个符合要求的网页,将选出的网页作为待处理网页,M为大于一的正整数;
所述处理子单元,用于针对每个待处理网页,分别进行以下处理:
若所述待处理网页中包含所述三元组的信息,则分别获取所述待处理网页的N个预定参数值,N为正整数,并根据所述N个预定参数值确定出所述待处理网页的质量评分;
若所述待处理网页中不包含所述三元组的信息,则将零作为所述待处理网页的质量评分;
根据各待处理网页的质量评分确定出所述三元组的置信度评分。
根据本发明一优选实施例,所述M个符合要求的网页包括:所述搜索结果网页中排在前M位的网页;
所述选择子单元进一步用于,从所述搜索结果网页中选出M个符合要求的网页之后,对选出的M个符合要求的网页进行预处理,所述预处理包括:去重处理,将进行预处理后的网页作为待处理网页。
根据本发明一优选实施例,所述去重处理包括:保留内容重复的网页中来源站点的可信度最高的网页。
根据本发明一优选实施例,所述N个预定参数值包括:
所述待处理网页的来源站点的可信度;
所述待处理网页的内容与所述三元组的相关性;
所述待处理网页的内容的可信度。
根据本发明一优选实施例,针对每个待处理网页,所述处理子单元分别计算所述N个预定参数值的乘积,将计算结果作为所述待处理网页的质量评分;
所述处理子单元将各待处理网页的质量评分相加,将相加之和作为所述三元组的置信度评分。
根据本发明一优选实施例,所述校验单元将所述置信度评分与预先设定的第一阈值进行比较,若所述置信度评分大于所述第一阈值,则确定所述三元组为准确的三元组。
根据本发明一优选实施例,所述校验单元进一步用于,若确定所述三元组为准确的三元组,则按照质量评分从大到小的顺序对各待处理网页进行排序,选出排序后处于前N’位的网页,N’为正整数,从选出的N’个网页中进一步选出质量评分大于预先设定的第二阈值的网页,将选出的网页作为所述三元组的网页语料数据辅证。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可首先根据待校验的三元组生成搜索query,之后,可获取query对应的搜索结果网页,并根据搜索结果网页确定出三元组的置信度评分,进而可根据置信度评分确定出三元组是否为准确的三元组,也就是说,本发明所述方案中,可基于搜索结果实现对于三元组的高效校验,能够有效地校验出三元组的准确性,并摆脱了有限的高质量网站的束缚,同时大大缩减了人工审核标注所需耗费的人力和时间成本,扩充了知识图谱的数据覆盖面等。
【附图说明】
图1为本发明所述基于人工智能的SPO三元组校验方法第一实施例的流程图。
图2为本发明所述基于人工智能的SPO三元组校验方法第二实施例的流程图。
图3为本发明所述基于人工智能的SPO三元组校验装置实施例的组成结构示意图。
图4示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。
【具体实施方式】
针对现有技术中存在的问题,本发明中提出一种基于人工智能的三元组校验方式,可基于搜索结果,有效地校验出三元组的准确性。较佳地,所述三元组为SPO三元组。
为了使本发明的技术方案更加清楚、明白,以下以SPO三元组为例,参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的SPO三元组校验方法第一实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,根据待校验的SPO三元组生成搜索query。
在102中,获取query对应的搜索结果网页。
在103中,根据搜索结果网页确定出SPO三元组的置信度评分。
在104中,根据置信度评分确定出SPO三元组是否为准确的SPO三元组。
对于任意一个SPO三元组,当需要对其进行校验时,可首先根据SPO三元组生成搜索query,即根据原始未确信的SPO三元组组成搜索语句。
比如,S=刘*华,P=妻子,O=朱*倩,可组成query=刘*华妻子朱*倩。
利用上述query在搜索引擎中进行搜索,可得到搜索引擎返回的搜索结果网页。可从搜索结果网页中选出M个符合要求的网页,将选出的网页作为待处理网页,进而针对待处理网页进行后续处理。M为大于一的正整数,具体取值可根据实际需要而定。
比如,可选出搜索结果网页中排在前M位的网页。并且,可进一步对选出的M个网页进行预处理,即对选出的M个网页进行清洗和整理,如进行去重处理等,进而可将进行预处理后的网页作为待处理网页。
其中,去重处理可以是指:保留内容重复的网页中来源站点的可信度最高的网页。比如,两个网页中的内容重复,那么可比较两个网页的来源站点的可信度,将来自于可信度高的来源站点的网页进行保留,即将来自于高质量网站的网页进行保留。
站点的可信度也可称为站点的置信度或置信值,用于反映站点是不是可信的站点。如何获取站点的可信度不作限制。比如,可通过对各站点的各方面质量进行评估,分别生成各站点的可信度并进行保存,这样,当需要时,可直接查询所保存的任一站点的可信度。
通过去重处理,可防止低质量站点的八卦舆论信息互相抄袭从而影响后续处理结果等。除去重处理外,还可根据实际需要对选出的网页进行其它预处理,如去除包括不健康的内容的网页等。
之后,可根据获取到的待处理网页确定出SPO三元组的置信度评分。
具体地,针对每个待处理网页,可分别进行以下处理:若待处理网页中包含SPO信息,则分别获取待处理网页的N个预定参数值,N为正整数,并可根据N个预定参数值确定出待处理网页的质量评分;若待处理网页中不包含SPO信息,则可将零作为待处理网页的质量评分。之后,可根据各待处理网页的质量评分确定出SPO三元组的置信度评分。
待处理网页中包含SPO信息,通常是指待处理网页中同时包含S、P和O,S、P和O可以是连续或不连续出现。
若待处理网页中包含SPO信息,那么可进一步获取待处理网页的N个预定参数值,如待处理网页的来源站点的可信度、待处理网页的内容与SPO三元组的相关性以及待处理网页的内容的可信度等。
可按照预先设定的评估标准,确定/计算出待处理网页的内容与SPO三元组的相关性。比如,在待处理网页中,S和P出现在O的前面,相比于O出现在S和P的前面,会认为相关性更高一些,或者,S、P和O出现在同一句话或同一段话中,相比于出现在不同段中,会认为相关性更高一些。具体实现为现有技术。
另外,可按照自然语言处理(NLP,Natural Language Processing)中语义分析技术等确定/计算出待处理网页的内容的可信度。比如,可根据内容的语法,用词或逻辑上是不是尽可能的客观、准确等,确定出待处理网页的内容的可信度。具体实现同样为现有技术。
在分别获取到N个预定参数值之后,可计算N个预定参数值的乘积,将计算结果作为待处理网页的质量评分。如前所述,若待处理网页中不包含SPO信息,则可将零作为待处理网页的质量评分。
在分别获取到各待处理网页的质量评分之后,可将各待处理网页的质量评分相加,将相加之和作为SPO三元组的置信度评分。
进而可将SPO三元组的置信度评分与预先设定的第一阈值进行比较,若置信度评分大于第一阈值,则可确定SPO三元组为准确的SPO三元组。第一阈值的具体取值可根据实际需要而定。
若SPO三元组为准确的SPO三元组,还可进一步确定出SPO三元组的网页语料数据辅证。
具体地,可按照质量评分从大到小的顺序对各待处理网页进行排序,选出排序后处于前N’位的网页,N’为正整数,具体取值可根据实际需要而定,并可从选出的N’个网页中进一步选出质量评分大于预先设定的第二阈值的网页,将选出的网页作为SPO三元组的网页语料数据辅证。第二阈值的具体取值同样可根据实际需要而定。
上述处理主要是从产品实现的角度考虑,用户在使用精准问答产品时,如检索刘*华的老婆时,如果只是给出一个孤零零的回答结果,用户体验会比较差,因此在实际应用中,可以在展示回答结果的同时,展示选出的作为网页语料数据辅证的网页的链接,告诉用户网页中有关于回答结果的相关内容,用户可以点击查看等,从而提升了产品的性能。
基于上述介绍,图2为本发明所述基于人工智能的SPO三元组校验方法第二实施例的流程图。如图2所示,包括以下具体实现方式。
在201中,根据待校验的SPO三元组生成搜索query。
比如,S=杜*涛,P=父亲,O=杜*豪,那么可组成query=杜*涛父亲杜*豪。
在202中,获取query对应的搜索结果网页。
利用上述query在搜索引擎中进行搜索,可得到搜索引擎返回的搜索结果网页。
在203中,从搜索结果网页中选出排在前M位的网页,并对选出的网页进行预处理,将进行预处理后的网页作为待处理网页。
所述预处理可包括去重处理等,去重处理可以是指保留内容重复的网页中来源站点的可信度最高的网页。
在204中,根据待处理网页确定出SPO三元组的置信度评分。
较佳地,可按照公式(1)计算出SPO三元组的置信度评分:
其中,i的取值为从1到Q,Q表示待处理网页的总数。
如公式(1)所示,针对每个待处理网页,分别获取其对应的Ki、Si、Ri和Pi,并计算Ki、Si、Ri和Pi的乘积,然后将各乘积相加,从而得到SPO三元组的置信度评分TC。
对于每个待处理网页来说,若待处理网页中包含SPO信息,那么可将Ki设置为1,否则,可设置为0,比如,待处理网页中同时出现了“杜*涛”、“父亲”和“杜*豪”这些信息,则可将Ki设置为1,否则,可设置为0。
Si表示待处理网页的来源站点的可信度。Ri表示待处理网页的内容与SPO三元组的相关性。Pi表示待处理网页的内容的可信度。Si、Ri和Pi的取值均可在0~1之间。
对于任一待处理网页,若其Ki为0,那么可无需计算该待处理网页的Si、Ri和Pi,因为无论计算结果是多少,计算出的乘积均为0。
需要说明的是,按照公式(1)计算置信度评分的方式仅为举例说明,并不用于限制本发明的技术方案,在实际应用中,也可以采用本领域技术人员能够想到的其它计算方式,只要能够达到有效评估出SPO三元组的置信度的目的即可。
在205中,根据置信度评分确定出SPO三元组是否为准确的SPO三元组,若是,则执行206,否则,结束流程。
计算得到TC之后,可将TC与第一阈值EC进行比较,若TC>EC,则可判定SPO三元组为准确的SPO三元组,即确定SPO三元组满足校验。
在206中,从待处理网页中选出SPO三元组的网页语料数据辅证,结束流程。
若确定SPO三元组为准确的SPO三元组,可针对Ki为1的待处理网页,按照Si、Ri和Pi的乘积从大到小的顺序进行排序,选出排序后处于TOP N’的网页,N’为正整数,并可从选出的N’个网页中进一步选出Si、Ri和Pi的乘积大于预先设定的第二阈值的网页,将最终选出的网页作为SPO三元组的网页语料数据辅证。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
总之,采用上述各方法实施例所述方案,可基于搜索结果实现对于SPO三元组的高效校验,能够有效地校验出SPO三元组的准确性,并摆脱了有限的高质量网站的束缚,同时大大缩减了人工审核标注所需耗费的人力和时间成本,扩充了知识图谱的数据覆盖面等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图3为本发明所述基于人工智能的SPO三元组校验装置实施例的组成结构示意图。如图3所示,包括:生成单元301、获取单元302、评分单元303以及校验单元304。
生成单元301,用于根据待校验的SPO三元组生成搜索query。
获取单元302,用于获取query对应的搜索结果网页。
评分单元303,用于根据搜索结果网页确定出SPO三元组的置信度评分。
校验单元304,用于根据置信度评分确定出SPO三元组是否为准确的SPO三元组。
对于任意一个SPO三元组,当需要对其进行校验时,可首先由生成单元301根据SPO三元组生成搜索query,即根据原始未确信的SPO三元组组成搜索语句。
获取单元302可利用上述query在搜索引擎中进行搜索,并得到搜索引擎返回的搜索结果网页,进而可由评分单元303根据搜索结果网页确定出SPO三元组的置信度评分。
如图3所示,评分单元303中可具体包括:选择子单元3031以及处理子单元3032。
选择子单元3031可从搜索结果网页中选出M个符合要求的网页,将选出的网页作为待处理网页,M为大于一的正整数。比如,选择子单元3031可选出搜索结果网页中排在前M位的网页。并且,选择子单元3031可进一步对选出的M个网页进行预处理,即对选出的M个网页进行清洗和整理,如进行去重处理等,进而将进行预处理后的网页作为待处理网页。
其中,去重处理可以是指:保留内容重复的网页中来源站点的可信度最高的网页。
处理子单元3032可针对每个待处理网页,分别进行以下处理:
若待处理网页中包含SPO信息,则分别获取待处理网页的N个预定参数值,N为正整数,并根据N个预定参数值确定出待处理网页的质量评分;
若待处理网页中不包含SPO信息,则将零作为待处理网页的质量评分;
根据各待处理网页的质量评分确定出SPO三元组的置信度评分。
其中,N个预定参数值可包括:待处理网页的来源站点的可信度;待处理网页的内容与SPO三元组的相关性;待处理网页的内容的可信度。
另外,针对每个待处理网页,处理子单元3032可分别计算N个预定参数值的乘积,将计算结果作为待处理网页的质量评分。处理子单元3032还可将各待处理网页的质量评分相加,将相加之和作为SPO三元组的置信度评分。
在得到SPO三元组的置信度评分之后,校验单元304可将置信度评分与预先设定的第一阈值进行比较,若置信度评分大于第一阈值,则可确定SPO三元组为准确的SPO三元组。
若SPO三元组为准确的SPO三元组,校验单元304还可进一步确定出SPO三元组的网页语料数据辅证。
比如,校验单元304可按照质量评分从大到小的顺序对各待处理网页进行排序,选出排序后处于前N’位的网页,N’为正整数,从选出的N’个网页中进一步选出质量评分大于预先设定的第二阈值的网页,将最终选出的网页作为SPO三元组的网页语料数据辅证。
图3所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
以上各实施例中,以SPO三元组为例进行说明,但本发明所述方案并不局限于SPO三元组,对于其它具有准确性校验需求的三元组,本发明所述方案同样适用。
图4示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图4显示的计算机***/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同***组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或图2所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或图2所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种基于人工智能的三元组校验方法,其特征在于,包括:
根据待校验的三元组生成搜索query;
获取所述query对应的搜索结果网页;
根据所述搜索结果网页确定出所述三元组的置信度评分;
根据所述置信度评分确定出所述三元组是否为准确的三元组。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述搜索结果网页确定出所述三元组的置信度评分包括:
从所述搜索结果网页中选出M个符合要求的网页,将选出的网页作为待处理网页,M为大于一的正整数;
针对每个待处理网页,分别进行以下处理:
若所述待处理网页中包含所述三元组的信息,则分别获取所述待处理网页的N个预定参数值,N为正整数,并根据所述N个预定参数值确定出所述待处理网页的质量评分;
若所述待处理网页中不包含所述三元组的信息,则将零作为所述待处理网页的质量评分;
根据各待处理网页的质量评分确定出所述三元组的置信度评分。
3.根据权利要求2所述的方法,其特征在于,
所述M个符合要求的网页包括:所述搜索结果网页中排在前M位的网页;
所述从所述搜索结果网页中选出M个符合要求的网页之后,进一步包括:
对选出的M个符合要求的网页进行预处理,所述预处理包括:去重处理,将进行预处理后的网页作为待处理网页。
4.根据权利要求3所述的方法,其特征在于,
所述去重处理包括:保留内容重复的网页中来源站点的可信度最高的网页。
5.根据权利要求2所述的方法,其特征在于,
所述N个预定参数值包括:
所述待处理网页的来源站点的可信度;
所述待处理网页的内容与所述三元组的相关性;
所述待处理网页的内容的可信度。
6.根据权利要求2所述的方法,其特征在于,
所述根据所述N个预定参数值确定出所述待处理网页的质量评分包括:
计算所述N个预定参数值的乘积,将计算结果作为所述待处理网页的质量评分;
所述根据各待处理网页的质量评分确定出所述三元组的置信度评分包括:
将各待处理网页的质量评分相加,将相加之和作为所述三元组的置信度评分。
7.根据权利要求1所述的方法,其特征在于,
所述根据所述置信度评分确定出所述三元组是否为准确的三元组包括:
将所述置信度评分与预先设定的第一阈值进行比较;
若所述置信度评分大于所述第一阈值,则确定所述三元组为准确的三元组。
8.根据权利要求2所述的方法,其特征在于,
该方法进一步包括:
若确定所述三元组为准确的三元组,则按照质量评分从大到小的顺序对各待处理网页进行排序,选出排序后处于前N’位的网页,N’为正整数;
从选出的N’个网页中进一步选出质量评分大于预先设定的第二阈值的网页,将选出的网页作为所述三元组的网页语料数据辅证。
9.一种基于人工智能的三元组校验装置,其特征在于,包括:生成单元、获取单元、评分单元以及校验单元;
所述生成单元,用于根据待校验的三元组生成搜索query;
所述获取单元,用于获取所述query对应的搜索结果网页;
所述评分单元,用于根据所述搜索结果网页确定出所述三元组的置信度评分;
所述校验单元,用于根据所述置信度评分确定出所述三元组是否为准确的三元组。
10.根据权利要求9所述的装置,其特征在于,
所述评分单元中包括:选择子单元以及处理子单元;
所述选择子单元,用于从所述搜索结果网页中选出M个符合要求的网页,将选出的网页作为待处理网页,M为大于一的正整数;
所述处理子单元,用于针对每个待处理网页,分别进行以下处理:
若所述待处理网页中包含所述三元组的信息,则分别获取所述待处理网页的N个预定参数值,N为正整数,并根据所述N个预定参数值确定出所述待处理网页的质量评分;
若所述待处理网页中不包含所述三元组的信息,则将零作为所述待处理网页的质量评分;
根据各待处理网页的质量评分确定出所述三元组的置信度评分。
11.根据权利要求10所述的装置,其特征在于,
所述M个符合要求的网页包括:所述搜索结果网页中排在前M位的网页;
所述选择子单元进一步用于,从所述搜索结果网页中选出M个符合要求的网页之后,对选出的M个符合要求的网页进行预处理,所述预处理包括:去重处理,将进行预处理后的网页作为待处理网页。
12.根据权利要求11所述的装置,其特征在于,
所述去重处理包括:保留内容重复的网页中来源站点的可信度最高的网页。
13.根据权利要求10所述的装置,其特征在于,
所述N个预定参数值包括:
所述待处理网页的来源站点的可信度;
所述待处理网页的内容与所述三元组的相关性;
所述待处理网页的内容的可信度。
14.根据权利要求10所述的装置,其特征在于,
针对每个待处理网页,所述处理子单元分别计算所述N个预定参数值的乘积,将计算结果作为所述待处理网页的质量评分;
所述处理子单元将各待处理网页的质量评分相加,将相加之和作为所述三元组的置信度评分。
15.根据权利要求9所述的装置,其特征在于,
所述校验单元将所述置信度评分与预先设定的第一阈值进行比较,若所述置信度评分大于所述第一阈值,则确定所述三元组为准确的三元组。
16.根据权利要求10所述的装置,其特征在于,
所述校验单元进一步用于,若确定所述三元组为准确的三元组,则按照质量评分从大到小的顺序对各待处理网页进行排序,选出排序后处于前N’位的网页,N’为正整数,从选出的N’个网页中进一步选出质量评分大于预先设定的第二阈值的网页,将选出的网页作为所述三元组的网页语料数据辅证。
17.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~8中任一项所述的方法。
CN201810244843.4A 2018-03-23 2018-03-23 基于人工智能的三元组校验方法、装置及存储介质 Active CN110569335B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810244843.4A CN110569335B (zh) 2018-03-23 2018-03-23 基于人工智能的三元组校验方法、装置及存储介质
US16/218,174 US11275810B2 (en) 2018-03-23 2018-12-12 Artificial intelligence-based triple checking method and apparatus, device and storage medium
KR1020180161868A KR102255238B1 (ko) 2018-03-23 2018-12-14 인공지능에 의한 트리플 검증방법, 장치 및 저장매체
EP18214458.4A EP3543871A1 (en) 2018-03-23 2018-12-20 Artificial intelligence-based triple checking method and apparatus, device and storage medium
JP2018244583A JP6756079B2 (ja) 2018-03-23 2018-12-27 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810244843.4A CN110569335B (zh) 2018-03-23 2018-03-23 基于人工智能的三元组校验方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110569335A true CN110569335A (zh) 2019-12-13
CN110569335B CN110569335B (zh) 2022-05-27

Family

ID=64901341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810244843.4A Active CN110569335B (zh) 2018-03-23 2018-03-23 基于人工智能的三元组校验方法、装置及存储介质

Country Status (5)

Country Link
US (1) US11275810B2 (zh)
EP (1) EP3543871A1 (zh)
JP (1) JP6756079B2 (zh)
KR (1) KR102255238B1 (zh)
CN (1) CN110569335B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274407A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
CN111291192A (zh) * 2020-01-15 2020-06-16 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
CN113033179A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 知识获取方法、装置、电子设备及可读存储介质
CN115982352A (zh) * 2022-12-12 2023-04-18 北京百度网讯科技有限公司 文本分类方法、装置以及设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11016966B2 (en) * 2018-06-26 2021-05-25 Adobe Inc. Semantic analysis-based query result retrieval for natural language procedural queries
CN111241209B (zh) * 2020-01-03 2023-07-11 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111523062B (zh) * 2020-04-24 2024-02-27 浙江口碑网络技术有限公司 多维度信息展示方法及装置
CN113220973B (zh) * 2021-05-31 2023-10-24 北京海纳数聚科技有限公司 一种基于知识推理技术的舆情验真方法

Citations (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
US20070088692A1 (en) * 2003-09-30 2007-04-19 Google Inc. Document scoring based on query analysis
CN101151615A (zh) * 2005-03-31 2008-03-26 皇家飞利浦电子股份有限公司 用于收集与生物分子和疾病之间的关系相关的证据的***和方法
US7426507B1 (en) * 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
CN101414310A (zh) * 2008-10-17 2009-04-22 山西大学 一种自然语言搜索的方法和装置
CN101501630A (zh) * 2006-01-31 2009-08-05 王啸云 基于相关性对搜索结果列表中的电子文件进行排名和排序的方法
CN101506769A (zh) * 2005-11-29 2009-08-12 思科技术公司 基于数据对象和到标识目的的用户连接之间的确定关系生成搜索结果
US7577643B2 (en) * 2006-09-29 2009-08-18 Microsoft Corporation Key phrase extraction from query logs
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
CN101963971A (zh) * 2009-07-23 2011-02-02 浦项工科大学校产学协力团 使用相关性反馈进行数据库搜索的方法及相应的储存介质
CN102063476A (zh) * 2010-12-13 2011-05-18 百度时代网络技术(北京)有限公司 视频搜索方法及***
CN102214189A (zh) * 2010-04-09 2011-10-12 腾讯科技(深圳)有限公司 基于数据挖掘获取词用法知识的***及方法
CN102332015A (zh) * 2010-09-17 2012-01-25 微软公司 使用地点以便确定查询与广告之间的相关性
US8166045B1 (en) * 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
CN102693320A (zh) * 2012-06-01 2012-09-26 中国科学技术大学 一种搜索方法及装置
CN103136220A (zh) * 2011-11-24 2013-06-05 北京百度网讯科技有限公司 建立词项需求分类模型的方法、词项需求分类方法及装置
CN103455491A (zh) * 2012-05-29 2013-12-18 深圳市世纪光速信息技术有限公司 对查询词分类的方法及装置
CN103699689A (zh) * 2014-01-09 2014-04-02 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN104166653A (zh) * 2013-05-17 2014-11-26 北京百度网讯科技有限公司 网站的三元组挖掘方法以及三元组挖掘装置
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和***
CN104679783A (zh) * 2013-11-29 2015-06-03 北京搜狗信息服务有限公司 一种网络搜索方法和装置
CN104915420A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 知识库数据处理方法及***
CN105069045A (zh) * 2015-07-23 2015-11-18 百度在线网络技术(北京)有限公司 更新数据库中非永久性的关系数据的方法及***
CN106469097A (zh) * 2016-09-02 2017-03-01 北京百度网讯科技有限公司 一种基于人工智能的召回纠错候选的方法和装置
CN106528849A (zh) * 2016-11-24 2017-03-22 上海交通大学 面向完整历史记录的图查询开销方法
CN106547887A (zh) * 2016-10-27 2017-03-29 北京百度网讯科技有限公司 基于人工智能的搜索推荐方法和装置
CN106575395A (zh) * 2014-08-12 2017-04-19 微软技术许可有限责任公司 包含来自各种数据源的数据的实体解析
CN106874380A (zh) * 2017-01-06 2017-06-20 北京航空航天大学 知识库三元组检验的方法与装置
CN107402954A (zh) * 2017-05-26 2017-11-28 百度在线网络技术(北京)有限公司 建立排序模型的方法、基于该模型的应用方法和装置
CN107451164A (zh) * 2016-06-01 2017-12-08 华为技术有限公司 一种语义查询的方法及装置
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080077577A1 (en) * 2006-09-27 2008-03-27 Byrne Joseph J Research and Monitoring Tool to Determine the Likelihood of the Public Finding Information Using a Keyword Search
KR100945495B1 (ko) 2008-05-16 2010-03-09 한국과학기술정보연구원 다국어 전문용어 자원 제공 시스템 및 방법
CN101499098B (zh) 2009-03-04 2012-07-11 阿里巴巴集团控股有限公司 一种网页评估值的确定及运用的方法、***
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
EP2616974A4 (en) * 2010-09-24 2016-03-02 Ibm ESTIMATION AND CONFIDENCE APPLICATION OF LEXICAL TYPE OF RESPONSE
EP2622599B1 (en) * 2010-09-28 2019-10-23 International Business Machines Corporation Evidence diffusion among candidate answers during question answering
US20120296918A1 (en) * 2011-05-18 2012-11-22 Microsoft Corporation Credibility Information in Returned Web Results
US9152700B2 (en) * 2011-09-30 2015-10-06 Google Inc. Applying query based image relevance models
US9235653B2 (en) * 2013-06-26 2016-01-12 Google Inc. Discovering entity actions for an entity graph
JP6150291B2 (ja) 2013-10-08 2017-06-21 国立研究開発法人情報通信研究機構 矛盾表現収集装置及びそのためのコンピュータプログラム
CN103646034B (zh) 2013-11-14 2017-03-08 东华理工大学 一种基于内容可信的Web搜索引擎***及搜索方法
US10984328B2 (en) * 2017-02-22 2021-04-20 International Business Machines Corporation Soft temporal matching in a synonym-sensitive framework for question answering
US10678816B2 (en) * 2017-08-23 2020-06-09 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
US11544605B2 (en) * 2018-03-07 2023-01-03 International Business Machines Corporation Unit conversion in a synonym-sensitive framework for question answering

Patent Citations (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070088692A1 (en) * 2003-09-30 2007-04-19 Google Inc. Document scoring based on query analysis
US7426507B1 (en) * 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
CN101151615A (zh) * 2005-03-31 2008-03-26 皇家飞利浦电子股份有限公司 用于收集与生物分子和疾病之间的关系相关的证据的***和方法
US7636714B1 (en) * 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
CN101506769A (zh) * 2005-11-29 2009-08-12 思科技术公司 基于数据对象和到标识目的的用户连接之间的确定关系生成搜索结果
CN101501630A (zh) * 2006-01-31 2009-08-05 王啸云 基于相关性对搜索结果列表中的电子文件进行排名和排序的方法
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
US7577643B2 (en) * 2006-09-29 2009-08-18 Microsoft Corporation Key phrase extraction from query logs
US8166045B1 (en) * 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
CN101414310A (zh) * 2008-10-17 2009-04-22 山西大学 一种自然语言搜索的方法和装置
CN101963971A (zh) * 2009-07-23 2011-02-02 浦项工科大学校产学协力团 使用相关性反馈进行数据库搜索的方法及相应的储存介质
CN102214189A (zh) * 2010-04-09 2011-10-12 腾讯科技(深圳)有限公司 基于数据挖掘获取词用法知识的***及方法
CN102332015A (zh) * 2010-09-17 2012-01-25 微软公司 使用地点以便确定查询与广告之间的相关性
CN102063476A (zh) * 2010-12-13 2011-05-18 百度时代网络技术(北京)有限公司 视频搜索方法及***
CN103136220A (zh) * 2011-11-24 2013-06-05 北京百度网讯科技有限公司 建立词项需求分类模型的方法、词项需求分类方法及装置
CN103455491A (zh) * 2012-05-29 2013-12-18 深圳市世纪光速信息技术有限公司 对查询词分类的方法及装置
CN102693320A (zh) * 2012-06-01 2012-09-26 中国科学技术大学 一种搜索方法及装置
CN104166653A (zh) * 2013-05-17 2014-11-26 北京百度网讯科技有限公司 网站的三元组挖掘方法以及三元组挖掘装置
CN104679783A (zh) * 2013-11-29 2015-06-03 北京搜狗信息服务有限公司 一种网络搜索方法和装置
CN103699689A (zh) * 2014-01-09 2014-04-02 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN106575395A (zh) * 2014-08-12 2017-04-19 微软技术许可有限责任公司 包含来自各种数据源的数据的实体解析
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和***
CN104915420A (zh) * 2015-06-10 2015-09-16 百度在线网络技术(北京)有限公司 知识库数据处理方法及***
CN105069045A (zh) * 2015-07-23 2015-11-18 百度在线网络技术(北京)有限公司 更新数据库中非永久性的关系数据的方法及***
CN107451164A (zh) * 2016-06-01 2017-12-08 华为技术有限公司 一种语义查询的方法及装置
CN106469097A (zh) * 2016-09-02 2017-03-01 北京百度网讯科技有限公司 一种基于人工智能的召回纠错候选的方法和装置
CN106547887A (zh) * 2016-10-27 2017-03-29 北京百度网讯科技有限公司 基于人工智能的搜索推荐方法和装置
CN106528849A (zh) * 2016-11-24 2017-03-22 上海交通大学 面向完整历史记录的图查询开销方法
CN106874380A (zh) * 2017-01-06 2017-06-20 北京航空航天大学 知识库三元组检验的方法与装置
CN107402954A (zh) * 2017-05-26 2017-11-28 百度在线网络技术(北京)有限公司 建立排序模型的方法、基于该模型的应用方法和装置
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274407A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
CN111291192A (zh) * 2020-01-15 2020-06-16 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
CN111291192B (zh) * 2020-01-15 2023-08-25 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
CN113033179A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 知识获取方法、装置、电子设备及可读存储介质
CN113033179B (zh) * 2021-03-24 2024-05-24 北京百度网讯科技有限公司 知识获取方法、装置、电子设备及可读存储介质
CN115982352A (zh) * 2022-12-12 2023-04-18 北京百度网讯科技有限公司 文本分类方法、装置以及设备
CN115982352B (zh) * 2022-12-12 2024-04-02 北京百度网讯科技有限公司 文本分类方法、装置以及设备

Also Published As

Publication number Publication date
JP2019169126A (ja) 2019-10-03
US11275810B2 (en) 2022-03-15
JP6756079B2 (ja) 2020-09-16
US20190294648A1 (en) 2019-09-26
KR102255238B1 (ko) 2021-05-24
CN110569335B (zh) 2022-05-27
EP3543871A1 (en) 2019-09-25
KR20190111729A (ko) 2019-10-02

Similar Documents

Publication Publication Date Title
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
US11216504B2 (en) Document recommendation method and device based on semantic tag
US20190057159A1 (en) Method, apparatus, server, and storage medium for recalling for search
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN108121697B (zh) 一种文本改写的方法、装置、设备和计算机存储介质
CN110532352B (zh) 文本查重方法及装置、计算机可读存储介质、电子设备
US10528662B2 (en) Automated discovery using textual analysis
CN107807915B (zh) 基于纠错平台的纠错模型建立方法、装置、设备和介质
US9514113B1 (en) Methods for automatic footnote generation
CN109325108B (zh) 查询处理方法、装置、服务器及存储介质
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN110032734B (zh) 近义词扩展及生成对抗网络模型训练方法和装置
CN110750627A (zh) 一种素材的检索方法、装置、电子设备及存储介质
CN109815481B (zh) 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN109902286B (zh) 一种实体识别的方法、装置及电子设备
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
CN113177407A (zh) 数据字典的构建方法、装置、计算机设备及存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant