CN109002516A - 一种搜索方法及装置 - Google Patents

一种搜索方法及装置 Download PDF

Info

Publication number
CN109002516A
CN109002516A CN201810734452.0A CN201810734452A CN109002516A CN 109002516 A CN109002516 A CN 109002516A CN 201810734452 A CN201810734452 A CN 201810734452A CN 109002516 A CN109002516 A CN 109002516A
Authority
CN
China
Prior art keywords
knowledge mapping
template
described search
entity
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810734452.0A
Other languages
English (en)
Inventor
王长宝
周静
崔艳辉
朱辉
郭宝贤
伏跃红
吴立
马帅
吕鑫
王明章
任寅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Huitong Jin Cai (beijing) Mdt Infotech Ltd
State Grid Agel Ecommerce Ltd
State Grid E Commerce Co Ltd
Original Assignee
State Grid Huitong Jin Cai (beijing) Mdt Infotech Ltd
State Grid Agel Ecommerce Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Huitong Jin Cai (beijing) Mdt Infotech Ltd, State Grid Agel Ecommerce Ltd filed Critical State Grid Huitong Jin Cai (beijing) Mdt Infotech Ltd
Priority to CN201810734452.0A priority Critical patent/CN109002516A/zh
Publication of CN109002516A publication Critical patent/CN109002516A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种搜索方法及装置,接收用户输入的搜索信息;基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;在预先建立的模板库中确定与所述搜索元素匹配的模板;根据与所述搜索元素匹配的模板,构建查询语句;根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。由于基于知识图谱的搜索是对输入搜索信息进行语义上的分析后,完成对搜索信息中实体识别,语义消歧,意图识别,然后基于识别出的实体构建查询语句并根据查询语句进行搜索,得到符合用户真实意图的搜索结果。避免了由于无法理解用户真实意图,而不能搜索到符合用户真实意图的搜索结果,进而降低了搜索结果准确性低的问题产生。

Description

一种搜索方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及一种搜索方法及装置。
背景技术
在互联网飞速发展的今天,互联网资源的指数级增长使得人们已经不满足于传统搜索服务的模式,即仅仅返回与用户搜索内容相关的若干文档链接,用户更渴望获得针对其所输入搜索内容的准确结果。在现阶段各种优化的基于字符匹配的搜索方法得到了广泛的应用。
大多数基于字符匹配的搜索是利用各种排名算法,如PageRank、HITS、引用索引(citation index)等来改善搜索结果的排序,使得用户能够优先看到排序靠前的搜索结果。
但是,当前基于字符匹配的搜索方法中,存在无法理解用户真实意图的问题,不能搜索到满足用户需求的内容。因此,现有技术中搜索方法存在搜索结果准确性低的问题。
发明内容
有鉴于此,本发明的目的在于提供一种搜索方法及装置,以解决现有技术中搜索准确性低的问题。
技术方案如下:
本发明提供一种搜索方法,包括:
接收用户输入的搜索信息;
基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;其中,所述搜索元素是预先建立的知识图谱中的元素;
在预先建立的模板库中确定与所述搜索元素匹配的模板;
根据与所述搜索元素匹配的模板,构建查询语句;
根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。
优选地,采用下列方法建立得到知识图谱:
从数据库中提取至少一个实体、各实体对应的至少一个属性以及至少一个关系;
用知识表示提取到的实体、各实体对应的属性以及关系,以建立知识图谱。
优选地,所述用知识表示提取到的实体、各实体对应的属性以及关系,以建立知识图谱之后,还包括:
采集外网数据源中的数据;
从采集到的外网数据源中的数据中提取新内容;其中,所述新内容包括至少一个实体、各实体对应的至少一个属性或至少一个关系;
基于提取到的新内容,建立外网知识图谱;
判断所述知识图谱中是否存在与所述外网知识图谱中相同的内容;
若判断所述知识图谱中存在与所述外网知识图谱中相同的内容,则将所述知识图谱中相同的内容与所述外网知识图谱中相同的内容相融合,得到融合后的知识图谱。
优选地,所述基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素包括:
基于预先建立的知识图谱中的元素,对所述搜索信息进行识别,得到识别结果;
依据所述识别结果,对所述搜索信息进行分词处理,得到至少一个搜索元素。
优选地,所述在预先建立的模板库中确定与所述搜索元素匹配的模板包括:
根据所述搜索元素,从预先建立的模板库中选择候选模板;
判断所述搜索元素根据所述候选模板是否能够形成所述知识图谱中的一个连续子图;其中,子图由节点和边组成,在所述知识图谱中所述节点至少包括实体、概念、属性值,所述边至少包括属性、关系;
判断所述搜索元素根据所述候选模板能够形成所述知识图谱中的一个连续子图,则确定所述候选模板与所述搜索元素相匹配。
优选地,所述根据与所述搜索元素匹配的模板,构建查询语句包括:
确定与所述搜索元素相匹配的模板对应的查询语句生成策略;
依据与所述模板对应的查询语句生成策略,构建查询语句。
本发明还提供了一种搜索装置,包括:
接收单元,用于接收用户输入的搜索信息;
解析单元,用于基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;其中,所述搜索元素是预先建立的知识图谱中的元素;
匹配单元,用于在预先建立的模板库中确定与所述搜索元素匹配的模板;
构建单元,用于根据与所述搜索元素匹配的模板,构建查询语句;
搜索单元,用于根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。
优选地,还包括建立单元,用于从数据库中提取至少一个实体、各实体对应的至少一个属性以及至少一个关系;用知识表示提取到的实体、各实体对应的属性以及关系,以建立知识图谱。
优选地,所述解析单元包括:
识别子单元,用于基于预先建立的知识图谱中的元素,对所述搜索信息进行识别,得到识别结果;
分词子单元,用于依据所述识别结果,对所述搜索信息进行分词处理,得到至少一个搜索元素。
优选地,所述匹配单元包括:
选择子单元,用于根据所述搜索元素,从预先建立的模板库中选择候选模板;
判断子单元,用于判断所述搜索元素根据所述候选模板是否能够形成所述知识图谱中的一个连续子图;其中,子图由节点和边组成,在所述知识图谱中所述节点至少包括实体、概念、属性值,所述边至少包括属性、关系;
确定子单元,用于在所述判断子单元判断所述搜索元素根据所述候选模板能够形成所述知识图谱中的一个连续子图时,确定所述候选模板与所述搜索元素相匹配。
与现有技术相比,本发明提供的上述技术方案具有如下优点:
从上述技术方案可知,本申请中接收用户输入的搜索信息;基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;在预先建立的模板库中确定与所述搜索元素匹配的模板;根据与所述搜索元素匹配的模板,构建查询语句;根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。由于基于知识图谱的搜索是对输入搜索信息进行语义上的分析后,完成对搜索信息中实体识别,语义消歧,意图识别,然后基于识别出的实体构建查询语句并根据查询语句进行搜索,得到符合用户真实意图的搜索结果。避免了由于无法理解用户真实意图,而不能搜索到符合用户真实意图的搜索结果,进而降低了搜索结果准确性低的问题产生。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种搜索方法的流程图;
图2是本发明实施例提供的建立知识图谱的流程图;
图3是本发明实施例提供的另一种搜索方法的流程图;
图4是本发明实施例提供的一种搜索装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例公开了一种搜索方法,参见图1,该实施例包括以下步骤:
S101、接收用户输入的搜索信息;
在搜索引擎中输入搜索信息,其中,搜索信息为自然语言。例如,用户想要查询小米这一品牌手机的特定型号8的出厂日期,则在搜索引擎中输入“小米8的出厂日期”这一搜索信息。
S102、基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;其中,所述搜索元素是预先建立的知识图谱中的元素;
预先建立知识图谱。知识图谱是一种基于图的数据结构,由节点和边组成。其中节点包括实体、概念、属性值,其中,属性值是与实体或概念对应的属性值,如各个商品、各个店铺等是实体,具有同种特性的实体构成的集合是概念,商品的价格是这个商品实体对应的属性值,节点由一个全局唯一的ID标识,是构成知识图谱的元素;边即关系或属性,若节点之间具有关系时,利用边将具有关系的节点连接在一起,如当当网作为一个店铺,主要卖的商品是书,因此,认为当当网这一店铺实体与书这一商品实体之间具有关系,节点A设置的是“当当网”,节点C设置的是“红楼梦”,则利用边将节点A和节点C连接在一起;节点C设置的“红楼梦”的价格为50,价格为书的属性,将价格属性值50设置在节点M,则利用边将节点C和节点M连接在一起。简言之,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。
知识图谱提供了从“关系”的角度去分析问题的能力。以用户输入“小米8的出厂日期”这一搜索信息为例,用户的问题是小米8的出厂日期是什么时间。基于知识图谱中的元素,对搜索信息进行解析,通过解析可以得到“小米8”、“出厂日期”这两个搜索元素,每个搜索元素都是知识图谱中的元素。
由于知识图谱中不仅包括多个元素,且元素之间是具有关系的,因此,基于元素之间的关系,可以进一步确定元素的语义。以“小米”为例,仅仅识别“小米”这一字符,其可以是电子产品为小米的手机,也可以是食品小米。但是,知识图谱中的节点1是“小米”这一实体,节点5是“京东商城”这一实体,节点6是“手机”这一实体,且节点1与节点5、节点6分别具有关系,因此,基于与实体“小米”具有关系的其他节点,可以确定“小米”这是一个电子产品的品牌,而非食品。避免了用户查找的是小米手机的相关内容,但是由于没有进行语义分析,仅仅是字符检索,因此返回的是食品的相关内容,进而导致用户不能针对其询问的问题获得相关内容的问题。
可以理解的是,根据用户输入的搜索信息的不同,基于知识图谱解析得到的搜索元素的个数是不同的,至少解析得到一个搜索元素。
在本实施例中知识图谱中的元素并不限于包括实体、概念、属性,还可以包括运算符等元素。
S103、在预先建立的模板库中确定与所述搜索元素匹配的模板;
基于建立的知识图谱中的子图,预先建立模块库。其中,子图为知识图谱中具有关系的节点与边的组合。
示例性的,知识图谱中一个实体,存在与这一实体对应的属性,那么,知识图谱中的一个子图是一个节点和一条边组成的图,节点表示的是实体,边表示的是实体的属性。基于这一子图,建立的模板为实体+属性。
本实施例中,建立的模板还包括:概念+属性,多个实体属性值+概念,数值属性+比较运算符+值+概念,数值属性+最值运算符+概念,最值运算符+概念等。
在建立了模板库后,基于解析到的搜索元素,在模板库中确定与所述搜索元素匹配的模板。
以“小米8”、“出厂日期”这两个搜索元素为例,小米8为一个商品实体,出厂日期为与实体对应的属性,搜索元素包括一个实体以及与实体对应的属性,因此匹配到的模板是:实体+属性。
解析得到的搜索元素的类型不同,搜索元素的个数不同,都可以从模板库中匹配到不同的模板。
S104、根据与所述搜索元素匹配的模板,构建查询语句;
本实施例中,构建的查询语句可以是sql语句,用于从数据库中查找对应的数据。
S105、根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。
根据构建的sql语句,从数据库中查找到对应的数据后返回查询结果,以便用户查看到与搜索信息对应的搜索结果,进而得到关于搜索信息的准确结果。
从上述技术方案可知,本实施例中接收用户输入的搜索信息;基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;在预先建立的模板库中确定与所述搜索元素匹配的模板;根据与所述搜索元素匹配的模板,构建查询语句;根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。由于基于知识图谱的搜索是对输入搜索信息进行语义上的分析后,完成对搜索信息中实体识别,语义消歧,意图识别,然后基于识别出的实体构建查询语句并根据查询语句进行搜索,得到符合用户真实意图的搜索结果。避免了由于无法理解用户真实意图,而不能搜索到符合用户真实意图的搜索结果,进而降低了搜索结果准确性低的问题产生。
下面详细介绍建立知识图谱的方式。以电商领域为例,介绍建立电商领域知识图谱的方法。
S201、从数据库中提取至少一个实体、各实体对应的至少一个属性以及至少一个关系;
数据库包括资源型数据库以及关系型数据库,资源型数据库中存储的是从数据源采集到的数据,而关系型数据库中存储的是具有关系的数据。其中,资源型数据库中数据以数据表的形式存储,一个数据表对应一个实体,数据表中一个列数据对应实体的一个属性。
建立一个特定领域的知识图谱时,以特定领域***内已经存储在数据库中的数据为基础,分析数据库中存储的数据,以获知数据中包括的基础概念。
由于电商***中资源型数据库中存储的数据包括商品、店铺、供货商、促销活动、节假日等数据,还包括商品的生产日期、商品的保质期、商品的价格等数据;关系型数据库中存储的是具有关系的数据,如商品-店铺(供货商、产地)关系、节假日-促销活动关系等。
因此,通过分别对资源型数据库和关系型数据库进行分析可以得知电商这一领域中数据包括的基础概念包括:商品、店铺、供货商、促销活动、节假日、商品的生产日期、商品的保质期、商品的价格、商品-店铺(供货商、产地)关系、节假日-促销活动关系等。
获知基础概念后,可以根据基础概念定义概念、实体、属性以及关系。
例如,商品这一实际存在的事物可以是一个实体,因此,将商品定义为一个实体,相应的,将店铺、供货商、促销活动等分别定义为实体。
当然,商品包括不同种类的商品,如手机、电脑、存储卡等,且不同的种类的商品又包括不同品牌、不同型号的商品,如手机包括小米手机、华为手机等,华为手机又包括mate10、nova2等型号的手机。在本实施例中以“商品”、“店铺”等统称描述属于一类的实体。
而商品的生产日期、商品的保质期、商品的价格等,其实质是与商品对应的属性,因此,将商品的生产日期、商品的保质期、商品的价格等分别定义为与实体对应的属性。
并定义实体之间的关系,如商品-店铺(供货商、产地)关系、节假日-促销活动关系等。
通过上述对资源型数据库以及关系型数据库内存储的数据进行分析,可以从数据库中提取到至少一个实体、各实体对应的至少一个属性以及至少一个关系。
S202、用知识表示提取到的实体、各实体对应的属性以及关系,以建立知识图谱。
具体地,通过D2R映射将关系型数据库中的数据转化为RDF三元组形式的语义数据,制定一组从关系型数据库映射到语义数据的映射规范,然后用XML语言描述,即D2RML。对结构化数据进行知识映射的关键之处在于充分理解结构化数据中的基本结构,包括每个表格的含义及表格之间的关联,以及知识图谱的结构,使用D2RML把结构化数据中的数据表与知识图谱中的概念或实体关联起来。并将通过映射得到的知识存储到知识图谱中,以建立得到知识图谱。其中,当数据为非结构化数据时,需要先对数据进行处理并转化为结构化数据,然后才能进行映射。
由于知识图谱是用于提供给用户问题的答案的,因此,为了更好的分析得到用户输入搜索信息的实际意图,实现准确的语义搜索,在基于自身数据库中存储的数据建立得到知识图谱后,还包括:
S203、采集外网数据源中的数据;
如从中文百科中采集数据,包括百度百科的数据、互动百科的数据以及中文***的数据。
S204、从采集到的外网数据源中的数据中提取新内容;其中,所述新内容包括至少一个实体、各实体对应的至少一个属性或至少一个关系;
从采集到的中文百科数据中提取新内容,新内容可以为至少一个实体、各实体对应的至少一个属性或者至少一个关系。
S205、基于提取到的新内容,建立外网知识图谱;
建立外网知识图谱的方式与步骤S202的方式类似,只是数据源不同导致提取到的实体、属性以及关系不同。
S206、判断所述知识图谱中是否存在与所述外网知识图谱中相同的内容;
若判断所述知识图谱中存在与所述外网知识图谱中相同的内容,则执行S207;
在本实施例中,所述知识图谱指的是特定领域的知识图谱,如电商知识图谱。
电商知识图谱中存在与外网知识图谱中相同的内容
指的是:电商知识图谱中的至少一个实体与外网知识图谱中的至少一个实体相同,电商知识图谱中实体的属性与外网知识图谱中实体的属性相同,电商知识图谱中至少一个关系与外网知识图谱中的至少一个关系相同。即只要外网知识图谱包括的所有内容中有一项与电商知识图谱中的内容相同,则就确定电商知识图谱中存在与所述外网知识图谱中相同的内容。
S207、将所述知识图谱中相同的内容与所述外网知识图谱中相同的内容相融合,得到融合后的知识图谱。
如外网知识图谱中包括的一项内容是“手机”,而电商知识图谱中存在“手机”这一实体,因此,将外网知识图谱中的手机与电商知识图谱中的手机相融合,使得将外网知识图谱中与手机具有关系的内容,通过融合后的“手机”这一实体融合到了电商知识图谱中,扩充了电商知识图谱,进而扩充了对“手机”这一内容的理解。
通过不断对已经建立的知识图谱的扩充,可以提高基于知识图谱对用户输入内容的语义理解的准确性,进而在基于知识图谱搜索与用户输入内容对应的结果时,可以准确搜索到用户需要的内容,避免了错误理解用户的意图而导致搜索到错误内容的问题产生。
本实施例还公开了另一种搜索方法,参见图3,该实施例包括以下步骤:
S301、接收用户输入的搜索信息;
本实施例中步骤S301的实现方式与图1所示实施例中步骤S101的实现方式类似。
S302、基于预先建立的知识图谱中的元素,对所述搜索信息进行识别,得到识别结果;
以前向最大匹配的方式,基于知识图谱中的元素对搜索信息进行识别,得到识别结果。其中,知识图谱中的元素包括实体、概念、属性、运算符等不同的类型。运算符包括范围运算符,模糊运算符,大多数运算符,布尔运算符等。各类运算符在不同领域中的含义是相同的,例如,无论是在电商领域还是其他领域,“大于”这一运算符表示的都是大于特定值,小于”这一运算符表示的都是小于特定值,“最大”这一运算符表示的都是最大值。
可以理解的是,可以为属性定义特定领域运算符,例如可在属性“体重”上定义运算符“重于(大于)”。
仍然以搜索信息为“小米8的出厂日期”为例,知识图谱中的元素包括实体“小米8”、属性“出厂日期”,基于知识图谱中的元素识别“小米8的出厂日期”,得到的识别结果为一个实体“小米8”以及一个属性“出厂日期”。
S303、依据所述识别结果,对所述搜索信息进行分词处理,得到至少一个搜索元素;其中,所述搜索元素是预先建立的知识图谱中的元素;
依据识别结果,对搜索信息进行分词处理。对“小米8的出厂日期”进行分词处理,得到的搜索元素为“小米8”和“出厂日期”。其中,由于知识图谱中的元素包括不同的类型,因此,基于知识图谱中的元素对搜索信息进行识别,并分词处理后,得到的单词也可以包括不同的类型。如,分词处理后得到的“小米8”为实体类型,“出厂日期”为属性类型。
S304、根据所述搜索元素,从预先建立的模板库中选择候选模板;
预先建立的模板库中包括:
实体+属性、概念+属性、多个实体属性值+概念、数值属性+比较运算符+值+概念、数值属性+最值运算符+概念、最值运算符+概念等模板。
从模板库中选择候选模板,如选择的候选模板是实体+属性。
S305、判断所述搜索元素根据所述候选模板是否能够形成所述知识图谱中的一个连续子图;其中,子图由节点和边组成,所述节点包括实体、概念、属性值,所述边包括属性、关系;
判断所述搜索元素根据所述候选模板能够形成所述知识图谱中的一个连续子图,则执行S306;
知识图谱中的子图是由相邻的节点和边组成的,以节点A为例,节点A为实体,节点B为另一个实体,节点C为实体A的属性的属性值,节点A分别与节点B、节点C具有关系,即节点A与节点B之间通过边连接,节点A与节点C之间通过边连接。那么,子图包括:节点A、节点B以及两个节点之间的边,即两个节点和一个边组成的子图;节点A、节点A和节点C之间的边,即一个节点和一个边组成的子图。
需要注意的是,连续子图一定是由具有连接关系的节点以及边构成的,不能是任意节点以及任意边组成的。
搜索元素为“小米8”、“出厂日期”,“小米8”为实体,“出厂日期”为属性。根据候选模板实体+属性能够形成知识图谱中由一个实体以及一条边组成的连续子图,因此,候选模板实体+属性为与搜索元素“小米8”、“出厂日期”匹配的模板。
若判断搜索元素根据候选模板不能够形成知识图谱中的一个连续子图,说明候选模板不是与搜索元素匹配的模板,需要再次从模板库中选择另一个模板作为候选模板,直至从模板库中确定出与搜索元素匹配的模板。
S306、确定所述候选模板与所述搜索元素相匹配;
S307、确定与所述搜素元素相匹配的模板对应的查询语句生成策略;
当确定出与搜索元素匹配的模板后,需要在底层存储上生成查询语句。生成的方式是由模板决定的。
为每个模板分别定义了各自的策略来生成查询语句。例如,对于模板“实体+属性”,查询目标是与实体对应的属性表。由于知识图谱中节点用ID标识,因此,实体对应一个ID,属性对应一个ID,在查询语句中用字段“entity_id”表示实体对应的ID,即查询哪个实体,在查询语句中用字段“attr_id”表示属性对应的ID,即查询哪个属性对应的属性值。
针对“实体+属性”设置的查询语句生成策略为“select attr_value fromattribute where entity_id=EID and attr_id=AID”。
查询语句生成策略与模板的对应关系如下表所示。
表1
S308、依据与所述模板对应的查询语句生成策略,构建查询语句;
确定了与模板对应的生成查询语句的策略,直接将查询的具体内容替换查询语句生成策略中的参数即可构建得到查询语句。简化了生成查询语句的方法,便于快速根据生成的查询语句搜索到相关内容。
S309、根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。
从上述技术方案可知,本实施例中接收用户输入的搜索信息;基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;在预先建立的模板库中确定与所述搜索元素匹配的模板;根据与所述搜索元素匹配的模板,构建查询语句;根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。由于基于知识图谱的搜索是对输入搜索信息进行语义上的分析后,完成对搜索信息中实体识别,语义消歧,意图识别,然后基于识别出的实体构建查询语句并根据查询语句进行搜索,得到符合用户真实意图的搜索结果。避免了由于无法理解用户真实意图,而不能搜索到符合用户真实意图的搜索结果,进而降低了搜索结果准确性低的问题产生。同时,针对模板库中的模板,设置对应的查询语句生成策略,在匹配到与搜素元素对应的模板后,根据与模板对应的查询语句生成策略可以快速生成查询语句,节省了生成查询语句的时间,提高了搜索的效率。
对应上述搜索方法,本实施例提供了一种搜索装置,所述搜索装置的结构示意图请参阅图4所示,本实施例中搜索装置包括:
接收单元401、解析单元402、匹配单元403、构建单元404、搜索单元405和建立单元406;
接收单元401,用于接收用户输入的搜索信息;
解析单元402,用于基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;其中,所述搜索元素是预先建立的知识图谱中的元素;
可选地,通过建立单元406预先建立知识图谱,具体为:
从数据库中提取至少一个实体、各实体对应的至少一个属性以及至少一个关系;用知识表示提取到的实体、各实体对应的属性以及关系,以建立知识图谱。
本实施例中建立单元406还用于根据建立的知识图谱,建立模板库;其中,模板库中存储的模板与知识图谱中的连续子图具有对应关系;
可选地,解析单元402包括:
识别子单元,用于基于预先建立的知识图谱中的元素,对所述搜索信息进行识别,得到识别结果;
分词子单元,用于依据所述识别结果,对所述搜索信息进行分词处理,得到至少一个搜索元素。
匹配单元403,用于在预先建立的模板库中确定与所述搜索元素匹配的模板;
可选地,匹配单元403包括:
选择子单元,用于根据所述搜索元素,从预先建立的模板库中选择候选模板;
判断子单元,用于判断所述搜索元素根据所述候选模板是否能够形成所述知识图谱中的一个连续子图;其中,子图由节点和边组成,在所述知识图谱中所述节点至少包括实体、概念、属性值,所述边至少包括属性、关系;
确定子单元,用于在所述判断子单元判断所述搜索元素根据所述候选模板能够形成所述知识图谱中的一个连续子图时,确定所述候选模板与所述搜索元素相匹配。
构建单元404,用于根据与所述搜索元素匹配的模板,构建查询语句;
搜索单元405,用于根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。
从上述技术方案可知,本实施例中接收用户输入的搜索信息;基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;在预先建立的模板库中确定与所述搜索元素匹配的模板;根据与所述搜索元素匹配的模板,构建查询语句;根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。由于基于知识图谱的搜索是对输入搜索信息进行语义上的分析后,完成对搜索信息中实体识别,语义消歧,意图识别,然后基于识别出的实体构建查询语句并根据查询语句进行搜索,得到符合用户真实意图的搜索结果。避免了由于无法理解用户真实意图,而不能搜索到符合用户真实意图的搜索结果,进而降低了搜索结果准确性低的问题产生。同时,针对模板库中的模板,设置对应的查询语句生成策略,在匹配到与搜素元素对应的模板后,根据与模板对应的查询语句生成策略可以快速生成查询语句,节省了生成查询语句的时间,提高了搜索的效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种搜索方法,其特征在于,包括:
接收用户输入的搜索信息;
基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;其中,所述搜索元素是预先建立的知识图谱中的元素;
在预先建立的模板库中确定与所述搜索元素匹配的模板;
根据与所述搜索元素匹配的模板,构建查询语句;
根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。
2.根据权利要求1所述的搜索方法,其特征在于,采用下列方法建立得到知识图谱:
从数据库中提取至少一个实体、各实体对应的至少一个属性以及至少一个关系;
用知识表示提取到的实体、各实体对应的属性以及关系,以建立知识图谱。
3.根据权利要求2所述的搜索方法,其特征在于,所述用知识表示提取到的实体、各实体对应的属性以及关系,以建立知识图谱之后,还包括:
采集外网数据源中的数据;
从采集到的外网数据源中的数据中提取新内容;其中,所述新内容包括至少一个实体、各实体对应的至少一个属性或至少一个关系;
基于提取到的新内容,建立外网知识图谱;
判断所述知识图谱中是否存在与所述外网知识图谱中相同的内容;
若判断所述知识图谱中存在与所述外网知识图谱中相同的内容,则将所述知识图谱中相同的内容与所述外网知识图谱中相同的内容相融合,得到融合后的知识图谱。
4.根据权利要求1-3任意一项所述的搜索方法,其特征在于,所述基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素包括:
基于预先建立的知识图谱中的元素,对所述搜索信息进行识别,得到识别结果;
依据所述识别结果,对所述搜索信息进行分词处理,得到至少一个搜索元素。
5.根据权利要求1-3任意一项所述的搜索方法,其特征在于,所述在预先建立的模板库中确定与所述搜索元素匹配的模板包括:
根据所述搜索元素,从预先建立的模板库中选择候选模板;
判断所述搜索元素根据所述候选模板是否能够形成所述知识图谱中的一个连续子图;其中,子图由节点和边组成,在所述知识图谱中所述节点至少包括实体、概念、属性值,所述边至少包括属性、关系;
判断所述搜索元素根据所述候选模板能够形成所述知识图谱中的一个连续子图,则确定所述候选模板与所述搜索元素相匹配。
6.根据权利要求1-3任意一项所述的搜索方法,其特征在于,所述根据与所述搜索元素匹配的模板,构建查询语句包括:
确定与所述搜索元素相匹配的模板对应的查询语句生成策略;
依据与所述模板对应的查询语句生成策略,构建查询语句。
7.一种搜索装置,其特征在于,包括:
接收单元,用于接收用户输入的搜索信息;
解析单元,用于基于预先建立的知识图谱,对所述搜索信息进行解析,得到至少一个搜索元素;其中,所述搜索元素是预先建立的知识图谱中的元素;
匹配单元,用于在预先建立的模板库中确定与所述搜索元素匹配的模板;
构建单元,用于根据与所述搜索元素匹配的模板,构建查询语句;
搜索单元,用于根据所述查询语句搜索与所述搜索信息对应的内容,得到搜索结果。
8.根据权利要求7所述的搜索装置,其特征在于,还包括建立单元,用于从数据库中提取至少一个实体、各实体对应的至少一个属性以及至少一个关系;用知识表示提取到的实体、各实体对应的属性以及关系,以建立知识图谱。
9.根据权利要求7-8任意一项所述的搜索装置,其特征在于,所述解析单元包括:
识别子单元,用于基于预先建立的知识图谱中的元素,对所述搜索信息进行识别,得到识别结果;
分词子单元,用于依据所述识别结果,对所述搜索信息进行分词处理,得到至少一个搜索元素。
10.根据权利要求7-8任意一项所述的搜索装置,其特征在于,所述匹配单元包括:
选择子单元,用于根据所述搜索元素,从预先建立的模板库中选择候选模板;
判断子单元,用于判断所述搜索元素根据所述候选模板是否能够形成所述知识图谱中的一个连续子图;其中,子图由节点和边组成,在所述知识图谱中所述节点至少包括实体、概念、属性值,所述边至少包括属性、关系;
确定子单元,用于在所述判断子单元判断所述搜索元素根据所述候选模板能够形成所述知识图谱中的一个连续子图时,确定所述候选模板与所述搜索元素相匹配。
CN201810734452.0A 2018-07-06 2018-07-06 一种搜索方法及装置 Pending CN109002516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810734452.0A CN109002516A (zh) 2018-07-06 2018-07-06 一种搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810734452.0A CN109002516A (zh) 2018-07-06 2018-07-06 一种搜索方法及装置

Publications (1)

Publication Number Publication Date
CN109002516A true CN109002516A (zh) 2018-12-14

Family

ID=64599233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810734452.0A Pending CN109002516A (zh) 2018-07-06 2018-07-06 一种搜索方法及装置

Country Status (1)

Country Link
CN (1) CN109002516A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726279A (zh) * 2018-12-30 2019-05-07 联想(北京)有限公司 一种数据处理方法及装置
CN110008413A (zh) * 2019-03-14 2019-07-12 海信集团有限公司 一种交通出行问题查询方法和装置
CN110134842A (zh) * 2019-04-03 2019-08-16 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN110147437A (zh) * 2019-05-23 2019-08-20 北京金山数字娱乐科技有限公司 一种基于知识图谱的搜索方法及装置
CN110321544A (zh) * 2019-07-08 2019-10-11 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110321408A (zh) * 2019-05-30 2019-10-11 重庆金融资产交易所有限责任公司 基于知识图谱的搜索方法、装置、计算机设备和存储介质
CN110347816A (zh) * 2019-07-15 2019-10-18 腾讯科技(上海)有限公司 一种信息推荐方法及装置
CN110516081A (zh) * 2019-09-02 2019-11-29 北京明略软件***有限公司 数据表映射关系的显示方法及装置
CN110990584A (zh) * 2019-11-26 2020-04-10 口口相传(北京)网络技术有限公司 知识图谱的生成方法及装置
CN111126073A (zh) * 2019-12-23 2020-05-08 中国建设银行股份有限公司 语义检索方法和装置
CN111159429A (zh) * 2019-12-30 2020-05-15 中信百信银行股份有限公司 基于知识图谱的数据分析方法及装置、设备、存储介质
CN111831911A (zh) * 2020-07-16 2020-10-27 北京奇艺世纪科技有限公司 查询信息的处理方法、装置、存储介质和电子装置
CN111897836A (zh) * 2020-07-03 2020-11-06 中国建设银行股份有限公司 一种搜索***、方法及存储介质
WO2020224570A1 (zh) * 2019-05-09 2020-11-12 阿里巴巴集团控股有限公司 交互方法及装置、音箱、电子设备和存储介质
CN112148751A (zh) * 2019-06-28 2020-12-29 北京百度网讯科技有限公司 用于查询数据的方法和装置
CN112259102A (zh) * 2020-10-29 2021-01-22 适享智能科技(苏州)有限公司 基于知识图谱的零售场景语音交互优化方法
CN112347121A (zh) * 2020-11-02 2021-02-09 中科曙光南京研究院有限公司 一种可配置的自然语言转sql的方法及***
CN112445890A (zh) * 2019-08-27 2021-03-05 北京国双科技有限公司 一种基于合同知识图谱的数据处理方法及相关装置
CN112487154A (zh) * 2020-12-24 2021-03-12 武汉烽火众智数字技术有限责任公司 一种基于自然语言的智能搜索方法
CN112507076A (zh) * 2020-12-14 2021-03-16 英大传媒投资集团有限公司 一种语义分析搜索方法、装置及存储介质
CN113204696A (zh) * 2021-01-05 2021-08-03 北京欧拉认知智能科技有限公司 一种基于文本图谱的智能搜索引擎的检索方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897273A (zh) * 2017-04-12 2017-06-27 福州大学 一种基于知识图谱的网络安全动态预警方法
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897273A (zh) * 2017-04-12 2017-06-27 福州大学 一种基于知识图谱的网络安全动态预警方法
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中国科学技术信息研究所编: "《中国科学技术信息研究所论文集》", 31 January 2013, 科学技术文献出版社 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726279A (zh) * 2018-12-30 2019-05-07 联想(北京)有限公司 一种数据处理方法及装置
CN110008413A (zh) * 2019-03-14 2019-07-12 海信集团有限公司 一种交通出行问题查询方法和装置
CN110134842B (zh) * 2019-04-03 2021-08-31 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN110134842A (zh) * 2019-04-03 2019-08-16 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
WO2020224570A1 (zh) * 2019-05-09 2020-11-12 阿里巴巴集团控股有限公司 交互方法及装置、音箱、电子设备和存储介质
CN110147437A (zh) * 2019-05-23 2019-08-20 北京金山数字娱乐科技有限公司 一种基于知识图谱的搜索方法及装置
CN110147437B (zh) * 2019-05-23 2022-09-02 北京金山数字娱乐科技有限公司 一种基于知识图谱的搜索方法及装置
CN110321408A (zh) * 2019-05-30 2019-10-11 重庆金融资产交易所有限责任公司 基于知识图谱的搜索方法、装置、计算机设备和存储介质
CN112148751A (zh) * 2019-06-28 2020-12-29 北京百度网讯科技有限公司 用于查询数据的方法和装置
CN112148751B (zh) * 2019-06-28 2024-05-07 北京百度网讯科技有限公司 用于查询数据的方法和装置
CN110321544A (zh) * 2019-07-08 2019-10-11 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110347816A (zh) * 2019-07-15 2019-10-18 腾讯科技(上海)有限公司 一种信息推荐方法及装置
CN110347816B (zh) * 2019-07-15 2023-08-04 腾讯科技(上海)有限公司 一种信息推荐方法及装置
CN112445890A (zh) * 2019-08-27 2021-03-05 北京国双科技有限公司 一种基于合同知识图谱的数据处理方法及相关装置
CN110516081A (zh) * 2019-09-02 2019-11-29 北京明略软件***有限公司 数据表映射关系的显示方法及装置
CN110990584A (zh) * 2019-11-26 2020-04-10 口口相传(北京)网络技术有限公司 知识图谱的生成方法及装置
CN110990584B (zh) * 2019-11-26 2021-02-09 口口相传(北京)网络技术有限公司 知识图谱的生成方法及装置
CN111126073A (zh) * 2019-12-23 2020-05-08 中国建设银行股份有限公司 语义检索方法和装置
CN111126073B (zh) * 2019-12-23 2023-07-04 中国建设银行股份有限公司 语义检索方法和装置
CN111159429A (zh) * 2019-12-30 2020-05-15 中信百信银行股份有限公司 基于知识图谱的数据分析方法及装置、设备、存储介质
CN111159429B (zh) * 2019-12-30 2023-05-05 中信百信银行股份有限公司 基于知识图谱的数据分析方法及装置、设备、存储介质
CN111897836A (zh) * 2020-07-03 2020-11-06 中国建设银行股份有限公司 一种搜索***、方法及存储介质
CN111831911A (zh) * 2020-07-16 2020-10-27 北京奇艺世纪科技有限公司 查询信息的处理方法、装置、存储介质和电子装置
CN111831911B (zh) * 2020-07-16 2023-07-07 北京奇艺世纪科技有限公司 查询信息的处理方法、装置、存储介质和电子装置
CN112259102A (zh) * 2020-10-29 2021-01-22 适享智能科技(苏州)有限公司 基于知识图谱的零售场景语音交互优化方法
CN112347121A (zh) * 2020-11-02 2021-02-09 中科曙光南京研究院有限公司 一种可配置的自然语言转sql的方法及***
CN112347121B (zh) * 2020-11-02 2024-05-28 中科曙光南京研究院有限公司 一种可配置的自然语言转sql的方法及***
CN112507076A (zh) * 2020-12-14 2021-03-16 英大传媒投资集团有限公司 一种语义分析搜索方法、装置及存储介质
CN112487154A (zh) * 2020-12-24 2021-03-12 武汉烽火众智数字技术有限责任公司 一种基于自然语言的智能搜索方法
CN113204696A (zh) * 2021-01-05 2021-08-03 北京欧拉认知智能科技有限公司 一种基于文本图谱的智能搜索引擎的检索方法

Similar Documents

Publication Publication Date Title
CN109002516A (zh) 一种搜索方法及装置
US9208223B1 (en) Method and apparatus for indexing and querying knowledge models
CN101223525B (zh) 关系网络
CN110147437A (zh) 一种基于知识图谱的搜索方法及装置
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及***
CN103425714A (zh) 一种搜索方法和***
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN109710935B (zh) 一种基于文物知识图谱的博物馆导览与知识推荐方法
CN104794242B (zh) 一种搜索方法
NO325354B1 (no) Fremgangsmåte til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter i et søkeresultat
CN102866990A (zh) 一种主题对话方法和装置
CN101286151A (zh) 建立多维模型和数据仓库模式的映射的方法及相关***
CN102597991A (zh) 文档分析与关联***及方法
CN105787134B (zh) 智能问答方法、装置及***
CN101697109A (zh) 一种获取输入法候选项的方法及***
KR100980579B1 (ko) 온톨로지에 대한 자연어 질의 검색 방법 및 시스템
CN105808590A (zh) 搜索引擎实现方法、搜索方法以及装置
CN105069077A (zh) 搜索方法及装置
EP2634705A1 (en) Method for discovering relevant concepts in a semantic graph of concepts
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN110008306A (zh) 一种数据关系分析方法、装置及数据服务***
CN112948547A (zh) 测井知识图谱构建查询方法、装置、设备及存储介质
KR20000023961A (ko) 정보 모델링방법 및 데이터베이스 검색시스템
CN111428007A (zh) 基于跨平台的同步推送反馈方法
Jannach et al. Automated ontology instantiation from tabular web sources—the AllRight system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181214