CN114417179A - 一种面向大规模知识库群的元搜索引擎处理方法和装置 - Google Patents

一种面向大规模知识库群的元搜索引擎处理方法和装置 Download PDF

Info

Publication number
CN114417179A
CN114417179A CN202111644242.0A CN202111644242A CN114417179A CN 114417179 A CN114417179 A CN 114417179A CN 202111644242 A CN202111644242 A CN 202111644242A CN 114417179 A CN114417179 A CN 114417179A
Authority
CN
China
Prior art keywords
user
query
search
knowledge base
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111644242.0A
Other languages
English (en)
Inventor
孙雷
牛中盈
林华
董庆利
孙龙
李雪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Second Research Institute Of Casic
Aerospace Science And Technology Network Information Development Co ltd
Original Assignee
Second Research Institute Of Casic
Aerospace Science And Technology Network Information Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Second Research Institute Of Casic, Aerospace Science And Technology Network Information Development Co ltd filed Critical Second Research Institute Of Casic
Priority to CN202111644242.0A priority Critical patent/CN114417179A/zh
Publication of CN114417179A publication Critical patent/CN114417179A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种面向大规模知识库群的元搜索引擎处理方法和装置,该方法包括:接收用户的查询请求;对查询语句进行分析得到用户的查询意图,并根据查询意图得到用户查询的主题类别,其中,根据历史上的日志记录中保存的内容获取用户查询意图以及用户查询的主题类别,在日志记录中保存了所用户历史上使用的查询语句以及用户对历史上的查询语句得到的检索结果的评价;根据主题类别进行搜索得到搜索结果;将搜索结果返回给用户。通过本申请解决了现有技术中在大规模知识库群中使用特征进行搜索所导致的搜索的结果数量庞大,很难通过检索到准确的信息的问题,从而提高了搜索结果的准确度,进而在一定程度上提升了用户的搜索体验。

Description

一种面向大规模知识库群的元搜索引擎处理方法和装置
技术领域
本申请涉及到数据搜索领域,具体而言,涉及一种面向大规模知识库群的元搜索引擎处理方法和装置。
背景技术
随着互联网的不断发展,为了能够快速的获得信息,最好的方法是使用搜索引擎搜索,在使用普通搜索引擎搜索信息时,总是存在这样的问题:搜索出来的结果数量庞大,并且很多结果与想要查询的信息并不相关,还需要花费大量时间去重新寻找有用的信息。
信息检索算法是通过程序对***信息库中所有文章信息进行检索,对文章出现的所有词进行扫描,以词为单位创建一个排序文件,在检索时统计某个检索词,它在文章中以及所有文章中出现的次数,将涉及到文章的内容和URL地址合理排序输出给用户。
这就导致了无法有效识别用户的意图,推荐给用户的信息包括大量的无用信息。
发明内容
本申请实施例提供了一种面向大规模知识库群的元搜索引擎处理方法和装置,以至少解决现有技术中在大规模知识库群中使用特征进行搜索所导致的搜索的结果数量庞大,很难通过检索到准确的信息的问题。
根据本申请的一个方面,提供了一种面向大规模知识库群的元搜索引擎处理方法,包括:接收用户的查询请求,其中,所述查询请求对应查询语句;对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别,其中,根据历史上的日志记录中保存的内容获取所述用户查询意图以及所述用户查询的主题类别,在所述日志记录中保存了所用户历史上使用的查询语句以及用户对历史上的查询语句得到的检索结果的评价;根据所述主题类别进行搜索得到搜索结果;将所述搜索结果返回给所述用户。
进一步地,根据所述主题类别进行搜索得到搜索结果包括:根据所述主题类别在预先配置的字典中查找所述主题类别对应的知识库群;在所述知识库群进行搜索得到搜索结果。
进一步地,将所述搜索结果返回给所述用户包括:获取所述搜索结果中的无效链接以及重复结果;将所述无效链接对应的搜索结果和重复结果删除;将删除后的搜索结果返回给所述用户。
进一步地,将删除后的搜索结果返回给所述用户包括:将删除后的搜索结果按照预定顺序进行排序后返回给所述用户。
进一步地,接收到所述用户的查询请求之后,将所述查询请求分发给对应的元搜索引擎中的代理,由所述代理对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别。
根据本申请的另一个方面,还提供了一种面向大规模知识库群的元搜索引擎处理装置,包括:接收模块,用于接收用户的查询请求,其中,所述查询请求对应查询语句;分析模块,用于对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别,其中,根据历史上的日志记录中保存的内容获取所述用户查询意图以及所述用户查询的主题类别,在所述日志记录中保存了所用户历史上使用的查询语句以及用户对历史上的查询语句得到的检索结果的评价;搜索模块,用于根据所述主题类别进行搜索得到搜索结果;返回模块,用于将所述搜索结果返回给所述用户。
进一步地,所述搜索模块用于:根据所述主题类别在预先配置的字典中查找所述主题类别对应的知识库群;在所述知识库群进行搜索得到搜索结果。
进一步地,所述返回模块用于:获取所述搜索结果中的无效链接以及重复结果;将所述无效链接对应的搜索结果和重复结果删除;将删除后的搜索结果返回给所述用户。
进一步地,所述返回模块用于:将删除后的搜索结果按照预定顺序进行排序后返回给所述用户。
进一步地,所述接收模块还用于在接收到所述用户的查询请求之后,将所述查询请求分发给对应的元搜索引擎中的代理,所述分析模块位于元搜索引擎的代理中,由所述代理对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别。
在本申请实施例中,采用了接收用户的查询请求,其中,所述查询请求对应查询语句;对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别,其中,根据历史上的日志记录中保存的内容获取所述用户查询意图以及所述用户查询的主题类别,在所述日志记录中保存了所用户历史上使用的查询语句以及用户对历史上的查询语句得到的检索结果的评价;根据所述主题类别进行搜索得到搜索结果;将所述搜索结果返回给所述用户。通过本申请解决了现有技术中在大规模知识库群中使用特征进行搜索所导致的搜索的结果数量庞大,很难通过检索到准确的信息的问题,从而提高了搜索结果的准确度,进而在一定程度上提升了用户的搜索体验。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是根据本申请实施例的的整体结构架构图。
图2是根据本申请实施例的查准率比较图。
图3是根据本申请实施例的整体功能架构图。
图4是根据本申请实施例的面向大规模知识库群的元搜索引擎处理方的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中涉及到元搜索引擎。元搜索引擎的工作原理是集成多个代理(Agent)模块,通过一定的调度策略和结果集成算法来得到搜索结果集合。这种方法既可以多维度多范围,又能通过用户的兴趣喜好来选择符合用户需求的结果集合。元搜索引擎技术关联到信息检索、人工智能、数据库、数据挖掘、自然语言处理等诸多领域。从深入分析用户查询意图入手,结合成员搜索引擎数据库与主题类别的相似度及用户对成员搜索引擎的关注度,提出一种基于Agent搜索引擎调度策略。基于标题、摘要、地址URL的综合分析方式对搜索结果进行聚合去重,并按照用户对搜索引擎的关注度、位置得分、主题关联度进行排序算法。
基于元搜索引擎,在本实施例中提供了一种面向大规模知识库群的元搜索引擎处理方法,图4是根据本申请实施例的面向大规模知识库群的元搜索引擎处理方的流程图,如图4所示,下面结合图4对该方法的流程进行说明。
步骤S402,接收用户的查询请求,其中,所述查询请求对应查询语句;
步骤S404,对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别,其中,根据历史上的日志记录中保存的内容获取所述用户查询意图以及所述用户查询的主题类别,在所述日志记录中保存了所用户历史上使用的查询语句以及用户对历史上的查询语句得到的检索结果的评价;
在上述步骤中,可选地,接收到所述用户的查询请求之后,将所述查询请求分发给对应的元搜索引擎中的代理,由所述代理对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别。
步骤S406,根据所述主题类别进行搜索得到搜索结果;
在该步骤中,在搜索的时候可以根据所述主题类别在预先配置的字典中查找所述主题类别对应的知识库群;在所述知识库群进行搜索得到搜索结果。
步骤S408,将所述搜索结果返回给所述用户。
在本步骤中,可以获取所述搜索结果中的无效链接以及重复结果;将所述无效链接对应的搜索结果和重复结果删除;将删除后的搜索结果返回给所述用户。更优地,还可以将删除后的搜索结果按照预定顺序进行排序后返回给所述用户。
通过上述步骤解决了现有技术中在大规模知识库群中使用特征进行搜索所导致的搜索的结果数量庞大,很难通过检索到准确的信息的问题,从而提高了搜索结果的准确度,进而在一定程度上提升了用户的搜索体验。
下面结合可选的实施例进行说明。在本实施例中,提供了基于智能检索面向大规模知识库群的元搜索引擎关键技术。该技术首先引入了各类型的知识库群,通过将非结构化数据转换为结构化数据后,根据用户的搜索意图利用多纬度标签构建数据搜索字典,***对字典进行编码,通过对字典的关联关系完成对大规模的知识库进行搜索,将搜索的结果动态融合和排序,来满足用户个性化的搜索。
本实施例中采用分布式Agent技术与元搜索技术相结合,进行并行的查询和检索,并从用户角度出发,基于用户访问日志和按照关键词搜索行为建立个性化模式,对检索信息进行智能过滤,同时根据用户兴趣智能推荐相关内容,采用个性化检索和聚类浏览相结合的检索方式,既能满足用户需求又能适应用户需求的变化。
图1是根据本申请实施例的的整体结构架构图,下面结合图1进行说明。
(1)智能元搜索引擎***
智能元搜索引擎***主要包含三个层次:数据接入层、信息检索管理层和信息检索层。
数据接入层:主要是对大规模知识库群进行统一管理,按照统一的数据格式(非结构化数据转为结构化数据),并按照不同类型的主题库和专题库,保存到数据仓库中。在图1中使用了如下表1示出的知识库群。
原始数据关于知识库群的原始数据的内容如表一所示:
表一:原始数据内容
知识库类型 总数据量 抽取有效字典项
人员信息知识库 5340 30
政策文件知识库 1627 10
新闻知识库 2525 10
天气知识库 -- 5
流程知识库 7824 50
项目知识库 638 30
由于原始知识库群的数据量较多,针对每一个,数据维护人员都会统计上述特征对应的不同字典项,通常为数据本字段,过滤重复字段作为有效字典项。每一个字典项可以看成一个键值对(key,value)。例如:(人员姓名:张三),(岗位:项目经理),(司龄:5年),(出生日期:1978年7月12日),等等。
信息检索管理层:主要负责检索与知识库之间协同任务,具体各个Agent功能如下:
a.调度管理:根据数据仓库的性能评价信息以及个性化模式信息,通过调度算法产生一个搜索引擎数据列表。
b.查询分发:将用户的查询请求转换成对应目标搜索引擎的参数格式,发送到查询分发器中进行信息检索,来满足各个用户的需求。
依据用户搜索引擎列表创建一个或者多个Agent将查询请求提交到调度管理中心,Agent根据网络实际状态进行调整。查询完成检索任务,将结果统一的格式提交信息检索管理层。为了避免产生瓶颈而降低元搜索的效率,将搜索节点的搜索结果并行合并后再提交到Agent跨库检索的动态融合。
c.用户行为日志:负责对用户的搜索信息进行分析和挖掘,产生个性化模式的日志记录,用户搜索关键词与查询请求返回结果之间的相关度的正面评价,对用户的每次点击检索行为进行分析,将用户检索的词库存入到数据仓库中,并对搜索引擎的性能评价进行适当的调整。
d.前向索引/后向索引:根据用户检索的结果,向前或向后延伸的知识图谱。向前索引面向是数据仓库中的主题库,匹配的是数据字典;向后索引面向的是客户搜索行为。这层目的是对用户检索出来的结果的关联性进行分析。
信息检索层:采用移动Agent和静态Agent协同工作来完成完成用户搜索引擎的信息检索任务,查询Agent依据用户输入的关键词,一方面可以通过搜索引擎将特征信息在内部或外部的知识库群中所有的检索结果进行筛选、去重、聚合、排序,之后将信息进行分类Agent汇总并存储到数据仓库。另一方面当用户输入信息的关键词已经存在数据仓库中,将数据仓库中相应的知识和查询Agent搜索到的信息进行组合并更新到数据仓库,并将最终的结果智能检索、问答助手、智能硬件等途径返回给用户。
(2)Agent调度策略
基于Agent的调度策略是为了研究元搜索引擎能够更好的贴切用户查询需求的引擎。调度策略根据算法计算用户查询与搜索引擎之间的相关度,并根此计算性能评价得分,综合考虑响应时间、用户喜好等因素而产生的搜索引擎结果列表。
(3)聚合算法
每个知识库群采用不同的搜索相似度计算方法,会导致搜索引擎的性能不均衡,从而使得不同知识库返回的结果不具备可比性,需要合理方式调整相似度。各个知识库包含的每个文档的标题、片段、描述等,可以充分将这些数据按照用户的意图进行配置规则,将各个知识库的文章按照统一的字典标签分配,以不同的权重进行排序。并且对检索结果中重叠信息进行去重、清洗等处理,将元搜索引擎的检索结果合并在一起,相关分值合并。
标题分值规范化:查询query有N个词库字典项,那么文档的标题包含这N个词库字典项中的M个(M≤N),则标题查询query的查询相关度为M/N。公式如下:
Figure BDA0003444606430000071
其中,Ptitle:标题的查询的匹配度,Mtitle:标题中出现字典项数,Mquery:查询的字典项总数。
片段分值规范化:查询文档片段中出现的频率和出现的位置其相似度公式如下:
Figure BDA0003444606430000072
其中,Psnip:文档片段的查询的匹配度,Msnip:片段中出现字典项数,Mquery:查询的字典项总数。
Figure BDA0003444606430000073
其中,loc(j,snip):查询文档片段中第j次出现的位置,len(snip):文档片段的snip长度,ndf:查询在文档片段中snip中出现的频率。
将相关信息和位置信息得分分别进行标准化处理,再乘以各自的权重,进行相加聚合,将最终得到的排序评价得分,得分高的引擎做出评价,根据检索结果应对搜索引擎的性能评价做出用户兴趣查询标准进行排序,文档聚合D的最终评价得分通过以下公式计算:
Figure BDA0003444606430000074
其中C1,C2为常数,k为结果集中结果的个数。最后根据评价得分降序对输出文档进行排序。
搜索结果排序的算法采用摘要/位置排序法思想并加以改进。结合摘要信息与用户查询的相似度及位置信息得分进行排序。当用户作为查询意图的字典项匹配,加入用户关注度的搜索引擎权值分配方法,将计算得到的分值由大到小排列,即得到搜索结果的列表排序。在元搜索引擎设置知识库摘要机制,同样预先存储了各个知识库群类别下的文档标题和文档摘要,这样免去用户下载文档的时间,又不会造成网络负担,提高了排序算法的效率。
在本实施例中,基于对大规模知识库群的元搜索引擎关键技术的研究,并通过实验比较分析结果,证明了基于Agent技术的元搜索引擎的效率。将大规模的知识库群按照不同类型的主题库和专题库进行归集,根据用户兴趣对检索的结果进行动态融合与排序。本实施例中基于大规模知识库群的元搜索引擎关键技术创建出一套基于用户兴趣检索的检索平台。以搜索引擎、推荐算法和知识图谱为底层支撑技术,对各类数据源和外部应用进行知识库接入和管理,实现实用性和可配置的用户搜索终端。下面结合附图进行说明。
为了验证算法的有效性,在本实施例中选取“大数据”、“互联网”、“体育新闻”、“NBA”、“政策文件”、“新闻”、“请假”、“天气”、“疫情”、“南京”十个关键词进行搜索,并将返回的结果进行处理。如图2所示,为了证明效率,使用百度和360搜索引擎做为对比,通过百度和360查询这十个关键词,并将搜索结果计算查准率。
在本实施例中还提供了一种方法,该方法以表1中的数据为基础,该方法涉及到的***模块如图3所示,下面结合图3对该方法进行说明。
构建以元搜索算法的***平台
以搜索引擎、搜索算法、知识图谱为底层的支撑技术;针对搜索信息管理作为搜索配置平台,配置包含搜索设置、页面设置、热点设置等;统一门户和小鲜助手作为用户搜索信息终端。***也将第三方应用接口作为外部知识库使用,便于用户搜索。***根据用户的兴趣爱好,为用户提供智能推荐功能,满足用户个性化需求。
构建以用户兴趣特征的主题库和专题库
针对源数据中非结构化的数据我们统一转化为结构化数据,并将源数据的文档标题和摘要按照不同的主题保存在ES数据仓库中。
配置用户搜索意图
搜索意图管理主要用于配置任务型对话。在一个任务型对话中,机器人可以准确理解终端用户的需求(“意图”),并通过主动询问终端用户以收集实现该需求所需要的关键信息(以下称为“词槽”),最终满足终端用户的需求。
设置意图,首先先设置字典。字典是用户搜索关键词所配置的字典项,如果字典项和关键词匹配,那么将结果呈现给用户。配置完字典后,意图配置词槽、主题库、字典,这里设置了机器人从对话中获取到的词槽值和该意图调用微服务时和微服务字段之间的映射关系。
配置用户说法
此功能主要配置终端用户发送哪些消息时,机器人应该理解为该意图。如出差申请意图下配置了“帮我提个出差申请”这个用户说法,经过对话训练以后并部署后,如果终端用户发消息说“帮我提个出差申请”,机器人一般都能理解终端用户想要提交出差申请。
配置关联资源
此功能主要配置源数据的主题库或者外部知识库,用户搜索调用该主题库的数据。
基于大规模知识库群建立模型的工作流程可以如下:首先用户通过注册建立个人用户关注的模型或者知识库,然后由用户输入输出接口接受用户的查询请求,通过用户输入分析模块对用户输入的查询语句进行分析,了解用户的查询意图,得到用户查询的主题类别,这是通过用户关注模型数据库中的数据字典来实现的;接着通过主题类别中具有较高权重的主题进行搜索,收集得到的搜索结果,通过搜索结果集成模块去除搜索集合中的无效连接、重复结果,在将结果进行排序后以一定的形式返回给用户。
为了提高元搜索引擎的搜索效率,将常用的主题类型设计成树状的分类结构,通过用户选择,细化分类,最终了解用户关注的主题分类,通过主题分类中搜索的主题关键词与文档摘要进行比对,其中文档摘要DBi(Cj)(1≤i≤m,1≤j≤n)中文档p与主题关键词gi(1≤i≤m)在词频上的相关度权值公式如下:
w(gi,p)=Tf×log{N|nf}
其中Tf为关键词gi在文档p中出现的次数;N为文档描述中文档的个数,nf为文档摘要出现主题关键词gi的文档数。
将用户主题关键词相关度的结果也要保存在用户关注模型中,这些信息包含用户查看搜索引擎返回结果的比例,评价结果是否与查询语句相关,以及是否收藏或是保存了搜索结果。
在上述实施例中,提出了智能化元搜索引擎框架模型和过程模型,以及构建元搜索***多Agent组织结构及功能Agent模型。在这些模型中,设计了用户个性化、搜索引擎动态调度等元搜索***智能化关键机制,此外还制定了符合元搜索应用场景的多Agent协作策略。
本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
该本实施例中就提供了这样的一种装置或***。该***被称为面向大规模知识库群的元搜索引擎处理装置,包括:接收模块,用于接收用户的查询请求,其中,所述查询请求对应查询语句;分析模块,用于对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别,其中,根据历史上的日志记录中保存的内容获取所述用户查询意图以及所述用户查询的主题类别,在所述日志记录中保存了所用户历史上使用的查询语句以及用户对历史上的查询语句得到的检索结果的评价;搜索模块,用于根据所述主题类别进行搜索得到搜索结果;返回模块,用于将所述搜索结果返回给所述用户。
该***或者装置用于实现上述的实施例中的方法的功能,该***或者装置中的每个模块与方法中的每个步骤相对应,已经在方法中进行过说明的,在此不再赘述。
例如,所述搜索模块用于:根据所述主题类别在预先配置的字典中查找所述主题类别对应的知识库群;在所述知识库群进行搜索得到搜索结果。可选地,所述接收模块还用于在接收到所述用户的查询请求之后,将所述查询请求分发给对应的元搜索引擎中的代理,所述分析模块位于元搜索引擎的代理中,由所述代理对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别。
又例如,所述返回模块用于:获取所述搜索结果中的无效链接以及重复结果;将所述无效链接对应的搜索结果和重复结果删除;将删除后的搜索结果返回给所述用户。可选地所述返回模块用于:将删除后的搜索结果按照预定顺序进行排序后返回给所述用户。
通过上述实施例解决了现有技术中在大规模知识库群中使用特征进行搜索所导致的搜索的结果数量庞大,很难通过检索到准确的信息的问题,从而提高了搜索结果的准确度,进而在一定程度上提升了用户的搜索体验。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种面向大规模知识库群的元搜索引擎处理方法,其特征在于,包括:
接收用户的查询请求,其中,所述查询请求对应查询语句;
对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别,其中,根据历史上的日志记录中保存的内容获取所述用户查询意图以及所述用户查询的主题类别,在所述日志记录中保存了所用户历史上使用的查询语句以及用户对历史上的查询语句得到的检索结果的评价;
根据所述主题类别进行搜索得到搜索结果;
将所述搜索结果返回给所述用户。
2.根据权利要求1所述的方法,其特征在于,根据所述主题类别进行搜索得到搜索结果包括:
根据所述主题类别在预先配置的字典中查找所述主题类别对应的知识库群;
在所述知识库群进行搜索得到搜索结果。
3.根据权利要求1所述的方法,其特征在于,将所述搜索结果返回给所述用户包括:
获取所述搜索结果中的无效链接以及重复结果;
将所述无效链接对应的搜索结果和重复结果删除;
将删除后的搜索结果返回给所述用户。
4.根据权利要求3所述的方法,其特征在于,将删除后的搜索结果返回给所述用户包括:
将删除后的搜索结果按照预定顺序进行排序后返回给所述用户。
5.根据权利要求1至4中任一项所述的方法,其特征在于,接收到所述用户的查询请求之后,将所述查询请求分发给对应的元搜索引擎中的代理,由所述代理对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别。
6.一种面向大规模知识库群的元搜索引擎处理装置,其特征在于,包括:
接收模块,用于接收用户的查询请求,其中,所述查询请求对应查询语句;
分析模块,用于对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别,其中,根据历史上的日志记录中保存的内容获取所述用户查询意图以及所述用户查询的主题类别,在所述日志记录中保存了所用户历史上使用的查询语句以及用户对历史上的查询语句得到的检索结果的评价;
搜索模块,用于根据所述主题类别进行搜索得到搜索结果;
返回模块,用于将所述搜索结果返回给所述用户。
7.根据权利要求6所述的装置,其特征在于,所述搜索模块用于:
根据所述主题类别在预先配置的字典中查找所述主题类别对应的知识库群;
在所述知识库群进行搜索得到搜索结果。
8.根据权利要求6所述的装置,其特征在于,所述返回模块用于:
获取所述搜索结果中的无效链接以及重复结果;
将所述无效链接对应的搜索结果和重复结果删除;
将删除后的搜索结果返回给所述用户。
9.根据权利要求8所述的装置,其特征在于,所述返回模块用于:
将删除后的搜索结果按照预定顺序进行排序后返回给所述用户。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述接收模块还用于在接收到所述用户的查询请求之后,将所述查询请求分发给对应的元搜索引擎中的代理,所述分析模块位于元搜索引擎的代理中,由所述代理对所述查询语句进行分析得到所述用户的查询意图,并根据所述查询意图得到所述用户查询的主题类别。
CN202111644242.0A 2021-12-29 2021-12-29 一种面向大规模知识库群的元搜索引擎处理方法和装置 Pending CN114417179A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111644242.0A CN114417179A (zh) 2021-12-29 2021-12-29 一种面向大规模知识库群的元搜索引擎处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111644242.0A CN114417179A (zh) 2021-12-29 2021-12-29 一种面向大规模知识库群的元搜索引擎处理方法和装置

Publications (1)

Publication Number Publication Date
CN114417179A true CN114417179A (zh) 2022-04-29

Family

ID=81270306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111644242.0A Pending CN114417179A (zh) 2021-12-29 2021-12-29 一种面向大规模知识库群的元搜索引擎处理方法和装置

Country Status (1)

Country Link
CN (1) CN114417179A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955577A (zh) * 2023-09-21 2023-10-27 四川中电启明星信息技术有限公司 一种基于内容检索的智能问答***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043834A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种客户端实现搜索的方法及搜索客户端
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎
CN110147437A (zh) * 2019-05-23 2019-08-20 北京金山数字娱乐科技有限公司 一种基于知识图谱的搜索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043834A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种客户端实现搜索的方法及搜索客户端
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎
CN110147437A (zh) * 2019-05-23 2019-08-20 北京金山数字娱乐科技有限公司 一种基于知识图谱的搜索方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955577A (zh) * 2023-09-21 2023-10-27 四川中电启明星信息技术有限公司 一种基于内容检索的智能问答***
CN116955577B (zh) * 2023-09-21 2023-12-15 四川中电启明星信息技术有限公司 一种基于内容检索的智能问答***

Similar Documents

Publication Publication Date Title
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
US7240049B2 (en) Systems and methods for search query processing using trend analysis
US10157233B2 (en) Search engine that applies feedback from users to improve search results
Skoutas et al. Ranking and clustering web services using multicriteria dominance relationships
US20170236073A1 (en) Machine learned candidate selection on inverted indices
US9495460B2 (en) Merging search results
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
US7340460B1 (en) Vector analysis of histograms for units of a concept network in search query processing
US20040249808A1 (en) Query expansion using query logs
US20020186240A1 (en) System and method for providing data for decision support
CN105701216A (zh) 一种信息推送方法及装置
US20140201203A1 (en) System, method and device for providing an automated electronic researcher
US20200265114A1 (en) Query-directed discovery and alignment of collections of document passages for improving named entity disambiguation precision
CN112269816A (zh) 一种政务预约事项相关性检索方法
Li [Retracted] Internet Tourism Resource Retrieval Using PageRank Search Ranking Algorithm
CN103226601A (zh) 一种图片搜索的方法和装置
CN116610853A (zh) 搜索推荐方法、搜索推荐***、计算机设备及存储介质
US20160246794A1 (en) Method for entity-driven alerts based on disambiguated features
CN114417179A (zh) 一种面向大规模知识库群的元搜索引擎处理方法和装置
CN101788981A (zh) 一种深层网移动搜索方法、服务器及***
CN112883143A (zh) 一种基于Elasticsearch的数字展会搜索方法与***
CN105159899A (zh) 一种搜索的方法和装置
US11726972B2 (en) Directed data indexing based on conceptual relevance
Zhao et al. Location-aware publish/subscribe index with complex boolean expressions
KR100594180B1 (ko) 온라인을 이용한 통합 검색 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination