CN114969310A - 一种面向多维数据的分段式检索排序***设计方法 - Google Patents
一种面向多维数据的分段式检索排序***设计方法 Download PDFInfo
- Publication number
- CN114969310A CN114969310A CN202210632927.1A CN202210632927A CN114969310A CN 114969310 A CN114969310 A CN 114969310A CN 202210632927 A CN202210632927 A CN 202210632927A CN 114969310 A CN114969310 A CN 114969310A
- Authority
- CN
- China
- Prior art keywords
- data
- retrieval
- score
- search
- amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013461 design Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 14
- 238000002360 preparation method Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000005538 encapsulation Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 230000008707 rearrangement Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向多维数据的分段式检索排序***设计方法,借助搜索设计的ES检索引擎、Colbert‑search能力模型内容相关度排序、个性化重排、定制层排序四段分层架构,运用ES检索引擎进行打分逻辑的改造,结合Colbert‑search的重排序以及用户数据、查询信息数据的处理,最后所有的定制规则统一包裹在最后一层的逻辑设计里,将不同维度的逻辑和信息分段处理;搜索效果好,提高了数据质量和用户体验,用户数据和被检索的数据信息库都落到了场景化的结果排序中,符合真实用户的期望序列。
Description
技术领域
本发明属于数据检索技术领域,具体涉及一种面向多维数据的分段式检索排序***设计方法。
背景技术
查询信息的场景在日常***使用中尤为普遍,对于检索的准确率有着十分强烈的诉求。将搜索结果按照最符合用户期望的序列展示,符合搜索引擎和***的核心价值。同样在各式各样的行业信息检索中,场景化的结果序列准确对于搜索引擎有着极高的要求,丰富化的个性搜索需要搜索***和生态设计有相当高的完整度。优质的搜索效果不仅仅会从结果序列的准确性体现,也会在用户的体验感知上得到***的评价。搜索***作为最基础的实用功能,但也是最难达到最理想效果的功能,最理想的搜索设计需要做到最理解用户的真实想法。
当前市场上的搜索引擎和搜索设计,均为普适性的搜索,而且和数据自身的关联性不高。这类搜索最明显的特点就是只能应对标题和正文的日常化搜索,一旦面临高强业务,复杂的场景数据就显得非常不准确了。在实际应用和接入的时候,这部分往往达不到使用人群的要求,只能做和底层搜索逻辑一起的定制开发,不仅会影响原有的搜索逻辑,新加入的搜索逻辑效果也无法得到保证。
发明内容
本发明的目的在于提供一种面向多维数据的分段式检索排序***设计方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种面向多维数据的分段式检索排序***设计方法,包括如下步骤:
步骤101)数据准备,将检索用到的数据提前加载到内存中;
步骤102)数据改写,使用数据准备拓展模块改写内存中数据;
步骤103)数据预处理,处理用户检索内容;
步骤104)数据预处理改写,改写数据预处理后的对象;
步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;
步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用云搜索工具封装好的ES接口,召回query;
步骤107)query召回处理,将ES返回的结果进行高亮和基础字段封装处理;
步骤108)引入了语义匹配模型,colbert-search能力模型,将ES返回结果的得分与语义匹配模型得分按比例融合,得到综合得分,再根据综合得分排序;
步骤109)个性化重排序,根据数据的用户行为属性,以及ES检索引擎和colbert-search能力模型融合后的综合得分,判断两篇文档的差异,若差异小于设定值,则判断为相近文档,通过比对数据的用户行为属性给文档加上业务相关比重后再次排序,得到最终检索排序;
步骤110)个性化重排序改写,对所述步骤109)个性化重排序进行改写。
优选的,所述步骤103)中处理用户检索内容包括使用自然语言中的分词能力进行分词、通过同义词对检索内容进行泛化处理。
优选的,所述数据预处理拓展模块用于定制化处理,改写步骤103)数据预处理结果。
优选的,所述步骤109)中数据的用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量。
优选的,对所述数据的用户行为属性进行比重划分,即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分,根据比重计算文档得分再次进行排序。
优选的,所述根据比重计算文档得分的公式如下:
其中Score(d)表示文档得分,Score(ES,BS)表示ES检索引擎和colbert-search能力模型融合后的综合得分,k是各文档的数据的用户行为属性占的比重。
优选的,通过配置SEO策略对最终检索排序进行调整,更改最终检索排序。
优选的,所述步骤步骤106)中ES检索使用bm25算法,在bm25的基础上加入sentence-bert模型,将不同的句子输入到sentence-bert模型中,获取到句子的语义表征向量,为了提高检索速度,把这些向量进行保存,每次检索query计算与这些向量的相似度,算法公式如下:
其中,b表示bm25的算法得分,s表示sentence-bert模型算法得分,表示词
权重,控制非线性词频率归一化,b控制文档长度对于分数的惩罚力度,dl代表文档长度,
avgdl代表平均字段长度;是词项在文档中的频率;表示bm25算法得分与sentence-
bert模型算法得分的融合比例;表示sentence-bert模型算法得分。
本发明的技术效果和优点:1、搜索效果好:借助检索分层设计,提高了数据质量和用户体验;
2、可拓展性:在用户和场景数据运用到检索逻辑中时,都开放了端口,进行拓展设计,而且不会影响已有的检索设计,做到可延展的效果提升设计;
3、场景化:用户数据和被检索的数据信息库都落到了场景化的结果排序中,符合真实用户的期望序列;
4、重排设计:基础打分模式下,所有的额外规则,都是对得分序列的结果进行重排,基于这层规则,重排设计不会对不同段的规则进行互相干扰,可通过控制变量方法可进行深度调优。
附图说明
图1为本发明的流程图;
图2为本发明的能力模型排序的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了如图1所示的一种面向多维数据的分段式检索排序***设计方法,包括如下步骤:
步骤101)数据准备,将检索用到的数据提前加载到内存中;
步骤102)数据改写,使用数据准备拓展模块改写内存中数据;数据准备拓展模块用于定制化改写步骤101)中内存中的值,以提供数据准备改写服务;
步骤103)数据预处理,处理用户检索内容,包括使用自然语言中的分词能力进行分词以及通过同义词对检索内容进行泛化处理;
步骤104)数据预处理改写,通过数据预处理改写模块改写数据预处理后的对象;所述数据预处理改写模块用于定制化处理,改写步骤103)数据预处理结果;以提供数据预处理改写服务;
步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;
步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用cloud-search云搜索工具封装好的ES接口,召回query;ES检索融合了bm25算法与sentence-search模型算法,算法公式如下:
其中b表示bm25的算法得分,s表示sentence-bert模型算法得分,表示词权
重,控制非线性词频率归一化,b控制文档长度对于分数的惩罚力度,dl代表文档长度,
avgdl代表平均字段长度;是词项在文档中的频率;表示bm25算法得分与sentence-
bert模型算法得分的融合比例;表示sentence-bert模型算法得分。
步骤107)query召回处理,将ES返回的结果进行高亮和基础字段封装处理;
步骤108)引入了语义匹配模型,colbert-search能力模型,将ES返回结果的得分与语义匹配模型得分按比例融合,得到综合得分,再根据综合得分排序;能力模型的输入包括三个部分:1)查询问题;2)ES检索到的前30篇文档;3)每篇文档的关键词(文档的关键词通过关键词算法抽取得到);它的输出为:1)30篇文档按得分从大到小的重新排序;2)文档对应的得分;能力模型排序的流程,其中传统检索***表示ES检索结果,即能力模型的输入,文档排序分为标题排序和段落排序,标题排序指用户检索query与ES检索结果的前30篇文档的标题匹配排序得到的结果,段落排序指用户检索query与ES检索结果的前30篇文档的段落匹配排序得到的结果,标题排序打分结果和段落排序打分结果融合得分排序即为能力模型的输出,最后的综合排序时将ES检索得分与能力模型的输出再综合得分后的排序结果,流程图如图2所示:
步骤109)个性化重排序,根据数据的用户行为属性,用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量,以及ES检索引擎和colbert-search能力模型融合后的综合得分,判断两篇文档的差异,若差异小于设定值,则判断为相近文档,通过比对数据的用户行为属性给文档加上业务相关比重,即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分;如A、B两篇文档得分非常相近,可根据业务重新评分,A的浏览量比B浏览量多,那A加上浏览量对应的业务比重,以此类推去比较两个文档的点赞点踩量、评论量、分享量、打分量等属性,得到AB两篇文档各自的业务比重,根据比重代入公式计算文档得分,根据文档得分再次排序,得到最终检索排序;
公式如下:
其中Score(d)表示文档得分,Score(ES,BS)表示ES检索引擎和colbert-search能力模型融合后的综合得分,k是各文档的数据的用户行为属性占的比重。
步骤110)个性化重排序改写,对步骤109)个性化重排序进行算法改写,以提供个性化重排序改写服务。
步骤111)SEO策略,通过配置SEO策略对最终检索排序进行调整,更改最终检索排序。
该方法借助搜索设计的ES检索引擎、colbert-search能力模型内容相关度排序、个性化重排、定制层排序四段分层架构,运用ES检索引擎进行打分逻辑的改造,结合colbert-search的重排序以及用户数据、查询信息数据的处理,最后所有的定制规则统一包裹在最后一层的逻辑设计里,将不同维度的逻辑和信息分段处理;
面向用户和信息数据的分段式搜索可以深入到具体的业务场景里,而且不影响基本的打分排序,同时还可借助策略工具,在不影响检索逻辑的情况下,进行人为的结果排序干预,最终达到用户期望的结果展示序列。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种面向多维数据的分段式检索排序***设计方法,其特征在于,包括如下步骤:
步骤101)数据准备,将检索用到的数据提前加载到内存中;
步骤102)数据改写,使用数据准备拓展模块改写内存中数据;
步骤103)数据预处理,处理用户检索内容;
步骤104)数据预处理改写,改写数据预处理后的对象;
步骤105)构建query,根据数据预处理结果及页面选择的筛选条件,构建query;
步骤106)ES检索,将ES检索引擎传入已构建完成的query,调用云搜索工具封装好的ES接口,召回query;
步骤107)query召回处理,将ES返回的结果进行高亮和基础字段封装处理;
步骤108)引入了语义匹配模型,Colbert-search能力模型将ES返回结果的得分与语义匹配模型得分按比例融合,得到综合得分,再根据综合得分排序;
步骤109)个性化重排序,根据用户的行为属性数据,以及ES检索引擎和Colbert-search能力模型融合后的综合得分,判断两篇文档的差异,若差异小于设定值,则判断为相近文档,通过比对数据的用户行为属性给文档加上业务相关比重后再次排序,得到最终检索排序;
步骤110)个性化重排序改写,对所述步骤109)个性化重排序进行改写。
2.根据权利要求1所述的一种面向多维数据的分段式检索排序***设计方法,其特征在于:所述步骤103)中处理用户检索内容包括使用自然语言中的分词能力进行分词、通过同义词对检索内容进行泛化处理。
3.根据权利要求1所述的一种面向多维数据的分段式检索排序***设计方法,其特征在于:所述数据预处理拓展模块用于定制化处理,改写步骤103)数据预处理结果。
4.根据权利要求1所述的一种面向多维数据的分段式检索排序***设计方法,其特征在于:所述步骤109)中数据的用户行为属性包括文档浏览量、点赞点踩量、评论量、分享量、打分量。
5.根据权利要求4所述的一种面向多维数据的分段式检索排序***设计方法,其特征在于:对所述数据的用户行为属性进行比重划分,即对文档浏览量、点赞点踩量、评论量、分享量、打分量进行业务比重的划分,根据比重计算文档得分再次进行排序。
7.根据权利要求1所述的一种面向多维数据的分段式检索排序***设计方法,其特征在于:通过配置SEO策略对最终检索排序进行调整,更改最终检索排序。
8.根据权利要求1所述的一种面向多维数据的分段式检索排序***设计方法,其特征在于:所述步骤步骤106)中ES检索使用bm25算法,在bm25的基础上加入sentence-bert模型,将不同的句子输入到sentence-bert模型中,获取到句子的语义表征向量,为了提高检索速度,把这些向量进行保存,每次检索query计算与这些向量的相似度,算法公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210632927.1A CN114969310B (zh) | 2022-06-07 | 2022-06-07 | 一种面向多维数据的分段式检索排序***设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210632927.1A CN114969310B (zh) | 2022-06-07 | 2022-06-07 | 一种面向多维数据的分段式检索排序***设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114969310A true CN114969310A (zh) | 2022-08-30 |
CN114969310B CN114969310B (zh) | 2024-04-05 |
Family
ID=82959362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210632927.1A Active CN114969310B (zh) | 2022-06-07 | 2022-06-07 | 一种面向多维数据的分段式检索排序***设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969310B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
CN103838735A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种提高检索效率和质量的数据检索方法 |
WO2017063538A1 (zh) * | 2015-10-12 | 2017-04-20 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索*** |
US20180300415A1 (en) * | 2017-04-16 | 2018-10-18 | Radim Rehurek | Search engine system communicating with a full text search engine to retrieve most similar documents |
WO2019174132A1 (zh) * | 2018-03-12 | 2019-09-19 | 平安科技(深圳)有限公司 | 数据处理方法、服务器及计算机存储介质 |
CN111061836A (zh) * | 2019-12-18 | 2020-04-24 | 焦点科技股份有限公司 | 一种适用于Lucene全文检索引擎的自定义打分方法 |
CN111625624A (zh) * | 2020-05-27 | 2020-09-04 | 湖北师范大学 | 基于bm25+albert模型的伪相关反馈信息检索方法、***及存储介质 |
CN114036929A (zh) * | 2021-11-22 | 2022-02-11 | 江苏科技大学 | 一种基于多模型特征融合的全简称匹配的方法 |
-
2022
- 2022-06-07 CN CN202210632927.1A patent/CN114969310B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
CN103838735A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种提高检索效率和质量的数据检索方法 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
WO2017063538A1 (zh) * | 2015-10-12 | 2017-04-20 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索*** |
US20180300415A1 (en) * | 2017-04-16 | 2018-10-18 | Radim Rehurek | Search engine system communicating with a full text search engine to retrieve most similar documents |
WO2019174132A1 (zh) * | 2018-03-12 | 2019-09-19 | 平安科技(深圳)有限公司 | 数据处理方法、服务器及计算机存储介质 |
CN111061836A (zh) * | 2019-12-18 | 2020-04-24 | 焦点科技股份有限公司 | 一种适用于Lucene全文检索引擎的自定义打分方法 |
CN111625624A (zh) * | 2020-05-27 | 2020-09-04 | 湖北师范大学 | 基于bm25+albert模型的伪相关反馈信息检索方法、***及存储介质 |
CN114036929A (zh) * | 2021-11-22 | 2022-02-11 | 江苏科技大学 | 一种基于多模型特征融合的全简称匹配的方法 |
Non-Patent Citations (1)
Title |
---|
李臣龙;陶皖;窦易文;: "基于AHP的全文搜索算法优化", 赤峰学院学报(自然科学版), no. 04, 25 April 2018 (2018-04-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN114969310B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7562076B2 (en) | Systems and methods for search query processing using trend analysis | |
CN104537116B (zh) | 一种基于标签的图书搜索方法 | |
US6792414B2 (en) | Generalized keyword matching for keyword based searching over relational databases | |
CA3078585A1 (en) | Methods and system for semantic search in large databases | |
US20110295612A1 (en) | Method and apparatus for user modelization | |
US20070043761A1 (en) | Semantic discovery engine | |
US20090228482A1 (en) | Network search method, system and device | |
JPH09101990A (ja) | 情報フィルタリング装置 | |
CN105117487A (zh) | 一种基于内容结构的图书语义检索方法 | |
JP2000132566A (ja) | 所望情報加工装置、所望情報加工方法および記録媒体 | |
CN103064844A (zh) | 索引装置、索引方法、检索装置、检索方法和检索*** | |
CN102214227A (zh) | 基于互联网层次结构存储的自动舆情监控方法 | |
CN114969310A (zh) | 一种面向多维数据的分段式检索排序***设计方法 | |
Billsus et al. | Revising user profiles: The search for interesting web sites | |
CN107886132A (zh) | 一种求解音乐流量预测的时间序列分解方法及*** | |
Gruhl et al. | The web beyond popularity: a really simple system for web scale rss | |
CN113987133A (zh) | 一种融合tfidf和lda实现抽取式文本摘要方法 | |
CN110955827B (zh) | 采用AI3解决SKQwhy-not问题的方法及*** | |
Zhao et al. | An improved TextRank multi-feature fusion algorithm for keyword extraction of educational resources | |
Plasmeijer et al. | Language Report Concurrent Clean | |
CN117708308B (zh) | 一种基于rag自然语言智能知识库管理的方法和*** | |
Nasraoui et al. | Web recommender system implementations in multiple flavors: Fast and (care) free for all | |
Davare et al. | Text Mining Scientific Data to Extract Relevant Documents and Auto-Summarization | |
CN118133946B (zh) | 一种多模态知识分层识别和受控对齐方法 | |
Chau et al. | Personalized multilingual web content mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |