CN112269816B - 一种政务预约事项相关性检索方法 - Google Patents
一种政务预约事项相关性检索方法 Download PDFInfo
- Publication number
- CN112269816B CN112269816B CN202011244701.1A CN202011244701A CN112269816B CN 112269816 B CN112269816 B CN 112269816B CN 202011244701 A CN202011244701 A CN 202011244701A CN 112269816 B CN112269816 B CN 112269816B
- Authority
- CN
- China
- Prior art keywords
- index
- search
- appointment
- log
- relevance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012423 maintenance Methods 0.000 claims abstract description 6
- 230000006698 induction Effects 0.000 claims abstract description 5
- 238000013179 statistical model Methods 0.000 claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 230000006399 behavior Effects 0.000 claims description 4
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims description 3
- 229920001971 elastomer Polymers 0.000 claims description 2
- 239000000806 elastomer Substances 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000007619 statistical method Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 11
- 238000009826 distribution Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Automation & Control Theory (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种政务预约事项相关性检索方法,属于政务预约技术领域,基于用户操作记录,使用定时任务归纳产生相关性类型索引,基本信息维护产生普通类型索引;所述相关性类型索引的产生使用计分形式的统计模型,对预约业务事项检索生成关键词检索、关联词检索、关键词和预约业务的相关度排名的组合式检索方式。本发明可以在办事群众网上预约办理业务时,准确定位办事者需求并对其展示相关业务,提高预约办事效率,同时基于数据的统计分析方法可以不断地优化查询准确度来提高性能改善体验。
Description
技术领域
本发明涉及政务预约技术领域,具体地说是一种政务预约事项相关性检索方法。
背景技术
随着政务服务领域不断发展提高和移动互联网发展到新阶段,基于网页端、App和小程序的多种渠道的在线预约办理给办事群众提供了简洁、便利、高效的政务办事体验,但是对智能办事的需求也越来越迫切,越来越多的群众办事更加需要智能化、个性化、准确化的办事过程,同时为了实现政务服务能力“可办”、“快办”到“智办”的转换,更加需要转变服务方式,将基于用户数据的统计分析能力运用网上服务,提高关键词命中率,改善政务服务治理能力。
发明内容
本发明的技术任务是针对以上不足之处,提供一种政务预约事项相关性检索方法,可以在办事群众网上预约办理业务时,准确定位办事者需求并对其展示相关业务,提高预约办事效率,同时基于数据的统计分析方法可以不断地优化查询准确度来提高性能改善体验。
本发明解决其技术问题所采用的技术方案是:
一种政务预约事项相关性检索方法,基于用户操作记录,使用定时任务归纳产生相关性类型索引,基本信息维护产生普通类型索引;
所述相关性类型索引的产生使用计分形式的统计模型,对预约业务事项检索生成关键词检索、关联词检索、关键词和预约业务的相关度排名的组合式检索方式。实现多渠道在线预约场景下,预约业务事项快速搜索事项和相关性业务分析推荐,实现对消费者预约事项的需求的准确预测和智能分析推荐,从而达到个性化、智能化、准确度高的要求,减少数据库搜索压力,提高群众办事效率。
该方法能够在办事群众网上预约办理业务时,准确定位办事者需求并对其展示相关业务,提高预约办事效率,同时基于数据的统计分析方法可以不断的优化查询准确度来提高性能改善体验。
优选的,选用Elasticsearch搜索引擎和中文IK分词器进行检索。Elaticsearch是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据,而本身扩展性很好,在开源搜索领域份额占据第一位,中文IK分词器提取关键词准确,所以基于Elaticsearch可以提出一种业务分析检索方法。
使用搜索引擎代替简单的数据库检索,Elasticsearch是一个很好的选择,它是一个开源的分布式、RESTful风格的搜索和数据分析引擎,底层是开源库Apache Lucene,作为一个分布式的全文检索引擎,具有很好的拓展性,支持PB级别的结构化或者非结构化数据,完全可以适应大规模集中部署情况下的数据量庞大的预约事项业务的快速定位。
Elasticsearch有众多的优质分词器,这里选择基于中文IK分词器,她提供了ik_smart和ik_max_word两种分词算法,为了最大可能的定位用户的目标数据使用ik_max_word最细粒度划分方式,可以将一段文本以语义化多层次划分,创建的索引更多,定位精度更高。
优选的,选用RocketMq作为消息队列实现正常业务和记录结果的解耦。
实现更高的搜索精度,需要对用户目标搜索词和检索结果进行收集归纳,等待后续定时任务拉取数据到分析模型服务,在不影响正常业务流程的条件下,选择使用消息队列来做异步解耦,Rokectmq是很好的选择,具有事务性消息解决方案,保证每条结果集的正确消费和存储。
优选的,所述相关性类型索引包括三种索引类型,即检索结果集由三种索引和数据库SQL查询组成,三种索引类型分别是:
基于预约事项业务本身名称分词处理后产生的关键词与当前预约事项业务关联生成的索引,记为N型(Normal),
基于用户反馈和触发行为日志定时归纳分析出的相关度模式的索引,记为C型(Correlation),
和基于关键词的关联词所携带的预约业务事项业务索引,记为R型(Related)。
三种索引类型的重要性不同,检索结果的排序依次按照C型索引结果相关度大小排序、N型索引结果和R型索引结果进行排序,结果去重,可以保证预约事项按照相关性排序展示,增加检索可靠性。
进一步的,检索结果集中每条信息的字段含有业务事项名称、业务事项ID、业务事项部门、关键词、索引类型和索引ID,总结果集中还含有本次检索的UUID,为后续用户日志收集和召回记录提供数据。
优选的,所述基本信息维护产生普通类型索引,管理服务在维护预约业务事项时,增加修改和删除都会对基础索引(即N型索引)产生影响,
新增预约事项后,将业务名称分词处理,每个关键词和当前预约业务事项ID形成一条索引数据存储到ES服务中;
修改预约事项后,根据事项ID删除原有基础类型索引、重新生成新的基础类型索引;
删除预约事项后,根据事项ID删除掉原有的基础类型索引,同时根据事项ID删除掉其余两种类型的索引,保证数据的准确性。
优选的,对用户的操作记录进行日志收集,包括
客户端搜索请求处理过程完毕后,将本次检索结果集的每条数据组装放入消息队列中,日志服务作为消息的消费端记录日志信息,放入消息队列;组装的日志信息字段包括搜索词、关键词、Es索引ID、事项ID、索引类型和本次检索UUID;
客户端用户在获取到检索结果后,点击浏览某一条检索信息,形成一条点击定位召回日志,数据通过客户端送往日志服务中保存,重复点击只记录一次,防止分析数据失真;日志信息包括本次检索UUID、索引ID、事项ID、关键词、索引类型和搜索词;
客户端用户在获取到检索结果后,点击浏览某一条检索信息并且成功办理业务,形成一条成功办理召回日志,数据通过客户端送往日志服务中保存;日志信息包括本次检索UUID、索引ID、索引类型、事项ID、关键词和搜索词;
以上三种日志收集,具有相同的检索UUID,则视为一组检索流程日志,在分别进入到日志服务中后,等待定时任务扫描将一组检索流程日志放入分析模型服务中进行分析处理。
优选的,生成相关度索引:
日志服务定时任务扫描收集的日志,按照检索UUID将所述三种日志打包发送至分析模型服务中处理,生成相关度索引,相关度索引的相关度计算采用数值统计规则,根据新生成的相关度索引自身属性中含有相关度字段,默认100,区间0至1000。
相关度索引包含关键信息有关键词、对应基础索引ID和相关度数值,将关键词和基础索引多对多关联映射并挂载相关度数值,检索该类型索引将使用索引中关联的基础索引ID最终指向基础索引;同时,根据日志类型不同设定不同的step值:浏览召回(+1)、办理召回(+2)以及未命中召回(-1),相关度数值依次设定变化,定时扫描删除掉相关度数值为0的索引,目的是通过分析服务模块不断纠正每条相关度索引的相关度数值,提高命中率;
日志中携带索引类型虽然不同,但因为日志默认会携带关键词、基础索引ID两个信息,所以处理过程大致相同;检查是否存在相关度索引,若存在则根据上述setp规则修改数值,若不存在则根据上述生成规则生成新的索引;
通过该模型基于大量数据的不断校准,一条预约业务事项的所有关键词分别的相关度数值分布大致符合正态分布,相关度数值用来决定展示排序优先度。
生成关联词索引:
关联词汇索引包含的字段是关键词和其关联词数组,数据来源是预约服务搜索接口在处理完成检索结果后,将本次IK分词结果放入消息队列中,分析模型服务作为消费端处理生成关联索引,消息队列实现异步解耦。
仅使用关键词和相关度进行检索,但是仍可能查询结果不准确,所以需要使用关联词索引达到推论推荐的功能,提高检索准确度。
该检索方法实现了搜索词汇模糊查询时关键词和关联词汇结果匹配,提高群众需求的命中率;
可以根据展示搜索结果后用户浏览和成功办理的日志记录,通过召回率提供相关度检索方式,按照相关度权重展示,提高准确率;
还能够基于召回率的相关性分析模型,提高关键词和事项信息的相关性准确度;
实现关键词和关联词汇的相关性索引,增强个性化推荐功能。
本发明还要求保护一种政务预约事项相关性检索装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述的方法。
本发明还要求保护一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的方法。
本发明的一种政务预约事项相关性检索方法与现有技术相比,具有以下有益效果:
该方法可以在***在业务检索和关键词模糊搜索时,不完全依赖于数据库检索,减少并发环境下对数据库的压力,提高并发能力;
数据检索接口数据来自于Elasticsearch的索引和部分数据库查询,可以提供毫米级的响应速度,减少办事群众的等待,优化使用体验。
基于用户操作日志记录的统计分析和定时任务的归纳总结,使查询结果更加智能、准确、个性化、取代原有的基于数据库的模糊搜索,优化办事群众的定位准确度。
附图说明
图1是本发明一个实施例提供的政务预约事项相关性检索方法流程图;
图2是本发明一个实施例提供的客户端与预约服务端检索示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
目前的政务服务场景中,办事群众根据自己的需求准确寻找到对应的标准事项业务时,在不熟悉的情况下往往定位效率比较低下,准确度比较低,这种基于数据库检索的方式越来越不能满足生产环境的需要。业务查询和检索过程基于数据库搜索时,需要的关键字往往只能使用数据库LIKE函数进行模糊查询,当全省统一预约办事的场景下,在业务办理事项的数据量十分庞大的情况下,办事群众输入的关键词稍微有所出入时查询结果就千差万别,很难准确定位到需求对应的办事业务办理事项,所以要改善这种情况,需要业务查询和检索过程具备分词功能、模糊化查询、完全不对应查询和毫秒级查询特点。
本发明实施例提供一种政务预约事项相关性检索方法,基于Elasticsearch搜索引擎和中文IK分词器索引检索基础功能,基于用户操作记录,使用定时任务归纳产生相关性类型索引,基本信息维护产生普通类型索引;
所述相关性类型索引的产生使用计分形式的统计模型,从而对预约业务事项检索生成关键词检索、关联词检索、关键词和预约业务的相关度排名的组合式检索方式。实现多渠道在线预约场景下,预约业务事项快速搜索事项和相关性业务分析推荐,实现对消费者预约事项的需求的准确预测和智能分析推荐,从而达到个性化、智能化、准确度高的要求,减少数据库搜索压力,提高群众办事效率。
该方法能够在办事群众网上预约办理业务时,准确定位办事者需求并对其展示相关业务,提高预约办事效率,同时基于数据的统计分析方法可以不断的优化查询准确度来提高性能改善体验。
Elaticsearch是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据,而本身扩展性很好,在开源搜索领域份额占据第一位,中文IK分词器提取关键词准确,所以基于Elaticsearch可以提出一种业务分析检索方法。
使用搜索引擎代替简单的数据库检索,Elasticsearch是一个很好的选择,它是一个开源的分布式、RESTful风格的搜索和数据分析引擎,底层是开源库Apache Lucene,作为一个分布式的全文检索引擎,具有很好的拓展性,支持PB级别的结构化或者非结构化数据,完全可以适应大规模集中部署情况下的数据量庞大的预约事项业务的快速定位。
Elasticsearch有众多的优质分词器,这里选择基于中文IK分词器,她提供了ik_smart和ik_max_word两种分词算法,为了最大可能的定位用户的目标数据使用ik_max_word最细粒度划分方式,可以将一段文本以语义化多层次划分,创建的索引更多,定位精度更高。
选用RocketMq作为消息队列实现正常业务和记录结果的解耦。实现更高的搜索精度,需要对用户目标搜索词和检索结果进行收集归纳,等待后续定时任务拉取数据到分析模型服务,在不影响正常业务流程的条件下,选择使用消息队列来做异步解耦,Rokectmq是很好的选择,具有事务性消息解决方案,保证每条结果集的正确消费和存储。
本文中出现的:
搜索词:即用户客户端输入的搜索语句或词汇;
关键词:即使用IK分词器ik_max_word模式处理后的每一个分词结果;
关联词:即和关键词具有相同或相近搜索结果的关键词称为该关键词的关联词。
检索结果集由三种索引和数据库SQL查询组成,三种索引类型分别是:
N型:“Normal”基于预约事项业务本身名称分词处理后产生的关键词与当前预约事项业务关联生成的索引;
C型:“Correlation”基于用户反馈和触发行为日志定时归纳分析出的相关度模式的索引;
R型:“Related”基于关键词的关联词所携带的预约业务事项业务索引。
客户端和预约服务端的检索流程简述为,预约服务端接收用户输入的搜索词,使用中文IK分词器ik_max_word模式处理成多个关键词,将每个关键词调用ES容器服务获取三种类型的索引结果,获取索引中的业务事项主键ID,检索数据库获取业务的基础信息,形成结果集返回客户端。参考图2所示。
三种索引类型的重要性不同,检索结果的排序依次按照C型索引结果相关度大小排序、N型索引结果和R型索引结果进行排序,结果去重,可以保证预约事项按照相关性排序展示,增加检索可靠性。
检索结果集中每条信息的字段含有业务事项名称、业务事项ID、业务事项部门、关键词、索引类型和索引ID,总结果集中还含有本次检索的UUID,为后续用户日志收集和召回记录提供数据。
分析模型服务需要庞大的用户行为日志支撑,所以搜索分析的全流程日志链路中关于搜索的有三部分日志记录,以下分别是产生过程、含有信息和存储流程:
客户端搜索请求处理过程完毕后,将本次检索结果集的每条数据组装放入消息队列中,日志服务作为消息的消费端记录日志信息。组装的日志信息字段包括搜索词、关键词、Es索引ID、事项ID、索引类型和本次检索UUID,放入消息队列。
客户端用户在获取到检索结果后,点击浏览某一条检索信息,形成一条点击定位召回日志,数据通过客户端送往日志服务中保存。日志信息包括本次检索UUID、索引ID、事项ID、关键词、索引类型和搜索词;重复点击只记录一次,防止分析数据失真。
客户端用户在获取到检索结果后,点击浏览某一条检索信息并且成功办理业务,形成一条成功办理召回日志,数据通过客户端送往日志服务中保存;日志信息包括本次检索UUID、索引ID、索引类型、事项ID、关键词和搜索词。
以上三种日志收集,具有相同的检索UUID,则视为一组检索流程日志,在分别进入到日志服务中后,等待定时任务扫描将一组检索流程日志放入分析模型服务中进行分析处理。
管理服务维护基础索引:
管理服务在维护预约业务事项时,增加修改和删除都会对基础索引(即N型索引)产生影响,
新增预约事项后,将业务名称分词处理,每个关键词和当前预约业务事项ID形成一条索引数据存储到ES服务中;
修改预约事项后,根据事项ID删除原有基础类型索引、重新生成新的基础类型索引;
删除预约事项后,根据事项ID删除掉原有的基础类型索引,同时根据事项ID删除掉其余两种类型的索引,保证数据的准确性。
分析模型服务生成相关度索引:
日志服务定时任务扫描收集的日志,按照检索UUID将所述三种日志打包发送至分析模型服务中处理,生成相关度索引,相关度索引的相关度计算采用数值统计规则,根据新生成的相关度索引自身属性中含有相关度字段,默认100,区间0至1000。
相关度索引包含关键信息有关键词、对应基础索引ID和相关度数值,其本质是将关键词和基础索引多对多关联映射并挂载相关度数值,检索该类型索引将使用索引中关联的基础索引ID最终指向基础索引。同时,根据日志类型不同设定不同的step值:浏览召回(+1)、办理召回(+2)以及未命中召回(-1),相关度数值依次设定变化,定时扫描删除掉相关度数值为0的索引,目的是通过分析服务模块不断纠正每条相关度索引的相关度数值,提高命中率;
日志中携带索引类型虽然不同,但因为日志默认会携带关键词、基础索引ID两个信息,所以处理过程大致相同。检查是否存在相关度索引,若存在则根据上述setp规则修改数值,若不存在则根据上述生成规则生成新的索引。
通过该模型基于大量数据的不断校准,一条预约业务事项的所有关键词分别的相关度数值分布大致符合正态分布,相关度数值用来决定展示排序优先度。
分析模型生成关联词索引:
关联词汇索引包含的字段是关键词和其关联词数组,数据来源是预约服务搜索接口在处理完成检索结果后,将本次IK分词结果放入消息队列中,分析模型服务作为消费端处理生成关联索引,消息队列实现异步解耦。
IK分词结果包含一次检索分词结果,例如搜索词为“车辆年检”时,关键词分词为“车辆”、“年检”、“车检”,“车辆年检”、“车”,它们互为关联词,将上述五个关键词依次建关联索引,每个索引包含本身关键词和其关联词汇数组,后续触发检索时会根据关键词找到其关联词,再去根据关联词检索基础索引。特殊的关联类型索引的关联词汇数组是会根据IK分词结果不断补充的,最多20个词汇防止检索基础索引时效率变慢。
仅使用关键词和相关度进行检索,但是仍可能查询结果不准确,所以需要使用关联词索引达到推论推荐的功能,提高检索准确度。
该检索方法实现了搜索词汇模糊查询时关键词和关联词汇结果匹配,提高群众需求的命中率;
可以根据展示搜索结果后用户浏览和成功办理的日志记录,通过召回率提供相关度检索方式,按照相关度权重展示,提高准确率;
还能够基于召回率的相关性分析模型,提高关键词和事项信息的相关性准确度;
实现关键词和关联词汇的相关性索引,增强个性化推荐功能。
本发明还要求保护一种政务预约事项相关性检索装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述的政务预约事项相关性检索方法。
本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行本发明上述实施例中所述的政务预约事项相关性检索方法。具体地,可以提供配有存储介质的***或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (9)
1.一种政务预约事项相关性检索方法,其特征在于,基于用户操作记录,使用定时任务归纳产生相关性类型索引,基本信息维护产生普通类型索引;
所述相关性类型索引的产生使用计分形式的统计模型,对预约业务事项检索生成关键词检索、关联词检索、关键词和预约业务的相关度排名的组合式检索方式;
对用户的操作记录进行日志收集,并生成相关度索引:
日志服务定时任务扫描收集的日志,按照检索UUID将所述日志打包发送至分析模型服务中处理,生成相关度索引:
相关度索引包含关键词、对应基础索引ID和相关度数值,将关键词和基础索引多对多关联映射并挂载相关度数值,检索该类型索引将使用索引中关联的基础索引ID最终指向基础索引;同时,根据日志类型不同设定不同的step值:浏览召回+1、办理召回+2以及未命中召回-1,相关度数值依次设定变化,定时扫描删除掉相关度数值为0的索引;
检查是否存在相关度索引,若存在则根据上述step 规则修改数值,若不存在则根据上述生成规则生成新的索引;
生成关联词索引:
关联词汇索引包含的字段是关键词和其关联词数组,预约服务搜索接口在处理完成检索结果后,将本次IK分词结果放入消息队列中,分析模型服务作为消费端处理生成关联索引,消息队列实现异步解耦。
2.根据权利要求1所述的一种政务预约事项相关性检索方法,其特征在于,选用Elasticsearch搜索引擎和中文IK分词器进行检索。
3.根据权利要求1或2所述的一种政务预约事项相关性检索方法,其特征在于,选用RocketMq作为消息队列实现正常业务和记录结果的解耦。
4.根据权利要求1所述的一种政务预约事项相关性检索方法,其特征在于,所述相关性类型索引包括三种索引类型,分别是:
基于预约事项业务本身名称分词处理后产生的关键词与当前预约事项业务关联生成的索引,记为N型,
基于用户反馈和触发行为日志定时归纳分析出的相关度模式的索引,记为C型,
和基于关键词的关联词所携带的预约业务事项业务索引,记为R型,
检索结果的排序依次按照C型索引结果相关度、N型索引结果和R型索引结果进行排序,结果去重。
5.根据权利要求4所述的一种政务预约事项相关性检索方法,其特征在于,检索结果集中每条信息的字段含有业务事项名称、业务事项ID、业务事项部门、关键词、索引类型和索引ID,总结果集中还含有本次检索的UUID,为后续用户日志收集和召回记录提供数据。
6.根据权利要求2所述的一种政务预约事项相关性检索方法,其特征在于,所述基本信息维护产生普通类型索引,
新增预约事项后,将业务名称分词处理,每个关键词和当前预约业务事项ID形成一条索引数据存储到ES服务中;
修改预约事项后,根据事项ID删除原有基础类型索引、重新生成新的基础类型索引;
删除预约事项后,根据事项ID删除掉原有的基础类型索引,同时根据事项ID删除掉其余两种类型的索引,保证数据的准确性。
7.根据权利要求1或2或4或5或6所述的一种政务预约事项相关性检索方法,其特征在于,对用户的操作记录进行日志收集,包括
客户端搜索请求处理过程完毕后,将本次检索结果集的每条数据组装放入消息队列中,日志服务作为消息的消费端记录日志信息,放入消息队列;组装的日志信息字段包括搜索词、关键词、Es索引ID、事项ID、索引类型和本次检索UUID;
客户端用户在获取到检索结果后,点击浏览某一条检索信息,形成一条点击定位召回日志,数据通过客户端送往日志服务中保存,重复点击只记录一次;日志信息包括本次检索UUID、索引ID、事项ID、关键词、索引类型和搜索词;
客户端用户在获取到检索结果后,点击浏览某一条检索信息并且成功办理业务,形成一条成功办理召回日志,数据通过客户端送往日志服务中保存;日志信息包括本次检索UUID、索引ID、索引类型、事项ID、关键词和搜索词;
以上三种日志收集,具有相同的检索UUID,则视为一组检索流程日志,在分别进入到日志服务中后,等待定时任务扫描将一组检索流程日志放入分析模型服务中进行分析处理。
8.一种政务预约事项相关性检索装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7任一所述的方法。
9.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244701.1A CN112269816B (zh) | 2020-11-10 | 2020-11-10 | 一种政务预约事项相关性检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244701.1A CN112269816B (zh) | 2020-11-10 | 2020-11-10 | 一种政务预约事项相关性检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112269816A CN112269816A (zh) | 2021-01-26 |
CN112269816B true CN112269816B (zh) | 2023-04-21 |
Family
ID=74339950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011244701.1A Active CN112269816B (zh) | 2020-11-10 | 2020-11-10 | 一种政务预约事项相关性检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112269816B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883246A (zh) * | 2021-03-09 | 2021-06-01 | 数字广东网络建设有限公司 | 一种业务事项的展示方法、装置、设备及存储介质 |
CN113377896A (zh) * | 2021-05-19 | 2021-09-10 | 朗新科技集团股份有限公司 | 全文快速检索方法、装置、电子设备及存储介质 |
CN113569132A (zh) * | 2021-05-31 | 2021-10-29 | 《人民论坛》杂志社 | 一种信息检索展示方法及*** |
CN116243833B (zh) * | 2023-05-08 | 2023-07-14 | 北京国信新网通讯技术有限公司 | 一种基于云数据的电子政务平台沟通管理方法及*** |
CN116975697B (zh) * | 2023-09-25 | 2023-12-15 | 广东赛博威信息科技有限公司 | 一种主数据管理方法、***、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562726A (zh) * | 2017-09-06 | 2018-01-09 | 国家电网公司 | 一种基于热词的供电服务搜索引擎 |
CN110569273A (zh) * | 2019-07-26 | 2019-12-13 | 南京邮电大学 | 一种基于相关性排序的专利检索***及方法 |
CN110807138B (zh) * | 2019-09-10 | 2022-07-05 | 国网电子商务有限公司 | 一种搜索对象类别的确定方法及装置 |
CN111611268A (zh) * | 2020-05-21 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 政务服务的搜索处理方法及装置 |
CN111859042A (zh) * | 2020-07-30 | 2020-10-30 | 上海妙一生物科技有限公司 | 一种检索方法、装置及电子设备 |
-
2020
- 2020-11-10 CN CN202011244701.1A patent/CN112269816B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112269816A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112269816B (zh) | 一种政务预约事项相关性检索方法 | |
US11789952B2 (en) | Ranking enterprise search results based on relationships between users | |
US9569506B2 (en) | Uniform search, navigation and combination of heterogeneous data | |
AU2022201654A1 (en) | System and engine for seeded clustering of news events | |
US8706748B2 (en) | Methods for enhancing digital search query techniques based on task-oriented user activity | |
US8126888B2 (en) | Methods for enhancing digital search results based on task-oriented user activity | |
JP5721818B2 (ja) | 検索におけるモデル情報群の使用 | |
CN108304444B (zh) | 信息查询方法及装置 | |
US11126630B2 (en) | Ranking partial search query results based on implicit user interactions | |
US8990241B2 (en) | System and method for recommending queries related to trending topics based on a received query | |
US8117198B2 (en) | Methods for generating search engine index enhanced with task-related metadata | |
US9262767B2 (en) | Systems and methods for generating statistics from search engine query logs | |
WO2012129149A2 (en) | Aggregating search results based on associating data instances with knowledge base entities | |
JP2013054755A (ja) | 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム | |
KR101679050B1 (ko) | 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법 | |
CN110188291B (zh) | 基于代理日志的文档处理 | |
US11308177B2 (en) | System and method for accessing and managing cognitive knowledge | |
US11481454B2 (en) | Search engine results for low-frequency queries | |
CN116348868A (zh) | 信息管理的元数据索引 | |
CN117033744A (zh) | 数据查询方法、装置、存储介质以及电子设备 | |
US9659059B2 (en) | Matching large sets of words | |
CN114417179A (zh) | 一种面向大规模知识库群的元搜索引擎处理方法和装置 | |
CN113342844A (zh) | 工业智能搜索*** | |
WO2019218151A1 (zh) | 一种资料搜寻方法 | |
JP2002312389A (ja) | 情報検索装置および情報検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |