CN117056477A - 一种案例数据的检索方法、装置、设备及可读存储介质 - Google Patents

一种案例数据的检索方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN117056477A
CN117056477A CN202310950185.1A CN202310950185A CN117056477A CN 117056477 A CN117056477 A CN 117056477A CN 202310950185 A CN202310950185 A CN 202310950185A CN 117056477 A CN117056477 A CN 117056477A
Authority
CN
China
Prior art keywords
case data
retrieval
semantic
search
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310950185.1A
Other languages
English (en)
Inventor
陈翠平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boc Financial Technology Co ltd
Original Assignee
Boc Financial Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Boc Financial Technology Co ltd filed Critical Boc Financial Technology Co ltd
Priority to CN202310950185.1A priority Critical patent/CN117056477A/zh
Publication of CN117056477A publication Critical patent/CN117056477A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种案例数据的检索方法、装置、设备及可读存储介质,可应用于大数据领域或金融领域。响应于案例检索指令,获取检索关键词,案例检索指令用于指示从源***中请求案例数据,在ES数据库中检索得到与检索关键词匹配的定位信息,作为目标定位信息。基于目标定位信息,从源***中检索得到目标案例数据。ES数据库预先存储索引信息和定位信息的对应关系,索引信息对应的定位信息用于指示与索引信息匹配的案例数据在源***中的定位,因此,从ES数据库检索得到与检索关键词匹配的目标定位信息,能够指示目标案例数据在源***中的位置,进一步基于该目标定位信息从源***中查找目标案例数据,可见本申请利用ES数据库提高了检索速度。

Description

一种案例数据的检索方法、装置、设备及可读存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种案例数据的检索方法、装置、设备及可读存储介质。
背景技术
目前银行***可以为业务使用人员提供案例数据的检索功能,也即将历史案例数据作为业务办理参考数据进行前端展示,例如,信贷***提供贷后锦囊管理功能,该功能可以检索并展示各类贷款业务的办理流程,可以帮助业务使用人员快速熟悉***和业务。
随着银行***的业务数量和种类日益增长,案例数据的数量也与日俱增,又由于用户的自主性,输入的检索条件存在随机性,因此,在业务***中检索相关案例数据的速度也越来越慢。
发明内容
本申请提供了一种案例数据的检索方法、装置、设备及可读存储介质,如下:
一种案例数据的检索方法,包括:
响应于案例检索指令,获取检索关键词,所述案例检索指令用于指示从源***中请求案例数据;
在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息;其中,所述ES数据库预先存储索引信息和定位信息的对应关系,所述索引信息对应的定位信息用于指示与所述索引信息匹配的案例数据在所述源***中的定位;
基于所述目标定位信息,从所述源***中检索得到目标案例数据。
可选地,索引信息包括语义特征词,所述ES数据库的构建方法,包括:
利用关键词提取模型提取所述源***中各个案例数据的语义特征词;
根据所述源***中各个案例数据在所述源***中的位置,生成定位信息;
生成接口数据,所述接口数据包括所述源***中各个案例数据的语义特征词和定位信息的对应关系;
基于预先定义的数据接口和接口规范,通过kafka异步采集机制将所述接口数据从所述源***中采集到所述ES数据库。
可选地,检索关键词包括语义检索词,所述在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:
将所述语义检索词分别与所述ES数据库中的各个索引信息进行语义相似度计算,得到所述语义检索词与各个索引信息的语义相似度;
获取满足第一预设条件的索引信息,作为目标索引信息,所述第一预设条件包括与所述语义检索词的语义相似度大于第一预设相似度阈值;
将所述目标索引信息对应的定位信息,作为与所述检索关键词匹配的定位信息。
可选地,索引信息还包括属性特征词;所述ES数据库的构建方法,还包括:
获取预设的属性提取规则,所述属性提取规则包括预设属性项以及所述预设属性项的提取方法,所述预设属性项包括所属地区、行业分类、客户属性、和授信总量区间中一项或多项;
基于所述预设属性项的提取方法,提取所述源***中各个案例数据的预设属性项,得到所述源***中各个案例数据的属性特征词;
所述接口数据还包括所述源***中各个案例数据的属性特征词、语义特征词、以及定位信息的对应关系。
可选地,检索关键词还包括属性检索词,所述在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:
将所述属性检索词与分别与所述ES数据库中的各个属性特征词进行匹配,得到与所述属性检索词完全一致的属性特征词,作为目标属性特征词;
将所述目标属性特征词对应的语义特征词作为候选语义特征词;
将所述语义检索词分别与所述ES数据库中的各个候选语义特征词进行语义相似度计算,得到所述语义检索词与各个候选语义特征词的语义相似度;
获取满足第二预设条件的候选语义特征词,作为目标语义特征词,所述第二预设条件包括与所述语义检索词的语义相似度大于第二预设相似度阈值;
将与所述目标语义特征词对应的定位信息,作为与所述检索关键词匹配的定位信息。
可选地,基于所述目标定位信息,从所述源***中检索得到目标案例数据之后,还包括:
将所述检索关键词作为所述目标案例数据的候选关键词;
按照预设的周期,统计所述源***中各个案例数据对应于各个候选关键词的检索统计数据;
基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息。
可选地,检索统计数据包括检索次数和浏览时长;所述基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息,包括:
基于所述案例数据的候选关键词的检索统计数据,获取所述案例数据的候选关键词的检索权重,其中,所述检索权重分别与检索次数和浏览时长成正相关;
若所述案例数据的候选关键词的检索权重大于第一预设权重阈值且不大于第二预设权重阈值,提高所述案例数据的候选关键词在所述关键词提取模型中的权值,并基于更新后的所述关键词提取模型更新所述索引信息;
若所述案例数据的候选关键词的检索权重大于所述第二预设权重阈值,将所述案例数据的候选关键词加入所述案例数据的索引信息中,更新所述索引信息。
一种案例数据的检索装置,包括:
检索条件获取单元,用于响应于案例检索指令,获取检索关键词,所述案例检索指令用于指示从源***中请求案例数据;
ES检索单元,用于在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息;其中,所述ES数据库预先存储索引信息和定位信息的对应关系,所述索引信息对应的定位信息用于指示与所述索引信息匹配的案例数据在所述源***中的定位;
源***检索单元,用于基于所述目标定位信息,从所述源***中检索得到目标案例数据。
一种案例数据的检索设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现案例数据的检索方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现案例数据的检索方法的各个步骤。
由上述技术方案可以看出,本申请实施例提供的一种案例数据的检索方法、装置、设备及可读存储介质,响应于案例检索指令,获取检索关键词,案例检索指令用于指示从源***中请求案例数据,在非关系型ES数据库中检索得到与检索关键词匹配的定位信息,作为目标定位信息。基于目标定位信息,从源***中检索得到目标案例数据。由于,ES数据库预先存储索引信息和定位信息的对应关系,索引信息对应的定位信息用于指示与索引信息匹配的案例数据在源***中的定位,因此,本申请从ES数据库检索得到与检索关键词匹配的目标定位信息,能够指示目标案例数据在源***中的位置,进一步基于该目标定位信息从源***中查找目标案例数据,可见本申请利用ES数据库提高了检索速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种案例数据的检索方法的流程示意图;
图2为本申请实施例提供的一种数据库构建方法的流程示意图;
图3为本申请实施例提供的一种案例数据的检索方法的具体实施方式的流程示意图;
图4为本申请实施例提供的一种案例数据的检索装置的结构示意图;
图5为本申请实施例提供的一种案例数据的检索设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种案例数据的检索方法的流程示意图,如图1所示,本方法包括:
S101、响应于案例检索指令,获取检索关键词,案例检索指令用于指示从源***中请求案例数据。
本实施例中,检索关键词包括语义检索词,检索关键词可以通过识别用户通过检索界面以文字或语音等形式输入的信息得到。
S102、在非关系型ES数据库中检索得到与检索关键词匹配的定位信息,作为目标定位信息。
本实施例中,ES数据库预先存储索引信息和定位信息的对应关系,索引信息对应的定位信息用于指示与索引信息匹配的案例数据在源***中的定位。其中,案例数据包括语义特征词,案例数据的语义特征词能够表征该案例数据的语义特征,例如,案例数据的语义特征词可以包括该案例数据的标题关键词、案例数据中出现频次最高的词、或者案例数据的主题词等。
本实施例中,ES数据库预先根据各个源***中的案例数据构建,源***指的是各个业务***,例如,贷款业务***和存款业务***等。案例数据可以为业务办理案例数据。具体的案例数据的内容、类型以及获取方法可以参见现有技术。
可选的一种ES数据库的构建方法包括:
A1、利用关键词提取模型提取源***中各个案例数据的语义特征词。
本实施例中,关键词提取模型包括预先构建的TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆向文档频率)关键词提取模型。
A2、根据源***中各个案例数据在源***中的位置,生成定位信息。
本实施例中,定位信息包括路径信息,用于指示案例数据在源***中的存储位置。
A3、生成接口数据。
本实施例中,接口数据包括源***中各个案例数据的语义特征词和定位信息的对应关系。可以理解的是,对应的语义特征词和定位信息唯一指示了一个案例数据。
A4、基于预先定义的数据接口和接口规范,通过kafka异步采集机制将接口数据从源***中采集到ES数据库。
本实施例中,可选的一种在ES数据库中检索得到与检索关键词匹配的定位信息,作为目标定位信息的方法包括:
首先,将语义检索词分别与ES数据库中的各个索引信息进行语义相似度计算,得到语义检索词与各个索引信息的语义相似度。进一步,获取满足第一预设条件的索引信息,作为目标索引信息,第一预设条件包括与语义检索词的语义相似度大于第一预设相似度阈值。最后,将目标索引信息对应的定位信息,作为与检索关键词匹配的定位信息。
需要说明的是,语义相似度的具体获取方法包括多种,例如,利用预先训练好的自然语言模型获取语义相似度或者利用欧式距离确定语义相似度,具体可以参见现有技术。
可见,本方法预先将语义特征词和定位信息对应存储至ES数据库,从而构建ES数据库中案例数据的索引。
S103、基于目标定位信息,从源***中检索得到目标案例数据。
由上述技术方案可以看出,本申请实施例提供的一种案例数据的检索方法中,ES数据库预先存储索引信息和定位信息的对应关系,索引信息对应的定位信息用于指示与索引信息匹配的案例数据在源***中的定位,因此,在非关系型ES数据库中检索得到与检索关键词匹配的目标定位信息,能够指示目标案例数据在源***中的位置,进一步基于该目标定位信息从源***中查找目标案例数据,可见本申请利用ES数据库提高了检索速度。
需要说明的是,上述实施例仅为本申请的一种可选的具体实现方法,本申请还可以通过其他的具体实施方式实现。
在一种可选的实施例中,索引信息还包括属性特征词,属性特征词为对应于各个预设属性项的预设标准字段,则图2示例了本申请实施例提供的一种可选的构建ES数据库的具体实现方法,如图2所示,ES数据库的构建方法具体包括:
S201、利用关键词提取模型提取源***中各个案例数据的语义特征词。
S202、根据源***中各个案例数据在源***中的位置,生成定位信息。
S203、获取预设的属性提取规则。
本实施例中,属性提取规则包括预设属性项以及预设属性项的提取方法,预设属性项包括所属地区、行业分类、客户属性、和授信总量区间中一项或多项。
S204、基于预设属性项的提取方法,提取源***中各个案例数据的预设属性项,得到源***中各个案例数据的属性特征词。
本实施例中,案例数据的属性特征词是从预设标准字段中确定的,例如,所属地区的预设标准字段包括n个地区的编码,那么,提取案例数据的所属地区属性项得到案例数据所属的地区的编码。也即属性特征词是案例数据的标准化的分类词。
S205、生成接口数据。
本实施例中,接口数据包括源***中各个案例数据的语义特征词和定位信息的对应关系,且接口数据还包括源***中各个案例数据的属性特征词、语义特征词、以及定位信息的对应关系。
S206、基于预先定义的数据接口和接口规范,通过kafka异步采集机制将接口数据从源***中采集到ES数据库。
本实施例中,接口以及接口规范的定义方法可以参见现有技术。
需要说明的是,各个对应关系的表达或存储方式可以参见现有技术,例如,使用表格存储各个对应关系或者使用无向图存储各个对应关系。
S207、按照预设的周期,统计源***中各个案例数据对应于各个候选关键词的检索统计数据。
本实施例中,案例数据对应的候选关键词的获取方法为:当通过检索关键词检索得到案例数据且响应用户对该案例数据点击浏览后,将检索关键词作为该案例数据的候选关键词记录下来。
本实施例中,周期可以预先被配置为一个月或者一周,检索统计数据包括检索次数和浏览时长,其中,检索次数指的通过候选关键词检索得到案例数据的次数,也即,用户将该候选关键词作为检索关键词检索案例数据的次数,浏览时长指的是案例数据被点击后的浏览时长。
S208、基于案例数据的候选关键词的检索统计数据,获取案例数据的候选关键词的检索权重。
本实施例中,候选关键词的检索权重表征候选关键词对于案例数据的代表性,检索权重分别与检索次数和浏览时长成正相关。可以理解的是,检索次数越多,说明用户通过该候选关键词检索得到案例数据的次数越多,浏览时长越长,说明用户通过该候选关键词检索得到案例数据的准确度越高,进一步可见该候选关键词对于该案例数据的代表性越强。
S209、若案例数据的候选关键词的检索权重大于第一预设权重阈值且不大于第二预设权重阈值,提高案例数据的候选关键词在关键词提取模型中的权值,并基于更新后的关键词提取模型更新索引信息。
本实施例中,当案例数据的候选关键词的检索权重在第一预设权重阈值和第二预设权重阈值之间时,说明该候选关键词对案例数据有较强的代表性,因此,提高该候选关键词在关键词提取模型中的权值,能够提高关键词提取模型的准确度。
S210、若案例数据的候选关键词的检索权重大于第二预设权重阈值,将案例数据的候选关键词加入案例数据的索引信息中,更新索引信息。
本实施例中,当案例数据的候选关键词的检索权重大于第二预设权重阈值时,说明该候选关键词对案例数据有强代表性,因此,直接将该候选关键词作为索引信息,提高索引信息的准确度。
由上述技术方案可以看出,通过预先将源***中各个案例数据的属性特征词、语义特征词、以及定位信息的对应关系存储在ES数据库中,从三个维度(属性分类、语义特征、以及位置)唯一定位一个案例数据。且,基于检索事件的检索结果动态调整ES数据库中各个案例数据的索引信息,提高索引信息的准确性,进一步提高检索的效率和准确度。
进一步,本申请预先建立一套具体采集数据的规则(包括索引信息中语义特征词以及属性特征词的提取规则),定义并将写好采集数据的AOP代码封装,在采集不同的源***的各种种类案例数据至ES数据库中时,只需要根据规则进行配置,无需重复开发。
在另一种可选的实施例中,检索关键词还包括属性检索词,属性检索词可以为用户从多个预设标准字段中选择的至少一个用于检索案例数据的词。对此,图3示出了一种可选的获取目标定位信息的具体方法,如图3所示,具体包括:
S301、将属性检索词与分别与ES数据库中的各个属性特征词进行匹配,得到与属性检索词完全一致的属性特征词,作为目标属性特征词。
本实施例中,属性特征词的匹配方法参见现有技术,由于,属性特征词为标准字段,因此,匹配词的一致性即可。需要说明的是,可以在检索界面设置各个属性特征项的候选标准字段,用户可以基于检索目标选择各个属性特征项的标准字段作为属性检索词。
S302、将目标属性特征词对应的语义特征词作为候选语义特征词。
S303、将语义检索词分别与ES数据库中的各个候选语义特征词进行语义相似度计算,得到语义检索词与各个候选语义特征词的语义相似度。
S304、获取满足第二预设条件的候选语义特征词,作为目标语义特征词,第二预设条件包括与语义检索词的语义相似度大于第二预设相似度阈值。
S305、将与目标语义特征词对应的定位信息,作为与检索关键词匹配的定位信息。
S306、将检索关键词作为目标案例数据的候选关键词对应存储。
由上述实施例可以看出,在ES数据库中检索时,可以快速识别得到案例数据的定位信息,并将识别到的定位信息返回源***,在源***中直接查找得到该定位信息处的案例数据,从而达到快速检索定位案例数据的效果,也即,达到通过ES传输最少量信息,并达到可配置化、简单化进行快速检索案例的效果。进一步,通过首先将属性检索词与分别与ES数据库中的各个属性特征词进行匹配,从属性分类的维度实现初步检索,进一步加快了检索速度。
需要说明的是,本申请提供的一种案例数据的检索方法可以应用于检索***,检索***包括:
数据录入模块:根据录入的规则化或非规则化的帮助文档等形式的内容,生成各类案例数据,例如,业务办理流程案例数据。
特征提取模块:针对每一个案例数据,将通过TF-IDF关键词提取模型提取到关键词作为语义特征词。将通过属性提取规则提取的属性分类词作为属性特征词。并将语义特征词、属性特征词、与案例数据关联。
数据采集同步模块:基于定义好预设规则和接口规范,通过kafka完成接口数据(也即案例数据关联的语义特征词、属性特征词、定位信息的对应关系数据)从业务***(也即源***)中采集到ES数据库中。
数据搜索模块:响应于案例检索指令,获取检索关键词,案例检索指令用于指示从源***中请求案例数据,在非关系型ES数据库中检索得到与检索关键词匹配的定位信息,作为目标定位信息,基于目标定位信息,从源***中检索得到目标案例数据。
也即,本模块支持用户在大数据量、各类规则化或非规则化帮助文档、案例数据中搜索内容,并将定位数据返回源***,在源***中进行定位并返回到前端。
特征反馈模块:将用户搜索使用的关键词(检索关键词)和点击的案例数据之间的关系、检索次数及停留在此案例数据的时间,作为定位关系记录存储下来。可在每隔一段固定的时间(也即周期,例如每半个月或每个月)来统计哪些定位关系的检索次数大于预设的区间上限,将大于区间上限的定位关系直接存储在ES数据库中。获取在预设的阈值区间内的定位关系,则将该定位关系反馈至源***中,将定位关系中的检索关键词作为案例数据的特征数据反馈到特征提取模块,使得特征提取模块在提取语义特征词的过程中,为该检索关键词的IDF值增加一个正向加权以表示该检索关键词的区分能力更好,来达到提升特征提取模块的效果。
图4示出了本申请实施例提供的一种案例数据的检索装置的结构示意图,如图4所示,该装置可以包括:
检索条件获取单元401,用于响应于案例检索指令,获取检索关键词,所述案例检索指令用于指示从源***中请求案例数据;
ES检索单元402,用于在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息;其中,所述ES数据库预先存储索引信息和定位信息的对应关系,所述索引信息对应的定位信息用于指示与所述索引信息匹配的案例数据在所述源***中的定位;
源***检索单元403,用于基于所述目标定位信息,从所述源***中检索得到目标案例数据。
可选地,索引信息包括语义特征词,所述装置还包括数据库构建单元,用于利用关键词提取模型提取所述源***中各个案例数据的语义特征词;根据所述源***中各个案例数据在所述源***中的位置,生成定位信息;生成接口数据,所述接口数据包括所述源***中各个案例数据的语义特征词和定位信息的对应关系;基于预先定义的数据接口和接口规范,通过kafka异步采集机制将所述接口数据从所述源***中采集到所述ES数据库。
可选地,检索关键词包括语义检索词,ES检索单元用于在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:ES检索单元具体用于:将所述语义检索词分别与所述ES数据库中的各个索引信息进行语义相似度计算,得到所述语义检索词与各个索引信息的语义相似度;获取满足第一预设条件的索引信息,作为目标索引信息,所述第一预设条件包括与所述语义检索词的语义相似度大于第一预设相似度阈值;将所述目标索引信息对应的定位信息,作为与所述检索关键词匹配的定位信息。
可选地,索引信息还包括属性特征词;数据库构建单元还用于:获取预设的属性提取规则,所述属性提取规则包括预设属性项以及所述预设属性项的提取方法,所述预设属性项包括所属地区、行业分类、客户属性、和授信总量区间中一项或多项;基于所述预设属性项的提取方法,提取所述源***中各个案例数据的预设属性项,得到所述源***中各个案例数据的属性特征词;所述接口数据还包括所述源***中各个案例数据的属性特征词、语义特征词、以及定位信息的对应关系。
可选地,检索关键词还包括属性检索词,ES检索单元用于在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:ES检索单元具体用于:将所述属性检索词与分别与所述ES数据库中的各个属性特征词进行匹配,得到与所述属性检索词完全一致的属性特征词,作为目标属性特征词;将所述目标属性特征词对应的语义特征词作为候选语义特征词;将所述语义检索词分别与所述ES数据库中的各个候选语义特征词进行语义相似度计算,得到所述语义检索词与各个候选语义特征词的语义相似度;获取满足第二预设条件的候选语义特征词,作为目标语义特征词,所述第二预设条件包括与所述语义检索词的语义相似度大于第二预设相似度阈值;将与所述目标语义特征词对应的定位信息,作为与所述检索关键词匹配的定位信息。
可选地,本装置还包括信息更新单元,用于在基于所述目标定位信息,从所述源***中检索得到目标案例数据之后,将所述检索关键词作为所述目标案例数据的候选关键词;按照预设的周期,统计所述源***中各个案例数据对应于各个候选关键词的检索统计数据;基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息。
可选地,所述检索统计数据包括检索次数和浏览时长;信息更新单元用于基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息,包括:信息更新单元具体用于基于所述案例数据的候选关键词的检索统计数据,获取所述案例数据的候选关键词的检索权重,其中,所述检索权重分别与检索次数和浏览时长成正相关;若所述案例数据的候选关键词的检索权重大于第一预设权重阈值且不大于第二预设权重阈值,提高所述案例数据的候选关键词在所述关键词提取模型中的权值,并基于更新后的所述关键词提取模型更新所述索引信息;若所述案例数据的候选关键词的检索权重大于所述第二预设权重阈值,将所述案例数据的候选关键词加入所述案例数据的索引信息中,更新所述索引信息。
图5示出了该案例数据的检索设备的结构示意图,该设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504;
在本申请实施例中,处理器501、通信接口502、存储器503、通信总线504的数量为至少一个,且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
处理器501可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器503可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可执行存储器存储的程序,实现本申请实施例提供的一种案例数据的检索方法的各个步骤,如下:
响应于案例检索指令,获取检索关键词,所述案例检索指令用于指示从源***中请求案例数据;
在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息;其中,所述ES数据库预先存储索引信息和定位信息的对应关系,所述索引信息对应的定位信息用于指示与所述索引信息匹配的案例数据在所述源***中的定位;
基于所述目标定位信息,从所述源***中检索得到目标案例数据。
可选地,索引信息包括语义特征词,所述ES数据库的构建方法,包括:利用关键词提取模型提取所述源***中各个案例数据的语义特征词;根据所述源***中各个案例数据在所述源***中的位置,生成定位信息;生成接口数据,所述接口数据包括所述源***中各个案例数据的语义特征词和定位信息的对应关系;基于预先定义的数据接口和接口规范,通过kafka异步采集机制将所述接口数据从所述源***中采集到所述ES数据库。
可选地,检索关键词包括语义检索词,所述在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:将所述语义检索词分别与所述ES数据库中的各个索引信息进行语义相似度计算,得到所述语义检索词与各个索引信息的语义相似度;获取满足第一预设条件的索引信息,作为目标索引信息,所述第一预设条件包括与所述语义检索词的语义相似度大于第一预设相似度阈值;将所述目标索引信息对应的定位信息,作为与所述检索关键词匹配的定位信息。
可选地,索引信息还包括属性特征词;所述ES数据库的构建方法,还包括:获取预设的属性提取规则,所述属性提取规则包括预设属性项以及所述预设属性项的提取方法,所述预设属性项包括所属地区、行业分类、客户属性、和授信总量区间中一项或多项;基于所述预设属性项的提取方法,提取所述源***中各个案例数据的预设属性项,得到所述源***中各个案例数据的属性特征词;所述接口数据还包括所述源***中各个案例数据的属性特征词、语义特征词、以及定位信息的对应关系。
可选地,检索关键词还包括属性检索词,所述在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:将所述属性检索词与分别与所述ES数据库中的各个属性特征词进行匹配,得到与所述属性检索词完全一致的属性特征词,作为目标属性特征词;将所述目标属性特征词对应的语义特征词作为候选语义特征词;将所述语义检索词分别与所述ES数据库中的各个候选语义特征词进行语义相似度计算,得到所述语义检索词与各个候选语义特征词的语义相似度;获取满足第二预设条件的候选语义特征词,作为目标语义特征词,所述第二预设条件包括与所述语义检索词的语义相似度大于第二预设相似度阈值;将与所述目标语义特征词对应的定位信息,作为与所述检索关键词匹配的定位信息。
可选地,基于所述目标定位信息,从所述源***中检索得到目标案例数据之后,还包括:将所述检索关键词作为所述目标案例数据的候选关键词;按照预设的周期,统计所述源***中各个案例数据对应于各个候选关键词的检索统计数据;基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息。
可选地,检索统计数据包括检索次数和浏览时长;所述基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息,包括:基于所述案例数据的候选关键词的检索统计数据,获取所述案例数据的候选关键词的检索权重,其中,所述检索权重分别与检索次数和浏览时长成正相关;若所述案例数据的候选关键词的检索权重大于第一预设权重阈值且不大于第二预设权重阈值,提高所述案例数据的候选关键词在所述关键词提取模型中的权值,并基于更新后的所述关键词提取模型更新所述索引信息;若所述案例数据的候选关键词的检索权重大于所述第二预设权重阈值,将所述案例数据的候选关键词加入所述案例数据的索引信息中,更新所述索引信息。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现本申请实施例提供的一种案例数据的检索方法的各个步骤,如下:
响应于案例检索指令,获取检索关键词,所述案例检索指令用于指示从源***中请求案例数据;
在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息;其中,所述ES数据库预先存储索引信息和定位信息的对应关系,所述索引信息对应的定位信息用于指示与所述索引信息匹配的案例数据在所述源***中的定位;
基于所述目标定位信息,从所述源***中检索得到目标案例数据。
可选地,索引信息包括语义特征词,所述ES数据库的构建方法,包括:利用关键词提取模型提取所述源***中各个案例数据的语义特征词;根据所述源***中各个案例数据在所述源***中的位置,生成定位信息;生成接口数据,所述接口数据包括所述源***中各个案例数据的语义特征词和定位信息的对应关系;基于预先定义的数据接口和接口规范,通过kafka异步采集机制将所述接口数据从所述源***中采集到所述ES数据库。
可选地,检索关键词包括语义检索词,所述在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:将所述语义检索词分别与所述ES数据库中的各个索引信息进行语义相似度计算,得到所述语义检索词与各个索引信息的语义相似度;获取满足第一预设条件的索引信息,作为目标索引信息,所述第一预设条件包括与所述语义检索词的语义相似度大于第一预设相似度阈值;将所述目标索引信息对应的定位信息,作为与所述检索关键词匹配的定位信息。
可选地,索引信息还包括属性特征词;所述ES数据库的构建方法,还包括:获取预设的属性提取规则,所述属性提取规则包括预设属性项以及所述预设属性项的提取方法,所述预设属性项包括所属地区、行业分类、客户属性、和授信总量区间中一项或多项;基于所述预设属性项的提取方法,提取所述源***中各个案例数据的预设属性项,得到所述源***中各个案例数据的属性特征词;所述接口数据还包括所述源***中各个案例数据的属性特征词、语义特征词、以及定位信息的对应关系。
可选地,检索关键词还包括属性检索词,所述在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:将所述属性检索词与分别与所述ES数据库中的各个属性特征词进行匹配,得到与所述属性检索词完全一致的属性特征词,作为目标属性特征词;将所述目标属性特征词对应的语义特征词作为候选语义特征词;将所述语义检索词分别与所述ES数据库中的各个候选语义特征词进行语义相似度计算,得到所述语义检索词与各个候选语义特征词的语义相似度;获取满足第二预设条件的候选语义特征词,作为目标语义特征词,所述第二预设条件包括与所述语义检索词的语义相似度大于第二预设相似度阈值;将与所述目标语义特征词对应的定位信息,作为与所述检索关键词匹配的定位信息。
可选地,基于所述目标定位信息,从所述源***中检索得到目标案例数据之后,还包括:将所述检索关键词作为所述目标案例数据的候选关键词;按照预设的周期,统计所述源***中各个案例数据对应于各个候选关键词的检索统计数据;基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息。
可选地,检索统计数据包括检索次数和浏览时长;所述基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息,包括:基于所述案例数据的候选关键词的检索统计数据,获取所述案例数据的候选关键词的检索权重,其中,所述检索权重分别与检索次数和浏览时长成正相关;若所述案例数据的候选关键词的检索权重大于第一预设权重阈值且不大于第二预设权重阈值,提高所述案例数据的候选关键词在所述关键词提取模型中的权值,并基于更新后的所述关键词提取模型更新所述索引信息;若所述案例数据的候选关键词的检索权重大于所述第二预设权重阈值,将所述案例数据的候选关键词加入所述案例数据的索引信息中,更新所述索引信息。
需要说明的是,本发明提供的一种案例数据的检索方法、装置、设备及可读存储介质可用于大数据领域或金融领域。上述仅为示例,并不对本发明提供的一种案例数据的检索方法、装置、设备及可读存储介质的应用领域进行限定。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种案例数据的检索方法,其特征在于,包括:
响应于案例检索指令,获取检索关键词,所述案例检索指令用于指示从源***中请求案例数据;
在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息;其中,所述ES数据库预先存储索引信息和定位信息的对应关系,所述索引信息对应的定位信息用于指示与所述索引信息匹配的案例数据在所述源***中的定位;
基于所述目标定位信息,从所述源***中检索得到目标案例数据。
2.根据权利要求1所述的方法,其特征在于,所述索引信息包括语义特征词,所述ES数据库的构建方法,包括:
利用关键词提取模型提取所述源***中各个案例数据的语义特征词;
根据所述源***中各个案例数据在所述源***中的位置,生成定位信息;
生成接口数据,所述接口数据包括所述源***中各个案例数据的语义特征词和定位信息的对应关系;
基于预先定义的数据接口和接口规范,通过kafka异步采集机制将所述接口数据从所述源***中采集到所述ES数据库。
3.根据权利要求2所述的方法,其特征在于,所述检索关键词包括语义检索词,所述在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:
将所述语义检索词分别与所述ES数据库中的各个索引信息进行语义相似度计算,得到所述语义检索词与各个索引信息的语义相似度;
获取满足第一预设条件的索引信息,作为目标索引信息,所述第一预设条件包括与所述语义检索词的语义相似度大于第一预设相似度阈值;
将所述目标索引信息对应的定位信息,作为与所述检索关键词匹配的定位信息。
4.根据权利要求2所述的方法,其特征在于,所述索引信息还包括属性特征词;所述ES数据库的构建方法,还包括:
获取预设的属性提取规则,所述属性提取规则包括预设属性项以及所述预设属性项的提取方法,所述预设属性项包括所属地区、行业分类、客户属性、和授信总量区间中一项或多项;
基于所述预设属性项的提取方法,提取所述源***中各个案例数据的预设属性项,得到所述源***中各个案例数据的属性特征词;
所述接口数据还包括所述源***中各个案例数据的属性特征词、语义特征词、以及定位信息的对应关系。
5.根据权利要求4所述的方法,其特征在于,所述检索关键词还包括属性检索词,所述在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息,包括:
将所述属性检索词与分别与所述ES数据库中的各个属性特征词进行匹配,得到与所述属性检索词完全一致的属性特征词,作为目标属性特征词;
将所述目标属性特征词对应的语义特征词作为候选语义特征词;
将所述语义检索词分别与所述ES数据库中的各个候选语义特征词进行语义相似度计算,得到所述语义检索词与各个候选语义特征词的语义相似度;
获取满足第二预设条件的候选语义特征词,作为目标语义特征词,所述第二预设条件包括与所述语义检索词的语义相似度大于第二预设相似度阈值;
将与所述目标语义特征词对应的定位信息,作为与所述检索关键词匹配的定位信息。
6.根据权利要求3或5所述的方法,其特征在于,所述基于所述目标定位信息,从所述源***中检索得到目标案例数据之后,还包括:
将所述检索关键词作为所述目标案例数据的候选关键词;
按照预设的周期,统计所述源***中各个案例数据对应于各个候选关键词的检索统计数据;
基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息。
7.根据权利要求6所述的方法,其特征在于,所述检索统计数据包括检索次数和浏览时长;所述基于所述案例数据的候选关键词的检索统计数据,更新所述索引信息,包括:
基于所述案例数据的候选关键词的检索统计数据,获取所述案例数据的候选关键词的检索权重,其中,所述检索权重分别与检索次数和浏览时长成正相关;
若所述案例数据的候选关键词的检索权重大于第一预设权重阈值且不大于第二预设权重阈值,提高所述案例数据的候选关键词在所述关键词提取模型中的权值,并基于更新后的所述关键词提取模型更新所述索引信息;
若所述案例数据的候选关键词的检索权重大于所述第二预设权重阈值,将所述案例数据的候选关键词加入所述案例数据的索引信息中,更新所述索引信息。
8.一种案例数据的检索装置,其特征在于,包括:
检索条件获取单元,用于响应于案例检索指令,获取检索关键词,所述案例检索指令用于指示从源***中请求案例数据;
ES检索单元,用于在非关系型ES数据库中检索得到与所述检索关键词匹配的定位信息,作为目标定位信息;其中,所述ES数据库预先存储索引信息和定位信息的对应关系,所述索引信息对应的定位信息用于指示与所述索引信息匹配的案例数据在所述源***中的定位;
源***检索单元,用于基于所述目标定位信息,从所述源***中检索得到目标案例数据。
9.一种案例数据的检索设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~7中任一项所述的案例数据的检索方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~7中任一项所述的案例数据的检索方法的各个步骤。
CN202310950185.1A 2023-07-31 2023-07-31 一种案例数据的检索方法、装置、设备及可读存储介质 Pending CN117056477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310950185.1A CN117056477A (zh) 2023-07-31 2023-07-31 一种案例数据的检索方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310950185.1A CN117056477A (zh) 2023-07-31 2023-07-31 一种案例数据的检索方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN117056477A true CN117056477A (zh) 2023-11-14

Family

ID=88656415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310950185.1A Pending CN117056477A (zh) 2023-07-31 2023-07-31 一种案例数据的检索方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117056477A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117763109A (zh) * 2023-12-21 2024-03-26 湖南领众档案管理有限公司 一种用于档案全文检索的数据核查方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117763109A (zh) * 2023-12-21 2024-03-26 湖南领众档案管理有限公司 一种用于档案全文检索的数据核查方法
CN117763109B (zh) * 2023-12-21 2024-06-11 湖南领众档案管理有限公司 一种用于档案全文检索的数据核查方法

Similar Documents

Publication Publication Date Title
CN111008265B (zh) 企业信息搜索方法及装置
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
CN109885773B (zh) 一种文章个性化推荐方法、***、介质及设备
KR100462292B1 (ko) 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템
CN106383887B (zh) 一种环保新闻数据采集和推荐展示的方法及***
US8468156B2 (en) Determining a geographic location relevant to a web page
CN105955976B (zh) 一种自动应答***及方法
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
CN102236663B (zh) 一种基于垂直搜索的查询方法、***和装置
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
CN103425687A (zh) 一种基于关键词的检索方法和***
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN102591969A (zh) 基于用户历史行为提供搜索结果的方法及服务器
CN110909120B (zh) 简历搜索/投递方法、装置、***及电子设备
CN111191111A (zh) 内容推荐方法、装置及存储介质
CN117056477A (zh) 一种案例数据的检索方法、装置、设备及可读存储介质
US9336280B2 (en) Method for entity-driven alerts based on disambiguated features
CN110008407B (zh) 一种信息检索方法及装置
CN117149804A (zh) 数据处理方法、装置、电子设备及存储介质
CN103744884A (zh) 一种整理信息碎片的方法及***
Boden et al. FactCrawl: A Fact Retrieval Framework for Full-Text Indices.
JP2013084216A (ja) 定型文判別装置及び定型文判別方法
CN111666295B (zh) 数据提取方法、终端设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination