CN109815244A - 一种数据处理方法和装置 - Google Patents
一种数据处理方法和装置 Download PDFInfo
- Publication number
- CN109815244A CN109815244A CN201910130518.XA CN201910130518A CN109815244A CN 109815244 A CN109815244 A CN 109815244A CN 201910130518 A CN201910130518 A CN 201910130518A CN 109815244 A CN109815244 A CN 109815244A
- Authority
- CN
- China
- Prior art keywords
- data
- data field
- order
- field
- subdata base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据处理方法和装置,涉及数据处理技术领域。通过建立统一的数据订单模型,接收数据查询请求,根据数据查询请求携带的索引字段查询分级数据库,如第一子数据库,第一子数据库包括来自不同订单数据中的多个第一数据字段,属于同一订单数据的数据字段之间存在关联关系;当索引字段与多个第一数据字段中的一个第一数据字段匹配时,根据关联关系从第一子数据库中获取目标订单数据包括的第一数据字段。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法和装置。
背景技术
目前,通信行业的业务订单***众多,不同省份、不同渠道、不同***的订单模型各有不同,订单流程也大不相同,通信运营商无法统一管理全部订单,实现全部订单的统一收集、处理和查看等,不同的订单需要各省份、各渠道自行汇总上报,从而无法保证数据的及时性、准确性和有效性,同时也为后续的订单数据维护等带来了很大困难。
另外,随着社会发展和用户需求的不断变化,业务订单的订单模型也在不断更新。面对汇总的海量订单数据,不同订单模型之间的关系结构复杂,关联关系众多,如何在海量订单数据中,实现高效、高频次的实时数据查询是当前亟待解决的问题。
发明内容
本申请的实施例提供一种数据处理方法和装置,用于解决现有数据模型差异大,无法统一处理和呈现的问题,以及海量订单数据对数据查询检索的要求的满足。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供一种数据处理的方法,该方法包括:接收数据查询请求,所述数据查询请求携带索引字段,所述数据查询请求用于查询目标订单数据;根据所述索引字段查询分类数据库,所述分类数据库包括第一子数据库,所述第一子数据库包括来自不同订单数据中的多个第一数据字段,所述分类数据库中属于同一订单数据的数据字段之间存在关联关系,所述数据字段包括所述第一数据字段;当所述索引字段与所述多个第一数据字段中的一个第一数据字段匹配时,根据所述关联关系从所述第一子数据库中获取所述目标订单数据包括的第一数据字段,所述目标订单数据为所述匹配的第一数据字段所属的订单数据;根据所述目标订单数据包括的第一数据字段和第一订单模型,输出所述目标订单数据,所述第一订单模型是基于所述多个第一数据字段训练得到的。
在第一方面的一种可能的实现方式中,所述分类数据库还包括第二子数据库,所述第二子数据库包括来自所述不同订单数据中的多个第二数据字段,所述多个第二数据字段的优先级低于所述多个第一数据字段的优先级,所述方法还包括:根据所述匹配的第一数据字段和所述关联关系从所述第二子数据库中获取所述目标订单数据包括的第二数据字段;其中,根据所述目标订单数据包括的第二数据字段和第二订单模型,更新输出的所述目标订单数据,所述第二订单模型是基于所述多个第二数据字段训练得到的。
在第一方面的一种可能的实现方式,所述多个第一数据字段的优先级和所述多个第二数据字段的优先级与所述数据字段的重要程度和/或所述数据字段所在的订单数据的类型有关。
在第一方面的一种可能的实现方式,所述方法还包括:确定所述多个第一数据字段中每个第一数据字段的访问频率;当某个第一数据字段的访问频率小于第一频率阈值时,降低所述第一数据字段的优先级,并将所述第一数据字段移动至所述第二子数据库。
在第一方面的一种可能的实现方式中,所述方法还包括:确定所述多个第二数据字段中每个第二数据字段的访问频率;当某个第二数据字段的访问频率大于第二频率阈值时,提高所述第二数据字段的优先级,并将所述第二数据字段移动至所述第一子数据库。
在第一方面的一种可能的实现方式中,所述方法还包括:当所述第一子数据库包括的所述多个第一数据字段发生变化时,根据变化后的多个第一数据字段更新所述第一订单模型。
在第一方面的一种可能的实现方式中,所述方法还包括:当所述第二子数据库包括的所述多个第二数据字段发生变化时,根据变化后的多个第二数据字段更新所述第二订单模型。
第二方面,提供一种数据处理装置,所述装置包括:接收单元,用于接收数据查询请求,所述数据查询请求携带索引字段,所述数据查询请求用于查询目标订单数据;数据处理单元,用于根据所述索引字段查询分级数据库,所述分级数据库包括第一子数据库,所述第一子数据库包括来自不同订单数据中的多个第一数据字段,所述分级数据库中属于同一订单数据的数据字段之间存在关联关系;所述数据处理单元,还用于当所述索引字段与所述多个第一数据字段中的一个第一数据字段匹配时,根据所述关联关系从所述第一子数据库中获取所述目标订单数据包括的第一数据字段,所述目标订单数据为所述匹配的第一数据字段所属的订单数据;输出单元,用于根据所述目标订单数据包括的第一数据字段和第一订单模型,输出所述目标订单数据,所述第一订单模型是基于所述多个第一数据字段训练得到的。
在第二方面的一种可能的实现方式中,所述分类数据库还包括第二子数据库,所述第二子数据库包括来自所述不同订单数据中的多个第二数据字段,所述多个第二数据字段的优先级低于所述多个第一数据字段的优先级,所述数据处理单元还用于:根据所述匹配的第一数据字段和所述关联关系从所述第二子数据库中获取所述目标订单数据包括的第二数据字段;其中,根据所述目标订单数据包括的第二数据字段和第二订单模型,更新输出的所述目标订单数据,所述第二订单模型是基于所述多个第二数据字段训练得到的。
在第二方面的一种可能的实现方式中,所述多个第一数据字段的优先级和所述多个第二数据字段的优先级与所述数据字段的重要程度和/或所述数据字段所在的订单数据的类型有关。
在第二方面的一种可能的实现方式,所述数据处理单元还用于:确定所述多个第一数据字段中每个第一数据字段的访问频率;当某个第一数据字段的访问频率小于第一频率阈值时,降低所述第一数据字段的优先级,并将所述第一数据字段移动至所述第二子数据库。
在第二方面的一种可能的实现方式中,所述数据处理单元还用于:确定所述多个第二数据字段中每个第二数据字段的访问频率;当某个第二数据字段的访问频率大于第二频率阈值时,提高所述第二数据字段的优先级,并将所述第二数据字段移动至所述第一子数据库。
在第二方面的一种可能的实现方式中,所述数据处理单元还用于:当所述第一子数据库包括的所述多个第一数据字段发生变化时,根据变化后的多个第一数据字段更新所述第一订单模型。
在第二方面的一种可能的实现方式中,所述数据处理单元还用于:当所述第二子数据库包括的所述多个第二数据字段发生变化时,根据变化后的多个第二数据字段更新所述第二订单模型。
第三方面,提供一种数据处理装置,该装置包括处理器和存储器,存储器中存储代码和数据,处理器运行存储器中的代码使得该装置执行第一方面或者第一方面的任一种可能的实现方式所提供的数据处理方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面、或者第一方面的任一种可能的实现方式所提供的数据处理方法。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面、或者第一方面的任一种可能的实现方式所提供的数据处理方法。
本申请实施例提供一种数据处理方法和装置,通过建立分级数据库,基于分级数据库中每个子数据库包括的数据字段建立订单模型,并建立用于查询分级数据库的索引库,进而在进行目标订单数据查询时,采用搜索引擎查询目标订单数据时,能够实现多个子数据库之间的关联查询、数据多维度查询,进而能够提高海量订单数据的查询效率。并在逐步处理海量订单数据的过程中,根据业务订单数据的调整、用户访问频率等需求,通过训练调整订单模型,实现自适应地优化订单模型,以满足新兴的业务发展模式。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的流程图;
图2为本申请实施例提供的另一种数据处理方法的流程图;
图3为本申请实施例提供的又一种数据处理方法的流程图;
图4为本申请实施例提供的一种建立分级数据库和订单模型的流程图;
图5为本申请实施例提供的一种建立分级子数据库和订单模型的示意图;
图6为本申请实施例提供的一种数据处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在介绍本申请之前,首先对本申请实施例涉及的背景技术进行介绍说明。
目前,通信行业的业务订单***众多,不同省份、不同渠道、不同***的订单模型各有不同,订单流程也大不相同,通信运营商无法统一管理全部订单,实现全部订单的统一收集、处理和查看等,不同的订单需要各省份、各渠道自行汇总上报,从而无法保证数据的及时性、准确性和有效性,同时也为后续的订单数据维护等带来了很大困难。其次,随着社会发展和用户需求的不断变化,导致业务必然随着进行变化,当前满足要求的订单模型,可能过几个月就已经不能满足要求,而且随着业务的加速变更,按通常的开发模式其速度已无法适应当前业务的变更需求。对于通信运营商来说,面对汇总的海量订单数据,不同订单模型之间的关系结构复杂,关联关系众多,很难实现高效、高频次的实时数据查询。
基于此,本申请实施例提供一种数据处理方法,用于在海量订单数据中,实现高效、高频次的实时数据查询。其原理在于:在查询目标订单数据时,可以根据统一的订单模型中的一个或者多个不同等级的订单模型、以及目标订单数据中属于不同订单模型的数据字段来输出目标订单数据。这里统一的订单模型是根据大量的订单数据建立的,并根据不同的订单数据和访问频率等进行自适应性的更新,从而通信运营商无需重新设计和修改订单模型,进而能够全面提升开发效率,节省大量的开发和运维时间。
图1为本申请实施例提供的一种数据处理方法的流程示意图,该方法可应用于数据处理***中,参见图1,该方法包括以下几个步骤S101-S104。
S101:接收数据查询请求,该数据查询请求携带索引字段,该数据查询请求用于查询目标订单数据。
其中,该数据查询请求的来源可以是运营商管理人员、运维人员、或用户等,也可以通过***预设管理权限来完成配置。
另外,订单数据可以是指用户办理业务时生成的以订单形式表示的相关数据,比如,用户订购或取消来电显示、流量包等业务时生成的以订单形式表示的数据。目标订单数据就是指请求查询的订单数据。该数据查询请求所携带的索引字段可以是订单数据中的某个相关字段,如具体的用户名、订单编号、业务类型、业务名称等。
具体的,当运营商管理人员、运维人员、或用户等需要查询目标订单数据时,具体可以通过搜索引擎来查询,即本申请实施例可以采用搜索引擎创建索引库,进而支持用户等通过搜索引擎来查询目标订单数据。搜索引擎能够支持数据多维度查询,提高海量数据的查询效率。
S102:根据该索引字段查询分级数据库,分级数据库包括第一子数据库,第一子数据库包括来自不同的订单数据中的多个第一数据字段,分级数据库中属于同一订单数据的数据字段之间存在关联关系。
其中,不同的订单数据可以包括来自不同省份、不同渠道、不同***的不同订单模型下的订单数据。每个订单数据中可以包括多个数据字段,第一数据字段可以是订单数据中比较重要的、必填的数据字段,例如,第一数据字段可以是订单数据中的用户名、订单编号、业务类型和用户地址等。
分级数据库用于存储不同订单数据中的数据字段,且分级数据库可以包括至少一个子数据库,第一子数据库是至少一个子数据库中的一个子数据库。第一子数据库用于存储来自不同订单数据中的多个第一数据字段,比如,在获取到不同的订单数据后,可以从每个订单数据中获取比较重要的、必填的数据字段,以得到多个第一数据字段,并将得到的多个第一数据字段存储在第一子数据库。可选的,每个订单数据中的数据字段可以通过key-value的形式存储在分级数据库中,key用于表示数据类型,value用于表示具体的数据字段。
同一订单数据的多个数据字段可能被分开存储在分级数据库中的不同子数据库中,也可能被存储在分级数据库中的同一个子数据库中。当同一订单数据的多个数据字段被分开存储在不同子数据库中时,属于同一订单数据的数据字段之间存在关联关系,具体可以是指:每个子数据库中属于同一订单数据的数据字段之间存在关联关系,且不同子数据库中属于同一订单数据的数据字段之间也存在关联关系;当同一订单数据的多个数据字段被存储在同一个子数据库中时,同一订单数据的数据字段之间存在关联关系,具体可以是指:该子数据库中属于同一订单数据的多个数据字段之间存在关联关系。
示例性的,同一子数据库中属于同一订单数据的多个数据字段之间可以通过该订单数据的订单编号进行关联,不同子数据库中属于同一订单数据的多个数据字段之间可以通过该订单数据的订单编号与子订单编号之间的关系进行关联。
可选的,该分级数据库还包括第二子数据库,第二子数据库包括来自不同订单数据中的多个第二数据字段,多个第二数据字段的优先级低于多个第一数据字段的优先级。其中,多个第一数据字段的优先级和多个第二数据字段的优先级与数据字段的重要程度和/或数据字段所在的订单数据类型有关。
其中,数据字段的优先级可以是按照该数据字段所属的数据类型进行分级划分的,第一数据字段一般为订单数据中优先级最高的必填数据类型,例如,用户名称、订单商品、用户地址等。第二数据字段一般为优先级次高的用户附属信息、或订单附属信息所属的数据类型,例如,针对某省份订单数据的必填项,如用户所属区的编码、订单生效时间等。
需要说明的是,上述仅以分级数据库包括第一子数据库和第二子数据库为例进行说明,在实际应用中,分级数据库中包括的子数据库的数量还可以大于或等于3,比如分级数据库还可以包括第三子数据库和第四子数据库等,本申请实施例对此不作具体限定。
S103:当该索引字段与多个第一数据字段中的一个第一数据字段匹配时,根据该关联关系从第一子数据库中获取目标订单数据包括的第一数据字段,目标订单数据为匹配的第一数据字段所属的订单数据。
其中,当该索引字段与第一子数据库中多个第一数据字段中的一个第一数据字段匹配时,可以确定第一子数据库中包括目标订单数据中的数据字段,从而根据同一订单数据的不同第一数据字段之间的关联关系,从第一子数据库中获取目标订单数据包括的多个第一数据字段。
例如,当输入的索引字段为用户名称-张三,且同一订单数据包括的数据字段之间的关联关系为订单编号时,搜索引擎将“张三”与第一子数据库中的多个第一数据字段进行匹配。若第一子数据库中的多个第一数据字段中存在第一数据字段“用户名称-张三”,则可以先确定“用户名称-张三”所属的订单数据的订单编号。假设该订单编号为0001,则根据“订单编号-0001”从第一子数据库中获取关联关系为0001的多个第一数据字段,获取的多个第一数据字段即为订单编号为0001的订单数据包括的第一数据字段。
可选的,在通过搜索引擎检索第一子数据库之前,可以先检索分布式缓存中的数据字段,如缓存中存在匹配的数据字段,则从缓存中获取目标订单数据包括的第一数据字段。由于缓存中存储的数据字段通常为最近一段时间查询过的订单数据中的数据字段,从缓存中获取目标订单数据包括的多个第一数据字段,能够进一步提高查询效率。
S104:根据目标订单数据包括的第一数据字段和第一订单模型,输出目标订单数据,第一订单模型是基于多个第一数据字段训练得到的。
其中,第一订单模型可以是基于根据海量订单数据中提取的第一数据字段对应的数据类型训练得到的,比如,第一订单模型可以是基于第一子数据库中存储的多个第一数据字段对应的数据类型训练得到的。第一订单模型中可以包括至少一个数据类型,比如,至少一个数据类型可以包括用户名称、订单编号、业务编号、用户名等。需要说明的是,基于多个第一数据字段训练得到第一订单模型的具体过程可以参见相关技术中的描述,本申请实施例在此不作描述。
具体的,当获取到目标订单数据包括的多个第一数据字段时,可以根据获取的多个第一数据字段中每个第一数据字段对应的数据类型,以及第一订单模型中包括的数据类型的一致性,将获取的多个第一数据字段分别填充在第一订单模型中对应的位置。比如,获取的第一数据字段包括“用户名称-张三”,第一订单模型中包括一个数据类型“用户名称”,则将“张三”填充在第一订单模型中“用户名称”对应的填充位置。
可选的,第一订单模型可以通过调整第一数据字段的数据类型的组成而动态调整。例如,根据新兴业务增加用户所属年龄段,删除业务编号等。
进一步的,参见图2,该方法还包括:S105-S106。
S105:根据匹配的第一数据字段和该关联关系从第二子数据库中获取目标订单数据包括的第二数据字段。
其中,当用户或者维护人员等需要进一步查询目标订单数据的其他信息(比如,用户附属信息)时,可以根据匹配的第一数据字段、和同一订单数据的第一数据字段和第二数据字段之间的关联关系,从第二子数据库中获取目标订单数据包括的第二数据字段。
示例性的,第一数据字段和第二数据字段之间的关联关系为子订单编号,假设S103获取的目标订单数据的订单编号为0001,与该订单编号关联的子订单编号为0001-01,则可以根据子订单编号“0001-01”检索第二子数据库,检索结果即为第二子数据库中包含的订单编号为0001的第二数据字段。将检索结果加载在缓存中,根据用户需求输出给检索用户。
可选的,本申请实施例还可以采用搜索引擎创建索引库,进而在上述S101中可以通过搜索引擎进行目标订单数据的查询,搜索引擎能够支持多个子数据库之间的关联查询,支持数据多维度查询,进而能够提高海量数据的查询效率。
S106:根据目标订单数据包括的第二数据字段和第二订单模型,更新输出的目标订单数据,第二订单模型是基于多个第二数据字段训练得到的。
其中,第二订单模型可以是基于根据海量订单数据中提取的第二数据字段对应的数据类型训练得到的,比如,第二订单模型可以是基于第二子数据库中存储的多个第二数据字段对应的数据类型训练得到的。第二订单模型中可以包括至少一个数据类型,比如,至少一个数据类型可以包括子订单编号、订单商品邮寄时间、订单用户备注信息等。需要说明的是,基于多个第二数据字段训练得到第二订单模型的具体过程可以参见相关技术中的描述,本申请实施例在此不作描述。
具体的,当获取到目标订单数据包括的多个第二数据字段时,可以根据获取的多个第二数据字段中每个第二数据字段对应的数据类型,以及第二订单模型中包括的数据类型的一致性,将获取的多个第二数据字段分别填充在第二订单模型中对应的位置。之后,可以将S104对应填充第一订单模型后的订单数据和S106对应填充第二订单模型后的订单数据,合并作为目标订单数据进行输出。
可选的,第二订单模型也可以通过调整第二数据字段的数据类型的组成而动态调整。例如,根据新兴业务增加用户所属年龄段,删除订单商品邮寄时间等。
进一步的,参见图3,该方法还包括:S107-S108。图3中未示出S105-S106。
S107:确定多个第一数据字段中每个第一数据字段的访问频率。
其中,每个第一数据字段的访问频率可用于指示运营商管理人员、运维人员、或用户等对该数据类型的数据字段使用、检索和关注程度等,每个第一数据字段的访问频率可以通过对该数据字段的处理日志、和/或访问记录来获取。
可选的,本申请的实施例可以由搜索引擎记录所有第一数据字段的处理日志及访问频率,包括查询次数,对第一数据字段的增加、删除、修改的操作日志。类似的,本申请的实施例还通过数据分析工具获取分级数据库中每个子数据库(比如,第二子数据库)中存储的所有数据字段的处理日志及访问频率,包括查询次数,对其他数据字段的增加、删除、修改的操作日志。
S108:当某个第一数据字段的访问频率小于第一频率阈值时,降低所述第一数据字段的优先级,并将所述第一数据字段移动至第二子数据库。
其中,第一频率阈值可以为预设的频率阈值,当某个第一数据字段的访问频率小于第一频率阈值时,可以表示该第一数据字段的访问频率较小或者使用次数较少,则可以将该第一数据字段降级为第二数据字段,并移动至第二子数据库。
可选的,访问频率具体可以为查询频率、修改操作频率、或者新增操作频率等;相应的,预设的频率阈值可以为查询频率阈值、修改操作频率阈值、或者新增操作频率阈值等,本申请实施例对此不作具体限定。
可选的,当第一子数据库包括的多个第一数据字段发生变化时,根据变化后的多个第一数据字段更新第一订单模型。其中,第一子数据库包括的多个第一数据字段发生变化可以包括:第一子数据库中的一个或者多个第一数据字段被降级,第二子数据库中的一个或者多个第二数据字段被升级,和/或第一子数据库中新增加了从新的订单数据中提取的第一数据字段等。当第一子数据库包括的多个第一数据字段发生变化时,可以根据变化的数据字段所属数据类型,更新第一订单模型,以保证第一订单模型的准确性和有效性。
比如,当某一种数据类型,如“用户地址”的访问频率在某一时间段内较低,且低于其预设的访问频率阈值,可以说明这种数据类型的数据字段暂时不受用户关注,从而可以将这种数据类型的数据字段的优先级降低,例如,将其数据字段移动至第二子数据库,减小第一子数据库的存储占用,从而提高检索效率。
可选的,根据订单数据对应的业务的特殊性,可以人为地配置第一订单模型包括的数据类型,而不通过升级和降级完成更新。
同理,该方法还可以包括:确定多个第二数据字段中每个第二数据字段的访问频率;当某个第二数据字段的访问频率大于第二频率阈值时,提高所述第二数据字段的优先级,并将所述第二数据字段移动至第一子数据库。
其中,第二频率阈值也可以为预设的访问频率参数阈值,第二频率阈值可以大于第一频域阈值。当某个第二数据字段的访问频率大于第二频率阈值时,将该第二数据字段升级为第一数据字段,并移动至第一子数据库。
类似的,当第二子数据库包括的多个第二数据字段发生变化时,根据变化后的多个第二数据字段更新第二订单模型。其中,第二子数据库包括的多个第二数据字段发生变化可以包括:第二子数据库中的一个或者多个第二数据字段被降级或升级,优先级仅次于第二数据字段的一个或者多个数据字段被升级,和/或第二子数据库中新增加了从新的订单数据中提取的第二数据字段等。当第二子数据库包括的多个第二数据字段发生变化时,可以根据变化的数据字段所属数据类型,更新第二订单模型,以保证第二订单模型的准确性和有效性。
为便于理解,下面以分级数据库包括四个子数据库为例,对建立分级数据库和订单模型的过程进行举例说明,这里的四个子数据库可以分别为核心一级子数据库(具体可以为上述第一子数据库)、核心二级子数据库(具体可以为上述第二子数据库)、附属一级子数据库(具体可以为第三子数据库)和附属二级子数据库(具体可以为第四子数据库)。参见图4,具体可以包括:S201-S205。另外,图5给出了一种建立分级数据库和订单模型的示意图。
S201:获取订单数据,解析订单数据中的多个数据字段,暂存在分布式缓存中。
其中,获取来自不同省份、不同渠道、不同***的不同订单模型的海量订单数据,每个订单数据中可以包括多个数据字段,如用户名、订单编号、业务类型、用户地址、订单生效时间等。
示例性的,解析获取到的订单数据,以key-vlaue(数据类型-数据字段)的模式存储在分布式缓存中,例如,订单编号-0001。
S202:将多个数据字段进行分级。
其中,将订单数据包含的核心数据字段根据重要程度进行分级。核心一级数据字段(即第一数据字段)可以为必填项,也就是业务规范要求必须要有的数据字段,比如,核心一级数据字段可以包括用户名称、订单编号、业务编号等;核心二级数据字段可以为某省必填项或某域必填项,比如,核心二级数据字段(即第二数据字段)可以包括子订单编号、订单时间、订单商品邮寄时间、订单用户备注信息等。
将业务个性化数据,如订单附属信息、用户附属信息等按照订单类型分类。将已有订单类型的该类数据字段确定为附属一类数据字段(可以称为第三数据字段),比如,附属一类数据字段可以包括用户所属年龄段、订单折扣信息等;将未知订单类型,也就是未来可能存在的订单类型中的该类数据字段确定为附属二类数据字段(可以称为第四数据字段),比如,附属二类数据字段可以包括用户使用时间段、关联的应用程序等。
S203:将分级后的数据字段推送到相对应的消息队列中。
其中,将步骤S202的第一数据字段,例如“张三”推送至第一消息队列;将第二数据字段,例如“2018-02-01”推送至第二消息队列;以此类推,将第三数据字段推送至第三消息队列,将第四数据字段推送至第四消息队列。示例性的,本申请实施例采用异步模式将数据字段推送至分布式消息队列。
S204:将各个消息队列推送的数据字段对应存储于各级子数据库中,并根据同一子数据库的数据字段建立订单模型。
其中,第一消息队列推送的第一数据字段存储于第一子数据库中,并将第一子数据库中的数据字段进行归纳抽象成数据类型,形成核心一级数据模型,也就是上述第一订单模型。类似的,第二消息队列推送的第二数据字段存储于第二子数据库中,并将第二子数据库中的数据字段进行归纳抽象成数据类型,形成核心二级数据模型,也就是上述第二订单模型;第三消息队列推送的第三数据字段存储于第三子数据库中,并将第三子数据库中的数据字段进行归纳抽象成数据类型,形成附属一级数据模型,也可以称为第三订单模型;第四消息队列推送的第四数据字段存储于第四子数据库中,并将第四子数据库中的数据字段进行归纳抽象成数据类型,形成附属二级数据模型,也可以称为第四订单模型。
进一步的,在建立上述四个订单模型之后,若收集到新的订单数据,则可以通过上述S201处理之后,在S202中将解析得到的数据字段与四级子数据库的订单模型包括的数据类型进行匹配。例如,“张三”与第一订单模型的数据类型“用户名称”匹配成功,标记为第一数据字段;“2018-02-01”与第二订单模型的数据类型“订单时间”匹配成功,标记为第二数据字段;“15-19”与第三订单模型的数据类型“用户所属年龄段”匹配成功,标记为第三数据字段;“微信”与第四订单模型的数据类型“关联的应用程序”匹配成功,标记为第四数据字段。
可选的,将数据字段与四级子数据库的订单模型包括的数据类型进行匹配时,若存在未能匹配成功的数据字段,或订单数据中临时增加的字段,则在上述S203中推送到第四消息队列。
S205:将需要建立索引的数据字段同步至分布式搜索引擎。
其中,第一数据字段存储完毕后,同步至搜索引擎;可选的,第二数据字段、第三数据字段、第四数据字段可以根据需要预先配置,将需要同步至搜索引擎的数据字段,在存储完毕后更新至搜索引擎中。
本申请实施例提供一种数据处理方法,通过建立分级数据库,基于分级数据库中每个子数据库包括的数据字段建立订单模型,并建立用于查询分级数据库的索引库,进而在进行目标订单数据查询时,采用搜索引擎查询目标订单数据时,能够实现多个子数据库之间的关联查询、数据多维度查询,进而能够提高海量订单数据的查询效率。并在逐步处理海量订单数据的过程中,根据业务订单数据的调整、用户访问频率等需求,通过训练调整订单模型,实现自适应地优化订单模型,以满足新兴的业务发展模式。
图6为本申请实施例提供的一种数据处理装置的结构示意图,该装置包括:
接收单元301,用于接收数据查询请求,所述数据查询请求携带索引字段,所述数据查询请求用于查询目标订单数据;
数据处理单元302,用于根据所述索引字段查询分级数据库,所述分级数据库包括第一子数据库,所述第一子数据库包括来自不同订单数据中的多个第一数据字段,所述分级数据库中属于同一订单数据的数据字段之间存在关联关系;
数据处理单元302,还用于当所述索引字段与所述多个第一数据字段中的一个第一数据字段匹配时,根据所述关联关系从所述第一子数据库中获取所述目标订单数据包括的第一数据字段,所述目标订单数据为所述匹配的第一数据字段所属的订单数据;
输出单元303,用于根据所述目标订单数据包括的第一数据字段和第一订单模型,输出所述目标订单数据,所述第一订单模型是基于所述多个第一数据字段训练得到的。
其中,所述分类数据库还包括第二子数据库,所述第二子数据库包括来自所述不同订单数据中的多个第二数据字段,所述多个第二数据字段的优先级低于所述多个第一数据字段的优先级,所述数据处理单元302还具体用于:
根据所述匹配的第一数据字段和所述关联关系从所述第二子数据库中获取所述目标订单数据包括的第二数据字段;
其中,根据所述目标订单数据包括的第二数据字段和第二订单模型,更新输出的所述目标订单数据,所述第二订单模型是基于所述多个第二数据字段训练得到的。
可选的,所述多个第一数据字段的优先级和所述多个第二数据字段的优先级与所述数据字段的重要程度和/或所述数据字段所在的订单数据的类型有关。
所述数据处理单元302具体还用于:
确定所述多个第一数据字段中每个第一数据字段的访问频率;
当某个第一数据字段的访问频率小于第一频率阈值时,降低所述第一数据字段的优先级,并将所述第一数据字段移动至所述第二子数据库。
所述数据处理单元302具体还用于:
确定所述多个第二数据字段中每个第二数据字段的访问频率;
当某个第二数据字段的访问频率大于第二频率阈值时,提高所述第二数据字段的优先级,并将所述第二数据字段移动至所述第一子数据库。
所述数据处理单元302具体还用于:
当所述第一子数据库包括的所述多个第一数据字段发生变化时,根据变化后的多个第一数据字段更新所述第一订单模型。
所述数据处理单元302具体还用于:
当所述第二子数据库包括的所述多个第二数据字段发生变化时,根据变化后的多个第二数据字段更新所述第二订单模型。
本申请实施例所涉及的一种数据处理装置,该装置可以为芯片或者处理设备,包括:存储器和处理器。其中,存储器用于存储该装置的程序代码和数据,处理器用于对图6所示的装置的动作进行控制管理,例如,处理器用于支持该装置执行上述方法实施例中的S101-S108,和/或用于本文所描述的技术的其他过程。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个数据处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种数据处理方法,其特征在于,包括:
接收数据查询请求,所述数据查询请求携带索引字段,所述数据查询请求用于查询目标订单数据;
根据所述索引字段查询分级数据库,所述分级数据库包括第一子数据库,所述第一子数据库包括来自不同订单数据中的多个第一数据字段,所述分级数据库中属于同一订单数据的数据字段之间存在关联关系;
当所述索引字段与所述多个第一数据字段中的一个第一数据字段匹配时,根据所述关联关系从所述第一子数据库中获取所述目标订单数据包括的第一数据字段,所述目标订单数据为所述匹配的第一数据字段所属的订单数据;
根据所述目标订单数据包括的第一数据字段和第一订单模型,输出所述目标订单数据,所述第一订单模型是基于所述多个第一数据字段训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述分级数据库还包括第二子数据库,所述第二子数据库包括来自所述不同订单数据中的多个第二数据字段,所述多个第二数据字段的优先级低于所述多个第一数据字段的优先级,所述方法还包括:
根据所述匹配的第一数据字段和所述关联关系从所述第二子数据库中获取所述目标订单数据包括的第二数据字段;
根据所述目标订单数据包括的第二数据字段和第二订单模型,更新输出的所述目标订单数据,所述第二订单模型是基于所述多个第二数据字段训练得到的。
3.根据权利要求2所述的方法,其特征在于,所述多个第一数据字段的优先级和所述多个第二数据字段的优先级与所述数据字段的重要程度和/或所述数据字段所在的订单数据的类型有关。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
确定所述多个第一数据字段中每个第一数据字段的访问频率;
当某个第一数据字段的访问频率小于第一频率阈值时,降低所述第一数据字段的优先级,并将所述第一数据字段移动至所述第二子数据库。
5.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
确定所述多个第二数据字段中每个第二数据字段的访问频率;
当某个第二数据字段的访问频率大于第二频率阈值时,提高所述第二数据字段的优先级,并将所述第二数据字段移动至所述第一子数据库。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一子数据库包括的所述多个第一数据字段发生变化时,根据变化后的多个第一数据字段更新所述第一订单模型。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述第二子数据库包括的所述多个第二数据字段发生变化时,根据变化后的多个第二数据字段更新所述第二订单模型。
8.一种数据处理装置,其特征在于,所述装置包括:
接收单元,用于接收数据查询请求,所述数据查询请求携带索引字段,所述数据查询请求用于查询目标订单数据;
数据处理单元,用于根据所述索引字段查询分级数据库,所述分级数据库包括第一子数据库,所述第一子数据库包括来自不同订单数据中的多个第一数据字段,所述分级数据库中属于同一订单数据的数据字段之间存在关联关系;
所述数据处理单元,还用于当所述索引字段与所述多个第一数据字段中的一个第一数据字段匹配时,根据所述关联关系从所述第一子数据库中获取所述目标订单数据包括的第一数据字段,所述目标订单数据为所述匹配的第一数据字段所属的订单数据;
输出单元,用于根据所述目标订单数据包括的第一数据字段和第一订单模型,输出所述目标订单数据,所述第一订单模型是基于所述多个第一数据字段训练得到的。
9.根据权利要求8所述的装置,其特征在于,所述分级数据库还包括第二子数据库,所述第二子数据库包括来自所述不同订单数据中的多个第二数据字段,所述多个第二数据字段的优先级低于所述多个第一数据字段的优先级,所述数据处理单元还用于:
根据所述匹配的第一数据字段和所述关联关系从所述第二子数据库中获取所述目标订单数据包括的第二数据字段;
根据所述目标订单数据包括的第二数据字段和第二订单模型,更新输出的所述目标订单数据,所述第二订单模型是基于所述多个第二数据字段训练得到的。
10.根据权利要求9所述的装置,其特征在于,所述多个第一数据字段的优先级和所述多个第二数据字段的优先级与所述数据字段的重要程度和/或所述数据字段所在的订单数据的类型有关。
11.根据权利要求8或9所述的装置,其特征在于,所述数据处理单元还用于:
确定所述多个第一数据字段中每个第一数据字段的访问频率;
当某个第一数据字段的访问频率小于第一频率阈值时,降低所述第一数据字段的优先级,并将所述第一数据字段移动至第二子数据库。
12.根据权利要求8或9所述的装置,所述数据处理单元还用于:
确定所述多个第二数据字段中每个第二数据字段的访问频率;
当某个第二数据字段的访问频率大于第二频率阈值时,提高所述第二数据字段的优先级,并将所述第二数据字段移动至所述第一子数据库。
13.根据权利要求8所述的装置,其特征在于,所述数据处理单元还用于:
当所述第一子数据库包括的所述多个第一数据字段发生变化时,根据变化后的多个第一数据字段更新所述第一订单模型。
14.根据权利要求9所述的装置,其特征在于,所述数据处理单元还用于:
当所述第二子数据库包括的所述多个第二数据字段发生变化时,根据变化后的多个第二数据字段更新所述第二订单模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130518.XA CN109815244A (zh) | 2019-02-21 | 2019-02-21 | 一种数据处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130518.XA CN109815244A (zh) | 2019-02-21 | 2019-02-21 | 一种数据处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815244A true CN109815244A (zh) | 2019-05-28 |
Family
ID=66607104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910130518.XA Pending CN109815244A (zh) | 2019-02-21 | 2019-02-21 | 一种数据处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815244A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377797A (zh) * | 2019-07-31 | 2019-10-25 | 重庆大司空信息科技有限公司 | 一种职业资格检索方法和*** |
CN113032392A (zh) * | 2021-02-26 | 2021-06-25 | 广东核电合营有限公司 | 标牌数据获取方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1828556A (zh) * | 2005-03-05 | 2006-09-06 | 腾讯科技(深圳)有限公司 | 一种数据存储的方法、***及设备 |
CN103020158A (zh) * | 2012-11-26 | 2013-04-03 | 中兴通讯股份有限公司 | 一种报表创建方法、装置和*** |
CN106874388A (zh) * | 2017-01-11 | 2017-06-20 | 中科院微电子研究所昆山分所 | 一种基于关系型数据库的异构***数据级联操作自动构建方法 |
CN106952072A (zh) * | 2016-01-26 | 2017-07-14 | 深圳市瑞福登信息技术服务有限公司 | 一种数据处理的方法及*** |
CN107871010A (zh) * | 2017-11-21 | 2018-04-03 | 重庆金融资产交易所有限责任公司 | 电子装置、报表数据库优化的方法及存储介质 |
-
2019
- 2019-02-21 CN CN201910130518.XA patent/CN109815244A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1828556A (zh) * | 2005-03-05 | 2006-09-06 | 腾讯科技(深圳)有限公司 | 一种数据存储的方法、***及设备 |
CN103020158A (zh) * | 2012-11-26 | 2013-04-03 | 中兴通讯股份有限公司 | 一种报表创建方法、装置和*** |
CN106952072A (zh) * | 2016-01-26 | 2017-07-14 | 深圳市瑞福登信息技术服务有限公司 | 一种数据处理的方法及*** |
CN106874388A (zh) * | 2017-01-11 | 2017-06-20 | 中科院微电子研究所昆山分所 | 一种基于关系型数据库的异构***数据级联操作自动构建方法 |
CN107871010A (zh) * | 2017-11-21 | 2018-04-03 | 重庆金融资产交易所有限责任公司 | 电子装置、报表数据库优化的方法及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377797A (zh) * | 2019-07-31 | 2019-10-25 | 重庆大司空信息科技有限公司 | 一种职业资格检索方法和*** |
CN113032392A (zh) * | 2021-02-26 | 2021-06-25 | 广东核电合营有限公司 | 标牌数据获取方法、装置、计算机设备和存储介质 |
CN113032392B (zh) * | 2021-02-26 | 2023-06-23 | 广东核电合营有限公司 | 标牌数据获取方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103688259B (zh) | 用于通过压缩和纵列存储进行自动数据放置的方法 | |
CN105069703B (zh) | 一种电网海量数据管理方法 | |
CN101876983B (zh) | 数据库分区方法与*** | |
KR102005831B1 (ko) | 범위-기반 검색을 위한 데이터 저장 관리 | |
CN106970958B (zh) | 一种流文件的查询与存储方法和装置 | |
CN100495400C (zh) | 一种全文检索***的索引在线更新方法 | |
CN110268394A (zh) | Kvs树 | |
CN108140040A (zh) | 存储器中数据库的选择性数据压缩 | |
CN109189835A (zh) | 实时生成数据宽表的方法和装置 | |
CN102629269B (zh) | 一种嵌入式数据库的检索及存储方法 | |
CN104636417A (zh) | 管理数据的***和方法 | |
CN103023982A (zh) | 一种云存储客户端的低延迟元数据访问方法 | |
CN102054000A (zh) | 数据查询方法、装置及*** | |
CN101556666A (zh) | 建立审计模型的方法、装置及审计*** | |
CN103631924B (zh) | 一种分布式数据库平台的应用方法和*** | |
CN100458784C (zh) | 在数字图书馆中所采用的检索***和检索方法 | |
EP2965492B1 (en) | Selection of data storage settings for an application | |
CN101405728A (zh) | 具有动态加载能力的关系数据库架构 | |
CN114116716A (zh) | 一种层次数据检索方法、装置和设备 | |
CN106933836A (zh) | 一种基于分表的数据存储方法和*** | |
CN101093482A (zh) | 一种大量信息存储和检索的方法 | |
CN108647266A (zh) | 一种异构数据快速分布存储、交互方法 | |
CN109815244A (zh) | 一种数据处理方法和装置 | |
CN108763323A (zh) | 基于资源集和大数据技术的气象格点文件应用方法 | |
CN102968456A (zh) | 一种栅格数据读取处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190528 |