CN113779066A - 一种数据提取方法、装置、存储介质及电子设备 - Google Patents
一种数据提取方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113779066A CN113779066A CN202111039298.3A CN202111039298A CN113779066A CN 113779066 A CN113779066 A CN 113779066A CN 202111039298 A CN202111039298 A CN 202111039298A CN 113779066 A CN113779066 A CN 113779066A
- Authority
- CN
- China
- Prior art keywords
- data
- extracted
- position information
- data element
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2445—Data retrieval commands; View definitions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据提取方法、装置、存储介质及电子设备,涉及数据处理领域,能够解决目前数据提取方案成本消耗过高,且效率和准确率也较低的问题,包括:获取待提取数据的数据要素项。根据映射规则和待提取数据的数据要素项,确定待提取数据的位置信息。根据待提取数据的位置信息,生成用于提取待提取数据的位置信息对应的数据的至少一个sql检索脚本。根据至少一个sql检索脚本,从数据库中提取待提取数据。本申请用于从数据库中智能批量地提取数据。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种数据提取方法、装置、存储介质及电子设备。
背景技术
目前,在进行数据展现测试时,需要从数据库读取相关数据。然而现阶段的技术方案每进行一次数据提取操作,就要针对该数据提取操作进行一次数据提取脚本的编写,并加载入数据库中以获得此次数据提取操作所需要的数据。这样的数据提取方案,成本消耗过高,且效率和准确率也较低。
发明内容
本申请提供一种数据提取方法、装置、存储介质及电子设备,能够从数据库中智能批量地提取数据,提高了数据提取的效率和准确率。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种数据提取方法,包括:获取待提取数据的数据要素项,待提取数据的数据要素项用于表征待提取数据的至少一个指标名称。根据映射规则和待提取数据的数据要素项,确定待提取数据的位置信息;映射规则用于表征数据要素项与位置信息的对应关系;待提取数据的位置信息用于表征待提取数据在数据库中的位置。根据待提取数据的位置信息,生成用于提取待提取数据的位置信息对应的数据的至少一个结构化查询语言sql检索脚本。根据至少一个sql检索脚本,从数据库中提取待提取数据。
基于上述技术方案,本申请首先获取待提取数据的数据要素项,并根据该数据要素项及映射规则来获取待提取数据在数据库中的位置信息,之后再生成sql检索脚本,并利用sql检索脚本按照待提取数据在数据库中的位置信息从数据库中批量提取待提取数据。由此使得用户在需要进行待提取数据提取时,能够从数据库中批量获取待提取数据,并且在数据提取过程中是由sql检索脚本来提取的,无需再对每次数据提取操作都进行脚本的人工编写。由此,实现了从数据库中的智能批量地提取数据,降低了成本消耗,提高了数据提取的效率和准确率。
在一种可能的实现方式中,在根据待提取数据的数据要素项和映射规则,获取待提取数据的数据属性信息之前,上述方法还包括:获取历史数据的数据要素项,历史数据的数据要素项用于表征历史数据的至少一个指标名称。根据历史数据的数据要素项与历史数据在数据库中的位置关系的对应关系,确定映射规则。
在一种可能的实现方式中,根据待提取数据的位置信息,生成用于提取待提取数据的位置信息对应的数据的至少一个sql检索脚本,具体包括:根据至少一个数据要素项对应的位置信息,确定一个sql检索脚本;其中,一个sql检索脚本用于提取一个sql检索脚本对应的至少一个数据要素项对应的数据。根据一个sql检索脚本,从数据库中提取至少一个数据要素项对应的数据;将提取到的所有数据要素项对应的数据确定为待提取数据。
在一种可能的实现方式中,上述方法还包括:若待提取数据的数据要素项中存在缺失数据要素项,则确定缺失位置信息;其中,缺失数据要素项为待提取数据的数据要素项中,在映射规则中没有对应的位置信息的数据要素项,缺失位置信息为缺失数据要素项对应的数据在数据库中的位置信息。根据缺失数据要素项与缺失位置信息的对应关系,更新映射规则。
在一种可能的实现方式中,上述方法还包括:若数据库的结构或内容发生改变,则更新映射规则。
第二方面,本申请提供一种数据提取装置,包括:获取单元和处理单元。获取单元,用于获取待提取数据的数据要素项,待提取数据的数据要素项用于表征待提取数据的至少一个指标名称。处理单元,用于根据映射规则和待提取数据的数据要素项,确定待提取数据的位置信息;映射规则用于表征数据要素项与位置信息的对应关系;待提取数据的位置信息用于表征待提取数据在数据库中的位置。处理单元,还用于根据待提取数据的位置信息,生成用于提取待提取数据的位置信息对应的数据的至少一个sql 检索脚本。处理单元,还用于根据至少一个sql检索脚本,从数据库中提取待提取数据。
在一种可能的实现方式中,获取单元,还用于获取历史数据的数据要素项,历史数据的数据要素项用于表征历史数据的至少一个指标名称。处理单元,还用于根据历史数据的数据要素项与历史数据在数据库中的位置关系的对应关系,确定映射规则。
在一种可能的实现方式中,处理单元,还用于根据至少一个数据要素项对应的位置信息,确定一个sql检索脚本;其中,一个sql检索脚本用于提取一个sql检索脚本对应的至少一个数据要素项对应的数据。处理单元,还用于根据一个sql检索脚本,从数据库中提取至少一个数据要素项对应的数据;将提取到的所有数据要素项对应的数据确定为待提取数据。
在一种可能的实现方式中,处理单元,还用于在待提取数据的数据要素项中存在缺失数据要素项时,确定缺失位置信息;其中,缺失数据要素项为待提取数据的数据要素项中,在映射规则中没有对应的位置信息的数据要素项,缺失位置信息为缺失数据要素项对应的数据在数据库中的位置信息。处理单元,还用于根据缺失数据要素项与缺失位置信息的对应关系,更新映射规则。
在一种可能的实现方式中,处理单元,还用于在数据库的结构或内容发生改变时,更新映射规则。
可选地,第二方面所述的数据提取装置还可以包括存储模块,该存储模块存储有程序或指令。当处理模块执行该程序或指令时,使得数据提取装置可以执行上述第一方面所述的数据提取方法。
此外,第二方面所述的数据提取装置的技术效果可以参考上述第一方面所述的数据提取方法的技术效果,此处不再赘述。
第三方面,本申请提供一种存储一个或多个程序的计算机可读存储介质,该一个或多个程序包括指令,上述指令当被本申请的电子设备执行时使电子设备执行如第一方面和第一方面的任一种可能的实现方式中所描述的数据提取方法。
第四方面,本申请提供一种电子设备,包括:处理器以及存储器;其中,存储器用于存储一个或多个程序,一个或多个程序包括计算机执行指令,当电子设备运行时,处理器执行存储器存储的计算机执行指令,以使电子设备执行如第一方面和第一方面的任一种可能的实现方式中所描述的数据提取方法。
第五方面,本申请提供一种包含指令的计算机程序产品,当该指令在计算机上运行时,使得本申请的电子设备执行如第一方面和第一方面的任一种可能的实现方式中所描述的数据提取方法。
第六方面,本申请提供一种芯片***,该芯片***应用于数据提取装置;所述芯片***包括一个或多个接口电路,以及一个或多个处理器。所述接口电路和所述处理器通过线路互联;所述接口电路用于从所述数据提取装置的存储器接收信号,并向所述处理器发送所述信号,所述信号包括所述存储器中存储的计算机指令。当所述处理器执行所述计算机指令时,所述数据提取装置执行如第一方面及其任一种可能的设计方式所述的数据提取方法。
附图说明
图1为申请的实施例提供的一种数据提取装置的架构示意图;
图2为本申请的实施例提供的一种数据提取方法的流程示意图;
图3为本申请的实施例提供的另一种数据提取方法的流程示意图;
图4为本申请的实施例提供的另一种数据提取方法的流程示意图;
图5为本申请的实施例提供的一种数据提取装置的结构示意图;
图6为本申请的实施例提供的另一种数据提取装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本文中字符“/”,一般表示前后关联对象是一种“或者”的关系。例如, A/B可以理解为A或者B。
本申请的说明书和权利要求书中的术语“第一”和“第二”是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一边缘服务节点和第二边缘服务节点是用于区别不同的边缘服务节点,而不是用于描述边缘服务节点的特征顺序。
此外,本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,在本申请实施例中,“示例性的”、或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、或者“例如”等词旨在以具体方式呈现概念。
为了便于理解本申请的技术方案,下面对本申请涉及到的一些技术术语进行介绍。
1、结构化查询语言(structured query language,sql)
sql是一种特殊目的编程语言,是一种数据库查询和程序设计语言,应用于数据库的管理,具体具备存取数据、查询数据、更新数据库等功能。
具体来说,sql是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库***,可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套,这使它具有极大的灵活性和强大的功能。
在本申请实施例中,通过sql来编写sql检索脚本,以从数据库中智能批量地提取用户所需的数据。
现有技术中,全量的业务数据存储在一个数据库中,需要进行数据提取的人员无权对数据库进行修改。当数据提取人员需要进行数据的提取时,需要从数据库中筛选查询。现阶段在进行数据的提取时,需要针对一次数据提取操作中的每一种数据来编写一次脚本,以从数据库中提取所需的数据。这样的方案不仅浪费成本,还会因脚本的大量编写导致频繁出错。
在本申请中,首先数据提取装置确定用户输入的所需的待提取数据的指标,并且根据指标确定待提取数据的数据要素项,数据要素项即为对待提取数据的特点的描述,包括至少一个指标,此指标即体现了数据提取人员对待提取数据的需求。之后,数据提取装置根据待提取数据的数据要素项,查询映射规则,获取待提取数据在数据库中的位置信息。由此,数据提取装置根据待提取数据的要素项和待提取数在数据库中的位置信息,生成与要素项对应的sql检索脚本。最后,sql检索脚本根据待提取数据在数据库中的位置信息来进行数据的提取,以获取待提取数据。
图1为本申请实施例所涉及的一种数据提取装置的架构示意图,该数据提取装置包括:要素项输入模块、映射规则库、映射规则管理模块、智能脚本生成模块、数据输出模块。
其中,要素项输入模块,用于获取用户输入的待提取数据的数据要素项,并将该数据要素项发送至映射规则库。
映射规则库,用于存储映射规则、数据库中全部数据的位置信息以及要素项全集。其中,要素项全集包括历史数据提取操作中所涉及到的全部数据要素项,映射规则体现了要素项全集与数据库中全部数据的位置信息之间的对应关系。映射规则库还用于在接收到待提取数据的数据要素项后,根据待提取数据的数据要素项,查询映射规则库存储的映射规则中所体现的数据要素项所对应的位置信息,以获取待提取数据在数据库中的位置信息,并将该待提取数据的位置信息和数据要素项发送至智能脚本生成模块。
映射规则管理模块,用于管理映射规则库中存储的映射规则、数据库中全部数据的位置信息以及要素项全集。例如,当出现了新的要素项时,映射规则管理模块将新增的要素项增加至要素项全集中,或者当数据库中的数据结构或内容出现变动时,根据数据库的具体变动情况,对全部数据的位置信息进行更新。并且,每当要素项全集或数据库中全部数据的位置信息有更新时,映射规则管理模块会针对更新后发生变化的数据,相应的更新映射规则。
智能脚本生成模块,用于在接收到来自映射规则库的待提取数据的位置信息和数据要素项之后,生成与用于提取待提取数据的位置信息对应的数据的sql检索脚本。
数据输出模块,用于运行智能脚本生成模块生成的sql检索脚本,从数据库中智能批量地提取数据,将其确定为待提取数据并输出。
在不同的应用场景中,要素项输入模块、映射规则库、映射规则管理模块、智能脚本生成模块、数据输出模块可以部署在数据提取装置包括的不同的设备中,也可以集成于数据提取装置包括的同一设备中,本申请对此不作具体限定。
当要素项输入模块、映射规则库、映射规则管理模块、智能脚本生成模块、数据输出模块集成于数据提取装置内同一设备时,要素项输入模块、映射规则库、映射规则管理模块、智能脚本生成模块、数据输出模块之间的通信方式为该设备内部模块之间的通信。这种情况下,五者之间的通信流程与“要素项输入模块、映射规则库、映射规则管理模块、智能脚本生成模块、数据输出模块之间相互独立的情况下,五者之间的通信流程”相同。
下面结合说明书附图,对本申请所提供的技术方案进行具体阐述。
在本申请实施例中,执行主体为数据提取装置,该数据提取装置可以是具备上述五种模块的功能的电子设备,也可以是该电子设备中的中央处理器(central proce-ssingunit,CPU),还可以是电子设备中用于数据提取的控制模块,还可以是电子设备中用于数据提取的应用客户端。本申请实施例中以数据提取装置来执行数据提取方法为例,对本申请提供的数据提取方法进行说明。
为了解决现有技术中无法低成本、高效精确的从数据库中提取数据的问题,本申请实施例提供一种数据提取方法。如图2所示,该数据提取方法包括以下步骤:
S201、数据提取装置获取待提取数据的数据要素项。
其中,数据要素项用于表征待提取数据的至少一个指标名称。可以理解,用户在进行数据提取之前,对待提取数据的各项指标进行总结并将其确定为数据要素项,待提取数据的指标即体现了数据提取人员对待提取数据的需求,表示数据提取人员需要获取的数据的类型和内容。
示例性的,若一次数据提取操作中,若数据提取装置要提取的是数据库内某银行在某地区2020年的利润状况,则数据要素项可以包括:地区名称(例如上海或北京)、机构层级(即为全辖分行还是一级分行)、时段划分(时段统计是分月统计还是分季度统计)、利润状况(即利润具体金额为多少)、统计周期(同比还是环比)等。
可选的,在用户确定待提取数据的数据要素项后,将数据要素项输入数据提取装置。示例性的,数据提取装置具备可供与用户交互的终端界面,以使得用户将数据要素项输入,本申请实施例对数据要素项的输入形式不做限定。
在一种可能的实现方式中,S201具体可由数据提取装置内所包括的要素项输入模块来执行,以获取待提取数据的数据要素项并将其发送至映射规则库。
S202、数据提取装置根据映射规则和待提取数据的数据要素项,确定待提取数据的位置信息。
其中,映射规则用于表征数据要素项与位置信息的对应关系。数据提取装置在接收到待提取数据的数据要素项后,根据映射规则确定每一个数据要素项对应的位置信息,并将该位置信息和数据要素项一并发送至智能脚本生成模块。
一种示例中,数据要素项#1为分行利润,要素项#1对应了2000个数据。数据要素项#2为上海地区利润,要素项#2对应了200个数据。数据提取装置在获取到数据要素项#1和数据要素项#2后,通过查询映射规则,获取到数据要素项#1和数据要素项#2的位置信息。之后,数据提取装置能够根据数据要素项#1和数据要素项#2的位置信息,在数据库中查询获取到位置信息指示的同时满足两个数据要素项条件的数据,也即“上海地区的分行利润”的具体金额数值。
在另一种示例中,一个要素项对应一个确定的位置信息,例如数据要素项#3为利润最高分行的营业额。此时,数据提取装置在获取到数据要素项#3后,通过查询映射规则,以获取数据要素项#3对应的位置信息。之后,数据提取装置根据数据要素项#3的位置信息,在数据库中提取该位置信息对应的数据,即“利润最高分行的营业额”的具体金额数值。
待提取数据的位置信息用于表征待提取数据在数据库中的位置。例如,待提取数据的位置信息包括待提取数据在数据库中的表头信息和行列信息,待提取数据的位置信息也可用其他类型的方式来表征待提取数据在数据库中的位置,本申请实施例对此不做限定。
可选的,数据提取装置将映射规则具现为映射规则列表。进一步的,数据提取装置根据接收到的数据要素项中每一项要素项的名称,在映射规则列表中检索,将每一项要素项在映射规则列表中对应的位置信息提取出来,并将这些位置信息确定为待提取数据的位置信息。可以理解的是,映射规则也可是以其他方式存储在数据提取装置中,本申请实施例对此不做限定。
在一种可能的实现方式中,S202具体可由数据提取装置内所包括的映射规则库来执行,以确定待提取数据的位置信息并将其与待提取数据的数据要素项发送至智能脚本生成模块。
S203、数据提取装置根据待提取数据的位置信息,生成用于提取待提取数据的位置信息对应的数据的至少一个sql检索脚本。
可选的,数据提取装置根据至少一个数据要素项对应的待提取的位置信息,确定一个sql检索脚本,一个sql检索脚本用于提取至少一个数据要素项对应的数据。也即,一个sql检索脚本可以对应一个或多个数据要素项。
示例性的,sql检索脚本的内容如以下举例所示:
需要说明的是,上述sql检索脚本的举例中,该sql检索脚本对应了多个数据要素项。
其中,语句“select org_name,level_2as二层,level_3as三层,level_4 as四层,level_5as五层,org_id as机构ID,day_id as时间,ind_val as指标项”为此sql检索脚本对应的待提取数据的位置信息。
语句“where org_name=‘上海’and level_2=‘净利润’and level_4=‘整体’and level_5=‘净利润’and day_id=‘20210331’”为此sql检索脚本对应的数据要素项。
下面结合以下表1来对sql检索脚本的数据提取结果进行举例说明。其中,表1为一个sql检索脚本进行数据检索并提取后的数据提取结果。
表1sql检索脚本数据提取结果
其中,第九列“ind_yoy”和第十列“ytd_total_amt”,及其对应的数据“0.1597000000”和“31.2990330000”即为该sql检索脚本提取的数据要素项为“上海净利润及整体净利润”所对应的数据库中的数据。
可以理解的是,数据提取装置通过智能生成sql检索脚本,且一个sql 检索脚本可以对应多个数据要素项和位置信息,由此数据提取装置能够通过sql检索脚本批量地从数据库中提取用户所需的数据。
在一种可能的实现方式中,S203具体可由数据提取装置内所包括的智能脚本生成模块来执行,以获取sql检索脚本并将sql检索脚本发送至数据输出模块。
S204、数据提取装置根据至少一个sql检索脚本,从数据库中提取待提取数据。
可选的,数据提取模块在生成至少一个sql检索脚本后,运行该sql检索脚本,将sql检索脚本提取的数据确定为待提取数据并输出该数据。
在一种可能的实现方式中,S204具体可由数据提取装置内所包括的数据输出模块来执行,以运行sql检索脚本来获取待提取数据并输出。
基于上述技术方案,本申请实施例通过获取待提取数据的数据要素项,并根据该数据要素项及映射规则来获取待提取数据在数据库中的位置信息,之后再生成sql检索脚本,并利用sql检索脚本按照待提取数据在数据库中的位置信息从数据库中批量提取待提取数据。由此使得用户在需要进行待提取数据提取时,能够从数据库中批量获取待提取数据,并且在数据提取过程中是由sql检索脚本来提取的,无需再对每次数据提取操作都进行人工编写脚本。由此,实现了从数据库中的智能批量地提取数据,降低了成本消耗,提高了数据提取的效率和准确率。
结合图2,如图3所示,本申请提供的数据提取方法还包括:
S301、数据提取装置获取历史数据的数据要素项。
其中,历史数据的数据要素项用于表征历史数据的至少一个指标名称。历史数据是用户在之前的大量历史数据提取操作中通过人工检索等其他方式来获取的数据。
S302、数据提取装置确定映射规则。
可以理解的是,数据提取装置通过总结大量历史数据提取操作中提取出的历史数据的数据要素项与历史数据在数据库中的位置信息的对应关系,来确定映射规则。进一步的,数据提取装置将总结出的映射规则存入映射规则库中,以供后续用户获取待提取数据时使用。
示例性的,如表1所示,对映射规则是一种列表的情形进行举例说明。在表1中,映射规则是用于表征数据要素项与待提取数据在数据库中的列头或表头名称和指标内容的列表。其中,部分要素项包括的内容有多个,例如要素项“机构层级”包括“全辖分行”和“一级分行”两个内容,要素项“时段划分”包括“全月”和“全季度”两个内容。指标内容即为数据库表头的子分类,例如当表头为“月度”时,指标内容对应为具体的月份名称(例如,一月、二月至十二月)。
表1映射规则表
结合图2,如图4所示,本申请提供的数据提取方法还包括:
S401、数据提取装置判断是否存在缺失数据要素项。
其中,缺失数据要素项为待提取数据的数据要素项中,在映射规则中没有对应的位置信息的数据要素项。
可以理解的是,若待提取数据的数据要素项中,存在缺失数据要素项,即代表用户此次所需要提取的待提取数据具备新的指标。也即,缺失数据要素项在总结出映射规则的历史数据提取操作中并未涉及。
S402、若存在缺失数据要素项,则数据提取装置获取缺失要素项对应的位置信息。
可选的,对缺失数据要素项对应的部分待提取数据中的每一个数据,进行检索脚本的撰写,以获取缺失要素项在数据库中对应的位置信息和缺失数据要素项对应的部分待提取数据。此处检索脚本的撰写即为现有技术中对数据提取的脚本的撰写方式,此处不再赘述。
可以理解的是,数据提取装置在完成针对缺失数据要素项进行检索脚本撰写后,后续的数据提取流程与正常数据要素项对应的流程相同,都是在数据提取装置的数据输出端进行从数据库的提取和输出。
S403、数据提取装置将缺失数据要素项与位置信息的对应关系更新加入映射规则中。
在一种可能的实现方式中,S403具体可由数据提取装置内所包括的映射规则管理模块来执行,以更新映射规则库中的映射规则。
基于上述步骤S401-S403,本申请能够在待提取数据的数据要素项中,具有在映射规则中没有对应的位置信息的数据要素项时,也即缺失数据要素项时,也能够保证待提取数据的正常提取和输出流程。并且在待提取数据提取完毕后,还能对映射规则进行更新,将缺失数据要素项与位置信息的对应关系补充更新入映射规则中,使得数据提取装置在后续再次遇到这些缺失数据要素项时,能够快速准确的进行待提取数据的提取和输出。
本申请实施例可以根据上述方法示例对数据提取装置进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本申请实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
示例性的,如图5所示,为本申请实施例所涉及的一种数据提取装置的一种可能的结构示意图。该数据提取装置500包括:获取单元501和处理单元502。
其中,获取单元501,用于待提取数据的数据要素项。例如,结合图2,获取单元501具体用于执行步骤S201。
处理单元502,用于根据映射规则和待提取数据的数据要素项,确定待提取数据的位置信息。例如,结合图2,确定单元502具体用于执行步骤S202。
处理单元502,还用于根据待提取数据的位置信息,生成用于提取待提取数据的位置信息对应的数据的至少一个sql检索脚本。例如,结合图2,确定单元502具体用于执行步骤S203。
处理单元502,还用于根据至少一个sql检索脚本,从数据库中提取待提取数据。例如,结合图2,确定单元502具体用于执行步骤S204。
可选的,获取单元501,还用于获取历史数据的数据要素项。例如,结合图3,获取单元501具体用于执行步骤S301。
可选的,处理单元502,还用于根据历史数据的数据要素项与历史数据在数据库中的位置关系的对应关系,确定映射规则。例如,结合图3,确定单元502具体用于执行步骤S302。
可选的,根据至少一个数据要素项对应的位置信息,确定一个sql检索脚本。例如,结合图2,确定单元502具体用于执行步骤S203。
可选的,处理单元502,还用于根据一个sql检索脚本,从数据库中提取至少一个数据要素项对应的数据。例如,结合图2,确定单元502具体用于执行步骤S203。
可选的,处理单元502,还用于将提取到的所有数据要素项对应的数据确定为待提取数据。例如,结合图2,确定单元502具体用于执行步骤 S203。
可选的,处理单元502,还用于在待提取数据的数据要素项中存在缺失数据要素项时,获取缺失位置信息。例如,结合图4,确定单元502具体用于执行步骤S401-402。
可选的,处理单元502,还用于根据缺失数据要素项与缺失位置信息的对应关系,更新映射规则。例如,结合图4,确定单元502具体用于执行步骤S403。
可选的,处理单元502,还用于在数据库的结构或内容发生改变,则更新所述映射规则。
可选地,数据提取装置500还可以包括存储单元(图5中以虚线框示出),该存储单元存储有程序或指令。当处理单元502执行该程序或指令时,使得数据提取装置可以执行上述方法实施例所述的数据提取方法。
此外,图5所述的数据提取装置的技术效果可以参考上述实施例所述的数据提取方法的技术效果,此处不再赘述。
示例性地,图6为上述实施例中所涉及的数据提取装置的又一种可能的结构示意图。如图6所示,数据提取装置600包括:处理器602。
其中,处理器602,用于对该数据提取装置的动作进行控制管理,例如,执行上述获取单元501和处理单元502执行的步骤,和/或用于执行本文所描述的技术方案的其它过程。
上述处理器602可以是实现或执行结合本申请内容所描述的各种示例性的逻辑方框,模块和电路。该处理器可以是中央处理器,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合, DSP和微处理器的组合等。
可选地,数据提取装置600还可以包括通信接口603、存储器601和总线604。其中,通信接口603用于支持数据提取装置600与其他网络实体的通信。存储器601用于存储该数据提取装置的程序代码和数据。
其中,存储器601可以是数据提取装置中的存储器,该存储器可以包括易失性存储器,例如随机存取存储器;该存储器也可以包括非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;该存储器还可以包括上述种类的存储器的组合。
总线604可以是扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。总线604可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的***,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例提供一种包含指令的计算机程序产品,当所述计算机程序产品在本申请的电子设备上运行时,使得所述计算机执行上述方法实施例所述的数据提取方法。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机执行该指令时,该本申请的电子设备执行上述方法实施例所示的方法流程中数据提取装置执行的各个步骤。
其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘。随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的人以合适的组合、或者本领域数值的任何其他形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit,ASIC)中。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (12)
1.一种数据提取方法,其特征在于,所述方法包括:
获取待提取数据的数据要素项,所述待提取数据的数据要素项用于表征所述待提取数据的至少一个指标名称;
根据映射规则和所述待提取数据的数据要素项,确定所述待提取数据的位置信息;所述映射规则用于表征所述数据要素项与所述位置信息的对应关系;所述待提取数据的位置信息用于表征所述待提取数据在数据库中的位置;
根据所述待提取数据的位置信息,生成用于提取所述待提取数据的位置信息对应的数据的至少一个结构化查询语言sql检索脚本;
根据所述至少一个sql检索脚本,从所述数据库中提取所述待提取数据。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述待提取数据的数据要素项和映射规则,获取所述待提取数据的数据属性信息之前,所述方法还包括:
获取历史数据的数据要素项,所述历史数据的数据要素项用于表征所述历史数据的至少一个指标名称;
根据所述历史数据的数据要素项与所述历史数据在数据库中的位置关系的对应关系,确定所述映射规则。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待提取数据的位置信息,生成用于提取所述待提取数据的位置信息对应的数据的至少一个sql检索脚本,具体包括:
根据至少一个数据要素项对应的所述位置信息,确定一个sql检索脚本;其中,所述一个sql检索脚本用于提取所述一个sql检索脚本对应的所述至少一个数据要素项对应的数据;
根据所述一个sql检索脚本,从数据库中提取所述至少一个数据要素项对应的数据;将提取到的所有所述数据要素项对应的数据确定为所述待提取数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述待提取数据的数据要素项中存在缺失数据要素项,则确定缺失位置信息;其中,所述缺失数据要素项为所述待提取数据的数据要素项中,在所述映射规则中没有对应的位置信息的数据要素项,所述缺失位置信息为所述缺失数据要素项对应的数据在数据库中的位置信息;
根据所述缺失数据要素项与所述缺失位置信息的对应关系,更新所述映射规则。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述数据库的结构或内容发生改变,则更新所述映射规则。
6.一种数据提取装置,其特征在于,所述数据提取装置包括:获取单元和处理单元;
所述获取单元,用于获取待提取数据的数据要素项,所述待提取数据的数据要素项用于表征所述待提取数据的至少一个指标名称;
所述处理单元,用于根据映射规则和所述待提取数据的数据要素项,确定所述待提取数据的位置信息;所述映射规则用于表征所述数据要素项与所述位置信息的对应关系;所述待提取数据的位置信息用于表征所述待提取数据在数据库中的位置;
所述处理单元,还用于根据所述待提取数据的位置信息,生成用于提取所述待提取数据的位置信息对应的数据的至少一个结构化查询语言sql检索脚本;
所述处理单元,还用于根据所述至少一个sql检索脚本,从所述数据库中提取所述待提取数据。
7.根据权利要求6所述的数据提取装置,其特征在于,
所述获取单元,还用于获取历史数据的数据要素项,所述历史数据的数据要素项用于表征所述历史数据的至少一个指标名称;
所述处理单元,还用于根据所述历史数据的数据要素项与所述历史数据在数据库中的位置关系的对应关系,确定所述映射规则。
8.根据权利要求7所述的数据提取装置,其特征在于,
所述处理单元,还用于根据至少一个数据要素项对应的所述位置信息,确定一个sql检索脚本;其中,所述一个sql检索脚本用于提取所述一个sql检索脚本对应的所述至少一个数据要素项对应的数据;
所述处理单元,还用于根据所述一个sql检索脚本,从数据库中提取所述至少一个数据要素项对应的数据;将提取到的所有所述数据要素项对应的数据确定为所述待提取数据。
9.根据权利要求8所述的数据提取装置,其特征在于,
所述处理单元,还用于在所述待提取数据的数据要素项中存在缺失数据要素项时,确定缺失位置信息;其中,所述缺失数据要素项为所述待提取数据的数据要素项中,在所述映射规则中没有对应的位置信息的数据要素项,所述缺失位置信息为所述缺失数据要素项对应的数据在数据库中的位置信息;
所述处理单元,还用于根据所述缺失数据要素项与所述缺失位置信息的对应关系,更新所述映射规则。
10.根据权利要求9所述的数据提取装置,其特征在于,
所述处理单元,还用于在所述数据库的结构或内容发生改变时,更新所述映射规则。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,所述指令当被电子设备执行时使所述计算机执行如权利要求1-5中任一项所述的数据提取方法。
12.一种电子设备,其特征在于,包括:处理器以及存储器;其中,所述存储器用于存储计算机执行指令,当所述电子设备运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述电子设备执行权利要求1-5中任一项所述的数据提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111039298.3A CN113779066A (zh) | 2021-09-06 | 2021-09-06 | 一种数据提取方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111039298.3A CN113779066A (zh) | 2021-09-06 | 2021-09-06 | 一种数据提取方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779066A true CN113779066A (zh) | 2021-12-10 |
Family
ID=78841334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111039298.3A Pending CN113779066A (zh) | 2021-09-06 | 2021-09-06 | 一种数据提取方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779066A (zh) |
-
2021
- 2021-09-06 CN CN202111039298.3A patent/CN113779066A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480198B (zh) | 一种分布式NewSQL数据库***和全文检索方法 | |
CN109766497B (zh) | 排行榜生成方法及装置、存储介质、电子设备 | |
CN110795455A (zh) | 依赖关系解析方法、电子装置、计算机设备及可读存储介质 | |
US20210240784A1 (en) | Method, apparatus and storage medium for searching blockchain data | |
US20210357461A1 (en) | Method, apparatus and storage medium for searching blockchain data | |
CN108304484A (zh) | 关键词匹配方法及装置、电子设备和可读存储介质 | |
US20160063107A1 (en) | Data retrieval via a telecommunication network | |
CN110019287A (zh) | 执行结构化查询语言sql指令的方法和装置 | |
CN111813744A (zh) | 文件的搜索方法、装置、设备及存储介质 | |
CN114661721A (zh) | 数据库表的处理方法和*** | |
CN114328612A (zh) | 查询优化器的数据处理方法、装置及电子设备 | |
CN113609128A (zh) | 生成数据库实体类的方法、装置、终端设备及存储介质 | |
CN111008198B (zh) | 业务数据获取方法、装置、存储介质、电子设备 | |
CN109697234B (zh) | 实体的多属性信息查询方法、装置、服务器和介质 | |
CN112115150A (zh) | 嵌入式内存数据库的数据管理方法、终端设备及介质 | |
CN113779066A (zh) | 一种数据提取方法、装置、存储介质及电子设备 | |
CN111090668A (zh) | 数据检索方法及装置、电子设备和计算机可读存储介质 | |
US10198249B1 (en) | Accessing schema-free databases | |
CN113868138A (zh) | 测试数据的获取方法、***、设备及存储介质 | |
CN113779362A (zh) | 数据搜索方法及装置 | |
EP2990960A1 (en) | Data retrieval via a telecommunication network | |
CN112988986A (zh) | 人机交互方法、装置与设备 | |
CN112069185B (zh) | 索引构建方法、装置、电子设备和介质 | |
US20240256613A1 (en) | Data processing method and apparatus, readable storage medium, and electronic device | |
CN110727672A (zh) | 数据映射关系查询方法、装置、电子设备及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |