CN112948504A - 数据采集方法、装置、计算机设备和存储介质 - Google Patents

数据采集方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112948504A
CN112948504A CN202110338940.1A CN202110338940A CN112948504A CN 112948504 A CN112948504 A CN 112948504A CN 202110338940 A CN202110338940 A CN 202110338940A CN 112948504 A CN112948504 A CN 112948504A
Authority
CN
China
Prior art keywords
data
information
field information
time interval
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110338940.1A
Other languages
English (en)
Other versions
CN112948504B (zh
Inventor
董光杰
顾永飞
杭军
吴金迎
钱津津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Group Co ltd
Original Assignee
Suning Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Group Co ltd filed Critical Suning Group Co ltd
Priority to CN202110338940.1A priority Critical patent/CN112948504B/zh
Publication of CN112948504A publication Critical patent/CN112948504A/zh
Priority to PCT/CN2021/131752 priority patent/WO2022205938A1/zh
Application granted granted Critical
Publication of CN112948504B publication Critical patent/CN112948504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据采集方法、装置、计算机设备和存储介质。所述方法包括:获取指定的时间区间信息,根据时间区间信息从业务数据库中采集对应时间区间内更新的第一数据;从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,中间表中包括待采集数据的特征字段的字段信息,待采集数据为根据预设的采集逻辑从业务数据库中确定出的数据;根据目标字段信息从业务数据库中采集第二数据;将第一数据和第二数据进行数据整合处理,得到目标数据。采用本方法能够提高数据采集的效率。

Description

数据采集方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据采集方法、装置、计算机设备和存储介质。
背景技术
随着数据处理技术的发展,出现了数据采集技术,数据采集一般是使用采集工具将源数据库中的源数据采集至大数据平台的数据仓库。
在传统数据采集方法中,通常采用数据更新时间作为筛选条件来采集增量数据,但是,在增量数据和部分存量数据存在关联性的时候,例如,采集退货表数据时,需要将新更新的退货订单的数据及该退货订单对应的原单的数据一起采集到数据仓库,才可以供下游进行统计分析。然而,在根据数据更新时间采集完增量数据后,为获取与该增量数据对应的部分存量数据,需要大数据中心平台利用全量计算的方式对历史存量数据进行计算,不仅消耗计算资源,而且降低了数据采集的效率。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据采集效率的数据采集方法、装置、计算机设备和存储介质。
一种数据处理方法,上述方法包括:
获取指定的时间区间信息,根据时间区间信息从业务数据库中采集对应时间区间内更新的第一数据;
从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,中间表中包括待采集数据的特征字段的字段信息,待采集数据为根据预设的采集逻辑从业务数据库中确定出的数据;
根据目标字段信息从业务数据库中采集第二数据;
将第一数据和第二数据进行数据整合处理,得到目标数据。
在一个实施例中,上述方法还包括:
将目标数据存入数据仓库中对应分区的分区表中。
在一个实施例中,上述中间表为设置于数据仓库中的数据表。
在一个实施例中,获取指定的时间区间信息之前,上述方法还包括:获取预设的采集逻辑信息;将业务数据库中符合采集逻辑信息的数据确定为待采集数据;从待采集数据的特征字段中提取字段信息存入中间表。
在一个实施例中,从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,包括:获取任务参数信息,从中间表中读取与任务参数信息匹配的字段信息存入临时表;从临时表存储的字段信息中筛选不匹配时间区间信息的目标字段信息。
在一个实施例中,根据目标字段信息从业务数据库中采集第二数据,包括:将目标字段信息作为查询条件对应的值生成结构化查询语言;根据结构化查询语言从业务数据库中采集第二数据。
在一个实施例中,将第一数据和第二数据进行数据整合处理之后,上述方法还包括:对数据整合处理之后的数据进行数据去重处理。
在一个实施例中,将第一数据和第二数据进行数据整合处理之后,上述方法还包括:将数据整合处理之后的数据与待采集数据进行比较,去掉与待采集数据不同的数据。
一种数据采集装置,上述装置包括:
第一数据采集模块,用于获取指定的时间区间信息,根据时间区间信息从业务数据库中采集对应时间区间内更新的第一数据;
字段信息获取模块,用于从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,中间表中包括待采集数据的特征字段的字段信息,待采集数据为根据预设的采集逻辑从业务数据库中确定出的数据;
第二数据采集模块,用于根据目标字段信息从业务数据库中采集第二数据;
数据整合处理模块,用于将第一数据和第二数据进行数据整合处理,得到目标数据。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的数据采集方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的数据采集方法的步骤。
上述数据采集方法、装置、计算机设备和存储介质,通过指定时间区间采集对应的第一数据,通过包含预先确定的待采集数据的字段信息的中间表筛选不是指定时间区间的目标字段信息,并根据目标字段信息采集对应的第二数据,最后将第一数据和第二数据进行整合后得到本次采集任务的目标数据,采用本方案可以快速地采集到指定时间区间内更新的数据以及与其有关联关系的历史数据,不再需要对历史数据进行全量计算,从而提高了数据采集的效率。
附图说明
图1为一个实施例中数据采集方法的应用环境图;
图2为一个实施例中数据采集方法的流程示意图;
图3为一个应用实例中分布式数据采集任务执行的技术构架图;
图4为一个应用实例中数据采集方法的流程示意图;
图5为一个实施例中数据采集装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请提供的数据采集方法,可以应用于如图1所示的应用环境中。其中,服务器102获取指定的时间区间信息,根据时间区间信息从业务数据库104中采集对应时间区间内更新的第一数据;从中间表106中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,中间表106中包括待采集数据的特征字段的字段信息,待采集数据为根据预设的采集逻辑从业务数据库中确定出的数据;根据目标字段信息从业务数据库104中采集第二数据;将第一数据和第二数据进行数据整合处理,得到目标数据。其中,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据采集方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202:获取指定的时间区间信息,根据时间区间信息从业务数据库中采集对应时间区间内更新的第一数据。
其中,业务数据库为存放业务数据的数据库,可以是关系型数据库或非关系型数据库等。业务数据库中可以包含至少一张业务数据表。第一数据为在指定的时间区间内更新至该业务数据库中的某张数据表中的数据。
具体地,用户可以将数据更新的时间区间作为数据筛选的条件来采集数据。时间区间信息可以是指示任意有效时间段或时间点的信息。服务器获取用户指定的时间区间信息,将该时间区间信息作为数据筛选的条件,将业务数据库中在该时间区间信息对应的时间区间内或时间点上更新的数据作为第一数据进行采集。
步骤S204:从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,中间表中包括待采集数据的特征字段的字段信息,待采集数据为根据预设的采集逻辑从业务数据库中确定出的数据。
其中,中间表为数据库中用于存放中间计算结果的数据表。待采集数据为根据用户自定义或预设的采集逻辑从业务数据库的数据中确定出的有待于采集的数据,确定待采集数据的目的是为了框定数据采集的范围。特征字段可以根据数据类型的不同进行适应性设置,例如,对于退货订单数据,特征字段可以包括订单号、订单行号、库号、表号和订单时间中的至少一个字段。字段信息可以是字段中的字段值。
具体地,服务器根据时间区间信息从中间表中存储的字段信息中进行匹配筛选,筛选出非该时间区间信息对应的时间区间内的待采集数据的字段信息,并将筛选出来的字段信息作为目标字段信息。例如,时间区间信息为昨日,则从中间表中筛选出非昨日更新的待采集数据的字段信息作为目标字段信息。
步骤S206:根据目标字段信息从业务数据库中采集第二数据。
其中,第二数据指的是根据目标字段信息从业务数据库中查询到的数据。具体地,服务器在获取到目标字段信息后,可以将目标字段信息作为数据筛选的条件,从业务数据库中查询包含所述目标字段信息的业务数据,可以采用匹配业务数据库的查询语言进行查询,例如,可以采用SQL语言(Structured Query Language,结构化查询语言)中的IN查询,将查询到的业务数据作为第二数据进行采集。
步骤S208:将第一数据和第二数据进行数据整合处理,得到目标数据。
具体地,将采集的第一数据和第二数据进行数据整合处理,将数据整合后得到的数据集合中的全部数据作为本次数据采集任务的目标数据。
上述数据采集方法,通过指定时间区间采集对应的第一数据,通过包含预先确定的待采集数据的字段信息的中间表筛选不是指定时间区间的目标字段信息,并根据目标字段信息采集对应的第二数据,最后将第一数据和第二数据进行整合后得到本次采集任务的目标数据,采用本方案可以快速地采集到指定时间区间内更新的数据以及与其有关联关系的历史数据,不再需要对历史数据进行全量计算,从而提高了数据采集的效率。
在一个实施例中,上述方法还包括:将目标数据存入数据仓库中对应分区的分区表中。本实施例,通过将采集得到的目标数据存入对应的分区表中,可以实现数据的快速分区分表,减少了大数据平台的数据仓库进行数据分区处理所消耗的计算资源,提高了数据处理的效率。其中,分区表可以是hive数据库中的数据表,此处可以支持将数据写入自定义格式或默认格式的分区表,自定义格式的hive数据表可以防止因部分字段内容包含换行符而导致的数据错乱问题的发生。
在一个实施例中,中间表为设置于数据仓库中的数据表。在本实施例中,中间表被设置于大数据平台的数据仓库中,可以是数据仓库中的一张或多张数据表,其格式不限,例如可以是hive数据表。在传统的采集方法中,会在业务数据库的各分库中创建一个中间表,然后抽某张表的数据时,采用该表关联(inner join)中间表的形式进行采集。例如,采集退货表数据时,通过退货表关联(inner join)中间表的方式进行查询,将新增退货订单数据及新增退货订单对应的原单数据一起采集到数据仓库,供下游销售数据统计分析。
本实施例,通过直接在数据仓库中设置存放数据采集中间数据的中间表,可以去掉业务***中业务数据库各分库的中间表。由于在业务数据库(数据源)中将数据写入中间表的前提是数据源需要被配置为具有读写权限,因此,导致传统的数据采集只能使用业务数据库主库,采集时降低了***性能,影响了业务的正常运作,同时数据的写操作也减低了数据库的安全性。通过采用本实施例的方法,去掉业务数据库中创建的中间表,不需要采用关联(inner join)中间表的方式进行查询,因此,可以使用业务数据备用库进行数据采集,对业务数据主库无影响,可以解耦业务***,保证***安全。
在一个实施例中,获取指定的时间区间信息之前,上述方法还包括:获取预设的采集逻辑信息;将业务数据库中符合采集逻辑信息的数据确定为待采集数据;从待采集数据的特征字段中提取字段信息存入中间表。
在本实施例中,在各采集任务开始之前,可以根据各采集任务的业务规则预先设定符合业务规则的采集逻辑信息,根据预设的采集逻辑信息可以确定数据采集的范围,即将符合该采集逻辑的数据确定为待采集数据,并提取待采集数据的特征字段中的字段信息存入中间表,其中,特征字段可以根据采集任务的不同预先进行指定,例如,可以指定订单号、订单行号、库号、表号或订单时间等字段为特征字段。
在一个实施例中,从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,包括:获取任务参数信息,从中间表中读取与任务参数信息匹配的字段信息存入临时表;从临时表存储的字段信息中筛选不匹配时间区间信息的目标字段信息。
在本实施例中,任务参数指的是采集任务启动前用户所配置该采集任务对应的参数,例如,可以通过大数据平台的spark任务进行数据采集,在启动spark任务时,服务器获取用户配置的任务参数,并加载该任务参数至spark任务。任务参数可以包括指定需查询的业务数据库、指定需采集的源表字段信息、指定需写入的分区表等信息。
本实施例,由于中间表中可以包括根据不同采集任务的采集逻辑信息预先确定的待采集数据,通过在采集任务启动前获取并加载用户配置的任务参数,可以从中间表中获取到符合当前采集任务的待采集数据,并将当前采集任务的待采集数据存入临时表以便进行后续处理。通过设置任务参数,可以进分布式任务执行,解决了单点任务的问题,提高了数据采集的效率。
在一个实施例中,根据目标字段信息从业务数据库中采集第二数据,包括:将目标字段信息作为查询条件对应的值生成结构化查询语言;根据结构化查询语言从业务数据库中采集第二数据。
本实施例,通过将目标字段信息作为查询条件对应的值,并生成结构化查询语言,例如,关系型数据库的IN查询语句,可以快速地从业务数据库中根据目标字段信息定位到对应的数据,提高了数据采集的效率。
在一个实施例中,将第一数据和第二数据进行数据整合处理之后,上述方法还包括:对数据整合处理之后的数据进行数据去重处理。本实施例,通过对数据进行去重处理,可以除去重复多余的数据,提高数据采集的准确性。
在一个实施例中,将第一数据和第二数据进行数据整合处理之后,上述方法还包括:将数据整合处理之后的数据与所述待采集数据进行比较,去掉与所述待采集数据不同的数据。本实施例,通过将预先确定的待采集数据和整合后的目标数据进行比较,可以排除非采集范围内的数据,进一步提高数据采集的准确性。
下面,结合一个应用实例对本申请的数据采集方法进行进一步说明,如图3至图4所示,图3示出了一个应用实例中分布式数据采集任务执行的技术构架图,4示出了一个应用实例中数据采集方法的流程示意图,具体包括以下步骤:
步骤1:中间表数据采集,中间表中的采集逻辑可以是多个场景逻辑的融合,比如退货表、换货表等,都可以根据业务需求定义对应的采集逻辑,此外,若订单行表的数据更新了,相关的扩展表、支付表等的数据都需要重新采集到最新的分区中,只要中间表中涵盖了该采集任务的待采集数据,后续该业务启动后就会把数据采集到最新的分区中。
步骤2:读取中间表数据,采集spark任务读取中间表数据到内存中,便于后续数据处理。
步骤3:增量采集退货表,该步骤为业务表数据采集的第一步,按照将业务表数据更新时间进行采集,采集的增量数据即为昨日新增的变化的数据,存放到内存中便于后续的统计汇总。
步骤4:采集非昨日新增数据,该步骤为业务表数据采集的第二步,将业务表的部分存量数据通过IN的方式查询出来,存放到内存中便于后续的统计汇总。
步骤5:合并过滤数据,读取前两步采集的增量数据和部分存量数据,并将两者进行汇总去重后,在与中间表数据进行过滤,排除比中间表多的数据。
步骤6:写入目标表,最后将上个步骤最后的数据根据用户配置的目标HIVE表及目标表格式,进行自动数据和表格格式的匹配,最终将数据写入到目标分区表中。
应该理解的是,虽然图2和4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种数据采集装置,包括:第一数据采集模块510、字段信息获取模块520、第二数据采集模块530和数据整合处理模块540,其中:
第一数据采集模块510,用于获取指定的时间区间信息,根据时间区间信息从业务数据库中采集对应时间区间内更新的第一数据;
字段信息获取模块520,用于从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,中间表中包括待采集数据的特征字段的字段信息,待采集数据为根据预设的采集逻辑从业务数据库中确定出的数据;
第二数据采集模块530,用于根据目标字段信息从业务数据库中采集第二数据;
数据整合处理模块540,用于将第一数据和第二数据进行数据整合处理,得到目标数据。
在一个实施例中,数据整合处理模块540,还用于将目标数据存入数据仓库中对应分区的分区表中。
在一个实施例中,第一数据采集模块510,还用于获取指定的时间区间信息之前,获取预设的采集逻辑信息;将业务数据库中符合采集逻辑信息的数据确定为待采集数据;从待采集数据的特征字段中提取字段信息存入中间表。
在一个实施例中,字段信息获取模块520获取任务参数信息,从中间表中读取与任务参数信息匹配的字段信息存入临时表;从临时表存储的字段信息中筛选不匹配时间区间信息的目标字段信息。
在一个实施例中,第二数据采集模块530将目标字段信息作为查询条件对应的值生成结构化查询语言;根据结构化查询语言从业务数据库中采集第二数据。
在一个实施例中,数据整合处理模块540,还用于将第一数据和第二数据进行数据整合处理之后,对数据整合处理之后的数据进行数据去重处理。
在一个实施例中,数据整合处理模块540,还用于将第一数据和第二数据进行数据整合处理之后,将数据整合处理之后的数据与待采集数据进行比较,去掉与待采集数据不同的数据。
关于数据采集装置的具体限定可以参见上文中对于数据采集方法的限定,在此不再赘述。上述数据采集装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储业务数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据采集方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取指定的时间区间信息,根据时间区间信息从业务数据库中采集对应时间区间内更新的第一数据;从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,中间表中包括待采集数据的特征字段的字段信息,待采集数据为根据预设的采集逻辑从业务数据库中确定出的数据;根据目标字段信息从业务数据库中采集第二数据;将第一数据和第二数据进行数据整合处理,得到目标数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将目标数据存入数据仓库中对应分区的分区表中。
在一个实施例中,处理器执行计算机程序实现获取指定的时间区间信息之前,还实现以下步骤:获取预设的采集逻辑信息;将业务数据库中符合采集逻辑信息的数据确定为待采集数据;从待采集数据的特征字段中提取字段信息存入中间表。
在一个实施例中,处理器执行计算机程序实现从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息时,具体实现以下步骤:获取任务参数信息,从中间表中读取与任务参数信息匹配的字段信息存入临时表;从临时表存储的字段信息中筛选不匹配时间区间信息的目标字段信息。
在一个实施例中,处理器执行计算机程序实现根据目标字段信息从业务数据库中采集第二数据时,具体实现以下步骤:将目标字段信息作为查询条件对应的值生成结构化查询语言;根据结构化查询语言从业务数据库中采集第二数据。
在一个实施例中,处理器执行计算机程序实现将第一数据和第二数据进行数据整合处理之后,还实现以下步骤:对数据整合处理之后的数据进行数据去重处理。
在一个实施例中,处理器执行计算机程序实现将第一数据和第二数据进行数据整合处理之后,还实现以下步骤:将数据整合处理之后的数据与待采集数据进行比较,去掉与待采集数据不同的数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取指定的时间区间信息,根据时间区间信息从业务数据库中采集对应时间区间内更新的第一数据;从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息,中间表中包括待采集数据的特征字段的字段信息,待采集数据为根据预设的采集逻辑从业务数据库中确定出的数据;根据目标字段信息从业务数据库中采集第二数据;将第一数据和第二数据进行数据整合处理,得到目标数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将目标数据存入数据仓库中对应分区的分区表中。
在一个实施例中,计算机程序被处理器执行实现获取指定的时间区间信息之前,还实现以下步骤:获取预设的采集逻辑信息;将业务数据库中符合采集逻辑信息的数据确定为待采集数据;从待采集数据的特征字段中提取字段信息存入中间表。
在一个实施例中,计算机程序被处理器执行实现从中间表中存储的字段信息中筛选不匹配时间区间信息的目标字段信息时,具体实现以下步骤:获取任务参数信息,从中间表中读取与任务参数信息匹配的字段信息存入临时表;从临时表存储的字段信息中筛选不匹配时间区间信息的目标字段信息。
在一个实施例中,计算机程序被处理器执行实现根据目标字段信息从业务数据库中采集第二数据时,具体实现以下步骤:将目标字段信息作为查询条件对应的值生成结构化查询语言;根据结构化查询语言从业务数据库中采集第二数据。
在一个实施例中,计算机程序被处理器执行实现将第一数据和第二数据进行数据整合处理之后,还实现以下步骤:对数据整合处理之后的数据进行数据去重处理。
在一个实施例中,计算机程序被处理器执行实现将第一数据和第二数据进行数据整合处理之后,还实现以下步骤:将数据整合处理之后的数据与待采集数据进行比较,去掉与待采集数据不同的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据采集方法,所述方法包括:
获取指定的时间区间信息,根据所述时间区间信息从业务数据库中采集对应时间区间内更新的第一数据;
从中间表中存储的字段信息中筛选不匹配所述时间区间信息的目标字段信息,所述中间表中包括待采集数据的特征字段的字段信息,所述待采集数据为根据预设的采集逻辑从所述业务数据库中确定出的数据;
根据所述目标字段信息从所述业务数据库中采集第二数据;
将所述第一数据和所述第二数据进行数据整合处理,得到目标数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述目标数据存入数据仓库中对应分区的分区表中。
3.根据权利要求2所述的方法,其特征在于,所述中间表为设置于所述数据仓库中的数据表。
4.根据权利要求1所述的方法,其特征在于,所述获取指定的时间区间信息之前,所述方法还包括:
获取预设的采集逻辑信息;
将所述业务数据库中符合所述采集逻辑信息的数据确定为待采集数据;
从所述待采集数据的特征字段中提取字段信息存入所述中间表。
5.根据权利要求1所述的方法,其特征在于,所述从中间表中存储的字段信息中筛选不匹配所述时间区间信息的目标字段信息,包括:
获取任务参数信息,从所述中间表中读取与所述任务参数信息匹配的字段信息存入临时表;
从所述临时表存储的字段信息中筛选不匹配所述时间区间信息的目标字段信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标字段信息从所述业务数据库中采集第二数据,包括:
将所述目标字段信息作为查询条件对应的值生成结构化查询语言;
根据所述结构化查询语言从所述业务数据库中采集第二数据。
7.根据权利要求1至6任意一项所述的方法,其特征在于,将所述第一数据和所述第二数据进行数据整合处理之后,所述方法还包括:
对数据整合处理之后的数据进行数据去重处理;和/或,
将数据整合处理之后的数据与所述待采集数据进行比较,去掉与所述待采集数据不同的数据。
8.一种数据采集装置,其特征在于,所述装置包括:
第一数据采集模块,用于获取指定的时间区间信息,根据所述时间区间信息从业务数据库中采集对应时间区间内更新的第一数据;
字段信息获取模块,用于从中间表中存储的字段信息中筛选不匹配所述时间区间信息的目标字段信息,所述中间表中包括待采集数据的特征字段的字段信息,所述待采集数据为根据预设的采集逻辑从所述业务数据库中确定出的数据;
第二数据采集模块,用于根据所述目标字段信息从所述业务数据库中采集第二数据;
数据整合处理模块,用于将所述第一数据和所述第二数据进行数据整合处理,得到目标数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110338940.1A 2021-03-30 2021-03-30 数据采集方法、装置、计算机设备和存储介质 Active CN112948504B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110338940.1A CN112948504B (zh) 2021-03-30 2021-03-30 数据采集方法、装置、计算机设备和存储介质
PCT/CN2021/131752 WO2022205938A1 (zh) 2021-03-30 2021-11-19 数据采集方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110338940.1A CN112948504B (zh) 2021-03-30 2021-03-30 数据采集方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112948504A true CN112948504A (zh) 2021-06-11
CN112948504B CN112948504B (zh) 2022-12-02

Family

ID=76227393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110338940.1A Active CN112948504B (zh) 2021-03-30 2021-03-30 数据采集方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN112948504B (zh)
WO (1) WO2022205938A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114791915A (zh) * 2022-06-22 2022-07-26 深圳高灯计算机科技有限公司 数据归集方法、装置、计算机设备和存储介质
WO2022205938A1 (zh) * 2021-03-30 2022-10-06 苏宁易购集团股份有限公司 数据采集方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408535A (zh) * 2018-09-28 2019-03-01 中国平安财产保险股份有限公司 大数据量匹配方法、装置、计算机设备及存储介质
CN110046168A (zh) * 2019-03-28 2019-07-23 苏宁易购集团股份有限公司 一种增量数据一致性实现方法及装置
CN110674154A (zh) * 2019-09-26 2020-01-10 浪潮软件股份有限公司 一种基于Spark的对Hive中数据进行***、更新和删除的方法
CN112182104A (zh) * 2020-09-25 2021-01-05 中国建设银行股份有限公司 一种数据同步方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912587A (zh) * 2016-03-31 2016-08-31 乐视控股(北京)有限公司 一种数据采集方法和***
CN107329998A (zh) * 2017-06-09 2017-11-07 广州虎牙信息科技有限公司 用户增量类数据获取方法、装置及设备
CN110262969B (zh) * 2019-06-13 2022-03-22 泰康保险集团股份有限公司 报表测试方法、装置、电子设备及计算机可读存储介质
CN110704523B (zh) * 2019-09-06 2023-08-11 中国平安财产保险股份有限公司 数据导出方法、装置、设备及计算机可读存储介质
CN112100219B (zh) * 2020-09-22 2024-01-30 平安养老保险股份有限公司 基于数据库查询处理的报表生成方法、装置、设备和介质
CN112948504B (zh) * 2021-03-30 2022-12-02 苏宁易购集团股份有限公司 数据采集方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408535A (zh) * 2018-09-28 2019-03-01 中国平安财产保险股份有限公司 大数据量匹配方法、装置、计算机设备及存储介质
CN110046168A (zh) * 2019-03-28 2019-07-23 苏宁易购集团股份有限公司 一种增量数据一致性实现方法及装置
CN110674154A (zh) * 2019-09-26 2020-01-10 浪潮软件股份有限公司 一种基于Spark的对Hive中数据进行***、更新和删除的方法
CN112182104A (zh) * 2020-09-25 2021-01-05 中国建设银行股份有限公司 一种数据同步方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022205938A1 (zh) * 2021-03-30 2022-10-06 苏宁易购集团股份有限公司 数据采集方法、装置、计算机设备和存储介质
CN114791915A (zh) * 2022-06-22 2022-07-26 深圳高灯计算机科技有限公司 数据归集方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2022205938A1 (zh) 2022-10-06
CN112948504B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN110276002B (zh) 搜索应用数据处理方法、装置、计算机设备和存储介质
CN106980636B (zh) 保单数据处理方法和装置
CN109215771B (zh) 医疗映射关系库建立方法、装置、计算机设备和存储介质
CN112948504B (zh) 数据采集方法、装置、计算机设备和存储介质
CN110727724B (zh) 数据抽取方法、装置、计算机设备和存储介质
CN109783457B (zh) Cgi接口管理方法、装置、计算机设备和存储介质
CN110232095B (zh) 一种数据同步方法、装置、存储介质和服务器
CN111984659B (zh) 数据更新方法、装置、计算机设备和存储介质
CN114385760A (zh) 增量数据实时同步的方法、装置、计算机设备及存储介质
CN117033424A (zh) 慢sql语句的查询优化方法、装置和计算机设备
CN114936269A (zh) 文档搜索平台、搜索方法、装置、电子设备及存储介质
CN109656947B (zh) 数据查询方法、装置、计算机设备和存储介质
CN107644041B (zh) 保单结算处理方法和装置
CN115544007A (zh) 标签预处理方法、装置、计算机设备和存储介质
CN113837584B (zh) 业务处理***和基于业务处理***的异常数据处理方法
CN110502540A (zh) 数据处理方法、装置、计算机设备和存储介质
CN112527786B (zh) 数据表分区新增方法、装置、计算机设备及存储介质
CN106776704B (zh) 统计信息收集方法和装置
CN112115328A (zh) 一种页面流量地图构建方法、装置及计算机可读存储介质
CN115858471A (zh) 业务数据变更记录方法、装置、计算机设备及介质
CN115098503A (zh) 空值数据处理方法、装置、计算机设备以及存储介质
CN112579705B (zh) 元数据采集方法、装置、计算机设备和存储介质
CN110969430B (zh) 可疑用户的识别方法、装置、计算机设备和存储介质
CN116431677B (zh) 基于内存数据库的数据路由方法、***和可读存储介质
CN113127549B (zh) 增量数据的同步方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant