CN105095240A - 数据库的数据样本采集 - Google Patents

数据库的数据样本采集 Download PDF

Info

Publication number
CN105095240A
CN105095240A CN201410182652.1A CN201410182652A CN105095240A CN 105095240 A CN105095240 A CN 105095240A CN 201410182652 A CN201410182652 A CN 201410182652A CN 105095240 A CN105095240 A CN 105095240A
Authority
CN
China
Prior art keywords
data
rule
data sample
sample collection
object table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410182652.1A
Other languages
English (en)
Other versions
CN105095240B (zh
Inventor
马军
尹祥龙
李岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201410182652.1A priority Critical patent/CN105095240B/zh
Publication of CN105095240A publication Critical patent/CN105095240A/zh
Application granted granted Critical
Publication of CN105095240B publication Critical patent/CN105095240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据库的数据样本采集,属于数据库的数据查询技术领域。该数据样本采集中对每条数据进行以下数据筛选处理过程:判断每条数据是否满足每条数据样本采集规则以获得每条数据的规则满足情况;判断每条数据的规则满足情况是否在用于记录数据样本的目的表中相应存在,判断为“是”则不采集该条数据至目的表,判断为“否”则该条数据被判断为需要采集的数据并被更新存储到目的表中,该条数据的相应规则满足情况也被更新存储到目的表中。并且对目的表的当前数据样本进行显示,从而可操作地基于显示判断相应的数据样本采集规则是否需要进行调整配置。该方法易于实现自动连续采集,数据采集和查询效率高,数据冗余少,并且规则灵活可变。

Description

数据库的数据样本采集
技术领域
本发明属于数据库的数据查询技术领域,涉及数据样本的采集过程,尤其涉及规则可变且可实现连续采集的数据样本采集、以及基于该采集方法的数据查询。
背景技术
随着大数据时代的来临,数据库中的海量数据库的数据查询变得越来难,耗时也越来越长。现有技术中,存在各种程序或脚本以某一规则完成数据库的数据查询,但没有一种有效的对数据库进行数据样本的连续采集的方法。
目前,数据库的数据样本的采集主要通过专业技术人员编写数据库脚本进行数据样本的筛选和合并,这种方法需要专人进行维护,耗时长,数据容易出现较高冗余,难持久坚持,且在很大程度上依赖使用人员的专业水平,尤其是在源数据量和目标数据量非常大时,处理速度慢、数据冗余多、维护和管理成本高的问题更显突出。
有鉴于此,有必要提出一种新型的数据样本采集方法。
发明内容
本发明的目的之一在于,实现对数据库的数据样本连续采集。
本发明的又一目的在于,建立数据冗余度低的数据样本集合。
为实现以上目的或者其他目的,本发明提供以下技术方案。
按照本发明的一方面,提供一种数据样本采集方法,其中,包括以下步骤:
  提供多条可配置的数据样本采集规则;
  提供被采集的目标数据库以确定源数据;
  对所述目标数据库进行源数据的扫描搜索;
  解析多条所述数据样本采集规则,并且基于解析的多条所述数据样本采集规则对每条数据进行以下数据筛选处理过程:
    判断每条数据是否满足每条数据样本采集规则以获得每条数据的规则满足情况,
    判断每条数据的规则满足情况是否在用于记录数据样本的目的表中相应存在,如果判断为“是”则不采集该条数据至所述目的表,如果判断为“否”则该条数据被判断为需要采集的数据并被更新存储到所述目的表中,该条数据的相应规则满足情况也被更新存储到所述目的表中;
  对所述目的表中存储的规则满足情况进行统计;以及
  基于所述统计的结果,对所述目的表的当前数据样本进行显示,从而可操作地基于所述显示判断相应的数据样本采集规则是否需要进行调整配置。
根据本发明一实施例的数据样本采集方法,其中,在所述数据筛选处理过程中,采用数据内存分块方法来将所述源数据依次写入到共享内存的K块数据区中,K为大于或等于2的整数。
根据本发明又一实施例的数据样本采集方法,其中,在判断判断每条数据的规则满足情况步骤中,使用内存字段定位法来确定某条数据的对应某一条数据样本采集规则的规则字段值在所述共享内存所对应的内存地址的字段值,从而将该内存地址的字段值与对应的数据样本采集规则进行比较判断。
可选地,所述源数据被存储目标数据库的一张或多张源表中。
在之前所述任一实施例的数据样本采集方法中,在解析所述数据样本采集规则的步骤中,对所述数据样本采集规则进行初始化,从而将其转化成便于判断一条数据中一个或多个字段是否匹配的规则;其中,被初始化的数据样本采集规则被存入共享内存中。
在之前所述任一实施例的数据样本采集方法中,优选地,从数据库对所述源表进行索引获取和格式分析。
在之前所述任一实施例的数据样本采集方法中,优选地,将对所述源表的索引与数据样本采集规则进行比较判断;如果存在数据样本采集规则与所述索引相一致,则在搜索所述源表的源数据时使用与所述索引相一致的所述数据样本采集规则作为搜索条件;如果不存在数据样本采集规则与所述索引相一致,则顺序扫描整个源表以搜索所述源表的源数据。
在之前所述任一实施例的数据样本采集方法中,根据所述源数据的条数以及共享内存中每块数据区可容纳的数据条数,计算源数据的数据分块数量。
在之前所述任一实施例的数据样本采集方法中,优选地,在共享内存的每块数据区的源数据写入完毕后,对该数据区的每条数据的规则满足情况进行判断。
在之前所述任一实施例的数据样本采集方法中,优选地,以多进程并发方式进行规则满足情况的判断。
在之前所述任一实施例的数据样本采集方法中,优选地,在所述判断每条数据的规则满足情况是否在所述目的表中相应存在的步骤中,按所述数据区的分块依次进行;并且在某一数据区的每条数据的规则满足情况的判断结束后,判断该块数据区的每条数据的规则满足情况是否在所述目的表中相应存在。
按照本发明的又一方面,提供一种数据查询方法,其包括以下步骤:
采用以上所述及的任一种数据样本采集方法获取用于记录数据样本的目的表;
在所述目的表上输入查询条件,并且匹配所述查询条件所对应的一个或多个数据数据采集规则;以及
基于所匹配的所述数据采集规则返回目的表中符合所述查询条件的所有数据,输出相应的查询结果。
按照本发明的还一方面,提供一种采集数据库的数据样本的装置,其包括:
  规则数据库,用于提供多条可配置的数据样本采集规则;
  目标数据库,用于提供被采集的目标数据库以确定源数据;
  搜索引擎模块,其用于对所述目标数据库进行源数据的扫描搜索;
  规则解析引擎模块,其用于解析多条所述数据样本采集规则,并且基于解析的多条所述  数据样本采集规则对每条数据进行以下数据筛选处理过程:
    判断每条数据是否满足每条数据样本采集规则以获得每条数据的规则满足情况,
    判断每条数据的规则满足情况是否在用于记录数据样本的目的表中相应存在,如果判断为“是”则不采集该条数据至所述目的表,如果判断为“否”则该条数据被判断为需要采集的数据并被更新存储到所述目的表中,该条数据的相应规则满足情况也被更新存储到所述目的表中;
  结果数据处理模块,其用于对所述目的表中存储的规则满足情况进行统计;
  结果数据展示模块,其用于基于所述统计的结果,对所述目的表的当前数据样本进行显示;以及
  数据规则管理模块,其用于基于所述显示判断相应的数据样本采集规则是否需要进行调整配置。
根据板发明一实施例的装置,其中,在所述数据筛选处理过程中,采用数据内存分块方法来将所述源数据依次写入到共享内存的K块数据区中,K为大于或等于2的整数。
根据板发明又一实施例的装置,其其中,在判断判断每条数据的规则满足情况步骤中,使用内存字段定位法来确定某条数据的对应某一条数据样本采集规则的规则字段值在所述共享内存所对应的内存地址的字段值,从而将该内存地址的字段值与对应的数据样本采集规则进行比较判断。
本发明的数据样本采集方法能够方便的持续采集设定规则下的各种数据样本,可以有效减少采集的数据的冗余性,有利于提高数据样本采集效率、数据查询效率的同时,提高数据的覆盖性,而且能够根据用户的需要提供全面的数据样本;并且数据样本采集规则可以根据采集结果的显示来进行调整配置,因此,规则灵活可变,可扩展性好。
附图说明
从结合附图的以下详细说明中,将会使本发明的上述和其他目的及优点更加完整清楚,其中,相同或相似的要素采用相同的标号表示。
图1是按照本发明一实施例的数据样本采集方法的基本流程示意图。
图2是图1的数据样本采集方法的其中一次数据样本采集的方法流程示意图。
具体实施方式
下面介绍的是本发明的多个可能实施例中的一些,旨在提供对本发明的基本了解,并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解,根据本发明的技术方案,在不变更本发明的实质精神下,本领域的一般技术人员可以提出可相互替换的其他实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
图1所述为按照本发明一实施例的数据样本采集方法的基本流程示意图。图2所示为图1的数据样本采集方法的其中一次数据样本采集的方法流程示意图。以下结合图1和图2进行详细说明。
如图1所示,首先录入数据样本采集规则(以下简称为“规则”),在该实施例中,配置有规则数据库120,其可以存储用户录入的诸多规则,并提供给用户进行数据样本采集。具体地,用户可以根据具体需要自主地配置的规则数据库120,其中,每条规则是指根据数据中的各要素判断是否满足某种情况,示例地,对于一个记录人员信息的表格,规则可以是判断一个人员是否为男性,即根据数据中的sex(性别)字段是否等于“男”来设定这条规则。通过数据规则管理模块190支持用户新增、删除、修改等方式调整配置1条或多条规则以形成新的规则集合,例如,包括V条规则的规则集合(V为大于或等于2的整数),其被存储在规则数据库120中,数据规则管理模块190可以对规则数据库120中的规则进行配置。
必然地,在数据样本采集过程中,需要录入待搜索或采集的源数据,用户配置搜索的数据样本的来源,即一个或多个数据库的连接信息和对应的表格信息等,如图1所示,源数据库1至源数据库n为提供待搜索或采集的源数据的数据库110。具体地,通过配置数据库的联接信息(如IP,端口,库名)以及相应的大纲(schema)名和表格名称等,就可以使其成为搜索引擎新增的源数据。
进一步提供数据库源数据搜索引擎130,通过该搜索引擎130,根据用户配置的源数据的数据库信息,进行定时或者间隔地对相应的数据库进行相关数据的搜索和采集。
进一步提供数据规则解析引擎140,通过该解析引擎140,对用户录入的数据样本采集规则集合进行解析,得出具体详细的对应采集数据的判断标准。
进一步,通过并通过数据筛选处理模块150来确定每条数据的规则满足情况并基于该规则满足情况判断该条数据是否符合采集要求,从而确定对该条数据的取舍与否。其中,以规则集合中包括V条规则为例,每条规则被解析后,判断搜索到的每条的数据是否满足V条规则中的每条规则,满足则定义为“1”,不满足则定义为“0”,因此,可以获得以数组{k1,k2,…,kV}来表示规则满足情况,k1-kV取值为0或1;继续判断每条数据的规则满足情况{k1,k2,…,kV}是否在用于记录数据样本的目的表中相应存在,其中目的表存储在目的数据库200中,如果判断为“是”,则判断该条数据为冗余数据,不采集该条数据至目的表,如果判断为“否”,则判断该条数据为需要采集的数据,并被更新存储到相应的目的表中,该条数据的相应规则满足情况{k1,k2,…,kV}也被对应地更新存储到该目的表中;直到所有源数据都完成以上过程。需要理解的是,可以持续地对搜索到的源数据进行以上数据筛选处理过程。
以下结合图2对一次数据样本采集的过程进行示例说明。
首先,规则数据库120提供规则数据集,例如其包括用户录入的V条规则,并且,数据库110提供源数据库以及存储源数据的源表。
步骤S211,对录入的数据样本采集规则进行初始化,从而将其转化成便于判断一条数据中某个或某些字段是否匹配的简单规则,同时结合目前的目的表中数据样本对于规则的满足状态,通过数据规则管理模块190,可配置地调整相应规则到目前尚需数据的条件,因此,可以方便地实现规则可变。被初始化的规则被装入共享内存中,便于后面的“规则判断进程”,提高比较判断速度。
同时,步骤S221,源数据搜索引擎130连接上某一个源数据库,对其中的源表进行索引获取和格式分析。
进一步,步骤S222,将当前的索引和相应的规则进行比较判断,从而检查是否有规则与索引字段相一致,即步骤S223,判断规则是否在索引上;若规则与索引字段一致,进入步骤S224,在搜索源表时可使用其中某个或某些规则作为搜索条件,这样,可以减少后面的“规则判断进程”和数据量;若规则和索引字段不一致,也即不匹配,则顺序扫描整个源表;最后都实现步骤S231,获取相应的源数据。通过源表格式和规则比较,可以把规则对应的那些字段在一条记录上确定出相应的位置和字段长度,并在共享内存中记录下来,便于后面的内存字段定位和比较。
优选地,在该实施例中,使用数据内存分块的方法来将源数据依次存放到共享内存中,首先,步骤S232,根据源数据的条数N以及共享内存中每块数据区可容纳的数据条数M(M为大于2的整数),计算数据分块数量K,K=[N/M],[N/M]表示N除以M取整(有小数则进1)。
假设,源表的数据量为N条,进程共享内存中分为K块数据区,按照每块数据区可容纳M条数据,并且按照源表的数据格式初始化,那么,源表可以分为[N/M]块数据,分[[N/M]/K]批依次放到共享内存中。[N/M]表示N/M取整(有小数则进1),[[N/M]/K]表示[N/M]除以K取整(有小数则进1)。
进一步,步骤S233,在源表上申请获取源数据的游标。
步骤S234,在该步骤中,引入了规则判断条件的更新步骤。
步骤S235、S236和步骤S241,将源表的数据分成K块依次写入K块数据区的共享内存中;具体地,通过源表上的游标不断把数据读取并顺序放入共享内存的第一块数据区,当第一块数据写入源数据完毕,“源数据获取进程”相应更新第一块数据区写入完毕的标识(假设为F11)为成功,并继续进行第二块数据区的数据写入,依次不断地进行,直到第K块数据区写入完毕,直至第K块数据区写入完毕,即第K块数据区写入完毕的标识被更新为F1K。在以上分块写入过程中,判断N条源数据是否读取完毕,在该实施例中,第K块数据区写入完毕后,表示源数据读取完毕,进入步骤S241,数据结束源数据的分块写入处理。
步骤S242,在共享内存中的任何一块数据区被写入完毕后,对相应数据区的每条数据的规则满足情况,即规则判断进程。在该优选实施例中,多进程并发进行规则满足情况的判断,以第一块数据区的源数据的判断为例,可以某个或某些规则对应一个判断进程,进行规则判断时,使用内存字段定位法来在共享内存数据区中快速获取字段值,并与内存中对应的规则进行比较,每个“规则判断进程”把所处理的规则满足情况实时更新到相应的一个共享内存的规则满足情况中,在该实施例中以数组表示规则满足情况,该数组假定是一个二维数组A[M][V],M即内存中每块数据区可容纳的数据条数,V为规则条数,数组中的某个值A[m][v]为当前处理的数据区的第m条数据对第v个的规则满足情况,1≤m≤M,1≤v≤V,满足则为1,不满足则为0。当规则判断多进程处理结束第一块数据时,会更新规则判断进程结束标识(假设为F21)为成功,并轮询等待第二块数据区写完标识F12的成功状态,一旦第二块数据区写入完毕,则对第二块数据区的数据进行多进程并发进行规则满足情况的判断。依次类推,直至完成对第K块数据区的数据进行多进程并发进行规则满足情况的判断,第K块数据区的规则判断进程结束标识被更新为F2K。
需要理解的是,在本发明实施例中,由于是采用使用数据内存分块的方法来将源数据依次存放到共享内存中,在共享内存的上一块数据区所对应的源数据在进行规则满足情况的判断时,同时,可以对当前块数据区进行数据写入或存放,并在当前块数据区的数据写入完毕后,开始对其规则满足情况的判断,依次类推,因此,可以实现数据样本的自动连续采集。
在以上优选实施例的内存字段定位法中,通过源表的格式,得出每个规则字段的长度值l,以及计算出每个规则字段从每条数据首字节的偏移量O和每条记录的长度值L,假设正在处理中的共享内存数据区的首地址为A,那么规则对应的每个字段在共享内存中进行匹配的时候,第y条记录的规则字段的值等于在A+O+L*(y-1)内存地址开始取l长度所获得的值。
进一步,步骤S243,“规则判断结果处理进程”轮询等待第一块数据区的规则满足情况的判断是否处理处理结束,标识为F21时,则表示判断进程结束,则进行第一块数据区的处理,把数据区中判断为需要采集的数据时,该数据被更新存储到目的数据200的相应目的表中,即,步骤S244。在第一块数据区的“规则判断结果处理进程”结束时,则更新第一块数据区的规则判断结果处理结束标识(假设为F31)为成功,并轮询等待第二块数据区的规则判断进程结束标识F22的成功状态,一旦第二块数据区的规则满足情况判断结束,则进行第二块数据区的规则判断结果处理。依次类推,直至第K块数据区“规则判断结果处理进程”结束,即第K块数据区的规则判断结果处理结束标识被更新为F3K。
需要理解的是,由于对共享内存中的每块数据区进行以上步骤S241、S242和S243的依次处理过程,对于不同的数据区,以上步骤S241、S242和S243是可以同步地进行的。并且,在每块数据区被更新为规则判断结果处理结束时,也即被标识为F3N时(1≤N≤K),可以继续写入其他源表的源数据,进行新一轮的数据筛选处理。这样也有利于数据的自动连续采集。
在上述步骤S243中,对于每条数据来说(不管来自共享内存的哪块数据区),其规则判断结果处理过程主要包括以下步骤:
首先,判断每条数据的规则满足情况是否在用于记录数据样本的目的表中相应存在,例如,当前处理的数据区的第m条数据对V条的规则满足情况,可以用一个数组{m1,m2,…,mM}来表示。
如果该条数据的规则满足情况在目的表中已经存在(例如,数组{m1,m2,…,mM}在目的表中已经存在),则判断该条数据为冗余数据,不采集该条数据至目的表,即不执行步骤S244;如果该条数据的规则满足情况在目的表中不存在,则判断该条数据为需要采集的数据,并被更新存储到相应的目的表中,即执行步骤S244。
以上步骤S243和步骤S242均发生在图1中的数据筛选处理模块150中。
进一步,步骤S244,如上所述,如果某条数据的规则满足情况在目的表中不存在,则判断该条数据为需要采集的数据,并被更新存储到相应的目的表中,该条数据的相应规则满足情况{m1,m2,…,mM}也被对应地更新存储到该目的表中,
进一步,步骤S245,在该步骤中,规则满足情况统计进程不断轮询目的表数据(统计进程主要是统计目的表中数据对所有规则的满足情况);并且把规则满足情况及时更新到目的表的规则满足情况,即步骤S246,例如以上实施例的第m条数据的相应规则满足情况{m1,m2,…,mM}也被对应地更新存储到该目的表的规则状态中。因此,该目的表的所有数据的统计情况得到更新。
同时,在步骤S234中,数据规则判断条件更新进程则轮询目的表的规则状态,并根据最新状态更新共享内存中的规则条件,供其后的规则满足情况的判断过程中使用。这样,可以根据目的表的状态(即目的表现存的规则满足情况)来调整数据筛选时的规则判断条件。
以上步骤S244、S245和S246基本在如图1所示的结果数据处理模块160中完成。
至此,示例地说明了基于V条规则的一次数据样本采集的过程。
继续如图1所示,在数据被采集至目的表之后,进行结果数据展示过程,主要是根据每个目的表的统计结果,对目前所有目的表的数据样本(也即目的表存储的数据)进行实时动态显示,这样,使得用户可以及时了解当前数据采集的状况,并且可以让用户通过其获知的数据采集状况来判断设定的规则是否合理,以便及时根据具体情况进行规则调整配置。这样实现了规则的可变性。在该实施例中,可以通过数据规则管理模块190,可配置地调整相应规则到目前尚需数据的条件,此步骤可以在图2的S246到步骤S211的过程完成。
至此,数据库的数据样本采集方法过程已经基本示出。
需要理解的是,在上述的“数据样本采集规则”中,数据样本采集规则主要指为了采集需要的数据而认为地设定的规则,所以一般与具体某数据库的某张源表形成对应关系,可以为一源张表设定多条数据样本采集规则,一条数据样本采集规则也可以被多张源表使用。所以,数据库的源表与数据样本采集规则之间的关系包括“1对1”、“1对多”、“多对1”、“多对多”等关系,它们之间并不限于是一一对应的。
需要指出的是,以上数据样本采集方法用到的规则参数可以选择通过文档(如Excel)或数据库(例如规则数据库120)来进行录入和存储。并且,本发明实施例的数据样本采集方法可以选择在Unix平台或Windows平台实现,采集的数据样本的结果报告可以允许用户设定组织规则,采集的数据样本集允许用户根据需要进行查询和导出。
在本发明的实施例中,基于以上采集的数据样本进行进一步的数据查询。如图1所示的结果数据查询模块180,通过用户在某张目的表上输入一定的查询条件,该条件通常是该表上某个或某几个数据采集规则,该模块180根据查询条件来快速定位和返回目的表中符合条件的所有数据,并提供查询结果的显示和导出。这样数据的查询效率大大提高。
综上,本发明实施例的数据样本采集方法能够方便的持续采集设定规则下的各种数据样本,规则可变且可扩展,可以有效减少采集的数据的冗余性,有利于提高数据样本采集效率、数据查询效率的同时,提高数据的覆盖性,而且能够根据用户的需要提供全面的数据样本;并且,在采用数据内存分块法和内存字段定位法后,完全可全自动执行连续采集过程,数据采集更加快速高效;清晰反映数据样本集的当前情况,准确提供给用户所需求的全面有效低冗余的数据样本。因此,该实施例的数据样本采集方法能在很大程度上提高使用人员在数据提取和分析、***各项测试时获取样本数据集的效率和覆盖度。
以上例子主要说明了本发明的数据样本采集方法以及相应的数据查询方法。尽管只对其中一些本发明的实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。

Claims (15)

1.一种数据样本采集方法,其特征在于,包括以下步骤:
  提供多条可配置的数据样本采集规则;
  提供被采集的目标数据库以确定源数据;
  对所述目标数据库进行源数据的扫描搜索;
  解析多条所述数据样本采集规则,并且基于解析的多条所述数据样本采集规则对每条数据进行以下数据筛选处理过程:
    判断每条数据是否满足每条数据样本采集规则以获得每条数据的规则满足情况,
    判断每条数据的规则满足情况是否在用于记录数据样本的目的表中相应存在,如果判断为“是”则不采集该条数据至所述目的表,如果判断为“否”则该条数据被判断为需要采集的数据并被更新存储到所述目的表中,该条数据的相应规则满足情况也被更新存储到所述目的表中;
  对所述目的表中存储的规则满足情况进行统计;以及
  基于所述统计的结果,对所述目的表的当前数据样本进行显示,从而可操作地基于所述显示判断相应的数据样本采集规则是否需要进行调整配置。
2.如权利要求1所述的方法,其特征在于,在所述数据筛选处理过程中,采用数据内存分块方法来将所述源数据依次写入到共享内存的K块数据区中,K为大于或等于2的整数。
3.如权利要求2所述的方法,其特征在于,在判断判断每条数据的规则满足情况步骤中,使用内存字段定位法来确定某条数据的对应某一条数据样本采集规则的规则字段值在所述共享内存所对应的内存地址的字段值,从而将该内存地址的字段值与对应的数据样本采集规则进行比较判断。
4.如权利要求1所述的方法,其特征在于,所述源数据被存储目标数据库的一张或多张源表中。
5.如权利要求1或2或4所述的方法,其特征在于,在解析所述数据样本采集规则的步骤中,对所述数据样本采集规则进行初始化,从而将其转化成便于判断一条数据中一个或多个字段是否匹配的规则;其中,被初始化的数据样本采集规则被存入共享内存中。
6.如权利要求4所述的方法,其特征在于,从数据库对所述源表进行索引获取和格式分析。
7.如权利要求6所述的方法,其特征在于,将对所述源表的索引与数据样本采集规则进行比较判断;如果存在数据样本采集规则与所述索引相一致,则在搜索所述源表的源数据时使用与所述索引相一致的所述数据样本采集规则作为搜索条件;如果不存在数据样本采集规则与所述索引相一致,则顺序扫描整个源表以搜索所述源表的源数据。
8.如权利要求2或3所述的方法,其特征在于,根据所述源数据的条数以及共享内存中每块数据区可容纳的数据条数,计算源数据的数据分块数量。
9.如权利要求2或3所述的方法,其特征在于,在共享内存的每块数据区的源数据写入完毕后,对该数据区的每条数据的规则满足情况进行判断。
10.如权利要求9所述的方法,其特征在于,以多进程并发方式进行规则满足情况的判断。
11.如权利要求9所述的方法,其特征在于,在所述判断每条数据的规则满足情况是否在所述目的表中相应存在的步骤中,按所述数据区的分块依次进行;并且在某一数据区的每条数据的规则满足情况的判断结束后,判断该块数据区的每条数据的规则满足情况是否在所述目的表中相应存在。
12.一种数据查询方法,其特征在于,包括以下步骤:
  采用如权利要求1至11中任一项所述的数据样本采集方法获取用于记录数据样本的目的表;
  在所述目的表上输入查询条件,并且匹配所述查询条件所对应的一个或多个数据数据采集规则;以及
  基于所匹配的所述数据采集规则返回目的表中符合所述查询条件的所有数据,输出相应的查询结果。
13.一种采集数据库的数据样本的装置,其特征在于,包括:
  规则数据库,用于提供多条可配置的数据样本采集规则;
  目标数据库,用于提供被采集的目标数据库以确定源数据;
  搜索引擎模块,其用于对所述目标数据库进行源数据的扫描搜索;
  规则解析引擎模块,其用于解析多条所述数据样本采集规则,并且基于解析的多条所述数据样本采集规则对每条数据进行以下数据筛选处理过程:
    判断每条数据是否满足每条数据样本采集规则以获得每条数据的规则满足情况,
    判断每条数据的规则满足情况是否在用于记录数据样本的目的表中相应存在,如果判断为“是”则不采集该条数据至所述目的表,如果判断为“否”则该条数据被判断为需要采集的数据并被更新存储到所述目的表中,该条数据的相应规则满足情况也被更新存储到所述目的表中;
  结果数据处理模块,其用于对所述目的表中存储的规则满足情况进行统计;
  结果数据展示模块,其用于基于所述统计的结果,对所述目的表的当前数据样本进行显示;以及
  数据规则管理模块,其用于基于所述显示判断相应的数据样本采集规则是否需要进行调整配置。
14.如权利要求13所述的装置,其特征在于,在所述数据筛选处理过程中,采用数据内存分块方法来将所述源数据依次写入到共享内存的K块数据区中,K为大于或等于2的整数。
15.如权利要求14所述的装置,其特征在于,在判断判断每条数据的规则满足情况步骤中,使用内存字段定位法来确定某条数据的对应某一条数据样本采集规则的规则字段值在所述共享内存所对应的内存地址的字段值,从而将该内存地址的字段值与对应的数据样本采集规则进行比较判断。
CN201410182652.1A 2014-05-04 2014-05-04 数据库的数据样本采集 Active CN105095240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410182652.1A CN105095240B (zh) 2014-05-04 2014-05-04 数据库的数据样本采集

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410182652.1A CN105095240B (zh) 2014-05-04 2014-05-04 数据库的数据样本采集

Publications (2)

Publication Number Publication Date
CN105095240A true CN105095240A (zh) 2015-11-25
CN105095240B CN105095240B (zh) 2018-11-27

Family

ID=54575699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410182652.1A Active CN105095240B (zh) 2014-05-04 2014-05-04 数据库的数据样本采集

Country Status (1)

Country Link
CN (1) CN105095240B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844553A (zh) * 2016-12-30 2017-06-13 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置
CN107506383A (zh) * 2017-07-25 2017-12-22 中国建设银行股份有限公司 一种审计数据处理方法和计算机设备
CN107992567A (zh) * 2017-11-29 2018-05-04 北京天健通泰科技有限公司 数据采集方法及数据采集***
CN108038171A (zh) * 2017-12-07 2018-05-15 杭州电魂网络科技股份有限公司 数据写入方法、装置及数据服务器
CN108536759A (zh) * 2018-03-20 2018-09-14 阿里巴巴集团控股有限公司 一种样本回放数据存取方法及装置
CN108650325A (zh) * 2018-05-17 2018-10-12 浙江中控技术股份有限公司 一种工业数据采集方法、相关设备及***
CN109241074A (zh) * 2018-09-28 2019-01-18 中国平安财产保险股份有限公司 稽核数据自动加工方法、装置、计算机设备及存储介质
CN110286895A (zh) * 2019-05-14 2019-09-27 拉扎斯网络科技(上海)有限公司 一种数据样本的添加方法、装置和终端设备、可存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122711A1 (en) * 2002-12-20 2004-06-24 Mediware Information Systems Inc. System and method for the optimization of the delivery of hospital services
CN102184190A (zh) * 2011-04-19 2011-09-14 北京神州数码思特奇信息技术股份有限公司 数据比对方法
CN102236659A (zh) * 2010-04-27 2011-11-09 ***股份有限公司 使用复杂条件从数据源进行数据过滤的方法和***
US20120197826A1 (en) * 2011-01-28 2012-08-02 Fujitsu Limited Information matching apparatus, method of matching information, and computer readable storage medium having stored information matching program
CN102904744A (zh) * 2012-03-06 2013-01-30 中兴通讯股份有限公司 性能数据的采集方法及***
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122711A1 (en) * 2002-12-20 2004-06-24 Mediware Information Systems Inc. System and method for the optimization of the delivery of hospital services
CN102236659A (zh) * 2010-04-27 2011-11-09 ***股份有限公司 使用复杂条件从数据源进行数据过滤的方法和***
US20120197826A1 (en) * 2011-01-28 2012-08-02 Fujitsu Limited Information matching apparatus, method of matching information, and computer readable storage medium having stored information matching program
CN102184190A (zh) * 2011-04-19 2011-09-14 北京神州数码思特奇信息技术股份有限公司 数据比对方法
CN102904744A (zh) * 2012-03-06 2013-01-30 中兴通讯股份有限公司 性能数据的采集方法及***
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844553B (zh) * 2016-12-30 2020-05-01 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置
CN106844553A (zh) * 2016-12-30 2017-06-13 晶赞广告(上海)有限公司 基于样本数据的数据探测和扩充方法及装置
CN107506383A (zh) * 2017-07-25 2017-12-22 中国建设银行股份有限公司 一种审计数据处理方法和计算机设备
CN107506383B (zh) * 2017-07-25 2021-07-23 中国建设银行股份有限公司 一种审计数据处理方法和计算机设备
CN107992567A (zh) * 2017-11-29 2018-05-04 北京天健通泰科技有限公司 数据采集方法及数据采集***
CN108038171B (zh) * 2017-12-07 2020-07-03 杭州电魂网络科技股份有限公司 数据写入方法、装置及数据服务器
CN108038171A (zh) * 2017-12-07 2018-05-15 杭州电魂网络科技股份有限公司 数据写入方法、装置及数据服务器
CN108536759A (zh) * 2018-03-20 2018-09-14 阿里巴巴集团控股有限公司 一种样本回放数据存取方法及装置
CN108536759B (zh) * 2018-03-20 2020-08-04 阿里巴巴集团控股有限公司 一种样本回放数据存取方法及装置
CN108650325A (zh) * 2018-05-17 2018-10-12 浙江中控技术股份有限公司 一种工业数据采集方法、相关设备及***
CN108650325B (zh) * 2018-05-17 2021-06-22 浙江中控技术股份有限公司 一种工业数据采集方法、相关设备及***
CN109241074A (zh) * 2018-09-28 2019-01-18 中国平安财产保险股份有限公司 稽核数据自动加工方法、装置、计算机设备及存储介质
CN109241074B (zh) * 2018-09-28 2023-09-26 中国平安财产保险股份有限公司 稽核数据自动加工方法、装置、计算机设备及存储介质
CN110286895A (zh) * 2019-05-14 2019-09-27 拉扎斯网络科技(上海)有限公司 一种数据样本的添加方法、装置和终端设备、可存储介质

Also Published As

Publication number Publication date
CN105095240B (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
CN105095240A (zh) 数据库的数据样本采集
CN101534213B (zh) 一种日志的获取方法及日志服务器
US20180060389A1 (en) Query optimization over distributed heterogeneous execution engines
US10725995B2 (en) Automatically revising synopsis table structure
CN106682042B (zh) 一种关系数据缓存及查询方法及装置
US20080120275A1 (en) Merging synopses to determine number of distinct values in large databases
CN105138661A (zh) 一种基于Hadoop的网络安全日志k-means聚类分析***及方法
CN106663056A (zh) 文件***中的元数据索引搜索
CN105069134A (zh) 一种Oracle统计信息自动收集方法
US20070233720A1 (en) Lazy bulk insertion method for moving object indexing
JP6928677B2 (ja) オンライン分析処理を行うためのデータ処理方法及び装置
CN111460024A (zh) 基于Elasticsearch的实时业务***
CN103970902A (zh) 一种大量数据情况下的可靠即时检索方法及***
CN104239377A (zh) 跨平台的数据检索方法及装置
CN103473321A (zh) 数据库管理方法与***
CN105989076A (zh) 一种数据统计方法以及装置
CN105393249A (zh) 针对查询优化的范围分区统计数据的增量式维护
CN103514201A (zh) 一种非关系型数据库的数据查询方法和装置
CN103631922A (zh) 基于Hadoop集群的大规模Web信息提取方法及***
CN103607418B (zh) 基于云服务数据特征的大规模数据分割***及分割方法
CN110413571A (zh) 基于MongoDB大规模遥感影像数据分布式存储方法
US7020656B1 (en) Partition exchange loading technique for fast addition of data to a data warehousing system
CN110737776A (zh) 一种基于知识图谱和目标本体的路径学习规划***
CN106484694B (zh) 基于分布式数据库的全文搜索方法及***
CN112559459B (zh) 一种基于云计算的自适应存储分层***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant