CN111125158A

CN111125158A - 数据表处理方法、装置、介质及电子设备

Info

Publication number: CN111125158A
Application number: CN201911087888.6A
Authority: CN
Inventors: 韩佩利; 施小江; 王方博; 何旺
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-05-08
Anticipated expiration: 2039-11-08
Also published as: CN111125158B

Abstract

本发明实施例提供了一种数据表处理方法、数据表处理装置、计算机可读介质及电子设备，该方法包括：获取与源数据表相关的多个历史查询语句，并确定各个历史查询语句中的查询字段以及每个查询字段的查询次数信息；根据查询字段以及各个查询字段的查询次数信息确定多个字段关系矩阵；根据字段关系矩阵中相邻查询字段的查询次数信息确定字段关系矩阵的字段关联系数，并根据字段关联系数从多个字段关系矩阵中选取目标字段关系矩阵；根据目标字段关系矩阵中相邻查询字段的查询次数信息确定多个字段拆分序列，并根据字段拆分序列确定与源数据表相对应的多个子数据表。该方法可以精简字段，提高数据查询效率。

Description

数据表处理方法、装置、介质及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种数据表处理方法、数据表处理装置、计算机可读介质及电子设备。

背景技术

对于传统的关系型数据库而言，在数据表设计之初，往往会根据经验，或者根据当前情况下对业务的理解，尽可能地将较多的字段放到同一张表中，以此来增加数据库查询的存储和读取的效率。随着业务的发展，可能数据表中还需要不断追加更多的用于表示新增业务场景的字段。然而，随着同一张数据表中的字段过多，就会变成一张宽表，当随着数据量增大时，宽表的查询效率就会降低。因此，如何能够提高数据表的查询效率是目前亟待解决的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种数据表处理方法、数据表处理装置、计算机可读介质及电子设备，进而至少在一定程度上克服数据表字段冗余、查询效率低等技术问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供了一种数据表处理方法，该方法包括：

获取与源数据表相关的多个历史查询语句，并确定各个所述历史查询语句中的查询字段以及每个所述查询字段的查询次数信息；

根据所述查询字段以及各个所述查询字段的查询次数信息确定多个字段关系矩阵；

根据所述字段关系矩阵中相邻查询字段的查询次数信息确定所述字段关系矩阵的字段关联系数，并根据所述字段关联系数从多个字段关系矩阵中选取目标字段关系矩阵；

根据所述目标字段关系矩阵中相邻查询字段的查询次数信息确定多个字段拆分序列，并根据所述字段拆分序列确定与所述源数据表相对应的多个子数据表。

在本发明的一些实施例中，基于以上技术方案，所述获取与源数据表相关的多个历史查询语句，包括：

确定源数据表所在的数据库，并获取所述数据库的数据交互日志；

从所述数据交互日志中提取与所述源数据表相关的多个历史查询语句。

在本发明的一些实施例中，基于以上技术方案，所述查询字段的查询次数信息包括一个查询字段的累积查询总次数以及两个不同查询字段的共同查询总次数。

在本发明的一些实施例中，基于以上技术方案，所述根据所述查询字段以及各个所述查询字段的查询次数信息确定多个字段关系矩阵，包括：

对所述查询字段进行排序以得到多个对应于不同字段排列顺序的字段序列；

获取每个查询字段的累积查询总次数以及每个查询字段与另一查询字段的共同查询总次数；

根据每个查询字段的累积查询总次数以及每个查询字段的共同查询总次数确定分别与各个所述字段序列相对应的多个字段关系矩阵。

在本发明的一些实施例中，基于以上技术方案，所述根据所述字段关系矩阵中相邻查询字段的查询次数信息确定所述字段关系矩阵的字段关联系数，包括：

在所述字段关系矩阵的一个矩阵行中根据每个查询字段以及相邻查询字段的查询次数信息确定每个查询字段的行内字段系数；

将所述矩阵行中每个查询字段的行内字段系数累加得到所述矩阵行的行间字段系数；

将所述字段关系矩阵中每个矩阵行的行间字段系数累加得到所述字段关系矩阵的字段关联系数。

在本发明的一些实施例中，基于以上技术方案，所述根据所述目标字段关系矩阵中相邻查询字段的查询次数信息确定多个字段拆分序列，包括：

确定与所述目标字段关系矩阵相关的目标字段序列；

获取每个查询字段的查询次数信息中的累积查询总次数；

根据所述累积查询总次数确定相邻两个查询字段的查询次数差值；

根据所述查询次数差值在所述目标字段序列中确定一个或者多个字段分割位置；

根据所述字段分割位置将所述目标字段序列拆分得到多个字段拆分序列。

在本发明的一些实施例中，基于以上技术方案，所述根据所述字段拆分序列确定与所述源数据表相对应的多个子数据表，包括：

根据所述字段拆分序列中的查询字段从所述源数据表中提取字段数据；

按照所述字段拆分序列中各个查询字段的排列顺序将所述字段数据组合得到与所述源数据表相对应的多个子数据表。

根据本发明的第二方面，提供一种数据表处理装置，该装置包括：

字段确定模块，被配置为获取与源数据表相关的多个历史查询语句，并确定各个所述历史查询语句中的查询字段以及每个所述查询字段的查询次数信息；

矩阵确定模块，被配置为根据所述查询字段以及各个所述查询字段的查询次数信息确定多个字段关系矩阵；

矩阵筛选模块，被配置为根据所述字段关系矩阵中相邻查询字段的查询次数信息确定所述字段关系矩阵的字段关联系数，并根据所述字段关联系数从多个字段关系矩阵中选取目标字段关系矩阵；

数据表拆分模块，被配置为根据所述目标字段关系矩阵中相邻查询字段的查询次数信息确定多个字段拆分序列，并根据所述字段拆分序列确定与所述源数据表相对应的多个子数据表。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的数据表处理方法。

根据本发明实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的数据表处理方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明的一些实施例所提供的技术方案中，通过统计历史查询语句中各个查询字段的查询次数信息的方式，可以建立对应于不同字段排列方式的字段关系矩阵，再根据字段关系矩阵中查询字段的关联程度对源数据表进行拆分，可以在保留查询字段相互之间查询逻辑关系的同时，获得多个字段精简且具有高可用性的子数据表，从而可以大幅提高数据查询效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性地示出了本发明一些实施例中数据表处理方法的步骤流程图。

图2示意性地示出了本发明一些实施例中获取历史查询语句的步骤流程图。

图3示意性地示出了本发明一些实施例中确定字段关系矩阵的步骤流程图。

图4示意性地示出了本发明一些实施例中确定字段关联系数的步骤流程图。

图5示意性地示出了本发明一些实施例中确定字段拆分序列的步骤流程图。

图6示意性地示出了本发明一些实施例中确定子数据表的步骤流程图。

图7示意性地示出了在一应用场景下的数据表拆分方法。

图8示意性地示出了本发明一些实施例中的数据表处理装置的组成框图。

图9示出了适于用来实现本发明实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本发明的相关技术中，对于一张存储有较多字段的宽表而言，一般可以基于经验或者业务需要对宽表中的字段进行拆分，将一些字段划分到一个数据表中，另一些字段划分到另外的数据表中，以此来达到对宽表进行垂直分区的目的。但是，依赖于经验或者人为主观因素对数据表进行拆分容易破坏数据表自身的布局逻辑，导致拆分后的数据表可用性变差，也会进一步影响数据表的数据查询效率。

针对相关技术中存在的以上问题，本发明提供一种数据表处理方法、数据表处理装置、计算机可读介质以及计算设备。下面结合具体实施方式对本发明的技术方案做出详细说明。

图1示意性地示出了本发明一些实施例中数据表处理方法的步骤流程图。如图1所示，该方法主要可以包括以下步骤：

步骤S110.获取与源数据表相关的多个历史查询语句，并确定各个历史查询语句中的查询字段以及每个查询字段的查询次数信息。

历史查询语句可以是基于结构化查询语言(Structured Query Language，SQL)的查询语句。SQL是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库***。在历史查询语句中可以确定一个或者多个查询字段，例如一个历史查询语句为“select n,d from table”，那么其中的查询字段即为n和d。通过统计各个历史查询语句中的查询字段可以得到每个查询字段的查询次数信息。查询字段的查询次数信息可以包括一个查询字段的累积查询总次数以及两个不同查询字段的共同查询总次数。其中，累积查询总次数表示一个查询字段在历史查询语句中出现的总次数，共同查询总次数表示两个查询字段在一个历史查询语句中同时出现的总次数。例如，基于一个历史查询语句“select n,d from table”，字段n的累积查询总次数为1，字段d的累积查询总次数为1，字段n与字段d的共同查询总次数为1。再结合其他历史查询语句，对应的每个查询字段的查询次数信息将继续累加。而如果再增加一个历史查询语句“select n,q from table”，那么字段n的累积查询总次数将增加到2，字段d的累积查询总次数仍为1，字段q的累积查询总次数也为1，字段n与字段d的共同查询总次数为1，字段n与字段q的共同查询总次数也为1，而字段d与字段q的共同查询总次数则为0。

步骤S120.根据查询字段以及各个查询字段的查询次数信息确定多个字段关系矩阵。

基于已获取到的历史查询语句，以各个查询字段作为字段关系矩阵在行与列的元素属性，在字段关系矩阵中对应填充每个查询字段的查询次数信息作为矩阵元素。例如，基于一个历史查询语句“select n,d from table”，可以得到一个字段关系矩阵M1：

在字段关系矩阵M1中，n行n列对应的元素表示字段n的累积查询总次数，d行d列对应的元素表示字段d的累积查询总次数，n行d列以及d行n列对应的元素均表示字段n和字段d的共同查询总次数。在涉及多个历史查询语句的多个查询字段时，由于各个查询字段在矩阵中的排列方式不同，对应可以确定多个字段关系矩阵。

步骤S130.根据字段关系矩阵中相邻查询字段的查询次数信息确定字段关系矩阵的字段关联系数，并根据字段关联系数从多个字段关系矩阵中选取目标字段关系矩阵。

字段关系矩阵的各个矩阵元素对应了不同查询字段的查询次数信息，基于查询次数信息确定的字段关联系数反映了字段关系矩阵中相邻查询字段的关联程度，当两个相邻的查询字段同时被查询的次数越多，表明这两个查询字段的关联程度越高，相应确定的字段关联系数也越大。在此基础上，本步骤可以选取一个字段关联系数最大的字段关系矩阵作为目标字段关系矩阵。

步骤S140.根据目标字段关系矩阵中相邻查询字段的查询次数信息确定多个字段拆分序列，并根据字段拆分序列确定与源数据表相对应的多个子数据表。

一个字段关系矩阵对应了一种查询字段的排列方式，当两个相邻查询字段的查询次数信息越接近时，表明这两个查询字段被共同查询的几率相对越高，因此倾向于将这两个查询字段保留在同一个数据表中。相反地，如果两个相邻查询字段的查询次数信息差异较大，说明这两个查询字段被共同查询的几率相对较低，因此可以将这两个查询字段分类至不同的数据表中。基于这一拆分原理，本步骤可以确定多个字段拆分序列，进而确定与源数据表相对应的多个子数据表。

在本发明提供的数据表处理方法中，通过统计历史查询语句中各个查询字段的查询次数信息的方式，可以建立对应于不同字段排列方式的字段关系矩阵，再根据字段关系矩阵中查询字段的关联程度对源数据表进行拆分，可以在保留查询字段相互之间查询逻辑关系的同时，获得多个字段精简且具有高可用性的子数据表，从而可以大幅提高数据查询效率。

历史查询语句可以在一定程度上反映用户的查询习惯、常规业务需求、查询字段的内在逻辑等信息。图2示意性地示出了本发明一些实施例中获取历史查询语句的步骤流程图。如图2所示，在以上实施例的基础上，步骤S110中的获取与源数据表相关的多个历史查询语句，可以包括以下步骤：

步骤S210.确定源数据表所在的数据库，并获取数据库的数据交互日志。

源数据表可以保存在DB2、MySQL等各种关系型数据库中，数据库的数据交互日志中记录了数据库的每次交互信息。例如，在MySQL数据库中，可以使用二进制日志binlog记录用户对数据库操作的SQL语句。

步骤S220.从数据交互日志中提取与源数据表相关的多个历史查询语句。

从获取到的数据交互日志中可以提取出与源数据表相关的多个历史查询语句，这些历史查询语句可以对应相同或者不同的查询字段。

利用数据交互日志获取到的历史查询语句具有较高的准确性和全面性，能够提高字段关系分析的可靠性。

图3示意性地示出了本发明一些实施例中确定字段关系矩阵的步骤流程图。如图3所示，在以上各实施例的基础上，步骤S120.根据查询字段以及各个查询字段的查询次数信息确定多个字段关系矩阵，可以包括以下步骤：

步骤S310.对查询字段进行排序以得到多个对应于不同字段排列顺序的字段序列。

不同的查询字段排列方式可以对应得到不同的字段序列，通过在字段序列中找到合适的分割点即可在后续步骤中得到相应的多个字段拆分序列。举例而言，两个查询字段n和d可以组成一个字段序列[n,d]，在该字段序列的基础上增加一个查询字段q后可以得到三个新的字段序列[q,n,d]、[n,q,d]和[n,d,q]。不同的字段序列具有不同的查询字段邻接关系，因此可以得到不同的字段序列拆分方式。

步骤S320.获取每个查询字段的累积查询总次数以及每个查询字段与另一查询字段的共同查询总次数。

通过对历史查询语句进行中的查询字段进行统计和计算可以得到每个查询字段的查询次数信息，该查询次数信息包括了一个查询字段的累积查询总次数，同时也包括了一个查询字段与另一查询字段的共同查询总次数。

步骤S330.根据每个查询字段的累积查询总次数以及每个查询字段的共同查询总次数确定分别与各个字段序列相对应的多个字段关系矩阵。

以各个查询字段作为构成矩阵行和矩阵列的元素属性，并以每个查询字段的累积查询总次数和共同查询总次数作为矩阵元素，可以确定与各个字段序列相对应的多个字段关系矩阵。

图4示意性地示出了本发明一些实施例中确定字段关联系数的步骤流程图。如图4所示，在以上各实施例的基础上，步骤S130中的根据字段关系矩阵中相邻查询字段的查询次数信息确定字段关系矩阵的字段关联系数，可以包括以下步骤：

步骤S410.在字段关系矩阵的一个矩阵行中根据每个查询字段以及相邻查询字段的查询次数信息确定每个查询字段的行内字段系数。

字段关系矩阵由多个矩阵行组成，在每一个矩阵行内，本步骤首先确定各个查询字段的行内字段系数。一个查询字段的行内字段系数可以由该查询字段在该矩阵行内对应的查询次数信息以及该查询字段的一个或两个相邻查询字段对应的查询次数信息共同确定。行内字段系数反映了在一个矩阵行内每个查询字段与相邻查询字段之间的关联程度。

步骤S420.将矩阵行中每个查询字段的行内字段系数累加得到矩阵行的行间字段系数。

在确定一个矩阵行中每个查询字段的行内字段系数之后，将该矩阵行内所有查询字段的行内字段系数累加可以得到该矩阵行的行间字段系数，据此可以得到每个矩阵行对应的行间字段系数。行间字段系数反映了一个矩阵行内所有查询字段的整体关联程度。

步骤S430.将字段关系矩阵中每个矩阵行的行间字段系数累加得到字段关系矩阵的字段关联系数。

在确定每个矩阵行的行间字段系数后，本步骤可以将各个矩阵行的行间字段系数累加得到字段关系矩阵的字段关联系数。由此得到的字段关联系数反映了字段关系矩阵中所有查询字段的整体关联程度。字段关联系数越大，该字段关系矩阵内查询字段的整体关联程度也越高。在此基础上，本实施例可以选取字段关联系数最高的一个字段关系矩阵作为目标字段关系矩阵，后续再根据目标字段关系矩阵确定字段拆分序列。

图5示意性地示出了本发明一些实施例中确定字段拆分序列的步骤流程图。如图5所示，在以上各实施例的基础上，步骤S140中的根据目标字段关系矩阵中相邻查询字段的查询次数信息确定多个字段拆分序列，可以包括以下步骤：

步骤S510.确定与目标字段关系矩阵相关的目标字段序列。

一个字段关系矩阵本质上是多个查询字段的其中一种排列方式，本步骤可以确定与目标字段关系矩阵相关的目标字段序列。目标字段序列代表了各个查询字段以一种具有较高的整体关联程度的位置邻接关系进行排序的结果。

步骤S520.获取每个查询字段的查询次数信息中的累积查询总次数。

基于各个查询字段的查询次数信息可以获取到相应的累积查询总次数。例如，步骤S510中确定的一个目标字段序列是[q,n,d]，那么本步骤可以获取得到字段q的累积查询总次数为1，字段n的累积查询总次数为3，字段d的累积查询总次数为2。

步骤S530.根据累积查询总次数确定相邻两个查询字段的查询次数差值。

根据两个相邻的查询字段的累积查询总次数可以确定这两个查询字段的查询次数差值。例如，字段q与字段n的查询次数差值为3-1＝2，字段n与字段d的查询次数差值为3-2＝1。

步骤S540.根据查询次数差值在目标字段序列中确定一个或者多个字段分割位置。

相邻两个查询字段的查询次数差值越大，则这两个查询字段的关联度相对越低，因此本步骤可以在查询次数差值较大的两个查询字段之间确定一个字段分割位置。按照查询次数差值大小进行排序，可以在目标字段序列中确定一个或者多个字段分割位置。

步骤S550.根据字段分割位置将目标字段序列拆分得到多个字段拆分序列。

根据实际的数据表拆分需求，可以在步骤S540中确定相应数量的字段分割位置，然后本步骤便可以根据各个字段分割位置将目标字段序列拆分为多个字段拆分序列。

本实施例提供的拆分方法可以将关联度高的查询字段保留在同一个字段拆分序列中。基于字段拆分序列可以进一步对源数据表进行拆分以得到多个子数据表。图6示意性地示出了本发明一些实施例中确定子数据表的步骤流程图。如图6所示，在以上各实施例的基础上，步骤S140中的根据字段拆分序列确定与源数据表相对应的多个子数据表，可以包括以下步骤：

步骤S610.根据字段拆分序列中的查询字段从源数据表中提取字段数据。

由一个目标字段序列拆分得到的多个字段拆分序列分别对应了不同的查询字段，本步骤可以按照每个字段拆分序列中的查询字段从源数据表中提取相应的字段数据。例如，一个字段拆分序列为[n,d]，那么可以相应地从源数据表中提取查询字段n对应的字段数据以及查询字段d对应的字段数据。

步骤S620.按照字段拆分序列中各个查询字段的排列顺序将字段数据组合得到与源数据表相对应的多个子数据表。

由步骤S610得到与查询字段对应的字段数据后，本步骤将把这些字段数据按照查询字段在字段拆分序列中的排列顺序进行组合形成子数据表，每个字段拆分序列均可以确定一个对应的子数据表。

下面结合一具体应用场景对本发明以上实施例中的数据表处理方法的细节进行说明。

在很多业务场景下都需要用到数据表，例如一个业务***需要建立用户信息数据表，在数据表设计之初，往往会根据经验或者根据当前情况下对业务的理解，尽可能地将较多的字段放到同一张数据表中，例如用户的姓名、性别、身份证号码、小区地址、门牌号、楼号等等，以此来增加数据库查询的存储和读取的效率。随着业务的发展，可能表中还需要追加更多的字段用于表示新增的业务场景的字段，最终导致这张表变为一个宽表。

随着数据越来越多，宽表查询效率很慢，再回过头去看当时建立的包含用户的姓名、性别、身份证号码、小区地址、门牌号、楼号等字段的数据表，存储了太多的信息，需要进行垂直分区，从经验上可以猜测是否可以将小区地址、门牌号、楼号等字段单独拿出来，成立一个与地址相关的子数据表会更好；但是经验往往不能适用所有的业务场景，而且并不能保证这一定是符合历史查询规律和业务需求的合理的拆分方式。本发明技术方案提出的数据表处理方法即是一种通过历史查询语句，寻找计算字段与字段之间的关系程度，将字段按照关系程度进行排序、聚类、进而拆分。

图7示意性地示出了在一应用场景下的数据表拆分方法。如图7所示，该拆分方法主要可以包括以下步骤：

步骤S710.获取历史查询语句。

历史查询语句可以是从源数据表对应的数据交互日志中获取到的sql查询语句，例如可以包括sql1、sql2、……sqlN等多个查询语句。

步骤S720.从历史查询语句中提取查询字段以生成多个字段关系矩阵。

对于每一条sql查询语句，其所需要的字段都有可能不同，相应涉及到的列的矩阵维度也会不同。所以每接收到一个新的sql查询语句，都需要根据新的sql所涉及到的字段，判断是否需要增加矩阵维度、调整矩阵行列的排列顺序，增量累加之前的矩阵结果，得到一个新的矩阵。

举例而言，例如现在需要拆分一个表(table)，第一条查询语句sql1为：select n,d from table。则可以通过sql1提取出两个相关字段分别为n和d，进而可以初始化出一个矩阵M1：

该矩阵表示了基于当前的已输入的sql下，已知的列n和d的关系。

当后续sql再次输入时，本步骤可以对之前的矩阵进行调整，调整策略是根据新增的sql语句涉及到的字段是否出现在之前的矩阵中，如果没有出现，则需要增加一个新的字段，更新矩阵；如果已经都是出现的字段，则不需要增加，只需要累加即可。例如当接收到查询语句sql2：select n,q from table之后，需要对矩阵M1进行调整，由于sql2涉及到的字段为n和q，而q并不在M1中，所以需要在矩阵中新增一个字段。新增的字段q可以添加在三个位置上，分别为加在字段n之前，加在字段n与字段d之间，和加在字段d之后。通过在不同位置的添加，可以得到不同的矩阵，矩阵的值也都不相同。下面对三种添加方式分别进行说明：

(1)加在n与d之前：

由于sql2比sql1多了一列，所以矩阵需要增大，则首先M1需要增加一个维度，由于在sql2进入计算之前，q列不存在，则可以将新增加的维度均填充为0，得到新增维度后的矩阵M11

由于加入了sql2，则sql2根据当前的矩阵行列排列，与矩阵M1的形成原理相同，可以得到一个新增矩阵M21：

得到矩阵M11和矩阵M21之后，再进行矩阵相加，得到增量添加sql2之后的最新的矩阵M2：

至此，由于sql2引入的新字段q，加在n与d之前的这种方式已经计算出其矩阵结果。

(2)加在n与d中间：

与以上矩阵确定方式相同，此处不进行赘述，得到的矩阵计算结果为矩阵M2′：

(3)加在n与d之后：

与以上矩阵确定方式相同，此处不进行赘述，得到的矩阵计算结果为矩阵M2″：

至此得到M2、M2′和M2″这三个矩阵，即调整完了对应于sql2的输入的矩阵的值和情况。

以上讨论了新增的sql语句涉及到的字段没有出现在之前的矩阵中的情况，还有一种情况是新增的sql语句涉及到的字段之前矩阵中已经存在。例如此时再进入一条sql3语句：select n,d from table。字段n和字段d都已经在目前的矩阵中的，增量的sql3并不会对矩阵的维度有影响，只是会对值有影响。增量sql的计算方式与sql2一致，此处不赘述，增加sql3之后，M2、M2′和M2″这三个矩阵的值均会更新，更新后对应得到M3、M3′和M3″三个矩阵：

如果后续还有其他查询语句sql，可以重复以上添加操作，调整矩阵行列及其值即可。如果完成了所有查询语句sql的计算，或者已经触发计算矩阵列之间关系程度的任务，则开始计算矩阵列关系程度。

步骤S730.计算各个字段关系矩阵的字段关联系数以得到目标字段关系矩阵。

针对步骤S720中得到的每个字段关系矩阵，本步骤将计算出所有矩阵的字段关联系数，然后挑选出字段关联系数最大的矩阵，作为目标字段关系矩阵。字段关联系数的计算公式需要遵循相邻字段之间的关系程度越大，矩阵的字段关联系数越大。依据这一规则，可以定义出不同的计算公式。例如，一种可选的字段关联系数simi的计算公式如下：

其中，M()表示在m*m的矩阵中对应位置的矩阵元素值，x表示矩阵行，y表示矩阵列。如果y-1≤0，则取M(x,y-1)为0。如果y+1≥m，则取M(x,y+1)为0。

仍以步骤S720中得到的三个矩阵为例，本步骤通过以上公式计算得到对应的字段关联系数分别为：simi(M3)＝30；simi(M3′)＝26；simi(M3″)＝28。由于simi(M3)>simi(M3″)>simi(M3′)，说明矩阵M3的矩阵行列排列方式是最优的，因此可以将矩阵M3作为目标字段关系矩阵。由于所有的矩阵行的排列顺序和列的排列顺序相同，则只需要输出一个该矩阵对应的行的一维向量即可。基于以上计算结果可以确定目标字段序列为[q,n,d]。目标字段序列将关系程度更高的字段排序排在了一起，这样便于后续聚合找切分点。

步骤S740.根据数据表拆分的预期数量对查询字段进行聚合分组。

根据统计值和确定的目标字段序列，可以对目标字段序列中的字段进行顺序遍历，计算两两相邻字段的差值。如果相邻的两个字段在sql中出现的统计个数相差较大，则说明这两个字段之间出现的频率相差比较大，进而可以将字段切分开，划分出切割点。至于sql中字段出现的统计个数相差多少才能切分，则需要根据切分的数据表的个数定义相应的阈值。

以目标字段序列[q,n,d]为例，各个字段对应在sql中出现的统计次数为count＝[1,3,2]。则顺序遍历目标字段序列中的各个字段，计算差值可以得到q与n相差2，n与d相差1，显然q与n的差值排在n与d的前面，拆分成两个表只需要一个切割点，则切割点就在q与n之间。所以切割的两个新的数据表table的字段分别为table(q)和table(n,d)。

根据实际的历史数据，来进行宽表的垂直拆分。通过计算字段与字段的关系程度，将字段按照关系程度进行排序，进而拆分。这样的拆分是有数据逻辑支撑的，拆分方案更为通用和准确。另外，由于历史查询数据从一定程度上也可以反馈未来的查询趋势，所以本发明技术方案依据历史数据拆分，拆分后的各个表也能较好地支撑以后的数据业务。

以下介绍本发明的装置实施例，可以用于执行本发明上述的数据表处理方法。

图8示意性地示出了本发明一些实施例中的数据表处理装置的组成框图。如图8所示，数据表处理装置800主要可以包括：

字段确定模块810，被配置为获取与源数据表相关的多个历史查询语句，并确定各个历史查询语句中的查询字段以及每个查询字段的查询次数信息；

矩阵确定模块820，被配置为根据查询字段以及各个查询字段的查询次数信息确定多个字段关系矩阵；

矩阵筛选模块830，被配置为根据字段关系矩阵中相邻查询字段的查询次数信息确定字段关系矩阵的字段关联系数，并根据字段关联系数从多个字段关系矩阵中选取目标字段关系矩阵；

数据表拆分模块840，被配置为根据目标字段关系矩阵中相邻查询字段的查询次数信息确定多个字段拆分序列，并根据字段拆分序列确定与源数据表相对应的多个子数据表。

在本发明的一些实施例中，字段确定模块810可以包括：

日志获取模块，被配置为确定源数据表所在的数据库，并获取数据库的数据交互日志；

语句提取模块，被配置为从数据交互日志中提取与源数据表相关的多个历史查询语句。

在本发明的一些实施例中，查询字段的查询次数信息包括一个查询字段的累积查询总次数以及两个不同查询字段的共同查询总次数。

在本发明的一些实施例中，矩阵确定模块820包括：

序列确定模块，被配置为对查询字段进行排序以得到多个对应于不同字段排列顺序的字段序列；

次数统计模块，被配置为获取每个查询字段的累积查询总次数以及每个查询字段与另一查询字段的共同查询总次数；

次数填充模块，被配置为根据每个查询字段的累积查询总次数以及每个查询字段的共同查询总次数确定分别与各个字段序列相对应的多个字段关系矩阵。

在本发明的一些实施例中，矩阵筛选模块830包括：

行内字段系数确定模块，被配置为在字段关系矩阵的一个矩阵行中根据每个查询字段以及相邻查询字段的查询次数信息确定每个查询字段的行内字段系数；

行间字段系数确定模块，被配置为将矩阵行中每个查询字段的行内字段系数累加得到矩阵行的行间字段系数；

字段关联系数确定模块，被配置为将字段关系矩阵中每个矩阵行的行间字段系数累加得到字段关系矩阵的字段关联系数。

在本发明的一些实施例中，数据表拆分模块840包括：

序列确定模块，被配置为确定与目标字段关系矩阵相关的目标字段序列；

次数获取模块，被配置为获取每个查询字段的查询次数信息中的累积查询总次数；

差值确定模块，被配置为根据累积查询总次数确定相邻两个查询字段的查询次数差值；

位置确定模块，被配置为根据查询次数差值在目标字段序列中确定一个或者多个字段分割位置；

序列拆分模块，被配置为根据字段分割位置将目标字段序列拆分得到多个字段拆分序列。

在本发明的一些实施例中，数据表拆分模块840还包括：

字段数据提取模块，被配置为根据字段拆分序列中的查询字段从源数据表中提取字段数据；

数据表拆分模块，被配置为按照字段拆分序列中各个查询字段的排列顺序将字段数据组合得到与源数据表相对应的多个子数据表。

由于本发明的示例实施例的数据表处理装置的各个功能模块与上述数据表处理方法的示例实施例的步骤对应，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的数据表处理方法的实施例。

下面参考图9，其示出了适于用来实现本发明实施例的电子设备的计算机***900的结构示意图。图9示出的电子设备的计算机***900仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机***900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有***操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的***中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的数据表处理方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据表处理方法，其特征在于，包括：

2.根据权利要求1所述的数据表处理方法，其特征在于，所述获取与源数据表相关的多个历史查询语句，包括：

3.根据权利要求1所述的数据表处理方法，其特征在于，所述查询字段的查询次数信息包括一个查询字段的累积查询总次数以及两个不同查询字段的共同查询总次数。

4.根据权利要求3所述的数据表处理方法，其特征在于，所述根据所述查询字段以及各个所述查询字段的查询次数信息确定多个字段关系矩阵，包括：

5.根据权利要求1所述的数据表处理方法，其特征在于，所述根据所述字段关系矩阵中相邻查询字段的查询次数信息确定所述字段关系矩阵的字段关联系数，包括：

6.根据权利要求1所述的数据表处理方法，其特征在于，所述根据所述目标字段关系矩阵中相邻查询字段的查询次数信息确定多个字段拆分序列，包括：

确定与所述目标字段关系矩阵相关的目标字段序列；

获取每个查询字段的查询次数信息中的累积查询总次数；

7.根据权利要求1所述的数据表处理方法，其特征在于，所述根据所述字段拆分序列确定与所述源数据表相对应的多个子数据表，包括：

8.一种数据表处理装置，其特征在于，包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的数据表处理方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的数据表处理方法。