CN111881115A

CN111881115A - 一种基于大数据动态规划的数据库协调优化方法

Info

Publication number: CN111881115A
Application number: CN202010763906.4A
Authority: CN
Inventors: 杨璐绮; 李海坤; 王悦华
Original assignee: Jiangsu Ligu Information Technology Co ltd
Current assignee: Jiangsu Ligu Information Technology Co ltd
Priority date: 2020-08-01
Filing date: 2020-08-01
Publication date: 2020-11-03

Abstract

本发明公开了一种基于大数据动态规划的数据库协调优化方法，包括，采用数据流分块策略将待传输数据全集划分为数据基元；利用二进制序列化压缩策略将所述数据基元转化为二维表结构并进行游程混合编码和压缩；基于多目标优化策略构建优化模型，对压缩处理后的所述数据基元进行动态优化并传输优化后的所述数据基元。本发明通过数据流分块策略划分数据基元，并利用二进制序列化压缩策略减少了数据传输量和传输数据的大小，同时，结合优化模型剔除多余重复的数据，节省了内存空间和不必要的传输，大大提高了传输效率，节约流量，节省空间，对推动大数据优化研究具有积极意义。

Description

一种基于大数据动态规划的数据库协调优化方法

技术领域

本发明涉及云计算、大数据、数据库优化的技术领域，尤其涉及一种基于大数据动态规划的数据库协调优化方法。

背景技术

动态规划程序设计是对解最优化问题的一种途径、一种方法，而不是一种特殊算法，不像搜索或数值计算那样，具有一个标准的数学表达式和明确清晰的解题方法，动态规划程序设计往往是针对一种最优化问题，由于各种问题的性质不同，确定最优解的条件也互不相同，因而动态规划的设计方法对不同的问题，有各具特色的解题方法，而不存在一种万能的动态规划算法，可以解决各类最优化问题。

数据库，简单来说是本身可视为电子化的文件柜--存储电子文件的处所，用户可以对文件中的数据进行新增、截取、更新、删除等操作，数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的特点、是与应用程序彼此独立的数据集合，在经济管理的日常工作中，常常需要把某些相关的数据放进这样的"仓库"，并根据管理的需要进行相应的处理；例如，企业或事业单位的人事部门常常要把本单位职工的基本情况(职工号、姓名、年龄、性别、籍贯、工资、简历等)存放在表中，这张表就可以看成是一个数据库，有了这个"数据仓库"我们就可以根据需要随时查询某职工的基本情况，也可以查询工资在某个范围内的职工人数等等，这些工作如果都能在计算机上自动进行，那我们的人事管理就可以达到极高的水平。目前，由于所有的网络数据都需要集中存储在数据库所在的服务器中，这些数据需要通过网络从各自所在的网管服务器传输到数据仓库所在的服务器本地，然而，需要传输数据量很大，网络带宽资源却是有限的，通常为每秒只有几十兆，数据传输时间太长，传输出错的概率较大，且传输效率较低。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明提供了一种基于大数据动态规划的数据库协调优化方法，能够解决现有数据库调度数据传输效率较低的问题。

为解决上述技术问题，本发明提供如下技术方案：包括，采用数据流分块策略将待传输数据全集划分为数据基元；利用二进制序列化压缩策略将所述数据基元转化为二维表结构并进行游程混合编码和压缩；基于多目标优化策略构建优化模型，对压缩处理后的所述数据基元进行动态优化并传输优化后的所述数据基元。

作为本发明所述的一种基于大数据动态规划的数据库协调优化方法的一种优选方案，其中：划分所述数据基元包括，基于四元信息***描述原则进行如下计算，

其中，G_bi为特征b_i的值集，W为数据***中所有个体的全集，是非空有限集，b为个体的特征，G_a为特征b的值域。

作为本发明所述的一种基于大数据动态规划的数据库协调优化方法的一种优选方案，其中：还包括，利用数据操作矩阵映射到所述数据全集上，定义W＝{d1,d2…dn}、b＝{MS1,MS2…MSq}、G_a＝OPr为特征b的值域，即G_a＝∪1≤i≤n，1≤j≤qOPrij；将映射函数f定义为计划任务序列中的任务对数据集合W中的di有变更操作的函数输出为A,无变更操作的输出为N；对数据***中任意一个个体的特征子集，则在U×U空间上定义一个不可区分的关系R(b)＝{(u,u′)∈U×U：有f(u,b)＝f(u′,b)}；在U上按不可区分关系R(b)，得到数据分块U/R(b)记为[u]b,定义为所述数据基元。

作为本发明所述的一种基于大数据动态规划的数据库协调优化方法的一种优选方案，其中：转化为所述二维表结构包括，根据网管设备的说明文档统计所述数据基元的数据文件；定义二维表的第一行为其对应的所述数据文件的数据对象名称集合，一个所述对象名称为一列；设置任意一个所述数据文件中包含的数据对象名称总数为N个，则所述数据文件对应的二维表为N列；依次遍历所述数据文件并找到每一个数据对象名称标识，存入其所属的数据对象列中。

作为本发明所述的一种基于大数据动态规划的数据库协调优化方法的一种优选方案，其中：所述二维表结构的数据类型为字符串型，包括，当每行数据记录中的每列数据为字符或数字时，都直接按照顺序存入所述二维表中对应的位置；若数据缺失，则补充为0。

作为本发明所述的一种基于大数据动态规划的数据库协调优化方法的一种优选方案，其中：存入的所述二维表结构只保存数据名称和数据所属对象名称。

作为本发明所述的一种基于大数据动态规划的数据库协调优化方法的一种优选方案，其中：所述压缩处理包括，利用ASCII码定义数据信息中的字母、符合；将整数、浮点数的数据由string型转化为int型；利用二进制策略融合处理转化后的数据，压缩传输数据量。

作为本发明所述的一种基于大数据动态规划的数据库协调优化方法的一种优选方案，其中：构建所述优化模型包括，选取径向基函数作为LSSVM的目标函数，如下

其中，x＝{x₁；x₂；…；x₁₄}：所述数据基元中影响优化因素的历史数据幅频特性向量组成的特性矩阵，y：所述数据基元中影响优化因素的幅频特性向量，σ：目标向量，即所述数据基元的分布或范围特性。

作为本发明所述的一种基于大数据动态规划的数据库协调优化方法的一种优选方案，其中：所述优化模型需提前进行训练，包括，初始化惩罚参数和所述目标向量，利用所述数据基元对所述LSSVM进行训练并进行测试；若所述优化模型未达到精度阈值要求，则根据误差对所述惩罚参数和所述目标向量进行赋值优化；直至满足所述精度阈值要求，输出所述优化模型。

本发明的有益效果：本发明通过数据流分块策略划分数据基元，并利用二进制序列化压缩策略减少了数据传输量和传输数据的大小，同时，结合优化模型剔除多余重复的数据，节省了内存空间和不必要的传输，大大提高了传输效率，节约流量，节省空间，对推动大数据优化研究具有积极意义。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明的一个实施例所述的一种基于大数据动态规划的数据库协调优化方法的流程示意图；

图2为本发明的一个实施例所述的一种基于大数据动态规划的数据库协调优化方法的二维表结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1和图2，为本发明的第一个实施例，提供了一种基于大数据动态规划的数据库协调优化方法，包括：

S1：采用数据流分块策略将待传输数据全集划分为数据基元。其中需要说明的是，划分数据基元包括：

基于四元信息***描述原则进行如下计算，

进一步的，还包括：

利用数据操作矩阵映射到数据全集上，定义W＝{d1,d2…dn}、b＝{MS1,MS2…MSq}、G_a＝OPr为特征b的值域，即G_a＝∪1≤i≤n，1≤j≤qOPrij；

将映射函数f定义为计划任务序列中的任务对数据集合W中的di有变更操作的函数输出为A,无变更操作的输出为N；

对数据***中任意一个个体的特征子集，则在U×U空间上定义一个不可区分的关系R(b)＝{(u,u′)∈U×U：有f(u,b)＝f(u′,b)}；

在U上按不可区分关系R(b)，得到数据分块U/R(b)记为[u]b,定义为数据基元。

S2：利用二进制序列化压缩策略将数据基元转化为二维表结构并进行游程混合编码和压缩。参照图2，本步骤需要说明的是，存入的二维表结构只保存数据名称和数据所属对象名称，转化为二维表结构包括：

根据网管设备的说明文档统计数据基元的数据文件；

定义二维表的第一行为其对应的数据文件的数据对象名称集合，一个对象名称为一列；

设置任意一个数据文件中包含的数据对象名称总数为N个，则数据文件对应的二维表为N列；

依次遍历数据文件并找到每一个数据对象名称标识，存入其所属的数据对象列中。

具体的，二维表结构的数据类型为字符串型，包括：

当每行数据记录中的每列数据为字符或数字时，都直接按照顺序存入二维表中对应的位置；

若数据缺失，则补充为0。

再进一步的是，压缩处理包括：

利用ASCII码定义数据信息中的字母、符合；

将整数、浮点数的数据由string型转化为int型；

利用二进制策略融合处理转化后的数据，压缩传输数据量。

S3：基于多目标优化策略构建优化模型，对压缩处理后的数据基元进行动态优化并传输优化后的数据基元。其中还需要说明的是，优化模型需提前进行训练，包括：

初始化惩罚参数和目标向量，利用数据基元对LSSVM进行训练并进行测试；

若优化模型未达到精度阈值要求，则根据误差对惩罚参数和目标向量进行赋值优化；

直至满足精度阈值要求，输出优化模型。

具体的，构建优化模型包括：

选取径向基函数作为LSSVM的目标函数，如下

其中，x＝{x₁；x₂；…；x₁₄}：数据基元中影响优化因素的历史数据幅频特性向量组成的特性矩阵，y：数据基元中影响优化因素的幅频特性向量，σ：目标向量，即数据基元的分布或范围特性。

较佳的是，在传输数据之前，还可以使用zip压缩二进制序列化后的数据，从而节省存储空间和网络带宽，典型的文本和数据库文件能够被压缩至它们原始大小的10％，即便二进制文件不能进行同样的压缩，也能够获得50％的压缩比，在数据传输到服务器本地后进行解压缩即可。

优选的，本实施例还需要说明的是，传统的分布式数据库协同优化方法是将分布式全集划分为若干不可再分的数据基元、并发处理任务的优化、分布式资源的负载平衡优化和计划任务的动态调度方法，其主要解决的技术问题是，如何降低高并发任务计划的非确定性因素影响，传统方法仅能够针对于分布式数据库的并发任务进行优化，故而不具有良好的通用性和实用性，且其对于高并发任务计划的建模很难达到精准的优化，这在高并发分布式任务计划中对优化效果造成颠覆性的影响。

实施例2

为了更好的对本发明中采用的技术效果加以验证说明，本实施例选择以传统分布式数据库协同优化方法与本发明方法进行对比测试，以科学论证的手段对比试验结果，以验证本发明方法所具有的真实效果。

传统的分布式数据库协同优化方法适用范围有局限、实用性不高，且对于数据效率不能起到很好的调和作用，为验证本发明方法相对于传统方法具有较高的传输效率，本实施例中将采用传统方法与本发明方法分别对4种网络类型的数据文件传输效率进行实时测量对比。

测试条件：(1)选择GSM、TD、LTE三类网管服务器的数据文件(xml格式)进行测试；

(2)设置数据更新周期为1小时。

表1：测试效率数据表。

本发明方法在针对二维表结构的优化构建基础之上，还利用了游程编码和压缩策略进行数据压缩，并通过构建的优化模型进行动态优化，剔除多余重复的数据，更大程度上减少了数据传输量，而传统方法并未针对于此作出相关优化改进，故而参照表1的对比数据，能够直观的看出，本发明方法相较于传统方法确实是具有较高的传输效率。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于大数据动态规划的数据库协调优化方法，其特征在于：包括，

采用数据流分块策略将待传输数据全集划分为数据基元；

利用二进制序列化压缩策略将所述数据基元转化为二维表结构并进行游程混合编码和压缩；

基于多目标优化策略构建优化模型，对压缩处理后的所述数据基元进行动态优化并传输优化后的所述数据基元。

2.根据权利要求1所述的基于大数据动态规划的数据库协调优化方法，其特征在于：划分所述数据基元包括，

基于四元信息***描述原则进行如下计算，

3.根据权利要求2所述的基于大数据动态规划的数据库协调优化方法，其特征在于：还包括，

利用数据操作矩阵映射到所述数据全集上，定义W＝{d1,d2…dn}、b＝{MS1,MS2…MSq}、G_a＝OPr为特征b的值域，即G_a＝∪1≤i≤n，1≤j≤qOPrij；

在U上按不可区分关系R(b)，得到数据分块U/R(b)记为[u]b,定义为所述数据基元。

4.根据权利要求3所述的基于大数据动态规划的数据库协调优化方法，其特征在于：转化为所述二维表结构包括，

根据网管设备的说明文档统计所述数据基元的数据文件；

定义二维表的第一行为其对应的所述数据文件的数据对象名称集合，一个所述对象名称为一列；

设置任意一个所述数据文件中包含的数据对象名称总数为N个，则所述数据文件对应的二维表为N列；

依次遍历所述数据文件并找到每一个数据对象名称标识，存入其所属的数据对象列中。

5.根据权利要求6所述的基于大数据动态规划的数据库协调优化方法，其特征在于：所述二维表结构的数据类型为字符串型，包括，

当每行数据记录中的每列数据为字符或数字时，都直接按照顺序存入所述二维表中对应的位置；

若数据缺失，则补充为0。

6.根据权利要求5所述的基于大数据动态规划的数据库协调优化方法，其特征在于：存入的所述二维表结构只保存数据名称和数据所属对象名称。

7.根据权利要求6所述的基于大数据动态规划的数据库协调优化方法，其特征在于：所述压缩处理包括，

利用ASCII码定义数据信息中的字母、符合；

将整数、浮点数的数据由string型转化为int型；

利用二进制策略融合处理转化后的数据，压缩传输数据量。

8.根据权利要求1～7任一所述的基于大数据动态规划的数据库协调优化方法，其特征在于：构建所述优化模型包括，

选取径向基函数作为LSSVM的目标函数，如下

9.根据权利要求8所述的基于大数据动态规划的数据库协调优化方法，其特征在于：所述优化模型需提前进行训练，包括，

初始化惩罚参数和所述目标向量，利用所述数据基元对所述LSSVM进行训练并进行测试；

若所述优化模型未达到精度阈值要求，则根据误差对所述惩罚参数和所述目标向量进行赋值优化；

直至满足所述精度阈值要求，输出所述优化模型。