CN110868221B

CN110868221B - 一种多模态数据自动压缩方法

Info

Publication number: CN110868221B
Application number: CN201911054526.7A
Authority: CN
Inventors: 张可; 柴毅; 叶胜强
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-06-25
Anticipated expiration: 2039-10-31
Also published as: CN110868221A

Abstract

一种多模态数据自动压缩方法，包括有：采集数据并按数据类型分为多种模态，在数据压缩规范库中查找每种模态数据对应的结果；若各模态数据中包含有未存数据类型，或各模态数据对应的结果中包含有数据压缩规范库中的预设压缩比，则建模计算各模态的最优压缩比，并将计算出的结果更新到数据压缩规范库中对应的结果中，替换最优压缩比或预设压缩比，执行压缩。它可以为多模态数据提供高效率的压缩方案。

Description

一种多模态数据自动压缩方法

技术领域

本发明涉及数据压缩方法，特别是一种多模态数据自动压缩方法。

背景技术

当前，多终端分布式工程***在各领域被广泛应用，这类***对象通常具有多个终端位于现场进行基础性工作。各终端通过分散式网络或集中式网络与远程的控制中心交互，其功能相对单一，除了接受远程的监管之外，自身运行也具有较高的自组织性。由于各终端在运行周期内产生的多种类型运行数据可以直接用于反映***整体的状态特征，因此这些数据通常需要详细的记录下来并有序的组织，按周期或按需要传输给远程决策控制中心，以便于整体决策，对于重要度和时效性高的，更是需要尽可能适应实时传输的要求。

然而，由于现场终端的数据存储条件仅和远程的传输条件(特别是针对分散式网络)，这为使用大规模数据支撑的远程整体决策造成了阻碍，其难点主要有二：

1、数据规模过大。当前对于各终端功能点的评价指标有很多项，包括检查手段产生的测量数值、仪器记录的信号、图像和视频类非结构数据、文本形式呈现的报告结果、叙述性的数据、元数据文本等。单位时间内通过感知器采集到的运行监测数据增长量大，而若要反映一个运行周期的工况，则数据规模将需要耗费大量的存储空间，也不便于远程实时传输；

2、数据模态多样。各终端由于存在功能上的多样性，还包含多个较低层级的子***，因此对其运行监测的数据类型在存在多种模态的同时具有不确定性的维度(这些监测数据具有不同的语义)，其中数据类型包括连续型、离散型、枚举型、布尔型、结构体、有序键值集合、文本文件、二进制文件、类等难以按照一定的规范组织这些数据使其便于决策。

数据压缩是一种能够缩减数据规模和有序组织的技术方法，采用压缩算法来降低海量数据的占比为节省存储空间提供了解决思路。压缩效率与数据压缩比紧密相关，但是受监测数据的模态和维度都存在不确定性的影响，高压缩率可能并不能满足等时长数据、等大小规模、按周期划分的要求，若其按照预定义的固定压缩比可能会显然会造成计算资源和传输资源的浪费，也不利于数据有序组织。

发明内容

本发明的目的就是提供一种多模态数据自动压缩方法，它可以为多模态数据提供高效率的压缩方案。

本发明的目的是通过这样的技术方案实现的，具体方法为：

采集数据并按数据类型分为多种模态，在数据压缩规范库中查找每种模态数据对应的结果；

若各模态数据在数据压缩规范库中都属于已存数据类型，并且各模态数据对应的结果为更新过最优压缩比，则出各模态数据对应的最优压缩比，执行压缩；

若各模态数据中包含有未存数据类型，或各模态数据对应的结果中包含有数据压缩规范库中的预设压缩比，则建模计算各模态的最优压缩比，并将计算出的结果更新到数据压缩规范库中对应的结果中，替换最优压缩比或预设压缩比，执行压缩。

进一步，所述采集数据是采集一个周期内产生的多模态数据，并检测出其大小为D；对这些数据归类为n种数据模态和其获取对应的数据规模为D_i(i＝1,2,L,n)。

进一步，所述数据压缩规范库根据模态的类型给出对应的最有效的无损压缩算法、预期压缩比

以及该压缩算法对应的单位数据压缩周期函数T_i＝f_i(p_i)(i＝1,2,L,n)，其中i表示第i种模态，p_i表示第i种模态对应的压缩比。

进一步，所述建模计算各模态的最优压缩比的具体方法为：

设定压缩规范预期目标，设定压缩规范预期目标评价指标参数；选取压缩效率指数

作为压缩规范预期目标，以期望压缩时耗t和期望数据压缩占比h作为评价指标参数，式中，i表示第i种模态、p_i表示第i种模态对应的压缩比、D_i表示第i种模态的数据规模、T_i＝f_i(p_i)表示该压缩算法对应的单位数据压缩周期；

对压缩算法引入动态可调节的参数来控制数据的整体压缩效率，动态可调节参数为压缩比；

建立以符合压缩规范预期目标的优化控制模型：

其中(i＝1,2,L,n)

式中，T_i＝f_i(p_i)表示该压缩算法对应的单位数据压缩周期函数；

将各模态数据的压缩比作为决策变量来反馈控制数据的整体压缩效率，通过优化调整使压缩比符合压缩预期目标；将压缩比p_i控制在最大压缩比P_max和最小压缩比为和P_min范围内，设定所能接受的压缩耗时为t和压缩数据占比h，建立数据压缩过程中存在的约束条件：

其中，t_compress为数据整体压缩耗时；D_i为第i种模态数据规模；T_i为第i种模态数据单位压缩周期；Q_i为第i种模态数据的压缩效率指数；

根据控制优化模型和约束条件，将压缩比作为决策变量来控制整体压缩效率指数，根据优化目标求解出最优压缩比和最小整体压缩指数。

进一步，根据约束条件，采用遗传算法求解控制优化模型得到最优压缩比，具体步骤如下：

S1、编码：根据各模态的压缩比范围为[P_min,P_max]采用长度为k的二进制编码，共有2^k种不同编码，相邻的编码间隔为

S2、初始种群的生成：随机生成N个串结构数据作为初始种群开始进化，即产生N个以二进制为编码的初始压缩比p(p＝[p₁,p₂,…,p_n])作为初始种群；

S3、适应度评估：选择适应度函数为[Q,t_compress,D_compress],并计算种群中每一个初始个体的适应度函数值；

S4、自然选择：个体中适应度函数值[t_compress,D_compress]满足约束条件且Q小于种群平均值的个体保留下来作为适应性强的个体添加至新种群中；

S5、交叉和变异：交叉是将个体与个体之间的部分编码进行交换，变异是在种群中随机选择一个个体以很小的概率随机改变编码中的某个字符，交叉和变异的目的都是得到新的个体添加至新的种群中；

S6、是否停止进化：终止条件：进化次数是达到设定次数或者种群适应度Q的方差小于设定方差；若满足该终止条件，则停止进化，否则将更新后种群返回至步骤S3；

S7、解码：将选择留下的最优个体通过编码转换成原始参数作为最优压缩比，同时得到最优适应度。

进一步，所述将计算出的结果更新到数据压缩规范库中对应的结果中，替换最优压缩比或预设压缩比的具体方法为：

对求解出的各类模态的最优压缩比p_i与数据库中初始压缩比

进行对比，采用压缩效率指数的方式进行比较；若

则更新规范库中的初始预期压缩比，并将初始预期压缩比标记为

采用最优压缩比对数据进行压缩；否则保留原有或预设压缩比，并将原有或预设压缩比标记为

采用原有或预设压缩比对数据压缩。

由于采用了上述技术方案，本发明具有如下的优点：

本发明采用数据库应用的方式为多模态数据提供了压缩方案，通过独创的建模公式和计算方式计算出最优压缩比，保证了数据库内提供的最优压缩比为效率最高的压缩方案。本发明引入动态压缩比的压缩方式可以提高压缩效率，这是针对不同的数据的模态和规模，其压缩耗时是与其数据压缩程度相关，适合于单一数据模态的压缩比并不能胜任其他数据模态；引入动态压缩比的压缩方式可以为后续的信息处理提供有力支持，这是因为对于大型的数据生产***体系，其输出的数据都要进行监测的和反馈到控制中心的，以此来为决策层提供实时数据反馈和在线提供数据支持

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

本发明的附图说明如下。

图1为本发明的流程示意图；

图2为本发明通过遗传算法最求的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

一种多模态数据自动压缩方法，如图1所示，包括有以下步骤：

S1：根据安保信息***产生的监测数据的模态等先验知识建立适应于该***的预定义数据压缩规范库；

S2：检测出安保信息***产生的监测数据的模态和规模；

S3：在预定义数据压缩规范库中选取对应适用的无损压缩算法；

S4：对压缩算法引入动态可调节的参数来控制数据的整体压缩效率；

S5：建立以整体压缩效率为最优的优化模型和约束条件；

S6：将压缩比作为决策变量来控制其总体数据压缩效率，从而求解出最优压缩比；

S7：将各种模态数据的相应压缩方法与压缩比反馈至预定义数据压缩规范库并更新。

S8：对预定义数据压缩规范库中所有预定义压缩比进行更新标记。

S9：采用更新的压缩比对同种模态数据进行压缩，直至新类型数据出现。

建立适应于安保信息***的预定义数据压缩规范库，是根据该***输出的数据类型和数据特点建立的数据库，其里面包含不同数据模态对应的最有效的无损压缩算法、预期压缩比

以及该压缩算法对应的单位数据压缩周期函数T_i＝f_i(p_i)(i＝1,2,L,n)等参数，其中i表示第i种模态，p_i表示第i种模态对应的压缩比。该数据库的信息形式如下表所示：

数据压缩规范库的信息存储形式表

数据的模态	最适压缩算法	压缩周期函数T	预期压缩比
				数值	压缩算法1	T<sub>1</sub>＝f<sub>1</sub>(p)	P<sub>1</sub><sup>(0)</sup>
开关量	压缩算法2	T<sub>2</sub>＝f<sub>2</sub>(p)	P<sub>2</sub><sup>(0)</sup>
				……	……	……	……

检测数据的类型和规模，是针对安保监测***输出多模态监测数据，得到其数据类型n种以及对应的数据规模D_i(i＝1,2,L,n)。

选取对应适用的无损压缩算法，是根据S1中创建的预定义数据压缩规范库，选取匹配数据模态的无损压缩算法和对应的压缩耗时函数T_i＝f_i(p_i)(i＝1,2,L,n)。

引入动态压缩，在传统方式对数据压缩存储的优化主要是通过提高压缩算法的压缩比来实现的，但针对同一类压缩算法，提高压缩比必然会增加压缩耗时，基于此，需要对压缩算法的不同模态数据的压缩比进行调节，从而使多模态数据的压缩效率达到最大，这就需要对压缩算法引入动态可调的压缩比来调整其压缩效率。

建立优化模型，是引入压缩算法后对监测数据的压缩程度并不是越大越好，高压缩比必然会引起压缩时间的骤增，同时不同的数据类型压缩耗时也不一致。因此需要建立以整体压缩效率指数为最优目标的优化模型。可以得到以下目标函数：

其中(i＝1,2,L,n)

因此，对于在不同模态数据占比D_i确定的条件下，上述最优化模型仅有一个决策变量p_i；

将压缩比p_i控制在[1.5,50]范围内，设定所能接受的压缩时间耗时为t和压缩数据占比h，同时多模态数据的总体占比D_total是一定的，因此数据压缩过程中存在以下约束条件：

其中，t_compress—数据整体压缩耗时；D_compress为数据整体压缩后的规模大小；D_i—第i种模态数据规模；T_i—第i种模态数据单位压缩周期；Q_i—第i种模态数据的压缩效率指数。

求解出该优化模型的最优压缩比，是根据上述所建立的优化模型和约束条件，将压缩比作为决策变量来控制整体压缩效率指数，当目标即整体压缩效率指数达到最小时，各类模态对应的压缩比即为最优压缩比。为了更加精确有效的求解出最优压缩比和最小整体压缩指数，本发明采用遗传算法这种进化算法来求解这个非线性规划问题。

该遗传算法流程图如图2所示，其具体步骤如下：

S61：编码：根据各模态的压缩比范围为[1.5,50]采用长度为k的二进制编码，共有2^k种不同编码，相邻的编码间隔为

S62：初始种群的生成：随机生成N个串结构数据作为初始种群开始进化，即产生N个以二进制为编码的初始压缩比p(p＝[p₁,p₂,…,p_n])作为初始种群；

S63：适应度评估：选择适应度函数为[Q,t_compress,D_compress],并计算种群中每一个初始个体的适应度函数值；

S64：选择：个体中适应度函数值[t_compress,D_compress]满足约束条件且Q小于种群平均值的个体保留下来作为适应性强的个体添加至新种群中；

S65：交叉和变异：交叉是将个体与个体之间的部分编码进行交换，变异是在种群中随机选择一个个体以很小的概率随机改变编码中的某个字符。交叉和变异的目的都是得到新的个体添加至新的种群中；

S66：是否停止进化：终止条件：进化次数是达到设定次数或者种群适应度Q的方差小于设定方差。若满足该终止条件，则停止进化，否则将更新后种群返回至步骤S63；

S67：解码：将选择留下的最优个体通过编码转换成原始参数作为最优压缩比，同时得到最优适应度。

进一步，所述预定义数据压缩规范库并更新，根据S6求解出的最优压缩比p_i与规范库中的初始预期压缩比

做压缩效率指数对比，从而判断是否要对数据压缩比进行更新。

其具体步骤如下：

S71：对S6求解出的各类模态的最优压缩比p_i与数据库中初始压缩比

进行对比，采用压缩效率指数的方式进行比较；

S72：若

采用最优压缩比对数据进行压缩；否则保留原先的初始预期压缩比，并将初始预期压缩比标记为

采用初始预期压缩比对数据压缩。

S73：根据S72所得出的判断结果来更新数据压缩规范库中的预期压缩比，对下一次的压缩控制提供决策帮助。

进一步，所述预定义数据压缩规范库中的预期压缩比进行更新标记，是指对安保信息***中预定义的数据规范库所有模态数据都经过优化模型求解出最优压缩比，将这些压缩比更行至规范库中，并将S7所述标记标入对应的位置中。

直至所有模态数据都经过优化模型求解出最优压缩比

进一步，所述采用更新的压缩比对同类数据进行压缩，就是针对安保***中待压缩存储的多模态数据，根据不同的模态匹配更新规范库中的压缩算法和压缩比来对数据进行压缩，而不需要重新计算最优压缩比，大大简化了压缩决策步骤，提高了安保***种海量数据压缩效率和存储效率。

其具体步骤如下：

S91：获取待压缩存储的多模态数据集的模态种类n和各模态数据规模D_i(i＝1,2,L,n)；

S92：若该数据集中n种模态均已在数据压缩规范库中有标记，则采用数据压缩规范库匹配的数据压缩算法和压缩比对该数据集进行压缩；

S93：若该数据集中既有已在数据压缩规范库中标记的数据模态种数m，也有未标记的数据模态种类(n-m)，则将整体数据集代入至步骤S5建立的数学模型获取各个模态的最优压缩比p_i(i＝1,2,L,n)；

S94：将未标记数据模态对应的压缩比p_i(i＝m+1,m+2,L,n)更新至数据压缩规范库。同时将有标记数据模态的压缩比p_i(i＝1,2,L,m)与数据库中对应的压缩比采用压缩效率指数的方式进行对比，根据比较结果来更新数据库中对应的压缩比。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种多模态数据自动压缩方法，其特征在于，具体方法为：

若各模态数据在数据压缩规范库中都属于已存数据类型，并且各模态数据对应的结果为更新过的最优压缩比，则按各模态数据对应的最优压缩比，执行压缩；

若各模态数据中包含有未存数据类型，或各模态数据对应的结果中包含有数据压缩规范库中的预设压缩比，则建模计算各模态的最优压缩比，并将计算出的结果按压缩效率指数的方式与预设压缩比进行比较，当最优压缩比的压缩效率指数大于预设压缩比的压缩效率指数时，则将各个模态数据的最优压缩比更新到数据压缩规范库中对应的结果中，替换预设压缩比，执行压缩；

所述数据压缩规范库根据模态的类型给出对应的最有效的无损压缩算法、预设压缩比P_i ⁽⁰⁾以及该压缩算法对应的单位数据压缩周期函数T_i＝f_i(p_i)i＝1,2,…,n，其中i表示第i种模态，p_i表示第i种模态对应的压缩比；

所述建模计算各模态的最优压缩比的具体方法为：

作为压缩规范预期目标，以期望压缩时耗t和期望数据压缩占比η作为评价指标参数，式中，i表示第i种模态、p_i表示第i种模态对应的压缩比、D_i表示第i种模态的数据规模、T_i＝f_i(p_i)表示该压缩算法对应的单位数据压缩周期；

建立以符合压缩规范预期目标的优化控制模型：

式中，T_i＝f_i(p_i)表示该压缩算法对应的单位数据压缩周期函数，Q代表整体数据的压缩效率指数，在形式上是所有数据模态对应的数据压缩效率指数之和；

将各模态数据的压缩比作为决策变量来反馈控制数据的整体压缩效率，通过优化调整使压缩比符合压缩预期目标；将压缩比p_i控制在最大压缩比P_max和最小压缩比为和P_min范围内，设定所能接受的压缩耗时为t和期望数据压缩占比η，建立数据压缩过程中存在的约束条件：

根据控制优化模型和约束条件，将压缩比作为决策变量来控制整体压缩效率指数，根据优化目标求解出最优压缩比和最小整体压缩指数；

根据约束条件，采用遗传算法求解控制优化模型得到最优压缩比，具体步骤如下：

2.如权利要求1所述的多模态数据自动压缩方法，其特征在于，所述采集数据是采集一个周期内产生的多模态数据，并检测出其规模为D；对这些数据归类为n种数据模态和其获取对应的数据规模为D_i，i＝1,2,…,n，其中i表示第i种模态数据，n表示数据模态的种类总数。

3.如权利要求1所述的一种多模态数据自动压缩方法，其特征在于，所述将计算出的结果更新到数据压缩规范库中对应的结果中，替换最优压缩比或预设压缩比的具体方法为：

对求解出的各类模态的最优压缩比p_i与数据库中预设压缩比P_i ⁽⁰⁾进行对比，采用压缩效率指数的方式进行比较；若

则更新规范库中的初始预设压缩比，并将初始预设压缩比的值替换为P_i ⁽¹⁾，采用最优压缩比对数据进行压缩；若

保留原有的初始预设压缩比，采用初始预设压缩比对数据压缩；P_i ⁽⁰⁾表示第i种模态对应的预设压缩比，而P_i ⁽¹⁾代表需要在规范库中进行更新的第i种模态对应的最优压缩比。