CN116683916B

CN116683916B - 一种数据中心容灾***

Info

Publication number: CN116683916B
Application number: CN202310966546.1A
Authority: CN
Inventors: 秦丽娟; 尤沛; 姚新美; 孙艺梦; 刘晓森
Original assignee: Shandong Wukesong Electric Technology Co ltd
Current assignee: Shandong Wukesong Electric Technology Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-10-10
Anticipated expiration: 2043-08-03
Also published as: CN116683916A

Abstract

本发明涉及数据处理技术领域，具体涉及一种数据中心容灾***，包括：数据预处理模块、相似度获取模块、编码模块、存储模块，采集医院信息数据并生成待编码数据序列；读入待编码数据序列并获取匹配到的字符串；根据匹配到的字符串更新搜索缓冲区；根据更新前后的搜索缓冲区中包含的字符种类及频数获取字符频率分布序列；根据更新前后的搜索缓冲区的字符频率分布序列获取更新前后的搜索缓冲区的相似度；根据相似度结果扩展搜索缓冲区长度；根据最终获取搜索缓冲区对待编码数据序列行编码；存储编码后的医院信息数据，实现医院信息数据容灾***构建。本发明提高了容灾***的数据存储率和存储效率。

Description

一种数据中心容灾***

技术领域

本发明涉及数据压缩技术领域，具体涉及一种数据中心容灾***。

背景技术

对于IT而言，容灾***就是为计算机信息***提供的一个能应付各种灾难的环境，当计算机***在遭受如水灾、战争等不可抗拒的自然灾害以及人为灾难时，容灾***可以保证用户数据的安全性。目前的医院已经发展为现代化的综合性医院，为了实现医院管理的科学化、现代化，实现数据全面共享，共同形成全面的医院信息管理***。由于医院信息***涉及临床、实验室信息***、医学影像管理、患者信息等多个重要***，庞大的信息***比人会产生大量数据，而且医院作为重点单位，***中通常存实验等重要数据，若医院信息***遭到自然灾害或黑客入侵，不免会造成数据损坏甚至***瘫痪，因此建立一种医院信息容灾***非常重要。

由于医院信息***的数据庞大且复杂，对数据进行备份以构建容灾***可能会耗费大量的人力和物力，由于对数据进行压缩备份在提高备份效率的同时，既可以减轻计算机***运行压力也能保证数据完整。编码作为一种基于数据重复性的无损压缩方法，具有较强的压缩比，但是只考虑到当前搜索缓冲区内数据的重复性，若搜索缓冲区的长度长，会降低编码的时间效率；反之搜索缓冲区的长度短时，包含的待编码数据序列中字符串的可能性较低，导致压缩效率降低。

发明内容

本发明提供一种数据中心容灾***，以解决现有的问题。

本发明的一种数据中心容灾***采用如下技术方案：

本发明一个实施例提供了一种数据中心容灾***，该***包括以下模块：

数据预处理模块、用于采集医院信息数据，利用平滑算法处理医院信息数据并将医院信息数据按行展开获取待编码数据序列；

相似度获取模块、用于根据预设的搜索缓冲区对待编码数据序列进行匹配操作，得到匹配到的字符串；根据编码算法对匹配到的字符串进行编码获取编码结果；根据匹配到的字符串更新搜索缓冲区；根据更新前后的搜索缓冲区中包含的字符种类及频率获取字符频率分布序列；根据更新前后的搜索缓冲区的字符频率分布序列获取更新前后的搜索缓冲区的相似度；

编码模块、用于根据更新前后的搜索缓冲区的相似度调整搜索缓冲区的长度，得到最终的搜索缓冲区；根据最终的搜索缓冲区继续对待编码数据序列进行匹配操作，直到待编码数据序列中所有字符都已完成遍历时停止迭代，将编码过程中所有匹配到的字符串的编码结果构成医院信息数据的压缩数据；

存储模块、用于对医院信息数据的压缩数据进行存储，实现医院信息数据容灾***构建。

优选的，所述根据匹配到的字符串更新搜索缓冲区，包括的具体方法为：

将搜索缓冲区中匹配到的字符串以及搜索缓冲区中在匹配到的字符串位置以前的字符从搜索缓冲区中剔除，并将待编码数据序列中匹配到的字符串和与字符串相邻的后一位字符加入到搜索缓冲区的末尾，完成搜索缓冲区的更新。

优选的，所述根据更新前后的搜索缓冲区中包含的字符种类及频率获取字符频率分布序列，包括的具体方法为：

获取更新前后的搜索缓冲区的字符种类并将字符种类进行整合，分别在更新前后的搜索缓冲区中统计所有种类字符出现频率，构成更新前的搜索缓冲区的字符频率分布序列以及更新后的搜索缓冲区的字符频率分布序列，更新前后的搜索缓冲区的字符频率分布序列中每个位置对应的字符是相同的。

优选的，所述根据更新前后的搜索缓冲区的字符频率分布序列获取更新前后的搜索缓冲区的相似度，包括的具体公式为：

其中，表示滑动的第/>个更新前后搜索缓冲区的相似度，且/>，其中/>表示遍历整个待编码数据序列需要的搜索缓冲区个数，/>表示归一化处理后的第/>个更新前的搜索缓冲区与待编码数据序列匹配到的字符串的长度，/>和/>分别表示更新前和更新后的搜索缓冲区的字符频率分布序列中第/>个字符对应的频率，/>表示更新前和更新后的搜索缓冲区中所有的字符种类数，/>表示以自然数为底的指数函数。

优选的，所述根据更新前后的搜索缓冲区的相似度调整搜索缓冲区的长度，得到最终的搜索缓冲区，包括的具体方法为：

预设相似度阈值，进行更新前后的搜索缓冲区的相似度的判断操作：当更新前后的搜索缓冲区的相似度大于或等于相似度阈值时，将更新后的搜索缓冲区作为最终的搜索缓冲区；当更新前后的搜索缓冲区的相似度小于相似度阈值时，根据预设的扩展长度a，将更新后的搜索缓冲区向前扩展a个字符，得到再次更新后的搜索缓冲区，获取更新前的搜索缓冲区与再次更新后的搜索缓冲区的相似度，重复进行更新前的搜索缓冲区与再次更新后的搜索缓冲区的相似度的判断操作，直到得到最终的搜索缓冲区时停止迭代。

本发明的技术方案的有益效果是：能够根据搜索缓冲区和待编码数据序列的匹配结果更新搜索缓冲区，缩短了搜索缓冲区的长度，能够提高匹配速度；根据更新前后的搜索缓冲区的相似度判断是否调整搜索缓冲区，并前向扩展搜索缓冲区，确保了压缩率；本实施例提高了医院信息数据的压缩效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种数据中心容灾***的结构框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种数据中心容灾***，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种数据中心容灾***的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种数据中心容灾***的结构框图，该***包括以下模块：

数据采集模块101.利用医院信息***采集医院信息数据并分类，获得待编码数据序列。

需要说明的是，获取医院信息***中的数据，按照临床信息、实验室信息、患者信息以及医学影像信息等类别将采集到的数据进行分类。由于编码算法基于数据重复性压缩，而未处理的数据可能受到噪声等多方面的影响造成数据的重复性较差，从而可能会影响压缩效果。因此本实施例利用平滑算法对采集到的多个类别的信息数据进行处理，使相邻时间点和空间点的数据更接近，增加了数据重复的可能性。

需要说明的是，通常利用医院信息***采集到的医院信息数据，包括了日期、科室、患者数量等多个信息，并利用二维数据表进行存储，为方便后续进行数据压缩，本实施例将数据表看作一个二维矩阵，将矩阵进行转置后按照行展开的方式生成一维数据序列，将生成的一维数据序列视作待编码数据序列。

至此，获取了医院信息的待编码数据序列。

相似度获取模块102.读入待编码数据，根据预设的搜索缓冲区与待编码数据进行匹配并更新搜索缓冲区，获取更新前后的搜索缓冲区的相似度。

需要说明的是，传统的编码算法固定搜索缓冲区的长度，若搜索缓冲区的长度过长，则在提高编码速率的同时会降低编码的时间效率；反之搜索缓冲区的长度过短，则在提高编码的时间效率时将低了编码速率，压缩效率降低。而且，/>编码中的搜索缓冲区长度固定，所以根据搜索缓冲区与待编码数据序列的匹配结果，搜索缓冲区会在待编码数据序列中前移匹配到的字符串对应的长度，以确保搜索缓冲区长度固定，这样匹配结果仅依赖搜索缓冲区长度，容易造成压缩效率降低或时间效率过低。因此本实施例通过匹配结果调整搜索缓冲区长度，尽可能缩短搜索缓冲区长度。

首先预设初始搜索缓冲区长度，基于待编码数据序列与初始搜索缓冲区进行最长匹配，本实施例以/>为例进行阐述，本实施例对/>不做限制。

滑动初始的搜索缓冲区与待编码数据序列进行最长匹配，记匹配到的字符串为，根据搜索缓冲区对匹配到的字符串L以及L之后的一个字符进行编码，得到编码结果。根据搜索缓冲区对匹配到的字符串L以及L之后的一个字符进行编码为/>编码算法中的现有技术，在此不详细阐述。获取编码结果后对搜索缓冲区进行更新：找到搜索缓冲区中匹配到的字符串/>所在的位置，将字符串/>以及处于字符串/>之前的字符均从初始搜索缓冲区中剔除，并将在待编码数据序列中匹配到的字符串/>以及与字符串/>相邻的后一位字符加入到搜索缓冲区的末尾，完成对搜索缓冲区的更新，记更新后的搜索缓冲区长度为/>。

需要说明的是，从搜索缓冲区中剔除的部分包括了匹配到的字符串以及位置处于字符串之前的字符，由于将匹配到的字符串加入到了初始搜索缓冲区的末尾，则当待编码数据序列中再次出现字符串/>时不会影响到匹配结果，但是由于剔除的部分包含了初始搜索缓冲区中处于字符串/>之前的部分，若待编码数据序列中出现字符串/>之前的字符，则会因为搜索缓冲区长度过短而导致压缩效率降低，因此为了在保证编码时间效率的同时需要提高压缩效率，本实施例对更新前后的搜索缓冲区进行相似度判断。

需要说明的是，若更新前后的搜索缓冲区的相似度越高说明更新后的搜索缓冲区对于匹配结果的影响不大，反之则影响较大，需要进行调整。由于字符频率可以直观地反映两个搜索缓冲区的内容在字符分布上的相似性，因此本实施例通过统计更新前后的搜索缓冲区包含的字符频率并生成更新前后的搜索缓冲区字符频率分布序列，通过两个字符频率分布序列的散度量化两个搜索缓冲区的相似度。

需要说明的是，若搜索缓冲区与待编码数据序列匹配到的字符串长度越长，说明更新前的搜索缓冲区较为优异，此时根据散度衡量更新前后的搜索缓冲区的相似度的必要性较高；若搜索缓冲区与待编码数据序列匹配到的字符串长度越短，说明更新前的搜索缓冲区效果较差，此时以更新前的搜索缓冲区与更新后的都多缓冲区的/>散度作为衡量标准的必要性较低。因此本实施例根据匹配到的字符串长度调节利用/>散度量化更新前后的搜索缓冲区的相似度的准确性。

获取更新前后的搜索缓冲区的字符频率分布序列，首先以更新前的搜索缓冲区中出现的字符种类构建更新前的搜索缓冲区的字符集合记为，同理获取更新后的搜索缓冲区的字集合记为/>，通过集合相并获取更新前后的搜索缓冲区的所有字符集合，记为。而后分别在更新前后的搜索缓冲区中统计集合/>中包含的所有种类字符的出现频率，构成更新前的搜索缓冲区的字符频率分布序列以及更新后的搜索缓冲区的字符频率分布序列。需要说明的是，更新前后的搜索缓冲区的字符频率分布序列中每个位置对应的字符是相同的。

由于散度是基于两个序列的相对差异来定义的，所以利用/>散度量化更新前后的搜索缓冲区的相似性可以更准确的得到对应字符的频率变化，因此本实施例通过计算两个字符频率分布序列的/>散度量化相似度。又因为搜索缓冲区与待编码数据序列匹配到的字符串越长，则根据更新前后的搜索缓冲区的/>散度衡量更新前后的搜索缓冲区之间的相似度越具有说服力；若匹配到的字符串越短，说明更新前的搜索缓冲区的匹配效果较差，此时需要利用匹配到的字符串长度调整更新前后的搜索缓冲区的/>散度以获得更准确的相似度结果。因此，本实施例构建相似度计算公式如下：

其中，表示滑动的第/>个更新前后的搜索缓冲区的相似度，且/>，其中/>表示遍历整个待编码数据序列需要的搜索缓冲区个数，/>表示归一化处理后的第/>个更新前的搜索缓冲区与待编码数据序列匹配到的字符串长度，/>和/>分别表示更新前和更新后的搜索缓冲区的字符频率分布序列中第/>个字符对应的频率，/>表示统计的更新前和更新后的搜索缓冲区中所有的字符种类，/>表示以自然数为底的指数函数。

需要说明的是，更新前后的搜索缓冲区的字符频率分布序列的散度越大，说明更新前后的搜索缓冲区的相似度越低，因此本实施例利用/>函数构建/>散度与相似度的负相关关系，又因为搜索缓冲区与待编码数据序列匹配到的字符串长度越长时说明此时直接利用/>散度衡量更新前后的搜索缓冲区的相似度的效果越好，则以/>作为调整系数，当匹配到的字符串长度越大时，/>无限趋于0，则利用/>调整此时的相似度结果几乎与/>散度保持一致；反之，当匹配到的字符串长度越短时，利用/>散度衡量更新前后的搜索缓冲区的相似度的必要性低，通过/>调整相似度结果更大，从而使后续的搜索缓冲区扩展操作更准确。

至此，获取了在编码过程中更新前后搜索缓冲区的相似度。

编码模块103.根据相似度结果调整搜索缓冲区长度并继续进行相似度检测，直到相似度大于预设阈值时则停止，根据最终获取的搜索缓冲区对待编码数据序列进行编码。

需要说明的是，更新前后的搜索缓冲区相似度越高，说明根据更新后的搜索缓冲区继续进行编码，因此本实施例进行更新前后的搜索缓冲区的相似度的判断操作：

通过预设相似度阈值，当/>时，将更新后的搜索缓冲区作为最终的搜索缓冲区；当/>时，根据预设的扩展长度/>，将更新后的搜索缓冲区向前扩展/>个字符，得到再次更新后的搜索缓冲区，获取更新前的搜索缓冲区与再次更新后的搜索缓冲区的相似度，重复进行更新前的搜索缓冲区与再次更新后的搜索缓冲区的相似度的判断操作，直到得到最终的搜索缓冲区时停止迭代。本实施例以/>为例进行叙述，对/>的取值不做限制。

需要说明的是，本发明实施例提出的编码算法是边搜索边编码的过程，搜索缓冲区不断向右滑动，并根据搜索缓冲区与待编码数据序列匹配到的字符串长度以及相似度更新并调整搜索缓冲区长度，得到最终的搜索缓冲区。

在编码过程中，根据最终的搜索缓冲区继续对待编码数据序列进行匹配操作，直到待编码数据序列中所有字符都已完成遍历时停止迭代，将编码过程中所有编码结果构成医院信息数据的压缩数据。

至此，获取了医院信息数据的压缩数据。

存储模块104.存储压缩后的医院信息数据，实现医院信息数据容灾***的建立。

需要说明的是，对医院信息数据进行压缩存储，极大地提高了医院信息数据的存储率和存储效率。在面临自然灾害以及人为攻击时，存储的医院信息数据可以进行持续访问和使用。

在使用时需要对压缩数据进行解压，具体的解压过程如下：创建一个空的解码数据序列，获取医院信息数据的压缩数据序列并以此读入医院信息数据的压缩数据序列，通常是一系列三元组，每个三元组包含了表示数据的指针、匹配到的字符串的长度值以及下一个字符。根据指针位置和长度值从搜索缓冲区中找到字符串对应的位置，将找到的字符串以及三元组中下一个字符作为三元组的解码结果。将在搜索缓冲区中找到的字符串以及处于字符串之前的所有字符剔除并将解码结果加入搜索缓冲区末尾，实现更新，根据相似度获取模块得到更新前后的搜索缓冲区相似度，若相似度大于阈值则根据更新后的搜索缓冲区继续解码下一个三元组，反之则向前扩展搜索缓冲区，获取最终的搜索缓冲区后对下一个三元组进行解码。

医院信息数据容灾***的建立，确保了最大程度地降低数据丢失和业务中断的风险，保证了医院信息数据的安全和可靠性，实现了利用容灾***保护医院数据信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据中心容灾***，其特征在于，该***包括以下模块：

相似度获取模块、用于根据预设的搜索缓冲区对待编码数据序列进行匹配操作，得到匹配到的字符串；根据编编码算法对匹配到的字符串进行编码获取编码结果；根据匹配到的字符串更新搜索缓冲区；根据更新前后的搜索缓冲区中包含的字符种类及频率获取字符频率分布序列；根据更新前后的搜索缓冲区的字符频率分布序列获取更新前后的搜索缓冲区的相似度；

2.根据权利要求1所述一种数据中心容灾***，其特征在于，所述根据匹配到的字符串更新搜索缓冲区，包括的具体方法为：

3.根据权利要求1所述一种数据中心容灾***，其特征在于，所述根据更新前后的搜索缓冲区中包含的字符种类及频率获取字符频率分布序列，包括的具体方法为：

4.根据权利要求3所述一种数据中心容灾***，其特征在于，所述根据更新前后的搜索缓冲区的字符频率分布序列获取更新前后的搜索缓冲区的相似度，包括的具体公式为：

其中，/>表示滑动的第/>个更新前后的搜索缓冲区的相似度，且/>，其中/>表示遍历整个待编码数据序列需要的搜索缓冲区个数，/>表示归一化处理后的第/>个更新前的搜索缓冲区与待编码数据序列匹配到的字符串的长度，/>和/>分别表示更新前和更新后的搜索缓冲区的字符频率分布序列中第/>个字符对应的频率，/>表示更新前和更新后的搜索缓冲区中所有的字符种类数，/>表示以自然数为底的指数函数。

5.根据权利要求1所述一种数据中心容灾***，其特征在于，所述根据更新前后的搜索缓冲区的相似度调整搜索缓冲区的长度，得到最终的搜索缓冲区，包括的具体方法为：