CN102622302B

CN102622302B - 碎片数据类型的识别方法

Info

Publication number: CN102622302B
Application number: CN201110031123.8A
Authority: CN
Inventors: 汤燕彬; 杨泽明; 刘宝旭
Original assignee: Institute of High Energy Physics of CAS
Current assignee: Institute of High Energy Physics of CAS
Priority date: 2011-01-26
Filing date: 2011-01-26
Publication date: 2014-10-29
Anticipated expiration: 2031-01-26
Also published as: CN102622302A

Abstract

本发明提供了一种碎片数据类型的识别方法，包括以下步骤：首先，提取待测试碎片数据x的字节频率分布F(x)；而后，通过公式计算待测试碎片数据x与某一样本S之间字节频率分布的相似度T_x，接着，判定所述待测试碎片数据x与某一样本S之间字节频率分布的相似度T_x是否落入已知数据类型T中的一种碎片数据类型T_i的相似度的范围内，如果落入，则判定所述测试碎片数据x属于已知数据类型T_i代表的类型；如果没有落入任何一个已知数据类型T的范围内，则判定所述待测试碎片数据x的类型无法识别。本发明提供的方法可以对碎片数据的类型进行识别，为后续的碎片数据重组工作提供基础，从而可以使得能够根据碎片数据恢复出具有一定内容的文件，为司法取证提供技术支持。

Description

碎片数据类型的识别方法

技术领域

本发明涉及一种计算机硬盘或其他可移动存储介质的磁盘碎片数据的类型或内存镜像中碎片数据类型的识别方法，特别是涉及基于字节频率分布的碎片数据类型的识别方法。

背景技术

磁盘的簇或块由一个或多个扇区组成，扇区是磁盘最小的物理存储单元，而簇是操作***分配的最小单元，磁盘的簇通常为多个扇区，例如有2、4、8、16、32、64等多个扇区，每个簇只能由一个文件占用，即使这个文件中只有几个字节，也决不允许两个以上的文件共用一个簇，否则会造成数据的混乱。其中，扇区是物理的，而簇是逻辑的，簇可以由操作***改变，形成簇便于***管理。

文件***在存储数据到磁盘时以簇或块为单位，分散保存到整个磁盘的不同地方，在现有技术中，将这些分散保存到磁盘的不同地方一个文件的不同部分称为文件碎片。这些文件碎片会导致***性能降低，使得运行速度下降，因而，通过传统的磁盘碎片整理程序来处理碎片，磁盘碎片整理程序可以分析硬盘中的磁盘碎片，移动并合并文件碎片，使每个文件都可以占用硬盘上单独而连续的储存空间，从而提高磁盘使用空间的使用率，提高磁盘读取文件的速度。

在磁盘中除了存在上述传统意义上的文件碎片外，还存在着另一种数据，即存在于未分配簇或块中的数据，这些数据的产生通常是由于在磁盘使用一段时间后，反复地复制、生成和删除文件造成的。例如，文件被删除后，但是该文件的部分实际内容仍然存储在该空间中。这类数据具有不完整、易被覆盖的特点。以删除文件的操作为例，文件被删除后，原来存储该文件的空间被标识为“未分配空间”，磁盘中的磁盘文件***在回收使用未分配空间过程中，会将新内容写入这部分区域。然而实际上，此未分配空间还存有原来被删除的文件的部分内容，在将新内容写入该空间时，使得原已存在的数据信息被新的数据信息所覆盖。

尽管这类数据通常是不完整的、易被覆盖的，但是这类数据在提取并重构后可以得到较为完整的内容，从而作为电子证据来使用。

为了清楚地说明本发明，在本发明中，将这种保存在磁盘中未分配簇或块中的数据定义为碎片数据。另外，有什么类型的文件，就存在对应类型的碎片数据，碎片数据的类型识别是文件重组或文件还原的一个基础，因此，本发明基于扇区512B为单位，定义碎片数据类型是指以512B为单位的碎片数据所代表的数据的类型。

通过上述分析可见，所述碎片数据在形成电子证据方面起着重要的作用，而对碎片数据类型的识别可以提高后续的文件重组工作的识别率，并降低相应的计算量。然而，目前并没有任何现有技术可以对所述的碎片数据进行分析和利用，对碎片数据类型进行识别。

发明内容

本发明为了解决上述问题而提供一种碎片数据类型的识别方法，用以识别碎片数据的类型，为后续的碎片数据重组工作提供基础。

为了解决上述技术问题，本发明提供了如下技术方案：

一种碎片数据类型的识别方法，包括以下步骤：

步骤1，提取待测试碎片数据x的字节频率分布F(x)；其中，F(x)＝{f₀，f₁…f_i…f₂₅₅}，f_i为以扇区为单位的碎片数据中字节值i出现的次数；

步骤2，通过公式(1)计算待测试碎片数据x与某一样本S之间字节频率分布的相似度T_x，

T (A, S) = \frac{A \cdot S}{{| | A | |}^{2} + {| | S | |}^{2} - A \cdot S}

公式(1)

其中，A＝F(x)，为所述测试碎片数据x所在扇区的字节频率分布，S为样本数据字节频率分布； n＝256；

步骤3，判定所述待测试碎片数据x与某一样本S之间字节频率分布的相似度T_x是否落入已知数据类型T中的一种碎片数据类型T_i的相似度的范围内，如果落入，则判定所述测试碎片数据x属于已知数据类型T_i代表的类型；如果没有落入任何一个已知数据类型T的范围内，则判定所述待测试碎片数据x的类型无法识别；；

其中，T＝{T₁,T₂,…T_i…T_m}表示T共有m种碎片数据类型，T_i代表第i种碎片数据类型，i＝1……m。

进一步地，所述的碎片数据类型的识别方法还包括步骤4，

步骤4，当所述待测试碎片数据x与某一样本S之间字节频率分布的相似度T_x落入一已知数据类型T_i的相似度的范围内时，进一步判断碎片数据x中是否存在δ_x，如果存在，则确定是否满足δ_x∈T_j，如果满足，并且，如果i＝j，则判定所述测试碎片数据x属于已知数据类型T_i代表的类型；

其中，δ_x为所述某一文件类型的结构特征，Tj为未知类型数据的结构特征的集合。

进一步地，所述的碎片数据类型的识别方法还包括步骤5，

步骤5，当步骤3中的所述待测试碎片数据x与某一样本S之间字节频率分布的相似度T_x落入一已知数据类型T_i的相似度的范围内的相似度小于预定范围时，或者步骤4中的i≠j时，判断所述待测碎片数据所在的数据块内的其他碎片数据的相似度落入所述已知数据类型T_i的范围内的数量是否达到预定数量，如果达到，则判定所述碎片数据x属于数据类型T_i代表的类型，否则判定所述碎片数据x无法识别。

另外，在前述的碎片数据类型的识别方法的步骤1之前包括如下步骤：

步骤A：提取样本模型S，确定各种文件类型的碎片数据与所述样本模型S之间的相似度；

步骤B：提取各种文件类型的结构特征δ，其中，δ＝{δ₁,δ₂…δ_i…δ_m}，表示δ共有m种文件类型的结构特征。

本发明所述的碎片数据包括磁盘中的碎片数据和内存中的碎片数据。

本发明提供的方法可以对碎片数据的类型进行识别，为后续的碎片数据重组工作提供基础，从而可以使得能够根据碎片数据恢复出具有一定内容的文件，为司法取证提供技术支持。

以下结合附图和具体实施例，对本发明所述技术方案进行详细地说明。

附图说明

图1为本发明所述碎片数据类型识别方法的流程图；

图2为本发明所述碎片数据类型识别方法的一个具体实施例的流程图；

图3为图2中步骤S15的详细流程图；

图4为图2中步骤S16的详细流程图；

图5为碎片数据取证工作的流程图。

具体实施方式

如图1所示，为本发明所述碎片数据类型识别方法的流程图。

步骤S1，在开始进行碎片数据类型识别之前，首先要进行准备工作，即应取得各种文件类型数据区域的字节频率分布样本和其特有的结构特征。如果已有各种文件类型数据区域的字节频率分布样本和其特有的结构特征，则可以跳过此步骤直接从步骤2开始进行识别工作，如果没有，则需要在此步骤通过大量的工作来提取，如收集、对比、分析、总结等，得到各种文件类型数据区域的字节频率分布样本和其特有的结构特征，为下步的类型识别提供基础。

步骤S2，针对要识别的待测试碎片数据，提取出待测试碎片数据的字节频率分布。

步骤S3，利用Tanimoto系数建立相应的识别模型，计算待测试碎片数据与某一样本的字节频率分布的相似度。

步骤S4，将计算得到的相似度与一已知类型的碎片数据与同一样本的字节频率分布的相似度进行比较，判断计算得到的相似度是否落入后一相似度的范围，如果落入，则在步骤S4中，确定待测试碎片数据与该已知类型的碎片数据属于同一类型，如果不在后一相似度的范围内，则确认该待测试碎片数据无法识别。

其中，判断的依据应是先行取得的，即已知某种类型的碎片数据与某一样本的字节频率分布的相似度应是一个已知范围，这样便可以判断计算出来的相似度是否落入该范围，如果落入，则说明待测试碎片数据属于该类型。

另外，本发明提出两类优化参数辅助碎片数据类型的识别，一是查找碎片数据中是否含有相关数据类型的特殊结构特征，二是考虑到碎片数据的关联性，即待测试碎片数据与相邻碎片数据类型之间有一定的关联，可以通过这两种方法增强碎片数据识别的准确性，并确保在识别过程中不改变原始数据，从而确保了数的真实性和可靠性。

图2为本发明所述碎片数据类型识别方法一个具体实施例的流程图，具体包括以下几个步骤：1)预处理；2)建立识别模型；3)初步判定被测试碎片数据所属类型；4)引入被测试碎片数据的相关结构特征为优化参数1；5)引入碎片数据之间距离的关联性为优化参数2。利用优化参数可以提高碎片数据类型识别的准确性。以下具体说明上述各步骤：

步骤S11、预处理。在预处理阶段，包括提取各种文件类型数据区域的字节频率分布样本，建立样本模型S，其中，S＝{S₁，S₂，…S_i…S_m}，S代表样本模型的集合，s_i是其中的一个子元素，这是用数学的方法把样本模型抽象出来，用S表示；

还包括提取文件类型特有的结构特征δ，其中，δ＝{δ₁，δ₂…δ_i…δ_m}，δ代表文件结构特征的集合。

字节频率分布是指离开操作***层面，按字节统计原始数据的频率分布。如函数F(x)中，f_i表示以扇区为单位的碎片数据中字节值i(即计算机中的每个字节(byte)所对应的十进制数值)出现的次数。通过该函数F(x)，可以根据不同数据类型自身性质的差异提取出字节频率分布的特征，该特征的优点在于：能摒弃文件类型、文件扩展名、文件特殊标识等由操作***赋予的外部特征，立足于碎片数据自身的内容，能够真实反映碎片数据的特性。

文件类型特有的结构特征δ，是指各种文件类型其特有的连续的二进制数据标识，这些结构特征不仅仅分布在文件的起始位置，而且有可能分布在文件的当中或者结尾部分。需要通过大量数据分析来获得，可以由机器通过某些算法来自动获得，也可以人工分析获得。

关于文件类型特有的结构特征δ，不同的文件类型，其结构特征不同，以JPEG文件类型为例，JPEG文件类型的文件主要包括如下表1所示的二进制数据标识。

表1

代码	含义
		FFD8	图像开始标记SOI(Start of Image)
FFE0	APP0标记(Marker)
		FFDB	量化表DQT(difine quantization table)
FFC4	霍夫曼表DHT(Difine Huffman Table)
		FFC0	帧图像开始SOF0(Start of Frame)
FFDA	扫描开始SOS(Start of Scan)
		FFD9	图像结束EOI(End ofImage)

步骤S12、提取测试碎片数据x(x表示被测试碎片数据的代号)的字节频率分布F(x)，其中，F(x)＝{f₀，f₁…f_i…f₂₅₅}。

步骤S13、通过Tanimoto系数，即公式(1)计算样本S与测试数据F(x)之间字节频率分布的相似度T_x。

Tanimoto系数可以度量文档数据的相似性，并在二元属性情况下归约为Jaccard系数。本发明提出一种基于字节频率分布的碎片数据识别模型，该模型以512B的碎片数据为最小测试单元，统计每个测试512B中的字节频率分布F(x)，通过Tanimoto系数可以得出样本S与测试碎片数据F(x)之间字节频率分布的相似度T_x。

T (A, S) = \frac{A \cdot S}{{| | A | |}^{2} + {| | S | |}^{2} - A \cdot S}

公式(1)

其中A＝F(X)，为测试碎片数据x所在扇区的字节频率分布，是一个具有256个元素的1维向量；S为样本数据的字节频率分布；

A \cdot S = Σ_{i = 1}^{n} A_{i} S_{i}, {| | A | |}^{2} = Σ_{i = 1}^{n} A_{i} A_{i},

n＝256。

可见，T的取值范围是[0，1]，当T＝0时，A与S相似度最低；当T趋向于等于1时，A与S相似度最高。在T的值从0到1时，A与S相似度由低到高。

在计算相似度时，可以借助于计算机等手段来计算，例如，在计算机内编写有计算程序，通过输入界面输入S和A，即可以自动算出样本S与测试数据F(x)之间字节频率分布的相似度T_x。

步骤S14，计算出样本S与测试数据F(x)之间字节频率分布的相似度T_x后，初步判定被测试碎片数据x的相似度T_x是否落入一已知类型的碎片数据与同一样本的字节频率分布的相似度范围内。

在本发明中，预先存储有根据各种类型的碎片数据与样本之间的相似度而得出的数据类型T，即T＝{T₁，T₂，…T_i…T_m}，表示共有m种碎片数据类型。其中，Ti代表的是第i种数据类型，其用两个参数Ti1、Ti2来表示，其中，Ti1代表相似度，即第i种数据类型的相似度用Ti1来代表，其为一个从0到1的范围，每一种数据类型的相似度都有一个有效范围，以JPEG文件类型为例子，利用Tanimoto系数计算出的相似度的有效范围为[0.55，1]，即0.55至1之间；Ti2代表数据结构特征集合，即第i种数据类型的数据结构特征集合用Ti2来代表，例如，JPEG文件类型的数据结构特征集合可为前述表1的内容。

基于上述预先存储的根据各种类型的碎片数据与样本之间的相似度而得出的数据类型T，初步判定被测试碎片数据x的相似度T_x是否落入Ti1范围内，若相似度T_x落入Ti1范围内，则可认为碎片数据x属于第i类碎片数据；如果相似度T_x没有落入Ti1范围内，则可认为碎片数据x不属于第i类碎片数据，需要继续判定相似度T_x是否落入T_i+1范围，即另一个已知类型的相似度范围内，若相似度T_x均没有落入所有的已知类型的相似度范围内，即将m种预存的则认为该被测试碎片数据无法识别出类型。

步骤S15、引入被测试碎片数据的相关结构特征δ_x为优化参数1，如图3所示。即碎片数据x与某一样本S之间字节频率分布的相似度T_x落入一已知相似度T_i的范围内时，进一步判断碎片数据x中是否存在δ_x，如果存在，继续判断是否满足δ_x∈T_j，其中，Tj代表另一种未知类型的数据结构特征集合，如果满足δ_x∈T_j，继续判断i与j是否相等，如果i＝j，则说明Tj代表的数据结构特征集合与Ti2相同，则可以判定所述测试碎片数据x属于数据类型T_i代表的类型。如果i与j不相等，继续步骤S 16，如果不满足δ_x∈T_j，或者碎片数据x中不否存在δ_x，则对这种情况不做分析，以步骤S14的判断结果做为总结果。

在步骤S15中，在所述待测试碎片数据x与某一样本S之间字节频率分布的相似度T_x落入一已知数据类型T_i的相似度范围内时，进一步确认所述待测试碎片数据x的结构特征δ_x是否也属于该已知数据类型T_i的结构特征集合，从而更加准确地确定判断测试碎片数据x的类型。

步骤S16、引入碎片数据之间距离的关联性为优化参数2。由于同一文件中碎片间隔分布在32个数据块之内的可能性是80％，因此碎片数据在磁盘中并非随机分布，碎片之间是有一定的关联性的，即某一段连续碎片数据属于同一个文件。

在步骤S15中，当i≠j时，或者步骤S14中，尽管被测试碎片数据x的相似度T_x已落入Ti1范围内，但是相似度较低，例如，以JPEG文件类型为例子，相似度的有效范围为[0.55，1]，而被测试碎片数据x的相似度T_x为0.56，显然被测试碎片数据x与JPEG文件类型的相似程度很低。在上述两种情况下，均可以采用步骤S16的措施。如图4所示，判断当前被测试碎片数据x的序号是否是所在数据块的最后一个，如果不是，序号加1，接着判断该序号的碎片数据的相似度是否在Ti范围内，循环进行比较，直到将被测试碎片数据x所在数据块的其他数据都进行了比较，然后统计相似度在Ti范围内的碎片数据的个数，如果相似度在Ti范围内碎片数据的数量的比例大于80％，则判定所述碎片数据x属于数据类型T_i代表的类型，否则判定所述碎片数据x无法识别。

即在步骤S16中，判断落入T_i的范围内的碎片数据占该数据块的比例有多大，例如，如果大于80％，则可以很确切地认为所述碎片数据x属于数据类型T_i代表的类型。

通过上述实施例可以有效的评定碎片数据的类型。另外，内存分配时是按页(4K)分配的，为512B的整数倍，因此，本发明中所述的碎片数据也可以指是内存中的数据。

本发明所述的碎片数据类型识别方法可以为司法取证提供一定的电子证据信息，一方面保证能够识别出碎片数据的类型，更进一步地，提高了类型的识别率，另一方面，保证了碎片数据类型识别过程中的数据的可靠性、与原始数据的一致性，为后续的碎片数据重组工作做一定的铺垫工作。

图5为碎片数据取证整个工作的流程图。其中准备阶段与碎片数据提取阶段作为本发明的一系列准备工作，在此不做详细描述，可采用现有的通用方法。当提取了碎片数据后，进行碎片数据的分析，其中包括剔除连续文件数据块、进行本发明所述的碎片数据类型的识别，而后进行碎片数据的重组，然后展示碎片证据，并提交到法庭，即根据得到的碎片数据得出结论。

通过本发明所述的碎片数据类型的识别，为电子取证中下一步的碎片数据的重组提供了基础，并且，由于本发明所述的电子取证过程中的碎片数据在获取、识别、重组过程中保证了与原始数据的一致性，因此，从根本上确保了得到的电子证据的可靠性和真实性。

Claims

1.一种碎片数据类型的识别方法，其特征在于：包括以下步骤：

步骤1，提取待测试碎片数据x的字节频率分布F(x)；其中，F(x)＝{f₀,f₁…f_i…f₂₅₅}，f_i为以扇区为单位的碎片数据中字节值i出现的次数；

T (A, S) = \frac{A \cdot S}{{| | A | |}^{2} + {| | S | |}^{2} - A \cdot S}

公式(1)

步骤3，判定所述待测试碎片数据x与某一样本S之间字节频率分布的相似度T_x是否落入已知数据类型T中的一种碎片数据类型T_i的相似度的范围内，如果落入，则判定所述测试碎片数据x属于已知数据类型T_i代表的类型；如果没有落入任何一个已知数据类型T的范围内，则判定所述待测试碎片数据x的类型无法识别；

2.根据权利要求1所述的碎片数据类型的识别方法，其特征在于：还包括步骤4，

其中，δ_x为某一文件类型的结构特征，T_j为未知类型数据的结构特征的集合。

3.根据权利要求1或2所述的碎片数据类型的识别方法，其特征在于：还包括步骤5，

4.根据权利要求1所述的碎片数据类型的识别方法，其特征在于：在步骤1之前包括如下步骤：

步骤A：提取样本模型S，确定各种文件类型的碎片数据与所述样本模型S之间的相似度。

5.根据权利要求1所述的碎片数据类型的识别方法，其特征在于：在步骤1之前包括如下步骤：

6.根据权利要求1所述的碎片数据类型的识别方法，其特征在于：所述的碎片数据包括磁盘中的碎片数据和内存中的碎片数据。

7.根据权利要求3所述的碎片数据类型的识别方法，其特征在于：所述待测碎片数据所在数据块的数量为2⁵-2⁸块。

8.根据权利要求3所述的碎片数据类型的识别方法，其特征在于：所述的预定数量为占所述待测碎片数据所在数据块数量的80％以上的数量。