CN108694414A - 基于数字图像转化和深度学习的数字取证文件碎片分类方法 - Google Patents

基于数字图像转化和深度学习的数字取证文件碎片分类方法 Download PDF

Info

Publication number
CN108694414A
CN108694414A CN201810455121.3A CN201810455121A CN108694414A CN 108694414 A CN108694414 A CN 108694414A CN 201810455121 A CN201810455121 A CN 201810455121A CN 108694414 A CN108694414 A CN 108694414A
Authority
CN
China
Prior art keywords
file
file fragmentation
deep learning
loss function
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810455121.3A
Other languages
English (en)
Inventor
蒋琳
方俊彬
王轩
陈倩
李晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201810455121.3A priority Critical patent/CN108694414A/zh
Publication of CN108694414A publication Critical patent/CN108694414A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于数字图像转化和深度学习的数字取证文件碎片分类方法,先将文件碎片转换为灰度图像,然后利用深度学习提取图像的更多隐藏特征,以提高文件碎片分类的性能;其中,所述更多隐藏特征包括:不同的纹理特征,随机特征和用于分类的可压缩性;所述深度学习采用修改和优化的CNN模型,所述模型的第一层卷积层使用1x1比例的卷积核,它使用许多管道使网络结构复杂化;由于每个层中都有不同数量和尺度的滤波核,通过梯度下降和逆向训练来训练最佳匹配本分类模型特征图。本发明通过利用CNN的局部连接和权重共享的优点,提取文件碎片的高维特征,该方案对于以前方案中不易分类的文件,如复合文件和压缩文件,也能实现高精度的碎片分类。

Description

基于数字图像转化和深度学习的数字取证文件碎片分类方法
技术领域
本发明涉及数字取证技术领域,尤其涉及一种数字取证文件碎片分类方法。
背景技术
文件碎片分类在数字取证中起着重要作用,图1是数字取证过程中的前期步骤,正确分类文件碎片是支撑有效文件雕复的必要步骤,文件碎片分类的准确性直接影响文件雕复的效率和性能。
传统的文件碎片分类方法包括利用完整文件的扩展名、文件的元数据、字节频率分布特征(BFD)或字节频率相关特征(BFC)、线性判别分析(LDA)、Fisher线性判别(FLD)和最长公共子序列、提取N-gram,Shannon熵,Hamming权重和字节等具有统计规律的特征值、支持向量机(SVM)等方法,但是在实际应用中存在分类结果不理想、自动化程度不高、分类精度不高的问题。
发明内容
为了解决现有技术中的问题,本发明提出了一种基于文件碎片灰度图像转换和深度学习的数字取证文件碎片分类新方法,通过提取文件碎片中更多的隐藏特征,从而提高分类的准确性。受益于多层特征映射,本发明的深层卷积神经网络(CNN)模型可以通过神经元之间的非线性连接提取近十万个特征,能有效提高文件碎片分类准确率,进而为数字取证提供高效准确的文件碎片分类工具。
本发明具体通过如下技术方案实现:
一种基于数字图像转化和深度学习的数据取证文件碎片分类方法,所述方法先将文件碎片转换为灰度图像,然后利用深度学习提取图像的更多隐藏特征,以提高文件碎片分类的性能。
优选的,所述将文件碎片转换为灰度图像具体为:对原始文件数据剔除文件首尾片段得到文件碎片,每N位转换为1个像素点得到一维数组,然后将一维数组转换为二维矩阵,所述二维矩阵表示一个灰度图像。
优选的,所述深度学习采用修改和优化的CNN模型,所述模型的卷积层使用多个1x1尺度的卷积核,对输入数据进行升维操作,利用激活函数对数据进行分段线性激活操作,增强了网络的表达能力,它使用许多管道使网络结构复杂化。
优选的,所述激活函数为修正线性单元,
优选的,同一个特征映射在CNN中共享相同的卷积核和偏置参数。
优选的,使用损失函数来估计模型的预测值σ(x)与真实值y之间的不一致性的程度;所述损失函数为交叉熵损失函数,
a=σ(z),z=∑ωj*xj+b
其中,Loss1代表交叉熵计算的损失函数,β是超参数用于调整Loss1损失函数的值与经过L2正则两种损失的比例,以获取最终的损失函数值。
优选的,由于每个层中都有不同数量和尺度的滤波核,通过梯度下降和逆向训练来训练最佳匹配本分类模型特征图。
优选的,所述更多隐藏特征包括:不同的纹理特征,随机特征和用于分类的可压缩性。
本发明的有益效果是:本发明的基于数字图像转化和深度学习的数据取证文件碎片分类方法,通过利用CNN的局部连接和权重共享的优点,提取文件碎片的高维特征,该方案对于以前方案中不易分类的文件,如复合文件和压缩文件,也能实现高精度的碎片分类。
附图说明
图1是数字取证过程的总体流程图;
图2是原始文件碎片转化为灰度图像过程;
图3是本发明修改和优化的CNN网络结构示意图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进一步说明。
本发明先将文件碎片转换为灰度图像,然后利用基于数据驱动的深度学习提取图像的更多隐藏特征,以提高文件碎片分类的性能。
图2示出了将文件碎片转换为灰度图像的处理过程。对原始文件数据剔除文件首尾片段得到文件碎片,每N位转换为1个像素点得到一维数组,然后将一维数组转换为二维矩阵,所述二维矩阵表示一个灰度图像。
图3显示了本发明针对文件碎片分类问题修改和优化的CNN网络结构。第一层卷积层使用1x1比例的卷积核,其他层的卷积核尺度信息如图3所示。第一次1x1尺度的卷积滤波器不考虑本层信息之间的相互关系,但通过滤波和分段线性激活操作增强了网络的表达能力。它使用许多管道使网络结构复杂化。传统机器学习中提取的主要特征:N-Gram,其概念与CNN的本地连接和权重共享的思想是一致的。
同一个特征映射在CNN中共享相同的卷积核和偏置参数。在每个通道中,同一个卷积核的参数是共享的,通过不同的步长,进行移动计算。
具体的,式(1)显示了从第l-1层到第l层卷积操作的计算公式。其中,表示第l层的第j个神经元的值,它由第l-1层与其相关的卷积核尺度中神经元的值,此区域的权重参数和该点的偏置共同计算所得,其中Mj表示选定卷积核尺度大小,kij表示第l-1层第i个值到神经元的权重参数。
所述f(x)表示修正线性单元ReLU激活函数。激活函数对数据进行分段线性激活操作,ReLU激活函数如下:
使用损失函数来估计模型的预测值σ(x)与真实值y之间的不一致性的程度。它是一个实值函数,通常用Loss(y,σ(x))表示。损失函数越小,它的鲁棒性越强。损失函数是经验风险函数的核心部分,也是结构风险函数的重要部分。该模型的结构风险函数包括经验风险和正则化。本发明采用Adam(Adaptive Moment Estimation)优化方法动态调整各参数的学习率,使总损失函数最小化。
具体的,(1)交叉熵损失函数
交叉熵用于评估当前概率分布与实际概率分布之间的差异程度。减少交叉熵损失可以提高模型的预测精度。交叉熵成本可以用下式计算:
a=σ(z),z=∑ωj*xj+b (4)
其中z代表经过卷积操作后的值,其中ωj代表权重参数,xj代表上一层网络中的值,b代表偏置项。a=σ(z)表示z经过激活函数ReLU后的预测值。而y代表真实的输出值。通过式(3)计算最终的交叉熵损失函数Loss1
(2)L2正则化
Loss1代表交叉熵计算的损失函数,β是超参数用于调整Loss1损失函数的值与经过L2正则两种损失的比例,以获取最终的损失函数值。公式的后一项就是L2正则化项,其中ω表示权重参数,通过将所有权重参数取平方和再除以训练数据数量n,与超参数β相乘来计算最终的损失函数Loss。
具体的,在神经网络中,正则化网络倾向于让权重更小。在小权重的情况下,x的随机变化对神经网络模型没有太大的影响,因此此时受噪声影响较小。如果没有神经网络的正则化,权重将会很大,并且通过较大的模型变化很容易拟合数据,会更容易地学习噪声数据。
具体的,在损失函数中加入L2正则化项,能有效的解决缓解过拟合的问题,由式(6)、(7)可知,L2正则化项只对权重ω更新有影响,对偏置b的更新没有影响。由式(8)可知在权重ω更新过程中,由于ηβn都大于0,故L2正则化项能使得权重衰减,防止过拟合。
由于每个层中都有不同数量和尺度的滤波核,可以通过梯度下降和逆向训练来训练最佳匹配本分类模型特征图。
具体的,权重的参数更新方法于上式(6)-(8)所述。
具体的,梯度下降的目标函数J(θ)的参数θ的梯度下降过程如下式(9),
其中xi,yi为训练数据集中的一个样本。本发明采用Adam(Adaptive MomentEstimation)优化梯度下降方法动态调整各参数的学习率,使总损失函数最小化。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于数字图像转化和深度学习的数字取证文件碎片分类方法,其特征在于:所述方法先将文件碎片转换为灰度图像,然后利用深度学习提取图像的更多隐藏特征,以提高文件碎片分类的性能。
2.根据权利要求1所述的方法,其特征在于:所述将文件碎片转换为灰度图像具体为:对原始文件数据剔除文件首尾片段得到文件碎片,每N位转换为1个像素点,得到一维数组,然后将一维数组转换为二维矩阵,所述二维矩阵表示一个灰度图像。
3.根据权利要求1所述的方法,其特征在于:所述将灰度图像数据输入深度学习的CNN模型中,卷积层使用多个1x1的卷积核,对输入数据进行升维操作,并利用激活函数对数据进行分段线性激活操作,提高网络的表达能力。
4.根据权利要求3所述的方法,其特征在于:所述激活函数为修正线性单元ReLu,
5.根据权利要求1所述的方法,其特征在于:使用损失函数来估计模型的预测值σ(x)与真实值y之间的不一致性的程度;所述损失函数为交叉熵损失函数,
a=σ(z),z=∑ωj*xj+b
其中,Loss1代表交叉熵计算的损失函数,β是超参数用于调整Loss1损失函数的值与经过L2正则两种损失的比例,以获取最终的损失函数值。
6.根据权利要求1-5任一项所述的方法,其特征在于:同一个特征映射在CNN中共享相同的卷积核和偏置参数。
7.根据权利要求1-5任一项所述的方法,其特征在于:由于每个层中都有不同数量和尺度的滤波核,通过梯度下降和逆向训练来训练最佳匹配本分类模型特征图。
8.根据权利要求1-5任一项所述的方法,其特征在于:所述更多隐藏特征包括:不同的纹理特征,随机特征和用于分类的可压缩性。
CN201810455121.3A 2018-05-11 2018-05-11 基于数字图像转化和深度学习的数字取证文件碎片分类方法 Pending CN108694414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810455121.3A CN108694414A (zh) 2018-05-11 2018-05-11 基于数字图像转化和深度学习的数字取证文件碎片分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810455121.3A CN108694414A (zh) 2018-05-11 2018-05-11 基于数字图像转化和深度学习的数字取证文件碎片分类方法

Publications (1)

Publication Number Publication Date
CN108694414A true CN108694414A (zh) 2018-10-23

Family

ID=63846420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810455121.3A Pending CN108694414A (zh) 2018-05-11 2018-05-11 基于数字图像转化和深度学习的数字取证文件碎片分类方法

Country Status (1)

Country Link
CN (1) CN108694414A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796497A (zh) * 2019-10-31 2020-02-14 支付宝(杭州)信息技术有限公司 检测异常操作行为的方法以及装置
CN110928848A (zh) * 2019-11-21 2020-03-27 中国科学院深圳先进技术研究院 一种文件碎片分类方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996180A (zh) * 2014-05-05 2014-08-20 河海大学 基于英文文字特征的碎纸机破碎文档复原方法
CN105141360A (zh) * 2014-05-30 2015-12-09 中国电信股份有限公司 用于实现文件传输的方法、装置和***
CN105163121A (zh) * 2015-08-24 2015-12-16 西安电子科技大学 基于深度自编码网络的大压缩比卫星遥感图像压缩方法
CN107392019A (zh) * 2017-07-05 2017-11-24 北京金睛云华科技有限公司 一种恶意代码家族的训练和检测方法及装置
CN107704866A (zh) * 2017-06-15 2018-02-16 清华大学 基于新型神经网络的多任务场景语义理解模型及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103996180A (zh) * 2014-05-05 2014-08-20 河海大学 基于英文文字特征的碎纸机破碎文档复原方法
CN105141360A (zh) * 2014-05-30 2015-12-09 中国电信股份有限公司 用于实现文件传输的方法、装置和***
CN105163121A (zh) * 2015-08-24 2015-12-16 西安电子科技大学 基于深度自编码网络的大压缩比卫星遥感图像压缩方法
CN107704866A (zh) * 2017-06-15 2018-02-16 清华大学 基于新型神经网络的多任务场景语义理解模型及其应用
CN107392019A (zh) * 2017-07-05 2017-11-24 北京金睛云华科技有限公司 一种恶意代码家族的训练和检测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张占军等: "基于CIFAR-10的图像分类模型优化", 《计算机应用与软件》 *
杨文柱等: "基于深度卷积神经网络的羽绒图像识别", 《郑州大学学报》 *
王俊杰: "优化BP神经网络在手写数字识别中的性能研究", 《电子设计工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796497A (zh) * 2019-10-31 2020-02-14 支付宝(杭州)信息技术有限公司 检测异常操作行为的方法以及装置
CN110928848A (zh) * 2019-11-21 2020-03-27 中国科学院深圳先进技术研究院 一种文件碎片分类方法及***
WO2021098620A1 (zh) * 2019-11-21 2021-05-27 中国科学院深圳先进技术研究院 一种文件碎片分类方法及***

Similar Documents

Publication Publication Date Title
CN109657156B (zh) 一种基于循环生成对抗网络的个性化推荐方法
CN107292333B (zh) 一种基于深度学习的快速图像分类方法
CN109308318A (zh) 跨领域文本情感分类模型的训练方法、装置、设备及介质
CN107770517A (zh) 基于图像失真类型的全参考图像质量评价方法
CN111833352B (zh) 一种基于八度卷积改进U-net网络的图像分割方法
CN109344893B (zh) 一种基于移动终端的图像分类方法
CN110363297A (zh) 神经网络训练及图像处理方法、装置、设备和介质
CN110766063A (zh) 基于压缩激励和紧密连接卷积神经网络的图像分类方法
CN107480723B (zh) 基于局部二进制阈值学习网络的纹理识别方法
CN114511576B (zh) 尺度自适应特征增强深度神经网络的图像分割方法与***
CN111353620A (zh) 构建网点件量预测模型的方法、装置、设备及存储介质
CN109829018A (zh) 一种基于深度学习的移动客户超细分方法
CN108694414A (zh) 基于数字图像转化和深度学习的数字取证文件碎片分类方法
CN106355191A (zh) 一种深度生成网络随机训练算法及装置
Zhou et al. MSAR‐DefogNet: Lightweight cloud removal network for high resolution remote sensing images based on multi scale convolution
US20220207321A1 (en) Convolution-Augmented Transformer Models
CN109614984A (zh) 一种同源图像检测方法和***
CN111914060B (zh) 一种基于在线点评数据的商户多视图特征提取及模型构建方法
CN115588487B (zh) 一种基于联邦学习和生成对抗网络的医学图像数据集制作方法
CN109033413B (zh) 一种基于神经网络的需求文档和服务文档匹配方法
CN113420834B (zh) 一种基于关系约束自注意力的图像描述自动生成方法
CN109829054A (zh) 一种文本分类方法及***
CN112200275B (zh) 人工神经网络的量化方法及装置
CN115577797A (zh) 一种基于本地噪声感知的联邦学习优化方法及***
CN114998661A (zh) 一种基于定点数量化的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181023

RJ01 Rejection of invention patent application after publication