CN109684121A - 一种文件恢复方法及*** - Google Patents

一种文件恢复方法及*** Download PDF

Info

Publication number
CN109684121A
CN109684121A CN201811577499.7A CN201811577499A CN109684121A CN 109684121 A CN109684121 A CN 109684121A CN 201811577499 A CN201811577499 A CN 201811577499A CN 109684121 A CN109684121 A CN 109684121A
Authority
CN
China
Prior art keywords
file
target
keyword
restores
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811577499.7A
Other languages
English (en)
Inventor
张涛
赵琨
陈财森
赵石钏
应书皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hung Qin (beijing) Technology Co Ltd
Original Assignee
Hung Qin (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hung Qin (beijing) Technology Co Ltd filed Critical Hung Qin (beijing) Technology Co Ltd
Priority to CN201811577499.7A priority Critical patent/CN109684121A/zh
Publication of CN109684121A publication Critical patent/CN109684121A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供的文件恢复方法及***,涉及数据恢复技术领域,通过利用k‑means算法,识别目标恢复文件的各个关键字,分别计算各个关键字的频率,生成目标恢复文件的特征向量,利用k‑means算法,分别将目标恢复文件的特征向量与各个标准特征向量进行匹配,得到所述目标恢复文件的类型概率表,根据概率表,确定目标恢复文件的文件类型,根据文件类型,选择相应的文件模板对目标恢复文件进行恢复,能够识别严重损坏的文件,扩大了文件识别的范围、提高了文件类型识别的精确度。

Description

一种文件恢复方法及***
技术领域
本发明涉及数据恢复技术领域,具体涉及一种文件恢复方法及***。
背景技术
现有的文件恢复技术包括使用缓存文件、使用扇区残留文件及通过人工操作等多种方式,上述方式存在的共同缺陷为:仅能识别没有严重损坏的文件的类型,针对严重损坏的文件特别是可执行文件的辨识率不高,导致文件类型识别的范围较窄、精确度较低。
发明内容
为解决现有技术的不足,本发明实施例提供了一种文件恢复方法及***。
第一方面,本发明实施例提供了一种文件恢复方法,该方法包括:
利用k-means算法,识别目标恢复文件的各个关键字;
分别计算各个关键字的频率,生成所述目标恢复文件的特征向量;
利用k-means算法,分别将所述目标恢复文件的特征向量与各个标准特征向量进行匹配,得到所述目标恢复文件的类型概率表;
根据所述概率表,确定所述目标恢复文件的文件类型;
根据所述文件类型,选择相应的文件模板对所述目标恢复文件进行恢复。
进一步地,在利用k-means算法,识别目标恢复文件的各个关键字之前,所述方法还包括:
利用kmp算法获取常用类型文件的关键字,分别计算常用类型文件关键字的频率,生成多个标准特征向量,其中,所述常用类型文件为空白文件,包括DOC、PDF及PE格式的文件。
第二方面,本发明实施例提供了一种文件恢复***,包括:
识别模块,用于利用k-means算法,识别目标恢复文件的各个关键字;
计算模块,用于分别计算各个关键字的频率,生成所述目标恢复文件的特征向量;
匹配模块,用于利用k-means算法,分别将所述目标恢复文件的特征向量与各个标准特征向量进行匹配,得到所述目标恢复文件的类型概率表;
确定模块,用于根据所述概率表,确定所述目标恢复文件的文件类型;
恢复模块,用于根据所述文件类型,选择相应的文件模板对所述目标恢复文件进行恢复。
进一步地,所述计算模块,还用于:
利用kmp算法获取常用类型文件的关键字,分别计算常用类型文件关键字的频率,生成多个标准特征向量,其中,所述常用类型文件为空白文件,包括DOC、PDF及PE格式的文件。
本发明实施例提供的文件恢复方法及***具有以下有益效果:
能够识别严重损坏的文件,扩大了文件识别的范围、提高了文件类型识别的精确度。
附图说明
图1为本发明实施例提供的文件恢复方法的流程示意图;
图2为本发明实施例提供的文件恢复***的组成示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
参见图1,本发明实施例提供的文件恢复方法包括以下步骤:
S101,利用k-means算法,识别目标恢复文件的各个关键字。
S102,分别计算各个关键字的频率,生成所述目标恢复文件的特征向量。
S103,利用k-means算法,分别将所述目标恢复文件的特征向量与各个标准特征向量进行匹配,得到所述目标恢复文件的类型概率表。
S104,根据所述概率表,确定所述目标恢复文件的文件类型。
作为一个具体的实施例,如果目标恢复文件的特征向量与DOC格式文件的特征向量的相似度为70%,与PDF格式文件的特征向量的相似度为90%,与PE格式文件的特征向量的相似度为80%,则确定该目标恢复文件的格式为PDF格式。
S105,根据所述文件类型,选择相应的文件模板对所述目标恢复文件进行恢复。
可选地,在利用k-means算法,识别目标恢复文件的各个关键字之前,所述方法还包括:
利用kmp算法获取常用类型文件的关键字,分别计算常用类型文件关键字的频率,生成多个标准特征向量,其中,所述常用类型文件为空白文件,包括DOC、PDF及PE格式的文件。
其中,也可以将两个或多个常用类型文件的关键字的频率组合在一起,形成一个标准特征向量;
根据文件的文件头的关键字的集合来描述文件,相应的文件浏览器会关注文件中的各个关键字,以便对文件执行各种操作。
如图2所示,本发明实施例提供的文件恢复***包括识别模块、计算模块、匹配模块、确定模块及恢复模块。其中,
识别模块,用于利用k-means算法,识别目标恢复文件的各个关键字;
计算模块,用于分别计算各个关键字的频率,生成所述目标恢复文件的特征向量;
匹配模块,用于利用k-means算法,分别将所述目标恢复文件的特征向量与各个标准特征向量进行匹配,得到所述目标恢复文件的类型概率表;
确定模块,用于根据所述概率表,确定所述目标恢复文件的文件类型;
恢复模块,用于根据所述文件类型,选择相应的文件模板对所述目标恢复文件进行恢复。
可选地,所述计算模块,还用于利用kmp算法获取常用类型文件的关键字,分别计算常用类型文件关键字的频率,生成多个标准特征向量,其中,所述常用类型文件为空白文件,包括DOC、PDF及PE格式的文件。
本发明实施例提供的文件恢复方法及***,通过利用k-means算法,识别目标恢复文件的各个关键字,分别计算各个关键字的频率,生成目标恢复文件的特征向量,利用k-means算法,分别将目标恢复文件的特征向量与各个标准特征向量进行匹配,得到所述目标恢复文件的类型概率表,根据概率表,确定目标恢复文件的文件类型,根据文件类型,选择相应的文件模板对目标恢复文件进行恢复,能够识别严重损坏的文件,扩大了文件识别的范围、提高了文件类型识别的精确度。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (4)

1.一种文件恢复方法,其特征在于,包括:
利用k-means算法,识别目标恢复文件的各个关键字;
分别计算各个关键字的频率,生成所述目标恢复文件的特征向量;
利用k-means算法,分别将所述目标恢复文件的特征向量与各个标准特征向量进行匹配,得到所述目标恢复文件的类型概率表;
根据所述概率表,确定所述目标恢复文件的文件类型;
根据所述文件类型,选择相应的文件模板对所述目标恢复文件进行恢复。
2.根据权利要求1所述的文件恢复方法,其特征在于,在利用k-means算法,识别目标恢复文件的各个关键字之前,所述方法还包括:
利用kmp算法获取常用类型文件的关键字,分别计算常用类型文件关键字的频率,生成多个标准特征向量,其中,所述常用类型文件为空白文件,包括DOC、PDF及PE格式的文件。
3.一种文件恢复***,其特征在于,包括:
识别模块,用于利用k-means算法,识别目标恢复文件的各个关键字;
计算模块,用于分别计算各个关键字的频率,生成所述目标恢复文件的特征向量;
匹配模块,用于利用k-means算法,分别将所述目标恢复文件的特征向量与各个标准特征向量进行匹配,得到所述目标恢复文件的类型概率表;
确定模块,用于根据所述概率表,确定所述目标恢复文件的文件类型;
恢复模块,用于根据所述文件类型,选择相应的文件模板对所述目标恢复文件进行恢复。
4.根据权利要求3所述的文件恢复***,其特征在于,所述计算模块,还用于:
利用kmp算法获取常用类型文件的关键字,分别计算常用类型文件关键字的频率,生成多个标准特征向量,其中,所述常用类型文件为空白文件,包括DOC、PDF及PE格式的文件。
CN201811577499.7A 2018-12-20 2018-12-20 一种文件恢复方法及*** Pending CN109684121A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811577499.7A CN109684121A (zh) 2018-12-20 2018-12-20 一种文件恢复方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811577499.7A CN109684121A (zh) 2018-12-20 2018-12-20 一种文件恢复方法及***

Publications (1)

Publication Number Publication Date
CN109684121A true CN109684121A (zh) 2019-04-26

Family

ID=66188117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811577499.7A Pending CN109684121A (zh) 2018-12-20 2018-12-20 一种文件恢复方法及***

Country Status (1)

Country Link
CN (1) CN109684121A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326511A (zh) * 2021-06-25 2021-08-31 深信服科技股份有限公司 一种文件修复方法、***、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1458580A (zh) * 2002-03-01 2003-11-26 惠普开发有限公司 文档分类方法和设备
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
US20110047168A1 (en) * 2006-05-31 2011-02-24 Ellingsworth Martin E Method and system for classifying documents
TW201516713A (zh) * 2013-10-16 2015-05-01 Chunghwa Telecom Co Ltd 基於群體特徵值的文件分類方法
CN107862051A (zh) * 2017-11-08 2018-03-30 郑州云海信息技术有限公司 一种文件分类方法、***及一种文件分类设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1458580A (zh) * 2002-03-01 2003-11-26 惠普开发有限公司 文档分类方法和设备
US20110047168A1 (en) * 2006-05-31 2011-02-24 Ellingsworth Martin E Method and system for classifying documents
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
TW201516713A (zh) * 2013-10-16 2015-05-01 Chunghwa Telecom Co Ltd 基於群體特徵值的文件分類方法
CN107862051A (zh) * 2017-11-08 2018-03-30 郑州云海信息技术有限公司 一种文件分类方法、***及一种文件分类设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
完美下载小客服: "想快速还原指定文件?用数据恢复精灵来帮忙", 《HTTPS://TECH.WMZHE.COM/ARTICLE/7838.HTML》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326511A (zh) * 2021-06-25 2021-08-31 深信服科技股份有限公司 一种文件修复方法、***、设备和介质
CN113326511B (zh) * 2021-06-25 2024-04-09 深信服科技股份有限公司 一种文件修复方法、***、设备和介质

Similar Documents

Publication Publication Date Title
CN109117848A (zh) 一种文本行字符识别方法、装置、介质和电子设备
US9576072B2 (en) Database calculation using parallel-computation in a directed acyclic graph
TW202029079A (zh) 異常群體識別方法及裝置
CN110533018B (zh) 一种图像的分类方法及装置
JP2015506026A (ja) 画像分類
CN109002443B (zh) 一种文本信息的分类方法及装置
CN109918658A (zh) 一种从文本中获取目标词汇的方法及***
CN104112284A (zh) 一种图片的相似度检测方法和设备
CN110333951A (zh) 一种商品抢购请求分配方法
CN109636181A (zh) 一种用户信用分计算方法及***
CN110069487A (zh) 一种数据处理方法、装置及***
CN109684121A (zh) 一种文件恢复方法及***
US20210279504A1 (en) Method and appauatus for processing feature point matching result
CN115293243A (zh) 数据资产智能匹配的实现方法、装置及设备
CN109902178A (zh) 一种多级文本分类方法及***
CN110874607A (zh) 一种网络节点的聚类方法及装置
CN110019544A (zh) 数据查询方法及***
CN110895703A (zh) 法律文书案由识别方法及装置
CN111047415B (zh) 服饰配件订单处理方法、***、电子设备及存储介质
CN110019295A (zh) 数据库检索方法、装置、***以及存储介质
CN111475641B (zh) 一种数据抽取方法、装置、存储介质及设备
CN110086867A (zh) 一种还车网点推送方法
CN111125165A (zh) 集合的合并方法、装置、处理器及机器可读存储介质
CN110096415A (zh) 一种基于拓扑关系的数据监测方法
CN106407215B (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190426

RJ01 Rejection of invention patent application after publication