CN110532529A - 一种文件类型的识别方法及装置 - Google Patents

一种文件类型的识别方法及装置 Download PDF

Info

Publication number
CN110532529A
CN110532529A CN201910833084.XA CN201910833084A CN110532529A CN 110532529 A CN110532529 A CN 110532529A CN 201910833084 A CN201910833084 A CN 201910833084A CN 110532529 A CN110532529 A CN 110532529A
Authority
CN
China
Prior art keywords
file
encoded information
file type
type
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910833084.XA
Other languages
English (en)
Inventor
罗志成
喻波
王志海
韩振国
安鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN201910833084.XA priority Critical patent/CN110532529A/zh
Publication of CN110532529A publication Critical patent/CN110532529A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文件类型的识别方法及装置。所述方法包括:获取待识别自定义文件的编码信息;判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型可以对自定义文件的文件类型进行快速识别和解析,提高了自定义文件类型识别的准确性,避免出现文件泄露的问题。

Description

一种文件类型的识别方法及装置
技术领域
本发明涉及文件处理技术领域,特别是涉及一种文件类型的识别方法及装置。
背景技术
文件格式用于存储特殊的数据,例如:图像文件中的JPEG文件格式仅用于存储静态的图像,text文件一般仅存储简单没有格式的ASCII或Unicode的文本;HTML文件则可以存储带有格式的文本等。大多数的文件都有公开的、不同程度规范或者建议的格式,但是在有些情况下,自定义的文件,其文件格式没有公开,例如,开发者将文件格式视作商业秘密不愿公开或者开发者不愿或花去很少的时间用于规范文档。
现有技术中通常采用读取文件的文件扩展名的方式来获取文件类型,或者通过读取文件内容根据内容特征自动感知文件类型,例如开源软件Tika,但是对于没有公开文件格式的文件,采用上述的方式对文件类型的识别,会出现文件类型的识别结果与真实文件类型不一致,识别文件类型的准确率较低。
发明内容
本发明提供了一种文件类型的识别方法及装置,以解决现有技术中对自定义文件的文件类型的识别准确率较低的问题。
为了解决上述问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种文件类型的识别方法,包括:
获取待识别自定义文件的编码信息;
判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;
若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型。
可选地,所述获取待识别自定义文件的编码信息,包括:
获取所述自定义文件的文件头的二进制的编码信息;
将所述二进制的编码信息进行转化,得到十六进制的编码信息;
将所述十六进制的编码信息确定为所述待识别文件的编码信息。
可选地,所述方法还包括:
接收客户端的操作请求,所述操作请求至少包括查询、新建、修改或删除请求;
根据所述操作请求对所述注册组件中的文件信息进行相应的操作;
其中,所述文件信息至少包括编号、文件类型、与所述文件类型名称对应的编码信息、注册人和注册时间中的一种。
可选地,在确定所述自定义文件的文件类型之后,还包括:
接收客户端发送的白名单识别请求,其中,所述白名单识别请求中至少包括所述自定义文件的文件类型;
根据所述自定义文件的文件类型,在白名单组件中预先建立的白名单中进行查找;
若所述白名单中存在所述待识别文件的文件类型,则给所述客户端发送允许外发的响应信息。
可选地,所述方法还包括:
接收客户端发送的白名单操作请求,其中,所述白名单操作请求中至少包括所述自定义文件的文件类型及操作类型,所述操作类型至少包括查询、新建、修改或删除操作;
根据所述自定义文件的文件类型和操作类型,对所述白名单中的文件进行相应的操作。
第二方面,本发明实施例提供了一种文件类型的识别装置,包括:
获取模块,用于获取待识别自定义文件的编码信息;
比较模块,用于判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;
确定模块,用于若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型。
可选地,所述获取模块具体用于:
获取所述自定义文件的文件头的二进制的编码信息;
将所述二进制的编码信息进行转化,得到十六进制的编码信息;
将所述十六进制的编码信息确定为所述待识别文件的编码信息。
可选地,所述获取模块还用于:
接收客户端的操作请求,所述操作请求至少包括查询、新建、修改或删除请求;
根据所述操作请求对所述注册组件中的文件信息进行相应的操作;
其中,所述文件信息至少包括编号、文件类型、与所述文件类型名称对应的编码信息、注册人和注册时间中的一种。
可选地,所述确定模块,还用于:
接收客户端发送的白名单识别请求,其中,所述白名单识别请求中至少包括所述自定义文件的文件类型;
根据所述自定义文件的文件类型,在白名单组件中预先建立的白名单中进行查找;
若所述白名单中存在所述待识别文件的文件类型,则给所述客户端发送允许外发的响应信息。
可选地,所述确定模块,还用于:
接收客户端发送的白名单操作请求,其中,所述白名单操作请求中至少包括所述自定义文件的文件类型及操作类型,所述操作类型至少包括查询、新建、修改或删除操作;
根据所述自定义文件的文件类型和操作类型,对所述白名单中的文件进行相应的操作。
第三方面,本发明实施例提供了一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项的步骤。
与现有技术相比,本发明包括以下优点:
在本发明实施例中,通过获取自定义文件的编码信息,并判断编码信息与注册组件中预先存储的文件的编码信息的匹配度,若该匹配度大于预设值,则确定自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型,可以对自定义文件的文件类型进行快速识别和解析,提高了自定义文件类型识别的准确性,避免出现文件泄露的问题。
附图说明
图1示出了本发明实施例提供的一种文件类型的识别方法的步骤流程图;
图2示出了本发明实施例提供的私有文件的文件类型的管理***的结构示意图;
图3a示出了普通文件类型即公用的文件的示意图;
图3b示出了自定义文件类型即私有文件的示意图;
图4示出了通过文件扩展名识别文件类型的示意图;
图5示出了本发明实施例提供的获取文件类型的识别码的流程示意图;
图6示出了本发明实施例提供的自定义文件类型注册组件处理流程示意图;
图7示出了本发明实施例提供的自定义文件类型识别组件的处理流程示意图;
图8示出了本发明又一实施例提供的自定义文件类型识别组件的理流程示意图;
图9示出了本发明实施例提供的自定义文件类型白名单组件的处理流程示意图;
图10示出了本发明实施例提供的自定义文件类型白名单命中逻辑的示意图;
图11示出了本发明实施例提供的文件类型识别的时序示意图;
图12示出了本发明实施例提供的一种文件类型的识别装置的结构示意图;
图13示出了本发明实施例提供的终端的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
对本发明实施例涉及到的名词进行如下解释:
文件类型:又称文件格式,是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式。
文件扩展名:filename extension,也称为文件的后缀名,是操作***用来标志文件类型的一种机制。通常来说,一个扩展名是跟在主文件名后面的,由一个分隔符分隔。扩展名可以被认为是一个类型的元数据。
文件头:文件头是位于文件开头的一段承担一定任务的数据,一般都在开头的部分。
元数据:Metadata,又称中介数据、中继数据,为描述数据的数据(data aboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目。
开源软件Tika:支持MIME(Multipurpose Internet Mail Extensions,多用途互联网邮件扩展类型)所提供的所有互联网媒体文件类型。
通常可采用检查文件扩展名来识别文件的文件类型,而且许多应用程序和操作***提供这些扩展名识别的支持,具体的实例如下表1所示。
表1
文件 文件名 扩展名
文件类型识别(docx).docx 文件类型识别(docx) docx
文件类型识别(pptx).pptx 文件类型识别(pptx) pptx
文件类型识别(xlsx).xlsx 文件类型识别(xlsx) xlsx
文件类型识别(pdf).pdf 文件类型识别(pdf) pdf
上述方式完全依赖于原始文件的命名是否真实可靠,若加入原始文件的扩展名被人为修改和删除,那么文件类型的识别结果与真实文件类型不一致,从而造成文件类型识别错误,具体的实例如表2所示。
表2
另外,还可以采用开源软件对文件的内容进行识别,例如开源软件Tika是一个内容分析工具,自带全面的parser(解析器)工具,能解析基本所有常见格式的文件,得到文件的元数据(metadata),内容(content)等,返回格式化信息。总的来说可以作为一个通用的解析工具,其文档识别和解析的准确性、效率性均很高,具有极强的专业性。开源软件Tika对公用已知的文件类型识别精确,但是在特殊的使用场景下如组织内部自定义文件类型不对外公开,开源软件对私有文件类型也就是自定义文件类型的识别却不够理想。
当Tika检测到文件时,Tika内部获取到文件的文件扩展名、内容类型提示、魔术字节、字符编码、xml(eXtensible Markup Language,可扩展标记语言)根字符、使用Facade(外观)类类型检测等技术来实现文件类型的识别。自定义文件的举例如下表3所示。
表3
自定义类型文件名称 Tika识别类型 真实类型
自定义类型.roger 加密类型 roger
自定义类型.rozip 加密类型 rozip
在实际应用中,存在这样的场景:某组织机构内部为保证机密信息或数据不外漏,对电子数据的使用尤其是数据外发都有严格的监管和控制。自定义文件类型属于私有文件类型,一般其文件格式编码不对外公开仅被文件制造者熟知,外界无法快速识别和解析,从而达到了文件加密相同的效果。在要对自定义文件类型进行监管时,就需要对自定义文件类型进行准确的识别。
如果自定义类型文档允许在组织机构内部使用,那么自定义文件类型就急需被注册、维护、使用范围接受管控,禁止带有敏感、机密信息的自定义文档随意外发使用,同时能做到允许规定类型的文件能够外发使用。
基于上述的内容,本发明一实施例提供一种文件类型的识别方法,用于识别自定义文件的文件类型。本实施例的执行主体为文件类型的识别装置,该装置也就是自定义文件类型识别组件。
图1示出了本发明实施例提供的一种文件类型的识别方法的步骤流程图,如图1所示,具体可以包括如下步骤:
S101、获取待识别自定义文件的编码信息;
S102、判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;
S103、若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型。
图2示出了本发明实施例提供的私有文件的文件类型的管理***的结构示意图,如图2所示,该文件类型的管理***也可以叫做数据防泄漏***包括自定义文件类型注册组件20、自定义文件类型识别组件21和自定义文件类型白名单组件22,该***设置在服务器终端侧,其中,文件类型的识别装置也就是自定义文件类型识别组件21。
具体地,自定义文件类型注册组件中预先存储了自定义文件的文件类型,及与自定义文件的文件类型相对应的编码信息;其中,自定义文件类型注册组件也就是注册组件;
自定义文件类型识别组件获取到待识别自定义文件的编码信息,其中,编码信息为十六进制的编码信息;判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型。
示例性地,若注册组件中的文件中扩展名roger对应的编码信息为504b0304140006000800,待识别自定义文件的编码为504b030414006,待识别自定义文件的编码与注册组件中扩展名为roger对应的编码中的部分相同,则确定待识别自定义文件的文件类型为roger。
示例性地,若注册组件中的文件中扩展名roger对应的编码信息为504b0304140006000800,待识别自定义文件的编码为504b0304140006000800,待识别自定义文件的编码与注册组件中扩展名为roger对应的编码中的完成相同,则确定待识别文件的文件类型为roger。
需要说明的是,待识别自定义文件的编码和注册文件中的编码的匹配度的预设值可以根据需要自行设定,在本发明实施例中不做具体限定。
图3a示出了普通文件类型即公用的文件的示意图,图3b示出了自定义文件类型即私有文件的示意图,如图3a和图3b所示,本发明实施例针对图3b中的自定义文件类型的文件。其中,本发明实施例中的文件,包括但不限于文档、视频、音频或程序类的文件。
图4示出了通过文件扩展名识别文件类型的示意图,如图4所示,本发明实施例就是为了识别出文件的扩展名,从而确定自定义文件的文件类型,提高文件类型的识别的准确性。
本发明实施例提供的文件类型的识别方法,通过获取自定义文件的编码信息,并判断编码信息与注册组件中预先存储的文件的编码信息的匹配度,若该匹配度大于预设值,则确定自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型,可以对自定义文件的文件类型进行快速识别和解析,提高了自定义文件类型识别的准确性,避免出现文件泄露的问题。
本发明又一实施例对上述实施例提供的方法做进一步补充说明。
在上述实施例的基础上,可选地,步骤S101具体包括:
获取所述自定义文件的文件头的二进制的编码信息;
将所述二进制的编码信息进行转化,得到十六进制的编码信息;
将所述十六进制的编码信息确定为所述待识别文件的编码信息。
具体地,图5示出了本发明实施例提供的获取文件类型的识别码的流程示意图,如图5所示,自定义文件类型识别组件获取文件的类型编码,文件的类型编码即是文件类型的识别码;以二进制形式读取待识别文件的文件头的二进制的编码信息A,例如可以获取文件头的前9个字节的二进制编码信息,然后将二进制的编码信息转化为十六进制的编码信息B,形成一字符串,得到的十六进制的字符串即为待识别文件的文件类型的识别码。
可选地,所述方法还包括:
接收客户端的操作请求,所述操作请求至少包括查询、新建、修改或删除请求;
根据所述操作请求对所述注册组件中的文件信息进行相应的操作;
其中,所述文件信息至少包括编号、文件类型、与所述文件类型名称对应的编码信息、注册人和注册时间中的一种。
具体地,图6示出了本发明实施例提供的自定义文件类型注册组件处理流程示意图,如图6所示,具体步骤如下所示:
S601:开始,接收客户端发送的请求;
S602:自定义文件类型注册组件接收到客户端发送的文件请求,其中,该请求中包括查看列表请求及操作类型请求;
S603:自定义文件类型注册组件在接收到客户端发送的操作类型请求后进行操作;
如果自定义文件类型注册组件识别到新增操作的请求,则执行S604,即立即将新增自定义文件的文件信息,例如将编号、文件类型、与所述文件类型名称对应的编码信息、注册人和注册时间等全部记录入库;
如果自定义文件类型注册组件识别到修改操作的请求,则执行S605,即允许针对指定的自定义文件类型信息进行修改,例如:可以对编号、文件类型、与所述文件类型名称对应的编码信息、注册人和注册时间等进行更新和修改;
如果自定义文件类型注册组件识别到删除操作的请求,则执行S606,即立刻根据文件类型名称、与所述文件类型名称对应的编码信息定位并删除注册文件的文件信息记录;
S607:数据库根据上述内容进行更新;
S608:结束。
自定义文件类型注册组件主要的功能是为自定义文件类型提供注册功能,将已知的所有存在的自定义文件类型进行收录。例如,新增自定义文件类型、修改自定义文件类型、删除自定义文件类型、自定义文件类型的检索查询等。
图7示出了本发明实施例提供的自定义文件类型识别组件的处理流程示意图,如图7所示,具体的步骤如下所示:
S701:开始;
S702:获取待识别文件的路径;
S703:读取文件:以二进制形式读取待识别文件的文件头的二进制的编码信息,然后将二进制的编码信息转化为十六进制的编码信息,形成一字符串;
S704:分离文件头部信息:从获取的十六进制的编码信息中分离出文件头部信息,例如,分离出文件头的前9个字节的头部信息;
S705:剥离文件类型信息:将分离出的头部信息进行剥离,从中剥离出文件类型信息,即文件类型所对应的编码信息;
S706:将当前文件的编码信息与注册组件中的文件类型对应的编码信息进行比对,其中,当前文件也就是待识别文件;
S707:判断当前文件的文件类型是否已经注册,也就是判断当前文件的编码信息与注册组件中的文件类型对应的编码信息的匹配度;
若当前文件的编码信息满足匹配条件,则说明当前文件的文件类型已经注册,执行S709;
S709:获取当前文件的文件类型;
S708::若文件类型未知,则执行S710。
S710:结束。
具体地,自定义文件类型识别组件主要功能是能够识别自定义文件的准确类型,弥补开源软件不能识别自定义文件类型的缺点。
示例性地,图8示出了本发明又一实施例提供的自定义文件类型识别组件的理流程示意图,如图8所示,若已知的文件类型编码信息为X即504b0304140006000800,待识别的文件类型编码信息为Y,即504b0304140006,那么当X包含Y时,就可以认定待识别的文件类型为编码X所对应的文件类型roger。
可选地,在确定所述自定义文件的文件类型之后,还包括:
接收客户端发送的白名单识别请求,其中,所述白名单识别请求中至少包括所述自定义文件的文件类型;
根据所述自定义文件的文件类型,在白名单组件中预先建立的白名单中进行查找;
若所述白名单中存在所述待识别文件的文件类型,则给所述客户端发送允许外发的响应信息。
图9示出了本发明实施例提供的自定义文件类型白名单组件的处理流程示意图,如图9所示,具体的步骤如下所示:
S901:开始;
S902:自定义文件类型白名单组件接收到客户端发送白名单识别请求;
S903:自定义文件类型白名单组件读取自定义文件类型白名单;
S904:根据请求的文件类型在白名单中检索比对,判断待识别的自定义文件类型是否在白名单中;
S905:如果白名单中存在待识别自定义文件的文件类型,则表示命中白名单,白名单组件向客户端返回响应信息,告知客户端命中白名单允许该文件类型的文件进行外发操作。
S906:如白名单中不存在待识别文件的文件类型,则表示没有命中白名单,白名单组件给客户端返回响应信息,告知客户端没有命中白名单禁止此种类型自定义文件允许进行外发操作。
S907:结束。
图10示出了本发明实施例提供的自定义文件类型白名单命中逻辑的示意图,如图10所示,文件类型白名单命中的逻辑为:若确定自定义文件类型为M,当文件类型M存在于白名单类型集合中时即为命中白名单,反之则为未命中白名单。
可选地,所述方法还包括:
接收客户端发送的白名单操作请求,其中,所述白名单操作请求中至少包括所述自定义文件的文件类型及操作类型,所述操作类型至少包括查询、新建、修改或删除操作;
根据所述自定义文件的文件类型和操作类型,对所述白名单中的文件进行相应的操作。
具体地,自定义文件类型白名单组件的主要功能为:维护一个自定义文件类型的集合,集合中记录的每一种自定义文件类型都是安全的,允许此种文件类型的外发操作。在自定义文件类型白名单组件里,可以新增文件类型、修改文件类型、删除文件类型、实现白名单文件类型的搜索查看。
图11示出了本发明实施例提供的文件类型识别的时序示意图,如图11所示,具体地:
a1、客户端向自定义文件类型注册组件发送查询自定义文件类型列表请求,注册组件立刻查询数据库并将所有注册在案的自定义文件类型以列表的形式返回给客户端,从而实现自定义文件类型的查询,其中,数据库中预先存储了编号、文件类型名称、编码信息、注册人、注册时间等信息。
a2、客户端向自定义文件类型注册组件发送新增请求,注册组件接受到新增请求,立刻将自定义文件类型信息如:编号、文件类型名称、编码信息、注册人、注册时间等信息记录入库。注册组件组装响应消息并发送给客户端,告知客户端新增请求操作成功。
a3、客户端向自定义文件类型注册组件发送修改请求,注册组件接受到修改请求,允许针对将自定义文件类型信息如:文件类型名称、编码信息等注册信息进行修改操作。注册组件组装响应消息并发送给客户端,告知客户端修改请求操作成功。
a4、客户端向自定义文件类型注册组件发送删除请求,注册组件接受到删除请求,根据编号、文件类型名称、编码信息定位并删除注册信息。注册组件组装响应消息并发送给客户端,告知客户端删除请求操作成功。
a5、客户端向自定义文件类型识别组件发送文件类型识别请求,当文件类型识别组件根据识别算法及检索识别文档的准确类型,立刻组装响应消息告知客户端文档识别结果。
a6、客户端向自定义文件类型白名单组件发送文件类型白名单识别请求,白名单识别组件根据文件类型名称、编码信息在已知白名单列表中进行查询匹配;不论查询匹配成功与否,白名单组件都会通知客户端是否命中白名单。客户端收到响应信息,确定此种类型自定义文档是否允许外发,即:此种文件类型在白名单范围内则允许文档外发,反之则禁止文档外发。
本发明实施例提供的文件类型的识别方法,通过获取自定义文件的编码信息,并判断编码信息与注册组件中预先存储的文件的编码信息的匹配度,若该匹配度大于预设值,则确定自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型,可以对自定义文件的文件类型进行快速识别和解析,提高了自定义文件类型识别的准确性,避免出现文件泄露的问题。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明另一实施例提供一种文件类型的识别装置,用于执行上述实施例提供的方法。
图12示出了本发明实施例提供的一种文件类型的识别装置的结构示意图,如图12所示,具体可以包括:获取模块10、比较模块20和确定模块30,其中:
获取模块,用于获取待识别自定义文件的编码信息;
比较模块,用于判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;
确定模块,用于若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型。
本发明实施例提供的文件类型的识别装置,通过获取自定义文件的编码信息,并判断编码信息与注册组件中预先存储的文件的编码信息的匹配度,若该匹配度大于预设值,则确定自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型,可以对自定义文件的文件类型进行快速识别和解析,提高了自定义文件类型识别的准确性,避免出现文件泄露的问题。
本发明又一实施例对上述实施例提供的装置做进一步补充说明。
可选地,所述获取模块具体用于:
获取所述自定义文件的文件头的二进制的编码信息;
将所述二进制的编码信息进行转化,得到十六进制的编码信息;
将所述十六进制的编码信息确定为所述待识别文件的编码信息。
可选地,所述获取模块还用于:
接收客户端的操作请求,所述操作请求至少包括查询、新建、修改或删除请求;
根据所述操作请求对所述注册组件中的文件信息进行相应的操作;
其中,所述文件信息至少包括编号、文件类型、与所述文件类型名称对应的编码信息、注册人和注册时间中的一种。
可选地,所述确定模块,还用于:
接收客户端发送的白名单识别请求,其中,所述白名单识别请求中至少包括所述自定义文件的文件类型;
根据所述自定义文件的文件类型,在白名单组件中预先建立的白名单中进行查找;
若所述白名单中存在所述待识别文件的文件类型,则给所述客户端发送允许外发的响应信息。
可选地,所述确定模块,还用于:
接收客户端发送的白名单操作请求,其中,所述白名单操作请求中至少包括所述自定义文件的文件类型及操作类型,所述操作类型至少包括查询、新建、修改或删除操作;
根据所述自定义文件的文件类型和操作类型,对所述白名单中的文件进行相应的操作。
本发明实施例提供的文件类型的识别装置,通过获取待识别文件的编码信息,将所述编码信息与注册组件中预先注册好的文件的编码信息进行比较,若所述待识别文件的编码信息与所述注册好的文件的编码信息的匹配度大于预设值,则确定所述待识别文件的文件类型为所述注册好的文件的编码信息对应的文件类型。本发明实施例提高文件类型识别的准确性。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明再一实施例提供一种终端,也就是服务器端,用于执行上述实施例提供的方法。
图13示出了本发明实施例提供的终端的结构示意图,如图13所示,该终端包括:至少一个处理器51和存储器52;
所述存储器存储计算机程序;所述至少一个处理器执行所述存储器存储的计算机程序,以实现上述实施例提供的方法。
根据本实施例的终端,通过获取自定义文件的编码信息,并判断编码信息与注册组件中预先存储的文件的编码信息的匹配度,若该匹配度大于预设值,则确定自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型,可以对自定义文件的文件类型进行快速识别和解析,提高了自定义文件类型识别的准确性,避免出现文件泄露的问题。本发明又一实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现上述任一实施例提供的方法。
根据本实施例的计算机可读存储介质,通过获取自定义文件的编码信息,并判断编码信息与注册组件中预先存储的文件的编码信息的匹配度,若该匹配度大于预设值,则确定自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型,可以对自定义文件的文件类型进行快速识别和解析,提高了自定义文件类型识别的准确性,避免出现文件泄露的问题。
本发明实施例可以用于数据防泄露***(NDLP)中,用于识别自定义文档类型,具体地,近年来,经济社会发展对信息化的要求和依赖程度越来越高,面临激烈的竞争,包括银行、保险、证券等在内的金融行业信息技术迅猛发展,不仅极大加速全球化进程,而且正在飞速改变金融行业(银行、保险、证券)的发展方向和形态。然而,互联网金融的迅速成长也伴随着风险挑战,信息安全事件时有发生,近年来更有愈演愈烈之势。据不完全统计,截至2014年年底有近165家P2P平台由于黑客攻击导致***瘫痪或数据被恶意篡改,一时间P2P在百姓心里成了高风险的代名词,在政府眼里成了监管失效的重灾区,由此国家针对关系到国计民生的金融行业等提出了更高的安全防护要求,以避免发生数据泄密事件。
针对金融行业的特点,在实际的项目(数据交换)开发中,经过不断的摸索和测试验证开发了本发明实施例中所描述自定义文件类型的识别方法及装置,此方法在数据防泄露***(NDLP***)得到应用,在实际应用中亦表现良好,在实际项目中得到了大力推广。
此方法在金融行业的数据防泄露***应用流程,同图11中描述的流程相一致,在此不再赘述。
本发明又一实施例可用于文档扫描工具识别自定义文档的文档类型,具体地,在文档扫描工具项目的开发实施过程中,采用了本发明所提出的自定义文件类型识别管理方法在TB级别的文档数据中能够准备识别具体的自定义文档类型及内容信息,在运行阶段表现良好,详细的流程在此不在赘述。
其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、***、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的***。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令***的制造品,该指令***实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端上,使得在计算机或其他可编程终端上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端中还存在另外的相同要素。
以上对本发明所提供的一种时间同步方法和一种时间同步装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文件类型的识别方法,其特征在于,包括:
获取待识别自定义文件的编码信息;
判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;
若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别自定义文件的编码信息,包括:
获取所述自定义文件的文件头的二进制的编码信息;
将所述二进制的编码信息进行转化,得到十六进制的编码信息;
将所述十六进制的编码信息确定为所述待识别文件的编码信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收客户端的操作请求,所述操作请求至少包括查询、新建、修改或删除请求;
根据所述操作请求对所述注册组件中的文件信息进行相应的操作;
其中,所述文件信息至少包括编号、文件类型、与所述文件类型名称对应的编码信息、注册人和注册时间中的一种。
4.根据权利要求1所述的方法,其特征在于,在确定所述自定义文件的文件类型之后,还包括:
接收客户端发送的白名单识别请求,其中,所述白名单识别请求中至少包括所述自定义文件的文件类型;
根据所述自定义文件的文件类型,在白名单组件中预先建立的白名单中进行查找;
若所述白名单中存在所述待识别文件的文件类型,则给所述客户端发送允许外发的响应信息。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
接收客户端发送的白名单操作请求,其中,所述白名单操作请求中至少包括所述自定义文件的文件类型及操作类型,所述操作类型至少包括查询、新建、修改或删除操作;
根据所述自定义文件的文件类型和操作类型,对所述白名单中的文件进行相应的操作。
6.一种文件类型的识别装置,其特征在于,包括:
获取模块,用于获取待识别自定义文件的编码信息;
比较模块,用于判断所述编码信息与注册组件中预先存储的文件的编码信息的匹配度;
确定模块,用于若所述匹配度大于预设值,则确定所述自定义文件的文件类型为所述预先存储的文件的编码信息对应的文件类型。
7.根据权利要求6所述的装置,其特征在于,所述获取模块具体用于:
获取所述自定义文件的文件头的二进制的编码信息;
将所述二进制的编码信息进行转化,得到十六进制的编码信息;
将所述十六进制的编码信息确定为所述待识别文件的编码信息。
8.根据权利要求6所述的装置,其特征在于,所述获取模块还用于:
接收客户端的操作请求,所述操作请求至少包括查询、新建、修改或删除请求;
根据所述操作请求对所述注册组件中的文件信息进行相应的操作;
其中,所述文件信息至少包括编号、文件类型、与所述文件类型名称对应的编码信息、注册人和注册时间中的一种。
9.一种终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项的步骤。
CN201910833084.XA 2019-09-04 2019-09-04 一种文件类型的识别方法及装置 Pending CN110532529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833084.XA CN110532529A (zh) 2019-09-04 2019-09-04 一种文件类型的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833084.XA CN110532529A (zh) 2019-09-04 2019-09-04 一种文件类型的识别方法及装置

Publications (1)

Publication Number Publication Date
CN110532529A true CN110532529A (zh) 2019-12-03

Family

ID=68666836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833084.XA Pending CN110532529A (zh) 2019-09-04 2019-09-04 一种文件类型的识别方法及装置

Country Status (1)

Country Link
CN (1) CN110532529A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143849A (zh) * 2019-12-31 2020-05-12 奇安信科技集团股份有限公司 应用于电子设备的文件类型识别方法和装置、电子设备
CN111159758A (zh) * 2019-12-18 2020-05-15 深信服科技股份有限公司 识别方法、设备及存储介质
CN111694574A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 指令代码处理的方法、装置、设备以及存储介质
CN112738085A (zh) * 2020-12-28 2021-04-30 深圳前海微众银行股份有限公司 文件安全校验方法、装置、设备及存储介质
CN116226046A (zh) * 2023-03-16 2023-06-06 北京中宏立达科技发展有限公司 一种文件类型检测方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN102768676A (zh) * 2012-06-14 2012-11-07 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置
CN106227893A (zh) * 2016-08-24 2016-12-14 乐视控股(北京)有限公司 一种文件类型获取方法及装置
CN106844476A (zh) * 2016-12-23 2017-06-13 上海上讯信息技术股份有限公司 一种识别文件格式及对应完整性的方法和设备
CN107277037A (zh) * 2017-07-14 2017-10-20 北京安数云信息技术有限公司 基于插件的任意文件操作检测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN102768676A (zh) * 2012-06-14 2012-11-07 腾讯科技(深圳)有限公司 一种格式未知文件的处理方法和装置
CN106227893A (zh) * 2016-08-24 2016-12-14 乐视控股(北京)有限公司 一种文件类型获取方法及装置
CN106844476A (zh) * 2016-12-23 2017-06-13 上海上讯信息技术股份有限公司 一种识别文件格式及对应完整性的方法和设备
CN107277037A (zh) * 2017-07-14 2017-10-20 北京安数云信息技术有限公司 基于插件的任意文件操作检测方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159758A (zh) * 2019-12-18 2020-05-15 深信服科技股份有限公司 识别方法、设备及存储介质
CN111143849A (zh) * 2019-12-31 2020-05-12 奇安信科技集团股份有限公司 应用于电子设备的文件类型识别方法和装置、电子设备
CN111694574A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 指令代码处理的方法、装置、设备以及存储介质
CN111694574B (zh) * 2020-06-12 2023-11-14 北京百度网讯科技有限公司 指令代码处理的方法、装置、设备以及存储介质
CN112738085A (zh) * 2020-12-28 2021-04-30 深圳前海微众银行股份有限公司 文件安全校验方法、装置、设备及存储介质
CN112738085B (zh) * 2020-12-28 2023-08-08 深圳前海微众银行股份有限公司 文件安全校验方法、装置、设备及存储介质
CN116226046A (zh) * 2023-03-16 2023-06-06 北京中宏立达科技发展有限公司 一种文件类型检测方法及***
CN116226046B (zh) * 2023-03-16 2023-09-08 北京中宏立达科技发展有限公司 一种文件类型检测方法及***

Similar Documents

Publication Publication Date Title
CN110532529A (zh) 一种文件类型的识别方法及装置
US10521407B2 (en) Grouping of database objects
CN110197085A (zh) 一种基于fabric联盟链的文档防篡改方法
CN112988667B (zh) 一种基于区块链网络的数据存储方法及装置
US9292703B2 (en) Electronic document management method
US8725774B2 (en) Enforcing policies over linked XML resources
CN114491518A (zh) 一种越权访问的检测方法、装置、***及介质
CN112307318B (zh) 一种内容发布方法、***及装置
CN110008462A (zh) 一种命令序列检测方法及命令序列处理方法
CN115114372A (zh) 基于区块链的数据处理方法、装置、设备及可读存储介质
US8639707B2 (en) Retrieval device, retrieval system, retrieval method, and computer program for retrieving a document file stored in a storage device
JP4807364B2 (ja) 情報管理装置
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
CN114491184B (zh) 一种数据处理方法及装置、存储介质及电子设备
CN112685389B (zh) 数据管理方法、数据管理装置、电子设备及存储介质
US8788483B2 (en) Method and apparatus for searching in a memory-efficient manner for at least one query data element
JP5017405B2 (ja) 規程管理装置及びプログラム
CN113032775A (zh) 情报处理方法和情报处理***
CN110879835A (zh) 基于区块链的数据处理方法、装置、设备及可读存储介质
CN110377584A (zh) 一种基于元数据的数据结构版本兼容的存取方法及装置
CN116594658B (zh) 针对元数据的版本升级方法、装置、电子设备和介质
KR101407334B1 (ko) 음원 서비스를 제공하는 방법, 단말 및 서버
US11455855B2 (en) Content validation document transmission
US20210081393A1 (en) Updating a database using values from an inbound message in response to a previous outbound message
KR101886526B1 (ko) 응용 트래픽 분류에 정교한 페이로드 시그니쳐 생성 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191203

RJ01 Rejection of invention patent application after publication