CN112612750A - 文件内容处理方法、装置、电子设备及可读存储介质 - Google Patents

文件内容处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112612750A
CN112612750A CN202011490103.2A CN202011490103A CN112612750A CN 112612750 A CN112612750 A CN 112612750A CN 202011490103 A CN202011490103 A CN 202011490103A CN 112612750 A CN112612750 A CN 112612750A
Authority
CN
China
Prior art keywords
file
format
processed
content
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011490103.2A
Other languages
English (en)
Inventor
路会园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202011490103.2A priority Critical patent/CN112612750A/zh
Publication of CN112612750A publication Critical patent/CN112612750A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文件内容处理方法、装置、电子设备及可读存储介质。方法包括:在当前操作***中获取待处理文件中的文件特征,文件特征包括待处理文件的当前文件格式、文件内容、文件内容的版式;将文件内容以文件内容的版式转换为指定文件格式的目标文件。在本方案中,目标文件的格式可以为不同于当前文件格式的任一操作***支持的任一文件格式,用于解决原操作***支持的原格式文件不被目标操作***支持的问题。另外,通过结合当前文件内容的版式,将当前文件格式的待处理文件的文件内容,转换为指定文件格式的目标文件内容,能够保证转换后的文件的内容格式不变。

Description

文件内容处理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及文件处理技术领域,具体而言,涉及一种文件内容处理方法、装置、电子设备及可读存储介质。
背景技术
对于文档类文件,如pdf、ppt、doc、xlx等格式的文件,在一些操作***中,部分文件需要特定工具才能打开。因此,在操作***中,存在将原格式的文件转换为另一格式的文件的需求。
在现有技术中,可以在特定操作***中,将特定格式(例如pdf)的原文件转换为HTML(HyperText Markup Language,超文本标记语言)格式的文件,然后从HTML文件中,提取内容数据,然而并不是所有操作***中的任何文档都能转换成HTML文件,从而使得该方式的适用范围窄;或者采用文本框分割电子文档,提取文本框中的文件内容,然而并不是所有操作***中的任何文档都能进行文本框分割,比如,某些承载私有文档格式的网络数据包文档,便不能使用文本框进行分割,另外,对文档进行文本框分割的同时容易产生误差,对文本框内容的提取也存在误差。
发明内容
本申请实施例的目的在于提供一种文件内容处理方法、装置、电子设备及可读存储介质,有利于改善原操作***支持的原格式文件不被目标操作***支持的问题。
为了实现上述目的,本申请的实施例通过如下方式实现:
第一方面,本申请实施例提供一种文件内容处理方法,所述方法包括:
在当前操作***中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;
将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作***支持的任一文件格式。
在上述的实施方式中,通过结合当前文件内容的版式,将当前文件格式的待处理文件的文件内容,转换为指定文件格式的目标文件内容,能够保证转换后的文件的内容格式不变,保持文件转换后的数据内容的准确性。另外,目标文件的格式可以为不同于当前文件格式的任一文件格式,如此,有利于实现文件格式的灵活转换,扩大文件内容转换的适用范围,解决原操作***支持的原格式文件不被目标操作***支持的问题。
结合第一方面,在一些可选的实施方式中,所述文件内容包括多个文件数据块、文件数据块起始位置、文件数据块序号、文件数据块offset;
将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,包括:
根据所述文件特征生成文件格式策略,并从所述文件格式策略的所述文件数据块起始位置读取所述多个文件数据块,所述文件格式策略包括所述文件特征的集合;
根据所述文件数据块序号及所述文件数据块offset,将所述多个文件数据块以所述文件内容的版式写入所述指定文件格式的文件中,得到所述目标文件。
在上述的实施方式中,通过利用文件特征中的文件数据块序号、文件数据块offset等数据,可以顺序读取数据块,然后将读取的数据块准确转换为目标文件中的数据内容,如此,有利于提高文件内容转换的准确性,确保转换前后文件的内容格式维持不变。
结合第一方面,在一些可选的实施方式中,在当前操作***中获取待处理文件中的文件特征,包括:
当所述待处理文件为明文文件时,在所述当前操作***中获取所述待处理文件中的明文内容的所述文件特征;
当所述待处理文件为加密文件时,在所述当前操作***中根据所述待处理文件的解密算法解密所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解密算法为通过分析工具对所述待处理文件进行分析得到的解密算法;
当所述待处理文件为压缩文件时,在所述当前操作***中根据所述待处理文件的解压缩算法解压所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解压缩算法为通过所述分析工具对所述待处理文件进行分析得到的解压缩算法。
在上述的实施方式中,对于压缩、加密等文件,可以基于分析工具读取文件的明文内容,然后再基于得到的明文内容实现文件格式的转换,从而改善无法对压缩文件、加密文件进行转换的问题。
结合第一方面,在一些可选的实施方式中,将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,包括:
将所述文件内容以所述文件内容的版式转换为目标操作***支持的指定文件格式的目标文件,其中,所述当前文件格式包括所述目标操作***不支持打开的文件格式,所述目标操作***为不同于所述当前操作***的任一操作***。
结合第一方面,在一些可选的实施方式中,在当前操作***中获取待处理文件中的文件特征,包括:
根据所述当前操作***的处理列表中的地址链接获取待处理文件,所述处理列表包括至少一个待处理文件的地址链接;
从所获取的所述待处理文件的明文内容中提取所述文件特征。
在上述的实施方式中,通过处理列表,可以一次性地批量处理多个待处理文件,从而有利于提高文件转换的效率。
结合第一方面,在一些可选的实施方式中,所述指定文件格式包括至少两类文件格式。
结合第一方面,在一些可选的实施方式中,所述目标文件包括在目标操作***进行内容检测操作的文件内容,所述内容检测操作包括关键字审计、版式审计、内容审计以及内容显示以供人员审查中的至少一种操作。
第二方面,本申请实施例还提供一种文件内容处理装置,所述装置包括:
特征获取单元,在当前操作***中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;
转换单元,用于将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作***支持的任一文件格式。
第三方面,本申请实施例还提供一种电子设备,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构示意图。
图2为本申请实施例提供的文件内容处理方法的流程示意图。
图3为图2中步骤S220的子步骤的流程示意图。
图4为本申请实施例提供的文件内容处理装置的框图。
图标:10-电子设备;11-处理模块;12-存储模块;100-文件内容处理装置;110-特征获取单元;120-转换单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,本申请实施例提供一种电子设备10,可以用于将待处理文档转换为另一文件格式的目标文档,有利于实现文件内容的快速转换,提高文件内容转换的准确性,改善原操作***支持的原格式文件不被目标操作***支持问题。
电子设备10可以包括处理模块11及存储模块12。存储模块12内存储计算机程序,当计算机程序被处理模块11执行时,使得电子设备10能够执行下述方法中的各步骤。
当然,电子设备10还可以包括其他模块,例如,电子设备10还可以包括用于与其他设备建立通信连接的通信模块。另外,电子设备10还可以包括固化在存储模块12中的文件内容处理装置100的软件模块。
处理模块11、存储模块12以及通信模块各个元件之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,电子设备10可以是但不限于个人电脑、服务器等设备。
请参照图2,本申请实施例还提供一种文件内容处理方法,可以应用于上述的电子设备10,由该电子设备10执行或实现方法的各步骤。方法可以包括如下步骤:
步骤S210,在当前操作***中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;
步骤S220,将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作***支持的任一文件格式。
下面将对方法的各步骤进行详细阐述,如下:
在步骤S210中,当前操作***即为电子设备10的操作***。另外,下述的目标操作***可以为不同于当前操作***的任一操作***。当前操作***及目标操作***均可以根据实际情况进行确定,这里不作具体限定。例如,当前操作***可以为Windows操作***,目标操作***可以为Linux操作***。
在本实施例中,待处理文件可以为目标操作***无法直接打开的文件,或者待处理文件的文件格式为目标操作***不支持的文件格式,或者待处理文件可以为目标操作***无法进行文本内容检测的文件。待处理文件的当前文件格式包括但不限于pdf、doc、docx、xlx、xls、xlsx、ppt等文件格式,可以根据实际情况进行确定,这里不作具体限定。
当需要进行文件的文件格式转换时,电子设备10可以加载待处理文件,然后,读取待处理文件中的明文内容,以得到待处理文件的文件特征。其中,文件特征中的文件内容的版式可理解为文件内容中文本数据的排版格式和布局等。明文内容可理解为待处理文件在未加密且非压缩文件状态下的文件内容。
文件特征中的文件内容可以包括多个文件数据块、文件数据块起始位置、文件数据块序号、文件数据块offset。当然,文件内容还可以包括其他特征。例如,文件内容还可以包括文件数据块长度、文件内容总长度等。其中,文件数据块offset为文件数据块的偏移量,为本领域技术人员熟知的参数概念。
在步骤S220中,电子设备10可以基于获取到的文件特征,根据用户的实际需求,将文件内容以文件内容的版式转换为指定文件格式的文件,从而得到目标文件。如此,可以保障转换后得到的目标文件的版式与待处理文件的版式相同。
其中,指定文件格式可以为一类文件格式,或者,指定文件格式可以为两类或多类文件格式,可以根据实际需求进行灵活设置。即,电子设备10可以将待处理文件一次性地转换为一类或多类不同文件格式的目标文件。例如,指定文件格式可以为txt文件格式,或者,指定文件格式可以为pdf、txt两类文件格式,这里对指定文件格式所包括的格式类别数量不作具体限定。
在转换得到的目标文件中,包括可以在目标操作***进行内容检测操作的文件内容。内容检测操作包括,但不限于关键字审计、版式审计、内容审计以及内容显示以供人员审查中的至少一种操作。即,所生成的目标文件,可以供运行在目标操作***下的网络设备进行关键字查找、检索、版式审计、内容审计以及进行内容显示以供人员进行审查等操作。如此,可以解决因原操作***支持的原格式文件不被目标操作***支持,而使得无法对文件内容进行内容审查、版式审查等操作的问题。
作为一种可选的实施方式,步骤S210可以包括:
当所述待处理文件为明文文件时,在所述当前操作***中获取所述待处理文件中的明文内容的所述文件特征;
当所述待处理文件为加密文件时,在所述当前操作***中根据所述待处理文件的解密算法解密所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解密算法为通过分析工具对所述待处理文件进行分析得到的解密算法;
当所述待处理文件为压缩文件时,在所述当前操作***中根据所述待处理文件的解压缩算法解压所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解压缩算法为通过所述分析工具对所述待处理文件进行分析得到的解压缩算法。
在本实施例中,若待处理文件为明文文件,即,表示待处理文件不是压缩文件,且待处理文件未加密,可以直接在当前的操作***中读取到待处理文件中的文件内容。此时,电子设备10可以直接获取待处理文件中的文件特征。
若待处理文件为非明文文件,例如,待处理文件为加密文件或压缩文件。此时,电子设备10中的可执行程序通过分析工具提取的加密文件对应的解密算法,或压缩文件的解压缩算法,对加密或压缩文件进行解密或解压缩。分析工具包括但不限于GDB工具、Ollydbg工具等,为本领域技术人员熟知。其中,通过分析工具提取加密文件或压缩文件中的数据内容的处理过程相类似,下面将以分析工具提取加密文件的数据内容进行举例阐述,如下:
使用内存分析工具Ollydbg加载电子文档应用程序(即用于打开电子文档的应用程序,如打开Word文件时使用Office应用程序)到分析设备(比如为电子设备10或其他设备)的内存中,然后单步运行该电子文档应用程序,提取该电子文档应用程序从加密文件读取到的文件解密的完整算法,该算法包括但不限于汇编语句、函数等。根据提取的解密算法生成目标操作***支持的文件读取程序,该目标操作***可以为任一操作***。该文件读取程序可以使用电子设备10的操作***支持的任何一种语言编写,然后使用文件读取程序读取出加密文件的明文内容,从而提取到加密文件中的数据内容以及板式内容。
若待处理文件为压缩文件,电子设备10可以使用包含上述分析工具提取的解压缩算法的可执行程序,从压缩文件中读取解压缩后的明文内容。
需要说明的是,通过分析工具提取压缩文件中的数据内容的提取方式,与提取加密文件的操作流程类似,可以参照上述举例中对加密文件的提取过程的描述,这里不再赘述。
另外,若待处理文件既是加密文件,同时也是压缩文件,则分析工具可以检测待处理文件对应的解密算法及解压缩算法,然后生成相应的文件读取程序,并通过该文件读取程序,从待处理文件读取解压、解密后的明文内容。
在上述的实施方式中,电子设备10可以使用包含上述分析工具提取的解压缩算法或解密算法的可执行程序,从经过加密、压缩等处理后的非明文文件中,读取非明文文件在解密、解压缩等操作后的明文内容,避免待处理文件为加密文件、压缩文件而无法读取文件内容,从而无法实现文件格式转换的问题。
作为一种可选的实施方式,步骤S210可以包括:
根据所述当前操作***的处理列表中的地址链接获取待处理文件,所述处理列表包括至少一个待处理文件的地址链接;
从所获取的所述待处理文件的明文内容中提取所述文件特征。
在本实施例中,对于需要批处理的多个待处理文件,可以创建处理列表。处理列表中,包括每个待处理文件的地址链接,所包括的地址链接数量可以根据实际情况进行确定,这里不作具体限定。
电子设备10可以通过处理列表中的地址链接,获取相应的待处理文件,然后进行文件的转换处理。其中,电子设备10可以逐个对处理列表中的待处理文件进行转换处理,例如,电子设备10可以基于处理列表中的排列顺序,依次对待处理文件进行转换处理,在完成一个待处理文件的转换处理后,再从处理列表中,加载下一待处理文件,以进行文件转换处理,直至完成处理列表中的所有待处理文件的转换处理。或者,电子设备10每次可以以并行处理的方式,同时对多个待处理文件进行转换处理。其中,对每个文件的转换处理过程如上述的步骤S210及步骤S220,这里不再赘述。
在上述的实施方式中,电子设备10通过批量处理的方式,有利于简化多个待处理文件转换处理的操作步骤,提高对多个待处理文件的转换处理效率。
在本实施例中,步骤S220可以包括:将所述文件内容以所述文件内容的版式转换为目标操作***支持的指定文件格式的目标文件,其中,所述当前文件格式包括所述目标操作***不支持打开的文件格式,所述目标操作***为不同于所述当前操作***的任一操作***。
可理解地,由于当前操作***与目标操作***不同,所支持打开的文件的文件格式存在差异。例如,运行在Linux操作***下的工控入侵检测***或审计***,需要获取Windows操作***下的各类文件的文件内容,以进行相应的数据分析时,便需要将不被Linux操作***支持的文件转换为Linux操作***所支持的文件格式,或者将不能在Linux操作***进行关键字查询、版式审查的文件,转换为能够在Linux操作***进行关键字查询、版式审查的文件。
示例性地,当需要在Linux操作***中满足用户可以阅读的目的时,可以使用Linux中的pdf软件查看由只有Windows操作***支持的特定格式文档的转换成的Linux支持的pdf格式文件。当需要在Linux操作***中让应用程序对文件内容进行检测时,可以使用由只有Windows支持的特定格式文档的转换成的Linux支持的txt文件。其中,在Linux操作***中,txt文件可以供用户或网络设备进行相应的检测操作,比如查找是否存在相应的关键字。
在文件转换过程中,可以基于文件数据块offset,以文件内容的版式转换成指定文件格式的文件,如此,可以保证转换前后文件内容的版式相同或相近,有利于后期进行文件的版式审查,以避免在文件转换过程中所丢失原文件的特征信息,提高文件转换的准确性及可靠性。
请参照图3,在本实施例中,所述文件内容包括多个文件数据块、文件数据块起始位置、文件数据块序号、文件数据块offset。步骤S220可以包括:子步骤S221和子步骤S222,如下:
子步骤S221,根据所述文件特征生成文件格式策略,并从所述文件格式策略的所述文件数据块起始位置读取所述多个文件数据块,所述文件格式策略包括所述文件特征的集合;
子步骤S222,根据所述文件数据块序号及所述文件数据块offset,将所述多个文件数据块以所述文件内容的版式写入所述指定文件格式的文件中,得到所述目标文件。
可理解地,文件数据块为文件内容中的数据的数据组织单元,为本领域技术人员熟知。文件数据块起始位置可以为数据内容中的首个文件数据块的位置。文件数据块offset用于表示数据块之间的位置关系,可以用于描述文件内容的版式。另外,每个文件数据块的长度可以根据实际情况进行设置。文件数据块的序号可以用于标识各个文件数据块,不同的文件数据块的序号不同,可以根据实际情况进行设置。
文件格式策略的生成过程包括:读入待处理文件,然后读取十六进制的文件特征,然后将文件特征存入数据结构或者写入策略文件,但不限于数据结构、策略文件,从而形成文件格式策略。
在步骤S221中,可以包括:根据文件格式策略中的文件类型,判断待处理文件的当前文件格式(比如为xlx,或ppt,或其他特定文件格式等,但不限于上述文件类型),然后根据文件格式策略中的文件数据块起始位置、文件数据块序号、文件数据块长度、文件数据块offset等,顺序读取文件内容的文件数据块。
在步骤S222中,可以包括:创建目标操作***支持的任一指定文件格式的文件,然后,基于文件数据块offset,以文件内容的版式将每个文件数据块写入指定文件格式的文件中,从而得到目标文件。比如待处理文件的文件格式是特定文件格式,该格式仅仅在Windows操作***(当前操作***)中被指定的工具软件支持,若需要在Linux操作***(目标操作***)查看该文件,则创建一个Linux操作***支持的文件类型的文件(包括但不限于pdf,txt等文件),然后将步骤S221中顺序读取的文件数据块,按照指定文件格式写入所创建的文件中,从而完成原文件到目标文件的内容提取和转换。如此,可以保证在文件转换过程中,数据内容保持不变,且转换后的目标文件的数据内容的排版与待处理文件的排版相同,以提高文件转换过程中的准确性及可靠性。
请参照图4,本申请实施例还提供一种文件内容处理装置100,可以应用于上述的电子设备10中,用于执行方法中的各步骤。文件内容处理装置100包括至少一个可以软件或固件(Firmware)的形式存储于存储模块12中或固化在电子设备10操作***(OperatingSystem,OS)中的软件功能模块。处理模块11用于执行存储模块12中存储的可执行模块,例如文件内容处理装置100所包括的软件功能模块及计算机程序等。
文件内容处理装置100可以包括特征获取单元110及转换单元120,能够执行的操作内容可以如下:
特征获取单元110,在当前操作***中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;
转换单元120,用于将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作***支持的任一文件格式。
可选地,特征获取单元110还可以用于:根据所述当前操作***的处理列表中的地址链接获取待处理文件,所述处理列表包括至少一个待处理文件的地址链接;从所获取的所述待处理文件的明文内容中提取所述文件特征。
可选地,特征获取单元110还可以用于:
当所述待处理文件为明文文件时,在所述当前操作***中获取所述待处理文件中的明文内容的所述文件特征;
当所述待处理文件为加密文件时,在所述当前操作***中根据所述待处理文件的解密算法解密所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解密算法为通过分析工具对所述待处理文件进行分析得到的解密算法;
当所述待处理文件为压缩文件时,在所述当前操作***中根据所述待处理文件的解压缩算法解压所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解压缩算法为通过所述分析工具对所述待处理文件进行分析得到的解压缩算法。
可选地,所述文件内容包括多个文件数据块、文件数据块起始位置、文件数据块序号、文件数据块offset;转换单元120还可以用于:根据所述文件特征生成文件格式策略,并从所述文件格式策略的所述文件数据块起始位置读取所述多个文件数据块,所述文件格式策略包括所述文件特征的集合;根据所述文件数据块序号及所述文件数据块offset,将所述多个文件数据块以所述文件内容的版式写入所述指定文件格式的文件中,得到所述目标文件。
可选地,转换单元120还可以用于:将所述文件内容以所述文件内容的版式转换为目标操作***支持的指定文件格式的目标文件,其中,所述当前文件格式包括所述目标操作***不支持打开的文件格式,所述目标操作***为不同于所述当前操作***的任一操作***。
在本实施例中,处理模块11可以是一种集成电路芯片,具有信号的处理能力。上述处理模块11可以是通用处理器。例如,该处理器可以是中央处理器(Central ProcessingUnit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
存储模块12可以是,但不限于,随机存取存储器,只读存储器,可编程只读存储器,可擦除可编程只读存储器,电可擦除可编程只读存储器等。在本实施例中,存储模块12可以用于存储待处理文件、目标文件等。当然,存储模块12还可以用于存储程序,处理模块11在接收到执行指令后,执行该程序。
通信模块用于通过网络建立电子设备10与其他设备的通信连接,并通过网络收发数据。其他设备可以为用户终端,例如智能手机。当然,其他设备还可以为服务器,这里对于电子设备10通信连接的设备不作具体限定。
可以理解的是,图1所示的结构仅为电子设备10的一种结构示意图,电子设备10还可以包括比图1所示更多的组件。图1中所示的各组件可以采用硬件、软件或其组合实现。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备10的具体工作过程,可以参考前述方法中的各步骤对应过程,在此不再过多赘述。
本申请实施例还提供一种计算机可读存储介质。计算机可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如上述实施例中所述的文件内容处理方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
综上所述,本申请提供一种文件内容处理方法、装置、电子设备及可读存储介质。方法包括:在当前操作***中获取待处理文件中的文件特征,文件特征包括待处理文件的当前文件格式、文件内容、文件内容的版式;将文件内容以文件内容的版式转换为指定文件格式的目标文件。在本方案中,目标文件的格式可以为不同于当前文件格式的任一操作***支持的任一文件格式。另外,通过结合当前文件内容的版式,将当前文件格式的待处理文件的文件内容,转换为指定文件格式的目标文件内容,能够保证转换后的文件的内容格式不变,解决原操作***支持的原格式文件不被目标操作***支持问题。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文件内容处理方法,其特征在于,所述方法包括:
在当前操作***中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;
将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作***支持的任一文件格式。
2.根据权利要求1所述的方法,其特征在于,所述文件内容包括多个文件数据块、文件数据块起始位置、文件数据块序号、文件数据块offset;
将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,包括:
根据所述文件特征生成文件格式策略,并从所述文件格式策略的所述文件数据块起始位置读取所述多个文件数据块,所述文件格式策略包括所述文件特征的集合;
根据所述文件数据块序号及所述文件数据块offset,将所述多个文件数据块以所述文件内容的版式写入所述指定文件格式的文件中,得到所述目标文件。
3.根据权利要求1所述的方法,其特征在于,在当前操作***中获取待处理文件中的文件特征,包括:
当所述待处理文件为明文文件时,在所述当前操作***中获取所述待处理文件中的明文内容的所述文件特征;
当所述待处理文件为加密文件时,在所述当前操作***中根据所述待处理文件的解密算法解密所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解密算法为通过分析工具对所述待处理文件进行分析得到的解密算法;
当所述待处理文件为压缩文件时,在所述当前操作***中根据所述待处理文件的解压缩算法解压所述待处理文件,以得到所述待处理文件的明文内容,并获取所述待处理文件的明文内容的所述文件特征,其中,所述解压缩算法为通过所述分析工具对所述待处理文件进行分析得到的解压缩算法。
4.根据权利要求1所述的方法,其特征在于,将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,包括:
将所述文件内容以所述文件内容的版式转换为目标操作***支持的指定文件格式的目标文件,其中,所述当前文件格式包括所述目标操作***不支持打开的文件格式,所述目标操作***为不同于所述当前操作***的任一操作***。
5.根据权利要求1所述的方法,其特征在于,在当前操作***中获取待处理文件中的文件特征,包括:
根据所述当前操作***的处理列表中的地址链接获取待处理文件,所述处理列表包括至少一个待处理文件的地址链接;
从所获取的所述待处理文件的明文内容中提取所述文件特征。
6.根据权利要求1所述的方法,其特征在于,所述指定文件格式包括至少两类文件格式。
7.根据权利要求1所述的方法,其特征在于,所述目标文件包括在目标操作***进行内容检测操作的文件内容,所述内容检测操作包括关键字审计、版式审计、内容审计以及内容显示以供人员审查中的至少一种操作。
8.一种文件内容处理装置,其特征在于,所述装置包括:
特征获取单元,在当前操作***中获取待处理文件中的文件特征,所述文件特征包括所述待处理文件的当前文件格式、文件内容、文件内容的版式;
转换单元,用于将所述文件内容以所述文件内容的版式转换为指定文件格式的目标文件,其中,所述指定文件格式包括不同于所述当前文件格式的任一操作***支持的任一文件格式。
9.一种电子设备,其特征在于,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的方法。
CN202011490103.2A 2020-12-15 2020-12-15 文件内容处理方法、装置、电子设备及可读存储介质 Pending CN112612750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011490103.2A CN112612750A (zh) 2020-12-15 2020-12-15 文件内容处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011490103.2A CN112612750A (zh) 2020-12-15 2020-12-15 文件内容处理方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112612750A true CN112612750A (zh) 2021-04-06

Family

ID=75239833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011490103.2A Pending CN112612750A (zh) 2020-12-15 2020-12-15 文件内容处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112612750A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113660156A (zh) * 2021-08-09 2021-11-16 覃飞 一种传输文件的处理方法、装置、电子设备及存储介质
CN114004195A (zh) * 2021-11-01 2022-02-01 盐城金堤科技有限公司 Pdf文件的生成方法、装置、电子设备及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和***
CN103177043A (zh) * 2011-12-26 2013-06-26 联想(北京)有限公司 一种跨***平台传输文件的方法及电子***
CN104346322A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN107766385A (zh) * 2016-08-22 2018-03-06 阿里巴巴集团控股有限公司 一种转换虚拟磁盘文件格式的方法与设备
CN108664523A (zh) * 2017-03-31 2018-10-16 华为技术有限公司 一种虚拟磁盘文件格式转换方法和装置
CN110750961A (zh) * 2019-09-12 2020-02-04 北京真视通科技股份有限公司 一种文件格式转换方法、装置、计算机设备和存储介质
CN111475477A (zh) * 2019-01-23 2020-07-31 北京二六三企业通信有限公司 文件格式的转换方法、客户端及格式转换服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和***
CN103177043A (zh) * 2011-12-26 2013-06-26 联想(北京)有限公司 一种跨***平台传输文件的方法及电子***
CN104346322A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN107766385A (zh) * 2016-08-22 2018-03-06 阿里巴巴集团控股有限公司 一种转换虚拟磁盘文件格式的方法与设备
CN108664523A (zh) * 2017-03-31 2018-10-16 华为技术有限公司 一种虚拟磁盘文件格式转换方法和装置
CN111475477A (zh) * 2019-01-23 2020-07-31 北京二六三企业通信有限公司 文件格式的转换方法、客户端及格式转换服务器
CN110750961A (zh) * 2019-09-12 2020-02-04 北京真视通科技股份有限公司 一种文件格式转换方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
武新华: "(《工具技巧大曝光》", 30 September 2003, 呼和浩特:内蒙古大学出版社, pages: 107 *
武新华等: "《加密解密全攻略》", 31 May 2008, 北京:中国铁道出版社, pages: 145 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113660156A (zh) * 2021-08-09 2021-11-16 覃飞 一种传输文件的处理方法、装置、电子设备及存储介质
CN113660156B (zh) * 2021-08-09 2022-10-21 覃飞 一种传输文件的处理方法、装置、电子设备及存储介质
CN114004195A (zh) * 2021-11-01 2022-02-01 盐城金堤科技有限公司 Pdf文件的生成方法、装置、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN109361711B (zh) 防火墙配置方法、装置、电子设备及计算机可读介质
US8332655B2 (en) Method for order invariant correlated encrypting of data and SQL queries for maintaining data privacy and securely resolving customer defects
CN112612750A (zh) 文件内容处理方法、装置、电子设备及可读存储介质
CN110019067B (zh) 一种日志分析方法及***
CN108040045B (zh) 访问流量文件的生成方法、装置、服务器及存储介质
CN110705235A (zh) 业务办理的信息录入方法、装置、存储介质及电子设备
US20130024765A1 (en) Processing rich text data for storing as legacy data records in a data storage system
CN113268453A (zh) 日志信息压缩存储方法及装置
CN111708680A (zh) 报错信息解析方法、装置、电子设备及存储介质
US20200133583A1 (en) Method, apparatus and computer program product for storing data
CN111046393A (zh) 漏洞信息上传方法、装置、终端设备及存储介质
CN114547040A (zh) 数据处理方法、装置、设备及介质
CN112527650B (zh) 一种测试用例复用方法和复用装置
CN112748930B (zh) 编译检测方法、装置、设备及存储介质
US20170372079A1 (en) Selective data encryption
CN110187385B (zh) 地震数据获取方法、地震数据处理方法及装置
CN113805937A (zh) 一种文件生成方法、装置、电子设备以及存储介质
CN112800006A (zh) 用于网络设备的日志存储方法及装置
CN113032515A (zh) 基于多数据源生成图表的方法、***、设备及存储介质
CN112463791A (zh) 核电站文档数据获取方法、装置、计算机设备及存储介质
CN116881915B (zh) 文件检测方法、电子设备和存储介质
CN113722642B (zh) 网页页面的转换方法、装置、电子设备以及存储介质
KR101871407B1 (ko) 이동 저장 매체의 사용 이력 식별 장치 및 방법
Metz et al. Analysis of 2006 DFRWS forensic carving challenge
US20230334005A1 (en) Programmable Calculator And Equation Solver

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination