CN114399774A - 文件处理方法、装置和电子设备 - Google Patents
文件处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN114399774A CN114399774A CN202210057731.4A CN202210057731A CN114399774A CN 114399774 A CN114399774 A CN 114399774A CN 202210057731 A CN202210057731 A CN 202210057731A CN 114399774 A CN114399774 A CN 114399774A
- Authority
- CN
- China
- Prior art keywords
- file
- processed
- target
- processing
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000001915 proofreading effect Effects 0.000 claims abstract description 23
- 230000002159 abnormal effect Effects 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims 2
- 238000012790 confirmation Methods 0.000 abstract description 6
- 238000012015 optical character recognition Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000013499 data model Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000004566 building material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文件处理方法、装置和电子设备,获取可编辑的第一待处理文件;确定第一待处理文件的所属类别;从预设规则库中查找与所属类别相匹配的目标规则文件;比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件;对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。该方式可以将第一待处理文件与其对应的目标规则文件进行自动比对,并根据比对结果对该第一待处理文件进行处理,得到第二待处理文件;再通过对第二待处理文件进行校对处理,就可以得到对应的结构化文件,该方式可以降低对人工校核确认的依赖度,提升了结构化文件的生成效率。
Description
技术领域
本发明涉及文件处理的技术领域,尤其是涉及一种文件处理方法、装置和电子设备。
背景技术
标准文本的结构化加工目前主要的技术是通过对扫描文件行进行OCR(OpticalCharacter Recognition,光学字符识别)识别,然后通过人工的审核校对完成结构化信息的提取。具体的,OCR识别工具识别扫描文件,形成电子文档;由于文件上的污渍等以及OCR识别正确率的影响,需要对电子文档进行人工校核,订正其中的识别错误;经过人工校核的电子文档数据,可以通过工具(自动化)或手工或二者皆有的方式,把文档数据按照指定要求的方式或格式,做成结构化数据的XML(Extensible Markup Language,可扩展标记语言)文件,完成反向结构化加工。这种人工审核校对的方式,降低了结构化文本的生成效率。
发明内容
本发明的目的在于提供文件处理方法、装置和电子设备,以提升结构化文件的生成效率和正确率。
本发明提供的一种文件处理方法,方法包括:获取可编辑的第一待处理文件;确定第一待处理文件的所属类别;从预设规则库中查找与所属类别相匹配的目标规则文件;比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件;对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。
进一步的,确定第一待处理文件的所属类别的步骤包括:从第一待处理文件中提取第一关键字;根据第一关键字确定第一待处理文件的所属类别。
进一步的,目标规则文件中包括至少一页规则子文件,每页规则子文件中包括多个目标尺寸信息和多个目标关键字;其中,每页规则子文件中的每个目标关键字在规则子文件中的目标位置,与该目标关键字所关联的目标尺寸信息所指示的像素位置相对应。
进一步的,比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件的步骤包括:对第一待处理文件进行逐行扫描检测,以提取第一待处理文件中的多个待处理关键字,以及每个待处理关键字对应的第一位置信息;针对每个目标位置,判断目标规则文件中该目标位置对应的第一目标关键字,与第一待处理文件中,该目标位置对应的第一待处理关键字是否匹配,如果不匹配,确定第一待处理关键字为第一异常信息;或者,针对每个第一位置信息,判断第一待处理文件中该第一位置信息对应的第二待处理关键字,与目标规则文件中,该第一位置信息对应的第二目标关键字是否匹配,如果不匹配,确定第二待处理关键字为第二异常信息;根据目标异常信息,对第一待处理文件进行处理,得到处理后的第二待处理文件;其中,目标异常信息包括:第一异常信息和/或第二异常信息。
进一步的,根据目标异常信息,对第一待处理文件进行处理,得到处理后的第二待处理文件的步骤包括:根据目标异常信息,按预设处理方式对第一待处理文件进行处理,得到第三待处理文件;其中,预设处理方式包括以下至少一种:修改、删除和增加;对第三待处理文件进行分词、解析处理,得到处理后的第二待处理文件。
进一步的,第二待处理文件中包括多个处理后的第二关键字;对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件的步骤包括:根据所属类别,对第二待处理文件增加模型信息,得到增加信息后的第四待处理文件;其中,模型信息包括以下至少一种:每个第二关键字对应的字体、字号和位置标识;将第四待处理文件按预设格式进行转换,得到与第二待处理文件对应的结构化文件。
进一步的,所属类别包括以下之一:国家标准、行业标准、地方标准、团体标准和企业标准。
本发明提供的一种文件处理装置,装置包括:获取模块,用于获取可编辑的第一待处理文件;确定模块,用于确定第一待处理文件的所属类别;查找模块,用于从预设规则库中查找与所属类别相匹配的目标规则文件;比对模块,用于比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件;处理模块,用于对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。
本发明提供的一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的文件处理方法。
本发明提供的一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的文件处理方法。
本发明提供的文件处理方法、装置和电子设备,通过获取可编辑的第一待处理文件;确定第一待处理文件的所属类别;从预设规则库中查找与所属类别相匹配的目标规则文件;比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件;对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。该方式可以将第一待处理文件与其对应的目标规则文件进行自动比对,并根据比对结果对该第一待处理文件进行处理,得到第二待处理文件;再通过对第二待处理文件进行校对处理,就可以得到对应的结构化文件,该方式可以降低对人工校核确认的依赖度,提升了结构化文件的生成效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文件处理方法的流程图;
图2为本发明实施例提供的一种文件处理方法的过程图;
图3为本发明实施例提供的另一种文件处理方法的过程图;
图4为本发明实施例提供的另一种文件处理方法的流程图;
图5为本发明实施例提供的一种国家标准封面格式示意图;
图6为本发明实施例提供的另一种文件处理方法的流程图;
图7为本发明实施例提供的一种文件处理装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,标准文本的结构化加工是通过扫描仪等,把纸质的标准文本,转为PDF(Portable Document Format,便携式文档格式)文件,通过市面上的OCR识别工具,可以把这类PDF文件转换为可以编辑选择文件中文本的PDF文件,形成电子文档,对电子文档进行人工审核校对,通过工具(自动化)或手工或二者皆有的方式,把人工审核校对后的文件按照指定要求的方式或格式,做成结构化数据的XML文件,完成反向结构化加工。由于标准文件包含较多的行业相关的中英文缩写,非中文字符表示的单位等,给分词以及后续相关的分析带来很大的难度。因此针对标准类特殊文本,通过OCR识别和人工审核校对的方式,显然降低了结构化文本的生成效率和准确率。基于此,本发明实施例提供了一种文件处理方法、装置和电子设备,该技术可以应用于需要对文件进行处理的应用中。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种文件处理方法进行详细介绍;如图1所示,该方法包括如下步骤:
步骤S102,获取可编辑的第一待处理文件。
上述可编辑的第一待处理文件可以是Word文件、Excle文件、PowerPoint文件和PDF文件中的一种。
步骤S104,确定第一待处理文件的所属类别。
上述第一待处理文件是标准文本,有多种类别,对于不同类别的标准,有不同的格式要求、内容要求,所以在实际实现时,要先确定第一待处理文件的所属类别,比如,该所属类别可以是国家标准、行业标准、地方标准、团体标准或企业标准等。
步骤S106,从预设规则库中查找与所属类别相匹配的目标规则文件。
上述预设规则库可以是以标准化工作导则第1部分标准的结构和编写要求为准,针对各个要素在文档中的页码和位置、含义、要求、文字等,建立起来的包含文字点阵信息的规则库。其中页码和位置可以包括封面、目录页、附录页,页眉、标题、正文、页脚等、含义可以包括标准名称、标准编号、章节号、章节标题、日期等、要求可以包括尺寸、字体要求等、文字可以包括首页的ICS(International Classification for Standards,国际标准分类法)、GB(Guo Biao,国家标准)、标准等。预设规则库中有各种标准文本类别要求的格式、内容对应的目标规则文件。
步骤S108,比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件。
上述目标规则文件是根据规则库中标准格式规则生成的,根据标准格式类别的不同,可以生成多个目标规则文件。
步骤S110,对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。
参见图2所示的一种文件处理方法的过程图,该过程图为目前常见的标准文本的结构化加工方法,图2中,通过扫描仪对纸介质进行扫描,得到扫描文件;对扫描文件行进行OCR识别,生成电子文档;由于初始PDF文件(对应上述扫描文件)上的污渍等以及OCR识别正确率的影响,需要对生成电子文档进行人工校核,订正其中的识别错误等;经过人工校核的电子文档数据,可以按照指定要求的方式或格式,做成结构化数据的XML文件,完成反向结构化加工,通过OCR识别和人工审核校对的方式,效率和准确率较低。
参见图3所示的另一种文件处理方法的过程图,该过程图为本方案所采用的文件处理方式,图3中,通过扫描仪,把纸质的标准文本也就是纸介质,转为初始PDF文件,扫描得到的初始PDF文件或图片类的初始PDF文件,是不可编辑的,通过市面上的OCR识别工具,可以把这类PDF文件转换为可以编辑选择文件中文本的PDF文件,对该PDF文件进行文字的选择、拷贝等,通过粘贴到其他Word、Excle或PowerPoint等文件中,形成电子文档(相当于上述的第一待处理文件);确定电子文档的所属类别后,进行基于点阵分析的降噪处理,该过程包括从预设规则库中直接查找与所属类别相匹配的目标规则文件;根据电子文档的标准格式类别在规则库中找到对应的目标规则文件,通过算法库将电子文档与目标规则文件进行比对,对不一致或有疑问的地方进行标识,处理标识,得到第二待处理文件;降噪处理后通过模型校对对第二待处理文件进行校对处理,得到对应的XML形式的结构化文件。
上述文件处理方法,通过获取可编辑的第一待处理文件;确定第一待处理文件的所属类别;从预设规则库中查找与所属类别相匹配的目标规则文件;比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件;对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。该方式可以将第一待处理文件与其对应的目标规则文件进行自动比对,并根据比对结果对该第一待处理文件进行处理,得到第二待处理文件;再通过对第二待处理文件进行校对处理,就可以得到对应的结构化文件,该方式可以降低对人工校核确认的依赖度,提升了结构化文件的生成效率。
本发明实施例还提供了另一种文件处理方法,该方法在上述实施例方法的基础上实现;如图4所示,该方法包括如下步骤:
步骤S202,获取可编辑的第一待处理文件。
步骤S204,从第一待处理文件中提取第一关键字。
上述第一待处理文件是标准文本,有多种类别,不同类别的标准文本有不同的类别标识;上述第一关键字代表类别标识,一般位于标准文本的首页,也就是封面位置,在实际实现时,提取第一待处理文件封面中的第一关键字,获得类别标识。
步骤S206,根据第一关键字确定第一待处理文件的所属类别。
比如,如果第一关键字为GB,可以认为该第一待处理文件的所属类别为国家标准,如果第一关键字为DB,可以认为该第一待处理文件的所属类别为地方标准等。
步骤S208,从预设规则库中查找与所属类别相匹配的目标规则文件。
上述目标规则文件中包括至少一页规则子文件,每页规则子文件中包括多个目标尺寸信息和多个目标关键字;其中,每页规则子文件中的每个目标关键字在规则子文件中的目标位置,与该目标关键字所关联的目标尺寸信息所指示的像素位置相对应。
上述规则子文件可以为封面,图5是国家标准封面格式,包括以毫米为单位的长宽尺寸信息以及GB、标准名称、发布日期、实施日期等结构化要素(对应上述目标关键字)。在实际实现时,建立基于像素点阵与格式尺寸的对应关系,以及要求的文字信息及顺序关系,根据要求的尺寸信息,在特定的分辨率下,得到对应的像素位置,同时记录下这个位置对应的特定文字(相当于上述目标关键字)信息;如图5所示,各个结构化要素在封面的不同位置,有明确的含义内容,如文件名称在封面的第二行写,用一号黑体;在文件名称下,写英文译名,用四号黑体。
步骤S210,对第一待处理文件进行逐行扫描检测,以提取第一待处理文件中的多个待处理关键字,以及每个待处理关键字对应的第一位置信息。
在实际实现时,对于获取的需要解析确认的电子文件(相当于上述第一待处理文件),通过对该文件进行逐行扫描和检测,可以获取电子文件中多个第一待处理关键字对应的第一位置信息,根据对不同位置信息的分析,可以很准确地知道各个位置对应的待处理关键字的结构化要素类别,然后结合标准的点阵信息规则库,进行对照分析。
步骤S212,针对每个目标位置,判断目标规则文件中该目标位置对应的第一目标关键字,与第一待处理文件中,该目标位置对应的第一待处理关键字是否匹配,如果不匹配,确定第一待处理关键字为第一异常信息。
或者,针对每个第一位置信息,判断第一待处理文件中该第一位置信息对应的第二待处理关键字,与目标规则文件中,该第一位置信息对应的第二目标关键字是否匹配,如果不匹配,确定第二待处理关键字为第二异常信息。
对照分析时,可以先确定目标位置,判断目标规则文件中该目标位置对应的第一目标关键字,假设第一目标关键字是GB,判断GB与从第一待处理文件中该目标位置提取的第一待处理关键字是否一致,如果不一致,确定第一待处理关键字为第一异常信息,对第一待处理关键字和/或第二待处理关键字进行颜色标识。
对照分析时,还可以先确定第一位置信息,判断第一待处理文件中该第一位置信息对应的第二待处理关键字,假设第二待处理关键字是日期,判断日期与目标规则文件中该第一位置信息对应的第二目标关键字格式要求是否匹配,如果不匹配,确定第二待处理关键字为第二异常信息。对第二待处理关键字进行颜色标识。
步骤S214,根据目标异常信息,对第一待处理文件进行处理,得到处理后的第二待处理文件;其中,目标异常信息包括:第一异常信息和/或第二异常信息。
上述比对得到的颜色标识,大部分是已经结合规则库直接将错误的地方修改好了,只需要简单确认一下就好,但是有一部分结合规则库后存在疑问,无法直接判断是否错误,仍然需要人工介入,重点去确认。
经过步骤S212,有规则要求的文本信息(对应上述第一待处理文件)已经包含了校验异常提醒,之前完全需要校对人员靠视觉确认文本信息,这时,校对人员只要对提醒的信息进行确认处理就可以,大大提升了校对的效率。
该步骤S214具体可以通过下述步骤A至步骤B得到:
步骤A,根据目标异常信息,按预设处理方式对第一待处理文件进行处理,得到第三待处理文件;其中,预设处理方式包括以下至少一种:修改、删除和增加。
在实际实现时,假如目标规则文件对应是GB的地方,发现第一待处理文件对应提取的文字不一致,则修改不一致的文字使得与GB相同;目标规则文件对应是日期的地方,发现第一待处理文件对应提取的文字中包含字母,则删除字母,使得与日期格式要求一致;目标规则文件对应是标准名称的地方,发现第一待处理文件对应提取的文字中缺少了相应的字,则增加对应的字,使得与标准名称一致,通过对第一待处理文件进行相应的处理,得到第三待处理文件。
步骤B,对第三待处理文件进行分词、解析处理,得到处理后的第二待处理文件。
在实际实现时,上述对第三待处理文件进行分词、解析处理,类似于OCR识别的方式,通过和规则库的匹配识别出文字的含义,比如,对应的内容哪些是:标准名称、标准编号、标准的发表日期等,提取相应的信息,最终生成带有标签标识的结构化数据模型(对应上述第二待处理文件)。例如:一条结构化的数据,会包含:某章某条某节某段,类型,内容,其中类型可以包括文字、表格、图像、公式、术语。
步骤S216,对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。
上述文件处理方法,通过获取可编辑的第一待处理文件;从第一待处理文件中提取第一关键字;根据第一关键字确定第一待处理文件的所属类别;从预设规则库中查找与所属类别相匹配的目标规则文件;比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行修改、删除和增加处理,得到处理后的第三待处理文件;对第三待处理文件进行分词、解析处理,得到第二待处理文件,对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。该方式可以检测出与规则违背的条目信息,并更为准确的实现文本的分词及解析,从而达到对模型降噪、提升结构化信息提取的效率和准确率,生成经过降噪处理分析后的结构化数据模型。
本发明实施例还提供了另一种文件处理方法,该方法在上述实施例一方法的基础上实现;该方法中,第二待处理文件中包括多个处理后的第二关键字;如图6所示,该方法包括如下步骤:
步骤S302,获取可编辑的第一待处理文件。
步骤S304,确定第一待处理文件的所属类别。
所属类别包括以下之一:国家标准、行业标准、地方标准、团体标准和企业标准,在实际实现时,所属类别还可以包括类似有格式或样式要求的文件类别。
按照标准的适用范围,我国的标准分为国家标准(GB)、行业标准、地方标准、团体标准和企业标准五个级别。国家标准在全国范围内适用,其他各级别标准不得与国家标准相抵触;行业标准在全国某个行业范围内适用,如化工行业标准(代号为HG)、石油化工行业标准(代号为SH)、建材行业标准(代号为JC),行业标准在全国某个行业范围内适用;地方标准是指在某个省、自治区、直辖市范围内需要统一的标准,地方标准编号由地方标准代号、标准顺序号和发布年号组成,地方标准代号由汉语拼音字母“DB”加上省、自治区、直辖市行政区划代码前两位数字再加斜线,组成强制性地方标准代号;国家支持在重要行业、战略性新兴产业、关键共性技术等领域利用自主创新技术制定团体标准、企业标准,团体标准由社会团体制定,团体标准编号依次由团体标准代号(T)、社会团体代号、团体标准顺序号和年代号组成;企业标准由企业制定,在该企业内部适用。
步骤S306,从预设规则库中查找与所属类别相匹配的目标规则文件。
步骤S308,比对第一待处理文件与所述目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件。
步骤S310,根据所属类别,对第二待处理文件增加模型信息,得到增加信息后的第四待处理文件;其中,模型信息包括以下至少一种:每个第二关键字对应的字体、字号和位置标识。
通过确认第一待处理文件的所属类别为国家标准、行业标准、地方标准还是企业标准,自动对第二待处理文件增加模型信息,如字体、字号、位置标识、标准或术语等的关联信息以及其他一些需要记录的信息,得到第四待处理文件。
步骤S312,将第四待处理文件按预设格式进行转换,得到与第二待处理文件对应的结构化文件。
增加模型信息后的文档数据(对应第四待处理文件),可以通过工具(自动化)或手工或二者皆有的方式,把文档数据按照指定要求的方式或格式,做成结构化数据的XML文件,完成反向结构化加工。
上述文件处理方法,通过获取可编辑的第一待处理文件;确定第一待处理文件的所属类别;从预设规则库中查找与所属类别相匹配的目标规则文件;比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件;根据所属类别,对第二待处理文件增加模型信息,得到增加信息后的第四待处理文件;将第四待处理文件按预设格式进行转换,得到与第二待处理文件对应的结构化文件。这种方式结合标准的规则库,可以自动比对,降低对人工校核确认的依赖度,极大地提高了标准类文本的结构化信息提取效率和精度,将原先80%左右的识别正确率,尤其是和规则相关部分的提升到了98%以上。
本发明实施例还提供了一种文件处理装置,如图7所示,该装置包括:获取模块70,用于获取可编辑的第一待处理文件;确定模块71,用于确定第一待处理文件的所属类别;查找模块72,用于从预设规则库中查找与所属类别相匹配的目标规则文件;比对模块73,用于比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件;处理模块74,用于对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。
上述文件处理装置,通过获取可编辑的第一待处理文件;确定第一待处理文件的所属类别;从预设规则库中查找与所属类别相匹配的目标规则文件;比对第一待处理文件与目标规则文件,得到比对结果,根据比对结果对第一待处理文件进行处理,得到处理后的第二待处理文件;对第二待处理文件进行校对处理,得到与第二待处理文件对应的结构化文件。该装置可以将第一待处理文件与其对应的目标规则文件进行自动比对,并根据比对结果对该第一待处理文件进行处理,得到第二待处理文件;再通过对第二待处理文件进行校对处理,就可以得到对应的结构化文件,该装置可以降低对人工校核确认的依赖度,提升了结构化文件的生成效率。
进一步的,确定模块还用于:从第一待处理文件中提取第一关键字;根据第一关键字确定第一待处理文件的所属类别。
进一步的,查找模块还用于:目标规则文件中包括至少一页规则子文件,每页规则子文件中包括多个目标尺寸信息和多个目标关键字;其中,每页规则子文件中的每个目标关键字在规则子文件中的目标位置,与该目标关键字所关联的目标尺寸信息所指示的像素位置相对应。
进一步的,比对模块还用于:对第一待处理文件进行逐行扫描检测,以提取第一待处理文件中的多个待处理关键字,以及每个待处理关键字对应的第一位置信息;针对每个目标位置,判断目标规则文件中该目标位置对应的第一目标关键字,与第一待处理文件中,该目标位置对应的第一待处理关键字是否匹配,如果不匹配,确定第一待处理关键字为第一异常信息;或者,针对每个第一位置信息,判断第一待处理文件中该第一位置信息对应的第二待处理关键字,与目标规则文件中,该第一位置信息对应的第二目标关键字是否匹配,如果不匹配,确定第二待处理关键字为第二异常信息;根据目标异常信息,对第一待处理文件进行处理,得到处理后的第二待处理文件;其中,目标异常信息包括:第一异常信息和/或第二异常信息。
进一步的,比对模块还用于:根据目标异常信息,按预设处理方式对第一待处理文件进行处理,得到第三待处理文件;其中,预设处理方式包括以下至少一种:修改、删除和增加;对第三待处理文件进行分词、解析处理,得到处理后的第二待处理文件。
进一步的,处理模块还用于:第二待处理文件中包括多个处理后的第二关键字;根据所属类别,对第二待处理文件增加模型信息,得到增加信息后的第四待处理文件;其中,模型信息包括以下至少一种:每个第二关键字对应的字体、字号和位置标识;将第四待处理文件按预设格式进行转换,得到与第二待处理文件对应的结构化文件。
进一步的,所属类别包括以下之一:国家标准、行业标准、地方标准、团体标准和企业标准。
本发明实施例所提供的文件处理装置,其实现原理及产生的技术效果和前述文件处理方法实施例相同,文件处理装置实施例部分,可参考前述文件处理方法实施例中相应内容。
本发明实施例还提供了一种电子设备,参见图8所示,该电子设备包括处理器130和存储器131,该存储器131存储有能够被处理器130执行的机器可执行指令,该处理器130执行机器可执行指令以实现上述文件处理方法。
进一步地,图8所示的电子设备还包括总线132和通信接口133,处理器130、通信接口133和存储器131通过总线132连接。
其中,存储器131可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器130可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131,处理器130读取存储器131中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述文件处理方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的文件处理方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种文件处理方法,其特征在于,所述方法包括:
获取可编辑的第一待处理文件;
确定所述第一待处理文件的所属类别;
从预设规则库中查找与所述所属类别相匹配的目标规则文件;
比对所述第一待处理文件与所述目标规则文件,得到比对结果,根据所述比对结果对所述第一待处理文件进行处理,得到处理后的第二待处理文件;
对所述第二待处理文件进行校对处理,得到与所述第二待处理文件对应的结构化文件。
2.根据权利要求1所述的方法,其特征在于,确定所述第一待处理文件的所属类别的步骤包括:
从所述第一待处理文件中提取第一关键字;
根据所述第一关键字确定所述第一待处理文件的所属类别。
3.根据权利要求1所述的方法,其特征在于,所述目标规则文件中包括至少一页规则子文件,每页所述规则子文件中包括多个目标尺寸信息和多个目标关键字;
其中,每页所述规则子文件中的每个所述目标关键字在所述规则子文件中的目标位置,与该目标关键字所关联的目标尺寸信息所指示的像素位置相对应。
4.根据权利要求3所述的方法,其特征在于,比对所述第一待处理文件与所述目标规则文件,得到比对结果,根据所述比对结果对所述第一待处理文件进行处理,得到处理后的第二待处理文件的步骤包括:
对所述第一待处理文件进行逐行扫描检测,以提取所述第一待处理文件中的多个待处理关键字,以及每个所述待处理关键字对应的第一位置信息;
针对每个目标位置,判断所述目标规则文件中该目标位置对应的第一目标关键字,与所述第一待处理文件中,该目标位置对应的第一待处理关键字是否匹配,如果不匹配,确定所述第一待处理关键字为第一异常信息;
或者,针对每个第一位置信息,判断所述第一待处理文件中该第一位置信息对应的第二待处理关键字,与所述目标规则文件中,该第一位置信息对应的第二目标关键字是否匹配,如果不匹配,确定所述第二待处理关键字为第二异常信息;
根据目标异常信息,对所述第一待处理文件进行处理,得到处理后的所述第二待处理文件;其中,所述目标异常信息包括:所述第一异常信息和/或所述第二异常信息。
5.根据权利要求4所述的方法,其特征在于,根据目标异常信息,对所述第一待处理文件进行处理,得到处理后的所述第二待处理文件的步骤包括:
根据所述目标异常信息,按预设处理方式对所述第一待处理文件进行处理,得到第三待处理文件;其中,所述预设处理方式包括以下至少一种:修改、删除和增加;
对所述第三待处理文件进行分词、解析处理,得到处理后的所述第二待处理文件。
6.根据权利要求1所述的方法,其特征在于,所述第二待处理文件中包括多个处理后的第二关键字;
对所述第二待处理文件进行校对处理,得到与所述第二待处理文件对应的结构化文件的步骤包括:
根据所述所属类别,对所述第二待处理文件增加模型信息,得到增加信息后的第四待处理文件;其中,所述模型信息包括以下至少一种:每个所述第二关键字对应的字体、字号和位置标识;
将所述第四待处理文件按预设格式进行转换,得到与所述第二待处理文件对应的结构化文件。
7.根据权利要求1所述的方法,其特征在于,所述所属类别包括以下之一:国家标准、行业标准、地方标准、团体标准和企业标准。
8.一种文件处理装置,其特征在于,所述装置包括:
获取模块,用于获取可编辑的第一待处理文件;
确定模块,用于确定所述第一待处理文件的所属类别;
查找模块,用于从预设规则库中查找与所述所属类别相匹配的目标规则文件;
比对模块,用于比对所述第一待处理文件与所述目标规则文件,得到比对结果,根据所述比对结果对所述第一待处理文件进行处理,得到处理后的第二待处理文件;
处理模块,用于对所述第二待处理文件进行校对处理,得到与所述第二待处理文件对应的结构化文件。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210057731.4A CN114399774A (zh) | 2022-01-19 | 2022-01-19 | 文件处理方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210057731.4A CN114399774A (zh) | 2022-01-19 | 2022-01-19 | 文件处理方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114399774A true CN114399774A (zh) | 2022-04-26 |
Family
ID=81231591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210057731.4A Pending CN114399774A (zh) | 2022-01-19 | 2022-01-19 | 文件处理方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114399774A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040034620A1 (en) * | 2002-07-31 | 2004-02-19 | International Business Machines Corporation | Interface apparatus for structured documents |
CN101794278A (zh) * | 2009-09-21 | 2010-08-04 | 广东省标准化研究院 | 一种标准文献全文数字化方法及软件 |
JP2010287154A (ja) * | 2009-06-15 | 2010-12-24 | Toshiba Corp | 文書校正プログラムおよび文書校正装置 |
CN103218351A (zh) * | 2013-03-15 | 2013-07-24 | 杭州中元数据科技有限公司 | 现代地方文献电子图书制作方法 |
CN104199975A (zh) * | 2014-09-23 | 2014-12-10 | 中国南方电网有限责任公司 | 一种基于可配置的word文档结构化提取方法 |
CN109446345A (zh) * | 2018-09-26 | 2019-03-08 | 深圳中广核工程设计有限公司 | 核电文件校验处理方法以及*** |
CN109636303A (zh) * | 2018-10-27 | 2019-04-16 | 华中科技大学 | 一种半自动提取和结构化文档信息的存储方法及*** |
US20200012709A1 (en) * | 2018-07-06 | 2020-01-09 | SmartLink Lab LLC | Automatic document generation systems and methods |
CN111159982A (zh) * | 2019-12-24 | 2020-05-15 | 中信银行股份有限公司 | 文档编辑方法、装置、电子设备及计算机可读存储介质 |
CN113326797A (zh) * | 2021-06-17 | 2021-08-31 | 上海电气集团股份有限公司 | 一种pdf文档提取的表格信息转换为结构化知识的方法 |
US20210357633A1 (en) * | 2020-05-13 | 2021-11-18 | Accenture Global Solutions Limited | Document processing using hybrid rule-based artificial intelligence (ai) mechanisms |
CN113918721A (zh) * | 2021-11-12 | 2022-01-11 | 润申标准化技术服务(上海)有限公司 | 用于标准管理的数据处理方法、装置及电子设备 |
-
2022
- 2022-01-19 CN CN202210057731.4A patent/CN114399774A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040034620A1 (en) * | 2002-07-31 | 2004-02-19 | International Business Machines Corporation | Interface apparatus for structured documents |
JP2010287154A (ja) * | 2009-06-15 | 2010-12-24 | Toshiba Corp | 文書校正プログラムおよび文書校正装置 |
CN101794278A (zh) * | 2009-09-21 | 2010-08-04 | 广东省标准化研究院 | 一种标准文献全文数字化方法及软件 |
CN103218351A (zh) * | 2013-03-15 | 2013-07-24 | 杭州中元数据科技有限公司 | 现代地方文献电子图书制作方法 |
CN104199975A (zh) * | 2014-09-23 | 2014-12-10 | 中国南方电网有限责任公司 | 一种基于可配置的word文档结构化提取方法 |
US20200012709A1 (en) * | 2018-07-06 | 2020-01-09 | SmartLink Lab LLC | Automatic document generation systems and methods |
CN109446345A (zh) * | 2018-09-26 | 2019-03-08 | 深圳中广核工程设计有限公司 | 核电文件校验处理方法以及*** |
CN109636303A (zh) * | 2018-10-27 | 2019-04-16 | 华中科技大学 | 一种半自动提取和结构化文档信息的存储方法及*** |
CN111159982A (zh) * | 2019-12-24 | 2020-05-15 | 中信银行股份有限公司 | 文档编辑方法、装置、电子设备及计算机可读存储介质 |
US20210357633A1 (en) * | 2020-05-13 | 2021-11-18 | Accenture Global Solutions Limited | Document processing using hybrid rule-based artificial intelligence (ai) mechanisms |
CN113326797A (zh) * | 2021-06-17 | 2021-08-31 | 上海电气集团股份有限公司 | 一种pdf文档提取的表格信息转换为结构化知识的方法 |
CN113918721A (zh) * | 2021-11-12 | 2022-01-11 | 润申标准化技术服务(上海)有限公司 | 用于标准管理的数据处理方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
侯修洲;黄延红;: "基于VBA的Word文档XML结构化标记方法", 编辑学报, no. 05, 25 October 2017 (2017-10-25) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108614898B (zh) | 文档解析方法与装置 | |
US7106905B2 (en) | Systems and methods for processing text-based electronic documents | |
US5164899A (en) | Method and apparatus for computer understanding and manipulation of minimally formatted text documents | |
US8233714B2 (en) | Method and system for creating flexible structure descriptions | |
CN110751143A (zh) | 一种电子***信息的提取方法及电子设备 | |
JP2009522675A (ja) | 遠隔に記憶されたテンプレートを使用する自動化された処理(書式を処理する方法、該書式を処理する装置) | |
CN111582169A (zh) | 图像识别数据纠错方法、装置、计算机设备和存储介质 | |
US20120039536A1 (en) | Optical character recognition with two-pass zoning | |
Carrasco | An open-source OCR evaluation tool | |
CN112084748A (zh) | 一种文本比对方法 | |
JP3485020B2 (ja) | 文字認識方法及び装置ならびに記憶媒体 | |
CN104462068A (zh) | 字符转换***和字符转换方法 | |
CN114238575A (zh) | 文档解析方法、***、计算机设备及计算机可读存储介质 | |
CN112784220B (zh) | 一种纸质合同防篡改校验方法及*** | |
CN113962201A (zh) | 一种单证的文本结构化与抽取方法 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN112965772A (zh) | web页面显示方法、装置和电子设备 | |
CN114399774A (zh) | 文件处理方法、装置和电子设备 | |
Saitoh et al. | Document image segmentation and layout analysis | |
CN113779218B (zh) | 问答对构建方法、装置、计算机设备和存储介质 | |
CN112925874B (zh) | 基于案例标记的相似代码搜索方法及*** | |
CN109739981B (zh) | 一种pdf文件类别判定方法及文字提取方法 | |
CN112668581A (zh) | 一种文书标题识别方法和装置 | |
CN117493712B (zh) | Pdf文档可导航目录提取方法、装置、电子设备及存储介质 | |
CN112183458B (zh) | 一种基于人工智能技术的电子单证的数据处理*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |