CN112115111A - 一种基于ocr的文档版本管理方法和*** - Google Patents
一种基于ocr的文档版本管理方法和*** Download PDFInfo
- Publication number
- CN112115111A CN112115111A CN201910536932.0A CN201910536932A CN112115111A CN 112115111 A CN112115111 A CN 112115111A CN 201910536932 A CN201910536932 A CN 201910536932A CN 112115111 A CN112115111 A CN 112115111A
- Authority
- CN
- China
- Prior art keywords
- document
- plain text
- ocr
- text
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 37
- 230000009467 reduction Effects 0.000 claims abstract description 20
- 238000012805 post-processing Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 12
- 240000004282 Grewia occidentalis Species 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000003287 optical effect Effects 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1873—Versioning file systems, temporal file systems, e.g. file system supporting different historic versions of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种基于OCR的文档版本管理方法和***,涉及光学文本识别与自然语言处理领域,所述方法包括步骤1:对图片类文档进行OCR文字识别后得到纯文本文档;步骤2:对纯文本文档进行文本结构还原;步骤3:对文本结构还原后的纯文本文档进行对比,得到文档对比结果;步骤4:对文档对比结果进行结果后处理,并进行文档对比结果展示。本发明解决了现有文档版本管理***只能基于纯文本文档进行对比,无法对比图片类文档问题;并且解决了现有的文档版本管理***在复杂结构文本文档进行对比时,统一视为纯文本文档进行对比,在一定程度上导致文本对比精度下降,并且存在展示困难的问题。
Description
技术领域
本发明涉及光学文本识别与自然语言处理领域,尤其涉及一种基于OCR的文档版本管理方法和***。
背景技术
文档版本管理是基于计算机视觉(简称CV:Computer Vision)在光学识别(简称OCR:Optical Character Recognition)与自然语言处理(简称NLP:Natural LanguageProcessing)中的应用,主要的应用场景包括合同管理、计算机程序代码管理、工程计划或项目需求的变更等。
文档版本管理的核心功能是对不同版本的文档内容进行对比,根据不同的应用场景,文档的对比过程也有所不同。根据文档对比颗粒度区分:基于字符、词语、行,三个级别在文档对比上有着不同的应用及其实现。对于计算机程序代码管理的应用中,只需要逐行对计算机代码的内容进行对比;对于合同管理的应用中,只需逐个词语对合同的内容进行对比;对于包含表格等带有自身结构的文档则需要在结构化的文档基础上进行对比。根据文档的载体可以将文档分为word和txt等纯文本文档、PDF扫描件和照片等图片类文档;其中,对于图片类文档,则需要经过OCR进行文字识别并还原文档结构后才能进行文本对比。
但是现有的文档版本管理***存在以下缺陷:
(1)现有的文档版本管理***是基于纯文本的(可编辑)文档进行对比的,无法处理图片类文档。
(2)现有的文档版本管理***对于复杂结构文本文档(例如表格、图示等拥有自身结构的文档),处理方法是无视文档自身结构,统一视为纯文本文档进行对比处理,在一定程度上导致了结构文本文档对比精度下降,并且存在展示困难等缺陷。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于OCR的文档版本管理方法和***,解决现有文档版本管理***只能基于纯文本文档进行对比,无法对比图片类文档问题;并且解决了现有的文档版本管理***在复杂结构文本文档进行对比时,统一视为纯文本文档进行对比,在一定程度上导致文档对比精度下降,并且存在展示困难的问题。
本发明提供一种基于OCR的文档版本管理方法,所述方法包括以下步骤:
步骤1:对图片类文档进行OCR文字识别后得到纯文本文档;
步骤2:对纯文本文档进行文本结构还原;
步骤3:对文本结构还原后的纯文本文档进行对比,得到文档对比结果;
步骤4:对文档对比结果进行结果后处理,并进行文档对比结果展示。
进一步的,OCR文字识别的步骤为:
步骤1.1:对图片类文档进行图像角度校正和图像降噪处理,并将图片类文档调整为单通道的图像数据;
步骤1.2:加载OCR文字识别模型,并将单通道的图像数据输入OCR文字识别模型进行目标检测,获取表格坐标后按照表格坐标将图片类文档分割为多个小图片;
步骤1.3:加载OCR文字识别模型,并将小图片输入OCR文字识别模型进行文字识别,得到文字识别数据;
步骤1.4:对文字识别数据进行过滤、排序以及合并处理后得到纯文本文档。
进一步的,文本结构还原包括自由文本结构还原和表格检测。
进一步的,自由文本结构还原的步骤为:
步骤2.1:根据纯文本文档的行间距、行首、行尾的特征判断纯文本文档的段落启始和结束位置,并在段落间***换行符标记;
步骤2.2:检测并判断纯文本文档中是否存在目录,若存在,则转到步骤2.3,若不存在,则转到步骤2.4;
步骤2.3:识别目录内容,根据目录定位章节位置,根据章节位置还原图片类文档章节结构;
步骤2.4:根据纯文本文档的标题、行间距的特征定位章节位置,根据章节位置还原图片类文档章节结构。
进一步的,表格检测的步骤为:
步骤3.1:检测并定位纯文本文档中横线和竖线的交点,并按照直角坐标系的x轴和y轴对交点进行优先级排序;
步骤3.2:遍历所有横线和竖线的交点,取当前交点作为候选单元格的左侧交点;
步骤3.3:根据左侧交点所在横线,判断横线右侧是否存在交点,若不存在,则转到步骤3.2;
步骤3.4:根据右侧交点所在竖线,判断竖线下方是否存在交点,若不存在,则转到步骤3.2;
步骤3.5:根据下方交点所在横线,判断横线左侧是否存在交点,若不存在,则转到步骤3.2;
步骤3.6:判断左上和左下交点是否在一条竖线上,若是,则候选单元格成立,若否,则候选单元格不成立,并转到步骤3.2。
进一步的,对文本结构还原后的纯文本文档进行对比的步骤为:
步骤4.1:判断图片类文档和纯文本文档是否存为空文本,若存在,则提示异常并结束对比;
步骤4.2:判断图片类文档和纯文本文档是否相等,若相等,则将纯文本文档状态进行定义并结束对比;
步骤4.3:查找图片类文档和纯文本文档的最长相同前缀和最长相同后缀,并将最长相同前缀和最长相同后缀状态进行定义;
步骤4.4:除去图片类文档和纯文本文档的最长相同前缀和最长相同后缀,并查找最大相同子集;
步骤4.5:以最大相同子集为分界线将图片类文档和纯文本文档切分为图片类文档和纯文本文档的前缀、子集、后缀,将图片类文档和纯文本文档的前缀作为输入,重复步骤4.1-步骤4.5,再将图片类文档和纯文本文档的后缀作为输入,重复步骤4.1-步骤4.5;
步骤4.6:若任意一个输入长度小于等于1,则对比结束。
进一步的,结果后处理是对文档对比结果进行四角编码校正、映射表验证以及特殊符号验证处理。
一种基于OCR的文档版本管理***,包括OCR文本识别模块、文本结构还原模块、对比处理模块、结果后处理模块以及结果展示模块;
OCR文本识别模块:对图片类文档进行OCR文字识别后得到纯文本文档;
文本结构还原模块:对纯文本文档进行结构还原,还原图片类文档的章节和段落结构,并进行表格检测;
对比模块:对文本结构还原后的纯文本文档进行对比,并以数组的形式将图片类文档和纯文本文档的所有差异格式化;
结果后处理模块:对图片类文档和纯文本文档进行四角编码校正、映射表验证以及特殊符号验证处理;
结果展示模块:对图片类文档和纯文本文档的文档对比结果进行页面展示。
如上所述,本发明的一种基于OCR的文档版本管理方法和***,具有以下有益效果:
1、本发明针对当前文档版本管理***无法处理图片类文档的问题,基于OCR文字识别模型,能够对比图片类文档,并且结合大数据的OCR文字识别模型训练,能够高精度的进行OCR文字识别,提供待对比的纯文本文档。
2、本发明通过自由文本结构还原和表格检测,能够还原OCR文字识别的纯文本文档的段落、目录结构,对于复杂结构文本文档进行表格检测,提高文档对比精度。
3、本发明各个功能模块之间协调工作,实现了功能模块间的相互依赖,同时具备独立运行能力的***机制,做到了低耦合,提升了***工作效率。
附图说明
图1显示为本发明实施例中公开的文档版本管理方法的流程图。
图2显示为本发明实施例中公开的OCR文字识别的流程图。
图3显示为本发明实施例中公开的自由文本结构还原的流程图。
图4显示为本发明实施例中公开的表格检测的流程图。
图5显示为本发明实施例中公开的文档对比的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本发明提供一种基于OCR的文档版本管理方法,所述方法包括以下步骤:
步骤1:对图片类文档进行OCR文字识别后得到纯文本文档;
如图2所示,OCR文字识别的步骤为:
步骤1.1:对图片类文档进行图像角度校正和图像降噪处理,并将图片类文档调整为单通道的图像数据;
步骤1.2:加载OCR文字识别模型,并将单通道的图像数据输入OCR文字识别模型进行目标检测,获取表格坐标后按照表格坐标将图片类文档分割为多个小图片;
步骤1.3:加载OCR文字识别模型,并将小图片输入OCR文字识别模型进行文字识别,得到文字识别数据;
步骤1.4:对文字识别数据进行过滤、排序以及合并处理后得到纯文本文档。
其中,OCR文字识别是处理任意格式、任意结构文档的关键,特别是对于照片、扫描件等图片类文档,必须经过OCR文字识别得到纯文本文档,才能进行后续的对比操作。
步骤2:对纯文本文档进行文本结构还原,所述文本结构还原包括自由文本结构还原和表格检测;
如图3所示,自由文本结构还原的步骤为:
步骤2.1:根据纯文本文档的行间距、行首、行尾的特征判断纯文本文档的段落启始和结束位置,并在段落间***换行符标记,实现段落还原;
步骤2.2:检测并判断纯文本文档中是否存在目录,若存在,则转到步骤2.3,若不存在,则转到步骤2.4;
步骤2.3:识别目录内容,根据目录定位章节位置,根据章节位置还原图片类文档章节结构;
步骤2.4:根据纯文本文档的标题、行间距的特征定位章节位置,根据章节位置还原图片类文档章节结构。
对于表格、图示等拥有自身结构的文档,在OCR文字识别之后得到的纯文本文档是没有章节、段落结构的,因此为了得到更精准的对比结果,需要进行自由文本结构还原。
如图4所示,表格检测的步骤为:
步骤3.1:检测并定位纯文本文档中横线和竖线的交点,并按照直角坐标系的x轴和y轴对交点进行优先级排序;
步骤3.2:遍历所有横线和竖线的交点,取当前交点作为候选单元格的左侧交点;
步骤3.3:根据左侧交点所在横线,判断横线右侧是否存在交点,若不存在,则转到步骤3.2;
步骤3.4:根据右侧交点所在竖线,判断竖线下方是否存在交点,若不存在,则转到步骤3.2;
步骤3.5:根据下方交点所在横线,判断横线左侧是否存在交点,若不存在,则转到步骤3.2;
步骤3.6:判断左上和左下交点是否在一条竖线上,若是,则候选单元格成立,若否,则候选单元格不成立,并转到步骤3.2。
其中,表格检测可以作为图片类文档图片倾斜和扭曲的判断依据,另一方面对于信息抽取的OCR图像识别也极为重要,能大大提升识别效率和提取率。
步骤3:对文本结构还原后的纯文本文档进行对比,得到文档对比结果;
如图5所示,对文本结构还原后的纯文本文档进行对比的步骤为:
步骤4.1:判断图片类文档和纯文本文档是否存为空文本,若存在,则提示异常并结束对比;
步骤4.2:判断图片类文档和纯文本文档是否相等,若相等,则将纯文本文档状态定义为“无变化”,并结束对比;
步骤4.3:查找图片类文档和纯文本文档的最长相同前缀和最长相同后缀,并将最长相同前缀和最长相同后缀状态定义为“无变化”;
步骤4.4:除去图片类文档和纯文本文档的最长相同前缀和最长相同后缀,并查找最大相同子集;
步骤4.5:以最大相同子集为分界线将图片类文档和纯文本文档切分为图片类文档和纯文本文档的前缀、子集、后缀,将图片类文档和纯文本文档的前缀作为输入,重复步骤4.1-步骤4.5,再将图片类文档和纯文本文档的后缀作为输入,重复步骤4.1-步骤4.5;
步骤4.6:若任意一个输入长度小于等于1,则对比结束;
步骤4.7:若对比超时,则输出目前为止所有的差异;
步骤4.8:按照顺序整合所有的差异,此时差异结果以“字符”为单位;
步骤4.9:若需要以“行”为单位进行对比,则对“字符”对比结果进行拼接,并以“行”作为分界点,将两个换行符之间的所有差异组合成一段文本,并将该段文本的状态定义为“修改”。
其中,利用对比算法对文本结构还原后的纯文本文档进行对比,并以数组的形式将图片类文档和纯文本文档的所有差异格式化,格式化差异结果中包含了所有的文档的最大相同子集及每个最大相同子集的状态,包括删除、增加、修改、无变化;其中,最大相同子集以字符为单位。
步骤4:对文档对比结果进行结果后处理,并进行文档对比结果展示。
具体的,结果后处理是对文档对比结果进行四角编码校正、映射表验证以及特殊符号验证处理。
OCR文字识别是基于深度学习的OCR文字识别模型实现的,所述OCR文字识别模型是一个概率模型,存在误差,导致纯文本文档对比结果中存在错误内容,因此需要进行结果后处理,避免OCR文字识别误差导致的文档对比结果中存在错误内容。
四角编码校正是针对汉字的一种特殊的编码方式,利用四角编码校正,对比错误内容中的图片类文档和纯文本文档,若编码相似度高于一定阀值,则对文档对比结果进行校正,除去OCR文字识别误差导致的文档对比结果中存在错误内容。
OCR文字识别模型包含了对语言模型的拟合能力,导致OCR识别后的纯文本文档中包含不形似,但近义的词或字,通过映射表验证的形式对纯文本文档进行校正,除去OCR文字识别误差导致的文档对比结果中存在错误内容。
对于标点符号、空格以及换行符等非关键信息类的特殊字符,通过特殊符号验证的方式对纯文本文档进行校正,除去OCR文字识别误差导致的文档对比结果中存在错误内容。
为了使得文档对比结果在视觉上有更好的体验,通过文档对比展示页面,可以直接、清晰的将对比文件的差异进行显示。
本发明还提供一种基于OCR的文档版本管理***,所述***是基于上述方法实现的,包括OCR文本识别模块、文本结构还原模块、对比处理模块、结果后处理模块以及结果展示模块;
OCR文本识别模块:对图片类文档进行OCR文字识别后得到纯文本文档;
文本结构还原模块:对纯文本文档进行结构还原,还原图片类文档的章节和段落结构,并进行表格检测;
对比模块:对文本结构还原后的纯文本文档进行对比,并以数组的形式将图片类文档和纯文本文档的所有差异格式化;
结果后处理模块:对图片类文档和纯文本文档进行四角编码校正、映射表验证以及特殊符号验证处理;
结果展示模块:对图片类文档和纯文本文档的文档对比结果进行页面展示。
其中,其中OCR文字识别模块与文本结构还原模块是赋予本***处理任意格式、任意结构文档版本管理能力的基础,分别提供了图片类文档和复杂结构文本文档的处理能力。所述文本结构还原模块的输出是后续文档对比的数据来源。
对比模块是***的核心处理模块,根据不同版本文档对比需求,可满足按照“行”和“字符”进行对比,在效率上满足实时性。
对比结果后处理模块的功能是基于OCR文字识别引擎的引入,为确保***使用的流畅性,对OCR文字识别模型输出结果的判断和校正。
结果展示将结果后处理输出的最终对比结果,以可以直接、清晰的页面反馈给用户。
综上所述,本发明解决了现有文档版本管理***只能基于纯文本文档进行对比,无法对比图片类文档问题;并且解决了现有的文档版本管理***在复杂结构文本文档进行对比时,统一视为纯文本文档进行对比,在一定程度上导致文本对比精度下降,并且存在展示困难的问题。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (8)
1.一种基于OCR的文档版本管理方法,其特征在于,所述方法包括以下步骤:
步骤1:对图片类文档进行OCR文字识别后得到纯文本文档;
步骤2:对纯文本文档进行文本结构还原;
步骤3:对文本结构还原后的纯文本文档进行对比,得到文档对比结果;
步骤4:对文档对比结果进行结果后处理,并进行文档对比结果展示。
2.根据权利要求1所述的基于OCR的文档版本管理方法,其特征在于,OCR文字识别的步骤为:
步骤1.1:对图片类文档进行图像角度校正和图像降噪处理,并将图片类文档调整为单通道的图像数据;
步骤1.2:加载OCR文字识别模型,并将单通道的图像数据输入OCR文字识别模型进行目标检测,获取表格坐标后按照表格坐标将图片类文档分割为多个小图片;
步骤1.3:加载OCR文字识别模型,并将小图片输入OCR文字识别模型进行文字识别,得到文字识别数据;
步骤1.4:对文字识别数据进行过滤、排序以及合并处理后得到纯文本文档。
3.根据权利要求1所述的基于OCR的文档版本管理方法,其特征在于:文本结构还原包括自由文本结构还原和表格检测。
4.根据权利要求3所示的基于OCR的文档版本管理方法,其特征在于,自由文本结构还原的步骤为:
步骤2.1:根据纯文本文档的行间距、行首、行尾的特征判断纯文本文档的段落启始和结束位置,并在段落间***换行符标记;
步骤2.2:检测并判断纯文本文档中是否存在目录,若存在,则转到步骤2.3,若不存在,则转到步骤2.4;
步骤2.3:识别目录内容,根据目录定位章节位置,根据章节位置还原图片类文档章节结构;
步骤2.4:根据纯文本文档的标题、行间距的特征定位章节位置,根据章节位置还原图片类文档章节结构。
5.根据权利要求3所述的基于OCR的文档版本管理方法,其特征在于,表格检测的步骤为:
步骤3.1:检测并定位纯文本文档中横线和竖线的交点,并按照直角坐标系的x轴和y轴对交点进行优先级排序;
步骤3.2:遍历所有横线和竖线的交点,取当前交点作为候选单元格的左侧交点;
步骤3.3:根据左侧交点所在横线,判断横线右侧是否存在交点,若不存在,则转到步骤3.2;
步骤3.4:根据右侧交点所在竖线,判断竖线下方是否存在交点,若不存在,则转到步骤3.2;
步骤3.5:根据下方交点所在横线,判断横线左侧是否存在交点,若不存在,则转到步骤3.2;
步骤3.6:判断左上和左下交点是否在一条竖线上,若是,则候选单元格成立,若否,则候选单元格不成立,并转到步骤3.2。
6.根据权利要求1所述的基于OCR的文档版本管理方法,其特征在于,对文本结构还原后的纯文本文档进行对比的步骤为:
步骤4.1:判断图片类文档和纯文本文档是否存为空文本,若存在,则提示异常并结束对比;
步骤4.2:判断图片类文档和纯文本文档是否相等,若相等,则将纯文本文档状态进行定义并结束对比;
步骤4.3:查找图片类文档和纯文本文档的最长相同前缀和最长相同后缀,并将最长相同前缀和最长相同后缀状态进行定义;
步骤4.4:除去图片类文档和纯文本文档的最长相同前缀和最长相同后缀,并查找最大相同子集;
步骤4.5:以最大相同子集为分界线将图片类文档和纯文本文档切分为图片类文档和纯文本文档的前缀、子集、后缀,将图片类文档和纯文本文档的前缀作为输入,重复步骤4.1-步骤4.5,再将图片类文档和纯文本文档的后缀作为输入,重复步骤4.1-步骤4.5;
步骤4.6:若任意一个输入长度小于等于1,则对比结束。
7.根据权利要求1所述的基于OCR的文档版本管理方法,其特征在于:结果后处理是对文档对比结果进行四角编码校正、映射表验证以及特殊符号验证处理。
8.一种基于OCR的文档版本管理***,其特征在于:包括OCR文本识别模块、文本结构还原模块、对比处理模块、结果后处理模块以及结果展示模块;
OCR文本识别模块:对图片类文档进行OCR文字识别后得到纯文本文档;
文本结构还原模块:对纯文本文档进行结构还原,还原图片类文档的章节和段落结构,并进行表格检测;
对比模块:对文本结构还原后的纯文本文档进行对比,并以数组的形式将图片类文档和纯文本文档的所有差异格式化;
结果后处理模块:对图片类文档和纯文本文档进行四角编码校正、映射表验证以及特殊符号验证处理;
结果展示模块:对图片类文档和纯文本文档的文档对比结果进行页面展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910536932.0A CN112115111A (zh) | 2019-06-20 | 2019-06-20 | 一种基于ocr的文档版本管理方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910536932.0A CN112115111A (zh) | 2019-06-20 | 2019-06-20 | 一种基于ocr的文档版本管理方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112115111A true CN112115111A (zh) | 2020-12-22 |
Family
ID=73796748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910536932.0A Pending CN112115111A (zh) | 2019-06-20 | 2019-06-20 | 一种基于ocr的文档版本管理方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115111A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800719A (zh) * | 2020-12-28 | 2021-05-14 | 北京思题科技有限公司 | 一种电子文档结构化方法 |
CN113111864A (zh) * | 2021-05-13 | 2021-07-13 | 上海巽联信息科技有限公司 | 基于多模态下的智能表格抽取算法 |
CN113704214A (zh) * | 2021-08-27 | 2021-11-26 | 北京市律典通科技有限公司 | 电子卷宗文件类型转换方法、装置及计算机设备 |
CN114021543A (zh) * | 2022-01-05 | 2022-02-08 | 杭州实在智能科技有限公司 | 基于表格结构解析的文档比对分析方法及*** |
US11854287B2 (en) | 2021-11-23 | 2023-12-26 | International Business Machines Corporation | Visual mode image comparison |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676930A (zh) * | 2008-09-17 | 2010-03-24 | 北大方正集团有限公司 | 一种识别扫描图像中表格单元的方法及装置 |
CN102567300A (zh) * | 2011-12-29 | 2012-07-11 | 方正国际软件有限公司 | 图片文档的处理方法及装置 |
CN105718554A (zh) * | 2016-01-19 | 2016-06-29 | 深圳市天朗时代科技有限公司 | 文档的协同转换方法及*** |
CN106250830A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 数字图书结构化分析处理方法 |
CN107025460A (zh) * | 2016-08-17 | 2017-08-08 | 广州市力融计算机技术有限公司 | 改进合同管理水平和效能的***和方法 |
CN107451582A (zh) * | 2017-07-13 | 2017-12-08 | 安徽声讯信息技术有限公司 | 一种图文识别***及其识别方法 |
CN108038426A (zh) * | 2017-11-29 | 2018-05-15 | 阿博茨德(北京)科技有限公司 | 一种提取文件中图表信息的方法及装置 |
CN108734089A (zh) * | 2018-04-02 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN109190092A (zh) * | 2018-08-15 | 2019-01-11 | 深圳平安综合金融服务有限公司上海分公司 | 不同来源文件的一致性审核方法 |
CN109344355A (zh) * | 2018-09-26 | 2019-02-15 | 北京因特睿软件有限公司 | 针对网页变化的自动回归检测与块匹配自适应方法和装置 |
WO2019041526A1 (zh) * | 2017-08-31 | 2019-03-07 | 平安科技(深圳)有限公司 | 文档图表抽取方法、电子设备及计算机可读存储介质 |
CN109446487A (zh) * | 2018-11-01 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 一种解析便携式文档格式文档表格的方法及装置 |
CN109543525A (zh) * | 2018-10-18 | 2019-03-29 | 成都中科信息技术有限公司 | 一种通用表格图像的表格提取方法 |
-
2019
- 2019-06-20 CN CN201910536932.0A patent/CN112115111A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676930A (zh) * | 2008-09-17 | 2010-03-24 | 北大方正集团有限公司 | 一种识别扫描图像中表格单元的方法及装置 |
CN102567300A (zh) * | 2011-12-29 | 2012-07-11 | 方正国际软件有限公司 | 图片文档的处理方法及装置 |
CN105718554A (zh) * | 2016-01-19 | 2016-06-29 | 深圳市天朗时代科技有限公司 | 文档的协同转换方法及*** |
CN106250830A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 数字图书结构化分析处理方法 |
CN107025460A (zh) * | 2016-08-17 | 2017-08-08 | 广州市力融计算机技术有限公司 | 改进合同管理水平和效能的***和方法 |
CN107451582A (zh) * | 2017-07-13 | 2017-12-08 | 安徽声讯信息技术有限公司 | 一种图文识别***及其识别方法 |
WO2019041526A1 (zh) * | 2017-08-31 | 2019-03-07 | 平安科技(深圳)有限公司 | 文档图表抽取方法、电子设备及计算机可读存储介质 |
CN108038426A (zh) * | 2017-11-29 | 2018-05-15 | 阿博茨德(北京)科技有限公司 | 一种提取文件中图表信息的方法及装置 |
CN108734089A (zh) * | 2018-04-02 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN109190092A (zh) * | 2018-08-15 | 2019-01-11 | 深圳平安综合金融服务有限公司上海分公司 | 不同来源文件的一致性审核方法 |
CN109344355A (zh) * | 2018-09-26 | 2019-02-15 | 北京因特睿软件有限公司 | 针对网页变化的自动回归检测与块匹配自适应方法和装置 |
CN109543525A (zh) * | 2018-10-18 | 2019-03-29 | 成都中科信息技术有限公司 | 一种通用表格图像的表格提取方法 |
CN109446487A (zh) * | 2018-11-01 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 一种解析便携式文档格式文档表格的方法及装置 |
Non-Patent Citations (1)
Title |
---|
卞静潇: "复杂版面文档图像表格与图的提取及分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800719A (zh) * | 2020-12-28 | 2021-05-14 | 北京思题科技有限公司 | 一种电子文档结构化方法 |
CN113111864A (zh) * | 2021-05-13 | 2021-07-13 | 上海巽联信息科技有限公司 | 基于多模态下的智能表格抽取算法 |
CN113704214A (zh) * | 2021-08-27 | 2021-11-26 | 北京市律典通科技有限公司 | 电子卷宗文件类型转换方法、装置及计算机设备 |
US11854287B2 (en) | 2021-11-23 | 2023-12-26 | International Business Machines Corporation | Visual mode image comparison |
CN114021543A (zh) * | 2022-01-05 | 2022-02-08 | 杭州实在智能科技有限公司 | 基于表格结构解析的文档比对分析方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115111A (zh) | 一种基于ocr的文档版本管理方法和*** | |
CN110442744B (zh) | 提取图像中目标信息的方法、装置、电子设备及可读介质 | |
US7730050B2 (en) | Information retrieval apparatus | |
US6721451B1 (en) | Apparatus and method for reading a document image | |
JP4071328B2 (ja) | 文書画像処理装置および方法 | |
JP5402099B2 (ja) | 情報処理システム、情報処理装置、情報処理方法およびプログラム | |
US20150149893A1 (en) | Multi-level List Detection Engine | |
US8838657B1 (en) | Document fingerprints using block encoding of text | |
US20090317003A1 (en) | Correcting segmentation errors in ocr | |
JP6122800B2 (ja) | 電子機器、文字列表示方法、および文字列表示プログラム | |
US8494278B2 (en) | Handwritten character recognition based on frequency variations in characters | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
CN105302626B (zh) | Xps结构化数据的解析方法 | |
CN110263792B (zh) | 图像识读及数据处理方法、智能笔、***及存储介质 | |
KR20150099936A (ko) | 전자문서의 레이아웃 유지를 위한 대체폰트 적용 방법 및 그 장치 | |
JP5380040B2 (ja) | 文書処理装置 | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
US7406201B2 (en) | Correcting segmentation errors in OCR | |
WO2021143058A1 (zh) | 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质 | |
US9323726B1 (en) | Optimizing a glyph-based file | |
US8526744B2 (en) | Document processing apparatus and computer readable medium | |
CN105677718A (zh) | 文字检索方法及装置 | |
US7756872B2 (en) | Searching device and program product | |
CN116860747A (zh) | 训练样本的生成方法、装置、电子设备及存储介质 | |
US20180032244A1 (en) | Input control device, input control method, character correction device, and character correction method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230427 Address after: Room 3701, Building T2, Shenye Shangcheng (South District), No. 5001 Huanggang Road, Lianhua Yicun Community, Huafu Street, Futian District, Shenzhen City, Guangdong Province, 518035 Applicant after: Shenzhen yingshisheng Information Technology Co.,Ltd. Address before: Room 823, 2 / F, 148 Lane 999, XINER Road, Baoshan District, Shanghai Applicant before: Shanghai Huairuo Intelligent Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201222 |
|
RJ01 | Rejection of invention patent application after publication |