CN114915788A - 一种用于档案的图像压缩方法、***及介质 - Google Patents

一种用于档案的图像压缩方法、***及介质 Download PDF

Info

Publication number
CN114915788A
CN114915788A CN202210844132.7A CN202210844132A CN114915788A CN 114915788 A CN114915788 A CN 114915788A CN 202210844132 A CN202210844132 A CN 202210844132A CN 114915788 A CN114915788 A CN 114915788A
Authority
CN
China
Prior art keywords
character
line
frame
image
over
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210844132.7A
Other languages
English (en)
Other versions
CN114915788B (zh
Inventor
成浩
王鹏
魏小斌
文斐
张东
王辉
潘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Jinboxin Shandong Technology Co Ltd
Original Assignee
Zhongke Jinboxin Shandong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Jinboxin Shandong Technology Co Ltd filed Critical Zhongke Jinboxin Shandong Technology Co Ltd
Priority to CN202210844132.7A priority Critical patent/CN114915788B/zh
Publication of CN114915788A publication Critical patent/CN114915788A/zh
Application granted granted Critical
Publication of CN114915788B publication Critical patent/CN114915788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明涉及图像处理技术领域,具体涉及一种用于档案的图像压缩方法、***及介质,该方法包括:获取档案的待压缩图像及其灰度图像,将灰度图像分割为多个表框区域,获取表框区域中的超出框线的超线文字及其超出的框线,获取超线文字其超出的框线两侧的表框区域内的文字部分对应的角点数量,并分别计算该两个表框区域内的文字部分对文字整体的影响程度;根据表框区域内的文字部分对文字整体的影响程度、文字部分所对应的像素点个数计算该超线文字属于表框区域的归属值,根据归属值确定归属区域,设定表框区域编码顺序,对归属区域对应表框区域的内容进行霍夫曼编码得到压缩数据,本发明方法保证数据压缩的完整性,从而提高压缩效率。

Description

一种用于档案的图像压缩方法、***及介质
技术领域
本发明涉及图像处理技术领域,具体涉及一种用于档案的图像压缩方法、***及介质。
背景技术
纸质档案在进行档案数字化作业时,需要保证档案图像的字迹、图片清晰,这也意味着需要更高的分辨率和更大的文件占用,常规存储是根据像素点的冗余量进行压缩编码,然后进行存储,但档案文件中多数为文字,任意编码段在压缩、传输过程中发生网络卡顿、数据丢失都会使文字细节模糊,且这些信息的丢失没有规律性,故档案中重要信息丢失的概率和非重要信息丢失的概率相同,一旦发生数据丢失,容易直接导致档案文件损坏。
现有技术利用霍夫曼编码对档案的图像进行无损压缩,最大程度保留档案文件的有效信息,为海量档案文件的大规模存储和传输提供了技术参考,在根据表框内容进行冗余压缩时,不同的人书写字体大小有差异,会导致文字压边线、超边线(边线指表框的框线)的问题,因此,在对这种数据进行编码压缩时,会导致压边线、超边线的文字出现局部信息的缺失,从而导致数据不完整,使得数据压缩时同一内容***为多个编码长度和压缩顺序,进而降低压缩效率。
因此,需要提供一种用于档案的图像压缩方法、***及介质,予以解决上述问题。
发明内容
本发明提供一种用于档案的图像压缩方法、***及介质,以解决现有的问题。
本发明的一种用于档案的图像压缩方法采用如下技术方案:该方法包括:
获取档案的待压缩图像及其灰度图像;
根据档案内容将灰度图像分割为多个表框区域,获取表框区域中的超出框线的超线文字及其超出的框线;
分别获取超线文字在其超出的框线两侧的表框区域内的文字部分对应的角点数量,根据超线文字的角点总数及其在对应表框区域内的角点数量分别计算该两个表框区域内的文字部分对文字整体的影响程度;
根据表框区域内的文字部分对文字整体的影响程度、文字部分所对应的像素点个数计算该超线文字属于表框区域的归属值;
根据超线文字对应两个表框区域的归属值的大小确定超线文字的超线部分对应的归属区域;
设定所有表框区域编码顺序,根据超线文字的超线部分的表框区域及归属区域对应的编码顺序对超线文字的超线部分的编码顺序进行修正,根据修正后的编码顺序及正常文字的对应的表框区域的编码顺序依次对档案中表框区域的内容进行霍夫曼编码得到压缩数据。
优选的,获取表框区域中的超出框线的超线文字的步骤包括:
获取档案的待压缩图像对应的标准图像;
将标准图像、待压缩图像中对应的表框区域进行匹配获取待压缩图像的框线像素点中的异常像素点;
根据异常像素点与其邻域内像素点的灰度值获取文字笔画的对应的连接像素点集合并获取文字笔画的方向,分割出灰度图像中的每个文字并将有异常像素点的文字记为超线文字。
优选的,将标准图像、待压缩图像中对应的表框区域进行匹配获取待压缩图像的框线像素点中的异常像素点的步骤包括:
获取标准图像、待压缩图像中对应的两个表框区域的框线像素点的灰度值;
计算对应的两个表框区域中相对位置的框线像素点的第一灰度差值;
根据第一灰度差值及预设的第一差值阈值确定框线像素点中的异常像素点。
优选的,根据异常像素点与其邻域内其余像素点的灰度值获取文字笔画的对应的连接像素点集合并获取文字笔画的方向的步骤包括:
获取异常像素点与其6邻域内的像素点的第二灰度差值,其中,异常像素点在水平框线时,6邻域内的像素点为异常像素点的8邻域内去除异常像素点左右邻域的像素点所剩余的像素点;异常像素点在竖直框线时,6邻域内的邻域像素点为异常像素点的8邻域内去除异常像素点上下邻域的像素点所剩余的像素点;
根据第二灰度差值与预设的第二差值阈值确定异常像素点的邻域内的连接像素点;
依次获取将连接像素点作为异常像素点时其8邻域内对应的连接像素点得到多个连接像素点构成该异常像素点的连接像素点集合;并获取每个异常像素点对应的连接像素点集合;
将每个异常像素点与其对应的连接像素点集合中的连接像素点依次连接形成文字笔画的方向。
优选的,根据超线文字的角点总数及其在对应表框区域内的角点数量、分别计算该两个表框区域内的文字部分对文字整体的影响程度的步骤包括:
分别获取超线文字在对应表框区域的文字部分中每个笔画的每两个连续且相邻像素点的欧式距离;
将该超线文字所在的表框区域的文字部分对应的所有欧式距离的和记为该超线文字在该表框区域对应的总欧式距离;
将每个总欧式距离分为多个单位距离;
获取该超线文字分别在两个对应表框区域内的单位距离内角点的数量;
计算同一个表框区域内每个单位距离的角点数量与角点总数的比值;
根据同一个表框区域内每个单位距离的角点数量与角点总数的比值、单位距离的数量计算该表框区域内的文字部分对文字整体的影响程度。
优选的,分别获取超线文字在对应表框区域的文字部分中每个笔画的每两个连续且相邻像素点的欧式距离的步骤包括:
获取超线文字的笔画上每个像素点的位置坐标;
根据超线文字的笔画上每个像素点的位置坐标计算超线文字的对应笔画中每两个连续且相邻像素点的欧式距离。
优选的,计算超线文字属于表框区域的归属值的公式:
Figure 363580DEST_PATH_IMAGE001
式中,
Figure 821106DEST_PATH_IMAGE002
表示该超线文字属于第
Figure 448528DEST_PATH_IMAGE003
个表框区域的归属值;
Figure 349619DEST_PATH_IMAGE004
表示该超线文字在第
Figure 678969DEST_PATH_IMAGE003
个表框区域的文字部分对文字整体的影响程度;
Figure 690918DEST_PATH_IMAGE005
表示该超线文字在第
Figure 422114DEST_PATH_IMAGE003
个表框区域的文字部分的像素点的个数;
Figure 497036DEST_PATH_IMAGE006
表示影响程度的权重系数;
Figure 313682DEST_PATH_IMAGE007
表示像素点的个数的权重系数。
优选的,根据超线文字的超线部分的表框区域及归属区域对应的编码顺序对超线文字的超线部分的编码顺序进行修正的步骤包括:
获取超线文字的超线部分修正前的表框区域的编码顺序记为原编码顺序;
超线文字的超线部分的归属区域对应的表框区域的编码顺序记为最终编码顺序;
根据原编码顺序与最终编码顺序获取修正参数;
根据修正参数将超线文字的超线部分的所有像素对应的原编码顺序修正为最终编码顺序。
本发明提供的一种用于档案的图像压缩***,该***包括:
图像采集模块,用于获取档案的待压缩图像及其灰度图像;
图像处理模块,用于根据档案内容将灰度图像分割为多个表框区域,获取表框区域中的超出框线的超线文字;
第一参数计算模块,用于分别获取超线文字在其超出的框线两侧的表框区域内的文字部分对应的角点数量,根据超线文字的角点总数及其在对应表框区域内的角点数量、分别计算该两个表框区域内的文字部分对文字整体的影响程度;
第二参数计算模块,用于根据表框区域内的文字部分对文字整体的影响程度、文字部分所对应的像素点个数计算该超线文字属于表框区域的归属值;
归属确定模块,用于根据超线文字对应两个表框区域的归属值的大小确定超线文字的超线部分对应的归属区域;
修正编码模块,设定所有表框区域编码顺序,根据超线文字的超线部分的表框区域及归属区域对应的编码顺序对超线文字的超线部分的编码顺序进行修正,根据修正后的编码顺序及正常文字的对应的表框区域的编码顺序依次对档案中表框区域的内容进行霍夫曼编码得到压缩数据。
本发明提供的一种存储介质,其上存储有图像压缩程序,图像压缩程序被处理器执行时实现一种用于档案的图像压缩方法的步骤。
本发明的有益效果是:本发明的一种用于档案的图像压缩方法、***及介质,通过对档案中的文字进行检测,将超线文字中超出框线的文字部分进行归属判断,修正超线文字中超线部分所归属的表框区域,然后设定表框区域的编码顺序,根据修正后的修正超线文字中超线部分所归属的表框区域的编码顺序对每个表框区域中的文字数据进行霍夫曼编码得到压缩数据,避免了书写不规范中的超线压线文字对数据压缩的影响,保证数据压缩的完整性,从而提高压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种用于档案的图像压缩方法、***及介质的实施例总体步骤的流程图;
图2为本发明的实施例中步骤S2的流程图;
图3为本发明的实施例中步骤S23的流程图;
图4为本发明的实施例中步骤S3的流程图;
图5为本发明的实施例中第e个异常像素点的8邻域示意图;
图6为本发明的实施例中存储介质的运行环境的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种用于档案的图像压缩方法、***及介质的实施例,如图1所示,该方法包括:
S1、获取档案的待压缩图像及其灰度图像。
具体的,因为灰度图像的内存占用小、扫描速度快,且不会丢失档案内的有效信息,将打印机设置为灰度模式,然后对纸质的档案待压缩图像进行扫描得到对应的灰度图像。
S2、根据档案内容将灰度图像分割为多个表框区域,获取表框区域中的超出框线的超线文字,具体的,由于档案文件内包含提前印刷的固定字体和表格选框(本实施例中均称为表框),以及后续人工书写的档案信息,同类的档案纸上原本的文字和表框都是统一的,故本方案采用待压缩图像与标准图像的表框匹配方法,具体的,如图2所示,由于在灰度图中表框的框线为黑色,但其灰度值实际并达不到理论的0灰度,特别是扫描件,受到光线、扫描机性能的影响,一般作为背景部分表现为非零的较低灰度,但无论何种颜色的字迹经过表框框线上,表框框线该处的灰度值必然与正常边框灰度存在差异,S21、先获取档案的待压缩图像对应的标准图像;S22、将标准图像、待压缩图像中对应的表框区域进行匹配获取待压缩图像的框线像素点中的异常像素点;S23、根据异常像素点与其邻域内像素点的灰度值获取文字笔画的对应的连接像素点集合并获取文字笔画的方向,分割出灰度图像中的每个文字并将有异常像素点的文字记为超线文字。
其中,步骤S22将标准图像、待压缩图像中对应的表框区域进行匹配获取待压缩图像的框线像素点中的异常像素点的具体步骤包括:获取标准图像、待压缩图像中对应的两个表框区域的框线像素点的灰度值;计算对应的两个表框区域中相对位置的框线像素点的第一灰度差值;根据第一灰度差值及预设的第一差值阈值确定框线像素点中的异常像素点,设第一差值阈值为T,第一差值阈值T较小可以根据具体情况自行设定,本实施例建议第一差值阈值T取经验值为10,即第一灰度差值结果超过第一差值阈值T,则认为该第一灰度差值在待压缩图像的灰度图像上的宽限像素点为异常像素点。
其中,步骤S23根据异常像素点与其邻域内其余像素点的灰度值获取文字笔画的对应的连接像素点集合并获取文字笔画的方向,分割出灰度图像中的每个文字并将有异常像素点的文字记为超线文字的具体方法为:如图3所示,S231、获取异常像素点与其6邻域内的邻域像素点的第二灰度差值,异常像素点领域内的像素点即为邻域像素点,其中,异常像素点在水平框线时,6邻域内的邻域像素点为异常像素点的8邻域内去除异常像素点左右邻域的像素点所剩余的像素点,具体的,6邻域内的邻域像素点为图5中1、2、3、6、7、8所示位置;异常像素点在竖直框线时,6邻域内的邻域像素点为异常像素点的8邻域内去除异常像素点上下邻域的像素点所剩余的像素点,具体的,6邻域内的邻域像素点为图5中1、4、6、3、5、8所示位置;S232、根据第二灰度差值与预设的第二差值阈值确定异常像素点的邻域内的连接像素点,其中,第二差值阈值与第一差值阈值相同,并将第二灰度差值小于预设的第二差值阈值对应的6邻域内的邻域像素点作为连接像素点,S233、将获取的连接像素点作为异常像素点,重复S231步骤到S232步骤,获取该连接像素点作为异常像素点时其8邻域内对应的连接像素点,以此类推,获取每个连接像素点作为异常像素点时对应的连接像素点,该异常像素点对应的所有连接像素点构成了该异常像素点的连接像素点集合;并获取每个异常像素点对应的连接像素点集合;S234、将每个异常像素点与其对应的连接像素点集合中的连接像素点依次连接形成文字笔画的方向,根据文字之间的间距分割出灰度图像中的文字,并将有异常像素点的文字记为超线文字。
S3、利用角点检测分别获取超线文字在其超出的框线两侧表框区域内的文字部分对应的角点数量,根据超线文字的角点总数及其在对应表框区域内的角点数量、分别计算该两个表框区域内的文字部分对文字整体的影响程度。
具体的,如图4所示,根据不同笔画的复杂程度,来判断该笔画部分对文字整体识别的影响,本发明认为越弯折、复杂的笔画对文字的识别影响更大,S31、分别获取超线文字在对应表框区域的文字部分中每个笔画的每两个连续且相邻像素点的欧式距离;S32、将该超线文字所在的表框区域的文字部分对应的所有欧式距离的和记为该超线文字在该表框区域对应的总欧式距离,S33、将每个总欧式距离分为多个单位距离;S34、获取该超线文字分别在两个对应表框区域内的单位距离内角点的数量;S35、计算同一个表框区域内每个单位距离的角点数量与角点总数的比值;S36、根据同一个表框区域内每个单位距离的角点数量与角点总数的比值、单位距离的数量计算该表框区域内的文字部分对文字整体的影响程度,其中,根据下式(1)计算表框区域内的文字部分对文字整体的影响程度:
Figure 863744DEST_PATH_IMAGE008
(1)
式(1)中,
Figure 715025DEST_PATH_IMAGE004
表示该超线文字在第
Figure 957919DEST_PATH_IMAGE003
个表框区域内的文字部分对文字整体的影响程度;
Figure 996282DEST_PATH_IMAGE009
表示该超线文字在第
Figure 350034DEST_PATH_IMAGE003
个表框区域内第
Figure 55822DEST_PATH_IMAGE010
个单位距离内角点的数量;
Figure 466687DEST_PATH_IMAGE011
表示超线文字在第
Figure 257925DEST_PATH_IMAGE003
个表框区域内的单位距离的数量;
Figure 149789DEST_PATH_IMAGE012
表示该超线文字的角点总数。
具体的,分别获取超线文字在对应表框区域的文字部分中每个笔画的每两个连续且相邻像素点的欧式距离,并将该超线文字所在的表框区域的文字部分对应的所有欧式距离的和记为该超线文字在该表框区域对应的总欧式距离的步骤包括:获取超线文字的笔画上每个像素点的位置坐标;根据超线文字的笔画上每个像素点的位置坐标计算超线文字的对应笔画中每两个连续且相邻像素点的欧式距离,具体的,步骤S3是基于S2的,故超线文字的笔画上每个像素点包括了其上的异常像素点及异常像素点所对应的连接像素点集合,因此,先构建坐标系,获取每个超线文字的笔画上每个连接像素点、异常像素点的位置坐标;根据每个超线文字的笔画上的异常像素点位置坐标、每个连接像素点的位置坐标计算每个超线文字对应连接像素点与其连接的异常像素点之间、连续且相邻连接像素点之间的欧式距离,其中,超线文字的总欧式距离根据下式(2)计算:
Figure 726395DEST_PATH_IMAGE013
(2)
式(2)中,
Figure 294780DEST_PATH_IMAGE014
表示超线文字在对应表框区域的总欧式距离;
Figure 324047DEST_PATH_IMAGE015
Figure 268869DEST_PATH_IMAGE016
)表示第h个像素点的位置坐标;
Figure 714630DEST_PATH_IMAGE017
)表示与第h个像素点相邻且连续的第h+1个像素点的位置坐标;
S表示在对应表框区域内其中一个笔画对应的像素点的个数,即该笔画上的像素点个数。
S4、根据表框区域内的文字部分对文字整体的影响程度、文字部分所对应的像素点个数计算该超线文字属于表框区域的归属值,其中,根据式(3)计算超线文字属于表框区域的归属值:
Figure 719495DEST_PATH_IMAGE018
(3)
式中,
Figure 970479DEST_PATH_IMAGE002
表示该超线文字属于第
Figure 453413DEST_PATH_IMAGE003
个表框区域的归属值;
Figure 739032DEST_PATH_IMAGE004
表示该超线文字在第
Figure 649219DEST_PATH_IMAGE003
个表框区域的文字部分对文字整体的影响程度;
Figure 387499DEST_PATH_IMAGE005
表示该超线文字在第
Figure 408545DEST_PATH_IMAGE003
个表框区域的文字部分的像素点的个数;
Figure 545740DEST_PATH_IMAGE006
表示影响程度的权重系数;
Figure 157987DEST_PATH_IMAGE007
表示像素点的个数的权重系数。
S5、根据超线文字对应两个表框区域的归属值的大小确定超线文字的超线部分对应的归属区域,具体的,将大归属值对应的表框区域记为超线文字对应的归属区域。
S6、设定所有表框区域编码顺序,根据超线文字的超线部分的表框区域及归属区域对应的编码顺序对超线文字的超线部分的编码顺序进行修正,具体的,获取超线文字的超线部分修正前的表框区域的编码顺序记为原编码顺序;超线文字的超线部分的归属区域对应的表框区域的编码顺序记为最终编码顺序;根据原编码顺序与最终编码顺序获取修正参数;根据修正参数将超线文字的超线部分的所有像素对应的原编码顺序修正为最终编码顺序,根据修正后的编码顺序及正常文字的对应的表框区域的编码顺序依次对档案中表框区域的内容进行霍夫曼编码得到压缩数据。
具体的,为依据重要程度对档案中的文字信息进行压缩,首先,获取每个表框区域中的内容;根据档案的类型及该档案中每个表框区域中的内容的重要程度人为设定编码顺序,例如,姓名、性别、年龄、籍贯的基本信息对应内容在任意类型档案都比较重要,而兴趣爱好、血型等拓展信息相对而言并不重要,因此,在学籍档案中,基本信息、毕业院校、学籍编号、证明人签字盖章等信息的重要性依次降低;员工入职档案中,基本信息、学历表框、工作经历、技能特长等等信息的重要性依次降低;保险、金融类档案中,基本信息、紧急联系人联系方式、资产证明、当事人签字等信息的重要性依次降低;故按照重要性从高到低的顺序每个信息对应的表框区域进行编码排序,这里需要说明的是,其中,每个文字也可以在添加子序号,而表框区域的编码顺序的序号作为文字的主序号,在进行编码压缩过程中先依据主序号的对表框区域进行霍夫曼编码压缩,而后在对当前表框区域中的内容进行压缩时在根据文字的子序号进行进行霍夫曼编码压缩,从而得到压缩数据。
本发明还公开了一种用于档案的图像压缩***,该***包括:图像采集模块、图像处理模块、第一参数计算模块、第二参数计算模块、第三参数计算模块、归属确定模块及修正编码模块,其中,图像采集模块,用于获取档案的待压缩图像及其灰度图像;图像处理模块用于根据档案内容将灰度图像分割为多个表框区域,获取表框区域中的超出框线的超线文字;第一参数计算模块用于分别获取超线文字在其超出的框线两侧的表框区域内的文字部分对应的角点数量,根据超线文字的角点总数及其在对应表框区域内的角点数量、分别计算该两个表框区域内的文字部分对文字整体的影响程度;第二参数计算模块用于根据表框区域内的文字部分对文字整体的影响程度、文字部分所对应的像素点个数计算该超线文字属于表框区域的归属值;归属确定模块用于根据超线文字对应两个表框区域的归属值的大小确定超线文字的超线部分对应的归属区域;修正编码模块设定所有表框区域编码顺序,根据超线文字的超线部分的表框区域及归属区域对应的编码顺序对超线文字的超线部分的编码顺序进行修正,根据修正后的编码顺序及正常文字的对应的表框区域的编码顺序依次对档案中表框区域的内容进行霍夫曼编码得到压缩数据。
本发明还公开了一种存储介质,存储介质上存储有图像压缩程序,图像压缩程序被处理器执行时实现用于档案的图像压缩方法的步骤。
具体的,如图6所示,作为一种存储介质的存储器5中可以包括操作***、网络通信模块、用户接口模块以及计算机程序,计算机程序即包括本发明中的图像压缩程序,其中,操作***是管理和控制计算机设备硬件和软件资源的程序,计算机程序以及其它软件或程序的运行。
其中,如图6所示,存储器5与处理器1、用户接口3、网络接口4通过电线2连接,其中,用户接口3主要用于连接终端与终端进行数据通信;网络接口4主要用于后台服务器,与后台服务器进行数据通信;处理器1用于调用存储器5中存储的图像压缩程序。
具体的,处理器1调用存储器5中存储的图像压缩程序时,执行以下操作:
获取档案的待压缩图像及其灰度图像;根据档案内容将灰度图像分割为多个表框区域,获取表框区域中的超出框线的超线文字及其超出的框线;分别获取超线文字在其超出的框线两侧的表框区域内的文字部分对应的角点数量,根据超线文字的角点总数及其在对应表框区域内的角点数量分别计算该两个表框区域内的文字部分对文字整体的影响程度;根据表框区域内的文字部分对文字整体的影响程度、文字部分所对应的像素点个数计算该超线文字属于表框区域的归属值;根据超线文字对应两个表框区域的归属值的大小确定超线文字的超线部分对应的归属区域;设定所有表框区域编码顺序,根据超线文字的超线部分的表框区域及归属区域对应的编码顺序对超线文字的超线部分的编码顺序进行修正,根据修正后的编码顺序及正常文字的对应的表框区域的编码顺序依次对档案中表框区域的内容进行霍夫曼编码得到压缩数据。
处理器1调用存储器5中存储的图像压缩程序时,还执行以下操作:
获取档案的待压缩图像对应的标准图像;将标准图像、待压缩图像中对应的表框区域进行匹配获取待压缩图像的框线像素点中的异常像素点;根据异常像素点与其邻域内像素点的灰度值获取文字笔画的对应的连接像素点集合并获取文字笔画的方向,分割出灰度图像中的每个文字并将有异常像素点的文字记为超线文字。
处理器1调用存储器5中存储的图像压缩程序时,还执行以下操作:
获取待压缩图像和标准图像中对应的两个表框区域的框线像素点的灰度值;计算对应的两个表框区域中相对位置的框线像素点的第一灰度差值;根据第一灰度差值及预设的第一差值阈值确定框线像素点中的异常像素点。
处理器1调用存储器5中存储的图像压缩程序时,还执行以下操作:
获取异常像素点与其6邻域内的像素点的第二灰度差值,其中,异常像素点在水平框线时,6邻域内的像素点为异常像素点的8邻域内去除异常像素点左右邻域的像素点所剩余的像素点;异常像素点在竖直框线时,6邻域内的邻域像素点为异常像素点的8邻域内去除异常像素点上下邻域的像素点所剩余的像素点;根据第二灰度差值与预设的第二差值阈值确定异常像素点的邻域内的连接像素点;依次获取将连接像素点作为异常像素点时其8邻域内对应的连接像素点得到多个连接像素点构成该异常像素点的连接像素点集合;并获取每个异常像素点对应的连接像素点集合;将每个异常像素点与其对应的连接像素点集合中的连接像素点依次连接形成文字笔画的方向。
处理器1调用存储器5中存储的图像压缩程序时,还执行以下操作:
获取超线文字的笔画上每个像素点的位置坐标;根据超线文字的笔画上每个像素点的位置坐标计算超线文字的对应笔画中每两个连续且相邻像素点的欧式距离;将该超线文字所在的表框区域的文字部分对应的所有欧式距离的和记为该超线文字在该表框区域对应的总欧式距离;将每个总欧式距离分为多个单位距离;获取该超线文字分别在两个对应表框区域内的单位距离内角点的数量;计算同一个表框区域内每个单位距离的角点数量与角点总数的比值;根据同一个表框区域内每个单位距离的角点数量与角点总数的比值、单位距离的数量计算该表框区域内的文字部分对文字整体的影响程度。
处理器1调用存储器5中存储的图像压缩程序时,还执行以下操作:
获取超线文字的笔画上每个像素点的位置坐标;根据超线文字的笔画上每个像素点的位置坐标计算超线文字的对应笔画中每两个连续且相邻像素点的欧式距离。
处理器1调用存储器5中存储的图像压缩程序时,还执行以下操作:
获取超线文字的超线部分修正前的表框区域的编码顺序记为原编码顺序;超线文字的超线部分的归属区域对应的表框区域的编码顺序记为最终编码顺序;根据原编码顺序与最终编码顺序获取修正参数;根据修正参数将超线文字的超线部分的所有像素对应的原编码顺序修正为最终编码顺序。
综上所述,本发明提供一种用于档案的图像压缩方法、***及介质,通过对档案中的文字进行检测,将超线文字中超出框线的文字部分进行归属判断,修正超线文字中超线部分所归属的表框区域,然后设定表框区域的编码顺序,根据修正后的修正超线文字中超线部分所归属的表框区域的编码顺序对每个表框区域中的文字数据进行霍夫曼编码得到压缩数据,避免了书写不规范中的超线压线文字对数据压缩的影响,保证数据压缩的完整性,从而提高压缩效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于档案的图像压缩方法,其特征在于,该方法包括:
获取档案的待压缩图像及其灰度图像;
根据档案内容将灰度图像分割为多个表框区域,获取表框区域中的超出框线的超线文字及其超出的框线;
分别获取超线文字在其超出的框线两侧的表框区域内的文字部分对应的角点数量,根据超线文字的角点总数及其在对应表框区域内的角点数量分别计算该两个表框区域内的文字部分对文字整体的影响程度;
根据表框区域内的文字部分对文字整体的影响程度、文字部分所对应的像素点个数计算该超线文字属于表框区域的归属值;
根据超线文字对应两个表框区域的归属值的大小确定超线文字的超线部分对应的归属区域;
设定所有表框区域编码顺序,根据超线文字的超线部分的表框区域及归属区域对应的编码顺序对超线文字的超线部分的编码顺序进行修正,根据修正后的编码顺序及正常文字的对应的表框区域的编码顺序依次对档案中表框区域的内容进行霍夫曼编码得到压缩数据。
2.根据权利要求1所述的一种用于档案的图像压缩方法,其特征在于,获取表框区域中的超出框线的超线文字的步骤包括:
获取档案的待压缩图像对应的标准图像;
将标准图像、待压缩图像中对应的表框区域进行匹配获取待压缩图像的框线像素点中的异常像素点;
根据异常像素点与其邻域内像素点的灰度值获取文字笔画的对应的连接像素点集合并获取文字笔画的方向,分割出灰度图像中的每个文字并将有异常像素点的文字记为超线文字。
3.根据权利要求2所述的一种用于档案的图像压缩方法,其特征在于,将标准图像、待压缩图像中对应的表框区域进行匹配获取待压缩图像的框线像素点中的异常像素点的步骤包括:
获取标准图像、待压缩图像中对应的两个表框区域的框线像素点的灰度值;
计算对应的两个表框区域中相对位置的框线像素点的第一灰度差值;
根据第一灰度差值及预设的第一差值阈值确定框线像素点中的异常像素点。
4.根据权利要求2所述的一种用于档案的图像压缩方法,其特征在于,根据异常像素点与其邻域内其余像素点的灰度值获取文字笔画的对应的连接像素点集合并获取文字笔画的方向的步骤包括:
获取异常像素点与其6邻域内的像素点的第二灰度差值,其中,异常像素点在水平框线时,6邻域内的像素点为异常像素点的8邻域内去除异常像素点左右邻域的像素点所剩余的像素点;异常像素点在竖直框线时,6邻域内的邻域像素点为异常像素点的8邻域内去除异常像素点上下邻域的像素点所剩余的像素点;
根据第二灰度差值与预设的第二差值阈值确定异常像素点的邻域内的连接像素点;
依次获取将连接像素点作为异常像素点时其8邻域内对应的连接像素点,得到多个连接像素点构成该异常像素点的连接像素点集合;并获取每个异常像素点对应的连接像素点集合;
将每个异常像素点与其对应的连接像素点集合中的连接像素点依次连接形成文字笔画的方向。
5.根据权利要求1所述的一种用于档案的图像压缩方法,其特征在于,根据超线文字的角点总数及其在对应表框区域内的角点数量分别计算该两个表框区域内的文字部分对文字整体的影响程度的步骤包括:
分别获取超线文字在对应表框区域的文字部分中每个笔画的每两个连续且相邻像素点的欧式距离;
将该超线文字所在的表框区域的文字部分对应的所有欧式距离的和记为该超线文字在该表框区域对应的总欧式距离;
将每个总欧式距离分为多个单位距离;
获取该超线文字分别在两个对应表框区域内的单位距离内角点的数量;
计算同一个表框区域内每个单位距离的角点数量与角点总数的比值;
根据同一个表框区域内每个单位距离的角点数量与角点总数的比值、单位距离的数量计算该表框区域内的文字部分对文字整体的影响程度。
6.根据权利要求5所述的一种用于档案的图像压缩方法,其特征在于,分别获取超线文字在对应表框区域的文字部分中每个笔画的每两个连续且相邻像素点的欧式距离的步骤包括:
获取超线文字的笔画上每个像素点的位置坐标;
根据超线文字的笔画上每个像素点的位置坐标计算超线文字的对应笔画中每两个连续且相邻像素点的欧式距离。
7.根据权利要求1所述的一种用于档案的图像压缩方法,其特征在于,计算超线文字属于表框区域的归属值的公式:
Figure 796604DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
表示该超线文字属于第i个表框区域的归属值;
Figure 434389DEST_PATH_IMAGE004
表示该超线文字在第i个表框区域的文字部分对文字整体的影响程度;
Figure DEST_PATH_IMAGE005
表示该超线文字在第i个表框区域的文字部分的像素点的个数;
Figure 756917DEST_PATH_IMAGE006
表示影响程度的权重系数;
Figure DEST_PATH_IMAGE007
表示像素点的个数的权重系数。
8.根据权利要求1所述的一种用于档案的图像压缩方法,其特征在于,根据超线文字的超线部分的表框区域及归属区域对应的编码顺序对超线文字的超线部分的编码顺序进行修正的步骤包括:
获取超线文字的超线部分修正前的表框区域的编码顺序记为原编码顺序;
超线文字的超线部分的归属区域对应的表框区域的编码顺序记为最终编码顺序;
根据原编码顺序与最终编码顺序获取修正参数;
根据修正参数将超线文字的超线部分的所有像素对应的原编码顺序修正为最终编码顺序。
9.一种用于档案的图像压缩***,其特征在于,该***包括:
图像采集模块,用于获取档案的待压缩图像及其灰度图像;
图像处理模块,用于根据档案内容将灰度图像分割为多个表框区域,获取表框区域中的超出框线的超线文字;
第一参数计算模块,用于分别获取超线文字在其超出的框线两侧的表框区域内的文字部分对应的角点数量,根据超线文字的角点总数及其在对应表框区域内的角点数量、分别计算该两个表框区域内的文字部分对文字整体的影响程度;
第二参数计算模块,用于根据表框区域内的文字部分对文字整体的影响程度、文字部分所对应的像素点个数计算该超线文字属于表框区域的归属值;
归属确定模块,用于根据超线文字对应两个表框区域的归属值的大小确定超线文字的超线部分对应的归属区域;
修正编码模块,设定所有表框区域编码顺序,根据超线文字的超线部分的表框区域及归属区域对应的编码顺序对超线文字的超线部分的编码顺序进行修正,根据修正后的编码顺序及正常文字的对应的表框区域的编码顺序依次对档案中表框区域的内容进行霍夫曼编码得到压缩数据。
10.一种存储介质,其特征在于,其上存储有图像压缩程序,所述图像压缩程序被处理器执行时实现权利要求1-8任一项所述的用于档案的图像压缩方法的步骤。
CN202210844132.7A 2022-07-19 2022-07-19 一种用于档案的图像压缩方法、***及介质 Active CN114915788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210844132.7A CN114915788B (zh) 2022-07-19 2022-07-19 一种用于档案的图像压缩方法、***及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210844132.7A CN114915788B (zh) 2022-07-19 2022-07-19 一种用于档案的图像压缩方法、***及介质

Publications (2)

Publication Number Publication Date
CN114915788A true CN114915788A (zh) 2022-08-16
CN114915788B CN114915788B (zh) 2022-09-13

Family

ID=82772280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210844132.7A Active CN114915788B (zh) 2022-07-19 2022-07-19 一种用于档案的图像压缩方法、***及介质

Country Status (1)

Country Link
CN (1) CN114915788B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719483A (zh) * 2023-08-09 2023-09-08 成都泛联智存科技有限公司 数据去重方法、装置、存储设备和计算机可读存储介质
CN116861271A (zh) * 2023-09-05 2023-10-10 智联信通科技股份有限公司 基于大数据的数据分析处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061398A (en) * 1996-03-11 2000-05-09 Fujitsu Limited Method of and apparatus for compressing and restoring data
US6731800B1 (en) * 1999-12-04 2004-05-04 Algo Vision Lura Tech Gmbh Method for compressing scanned, colored and gray-scaled documents
CN1617567A (zh) * 2003-11-11 2005-05-18 富士通株式会社 彩色图像压缩方法和装置
CN1687969A (zh) * 2005-05-12 2005-10-26 北京航空航天大学 基于文档图像内容分析与特征提取的文档图像压缩方法
US20080159640A1 (en) * 2003-11-06 2008-07-03 Chaoqiang Liu Document Image Encoding Decoding
CN111275049A (zh) * 2020-01-19 2020-06-12 佛山市国方识别科技有限公司 一种文字图像骨架特征描述符获取的方法及装置
CN111918065A (zh) * 2019-05-08 2020-11-10 中兴通讯股份有限公司 一种信息压缩/解压缩方法及装置
CN114092938A (zh) * 2022-01-19 2022-02-25 腾讯科技(深圳)有限公司 图像的识别处理方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061398A (en) * 1996-03-11 2000-05-09 Fujitsu Limited Method of and apparatus for compressing and restoring data
US6731800B1 (en) * 1999-12-04 2004-05-04 Algo Vision Lura Tech Gmbh Method for compressing scanned, colored and gray-scaled documents
US20080159640A1 (en) * 2003-11-06 2008-07-03 Chaoqiang Liu Document Image Encoding Decoding
CN1617567A (zh) * 2003-11-11 2005-05-18 富士通株式会社 彩色图像压缩方法和装置
CN1687969A (zh) * 2005-05-12 2005-10-26 北京航空航天大学 基于文档图像内容分析与特征提取的文档图像压缩方法
CN111918065A (zh) * 2019-05-08 2020-11-10 中兴通讯股份有限公司 一种信息压缩/解压缩方法及装置
CN111275049A (zh) * 2020-01-19 2020-06-12 佛山市国方识别科技有限公司 一种文字图像骨架特征描述符获取的方法及装置
CN114092938A (zh) * 2022-01-19 2022-02-25 腾讯科技(深圳)有限公司 图像的识别处理方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张重阳等: "基于灰度图像的表格框线去除算法", 《计算机研究与发展》 *
田破荒等: "基于文字穿越线和笔画连通性的视频文字提取方法", 《电子学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719483A (zh) * 2023-08-09 2023-09-08 成都泛联智存科技有限公司 数据去重方法、装置、存储设备和计算机可读存储介质
CN116719483B (zh) * 2023-08-09 2023-10-27 成都泛联智存科技有限公司 数据去重方法、装置、存储设备和计算机可读存储介质
CN116861271A (zh) * 2023-09-05 2023-10-10 智联信通科技股份有限公司 基于大数据的数据分析处理方法
CN116861271B (zh) * 2023-09-05 2023-12-08 智联信通科技股份有限公司 基于大数据的数据分析处理方法

Also Published As

Publication number Publication date
CN114915788B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN114915788B (zh) 一种用于档案的图像压缩方法、***及介质
JP3634419B2 (ja) 画像処理方法および画像処理装置
JP3345350B2 (ja) 文書画像認識装置、その方法、及び記録媒体
US8401306B2 (en) Image processing apparatus and control method
JP5768590B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN114155546B (zh) 一种图像矫正方法、装置、电子设备和存储介质
WO1993012610A1 (en) Method and apparatus for compression of images
JPH03119486A (ja) 記入済書式に含まれている情報を記憶または伝送のために圧縮する方法
JP5874497B2 (ja) 画像処理装置および画像処理プログラム
CN109255752B (zh) 图像自适应压缩方法、装置、终端及存储介质
CN111881659B (zh) 表格图片的处理方法、***、可读存储介质及计算机设备
CN110210467B (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
JP3957734B1 (ja) プログラム、情報記憶媒体、2次元コード生成システム、2次元コード
JP6474504B1 (ja) 手書文字認識システム
CN116580220B (zh) 一种数字政府平台数据优化传输方法及***
JP4605260B2 (ja) ベクタ画像生成方法、画像処理装置、およびコンピュータプログラム
US10341671B2 (en) Method and system for image compression
CN109741426B (zh) 一种漫画形式转化方法和装置
CN111881998A (zh) 一种白屏检测方法
CN116030114A (zh) 物电同源电子印模的制作方法、装置、设备及介质
JP3957735B1 (ja) プログラム、情報記憶媒体、2次元コード生成システム、2次元コード
JP4792117B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
CN115082354B (zh) 一种传真图像处理方法、装置及可读介质
CN115205952B (zh) 一种基于深度学习的线上学习图像采集方法及***
JPH1117959A (ja) 2値画像のランレングス符号化方法およびランレングス符号化プログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant