CN112733834B - 一种基于非矩阵窗方式的字符区域定位方法 - Google Patents

一种基于非矩阵窗方式的字符区域定位方法 Download PDF

Info

Publication number
CN112733834B
CN112733834B CN202110337071.0A CN202110337071A CN112733834B CN 112733834 B CN112733834 B CN 112733834B CN 202110337071 A CN202110337071 A CN 202110337071A CN 112733834 B CN112733834 B CN 112733834B
Authority
CN
China
Prior art keywords
reading
area
window
linear window
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110337071.0A
Other languages
English (en)
Other versions
CN112733834A (zh
Inventor
郝晨
刘贯伟
张云峰
滕飞
江浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cashway Technology Co Ltd
Original Assignee
Cashway Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cashway Technology Co Ltd filed Critical Cashway Technology Co Ltd
Priority to CN202110337071.0A priority Critical patent/CN112733834B/zh
Publication of CN112733834A publication Critical patent/CN112733834A/zh
Application granted granted Critical
Publication of CN112733834B publication Critical patent/CN112733834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于非矩阵窗方式的字符区域定位方法,其特征在于,包括如下步骤:步骤一:设定一个连续的线性窗;步骤二:用线性窗作为处理原图的最小选取单元,对原图进行读取处理,读取步长为1个像素,若线性窗所覆盖的区域内存在有效信息,则将线性窗对应的原图区域像素值设为0,原图其他区域像素值不变;步骤三:读取完成后,对非0区域的像素置均设为255,则得到了冠字号区域的二值化图像,所述二值化图像中0值区域即为字符区域的冠字号最小范围。本发明不仅能缩短执行时间,且可有效去除冠字号周围干扰信息的影响,避免对标记区域进行二次精确定位。

Description

一种基于非矩阵窗方式的字符区域定位方法
技术领域
本发明属于金融票据字符识别领域,尤其涉及一种基于非矩阵窗方式的字符区域定位方法。
背景技术
在进行字符识别之前,需要在图像中对字符串的位置进行精确定位。采用深度学习方式可以很容易做到这一点,但是在嵌入式***以及高实时性要求的条件下依然需要采用较传统方式,如票据受理设备中,实时对金融票据进行高效识别。这就为字符串区域的精确定位提出了要求。
常规方式是采用矩阵窗的方式,对矩阵窗读取过的区域与原图字符比对并进行标记。该种方式能够很好的解决字符区域定位的问题。然而该方式也存在如下三个问题:
1、在实时性要求较高的情况,代码运行效率偏低。窗口遍历过程中,需要对原始图像每个像素进行跳跃寻址遍历。在窗口遍历过程中,步长的大小非常重要,选择不好会出现重复标记区域(即原图信息重复遍历),或者丢失重要信息等问题。相对来说代码执行效率相对较低,处理时间较长。
2、一般来说,对于背景单一的原始图像利用矩阵窗读取原图的方式必然导致识别的字符区域范围变大的问题,需要进行二次定位,才能达到精确定位的效果。
直接采用矩形窗口读取的方式获得的标记区域包括真实的字符区域(位于标记区域的左上部分),以及冗余信息(位于标记区域的右下部分),主要是由于矩形窗口过宽导致,其可以达到选取有效信息区域的目的,却无法实现对有效信息区域边界的精准定位。因此需要对标记区域进行二次精确定位,去除噪声信息。
3、对于冠字号区域背景单一,但在距离冠字号区域近的地方存在其他强干扰信息的情况下,标记结果会导致标记区域更加扩大。从而要识别的字符带有更多噪声信息,降低识别效果。
如图1--图3所示,利用矩阵窗口读取标定区域时,定位的冠字号区域明显含有冗余信息。要想得到更加精确的区域,需要对标记区域进行二次精确定位,这不仅增加了处理的步骤和代码复杂度;同时,由于图像在内存中是连续存储的,矩阵窗口读取方式每次都要利用跳变寻址,也会大大增加处理时间。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于非矩阵窗方式的字符区域定位方法,不仅能缩短执行时间,且可有效去除冠字号周围干扰信息的影响,避免对标记区域进行二次精确定位。
为实现本发明的目的所采用的技术方案是:
一种基于非矩阵窗方式的字符区域定位方法,其特征在于,包括如下步骤:
步骤一:设定一个连续的线性窗;
步骤二:用线性窗作为处理原图的最小选取单元,对原图进行读取处理,读取步长为1个像素,若线性窗所覆盖的区域内存在有效信息,则将线性窗对应的原图区域像素值设为0,原图其他区域像素值不变;
步骤三:读取完成后,对非0区域的像素置均设为255,则得到了冠字号区域的二值化图像,所述二值化图像中0值区域即为字符区域的冠字号最小范围。
作为优选的,线性窗的长度是计算机一次读取单元的整数倍。
作为优选的,有效信息指的是冠字号信息,相对于有效信息的其他部分为图像无冠字号的背景区域。
作为优选的,通过阈值比较法判断线性窗所覆盖的区域内是否存在有效信息。
作为优选的,采用顺序读取方式,读取方向从左至右,再从上到下。
作为优选的,假设线性窗的长度为n,则读取同一行时,相邻读取两步之间重复读取的原图长度为n-1。
作为优选的,步骤二中,对原图进行读取处理的方法为:采用线性窗进行整体读取,再分成若干份同时进行识别处理,识别份数等于线性窗长度是一次读取单元的整数倍数。
本发明的有益效果在于:
1.本发明将传统矩阵按照存储方式拉伸,并配合存储器寻址特性整体读取分别处理。相比于矩阵窗方式在高度上缩小了标记的多余区域,为精确标定字符串区域节约了二次定位的步骤。
2.无需进行二次再提取,采用更加符合计算机读取单元特性,且顺序寻址的方式,不仅能直接标定字符串有效区域,还能极大的压缩寻址及读写时间。
附图说明
图1是待处理的示意原图。
图2是采用矩阵窗方式定位的字符串位置。
图3是采用矩阵窗方式的定位结果。
图4是采用本发明的改进后的非矩阵窗方式定位的字符串位置。
图5是采用本发明的改进后的非矩阵窗方式的定位结果。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的技术方案主要是将传统的矩阵窗按照符合计算机存储的方式拉伸,并配合存储器寻址特性:整体读取,分别处理。在窗口读取过程中,会读取所有窗口框选信息,但是单位窗口的信息会被拆分为若干个部分,并对若干个部分分别进行判断处理。
其具体实现方法是:
步骤一:设定一个连续的线性窗;线性窗的长度根据实际问题设定,但是必须是计算机一次读取单元的整数倍。如1*10向量。满足数据类型是一次读取单元的整数倍,如此可以加快读取速度。比如采用4个像素单位为一个读取单元的处理方式,根据实际冠字号的间隔及区域大小,最终选取线性窗大小为五个读取单元,即一次处理20个像素的方式,既能保证处理效果,又能保证处理速度最优。
CPU一次读写单元是按照1,2,4,8个字节(像素)进行的。对于矩形窗来说,只能单字节读取,而线性窗则可以根据实际需要选择不同的最小读取单元,这样能够充分发挥CPU的运算效能从而提高效率。本专利选取的是以一次读取4个字节(像素)的处理方式进行的。
步骤二:用线性窗作为处理原图的最小选取单元对原图进行读取处理,读取步长为1个像素,通过阈值比较法判断线性窗所覆盖的区域内是否存在有效信息。阈值比较法是用于图像二值化处理的,设定一个阈值,对大于等于阈值的数设定为255,对小于阈值的数设定为0,从而实现对图像的二值化处理,二值化阈值的选取方法有很多,双峰法、迭代法等,可以选用现有技术中的方法进行阈值的选取。
若线性窗所覆盖的区域内存在有效信息,则将线性窗对应的原图区域像素值设为0,原图其他区域像素值不变;读取完成后可以获得冠字号有效信息区域,同时也可以很好的排除干扰区域信息。有效信息指的是冠字号信息,相对于有效信息的其他部分为图像无冠字号的背景区域。
假设线性窗的长度为n,则读取同一行时,相邻读取两步之间重复读取的原图长度为(n-1)。仍以一次处理20个像素的方式来具体说明,即线性窗的长度为20个像素,则顺序读取时,同一行内,下一步与本步重复读取识别的长度为19个像素。不需要跳变寻址,只需要顺序读取即可,降低了处理时间。
步骤三:采用顺序读取方式,读取方向从左至右,再从上到下,读取完成后,对非0区域的像素置均设为255,则得到了冠字号区域的二值化图像,所述二值化图像中0值区域即为字符区域的最小范围。
为了进一步增加处理效率,采用线性窗进行整体读取后,再分成若干份同时进行识别处理,份数等于线性窗长度是一次读取单元的整数倍数。仍以采用4个像素单位为一个读取单元的处理方式,一次处理20个像素的方式来具体说明,一次性读取了20个像素后,分成5个部分同时进行识别处理。
如图4--图5所示,是利用此方案完成一次精确定位的处理结果。相较于矩阵窗读取方式的结果,可明显看到标记区域含有有效信息,且高度缩小,冗余信息减小,无需进行二次精确定位。同时采取顺序处理方式,极大的减小了寻址与读写时间。
从问题优化的角度,线性窗其更符合实际问题的需要,并且在处理的精度和速度方面获得了巨大的效果提升。具体如下:
精度提升方面:
通常图像处理加窗普遍采用矩阵窗,如3*3或者5*5等。其通用性在于已经是矩阵窗的最小单元,因此使用十分普及。该方式适用于对图像边界区域要求不高的,且注重内容信息的情况。而对于既要求注重内容信息又对有效信息区域边界精准要求的情况,就存在不利的问题。其直接表现为,区域边界的定位需要二次定位才能达到精准效果。因此,线性窗的优势就发挥出来。只需要一次定位就可以准确确定有效区域的边界,且精度很高。
处理效率提升方面:
1.虽然矩形窗,如3*3在数量上,比前文提到的20个像素的数量少。但是矩阵窗是二维结构,计算机在执行过程中需要频繁的行列寻址切换,相比于线性窗的顺序寻址,执行效率要慢的多。
2.在图像处理中,每一个处理步骤的执行都必然存在图像的遍历处理。矩阵窗的方式需要二次定位处理,在实际运行中则需要增加很多的遍历处理次数,执行效率比线性窗方式慢很多。
3. 现有技术中矩阵窗方式普遍大小为3*3,5*5等。这意味着按照矩阵窗方式处理,其处理时间至少为九个像素所用时间。由于计算机的存储结构适合1,4,5,8个像素为一个读取单元。因此以4个像素为一个处理单元进行处理,对于20个像素的线性窗的处理速度,相当于仅需要5个像素的处理时间即可完成,比普遍采用的3*3矩阵窗的9个像素处理速度要快。
4.经过实际测定,采用线性窗方案的字符定位处理效果上,其处理时间要比矩阵窗方式提升2-3ms。对于实时性要求高的领域,该时间可谓大幅提升。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于非矩阵窗方式的字符区域定位方法,其特征在于,包括如下步骤:
步骤一:设定一个连续的线性窗;
步骤二:用线性窗作为处理原图的最小选取单元,对原图进行读取处理,读取步长为1个像素,若线性窗所覆盖的区域内存在有效信息,则将线性窗对应的原图区域像素值设为0,原图其他区域像素值不变;
步骤三:读取完成后,对非0区域的像素置均设为255,则得到了冠字号区域的二值化图像,所述二值化图像中0值区域即为字符区域的冠字号最小范围。
2.根据权利要求1所述的一种基于非矩阵窗方式的字符区域定位方法,其特征在于,线性窗的长度是计算机一次读取单元的整数倍。
3.根据权利要求1所述的一种基于非矩阵窗方式的字符区域定位方法,其特征在于,有效信息指的是冠字号信息,相对于有效信息的其他部分为图像无冠字号的背景区域。
4.根据权利要求1所述的一种基于非矩阵窗方式的字符区域定位方法,其特征在于,通过阈值比较法判断线性窗所覆盖的区域内是否存在有效信息。
5.根据权利要求1所述的一种基于非矩阵窗方式的字符区域定位方法,其特征在于,采用顺序读取方式,读取方向从左至右,再从上到下。
6.根据权利要求1所述的一种基于非矩阵窗方式的字符区域定位方法,其特征在于,假设线性窗的长度为n,则读取同一行时,相邻读取两步之间重复读取的原图长度为n-1。
7.根据权利要求2所述的一种基于非矩阵窗方式的字符区域定位方法,其特征在于,步骤二中,对原图进行读取处理的方法为:采用线性窗进行整体读取,再分成若干份同时进行识别处理,识别份数等于线性窗长度是一次读取单元的整数倍数。
CN202110337071.0A 2021-03-30 2021-03-30 一种基于非矩阵窗方式的字符区域定位方法 Active CN112733834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337071.0A CN112733834B (zh) 2021-03-30 2021-03-30 一种基于非矩阵窗方式的字符区域定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337071.0A CN112733834B (zh) 2021-03-30 2021-03-30 一种基于非矩阵窗方式的字符区域定位方法

Publications (2)

Publication Number Publication Date
CN112733834A CN112733834A (zh) 2021-04-30
CN112733834B true CN112733834B (zh) 2021-07-06

Family

ID=75595970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337071.0A Active CN112733834B (zh) 2021-03-30 2021-03-30 一种基于非矩阵窗方式的字符区域定位方法

Country Status (1)

Country Link
CN (1) CN112733834B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504717A (zh) * 2008-07-28 2009-08-12 上海高德威智能交通***有限公司 特征区域的定位方法、车身深浅色与车身颜色的识别方法
CN102831416A (zh) * 2012-08-15 2012-12-19 广州广电运通金融电子股份有限公司 一种字符识别方法及相关装置
CN103488978A (zh) * 2013-09-26 2014-01-01 浙江工业大学 一种基于灰度跳变和字符投影间隔模式的车牌定位方法
CN103617422A (zh) * 2013-10-29 2014-03-05 浙江工业大学 一种基于名片识别的社交关系管理方法
CN105069452A (zh) * 2015-08-07 2015-11-18 武汉理工大学 基于局部结构分析的直线移除方法
CN105335745A (zh) * 2015-11-27 2016-02-17 小米科技有限责任公司 图像中数字的识别方法、装置及设备
CN105701489A (zh) * 2016-01-14 2016-06-22 云南大学 一种新型的数字提取和识别的方法及***
CN106127817A (zh) * 2016-06-28 2016-11-16 广东工业大学 一种基于通道的图像二值化方法
CN108230535A (zh) * 2016-12-22 2018-06-29 深圳怡化电脑股份有限公司 一种纸币的面向识别方法及装置
CN108734161A (zh) * 2017-04-13 2018-11-02 深圳怡化电脑股份有限公司 冠字号区域的识别方法、装置、设备及存储介质
CN111767752A (zh) * 2020-06-11 2020-10-13 网易宝有限公司 一种二维码识别方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504717A (zh) * 2008-07-28 2009-08-12 上海高德威智能交通***有限公司 特征区域的定位方法、车身深浅色与车身颜色的识别方法
CN102831416A (zh) * 2012-08-15 2012-12-19 广州广电运通金融电子股份有限公司 一种字符识别方法及相关装置
CN103488978A (zh) * 2013-09-26 2014-01-01 浙江工业大学 一种基于灰度跳变和字符投影间隔模式的车牌定位方法
CN103617422A (zh) * 2013-10-29 2014-03-05 浙江工业大学 一种基于名片识别的社交关系管理方法
CN105069452A (zh) * 2015-08-07 2015-11-18 武汉理工大学 基于局部结构分析的直线移除方法
CN105335745A (zh) * 2015-11-27 2016-02-17 小米科技有限责任公司 图像中数字的识别方法、装置及设备
CN105701489A (zh) * 2016-01-14 2016-06-22 云南大学 一种新型的数字提取和识别的方法及***
CN106127817A (zh) * 2016-06-28 2016-11-16 广东工业大学 一种基于通道的图像二值化方法
CN108230535A (zh) * 2016-12-22 2018-06-29 深圳怡化电脑股份有限公司 一种纸币的面向识别方法及装置
CN108734161A (zh) * 2017-04-13 2018-11-02 深圳怡化电脑股份有限公司 冠字号区域的识别方法、装置、设备及存储介质
CN111767752A (zh) * 2020-06-11 2020-10-13 网易宝有限公司 一种二维码识别方法及装置

Also Published As

Publication number Publication date
CN112733834A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
JP3356612B2 (ja) 高速な輪郭スムージング方法及び装置
CN111723585A (zh) 一种风格可控的图像文本实时翻译与转换方法
CN112528813B (zh) 表格识别方法、装置以及计算机可读存储介质
EP0173098A2 (en) Pattern outline tracking method and apparatus
CN113486956B (zh) 目标分割***及其训练方法、目标分割方法及设备
JPH01277981A (ja) 文字認識装置
US7980473B2 (en) Camera based code reading
EP0513678A2 (en) Fast character segmentation of skewed text lines for optical character recognition
CN104778687A (zh) 一种图像匹配方法和装置
CN108734161B (zh) 冠字号区域的识别方法、装置、设备及存储介质
US5170442A (en) Character pattern transforming system
CN108830278A (zh) 一种字符串图像识别方法
US4776024A (en) System for segmenting character components
CN105516540A (zh) 二值图像的压缩方法及装置
CN112733834B (zh) 一种基于非矩阵窗方式的字符区域定位方法
CN112541370B (zh) 一种基于fpga的qr码位置探测图形定位方法
CN117037185B (zh) 一种基于光学字符识别技术的导线线号识别方法及装置
CN108876701B (zh) 一种基于游程的单次扫描连通域标记方法及其硬件结构
CN112270704B (zh) 一种基于数据链表结构的星点质心提取方法
WO2019019681A1 (zh) 身份证图像的倾斜值获取方法及装置、终端、存储介质
US10140681B2 (en) Caching method of graphic processing unit
KR930011770B1 (ko) 고품질 패턴 발생장치 및 방법
CN112330611A (zh) 一种面向fpga的高并行性光斑分割方法
JPH0516632B2 (zh)
CN114463238A (zh) 图像融合方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant