CN106886776A - 一种利用图像识别实现证照电子化的应用模型 - Google Patents

一种利用图像识别实现证照电子化的应用模型 Download PDF

Info

Publication number
CN106886776A
CN106886776A CN201710099520.6A CN201710099520A CN106886776A CN 106886776 A CN106886776 A CN 106886776A CN 201710099520 A CN201710099520 A CN 201710099520A CN 106886776 A CN106886776 A CN 106886776A
Authority
CN
China
Prior art keywords
image
license
word
information
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710099520.6A
Other languages
English (en)
Inventor
宁方刚
王冠军
陈兆亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Cloud Service Information Technology Co Ltd
Original Assignee
Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Service Information Technology Co Ltd filed Critical Shandong Inspur Cloud Service Information Technology Co Ltd
Priority to CN201710099520.6A priority Critical patent/CN106886776A/zh
Publication of CN106886776A publication Critical patent/CN106886776A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种利用图像识别实现证照电子化的应用模型,属于图像识别领域,本发明基于图像分析和OCR识别技术,通过对图像二值化处理和特征区域识别后,利用OCR识别技术对图像上的文字进行解析和规范化处理;对证照图像特征进行分析处理;读取中文文字库,识别证照图像中的文字,处理特殊字符,规范为key‑value格式。通过图像识别实现证照电子化,可以实现将过去颁发的证照电子化,减少用户手工录入的工作。

Description

一种利用图像识别实现证照电子化的应用模型
技术领域
本发明涉及图像识别技术,尤其涉及一种利用图像识别实现证照电子化的应用模型。
背景技术
近几年来,国家不断在推进政务办理信息化,并且取得了比较显著的效果,基本上已经能够实现网上办事的需求。国家顺着这个发展的趋势,国务院办公厅最近转了发国家***、财政部、***、公安部、民政部、人社部、住建部、国家卫计委、国务院法制办、国家标准委等10部门《推进“互联网+政务服务”开展信息惠民试点实施方案》(国办发[23]号文),方案强调加快推进互联网+政务服务,深入实施信息惠民工程,运用大数据等现代信息技术,强化部门协同联动,打破信息孤岛,促进办事部门政务服务相互衔接,深入实施信息惠民工程,构建方便快捷、公平惠普、优质高效的政务服务体系。
网上办事对于证照需要扫描或复印,极大程度制约了网上办事,迫切需要依托新手段、新思维、新方式来构建现代化的网上办事体系,而电子证照库可以解决网上办事瓶颈,实现真正网上办事。
在电子证照推广的过程中,需要对大量的在实施证照电子化前颁发的存量证照重新建立它们的电子模型,录入证照***保存。如果对这些存量证照,逐一采用手工录入的方式采集到电子证照***中,其中的工作量巨大,不利于证照电子化工作的开展。为了更快更好地推广电子证照,急需一种有效的方法来协助进行证照的电子化,减小证照录入的工作量,解决存量证照电子化的问题。
发明内容
为了解决以上技术问题,本发明提出了一种利用图像识别实现证照电子化的应用模型。通过图像识别实现证照电子化,可以实现将过去颁发的证照电子化,减少用户手工录入的工作。
本发明基于图像分析和OCR识别技术,通过对图像二值化处理和特征区域识别后,利用OCR识别技术对图像上的文字进行解析和规范化处理;
对证照图像特征进行分析处理;
读取中文文字库,识别证照图像中的文字,处理特殊字符,规范为key-value格式。
主要包括三个步骤,图像预处理、文字提取、信息映射三个步骤,
1)利用OpenCV对图像预处理去除噪声,提取出文字区域,提高识别效率;
2)借助Tesseract-OCR进行文字识别,并对识别结果作规范化处理;
3)读取证照模板的配置信息,与识别结果匹配,实现将证照图像信息映射到证照的电子模型中,并将证照的电子化结果进行存储。
图像预处理阶段是基于开源项目OpenCV实现的,目的在于去除图像中的噪声,提高识别效率。首先,对用户上传的证照图像进行灰度化处理,选择[0,255]中适当的阈值作图像二值化处理;针对图像边缘的干扰,利用MSER算法进行连通区域特征检测,找出图像的稳定区域;最后,进行图像小区域筛选和链接,生成待识别的图像。
在文字提取阶段,将预处理过的图像送入开源的文字识别软件,Tesseract-OCR。Tesseract-OCR对图像进行布局分析,区分出图像的表格、图片、文本信息,之后利用字符间的间隔进行切分,依据中文字库等信息对文字进行解析,得出识别文本,从而生成初步的识别结果。***在获取到初步的识别结果后,去除结果中的空格等特殊字符,对识别结果进行规范化,令识别结果按key-value的形式组织,返回处理后的识别结果。
信息映射阶段,获取证照模板的配置信息,确定证照上具有的信息以及这些信息在纸质版上的标识,利用信息标识与文字识别结果进行匹配,从而将识别到的文字映射到证照的模型中。匹配结束后,在软件界面中向用户展示生成的电子证照信息,由用户在必要时对电子证照进行人工校正。
本发明的有益效果是
在电子证照推广的过程中,需要对已颁发的纸质证照进行电子化,如果由用户逐一对证照的照面信息进行手工录入无疑是项繁琐的工作,通过图像识别自动读取、映射证照的内容,从而实现证照的电子化,可以极大地降低用户的工作量,提高工作效率。
附图说明
图1是本发明的工作流程示意图;
图2是本发明的操作步骤示意图。
具体实施方式
下面根据附图对本发明的内容进行更加详细的阐述:
如图1所示,本发明的工作流程为
1)、用户上传纸质证照的照片或扫描件;
2)、后台程序基于OpenCV对图像进行预处理,对图像进行灰度化处理和文字区域识别;
3)程序基于Tesseract-OCR对处理后的图像上的文字进行识别,将识别结果格式化为key-value形式;
4)程序读取证照模板的配置信息,把文字识别结果映射到证照的电子模型上,将映射结果返回给用户,由用户进行校验和确认保存。
操作步骤如图2所示,
首先,对用户上传的证照图像进行灰度化处理,选择[0,255]中适当的阈值作图像二值化处理;针对图像边缘的干扰,利用MSER算法进行连通区域特征检测,找出图像的稳定区域;最后,进行图像小区域筛选和链接,生成待识别的图像。
在文字提取阶段,将预处理过的图像送入开源的文字识别软件,Tesseract-OCR。Tesseract-OCR对图像进行布局分析,区分出图像的表格、图片、文本信息,之后利用字符间的间隔进行切分,依据中文字库等信息对文字进行解析,得出识别文本,从而生成初步的识别结果。***在获取到初步的识别结果后,去除结果中的空格等特殊字符,对识别结果进行规范化,令识别结果按key-value的形式组织,返回处理后的识别结果。
信息映射阶段,获取证照模板的配置信息,确定证照上具有的信息以及这些信息在纸质版上的标识,利用信息标识与文字识别结果进行匹配,从而将识别到的文字映射到证照的模型中。匹配结束后,在软件界面中向用户展示生成的电子证照信息,由用户在必要时对电子证照进行人工校正。

Claims (5)

1.一种利用图像识别实现证照电子化的应用模型,其特征在于,
基于图像分析和OCR识别技术,通过对图像二值化处理和特征区域识别后,利用OCR识别技术对图像上的文字进行解析和规范化处理;
对证照图像特征进行分析处理;
读取中文文字库,识别证照图像中的文字,处理特殊字符,规范为key-value格式。
2.根据权利要求1所述的应用模型,其特征在于,
主要包括三个步骤,图像预处理、文字提取、信息映射三个步骤,
1)利用OpenCV对图像预处理去除噪声,提取出文字区域,提高识别效率;
2)借助Tesseract-OCR进行文字识别,并对识别结果作规范化处理;
3)读取证照模板的配置信息,与识别结果匹配,实现将证照图像信息映射到证照的电子模型中,并将证照的电子化结果进行存储。
3.根据权利要求2所述的应用模型,其特征在于,
图像预处理阶段是基于开源项目OpenCV实现的,首先,对用户上传的证照图像进行灰度化处理,选择[0,255]中适当的阈值作图像二值化处理;针对图像边缘的干扰,利用MSER算法进行连通区域特征检测,找出图像的稳定区域;最后,进行图像小区域筛选和链接,生成待识别的图像。
4.根据权利要求3所述的应用模型,其特征在于,
在文字提取阶段,将预处理过的图像送入开源的文字识别软件,Tesseract-OCR;Tesseract-OCR对图像进行布局分析,区分出图像的表格、图片、文本信息,之后利用字符间的间隔进行切分,依据中文字库等信息对文字进行解析,得出识别文本,从而生成初步的识别结果;***在获取到初步的识别结果后,去除结果中的空格等特殊字符,对识别结果进行规范化,令识别结果按key-value的形式组织,返回处理后的识别结果。
5.根据权利要求4所述的应用模型,其特征在于,
信息映射阶段,获取证照模板的配置信息,确定证照上具有的信息以及这些信息在纸质版上的标识,利用信息标识与文字识别结果进行匹配,从而将识别到的文字映射到证照的模型中;匹配结束后,在软件界面中向用户展示生成的电子证照信息,由用户在必要时对电子证照进行人工校正。
CN201710099520.6A 2017-02-23 2017-02-23 一种利用图像识别实现证照电子化的应用模型 Pending CN106886776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710099520.6A CN106886776A (zh) 2017-02-23 2017-02-23 一种利用图像识别实现证照电子化的应用模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710099520.6A CN106886776A (zh) 2017-02-23 2017-02-23 一种利用图像识别实现证照电子化的应用模型

Publications (1)

Publication Number Publication Date
CN106886776A true CN106886776A (zh) 2017-06-23

Family

ID=59180208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710099520.6A Pending CN106886776A (zh) 2017-02-23 2017-02-23 一种利用图像识别实现证照电子化的应用模型

Country Status (1)

Country Link
CN (1) CN106886776A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171239A (zh) * 2018-02-02 2018-06-15 杭州清本科技有限公司 证书图像文字的提取方法、装置及***、计算机存储介质
CN108256530A (zh) * 2017-12-29 2018-07-06 北京城市网邻信息技术有限公司 图像识别方法、装置和设备
CN108304843A (zh) * 2017-12-25 2018-07-20 山东浪潮云服务信息科技有限公司 一种图像审批方法及审批装置
CN112686237A (zh) * 2020-12-21 2021-04-20 福建新大陆软件工程有限公司 一种证照ocr识别方法
CN113642557A (zh) * 2021-08-10 2021-11-12 中国民用航空局信息中心 一种适航领域历史数据补录***及方法
CN115035520A (zh) * 2021-11-22 2022-09-09 荣耀终端有限公司 图像的文字识别方法、电子设备及存储介质
CN115116060A (zh) * 2022-08-25 2022-09-27 深圳前海环融联易信息科技服务有限公司 键值文件处理方法、装置、设备、介质和计算机程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933429A (zh) * 2015-06-01 2015-09-23 深圳市诺比邻科技有限公司 图像中信息提取的方法及装置
CN105046253A (zh) * 2015-06-24 2015-11-11 山西同方知网数字出版技术有限公司 一种基于ocr的论文封皮自动识别***及方法
CN105320952A (zh) * 2015-10-15 2016-02-10 广东广信通信服务有限公司 一种基于ocr的行驶证信息识别方法
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理***
CN106127659A (zh) * 2016-08-26 2016-11-16 南威软件股份有限公司 一种社区网格化管理***
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置
CN106446898A (zh) * 2016-09-14 2017-02-22 宇龙计算机通信科技(深圳)有限公司 一种图像中文字信息的提取方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933429A (zh) * 2015-06-01 2015-09-23 深圳市诺比邻科技有限公司 图像中信息提取的方法及装置
CN105046253A (zh) * 2015-06-24 2015-11-11 山西同方知网数字出版技术有限公司 一种基于ocr的论文封皮自动识别***及方法
CN105320952A (zh) * 2015-10-15 2016-02-10 广东广信通信服务有限公司 一种基于ocr的行驶证信息识别方法
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理***
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置
CN106127659A (zh) * 2016-08-26 2016-11-16 南威软件股份有限公司 一种社区网格化管理***
CN106446898A (zh) * 2016-09-14 2017-02-22 宇龙计算机通信科技(深圳)有限公司 一种图像中文字信息的提取方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304843A (zh) * 2017-12-25 2018-07-20 山东浪潮云服务信息科技有限公司 一种图像审批方法及审批装置
CN108256530A (zh) * 2017-12-29 2018-07-06 北京城市网邻信息技术有限公司 图像识别方法、装置和设备
CN108256530B (zh) * 2017-12-29 2021-12-07 北京城市网邻信息技术有限公司 图像识别方法、装置和设备
CN108171239A (zh) * 2018-02-02 2018-06-15 杭州清本科技有限公司 证书图像文字的提取方法、装置及***、计算机存储介质
CN112686237A (zh) * 2020-12-21 2021-04-20 福建新大陆软件工程有限公司 一种证照ocr识别方法
CN113642557A (zh) * 2021-08-10 2021-11-12 中国民用航空局信息中心 一种适航领域历史数据补录***及方法
CN115035520A (zh) * 2021-11-22 2022-09-09 荣耀终端有限公司 图像的文字识别方法、电子设备及存储介质
CN115035520B (zh) * 2021-11-22 2023-04-18 荣耀终端有限公司 图像的文字识别方法、电子设备及存储介质
CN115116060A (zh) * 2022-08-25 2022-09-27 深圳前海环融联易信息科技服务有限公司 键值文件处理方法、装置、设备、介质和计算机程序产品
CN115116060B (zh) * 2022-08-25 2023-01-24 深圳前海环融联易信息科技服务有限公司 键值文件处理方法、装置、设备、介质

Similar Documents

Publication Publication Date Title
CN106886776A (zh) 一种利用图像识别实现证照电子化的应用模型
Gatos et al. Automatic table detection in document images
CN104123550A (zh) 基于云计算的文本扫描识别方法
CN105574063A (zh) 基于视觉显著性的图像检索方法
Thokchom et al. Recognition of Handwritten Character of Manipuri Script.
CN111428710A (zh) 一种文件分类协作机器人及基于其的图像文字识别方法
CN107301414A (zh) 一种自然场景图像中的中文定位、分割和识别方法
Dongre et al. Devnagari handwritten numeral recognition using geometric features and statistical combination classifier
CN110889311A (zh) 金融电子传真文档识别***及方法
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
Agrawal et al. An algorithmic approach for text recognition from printed/typed text images
CN113139535A (zh) 一种ocr文档识别方法
CN101853313A (zh) 一种基于字型分类的手写字体库生成方法
CN110717397A (zh) 一种基于手机相机的在线翻译***
JPH11110481A (ja) フォームレンダリング及び文字抽出方法
CN115147703B (zh) 一种基于GinTrans网络的垃圾分割方法及***
JPS60114967A (ja) 画像フアイル装置
Soua et al. Improved Hybrid Binarization based on Kmeans for Heterogeneous document processing
Bhandare et al. Handwritten (Marathi) compound character recognition
Hegadi Recognition of printed Kannada numerals based on zoning method
Rajput et al. Handwritten script recognition using DCT, gabor filter and wavelet features at line level
Rajput et al. Handwritten script recognition at line level-a multiple feature based approach
CN117237971B (zh) 基于多模态信息抽取的食品类质检报告数据抽取方法
Sanjrani et al. Multilingual OCR systems for the regional languages in Balochistan
Wu et al. Identification of inpainted images and natural images for digital forensics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170623