CN106886776A

CN106886776A - 一种利用图像识别实现证照电子化的应用模型

Info

Publication number: CN106886776A
Application number: CN201710099520.6A
Authority: CN
Inventors: 宁方刚; 王冠军; 陈兆亮
Original assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Current assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2017-06-23

Abstract

本发明提供一种利用图像识别实现证照电子化的应用模型，属于图像识别领域，本发明基于图像分析和OCR识别技术，通过对图像二值化处理和特征区域识别后，利用OCR识别技术对图像上的文字进行解析和规范化处理；对证照图像特征进行分析处理；读取中文文字库，识别证照图像中的文字，处理特殊字符，规范为key‑value格式。通过图像识别实现证照电子化，可以实现将过去颁发的证照电子化，减少用户手工录入的工作。

Description

一种利用图像识别实现证照电子化的应用模型

技术领域

本发明涉及图像识别技术，尤其涉及一种利用图像识别实现证照电子化的应用模型。

背景技术

近几年来，国家不断在推进政务办理信息化，并且取得了比较显著的效果，基本上已经能够实现网上办事的需求。国家顺着这个发展的趋势，国务院办公厅最近转了发国家***、财政部、***、公安部、民政部、人社部、住建部、国家卫计委、国务院法制办、国家标准委等10部门《推进“互联网+政务服务”开展信息惠民试点实施方案》（国办发[23]号文），方案强调加快推进互联网+政务服务，深入实施信息惠民工程，运用大数据等现代信息技术，强化部门协同联动，打破信息孤岛，促进办事部门政务服务相互衔接，深入实施信息惠民工程，构建方便快捷、公平惠普、优质高效的政务服务体系。

网上办事对于证照需要扫描或复印，极大程度制约了网上办事，迫切需要依托新手段、新思维、新方式来构建现代化的网上办事体系，而电子证照库可以解决网上办事瓶颈，实现真正网上办事。

在电子证照推广的过程中，需要对大量的在实施证照电子化前颁发的存量证照重新建立它们的电子模型，录入证照***保存。如果对这些存量证照，逐一采用手工录入的方式采集到电子证照***中，其中的工作量巨大，不利于证照电子化工作的开展。为了更快更好地推广电子证照，急需一种有效的方法来协助进行证照的电子化，减小证照录入的工作量，解决存量证照电子化的问题。

发明内容

为了解决以上技术问题，本发明提出了一种利用图像识别实现证照电子化的应用模型。通过图像识别实现证照电子化，可以实现将过去颁发的证照电子化，减少用户手工录入的工作。

本发明基于图像分析和OCR识别技术，通过对图像二值化处理和特征区域识别后，利用OCR识别技术对图像上的文字进行解析和规范化处理；

对证照图像特征进行分析处理；

读取中文文字库，识别证照图像中的文字，处理特殊字符，规范为key-value格式。

主要包括三个步骤，图像预处理、文字提取、信息映射三个步骤，

1）利用OpenCV对图像预处理去除噪声，提取出文字区域，提高识别效率；

2）借助Tesseract-OCR进行文字识别，并对识别结果作规范化处理；

3）读取证照模板的配置信息，与识别结果匹配，实现将证照图像信息映射到证照的电子模型中，并将证照的电子化结果进行存储。

图像预处理阶段是基于开源项目OpenCV实现的，目的在于去除图像中的噪声，提高识别效率。首先，对用户上传的证照图像进行灰度化处理，选择[0,255]中适当的阈值作图像二值化处理；针对图像边缘的干扰，利用MSER算法进行连通区域特征检测，找出图像的稳定区域；最后，进行图像小区域筛选和链接，生成待识别的图像。

在文字提取阶段，将预处理过的图像送入开源的文字识别软件，Tesseract-OCR。Tesseract-OCR对图像进行布局分析，区分出图像的表格、图片、文本信息，之后利用字符间的间隔进行切分，依据中文字库等信息对文字进行解析，得出识别文本，从而生成初步的识别结果。***在获取到初步的识别结果后，去除结果中的空格等特殊字符，对识别结果进行规范化，令识别结果按key-value的形式组织，返回处理后的识别结果。

信息映射阶段，获取证照模板的配置信息，确定证照上具有的信息以及这些信息在纸质版上的标识，利用信息标识与文字识别结果进行匹配，从而将识别到的文字映射到证照的模型中。匹配结束后，在软件界面中向用户展示生成的电子证照信息，由用户在必要时对电子证照进行人工校正。

本发明的有益效果是

在电子证照推广的过程中，需要对已颁发的纸质证照进行电子化，如果由用户逐一对证照的照面信息进行手工录入无疑是项繁琐的工作，通过图像识别自动读取、映射证照的内容，从而实现证照的电子化，可以极大地降低用户的工作量，提高工作效率。

附图说明

图1是本发明的工作流程示意图；

图2是本发明的操作步骤示意图。

具体实施方式

下面根据附图对本发明的内容进行更加详细的阐述：

如图1所示，本发明的工作流程为

1）、用户上传纸质证照的照片或扫描件；

2）、后台程序基于OpenCV对图像进行预处理，对图像进行灰度化处理和文字区域识别；

3）程序基于Tesseract-OCR对处理后的图像上的文字进行识别，将识别结果格式化为key-value形式；

4）程序读取证照模板的配置信息，把文字识别结果映射到证照的电子模型上，将映射结果返回给用户，由用户进行校验和确认保存。

操作步骤如图2所示，

首先，对用户上传的证照图像进行灰度化处理，选择[0,255]中适当的阈值作图像二值化处理；针对图像边缘的干扰，利用MSER算法进行连通区域特征检测，找出图像的稳定区域；最后，进行图像小区域筛选和链接，生成待识别的图像。

Claims

1.一种利用图像识别实现证照电子化的应用模型，其特征在于，

基于图像分析和OCR识别技术，通过对图像二值化处理和特征区域识别后，利用OCR识别技术对图像上的文字进行解析和规范化处理；

对证照图像特征进行分析处理；

2.根据权利要求1所述的应用模型，其特征在于，

3.根据权利要求2所述的应用模型，其特征在于，

图像预处理阶段是基于开源项目OpenCV实现的，首先，对用户上传的证照图像进行灰度化处理，选择[0,255]中适当的阈值作图像二值化处理；针对图像边缘的干扰，利用MSER算法进行连通区域特征检测，找出图像的稳定区域；最后，进行图像小区域筛选和链接，生成待识别的图像。

4.根据权利要求3所述的应用模型，其特征在于，

在文字提取阶段，将预处理过的图像送入开源的文字识别软件，Tesseract-OCR；Tesseract-OCR对图像进行布局分析，区分出图像的表格、图片、文本信息，之后利用字符间的间隔进行切分，依据中文字库等信息对文字进行解析，得出识别文本，从而生成初步的识别结果；***在获取到初步的识别结果后，去除结果中的空格等特殊字符，对识别结果进行规范化，令识别结果按key-value的形式组织，返回处理后的识别结果。

5.根据权利要求4所述的应用模型，其特征在于，

信息映射阶段，获取证照模板的配置信息，确定证照上具有的信息以及这些信息在纸质版上的标识，利用信息标识与文字识别结果进行匹配，从而将识别到的文字映射到证照的模型中；匹配结束后，在软件界面中向用户展示生成的电子证照信息，由用户在必要时对电子证照进行人工校正。