CN112287969A

CN112287969A - 一种文字样本采集处理方法、自助终端设备及独立模块

Info

Publication number: CN112287969A
Application number: CN202011024128.3A
Authority: CN
Inventors: 胡焱; 索春宝; 牛鹏
Original assignee: Inspur Financial Information Technology Co Ltd
Current assignee: Inspur Financial Information Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-29

Abstract

本发明公开了一种文字样本采集处理方法、自助终端设备及独立模块，包括如下步骤，准备不同字体、字号的文字样本；不同的光照条件下采集文字样本，并对文字进行分割；不同光照条件下对打印到纸上的文字样本进行拍摄，并对文字进行分割，分割成分辨率相同的文字块，每一个字符一张图，并对图像进行灰度处理；对不同光照条件下分割得到的灰度图样本进行处理；对不同光照条件下分割得到的灰度图样本进行高斯核处理；本发明通过增加样本字体、字号，采集样本的光照条件，以及对样本进行多种图像处理方式的在处理，增加样本的多样性，可以得到鲁棒性更高的字符识别模型，提高证件识别的准确率。

Description

一种文字样本采集处理方法、自助终端设备及独立模块

技术领域

本发明涉及一种文字样本采集处理方法、自助终端设备及独立模块，具体的为一种证件识别模型深度学习训练文字样本采集处理方法、自助终端设备及独立模块，属于自助终端设备技术领域。

背景技术

证件识别已经出现了很长时间，随着各种终端设备的发现，应用场景在不断扩展，在门禁、金融、交通等领域，身份证、护照、驾驶证等证件的识别应用越来越广泛。证件识别发展初期，字符的识别采用的是基础的图像处理技术、特征匹配等，但在处理复杂场景下的字符识别时，传统方法有其局限性，深度学习技术的快速发展为文字识别提供了新的发展机遇，利用深度学习进行字符识别的模型训练，可有效提高字符识别的准确性，而且进行模型训练的字符样本的多样性可使字符识别的鲁棒性更高；字符样本的采集很大程度上决定了模型识别的效果，一般字符样本主要采集与待识别证件上的字符相同字体的样本，但这样存在以下问题：

1.待识别证件图像出现模糊、噪声等问题时识别错误；

待识别证件的图像采集绝大多数情况下都是不理想，证件图像难免出现模糊、噪点、缺失等问题，模型进行识别时可能会识别错误。

2.模型识别局限性较大；

只采集与待识别证件上的文字相同的字体的样本，训练得到的模型只能识别单一字体的文字，遇到新的证件就需要更新训练数据集，这样训练得到的模型识别局限性较大。

发明内容

针对上述存在的技术问题，本发明的目的是：提出了一种文字样本采集处理方法、自助终端设备及独立模块，增加样本的多样性，可以得到鲁棒性更高的字符识别模型，提高证件识别的准确率。

本发明的技术解决方案是这样实现的：一种文字样本采集处理方法，包括如下步骤，

S100，准备不同字体、字号的文字样本；将不同字体、字号的文字打印出来，同一字体、字号的文字设为一组；

S200，不同的光照条件下采集文字样本，并对文字进行分割；不同光照条件下对打印到纸上的文字样本进行拍摄，并对文字进行分割，分割成分辨率相同的文字块，每一个字符一张图，并对图像进行灰度处理；

S300，对不同光照条件下分割得到的灰度图样本进行处理；对不同光照条件下分割得到的灰度图样本进行高斯核处理。

优选的，在S100中，文字样本采集多种常用字体，并且每种字体采集几种不同的字号。

优选的，在S300中，对灰度图样本进行高斯核3＊5、5＊5的模糊处理，一次高斯核3＊3、两次高斯核3＊3的腐蚀处理，一次高斯核3＊3 的膨胀处理，分别向左、向右平移一个像素的平移处理，分别向左、向右平移两个像素的平移处理，随机替换20％、30％的黑点的残缺处理，随机替换20％、30％的白点的噪点处理。

一种自助终端设备，所述自助终端设备执行所述的一种证件识别模型深度学习训练文字样本采集处理方法。

一种具有OCR证件识别功能的独立模块，所述独立模块执行所述的一种证件识别模型深度学习训练文字样本采集处理方法。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明的一种文字样本采集处理方法、自助终端设备及独立模块，通过增加样本字体、字号，采集样本的光照条件，以及对样本进行多种图像处理方式的在处理，增加样本的多样性，可以得到鲁棒性更高的字符识别模型，提高证件识别的准确率。

附图说明

下面结合附图对本发明技术方案作进一步说明：

附图1为本发明的一种文字样本采集处理方法的流程图。

具体实施方式

下面结合附图来说明本发明。

如附图1所示为本发明所述的一种文字样本采集处理方法，包括如下步骤，

S100，准备不同字体、字号的文字样本；将不同字体、字号的文字打印出来，同一字体、字号的文字设为一组；，文字样本采集多种常用字体，并且每种字体采集几种不同的字号，不局限于只采集待识别证件上的文字字体，针对汉字的训练采集黑体、宋体、楷体等十几种常用字体，并且每种字体采集几种不同的字号，例如证件上常用的小四、五号、小五等字号；

S300，对不同光照条件下分割得到的灰度图样本进行处理；对不同光照条件下分割得到的灰度图样本进行高斯核处理；对灰度图样本进行高斯核3＊5、5＊5的模糊处理，一次高斯核3＊3、两次高斯核 3＊3的腐蚀处理，一次高斯核3＊3的膨胀处理，分别向左、向右平移一个像素的平移处理，分别向左、向右平移两个像素的平移处理，随机替换20％、30％的黑点的残缺处理，随机替换20％、30％的白点的噪点处理。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施，并不能以此限制本发明的保护范围，凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种文字样本采集处理方法，其特征在于：包括如下步骤，

2.如权利要求1所述的一种文字样本采集处理方法，其特征在于：在S100中，文字样本采集多种常用字体，并且每种字体采集几种不同的字号。

3.如权利要求1所述的一种文字样本采集处理方法，其特征在于：在S300中，对灰度图样本进行高斯核3＊5、5＊5的模糊处理，一次高斯核3＊3、两次高斯核3＊3的腐蚀处理，一次高斯核3＊3的膨胀处理，分别向左、向右平移一个像素的平移处理，分别向左、向右平移两个像素的平移处理，随机替换20％、30％的黑点的残缺处理，随机替换20％、30％的白点的噪点处理。

4.一种自助终端设备，其特征在于：所述自助终端设备执行权利要求1－3中任一项所述的一种证件识别模型深度学习训练文字样本采集处理方法。

5.一种具有OCR证件识别功能的独立模块，其特征在于：所述独立模块执行权利要求1－3中任一项所述的一种证件识别模型深度学习训练文字样本采集处理方法。