CN111027545A

CN111027545A - 卡证图片标志检测方法、装置、计算机设备及存储介质

Info

Publication number: CN111027545A
Application number: CN201911225849.8A
Authority: CN
Inventors: 严博宇; 乔胜; 黄鸿康; 刘新宇; 赵寒枫
Original assignee: Shenzhen New Guodu Jinfu Technology Co Ltd
Current assignee: Shenzhen New Guodu Jinfu Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-17

Abstract

本发明涉及卡证图片标志检测方法、装置、计算机设备及存储介质；其中，方法，包括：采集卡证图片信息；将卡证图片缩放至标志检测模型设定的尺寸要求；通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别；根据标志位置和类别，对卡证图片进行处理，并输出结果。本发明检测模型能泛化适应各种自然场景下复杂多变的卡证图片，鲁棒性高、抗噪能力强；可以根据标志的是否存在来判断该卡证图片是否包含所要识别的卡证内容；检测模型无需像传统边缘检测算法多次扫描卡证图片，速度更快；一个模型可以适用于多种类的卡证图片标志检测；能一次性检测出卡证图片中所有的标志，从而推断出卡证图片中所有的卡证区域。

Description

卡证图片标志检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及卡证图片标志检测技术领域，更具体地说是指卡证图片标志检测方法、装置、计算机设备及存储介质。

背景技术

随着互联网的不断发展普及,信息数字化的需求也越来越高,特别是诸如身份证、银行卡、营业执照等卡证图片的OCR(光学字符识别，将图片上的文字转换成可在计算机上编辑的文字，以下或简称为“识别”)，正广泛应用与各行各业；然而，现有的OCR技术均对卡证图片的质量有一定要求：1、至少需要卡证在图片中是正立的，而不是大幅度旋转、甚至是侧立倒立的；2、至少需要卡证区域的面积占图片总面积的比例不能过小；这是因为，现有的OCR技术所采用的图片预处理方法，基本都是诸如灰度化、二值化、腐蚀膨胀、边缘检测等传统的图像处理方法，在面对自然应用场景中复杂多变的卡证类图片时，这些传统的预处理方法方法具有明显的缺陷：1、无法区分卡证在图片中是正立还是倒立的；2、鲁棒性较差，容易受到图片中环境噪声的影响，特别是在卡证区域的面积占图片总面积的比例过小时，很难检测到卡证区域；3、无法判断该图片中是否包含所需的卡证内容，造成后续OCR的资源浪费(常常会出现用户上传的照片不是指定的卡证照片，而OCR识别所耗费的计算开销往往较大，若不加区分的识别，会造成资源浪费)；4、处理高分辨率图片时速度较慢；5、对于不同的OCR产品，需要定制不同的预处理算法；6、无法处理有多个不同卡证区域的图片(如同时包含身份证正反面的图片)。

因此，这些传统的预处理方法无法为后续的OCR提供高质量的图片，这会对OCR识别效果造成较大的负面影响。

发明内容

本发明的目的在于克服现有技术的缺陷，提供卡证图片标志检测方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用于下技术方案：

卡证图片标志检测方法，包括以下步骤：

采集卡证图片信息；

将卡证图片缩放至标志检测模型设定的尺寸要求；

通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别；

根据标志位置和类别，对卡证图片进行处理，并输出结果。

其进一步技术方案为：所述“将卡证图片缩放至标志检测模型设定的尺寸要求”步骤中需要保持卡证图片的宽高比，将卡证图片较长的一边缩放至416像素，较短的一边则用灰色像素块填补至416像素。

其进一步技术方案为：所述“通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别”的步骤中预先训练好的标志检测模型的训练步骤包括：

预先设定检测标志；

构建检测标志的训练数据样本集；

训练标志检测模型，并根据测试结果调整训练参数；

完成模型训练。

其进一步技术方案为：所述“通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别”的步骤中包括：输入和输出；所述输入为缩放尺寸后的卡证图片；所述输出包括：一个包含输入卡证图片中所有标志信息的列表，列表中每一个元素对应输入卡证图片中一个标志的类别和位置，若卡证图片中有多个标识，则该列表包含多个元素，标志信息以(c,x,y,w,h,r)的数组表示，其中，c：标志所属的类别；x，y：标志区域左上角的二维横纵坐标；w，h：标志区域的宽度和高度；r：标志的旋转角度。

卡证图片标志检测装置，包括：采集单元，缩放单元，检测单元，及处理输出单元；

所述采集单元，用于采集卡证图片信息；

所述缩放单元，用于将卡证图片缩放至标志检测模型设定的尺寸要求；

所述检测单元，用于通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别；

所述处理输出单元，用于根据标志位置和类别，对卡证图片进行处理，并输出结果。

其进一步技术方案为：所述缩放单元中，在执行将卡证图片缩放至标志检测模型设定的尺寸要求时需保持卡证图片的宽高比，将卡证图片较长的一边缩放至416像素，较短的一边则用灰色像素块填补至416像素。

其进一步技术方案为：所述检测单元包括：

标志预设模块，用于预先设定检测标志；

数据样本构建模块，用于构建检测标志的训练数据样本集；

模型训练模块，用于训练标志检测模型，并根据测试结果调整训练参数。

其进一步技术方案为：所述检测单元中，在执行“通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别”时，包括：输入和输出；所述输入为缩放尺寸后的卡证图片；所述输出包括：一个包含输入卡证图片中所有标志信息的列表，列表中每一个元素对应输入卡证图片中一个标志的类别和位置，若卡证图片中有多个标识，则该列表包含多个元素，标志信息以(c,x,y,w,h,r)的数组表示，其中，c：标志所属的类别；x，y：标志区域左上角的二维横纵坐标；w，h：标志区域的宽度和高度；r：标志的旋转角度。

一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如上述所述的卡证图片标志检测方法。

一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如上述所述的卡证图片标志检测方法。

本发明与现有技术相比的有益效果是：1、根据标志旋转角度即可判断卡证图片是否为正立的；2、检测模型能泛化适应各种自然场景下复杂多变的卡证图片，鲁棒性高、抗噪能力强；3、可以根据标志的是否存在来判断该图片是否包含所要识别的卡证内容；4、检测模型无需像传统边缘检测算法多次扫描卡证图片，速度更快；5、一个模型可以适用于多种类的卡证图片标志检测；6、可以一次性检测出卡证图片中所有的标志，从而推断出卡证图片中所有的卡证区域；能够更好地满足需求。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的卡证图片标志检测方法的流程示意图；

图2为本发明实施例提供的卡证图片标志检测装置的示意性框图；

图3为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1到图3所示的具体实施例，其中，请参阅图1，本发明公开了卡证图片标志检测方法，包括以下步骤：

S1，采集卡证图片信息；

S2，将卡证图片缩放至标志检测模型设定的尺寸要求；

S3，通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别；

S4，根据标志位置和类别，对卡证图片进行处理，并输出结果。

其中，所述S2中，所述“将卡证图片缩放至标志检测模型设定的尺寸要求”中需要保持卡证图片的宽高比，将卡证图片较长的一边缩放至416像素，较短的一边则用灰色像素块填补至416像素。

其中，在本实施例中，所使用的模型输入是416×416×3的正方形RGB图片。

进一步地，在其他实施例中，标志检测模型设定的尺寸可以根据具体应用场景进行调整，以满足更多应用场景的要求。

其中，所述S3中，所述“预先训练好的标志检测模型”的训练步骤如下：

A1，预先设定检测标志，其中，检测标志包括：人头照(身份证)、国徽(身份证、营业执照)、银联标志(银行卡)、Visa标志(银行卡)、圆形***等；

A2，构建检测标志的训练数据样本集，其中，采用人工标注包含上述标志的卡证图片，并收集不包含任何标志的自然场景图片，由于人工标注成本较高，可以用如下操作，用少量人工标注的样本制造大量合成样本：对随机抽取从人工标注的图片中截取出的标志，做随机的旋转、缩放、尺度、颜色、对比度、噪声扰动等变换后，再将其随机嵌入入从含有标志的卡证图片和不含标志的自然场景图片混合的集合中抽取出来的图片；

A3，训练标志检测模型，并根据测试结果调整训练参数和方法，以得到效果最佳的模型；

A4，完成模型训练。

进一步地，A3之后，还可以进行模型压缩；若需要将模型部署到移动设备(手机、专门的证件识别仪器等)，可对模型的参数做量化压缩处理，将浮点型参数转化为计算性能更高的整型参数，使模型更轻量快速，以扩大运用场景。

其中，所述S3中，所述“通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别”包括：输入和输出；所述输入为缩放尺寸后的卡证图片；所述输出包括：一个包含输入卡证图片中所有标志信息的列表，列表中每一个元素对应输入卡证图片中一个标志的类别和位置，若卡证图片中有多个标识，则该列表包含多个元素，标志信息以(c,x,y,w,h,r)的数组表示，其中，c：标志所属的类别；x，y：标志区域左上角的二维横纵坐标；w，h：标志区域的宽度和高度；r：标志的旋转角度。

其中，S4，根据标志位置和类别，对卡证图片进行处理，并输出结果；在得到卡证图片中标志的类别和位置后，根据后续不同的应用需求，对原始图片或检测结果做一些处理，其中，典型的应用需求和处理方式如下：

应用需求：获取卡证图片中包含的卡证种类和数量，处理方式：输出所有的标志类别即可。

应用需求：作为OCR识别的预处理方法；处理方式：根据标志类别判断卡证类别；根据该类别卡证与标志的相对位置关系和标志在的位置信息，推断出卡证区域；逆向对卡证图片的缩放操作，将缩放尺寸后的卡证图片输入图片中的卡证区域，转化为原始输入图片中的卡证区域；从原始输入图片中截取出卡证区域；依据标志的旋转角度，将截取出的卡证区域转正。

本发明专门用于检测定位图片上卡证的特有标志(如：身份证的人头照和国徽、银行卡的银联、Visa标志、营业执照的国徽、公章等)。再根据这些特有标志与卡证的相对位置关系，从原始图片中提取出高质量的卡证图片，具体来说，对于一张图片，可以得到图片中存在的标志所属的种类；若图片包含所需的卡证应有的标志，则能得到标志在图片中的位置和倾斜角度；在获取标志在图片中的位置和倾斜角度后，可依据预设的标志和卡证的相对位置关系，得到卡证在图片中的位置和倾斜角度，由此从原始图片中截取出正立的、面积占比大的卡证图片；因此，本发明若作为卡证类OCR的前置预处理方法，能较好的解决传统图片预处理方法的缺陷，从而大大提升真实应用场景下的卡证类OCR的识别准确率，此外，本发明当然也可以单独作为卡证图片标志检测或卡证区域截取转正方法而提供服务，或是集成到其它对卡证图片质量有一定要求的产品服务中。

其中，本发明基于深度神经网络的卡证图片标志快速检测，相比较对于存在诸多缺陷的传统OCR图片预处理方法，具有以下优势：1、根据标志旋转角度即可判断卡证图片是否为正立的；2、检测模型基于深度学习全卷积网络，能泛化适应各种自然场景下复杂多变的卡证图片，鲁棒性高、抗噪能力强；3、可以根据标志的是否存在来判断该卡证图片是否包含所要识别的卡证内容；4、检测模型基于深度学习全卷积网络，无需像传统边缘检测算法多次扫描卡证图片，速度更快；5、一个模型可以适用于多种类的卡证图片标志检测；6、可以一次性检测出卡证图片中所有的标志，从而推断出卡证图片中所有的卡证区域。

请参阅图2，本发明还公开了卡证图片标志检测装置，包括：采集单元10，缩放单元20，检测单元30，及处理输出单元40；

所述采集单元10，用于采集卡证图片信息；

所述缩放单元20，用于将卡证图片缩放至标志检测模型设定的尺寸要求；

所述检测单元30，用于通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别；

所述处理输出单元40，用于根据标志位置和类别，对卡证图片进行处理，并输出结果。

其中，所述缩放单元20中，在执行将卡证图片缩放至标志检测模型设定的尺寸要求时需保持卡证图片的宽高比，将卡证图片较长的一边缩放至416像素，较短的一边则用灰色像素块填补至416像素。

其中，所述检测单元30包括：

标志预设模块31，用于预先设定检测标志；

数据样本构建模块32，用于构建检测标志的训练数据样本集；

模型训练模块33，用于训练标志检测模型，并根据测试结果调整训练参数。

其中，所述检测单元30中，所述检测单元中，在执行“通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别”时，包括：输入和输出；所述输入为缩放尺寸后的卡证图片；所述输出包括：一个包含输入卡证图片中所有标志信息的列表，列表中每一个元素对应输入卡证图片中一个标志的类别和位置，若卡证图片中有多个标识，则该列表包含多个元素，标志信息以(c,x,y,w,h,r)的数组表示，其中，c：标志所属的类别；x，y：标志区域左上角的二维横纵坐标；w，h：标志区域的宽度和高度；r：标志的旋转角度。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述卡证图片标志检测装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述卡证图片标志检测装置可以实现为一种计算机程序的形式，该计算机程序可以在如图3所示的计算机设备上运行。

请参阅图3，图3是本申请实施例提供的一种计算机设备的示意性框图；该计算机设备500可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图3，该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种卡证图片标志检测方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种卡证图片标志检测方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机***中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述的卡证图片标志检测方法。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

上述仅以实施例来进一步说明本发明的技术内容，以便于读者更容易理解，但不代表本发明的实施方式仅限于此，任何依本发明所做的技术延伸或再创造，均受本发明的保护。本发明的保护范围以权利要求书为准。

Claims

1.卡证图片标志检测方法，其特征在于，包括以下步骤：

采集卡证图片信息；

将卡证图片缩放至标志检测模型设定的尺寸要求；

根据标志位置和类别，对卡证图片进行处理，并输出结果。

2.根据权利要求1所述的卡证图片标志检测方法，其特征在于，所述“将卡证图片缩放至标志检测模型设定的尺寸要求”步骤中需要保持卡证图片的宽高比，将卡证图片较长的一边缩放至416像素，较短的一边则用灰色像素块填补至416像素。

3.根据权利要求2所述的卡证图片标志检测方法，其特征在于，所述“通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别”的步骤中预先训练好的标志检测模型的训练步骤包括：

预先设定检测标志；

构建检测标志的训练数据样本集；

训练标志检测模型，并根据测试结果调整训练参数；

完成模型训练。

4.根据权利要求3所述的卡证图片标志检测方法，其特征在于，所述“通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别”的步骤中包括：输入和输出；所述输入为缩放尺寸后的卡证图片；所述输出包括：一个包含输入卡证图片中所有标志信息的列表，列表中每一个元素对应输入卡证图片中一个标志的类别和位置，若卡证图片中有多个标识，则该列表包含多个元素，标志信息以(c,x,y,w,h,r)的数组表示，其中，c：标志所属的类别；x，y：标志区域左上角的二维横纵坐标；w，h：标志区域的宽度和高度；r：标志的旋转角度。

5.卡证图片标志检测装置，其特征在于，包括：采集单元，缩放单元，检测单元，及处理输出单元；

所述采集单元，用于采集卡证图片信息；

6.根据权利要求5所述的卡证图片标志检测装置，其特征在于，所述缩放单元中，在执行将卡证图片缩放至标志检测模型设定的尺寸要求时需保持卡证图片的宽高比，将卡证图片较长的一边缩放至416像素，较短的一边则用灰色像素块填补至416像素。

7.根据权利要求5所述的卡证图片标志检测装置，其特征在于，所述检测单元包括：

标志预设模块，用于预先设定检测标志；

数据样本构建模块，用于构建检测标志的训练数据样本集；

8.根据权利要求7所述的卡证图片标志检测装置，其特征在于，所述检测单元中，在执行“通过预先训练好的标志检测模型检测缩放尺寸后的卡证图片上的标志位置和类别”时，包括：输入和输出；所述输入为缩放尺寸后的卡证图片；所述输出包括：一个包含输入卡证图片中所有标志信息的列表，列表中每一个元素对应输入卡证图片中一个标志的类别和位置，若卡证图片中有多个标识，则该列表包含多个元素，标志信息以(c,x,y,w,h,r)的数组表示，其中，c：标志所属的类别；x，y：标志区域左上角的二维横纵坐标；w，h：标志区域的宽度和高度；r：标志的旋转角度。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的卡证图片标志检测方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如权利要求1-4中任一项所述的卡证图片标志检测方法。