CN113436079A

CN113436079A - 证件图像检测方法和装置、电子设备、存储介质

Info

Publication number: CN113436079A
Application number: CN202110699414.8A
Authority: CN
Inventors: 庞烨; 冯敬之; 韩茂琨; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-09-24

Abstract

本公开实施例提供证件图像检测方法和装置、电子设备、存储介质，属于图像处理技术领域。该证件图像检测方法，包括：获取待检测的原始图像数据；将所述原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值；将所述第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值；将所述第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值；根据所述第一预测角度值、所述第二预测角度值和所述第三预测角度值计算出目标旋转角度，所述目标旋转角度用于校正证件图像，通过本公开实施例提供的技术方案可以实现对倾斜的证件图像进行角度预测和校正。

Description

证件图像检测方法和装置、电子设备、存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及证件图像检测方法和装置、电子设备和存储介质。

背景技术

随着网络化和数字化发展，在金融服务、安防等各领域，均需要用户个人通过线上对各类证件(如身份证、护照、驾驶证等)进行核验。而为了保证用户个人信息的安全性和完整性，往往需要留存完整的不带切边的证件转正的证件信息。但是，转正的证件由于拍摄条件的限制等，拍摄的证件可能会存在一定的倾斜角度，因此需要对存在倾斜角度的证件进行校正。然而，要实现对证件进行校正，需要检测证件的倾斜角度。因此，亟待需要提供一种用于检测证件倾斜角度的方案。

发明内容

本公开实施例的主要目的在于提出一种证件图像检测方法和装置、电子设备和存储介质，以实现对倾斜的证件图像进行角度预测。

为实现上述目的，本公开实施例的第一方面提出了一种证件图像检测方法，包括：

获取待检测的原始图像数据；所述原始图像数据包括证件图像数据；

将所述原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值；

将所述第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值；

将所述第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值；

根据所述第一预测角度值、所述第二预测角度值和所述第三预测角度值计算出目标旋转角度，所述目标旋转角度用于校正证件图像。

在一些实施例，所述将所述原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值，包括：

对所述原始图像数据进行第一证件分类处理，得到图像类型；其中，所述图像类型包括证件图像和非证件图像；

对所述图像类型为证件图像的原始图像数据进行第一证件框回归处理；

对进行第一证件框回归处理的原始图像数据进行第一证件角度分类处理，得到所述第一图像数据；

根据所述第一图像数据得到第一预测角度值。

在一些实施例，所述对进行第一证件框回归处理的原始图像数据进行第一证件角度分类处理，得到所述第一图像数据，包括：

将所述进行第一证件框回归处理的原始图像数据分为第一子图像数据和第二子图像数据；其中，与所述第一子图像数据对应的第一预测角度值为0度，与所述第二子图像数据对应的第一预测角度值为180度。

在一些实施例，所述第一图像数据得到所述第一预测角度值所述将所述第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值，包括：

对所述第一图像数据进行第二证件分类处理，得到所述图像类型；

对所述图像类型为证件图像的第一图像数据进行第二证件框回归处理；

对进行第二证件框回归处理的第一图像数据进行第二证件角度分类处理，得到所述第二图像数据；

根据所述第二图像数据得到第二预测角度值。

在一些实施例，所述第一图像数据得到所述第一预测角度值所述将所述第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值，还包括：

获取所述第一图像数据的box；

根据所述第一图像数据的box截取对应第一区域；

将所截取到的所有第一区域合并得到第一四维矩阵；其中，将所述第一四维矩阵作为输入至所述第二推理网络进行第一预测和校准处理的第一图像数据。

在一些实施例，所述将所述第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值，包括：

根据所述第二图像数据获取第一特征和文本框信息；

根据所述文本框信息获取第二特征；

将所述第一特征与所述第二特征结合得到目标特征；

根据所述目标特征进行角度回归处理，得到所述第三预测角度值。

在一些实施例，所述方法还包括：

获取所述第二图像数据的box；

根据所述第二图像数据的box截取对应第二区域；

将所截取到的所有第二区域合并得到第二四维矩阵；其中，将所述第二四维矩阵作为输入至所述第三推理网络进行角度回归处理的第二图像数据。

为实现上述目的，本公开的第二方面提出了一种证件图像检测装置，包括：

图像获取模块，用于获取待检测的原始图像数据；所述原始图像数据包括证件图像数据；

第一推理模块，用于将所述原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值；

第二推理模块，用于将所述第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值；

第三推理模块，用于将所述第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值；

旋转角度计算模块，用于根据所述第一预测角度值、所述第二预测角度值和所述第三预测角度值计算出目标旋转角度，所述目标旋转角度用于校正证件图像。

为实现上述目的，本公开的第三方面提出了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本公开如上述第一方面所述的方法。

为实现上述目的，本公开的第四方面提出了一种存储介质，该存储介质是计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如上述第一方面所述的方法。

本公开实施例提出的证件图像检测方法和装置、电子设备、存储介质，通过获取待检测的原始图像数据，将原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值，并将第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值，再将第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值，最后根据第一预测角度值、第二预测角度值和第三预测角度值计算出目标旋转角度，从而可以通过目标旋转角度对证件图像进行校正，通过本公开实施例提供的技术方案可以实现对倾斜的证件图像进行角度预测和校正。

附图说明

图1是本公开实施例提供的证件图像检测方法的流程图。

图2是图1中的步骤102的流程图。

图3是图1中的第一推理网络的结构示意图。

图4是图1中的步骤103的流程图。

图5是图1中的第二推理网络的结构示意图。

图6是图1中的步骤104的流程图。

图7是图1中的第三推理网络的结构示意图。

图8是本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本申请中涉及的若干名词进行解析：

目标检测：也叫目标提取，是一种基于目标几何和统计特征的图像分割，是计算机视觉和数字图像处理的交叉。目标检测被广泛应用于视频监控、航天航空、机器人导航、工业检测等领域。

计算机视觉技术(Computer Vision,CV)：是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

非极大值抑制(Non-Maximum Suppression，NMS)：NMS本质是搜索局部极大值，抑制非极大值元素，NMS的作用是当算法对一个目标产生了多个候选框的时候，选择score(得分)最高的框，即去掉检测任务重复的候选框。其大致原理为：每轮选取置信度最大的Bounding Box(精准框，简称BBox)，接着关注所有剩下的BBox中与选取的BBox有着高重叠(IOU)的，它们将在这一轮被抑制。这一轮选取的BBox会被保留输出，且不会在下一轮出现。接着开始下一轮，重复上述过程：选取置信度最大BBox，抑制高IOU BBox。

长短期记忆(Long Short-Term Memory，LSTM)：是时间递归神经网络(RecurrentNeural Network,RNN)的一种，适合被用于处理和预测时间序列中间隔和延迟非常长的重要事件,常用于对时序数据的建模，如文本数据；能学习长期依赖性。

双向LSTM(Bi-directional Long Short-Term Memory，BiLSTM)：由前向LSTM与后向LSTM组合而成，常被用来建模上下文信息。

在实际的应用场景中，例如安防、金融应用中，为了保证用户个人信息的安全性和完整性，需要留存完整的不带切边的证件转正的证件信息。因为在我们的金融服务场景中，我们需要存档客户的相关证件资料(如身份证、护照、驾驶证、居住证、银行卡等)，可以实现以90度为级别的角度粗略校正，对于小角度旋转的证件没有很好的校正，不满足当前需求。

当前，常用的用于旋转证件的方法包括：

数据增强：增加不同角度的证件数据进行训练。然而，该方法需依赖于样本的多样性，同时为了让网络能同时学到证件角度和位置的信息，需要一个较大的网络结构。

分治策略：训练不同角度的证件分类器并将这些证件分类器进行集成。然后，由于证件的可能旋转角度存在0-360°，因此要较多分类器，时间复杂度和模型复杂度都太大。

边检测证件：边计算证件的角度，再根据角度对证件进行旋转，然后只训练一个转正的证件的分类器既可。然而该方法存在的问题是：角度是个360度的分类或者存在回归问题，容错空间太大，直接预测会存在较大误差。

基于此，本公开实施例提供一种证件图像检测方法和装置、电子设备、存储介质，可以实现对倾斜的证件图像进行角度预测和校正。

本公开实施例提供证件图像检测方法和装置、电子设备、存储介质，具体通过如下实施例进行说明，首先描述本公开实施例中的证件图像检测方法。

本公开实施例提供的证件图像检测方法，属于目标检测技术领域，涉及图像处理技术领域。本公开实施例提供的证件图像检测方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式***，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现证件图像检测方法的应用等，但并不局限于以上形式。

图1是本公开实施例提供的证件图像检测方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤101至步骤105。

步骤101、获取待检测的原始图像数据；原始图像数据包括证件图像数据；

步骤102、将原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值；

步骤103、将第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值；

步骤104、将第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值；

步骤105、根据第一预测角度值、第二预测角度值和第三预测角度值计算出目标旋转角度，目标旋转角度用于校正证件图像。

在一些实施例中，待检测证件可以包括，但不限于包括身份证、护照、驾驶证、居住证、银行卡。

在一些实施例的步骤101包括：

对待检测证件的原图重采样，得到原始图像数据。通过原图重采样，可以得到一系列尺寸的原始图像数据。本公开实施例的原图重采样可以包括上采样和下采样，具体的重采样原理，可以参照常规的重采样方法，本公开实施例不做限定。

在一些实施例，第一推理网络为卷积神经网络。

在一些实施例，第一预测和校准处理包括第一证件分类处理、第一证件框回归处理、第一证件角度分类处理。请参阅图2，在一些实施例的步骤102可以包括但不限于包括步骤201至步骤204。

步骤201、对原始图像数据进行第一证件分类处理，得到图像类型；其中，图像类型包括证件图像和非证件图像；

步骤202、对图像类型为证件图像的原始图像数据进行第一证件框回归处理；

步骤203、对进行第一证件框回归处理的原始图像数据进行第一证件角度分类处理，得到第一图像数据；

步骤204、根据第一图像数据得到第一预测角度值。

具体地，第一推理网络对原始图像数据进行第一预测和校准处理后可以得到证件框(box)的置信信息和置信度，其中，置信度为证件的概率，用于进行第一证件分类处理，即根据置信度可以预测证件的类型是否为证件图像或者非证件图像。在一实施例，设定第一阈值为0.6，将置信度小于第一阈值0.6的box过滤掉，剩余的box经过非极大值抑制(NMS)算法，然后进行第一证件框回归处理；再对图像类型为证件图像的原始图像数据进行第一证件框回归处理，最终输出第一图像数据并获得第一预测角度值。

更详细地，请参阅图3，在一应用场景中，将24*24*3的原始图像数据输入至第一推理网络中，通过第一推理网络输出128维的图像，第一推理网络对原始图像数据进行预测，以预测原始图像数据是否为证件图像，并进行第一证件框回归处理，其中，进行第一证件框回归处理即为回归证件框的坐标；并进行第一证件角度分类处理，最终输出第一图像数据并获得第一预测角度值。

在一些实施例的步骤203包括：

将进行第一证件框回归处理的原始图像数据分为第一子图像数据和第二子图像数据；其中，与第一子图像数据对应的第一预测角度值为0度，与第二子图像数据对应的第一预测角度值为180度。即，对于朝上的证件图像不做任何旋转处理(第一预测角度值为0度)，对于朝下的证件图像旋转180度(第一预测角度值为180度)，使所有证件图像都在水平线上。后续将进一步举例说明。

公开实施例提供的证件图像检测方法主要分三个阶段实现，其中步骤102为第一阶段，在第一阶段，第一推理网络用于将待检测的证件图像的上边框旋转到水平线以上。由于在实际场景中，待检测的证件图像的上边框可能是360度的任意一个角度。经过第一推理网络校准后，待检测的证件图像的上边框的法线就可以转到水平线上。更具体地，在第一阶段，可以实现，对于朝上的证件图像不做任何旋转处理，对于朝下的证件图像旋转180度，使所有证件图像都在水平线上。后续进一步对第二阶段和第三阶段进行说明。

在一些实施例，第二推理网络为卷积神经网络。

在一些实施例，第二预测和校准处理包括第二证件分类处理、第二证件框回归处理、第二证件角度分类处理。请参阅图4，在一些实施例的步骤103可以包括但不限于包括步骤301至步骤304。

步骤301、对第一图像数据进行第二证件分类处理，得到图像类型；

步骤302、对图像类型为证件图像的第一图像数据进行第二证件框回归处理；

步骤303、对进行第二证件框回归处理的第一图像数据进行第二证件角度分类处理，得到第二图像数据；

步骤304、根据第二图像数据得到第二预测角度值。

具体地，第二推理网络对第一图像数据进行第二预测和校准处理后可以得到证件框(box)的置信信息和置信度，其中，置信度为证件的概率，用于进行第二证件分类处理，即根据置信度可以预测证件的类型是否为证件图像或者非证件图像。在一实施例，设定第二阈值为0.7(或者0.8)，将置信度小于第一阈0.7(或者0.8)的box过滤掉，剩余的box经过NMS算法，然后进行第二证件框回归处理；再对图像类型为证件图像的第一图像数据进行第二证件框回归处理，最终输出第二图像数据并获得第二预测角度值。

在一些实施例，步骤103还包括：

获取第一图像数据的box；

根据第一图像数据的box截取对应第一区域；

将所截取到的第一区域合并得到第一四维矩阵；将第一四维矩阵作为输入到第二推理网络的第一图像数据。

具体地，截取到的第一区域为三维矩阵的彩色图像，例如该三维矩阵表示为(400,400,3)，其中，第一位数值400和第二位数值300用于表示图像的空间信息，400表示行数，300表示列数；第三位数值3用于表示三种基本颜色(红R，绿G，蓝B)的通道，在其中一层矩阵如(400，300，1)红色通道矩阵，表示该颜色红色光的灰度值。本公开实施的灰度值，是指某颜色的亮度值，如上述(400，300，1)表示红色通道矩阵，红色的灰度值就储存在其中。每一个颜色通道都储存了其对应的灰度值。将所有的三维矩阵的第一区域合并，以组合为第一四维矩阵，该第一四维矩阵中的第一数值(即第一维度)表示对应图像的序号(该三维矩阵的第一区域的图像序号)，该第一四维矩阵中的第二、三、四数值(即第二、三、四维度)分别对应图像的行数、列数、(红R，绿G，蓝B)的通道。

更详细地，请参阅图5，在一应用场景中，将24*24*3的第一图像数据(即第一四维矩阵)输入至第二推理网络中，通过第二推理网络输出192维的图像，第二推理网络对第一图像数据进行预测，以预测第一图像数据是否为证件图像，并进行第二证件框回归处理，其中，进行第二证件框回归处理即为回归证件框的坐标；并进行第二证件角度分类处理，最终输出第二图像数据并获得第二预测角度值。

在一些实施例的步骤303包括：

将进行第二证件框回归处理的第一图像数据分为第三子图像数据、第四子图像数据、第五子图像数据；其中，与第三子图像数据对应的第二预测角度值为0度，与第四子图像数据对应的第二预测角度值为90度，与第五子图像数据对应的第二预测角度值为-90度。即，看证件图像的上边框的法线方向更靠近三个角度(0度、90度、-90度)中的哪个角度，对于-90度的顺时针旋转90度，理论上证件法线从[-90度，-45度]的范围转入到[0度，45度]的范围，对于分到0度的，不做任何旋转处理，理论上证件图像分布在[-45度，45度]的范围。对于分到90度类别的，逆时针旋转90度，理论上证件法线从[45度,90度]的范围转入到[-45度，0度]的范围，所以将证件图像从[-90度，90度]的范围校正为[-45度，45度]的范围。

本公开实施例的步骤103为第二阶段，在第二阶段，第二推理网络用于证件图像的上边框旋转到[-45度，45度]的范围内。由于在实际场景中，由于所采集到的训练数据(证件图像)中，虽然在采集过程中有意拍正图像，但是仍然会存在一些倾斜的图像，实际上，虽然图像的倾斜角度存在，但是一般不会超出[-45度，45度]的范围。通过将[-45度，45度]度的范围缩小，可以让训练数据的角度分布范围更加集中，从一定程度上降低了第三推理网络处理的难度。

具体地，在第一阶段生成的box，在原图中截取对应的区域；由于根据第一预测角度值进行了必要的旋转，将所有截取得到的图像合并到一个四维矩阵中，作为第二推理网络的输入。第二推理网络的主要任务有三个：第一、进行图像类型的分类(通过得分确定证件/非证件分类)；第二、进行第二证件框回归处理，就是去回归这个证件框的坐标；第三、进行第二证件分类处理，得到角度为0度、90度、-90度的三类分类。更具体地，对于输入的每个box，输出其对应的坐标回归值以及用于判断图像类型的得分(通过得分确定证件/非证件分类)，将得分不达标的box去掉，得到第二阶段的box集合。也就是说，第二阶段是在第一阶段的基础上对box实现进一步分筛选(更细筛选)，同时也会以通过回归将box坐标进行更新，使得其精度更高。进行证件0度、90度、-90度的三类分类任务，也就是看证件图像的上边框的法线方向更靠近三个角度(0度、90度、-90度)中的哪个角度，对于-90度的顺时针旋转90度，理论上证件法线从-90度到-45度转入到0到45度范围，对于分到0度的，不做任何旋转处理，理论上证件图像分布在-45到45度范围。对于分到90度类别的，逆时针旋转90度，理论上证件法线从45度到90度转入到-45到0度范围，所以将证件图像从-90度到90度校正为-45度到45度。

在一些实施例，第三推理网络为卷积神经网络。

请参阅图6，在一些实施例的步骤104可以包括但不限于包括步骤401至步骤404。

步骤401、根据第二图像数据获取第一特征和文本框信息；

步骤402、根据文本框信息获取第二特征；

步骤403、将第一特征与第二特征结合得到目标特征；

步骤404、根据目标特征进行角度回归处理，得到第三预测角度值。

在一些实施例，第一特征为384维特征，目标特征为384维特征。

在一实施例的步骤402中，文本框信息包括文本框，利用BiLSTM得到对应文本框的第二特征，其中第二特征为24维特征。通过将384维的第一特征与24维的第二特征进行结合，得到384维的目标特征。

在一实施例的步骤403包括：

将第二特征拼接到第一特征的后面进行结合，得到初步结合特征；

通过全链接层初步结合特征转为目标特征。

具体地，将24维度的第二特征拼接到第一特征的后面进行结合，得到384+24＝408维的初步结合特征，再通过全链接层将拼接的408维的初步结合特征转为384维的目标特征。

在一些实施例，步骤104还包括：

获取第二图像数据的box；

根据第二图像数据的box截取对应第二区域；

将所截取到的第二区域合并得到第二四维矩阵；其中，将第二四维矩阵作为输入至第三推理网络进行角度回归处理的第二图像数据。

具体地，截取到的第二区域也为三维矩阵的彩色图像，类似于上述的第一区域。将所有的三维矩阵的第二区域合并，以组合为第二四维矩阵，该第二四维矩阵类似于上述的第一四维矩阵，该第二四维矩阵中的第一数值(即第一维度)表示对应图像的序号(该三维矩阵的第二区域的图像序号)，该第二四维矩阵中的第二、三、四数值(即第二、三、四维度)分别对应图像的行数、列数、(红R，绿G，蓝B)的通道。

公开实施例的步骤104为第三阶段。不同于第一阶段的粗分类和第二阶段的细分类，第三阶段是更细分类，且在第三阶段直接进行证件角度数值的回归，从而最终得出目标旋转角度。请结合图7，在第三阶段引入了文本框信息，由于文本框信息的文字方向与证件方向息息相关，并且根据文本检测获得的文本框，可以通过BiLSTM获得24维度的第二特征，将第二特征与原先384维的第一特征结合，从而输出一个结合后的384维的目标特征，该384维的目标特征用于确定证件分类，相比于第一阶段和第二阶段，在第三阶段，是进行更细筛选。此外，在第三阶段仍然可以设定第三阈值为0.7(或者0.8)得到候选框，即通过置信度与第二阈值0.7(或者0.8)的大小关系，确图像类型。

更详细地，请参阅图7，在一应用场景中，将48*48*3的第二图像数据(即第二四维矩阵)输入至第三推理网络中，通过第三推理网络输出384维的第一特征，第三推理网络对第二图像数据进行预测，以预测第二图像数据是否为证件图像，并进行角度回归处理，最终得到第三预测角度值。

在一些实施例中，证件图像检测方法还包括：

根据目标旋转角度对证件图像进行校正。

进一步地，在一些实施例的目标旋转角度为第一预测角度值、第二预测角度值、第三预测角度值之和。

本公开实施例提供的证件图像检测方法主要分三阶段实现，在第一阶段主要是通过第一推理网络实现。第一推理网络主要任务有三个：第一任务是对128维的图像特征进行证件/非证件的图像分类，以预测是否为对应的证件；第二任务是进行证件框回归，即回归证件框的坐标；第三任务是对证件角度初步分类(即粗分类)，即只需进行朝上或者朝下的二分类，也就是将证件的上边框都旋转到水平线以上。第一推理网络输出特征图的尺度相应个数的box坐标回归值以及对应是否为证件图像的得分，根据预测的证件图像的得分去掉得分不达标的box，也就是去掉非证件图像的box，并用非极大值抑制(NMS)算法再去掉一部分box。对于所有尺寸的原始图像数据，都得到类似的box集合。并将所有box集合合并，再通过NMS算法去除一部分box，将剩余的数据作为第一图像数据进行输出，也就是将第一图像数据作为第一阶段最终的输出。并且，第一阶段还会输出第一预测角度值，具体地，若证件图像朝上，则第一预测角度值为0度，即不对证件图像进行旋转；若证件图像朝下，则第一预测角度值为180度，即对证件图像旋转180度，因此，可以保证将所有的证件图像都朝上。

在一具体的应用场景，以证件图像的倾斜角度为1度为例进行说明，在第一阶段，第一推理网络对倾斜角度为1度的证件的原始图像数据进行预测，先进行证件分类处理，在第一阶段，是进行粗筛选，即设定第一阈值为0.6得到候选框，即通过置信度与第一阈值0.6的大小关系，确图像类型；然后进行证件角度分类处理，在第一阶段，分为二类(0度、180度)由于相对于0度和180度来说，1度更靠近180度，也就是该证件图像的上边框已经是位于水平线以上，因此在第一阶段不旋转证件图像，第一预测角度值为0度，且在第一阶段输出第一图像数据(第一图像数据与原始图像数据的倾斜角度保持不变)。

在第二阶段，第二推理网络也对倾斜角度为1度的证件的第一图像数据进行预测，也是先进行证件分类处理，相比于第一阶段，在第二阶段，是进行更细筛选，即设定第二阈值为0.7(或者0.8)得到候选框，即通过置信度与第二阈值0.7(或者0.8)的大小关系，确图像类型；然后也进行证件角度分类处理，在第二阶段，分为三类(0度、90度、-90度)，由于相对于0度、90度、-90度来说，1度更靠近90度，也就是该证件图像的上边框是在[-45度，45度]内，因此在第二阶段也不旋转证件图像，第二预测角度值为0度，且在第二阶段输出第二图像数据(第二图像数据与第一图像数据的倾斜角度保持不变)。

在第三阶段，第三推理网络也对倾斜角度为1度的证件的第二图像数据进行预测，不同于第一阶段的粗分类和第二阶段的细分类，在第三阶段直接进行证件角度数值的回归，得出旋转角度；在第三阶段引入了文本框信息，由于文本框信息的文字方向与证件方向息息相关，并且根据文本检测获得的文本框，可以通过BiLSTM获得24维度的特征，将特征与原先的384维度特征结合，从而输出一个结合后的384维特征，该384维特征确定图像类型，相比于第一阶段和第二阶段，在第三阶段，是进行更细筛选，在第三阶段仍然可以设定第三阈值为0.7(或者0.8)得到候选框，即通过置信度与第二阈值0.7(或者0.8)的大小关系，确图像类型；然后也进行证件角度校正处理，在第三阶段，由于证件图像存在1度的倾斜，因此第三预测角度值为-1度，从而得出目标旋转角度＝第一预测角度值0度+第二预测角度值0度+第三预测角度值-1度＝-1度。

在另一具体的应用场景，以证件图像的倾斜角度为-179度为例进行说明，在第一阶段，第一推理网络对倾斜角度为-179度的证件的原始图像数据进行预测，先进行证件分类处理，在第一阶段，是进行粗筛选，即设定第一阈值为0.6得到候选框，即通过置信度与第一阈值0.6的大小关系，确图像类型；然后进行证件角度分类处理，在第一阶段，分为二类(0度、180度)由于相对于0度和180度来说，-179度更靠近0度，也就是该证件图像的上边框位于水平线以下，因此在第一阶段需要旋转证件使证件图像旋转至水平线以上，第一预测角度值为180度，且在第一阶段输出第一图像数据(第一图像数据与原始图像数据的倾斜角度相差180度)，此时第一图像数据中的证件图像倾斜1度。

在第二阶段，第二推理网络也对倾斜角度为1度的第一图像数据进行预测，也是先进行证件分类处理，相比于第一阶段，在第二阶段，是进行更细筛选，即设定第二阈值为0.7(或者0.8)得到候选框，即通过置信度与第二阈值0.7(或者0.8)的大小关系，确图像类型；然后也进行证件角度分类处理，在第二阶段，分为三类(0度、90度、-90度)，由于相对于0度、90度、-90度来说，1度更靠近90度，也就是该证件图像的上边框是在[-45度，45度]内，因此在第二阶段不旋转证件图像，第二预测角度值为0度，且在第二阶段输出第二图像数据(第二图像数据与第一图像数据的倾斜角度保持不变)。

在第三阶段，第三推理网络也对倾斜角度为1度的证件的第二图像数据进行预测，不同于第一阶段的粗分类和第二阶段的细分类，在第三阶段直接进行证件角度数值的回归，得出旋转角度；在第三阶段引入了文本框信息，由于文本框信息中文字的方向，跟证件方向息息相关，并且根据文本检测获得的文本框，可以通过BiLSTM获得24维度的特征，将特征与原先的384维度特征结合，从而输出一个结合后的384维特征，该384维特征确定图像类型，相比于第一阶段和第二阶段，在第三阶段，是进行更细筛选，在第三阶段仍然可以设定第三阈值为0.7(或者0.8)得到候选框，即通过置信度与第二阈值0.7(或者0.8)的大小关系，确图像类型；然后也进行证件角度校正处理，在第三阶段，由于证件图像存在1度的倾斜，因此第三预测角度值为-1度，从而得出目标旋转角度＝第一预测角度值180度+第二预测角度值0度+第三预测角度值-1度＝179度。

本公开实施例的技术方案，不同于人脸检测的原理在于：人脸检测的目标是找到人脸位置，而且一般人脸检测中是一个角度的人脸，其并不关心人脸的旋转角度；此外，人脸检测可能还涉及人脸关键点的回归，其中人脸的特征可以通过多个特征点表示，但是证件不可以用特征点表示，原因在于：单个证件间可能只有文本信息段不同，因此，本公开实施例中的神经网络需要对单个类型的证件进行训练。本公开实施例采用级联的网络结构，网络小，速度快。在一常规的应用场景中，可以在每旋转1度时，进一次模型进行训练，但是这样需要进360次模型(1至360度)，因此，为了减少进模型的次数，本公开实施例使用由粗到细逐步找到角度的方法，分三个阶段实现，通过三个渐进的推理网络进行处理，从而实现由粗到细的预测证件角度值，只需要进三次模型，不需要反馈多次进行小角度的模型训练，提高效率。

本公开实施例提供的证件图像检测方法，通过获取待检测的原始图像数据，将原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值，并将第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值，再将第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值，最后根据第一预测角度值、第二预测角度值和第三预测角度值计算出目标旋转角度，从而可以通过目标旋转角度对证件图像进行校正，通过本公开实施例提供的技术方案可以实现对倾斜的证件图像进行角度预测和校正。

本公开实施例使用由粗到细的预测证件角度值，并且利用该角度值进行证件角度的校正，相比于直接训练各个角度证件的网络，使用先进行证件校正再进行只有转正的证件网络训练，极大地提高召回率。

本公开实施例还提供一种证件图像检测装置，可以实现上述证件图像检测方法，该装置包括：

图像获取模块，用于获取待检测的原始图像数据；原始图像数据包括证件图像数据；

第一推理模块，用于将原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值；

第二推理模块，用于将第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值；

第三推理模块，用于将第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值；

旋转角度计算模块，用于根据第一预测角度值、第二预测角度值和第三预测角度值计算出目标旋转角度，目标旋转角度用于校正证件图像。

本公开实施例还提供了一种电子设备，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现本公开实施上述的证件图像检测方法。该电子设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端。

请参阅图8，图8示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器801，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器802，可以采用ROM(ReadOnlyMemory，只读存储器)、静态存储设备、动态存储设备或者RAM(RandomAccessMemory，随机存取存储器)等形式实现。存储器802可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器802中，并由处理器801来调用执行本公开实施例的证件图像检测方法；

输入/输出接口803，用于实现信息输入及输出；

通信接口804，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线805，在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息；

其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

本公开实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述证件图像检测方法。

本公开实施例提出的证件图像检测方法、证件图像检测装置、电子设备、存储介质，通过获取待检测的原始图像数据，将原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值，并将第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值，再将第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值，最后根据第一预测角度值、第二预测角度值和第三预测角度值计算出目标旋转角度，从而可以通过目标旋转角度对证件图像进行校正，通过本公开实施例提供的技术方案可以实现对倾斜的证件图像进行角度预测和校正。并且使用由粗到细的预测证件角度值，并且利用该角度值进行证件角度的校正，相比于直接训练各个角度证件的网络，使用先进行证件校正再进行只有转正的证件网络训练，极大地提高召回率。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-2、4、6中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本公开实施例的优选实施例，并非因此局限本公开实施例的权利范围。本领域技术人员不脱离本公开实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本公开实施例的权利范围之内。

Claims

1.一种证件图像检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述原始图像数据输入至第一推理网络进行第一预测和校准处理，得到第一图像数据和第一预测角度值，包括：

根据所述第一图像数据得到第一预测角度值。

3.根据权利要求2所述的方法，其特征在于，所述对进行第一证件框回归处理的原始图像数据进行第一证件角度分类处理，得到所述第一图像数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述第一图像数据得到所述第一预测角度值所述将所述第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值，包括：

根据所述第二图像数据得到第二预测角度值。

5.根据权利要求4所述的方法，其特征在于，所述第一图像数据得到所述第一预测角度值所述将所述第一图像数据输入至第二推理网络进行第二预测和校准处理，得到第二图像数据和第二预测角度值，还包括：

获取所述第一图像数据的box；

根据所述第一图像数据的box截取对应第一区域；

将所截取到的第一区域合并得到第一四维矩阵；其中，将所述第一四维矩阵作为输入至所述第二推理网络进行第一预测和校准处理的第一图像数据。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述将所述第二图像数据输入至第三推理网络进行角度回归处理，得到第三预测角度值，包括：

根据所述第二图像数据获取第一特征和文本框信息；

根据所述文本框信息获取第二特征；

将所述第一特征与所述第二特征结合得到目标特征；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取所述第二图像数据的box；

根据所述第二图像数据的box截取对应第二区域；

将所截取到的第二区域合并得到第二四维矩阵；其中，将所述第二四维矩阵作为输入至所述第三推理网络进行角度回归处理的第二图像数据。

8.一种证件图像检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个存储器；

至少一个处理器；

至少一个程序；

所述程序被存储在存储器中，处理器执行所述至少一个程序以实现：

如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行：

如权利要求1至7任一项所述的方法。