CN111325194A

CN111325194A - 一种文字识别方法、装置及设备、存储介质

Info

Publication number: CN111325194A
Application number: CN201811523425.5A
Authority: CN
Inventors: 徐博
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-06-23
Anticipated expiration: 2038-12-13
Also published as: CN111325194B

Abstract

本发明提供一种文字识别方法、装置及设备、存储介质，该方法包括：确定图像中卡证区域的目标角点在所述图像中的位置信息；依据目标角点的位置信息将所述卡证区域从当前视角转换至目标视角，所述目标视角是采集图像时正对卡证的视角；确定已转换的卡证区域中的至少一个目标文字区域；将每个所述目标文字区域输入至已训练的第一神经网络，以由所述第一神经网络识别并输出所述目标文字区域中的文字。避免因文字畸变而导致文字识别准确性较低的问题。

Description

一种文字识别方法、装置及设备、存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及的是一种文字识别方法、装置及设备、存储介质。

背景技术

在一些场合中，需要对采集图像中的卡证比如身份证、名片、护照等上的文字进行识别，以便进一步进行信息的录入等处理。

相关技术中，无论在哪个视角下采集卡证图像，在采集到卡证图像后，直接在采集到的原图中定位文字，并对定位到的文字进行识别。

上述方式中，由于直接在采集的原图上定位及识别文字，而原图中的卡证区域可能存在畸变，未对卡证区域进行畸变校正的情况下，卡证区域中的文字也会畸变，导致文字识别准确性较低的问题。

发明内容

有鉴于此，本发明提供一种文字识别方法、装置及设备、存储介质，避免因文字畸变而导致文字识别准确性较低的问题。

本发明第一方面提供一种文字识别方法，包括：

确定图像中卡证区域的目标角点在所述图像中的位置信息；

依据目标角点的位置信息将所述卡证区域从当前视角转换至目标视角，所述目标视角是采集图像时正对卡证的视角；

从已转换的卡证区域中确定出至少一个目标文字区域；

将每个所述目标文字区域输入至已训练的第一神经网络，以由所述第一神经网络识别并输出所述目标文字区域中的文字。

根据本发明的一个实施例，确定图像中卡证区域的目标角点在所述图像中的位置信息，包括：

将所述图像输入至已训练的第二神经网络中；所述第二神经网络至少通过用于执行卷积的卷积层、用于执行下采样的池化层、及用于执行坐标回归的回归层实现所述卡证区域的目标角点的位置信息的确定和输出；

将所述第二神经网络输出的结果确定为所述卡证区域的目标角点在所述图像中的位置信息。

根据本发明的一个实施例，依据目标角点的位置信息将所述卡证区域从当前视角转换至目标视角，包括：

获取目标视角下的设定角点在所述图像中的位置信息；

依据目标角点确定当前视角下的所述卡证区域在所述图像中的位置；

依据至少四个目标角点的位置信息、及对应设定角点的位置信息，计算所述卡证区域从当前视角转换至目标视角的坐标转换关系；其中，所述至少四个目标角点中存在任意三个目标角点不共线的四个目标角点；

按照所述坐标转换关系将所述卡证区域从当前视角转换至目标视角。

根据本发明的一个实施例，所述目标角点包括：卡证区域的边框上的边框角点、卡证区域的指定文字段上的文字角点、和/或卡证区域的指定图案上的图案角点。

根据本发明的一个实施例，所述目标角点至少包括卡证区域的指定文字段上的文字角点；

所述从已转换的卡证区域中确定出至少一个目标文字区域，包括：

获取已转换的卡证区域中的文字角点到确定目标文字区域时所需的区域定位点的设定位置关系；

依据所述文字角点在已转换的卡证区域中的位置信息及所述设定位置关系，确定区域定位点在已转换的卡证区域中的位置信息；

依据所述区域定位点的位置信息确定所述卡证区域的所述目标文字区域。

根据本发明的一个实施例，所述从已转换的卡证区域中确定出至少一个目标文字区域，包括：

确定所述已转换的卡证区域中的多个候选文字区域；

将所述已转换的卡证区域中的各个候选文字区域与预设的卡证区域模板中的设定文字区域进行匹配；

依据匹配结果从候选文字区域中确定出目标文字区域。

根据本发明的一个实施例，由所述第一神经网络识别出所述目标文字区域中的文字，包括：

由所述第一神经网络的至少一卷积层对所述目标文字区域进行特征提取并输出特征图至第一循环网络层；

由所述第一神经网络的第一循环网络层对所述特征图进行编码并输出特征序列至第二循环网络层；

由所述第一神经网络的第二循环网络层对所述特征序列进行解码而识别出文字并输出。

根据本发明的一个实施例，将已确定的每个所述目标文字区域输入至已训练的第一神经网络，以由所述第一神经网络识别并输出所述目标文字区域中的文字之后，该方法还进一步包括：

从所述第一神经网络输出的文字中确定出待校验文字段，并确定所述待校验文字段中相关联的第一文字段和第二文字段；

在预设的文字关联表的第一表项中查找所述第一文字段；

若未查找到，则计算所述第一文字段与所述第一表项中各个文字段的相似度，当最大相似度低于设定值时，在所述文字关联表的第二表项中查找是否存在所述第二文字段，若存在，则将所述第一文字段修改为所述第一表项中与所述第二文字段对应的文字段，若不存在，则计算所述第二文字段与所述第二表项中各个文字段的相似度，确定与所述第二文字段相似度最大的文字段，将所述第一文字段修改为第一表项中与所述相似度最高的文字段对应的文字段；

所述第一表项与第二表项中的文字段之间存在一一对应关系。

本发明第二方面提供一种文字识别装置，包括：

目标角点定位模块，用于确定图像中卡证区域的目标角点在所述图像中的位置信息；

卡证区域校正模块，用于依据目标角点的位置信息将所述卡证区域从当前视角转换至目标视角，所述目标视角是采集图像时正对卡证的视角；

文字区域确定模块，用于从已转换的卡证区域中确定出至少一个目标文字区域；

区域文字识别模块，用于将每个所述目标文字区域输入至已训练的第一神经网络，以由所述第一神经网络识别并输出所述目标文字区域中的文字。

根据本发明的一个实施例，所述目标角点定位模块包括：

位置信息计算单元，用于将所述图像输入至已训练的第二神经网络中；所述第二神经网络至少通过用于执行卷积的卷积层、用于执行下采样的池化层、及用于执行坐标回归的回归层实现所述卡证区域的目标角点的位置信息的确定和输出；

位置信息确定单元，用于将所述第二神经网络输出的结果确定为所述卡证区域的目标角点在所述图像中的位置信息。

根据本发明的一个实施例，所述卡证区域校正模块包括：

设定角点获取单元，用于获取目标视角下的设定角点在所述图像中的位置信息；

当前位置确定单元，用于依据目标角点确定当前视角下的所述卡证区域在所述图像中的位置；

关系计算单元，用于依据至少四个目标角点的位置信息、及对应设定角点的位置信息，计算所述卡证区域从当前视角转换至目标视角的坐标转换关系；其中，所述至少四个目标角点中存在任意三个目标角点不共线的四个目标角点；

坐标转换单元，用于按照所述坐标转换关系将所述卡证区域从当前视角转换至目标视角。

所述文字区域确定模块包括：

位置关系获取单元，用于获取已转换的卡证区域中的文字角点到确定目标文字区域时所需的区域定位点的设定位置关系；

文字区域定位单元，用于依据所述文字角点在已转换的卡证区域中的位置信息及所述设定位置关系，确定区域定位点在已转换的卡证区域中的位置信息；

第一确定单元，用于依据所述区域定位点的位置信息确定所述卡证区域的所述目标文字区域。

根据本发明的一个实施例，所述文字区域确定模块包括：

候选文字区域确定单元，用于确定所述已转换的卡证区域中的多个候选文字区域；

文字区域匹配单元，用于将所述已转换的卡证区域中的各个候选文字区域与预设的卡证区域模板中的设定文字区域进行匹配；

第二确定单元，依据匹配结果从候选文字区域中确定出目标文字区域。

根据本发明的一个实施例，所述区域文字识别模块包括：

第一计算单元，用于由所述第一神经网络的至少一卷积层对所述目标文字区域进行特征提取并输出特征图至第一循环网络层；

第二计算单元，用于由所述第一神经网络的第一循环网络层对所述特征图进行编码并输出特征序列至第二循环网络层；

第三计算单元，用于由所述第一神经网络的第二循环网络层对所述特征序列进行解码而识别出文字并输出。

根据本发明的一个实施例，该装置还进一步包括文字校正模块，用于：

在预设的文字关联表的第一表项中查找所述第一文字段；

本发明第三方面提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的文字识别方法。

本发明第四方面提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中所述的文字识别方法。

相比于现有技术，本发明实施例至少具有以下有益效果：

本发明实施例中，依据确定出的卡证区域中的目标角点的位置信息，可将卡证区域从当前视角转换至目标视角，实现对卡证区域的畸变校正，从而从校正后的卡证区域中确定出的目标文字区域也得到了畸变校正，再利用第一神经网络可从目标文字区域中识别出校正后的文字，提升文字识别的准确度。

附图说明

图1为本发明一实施例的文字识别方法的流程示意图；

图2为本发明一实施例的文字识别装置的结构框图；

图3和图4为本发明一实施例的卡证区域从图像当前视角转换到目标视角的转换示意图；

图5为本发明一实施例的在卡证区域中确定目标文字区域的图像示意图；

图6为本发明一实施例的第一神经网络的架构示意图；

图7为本发明一实施例的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

为了使得本发明的描述更清楚简洁，下面对本发明中的一些技术术语进行解释：

神经网络：一种通过模仿大脑结构抽象而成的技术，该技术将大量简单的函数进行复杂的连接，形成一个网络***，该***可以拟合极其复杂的函数关系，一般可以包括卷积/反卷积操作、激活操作、池化操作，以及加减乘除、通道合并、元素重新排列等操作。使用特定的输入数据和输出数据对网络进行训练，调整其中的连接，可以让神经网络学习拟合输入和输出之间的映射关系。

下面对本发明实施例的文字识别方法进行更具体的描述，但不应以此为限。参看图1，在一个实施例中，一种文字识别方法，可以包括以下步骤：

S100：确定图像中卡证区域的目标角点在所述图像中的位置信息；

S200：依据目标角点的位置信息将所述卡证区域从当前视角转换至目标视角，所述目标视角是采集图像时正对卡证的视角；

S300：从已转换的卡证区域中确定出至少一个目标文字区域；

S400：将每个所述目标文字区域输入至已训练的第一神经网络，以由所述第一神经网络识别并输出所述目标文字区域中的文字。

本发明实施例的文字识别方法的执行主体可以是具有图像处理能力的电子设备，更具体的可以是电子设备的处理器。电子设备例如可以是成像设备，可对卡证进行图像采集，而得到包含卡证区域的图像；当然，电子设备也可以是非成像设备，可从外部成像设备中获取采集的包含卡证区域的图像。

步骤S100中，确定图像中卡证区域的目标角点在所述图像中的位置信息。

图像中可以包含一个卡证区域，也可以包含两个以上卡证区域。当图像中包含两个以上卡证区域时，每次可针对一个卡证区域执行目标角点的位置信息的确定操作；也可以同时针对图像中的几个卡证区域执行目标角点的位置信息的确定操作，而后可依据目标角点所属区域对这些目标角点归类至对应卡证区域中。

目标角点可以是卡证本身特征突出的点，或者可以是自定义感兴趣的卡证上的点，具体不限。优选的，目标角点包括：卡证区域的边框上的边框角点、卡证区域的指定文字段上的文字角点、和/或卡证区域的指定图案上的图案角点。目标角点也不限于上述类型的角点，还可以是卡证区域上的其他点，只要是卡证区域上的角点即可。

具体来说，卡证区域的指定文字段上的文字角点可以是固定文字段最小包围框的边框角点；卡证区域的指定图案上的角点可以是指定图案最小包围框的边框角点。当边框顶角呈角状时，边框角点可以是边框上两条边的交点(即顶角)；当边框顶角处有一定的弧度、缺口等形状时，边框角点可以是边框上两条边延长线的交点。可以理解，上述边框角点仅作为优选，也可以是边框上的其他点例如中点等。

通过角点检测技术可检测出图像中卡证区域的目标角点，确定图像中的目标角点后，便可相应确定目标角点在图像中的位置信息。角点检测技术具体不限，只要能够检测出图像中卡证区域的目标角点即可。

接着执行S200，依据目标角点的位置信息将所述卡证区域从当前视角转换至目标视角。

目标角点的位置信息可以表征卡证区域在图像中的形状、尺寸、位置等，从而基于目标角点的位置信息可明确卡证区域在图像中的畸变情况。

目标视角是采集图像时正对卡证的视角，即在该目标视角下、卡证区域是卡证的正视图。若当前视角是斜对着卡证采集图像时的视角，则卡证区域在图像中存在近大远大的畸变情况，将卡证区域从当前视角转换至目标视角，可对卡证区域在图像中的畸变校正，使得卡证区域在图像中能够具有理想的形状、尺寸、位置等，例如校正后的卡证区域呈与标准卡证同尺寸的矩形且位于图像中间。

在对卡证区域进行畸变校正时，可调整卡证区域的尺寸使得卡证区域尽可能地与实体卡证的尺寸相同或接近，当然具体可根据需要确定。

可选的，在对卡证区域进行畸变校正后，可对卡证区域所在图像进行裁剪，使得图像裁剪至与卡证区域的尺寸匹配，使得卡证区域完全撑满整个图像，以利于后续进行目标文本区域的定位。

在对卡证区域进行畸变校正后，接着执行步骤S300，从已转换的卡证区域中确定出至少一个目标文字区域。

卡证区域中会包含多个文字区域，目标文字区域可以是这些文字区域中用户感兴趣的文字区域。文字区域可以包括固定文字段及个性化文字段，目标文字区域可以是个性化文字段，前述的指定文字段可以是固定文字段。以身份证为例，固定文字段例如包括“姓名”、“性别”、“住址”、“公民身份证号码”等固定不会变的文字段，个性化文字段对应包括“苟关丽”、“女”、“河南省淅川县XXX”、“1111XXX”等因个人而变的文字段。

可通过MSER(最大稳定极值区域、MSER-Maximally Stable Extremal Regions)、SWT(基于笔画宽度转换的文字检测)等方法从卡证区域中确定出目标文字区域，还可通过神经网络来实现从卡证区域中确定出目标文字区域，具体不限。每个目标文字区域中可以包括一个文字或两个以上文字，在确定目标文字区域时，可依据文字间的距离、字体大小、文字颜色等确定将哪些文字构成一个目标文字区域。

确定目标文字区域后，执行步骤S400，将每个所述目标文字区域输入至已训练的第一神经网络，以由所述第一神经网络识别并输出所述目标文字区域中的文字。

第一神经网络是预先训练好的。第一神经网络可预存在执行文字识别方法的电子设备的存储器上，在使用的时候可从存储器中调用；或者，第一神经网络可在使用时从外部获取，具体不限。

针对每个目标文字区域，将目标文字区域输入至第一神经网络后，可由神经网络识别出目标文字区域中的文字并将识别出的文字输出。第一神经网络输出的是每个目标文字区域中的所有文字，每次输出可以是单个文字也可以是两个以上文字构成的文字段。如此，完成卡证区域中每个目标文字区域的文字识别，得到所有感兴趣的文字。

此外，确定出目标文字区域后，并不将目标文字区域分割成单个文字，而是利用第一神经网络从整个目标文字区域中识别出相应的文字，不会产生因单字分割偏差而带来的文字识别不准确的问题。

在一个实施例中，上述方法流程可由文字识别装置执行，如图2所示，目文字识别装置10主要包含4个模块：目标角点定位模块100、卡证区域校正模块200、文字区域确定模块300和区域文字识别模块400。目标角点定位模块100用于执行上述步骤S100，卡证区域校正模块200用于执行上述步骤S200，文字区域确定模块300用于执行上述步骤S300，区域文字识别模块400用于执行上述步骤S400。

在一个实施例中，目标角点定位模块100包括位置信息计算单元和位置信息确定单元，可由位置信息计算单元执行步骤S101，可由位置信息确定单元执行步骤S102，以实现上述步骤S100。步骤S100具体包括以下步骤：

S101：将所述图像输入至已训练的第二神经网络中；所述第二神经网络至少通过用于执行卷积的卷积层、用于执行下采样的池化层、及用于执行坐标回归的回归层实现所述卡证区域的目标角点的位置信息的确定和输出；

S102：将所述第二神经网络输出的结果确定为所述卡证区域的目标角点在所述图像中的位置信息。

同样的，第二神经网络也是预先训练好的。第二神经网络可预存在执行文字识别方法的电子设备的存储器上，在使用的时候可从存储器中调用；或者，第二神经网络可在使用时从外部获取，具体不限。

作为第二神经网络的一个实施例，该第二神经网络可以包括卷积层、池化层及回归层，各层的数量并不限定，例如可以包括多个卷积层。当然，第二神经网络也还可包括其他层结构，具体不限。

下面介绍一下第二神经网络中各层的具体功能，但不应以此为限。

卷积层执行的是卷积操作，对图像进行卷积后得到特征图。对图像的卷积可以是多个卷积层执行卷积，当然也可以是单个卷积层执行卷积。

池化层执行的是下采样操作，即对卷积层得到的特征图进行缩小。下采样过程中，设置一个大小例如为N×N的缩小窗，将特征图分为若干缩小窗大小的区域，当使用最大池化时，即对每个区域求取像素特征最大值，得到所有最大值像素特征构成的下采样后的特征图。卷积层和池化层可以交替执行相应的处理。

回归层执行的是回归操作，即对池化层输出的经下采样后的特征图进行坐标回归操作，得到卡证区域的目标角点的位置信息。回归过程中当然还可以有平移变换和/或尺度缩放变换等坐标变换的操作。

对于第二神经网络的训练，可以通过获取包括带卡证区域的图像样本和对应的目标角点的位置信息样本作为训练样本集，将图像样本作为输入，将对应的位置信息样本作为输出，对第二神经网络的训练模型进行训练。关于图像样本中对应的位置信息样本的获取，可以通过检测目标角点的图像处理方式来对图像样本进行处理得到对应的位置信息样本，或者可以通过在图像样本中标定位置信息得到位置信息样本。

将第二神经网络输出的结果确定为所述卡证区域的目标角点在所述图像中的位置信息，即得到执行步骤S200所需的目标角点的位置信息。

可以理解，卡证区域的目标角点在图像中的位置信息的确定方式并不限于此，例如还可以是通过ISP角点检测算法来实现、或者通过标定实现。

在一个实施例中，在一个实施例中，卡证区域校正模块200包括设定角点获取单元、当前视角确定单元、关系计算单元及转换单元，可由设定角点获取单元执行步骤S201，可由当前视角确定单元执行步骤S202，可由关系计算单元执行步骤S203，可由转换单元执行步骤S204，以实现上述步骤S200。步骤S200具体包括以下步骤：

S201：获取目标视角下的设定角点在所述图像中的位置信息；

S202：依据目标角点确定当前视角下的所述卡证区域在所述图像中的位置；

S203：依据至少四个目标角点的位置信息、及对应设定角点的位置信息，计算所述卡证区域从当前视角转换至目标视角的坐标转换关系；其中，所述至少四个目标角点中存在任意三个目标角点不共线的四个目标角点；

S204：按照所述坐标转换关系将所述卡证区域从当前视角转换至目标视角。

执行步骤S203所需的至少四个目标角点中存在任意三个目标角点不共线的四个目标角点。换言之，步骤S203中选出的所有目标角点的数量可以是四个或五个以上，但是其中存在四个目标角点，这四个目标角点中任意三个之间均不共线。基于选出的目标角点确定卡证区域在图像中的尺寸、位置、比例等。

优选的，执行步骤S203所需的目标角点可以是卡证边框的四个边框顶点，目标视角下的卡证区域是规则的矩形，利用边框顶点可更方便地确定卡证区域在图像中的整体形状及位置。

设定角点与选出的目标角点是一一对应的，在选出四个目标角点的情况下，设定角点也为四个。利用四组目标角点和设定角点的位置信息构建矩阵方程组，便可求解矩阵方程组中各个目标角点与设定角点的位置信息之间的坐标转换关系，也即卡证区域从当前视角转换至目标视角的坐标转换关系。

由于坐标转换关系是利用目标角点与设定角点的位置信息求解得到的，因而在步骤S204转换时，目标角点的坐标会转换到设定角点的位置处。

卡证区域从当前视角转换至目标视角的转换公式例如为：

u,v是当前视角下的卡证区域中像素的坐标，(x,y)为目标视角下的卡证区域中像素的坐标，其中，x＝x′/w′，y＝y′/w′，w为常数比如1，

为利用四组当前视角下的目标角点与设定角点的位置信息求解的转换矩阵。

卡证区域从当前视角转换至目标视角后，可得到理想(未畸变)情况下的卡证区域上的对应角点，可确定目标视角下的卡证区域在图像中的尺寸、位置、比例等。

具体的，如图3，目标角点是卡证区域C1’边框上的四个交点P1’-P4’，未转换时，卡证区域C1’在图像IM1’中倾斜且尺寸过小，因而卡证区域在当前视角下并未达到较佳可识别状态。如图4，设定角点是P1-P4，P1-P4即转换后的卡证区域C1边框上的四个顶点，转换至目标视角后的卡证区域C1在图像IM1中被摆正且尺寸被放大，达到较佳可识别状态。

在一个实施例中，所述目标角点至少包括卡证区域的指定文字段上的文字角点；

文字区域确定模块300包括位置关系获取单元、文字区域定位单元和第一确定单元，可由位置关系获取单元执行步骤S301，可由文字区域定位单元执行步骤S302，可由第一确定单元执行步骤S303，以实现上述步骤S300。步骤S300具体包括以下步骤：

S301：获取已转换的卡证区域中的文字角点到确定目标文字区域时所需的区域定位点的设定位置关系；

S302：依据所述文字角点在已转换的卡证区域中的位置信息及所述设定位置关系，确定区域定位点在已转换的卡证区域中的位置信息；

S303：依据所述区域定位点的位置信息确定所述卡证区域的所述目标文字区域。

设定位置关系是预置的文字角点与区域定位点的位置关系，由于卡证区域已经经过了预期的转换，例如卡证区域转换至与设定卡证区域模板相同尺寸，因而依据该设定卡证区域模板确定的设定位置关系也符合转换后的卡证区域中文字角点与区域定位点的位置关系。

依据转换后的卡证区域中文字角点的位置信息与该设定位置关系，便可确定出该区域定位点的位置信息，从而可以确定出整个目标文字区域在卡证区域中的位置，进而可提取出该目标文字区域。

具体来说，参看图5，目标角点可以包括卡证区域的指定文字段上的文字角点P5-P12，当然还可以包括卡证区域的边框上的边框角点等。本实施例中，以文字角点P5为例进行说明，F1为目标文字区域，F11为目标文字区域的一个区域定位点(一个顶点)，依据P5与F11间的设定位置关系及P5的位置信息，可确定F11的位置信息，依次类推可确定目标文字区域F1的各个顶点的位置信息，由此可确定目标文字区域在卡证区域中的位置，进而可提取出该目标文字区域。

优选的，当在目标视角下的卡证区域与确定设定位置关系所用的设定卡证区域模板的大小不一致时，可以根据目标卡证区域与该设定卡证区域模板之间的比例来调整该设定位置关系。通过设定位置关系的比例调节，可克服在目标视角下的卡证区域与确定设定位置关系所用的设定卡证区域模板的大小不一致的问题。

在一个实施例中，文字区域确定模块300包括候选文字区域确定单元、文字区域匹配单元和第二确定单元，可由候选文字区域确定单元执行步骤S304，可由文字区域匹配单元执行步骤S305，可由第二确定单元执行步骤S306，以实现上述步骤S300。步骤S300具体包括以下步骤：

S304：确定所述已转换的卡证区域中的多个候选文字区域；

S305：将所述已转换的卡证区域中的各个候选文字区域与预设的卡证区域模板中的设定文字区域进行匹配；

S306：依据匹配结果从候选文字区域中确定出目标文字区域。

步骤S304中，确定卡证区域中的候选文字区域的具体方式不限，以下提供两种确定卡证区域中的候选文字区域的方式。

第一种，依据先验知识在卡证区域中框选出可能的文字区域，将框选出的区域输入至已训练的神经网络中，通过该神经网络的卷积网络层进行特征提取、分类层对提取的特征进行分类及位置回归。可依据神经网络输出的区域位置及对应的分类置信度，分类置信度判断框选出的区域是否确实为文字区域，将判定为文字的区域确定为候选文字区域。

具体的，依据分类置信度判断框选出的区域是否确实为文字区域的方式包括：若分类置信度高于指定阈值，则与该分类置信度对应的区域为文字区域，否则为非文字区域。

此处的神经网络中，卷积网络层可利用CNN(卷积神经网络)构成，分类层可利用softmax_loss分类器(基于损失函数的softmax分类器)实现，当然，此处仅是示例，并不作为限制。

第二种，可将图像或卡证区域输入至已训练的神经网络中，利用神经网络提取图像或卡证区域中的像素特征并对每个像素特征进行分类置信度计算，将分类置信度高于指定值的像素置为白色值，而将分类置信度不高于指定值的像素置为黑色值，神经网络输出一张黑白的预测得分图。得到预测得分图之后，可以求预测得分图中白色区域的联通区域，将各个联通区域的最小包围矩形框所框选出的区域确定为候选文字区域。

此处的神经网络可以为CNN，当然不限于此，也可以是其他模型或自定义模型。对神经网络训练时，可在神经网络中标定真实得分图(文字区域为白色，其余区域为黑色)，训练的目标是使得预测得分图和真实得分图相近。具体的，神经网络训练的过程中，可以计算损失函数，训练的目标是使损失函数变小，即真实和预测的相似度变大。损失函数Dice_loss计算如下公式(1)：

Dice_loss＝1-dice_coef (1)

dice_coef用来衡量两个字符串(向量)的相似度，计算如下公式(2)：

dice_coef＝(2*intersection)/union (2)

其中，intersection为预测得分图和真实得分图分别向量后两者的内积。

比如真实得分图用向量表示(矩阵转为向量)为[0,0,0,…,1,1,1,1…0,0]；预测得分图用向量表示为[0.01,0.0002,0.03,…,0.8.0.9,0.99,0.5,…0,0]；

dice_coef＝2*(0*0.01+0*0.002+0*0.03+…+1*0.8+1*0.9+1*0.99+1*0.5+…+0+0)/(0+0+…+1+1+1+1+…+0.01+0.002+0.03+…+0.8+0.9+0.99+0.5+…)；

求得的dice_coef即为相似度，若计算得到的Dice_loss过大则需调整参数使得用重新得到的预测得分图计算Dice_loss时，Dice_loss会变小。

确定各个候选文字区域只是确定了卡证区域中所有可能的文字区域，但并不是所有候选文字区域都是感兴趣的文字区域，例如固定文字段所在的候选文字区域便不是，因而还需执行后续步骤来确定目标文字区域。

步骤S305中，将所述已转换的卡证区域中的各个候选文字区域与预设的卡证区域模板中的设定文字区域进行匹配。

卡证区域模板中可以设置有多个设定文字区域，匹配结果可以是，各个候选文字区域中，几个各自匹配到对应的设定文字区域，几个未匹配到设定文字区域。当然，也可以是各个候选文字区域全部匹配到对应的设定文字区域。

步骤S307中，依据匹配结果从候选文字区域中确定出目标文字区域，将匹配到对应设定文字区域的候选文字区域确定为目标文字区域。由于已经经过匹配，因而根据匹配结果可确定目标文字区域所对应的设定文字区域，即可明确出目标文字区域具体是哪个字段的区域，例如具体是姓名字段区域、还是地址字段区域等，便于后续进行文字识别后的结果校正。

在一个实施例中，区域文字识别模块400包括第一计算单元、第二计算单元和第三计算单元，可由第一计算单元执行步骤S401，可由第二计算单元执行步骤S402，可由第二计算单元执行步骤S403，以实现上述步骤S400。步骤S400具体包括以下步骤：

S401：由所述第一神经网络的至少一卷积层对所述目标文字区域进行特征提取并输出特征图至第一循环网络层；

S402：由所述第一神经网络的第一循环网络层对所述特征图进行编码并输出特征序列至第二循环网络层；

S403：由所述第一神经网络的第二循环网络层对所述特征序列进行解码而识别出文字并输出。

具体的，图6示出了第一神经网络的一种架构，下面结合工作过程进行说明。

T1为目标文字区域，当然T1在输入到第一神经网络之前可以先被调节到固定尺寸大小，例如256(宽)*32(高)。T1中的文字例如可以是WARNING。

第一神经网络中的至少一卷积层表示为ConvN，例如可以由卷积层和池化层交替的卷积神经网络构成，ConvN对输入的T1进行卷积操作、降维操作并输出特征图，输出的特征图维度可以是C*H*W，其中，C为特征图个数(通道数，例如RGB图则为3个通道)，H和W为每个特征图的高和宽。

第一神经网络的第一循环网络层表示为BL1，具体可以由BLSTM构成，实现特征图到序列的转换，即将大小为C*H*W的特征图转换成为(H*W)*C的序列。特征图如下3个矩阵：

上述3个矩阵经过BL1处理后，得到(3*3)＝9个向量(即H*W)，每个向量维度为3(即C)，最终的特征序列为：

[a11,b11,c11],[a12,b12,c12]……[a33,b33,c33]。

图6中，BL1之后的部分为第一神经网络的第二循环网络层，可以由基于注意力(Attention)结构的循环神经网络构成，图中以LSTM(长短期记忆网络)网络结构为例。

每个时刻LSTM只输出一个字符，当前时刻的输出结果和上一时刻的输出结果有关，当前时刻输出公式如下:

s_t＝LSTM(s_t-1,g_t,c_t-1)

其中，y_t表示t时刻LSTM输出字符的概率向量，g_t表示t时刻LSTM的输入，S_t表示t时刻LSTM的输出。c_t表示t时刻LSTM的细胞状态。同理，S_t-1表示t-1时刻(上一时刻)LSTM的输出，c_t-1表示t-1时刻LSTM的细胞状态。

φ表示softmax操作,W表示输出结果y_t和S_t之间的权重参数，S_t经过全连接操作(相当于乘一个权重参数矩阵)，得到输出中间结果WS_t，之后经过softmax操作，得到t时刻字符的输出概率向量。

其中，g_t＝α₁*C1+α₂*C2+α₃*C3+…+α_n*Cn

α＝(α₁,α₂,α₃,…)表示权重参数向量，C1、C2、C3……Cn即BL1输出的特征序列。

从图6中可见，第一神经网络的第二循环网络层依次输出字符为W、A、R、N、I、N、G，最终以EOS作为结束字符。

在一个实施例中，步骤S400之后还包括文字校正步骤S500，可由文字识别装置的文字校正模块执行步骤S500。步骤S500具体包括以下步骤：

S501：从所述第一神经网络输出的文字中确定出待校验文字段，并确定所述待校验文字段中相关联的第一文字段和第二文字段；

S502：在预设的文字关联表的第一表项中查找所述第一文字段；

S503：若未查找到，则计算所述第一文字段与所述第一表项中各个文字段的相似度，当最大相似度低于设定值时，在所述文字关联表的第二表项中查找是否存在所述第二文字段，若存在，则将所述第一文字段修改为所述第一表项中与所述第二文字段对应的文字段，若不存在，则计算所述第二文字段与所述第二表项中各个文字段的相似度，确定与所述第二文字段相似度最大的文字段，将所述第一文字段修改为第一表项中与所述相似度最高的文字段对应的文字段；

具体的，以身份证地址为例：省市区县乡镇具有固定的名称及关联关系，可以利用这种特点对识别出的地址字段中的省市区乡镇文字进行纠错。

文字关联表的第一表项例如可以记录所有正确的省份，而第二表项则记录所有可能跟在各个省份后面的正确的市或县，第一表项中的每个省份对应于第二表项中相应的市或县。

比如文字识别结果为：“柯南省淅川县……”，可先用“柯南”查找记录省的第一表项，未查找到相应结果后，计算该柯南与第一表项中的各个省份进行相似度计算，结果最大相似度低于设定值，再用“淅川”查找记录市县的第二表项，若查找到相应结果，则用第一表项中与“淅川”对应的“河南”替换该“柯南”，实现将“柯南省淅川县……”校正为““河南省淅川县……”

可以理解，上述步骤S500当然也可以用在其他文字段上，只要文字段中存在前后有关联的第一文字段和第二文字段，相应的文字关联表中只要记录所有正确的关联文字段即可。

本发明还提供一种文字识别装置，在一个实施例中，参看图2，该装置10包括：

目标角点定位模块100，用于确定图像中卡证区域的目标角点在所述图像中的位置信息；

卡证区域校正模块200，用于依据目标角点的位置信息将所述卡证区域从当前视角转换至目标视角，所述目标视角是采集图像时正对卡证的视角；

文字区域确定模块300，用于从已转换的卡证区域中确定出至少一个目标文字区域；

区域文字识别模块400，用于将每个所述目标文字区域输入至已训练的第一神经网络，以由所述第一神经网络识别并输出所述目标文字区域中的文字。

在一个实施例中，所述目标角点定位模块包括：

在一个实施例中，所述卡证区域校正模块包括：

设定角点获取单元，用于获取目标视角下的设定角点；

在一个实施例中，所述目标角点包括：卡证区域的边框上的边框角点、卡证区域的指定文字段上的文字角点、和/或卡证区域的指定图案上的图案角点。

所述文字区域确定模块包括：

在一个实施例中，所述文字区域确定模块包括：

在一个实施例中，所述区域文字识别模块包括：

在一个实施例中，该装置还进一步包括文字校正模块，用于：

在预设的文字关联表的第一表项中查找所述第一文字段；

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。

本发明还提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中任意一项所述的文字识别方法。

本发明文字识别装置的实施例可以应用在电子设备上。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，图7是本发明根据一示例性实施例示出的文字识别装置10所在电子设备的一种硬件结构图，除了图7所示的处理器510、内存530、接口520、以及非易失性存储器540之外，实施例中装置10所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

本发明还提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，实现如前述实施例中任意一项所述的文字识别方法。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文字识别方法，其特征在于，包括：

确定图像中卡证区域的目标角点在所述图像中的位置信息；

从已转换的卡证区域中确定出至少一个目标文字区域；

2.如权利要求1所述的文字识别方法，其特征在于，确定图像中卡证区域的目标角点在所述图像中的位置信息，包括：

3.如权利要求1所述的文字识别方法，其特征在于，依据目标角点的位置信息将所述卡证区域从当前视角转换至目标视角，包括：

获取目标视角下的设定角点在所述图像中的位置信息；

4.如权利要求1-3中任一项所述的文字识别方法，其特征在于，所述目标角点包括：卡证区域的边框上的边框角点、卡证区域的指定文字段上的文字角点、和/或卡证区域的指定图案上的图案角点。

5.如权利要求1所述的文字识别方法，其特征在于，所述目标角点至少包括卡证区域的指定文字段上的文字角点；

6.如权利要求1所述的文字识别方法，其特征在于，所述从已转换的卡证区域中确定出至少一个目标文字区域，包括：

确定所述已转换的卡证区域中的多个候选文字区域；

依据匹配结果从候选文字区域中确定出目标文字区域。

7.如权利要求1所述的文字识别方法，其特征在于，由所述第一神经网络识别出所述目标文字区域中的文字，包括：

8.如权利要求1所述的文字识别方法，其特征在于，将已确定的每个所述目标文字区域输入至已训练的第一神经网络，以由所述第一神经网络识别并输出所述目标文字区域中的文字之后，该方法还进一步包括：

在预设的文字关联表的第一表项中查找所述第一文字段；

9.一种文字识别装置，其特征在于，包括：

10.如权利要求9所述的文字识别装置，其特征在于，所述目标角点定位模块包括：

11.如权利要求9所述的文字识别装置，其特征在于，所述卡证区域校正模块包括：

12.如权利要求9-11中任一项所述的文字识别装置，其特征在于，所述目标角点包括：卡证区域的边框上的边框角点、卡证区域的指定文字段上的文字角点、和/或卡证区域的指定图案上的图案角点。

13.如权利要求9所述的文字识别装置，其特征在于，所述目标角点至少包括卡证区域的指定文字段上的文字角点；

所述文字区域确定模块包括：

14.如权利要求9所述的文字识别装置，其特征在于，所述文字区域确定模块包括：

15.如权利要求9所述的文字识别装置，其特征在于，所述区域文字识别模块包括：

16.如权利要求9所述的文字识别装置，其特征在于，该装置还进一步包括文字校正模块，用于：

在预设的文字关联表的第一表项中查找所述第一文字段；

17.一种电子设备，其特征在于，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如权利要求1-8中任意一项所述的文字识别方法。

18.一种机器可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现如权利要求1-8中任意一项所述的文字识别方法。