CN111368709A

CN111368709A - 图片文本的识别方法、装置、设备及可读存储介质

Info

Publication number: CN111368709A
Application number: CN202010134748.6A
Authority: CN
Inventors: 章放; 林翠; 杨海军; 金虎光; 徐倩; 杨强; 陈敏
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-03

Abstract

本发明公开了一种图片文本的识别方法、装置、设备及可读存储介质，涉及金融科技领域，该方法包括步骤：获取待识别图片，将所述待识别图片输入预设的图片文本识别模型中，以获取所述待识别图片对应文本区域的区域坐标，以及获取所述文本区域对应的文本内容；根据所述文本区域对应的区域坐标和所述区域坐标对应的文本内容确定相关联的文本区域；根据所述相关联的文本区域得到所述待识别图片中含有语义的文本识别结果。本发明实现了自动识别图片中的文本，提高了图片中文本的识别效率。

Description

图片文本的识别方法、装置、设备及可读存储介质

技术领域

本发明涉及金融科技(Fintech)的文本识别技术领域，尤其涉及一种图片文本的识别方法、装置、设备及可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，文本识别技术也不例外，但由于金融行业的安全性、实时性要求，也对文本识别技术提出的更高的要求。

在汽车金融贷款领域，资金方往往需要贷款人拍照上传各种证件信息(比如身份证、驾驶证、车辆登记证等等)的图片用于核对真实性，然后这些图片将由专人负责审查核对，然后再进行进一步的风控，最终决定是否放贷。其中专人进行审查核对的步骤是非常耗时耗力的，尤其是车辆登记证，上面的信息很多，包括但不限于：行驶证号码、车证编号、车架号、发动机号、身份证号码、登记机关、车牌号、统一社会信用代码、姓名和抵押权人等。并且由于车辆登记证的格式没有身份证那么规整，很多字段会相对较乱，甚至出现严重的模糊、错位等，这都加大了核对人员的工作量和工作难度；而且由于证件图片数量巨大，有的时候无法对所有图片进行核查，因此只能抽查一部分图片进行核查，这样又明显增大了贷款的风险。

由此可知，如果可以自动识别图片中的文本，然后根据所识别的文本来自动进行图片核查，可以降低对证件图片核查的成本，以及提高对证件图片核查的效率。因此，如何自动识别图片中的文本是亟待解决的问题。

发明内容

本发明的主要目的在于提供一种图片文本的识别方法、装置、设备及可读存储介质，旨在解决如何自动识别图片中的文本的技术问题。

为实现上述目的，本发明提供一种图片文本的识别方法，所述图片文本的识别方法包括步骤：

获取待识别图片，将所述待识别图片输入预设的图片文本识别模型中，以获取所述待识别图片对应文本区域的区域坐标，以及获取所述文本区域对应的文本内容；

根据所述文本区域对应的区域坐标和所述区域坐标对应的文本内容确定相关联的文本区域；

根据所述相关联的文本区域得到所述待识别图片中含有语义的文本识别结果。

优选地，所述将所述待识别图片输入预设的图片文本识别模型中，以获取所述待识别图片对应文本区域的区域坐标的步骤包括：

将所述待识别图片输入预设的图片文本识别模型中，通过所述图片文本识别模型中的特征金字塔网络FPN识别所述待识别图片中的文本区域；

根据所述文本区域在所述待识别图片中的像素值确定所述文本区域的区域坐标。

优选地，所述通过所述图片文本识别模型中的FPN识别所述待识别图片中的文本区域的步骤包括：

通过所述图片文本识别模型中的FPN对所述待识别图片进行特征提取和特征融合，得到所述待识别图片对应的第一特征图；

将所述第一特征图输入所述FPN的卷积层中，得到所述待识别图片对应的第二特征图；

根据所述第二特征图中的文本像素点确定所述待识别图片中的文本区域。

优选地，所述根据所述第二特征图中的文本像素点确定所述待识别图片中的文本区域的步骤包括：

确定所述第二特征图中的文本像素点，根据所述文本像素点确定所述第二特征图中的核心像素点；

基于所述核心像素点对所述第二特征图中各个像素点进行分类，根据分类所得的分类结果确定所述待识别图片中的文本区域。

优选地，所述获取所述文本区域对应的文本内容的步骤包括：

将所述文本区域输入所述图片文本识别模型的网络结构中，得到所述文本区域对应的第三特征图；

将所述第三特征图输入所述网络结构对应的序列变换网络中，得到序列化后的第四特征图；

根据所述第四特征图和所述序列变换网络中各个节点连接全连接网络得到所述文本区域对应的文本内容。

优选地，所述获取待识别图片的步骤之前，还包括：

获取进行模型训练的第一样本图片，并对所述第一样本图片进行标注，得到由标注后的第一样本图片组成的训练样本集；

将所述训练样本集输入所述图片文本识别模型，以训练所述图片文本识别模型。

优选地，所述对所述第一样本图片进行标注，得到由标注后的第一样本图片组成的训练样本集的步骤包括：

对所述第一样本图片进行标注，得到标注后的第一样本图片，并计算标注后的第一样本图片的图片数量；

若所述图片数量小于预设数量，则根据标注后的第一样本图片进行图片仿真，得到第二样本图片；

将所述第二样本图片和标注后的第一样本图片作为训练样本集。

优选地，所述待识别图片为贷款人的证件图片，所述根据所述相关联的文本区域得到所述待识别图片中含有语义的文本识别结果的步骤之后，还包括：

将所述文本识别结果与预存的所述贷款人的证件信息进行对比，得到对比结果；

若根据所述对比结果确定所述文本识别结果与所述证件信息一致，则确定所述待识别图片对应证件为真实证件。

此外，为实现上述目的，本发明还提供一种图片文本的识别装置，所述图片文本的识别装置包括：

获取模块，用于获取待识别图片；

输入模块，用于将所述待识别图片输入预设的图片文本识别模型中，以获取所述待识别图片对应文本区域的区域坐标，以及获取所述文本区域对应的文本内容；

确定模块，用于根据所述文本区域对应的区域坐标和所述区域坐标对应的文本内容确定相关联的文本区域；

处理模块，用于根据所述相关联的文本区域得到所述待识别图片中含有语义的文本识别结果。

此外，为实现上述目的，本发明还提供一种图片文本的识别设备，所述图片文本的识别设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的图片文本的识别程序，所述图片文本的识别程序被所述处理器执行时实现如联邦学习服务器对应的图片文本的识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图片文本的识别程序，所述图片文本的识别程序被处理器执行时实现如上所述的图片文本的识别方法的步骤。

本发明通过获取待识别图片，将待识别图片输入图片文本识别模型中，以获取待识别图片对应文本区域的区域坐标，以及获取文本区域对应的文本内容，根据文本区域对应的区域坐标和区域坐标对应的文本内容确定相关联的文本区域，并根据相关联的文本区域对应得到所述待识别图片中含有语义的文本识别结果，实现了自动识别图片中的文本，提高了图片中文本的识别效率。

附图说明

图1是本发明图片文本的识别方法第一实施例的流程示意图；

图2是本发明图片文本的识别方法第二实施例的流程示意图；

图3是本发明图片文本的识别装置较佳实施例的功能示意图模块图；

图4是本发明实施例方案涉及的硬件运行环境的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种图片文本的识别方法，参照图1，图1为本发明图片文本的识别方法第一实施例的流程示意图。

本发明实施例提供了图片文本的识别方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图片文本的识别方法应用于图片文本的识别设备，该识别设备可为服务器或者终端，终端可以包括诸如手机、平板电脑、笔记本电脑、摄像机、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)等移动终端，以及诸如数字TV、台式计算机等固定终端。在图片文本的识别方法的各个实施例中，为了便于描述，省略执行主体进行阐述各个实施例。图片文本的识别方法包括：

步骤S10，获取待识别图片，将所述待识别图片输入预设的图片文本识别模型中，以获取所述待识别图片对应文本区域的区域坐标，以及获取所述文本区域对应的文本内容。

获取待识别图片，具体地，该待识别图片可以是实时获取的，如可以是图片文本的识别设备实时采集的，也可以是其他终端发送给识别设备的，该待识别图片也可是预先存储的。待识别图片可为一幅图片，也可为多幅图片。当待识别图片是预先存储时，可预先设置好定时任务，通过定时任务获取预先存储的待识别图片。在本实施例中，待识别图片可为证件图片，也可为车牌号码等图片。当获取待识别图片后，将待识别图片输入预设的图片文本识别模型中，以获取待识别图片对应文本区域的区域坐标，以及获取文本区域对应的文本内容。需要说明的是，每一待识别图片中至少对应一个文本区域，每个文本区域中至少存在一个字符，文本字符就是文本区域对应的文本内容。在本实施例中，不限制文本区域的形状。在本实施例中，图片文本识别模型为OCR(Optical Character Recognition，光学字符识别)模型。在其他实施例中，图片文本识别模型也可为其他可以识别图片中文本的模型。具体地，可搭载OCR引擎来实现OCR模型的调用。

需要说明的，多幅待识别图片中文本的识别过程和单幅待识别图片中文本的识别过程一致，因此，为了便于描述，本发明实施例以单幅待识别图片来进行说明。

进一步地，所述将所述待识别图片输入预设的图片文本识别模型中，以获取所述待识别图片对应文本区域的区域坐标的步骤包括：

步骤a，将所述待识别图片输入预设的图片文本识别模型中，通过所述图片文本识别模型中的特征金字塔网络FPN识别所述待识别图片中的文本区域。

步骤b，根据所述文本区域在所述待识别图片中的像素值确定所述文本区域的区域坐标。

具体地，当获取到待识别图片后，将待识别图片输入预设的图片文本识别模型中FPN(Feature Pyramid Networks，特征金字塔网络)，以通过FPN识别待识别图片中的文本区域。需要说明的是，FPN为图片文本识别模型中的基本架构，FPN主要用于解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。当通过图片文本识别模型中的FPN得到待识别图片中的文本区域后，根据所识别的文本区域在待识别图片中的像素值确定文本区域的区域坐标。可以理解的是，由于待识别图片中每个像素都有对应的像素值，通过像素值可确定对应像素在待识别图片中的位置，因此，通过待识别图片中各个像素的像素值即可确定文本区域的区域坐标。

进一步地，所述通过所述图片文本识别模型中的FPN识别所述待识别图片中的文本区域的步骤包括：

步骤a1，通过所述图片文本识别模型中的FPN对所述待识别图片进行特征提取和特征融合，得到所述待识别图片对应的第一特征图。

进一步地，需要说明的是，FPN分为前半部分和后半部分，前半部分用于对待识别图片中的特征由大到小进行特征提取，后半部分用于对待识别图片中的特征由小到大进行特征融合，可以理解的是，特征越大，表明该特征所含有的信息越多，越复杂。在FPN的前半部分，每一个层都用了与ResNet(Residual Network，残差网络)相似的结构。在FPN中，包括卷积层和池化层等。在FPN中的前半部分和后半部分，各有K1层，其中，K1的大小可预先设置好，本实施例对K1的大小不做具体限制。可以理解的是，当待识别图片经过K1层后，会得到待识别图片对应的K1个特征图(feature map)，即每经过一个层，都会得到一个特征图，由于每个层的特性不一样，因此，所得的特征图的大小也不一样。由此可知，通过图片文本识别模型中的FPN对待识别图片进行特征提取和特征融合，可以得到待识别图片对应的第一特征图，此时，待识别图片对应的各幅第一特征图的大小不一致。

步骤a2，将所述第一特征图输入所述FPN的卷积层中，得到所述待识别图片对应的第二特征图。

为了便于后续对第一特征图的处理，提高对第一特征图的处理效率，在得到待识别图片对应的各幅第一特征图后，确定第一特征图中面积最大的目标特征图，然后对各幅第一特征图进行上采样，将各幅第一特征图的大小调整成和目标特征图一致，得到调整后的第一特征图。在将各幅第一特征图的大小调整为与目标特征图一样的过程中，可将各幅第一特征图同比例增大，即第一特征图在增大时，长和宽是同比例增大的。

当得到调整后的第一特征图后，将调整后的第一特征图输入FPN的卷积层中，得到待识别图片对应的第二特征图中。其中，卷积层的层数可设置为K2，其中，K2的大小可与K1相同，也可与K1不相同。在K2个卷积层中，每个卷积层的大小可以相同，也可以不相同，用户可以根据具体需要而设置各个卷积层的大小。

步骤a3，根据所述第二特征图中的文本像素点确定所述待识别图片中的文本区域。

当得到第二特征图后，确定第二特征图中的文本像素点，根据第二特征图中的文本像素点确定待识别图片中的文本区域。具体地，在所得的第二特征图中，各个像素都存在对应的标签值，通过该标签值即可确定该像素点是否为文本像素点。如表示文本像素点的标签值可设置为“1”，表示非文本像素点的标签值可设置为“0”，因此当第二特征图中某个像素对应的标签值为“1”时，表明该像素为文本像素点；当第二特征图中的某个像素对应的标签值为“0”时，表明该像素为非文本像素点。本实施例不限制标签值的表现形式，如表示文本像素点的标签值可表示为“true”，表示非文本像素点的标签值可表示为“false”。

进一步地，步骤a3包括：

步骤a31，确定所述第二特征图中的文本像素点，根据所述文本像素点确定所述第二特征图中的核心像素点。

步骤a32，基于所述核心像素点对所述第二特征图中各个像素点进行分类，根据分类所得的分类结果确定所述待识别图片中的文本区域。

进一步地，当得到第二特征图后，确定第二特征图中的文本像素点，根据文本像素点对应第二特征图中各个像素进行分类，得到像素分类结果。具体地，确定第二特征图中的核心像素点，其中，核心像素点为该像素点周围像素都为文本像素点，即该核心像素点的上下左右四个像素点都为核心像素点。当确定核心像素点后，以该核心像素点为中心向周围扩展。扩展方式具体可为：若将待扩展像素点记为x，对应的值为f(x)，f(x)表示待扩展像素点相邻像素点中有多少比例的像素已经被扩展成功，或者本身就是文本像素点，与待扩展像素点相邻像素点的个数可根据具体需要而设置。需要说明的，若某个像素点被扩展成功，则表明该像素点也被确认为文本像素点。当待扩展像素点对应的f(x)大于预设阈值时，表明像素点x被扩展成功，其中，预设阈值可根据具体需要而设置，如可设置为0.6、0.7或者0.85等。如当预设阈值设置为0.7时，若待扩展像素点x对应的10个相邻像素点中，有8个像素点为文本像素点(包括因扩展成功被确认为文本像素点的像素点)，则可将该扩展像素点确认为文本像素点。可以理解的是，待扩展像素点为原本不是文本像素点的像素点。

当对所有第二特征图中的所有像素点都执行上述操作之后，就可以确定第二特征图中的所有文本像素点和所有非文本像素点的，从而得到各个像素点的分类结果，即将第二特征图中的像素点分为文本像素点和非文本像素点。当确定第二特征图中的文本像素点和非文本像素点后，根据第二特征图中的文本像素点即可确定待识别图片中的文本区域。

进一步地，所述获取各文本区域对应的文本内容的步骤包括：

步骤c，将所述文本区域输入所述图片文本识别模型的网络结构中，得到所述文本区域对应的第三特征图。

进一步地，当确定待识别图片中的文本区域后，将文本区域输入图片识别模型中的网络结构(backbone)中，得到文本区域对应的第三特征图。具体地，可对待识别图片中的各个文本区域切割，得到各个文本区域对应的区域图片，将区域图片输入图片文本识别模型中的网络结构中；或者对待识别图片中的各个文本区域进行标注，得到标注后的待识别图片，将标注后的待识别图片输入图片文本识别模型的网络结构中。其中，网络结构可为ResNet或者VGG(Visual Geometry Group)16等。

步骤d，将所述第三特征图输入所述网络结构对应的序列变换网络中，得到序列化后的第四特征图。

当得到第三特征图后，将第二特征图输入该网络结构对应的序列变换网络中，通过序列变换网络对第三特征图进行序列化，得到序列化后的第四特征图。在本实施例中，序列变换网络包括但不限于LSTM(Long Short-Term Memory，长短期记忆网络)和BiLSTM。

步骤e，根据所述第四特征图和所述序列变换网络中各个节点连接全连接网络得到所述文本区域对应的文本内容。

需要说明的是，在本实施例中，序列变换网络中的各个节点都连接有一个全连接网络，本实施例不限制是何种全连接网络。当得到第四特征图后，将第四特征图输入序列变换网络中各个节点连接的全连接网络中，然后通过全连接网络连接的softmax得到文本区域对应的文本内容。

步骤S20，根据所述文本区域对应的区域坐标和所述区域坐标对应的文本内容确定相关联的文本区域。

当得到待识别图片中文本区域对应的文本内容后，根据文本区域对应的区域坐标和区域坐标对应的文本内容确定文本区域中相关联的文本区域。可以理解的是，在确定相关联的文本区域过程中，可先确定相关联的区域坐标，将相关联的区域坐标对应的文本内容确定文本目标内容，然后根据各文本目标内容的语义确定相关联的文本目标内容，将该相关联的文本目标内容对应的文本区域确定为相关联的文本区域；也可以先确定相关联的文本目标内容，然后再确定相关联的区域坐标。

可以理解的是，根据各个文本区域对应区域坐标的大小，即可确定相关联的文本区域，相关联的文本区域可为上关联文本区域、下关联文本区域、左关联文本区域和右关联文本区域中的一种或者多种。可以理解的是，相关联的文本区域为相邻的文本区域，如确定A文本区域与B文本区域、C文本区域和D文本区域相关联。在确定相关联文本内容过程中，主要是根据语义来确定，如A文本区域所对应的文本内容为“身份证号码”，而B文本区域对应的文本内容符合“身份证号码”对应的要求，如一共18个字符，其中包括地址码、出生日期码、数字码和检验码，此时，可最终确定A文本区域和B文本区域相关联。

步骤S30，根据所述相关联的文本区域得到所述待识别图片中含有语义的文本识别结果。

当确定相关联的文本区域后，根据相关联的文本区域对应的待识别图片中含有语义的文本识别结果。具体地，可根据文本内容为各个文本区域分配对应的语义。如为“张小明”对应文本区域分配一个“姓名”，为“广东省A市B县C镇D村”对应文本区域分配一个“地址”，为“姓名”对应文本区域分配一个“姓名标签”，如身份证上“姓名：张小明”，然后确定待识别图片中各个文本区域对应的语义，得到待识别图片中的文本识别结果，即得到含有语义的结构化的文本识别结果。

本实施例通过获取待识别图片，将待识别图片输入图片文本识别模型中，以获取待识别图片对应文本区域的区域坐标，以及获取文本区域对应的文本内容，根据文本区域对应的区域坐标和区域坐标对应的文本内容确定相关联的文本区域，并根据相关联的文本区域对应得到所述待识别图片中含有语义的文本识别结果，实现了自动识别图片中的文本，提高了图片中文本的识别效率。

需要说明的是，本实施例可以在线进行图片中文本的识别，也可以离线进行图片中文本的识别。当在线进行图片中文本的识别时，待识别图片是实时获取的；当离线进行图片中文本的识别时，待识别图片是预先存储的。若采用在线进行图片中文本的识别，则用户可通过图片文本识别模型对应的小程序来上传待识别图片。此时所得的文本识别结果允许用户进行在线修改。在得到文本识别结果后，会输出文本识别结果，让待识别图片对应用户确认文本识别结果是否准确。若用户确认文本识别结果不准确，则可修改不准确的文本识别结果。需要说明的是，此时的用户并不是待识别图片对应信息的用户，而图片文本识别模型对应的用户，如当待识别图片为证件图片时，用户并不是证件的主人，而是核查该证件图片的用户，这样是为了防止待识别图片对应用户伪造信息。通过在线进行的图片文本的识别，以保证图片文本识别所采用的设备负载更加均衡，且通过将文本识别结果给用户确认，保证所得的文本识别结果的正确性。进一步地，也可通过文本识别结果对待识别图片进行标注，得到标注后的待识别图片，可通过该标注后的待识别图片进一步训练图片文本识别模型，以提高图片文本识别模型进行文本识别的准确率。

当离线进行图片文本识别时，每次的待识别图片可为多幅，此时是定时进行图片文本的识别。之所以采用离线进行图片文本识别，是因为有些时候不方便或者没有必要进行图片文本的在线识别。在对待识别图片进行离线识别过程中，可以选择网络较好，图片文本识别对应设备负载较低时进行，以提高图片文本的识别效率，不必担心网络的迟延。进一步地，若某些待识别图片中含有敏感信息，为了保证敏感信息的安全性，也可限制含有敏感信息的待识别图片只能进行离线识别。

进一步地，提出本发明图片文本的识别方法第二实施例。所述图片文本的识别方法第二实施例与所述图片文本的识别方法第一实施例的区别在于，参照图2，所述图片文本的识别方法还包括：

步骤S40，获取进行模型训练的第一样本图片，并对所述第一样本图片进行标注，得到由标注后的第一样本图片组成的训练样本集。

获取进行模型训练的第一样本图片，其中，该第一样本图片可以在需要时从其他终端获取，也可实时进行获取。可以理解的是，第一样本图片也是为含有文本的图片，在本实施例中，不限制第一样本图片的数量，用户可以根据具体需要设置第一样本图片的数量。当得到第一样本图片后，对第一样本图片进行标注，得到标注后的第一样本图片，将标注后的第一样本图片组成训练样本集。具体地，可发送提示信息给标注人员，以根据提示信息提示标注人员对应第一样本图片进行标注，以确定各第一样本图片中的各个字符，进一步地，也可标注各第一样本图片中的文本区域和各个字符，通过所标注的各个字符即可确定文本内容。在其它实施例中，也可自动进行标注。

步骤S50，将所述训练样本集输入所述图片文本识别模型，以训练所述图片文本识别模型。

将训练样本集中的第一样本图片输入图片文本识别模型中，以训练图片文本识别模型，并存储图片文本识别模型。需要说明的是，将第一样本图片输入图片文本识别模型中的处理过程和将待识别图片输入图片文本识别模型中的处理过程一致，本实施例在此不再重复赘述。

本实施例通过获取第一样本图片进行模型训练，得到图片文本识别模型，在需要识别图片中的文本时，可通过训练好的图片文本识别模型。

进一步地，所述对所述第一样本图片进行标注，得到由标注后的第一样本图片组成的训练样本集的步骤包括：

步骤h，对所述第一样本图片进行标注，得到标注后的第一样本图片，并计算标注后的第一样本图片的图片数量。

步骤i，若所述图片数量小于预设数量，则根据标注后的第一样本图片进行图片仿真，得到第二样本图片。

步骤j，将所述第二样本图片和标注后的第一样本图片作为训练样本集。

当得到第一样本图片后，对第一样本图片进行标注，得到标注后的第一样本图片，并计算标注后的第一样本图片的图片数量，判断图片数据是否小于预设数量。若确定图片数据小于预设数量，则根据标注后的第一样本图片进行图片仿真，得到第二样本图片。具体地，在进行图片仿真过程中，为了提高所得第二样本图片的真实度，需要保证第二样本图片中的字体与第一样本图片相同，且第二样本图片的背景和第一样本图片的背景相似度大于预设相似度，其中，本实施例不限制预设相似度的大小。可根据第一样本图片中文本的特点和格式确定第二样本图片中的语料，即确定第二样本图片中的文本内容。如第二样本图片中的虚构的身份证号码和真实身份证号码格式相同。需要说明的是，仿真得到的第二样本图片也是标注好的图片。

当得到第二样本图片后，将第二样本图片和标注后的第一样本图片作为训练样本集。进一步地，若确定图片数量大于或者等于预设数量，则第一样本图片的数量足够多，不需要再仿真得到第二样本图片。

若得到第二样本图片后，不需要那么多样本图片，则可在第一样本图片和第二样本图片各选取一部分的样本图片组成训练样本集，训练样本集中第一样本图片和第二样本图片之间的数量比例也根据具体需要而设置，本实施例对数量比例的大小不做具体限制。

由于进行图片文本识别模型的训练需要大量的样本图片，但是可能因为时间、人力成本、真实数据量不够和数据敏感等原因导致无法将足够真实的样本图片拿出去标注，因此本实施例通过对样本图片进行仿真，以增加训练图片文本识别模型的样本图片，从而提高训练所得图片文本识别模型识别文本的准确率。

进一步地，提出本发明图片文本的识别方法第三实施例。

所述图片文本的识别方法第三实施例与所述图片文本的识别方法第一和/或第二实施例的区别在于，所述图片文本的识别方法还包括：

步骤k，将所述文本识别结果与预存的所述贷款人的证件信息进行对比，得到对比结果。

若将图片文本的识别方法应用于贷款业务，如汽车金融贷款或者房屋抵押贷款等。当得到文本识别结果后，将文本识别结果与数据库中预先存储的贷款人的证件信息进行比对，得到对比结果。可以理解的是，在贷款资料中，会填写有贷款人的证件信息，该证件信息是存储在数据库中。

步骤l，若根据所述对比结果确定所述文本识别结果与所述证件信息一致，则确定所述待识别图片对应证件为真实证件。

当得到对比结果后，若根据对比结果确定文本识别结果与证件信息一致，则确定待识别图片对应证件为真实证件，可以理解的是，此时待识别图片为证件图片；若根据对比结果确定文本识别结果与证件信息不一致，则确定待识别图片对应证件为虚***。需要说明的是，当文本识别结果中的信息与证件信息相同时，可确定文本识别结果与证件信息一致，反之，确定文本识别结果与证件信息不一致；也可当文本识别结果中的信息与证件信息之间的相似度大于预设信息相似度时，可确定文本识别结果与证件信息一致，反之，确定文本识别结果与证件信息不一致。当确定待识别图片对应证件为真实证件时，对贷款人进行放贷；当待识别图片对应证件为虚***时，拒绝放贷给贷款人。

本实施例通过将文本识别结果与贷款人的证件信息来进行比对，从而实现自动核查贷款人的证件信息，以保证贷款人证件信息的真实性，从而提高了贷款的安全性，降低了贷款的风险。

此外，本发明还提供一种图片文本的识别装置，参照图3，所述图片文本的识别装置包括：

获取模块10，用于获取待识别图片；

输入模块20，用于将所述待识别图片输入预设的图片文本识别模型中，以获取所述待识别图片对应文本区域的区域坐标，以及获取所述文本区域对应的文本内容；

确定模块30，用于根据所述文本区域对应的区域坐标和所述区域坐标对应的文本内容确定相关联的文本区域；

处理模块40，用于根据所述相关联的文本区域得到所述待识别图片中含有语义的文本识别结果。

进一步地，所述输入模块20包括：

第一输入单元，用于将所述待识别图片输入预设的图片文本识别模型中；

识别单元，用于通过所述图片文本识别模型中的特征金字塔网络FPN识别所述待识别图片中的文本区域；

第一确定单元，用于根据所述文本区域在所述待识别图片中的像素值确定所述文本区域的区域坐标。

进一步地，所述识别单元包括：

特征处理子单元，用于通过所述图片文本识别模型中的FPN对所述待识别图片进行特征提取和特征融合，得到所述待识别图片对应的第一特征图；

输入子单元，用于将所述第一特征图输入所述FPN的卷积层中，得到所述待识别图片对应的第二特征图；

确定子单元，用于根据所述第二特征图中的文本像素点确定所述待识别图片中的文本区域。

进一步地，所述确定子单元还用于确定所述第二特征图中的文本像素点，根据所述文本像素点确定所述第二特征图中的核心像素点；基于所述核心像素点对所述第二特征图中各个像素点进行分类，根据分类所得的分类结果确定所述待识别图片中的文本区域。

进一步地，所述输入模块20还包括：

第二输入单元，用于确定所述第二特征图中的文本像素点，根据所述文本像素点确定所述第二特征图中的核心像素点；基于所述核心像素点对所述第二特征图中各个像素点进行分类，根据分类所得的分类结果确定所述待识别图片中的文本区域。

处理单元，用于根据所述第四特征图和所述序列变换网络中各个节点连接全连接网络得到所述文本区域对应的文本内容。

进一步地，所述获取模块10还用于获取进行模型训练的第一样本图片；

所述图片文本的识别装置还包括：

标注模块，用于对所述第一样本图片进行标注，得到由标注后的第一样本图片组成的训练样本集；

所述输入模块20还用于将所述训练样本集输入所述图片文本识别模型，以训练所述图片文本识别模型。

进一步地，所述标注模块包括：

标注单元，用于对所述第一样本图片进行标注，得到标注后的第一样本图片；

计算单元，用于计算标注后的第一样本图片的图片数量；

仿真单元，用于若所述图片数量小于预设数量，则根据标注后的第一样本图片进行图片仿真，得到第二样本图片；

第二确定单元，用于将所述第二样本图片和标注后的第一样本图片作为训练样本集。

进一步地，所述图片文本的识别装置还包括：

对比模块，用于将所述文本识别结果与预存的所述贷款人的证件信息进行对比，得到对比结果；

所述确定模块30还用于若根据所述对比结果确定所述文本识别结果与所述证件信息一致，则确定所述待识别图片对应证件为真实证件。

本发明图片文本的识别装置具体实施方式与上述图片文本的识别方法各实施例基本相同，在此不再赘述。

此外，本发明还提供一种图片文本的识别设备。如图4所示，图4是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图4即可为图片文本的识别设备的硬件运行环境的结构示意图。本发明实施例图片文本的识别设备可以是PC，便携计算机等终端设备。

如图4所示，该图片文本的识别设备可以包括：处理器1001，例如CPU，存储器1005，用户接口1003，网络接口1004，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图4中示出的图片文本的识别设备结构并不构成对图片文本的识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及图片文本的识别程序。其中，操作***是管理和控制图片文本的识别设备硬件和软件资源的程序，支持图片文本的识别程序以及其它软件或程序的运行。

在图4所示的图片文本的识别设备中，用户接口1003主要用于连接其它终端，与其它终端进行数据通信，可通过其它终端待识别图片和/或获取第一样本图片；网络接口1004主要用于后台服务器，与后台服务器进行数据通信；处理器1001可以用于调用存储器1005中存储的图片文本的识别程序，并执行如上所述的图片文本的识别方法的步骤。

本发明图片文本的识别设备具体实施方式与上述图片文本的识别方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有图片文本的识别程序，所述图片文本的识别程序被处理器执行时实现如上所述的图片文本的识别方法的步骤。

本发明计算机可读存储介质具体实施方式与上述图片文本的识别方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图片文本的识别方法，其特征在于，所述图片文本的识别方法包括以下步骤：

2.如权利要求1所述的图片文本的识别方法，其特征在于，所述将所述待识别图片输入预设的图片文本识别模型中，以获取所述待识别图片对应文本区域的区域坐标的步骤包括：

3.如权利要求2所述的图片文本的识别方法，其特征在于，所述通过所述图片文本识别模型中的FPN识别所述待识别图片中的文本区域的步骤包括：

4.如权利要求3所述的图片文本的识别方法，其特征在于，所述根据所述第二特征图中的文本像素点确定所述待识别图片中的文本区域的步骤包括：

5.如权利要求1所述的图片文本的识别方法，其特征在于，所述获取所述文本区域对应的文本内容的步骤包括：

6.如权利要求1所述的图片文本的识别方法，其特征在于，所述获取待识别图片的步骤之前，还包括：

7.如权利要求6所述的图片文本的识别方法，其特征在于，所述对所述第一样本图片进行标注，得到由标注后的第一样本图片组成的训练样本集的步骤包括：

8.如权利要求1至7任一项所述的图片文本的识别方法，其特征在于，所述待识别图片为贷款人的证件图片，所述根据所述相关联的文本区域得到所述待识别图片中含有语义的文本识别结果的步骤之后，还包括：

9.一种图片文本的识别装置，其特征在于，所述图片文本的识别装置包括：

获取模块，用于获取待识别图片；

10.一种图片文本的识别设备，其特征在于，所述图片文本的识别设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的图片文本的识别程序，所述图片文本的识别程序被所述处理器执行时实现如权利要求1至8任一项中所述的图片文本的识别方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图片文本的识别程序，所述图片文本的识别程序被处理器执行时实现如权利要求1至8任一项所述的图片文本的识别方法的步骤。