CN110659633A

CN110659633A - 图像文本信息的识别方法、装置以及存储介质

Info

Publication number: CN110659633A
Application number: CN201910753155.5A
Authority: CN
Inventors: 高利军
Original assignee: Candela Shenzhen Technology Innovations Co Ltd
Current assignee: Candela Shenzhen Technology Innovations Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2020-01-07

Abstract

本申请公开了一种图像文本信息的识别方法，识别方法包括：获取图像的待识别区域，并对待识别区域进行预处理；将预处理后的图像输入文本检测模型，以得到待识别区域中所有文本区域的四边形文本框坐标；根据四边形文本框坐标对每一文本区域进行第一次裁剪；对裁剪后的文本区域进行纠偏处理；采用文本识别模型对纠偏处理后的每一文本区域进行识别，以得到文本信息。通过上述方式，本申请能够实现端到端的文本信息提取，提高图像文本信息识别的精度和效率。

Description

图像文本信息的识别方法、装置以及存储介质

技术领域

本申请涉及图像检测技术，特别是涉及一种图像文本信息的识别方法、装置及存储介质。

背景技术

文本信息提取包括文本检测和文本识别（光学字符识别，Optical CharacterRecognition，OCR），即从图片的文本区域中提取出文本内容,其广泛应用于图片搜索、名片识别、票据识别、商品推荐和广告精准投放等。

近年来，随着电子商务的迅猛发展，快件收寄呈爆发式增长，物流行业的快递工作量急剧增加。货运单的地址信息是物件投递过程中的重要依据，能否正确识别该地址信息是物件能否被正确投递的关键。现有技术做货运单据文本信息的提取，通常采用的方法是移动端调用开放平台提供的应用程序编程接口(Application Programming Interface,API)识别图像内容，如百度AI开放平台、优图OCR等，移动端接收识别结果并进行相应处理。

但是，采用现有技术中的文本信息提取方案带来的问题有如下几点：1、需要网络传输，其图像识别速度严重依赖网络速度；2、需要频繁调用API，对服务器性能要求较高，3、不能离线使用。

发明内容

本申请提供一种图像文本信息的识别方法、装置及存储介质，能够解决现有技术中文本信息识别速度严重依赖网络速度、对服务器性能要求高及不能离线使用的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种图像文本信息的识别方法，所述识别方法包括：获取图像的待识别区域，并对所述待识别区域进行预处理；将预处理后的所述图像输入文本检测模型，以得到所述待识别区域中所有文本区域的四边形文本框坐标；根据所述四边形文本框坐标对每一所述文本区域进行第一次裁剪；对裁剪后的所述文本区域进行纠偏处理；采用文本识别模型对纠偏处理后的每一文本区域进行识别，以得到所述文本信息。

其中，所述根据所述四边形文本框坐标对每一所述文本区域进行裁剪包括：根据所述四边形文本框坐标计算每一所述文本区域的矩形框坐标；根据所述矩形框坐标对所述文本区域进行第一次裁剪。

其中，所述对裁剪后的所述文本区域进行纠偏处理包括：根据所述文本框坐标计算所述文本区域的旋转角度值；根据所述旋转角度值将所述文本区域旋转至水平方向；对旋转后的所述文本区域进行第二次裁剪，以保留文本信息所在区域。

其中，所述对旋转后的所述文本区域进行第二次裁剪包括：保持旋转后所述文本区域的宽度不变，获取所述文本区域的文本框高度；根据所述文本框的高度计算所述文本区域的裁剪值；根据所述裁剪值对所述文本区域进行第二次裁剪。

其中，所述矩形框宽度大于或者等于所述四边形框的宽度。

其中，所述根据所述位置信息对每一所述文本区域进行纠偏处理之后进一步包括：将纠偏处理后的所述文本区域转换为灰度图；保持所述灰度图的纵横比不变，将所述灰度图的高度缩放至预设值；将所述灰度图的像素值转换为浮点数，并对每一所述像素值进行预处理。

其中，所述对所述待识别区域进行预处理包括：保持所述待识别区域的纵横比不变，将所述待识别区域的宽度缩放至第二预设宽度值；将所述缩放后的所述待识别区域进行颜色空间缩减处理。

其中，所述识别方法进一步包括：对每一文本区域识别出的文本信息按照顺序组合校正，输出识别文本段。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种图像文本信息的识别装置，所述装置包括处理器及存储器，所述处理器连接所述存储器，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序以执行上述所述的识别方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序能够被处理器执行上述所述的识别方法。

本申请的有益效果是：提供一种图像文本信息的识别方法、装置及存储介质，通过将文本检测模型和文本识别模型结合起来，可以实现端到端的文本信息提取，不需要对输入图像做任何的预处理，能够提高图像文本信息识别的精度以及效率。

附图说明

图1是本申请图像文本信息识别方法第一实施方式的流程示意图；

图2是本申请步骤S100一实施方式的流程示意图；

图3是本申请图像文本信息识别方法的处理流程示意图；

图4是本申请步骤S300一实施方式的流程示意图；

图5是本申请步骤S400一实施方式的流程示意图；

图6是本申请步骤S430一实施方式的流程示意图；

图7是本申请图像文本信息的识别装置一实施方式的示意图；

图8是本申请存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中提供的图像文本信息的识别方法，可以应用于物流单号识别、图片搜索、名片识别、票据识别、商品推荐和广告精准投放等众多场景。本申请中以物流场景中快递单据信息的录入为例详细介绍图像文本信息识别方法。

可以理解的是，现有技术中快递单据的入库通常采用人工操作，其输入工作量极大，速度慢，容易出错。本申请为了能在Android平台上运行神经网络模型，采用TensorflowMobile框架。其中，本申请中涉及的两个模型主要为文本检测模型（Connectionist TextProposal Network, CTPN）和文本识别模型（Convolutional Recurrent Neural Network,CRNN），且CTPN和CRNN模型均用Keras框架(Tensorflow backend)实现，可以实现将模型训练的权重文件转换为适应移动端的静态图（pb格式），作为资源文件以供后续加载模型。如此，将CTPN和CRNN模型联合部署在Android移动端设备上，不需要网络传输，可离线使用，且二者结合可实现端到端的文本信息的提取，无需对输入的图像做任何预处理。下面详细介绍本申请的文本信息识别法。

请参阅图，图1本申请图像文本信息的识别方法第一实施方式的流程示意图，如图1所示，本申请提供的图像文本信息识别方法包括如下步骤：

S100，获取图像的待识别区域，并对待识别区域进行预处理。

在本申请一具体应用场景中，调用移动设备的摄像头拍摄需要进行识别的快递单据。其中，此处的移动设备可以为搭载Android操作***的设备，例如手机、平板电脑等，此处不做具体限定。

本实施例中，调用手机摄像头拍摄快递单据得到图像信息，进一步选择图像中的待识别区域，此处可以手动框选图像中的待识别区域，也可以是手机自动选择图像中待识别的文字区域，此处不做具体限定。选择和截取好图像的待识别区域后，进一步对截取的待识别区域进行预处理，请一并结合图2，图2为本申请步骤S100一实施方式的流程示意图，步骤S100进一步包括如下子步骤：

S110，保持待识别区域的纵横比不变，将待识别区域的宽度缩放至第二预设宽度值。

可选地，步骤S110中保持待识别区域的纵横比不变，将待识别区域的宽度缩放至第二预设宽度值。本实施例中，该第二预设宽度值可以为640像素（Pixel)，在其他实施方式中也可以是其他像素值，即在不同的应用场景中待识别区域宽度值的选择可以不相同，此处不做具体限定。其中，保持待识别区域的纵横比不变，即缩放前后待识别区域的高和宽比例不变。举例来说，假设待识别区域的高度为320像素，宽度为200像素，将宽度缩放至640像素后，高度也自动变为400像素。

可以理解的是，输如图像尺寸越大，后续文本信息识别的效果越好，但是在实际应用中图像越大其处理速度越慢。本申请综合考虑处理速度以及识别精度，将待识别区域的宽度缩放为640像素。

S120，将缩放后的待识别区域进行颜色空间缩减处理。

可选地，本申请中获取的图像为彩色图像，即为三通道图像（红色通道、绿色通道、蓝色通道），每一颜色通道的灰度值范围可以是0~255。本实施例中，为了便于模型的训练，对缩放后的图像（本文中的待识别区域）进行颜色空间缩减处理，即将红色通道、绿色通道以及蓝色通道的像素值分别减去预设像素平均值，由此可避免由于数值巨大的差异性导致模型无法拟合。且本实施例中，将红色通道、绿色通道以及蓝色通道的灰度值分别减去103.939、116.779以及123.68，由此完成待识别区域的预处理。

S200，将预处理后的图像输入文本检测模型，以得到待识别区域中所有文本区域的四边形文本框坐标。

请一并结合图3，图3为本申请图像文本信息识别方法的处理流程示意图。结合图3可知，将预处理后的图像输入文本检测模型（CTPN），文本检测模型输出该图像待识别区域中所有文本区域的四边形文本框坐标。如图3所示，本申请中文本检测模型输出的文本区域的四边形文本框坐标可以采用四个坐标点表示，即C={P1、P2、P3、P4}，其中，P1（x1、y1）为四边形文本框的第一坐标点、P2（x2、y2）为四边形文本框的第二坐标点、P3（x3、y3）为四边形文本框的第三坐标点、P4（x4、y4）为四边形文本框的第四坐标点，其分别代表四边形文本框的左上坐标、右上坐标、右下坐标以及左下坐标。本检测模型输出的四边形文本框的每一坐标点均由X轴和Y轴组成，且四边形文本框的长度L为第三坐标点和第四坐标点之间的欧式距离，具体表达式如下：

（1）

S300，根据四边形文本框坐标对每一文本区域进行第一次裁剪。

可以理解的是，因为文本检测模型输出为四边形文本框，而实际裁剪时只能裁剪出矩形区域，故在进行第一次裁剪之前需要根据四边形文本框坐标计算出矩形框坐标便于裁剪。一并结合图4，图4为本申请步骤S300一实施方式的流程示意图，步骤S300进一步包括如下子步骤：

S310，根据四边形文本框坐标计算每一文本区域的矩形框坐标。

结合图3，由文本检测模型输出的文本框是四边形（图3中用10表示），且四边形文本框坐标点用P1、P2、P3、P4表示。由此可计算出的矩形框（图3中用20表示）的坐标B（b1、b2），其中b1=(x_min、y_min)代表矩形文本框的左上坐标点，b2=(x_max、y_max)代表文本框的右下坐标点,x_min、x_max、y_min以及y_max的计算公式如下：

（2）

（3）

（4）

（5）

其中，函数min（……）表示求取四边形坐标框中的X轴或者Y轴的最小值，同理函数max（……）表示求取四边形坐标框中的X轴或者Y轴的最大值，Margin代表文本框的外延边距，且其表达式为：

（6）

其中，

代表文本区域的倾斜弧度值，下文中有对文本区域倾斜弧度值的详细介绍，此处不再赘述。可以理解的是，采用上述方式计算出的矩形框的坐标（结合文本框的外延边距Margin），能够完整包裹文本区域，保证文本区域不会被裁剪掉。

S320，根据矩形框坐标对文本区域进行第一次裁剪。

如图3所示的框图20表示需要截取的矩形区域，根据步骤S310中得到的矩形文本框的坐标点进行第一次裁剪。可选地，为了保证纠偏处理时旋转后的文本区域两端不会被裁剪掉，因此，矩形框宽度应设置为大于或者等于四边形框的宽度。

S400，对裁剪后的文本区域进行纠偏处理。

可选地，在在进行文本识别之前需要对第一次裁剪后的文本区域进行纠偏处理。请进一步参阅图5为本申请步骤S400一实施方式的流程示意图，步骤S400进一步包括如下子步骤：

S410，根据文本框坐标计算文本区域的旋转角度值。

可以理解的是，本申请中经过文本检测模块输出的四边形文本框可能是倾斜的，则在进行文本识别之前需要对其进行纠偏处理，即将文本区域从倾斜变成水平方向，从而提高后续文本识别模型的识别精度。具体地，根据四边形文本框的第三坐标点P3以及第四坐标点P4计算出两点连接的直线与水平方向的倾斜弧度值

。其中，

的表达式如下：

（7）

则旋转角度值表达式为：

（8）

上述表达式（8）的作用将倾斜弧度值

转换为旋转角度值D。

S420，根据旋转角度值将文本区域旋转至水平方向。

根据步骤S420中的旋转角度值D，将文本区域旋转至水平方向，从而确保后续文本识别模型的识别精度。本实施例一具体应用场景中，步骤S420中计算出的旋转角度值D为30°,则文本区域实际的旋转角度为-30°，即将文本区域反方向旋转30°，如此可以确保旋转后的文本区域为水平方向。当然实施例中只是示意性举例说明，在其他实施方式中，旋转角度值D以实际计算值为准，此处不应以30°为具体限制。

S430，对旋转后的文本区域进行第二次裁剪，以保留文本信息所在区域。

进一步，为了获得紧凑的文本信息，需要将旋转后的文本区域进行第二次裁剪，仅保留文本信息所在区域，结合图6，图6为本申请步骤S430一实施方式的流程示意图，步骤S430进一步包括如下子步骤：

S431，保持旋转后文本区域的宽度不变，获取文本区域的文本框高度。

保持旋转后的文本区域宽度不变，根据四边形文本框的第一坐标点P1及第四坐标点P4或者根据第二坐标点P2以及第三坐标点P3计算出文本框的高度，则文本框的高度T为四边形文本框第一坐标点和第四坐标点之间的欧氏距离，且计算公式如下：

（9）

当然，文本框的高度T还可以为第二坐标点P2以及第三坐标点P3之间的欧氏距离，即：

（10）

实际应用场景中，按需选择，此处不做具体限定。

S432，根据文本框的高度计算文本区域的裁剪值。

可选地，根据文本框的高度T可以计算得到文本区域的高度，其可以表示为H，根据文本区域的高度H可以得到文本区域的最小Y轴坐标minY以及maxY，表达式如下：

（11）

（12）

其中，H/2为文本区域Y轴的中点坐标，如此便得到文本区域第二次裁剪的裁剪值。

S433，根据裁剪值对文本区域进行第二次裁剪。

可选地，根据步骤S432中的裁剪值（最小Y轴坐标minY以及maxY）对所述文本区域进行第二次裁剪，如此便可得到最终的紧凑文本区域。

S500，将纠偏处理后的文本区域转换为灰度图。

可选地，在对文本区域进行文本识别之前还需要将预处理后的文本区域转换为灰度图。

S600，保持灰度图的纵横比不变，将灰度图的高度缩放至预设值。

因文本识别模型处理阶段只对图像的高度值有要求，故步骤S600中保持灰度图的纵横比不变，将灰度图的高度缩放至预设值。举例来说，例如灰度图中原先的高为64像素，宽为560像素，那么将高度缩放至32像素之后，宽度自动就会变成280像素。也就是说，保持纵横比，高度进行缩放后，宽度会自动缩放。且步骤S600将灰度图的高度值进行缩放处理目的是使灰度图的数据标准化，即呈高斯分布，便于训练模型,避免由于数值巨大的差异性导致模型无法拟合。

S700，将灰度图的像素值转换为浮点数，并对每一像素值进行预处理。

最后，将灰度图的8位无符号整数类型的像素值转换为浮点数,并对每一个像素值进行预处理，先除以255，再减去0.5。

可以理解的是，为了便于模型的训练，步骤S500~S700中的操作为对纠偏处理后的文本区域的预处理过程。且步骤S500~S700并非实现本申请的必选步骤，本领域技术人员可根据实际使用情况进行修改或省略。

S800，采用文本识别模型对纠偏处理后的每一文本区域进行识别，以得到文本信息。

将纠偏处理后的每一文本区域输入至文本识别模型，从而得到每一文本区域的文本信息。可选地，将文本识别模型识别出的每一文本区域的文本信息按照顺序进行组合校正，从而输出完整文本段。

上述实施方式中，通过将文本检测模型和文本识别模型结合起来，可以实现端到端的文本信息提取，不需要对输入图像做任何的预处理，能够提高图像文本信息识别的精度以及提高文本信息识别的效率。此外，本申请中使用Tensorflow Mobile框架，将文本检测模型和文本识别模型均部署在Android移动端设备上，因此不需要网络传输，可离线使用。

可以理解的是，上述实施方式中仅以物流场景中的快递单据为例详见介绍了本申请图像中文本信息的识别方法，本申请的图像文本信息识别方法还可以应用于图片搜索、名片识别、票据识别、商品推荐和广告精准投放等众多领域，此处不再赘述。

请参阅图7，图7为本申请图像文本信息的识别装置一实施方式的示意图。如图7所示，该识别装置包括处理器11及存储器12，处理器11连接存储器12，存储器12用于存储计算机程序，处理器11用于调用计算机程序以执行任一实施方式中的文本信息识别方法。

其中，处理器11还可以称为CPU（Central Processing Unit，中央处理单元）。处理器11可能是一种集成电路芯片，具有信号的处理能力。处理器11还可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述装置中处理器可分别执行上述识别方法实施例中对应的步骤，故此处不再赘述，详细请参阅以上对应步骤的说明。

参阅图8，图8为本申请存储介质一实施方式的结构示意图。本申请的存储介质100存储有计算机程序110，其中，计算机程序110在被处理器执行时，用于实现上述实施例中的图像文本信息识别方法。

存储介质110可以是服务端、U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

综上所述，本领域技术人员容易理解，本申请提供一种图像文本信息的识别方法、装置及存储介质，通过将文本检测模型和文本识别模型结合起来，可以实现端到端的文本信息提取，不需要对输入图像做任何的预处理，能够提高图像文本信息识别的精度以及提高文本信息识别的效率。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图像文本信息的识别方法，其特征在于，所述识别方法包括：

获取图像的待识别区域，并对所述待识别区域进行预处理；

将预处理后的所述图像输入文本检测模型，以得到所述待识别区域中所有文本区域的四边形文本框坐标；

根据所述四边形文本框坐标对每一所述文本区域进行第一次裁剪；

对裁剪后的所述文本区域进行纠偏处理；

采用文本识别模型对纠偏处理后的每一文本区域进行识别，以得到所述文本信息。

2.根据权利要求1所述的识别方法，其特征在于，所述根据所述四边形文本框坐标对每一所述文本区域进行裁剪包括：

根据所述四边形文本框坐标计算每一所述文本区域的矩形框坐标；

根据所述矩形框坐标对所述文本区域进行第一次裁剪。

3.根据权利要求2所述的识别方法，其特征在于，所述对裁剪后的所述文本区域进行纠偏处理包括：

根据所述文本框坐标计算所述文本区域的旋转角度值；

根据所述旋转角度值将所述文本区域旋转至水平方向；

对旋转后的所述文本区域进行第二次裁剪，以保留文本信息所在区域。

4.根据权利要求3所述的识别方法，其特征在于，所述对旋转后的所述文本区域进行第二次裁剪包括：

保持旋转后所述文本区域的宽度不变，获取所述文本区域的文本框高度；

根据所述文本框的高度计算所述文本区域的裁剪值；

根据所述裁剪值对所述文本区域进行第二次裁剪。

5.根据权利要求2所述的识别方法，其特征在于，所述矩形框宽度大于或者等于所述四边形框的宽度。

6.根据权利要求1所述的识别方法，其特征在于，所述根据所述位置信息对每一所述文本区域进行纠偏处理之后进一步包括：

将纠偏处理后的所述文本区域转换为灰度图；

保持所述灰度图的纵横比不变，将所述灰度图的高度缩放至预设值；

将所述灰度图的像素值转换为浮点数，并对每一所述像素值进行预处理。

7.根据权利要求1所述的识别方法，其特征在于，所述对所述待识别区域进行预处理包括：

保持所述待识别区域的纵横比不变，将所述待识别区域的宽度缩放至第二预设宽度值；

将所述缩放后的所述待识别区域进行颜色空间缩减处理。

8.根据权利要求1所述的识别方法，其特征在于，所述识别方法进一步包括：

对每一文本区域识别出的文本信息按照顺序组合校正，输出识别文本段。

9.一种图像文本信息的识别装置，其特征在于，所述装置包括处理器及存储器，所述处理器连接所述存储器，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序以执行权利要求1-8任一一项所述的识别方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序能够被处理器执行，以实现权利要求1-8任意一项所述的识别方法。