CN109740482A

CN109740482A - 一种图像文本识别方法和装置

Info

Publication number: CN109740482A
Application number: CN201811602206.6A
Authority: CN
Inventors: 殷绪成; 梁敏; 侯杰波; 田澍; 朱超
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-10

Abstract

本发明公开了一种图像文本识别方法和装置，涉及图像处理领域。为解决现有技术中图像文本识别是针对所有图像进行的，即图像中即使没有文本也会执行图像文本识别过程，导致图像文本识别的效率较低的问题而发明。本发明实施例提供的技术方案包括：S10、获取待识别图像；S20、判断所述待识别图像是否包含文本；S30、如果所述待识别图像中包含文本，对所述待识别图像中的文本进行识别。该方案可以应用在无人驾驶、车牌识别、图像检索、工业自动化以及机器人视觉等领域。

Description

一种图像文本识别方法和装置

技术领域

本发明涉及图像处理领域，尤其涉及一种图像文本识别方法和装置。

背景技术

随着数字多媒体技术和互联网行业的快速发展，以及数码相机、智能手机、监控摄像头等电子产品的广泛普及，以图片和视频为载体的多媒体信息逐渐成为信息传递的重要方式，同时大量各种各样的图片和视频充斥着网络，这些图片和视频大多来源于人们的日常生活。图片和视频中包含大量的图像，其中含有的丰富多变的文本携带着图像的高层语义信息，对理解图像内容有重要作用。图像中文本的检测与识别有着非常高的应用价值，例如无人驾驶、车牌识别、图像检索、工业自动化以及机器人视觉等。因此，图像中文本识别日益成为一个迫切的现实需求。

目前，图像文本识别是针对所有图像进行的，即图像中即使没有文本也会执行图像文本识别过程，导致图像文本识别的效率较低。

发明内容

本发明提供一种图像文本识别方法，能够提高图像文本识别的效率。

为解决上述问题，本发明实施例提供一种图像文本识别方法，包括：S10、获取待识别图像；S20、判断所述待识别图像是否包含文本；S30、如果所述待识别图像中包含文本，对所述待识别图像中的文本进行识别。

本发明实施例还提供一种图像文本识别装置，包括：

图像获取模块，用于获取待识别图像；

文本分类模块，与所述图像获取模块相连，用于判断所述待识别图像是否包含文本；

文本识别模块，与所述文本分类模块相连，用于如果所述文本分类模块确认待识别图像中包含文本，对所述待识别图像中的文本进行识别。

本发明具有如下有益效果：在进行图像文本识别之前，首先判断图像否包含文本，并对包含文本的图像进行识别。由于仅对包含文本的图像进行识别，无需对不包含文本的图像进行识别，提高了图像文本识别的效率，解决了现有技术中图像文本识别是针对所有图像进行的，无论图像中是否包含文本，导致图像文本识别的效率较低的问题。

附图说明

图1为本发明实施例1提供的图像文本识别方法方法的流程图；

图2为本发明实施例2提供的图像文本识别装置的结构示意图；

图3为本发明实施例2提供的图像文本识别装置中神经网络分类子模块的结构示意图一；

图4为本发明实施例2提供的图像文本识别装置中神经网络分类子模块的结构示意图二；

图5为图4所示的图像文本识别装置中判断单元的结构示意图。

具体实施方式

下面结合实施例及附图对本发明的技术方案作进一步阐述。

实施例1

如图1所示，本实施例提供了一种图像文本识别方法，包括：

步骤101，获取待识别图像。

在本实施例中，步骤101中待识别图像可以是需要进行图像文本识别的任意图像，该待识别图像既可以包含文本，也可以不包含文本，在此不做限制。

步骤102，判断该待识别图像是否包含文本。

在本实施例中，通过步骤102判断待识别图像是否包含文本的方式可以包括：根据预先训练的3层卷积神经网络判断所述待识别图像是否包含文本；和/或根据预先训练的SVM分类器判断所述待识别图像是否包含文本。

其中3层卷积神经网络，是预先通过含有文本的图像和不含文本的图像对3层卷积的权重进行预先训练得到的，该3层卷积每层的步长stride、膨胀dilation和pad参数，可以为用户预先设置的，在此不做限制。

在本实施例中，当通过步骤102确定待识别图像包含文本时，执行步骤103；当通过步骤102确定待识别图像不包含文本时，结束图像文本识别过程。

具体的，通过步骤102判断待识别图像是否包含文本的过程包括：将待识别图像转化为预设大小；将转化后的图像代入预先训练的3层卷积神经网络，得到待识别图像对应的邻域特征；根据预设修正线性单元RELU激活函数对待识别图像对应的邻域特征进行转换，得到待识别图像的激活参数；通过全连接层将待识别图像的激活参数转化为一维特征，得到待识别图像的预测结果；根据待识别图像的预测结果判断待识别图像是否包含文本。

在本实施例中，预先训练的3层卷积神经网络时，可以将含有文本的图像标签值设置为1，不含有文本的图像标签值设置为0，根据预测结果对应的预测概率倾向于0还是1判断待识别图像是否包含文本：预测结果倾向于0时不包含文本，倾向于1时包含文本。该预测结果对应的预测概率可以通过以下公式得到特别的，还可以将含有文本的图像标签值设置为0，不含有文本的图像标签值设置为1后判断待识别图像是否包含文本，判断过程与上述过程类似，在此不再一一赘述。

具体的，3层卷积神经网络的训练过程包括：S11获取第一图像集合和第二图像集合，所述第一图像集合中所有图像中均包含文本，所述第二图像集合中所有图像均不包含文本；S12、分别将所述第一图像集合和第二图像集合中的图像转化为预设大小；S13、根据预设权重、步长stride、膨胀dilation和填充pad参数，通过预设3层卷积提取转化后的所述第一图像集合和第二图像集合中图像的邻域特征；所述3层卷积的卷积核大小为3*3；S14、根据预设修正线性单元RELU激活函数对转化后的所述第一图像集合和第二图像集合中图像的邻域特征进行转换，得到所述第一图像集合和第二图像集合中图像的激活特征；S15、通过全连接层将所述第一图像集合和第二图像集合中图像的激活特征转化为一维向量，得到所述第一图像集合和第二图像集合中各个图像的预测结果；S16、根据所述第一图像集合和第二图像集合中各个图像的预测结果，判断所述第一图像集合和第二图像集合的损失值是否小于预设阈值；如果不小于，执行S17；否则，执行S18；S17、根据所述第一图像集合和第二图像集合的损失值，修正所述权重，执行所述S13至S16；S18、根据目标预测结果对应的权重、步长stride、膨胀dilation和pad参数，获取所述预先训练的3层卷积神经网络，所述目标预测结果为预测损失值小于预设阈值的第一图像集合和第二图像集合中各个图像的预测结果。其中，所述根据所述第一图像集合和第二图像集合中各个图像的预测结果，判断所述第一图像集合和第二图像集合的损失值是否小于预设阈值，包括：S161、获取所述第一图像集合和第二图像集合中各个图像的预测结果对应的概率值所述所述n为所述第一图像集合或所述第二图像集合中第n个图像，所述n为正整数；所述x_n为所述第n个图像的预测结果；S162、根据所述第一图像集合和第二图像集合中各个图像的预测结果对应的概率值和预设标签值p_n获取所述第一图像集合和第二图像集合的损失值E，所述第一图像集合中图像的标签值p_n为1，所述第二图像集合中图像的标签值p_n为0，所述S163、判断所述第一图像集合和第二图像集合的损失值E是否小于预设阈值。

在本实施例中，可以通过PIL图像缩放函数对待识别图像进行resize处理，将待识别图像转化为预设大小，也可以通过其他方式将待识别图像转化为预设大小，在此不做限制；其中，预设大小可以为任意规范大小，具体可以为256*256像素等，在此不做限制。

在本实施例中，3层卷积的卷积核大小为3*3；每层卷积的步长stride、膨胀dilation和填充pad参数可以不同。具体的，3层卷积参数可以如下设置：第一层卷积的步长stride参数设置为2，膨胀dilation参数设置为5，填充pad参数设置为5；第二层卷积的步长stride参数设置为2，膨胀dilation参数设置为3，填充pad参数设置为3；第三层卷积的步长stride参数设置为2，膨胀dilation参数设置为1，填充pad参数设置为1；上述3层卷积参数还可以设置为其他值，在此不做限制。

特别的，为了提取图像不同的特征，预设3层卷积的卷积核可以设置多个，通过不同的卷积核提取图像。

在本实施例中，修正线性单元RELU激活函数是一种分段线性函数，该函数能够将所有的负值输入转换为0，正值输入不变。

在本实施例中，通过全连接层分别对第一图像集合和第二图像集合中图像的激活特征进行处理，输出一个标量，作为第一图像集合和第二图像集合中各个图像的预测结果。

在本实施例中，根据第一图像集合和第二图像集合的损失值修正权重的过程，与现有的深度神经网络方法的修正过程相似，在此不再一一赘述。

在本实施例中，预先训练SVM分类器的过程可以包括：S21、获取第一图像集合和第二图像集合，所述第一图像集合中所有图像中均包含文本，标签值设为1；所述第二图像集合中所有图像均不包含文本，标签值设为0；S22、分别将所述第一图像集合和第二图像集合中的图像转化为预设大小；S23、分别获取转化后的所述第一图像集合和第二图像集合中的每个图像的图像特征信息；所述图像特征信息包括低频信息、行高频信息、列高频信息和纵高频信息；S24、分别根据转化后的所述第一图像集合和第二图像集合中的每个图像的图像特征信息和标签值，对预设SVM分类器进行训练，得到所述预先训练的SVM分类器。

在本实施例中，可以通过小波变化方法提取图像特征信息，也可以通过其他方法获取图像特征信息，在此不做限制。进行图像特征信息的提取过程中，如果低频信息的大小大于阈值，可以再进行分解，直至大小小于阈值。

步骤103，对该待识别图像进行文本识别。

在本实施例中，步骤103可以通过边缘信息检测、连通区域分析等方式进行文本识别，在此不做限制。

实施例2

如图2所示，本发明实施例提供一种图像文本识别装置，包括：

图像获取模块201，用于获取待识别图像；

文本分类模块202，与所述图像获取模块相连，用于判断所述待识别图像是否包含文本；

文本识别模块203，与所述文本分类模块相连，用于如果所述文本分类模块确认待识别图像中包含文本，对所述待识别图像中的文本进行识别。

在本实施例中，通过图像获取模块201、文本分类模块202和文本识别模块203实现图像文本识别的过程，与本发明实施例1提供的相似，在此不再一一赘述。

在本实施例中，文本分类模块202包括：神经网络检测子模块和/或SVM检测子模块；

所述神经网络分类子模块，用于根据预先训练的3层卷积神经网络判断所述待识别图像是否包含文本；

所述SVM分类子模块，用于根据预先训练的SVM分类器判断所述待识别图像是否包含文本。

其中，如图3所示，所述神经网络分类子模块包括：

图像转化单元2021，用于将所述待识别图像转化为预设大小；

卷积处理单元2022，与所述图像转化子模块相连，用于将转化后的图像代入预先训练的3层卷积神经网络，得到所述待识别图像对应的邻域特征；

线性修正单元2023，与所述卷积处理子模块相连，用于根据预设修正线性单元RELU激活函数对所述待识别图像对应的邻域特征进行转换，得到所述待识别图像的激活参数；

全连接单元2024，与所述线性修正子模块相连，用于通过全连接层将所述待识别图像的激活参数转化为一维特征，得到所述待识别图像的预测结果；

文本分类单元2025，与所述全连接子模块相连，用于根据所述待识别图像的预测结果判断所述待识别图像是否包含文本。

在本实施例中，通过图像转化单元2021、卷积处理单元2022、线性修正单元2023、全连接单元2024和文本分类单元2025实现文本检测的过程，与图1所示的步骤102相似，在此不再一一赘述。

进一步的，如图4所示，该神经网络分类子模块还包括：

获取单元2026，用于获取第一图像集合和第二图像集合，所述第一图像集合中所有图像中均包含文本，所述第二图像集合中所有图像均不包含文本；

转化单元2027，与所述获取单元相连，用于分别将所述第一图像集合和第二图像集合中的图像转化为预设大小；

处理单元2028，与所述转化单元相连，用于根据预设权重、步长stride、膨胀dilation和填充pad参数，通过预设3层卷积提取转化后的所述第一图像集合和第二图像集合中图像的邻域特征；所述3层卷积的卷积核大小为3*3；

修正单元2029，与所述处理单元相连，用于根据预设修正线性单元RELU激活函数对转化后的所述第一图像集合和第二图像集合中图像的邻域特征进行转换，得到所述第一图像集合和第二图像集合中图像的激活特征；

连接单元2030，与所述修正单元相连，用于通过全连接层将所述第一图像集合和第二图像集合中图像的激活特征转化为一维向量，得到所述第一图像集合和第二图像集合中各个图像的预测结果；

判断单元2031，与所述连接单元相连，用于根据所述第一图像集合和第二图像集合中各个图像的预测结果，判断所述第一图像集合和第二图像集合的损失值是否小于预设阈值；如果不小于，执行权重修正模块；否则，执行卷积训练模块；

所述权重修正单元2032，与所述判断单元相连，用于根据所述第一图像集合和第二图像集合的损失值，修正所述权重，执行所述卷积处理模块；

所述卷积训练单元2033，与所述判断单元和所述卷积处理单元相连，用于根据目标预测结果对应的权重、步长stride、膨胀dilation和pad参数，获取所述预先训练的3层卷积神经网络，所述目标预测结果为损失值小于预设阈值的第一图像集合和第二图像集合中各个图像的预测结果。

在本实施例中，通过上述模块进行3层卷积网络训练的过程，与本发明实施例1提供的相似，在此不再一一赘述。

其中，如图5所示，本发明实施例提供的图像文本识别装置，所述判断单元2031，包括：

概率获取子单元20311，用于获取所述第一图像集合和第二图像集合中各个图像的预测结果对应的概率值所述所述n为所述第一图像集合或所述第二图像集合中第n个图像，所述n为正整数；所述x_n为所述第n个图像的预测结果；

损失值获取子单元20312，与所述概率获取子单元相连，用于根据所述第一图像集合和第二图像集合中各个图像的预测结果对应的概率值和预设标签值p_n获取所述第一图像集合和第二图像集合的损失值E，所述第一图像集合中图像的标签值p_n为1，所述第二图像集合中图像的标签值p_n为0，所述

判断子单元20313，与所述损失值获取子单元相连，用于判断所述第一图像集合和第二图像集合的损失值E是否小于预设阈值。

在本实施例中，通过概率获取子单元20311、损失值获取子单元20312和判断子单元20313实现损失值判断的过程，与本发明实施例1提供的相似，在此不再一一赘述。

在本实施例中，SVM分类子模块包括：

卷积图像获取单元，用于获取第一图像集合和第二图像集合，所述第一图像集合中所有图像中均包含文本，标签值设为1；所述第二图像集合中所有图像均不包含文本，标签值设为0；

卷积图像转化单元，与所述卷积图像获取单元相连，分别将所述第一图像集合和第二图像集合中的图像转化为预设大小；

特征提取单元，与卷积图像转化单元相连，用于分别获取转化后的所述第一图像集合和第二图像集合中的每个图像的图像特征信息；所述图像特征信息包括低频信息、行高频信息、列高频信息和纵高频信息；

训练单元，与特征提取单元相连，用于分别根据转化后的所述第一图像集合和第二图像集合中的每个图像的图像特征信息和标签值，对预设SVM分类器进行训练，得到所述预先训练的SVM分类器。

在本实施例中，通过卷积图像获取单元、卷积图像转化单元、特征提取单元和训练单元进行SVM分类器训练的过程，与本发明实施例1提供的相似，在此不再一一赘述。

以上实施例的先后顺序仅为便于描述，不代表实施例的优劣。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像文本识别方法，其特征在于，包括：

S10、获取待识别图像；

S20、判断所述待识别图像是否包含文本；

S30、如果所述待识别图像中包含文本，对所述待识别图像中的文本进行识别。

2.根据权利要求1所述的图像文本识别方法，其特征在于，所述判断所述待识别图像是否包含文本，包括：

S201、根据预先训练的3层卷积神经网络判断所述待识别图像是否包含文本；和/或

S202、根据预先训练的SVM分类器判断所述待识别图像是否包含文本。

3.根据权利要求2所述的图像文本识别方法，其特征在于，所述根据预先训练的3层卷积神经网络判断所述待识别图像是否包含文本，包括：

S2011、将所述待识别图像转化为预设大小；

S2012、将转化后的图像代入预先训练的3层卷积神经网络，得到所述待识别图像对应的邻域特征；

S2013、根据预设修正线性单元RELU激活函数对所述待识别图像对应的邻域特征进行转换，得到所述待识别图像的激活参数；

S2014、通过全连接层将所述待识别图像的激活参数转化为一维特征，得到所述待识别图像的预测结果；

S2015、根据所述待识别图像的预测结果判断所述待识别图像是否包含文本。

4.根据权利要求2或3所述的图像文本识别方法，其特征在于，所述根据预先训练的3层卷积神经网络判断所述待识别图像是否包含文本，还包括：

S11、获取第一图像集合和第二图像集合，所述第一图像集合中所有图像中均包含文本，所述第二图像集合中所有图像均不包含文本；

S12、分别将所述第一图像集合和第二图像集合中的图像转化为预设大小；

S13、根据预设权重、步长stride、膨胀dilation和填充pad参数，通过预设3层卷积提取转化后的所述第一图像集合和第二图像集合中图像的邻域特征；所述3层卷积的卷积核大小为3*3；

S14、根据预设修正线性单元RELU激活函数对转化后的所述第一图像集合和第二图像集合中图像的邻域特征进行转换，得到所述第一图像集合和第二图像集合中图像的激活特征；

S15、通过全连接层将所述第一图像集合和第二图像集合中图像的激活特征转化为一维向量，得到所述第一图像集合和第二图像集合中各个图像的预测结果；

S16、根据所述第一图像集合和第二图像集合中各个图像的预测结果，判断所述第一图像集合和第二图像集合的损失值是否小于预设阈值；如果不小于，执行S17；否则，执行S18；

S17、根据所述第一图像集合和第二图像集合的损失值，修正所述权重，执行所述S13至S16；

S18、根据目标预测结果对应的权重、步长stride、膨胀dilation和pad参数，获取所述预先训练的3层卷积神经网络，所述目标预测结果为预测损失值小于预设阈值的第一图像集合和第二图像集合中各个图像的预测结果。

5.根据权利要求4所述的图像文本识别方法，其特征在于，所述根据所述第一图像集合和第二图像集合中各个图像的预测结果，判断所述第一图像集合和第二图像集合的损失值是否小于预设阈值，包括：

S161、获取所述第一图像集合和第二图像集合中各个图像的预测结果对应的概率值所述所述n为所述第一图像集合或所述第二图像集合中第n个图像，所述n为正整数；所述x_n为所述第n个图像的预测结果；

S162、根据所述第一图像集合和第二图像集合中各个图像的预测结果对应的概率值和预设标签值p_n获取所述第一图像集合和第二图像集合的损失值E，所述第一图像集合中图像的标签值p_n为1，所述第二图像集合中图像的标签值p_n为0，所述

S163、判断所述第一图像集合和第二图像集合的损失值E是否小于预设阈值。

6.根据权利要求2所述的图像文本识别方法，其特征在于，所述根据预先训练的SVM分类器判断所述待识别图像是否包含文本，包括：

S21、获取第一图像集合和第二图像集合，所述第一图像集合中所有图像中均包含文本，标签值设为1；所述第二图像集合中所有图像均不包含文本，标签值设为0；

S22、分别将所述第一图像集合和第二图像集合中的图像转化为预设大小；

S23、分别获取转化后的所述第一图像集合和第二图像集合中的每个图像的图像特征信息；所述图像特征信息包括低频信息、行高频信息、列高频信息和纵高频信息；

S24、分别根据转化后的所述第一图像集合和第二图像集合中的每个图像的图像特征信息和标签值，对预设SVM分类器进行训练，得到所述预先训练的SVM分类器。

7.一种图像文本识别装置，其特征在于，包括：

图像获取模块，用于获取待识别图像；

8.根据权利要求7所述的图像文本识别装置，其特征在于，所述文本分类模块，包括：

神经网络分类子模块和/或SVM分类子模块；

9.根据权利要求8所述的图像文本识别装置，其特征在于，所述神经网络分类子模块包括：

图像转化单元，用于将所述待识别图像转化为预设大小；

卷积处理单元，与所述图像转化单元相连，用于将转化后的图像代入预先训练的3层卷积神经网络，得到所述待识别图像对应的邻域特征；

线性修正单元，与所述卷积处理单元相连，用于根据预设修正线性单元RELU激活函数对所述待识别图像对应的邻域特征进行转换，得到所述待识别图像的激活参数；

全连接单元，与所述线性修正单元相连，用于通过全连接层将所述待识别图像的激活参数转化为一维特征，得到所述待识别图像的预测结果；

文本分类单元，与所述全连接单元相连，用于根据所述待识别图像的预测结果判断所述待识别图像是否包含文本。

10.根据权利要求8或9所述的图像文本识别装置，其特征在于，所述神经网络分类子模块还包括：

获取单元，用于获取第一图像集合和第二图像集合，所述第一图像集合中所有图像中均包含文本，所述第二图像集合中所有图像均不包含文本；

转化单元，与所述获取单元相连，用于分别将所述第一图像集合和第二图像集合中的图像转化为预设大小；

处理单元，与所述转化单元相连，用于根据预设权重、步长stride、膨胀dilation和填充pad参数，通过预设3层卷积提取转化后的所述第一图像集合和第二图像集合中图像的邻域特征；所述3层卷积的卷积核大小为3*3；

修正单元，与所述处理单元相连，用于根据预设修正线性单元RELU激活函数对转化后的所述第一图像集合和第二图像集合中图像的邻域特征进行转换，得到所述第一图像集合和第二图像集合中图像的激活特征；

连接单元，与所述修正单元相连，用于通过全连接层将所述第一图像集合和第二图像集合中图像的激活特征转化为一维向量，得到所述第一图像集合和第二图像集合中各个图像的预测结果；

判断单元，与所述连接单元相连，用于根据所述第一图像集合和第二图像集合中各个图像的预测结果，判断所述第一图像集合和第二图像集合的损失值是否小于预设阈值；如果不小于，执行权重修正模块；否则，执行卷积训练模块；

所述权重修正单元，与所述判断单元相连，用于根据所述第一图像集合和第二图像集合的损失值，修正所述权重，执行所述卷积处理模块；

所述卷积训练单元，与所述判断单元和所述文本检测单元相连，用于根据目标预测结果对应的权重、步长stride、膨胀dilation和pad参数，获取所述预先训练的3层卷积神经网络，所述目标预测结果为损失值小于预设阈值的第一图像集合和第二图像集合中各个图像的预测结果。