CN111242125B

CN111242125B - 一种自然场景图像文本检测方法、存储介质及终端设备

Info

Publication number: CN111242125B
Application number: CN202010040806.9A
Authority: CN
Inventors: 张勇; 黄裕倍; 赵东宁; 廉德亮; 谢维信
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2023-05-02
Anticipated expiration: 2040-01-14
Also published as: CN111242125A

Abstract

本发明公开一种自然场景图像文本检测方法、存储介质及终端设备，方法包括步骤：采用深度卷积神经网络模型对待检测图像进行特征提取处理，得到四个阶段的基本特征图；对所述四个阶段的基本特征图进行融合处理，得到三个阶段的深度融合特征图；采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作，得到文本区域概率预测特征图和文本区域位置预测特征图；对所述文本区域概率预测特征图和所述文本区域位置预测特征图进行算法处理，得到自然场景图像中文本的位置。本发明利用多阶段的特征图进行融合，将深度卷积神经网络早期阶段的图像特征信息用于最终的特征图聚合，可有效提高自然场景图像文本检测的准确率。

Description

一种自然场景图像文本检测方法、存储介质及终端设备

技术领域

本发明涉及目标检测领域，尤其涉及一种自然场景图像文本检测方法、存储介质及终端设备。

背景技术

目前自然场景图像文本检测方法主要分为两大类，一类是基于手工设计特征提取候选文本区域的方法，包括基于滑动窗口的方法和基于图像像素连通区域的方法，这类方法通过手工设计的特征提取候选文本区域，再通过分类器得到文本区域，实现自然场景图像文本检测。这类方法的缺点在于手工设计得到的特征在精确性和完备性方面具有很大的局限。另一类是基于深度卷积神经网络的方法，这类方法通过一个训练好的深度卷积神经网络和一个softmax层进行文本区域概率预测和文本区域位置预测，这类方法的缺点在于只用到最后一个阶段的特征图进行预测，不能完全利用深度卷积神经网络早期阶段的图像特征信息，使得检测准确率较低。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种自然场景图像文本检测方法、存储介质及终端设备，旨在解决现有自然场景图像文本检测方法的检测准确率较低的问题。

本发明的技术方案如下：

一种自然场景图像文本检测方法，其中，包括步骤：

对原始自然场景图像进行缩放处理，得到待检测图像；

采用深度卷积神经网络模型对所述待检测图像进行特征提取处理，得到四个阶段的基本特征图；

对所述四个阶段的基本特征图进行融合处理，得到三个阶段的深度融合特征图；

采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作，得到文本区域概率预测特征图和文本区域位置预测特征图；

对所述文本区域概率预测特征图和所述文本区域位置预测特征图进行算法处理，得到自然场景图像中文本的位置。

所述的自然场景图像文本检测方法，其中，所述采用深度卷积神经网络模型对所述待检测图像进行特征提取处理，得到四个阶段的基本特征图的步骤包括：

采用深度卷积神经网络模型ResNet50对所述待检测图像进行特征提取处理，得到第一阶段基本特征图、第二阶段基本特征图、第三阶段基本特征图以及第四阶段基本特征图。

所述的自然场景图像文本检测方法，其中，所述对所述四个阶段的基本特征图进行融合处理，得到三个阶段的深度融合特征图的步骤包括：

对所述第四阶段基本特征图分别进行反池化操作，通过跳转接将所述第三阶段基本特征图与经过反池化操作的第四阶段基本特征图进行特征图拼接处理，得到第一拼接图，对所述第一拼接图进行第一卷积处理，得到第一阶段深度融合特征图；

对所述第一阶段深度融合特征图进行反池化操作，通过跳转接将所述第二阶段基本特征图与所述经过反池化操作的第一阶段深度融合特征图进行特征图拼接处理，得到第二拼接图，对所述第二拼接图进行第一卷积处理，得到第二阶段深度融合特征图；

对所述第二阶段深度融合特征图进行反池化操作，通过跳转接将所述第一阶段基本特征图与所述经过反池化操作的第二阶段深度融合特征图进行特征图拼接处理，得到第三拼接图，对所述第三拼接图进行第一卷积处理，得到第三阶段深度融合特征图。

所述的自然场景图像文本检测方法，其中，所述第一卷积处理的卷积核大小为3*3。

所述的自然场景图像文本检测方法，其中，所述采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作，得到文本区域概率预测特征图和文本区域位置预测特征图的步骤包括：

对所述第一阶段深度融合特征图和第二阶段深度融合特征图进行反池化处理，使得所述第一阶段深度融合特征图、第二阶段深度融合特征图与所述第三阶段深度融合特征图的长和宽相同；

将所述第三阶段深度融合特征图与所述经过反池化处理的第一阶段深度融合特征图和第二阶段深度融合特征图进行特征图拼接处理，得到第四拼接图；

采用改进的Inception模块对所述第四拼接图进行第二卷积处理，得到所述文本区域概率预测特征图和文本区域位置预测特征图。

所述的自然场景图像文本检测方法，其中，所述改进的Inception模块包括输入层、卷积层以及输出层，所述卷积层包括卷积核为1*1的第一卷积单元，由卷积核为3*1和1*3组成的第二卷积单元，由卷积核为5*1和1*5组成的第三卷积单元，以及由最大池化和卷积核为1*1组成的第三卷积单元。

所述的自然场景图像文本检测方法，其中，所述对所述文本区域概率预测特征图和所述文本区域位置预测特征图进行算法处理，得到自然场景图像中文本的位置的步骤包括：

根据所述文本区域位置预测特征图得到初步文本区域；

结合所述文本区域概率预测特征图和非极大值抑制算法对所述初步文本区域进行计算和筛选并输出所述自然场景图像中文本的位置。

所述的自然场景图像文本检测方法，其中，对原始自然场景图像缩放至尺寸大小为512*512，得到待检测图像。

一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的自然场景图像文本检测方法中的步骤。

一种终端设备，其包括处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的自然场景图像文本检测方法中的步骤。

有益效果：本发明首先利用深度卷积神经网络模型对自然场景图像进行特征提取得到四个阶段的基本特征图，解决了手工设计得到的基本特征在精确性和完备性方面的局限；接着，对所述四个阶段的基本特征图进行融合处理，得到三个阶段的深度融合特征图，再采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作后得到文本区域概率预测特征图和文本区域位置预测特征图；通过利用多阶段的特征图进行融合，将深度卷积神经网络早期阶段的图像特征信息用于最终的特征图聚合，可有效提高自然场景图像文本检测的准确率。

附图说明

图1为本发明一种自然场景图像文本检测方法较佳实施例的流程图。

图2为本发明深度卷积神经网络模型的结构示意图。

图3为本发明图1步骤S30的流程图。

图4为本发明图1步骤S40的流程图。

图5为传统Inception模块的结构示意图。

图6为本发明改进的Inception模块的结构示意图。

图7为本发明一种终端设备较佳实施例的结构框图。

具体实施方式

本发明提供一种自然场景图像文本检测方法、存储介质及终端设备，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

发明人经过研究发现，现有技术通常采用训练好的深度卷积神经网络和一个softmsx层对自然场景图像进行文本区域概率预测和文本区域位置预测，这类方法的缺点在于只用到最后一个阶段的特征图进行预测，不能完全利用深度卷积神经网络早期阶段的图像特征信息，使得检测准确率较低。

基于现有技术所存在的问题，本发明实施例提供一种自然场景图像文本检测方法较佳实施例的流程图，其中，如图1所示，包括步骤：

S10、对原始自然场景图像进行缩放处理，得到待检测图像；

S20、采用深度卷积神经网络模型对所述待检测图像进行特征提取处理，得到四个阶段的基本特征图；

S30、对所述四个阶段的基本特征图进行融合处理，得到三个阶段的深度融合特征图；

S40、采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作，得到文本区域概率预测特征图和文本区域位置预测特征图；

S50、对所述文本区域概率预测特征图和所述文本区域位置预测特征图进行算法处理，得到自然场景图像中文本的位置。

在本实施例中，首先利用深度卷积神经网络模型对自然场景图像进行特征提取得到四个阶段的基本特征图，得解决了手工设计得到的基本特征在精确性和完备性方面的局限；接着，对所述四个阶段的基本特征图进行融合处理，得到三个阶段的深度融合特征图，再采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作后得到文本区域概率预测特征图和文本区域位置预测特征图；通过利用多阶段的特征图进行融合，将深度卷积神经网络早期阶段的图像特征信息用于最终的特征图聚合，可有效提高自然场景图像文本检测的准确率。

在本实施例中，自然场景图像文本检测方法属于目标检测领域，其作为计算机视觉领域的一个重要研究方向，自然场景图像文本检测主要用于对自然场景图像中的文本区域进行定位，输出文本区域在该自然场景图像中的位置。本实施例提供的自然场景图像文本检测方法可以作为一个关键步骤广泛应用于文本识别、信息检索、图片标注等领域。

在一些实施方式中，为便于后期对图形进行特征提取处理，需要对原始自然场景图像进行缩放处理，得到固定尺寸的待检测图像。作为举例，对所述原始自然场景图像缩放至尺寸大小为512*512，得到待检测图像。

在一些实施方式中，如图2所示，采用深度卷积神经网络模型ResNet50对所述待检测图像进行特征提取处理，得到第一阶段基本特征图、第二阶段基本特征图、第三阶段基本特征图以及第四阶段基本特征图。在本实施例中，ResNet(Residual Network)50是指残差网络50，残差网络是一种深度卷积网络，残差网络更容易优化，并且能够通过增加相当的深度来提高准确率，其核心是解决了增加深度带来的副作用(退化问题)，这样能够通过单纯地增加网络深度，来提高网络性能。越深的深度神经网络能够计算出的特征越丰富，越能取得良好的效果，更深的神经网络的唯一缺点是需要训练的参数十分庞大，导致其需要大量的计算资源，但实际上，随着网络的加深，梯度的大小(范数)急剧下降，这被称为梯度消失，这会导致学习速率非常缓慢；在极少数情况下也会出现梯度急剧上升，即梯度***现象，表现在训练集上的准确度相较于浅层网络不但没有提高，反而会下降。而本实施例中的残差网络就是一种为了解决网络加深梯度消失现象而提出的网络。本实施例通过ResNet50对所述待检测图像进行特征提取处理，可快速得到准确的第一阶段基本特征图、第二阶段基本特征图、第三阶段基本特征图以及第四阶段基本特征图。

在一些实施方式中，如图2和图3所示，所述对所述四个阶段的基本特征图进行融合处理，得到三个阶段的深度融合特征图的步骤包括：

S31、对第四阶段基本特征图分别进行反池化操作，通过跳转接将所述第三阶段基本特征图与经过反池化操作的第四阶段基本特征图进行特征图拼接处理，得到第一拼接图，对所述第一拼接图进行第一卷积处理，得到第一阶段深度融合特征图；

S32、对所述第一阶段深度融合特征图进行反池化操作，通过跳转接将所述第二阶段基本特征图与所述经过反池化操作的第一阶段深度融合特征图进行特征图拼接处理，得到第二拼接图，对所述第二拼接图进行第一卷积处理，得到第二阶段深度融合特征图；

S33、对所述第二阶段深度融合特征图进行反池化操作，通过跳转接将所述第一阶段基本特征图与所述经过反池化操作的第二阶段深度融合特征图进行特征图拼接处理，得到第三拼接图，对所述第三拼接图进行第一卷积处理，得到第三阶段深度融合特征图。

在本实施例中，利用反池化、跳连接、特征图拼接以及第一卷积处理，对所述四个阶段的基本特征图进行融合，可得到三个阶段的深度融合特征图。其中，对所述第四阶段基本特征图、第一阶段深度融合特征图以及第二阶段深度融合特征图分别进行反池化操作主要用于放大特征图，使其长和宽变为原来的两倍，由于在获取所述四个阶段的基本特征图的过程中，其基本特征图随着卷积操作的进行下一阶段的基本特征图的长和宽会比上一阶段的基本特征图的长和宽均减小一半，在本实施例中，为了将所述四个阶段的基本特征图进行特征融合操作，需要先对第四阶段基本特征图、第一阶段深度融合特征图以及第二阶段深度融合特征图进行反池化操作，使得该阶段特征图的长和宽与其前一阶段特征图的长和宽相同。本实施例中，所述跳连接操作主要用于将第一至第三阶段的基本特征图直接传递至步骤S30中，以完成特征图拼接操作，所述特征图拼接操作是指将长和宽相同的基本特征图直接拼在一起。最后分别对经过特征图拼接处理的第一拼接图、第二拼接图以及第三拼接图分别进行第一卷积处理，完成特征融合，得到三个阶段的深度融合特征图。

在一些具体的实施方式中，所述第一卷积处理的卷积核大小为3*3。也就是说，本实施例利用卷积核大小为3*3的卷积操作，对每个由特征图拼接操作得到的特征图进行卷积操作，完成特征融合，得到三个阶段的深度融合特征图。

在一些实施方式中，如图2和图4所示，所述采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作，得到文本区域概率预测特征图和文本区域位置预测特征图的步骤包括：

S41、对所述第一阶段深度融合特征图和第二阶段深度融合特征图进行反池化处理，使得所述第一阶段深度融合特征图、第二阶段深度融合特征图与所述第三阶段深度融合特征图的长和宽相同；

S42、将所述第三阶段深度融合特征图与所述经过反池化处理的第一阶段深度融合特征图和第二阶段深度融合特征图进行特征图拼接处理，得到第四拼接图；

S43、采用改进的Inception模块对所述第四拼接图进行第二卷积处理，得到所述文本区域概率预测特征图和文本区域位置预测特征图。

在本实施例中，利用针对自然场景图像文本特征改进的Inception模块，对第一和第二阶段的深度融合特征图进行反池化操作，得到三个长和宽相同的深度融合特征图，将所述三个长和宽相同的深度融合特征图经过特征图拼接，最后对所述经过特征图拼接的第四拼接图进行Inception卷积操作，得到用于预测的文本区域概率预测特征图和文本区域位置预测特征图。本实施例中，由于所述三个阶段的深度融合特征图所携带的特征各不相同，针对这个特点，结合自然场景图像中文本的物理特征，本实施例改进了如图5所示的传统的Inception模块，通过对图5中传统Inception模块中的卷积核大小进行修改，得到如图6所示改进的Inception模块，使其能够更加准确地提取自然场景图像中的文本特征，提高自然场景图像文本检测准确率。

如图5和6所示，本实施例将传统Inception模块中的3*3卷积单元拆分为由卷积核为3*1和1*3组成的第二卷积单元，将传统Inception模块中的3*3卷积单元拆分为由卷积核为5*1和1*5组成的第三卷积单元，并且在传统Inception模块中的最大池化单元下增加了1*1卷积单元。即本实施例中所述改进的Inception模块包括输入层、卷积层以及输出层，所述卷积层包括卷积核为1*1的第一卷积单元，由卷积核为3*1和1*3组成的第二卷积单元，由卷积核为5*1和1*5组成的第三卷积单元，以及由最大池化和卷积核为1*1组成的第三卷积单元。本实施例通过采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作可提升计算效率，加深网络，同时还可增加网络非线性，得到准确的文本区域概率预测特征图和文本区域位置预测特征图。

在一些实施方式中，由所述文本区域位置预测特征图得到的初步文本区域可能存在重叠和冗余，需要结合文本区域概率预测特征图和非极大值抑制算法进行计算和筛选并输出最终文本的位置，具体实现方式如下：(1)由文本区域位置预测特征图初步得到文本区域，由文本区域概率预测特征图得到每个文本区域对应的预测概率；(2)以0.9为预测概率的阈值，剔除小于该阈值的文本区域；(3)对剩下的文本区域，以预测概率最大的文本区域为基准，计算剩余各个文本区域与基准文本区域的面积交并比。删除交并比大于0.2的文本区域；(4)经过以上步骤得到的文本区域则为最终预测的文本区域，通过文本区域的长、宽和中心坐标，输出自然场景图像中文本的位置。

基于上述自然场景图像文本检测方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的自然场景图像文本检测方法中的步骤。

基于上述自然场景图像文本检测方法，本发明还提供了一种终端设备，如图7所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

综上所述，本发明首先利用深度卷积神经网络模型对自然场景图像进行特征提取得到四个阶段的基本特征图，解决了手工设计得到的基本特征在精确性和完备性方面的局限；接着，对所述四个阶段的基本特征图进行融合处理，得到三个阶段的深度融合特征图，再采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作后得到文本区域概率预测特征图和文本区域位置预测特征图；通过利用多阶段的特征图进行融合，将深度卷积神经网络早期阶段的图像特征信息用于最终的特征图聚合，可有效提高自然场景图像文本检测的准确率。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种自然场景图像文本检测方法，其特征在于，包括步骤：

对原始自然场景图像进行缩放处理，得到待检测图像；

对所述文本区域概率预测特征图和所述文本区域位置预测特征图进行算法处理，得到自然场景图像中文本的位置；

所述采用深度卷积神经网络模型对所述待检测图像进行特征提取处理，得到四个阶段的基本特征图的步骤包括：

采用深度卷积神经网络模型ResNet50对所述待检测图像进行特征提取处理，得到第一阶段基本特征图、第二阶段基本特征图、第三阶段基本特征图以及第四阶段基本特征图；

所述对所述四个阶段的基本特征图进行融合处理，得到三个阶段的深度融合特征图的步骤包括：

对所述第二阶段深度融合特征图进行反池化操作，通过跳转接将所述第一阶段基本特征图与所述经过反池化操作的第二阶段深度融合特征图进行特征图拼接处理，得到第三拼接图，对所述第三拼接图进行第一卷积处理，得到第三阶段深度融合特征图；

所述采用改进的Inception模块对所述三个阶段的深度融合特征图进行聚合操作，得到文本区域概率预测特征图和文本区域位置预测特征图的步骤包括：

2.根据权利要求1所述的自然场景图像文本检测方法，其特征在于，所述第一卷积处理的卷积核大小为3*3。

3.根据权利要求1所述的自然场景图像文本检测方法，其特征在于，所述改进的Inception模块包括输入层、卷积层以及输出层，所述卷积层包括卷积核为1*1的第一卷积单元，由卷积核为3*1和1*3组成的第二卷积单元，由卷积核为5*1和1*5组成的第三卷积单元，以及由最大池化和卷积核为1*1组成的第三卷积单元。

4.根据权利要求1所述的自然场景图像文本检测方法，其特征在于，所述对所述文本区域概率预测特征图和所述文本区域位置预测特征图进行算法处理，得到自然场景图像中文本的位置的步骤包括：

根据所述文本区域位置预测特征图得到初步文本区域；

5.根据权利要求1所述的自然场景图像文本检测方法，其特征在于，对原始自然场景图像缩放至尺寸大小为512*512，得到待检测图像。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-5任一所述的自然场景图像文本检测方法中的步骤。

7.一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如如权利要求1-5任一所述的自然场景图像文本检测方法中的步骤。