CN107545262B

CN107545262B - 一种在自然场景图像中检测文本的方法及装置

Info

Publication number: CN107545262B
Application number: CN201710642311.1A
Authority: CN
Inventors: 王凯; 陈院林; 乔宇; 贺通
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2020-11-06
Anticipated expiration: 2037-07-31
Also published as: CN107545262A

Abstract

一种在自然场景图像中检测文本的方法及装置，用以解决现有技术中从不同复杂程度的自然场景图像中检测文本精度较低的问题。该方法包括：获取自然场景图像，通过FCN模型，对获取的自然场景图像进行卷积运算，得到自然场景图像的卷积特征，根据自然场景图像的卷积特征，确定自然场景图像中包括的文本候选区域序列，针对文本候选区域序列中的每一文本候选区域，执行：通过感兴趣区域池化层，提取文本候选区域的卷积特征，并通过特征变换，将文本候选区域的卷积特征，转化为固定维度k的特征向量，根据时间递归网络模型和固定维度k的特征向量，确定文本候选区域中包括的文本行的位置，其中k为正整数。

Description

一种在自然场景图像中检测文本的方法及装置

技术领域

本申请涉及文本检测技术领域，尤其涉及一种在自然场景图像中检测文本的方法及装置。

背景技术

自然场景图像，是指由各种拍摄设备(例如，照相机、具有拍摄功能的手机等)，在没有特定限制的条件下，直接对生活中真实存在的场景拍摄的图像。自然场景图像中的文本可提供丰富的语义信息，例如，自然场景图像中标识街道、车牌、菜单等的文本信息，能够辅助人们方便的理解场景信息，因此，在自然场景图像中准确检测出文本是很有必要的。但是，由于自然场景图像中文本的字体、颜色、格式等差异以及高度杂乱的背景等因素，在自然场景图像中检测文本是一项具有挑战性的工作。

目前，在自然场景图像中检测文本的方法可以分为两大类，分别为：基于滑动窗口的检测方法和基于连通域的检测方法。具体的：

基于滑动窗口的检测方法的工作原理是：使用不同尺度的滑动窗口扫描原始自然场景图像，得到一系列可能包括有文本的自然场景图像子区域，提取这些子区域的纹理特征，并使用提取的纹理特征训练分类器，验证子区域是否包括有文本，该方法通过多尺度滑动窗口以一定的步长在自然场景图像中不断滑动来提取子区域，提取的过程及其耗时，并且使用低级别的纹理特征验证子区域是否包括有文本，使其检测效果不佳。

基于连通域的检测方法的工作原理是：通过字符像素点的色彩、字符的笔画宽度等特征，从自然场景图像中提取连通区域，分析连通区域的特征，通过字符合并规则，得到文本字符串，验证字符串，移除非文字，得到最终检测结果，该方法仅适合处理背景较为简单的自然场景图像。

上述两种方法均通过低级别的特征，例如字符的笔画宽度、图像纹理特征等，来区分自然场景图像中文本和背景，检测精度较低，因此，如何从不同复杂程度的自然场景图像中准确的检测文本是亟待解决的问题。

发明内容

本申请提供一种在自然场景图像中检测文本的方法及装置，用以解决现有技术中从不同复杂程度的自然场景图像中检测文本精度较低的问题。

第一方面，本申请提供了一种在自然场景图像中检测文本的方法，在该方法中，首先获取自然场景图像，通过全卷积网络(fully convolutional networks，FCN)模型，对所述获取的自然场景图像进行卷积运算，得到所述自然场景图像的卷积特征，根据所述自然场景图像的卷积特征，确定所述自然场景图像中包括的文本候选区域序列，针对所述文本候选区域序列中的每一文本候选区域，执行：通过感兴趣区域池化层(roi-pooling)，提取所述文本候选区域的卷积特征，并通过特征变换，将所述文本候选区域的卷积特征，转化为固定维度k的特征向量，根据时间递归网络模型和固定维度k的特征向量，确定所述文本候选区域中包括的文本行的位置，其中k为正整数，所述文本候选区域序列中的每一文本候选区域至少包括一个文本行，所述文本行为所述文本候选区域中包括的单行文本。

本申请实施例中通过FCN模型粗略检测自然场景图像中的文本候选区域序列，针对文本候选区域序列中每一文本候选区域，通过时间递归网络模型确定文本候选区域中包括的文本行的位置，进而实现对自然场景图像中文本的精确检测。相比于现有技术中通过低级别的特征来区分自然场景图像中文本和背景的方法，基于FCN模型融合时间递归网络模型检测自然场景图像中文本的方法，不再依赖字符的笔画宽度、图像纹理等低级别的特征，来区分自然场景图像中的文本和背景，而是通过FCN模型以及时间递归网络模型的深度学习能力，充分利用自然场景图像中上下文信息以及文本的语义信息，可以精确的确定自然场景图像中包括的文本行的位置。

一种可能的设计中，根据所述自然场景图像的卷积特征，确定所述自然场景图像中包括的文本候选区域序列，包括：通过对所述自然场景图像的卷积特征进行合并，确定表征所述自然场景图像中文本位置的卷积特征；使用表征所述自然场景图像中文本位置的卷积特征，对所述自然场景图像进行映射，并标注所述自然场景图像中的文本位置和所述自然场景图像中的非文本位置；将所述自然场景图像中被标注为文本位置的至少一个区域，确定为所述文本候选区域序列。

上述设计中，通过FCN提取的自然场景图像的卷积特征，确定自然场景图像中包括的文本候选区域序列的方法，基于FCN像素级别的学习能力，充分利用自然场景图像中上下文信息以及文本的语义信息，将自然场景图像中的文本和背景分开，进而确定自然场景图像中包括的文本候选区域序列，相比现有技术通过低级别的特征，例如字符的笔画宽度、图像纹理特征等，来区分自然场景图像中文本和背景的方法，本申请实施例提供的确定文本候选区域序列的方法，可以更精确的确定自然场景图像中包括的文本行的位置。

本申请实施例中，通过自然场景图像的卷积特征，确定的文本候选区域序列中包括的不同文本候选区域的大小不同，为使得后续可根据时间递归网络模型对文本候选区域序列进行统一的处理，本申请实施例中通过roi-pooling，对文本候选区域序列进行归一化，将文本候选区域的卷积特征，转化为固定维度k的特征向量，将文本候选区域的卷积特征转化为固定维度k的特征向量之后，根据时间递归网络模型和固定维度k的特征向量，确定文本候选区域中包括的文本行的位置。

一种可能的设计中，所述时间递归网络模型包括N层长短期记忆(long short-term memory，LSTM)，其中，N设置为大于等于最大文本行数目的正整数，所述最大文本行数目为所述文本候选区域序列中包括的文本行数目最多的文本候选区域中的文本行数目。

基于包括N层LSTM的时间递归网络模型，所述根据时间递归网络模型和固定维度k的特征向量，确定所述文本候选区域中包括的文本行的位置，具体包括：将所述固定维度k的特征向量，作为所述N层LSTM的时间帧输入，逐次输入所述时间递归网络模型包括的LSTM，其中，首次仅将所述固定维度k的特征向量输入所述时间递归网络模型中的第一层LSTM，之后每一次将前一层LSTM输出的结果以及所述固定维度k的特征向量输入下一层LSTM，利用所述固定维度k的特征向量以及预先标定的文本位置，对所述时间递归网络模型进行训练，得到文本行候选框；对所述文本行候选框的上下、左右边缘进行回归、检测和连通，确定所述文本行候选框的倾斜角度；根据所述文本行候选框以及所述文本行候选框的倾斜角度，确定所述文本候选区域中包括的文本行的位置。

上述设计中，将固定维度k的特征向量，逐次输入时间递归网络模型包括的N层LSTM，除第一层LSTM之外，之后的每一层LSTM均输入前一层LSTM的检测结果，基于N层递归LSTM的网络设计，时间递归网络模型在确定当前文本行候选框时，可利用前一LSTM确定的文本行候选框的信息，使得当前文本候选框的确定更精确。进一步的，通过N层LSTM的时间递归网络模型确定所述文本行候选框的倾斜角度，可实现倾斜文本的检测。

一种可能的设计中，确定所述文本候选区域中包括的文本行的位置之后，还包括：

通过匹配算法，将确定出的所述文本候选区域中包括的文本行的位置与预先标定的文本位置进行匹配，确定与所述预先标定的文本位置匹配度最高的文本行；通过误差算法确定所述匹配度最高的文本行，与标定的文本位置之间的误差，并根据所述误差，更新所述FCN模型以及所述时间递归网络模型的网络参数。

上述设计中，通过匹配算法，确定与预先标定的文本位置匹配度最高的文本行，该过程同时保证针对同一文本行仅保留一个匹配度最高的文本行的位置，通过上述设计，使得在自然场景图像中检测的文本行更精确。

一种可能的设计中，所述N可以设置为5，当然还可以设置为其他值。

第二方面，本申请提供了一种在自然场景图像中检测文本的装置，该在自然场景图像中检测文本的装置具有实现上述第一方面方法的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。所述模块可以是软件和/或硬件。

第三方面，本申请提供了一种设备，所述设备可以包括存储器和处理器。其中，存储器用于存储程序，所述处理器用于执行所述存储器中的程序，从而执行第一方面或第一方面的任意可能的设计中涉及的在自然场景图像中检测文本的方法。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有一些指令，这些指令被计算机调用执行时，可以使得计算机完成上述第一方面、第一方面的任意一种可能的设计中所涉及的在自然场景图像中检测文本的方法。

第五方面，本申请提供一种计算机程序产品，该计算机程序产品在被计算机调用执行时可以完成第一方面以及上述第一方面任意可能的设计中所涉及的在自然场景图像中检测文本的方法。

附图说明

图1为本申请提供的在自然场景图像中检测文本的一种网络结构示意图；

图2为本申请提供的一种在自然场景图像中检测文本的方法流程图；

图3为本申请提供的一种确定自然场景图像中包括的文本候选区域序列的方法流程图；

图4为本申请提供的一种确定文本候选区域中包括的文本行的位置的方法流程图；

图5为本申请提供的在自然场景图像中检测文本的另一种网络结构示意图；

图6为本申请提供的一种文本行匹配示意图；

图7为本申请提供的一种在自然场景图像中检测文本的装置示意图；

图8为本申请提供的一种在自然场景图像中检测文本的设备。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例进行描述。

本申请实施例提供一种在自然场景图像中检测文本的方法及装置，用以解决现有技术中从不同复杂程度的自然场景图像中检测文本精度较低的问题。其中，方法和装置是基于同一发明构思的，由于方法和装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

本申请实施例提供的在自然场景图像中检测文本的方法及装置，可应用于在自然场景图像中检测文本的设备中，例如，计算机，平板电脑、智能手机、服务器等。

本申请实施例的应用领域包括但不限定于，在自然场景图像中检测文本的领域、在自然场景图像中检测类文本小物体领域、或是其它类型物体的检测领域。

图1示出了本申请实施例提供的在自然场景图像中检测文本的一种网络结构示意图，参阅图1所示，该网络结构包括FCN模型、时间递归网络模型以及roi-pooling，FCN模型获取自然场景图像，通过对获取到的自然场景图像进行处理，得到自然场景图像中的文本候选区域序列，通过roi-pooling对文本候选区域序列进行处理，得到固定维度的特征向量，根据时间递归网络模型和固定维度的特征向量，确定文本候选区域中包括的文本行的位置。

需要说明的是，本申请实施例在自然场景图像中检测文本的网络结构包括但不限定于图1所示的网络结构。

本申请实施例中，FCN模型可基于已有的卷积神经网络结构重新构造，本申请实施例中对构造FCN模型的卷积神经网络结构不做限定，例如，可通过深度残差网络(deepresidualnetworks，ResNet)中的ResNet-101网络结构构造FCN模型，具体的，将ResNet-101网络架构中的全连接层替换为反卷积层，卷积层和池化层则可根据实际应用选取合适的数目。其中，基于卷积神经网络结构重新构造的FCN模型由卷积层和池化层组成，不再包含全连接层，使得输入的图像可以为任意大小，且可保留低分辨率的空间位置信息，能够实现端到端的像素级别的预测。

图2所示为本申请实施例提供的一种在自然场景图像中检测文本的方法流程图，参阅图1所示，包括：

S101：获取自然场景图像。本申请实施例中，自然场景图像，是指由各种拍摄设备(例如，照相机、具有拍摄功能的手机等)，在没有特定限制的条件下，直接对生活中真实存在的场景拍摄的图像。

需要说明的是，获取自然场景图像的方式包括但不限于：通过传感设备采集自然场景图像、从预先存储有自然场景图像的数据库中获取等。所述传感设备包括但不限于：光纤传感设备、摄像设备、采集设备等。所述数据库包括但不限于：本地数据库、云端数据库、U盘、硬盘等。

S102：通过FCN模型，对自然场景图像进行卷积运算，得到自然场景图像的卷积特征。本申请实施例中，基于构造好的FCN模型，对获取到的自然场景图像进行卷积运算，获取自然场景图像的卷积层，通过FCN模型的反卷积层获取自然场景图像的最后一个卷积层的卷积特征，进而得到自然场景图像的卷积特征。

S103：根据自然场景图像的卷积特征，确定自然场景图像中包括的文本候选区域序列。其中，文本候选区域序列中的每一文本候选区域至少包括一个文本行，所述文本行为文本候选区域中包括的单行文本。

本申请实施例中，根据自然场景图像的卷积特征，在自然场景图像中确定的文本候选区域中包括至少一个文本行，而在自然场景图像中检测文本的最终目的是输出全部独立的文本行，本申请实施例为了精确确定所述文本候选区域中包括的至少一个文本行，针对文本候选区域序列中的每一文本候选区域，可以执行以下S104和S105的操作。

S104：通过roi-pooling，提取文本候选区域的卷积特征，并通过特征变换，将文本候选区域的卷积特征，转化为固定维度k的特征向量，k为正整数。本申请实施例中，以下出现的固定维度k的特征向量，均与此处的固定维度k的特征向量含义相同。

本申请实施例中，通过自然场景图像的卷积特征，确定的文本候选区域序列中包括的不同文本候选区域的大小不同，为使得后续可根据时间递归网络模型对文本候选区域序列进行统一的处理，本申请实施例中通过roi-pooling，对文本候选区域序列进行归一化，将文本候选区域的卷积特征，转化为固定维度k的特征向量。

S105：根据时间递归网络模型和固定维度k的特征向量，确定文本候选区域中包括的文本行的位置。

本申请实施例中基于FCN以及时间递归网络技术，通过设计FCN模型融合时间递归网络模型的网络结构，在自然场景图像中检测文本，利用FCN模型以及时间递归网络模型从大量的自然场景图像训练样本中学习有效的特征表达，训练出能够在自然场景图像中检测出文本行的融合网络，具体的，通过FCN模型粗略检测自然场景图像中的文本候选区域序列，针对文本候选区域序列中每一文本候选区域，通过时间递归网络模型确定文本候选区域中包括的文本行的位置，进而实现对自然场景图像中文本的精确检测。相比于现有技术中通过低级别的特征来区分自然场景图像中文本和背景的方法，基于FCN模型融合时间递归网络模型检测自然场景图像中文本的方法，不再依赖字符的笔画宽度、图像纹理等低级别的特征，来区分自然场景图像中的文本和背景，而是通过FCN模型以及时间递归网络模型的深度学习能力，充分利用自然场景图像中上下文信息以及文本的语义信息，可以实现精确的确定自然场景图像中包括的文本行的位置。

参阅图3所示，针对根据自然场景图像的卷积特征，确定自然场景图像中包括的文本候选区域序列的过程，进行具体描述：

S201：通过对自然场景图像的卷积特征进行合并，确定表征自然场景图像中文本位置的卷积特征。

本申请实施例中，通过FCN模型提取的自然场景图像的卷积特征可包括所述自然场景图像的多个维度(例如，可以是1024维度)的特征，为确定自然场景图像中文本候选区域序列，通过对自然场景图像的卷积特征进行合并，在自然场景图像中确定出表征自然场景图像中文本位置的卷积特征。

S202：使用表征自然场景图像中文本位置的卷积特征，对自然场景图像进行映射，并通过分类函数标注自然场景图像中的文本位置和自然场景图像中的非文本位置。本申请实施例中，对标注自然场景图像中的文本位置和自然场景图像中的非文本位置采用的分类函数不做限定，例如，可以是logistic函数、softmax函数等。

S203：将自然场景图像中被标注为文本位置的至少一个区域，确定为文本候选区域序列。

本申请实施例中，自然场景图像中可包括多个文本，故，在自然场景图像中确定的文本候选区域序列可包括多个文本候选区域，且每一文本候选区域中包括至少一个文本行，但在自然场景图像中检测文本的最终目的是输出文本区域包括的独立文本行，本申请实施例中通过FCN模型确定出自然场景图像中的文本候选区域序列之后，通过roi-pooling，提取文本候选区域的卷积特征，并通过特征变换，将文本候选区域的卷积特征，转化为固定维度k的特征向量，具体可参阅S104，将文本候选区域的卷积特征转化为固定维度k的特征向量之后，根据时间递归网络模型和固定维度k的特征向量，确定文本候选区域中包括的文本行的位置。

本申请实施例中，时间递归网络模型可包括N层LSTM，其中，N设置为大于等于最大文本行数目的正整数，该最大文本行数目为文本候选区域序列中包括的文本行数目最多的文本候选区域中的文本行数目。例如，若在自然场景图像中确定的文本候选区域数目为四，分别记为文本候选区域A、文本候选区域B、文本候选区域C和文本候选区域D，且通过统计这四个文本候选区域中文本行数目，确定文本候选区域A、文本候选区域B、文本候选区域C和文本候选区域D中包括的文本行数目分别为2，3，1，2，则将N设置为大于等于3的正整数。

本申请实施例后续以时间递归网络模型包括N层LSTM为例，对根据时间递归网络模型和固定维度k的特征向量，确定文本候选区域中包括的文本行的位置的过程，进行具体描述，参阅图4所示：

S301：将固定维度k的特征向量，作为N层LSTM的时间帧输入，逐次输入时间递归网络模型包括的LSTM。

其中，首次仅将固定维度k的特征向量输入时间递归网络模型中的第一层LSTM，之后每一次将前一层LSTM输出的结果以及固定维度k的特征向量输入下一层LSTM，利用固定维度k的特征向量以及预先标定的文本位置，对时间递归网络模型进行训练，得到文本行候选框。

本申请实施例中，将固定维度k的特征向量，逐次输入时间递归网络模型包括的N层LSTM，除第一层LSTM之外，之后的每一层LSTM均输入前一层LSTM的检测结果，通过N层LSTM网络模型的设计，时间递归网络模型在确定当前文本行候选框时，可利用前一个确定的文本行候选框的信息，使得当前文本候选框的确定更精确。

S302：对文本行候选框的上下、左右边缘进行回归、检测和连通，确定文本行候选框的倾斜角度。

本申请实施例中，通过时间递归网络模型对文本行候选框的上下、左右边缘进行回归、检测和连通，进而可确定文本行候选框的倾斜角度，使得本申请实施例提供的在自然场景图像中检测文本的方法可支持倾斜文本的检测，相比现有技术中采用矩形文本候选框确定倾斜文本的检测方法，本申请实施例提供的检测文本的方法，提升了倾斜文本的定位精度，且通过N层LSTM的时间递归网络模型确定所述文本行候选框的倾斜角度，可实现倾斜文本的检测。

S303：根据文本行候选框以及文本行候选框的倾斜角度，确定文本候选区域中包括的文本行的位置。

本申请实施例中，通过时间递归网络模型包括的N个LSTM逐个确定文本候选区域中单个文本行的位置，并结合FCN网络提取的文本候选区域的特征实现对文本行以及文本行的倾斜角度的精确检测。

实际测试中，在自然场景图像中确定的文本候选区域中包括的文本行数目通常不超过4，因此，在本申请实施例一种可能的设计中，将时间递归网络模型中包括的LSTM层数设置为5，即，将上述N设置为5，保证通过本申请实施例设计的时间递归网络模型，可确定出所有文本候选区域中的文本行位置，将时间递归网络模型中LSTM层数N设置为5的网络结构可参阅图5所示。

需要说明的是，若文本候选区域包括的文本行数目小于N，则通过前M(M为小于N的正整数)层LSTM确定出文本候选区域包括的所有文本行的位置之后，剩余的N减M层LSTM则输出为空值。

本申请实施例中，通过N层LSTM确定的文本行的位置不会按顺序输出，例如，若文本候选区域包括3行单行文本，则通过N层LSTM确定的文本行的位置输出的顺序可能为第二行文本位置、第一行文本位置、第三行文本位置，而实际期望输出的顺序为第一行文本位置、第二行文本位置、第三行文本位置；且，通过N层LSTM确定出的文本行位置可能存在误检测，例如，文本候选区域实际包括三行文本，而通过N层LSTM确定出四个文本行位置；由于上述问题，本申请实施例在确定文本候选区域中包括的文本行的位置之后，通过匹配算法，将确定出的文本候选区域中包括的文本行的位置与预先标定的文本位置进行匹配，确定与预先标定的文本位置匹配度最高的文本行，并通过误差算法确定匹配度最高的文本行，与标定的文本位置之间的误差，并根据该误差，更新整个融合网络的网络参数。

本申请实施例中，通过匹配算法，将确定出的文本候选区域中包括的文本行的位置与预先标定的文本位置进行匹配，确定与预先标定的文本位置匹配度最高的文本行，该确定与预先标定的文本位置匹配度最高的文本行的过程中，可以保证针对同一文本行仅保留一个匹配度最高的文本行的位置。具体的，上述匹配过程，可通过设置匹配分数表征文本候选区域中包括的文本行的位置与预先标定的文本位置的匹配度，匹配分数越高则表示文本候选区域中包括的文本行的位置与预先标定的文本位置匹配度越高，通过过滤掉匹配分数低于预先设置阈值的文本行的位置，得到与预先标定的文本位置匹配度最高的文本行。

本申请实施例下面以一个实例，对确定出的文本候选区域中包括的文本行的位置与预先标定的文本位置进行匹配的过程进行说明，参阅图6所示，假设当前检测的文本候选区域包括两个文本行，在图6中用实线框表示，当前通过N层LSTM确定出的文本候选区域中包括的文本行位置用虚线框表示，如图6中虚线框1、2、3以及4表示通过N层LSTM确定出的文本候选区域中包括的文本行位置，通过匹配算法，将图6中的虚线框1、2、3以及4与实线框进行匹配，确定与实线框匹配度最高的虚线框，图6中最终确定虚线框2和4与实线框匹配度最高，因此图6中可根据虚线框2和4对应的文本行位置确定自然场景图像中的文本行。

本申请实施例中，对将确定出的文本候选区域中包括的文本行的位置与预先标定的文本位置进行匹配的匹配算法不做限定，例如，可以是匈牙利算法(hungary-loss)，其中，匈牙利算法是一种用增广路径求二分图最大匹配的算法，可有效的确定与预先标定的文本位置匹配度最高的文本行位置。

本申请实施例中，通过确定匹配度最高的文本行与标定的文本位置之间的误差，调整整个融合网络的网络参数，以提高本申请实施例设计的FCN融合时间递归网络性能。

本申请实施例中，对确定匹配度最高的文本行与标定的文本位置之间的误差的误差算法不做限定，例如，可以是交叉熵误差算法。

基于与上述方法实施例相同构思，本申请实施例还提供了一种在自然场景图像中检测文本的装置。在采用集成单元的情况下，图7示出在自然场景图像中检测文本的装置的一种逻辑结构示意图，该装置可应用于在自然场景图像中检测文本的设备，参阅图7所示，在自然场景图像中检测文本的装置100包括获取单元101和处理单元102，其中，获取单元101，用于获取自然场景图像，获取单元101可以为装置本身具备的通信接口或收发器等，比如远程设备通过无线或有线方式将自然场景图像传输到装置的收发器或通信接口，当然还可以是装置本身具备的输入接口(例如键盘、USB接口、触摸屏等输入接口)，用户可以通过这些输入接口将自然现场图像输入到装置中。处理单元102，用于通过FCN模型，对所述获取单元101获取到的所述自然场景图像进行卷积运算，得到所述自然场景图像的卷积特征，根据所述自然场景图像的卷积特征，确定所述自然场景图像中包括的文本候选区域序列，针对所述文本候选区域序列中的每一文本候选区域，执行：通过感兴趣区域池化层roi-pooling，提取所述文本候选区域的卷积特征，并通过特征变换，将所述文本候选区域的卷积特征，转化为固定维度k的特征向量，k为正整数，根据时间递归网络模型和所述固定维度k的特征向量，确定所述文本候选区域中包括的文本行的位置。

其中，所述文本候选区域序列中的每一文本候选区域至少包括一个文本行，所述文本行为所述文本候选区域中包括的单行文本。

一种可能的设计中，所述处理单元102，可以具体通过对所述自然场景图像的卷积特征进行合并，确定表征所述自然场景图像中文本位置的卷积特征；使用表征所述自然场景图像中文本位置的卷积特征，对所述自然场景图像进行映射，并通过分类函数标注所述自然场景图像中的文本位置和所述自然场景图像中的非文本位置；将所述自然场景图像中被标注为文本位置的至少一个区域，确定为所述文本候选区域序列。

另一种可能的设计中，所述时间递归网络模型包括N层长短期记忆(long short-term memory，LSTM)，其中，N设置为大于等于最大文本行数目的正整数，所述最大文本行数目为所述文本候选区域序列中包括的文本行数目最多的文本候选区域中的文本行数目。所述处理单元102，可以具体通过将所述固定维度k的特征向量，作为所述N层LSTM的时间帧输入，逐次输入所述时间递归网络模型包括的LSTM，其中，首次仅将所述固定维度k的特征向量输入所述时间递归网络模型中的第一层LSTM，之后每一次将前一层LSTM输出的结果以及所述固定维度k的特征向量输入下一层LSTM，利用所述固定维度k的特征向量以及预先标定的文本位置，对所述时间递归网络模型进行训练，得到文本行候选框；对所述文本行候选框的上下、左右边缘进行回归、检测和连通，确定所述文本行候选框的倾斜角度；根据所述文本行候选框以及所述文本行候选框的倾斜角度，确定所述文本候选区域中包括的文本行的位置。

又一种可能的设计中，所述处理单元102，还可以在确定所述文本候选区域中包括的文本行的位置之后，通过匹配算法，将确定出的所述文本候选区域中包括的文本行的位置与预先标定的文本位置进行匹配，确定与所述预先标定的文本位置匹配度最高的文本行；通过误差算法确定所述匹配度最高的文本行，与标定的文本位置之间的误差，并根据所述误差，更新网络参数。

上述实施例中提及的N值可以但不限于设置为5。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

其中，集成的模块采用硬件的形式实现时，如图8所示，图8所示为本申请实施例提供的在自然场景图像中检测文本的设备1000的示意图。该设备1000可以用于执行图2至图4中涉及的方法。如图8所示，所述设备1000包括处理器1001和存储器1002。所述存储器1002存储有计算机程序、指令或代码。所述处理器1001可以调用并执行所述存储器1002中存储的程序、指令或代码，以实施上述实施方式中各步骤及功能，此处不再赘述。上述处理器1001的具体实施方式可以相应参考上述图6实施方式中的获取单元101以及处理单元102中的具体说明，这里不再赘述。

可以理解的是，图8仅仅示出了在自然场景图像中检测文本的设备的简化设计。在实际应用中，在自然场景图像中检测文本的设备并不限于上述结构，在实际应用中可以分别包含任意数量的接口，处理器和存储器等，而所有可以实现本申请实施例的在自然场景图像中检测文本的设备都在本申请实施例的保护范围之内。

进一步可以理解的是，本申请实施例涉及的在自然场景图像中检测文本的装置100和在自然场景图像中检测文本的设备1000，可用于实现本申请实施例上述方法实施例中的相应功能，故对于本申请实施例描述不够详尽的地方，可参阅相关方法实施例的描述，本申请实施例在此不再赘述。

进一步可以理解的是，在本申请实施例中涉及的处理器可以是中央处理单元(central processing unit，简称为“CPU”)，还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

总线***除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线***。

在实现过程中，上述方法实施例中涉及的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的在自然场景图像中检测文本的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法实施例涉及的步骤。为避免重复，这里不再详细描述。

基于与上述方法实施例相同构思，本申请实施例还提供了一种计算机可读存储介质，其上存储有一些指令，这些指令被计算机调用执行时，可以使得计算机完成上述方法实施例、方法实施例的任意一种可能的设计中所涉及的方法。

基于与上述方法实施例相同构思，本申请还提供一种计算机程序产品，该计算机程序产品在被计算机调用执行时可以完成方法实施例以及上述方法实施例任意可能的设计中所涉及的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种在自然场景图像中检测文本的方法，其特征在于，包括：

获取自然场景图像；

通过全卷积网络FCN模型，对所述自然场景图像进行卷积运算，得到所述自然场景图像的卷积特征；

根据所述自然场景图像的卷积特征，确定所述自然场景图像中包括的文本候选区域序列，其中，所述文本候选区域序列中的每一文本候选区域至少包括一个文本行，所述文本行为所述文本候选区域中包括的单行文本；

针对所述文本候选区域序列中的每一文本候选区域，执行：

通过感兴趣区域池化层roi-pooling，提取所述文本候选区域的卷积特征，并通过特征变换，将所述文本候选区域的卷积特征，转化为固定维度k的特征向量，k为正整数；

根据时间递归网络模型和所述固定维度k的特征向量，确定所述文本候选区域中包括的文本行的位置。

2.如权利要求1所述的方法，其特征在于，根据所述自然场景图像的卷积特征，确定所述自然场景图像中包括的文本候选区域序列，包括：

通过对所述自然场景图像的卷积特征进行合并，确定表征所述自然场景图像中文本位置的卷积特征；

使用表征所述自然场景图像中文本位置的卷积特征，对所述自然场景图像进行映射，并通过分类函数标注所述自然场景图像中的文本位置和所述自然场景图像中的非文本位置；

将所述自然场景图像中被标注为文本位置的至少一个区域，确定为所述文本候选区域序列。

3.如权利要求2所述的方法，其特征在于，所述时间递归网络模型包括N层长短期记忆LSTM，其中，N设置为大于等于最大文本行数目的正整数，所述最大文本行数目为所述文本候选区域序列中包括的文本行数目最多的文本候选区域中的文本行数目；

所述根据时间递归网络模型和固定维度k的特征向量，确定所述文本候选区域中包括的文本行的位置，包括：

将所述固定维度k的特征向量，作为所述N层LSTM的时间帧输入，逐次输入所述时间递归网络模型包括的LSTM，其中，首次仅将所述固定维度k的特征向量输入所述时间递归网络模型中的第一层LSTM，之后每一次将前一层LSTM输出的结果以及所述固定维度k的特征向量输入下一层LSTM，利用所述固定维度k的特征向量以及预先标定的文本位置，对所述时间递归网络模型进行训练，得到文本行候选框；

对所述文本行候选框的上下、左右边缘进行回归、检测和连通，确定所述文本行候选框的倾斜角度；

根据所述文本行候选框以及所述文本行候选框的倾斜角度，确定所述文本候选区域中包括的文本行的位置。

4.如权利要求3所述的方法，其特征在于，确定所述文本候选区域中包括的文本行的位置之后，所述方法还包括：

通过匹配算法，将确定出的所述文本候选区域中包括的文本行的位置与预先标定的文本位置进行匹配，确定与所述预先标定的文本位置匹配度最高的文本行；

通过误差算法确定所述匹配度最高的文本行，与标定的文本位置之间的误差，并根据所述误差，更新网络参数。

5.如权利要求3或4所述的方法，其特征在于，所述N设置为5。

6.一种在自然场景图像中检测文本的装置，其特征在于，包括：

获取单元，用于获取自然场景图像；

处理单元，用于通过全卷积网络FCN模型，对所述自然场景图像进行卷积运算，得到所述自然场景图像的卷积特征，根据所述自然场景图像的卷积特征，确定所述自然场景图像中包括的文本候选区域序列，其中，所述文本候选区域序列中的每一文本候选区域至少包括一个文本行，所述文本行为所述文本候选区域中包括的单行文本，针对所述文本候选区域序列中的每一文本候选区域，执行：通过感兴趣区域池化层roi-pooling，提取所述文本候选区域的卷积特征，并通过特征变换，将所述文本候选区域的卷积特征，转化为固定维度k的特征向量，k为正整数，根据时间递归网络模型和所述固定维度k的特征向量，确定所述文本候选区域中包括的文本行的位置。

7.如权利要求6所述的装置，其特征在于，所述处理单元在根据所述自然场景图像的卷积特征，确定所述自然场景图像中包括的文本候选区域序列时，具体用于：

8.如权利要求7所述的装置，其特征在于，所述时间递归网络模型包括N层长短期记忆LSTM，其中，N设置为大于等于最大文本行数目的正整数，所述最大文本行数目为所述文本候选区域序列中包括的文本行数目最多的文本候选区域中的文本行数目；

所述处理单元根据时间递归网络模型和固定维度k的特征向量，确定所述文本候选区域中包括的文本行的位置时，具体用于：

9.如权利要求8所述的装置，其特征在于，所述处理单元，还用于：

在确定所述文本候选区域中包括的文本行的位置之后，通过匹配算法，将确定出的所述文本候选区域中包括的文本行的位置与预先标定的文本位置进行匹配，确定与所述预先标定的文本位置匹配度最高的文本行；

10.如权利要求8或9所述的装置，其特征在于，所述N设置为5。

11.一种设备，其特征在于，包括权利要求6至10任一项所述的在自然场景图像中检测文本的装置。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-5任一所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品在被计算机调用时，使得计算机执行如权利要求1-5任一所述的方法。