CN111695377B

CN111695377B - 一种文本检测方法、装置和计算机设备

Info

Publication number: CN111695377B
Application number: CN201910188639.XA
Authority: CN
Inventors: 王杰; 李明键; 钮毅
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2023-09-29
Anticipated expiration: 2039-03-13
Also published as: CN111695377A

Abstract

本申请提供一种文本检测方法、装置和计算机设备。本申请提供的文本检测方法，包括：从包含文本的待检测图像中获取指定信息，将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息，依据所述空间信息对所述候选文本区域进行校正，得到所述待检测图像中的终选文本区域。其中，所述指定信息包括从所述待检测图像中定位出的候选文本区域的特征向量，所述关注目标包括所述图像中的文本、所述图像中与所述文本存在空间关系的指定目标和所述图像的属性信息中的至少一项。本申请提供的文本检测方法、装置和计算机设备，可准确地定位待检测图像中的文本区域。

Description

一种文本检测方法、装置和计算机设备

技术领域

本申请涉及图像检测领域，尤其涉及一种文本检测方法、装置和计算机设备。

背景技术

随着图像采集设备的广泛使用，基于图像内容的图像检测技术受到了越来越多的重视。在图像所包含的内容中，文本信息由于更容易被理解，因而文字识别技术受到了极大的关注。

文本识别技术主要包括文本检测和文字识别。其中，文本检测指从待检测图像中定位文本区域；文字识别指对文本区域进行识别，输出文本信息。相关技术公开的文本检测方法，通过建立大量锚点，进而通过相关算法筛选出与文本接近的锚点，并回归出两者之间的偏移量，进而得到文本区域。上述方法仅通过固定的感受野进行文本检测，准确性较低。

发明内容

有鉴于此，本申请提供一种文本检测方法、装置和计算机设备，以提供一种准确率较高的文本检测方法。

本申请第一方面提供一种文本检测方法，包括：

从包含文本的待检测图像中获取指定信息；所述指定信息包括从所述待检测图像中定位出的候选文本区域的特征向量；

将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息；其中，所述关注目标包括所述图像中的文本、所述图像中与所述文本存在空间关系的指定目标和所述图像的属性信息中的至少一项；

依据所述空间信息对所述候选文本区域进行校正，得到所述待检测图像中的终选文本区域。

本申请第二方面提供一种文本检测装置，所述装置包括元素生成模块、空间关系建模模块和文本检测模块，其中，

所述元素生成模块，用于从包含文本的待检测图像中获取指定信息；所述指定信息包括从所述待检测图像中定位出的候选文本区域的特征向量；

所述空间关系建模模块，用于将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息；其中，所述关注目标包括所述图像中的文本、所述图像中与所述文本存在空间关系的指定目标和所述图像的属性信息中的至少一项；

所述文本检测模块，用于依据所述空间信息对所述候选文本区域进行校正，得到所述待检测图像中的终选文本区域。

本申请第三方面提供一种计算机存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本申请第一方面提供的任一项所述方法的步骤。

本申请第四方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请第一方面提供的任一项所述方法的步骤。

本申请提供的文本检测方法、装置和计算机设备，通过从包含文本的待检测图像中获取指定信息，将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息，依据所述空间信息对所述候选文本区域进行校正，得到所述待检测图像中的终选文本区域。其中，所述指定信息包括从所述待检测图像中定位出的候选文本区域的特征向量，所述关注目标包括所述图像中的文本、所述图像中与所述文本存在空间关系的指定目标和所述图像的属性信息中的至少一项。这样，充分考虑了文本与目标之间的空间关系，充分利用空间信息定位终选文本区域，可避免漏检、误检，可提高文本检测的准确性。

附图说明

图1为本申请提供的文本检测方法实施例一的流程图；

图2为本申请提供的文本检测方法实施例二的流程图；

图3为本申请提供的文本检测方法实施例三的流程图；

图4为本申请提供的文本检测方法实施例四的流程图；

图5为本申请一示例性实施例示出的文本检测装置所在计算机设备的硬件结构图；

图6为本申请提供的文本检测装置实施例一的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请提供一种文本检测方法、装置和计算机设备，以提供一种准确率较高的文本检测方法。

下面给出几个具体的实施例，用以详细介绍本申请的技术方案。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图1为本申请提供的文本检测方法实施例一的流程图。请参照图1，本实施例提供的方法，可以包括：

S101、从包含文本的待检测图像中获取指定信息，上述指定信息包括从上述待检测图像中定位出的候选文本区域的特征向量。

具体的，该步骤的具体实现过程，可以包括：

(1)对待检测图像进行特征提取，得到特征图；

(2)从上述特征图中获取指定信息。

具体的，可以采用传统的方法对待检测图像进行特征提取。例如，采用尺度不变特征转换SIFI算法(Scale-invariant Feature Transform，简称SIFT)对待检测图像进行特征提取。当然，也可利用神经网络对待检测图像进行特征提取，例如，一实施例中，该步骤的具体实现过程，可以包括：

将上述待检测图像输入到用于进行特征提取的神经网络，由该神经网络中的指定层对上述待检测图像进行特征提取；所述指定层包括卷积层，或者是，所述指定层包括卷积层，以及池化层和全连接层中的至少一个；将所述指定层的输出结果确定为所述特征图。

具体的，该用于进行特征提取的神经网络可以包括卷积层，该卷积层用于对输入的待检测图像进行滤波处理。进一步地，此时，该卷积层输出的滤波处理结果即为提取到特征图。此外，该用于进行特征提取的神经网络还可以包括池化层和/或全连接层。例如，一实施例中，该用于进行特征提取的神经网络包括卷积层、池化层和全连接层，其中，卷积层，用于对输入的待检测图像进行滤波处理；池化层，用于对滤波处理结果进行压缩处理；全连接层，用于对压缩处理结果进行聚合处理。进一步地，此时，该全连接层输出的聚合处理结果即为提取到的特征图。

进一步地，一实施例中，指定信息包括从待检测图像中定位出的候选文本的特征向量；另一实施例中，指定信息包括从待检测图像中定位出的候选文本的特征向量，以及从待检测图像中定位出的与上述候选文本区域存在空间关系的指定目标的特征向量和上述待检测图像的属性信息中的至少一项。下面以指定信息包括从待检测图像中定位出的候选文本的特征向量、从待检测图像中定位出的与上述候选文本区域存在空间关系的指定目标的特征向量和上述待检测图像的属性信息为例说明。

需要说明的是，指定目标可以是隐变量，也可以是与任务相关的自定义目标。比如车牌所在的车，如果没有车的标定，则可设定隐变量；如果有车的标定，则可认为是自定义指定目标，可以用来帮助车牌的检测。

此外，待检测图像的属性信息可以包括待检测图像的形变属性、颜色属性、字体属性、纹理属性和透视属性等。本实施例中，不对此进行限定。下面以待检测图像的属性信息包括待检测图像的形变属性为例进行说明。需要说明的是，当待检测图像的属性信息为待检测图像的形变属性时，该形变属性可以用该待检测图像中每个像素点的旋转角度θ表征。

具体的，一实施例中，从特征图中获取候选文本区域的特征向量的过程，可以包括：

(1)将上述特征图输入到用于进行信息提取的神经网络，由该神经网络中的第一卷积层对该特征图进行卷积处理，得到卷积处理结果，并由该神经网络的softmax层对上述卷积处理结果进行处理，输出上述待检测图像中各个像素点属于文本的概率；以及由该神经网络中的第二卷积层对该特征图进行卷积处理，输出上述待检测图像中各个像素点距离文本的偏差。

例如，一实施例中，待检测图像的大小为9*9，得到的特征图的维度为9*9*256，用于进行信息提取的神经网络的第一卷积层的维度为1*1*2，这样，第一卷积层输出的卷积处理结果的维度为9*9*2。进一步地，softmax层对上述卷积处理结果进行处理后，输出的处理结果的维度为9*9*1，分别表征待检测图像中各个像素点属于文本的概率。再例如，本实施例中，该用于进行信息提取的神经网络中的第二卷积层的维度为1*1*8，这样，该第二卷积层对上述特征图进行卷积处理后，输出的卷积处理结果的维度为9*9*8，表征待检测图像中的每个像素点距离文本的偏差。本例中，一个像素点距离文本的偏差用该像素点距离文本的四个角点的偏差表征(对应于卷积处理结果的8个通道)。

(2)依据上述待检测图像中各个像素点属于文本的概率和上述待检测图像中各个像素点距离文本的偏差，定位所述待检测图像中的候选文本区域，得到所述候选文本区域的特征向量。

具体的，基于待检测图像中各个像素点属于文本的概率和上述待检测图像中各个像素点距离文本的偏差，便可以定位待检测图像中的候选文本区域，进而得到上述候选文本区域的特征向量。进一步地，候选文本区域的特征向量包括候选文本区域的中心点的坐标、宽高值、角度、上述特征图中该候选文本区域对应的特征向量和该候选文本区域的置信度(其中，该候选文本区域的置信度可以等于待检测图像中位于该候选文本区域内的各个目标像素点属于文本的概率的平均值)。需要说明的是，有关依据上述待检测图像中各个像素点属于文本的概率和上述待检测图像中各个像素点距离文本的偏差，定位待检测图像中的候选文本区域，得到候选文本区域的特征向量的具体实现原理和实现过程可以参见相关技术中的描述，此处不再赘述。

此外，另一实施例中，从特征图中获取与上述候选文本区域存在空间关系的指定目标的特征向量的过程，可以包括：

(1)将上述特征图输入到用于进行信息提取的神经网络，由该神经网络中的第一卷积层对该特征图进行卷积处理，得到卷积处理结果，并由该神经网络的softmax层对上述卷积处理结果进行处理，输出上述待检测图像中各个像素点属于上述指定目标的概率；以及由该神经网络中的第二卷积层对该特征图进行卷积处理，输出上述待检测图像中各个像素点距离上述指定目标的偏差。

(2)依据上述待检测图像中各个像素点属于上述指定目标的概率和上述待检测图像中各个像素点距离上述指定目标的偏差，定位待检测图像中的指定目标，得到上述指定目标的特征向量。

具体的，有关获取指定目标的特征向量的具体实现过程和实现原理与获取候选文本区域的特征向量的具体实现过程和实现原理类似，此处不再赘述。

进一步地，再一实施例中，当待检测图像的属性信息为待检测图像的形变信息，且该形变信息用待检测图像中每个像素点的旋转角θ表征时，从特征图中提取上述待检测图像的属性信息的过程，可以包括：

(1)将上述特征图输入到用于进行信息提取的神经网络，由该神经网络中的卷积层对该特征图进行卷积处理，得到卷积处理结果，并由该神经网络中的softmax层对上述卷积处理结果进行归一化处理后，得到归一化处理结果，以及由所述神经网络的bias层将上述归一化处理结果转换为上述待检测图像中每个像素点的旋转角θ。

具体的，例如，待检测图像的大小为9*9，得到的特征图的维度为9*9*256，用于进行信息提取的神经网络的卷积层的维度为1*1*2，这样，经过卷积处理后，得到的卷积处理结果的维度为9*9*2。此外，softmax层对上述卷积处理结果进行归一化处理后，得到的归一化处理结果的维度为9*9*1。进一步的，bias层将上述归一化处理结果转换后，得到的转换结果的维度为9*9*1，分别表征上述待检测图像中每个像素点的旋转角θ。

需要说明的是，有关其他属性信息的获取过程与上述过程类似，此处不再赘述。

S102、将上述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由上述目标神经网络输出空间信息；其中，上述关注目标包括所述图像中的文本、上述图像中与所述文本存在空间关系的指定目标和上述图像的属性信息中的至少一项。

S103、依据上述空间信息对上述候选文本区域进行校正，得到上述待检测图像中的终选文本区域。

具体的，可利用上述指定信息，采用目标神经网络，得到空间信息。

例如，一实施例中，当指定信息包括候选文本区域的特征向量时，步骤S102的具体实现过程，可以包括：

(1)将所述指定信息输入到上述目标神经网络中的第一神经网络，由所述第一神经网络对所述指定信息处理，得到所述候选文本区域的置信度和所述待检测图像中的文本疑似区域的位置概率图。

具体的，第一神经网络用于构建文本与文本之间的空间关系，该神经网络的输入为候选文本区域的特征向量，输出为候选文本区域的置信度和待检测图像中的文本疑似区域的位置概率图。例如，一实施例中，输入为候选文本区域1的特征向量和候选文本区域2的特征向量，输出为文本疑似区域3的位置概率图。需要说明的是，文本疑似区域3的位置概率图是指在当前候选文本区域都存在的情况下，下一个可能出现文本的位置概率分布，其包括待检测图像中的各个像素点为文本疑似区域的概率以及各个像素点距离文本疑似区域的偏差。

具体的，经过步骤S101后，可提取到至少一个候选文本区域的特征向量。例如，一实施例中，提取到候选文本区域1的特征向量和候选文本区域2的特征向量。本步骤中，就将候选文本区域1的特征向量和候选文本区域2的特征向量输入到第一神经网络，进而由第一神经网络的concat层对其进行融合处理，得到融合后的指定信息，并由所述第一神经网络的全连接层对所述融合后的指定信息进行加权处理，得到所述候选文本区域的置信度和所述待检测图像中的文本疑似区域的位置概率图。

需要说明的是，有关融合处理和加权处理的具体实现原理和实现过程可以参见相关技术中的描述，此处不再赘述。

结合前面的例子，例如，一实施例中，待检测图像的大小为9*9，候选文本区域1的特征向量的维度为n，候选文本区域2的特征向量的维度为n，经过融合处理后，融合后的指定信息的维度为2n，第一神经网络的全连接层的全连接系数(预先学习到的网络参数)的维度为2n*(1+1+9*9*9)，此时，经过加权处理后，加权处理结果的维度为1+1+9*9*9，其中，前两维表征候选文本区域1和候选文本区域2的置信度，第3维至第11维表征待检测图像中的各个像素点为文本疑似区域的概率，最后8*9*9维表征待检测图像中的各个像素点距离文本疑似区域的偏差(每个像素点距离文本疑似区域的偏差用该像素点距离文本疑似区域四个角点的偏差表征，即每个点距离文本疑似区域的偏差有8维)。需要说明的是，待检测图像中的各个像素点为文本疑似区域的概率以及各个像素点距离文本疑似区域的偏差组合在一起即为待检测图像中的文本疑似区域的位置概率图。

(2)将所述候选文本区域的置信度和所述位置概率图确定为所述空间信息。

进一步地，本实施例中，当经过步骤S102得到空间信息后，在步骤S103中，可依据下述方法确定终选文本区域，该方法包括：

(1)依据所述位置概率图，确定第一备选文本区域和所述第一备选文本区域的置信度。

具体的，该步骤的具体实现过程可以包括：在位置概率图中，搜索概率(参见前面的介绍，该概率指的是待检测图像中的每个像素点属于文本的概率)大于第一预设阈值的第一目标像素点，进而在第一目标像素点的指定领域内搜索概率大于第二预设阈值的第二目标像素点，并将第二目标像素点确定为用于构建第一备选文本区域的像素点，进而依据位置概率图中该第二目标像素点距离文本的偏差确定基于该第二目标像素点构建的第一备选文本区域(有关该步骤的具体实现过程可以参见相关技术中的描述，此处不再赘述)。

进一步地，一实施例中，可将第一备选文本区域内的各个像素点属于文本的概率的平均值确定为该第一备选文本区域的置信度。

需要说明的是，第一预设阈值大于第二预设阈值，且第一预设阈值和第二预设阈值的具体值是根据实际需要设定的，本实施例中，不对其具体值进行限定。例如，一实施例中，第一预设阈值为0.7，第二预设阈值为0.5。

(2)判断所述位置概率图中所述候选文本区域对应的概率是否小于预设阈值。

具体的，依据候选文本区域的特征向量，即可知该候选文本区域的位置坐标，进而获知该候选文本区域在位置概率图中的位置，从而得到位置概率图中该候选文本区域对应的概率。例如，一实施例中，将位置概率图中处于候选文本区域内的所有像素点属于文本的概率的平均值确定为该候选文本区域对应的概率。

需要说明的是，预设阈值是根据实际需要设定的，本实施例中，不对其进行限定。例如，一实施例中，预设阈值可以为0.3。

(3)若是，将所述候选文本区域删除，并依据所述第一备选文本区域的置信度，对所述第一备选文本区域进行非极大值抑制处理，得到所述终选文本区域；

(4)若否，将所述候选文本区域确定为第二备选文本区域，并依据所述第一备选文本区域的置信度和第二备选文本区域的置信度，对所述第一备选文本区域和所述第二备选文本区域进行非极大值抑制处理，得到所述终选文本区域。

具体的，有关非极大值抑制处理的具体实现原理和实现步骤可以参见相关技术中的描述，此处不再赘述。

本实施例提供的方法，通过从包含文本的待检测图像中获取指定信息，将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息，依据所述空间信息对所述候选文本区域进行校正，得到所述待检测图像中的终选文本区域。其中，所述指定信息包括从所述待检测图像中定位出的候选文本区域的特征向量，所述关注目标包括所述图像中的文本、所述图像中与所述文本存在空间关系的指定目标和所述图像的属性信息中的至少一项。这样，充分考虑了文本与目标之间的空间关系，充分利用空间信息定位终选文本区域，可提高准确性。

下面给出几个更具体的实施例，用以详细介绍本申请提供的技术方案。

图2为本申请提供的文本检测方法实施例二的流程图。本实施例提供的方法，上述指定信息还包括从所述待检测图像中定位出的与上述候选文本区域存在空间关系的指定目标的特征向量，步骤S102，可以包括：

S201、将上述指定信息输入到上述目标神经网络中的第二神经网络，由上述第二神经网络对上述指定信息进行处理，输出上述候选文本区域的置信度和上述待检测图像中的文本疑似区域的位置概率图。

具体的，有关提取指定目标的特征向量的具体实现方法和实现原理可以参见前面实施例中的描述，此处不再赘述。

此外，第二神经网络用于构建文本与指定目标之间的空间关系，该神经网络的输入可以为候选文本区域的特征向量和指定目标的特征向量，输出为候选文本区域的置信度和待检测图像中的文本疑似区域的位置概率图。例如，一实施例中，输入为候选文本区域1的特征向量和指定目标的特征向量，输出为候选文本区域1的置信度和文本疑似区域2的位置概率图。

进一步地，第二神经网络对指定信息进行处理的过程，可以包括：对所述指定信息进行融合处理，得到融合后的指定信息，并对所述融合后的指定信息进行加权处理。例如，一实施例中，第二神经网络可以包括concat层和全连接层，其中，concat层，用于对上述指定信息进行融合处理，得到融合后的指定信息，全连接层，用于对融合后的指定信息进行加权处理。

需要说明的是，通过该第二神经网络，可探索被漏检的文本区域，防止丢失文本目标，并筛除误检文本，可提高文本检测的准确性。例如，车牌一般是在车身上，店名一般在门铺范围内等，这样，通过训练学习指定目标与文本之间的位置关系，可以筛除与指定目标不满足一定位置关系的误检文本。

S202、将上述候选文本区域的置信度和上述位置概率图确定为上述空间信息。

具体的，本实施例中，当得到空间信息后，在步骤S103中，可依据上述实施例介绍的方法确定终选文本区域，此处不再赘述。

本实施例提供的方法，通过第二神经网络，可构建文本与指定目标之间的空间关系，得到空间信息。这样，基于得到的空间信息确定终选文本区域，可探索被漏检的文本区域，防止丢失文本目标，并筛除误检区域，可提高文本检测的准确性。

图3为本申请提供的文本检测方法实施例三的流程图。请参照图3，本实施例提供的方法，所述指定信息还包括所述待检测图像的属性信息。步骤S102，可以包括：

S301、将上述指定信息输入到上述目标神经网络中的第三神经网络，由上述第三神经网络对上述指定信息进行处理，输出上述候选文本区域修正后的位置坐标。

具体的，第三神经网络用于构建文本与待检测图像的属性信息之间的空间关系，该第三神经网络的输入可以为候选文本区域的特征向量和待检测图像的属性信息，输出为候选文本区域修正后的位置坐标。例如，一实施例中，输入为候选文本区域1的特征向量和待检测图像中的每个像素点的旋转角度θ，输出为候选文本区域1修正后的位置坐标。

需要说明的是，第三神经网络对指定信息进行处理的过程，可以包括：该神经网络对所述指定信息进行融合处理，得到融合后的指定信息，并对所述融合后的指定信息进行加权处理。例如，一实施例中，第三神经网络可以包括concat层和全连接层，其中，concat层，用于对上述指定信息进行融合处理，得到融合后的指定信息，全连接层，用于对融合后的指定信息进行加权处理。

例如，一实施例中，候选文本区域1的特征向量的维度为n，待检测图像的属性信息的维度为1，此时，融合后的指定信息的维度为n+1。进一步地，第三神经网络的全连接层的全连接系数的维度为(n+1)*8，这样，加权处理后，得到的加权处理结果的维度为8，表征候选文本区域1修正后的位置坐标(该位置坐标用候选文本区域四个角点的坐标表征，因此为8维)。需要说明的是，有关融合处理和加权处理的具体实现过程和实现原理可以参见相关技术中的描述，此处不再赘述。

S302、将上述候选文本区域修正后的位置坐标确定为上述空间信息。

相应的，本实施例中，当空间信息为候选文本区域修正后的位置坐标时，步骤S103中，可基于候选文本区域修正后的位置坐标精调候选文本区域的位置，得到终选文本区域。例如，一实施例中，可直接基于候选文本区域修正后的位置坐标确定终选文本区域。再例如，另一实施例中，也可以基于候选文本区域修正后的位置坐标和步骤S101中的确定的候选文本区域的初始位置坐标(可基于待检测图像中各个像素点属于文本的概率和待检测图像中各个像素点距离文本的偏差确定候选文本区域的初始位置坐标)来确定终选文本区域。例如，一实施例中，基于修正后的位置坐标和初始位置坐标的平均值确定终选文本区域。

本实施例提供的方法，通过构建文本与待检测图像的属性信息的空间关系，得到空间信息，进而依据空间信息确定终选文本区域，这样，可实现文本区域位置精调，提高文本检测的准确率。

图4为本申请提供的文本检测方法实施例四的流程图。请参照图4，本实施例提供的方法，所述指定信息还包括从所述待检测图像中定位出的与上述候选文本区域存在空间关系的指定目标的特征向量和所述待检测图像的属性信息；步骤S102，包括：

S401、将上述指定信息输入到上述目标神经网络中的第四神经网络，由上述第四神经网络对上述指定信息进行处理，输出上述候选文本区域的置信度、上述候选文本区域修正后的位置坐标和上述待检测图像中的文本疑似区域的位置概率图。

有关指定目标的特征向量和待检测图像的属性信息的获取方法可以参见前面实施例中的描述，此处不再赘述。

具体的，第四神经网络用于构建文本、指定目标和待检测图像的属性信息之间的空间关系，该第四神经网络的输入可以为候选文本区域的特征向量、指定目标的特征向量和待检测图像的属性信息，输出为候选文本区域的置信度、候选文本区域修正后的位置坐标和待检测图像中的文本疑似区域的位置概率图，例如，一实施例中，输入为候选文本区域1的特征向量、候选文本区域2的特征向量、指定目标的特征向量和待检测图像中的每个像素点的旋转角θ，输出为候选文本区域1的置信度和修正后的位置坐标、候选文本区域2的置信度和修正后的位置坐标、以及文本疑似区域3的位置概率图。

需要说明的是，一实施例中，第四神经网络可以包括concat层和全连接层，其中，concat层，用于对上述指定信息进行融合处理，得到融合后的指定信息，全连接层，用于对融合后的指定信息进行加权处理，输出所述候选文本区域的置信度、所述候选文本区域修正后的位置坐标和所述待检测图像中的文本疑似区域的位置概率图。

结合上面的例子，例如，一实施例中，待检测图像的大小为9*9，候选文本区域1的特征向量的维度为n，候选文本区域2的特征向量的维度为n，指定目标的特征向量的维度为n，待检测图像的属性信息的维度为1，融合后的指定信息的维度为3n+1。本例中，全连接层的全连接系数的维度为9+9+9*9*9，加权处理后，加权处理结果的维度为9+9+9*9*9，其中，前9维表征候选文本区域1的置信度和修正后的位置坐标(8维)，中间9维表征候选文本区域2的置信度和修正后的位置坐标，最后9*9*9维表征待检测图像中文本疑似区域的位置概率图，即表征待检测图像中的每个像素点属于文本的概率以及每个像素点距离文本的偏差。

S402、将上述候选文本区域的置信度、上述候选文本区域修正后的位置坐标和上述位置概率图确定为上述空间信息。

具体的，本实施中，空间信息包括将所述候选文本区域的置信度、所述候选文本区域修正后的位置坐标和所述待检测图像中的文本疑似区域的位置概率图，步骤S103中，可基于与实施例一相同的方法确定终选文本区域，与实施例一唯一的区别在于：在判断所述位置概率图中所述候选文本区域对应的概率是否小于预设阈值时，此时，可依据候选文本区域修正后的位置坐标，得到候选文本区域在位置概率图中的位置，进而得到位置概率图中该候选文本区域对应的概率。或者是，在判断所述位置概率图中所述候选文本区域对应的概率是否小于预设阈值时，此时，可基于候选文本区域修正后的位置坐标和初始位置坐标(初始位置坐标参见前面的介绍)对候选文本区域进行精调，得到调整后的位置坐标(例如，一实施例中，调整后的位置坐标等于修正后的位置坐标和初始位置坐标的平均值)，进而基于调整后的位置坐标，确定候选文本区域在位置概率图中的位置，进而得到位置概率图中该候选文本区域对应的概率。此外，在进行非极大值抑制处理时，也依据候选文本区域调整后的位置坐标进行。

本实施例提供的方法，通过第四神经网络，可构建文本、指定目标和待检测图像的属性信息之间的空间关系，得到空间信息。这样，基于得到的空间信息确定终选文本区域，不仅可探索被漏检的文本区域，防止丢失文本目标，还可以对文本区域进行位置精调，可提高文本检测的准确性。

具体的，所述目标神经网络通过以下方法预先建立：

获取训练样本集；所述训练样本集包含多张图片；

建立用于构建图像中的文本与指定目标之间的空间关系的备用神经网络；所述备用神经网络的输入为所述指定信息，输出为所述空间信息；

采用所述训练样本集训练所述备用神经网络，得到所述目标神经网络。

与前述文本检测方法的实施例相对应，本申请还提供了文本检测装置的实施例。

本申请文本检测装置的实施例可以应用在计算机设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在计算机设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本申请一示例性实施例示出的文本检测装置所在计算机设备的硬件结构图，除了图5所示的存储器510、处理器520、内存530和网络接口540之外，实施例中装置所在的计算机设备通常根据该文本检测装置的实际功能，还可以包括其他硬件，对此不再赘述。

图6为本申请提供的文本检测装置实施例一的结构示意图。请参照图6，本申请提供的文本检测装置，可以包括元素生成模块610、空间关系建模模块620和文本检测模块630，其中，

所述提取模块610，用于从包含文本的待检测图像中获取指定信息；所述指定信息包括从上述待检测图像中定位出的候选文本区域的特征向量；

所述空间关系建模模块620，用于将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息；其中，所述关注目标包括所述图像中的文本、所述图像中与所述文本存在空间关系的指定目标和所述图像的属性信息中的至少一项；

所述文本检测模块630，用于依据所述空间信息对所述候选文本区域进行校正，得到所述待检测图像中的终选文本区域。

本实施例的装置，可用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

进一步地，所述空间关系建模模块620，具体用于将所述指定信息输入到所述目标神经网络中的第一神经网络，由所述第一神经网络对所述指定信息进行处理，输出所述候选文本区域的置信度和所述待检测图像中的文本疑似区域的位置概率图，并将所述候选文本区域的置信度和所述位置概率图确定为所述空间信息。

进一步地，所述指定信息还包括从所述待检测图像中定位出的与所述候选文本区域存在空间关系的指定目标的特征向量；所述空间关系建模模块620，具体用于将所述指定信息输入到所述目标神经网络中的第二神经网络，由所述第二神经网络的对所述指定信息进行处理，输出所述候选文本区域的置信度和所述待检测图像中的文本疑似区域的位置概率图，并将所述候选文本区域的置信度和所述位置概率图确定为所述空间信息。

进一步地，所述指定信息还包括所述待检测图像的属性信息；所述空间关系建模模块620，具体用于将所述指定信息输入到所述目标神经网络中的第三神经网络，由所述第三神经网络的对所述指定信息处理，输出所述候选文本区域修正后的位置坐标，并将所述候选文本区域修正后的位置坐标确定为所述空间信息。

进一步地，所述指定信息还包括从所述待检测图像中定位出的与所述候选文本区域存在空间关系的指定目标的特征向量和所述待检测图像的属性信息；所述空间关系建模模块620，具体用于将所述指定信息输入到所述目标神经网络中的第四神经网络，由所述第四神经网络对所述指定信息进行处理，输出所述候选文本区域的置信度、所述候选文本区域修正后的位置坐标和所述待检测图像中的文本疑似区域的位置概率图，并将所述候选文本区域的置信度、所述候选文本区域修正后的位置坐标和所述位置概率图确定为所述空间信息。

进一步地，对所述指定信息进行处理，包括：

对所述指定信息进行融合处理，得到融合后的指定信息，并对所述融合后的指定信息进行加权处理。

进一步地，所述文本检测模块630，具体用于：

依据所述位置概率图，确定第一备选文本区域和所述第一备选文本区域的置信度；

判断所述位置概率图中所述候选文本区域对应的概率是否小于预设阈值；

若是，将所述候选文本区域删除，并依据所述第一备选文本区域的置信度，对所述第一备选文本区域进行非极大值抑制处理，得到所述终选文本区域；

若否，将所述候选文本区域确定为第二备选文本区域，并依据所述第一备选文本区域的置信度和所述第二备选文本区域的置信度，对所述第一备选文本区域和所述第二备选文本区域进行非极大值抑制处理，得到所述终选文本区域。

进一步地，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本申请第一方面提供的任一项所述方法的步骤。

具体的，适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。

请继续参照图5，本申请还提供一种计算机设备，包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序，所述处理器520执行所述程序时本申请第一方面提供的任一项所述方法的步骤。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息；其中，所述关注目标包括所述图像中的文本、所述图像中与所述文本存在空间关系的指定目标和所述图像的属性信息中的至少一项；所述空间信息包括所述候选文本区域的置信度、所述待检测图像中的文本疑似区域的位置概率图、所述候选文本区域修正后的位置坐标中的至少一项；

2.根据权利要求1所述的方法，其特征在于，所述将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息，包括：

将所述指定信息输入到所述目标神经网络中的第一神经网络，由所述第一神经网络对所述指定信息进行处理，输出所述候选文本区域的置信度和所述待检测图像中的文本疑似区域的位置概率图；

将所述候选文本区域的置信度和所述位置概率图确定为所述空间信息。

3.根据权利要求1所述的方法，其特征在于，所述指定信息还包括从所述待检测图像中定位出的与所述候选文本区域存在空间关系的指定目标的特征向量；所述将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息，包括：

将所述指定信息输入到所述目标神经网络中的第二神经网络，由所述第二神经网络的对所述指定信息进行处理，输出所述候选文本区域的置信度和所述待检测图像中的文本疑似区域的位置概率图；

4.根据权利要求1所述的方法，其特征在于，所述指定信息还包括所述待检测图像的属性信息；所述将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息，包括：

将所述指定信息输入到用于所述目标神经网络中的第三神经网络，由所述第三神经网络的对所述指定信息处理，输出所述候选文本区域修正后的位置坐标；

将所述候选文本区域修正后的位置坐标确定为所述空间信息。

5.根据权利要求1所述的方法，其特征在于，所述指定信息还包括从所述待检测图像中定位出的与所述候选文本区域存在空间关系的指定目标的特征向量和所述待检测图像的属性信息；所述将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息，包括：

将所述指定信息输入到所述目标神经网络中的第四神经网络，由所述第四神经网络对所述指定信息进行处理，输出所述候选文本区域的置信度、所述候选文本区域修正后的位置坐标和所述待检测图像中的文本疑似区域的位置概率图；

将所述候选文本区域的置信度、所述候选文本区域修正后的位置坐标和所述位置概率图确定为所述空间信息。

6.根据权利要求2、3、5任一项所述的方法，其特征在于，所述依据所述空间信息对所述候选文本区域进行校正，得到所述待检测图像中的终选文本区域，包括：

7.根据权利要求1所述的方法，其特征在于，所述目标神经网络通过以下方法预先建立：

获取训练样本集；所述训练样本集包含多张图片；

8.一种文本检测装置，其特征在于，所述装置包括元素生成模块、空间关系建模模块和文本检测模块，其中，

所述空间关系建模模块，用于将所述指定信息输入到预先建立的用于构建图像中的文本与关注目标之间的空间关系的目标神经网络，由所述目标神经网络输出空间信息；其中，所述关注目标包括所述图像中的文本、所述图像中与所述文本存在空间关系的指定目标和所述图像的属性信息中的至少一项；所述空间信息包括所述候选文本区域的置信度、所述待检测图像中的文本疑似区域的位置概率图、所述候选文本区域修正后的位置坐标中的至少一项；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。