CN111291754B

CN111291754B - 一种文本级联检测方法、装置及存储介质

Info

Publication number: CN111291754B
Application number: CN202010077342.9A
Authority: CN
Inventors: 牟永强; 范宝杰; 黄志艺; 杨辉; 孙超; 郭怡适
Original assignee: Imagedt Co ltd
Current assignee: Imagedt Co ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2023-05-12
Anticipated expiration: 2040-01-22
Also published as: CN111291754A

Abstract

本发明公开了一种文本级联检测方法、装置及存储介质。所述文本级联检测方法通过获取目标文本检测模型，将待检测的场景图像输入目标文本检测模型，利用第一检测网络对场景图像进行一级检测，得到第一检测框的坐标数据，利用第二检测网络对第一图像进行二级检测，得到第二检测框的坐标数据及对应的文本标签，利用第三检测网络对第二图像进行三级检测，得到第三检测框的坐标数据及对应的文本数据，根据第二检测框对应的文本标签，对第三检测框对应的文本数据进行排列组合，得到检测文本，从而得到目标图像及对应的目标文本。本发明能够利用目标文本检测模型，实现多级检测场景图像中的文本，从而提高文本检测精度。

Description

一种文本级联检测方法、装置及存储介质

技术领域

本发明涉及图像文本检测技术领域，尤其涉及一种文本级联检测方法、装置及存储介质。

背景技术

场景图像就是我们所处的生活环境，场景图像中包含了各种各样的视觉信息。文本信息作为视觉信息中一种相对高层的语义内容,对视觉内容的理解和获取至关重要。但现有技术难以准确检测文本区域所占像素较少、分辨率低、图像质量不佳等场景图像中的文本信息。例如检测货架图像中的价格牌，由于价格牌区域相对整体货架图像所占像素较少，导致价格牌的小数点容易被模糊甚至被忽略，难以准确检测货架图像中的价格文本。因此，如何准确检测场景图像中的文本信息，成为当前一个重要任务。

发明内容

本发明提供一种文本级联检测方法、装置及存储介质，以克服现有技术的缺陷，本发明能够利用目标文本检测模型，实现多级检测场景图像中的文本，从而提高文本检测精度。

为了解决上述技术问题，第一方面，本发明一实施例提供一种文本级联检测方法，包括：

构建初始文本检测模型；其中，所述初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络；

将获取的场景图像集输入所述第一检测网络，使所述第一检测网络根据所述场景图像集，输出第一检测框的坐标数据；

根据所述第一检测框的坐标数据，从所述场景图像集中提取第一图像集，并将所述第一图像集输入所述第二检测网络，使所述第二检测网络根据所述第一图像集，输出第二检测框的坐标数据及对应的文本标签；

根据所述第二检测框的坐标数据，从所述第一图像集中提取第二图像集，并将所述第二图像集输入所述第三检测网络，使所述第三检测网络根据所述第二图像集，输出第三检测框的坐标数据及对应的文本数据；

根据所述第二检测框对应的文本标签，对所述第三检测框对应的文本数据进行排列组合，得到检测文本，并在所述检测文本为完整文本时结束训练所述初始文本检测模型，得到目标文本检测模型；

将待检测的场景图像输入所述目标文本检测模型，得到目标图像及对应的目标文本。。

进一步地，所述第一、第二、第三检测网络均为Faster R-CNN网络。

进一步地，所述第一检测网络根据所述场景图像集，输出第一检测框的坐标数据，包括：

将场景低维特征图像集输入RPN网络，使所述RPN网络根据所述场景低维特征图像集，输出第一正负样本集及对应的坐标数据，并根据所述场景低维特征图像集，得到场景高维特征图像集；其中，所述场景低维特征图像集是对所述场景图像集进行特征提取而获得；

将所述第一正负样本集和所述场景高维特征图像集输入ROI网络，使所述ROI网络根据所述第一正负样本集和所述场景高维特征图像集，输出第一候选框，并将所述第一候选框输入全连接层，使所述全连接层根据所述第一候选框，输出第一候选框的分类得分和回归坐标；

将上述操作作为对所述第一测试网络的一次训练，重复执行上述操作，并在累计的训练次数达到预设阈值时，结束训练所述第一测试网络。

进一步地，所述第二检测网络根据所述第一图像集，输出第二检测框的坐标数据及对应的文本标签，包括：

将第一低维特征图像集输入RPN网络，使所述RPN网络根据所述第一低维特征图像集，输出第二正负样本集及对应的坐标数据，并根据所述第一低维特征图像集，得到第一高维特征图像集；其中，所述第一低维特征图像集是对所述第一图像集进行特征提取而获得；

将所述第二正负样本集和所述第一高维特征图像集输入ROI网络，使所述ROI网络根据所述第二正负样本集和所述第一高维特征图像集，输出第二候选框，并将所述第二候选框输入全连接层，使所述全连接层根据所述第二候选框，输出第二候选框的分类得分和回归坐标；

将上述操作作为对所述第二测试网络的一次训练，重复执行上述操作，并在累计的训练次数达到预设阈值时，结束训练所述第二测试网络。

进一步地，在所述将所述第二候选框输入全连接层后，还包括：使所述全连接层对所述第二候选框添加对应的文本标签。

进一步地，所述第三检测网络根据所述第二图像集，输出第三检测框的坐标数据及对应的文本数据，包括：

将第二低维特征图像集输入RPN网络，使所述RPN网络根据所述第二低维特征图像集，输出第三正负样本集及对应的坐标数据，并根据所述第二低维特征图像集，得到第二高维特征图像集；其中，所述第二低维特征图像集是对所述第二图像集进行特征提取而获得；

将所述第三正负样本集和所述第二高维特征图像集输入ROI网络，使所述ROI网络根据所述第三正负样本集和所述第二高维特征图像集，输出第三候选框，并将所述第三候选框输入全连接层，使所述全连接层根据所述第三候选框，输出第三候选框的分类得分和回归坐标；

将上述操作作为对所述第三测试网络的一次训练，重复执行上述操作，并在累计的训练次数达到预设阈值时，结束训练所述第三测试网络。

进一步地，在所述将所述第三候选框输入全连接层后，还包括：使所述全连接层识别所述第二候选框中的文本数据。

第二方面，本发明一实施例提供一种文本级联检测装置，包括：

初始文本检测模型构建模块，用于构建初始文本检测模型；其中，所述初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络；

第一检测网络训练模块，用于将获取的场景图像集输入所述第一检测网络，使所述第一检测网络根据所述场景图像集，输出第一检测框的坐标数据；

第二检测网络训练模块，用于根据所述第一检测框的坐标数据，从所述场景图像集中提取第一图像集，并将所述第一图像集输入所述第二检测网络，使所述第二检测网络根据所述第一图像集，输出第二检测框的坐标数据及对应的文本标签；

第三检测网络训练模块，用于根据所述第二检测框的坐标数据，从所述第一图像集中提取第二图像集，并将所述第二图像集输入所述第三检测网络，使所述第三检测网络根据所述第二图像集，输出第三检测框的坐标数据及对应的文本数据；

目标文本检测模型获取模块，用于根据所述第二检测框对应的文本标签，对所述第三检测框对应的文本数据进行排列组合，得到检测文本，并在所述检测文本为完整文本时结束训练所述初始文本检测模型，得到目标文本检测模型；

场景图像检测模块，用于将待检测的场景图像输入所述目标文本检测模型，得到目标图像及对应的目标文本。

第三方面，本发明一实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的文本级联检测方法。

相比于现有技术，本发明的实施例，具有如下有益效果：

通过获取目标文本检测模型，将待检测的场景图像输入目标文本检测模型，利用第一检测网络对场景图像进行一级检测，得到第一检测框的坐标数据，利用第二检测网络对第一图像进行二级检测，得到第二检测框的坐标数据及对应的文本标签，利用第三检测网络对第二图像进行三级检测，得到第三检测框的坐标数据及对应的文本数据，根据第二检测框对应的文本标签，对第三检测框对应的文本数据进行排列组合，得到检测文本，从而得到目标图像及对应的目标文本。本发明能够利用目标文本检测模型，实现多级检测场景图像中的文本，从而提高文本检测精度。

附图说明

图1为本发明第一实施例中的一种文本级联检测方法的流程示意图；

图2为本发明第一实施例中的优选实施例的流程示意图；

图3为本发明第一实施例中的一优选实施例的流程示意图；

图4为本发明第一实施例中的另一优选实施例的流程示意图；

图5为本发明第二实施例中的一种文本级联检测装置的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本实施例提供的方法可以由相关的服务器执行，且下文均以服务器作为执行主体为例进行说明。

请参阅图1-4。

如图1所示，第一实施例提供一种文本级联检测方法，包括步骤S1～S6：

S1、构建初始文本检测模型；其中，初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络。

S2、将获取的场景图像集输入第一检测网络，使第一检测网络根据场景图像集，输出第一检测框的坐标数据。

S3、根据第一检测框的坐标数据，从场景图像集中提取第一图像集，并将第一图像集输入第二检测网络，使第二检测网络根据第一图像集，输出第二检测框的坐标数据及对应的文本标签。

S4、根据第二检测框的坐标数据，从第一图像集中提取第二图像集，并将第二图像集输入第三检测网络，使第三检测网络根据第二图像集，输出第三检测框的坐标数据及对应的文本数据。

S5、根据第二检测框对应的文本标签，对第三检测框对应的文本数据进行排列组合，得到检测文本，并在检测文本为完整文本时结束训练初始文本检测模型，得到目标文本检测模型。

S6、将待检测的场景图像输入目标文本检测模型，得到目标图像及对应的目标文本。

在本实施例的一种优选的实施方式当中，第一、第二、第三检测网络均为FasterR-CNN网络。

在步骤S1中，通过构建初始文本检测模型，在初始文本检测模型中引入第一、第二、第三检测网络，使得在对第一、第二、第三检测网络进行训练后，能够利用第一、第二、第三检测网络实现多级检测场景图像中的文本，从而提高文本检测精度。

在步骤S2中，通过将获取的场景图像集输入第一检测网络，使第一检测网络根据场景图像集，输出第一检测框的坐标数据，实现训练第一检测网络，有利于提高第一检测网络的文本检测精度。

在步骤S3中，通过根据第一检测框的坐标数据，从场景图像集中提取第一图像集，并将第一图像集输入第二检测网络，使第二检测网络根据第一图像集，输出第二检测框的坐标数据及对应的文本标签，实现训练第二检测网络，有利于提高第二检测网络的文本检测精度。

在步骤S4中，通过根据第二检测框的坐标数据，从第一图像集中提取第二图像集，并将第二图像集输入第三检测网络，使第三检测网络根据第二图像集，输出第三检测框的坐标数据及对应的文本数据，实现训练第三检测网络，有利于提高第三检测网络的文本检测精度。

在步骤S5中，通过判断检测文本的完整性，在检测文本为完整文本时结束训练初始文本检测模型，得到目标文本检测模型，在检测文本不为完整文本时继续训练初始文本模型，使得只有当得到的检测文本为完整文本时，才能得到目标文本检测模型，有利于提高目标文本检测模型的文本检测精度。

在步骤S6中，通过将待检测的场景图像输入目标文本检测模型，得到目标图像及对应的目标文本，能够利用目标文本检测模型，实现多级检测场景图像中的文本，从而提高文本检测精度。

以货架图像集为例。

首先将获取的货架图像集(即场景图像集)输入第一检测网络，使第一检测网络根据货架图像集，输出价格牌检测框(即第一检测框)的坐标数据，然后根据价格牌检测框的坐标数据，从货架图像集中提取价格牌图像集(即第一图像集)，并将价格牌图像集输入第二检测网络，使第二检测网络根据价格牌图像集，输出多数字检测框(即第二检测框)的坐标数据及对应的价格单位(即元、角、分等文本标签)，接着根据多数字检测框的坐标数据，从价格牌图像集中提取多数字图像集(即第二图像集)，并将多数字图像集输入第三检测网络，使第三检测网络根据多数字图像集，输出单数字检测框(即第三检测框)的坐标数据及对应的价格数字(即0、1、2、3、4、5、6、7、8、9的文本数据)，从而根据多数字检测框对应的价格单位，对单数字检测框对应的价格数字进行排列组合，以添加小数点得到价格文本(即检测文本)，并在价格文本为完整价格时结束训练初始文本检测模型，得到目标文本检测模型，最终将待检测的场景图像输入目标文本检测模型，得到价格牌图像(即目标图像)及对应的价格文本(即目标文本)。

本实施例首先将获取的场景图像集输入第一检测网络，使第一检测网络根据场景图像集输出第一检测框的坐标数据，然后根据第一检测框的坐标数据，从场景图像集中提取第一图像集，并将第一图像集输入第二检测网络，使第二检测网络根据第一图像集，输出第二检测框的坐标数据及对应的文本标签，接着根据第二检测框的坐标数据，从第一图像集中提取第二图像集，并将第二图像集输入第三检测网络，使第三检测网络输出第三检测框的坐标数据及对应的文本数据，从而根据第二检测框对应的文本标签，对第三检测框对应的文本数据进行排列组合，得到检测文本，并在检测文本为完整文本时结束训练初始文本检测模型，得到目标文本检测模型，最终将待检测的场景图像输入目标文本检测模型，得到目标图像及对应的目标文本。

本实施例通过获取目标文本检测模型，将待检测的场景图像输入目标文本检测模型，利用第一检测网络对场景图像进行一级检测，得到第一检测框的坐标数据，利用第二检测网络对第一图像进行二级检测，得到第二检测框的坐标数据及对应的文本标签，利用第三检测网络对第二图像进行三级检测，得到第三检测框的坐标数据及对应的文本数据，根据第二检测框对应的文本标签，对第三检测框对应的文本数据进行排列组合，得到检测文本，从而得到目标图像及对应的目标文本。

本实施例能够利用目标文本检测模型，实现多级检测场景图像中的文本，从而提高文本检测精度。

如图2所示，在优选的实施例当中，步骤S2，包括步骤S21～S23：

S21、将场景低维特征图像集输入RPN网络，使RPN网络根据场景低维特征图像集，输出第一正负样本集及对应的坐标数据，并根据场景低维特征图像集，得到场景高维特征图像集；其中，场景低维特征图像集是对场景图像集进行特征提取而获得。

S22、将第一正负样本集和场景高维特征图像集输入ROI网络，使ROI网络根据第一正负样本集和场景高维特征图像集，输出第一候选框，并将第一候选框输入全连接层，使全连接层根据第一候选框，输出第一候选框的分类得分和回归坐标。

S23、将上述操作作为对第一测试网络的一次训练，重复执行上述操作，并在累计的训练次数达到预设阈值时，结束训练第一测试网络。

在步骤S21中，将场景图像集中的每一场景图像输入卷积神经网络(比如VGG网络)，由卷积神经网络将每一场景图像前向传输至共享的卷积层，得到场景低维特征图像集。将获取的场景低维特征图像集一路输入RPN网络，由RPN网络根据场景低维特征图像集，输出第一正负样本集及对应的坐标数据，一路由卷积神经网络继续前向传输，得到场景高维特征图像集。

其中，第一正样本为第一检测框、第一负样本为非第一检测框。

RPN网络的损失函数如式(1)所示：

式(1)中，i表示一个批次中第i个检测框，p_i表示第i个检测框是第一正样本的概率，当第i个检测框是第一正样本时p_i ^*为1，反之为0，t_i表示预测的第一检测框的坐标数据，t_i ^*为已标记的第一检测框的坐标数据。

分类损失为如式(2)所示的交叉熵损失函数，回归损失为如式(3)所示的SmoothL1损失函数：

在式(3)中，x表示神经网络的预测值。

在步骤S22中，将第一正负样本集和场景高维特征图像集输入到ROI网络，由ROI网络根据第一正负样本集和场景高维特征图像集，输出第一候选框，并将第一候选框输入全连接层，由全连接层根据第一候选框，输出第一候选框的分类得分和回归坐标。

根据经筛选的第一正负样本的坐标数据，将其映射到场景高维特征图中，对第一正负样本按照固定数目进行分块(比如固定分为7×7块)，再在每一个区域块上完成最大池化操作，提取对应第一正负样本建议区域的固定长度的特征向量，即第一候选框。将第一候选框输入全连接层，由全连接层根据第一候选框，输出第一候选框的分类得分和回归坐标。其中，损失函数如式(1)所示。

在步骤S23中，通过预设阈值设定第一检测网络的训练次数，采用交替训练方式对第一测试网络进行训练直至达到预设阈值。

其中，交替训练方式为：根据现有网络初始化权值w，训练RPN网络；由RPN网络输出场景图像集的第一候选框，用第一候选框训练Faster R-CNN网络，更新权值w；重复上述操作，直至收敛。

如图3所示，在一优选的实施例当中，步骤S3，包括步骤S31～S33：

S31、将第一低维特征图像集输入RPN网络，使RPN网络根据第一低维特征图像集，输出第二正负样本集及对应的坐标数据，并根据第一低维特征图像集，得到第一高维特征图像集；其中，第一低维特征图像集是对第一图像集进行特征提取而获得。

S32、将第二正负样本集和第一高维特征图像集输入ROI网络，使ROI网络根据第二正负样本集和第一高维特征图像集，输出第二候选框，并将第二候选框输入全连接层，使全连接层根据第二候选框，输出第二候选框的分类得分和回归坐标。

S33、将上述操作作为对第二测试网络的一次训练，重复执行上述操作，并在累计的训练次数达到预设阈值时，结束训练第二测试网络。

在本实施例的一种优选的实施方式当中，在将第二候选框输入全连接层后，还包括：使全连接层对第二候选框添加对应的文本标签。

在步骤S31中，将第一图像集中的每一第一图像输入卷积神经网络(比如VGG网络)，由卷积神经网络将每一第一图像前向传输至共享的卷积层，得到第一低维特征图像集。将获取的第一低维特征图像集一路输入RPN网络，由RPN网络根据第一低维特征图像集，输出第二正负样本集及对应的坐标数据，一路由卷积神经网络继续前向传输，得到第一高维特征图像集。

其中，第二正样本为第二检测框、第二负样本为非第二检测框。

RPN网络的损失函数如式(4)所示：

式(4)中，i表示一个批次中第i个检测框，p_i表示第i个检测框是第二正样本的概率，当第i个检测框是第二正样本时p_i ^*为1，反之为0，t_i表示预测的第二检测框的坐标数据，t_i ^*为已标记的第二检测框的坐标数据。

分类损失为如式(5)所示的交叉熵损失函数，回归损失为如式(6)所示的SmoothL1损失函数：

在式(6)中，x表示神经网络的预测值。

在步骤S32中，将第二正负样本集和第一高维特征图像集输入到ROI网络，由ROI网络根据第二正负样本集和第一高维特征图像集，输出第二候选框，并将第二候选框输入全连接层，由全连接层根据第二候选框，输出第二候选框的分类得分和回归坐标。

根据经筛选的第二正负样本的坐标数据，将其映射到第一高维特征图中，对第二正负样本按照固定数目进行分块(比如固定分为7×7块)，再在每一个区域块上完成最大池化操作，提取对应第二正负样本建议区域的固定长度的特征向量，即第二候选框。将第二候选框输入全连接层，由全连接层根据第二候选框，输出第二候选框的分类得分和回归坐标。其中，损失函数如式(4)所示。

在将第二候选框输入全连接层后，由全连接层根据交叉熵函数对第二候选框进行分类训练，以对第二候选框添加对应的文本标签。

在步骤S33中，通过预设阈值设定第二检测网络的训练次数，采用交替训练方式对第二测试网络进行训练直至达到预设阈值。

其中，交替训练方式为：根据现有网络初始化权值w，训练RPN网络；由RPN网络输出第一图像集的第二候选框，用第二候选框训练Faster R-CNN网络，更新权值w；重复上述操作，直至收敛。

如图4所示，在另一优选的实施例当中，步骤S4，包括步骤S41～S43：

S41、将第二低维特征图像集输入RPN网络，使RPN网络根据第二低维特征图像集，输出第三正负样本集及对应的坐标数据，并根据第二低维特征图像集，得到第二高维特征图像集；其中，第二低维特征图像集是对第二图像集进行特征提取而获得。

S42、将第三正负样本集和第二高维特征图像集输入ROI网络，使ROI网络根据第三正负样本集和第二高维特征图像集，输出第三候选框，并将第三候选框输入全连接层，使全连接层根据第三候选框，输出第三候选框的分类得分和回归坐标。

S43、将上述操作作为对第三测试网络的一次训练，重复执行上述操作，并在累计的训练次数达到预设阈值时，结束训练第三测试网络。

在本实施例的一种优选实施方式当中，在将第三候选框输入全连接层后，还包括：使全连接层识别第二候选框中的文本数据。

在步骤S41中，将第二图像集中的每一第二图像输入卷积神经网络(比如VGG网络)，由卷积神经网络将每一第二图像前向传输至共享的卷积层，得到第二低维特征图像集。将获取的第二低维特征图像集一路输入RPN网络，由RPN网络根据第二低维特征图像集，输出第三正负样本集及对应的坐标数据，一路由卷积神经网络继续前向传输，得到第二高维特征图像集。

其中，第三正样本为第三检测框、第三负样本为非第三检测框。

RPN网络的损失函数如式(7)所示：

式(7)中，i表示一个批次中第i个检测框，p_i表示第i个检测框是第三正样本的概率，当第i个检测框是第三正样本时p_i ^*为1，反之为0，t_i表示预测的第三检测框的坐标数据，t_i*为已标记的第三检测框的坐标数据。

分类损失为如式(8)所示的交叉熵损失函数，回归损失为如式(9)所示的SmoothL1损失函数：

在式(9)中，x表示神经网络的预测值。

在步骤S42中，将第三正负样本集和第二高维特征图像集输入到ROI网络，由ROI网络根据第三正负样本集和第二高维特征图像集，输出第三候选框，并将第三候选框输入全连接层，由全连接层根据第三候选框，输出第三候选框的分类得分和回归坐标。

根据经筛选的第三正负样本的坐标数据，将其映射到第二高维特征图中，对第三正负样本按照固定数目进行分块(比如固定分为7×7块)，再在每一个区域块上完成最大池化操作，提取对应第三正负样本建议区域的固定长度的特征向量，即第三候选框。将第三候选框输入全连接层，由全连接层根据第三候选框，输出第三候选框的分类得分和回归坐标。其中，损失函数如式(7)所示。

在将第三候选框输入全连接层后，由全连接层根据交叉熵函数对第二候选框进行分类训练，以对第三候选框添加对应的文本标签。

在步骤S43中，通过预设阈值设定第三检测网络的训练次数，采用交替训练方式对第三测试网络进行训练直至达到预设阈值。

其中，交替训练方式为：根据现有网络初始化权值w，训练RPN网络；由RPN网络输出第二图像集的第三候选框，用第三候选框训练Faster R-CNN网络，更新权值w；重复上述操作，直至收敛。

请参阅图5。

如图5所示，第二实施例提供一种文本级联检测装置，包括：初始文本检测模型构建模块21，用于构建初始文本检测模型；其中，初始文本检测模型包括第一检测网络、第二检测网络和第三检测网络；第一检测网络训练模块22，用于将获取的场景图像集输入第一检测网络，使第一检测网络根据场景图像集，输出第一检测框的坐标数据；第二检测网络训练模块23，用于根据第一检测框的坐标数据，从场景图像集中提取第一图像集，并将第一图像集输入第二检测网络，使第二检测网络根据第一图像集，输出第二检测框的坐标数据及对应的文本标签；第三检测网络训练模块24，用于根据第二检测框的坐标数据，从第一图像集中提取第二图像集，并将第二图像集输入第三检测网络，使第三检测网络根据第二图像集，输出第三检测框的坐标数据及对应的文本数据；目标文本检测模型获取模块25，用于根据第二检测框对应的文本标签，对第三检测框对应的文本数据进行排列组合，得到检测文本，并在检测文本为完整文本时结束训练初始文本检测模型，得到目标文本检测模型；场景图像检测模块26，用于将待检测的场景图像输入目标文本检测模型，得到目标图像及对应的目标文本。

通过初始文本检测模型构建模块21，构建初始文本检测模型，在初始文本检测模型中引入第一、第二、第三检测网络，使得在对第一、第二、第三检测网络进行训练后，能够利用第一、第二、第三检测网络实现多级检测场景图像中的文本，从而提高文本检测精度。

通过第一检测网络训练模块22，将获取的场景图像集输入第一检测网络，使第一检测网络根据场景图像集，输出第一检测框的坐标数据，实现训练第一检测网络，有利于提高第一检测网络的文本检测精度。

通过第二检测网络训练模块23，根据第一检测框的坐标数据，从场景图像集中提取第一图像集，并将第一图像集输入第二检测网络，使第二检测网络根据第一图像集，输出第二检测框的坐标数据及对应的文本标签，实现训练第二检测网络，有利于提高第二检测网络的文本检测精度。

通过第三检测网络训练模块24，根据第二检测框的坐标数据，从第一图像集中提取第二图像集，并将第二图像集输入第三检测网络，使第三检测网络根据第二图像集，输出第三检测框的坐标数据及对应的文本数据，实现训练第三检测网络，有利于提高第三检测网络的文本检测精度。

通过目标文本检测模型获取模块25，判断检测文本的完整性，在检测文本为完整文本时结束训练初始文本检测模型，得到目标文本检测模型，在检测文本不为完整文本时继续训练初始文本模型，使得只有当得到的检测文本为完整文本时，才能得到目标文本检测模型，有利于提高目标文本检测模型的文本检测精度。

通过场景图像检测模块26，将待检测的场景图像输入目标文本检测模型，得到目标图像及对应的目标文本，能够利用目标文本检测模型，实现多级检测场景图像中的文本，从而提高文本检测精度。

以货架图像集为例。

在通过初始文本检测模型构建模块21，构建初始文本检测模型后，首先通过第一检测网络训练模块22，将获取的货架图像集(即场景图像集)输入第一检测网络，使第一检测网络根据货架图像集，输出价格牌检测框(即第一检测框)的坐标数据，然后通过第二检测网络训练模块23，根据价格牌检测框的坐标数据，从货架图像集中提取价格牌图像集(即第一图像集)，并将价格牌图像集输入第二检测网络，使第二检测网络根据价格牌图像集，输出多数字检测框(即第二检测框)的坐标数据及对应的价格单位(即元、角、分等文本标签)，接着通过第三检测网络训练模块24，根据多数字检测框的坐标数据，从价格牌图像集中提取多数字图像集(即第二图像集)，并将多数字图像集输入第三检测网络，使第三检测网络根据多数字图像集，输出单数字检测框(即第三检测框)的坐标数据及对应的价格数字(即0、1、2、3、4、5、6、7、8、9的文本数据)，从而通过目标文本检测模型获取模块25，根据多数字检测框对应的价格单位，对单数字检测框对应的价格数字进行排列组合，以添加小数点得到价格文本(即检测文本)，并在价格文本为完整价格时结束训练初始文本检测模型，得到目标文本检测模型，最终通过场景图像检测模型26将待检测的场景图像输入目标文本检测模型，得到价格牌图像(即目标图像)及对应的价格文本(即目标文本)。

本实施例在通过初始文本检测模型构建模块21，构建初始文本检测模型后，首先通过第一检测网络训练模块22，将获取的场景图像集输入第一检测网络，使第一检测网络根据场景图像集输出第一检测框的坐标数据，然后通过第二检测网络训练模块23，根据第一检测框的坐标数据，从场景图像集中提取第一图像集，并将第一图像集输入第二检测网络，使第二检测网络根据第一图像集，输出第二检测框的坐标数据及对应的文本标签，接着通过第三检测网络训练模块24，根据第二检测框的坐标数据，从第一图像集中提取第二图像集，并将第二图像集输入第三检测网络，使第三检测网络输出第三检测框的坐标数据及对应的文本数据，从而通过目标文本检测模型获取模块25，根据第二检测框对应的文本标签，对第三检测框对应的文本数据进行排列组合，得到检测文本，并在检测文本为完整文本时结束训练初始文本检测模型，得到目标文本检测模型，最终通过场景图像检测模型26将待检测的场景图像输入目标文本检测模型，得到目标图像及对应的目标文本。

第三实施例提供一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序，其中，在计算机程序运行时控制计算机可读存储介质所在设备执行如上所述的文本级联检测方法，且能达到与之相同的有益效果。

综上所述，实施本发明的实施例，具有如下有益效果：

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

Claims

1.一种文本级联检测方法，其特征在于，包括：

将待检测的场景图像输入所述目标文本检测模型，得到目标图像及对应的目标文本。

2.如权利要求1所述的文本级联检测方法，其特征在于，所述第一、第二、第三检测网络均为Faster R-CNN网络。

3.如权利要求1所述的文本级联检测方法，其特征在于，所述第一检测网络根据所述场景图像集，输出第一检测框的坐标数据，包括：

将上述操作作为对所述第一检测网络的一次训练，重复执行上述操作，并在累计的训练次数达到预设阈值时，结束训练所述第一检测网络。

4.如权利要求1所述的文本级联检测方法，其特征在于，所述第二检测网络根据所述第一图像集，输出第二检测框的坐标数据及对应的文本标签，包括：

将上述操作作为对所述第二检测网络的一次训练，重复执行上述操作，并在累计的训练次数达到预设阈值时，结束训练所述第二检测网络。

5.如权利要求4所述的文本级联检测方法，其特征在于，在所述将所述第二候选框输入全连接层后，还包括：使所述全连接层对所述第二候选框添加对应的文本标签。

6.如权利要求1所述的文本级联检测方法，其特征在于，所述第三检测网络根据所述第二图像集，输出第三检测框的坐标数据及对应的文本数据，包括：

将上述操作作为对所述第三检测网络的一次训练，重复执行上述操作，并在累计的训练次数达到预设阈值时，结束训练所述第三检测网络。

7.如权利要求6所述的文本级联检测方法，其特征在于，在所述将所述第三候选框输入全连接层后，还包括：使所述全连接层识别所述第三候选框中的文本数据。

8.一种文本级联检测装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任意一项所述的文本级联检测方法。