CN117315702B

CN117315702B - 基于集合预测的文本检测方法、***及介质

Info

Publication number: CN117315702B
Application number: CN202311597674.XA
Authority: CN
Inventors: 张凯; 王祥凯; 刘晓旭
Original assignee: Shandong Zhengyun Information Technology Co ltd
Current assignee: Shandong Zhengyun Information Technology Co ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-02-23
Anticipated expiration: 2043-11-28
Also published as: CN117315702A

Abstract

本发明公开了基于集合预测的文本检测方法、***及介质，涉及人工智能技术领域，包括以下步骤：S1，采集待检测图像：在自然场景下通过拍照设备采集待检测图像，并对采集的待检测图像进行处理，S2，图像特征提取：将经步骤S1处理后的待检测图像输入到文本检测模型内，对待检测图像进行特征提取，并得到文本框的候选区域，S3，获取文本检测结果：对得到文本框的候选区域进行处理，从而得到文本检测结果，并对检测结果的正确性进行判断。本发明在采集到待检测图像后，通过进行一系列的图像处理操作，提高图像质量，减少出现因图像质量不佳导致后续进行文本检测的质量不佳的情况。

Description

基于集合预测的文本检测方法、***及介质

技术领域

本发明涉及人工智能技术领域，具体为基于集合预测的文本检测方法、***及介质。

背景技术

近年来，文档和包含文本的场景图片的数字化需求越来越多，技术也日趋成熟，其中，文本检测是数字化中关键的一环，定位出文本位置和大小后，再使用文本识别等相关技术进行数字化，在申请号为202110262754.4的中国专利中公开了“一种文本检测方法及***，该文本检测方法包括包括：训练阶段和检测阶段；训练阶段的步骤包括：获取待训练图像；对待训练图像进行垂直投影处理并利用垂直投影中的空白间隙完成文字的分割，得到待训练标签数据；将待训练标签数据输入文本检测模型中进行训练，得到经训练文本检测模型；检测阶段的步骤包括：获取待测文本图像；将待测文本图像输入经训练文本检测模型中生成包含检测结果的文本检测框，本发明的文本检测方法及***能包含完整的文本信息，克服对长文本检测效果不佳的缺陷，同时能够有效去除非文本信息。”

该对比文件仅仅解决了现有技术中深度学习的文本检测方法主要利用Anchor策略和分割策略进行文本检测，由于文本图像中大量存在长宽比例过大的长文本信息，直接利用Anchor策略将会导致检测框难以完整检测到文本信息的问题，未考虑到需要先对待检测图像进行一系列的图像处理操作，从而提高图像质量，且在进行文本检测的过程中，图像中存在的大量背景区域会给文本检测带来极大困难，导致文本检测的准确性较低。

发明内容

本发明的目的在于提供基于集合预测的文本检测方法、***及介质，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于集合预测的文本检测方法，包括以下步骤：

S1：采集待检测图像：在自然场景下通过拍照设备采集待检测图像，并对采集的待检测图像进行处理，提高图像质量，避免对文本检测的质量产生干扰；

S2：图像特征提取：将经步骤S1处理后的待检测图像输入到经过数据训练的文本检测模型内，通过文本检测模型对待检测图像进行特征提取，并对提取的特征实现特征增强，同时消除步骤S1中对图像处理带来的影响，最后输出得到文本框的候选区域；

S3：获取文本检测结果：对得到文本框的候选区域进行处理，从而得到文本检测结果，并对检测结果的正确性进行判断。

优选的，所述步骤S1还包括在自然场景下通过拍照设备采集待检测图像，其中拍照设备为手机、平板以及摄像机中的一种，并对采集的待检测图像进行处理，包括图像去噪、图像灰度化和图像几何变换，具体通过均值滤波法进行图像去噪操作，具体通过分量法和平均法进行图像灰度化操作，具体通过缩放、旋转和平移操作对图像进行几何变换处理。

优选的，所述步骤S2还包括将经步骤S1处理后的待检测图像输入到建立的文本检测模型内，该文本检测模型包括特征提取网络、候选区域生成网络、感兴趣区域池化以及基于关系模块的增强全连接层四个部分，其中特征提取网络使用ResNet101作为骨干网络结合FPN特征金字塔来提取特征图，具体步骤如下：通过ResNet101网络输出特征金字塔{C2，C3，C4，C5}，它们的尺寸与输入图像的尺寸比例为{1/4,1/8,1/16，1/32}，对每个尺度的特征采用SE模块提取不同尺度特征图的注意力，获取通道方向的注意力向量，通过Softmax函数重新校准通道方向的注意力向量，获得多尺度通道的权重分配，将获取到的多尺度特征注意力向量逐个对多尺度特征进行加权，从而实现特征增强，进而使不同尺度的特征信息更加细化且有更多的信息输出。

优选的，在实现特征增强后，对增强后的FPN特征，使用1*1的卷积层和Sigmoid激活函数组成的分类器，对图像中的每个像素进行二分类，得到初步的分割图，将其作为分离特征的前景掩码图，通过取分割图的负片图像的方式，得到图像的背景掩码图，通过分别与前景掩码图和背景掩码图相乘的方式，将增强后的FPN特征分离为前景区域特征和背景区域特征，且由于掩码图为的二值分割图，在使用CBAM中的空间注意力机制对前景区域内的特征进行增强时，最大程度消除了背景区域对应特征的影响，同时也使用CBAM中的空间注意力机制对背景区域内的特征进行加权调整，以增加前景区域内特征和背景区域内特征在特征空间中的距离，最后以相加的方式融合分别增强后的前景特征和背景特征，从而进一步实现特征增强，同时消除步骤S1中通过均值滤波法进行图像去噪操作时，因为过滤掉高频分量丢失部分边缘信息导致图像模糊带来的影响，再把高层特征通过最邻近上采样法进行两倍上采样，然后将其和对应的经过1*1的卷积核的前一层特征结合，结合的方式是做像素间的加法，从而能对不同尺度的特征图进行处理，结合了底层特征和高层特征的特征图，进而能适应不同尺度的文本候选区域。

优选的，其中候选区域生成网络的具体流程包括：将特征提取网络输出的特征图先进行3*3扫描，然后使用两条并行的1*1卷积操作，分别用于产生前背景分类和框位置回归，且前背景分类和框位置回归是在锚的基础上进行，且锚通过锚自生成模块生成，且锚自生成模块分为锚生成分支和特征映射分支，锚生成分支用来预测锚的位置和大小，锚生成分支又分为锚位置预测子分支和锚形状预测子分支，其中锚位置预测子分支对输出的特征图经过1*1的卷积得到目标得分图，然后经过Sigmoid函数得到每个位置的置信度，其值代表目标物的中心位于该位置的概率，用于预测锚的中心区域，锚形状预测子分支将输出的特征图经过1*1的卷积网络输出同分辨率的双通道特征图，预测锚的宽度和高度，在特征映射分支中，首先用锚形状预测子分支获得锚的宽度和高度，通过1*1卷积对每个位置预测宽高的偏移量，形成一个偏移场，然后根据该偏移场进行3*3的可变性卷积，从而获得锚自适应映射特征图。

优选的，其中感兴趣区域池化的具体操作如下：将在候选区域生成的不同尺寸大小的候选框映射到特征图上，然后将候选框分为H×W个子窗口，每个子窗口的大小为（候选框的高度/H）×（候选框的宽度/W），然后在每个子窗口上进行最大池化操作，得到一个固定大小的特征向量，最终，将所有候选框的特征向量串联起来，便于后续进行目标识别，其中基于关系模块的增强全连接层用来建立候选区域目标之间的关系，以提高文本检测的效果，且关系模块通过注意力机制实现对特征的分类和回归，注意力机制主要是根据预设的查找向量（Query）和键值表（Key-ValuePairs），计算其相关程度来将Value映射到正确的输出的过程，注意力机制的计算过程如下：计算比较查找向量Query和所有假设n个Key之间的关系相似度f，具体通过点乘的方式实现，将得到的相似度进行Softmax操作，归一化进而得到对应的权重，针对计算得到的权重，对所有的Value进行加权求和计算，得到基于查找向量Query的注意力机制的数值。

优选的，所述步骤S2还包括在文本检测模型构建完成后，通过性能算法对该模型的推理速度进行计算，其具体计算公式如下：

式中，表示模型的推理速度，/>为固定值，默认为1000毫秒，/>表示图像预处理时间，/>表示模型从输入到输出的时间，/>表示图像处理时间，计算结果越大表示该模型的推理速度越快，并选择CTW1500数据集作为文本检测模型的训练数据集进行训练，以提高模型的性能，在将经步骤S1处理后的待检测图像输入到建立的文本检测模型后，通过文本检测模型对待检测图像中的文本特征进行处理，得到基于待检测图像中文本尺寸的自适应尺寸的文本框的候选区域。

优选的，所述步骤S3还包括对所述文本框的候选区域进行NMS去重处理，得到文本检测结果，通过检测算法对文本检测的准确性进行判断，其具体计算公式如下：

式中,表示文本检测的准确性，/>表示真实文本实例与候选文本实例之间的交集的区域面积，/>真实文本实例与候选文本实例之间的并集的区域面积，表示计算结果大于0.5视为检测正确。

基于集合预测的文本检测***，其特征在于：包括待测图像采集模块，所述待测图像采集模块用于在自然场景下通过拍照设备采集待检测图像，并对采集的待检测图像进行处理；

图像特征提取模块，所述图像特征提取模块用于将处理后的待检测图像输入到文本检测模型内，通过文本检测模型对待检测图像进行特征提取，进而得到文本框的候选区域；

文本检测结果获取模块，所述文本检测结果获取模块用于对得到文本框的候选区域进行处理，从而得到文本检测结果，并对检测结果的正确性进行判断。

基于集合预测的文本检测介质，其特征在于：所述基于集合预测的文本检测介质上储存有计算机程序，所述计算机程序被处理器执行时实现任一项所述基于集合预测的文本检测方法的步骤。

与现有技术相比，本发明的有益效果至少包括：本发明提出了基于集合预测的文本检测方法、***及介质，在采集到待检测图像后，通过进行一系列的图像处理操作，提高图像质量，减少出现因图像质量不佳导致后续进行文本检测的质量不佳的情况，通过构建的文本检测模型实现对待检测图像中的文本区域进行检测，以满足不同尺寸的文本检测，提高了文本检测的适用性，通过特征提取网络对图像特征进行提取，且在提取过程中实现特征增强，消除背景区域相应特征带来的影响，同时消除对图像进行处理时导致图像模糊所带来的影响，进而提高文本检测的准确性，通过感兴趣区域池化操作便于进行目标识别，以提高文本检测的效果。

附图说明

图1为本发明实施例提供的基于集合预测的文本检测方法流程示意图；

图2为本发明实施例提供的基于集合预测的文本检测***流程示意图。

图中：101、待测图像采集模块；102、图像特征提取模块；103、文本检测结果获取模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：基于集合预测的文本检测方法，包括以下步骤：

步骤S1还包括在自然场景下通过拍照设备采集待检测图像，其中拍照设备为手机、平板以及摄像机中的一种，并对采集的待检测图像进行处理，包括图像去噪、图像灰度化和图像几何变换，具体通过均值滤波法进行图像去噪操作，具体通过分量法和平均法进行图像灰度化操作，具体通过缩放、旋转和平移操作对图像进行几何变换处理；

步骤S2还包括将经步骤S1处理后的待检测图像输入到建立的文本检测模型内，该文本检测模型包括特征提取网络、候选区域生成网络、感兴趣区域池化以及基于关系模块的增强全连接层四个部分，其中特征提取网络使用ResNet101作为骨干网络结合FPN特征金字塔来提取特征图，具体步骤如下：通过ResNet101网络输出特征金字塔{C2，C3，C4，C5}，它们的尺寸与输入图像的尺寸比例为{1/4,1/8,1/16，1/32}，对每个尺度的特征采用SE模块提取不同尺度特征图的注意力，获取通道方向的注意力向量，通过Softmax函数重新校准通道方向的注意力向量，获得多尺度通道的权重分配，将获取到的多尺度特征注意力向量逐个对多尺度特征进行加权，从而实现特征增强，进而使不同尺度的特征信息更加细化且有更多的信息输出；

在实现特征增强后，对增强后的FPN特征，使用1*1的卷积层和Sigmoid激活函数组成的分类器，对图像中的每个像素进行二分类，得到初步的分割图，将其作为分离特征的前景掩码图，通过取分割图的负片图像的方式，得到图像的背景掩码图，通过分别与前景掩码图和背景掩码图相乘的方式，将增强后的FPN特征分离为前景区域特征和背景区域特征，且由于掩码图为的二值分割图，在使用CBAM中的空间注意力机制对前景区域内的特征进行增强时，最大程度消除了背景区域对应特征的影响，同时也使用CBAM中的空间注意力机制对背景区域内的特征进行加权调整，以增加前景区域内特征和背景区域内特征在特征空间中的距离，最后以相加的方式融合分别增强后的前景特征和背景特征，从而进一步实现特征增强，同时消除步骤S1中通过均值滤波法进行图像去噪操作时，因为过滤掉高频分量丢失部分边缘信息导致图像模糊带来的影响，再把高层特征通过最邻近上采样法进行两倍上采样，然后将其和对应的经过1*1的卷积核的前一层特征结合，结合的方式是做像素间的加法，从而能对不同尺度的特征图进行处理，结合了底层特征和高层特征的特征图，进而能适应不同尺度的文本候选区域；

其中候选区域生成网络的具体流程包括：将特征提取网络输出的特征图先进行3*3扫描，然后使用两条并行的1*1卷积操作，分别用于产生前背景分类和框位置回归，且前背景分类和框位置回归是在锚的基础上进行，且锚通过锚自生成模块生成，且锚自生成模块分为锚生成分支和特征映射分支，锚生成分支用来预测锚的位置和大小，锚生成分支又分为锚位置预测子分支和锚形状预测子分支，其中锚位置预测子分支对输出的特征图经过1*1的卷积得到目标得分图，然后经过Sigmoid函数得到每个位置的置信度，其值代表目标物的中心位于该位置的概率，用于预测锚的中心区域，锚形状预测子分支将输出的特征图经过1*1的卷积网络输出同分辨率的双通道特征图，预测锚的宽度和高度，在特征映射分支中，首先用锚形状预测子分支获得锚的宽度和高度，通过1*1卷积对每个位置预测宽高的偏移量，形成一个偏移场，然后根据该偏移场进行3*3的可变性卷积，从而获得锚自适应映射特征图；

其中感兴趣区域池化的具体操作如下：将在候选区域生成的不同尺寸大小的候选框映射到特征图上，然后将候选框分为H×W个子窗口，每个子窗口的大小为（候选框的高度/H）×（候选框的宽度/W），然后在每个子窗口上进行最大池化操作，得到一个固定大小的特征向量，最终，将所有候选框的特征向量串联起来，便于后续进行目标识别，其中基于关系模块的增强全连接层用来建立候选区域目标之间的关系，以提高文本检测的效果，且关系模块通过注意力机制实现对特征的分类和回归，注意力机制主要是根据预设的查找向量（Query）和键值表（Key-ValuePairs），计算其相关程度来将Value映射到正确的输出的过程，注意力机制的计算过程如下：计算比较查找向量Query和所有假设n个Key之间的关系相似度f，具体通过点乘的方式实现，将得到的相似度进行Softmax操作，归一化进而得到对应的权重，针对计算得到的权重，对所有的Value进行加权求和计算，得到基于查找向量Query的注意力机制的数值；

步骤S2还包括在文本检测模型构建完成后，通过性能算法对该模型的推理速度进行计算，其具体计算公式如下：

式中，表示模型的推理速度，/>为固定值，默认为1000毫秒，/>表示图像预处理时间，/>表示模型从输入到输出的时间，/>表示图像处理时间，计算结果越大表示该模型的推理速度越快，并选择CTW1500数据集作为文本检测模型的训练数据集进行训练，以提高模型的性能，在将经步骤S1处理后的待检测图像输入到建立的文本检测模型后，通过文本检测模型对待检测图像中的文本特征进行处理，得到基于待检测图像中文本尺寸的自适应尺寸的文本框的候选区域；

步骤S3还包括对文本框的候选区域进行NMS去重处理，得到文本检测结果，通过检测算法对文本检测的准确性进行判断，其具体计算公式如下：

式中,表示文本检测的准确性，/>表示真实文本实例与候选文本实例之间的交集的区域面积，/>真实文本实例与候选文本实例之间的并集的区域面积，表示计算结果大于0.5视为检测正确；

基于集合预测的文本检测***，其特征在于：包括待测图像采集模块101，待测图像采集模块101用于在自然场景下通过拍照设备采集待检测图像，并对采集的待检测图像进行处理；

图像特征提取模块102，图像特征提取模块102用于将处理后的待检测图像输入到文本检测模型内，通过文本检测模型对待检测图像进行特征提取，进而得到文本框的候选区域；

文本检测结果获取模块103，文本检测结果获取模块103用于对得到文本框的候选区域进行处理，从而得到文本检测结果，并对检测结果的正确性进行判断。

基于集合预测的文本检测介质，其特征在于：基于集合预测的文本检测介质上储存有计算机程序，计算机程序被处理器执行时实现任一项基于集合预测的文本检测方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于集合预测的文本检测方法，其特征在于包括以下步骤：

S2：图像特征提取：将经步骤S1处理后的待检测图像输入到经过数据训练的文本检测模型内，该文本检测模型包括特征提取网络、候选区域生成网络、感兴趣区域池化以及基于关系模块的增强全连接层四个部分，其中特征提取网络使用ResNet101作为骨干网络结合FPN特征金字塔来提取特征图，具体步骤如下：通过ResNet101网络输出特征金字塔{C2，C3，C4，C5}，它们的尺寸与输入图像的尺寸比例为{1/4,1/8,1/16，1/32}，对每个尺度的特征采用SE模块提取不同尺度特征图的注意力，获取通道方向的注意力向量，通过Softmax函数重新校准通道方向的注意力向量，获得多尺度通道的权重分配，将获取到的多尺度特征注意力向量逐个对多尺度特征进行加权，从而实现特征增强，进而使不同尺度的特征信息更加细化且有更多的信息输出；

其中感兴趣区域池化的具体操作如下：将在候选区域生成的不同尺寸大小的候选框映射到特征图上，然后将候选框分为H×W个子窗口，每个子窗口的大小为(候选框的高度/H)×(候选框的宽度/W)，然后在每个子窗口上进行最大池化操作，得到一个固定大小的特征向量，最终，将所有候选框的特征向量串联起来，便于后续进行目标识别，其中基于关系模块的增强全连接层用来建立候选区域目标之间的关系，以提高文本检测的效果，且关系模块通过注意力机制实现对特征的分类和回归，注意力机制主要是根据预设的查找向量(Query)和键值表(Key-ValuePairs)，计算其相关程度来将Value映射到正确的输出的过程，注意力机制的计算过程如下：计算比较查找向量Query和所有假设n个Key之间的关系相似度f，具体通过点乘的方式实现，将得到的相似度进行Softmax操作，归一化进而得到对应的权重，针对计算得到的权重，对所有的Value进行加权求和计算，得到基于查找向量Query的注意力机制的数值；

通过文本检测模型对待检测图像进行特征提取，并对提取的特征实现特征增强，同时消除步骤S1中对图像处理带来的影响，最后输出得到文本框的候选区域；

2.根据权利要求1所述的基于集合预测的文本检测方法，其特征在于：所述步骤S1还包括在自然场景下通过拍照设备采集待检测图像，其中拍照设备为手机、平板以及摄像机中的一种，并对采集的待检测图像进行处理，包括图像去噪、图像灰度化和图像几何变换，具体通过均值滤波法进行图像去噪操作，具体通过分量法和平均法进行图像灰度化操作，具体通过缩放、旋转和平移操作对图像进行几何变换处理。

3.根据权利要求1所述的基于集合预测的文本检测方法，其特征在于：所述步骤S2还包括在文本检测模型构建完成后，通过性能算法对该模型的推理速度进行计算，计算结果越大表示该模型的推理速度越快，并选择CTW1500数据集作为文本检测模型的训练数据集进行训练，以提高模型的性能，在将经步骤S1处理后的待检测图像输入到建立的文本检测模型后，通过文本检测模型对待检测图像中的文本特征进行处理，得到基于待检测图像中文本尺寸的自适应尺寸的文本框的候选区域。

4.根据权利要求1所述的基于集合预测的文本检测方法，其特征在于：所述步骤S3还包括对所述文本框的候选区域进行NMS去重处理，得到文本检测结果，通过检测算法对文本检测的准确性进行判断，计算结果大于0.5视为检测正确。

5.基于集合预测的文本检测***，其特征在于：包括待测图像采集模块(101)，所述待测图像采集模块(101)用于在自然场景下通过拍照设备采集待检测图像，并对采集的待检测图像进行处理；

图像特征提取模块(102)，所述图像特征提取模块(102)用于将处理后的待检测图像输入到文本检测模型内，该文本检测模型包括特征提取网络、候选区域生成网络、感兴趣区域池化以及基于关系模块的增强全连接层四个部分，其中特征提取网络使用ResNet101作为骨干网络结合FPN特征金字塔来提取特征图，具体步骤如下：通过ResNet101网络输出特征金字塔{C2，C3，C4，C5}，它们的尺寸与输入图像的尺寸比例为{1/4,1/8,1/16，1/32}，对每个尺度的特征采用SE模块提取不同尺度特征图的注意力，获取通道方向的注意力向量，通过Softmax函数重新校准通道方向的注意力向量，获得多尺度通道的权重分配，将获取到的多尺度特征注意力向量逐个对多尺度特征进行加权，从而实现特征增强，进而使不同尺度的特征信息更加细化且有更多的信息输出；

通过文本检测模型对待检测图像进行特征提取，进而得到文本框的候选区域；

文本检测结果获取模块(103)，所述文本检测结果获取模块(103)用于对得到文本框的候选区域进行处理，从而得到文本检测结果，并对检测结果的正确性进行判断。

6.基于集合预测的文本检测介质，其特征在于：所述基于集合预测的文本检测介质上储存有计算机程序，所述计算机程序被处理器执行时实现权利要求1～4中任一项所述基于集合预测的文本检测方法的步骤。