CN116386064A - 图像文本的检测方法、装置、设备和可读存储介质 - Google Patents
图像文本的检测方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN116386064A CN116386064A CN202310217907.2A CN202310217907A CN116386064A CN 116386064 A CN116386064 A CN 116386064A CN 202310217907 A CN202310217907 A CN 202310217907A CN 116386064 A CN116386064 A CN 116386064A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- feature
- detected
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000004927 fusion Effects 0.000 claims abstract description 41
- 238000007781 pre-processing Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 58
- 238000013135 deep learning Methods 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008602 contraction Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000003672 processing method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006740 morphological transformation Effects 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1465—Aligning or centring of the image pick-up or image-field by locating a pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种图像文本的检测方法、装置、设备和可读存储介质,该方法包括:获取待检测图像,其中,待检测图像包含文本内容和非文本内容;通过至少两种预处理算法对待检测图像进行特征处理,分别获得不同类型的特征图像,其中,预处理算法包括二值化算法和mser算法,预处理算法与特征图像唯一对应;将所有特征图像和待检测图像进行特征融合,获得多通道特征图像;将多通道特征图像输入至训练完成的文本检测模型中进行识别,得到文本内容的位置信息。基于对原始图像以及二值化的图像、mser算法处理后的图像进行特征融合,并对融合后的图像进行图像识别,在保留原始图像所有特征的基础上,避免了独立文字出现误检的情形,提高了图像文本识别结果的准确性。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种图像文本的检测方法、装置、设备和可读存储介质。
背景技术
文本检测的目标是获取图片中文字的位置,是ocr(Optical CharacterRecignition,光学字符识别)的前置步骤,文本的位置检测出来的越准确,后续的文本识别结果便会越准确。
现有技术中通常包括基于传统图像处理方法和基于深度学习方法两种方法。
具体地:
1、基于传统图像处理方法通常用于较为简单的场景:例如书本扫描、屏幕截图、或者其他清晰度高的图片。该处理方法包含两种实现思路:
1.1、应用计算机视觉中图像处理中形态学方法,实现步骤如下:
a、图像预处理,对于图像进行降噪操作,提高该方法的鲁棒性。
b、对图像进行二值化操作。
c、对图像形态学变换,膨胀腐蚀操作;膨胀可以连接断裂的文本区域,腐蚀可以去除图像中的比较小的噪声。
d、对二值化图像进行连通域处理,形成文本框,然后根据文本框大小,初步筛选属于文字的文本框。
e、将相邻的文本框连接成文本行,最后输出文本行的区域位置。
1.2、利用MSER(Maximally Stable Extremal Regions,最大稳定极值区域)和NMS(非极大值抑制)结合的方法,实现步骤如下:
a、MSER处理:利用分水岭思想对图像进行斑点检测,得到可能为文本的若干个文本框。
b、筛选文字区域:根据文本框大小,初步筛选属于文字的文本框。
c、NMS处理:将第二步骤得到的文本框按照得分进行排序,然后保留其中得分最高的框,然后遍历其余框找到和当前最高分的框的重叠面积(IOU)大于一定阈值的框,并删除。然后继续这个过程,找另一个得分高的框,再删除和其IOU大于阈值的框,一直循环直到所有的框都被处理。
d、将相邻的文本框连接成文本行,最后输出文本行的区域位置。
基于传统图像处理方法对于场景清晰度有较高的要求:其中该方法中包含了较多的参数,例如:二值化不同方法、二值化阈值,文本框大小限制等。如果想要获得更精确的检测效果,每一种场景都需要特定的阈值与之匹配,而实际场景具有较强的随机性,人为设定的特定阈值并不能够与实际场景完全贴合,通用性较差。
2、基于深度学习模型的文本检测方法是通过修改通用目标检测方法的边界框回归模块来定位文本,代表性的方法为TextBox算法,其主要步骤如下(推理阶段):
a、特征提取层(backbone)对输入图片进行特征提取;
b、text-box层提取不同尺度大小的featuremap;
c、利用featuremap回归不同尺度大小的候选框;
d、对上一步骤输出的候选框,应用NMS(非极大值抑制)得到最终的检测结果。
然而,上述两种基于深度学习模型的文本检测方法的缺陷有:a、在训练阶段需要大量的训练样本作为监督信息,大量的训练样本标注的人工成本与时间成本较大。b、对于孤立的文字,尤其是1,i等宽度或者高度较小的文字,由于文本较小、模型下采样等原因导致用于像素分类的特征学习困难,很容易出现漏检,导致文本检测结果准确率低。
针对现有技术中图像内的孤立文字漏检导致文本检测结果准确率低的技术问题,目前未存在有效的解决办法。
发明内容
本发明的目的在于提供了一种图像文本的检测方法、装置、设备和可读存储介质,能够解决现有技术中图像内的孤立文字漏检导致文本检测结果准确率低的技术问题。
本发明的一个方面提供了一种图像文本的检测方法,该方法包括:获取待检测图像,其中,待检测图像包含文本内容和非文本内容;通过至少两种预处理算法对待检测图像进行特征处理,分别获得不同类型的特征图像,其中,预处理算法包括二值化算法和mser算法,预处理算法与特征图像唯一对应;将所有特征图像和待检测图像进行特征融合,获得多通道特征图像;将多通道特征图像输入至训练完成的文本检测模型中进行识别,得到文本内容的位置信息。
可选地,将所有特征图像和待检测图像进行特征融合,获得多通道特征图像,包括:将所有特征图像、待检测图像的尺度通道进行拼接,获得多通道特征图像;和/或将所有特征图像、待检测图像的相同位置元素对应相加,获得多通道特征图像。
可选地,文本检测模型是通过如下方式训练的:获取批量样本图像,对样本图像中的文本内容进行标注,得到带有文本位置标签的样本图像;通过至少两种预处理算法对样本图像进行特征处理,分别获得不同类型的样本特征图像;将样本特征图像和对应的样本图像进行特征融合,获得多通道样本特征图像;将多通道样本特征图像输入至初始的深度学习网络模型进行训练,获得样本图像中的文本内容的预测位置信息,基于预测位置信息与文本位置标签的损失值,调整深度学习模型的参数并继续训练,直至损失值趋于收敛时停止训练,得到文本检测模型。
可选地,将多通道样本特征图像输入至初始的深度学习网络模型进行训练,获得样本图像中的文本内容的预测位置信息,包括:通过深度学习网络的backbone层对多通道样本特征图像进行特征提取,获得多通道样本特征图像的多个局部特征;通过neck层进行上采样,获得相同尺寸的局部特征,并对该局部特征进行特征级联获得融合特征;通过head层对融合特征进行预测,获得训练文本概率图和训练文本阈值图,其中,训练文本概率图为文本像素点所组成的第一封闭区域,训练文本阈值图通过如下方式获得:将第一封闭区域的边界框分别向内和向外扩张n个像素之后,对应获得收缩框和扩张框,确定收缩框与扩张框的中间区域,从中间区域内确定距离第一封闭区域的边界框最近的像素点所组成的第二封闭区域。
可选地,将多通道特征图像输入至训练完成的文本检测模型中进行识别,得到文本内容的位置信息,包括:通过文本预测模型的backbone层、neck层和head层对多通道特征图像进行特征识别,获得文本概率图;通过文本概率图计算多通道特征图像的文本位置信息。
可选地,在获取待检测图像之后,该方法还包括:根据预设的第一图像增强算法对待检测图像的图像属性进行增强处理,图像属性至少包括以下之一:图像亮度、图像色度、图像对比度、图像锐度以及图像分辨率;根据预设的第二图像增强算法对待检测图像的图像质量进行增强处理,第二图像增强算法至少包括以下之一:高斯模糊增强算法、运动模糊增强算法、高斯噪声增强算法。
本发明的另一个方面提供了一种图像文本的检测装置,该装置包括:获取模块,用于获取待检测图像,其中,待检测图像包含文本内容和非文本内容;预处理模块,用于通过至少两种预处理算法对待检测图像进行特征处理,分别获得不同类型的特征图像,其中,预处理算法包括二值化算法和mser算法,预处理算法与特征图像唯一对应;特征融合模块,用于将所有特征图像和待检测图像进行特征融合,获得多通道特征图像;识别模块,用于将多通道特征图像输入至训练完成的文本检测模型中进行识别,得到文本内容的位置信息。
可选地,特征融合模块具体用于:将所有特征图像、待检测图像的尺度通道进行拼接,获得多通道特征图像;和/或,将所有特征图像、待检测图像的相同位置元素对应相加,获得多通道特征图像。
本发明的再一个方面提供了一种计算机设备,该计算机设备包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述任一实施例的图像文本的检测方法。
本发明的又一个方面提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例的图像文本的检测方法。进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明基于对原始图像以及二值化的图像、mser算法处理后的图像进行特征融合,并对融合后的图像进行图像识别,在保留原始图像所有特征的基础上,避免了独立文字出现误检的情形,提高了图像文本识别结果的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的图像文本的检测方法的一种可选的流程图;
图2示出了本发明实施例二提供的图像文本的检测方法实际示例的训练阶段的一种可选的流程图;
图3示出了本发明实施例二提供的图像文本的检测方法实际示例的推理阶段的一种可选的流程图;
图4示出了本发明实施例三提供的图像文本的检测装置的结构框图;以及
图5示出了本发明实施例四提供的适于实现图像文本的检测方法的计算机设备的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
实施例一
本实施例提供了一种图像文本的检测方法,图1示出了该图像文本的检测方法的流程图,如图1所示,该图像文本的检测方法可以包括步骤S101至步骤S104,其中:
步骤S101,获取待检测图像,其中,待检测图像包含文本内容和非文本内容;
待检测图像通过图像采集装置获得,其中,采集装置可以包括:手机拍照、高拍仪、相机拍照、扫描仪、屏幕截图等常用装置。
步骤S102,通过至少两种预处理算法对待检测图像进行特征处理,分别获得不同类型的特征图像,其中,预处理算法包括二值化算法和mser算法,预处理算法与特征图像唯一对应;
在获取到待检测图像时,通过至少两种预处理算法对待检测图像进行特征处理,获得多种类型的特征图像,其中,每一种预处理算法均会得到对应的特征图像。在此以一个实际示例进行描述,特别地,该示例并不对本申请的技术方案范围进行限制。
对待检测图像进行归一化操作,归一化为统一尺寸得到归一化图片。例如640*640*3(W*H*C,其中W为图片宽度;H为图片高度;C为图片尺度,通常为3)。
将归一化得到的图像进行二值化操作得到二值化图片,接上例,二值化图像尺寸大小为:640*640*1。
将归一化得到的图像进行mser操作得到mser图片,将mser图片中的文字区域绘制到一个新的像素全为0的图片中,其中文字区域为1,背景为0,接上例,mser处理之后的图像尺寸大小为:640*640*1。
需要说明的是,本申请中的预处理算法并不仅仅包括二值化算法和mser算法,也可以为常规的图像处理方法,在此不作限制。
步骤S103,将所有特征图像和待检测图像进行特征融合,获得多通道特征图像;
本步骤将不同种类的图像进行特征融合,即归一化后的待检测图像、通过二值化算法获得的特征图像、通过mser算法获得的特征图像进行特征融合,获得多通道特征图像。该步骤旨在保留不同种类的图像特征,保持图像特征的完整性和多样性,避免对待检测图像的个别特征的漏检,从而提高图形文本识别的准确性。
步骤S104,将多通道特征图像输入至训练完成的文本检测模型中进行识别,得到文本内容的位置信息。
将包含不同维度信息的多通道特征图像输入至训练完成的文本检测模型中进行识别,即可获得待检测图像中的文本内容的位置信息,有效解决了孤立文本行漏检的问题,同时提高了文本检测模型的召回率。
优选地,步骤S103可以包括步骤S1031至步骤S1032,其中:
步骤S1031,将所有特征图像、待检测图像的尺度通道进行拼接,获得多通道特征图像;和/或
在保留特征图像、待检测图像各通道元素数值不变的情况下,将尺度通道直接叠加或者拼接,本质相当于是把多张图像整合在一个图像中,但是各个图像的特征仍旧互不干扰,独立存在。接上述步骤S103的示例,最终得到的多通道图像特征大小为:640*640*5。
步骤S1032,将所有特征图像、待检测图像的相同位置元素对应相加,获得多通道特征图像。
此外,特征融合还可通过方式实现:在保持特征图像、待检测图像通道数不变的情况下,将两张特征图的元素数值相加,相加后的特征维度不发生变化,该方式能够减少特征融合的运算量,从而提高图像文本识别的效率。
需要说明的是,上述两种融合方式并无顺序或者须单独使用的限制要求,按照实际应用场景随机选择使用。
优选地,文本检测模型是通过如下方式训练的,可以包括步骤A1至步骤A4,其中:
步骤A1,获取批量样本图像,对样本图像中的文本内容进行标注,得到带有文本位置标签的样本图像;
文本位置标签可以为样本图像文本内容包含的每个像素点的左上、右下坐标值,标注方式可以通过人工方式标注,也可以使用通用位置标注模型进行标注,在此不做限制。
步骤A2,通过至少两种预处理算法对样本图像进行特征处理,分别获得不同类型的样本特征图像;
步骤A3,将样本特征图像和对应的样本图像进行特征融合,获得多通道样本特征图像;
训练过程中的预处理算法以及特征融合与待检测图像的处理方式一致,在此不再赘述。
步骤A4,将多通道样本特征图像输入至初始的深度学习网络模型进行训练,获得样本图像中的文本内容的预测位置信息,基于预测位置信息与文本位置标签的损失值,调整深度学习模型的参数并继续训练,直至损失值趋于收敛时停止训练,得到文本检测模型。
初始的深度学习网络模型可以是DBNet网络结构,其中,该模型包括backbone层、neck层、head层;阈值图损失函数可以采用smooth-L1损失函数。
文本内容的预测位置信息可以是文本内容对应的像素点位置坐标值。
图像文本检测模型的训练为迭代的过程,即对深度学习模型的参数反复进行调整的过程,当迭代次数达到预设次数阈值,或者迭代时的损失函数小于预设的损失阈值,则说明训练已经得到要求,从而得到图像文本检测模型。
优选地,步骤A4可以包括步骤A41至步骤A44,其中:
步骤A41,通过深度学习网络的backbone层对多通道样本特征图像进行特征提取,获得多通道样本特征图像的多个局部特征;
Backbone层可采用resnet神经网络的三个残差模块作为卷积层对多通道样本特征图像进行底层或基础的特征提取,以便在多通道样本图像中提取到样本图像中的所有原始特征。
Backbone层可以替换为其他主干网络结构,例如resnet系列网络、mobilenet系列网络、swin transformer等网络结构,在此不做限制。
步骤A42,通过neck层进行上采样,获得相同尺寸的局部特征,并对该局部特征进行特征级联获得融合特征;
针对得到的局部特征,基于neck层对应的通道对局部特征的尺寸大小进行识别,并将相同尺寸的局部特征进行特征级联获得融合特征。其中,特征级联可以为通过串联叠加或者元素相乘在特征空间中融合跨模态数据。
Neck可以替换为其他特征融合结构,例如FPN-PAN结构、BiFPN结构,ASFF结构等,在此不做限制。
步骤A43,通过head层对融合特征进行预测,获得训练文本概率图和训练文本阈值图,其中,训练文本概率图为文本像素点所组成的第一封闭区域,训练文本阈值图通过如下方式获得:将第一封闭区域的边界框分别向内和向外扩张n个像素之后,对应获得收缩框和扩张框,确定收缩框与扩张框的中间区域,从中间区域内确定距离第一封闭区域的边界框最近的像素点所组成的第二封闭区域;
训练文本概率图是从原始图像区域内获得像素点是文本的所有像素,并获取由所有文本像素点组成的封闭区域进行输出。
训练文本阈值图通过如下方式获得:将第一封闭区域的边界框分别向内和向外扩张n个像素之后,对应获得收缩框和扩张框,确定收缩框与扩张框的中间区域,其中,收缩框和扩张框均为环形结构,二者是包含的关系,中间区域时二者之间形成的环形区域,即收缩框外扩张框里的区域,最后从中间区域内确定距离第一封闭区域的边界框最近的像素点所组成的第二封闭区域。
训练文本概率图和训练文本阈值图的设置是为了对文本位置进行更精准的定位,两者相互写协作,提高了文本预测模型的准确率。
Head层可以替换为其他的特征解码层,例如将DBNet中应用的二维反卷积替换为Resize网络,在此不做限制。
步骤A44,通过训练文本概率图和训练文本阈值图计算多通道样本特征图像中的文本位置信息。
具体地,该计算流程可以通过如下公式实现:
Pi,j,Ti,j分别为训练文本概率图、训练文本阈值图中坐标为(i,j)的像素值,Bi,j为计算得到的对应坐标的像素值。
本实施例的深度学习模型不仅可以帮助用户准确分别出文本区域和背景,而且还可以将连接紧密的文本实例分离出来,提高了图像文本识别的准确性,避免出现独立文字漏检的情形。
优选地,步骤S104可以包括步骤S1041至步骤S1042,其中:
步骤S1041,通过文本预测模型的backbone层、neck层和head层对多通道特征图像进行特征识别,获得文本概率图;
该步骤的识别原理与训练过程步骤A41至步骤A43相同,在此不再赘述。
步骤S1042,通过文本概率图计算多通道特征图像的文本位置信息。
具体地,该计算流程可以通过如下方式实现:
Pi,j分别为文本概率图中坐标为(i,j)的像素值,Bi,j为计算得到的对应坐标的像素值。
优选地,在获取待检测图像之后,该方法还包括步骤B1至步骤B2,其中:
步骤B1,根据预设的第一图像增强算法对待检测图像的图像属性进行增强处理,图像属性至少包括以下之一:图像亮度、图像色度、图像对比度、图像锐度以及图像分辨率;
步骤B2,根据预设的第二图像增强算法对待检测图像的图像质量进行增强处理,第二图像增强算法至少包括以下之一:高斯模糊增强算法、运动模糊增强算法、高斯噪声增强算法。
由于样本图像和/或待检测图像包含的状态值均在理想条件下,而获得的待检测图片可能存在模糊现象,如果直接对理想状态下的图片进行训练,将会使得后续的识别效果产生一定的局限性,只能对具有标准状态值的图像进行识别,采用预设的图像增强算法对待检测图像和/或样本图像从图像属性和图像质量两种维度信息进行图像增强,进而提高图片方向识别模型的训练效果。
此处需要说明的是,设置上述步骤B1和步骤B2的目的,旨在获取到待检测图像或样本图像之后,基于预设图像增强算法对获得的图像进行图像增强,以提高图像文本检测模型的训练效果,并无特别的处理时序要求,也就是说,具体实现时,可以先执行上述步骤B1,后执行上述步骤B2,或者先执行上述步骤B2,后执行上述步骤B1,或者同时执行步骤B1和B2均可。
本实施例基于对原始图像以及二值化的图像、mser算法处理后的图像进行特征融合,并对融合后的图像进行图像识别,在保留原始图像所有特征的基础上,避免了独立文字出现误检的情形,提高了图像文本识别结果的准确性。
实施例二
本发明的实施例二还提供了一种图像文本的检测方法的整体流程。其中:整体流程包括训练阶段和推理阶段,具体地:
训练阶段如图2所示,通过如下步骤实现:
步骤1、图像采集装置拍照,采集装置可以包括:手机拍照、高拍仪、相机拍照、扫描仪、屏幕截图等常用装置;基于上述采集装置采集到的图像构建训练集。
步骤2、对采集图像进行归一化操作,归一化为统一尺寸得到归一化图片:例如640*640*3(W*H*C,其中W为图片宽度;H为图片高度;C为图片尺度,通常为3)。
步骤3、将归一化得到的图像进行二值化操作得到二值化图片,尺寸大小为:640*640*1。
步骤4、将归一化得到的图像进行mser操作得到mser图片,将得到的文字区域绘制到一个新的像素全为0的图片中,其中文字区域为1,背景为0,尺寸大小为:640*640*1。
步骤5、将2-4步骤中得到的新的图像进行特征融合,融合方法是将图像中的尺度通道进行拼接,最终得到的新的图像特征大小为:640*640*5。
步骤6、输入到DBNet经典网络。
步骤6.1、经过backbone+neck+head层获得probability map和threshold map特征层,其中probability map为文本像素点所组成的第一封闭区域,其中threshold map通过如下方式获得:将所述第一封闭区域的边界框分别向内和向外扩张n个像素之后,对应获得收缩框和扩张框,确定所述收缩框与所述扩张框的中间区域,从所述中间区域内确定距离所述第一封闭区域的边界框最近的像素点所组成的第二封闭区域。
步骤6.2、经过可微分模块计算binary map,其中可微分模块是通过下面公式所得,公式中Pij,Tij分别为probability map,threshold map特征图中坐标为(i,j)的像素值,Bij为计算得到的对应坐标的像素值。
步骤6.3、probability map、threshold map和binary map与真实标签计算loss
步骤7、重复1-6操作,直至训练结束。
推理阶段如图3所示,通过如下方式实现:
步骤1、图像采集装置拍照,采集装置可以包括:手机拍照、高拍仪、相机拍照、扫描仪、屏幕截图等常用装置。
步骤2、对采集图像进行归一化操作,归一化为统一尺寸得到归一化图片:例如640*640*3(W*H*C,其中W为图片宽度;H为图片高度;C为图片尺度,通常为3)。
步骤3、将归一化得到的图像进行二值化操作得到二值化图片,尺寸大小为:640*640*1。
步骤4、将归一化得到的图像进行MSER操作得到mser图片,将得到的文字区域绘制到一个新的像素全为0的图片中,其中文字区域为1,背景为0,尺寸大小为:640*640*1。
步骤5、将2-4步骤中得到的新的图像进行特征融合,融合方法是将图像中的尺度通道进行拼接,最终得到的新的图像特征大小为:640*640*5。
步骤6、输入到DBNet经典网络
步骤6.1、经过backbone+neck+head层获得probability map特征层。
步骤7、通过probability map特征层获取box information(文本位置)。
实施例三
本发明的实施例三还提供了一种图像文本的检测装置,该图像文本的检测装置与上述实施例一提供的图像文本的检测方法相对应,相应的技术特征和技术效果在本实施例中不再详述,相关之处可参考上述实施例一。具体地,图4示出了该图像文本的检测装置的结构框图。如图4所示,该图像文本的检测装置400包括获取模块401、预处理模块402、特征融合模块403和识别模块404,其中:
获取模块401,用于获取待检测图像,其中,待检测图像包含文本内容和非文本内容;
预处理模块402,与获取模块401连接,用于通过至少两种预处理算法对待检测图像进行特征处理,其中,预处理算法包括二值化算法和mser算法,预处理算法与特征图像唯一对应;
特征融合模块403,与预处理模块402连接,用于将所有特征图像和待检测图像进行特征融合,获得多通道特征图像;
识别模块404,与特征融合模块403连接,用于将多通道特征图像输入至训练完成的文本检测模型中进行识别,得到文本内容的位置信息。
可选地,特征融合模块具体用于:将所有特征图像、待检测图像的尺度通道进行拼接,获得多通道特征图像;和/或将所有特征图像、待检测图像的相同位置元素对应相加,获得多通道特征图像。
可选地,该装置还包括训练模块,具体用于:获取批量样本图像,对样本图像中的文本内容进行标注,得到带有文本位置标签的样本图像;通过至少两种预处理算法对样本图像进行特征处理,分别获得不同类型的样本特征图像;将样本特征图像和对应的样本图像进行特征融合,获得多通道样本特征图像;将多通道样本特征图像输入至初始的深度学习网络模型进行训练,获得样本图像中的文本内容的预测位置信息,基于预测位置信息与文本位置标签的损失值,调整深度学习模型的参数并继续训练,直至损失值趋于收敛时停止训练,得到文本检测模型。
可选地,训练模块还用于:通过深度学习网络的backbone层对多通道样本特征图像进行特征提取,获得多通道样本特征图像的多个局部特征;通过neck层进行上采样,获得相同尺寸的局部特征,并对该局部特征进行特征级联获得融合特征;通过head层对融合特征进行预测,获得训练文本概率图和训练文本阈值图,其中,训练文本概率图为文本像素点所组成的第一封闭区域,训练文本阈值图通过如下方式获得:将第一封闭区域的边界框分别向内和向外扩张n个像素之后,对应获得收缩框和扩张框,确定收缩框与扩张框的中间区域,从中间区域内确定距离第一封闭区域的边界框最近的像素点所组成的第二封闭区域。
可选地,识别模块具体用于:通过文本预测模型的backbone层、neck层和head层对多通道特征图像进行特征识别,获得文本概率图;通过文本概率图计算多通道特征图像的文本位置信息。
可选地,该装置还包括图像增强模块,具体用于:根据预设的第一图像增强算法对待检测图像的图像属性进行增强处理,图像属性至少包括以下之一:图像亮度、图像色度、图像对比度、图像锐度以及图像分辨率;根据预设的第二图像增强算法对待检测图像的图像质量进行增强处理,第二图像增强算法至少包括以下之一:高斯模糊增强算法、运动模糊增强算法、高斯噪声增强算法。
实施例四
图5示出了本发明实施例四提供的适于实现图像文本的检测方法的计算机设备的框图。本实施例中,计算机设备500可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图5所示,本实施例的计算机设备500至少包括但不限于:可通过***总线相互通信连接的存储器501、处理器502、网络接口503。需要指出的是,图5仅示出了具有组件501-503的计算机设备500,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器503至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器501可以是计算机设备500的内部存储单元,例如该计算机设备500的硬盘或内存。在另一些实施例中,存储器501也可以是计算机设备500的外部存储设备,例如该计算机设备500上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器501还可以既包括计算机设备500的内部存储单元也包括其外部存储设备。在本实施例中,存储器501通常用于存储安装于计算机设备500的操作***和各类应用软件,例如图像文本的检测方法的程序代码等。
处理器502在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器502通常用于控制计算机设备500的总体操作。例如执行与计算机设备500进行数据交互或者通信相关的控制和处理等。本实施例中,处理器502用于运行存储器501中存储的图像文本的检测方法的步骤的程序代码。
在本实施例中,存储于存储器501中的图像文本的检测方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器502)所执行,以完成本发明。
网络接口503可包括无线网络接口或有线网络接口,该网络接口503通常用于在计算机设备500与其他计算机设备之间建立通信链接。例如,网络接口503用于通过网络将计算机设备500与外部终端相连,在计算机设备500与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
实施例五
本实施例还提供一种计算机可读存储介质,包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等,其上存储有计算机程序,所述计算机程序被处理器执行时实现图像文本的检测方法的步骤。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
需要说明的是,本发明实施例序号仅仅为了描述,并不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种图像文本的检测方法,其特征在于,所述方法包括:
获取待检测图像,其中,所述待检测图像包含文本内容和非文本内容;
通过至少两种预处理算法对所述待检测图像进行特征处理,分别获得不同类型的特征图像,其中,所述预处理算法包括二值化算法和mser算法,所述预处理算法与所述特征图像唯一对应;
将所有特征图像和所述待检测图像进行特征融合,获得多通道特征图像;
将所述多通道特征图像输入至训练完成的文本检测模型中进行识别,得到所述文本内容的位置信息。
2.根据权利要求1所述的方法,其特征在于,所述将所有特征图像和所述待检测图像进行特征融合,获得多通道特征图像,包括:
将所有特征图像、所述待检测图像的尺度通道进行拼接,获得多通道特征图像;和/或
将所有特征图像、所述待检测图像的相同位置元素对应相加,获得多通道特征图像。
3.根据权利要求1或2所述的方法,其特征在于,所述文本检测模型是通过如下方式训练的:
获取批量样本图像,对所述样本图像中的文本内容进行标注,得到带有文本位置标签的样本图像;
通过至少两种预处理算法对所述样本图像进行特征处理,分别获得不同类型的样本特征图像;
将所述样本特征图像和对应的样本图像进行特征融合,获得多通道样本特征图像;
将所述多通道样本特征图像输入至初始的深度学习网络模型进行训练,获得样本图像中的文本内容的预测位置信息,基于所述预测位置信息与所述文本位置标签的损失值,调整所述深度学习模型的参数并继续训练,直至损失值趋于收敛时停止训练,得到文本检测模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述多通道样本特征图像输入至初始的深度学习网络模型进行训练,获得样本图像中的文本内容的预测位置信息,包括:
通过所述深度学习网络的backbone层对所述多通道样本特征图像进行特征提取,获得所述多通道样本特征图像的多个局部特征;
通过neck层进行上采样,获得相同尺寸的局部特征,并对该局部特征进行特征级联获得融合特征;
通过head层对所述融合特征进行预测,获得训练文本概率图和训练文本阈值图,其中,所述训练文本概率图为文本像素点所组成的第一封闭区域,所述训练文本阈值图通过如下方式获得:将所述第一封闭区域的边界框分别向内和向外扩张n个像素之后,对应获得收缩框和扩张框,确定所述收缩框与所述扩张框的中间区域,从所述中间区域内确定距离所述第一封闭区域的边界框最近的像素点所组成的第二封闭区域;
通过所述训练文本概率图和所述训练文本阈值图计算所述多通道样本特征图像中的文本位置信息。
5.根据权利要求4所述的方法,其特征在于,所述将所述多通道特征图像输入至训练完成的文本检测模型中进行识别,得到所述文本内容的位置信息,包括:
通过所述文本预测模型的backbone层、neck层和head层对所述多通道特征图像进行特征识别,获得文本概率图;
通过所述文本概率图计算所述多通道特征图像的文本位置信息。
6.根据权利要求1所述的方法,其特征在于,在获取待检测图像之后,所述方法还包括:
根据预设的第一图像增强算法对所述待检测图像的图像属性进行增强处理,所述图像属性至少包括以下之一:图像亮度、图像色度、图像对比度、图像锐度以及图像分辨率;
根据预设的第二图像增强算法对所述待检测图像的图像质量进行增强处理,所述第二图像增强算法至少包括以下之一:高斯模糊增强算法、运动模糊增强算法、高斯噪声增强算法。
7.一种图像文本的检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测图像,其中,所述待检测图像包含文本内容和非文本内容;
预处理模块,用于通过至少两种预处理算法对所述待检测图像进行特征处理,分别获得不同类型的特征图像,其中,所述预处理算法包括二值化算法和mser算法,所述预处理算法与所述特征图像唯一对应;
特征融合模块,用于将所有特征图像和所述待检测图像进行特征融合,获得多通道特征图像;
识别模块,用于将所述多通道特征图像输入至训练完成的文本检测模型中进行识别,得到所述文本内容的位置信息。
8.根据权利要求7所述的装置,其特征在于,所述特征融合模块具体用于:
将所有特征图像、所述待检测图像的尺度通道进行拼接,获得多通道特征图像;和/或
将所有特征图像、所述待检测图像的相同位置元素对应相加,获得多通道特征图像。
9.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310217907.2A CN116386064A (zh) | 2023-03-03 | 2023-03-03 | 图像文本的检测方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310217907.2A CN116386064A (zh) | 2023-03-03 | 2023-03-03 | 图像文本的检测方法、装置、设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116386064A true CN116386064A (zh) | 2023-07-04 |
Family
ID=86972187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310217907.2A Pending CN116386064A (zh) | 2023-03-03 | 2023-03-03 | 图像文本的检测方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386064A (zh) |
-
2023
- 2023-03-03 CN CN202310217907.2A patent/CN116386064A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151723B2 (en) | Image segmentation method, apparatus, and fully convolutional network system | |
US9235759B2 (en) | Detecting text using stroke width based text detection | |
CN110942074B (zh) | 字符切分识别方法、装置、电子设备、存储介质 | |
JP5775225B2 (ja) | マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 | |
US7873215B2 (en) | Precise identification of text pixels from scanned document images | |
CN109753953B (zh) | 图像中定位文本的方法、装置、电子设备和存储介质 | |
US9275030B1 (en) | Horizontal and vertical line detection and removal for document images | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
US11151402B2 (en) | Method of character recognition in written document | |
CN111275034B (zh) | 从图像中提取文本区域的方法、装置、设备和存储介质 | |
CN110647882A (zh) | 图像校正方法、装置、设备及存储介质 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN111507181B (zh) | 票据图像的矫正方法、装置及计算机设备 | |
JP2021135993A (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
CN109508716B (zh) | 一种图像文字的定位方法及装置 | |
CN112070649A (zh) | 一种去除特定字符串水印的方法及*** | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
CN113033558A (zh) | 一种用于自然场景的文本检测方法及装置、存储介质 | |
CN114841974A (zh) | 一种水果内部结构无损检测方法、***、电子设备及介质 | |
CN111652140A (zh) | 基于深度学习的题目精准分割方法、装置、设备和介质 | |
CN108877030B (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113887375A (zh) | 一种文本识别方法、装置、设备及存储介质 | |
CN116524503A (zh) | 多行文本行提取方法、装置、设备及可读存储介质 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN107330470B (zh) | 识别图片的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |