CN110443252A - 一种文字检测方法、装置及设备 - Google Patents
一种文字检测方法、装置及设备 Download PDFInfo
- Publication number
- CN110443252A CN110443252A CN201910758729.8A CN201910758729A CN110443252A CN 110443252 A CN110443252 A CN 110443252A CN 201910758729 A CN201910758729 A CN 201910758729A CN 110443252 A CN110443252 A CN 110443252A
- Authority
- CN
- China
- Prior art keywords
- image
- detected
- enhancing
- network
- default
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002708 enhancing effect Effects 0.000 claims abstract description 70
- 238000013507 mapping Methods 0.000 claims abstract description 66
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 238000013527 convolutional neural network Methods 0.000 claims description 76
- 230000006870 function Effects 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 29
- 238000003475 lamination Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000008569 process Effects 0.000 description 9
- 230000004927 fusion Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文字检测方法、装置及设备,该方法包括:获取待检测图像;利用预设深度SICE算法对待检测图像进行对比度增强,获取增强图像的特征映射;其中,增强图像为对比度增强后的待检测图像;根据特征映射,利用预设GridRCNN网络,生成文字标记框,并在结果图像上显示,以检测出结果图像中的文字;其中,结果图像为待检测图像或增强图像;本发明通过利用预设深度SICE算法对待检测图像进行对比度增强,可以使用深度SICE对待检测图像进行对比度增强;通过根据特征映射,利用预设GridRCNN网络,生成文字标记框,可以通过文字标记框圈出排列顺序和规则不一的文字,从而实现光照环境多变的自然场景下的文字检测。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及一种文字检测方法、装置及设备。
背景技术
自然场景文字检测任务是文字识别的前提,即先在自然场景中将文字检测出来,是实现机器人对自然场景的理解的其中重要一步。但由于自然场景情况多变,室内室外光照均匀不一,文字形态不一,可能包括浮雕字体和镂空字体等多种不同字体,文字排列组合可能不会规整等,都会影响到文字检测的效果。
现有技术中,传统的文字检测算法并没有考虑多光照情况下的检测,而许多图像对比度增强算法如HDR(High-Dynamic Range,高动态范围),MEF(Multi-exposure Fusion,多曝光融合)等并不能通过神经网络实现,不适合文字检测。
因此,如何能够提供能够在低对比度场景中检测出图片中的排列顺序和规则不一的文字,实现光照环境多变的自然场景中的文字检测,是现今急需解决的问题。
发明内容
本发明的目的是提供一种文字检测方法、装置及设备,以通过深度SICE(SingleImage Contrast Enhancer,单图像对比度增强器)和GridRCNN(一种目标检测算法)的融合,能够检测低对比度场景中排列顺序和规则不一的文字,从而实现光照环境多变的自然场景中的文字检测。
为解决上述技术问题,本发明提供一种文字检测方法,包括:
获取待检测图像;
利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射;其中,所述增强图像为对比度增强后的所述待检测图像;
根据所述特征映射,利用预设GridRCNN网络,生成文字标记框,并在结果图像上显示,以检测出所述结果图像中的文字;其中,所述结果图像为所述待检测图像或所述增强图像。
可选的,所述利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射,包括:
根据所述待检测图像的图像频率域特性,将所述待检测图像拆分为高频细节部分和低频亮度部分;
利用第一预设CNN网络对所述低频亮度部分进行亮度增强,得到对应的亮度部分;
利用第二预设CNN网络对所述高频细节部分进行细节增强,得到对应的细节部分;
将所述细节部分与所述亮度部分合并,得到初步增强图像;
利用第三预设CNN网络对所述初步增强图像进行全图增强,得到所述特征映射。
可选的,所述第一预设CNN网络的网络结构为9层的U-Net结构;所述第一预设CNN网络包括卷积层、反卷积层和残差连接层,所述卷积层和所述反卷积层中的激活函数为参数化修正线性单元;所述第一预设CNN网络的损失函数为:
其中,n为训练图像的数量,n≥i≥1,为第i个训练图像对应的参照图像的低频亮度部分,为第i个训练图像的低频亮度部分,Θ为预设参数,FL(·)为所述第一预设CNN网络的映射函数。
可选的,所述利用第二预设CNN网络对所述高频细节部分进行细节增强,得到对应的细节部分,包括:
将所述高频细节部分输入到所述第二预设CNN网络,得到细节增强后的所述低频亮度部分;
将所述低频亮度部分与细节增强后的所述低频亮度部分进行叠加,得到所述亮度部分。
可选的,所述第二预设CNN网络和所述第三预设CNN网络的网络结构均为7层的卷积神经网络,激活函数均为参数化修正线性单元;所述第二预设CNN网络的损失函数为:
其中,m为训练图像的数量,m≥a≥1,为第a个训练图像对应的参照图像的高频细节部分,为第a个训练图像的高频细节部分,Ω为预设参数,FR(·)为所述第二预设CNN网络的映射函数;
所述第三预设CNN网络的损失函数为:
其中,q为训练图像的数量,q≥b≥1为,ssim(·)为结构相似性函数,为第b个训练图像对应的参照图像,Ψ为预设参数,F(·)为所述第三预设CNN网络的映射函数。
可选的,所述文字标记框为多边形框或矩形框。
可选的,所述根据所述特征映射,利用预设GridRCNN网络,生成文字标记框,包括:
利用预设区域生成网络层对所述特征映射进行处理,提取所述特征映射中的候选区域;
利用预设RoI对齐层对所述候选区域进行修正,得到对应的标准候选区域;
获取所述标准候选区域对应的热点图,并从每个所述热点图中提取各自对应的一个网格点;其中,所述网格点的数量与所述热点图的数量相同;
将所述网格点分到四个网格点组;其中,四个所述网格点组分别为左边界网格点组、右边界网格点组、上边界网格点组和下边界网格点组;
利用最小二乘法对每个所述网格点组中的所述网格点进行拟合,得到所述文字标记框;其中,所述文字标记框包含四个交点和交点间的拟合曲线。
可选的,所述利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射之前,还包括:
判断所述待检测图像的对比度情况是否为低对比度;
若是,则执行所述利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射的步骤;
若否,则提取所述待检测图像的原始特征映射,并根据所述原始特征映射,利用所述预设GridRCNN网络,生成所述文字标记框,并在所述结果图像上显示,以检测出所述结果图像中的文字。
本发明还提供了一种文字检测装置,包括:
获取模块,用于获取待检测图像;
对比度增强模块,用于利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射;其中,所述增强图像为对比度增强后的所述待检测图像;
检测模块,用于根据所述特征映射,利用预设GridRCNN网络,生成文字标记框,并在结果图像上显示,以检测出所述结果图像中的文字;其中,所述结果图像为所述待检测图像或所述增强图像。
本发明还提供了一种文字检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述的文字检测方法的步骤。
本发明所提供的一种文字检测方法,包括:获取待检测图像;利用预设深度SICE算法对待检测图像进行对比度增强,获取增强图像的特征映射;其中,增强图像为对比度增强后的待检测图像;根据特征映射,利用预设GridRCNN网络,生成文字标记框,并在结果图像上显示,以检测出结果图像中的文字;其中,结果图像为待检测图像或增强图像;
可见,本发明通过利用预设深度SICE算法对待检测图像进行对比度增强,可以使用深度SICE对待检测图像进行对比度增强;通过根据特征映射,利用预设GridRCNN网络,生成文字标记框,可以通过文字标记框圈出排列顺序和规则不一的文字,实现文字检测,从而实现光照环境多变的自然场景下的文字检测。本发明还提供了一种文字检测装置及设备,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种文字检测方法的流程图;
图2为本发明实施例所提供的另一种文字检测方法的对比度增强过程的流程图;
图3为本发明实施例所提供的另一种文字检测方法的文字标记框生成过程的流程图;
图4为本发明实施例所提供的一种文字检测装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的一种文字检测方法的流程图。该方法可以包括:
步骤101:获取待检测图像。
其中,本步骤中的待检测图像可以为需要进行文字检测的图像。对于待检测图像的具体内容,可以由设计人员自行设置,如可以接收用户通过有线或无线方式传输的待检测图像,可以接收机器人的拍摄装置采集的待检测图像。本实施例对此不做任何限制。
具体的,对于待检测图像的具体大小、格式和内容,可以由设计人员自行设置,处理器可以利用本实施例所提供的方法对获取的待检测图像进行文字检测,本实施例对此不做任何限制。
可以理解的是,本实施例中利用预设深度SICE算法对待检测图像进行对比度增强,从而使预设GridRCNN网络可以利用增强图像的特征映射进行文字检测,避免待检测图像过低的对比度对文字检测的影响。对应的,本实施例中在获取待检测图像之后,还可以包括判断待检测图像的对比度情况是否为低对比度的步骤;即通过判断待检测图像的对比度情况是高对比度还是低对比度,确定是否需要使用预设深度SICE算法对待检测图像进行对比度增强;若为低对比度,则可以进入步骤102,利用预设深度SICE算法对待检测图像进行对比度增强;若不为低对比度,则可以直接提取待检测图像的特征映射(原始特征映射),使预设GridRCNN网络可以利用待检测图像的特征映射进行文字检测。
对应的,对于判断待检测图像的对比度情况是否为低对比度的具体方式,可以由设计人员自行设置,如可以采用与现有技术中图像的对比度检测方法相同或相似的方式检测待检测图像的对比度情况,再通过对比度情况与阈值或预设范围的比较,确定待检测图像的对比度情况是否为低对比度。
步骤102:利用预设深度SICE算法对待检测图像进行对比度增强,获取增强图像的特征映射;其中,增强图像为对比度增强后的待检测图像。
可以理解的是,本步骤的目的可以为运用已训练好的深度SICE图像对比度增强器(预设深度SICE算法)调整待检测图像的对比度,从而得到调整好的增强图像的特征映射。
具体的,对于本步骤中利用预设深度SICE算法对待检测图像进行对比度增强的具体方式,可以由设计人员自行设置,如图2所示,本步骤可以包括:
步骤201:根据待检测图像的图像频率域特性,将待检测图像拆分为高频细节部分和低频亮度部分。
其中,本步骤的目的可以为利用待检测图像的图像频率域特性,将待检测图像拆分为高频的亮度部分(高频细节部分)和低频的细节部分(低频亮度部分),以根据两个部分的不同特征进行相应的调整。
对应的,本步骤中根据待检测图像的图像频率域特性,将待检测图像拆分为高频细节部分和低频亮度部分的具体方式,可以由设计人员自行设置,如对待检测图像的每个图像通道应用加权最小二乘法(WLS),通过结果与相应阈值的比较,确定待检测图像中的高频细节部分和低频亮度部分这两个频域。
具体的,本步骤可以依据图像频率域特性,将待检测图像(I(x,y))分成高频细节部分(R(x,y))和低频亮度部分(L(x,y)),即I(x,y)=L(x,y)+R(x,y),且 为三维向量空间。
步骤202:利用第一预设CNN网络对低频亮度部分进行亮度增强,得到对应的亮度部分。
可以理解的是,本步骤与步骤203的目的可以为针对拆分出的高频细节部分(高频的细节部分)和低频亮度部分(低频的亮度部分)分别利用各自对应的CNN(卷积神经网络)网络进行处理。本步骤中的第一预设CNN网络可以为预先设置的用于对低频亮度部分进行增强的CNN网络,即亮度增强网络。
对应的,本步骤中可以将低频亮度部分(L(x,y))作为第一预设CNN网络的输入,输入到第一预设CNN网络进行亮度增强后,得到输出的亮度部分(L'(x,y)),即亮度增强后的低频亮度部分。
具体的,对于本步骤中利用第一预设CNN网络对低频亮度部分进行亮度增强的具体过程,即第一预设CNN网络的具体结构,可以由设计人员自行设置,如第一预设CNN网络的网络结构可以为9层的U-Net结构,且规定输入的低频亮度部分的图像(RGB图像)的大小为129×129,3通道;第一预设CNN网络可以仅包括卷积层、反卷积层和残差连接层三种层,卷积层和反卷积层中的激活函数可以为参数化修正线性单元(PReLU);第一预设CNN网络的损失函数可以为MSE(均方误差):
其中,n为训练图像的数量,即训练第一预设CNN网络所使用的训练图像的数量;n≥i≥1,为第i个训练图像对应的参照图像的低频亮度部分,为第i个训练图像的低频亮度部分;Θ为预设参数,即训练第一预设CNN网络时自行设置的参数;FL(·)为第一预设CNN网络的映射函数。
步骤203:利用第二预设CNN网络对高频细节部分进行细节增强,得到对应的细节部分。
可以理解的是,本步骤中的第二预设CNN网络可以为预先设置的用于对高频细节部分进行增强的CNN网络,即亮度增强网络。
对应的,本步骤中可以将高频细节部分(R(x,y))作为第二预设CNN网络的输入,输入到第二预设CNN网络进行细节增强后,得到输出的细节部分(R'(x,y)),即细节增强后的高频细节部分。
具体的,对于本步骤中利用第二预设CNN网络对高频细节部分进行细节增强的具体过程,即第二预设CNN网络的具体结构,可以由设计人员自行设置,如第二预设CNN网络可以为7层的卷积神经网络,且规定输入的高频细节部分的图像的大小为129×129,3通道;激活函数为参数化修正线性单元;第二预设CNN网络的损失函数可以为L1范数损失函数:
其中,m为训练图像的数量,即训练第二预设CNN网络所使用的训练图像的数量;m≥a≥1,为第a个训练图像对应的参照图像的高频细节部分,为第a个训练图像的高频细节部分,Ω为预设参数,即训练第一预设CNN网络时自行设置的参数;FR(·)为第二预设CNN网络的映射函数。
步骤204:将细节部分与亮度部分合并,得到初步增强图像。
其中,本步骤的目的可以为将对高频细节部分和低频亮度部分进行处理得到的细节部分(R'(x,y))与亮度部分(L'(x,y))进行重新合并,得到初步增强图像(I'(x,y)),即I'(x,y)=L'(x,y)+R'(x,y)。
步骤205:利用第三预设CNN网络对初步增强图像进行全图增强,得到特征映射。
可以理解的是,本步骤中的第三预设CNN网络可以为预先设置的用于对初步增强图像进行增强的CNN网络,即全图增强网络。
对应的,本步骤中可以将初步增强图像(I'(x,y))作为第三预设CNN网络的输入,输入到第三预设CNN网络进行全图增强后,将输出第三预设CNN网络的输出结果作为增强图像(经过对比度增强后的待检测图像)的特征映射(feature map)。
具体的,对于本步骤中利用第三预设CNN网络对初步增强图像进行全图增强的具体过程,即第三预设CNN网络的具体结构,可以由设计人员自行设置,如可以采用与第二预设CNN网络相同的网络结构,即第三预设CNN网络可以为7层的卷积神经网络,且规定输入的高频细节部分的图像的大小为129×129,3通道,激活函数为参数化修正线性单元。对应的,可以在第三预设CNN网络的卷积层和激活函数(PReLU)中间加入批归一化(BN,BatchNormalization)操作。第三预设CNN网络的损失函数可以为:
其中,q为训练图像的数量,即训练第三预设CNN网络所使用的训练图像的数量;q≥b≥1为,ssim(·)为结构相似性函数,为第b个训练图像对应的参照图像,Ψ为预设参数,即训练第三预设CNN网络时自行设置的参数;F(·)为第三预设CNN网络的映射函数。
需要说明的是,本步骤中利用第三预设CNN网络对初步增强图像(I'(x,y))进行全图增强,获取增强图像的特征映射后,还可以将该特征映射与初步增强图像进行叠加,得到一张高对比度、高质量、无色偏、平滑的图像,即增强图像。
也就是说,步骤102中不仅可以获取增强图像的特征映射,还可以得到增强图像,以方便后续其他图像识别操作(如文字识别)的进行。
步骤103:根据特征映射,利用预设GridRCNN网络,生成文字标记框,并在结果图像上显示,以检测出结果图像中的文字;其中,结果图像为待检测图像或增强图像。
可以理解的是,本步骤的目的可以为通过将增强图像的特征映射输入到预先设置的GridRCNN网络,显示在结果图像上的圈出文字的文字标记框,实现待检测图像的文字检测。通过预设GridRCNN网络的使用,使生成文字标记框可以圈出结果图像中排列顺序和规则不一的文字。
具体的,对于本步骤中根据特征映射,利用预设GridRCNN网络,生成文字标记框的具体方式,可以由设计人员自行设置,如图3所示,本步骤可以包括:
步骤301:利用预设区域生成网络层对特征映射进行处理,提取特征映射中的候选区域。
具体的,本步骤中可以在预设区域生成网络层使用softmax函数提取特征映射(proposals)中属于前景(foreground)的特征映射作为候选区域。即使用softmax函数判断每个特征映射(proposal)对应的anchor属于前景还是背景(background),提取对应的anchor属于前景的特征映射,生成候选区域。
步骤302:利用预设RoI对齐层对候选区域进行修正,得到对应的标准候选区域。
其中,本步骤中通过在预设RoI对齐层使用RoIAlign(RoI对齐)函数对候选区域进行处理,可以修正大小不一的候选区域,并不破坏原有结构信息,得到大小相同的标准候选区域。如预设RoI对齐层可以遍历每一个候选区域,保持浮点数边界不做量化;将候选区域分割成k×k(如14×14)个单元,每个单元的边界也不做量化;在每个单元中计算固定四个坐标位置,用双线性内插的方法计算出这四个位置的值,然后进行最大池化操作,得到标准候选区域。
步骤303:获取标准候选区域对应的热点图,并从每个热点图中提取各自对应的一个网格点;其中,网格点的数量与热点图的数量相同。
可以理解的是,本步骤至步骤305可以为候选区域(即标准候选区域)的定位过程,从而确定文字标记框在结果图像上的位置;对应的,本实施例所提供的方法还可以包括候选区域的分类过程,以确定文字标记框所圈区域内为文字的概率。如候选区域的分类过程可以利用包含全连接层和ReLU(修正线性单元)层的全连接网络(FCN),将标准候选区域输入到全连接网络,使用softmax函数判断每个标准候选区域是否属于文字。
具体的,本实施例中使用网格点和热点图进行标准候选区域的定位,如设定网格点的数量为N×N,网格点的数量决定热点图的数量。预设区域生成网络层输出的标准候选区域的大小为14×14时,本步骤可以为使用8个3×3的卷积层和2个反卷积层处理标准候选区域,得到大小为56×56的热点图。对于每个热点图,使用像素对应的sigmoid函数获得概率图,以将热点图上每个像素(点)的数值映射到区间(0,1)内,sigmoid函数可以为:
其中,σ(z)为,e为预设自然常数,z为输入变量,即热点图中的像素,。
每个热点图均可以设置对应的监督映射,如将预设数量个像素组成的十字标记为目标格点的正位置(positive location);其中,预设数量可以为奇数,如5。使用如下二元交叉熵损失函数进行优化:
其中,C为优化后的正位置,t为预设数量(目标格点的数量),d为目标格点对应的序号,p(d)为样本概率值,为预测概率值。
对于每一个热点图,选择最大置信度的像素作为网格点,计算其在结果图像上的对应位置,热点图和结果图像上像素位置的映射关系为:
其中,I'x为结果图像上的像素的x坐标,Px为左上角的点在热点图的正位置的x坐标,ωo为热点图的宽,wo为结果图像的宽,I'y为结果图像上的像素的y坐标,Py为左上角的点在热点图的正位置的x坐标,Hy为热点图上要映射到结果图像上的像素的y坐标,Hx为热点图上要映射到结果图像上的像素的x坐标,ho为热点图的高,hp为结果图像的高。
也就是说,一共N×N张热点图,可以提取出N×N个网格点。
步骤304:将网格点分到四个网格点组;其中,四个网格点组分别为左边界网格点组、右边界网格点组、上边界网格点组和下边界网格点组。
可以理解的是,本实施例是以将网格点分为四个网格点组为例进行的展示,即文字标记框有四个交点(角点)。可以将网格点分为更多个网格点组,如5个网格点组,本实施例对此不做任何限制。
具体的,本步骤将网格点分为四组,分别表示左边界(left),右边界(right),上边界(upper),下边界(below),网格点组可以标记为:Eo(o=u,l,r,b),即Eu、Eb、El和Er可以为上边界网格点组、下边界网格点组、左边界网格点组和右边界网格点组。
步骤305:利用最小二乘法对每个网格点组中的网格点进行拟合,得到文字标记框;其中,文字标记框包含四个交点和交点间的拟合曲线。
可以理解的是,本步骤的目的可以为通过最小二乘法拟合四个网格点组中的网格点进行拟合,得到四条拟合曲线,从而利用四条拟合曲线得到文字标记框。
具体的,本步骤中可以采用如下公式对每个网格点组Eo中的格点进行拟合:
其中,网格点组Eo中的网格点为(xj,yj),网格点的预测概率为pj,t为网格点组Eo中的网格点的数量,目标函数可以使用如下2次函数:
y=a0+a1x+a2x2
上式中,a0、a1和a2为计算得到的参数,用来描述二次函数曲线。
通过四个网格点组对应的4条拟合曲线,可以得到4个交点,即文字标记框的四个角点,从而可以利用4个交点得到文字标记框,如文字标记框可以由4个交点和4个交点的交点间的拟合曲线(4条拟合曲线)组成,即文字标记框为多边形框或矩形框(4条拟合曲线均为直线时);文字标记框也可以由4个交点和4个交点的交点间的直线(4条直线)组成,即文字标记框为矩形框。
本实施例中,本发明实施例通过利用预设深度SICE算法对待检测图像进行对比度增强,可以使用深度SICE对待检测图像进行对比度增强;通过根据特征映射,利用预设GridRCNN网络,生成文字标记框,可以通过文字标记框圈出排列顺序和规则不一的文字,实现文字检测,从而实现光照环境多变的自然场景下的文字检测。
请参考图4,图4为本发明实施例所提供的一种文字检测装置的结构框图。该装置,可以包括:
获取模块10,用于获取待检测图像;
对比度增强模块20,用于利用预设深度SICE算法对待检测图像进行对比度增强,获取增强图像的特征映射;其中,增强图像为对比度增强后的待检测图像;
检测模块30,用于根据特征映射,利用预设GridRCNN网络,生成文字标记框,并在结果图像上显示,以检测出结果图像中的文字;其中,结果图像为待检测图像或增强图像。
本实施例中,本发明实施例通过对比度增强模块20利用预设深度SICE算法对待检测图像进行对比度增强,可以使用深度SICE对待检测图像进行对比度增强;通过检测模块30根据特征映射,利用预设GridRCNN网络,生成文字标记框,可以通过文字标记框圈出排列顺序和规则不一的文字,实现文字检测,从而实现光照环境多变的自然场景下的文字检测。
此外,本发明实施例还提供了一种文字检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述实施例所提供的文字检测方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本发明所提供的一种文字检测方法、装置及设备进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种文字检测方法,其特征在于,包括:
获取待检测图像;
利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射;其中,所述增强图像为对比度增强后的所述待检测图像;
根据所述特征映射,利用预设GridRCNN网络,生成文字标记框,并在结果图像上显示,以检测出所述结果图像中的文字;其中,所述结果图像为所述待检测图像或所述增强图像。
2.根据权利要求1所述的文字检测方法,其特征在于,所述利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射,包括:
根据所述待检测图像的图像频率域特性,将所述待检测图像拆分为高频细节部分和低频亮度部分;
利用第一预设CNN网络对所述低频亮度部分进行亮度增强,得到对应的亮度部分;
利用第二预设CNN网络对所述高频细节部分进行细节增强,得到对应的细节部分;
将所述细节部分与所述亮度部分合并,得到初步增强图像;
利用第三预设CNN网络对所述初步增强图像进行全图增强,得到所述特征映射。
3.根据权利要求2所述的文字检测方法,其特征在于,所述第一预设CNN网络的网络结构为9层的U-Net结构;所述第一预设CNN网络包括卷积层、反卷积层和残差连接层,所述卷积层和所述反卷积层中的激活函数为参数化修正线性单元;所述第一预设CNN网络的损失函数为:
其中,n为训练图像的数量,n≥i≥1,为第i个训练图像对应的参照图像的低频亮度部分,为第i个训练图像的低频亮度部分,Θ为预设参数,FL(·)为所述第一预设CNN网络的映射函数。
4.根据权利要求2所述的文字检测方法,其特征在于,所述利用第二预设CNN网络对所述高频细节部分进行细节增强,得到对应的细节部分,包括:
将所述高频细节部分输入到所述第二预设CNN网络,得到细节增强后的所述低频亮度部分;
将所述低频亮度部分与细节增强后的所述低频亮度部分进行叠加,得到所述亮度部分。
5.根据权利要求4所述的文字检测方法,其特征在于,所述第二预设CNN网络和所述第三预设CNN网络的网络结构均为7层的卷积神经网络,激活函数均为参数化修正线性单元;所述第二预设CNN网络的损失函数为:
其中,m为训练图像的数量,m≥a≥1,为第a个训练图像对应的参照图像的高频细节部分,为第a个训练图像的高频细节部分,Ω为预设参数,FR(·)为所述第二预设CNN网络的映射函数;
所述第三预设CNN网络的损失函数为:
其中,q为训练图像的数量,q≥b≥1为,ssim(·)为结构相似性函数,为第b个训练图像对应的参照图像,Ψ为预设参数,F(·)为所述第三预设CNN网络的映射函数。
6.根据权利要求1所述的文字检测方法,其特征在于,所述文字标记框为多边形框或矩形框。
7.根据权利要求6所述的文字检测方法,其特征在于,所述根据所述特征映射,利用预设GridRCNN网络,生成文字标记框,包括:
利用预设区域生成网络层对所述特征映射进行处理,提取所述特征映射中的候选区域;
利用预设RoI对齐层对所述候选区域进行修正,得到对应的标准候选区域;
获取所述标准候选区域对应的热点图,并从每个所述热点图中提取各自对应的一个网格点;其中,所述网格点的数量与所述热点图的数量相同;
将所述网格点分到四个网格点组;其中,四个所述网格点组分别为左边界网格点组、右边界网格点组、上边界网格点组和下边界网格点组;
利用最小二乘法对每个所述网格点组中的所述网格点进行拟合,得到所述文字标记框;其中,所述文字标记框包含四个交点和交点间的拟合曲线。
8.根据权利要求1至7任一项所述的文字检测方法,其特征在于,所述利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射之前,还包括:
判断所述待检测图像的对比度情况是否为低对比度;
若是,则执行所述利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射的步骤;
若否,则提取所述待检测图像的原始特征映射,并根据所述原始特征映射,利用所述预设GridRCNN网络,生成所述文字标记框,并在所述结果图像上显示,以检测出所述结果图像中的文字。
9.一种文字检测装置,其特征在于,包括:
获取模块,用于获取待检测图像;
对比度增强模块,用于利用预设深度SICE算法对所述待检测图像进行对比度增强,获取增强图像的特征映射;其中,所述增强图像为对比度增强后的所述待检测图像;
检测模块,用于根据所述特征映射,利用预设GridRCNN网络,生成文字标记框,并在结果图像上显示,以检测出所述结果图像中的文字;其中,所述结果图像为所述待检测图像或所述增强图像。
10.一种文字检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述的文字检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910758729.8A CN110443252A (zh) | 2019-08-16 | 2019-08-16 | 一种文字检测方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910758729.8A CN110443252A (zh) | 2019-08-16 | 2019-08-16 | 一种文字检测方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110443252A true CN110443252A (zh) | 2019-11-12 |
Family
ID=68436161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910758729.8A Pending CN110443252A (zh) | 2019-08-16 | 2019-08-16 | 一种文字检测方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443252A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626283A (zh) * | 2020-05-20 | 2020-09-04 | 北京字节跳动网络技术有限公司 | 文字提取方法、装置和电子设备 |
CN111860484A (zh) * | 2020-07-22 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 一种区域标注方法、装置、设备及存储介质 |
CN112070082A (zh) * | 2020-08-24 | 2020-12-11 | 西安理工大学 | 一种基于实例感知成分合并网络的曲线文字定位方法 |
CN112418207A (zh) * | 2020-11-23 | 2021-02-26 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN113762455A (zh) * | 2020-08-07 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 检测模型训练方法、单字检测方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845475A (zh) * | 2016-12-15 | 2017-06-13 | 西安电子科技大学 | 基于连通域的自然场景文字检测方法 |
CN108513672A (zh) * | 2017-07-27 | 2018-09-07 | 深圳市大疆创新科技有限公司 | 增强图像对比度的方法、设备及存储介质 |
CN108734052A (zh) * | 2017-04-13 | 2018-11-02 | 北京旷视科技有限公司 | 文字检测方法、装置和*** |
US20180342061A1 (en) * | 2016-07-15 | 2018-11-29 | Beijing Sensetime Technology Development Co., Ltd | Methods and systems for structured text detection, and non-transitory computer-readable medium |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及*** |
-
2019
- 2019-08-16 CN CN201910758729.8A patent/CN110443252A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180342061A1 (en) * | 2016-07-15 | 2018-11-29 | Beijing Sensetime Technology Development Co., Ltd | Methods and systems for structured text detection, and non-transitory computer-readable medium |
CN106845475A (zh) * | 2016-12-15 | 2017-06-13 | 西安电子科技大学 | 基于连通域的自然场景文字检测方法 |
CN108734052A (zh) * | 2017-04-13 | 2018-11-02 | 北京旷视科技有限公司 | 文字检测方法、装置和*** |
CN108513672A (zh) * | 2017-07-27 | 2018-09-07 | 深圳市大疆创新科技有限公司 | 增强图像对比度的方法、设备及存储介质 |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及*** |
Non-Patent Citations (1)
Title |
---|
LEI ZHANG等: ""Learning a Deep Single Image Contrast Enhancer from Multi-Exposure Images"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626283A (zh) * | 2020-05-20 | 2020-09-04 | 北京字节跳动网络技术有限公司 | 文字提取方法、装置和电子设备 |
CN111626283B (zh) * | 2020-05-20 | 2022-12-13 | 北京字节跳动网络技术有限公司 | 文字提取方法、装置和电子设备 |
CN111860484A (zh) * | 2020-07-22 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 一种区域标注方法、装置、设备及存储介质 |
CN111860484B (zh) * | 2020-07-22 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种区域标注方法、装置、设备及存储介质 |
CN113762455A (zh) * | 2020-08-07 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 检测模型训练方法、单字检测方法、装置、设备及介质 |
CN112070082A (zh) * | 2020-08-24 | 2020-12-11 | 西安理工大学 | 一种基于实例感知成分合并网络的曲线文字定位方法 |
CN112070082B (zh) * | 2020-08-24 | 2023-04-07 | 西安理工大学 | 一种基于实例感知成分合并网络的曲线文字定位方法 |
CN112418207A (zh) * | 2020-11-23 | 2021-02-26 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN112418207B (zh) * | 2020-11-23 | 2024-03-19 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443252A (zh) | 一种文字检测方法、装置及设备 | |
US11595737B2 (en) | Method for embedding advertisement in video and computer device | |
CN107358262B (zh) | 一种高分辨率图像的分类方法及分类装置 | |
CN110610526B (zh) | 一种基于wnet对单目人像进行分割和景深渲染的方法 | |
CN111784588A (zh) | 图像数据增强方法、装置、计算机设备和存储介质 | |
WO2019056549A1 (zh) | 图像增强方法以及图像处理装置 | |
CN113610087B (zh) | 一种基于先验超分辨率的图像小目标检测方法及存储介质 | |
CN112991165B (zh) | 一种图像的处理方法及装置 | |
CN108564551A (zh) | 鱼眼图像处理方法及鱼眼图像处理装置 | |
CN114596290A (zh) | 缺陷检测方法及其装置、存储介质、程序产品 | |
WO2022083123A1 (zh) | 证件定位方法 | |
CN111739024B (zh) | 图像识别方法、电子设备及可读存储介质 | |
CN111753782A (zh) | 一种基于双流网络的假脸检测方法、装置及电子设备 | |
CN116993975A (zh) | 基于深度学习无监督领域适应的全景相机语义分割方法 | |
CN115294055A (zh) | 图像处理方法、装置、电子设备和可读存储介质 | |
CN112991236B (zh) | 一种基于模板的图像增强方法及装置 | |
CN107220934A (zh) | 图像重建方法及装置 | |
CN112418033B (zh) | 基于mask rcnn神经网络的滑坡坡面分割识别方法 | |
CN113888509A (zh) | 一种图像清晰度的评价方法、装置、设备及存储介质 | |
CN111010605B (zh) | 一种视频画中画窗口的显示方法 | |
CN114445726B (zh) | 一种基于深度学习的样本库建立方法和装置 | |
CN114219757B (zh) | 一种基于改进Mask R-CNN的车辆智能定损方法 | |
CN112287938B (zh) | 一种文本分割方法、***、设备以及介质 | |
CN112149463B (zh) | 图像处理方法和装置 | |
CN110852314A (zh) | 一种基于相机投影模型的物品检测网络方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191112 |