CN109711401B - 一种基于Faster Rcnn的自然场景图像中的文本检测方法 - Google Patents

一种基于Faster Rcnn的自然场景图像中的文本检测方法 Download PDF

Info

Publication number
CN109711401B
CN109711401B CN201811468492.1A CN201811468492A CN109711401B CN 109711401 B CN109711401 B CN 109711401B CN 201811468492 A CN201811468492 A CN 201811468492A CN 109711401 B CN109711401 B CN 109711401B
Authority
CN
China
Prior art keywords
loss
candidate
ssn
text
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811468492.1A
Other languages
English (en)
Other versions
CN109711401A (zh
Inventor
李卫军
沈伟生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811468492.1A priority Critical patent/CN109711401B/zh
Publication of CN109711401A publication Critical patent/CN109711401A/zh
Application granted granted Critical
Publication of CN109711401B publication Critical patent/CN109711401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Faster Rcnn的自然场景图像中的文本检测方法,应用于计算机视觉领域中的文本检测方向,这种方法包括将训练集首先进行进行缩放处理;再将缩放处理后的图像输入到特征金字塔网络中进行处理并将其输出结果输入到RPN中选取文本目标候选区域,同时增加网络模型SSN用于选取候选区域;将两者候选区域进行合成,并将合成结果输入到Fast网络中得到目标候选区域框。这种方法使得文本目标的位置更准确,语义信息更加丰富,并且算法的精确率和召回率也得到大大提高。

Description

一种基于Faster Rcnn的自然场景图像中的文本检测方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于Faster Rcnn的自然场景图像中的文本检测方法。
背景技术
文本检测技术是文本识别的一个核心的前端模块,文本检测技术的水平直接影响着后续的文本识别效果的好坏。自然场景图像是我们现实所处的生活环境,图像中存在着大量的文本信息,这些信息可以作为为场景理解提供有价值的帮助,因此研究一种全自动文本检测技术,对场景图像的检索,分析及场景理解具有重要的意义。但是自然场景图像的分辨率以及其中的不均匀光照,遮挡,模糊,透视变换等客观因素使得自然场景图像中的文本检测问题变得极为困难,高效的文本检测具有很大挑战。
现有技术中存在的Faster Rcnn的文本检测方法,其得到文本目标的框候选框(Proposals)是由RPN在特征网络最后一层Feature maps上进行操作的。最后一层特征图Feature maps特征语义信息比较丰富,但是目标位置比较粗略,往往会将小文本目标忽略,因此无法将自然场景图像中所有文本目标的Proposals找出,导致该方法精确率和召回率低的结果。虽然可以通过RPN来寻找文本目标的候选框Proposals,但是还是受RPN中参数的影响,每给一组参数,找寻到的Proposals也有所不同。
发明内容
本发明为克服上述现有技术所述的找寻的目标位置比较粗略,无法将所有文本目标的候选框Proposals找出的缺陷,提供一种基于Faster Rcnn的自然场景图像中的文本检测方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于Faster Rcnn的自然场景图像中的文本检测方法,包括以下步骤:
S1:从数据集中分别选取训练集、验证集以及测试集。
S2:将训练集中的图像输入到预训练的网络模型中进行缩放处理。
S3:将缩放处理后的图像输入到特征金字塔网络FPN中进行处理,并将预训练的网络模型的第一层输出输入到预训练的网络模型SSN中进行处理。
S4:将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到Fast网络中。
S5:从Fast网络中输出最终的结果得到文本中目标候选区域框。
S6:步骤S1到S5进行迭代直至训练次数达到预设的迭代次数结束训练。
优选地,步骤S2的具体步骤为:将训练图像输入到预训练的网络模型中,依次经过P1、P2、P3,其中P1表示将特征图缩放N1倍,P2表示将特征图缩放N2倍,P3表示将特征图缩放N3倍,其中N1<N2<N3。
优选地,所述N1为4,N2为16,N3为64。
优选地,步骤S3中的将缩放处理后的图像输入到特征金字塔网络FPN中具体步骤为:
S31:FPN中包括P4、P5、P6,其中P3的输出特征图作为P4的特征图。
S32:对P4特征图进行上采样操作,并采用1*1的卷积对P2的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P5的特征图。
S33:将P5的特征图进行上采样,并采用1*1的卷积对P1的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P6的特征图。
优选地,步骤S3中将预训练的网络模型的最后一层输出输入到预训练的网络模型SSN中进行处理的具体步骤为:
S34:将经过P1缩放N1倍处理后得到的特征图输入到选择性搜索网络中,随机从选择性搜索网络中挑选出Num_SSN个候选框Proposals_ss。
S35:将Num_SSN个Proposals_ss使用Bbox regression1进行位置修正得到候选框Proposals_B1,使用光滑smoothL1函数作为Bbox regression1的损失函数loss_B1。
S36:将候选框Proposals_B1继续使用Bbox regression2进行位置修正,得到Proposals_B2,并得到此次回归的损失,定义为loss_B2。
S37:将候选框Proposals_B2使用Bbox regression3进行精修正,得到此次回归的损失,定义为loss_B3。
S38:得到修正后的Num_SSN个候选框Proposals映射回特征图上,最终得到候选区域Proposals_SSN。
S39:将loss_B1,loss_B2,loss_B3加起来得到SSN的总损失,记为loss_SSN。
优选地,loss_SSN的公式如下:
Figure GDA0004053409690000031
其中Nreg1表示参与Bbox regression1训练时的挑选的候选框Proposals个数。
Figure GDA0004053409690000032
表示对应的文本标签的预测概率,ti表示预测的第i个候选框Proposal坐标,/>
Figure GDA0004053409690000033
表示与预测对应的第i个候选框Proposal对应的文本标签坐标,Lreg表示公式如下:
Figure GDA0004053409690000034
i表示第i个候选框Proposal的索引index。
优选地,步骤S4将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到Fast网络中的具体步骤为。
S41:将P4输出的特征图输入到RPN处理得到候选框Proposals1,并且得到损失为loss_RPN1。
S42:将P5输出的特征图输入到RPN处理得到候选框Proposals2,并且得到的损失为loss_RPN2。
S43:将P65输出的特征图输入到RPN处理得到候选框Proposals3,得到的损失为loss_RPN3。
S44:将Proposals1,Proposals2,Proposals3合成得到RPN最终的候选框:S45:将loss_RPN1,loss_RPN2,loss_RPN3合成得到RPN最终的损失loss_RPNS。
S44:将Proposals1,Proposals2,Proposals3合成得到RPN最终的候选框:
Figure GDA0004053409690000041
S46:将Proposals_RPN和Proposals_SSN合成得到候选框Proposals_s:
Figure GDA0004053409690000042
优选地,loss_RPNS的公式为:
Figure GDA0004053409690000043
Figure GDA0004053409690000044
表示参与softmax训练时候选框的个数。
Figure GDA0004053409690000045
表示公式如下:
Figure GDA0004053409690000046
λj为平衡系数,表示在实际过程中,当
Figure GDA0004053409690000047
和Nreg1的数值差距过大时,用参数λj平衡二者,Pi表示候选框Proposals经过softmax判别后是前景框的概率。
优选地,步骤S5从Fast网络中输出最终的结果得到文本中目标候选区域的框的具体步骤为:将Proposals_s输入Fast网络中可得到Fast网络的损失loss_Fast和最终文本中目标候选区域框,并将loss_Fast,loss_RPNS以及loss_SSN合并得到总损失Total_loss:
Total_loss=loss_RPNS+loss_Fast+loss_SSN。
优选地,采用Mini-batch梯度下降法来优化Total_loss。
与现有技术相比,本发明技术方案的有益效果是:本发明中FPN构架了一个可以进行端端训练的特征金字塔,可以使得不同特征层都能独立进行RPN操作。既使用了低层的语义特征,使得文本目标的位置更准确,也使用了高层的语义特征,语义信息丰富,这样做可以使算法的精确率和召回率大大提高。除了用RPN寻找文本目标的候选框的同时,引入SSN不受参数约束,可以确保输入图像中的所有文本目标的候选框被找出,同样提高算法的精确率和召回率。
附图说明
图1为本发明的技术流程图。
图2为本发明特征金字塔网络(FPN)的流程示意图。
图3为本发明区域候选网络(RPN)的结构图。
图4为本发明各层Feature maps输入区域候选网络(RPN)的流程图。
图5为本发明选择性搜索网络(SSN)的流程示意图。
图6为本发明Fast网络结构的流程示意图。
图7为本发明生成最终结果的流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示的本发明的总体流程图,包括以下步骤:
S1:从数据集中分别选取训练集、验证集以及测试集;
S1.1选择ICDAR2015数据集中的自然场景文本图像作为本发明的输入图像;从数据集中获取已经标注文本框坐标的图像,其中将70%作为训练集,用于对本检测方法的训练,30%作为测试集作为测试模型的性能;将无标注文本框的图像作为最终评判该检测方法最终实际性能的数据集,称之为性能测试集。
S2:将训练集中的图像输入到预训练的网络模型中进行缩放处理;
S2.1:将训练图像输入到预训练的网络模型中,依次经过P1、、P2、P3,其中P1表示将特征图缩放4倍,P2表示将特征图缩放16倍,P3表示将特征图缩放64倍,其流程图如图2所示。
S3:将缩放处理后的图像输入到特征金字塔网络FPN中进行处理,并将预训练的网络模型的第一层输出输入到预训练的网络模型SSN中进行处理;
S31:FPN中包括P4、P5、P6,其中P3的输出特征图作为P4的特征图;
S32:对P4特征图进行上采样操作,并采用1*1的卷积对P2的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P5的特征图。
S33:将P5的特征图进行上采样,并采用1*1的卷积对P1的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P6的特征图。
S34:将P1中输出的缩放4倍处理后得到的特征图输入到选择性搜索网络中,随机从选择性搜索网络中挑选出2000个候选框Proposals_ss。
S35:将2000个候选框Proposals_ss使用Bbox regression1进行位置修正得到候选框Proposals_B1,使用光滑smoothL1函数作为Bbox regression1的损失函数loss_B1。
S36:将候选框Proposals_B1继续使用Bbox regression2进行位置修正,得到Proposals_B2,并得到此次回归的损失,定义为loss_B2。
S37:将候选框Proposals_B2使用Bbox regression3进行精修正,得到此次回归的损失,定义为loss_B3。
S38:得到修正后的2000个候选框Proposals映射回特征图上,最终得到候选区域Proposals_SSN。
S39:将loss_B1,loss_B2,loss_B3加起来得到SSN的总损失,记为loss_SSN,公式如下:
Figure GDA0004053409690000061
其中Nreg1表示参与Bbox regression1训练时的挑选的候选框Proposals个数。
Figure GDA0004053409690000071
表示对应的文本标签的预测概率,ti表示预测的第i个候选框Proposal坐标,/>
Figure GDA0004053409690000072
表示与预测对应的第i个候选框Proposal对应的文本标签坐标,Lreg表示公式如下:
Figure GDA0004053409690000073
i表示第i个候选框Proposal的索引index。
其流程图如图5所示。
S4:将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到ast网络中;
S41:首先在特征图上每个像素点映射回原图的部分都生成12个有三种长宽比和四种缩放尺度的矩形框,长宽比ratios为width:height=[1:1,1:2,2:1],缩放尺度scales为[4,8,16,32]。
S42:对各层输入的Feature maps进行3﹡3的卷积操作,然后将其输入两条通道,如图3所示。其中通道1中将3﹡3卷积操作后的Feature maps再做1﹡1的卷积操作进行降维,输入的Feature maps中包含了所有Proposal的特征,然后输入Softmax分类器。在Softmax分类器中,定义候选的Proposal中与文本的标注框即标签的重叠比例大于0..7则称之为前景框(里面有文本),同理重叠比例小于0.3的称之为背景框(里面无文本看成背景)。以128个前景框和128个背景框来做二分类的训练得到,其中会构造交叉熵作为损失函数,定义为loss1。loss1公式如下:
Figure GDA0004053409690000074
S43:通道2将3﹡3卷积操作后的Feature maps再做1﹡1的卷积操作进行降维,再将
其做边界框回归(Bbox regression),也就是每个Proposal都做边界框的回归操作。通道2训练的时候会使用光滑smoothL1函数作为Bbox regression的损失函数,定义为loss2。loss2公式如下:
Figure GDA0004053409690000081
S44:将P4、P5、P6输出的特征图输入到RPN并分别经过步骤S41到S43处理依次得到候选框:Proposals1,Proposals2,Proposals3,损失:loss_RPN1,loss_RPN2,loss_RPN3,如图4所示;
S45:将Proposals1,Proposals2,Proposals3合成得到RPN最终的候选框:
Figure GDA0004053409690000082
S46:将loss_RPN1,loss_RPN2,loss_RPN3合成得到RPN最终的损失:
Figure GDA0004053409690000083
Figure GDA0004053409690000084
表示参与softmax训练时候选框的个数。
Figure GDA0004053409690000085
表示公式如下:
Figure GDA0004053409690000086
λj为平衡系数,表示在实际过程中,当
Figure GDA0004053409690000091
和Nreg1的数值差距过大时,用参数λj平衡二者,Pi表示候选框Proposals经过softmax判别后是前景框的概率。
S47:将Proposals_RPN和Proposals_SSN合成得到候选框Proposals_s:
Figure GDA0004053409690000092
S5:从Fast网络中输出最终的结果得到文本中目标候选区域框,其简要流程如图7所示。
S51:将候选框Proposals_s进行ROI Pooling的操作得到Proposals_s的特征再输入全连接层中得到高度提纯的Proposals_s特征。
S52:分别输入上下两条通道,其中上面通道继续对候选框做Bbox regression操作,得到候选框Proposal_b。这里的回归也采用光滑的smoothL1函数作为损失函数,定义为loss3,公式如下:
Figure GDA0004053409690000093
通过Softmax得到候选框是否为文本的分数cls_prod,这里也采用交叉熵损失函数,定义为loss4,公式如下:
Figure GDA0004053409690000094
S53:对回归修正和判断是否有文本的候选框Proposals_f做非极大值抑制(NMS)操作,得到最终的结果(Result)。
S54:将loss3和loss4相加得到Fast网络的总损失,,定义为loss_Fast,公式如下:
Figure GDA0004053409690000101
其具体流程如图6所示。
S55:将loss_Fast,loss_RPNS以及loss_SSN合并得到总损失Total_loss,并采用Mini-batch梯度下降来优化Totalloss:
Total_loss=loss_RPNS+loss_Fast+loss_SSN。
S6:步骤S1到S5进行迭代直到训练次数达到预设的迭代次数结束训练。
在一种具体实施例中设置迭代次数为10万次为训练终止条件,使得最终的Totalloss将收敛于0.8到1之间附近波动。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,包括以下步骤:
S1:从数据集中选取训练集;
S2:将训练集中的图像输入到预训练的网络模型中进行缩放处理;
S3:将缩放处理后的图像输入到特征金字塔网络FPN中进行处理,并将预训练的网络模型的最后一层输出输入到选择性搜索网络SSN中进行处理;
S4:将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到Fast网络中;
S5:从Fast网络中输出最终的结果得到文本中目标候选区域框;
S6:步骤S1到S5进行迭代直至训练次数达到预设的迭代次数结束训练。
2.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S2的具体步骤为:将训练图像输入到预训练的网络模型中,依次经过P1、P2、P3,其中P1表示将特征图缩放N1倍得到的特征图,P2表示将特征图缩放N2倍得到的特征图,P3表示将特征图缩放N3倍得到的特征图,其中N1<N2<N3。
3.根据权利要求2所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,所述N1为4,N2为16,N3为64。
4.根据权利要求2所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S3中的将缩放处理后的图像输入到特征金字塔网络FPN中具体步骤为:
S31:FPN中包括P4、P5、P6,其中P3的输出特征图作为P4的特征图;
S32:对P4特征图进行上采样操作,并采用1*1的卷积对P2的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P5的特征图;
S33:将P5的特征图进行上采样得到特征图P5’,并采用1*1的卷积对P1的输出特征图进行降维处理得到特征图P1’,将特征图P5’和特征图P1’相加作为P6的特征图。
5.根据权利要求4所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S3中将预训练的网络模型的最后一层特征图输入到预训练的网络模型SSN中进行处理的具体步骤为:
S34:将经过P1缩放N1倍处理后得到的特征图输入到选择性搜索网络中,随机从选择性搜索网络中挑选出Num_SSN个候选框Proposals_ss;
S35:将Num_SSN个Proposals_ss使用Bbox regression1进行位置修正得到候选框Proposals_B1,使用光滑smoothL1函数作为Bbox regression1的损失函数loss_B1;
S36:将候选框Proposals_B1继续使用Bbox regression2进行位置修正,得到Proposals_B2,并得到此次回归的损失,定义为loss_B2;
S37:将候选框Proposals_B2使用Bbox regression3进行精修正,得到此次回归的损失,定义为loss_B3;
S38:得到修正后的Num_SSN个候选框Proposals映射回特征图上,最终得到候选区域Proposals_SSN;
S39:将loss_B1,loss_B2,loss_B3加起来得到SSN的总损失,记为loss_SSN。
6.根据权利要求5所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,loss_SSN的公式如下:
Figure QLYQS_1
其中Nreg1表示参与Bbox regression1训练时的挑选的候选框Proposals个数;
其中Nreg2表示参与Bbox regression2训练时的挑选的候选框Proposals个数;
其中Nreg3表示参与Bbox regression3训练时的挑选的候选框Proposals个数;
Figure QLYQS_2
表示对应的文本标签的预测概率,ti表示预测的第i个候选框Proposal坐标,/>
Figure QLYQS_3
表示与预测对应的第i个候选框Proposal对应的文本标签坐标,Lreg表示公式如下:
Figure QLYQS_4
Figure QLYQS_5
i表示第i个候选框Proposal的索引。
7.根据权利要求6所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S4将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到Fast网络中的具体步骤为:
S41:将P4输出的特征图输入到RPN处理得到候选框Proposals1,并且得到损失为loss_RPN1;
S42:将P5输出的特征图输入到RPN处理得到候选框Proposals2,并且得到的损失为loss_RPN2;
S43:将P6输出的特征图输入到RPN处理得到候选框Proposals3,得到的损失为loss_RPN3;
S44:将Proposals1,Proposals2,Proposals3合成得到RPN最终的候选框:
S45:将loss_RPN1,loss_RPN2,loss_RPN3合成得到RPN最终的损失loss_RPNS;
S44:将Proposals1,Proposals2,Proposals3合成得到RPN最终的候选框:
Figure QLYQS_6
S46:将Proposals_RPN和Proposals_SSN合成得到候选框Proposals_s:
Figure QLYQS_7
8.根据权利要求7所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,loss_RPNS的公式为:
Figure QLYQS_8
/>
Figure QLYQS_9
表示参与softmax训练时候选框的个数;
Figure QLYQS_10
表示参与Bbox regression的框个数;
Figure QLYQS_11
表示公式如下:
Figure QLYQS_12
λj为平衡系数,表示在实际过程中,当
Figure QLYQS_13
和Nreg1的数值差距过大时,用参数λj平衡二者,pi表示候选框Proposals经过softmax判别后是前景框的概率。
9.根据权利要求8所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S5从Fast网络中输出最终的结果得到文本中目标候选区域的框的具体步骤为:将Proposals_s输入Fast网络中可得到Fast网络的损失loss_Fast和最终文本中目标候选区域框,并将loss_Fast,loss_RPNS以及loss_SSN合并得到总损失Total_loss:
Total_loss=loss_RPNS+loss_Fast+loss_SSN
其中,loss_RPNS表示RPN的最终总损失,loss_SSN表示SSN的损失。
10.根据权利要求9所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,采用Mini-batch梯度下降法来优化Total_loss。
CN201811468492.1A 2018-12-03 2018-12-03 一种基于Faster Rcnn的自然场景图像中的文本检测方法 Active CN109711401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811468492.1A CN109711401B (zh) 2018-12-03 2018-12-03 一种基于Faster Rcnn的自然场景图像中的文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811468492.1A CN109711401B (zh) 2018-12-03 2018-12-03 一种基于Faster Rcnn的自然场景图像中的文本检测方法

Publications (2)

Publication Number Publication Date
CN109711401A CN109711401A (zh) 2019-05-03
CN109711401B true CN109711401B (zh) 2023-05-26

Family

ID=66254494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811468492.1A Active CN109711401B (zh) 2018-12-03 2018-12-03 一种基于Faster Rcnn的自然场景图像中的文本检测方法

Country Status (1)

Country Link
CN (1) CN109711401B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210400B (zh) * 2019-06-03 2020-11-17 上海眼控科技股份有限公司 一种表格文件检测方法及设备
CN110443280B (zh) * 2019-07-05 2022-06-03 北京达佳互联信息技术有限公司 图像检测模型的训练方法、装置及存储介质
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110598693A (zh) * 2019-08-12 2019-12-20 浙江工业大学 一种基于Faster-RCNN的船牌识别方法
CN110807422B (zh) * 2019-10-31 2023-05-23 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN111291754B (zh) * 2020-01-22 2023-05-12 广州图匠数据科技有限公司 一种文本级联检测方法、装置及存储介质
CN111401418A (zh) * 2020-03-05 2020-07-10 浙江理工大学桐乡研究院有限公司 一种基于改进Faster r-cnn的员工着装规范检测方法
CN112364754B (zh) * 2020-11-09 2024-05-14 云南电网有限责任公司迪庆供电局 螺栓缺陷检测方法及***
CN116630755B (zh) * 2023-04-10 2024-04-02 雄安创新研究院 一种检测场景图像中的文本位置的方法、***和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203606A (zh) * 2017-05-17 2017-09-26 西北工业大学 基于卷积神经网络的自然场景下文本检测与识别方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
US10032072B1 (en) * 2016-06-21 2018-07-24 A9.Com, Inc. Text recognition and localization with deep learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032072B1 (en) * 2016-06-21 2018-07-24 A9.Com, Inc. Text recognition and localization with deep learning
CN107203606A (zh) * 2017-05-17 2017-09-26 西北工业大学 基于卷积神经网络的自然场景下文本检测与识别方法
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的行人检测方法研究新进展;邢志祥等;《安全与环境工程》;20181130(第06期);第100-104页 *

Also Published As

Publication number Publication date
CN109711401A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109711401B (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN109191476B (zh) 基于U-net网络结构的生物医学图像自动分割新方法
CN113240580B (zh) 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法
CN109712165B (zh) 一种基于卷积神经网络的同类前景图像集分割方法
CN110097609B (zh) 一种基于样本域的精细化绣花纹理迁移方法
CN105469359B (zh) 基于局部约束低秩表示的人脸超分辨率重建方法
CN111368769A (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN112215847B (zh) 基于对抗学习多尺度特征的重叠染色体自动分割方法
CN109447897B (zh) 一种真实场景图像合成方法及***
CN111563408B (zh) 多层次感知特征渐进自学习的高分辨率影像滑坡自动检测方法
CN112270366B (zh) 基于自适应多特征融合的微小目标检测方法
CN111126278A (zh) 针对少类别场景的目标检测模型优化与加速的方法
CN111626926A (zh) 一种基于gan的纹理图像智能合成方法
CN114842216A (zh) 一种基于小波变换的室内rgb-d图像语义分割方法
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN114708615A (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质
CN112686830B (zh) 基于图像分解的单一深度图的超分辨率方法
CN112818777B (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法
CN111199199B (zh) 一种基于自适应上下文区域选取的动作识别方法
CN117011515A (zh) 基于注意力机制的交互式图像分割模型及其分割方法
CN116935213A (zh) 一种基于知识蒸馏的轻量化sar图像目标检测方法
JP7010783B2 (ja) 画像処理装置、画像処理システム、画像処理方法及びプログラム
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及***
CN115953330A (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant