CN106650725A - 基于全卷积神经网络的候选文本框生成和文本检测方法 - Google Patents
基于全卷积神经网络的候选文本框生成和文本检测方法 Download PDFInfo
- Publication number
- CN106650725A CN106650725A CN201611070587.9A CN201611070587A CN106650725A CN 106650725 A CN106650725 A CN 106650725A CN 201611070587 A CN201611070587 A CN 201611070587A CN 106650725 A CN106650725 A CN 106650725A
- Authority
- CN
- China
- Prior art keywords
- text
- candidate
- detection
- network
- inception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于全卷积神经网络的候选文本框生成和文本检测方法,包括步骤:生成文本区域候选框,inception‑RPN以自然场景图片和一套标记文本区域的真实边界框作为输入,产生可控数量的单词区域候选框,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框;并入容易引起歧义的文本类别监督信息,融入多层次的区域下采样信息,进行文本检测;通过反向传播和随机梯度下降,以一种端到端的方式训练inception候选框生成网络和文本检测网络;候选框迭代投票以一种补充的方式获得更高的文本召回率,使用候选框过滤算法,移除过剩的检测框。本发明在ICDAR 2011和2013robust文本检测标准数据库上分别获得0.83和0.85的准确率,优于先前最好的结果。
Description
技术领域
本发明涉及自然场景图片中文本候选框生成和文本检测的技术,尤其涉及基于全卷积神经网络的候选文本框生成和文本检测方法。
背景技术
图像中的文本提供了丰富和精确的高水平的语义信息,这些信息对于场景理解,图像和食品检索,基于内容的推荐***等大量潜在应用至关重要。自然场景图片的文本检测在计算机视觉和图像理解社区吸引了大量的关注。然而,自然场景的文本检测仍然是一个充满挑战和未解决的问题。首先,文本图片的背景是很复杂的,并且符号、标记、砖块和草地等区域组成是非常难于和文本区分的。此外,不均匀的光照条件、强曝光、低对比度、模糊和低分辨率等超级混合因素对文字检测任务增添了巨大的挑战
发明内容
为克服现有技术的不足,本发明提出基于全卷积神经网络的候选文本框生成和文本检测方法。
本发明的技术方案是这样实现的:
基于全卷积神经网络的候选文本框生成和文本检测方法,包括步骤
S1:生成文本区域候选框,inception-RPN以自然场景图片和一套标记文本区域的真实边界框作为输入,产生可控数量的单词区域候选框,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框;
S2:并入容易引起歧义的文本类别监督信息,融入多层次的区域下采样信息,进行文本检测;
S3:通过反向传播和随机梯度下降,以一种端到端的方式训练inception候选框生成网络和文本检测网络;
S4:候选框迭代投票以一种补充的方式获得更高的文本召回率,使用候选框过滤算法,移除过剩的检测框。
进一步地,步骤S1包括步骤
S11:文本特征先验框设计;
S12:构建Inception候选框生成网络。
更进一步地,步骤S11中文本特征先验框共24种,其中每个滑动位置滑动窗的宽设为32,48,64和80,长宽比例为0.2,0.5,0.8,1.0,1.2和1.5。
更进一步地,步骤S12中inception候选框生成网络由一个3*3的卷积层,5*5的卷积层和3*3的最大池化层连接到一个作为输入的Conv5_3的特征响应图的相应的空间接受域上。
进一步地,步骤S2中文本类别监督信息为:候选框IoU重叠大于等于0.5的指定为存在文本,把候选框IoU重叠大于等于0.2小于0.5的指定为“模糊文本”,其他指定为不包含文本信息。
进一步地,步骤S2中多层次的区域下采样信息为:在VGG16网络的Conv4_3和Conv5_3的卷积特征响应图都执行多层次的区域下采样,并得到两个512*H*W的采样特征,然后以一个512*1*1的卷积层解码连接在一起的特征。
本发明的有益效果在于,与现有技术相比,本发明提出了inception候选框生成网络,这种网络在卷积特征图上应用不同大小的滑动窗口,并在每个滑动位置辅助一套文本特征先验框,生成单词区域候选框。这种不同大小的滑动窗口在相应位置上保留本地信息的同时还兼顾上下文信息,帮助过滤掉不含文本的候选框,本发明的inception候选框生成网络在仅用几百个单词候选框的情况下得到了很高的召回率;本发明还在文本检测网络引进了额外的容易起歧义的文本类别监督信息和融入了多层次的区域下采样信息,这些信息帮助文本检测网络学习更多区分性信息从复杂的背景中区分出文本;此外,本发明为了更好地利用训练过程中的模型,提出了一种候选框迭代投票的方案,以一种补充的方式获得了较高的单词召回率,本发明使用的过滤算法,保留最适合的候选框,移除过剩的候选框。
附图说明
图1是本发明基于全卷积神经网络的候选文本框生成和文本检测方法的流程图。
图2是本发明一个实施例单的词区域候选框的IoU重叠在特定区间的示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明基于全卷积神经网络的候选文本框生成和文本检测方法,包含四个步骤:S1、文本区域候选框生成;S2、文本检测;S3、端到端的学习优化;S4、启发式处理。
所述组成部分S1的作用为:inception-RPN以自然场景图片和一套标记文本区域的真实边界框作为输入,产生可控数量的单词区域候选框;为了搜索单词区域候选框,我们在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框。具体可分为两步:(1)设计文本特征先验框(2)Inception候选框生成网络。在每个滑动位置设置四种不同规模(32,48,64和80)和六种不同的比例(0.2,0.5,0.8,1.0,1.2和1.5),共k=24种先验滑动窗口。在学习阶段,把与真实文本框交集除以并集大于0.5的指定为文本标签,反之把重叠区域除以并集区域小于0.3的指定为背景标签。设计的inception候选框生成网络由一个3*3的卷积层,5*5的卷积层和3*3的最大池化层连接到一个作为输入的Conv5_3的特征响应图的相应的空间接受域上。另外,为了降低维度,1*1的卷积操作被应用在3*3的最大池化层上。然后,我们把通道坐标上各个部分的特征连接起来,一个640维的连接特征向量被送往两个输出层:分类层预测该区域是否存在文本的得分,回归层改善每个滑动位置各种先验窗口的文本区域位置。
步骤S2包括:(1)综合容易引起歧义的文本类别监督信息以增加更多的合理的监督信息,帮助分类器学习更多的区别的特征,从复杂多样的背景中辨别出文本区域,并过滤掉不包含文本的候选框。(2)融入多层次的区域下采样信息。作用为更好的利用多层次的卷积特征和丰富每个滑动窗口的区分性信息。
以前的很多工作在检测网络中把IoU重叠大于0.5的候选框指定为存在文本,反之指定为不存在文本。然而这种判定候选框是否存在文本的方法是不合理的,因为IoU重叠在区间0.2到0.5可能包含空间或者扩展性文本信息,如图2所示。这些混杂的标记信息会扰乱文本和非文本候选框的分类学习。为此,我们提出把候选框IoU重叠大于等于0.5的指定为存在文本,把候选框IoU重叠大于等于0.2小于0.5的指定为“模糊文本”,其他指定为不包含文本信息。这种策略提供了更多的合理的监督信息帮助分类器学习更多的区分性特征,以从复杂多样的背景中辨别出文本并过滤掉不含文本的候选框。
为了更好地利用多层次卷积特征和丰富每个候选框的判别信息,本发明在VGG16网络的Conv4_3和Conv5_3的卷积特征响应图都执行多层次的区域下采样,并得到两个512*H*W的采样特征。然后以一个512*1*1的卷积层解码连接在一起的特征。这个1*1的卷积层的作用为(1)将多层次的采样特征组合在一起和在训练过程中权重加权融合。(2)降低维度以匹配VGG16的第一个全连接层。
所述组成部分S3不同于已提出将RPN和Fast-RCNN结合的四步训练策略,本发明通过反向传播和随机梯度下降的方法把inception候选框生成网络和文字检测网络以端到端的方式进行训练。共享的卷积网络由预先训练好的imageNet分类网络初始化。新层的权重由均值为0和偏差为0.01的高斯分布初始化。基准学习率为0.001,每迭代40000次缩小为原来的十分之一。动量和权值衰减量分别设为0.9和0.0005。
Inception候选框生成网络和文本检测网络有两个兄弟输入层:一个分类层,一个回归层。Inception候选框生成网络和文本检测网络输出层的区别如下:(1)inception候选框生成网络,每个先验框应该被独立参数化,所以我们需要同时预测出k=24个先验候选框。分类层输出2k个判定候选框是否有文本的得分,同时回归层输出4k个改善后的候选框偏离原候选框的数值。(2)文本检测网络对每个候选框有三个输出得分,分别对应背景,模糊文本和存在文本的候选框。回归层输出每个文本候选框4个回归偏差值。我们训练过程中使这个多任务的损失函数最小,公式如下:
L(p,p*,t,t*)=Lcls(p,p*)+λLreg(t,t*), (0.1)
分类层的损失函数Lcls是softmax损失函数,p和p*分别是预测的标签和真实的标签。回归损失函数Lreg应用smooth-L1损失函数。另外,t={tx,ty,tw,th}和分别相应的代表预测和真实候选框的回归偏差值向量,t*由如下公式所得:
这里,P={Px,Py,Pw,Ph}和G={Gx,Gy,Gw,Gh}分别代表相应候选框P和真实文本框G的中心坐标、高度和宽度。λ代表损失平衡参数,在inception候选框生成网络中我们让λ=3以使他偏向更好候选框位置,在文本检测网络让λ=1。
所述组成部分S4包括候选框迭代投票机制和过滤算法。候选框迭代投票机制使本发明以一种补充的方式获得更高的文本召回率,提高文本检测***的系能。过滤算法使本发明移除过剩的检测框,以提高精确度。
本发明首先将自然场景图片和一套真实文本框数据输入到inception候选框生成网络,产生一定数量的单词区域候选框。然后将得到单词区域候选框送入一个用于文本和非文本分类及文本定位的文本检测网络,该网络在训练过程中增加了容易引起歧义的文本类别监督信息和融入了多层次的区域下采样信息。整个***通过反向传播和梯度下降机制以一种端到端的方式进行训练。为充分利用训练过程的中间模型本发明采用候选框迭代投票机制以一种补充的方式获得文本实例的高召回率,提高整个文本检测***的性能。最后本发明应用一种过滤算法,这种算法就坐标位置而言找到每个文本实例的内外候选框,保留高得分候选框,移除低得分的候选框。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (6)
1.基于全卷积神经网络的候选文本框生成和文本检测方法,其特征在于,包括步骤
S1:生成文本区域候选框,inception-RPN以自然场景图片和一套标记文本区域的真实边界框作为输入,产生可控数量的单词区域候选框,在VGG16模型的卷积特征响应图上滑动一个inception网络,并在每个滑动位置辅助一套文本特征先验框;
S2:并入容易引起歧义的文本类别监督信息,融入多层次的区域下采样信息,进行文本检测;
S3:通过反向传播和随机梯度下降,以一种端到端的方式训练inception候选框生成网络和文本检测网络;
S4:候选框迭代投票以一种补充的方式获得更高的文本召回率,使用候选框过滤算法,移除过剩的检测框。
2.如权利要求1所述的基于全卷积神经网络的候选文本框生成和文本检测方法,其特征在于,步骤S1包括步骤
S11:文本特征先验框设计;
S12:构建Inception候选框生成网络。
3.如权利要求2所述的基于全卷积神经网络的候选文本框生成和文本检测方法,其特征在于,步骤S11中文本特征先验框共24种,其中每个滑动位置滑动窗口宽度设为32,48,64和80,长宽比例为0.2,0.5,0.8,1.0,1.2和1.5。
4.如权利要求2所述的基于全卷积神经网络的候选文本框生成和文本检测方法,其特征在于,步骤S12中inception候选框生成网络由一个3*3的卷积层,5*5的卷积层和3*3的最大池化层连接到一个作为输入的Conv5_3的特征响应图的相应的空间接受域上。
5.如权利要求1所述的基于全卷积神经网络的候选文本框生成和文本检测方法,其特征在于,步骤S2中文本类别监督信息为:候选框IoU重叠大于等于0.5的指定为存在文本,把候选框IoU重叠大于等于0.2小于0.5的指定为“模糊文本”,其他指定为不包含文本信息。
6.如权利要求1所述的基于全卷积神经网络的候选文本框生成和文本检测方法,其特征在于,步骤S2中多层次的区域下采样信息为:在VGG16网络的Conv4_3和Conv5_3的卷积特征响应图都执行多层次的区域下采样,并得到两个512*H*W的采样特征,然后以一个512*1*1的卷积层解码连接在一起的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611070587.9A CN106650725B (zh) | 2016-11-29 | 2016-11-29 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611070587.9A CN106650725B (zh) | 2016-11-29 | 2016-11-29 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106650725A true CN106650725A (zh) | 2017-05-10 |
CN106650725B CN106650725B (zh) | 2020-06-26 |
Family
ID=58813359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611070587.9A Active CN106650725B (zh) | 2016-11-29 | 2016-11-29 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106650725B (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
CN107397658A (zh) * | 2017-07-26 | 2017-11-28 | 成都快眼科技有限公司 | 一种多尺度全卷积网络及视觉导盲方法和装置 |
CN107480649A (zh) * | 2017-08-24 | 2017-12-15 | 浙江工业大学 | 一种基于全卷积神经网络的指纹汗孔提取方法 |
CN108090443A (zh) * | 2017-12-15 | 2018-05-29 | 华南理工大学 | 基于深度强化学习的场景文本检测方法及*** |
CN108154145A (zh) * | 2018-01-24 | 2018-06-12 | 北京地平线机器人技术研发有限公司 | 检测自然场景图像中的文本的位置的方法和装置 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108647681A (zh) * | 2018-05-08 | 2018-10-12 | 重庆邮电大学 | 一种带有文本方向校正的英文文本检测方法 |
CN108764228A (zh) * | 2018-05-28 | 2018-11-06 | 嘉兴善索智能科技有限公司 | 一种图像中文字目标检测方法 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109190458A (zh) * | 2018-07-20 | 2019-01-11 | 华南理工大学 | 一种基于深度学习的小人头检测方法 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达***工程股份有限公司 | 一种基于深度学习的ocr方法 |
CN109389114A (zh) * | 2017-08-08 | 2019-02-26 | 富士通株式会社 | 文本行获取装置和方法 |
CN109492630A (zh) * | 2018-10-26 | 2019-03-19 | 信雅达***工程股份有限公司 | 一种基于深度学习的金融行业图像中的文字区域检测定位的方法 |
CN109598290A (zh) * | 2018-11-22 | 2019-04-09 | 上海交通大学 | 一种基于两级检测相结合的图像小目标检测方法 |
CN109800756A (zh) * | 2018-12-14 | 2019-05-24 | 华南理工大学 | 一种用于中文历史文献密集文本的文字检测识别方法 |
CN109918987A (zh) * | 2018-12-29 | 2019-06-21 | 中国电子科技集团公司信息科学研究院 | 一种视频字幕关键词识别方法及装置 |
CN110135248A (zh) * | 2019-04-03 | 2019-08-16 | 华南理工大学 | 一种基于深度学习的自然场景文本检测方法 |
CN110135408A (zh) * | 2019-03-26 | 2019-08-16 | 北京捷通华声科技股份有限公司 | 文本图像检测方法、网络以及设备 |
CN110135424A (zh) * | 2019-05-23 | 2019-08-16 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN110619325A (zh) * | 2018-06-20 | 2019-12-27 | 北京搜狗科技发展有限公司 | 一种文本识别方法及装置 |
CN112418207A (zh) * | 2020-11-23 | 2021-02-26 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN112765353A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种基于科研文本的生物医学学科分类方法及装置 |
CN113454638A (zh) * | 2018-12-19 | 2021-09-28 | 艾奎菲股份有限公司 | 用于使用计算机视觉进行复杂视觉检查任务的联合学习的***和方法 |
CN117275005A (zh) * | 2023-09-21 | 2023-12-22 | 北京百度网讯科技有限公司 | 文本检测、文本检测模型优化、数据标注的方法、装置 |
CN117496130A (zh) * | 2023-11-22 | 2024-02-02 | 中国科学院空天信息创新研究院 | 基于上下文感知自训练的基础模型弱监督目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015132665A2 (en) * | 2014-03-07 | 2015-09-11 | Wolf, Lior | System and method for the detection and counting of repetitions of repetitive activity via a trained network |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105740892A (zh) * | 2016-01-27 | 2016-07-06 | 北京工业大学 | 一种高准确率的基于卷积神经网络的人体多部位识别方法 |
CN105912611A (zh) * | 2016-04-05 | 2016-08-31 | 中国科学技术大学 | 一种基于cnn的快速图像检索方法 |
-
2016
- 2016-11-29 CN CN201611070587.9A patent/CN106650725B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015132665A2 (en) * | 2014-03-07 | 2015-09-11 | Wolf, Lior | System and method for the detection and counting of repetitions of repetitive activity via a trained network |
CN104915386A (zh) * | 2015-05-25 | 2015-09-16 | 中国科学院自动化研究所 | 一种基于深度语义特征学习的短文本聚类方法 |
CN105740892A (zh) * | 2016-01-27 | 2016-07-06 | 北京工业大学 | 一种高准确率的基于卷积神经网络的人体多部位识别方法 |
CN105912611A (zh) * | 2016-04-05 | 2016-08-31 | 中国科学技术大学 | 一种基于cnn的快速图像检索方法 |
Non-Patent Citations (2)
Title |
---|
KEZE WANG 等: "Dictionary Pair Classifier Driven Convolutional Neural Networks for Object Detection", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
金连文 等: "深度学习在手写汉字识别中的应用综述", 《自动化学报》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
CN107397658B (zh) * | 2017-07-26 | 2020-06-19 | 成都快眼科技有限公司 | 一种多尺度全卷积网络及视觉导盲方法和装置 |
CN107397658A (zh) * | 2017-07-26 | 2017-11-28 | 成都快眼科技有限公司 | 一种多尺度全卷积网络及视觉导盲方法和装置 |
CN109389114B (zh) * | 2017-08-08 | 2021-12-03 | 富士通株式会社 | 文本行获取装置和方法 |
CN109389114A (zh) * | 2017-08-08 | 2019-02-26 | 富士通株式会社 | 文本行获取装置和方法 |
CN107480649A (zh) * | 2017-08-24 | 2017-12-15 | 浙江工业大学 | 一种基于全卷积神经网络的指纹汗孔提取方法 |
CN108090443A (zh) * | 2017-12-15 | 2018-05-29 | 华南理工大学 | 基于深度强化学习的场景文本检测方法及*** |
CN108090443B (zh) * | 2017-12-15 | 2020-09-22 | 华南理工大学 | 基于深度强化学习的场景文本检测方法及*** |
CN108288088B (zh) * | 2018-01-17 | 2020-02-28 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108154145B (zh) * | 2018-01-24 | 2020-05-19 | 北京地平线机器人技术研发有限公司 | 检测自然场景图像中的文本的位置的方法和装置 |
CN108154145A (zh) * | 2018-01-24 | 2018-06-12 | 北京地平线机器人技术研发有限公司 | 检测自然场景图像中的文本的位置的方法和装置 |
CN108647681A (zh) * | 2018-05-08 | 2018-10-12 | 重庆邮电大学 | 一种带有文本方向校正的英文文本检测方法 |
CN108647681B (zh) * | 2018-05-08 | 2019-06-14 | 重庆邮电大学 | 一种带有文本方向校正的英文文本检测方法 |
CN108764228A (zh) * | 2018-05-28 | 2018-11-06 | 嘉兴善索智能科技有限公司 | 一种图像中文字目标检测方法 |
CN110619325A (zh) * | 2018-06-20 | 2019-12-27 | 北京搜狗科技发展有限公司 | 一种文本识别方法及装置 |
CN110619325B (zh) * | 2018-06-20 | 2024-03-08 | 北京搜狗科技发展有限公司 | 一种文本识别方法及装置 |
CN109190458A (zh) * | 2018-07-20 | 2019-01-11 | 华南理工大学 | 一种基于深度学习的小人头检测方法 |
CN109165697B (zh) * | 2018-10-12 | 2021-11-30 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109492630A (zh) * | 2018-10-26 | 2019-03-19 | 信雅达***工程股份有限公司 | 一种基于深度学习的金融行业图像中的文字区域检测定位的方法 |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达***工程股份有限公司 | 一种基于深度学习的ocr方法 |
CN109299274B (zh) * | 2018-11-07 | 2021-12-17 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN109598290A (zh) * | 2018-11-22 | 2019-04-09 | 上海交通大学 | 一种基于两级检测相结合的图像小目标检测方法 |
CN109800756A (zh) * | 2018-12-14 | 2019-05-24 | 华南理工大学 | 一种用于中文历史文献密集文本的文字检测识别方法 |
CN109800756B (zh) * | 2018-12-14 | 2021-02-12 | 华南理工大学 | 一种用于中文历史文献密集文本的文字检测识别方法 |
CN113454638A (zh) * | 2018-12-19 | 2021-09-28 | 艾奎菲股份有限公司 | 用于使用计算机视觉进行复杂视觉检查任务的联合学习的***和方法 |
CN109918987B (zh) * | 2018-12-29 | 2021-05-14 | 中国电子科技集团公司信息科学研究院 | 一种视频字幕关键词识别方法及装置 |
CN109918987A (zh) * | 2018-12-29 | 2019-06-21 | 中国电子科技集团公司信息科学研究院 | 一种视频字幕关键词识别方法及装置 |
CN110135408B (zh) * | 2019-03-26 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 文本图像检测方法、网络以及设备 |
CN110135408A (zh) * | 2019-03-26 | 2019-08-16 | 北京捷通华声科技股份有限公司 | 文本图像检测方法、网络以及设备 |
CN110135248A (zh) * | 2019-04-03 | 2019-08-16 | 华南理工大学 | 一种基于深度学习的自然场景文本检测方法 |
CN110135424B (zh) * | 2019-05-23 | 2021-06-11 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN110135424A (zh) * | 2019-05-23 | 2019-08-16 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN112418207A (zh) * | 2020-11-23 | 2021-02-26 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN112418207B (zh) * | 2020-11-23 | 2024-03-19 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN112765353A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种基于科研文本的生物医学学科分类方法及装置 |
CN117275005A (zh) * | 2023-09-21 | 2023-12-22 | 北京百度网讯科技有限公司 | 文本检测、文本检测模型优化、数据标注的方法、装置 |
CN117496130A (zh) * | 2023-11-22 | 2024-02-02 | 中国科学院空天信息创新研究院 | 基于上下文感知自训练的基础模型弱监督目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106650725B (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106650725A (zh) | 基于全卷积神经网络的候选文本框生成和文本检测方法 | |
CN107066445B (zh) | 一种属性情感词向量的深度学习方法 | |
CN104217214B (zh) | 基于可配置卷积神经网络的rgb‑d人物行为识别方法 | |
CN103631859B (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN106354710A (zh) | 一种神经网络关系抽取方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及*** | |
CN109961132A (zh) | 用于学习深度卷积神经网络的结构的***和方法 | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN110516539A (zh) | 基于对抗网络的遥感影像建筑物提取方法、***、存储介质及设备 | |
CN109543502A (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN106844442A (zh) | 基于fcn特征提取的多模态循环神经网络图像描述方法 | |
CN106845499A (zh) | 一种基于自然语言语义的图像目标检测方法 | |
CN109492666A (zh) | 图像识别模型训练方法、装置及存储介质 | |
CN108038205A (zh) | 针对中文微博的观点分析原型*** | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN113378047B (zh) | 一种基于多方面增强的图神经网络推荐方法 | |
CN112925908A (zh) | 一种基于Attention的图注意力网络的文本分类方法及*** | |
CN109063719A (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN110110063A (zh) | 一种基于哈希学习的问答***构建方法 | |
CN113780002A (zh) | 基于图表示学习和深度强化学习的知识推理方法及装置 | |
CN102650999A (zh) | 一种从网页中抽取对象属性值信息的方法和*** | |
CN107451230A (zh) | 一种问答方法以及问答*** | |
CN108304479A (zh) | 一种基于图结构过滤的快速密度聚类双层网络推荐方法 | |
CN109558904A (zh) | 图像局部特征的分类方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |