CN106980858B - 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法 - Google Patents

一种语言文本检测与定位***及应用该***的语言文本检测与定位方法 Download PDF

Info

Publication number
CN106980858B
CN106980858B CN201710112377.XA CN201710112377A CN106980858B CN 106980858 B CN106980858 B CN 106980858B CN 201710112377 A CN201710112377 A CN 201710112377A CN 106980858 B CN106980858 B CN 106980858B
Authority
CN
China
Prior art keywords
text
region
network
layer
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710112377.XA
Other languages
English (en)
Other versions
CN106980858A (zh
Inventor
谢洪涛
方山城
谭建龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201710112377.XA priority Critical patent/CN106980858B/zh
Publication of CN106980858A publication Critical patent/CN106980858A/zh
Application granted granted Critical
Publication of CN106980858B publication Critical patent/CN106980858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种语言文本检测与定位***及应用该***的语言文本检测与定位方法,该***包括:一特征提取网络,用于从待检测图像中提取底层的CNN特征,得到若干不同的特征图;至少三个区域建议网络,用于分别对上述不同的特征图进行二分类以及边界框回归,然后根据包含文本的特征图产生文本候选区域;一过渡区域,用于连接多个上述文本候选区域,并根据上述包含文本的特征图及文本候选区域产生区域卷积特征图;一文本检测网络,用于根据上述区域卷积特征图产生文本区域边界框偏置信息,并对上述偏置信息进行非极大值抑制以及非合理区域过滤操作,产生图像坐标空间的预测文本区域边界框坐标信息。

Description

一种语言文本检测与定位***及应用该***的语言文本检测 与定位方法
技术领域
本发明涉及图像检测信息领域,尤其涉及一种语言文本检测与定位***及应用该***的语言文本检测与定位方法。
背景技术
图像中的语言文本往往包含有价值的信息,并且该信息在很多基于内容的图片和图像应用中被开发,像基于内容的网络图片查找,图像信息检索和自动文本分析和识别。传统的复杂背景语言文本定位方法大致可以分为三类:基于滑动窗的方法,基于连通成分的方法,混合方法。
典型的方法如使用MSERs(最大稳定极值区域)的基于连通成分的方法,该方法使用多阶段的方法定位语言文本信息:首先提取图像R、G和B三个通道的MSERs区域;然后训练分类器去掉重复的MSERs区域和非文本的MSERs区域,得到候选MSERs区域;之后候选文本区域连接成文本条;最后对得到的文本条进行去重处理。该方法虽然能检测与定位语言文本区域,但是过程较为繁琐,分为多个阶段进行。其检测效果依赖于MSERs产生的候选区域质量,同时受影响于人工设计的特征提取方式,如HOG(方向梯度直方图)等。此外,该方法的检测与定位的效率过低,一张图像大概需要60s左右。
本发明使用的技术不同于传统的语言文本检测与定位技术,而是使用深度学习技术。与本发明相关的深度学习为Ross Girshick等提出的基于区域的通用目标检测框架RCNN,以及其改进的Faster RCNN相关框架。该类方法的主要特点是通过一定方法,如Selective Search(选择搜索)、RPN(区域建议网络)等,产生物体候选区域,然后使用深度神经网络对该区域进行分类以及回归。此类方法在通用物体检测领域有较好的效果,但是由于语言文本形态复杂多变,在图像中常常处于较小且较长的位置,因而很难直接应用该类方法做语言文本检测。
发明内容
本发明的目的是提供一种语言文本检测与定位***及应用该***的语言文本检测与定位方法,该方法能够从给定的复杂背景图像中检测是否存在语言文本,如果存在,则返回该文本区域在图像中的精确坐标位置。本发明应对的图像是任意可能包含各种语言文本信息的背景图像,而不局限于文档图像等。
图像文本检测对发展信息自动化技术至关重要。本发明方法基于人工神经网络的方式,旨在从复杂背景图像中检测与定位语言文本信息。该方法使用基于区域的全卷积神经网络对包含各种类型语言的文本进行文本行级别的检测,其基于区域的全卷积神经网络的整体结构示意图如图1所示。该网络输入为一张完整的图像,输出为检测出的可能包含文本区域在图像上的坐标信息,不需要额外的处理方法再对网络进行后处理。
为达上述目的,本发明所采用的技术方案为:
一种语言文本检测与定位***,为一种基于区域的全卷积神经网络,该***包括;
一特征提取网络(FEN),包括若干卷积层和相应池化层,用于从待检测图像中提取底层的CNN特征,得到若干不同的特征图;
至少三个区域建议网络(RPN),用于分别对上述不同的特征图进行二分类以及边界框(Bounding Box)回归,然后根据包含文本的特征图产生文本候选区域;
一过渡区域,用于连接多个上述文本候选区域,并根据上述包含文本的特征图及文本候选区域产生区域卷积特征图;
一文本检测网络(TDN),用于根据上述区域卷积特征图产生文本区域边界框偏置信息,并对上述偏置信息进行非极大值抑制(NMS)以及非合理区域过滤操作,产生图像坐标空间的预测文本区域边界框坐标信息。
进一步地,所述特征提取网络作为分类网络在ImageNet数据集上进行预训练,得到特征提取网络模型,所述特征提取网络模型与所述区域建议网络及所述文本检测网络进行端到端的训练。
更进一步地,所述端到端的训练使用多任务损失协同训练网络,并采用随机梯度下降(Stochastic Gradient Descent,简称SGD)方法。
更进一步地,所述特征提取网络模型是指特征提取网络在ImageNet数据集上进行分类训练后,移除其分类层保留参数层而得到的参数作为特征提取网络端到端训练的初始化参数值。
一种应用上述***的语言文本检测与定位方法,其步骤包括:
1)从待检测图像中提取底层的CNN特征,得到若干不同的特征图;
2)对上述不同的特征图进行二分类以及边界框回归,根据包含文本的特征图产生文本候选区域;
3)根据上述包含文本的特征图以及上述文本候选区域提取区域卷积特征图;
4)根据上述区域卷积特征图产生文本区域边界框偏置信息;
5)对上述偏置信息进行非极大值抑制以及非合理区域过滤操作,产生图像坐标空间的预测文本区域边界框坐标信息。
进一步地,步骤2)中所述文本候选区域由三个区域建议网络分别根据所述特征提取网络的不同卷积层提取的特征图产生;且所述文本候选区域为文本行区域。
进一步地,步骤3)中所述区域卷积特征图由ROIPooling层提取;且对任意给定文本候选区域,ROIPooling层产生固定大小的区域卷积特征图。
进一步地,步骤4)中使用全局均值池化层(Global Average Pooling)对上述区域卷积特征图进行投票,得到文本区域边界框偏置信息。
进一步地,步骤5)中所述图像坐标空间的预测文本区域边界框坐标信息由文本检测网络的输出层Output输出。
进一步地,所述语言文本为维吾尔语文本。
本发明的有益效果在于:本发明提供一种语言文本检测与定位***及应用该***的语言文本检测与定位方法,该***为一种基于区域的全卷积神经网络,且该网络的三个子网络通过有效协作的方式整合在一起,使用端到端的方式训练及检测。并且应用该***的一种语言文本检测与定位方法对复杂背景图像中语言文本检测与定位能够达到很高的识别精度和很快的速度。其具体表现为:
1)精度方面:例如在维吾尔语文本检测数据集UICBI正确率达0.91,召回率达0.81,F值达0.86,其中F值为综合正确率与召回率在数值上评测的结果。
2)速度方面:例如在Nvidia TeslaK20c GPU下每张图像0.30s左右,在NvidiaTitan X下每张图像0.18s左右。
附图说明
图1为本发明一种语言文本检测与定位***的结构示意图。
图2为本发明基于区域的全卷积神经网络模型的各个网络层的详细参数配置示意图。
图3为本发明ROIPooling层工作模式示意图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本发明提供一种语言文本检测与定位***,为一种基于区域的全卷积神经网络,如图1所示,该***包括一特征提取网络、至少三个区域建议网络、一过渡区域和一文本检测网络;
所述特征提取网络包括若干卷积层和相应池化层,用于从待检测图像中提取底层的CNN特征,得到若干不同的特征图;
所述至少三个区域建议网络用于分别对上述不同的特征图做是否包含文本的二分类以及边界框回归,然后根据包含文本的特征图产生文本候选区域;
所述过渡区域包括一Concat层和一ROIPooling层,所述Concat层用于连接上述至少三个区域建议网络的输出结果,即多个文本候选区域;所述ROIPooling层用于根据上述包含文本的特征图及文本候选区域产生区域卷积特征图;
所述文本检测网络用于根据上述区域卷积特征图产生文本区域边界框偏置信息以及相应文本区域的预测评分(Score)信息,并对上述偏置信息及预测评分信息进行非极大值抑制以及非合理区域过滤操作,产生图像坐标空间的预测文本区域边界框坐标信息及相应文本区域的评分信息。
所述特征提取网络作为分类网络在ImageNet数据集上进行预训练,得到特征提取网络模型,所述特征提取网络模型与所述区域建议网络及所述文本检测网络进行端到端的训练。所述端到端的训练使用多任务损失协同训练网络,并采用随机梯度下降方法。
所述特征提取网络模型是指特征提取网络在ImageNet数据集上进行分类训练后,移除其分类层保留参数层而得到的参数作为特征提取网络端到端训练的初始化参数值。
本发明还提供一种应用上述***的语言文本检测与定位方法,其步骤为:首先,特征提取网络FEN从待检测图像中提取底层的CNN特征,所述底层的CNN特征是指提取的特征图并将在RPN与TDN中被利用;紧接着,三个区域建议网络RPN对上述不同的特征图做是否包含文本的二分类边界框回归,根据包含文本的特征图产生文本候选区域;随后,Concat层连接上述三个区域建议网络RPN输出的多个文本候选区域;ROIPooling层综合上述FEN的包含文本的特征图以及上述RPN产生的文本候选区域提取区域卷积特征图,并将该图输入至文本检测网络TDN。之后,TDN产生文本区域边界框偏置信息以及相应文本区域的预测评分信息。最后,文本检测网络的输出层Output综合上述偏置信息及预测评分信息,进行非极大值抑制以及非合理区域过滤等操作,产生图像坐标空间的预测文本区域边界框坐标信息及相应文本区域的评分信息。所述评分信息为特征提取网络模型对该区域是否属于文本的置信度。
本发明基于区域的全卷积神经网络结构按照全卷积思路进行定义,即所有的三个子网络FEN,RPN,TDN均使用卷积层作为参数层。图2为本发明基于区域的卷积神经网络模型各个网络层的详细参数配置示意图,除最后层(即bbox层、score层、rpn_bbox层、rpn_score层)外的所有参数层均后接修正线性单元(Rectified Linear Units,简称ReLU)网络层。图2中除了给出各网络层的具体配置外,还给出了各参数层的参数规模(Params)以及乘加(multiply-adds)计算操作数。乘加计算操作数为假定检测阶段处理的图像大小为600*1000(实际检测中预设的网络处理最大图像尺寸)。
请继续参考图2,所述特征提取网络FEN可以包含16个网络层,其中12个网络层为参数层(卷积层),4个为Max Pooling层(池化层)。所有的卷积层卷积核大小为3*3;Stride为1,即以步长为1的方式进行卷积;卷积层为保证不改变输入图像的尺寸大小,因而在周边填充1单位像素。12个卷积层的图像通道数依次为:64、128、128、256、256、256、512、512、512、512、512、512。池化层均为Max Pooling层,进行stride=2且卷积核为2*2的下采样操作。该网络总共有约一千四百万个参数。
由于该子网络不包含全连接层,因而能够处理任意尺寸大小图片,其输出的图像大小随输入的图像大小的变化而变化,在实际应用中,本发明限制最大的检测图像为600*1000像素。在大小为600*1000的图像情况下,输出的图像大小为38*63。各网络层在该图像大小下的计算规模如图2所示。
请继续参考图2,所述区域建议网络RPN等效于使用一个3*3的滑动窗口在FEN产生的特征图上进行滑动,实际上为使用一个卷积核大小为3*3的卷积层进行卷积计算。随后对每一个滑动窗口的位置做是否包含文本的二分类以及边界框回归,实际上为分别使用一个卷积核为1*1的卷积层(即rpn_score层和rpn_bbox层)。对任意一滑动窗口位置,共进行尺度为4;8;20;36以及长宽比为0:2;0:5;1:1;1:5的先验边界框(Anchor)的预测,即对每一滑动窗口位置,预测4*4=16个区域。第一个输出层(即rpn_score层)为是否包含文本的二分类输出,因而该网络层共有16*2=32个输出。第二个输出层(即rpn_bbox层)为预测边界框相对先验边界框的四个坐标的偏置,因而该网络层共有16*4=64个输出。
整体上,共有三个RPN同时协作产生文本候选区域,分别从三个不同的FEN网络层提取特征,即使用conv5_3,conv5_1,conv4_3三个卷积层产生的图像。使用多个RPN作用于不同的卷积层的目的为:不同的卷积层的感受野大小不同(在该三个网络层基础上感受野分别为194*194,130*130,90*90),且提取的特征抽象层次不同,因而融合多个网络层的信息有助于产生更加准确的文本候选区域。此外,RPN产生的文本区域为文本行区域,这样能强制CNN学习语言文本的基线信息,并避免额外的字符及文本行连接过程。
请继续参考图2,ROIPooling层首先截取RPN产生的文本候选区域在conv5_3对应的特征图区域,然后对该区域进行Max Pooling。对任意给定候选区域,其尺寸大小是不确定的,ROIPooling层产生固定的输出特征图大小。所述ROIPooling层工作模式如图3所示,灰色小格为原始图像在conv5_3上的特征图每一“像素”位置,白色背景网格为RPN产生的候选区域位置,ROIPooling层将该白色背景网格区域进行固定输出6*6的Max Pooling。注意由于输出大小是固定的,Pooling核的大小随着输入图像的大小变化而变化。
在ROIPooling层之后为所述文本检测网络TDN的两层卷积核大小为3*3的卷积层来进一步抽象特征,该两层卷积层类似于FEN中的卷积层。之后分别使用全局均值池化层对尺寸为6*6的区域卷积特征图进行投票,投票结果为文本区域边界框坐标偏置信息及相应文本区域的预测评分信息。以上计算结果由最后一功能层Output层输出,该网络层通过非极大值抑制及非合理边界框过滤等方式产生图像坐标空间的预测文本区域边界框坐标信息及相应文本区域的评分信息。
在训练过程中,所述特征提取网络FEN首先作为分类网络在ImageNet数据集上预训练。预训练的FEN网络模型与RPN及TDN进行端到端的训练。训练方法为随机梯度下降方法。该网络模型使用单一的Nvidia Tesla K20c GPU,基于Caffe框架进行训练。下面为训练时的各个超参数配置情况:
所有的参数层均以均值为0,标准差为0.01的高斯分布进行初始化,偏置以0进行初始化。全局学习率为0.001,以每20k轮迭代后除以10的策略进行递减。权重的局部学习率为1,偏置的局部学习率为2。momentum为0.9,weight decay为0.0005。
在每一训练迭代过程中,均匀地随机采样一张图像作为训练样本。该图像通过缩放归一化尺度为最小边为scales的尺寸,其中scales=600,500,400。在训练RPN的时候,使用与ground-truth交除并值(Intersection-over-Union,简称IoU)大于0.7的Anchor作为训练正样本,小于0.1的作为负样本。当训练TDN时,IoU的正样本阈值为0.5,负样本阈值为0.3。由于负样本个数占了训练样本的绝大部分,因而在训练的时候限制正负样本的比例。例如,如果负样本与正样本的比例超过1.5,则进一步随机采样正样本使得比例达到1.5。正负样本的训练样本数最多限制在128个以内。
为达到所述特征提取网络与所述区域建议网络及所述文本检测网络进行的端到端训练的目的,本发明使用多任务损失协同训练网络,其总体目标损失函数定义如下:
Figure BDA0001234825420000061
其中i为TDN训练mini-batch(分批处理)的样本索引,即三个RPN产生的所有候选区域索引。si为第i个候选区域预测为文本的评分,且为分类层(score_prob层)产生的输出。ti为最后的回归层(bbox_pool层)产生的边界框偏置向量。j为RPN训练mini-batch中的样本索引,k为三个RPN的索引。s′kj为第k个rpn_prob层产生的输出,t′kj为第k个rpnbbox层产生的输出。Ltdn以及Lrpn的定义如下:
Ltdn(si,ti)=Lcls(si,pi)+λpiLreg(ti,ui) (2)
Figure BDA0001234825420000071
其中pi以及qkj为训练样本ground-truth标签。若该样本为文本,则pi=qkj=1,否则值为0。注意若为非文本,则该样本不贡献损失。Lcls为二分类(文本,非文本)的log损失,Lreg为对异常值不敏感的L1损失(L1为L1范数损失函数)。训练样本数量N作为归一化项平衡损失,此外参数λ用来控制Lcls与Lreg,默认λ=1。
上述损失函数中定义的ti=(tx,ty,tw,th)以及ui=(ux,uy,uw,uh)为TDN训练阶段候选区域P′=(P′x,P′y,P′w,P′h)预测的边界框与ground-truth偏置,其中给定ground-truthG=(Gx,Gy,Gw,Gh)后,ui按公式(4)计算:
Figure BDA0001234825420000072
且预测的边界框P=(Px,Py,Pw,Ph)按公式(5)计算:
Figure BDA0001234825420000073
此外,t′kj以及vkj为RPN中的坐标偏置(与TDN中的ti和ui对应),其计算方式与(4)(5)相同。但是,此时P′为先验边界框的固定坐标而非候选区域,P为预测的候选区域。所有的ui以及vkj均通过计算样本均值与方差的方式归一化到均值为0方差为1的数据分布。
下面为一具体检测流程来解释说明本发明方法:
对输入的图像进行缩放,使得该图像最短边为600像素。该图像经FEN及三个RPN处理后(同训练阶段)大约产生160k候选区域,其中60%的候选区域具有较小的边及面积,因此对此部分区域进行过滤,此外,也过滤那些在图像外区域的预测。随后,以IoU阈值为0.7进行非极大值抑制,最高的50×3=150得分对应的区域(如果NMS后候选区域还足够的话)被输入进TDN。TDN产生最终预测的边界框,经过相同的方式后得到预测结果,此时的NMS阈值为0.2。以评分大于0.8的预测结果作为最终的预测结果,评分阈值取值越大,正确率越高,召回率则越低,反之亦然。此外,若文本行在水平方面交叉,则进行文本行连接。
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (8)

1.一种语言文本检测与定位***,为一种基于区域的全卷积神经网络,该***包括:
一特征提取网络,包括若干卷积层和相应池化层,用于从待检测图像中提取底层的CNN特征,得到若干不同的特征图;
至少三个区域建议网络,用于分别对上述不同的特征图进行二分类以及边界框回归,然后根据三个区域建议网络中不同卷积层感受野的不同,由包含文本的特征图产生文本候选区域;
一过渡区域,所述过渡区域包括一Concat层和一ROIPooling层,所述Concat层用于连接多个上述文本候选区域,所述ROIPooling层根据上述包含文本的特征图及文本候选区域,使用全局均值池化层对上述区域卷积特征图进行投票产生文本区域边界框偏置信息,通过Pooling核的大小随着输入图像的大小变化而变化,产生固定大小的区域卷积特征图;
一文本检测网络,用于根据上述区域卷积特征图产生文本区域边界框偏置信息,并对上述偏置信息进行非极大值抑制以及非合理区域过滤操作,产生图像坐标空间的预测文本区域边界框坐标信息;
其中,所述特征提取网络模型与所述区域建议网络及所述文本检测网络使用多任务损失协同训练网络进行端到端的训练。
2.如权利要求1所述的***,其特征在于,所述特征提取网络作为分类网络在ImageNet数据集上进行预训练,得到特征提取网络模型。
3.如权利要求2所述的***,其特征在于,所述特征提取网络模型是指特征提取网络在ImageNet数据集上进行分类训练后,移除其分类层保留参数层而得到的参数作为特征提取网络端到端训练的初始化参数值。
4.如权利要求2所述的***,其特征在于,所述端到端的训练使用多任务损失协同训练网络,并采用随机梯度下降方法。
5.一种采用权利要求1所述***的语言文本检测与定位方法,适用于一基于区域的全卷积神经网络,所述全卷积神经网络包括一特征提取网络、至少三个区域建议网络、一过渡区域及一文本检测网络,其步骤包括:
1)从待检测图像中提取底层的CNN特征,得到若干不同的特征图;
2)对上述不同的特征图进行二分类以及边界框回归,根据包含文本的特征图产生文本候选区域;
3)根据上述包含文本的特征图以及上述文本候选区域由ROIPooling层产生固定大小的区域卷积特征图;
4)根据上述区域卷积特征图,使用全局均值池化层对上述区域卷积特征图进行投票,产生文本区域边界框偏置信息;
5)对上述偏置信息进行非极大值抑制以及非合理区域过滤操作,产生图像坐标空间的预测文本区域边界框坐标信息;
其中,文本检测网络使用多任务损失协同训练网络进行端到端的训练。
6.如权利要求5所述的方法,其特征在于,步骤2)中所述文本候选区域由三个区域建议网络分别根据所述特征提取网络的不同卷积层提取的特征图产生;且所述文本候选区域为文本行区域。
7.如权利要求5所述的方法,其特征在于,步骤5)中所述图像坐标空间的预测文本区域边界框坐标信息由文本检测网络的输出层Output输出。
8.如权利要求5所述的方法,其特征在于,所述语言文本为维吾尔语文本。
CN201710112377.XA 2017-02-28 2017-02-28 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法 Active CN106980858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710112377.XA CN106980858B (zh) 2017-02-28 2017-02-28 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710112377.XA CN106980858B (zh) 2017-02-28 2017-02-28 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法

Publications (2)

Publication Number Publication Date
CN106980858A CN106980858A (zh) 2017-07-25
CN106980858B true CN106980858B (zh) 2020-08-18

Family

ID=59339303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710112377.XA Active CN106980858B (zh) 2017-02-28 2017-02-28 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法

Country Status (1)

Country Link
CN (1) CN106980858B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
CN109840520A (zh) * 2017-11-24 2019-06-04 ***通信集团广东有限公司 一种***关键信息识别方法及***
CN109993040B (zh) * 2018-01-03 2021-07-30 北京世纪好未来教育科技有限公司 文本识别方法及装置
CN108427924B (zh) * 2018-03-09 2020-06-23 华中科技大学 一种基于旋转敏感特征的文本回归检测方法
CN108573258B (zh) * 2018-04-24 2020-06-26 中国科学技术大学 一种快速的复杂背景图像中维语文字定位方法
CN108664975B (zh) * 2018-04-24 2022-03-25 新疆大学 一种维吾尔文手写字母识别方法、***及电子设备
CN109492630A (zh) * 2018-10-26 2019-03-19 信雅达***工程股份有限公司 一种基于深度学习的金融行业图像中的文字区域检测定位的方法
CN111191668B (zh) * 2018-11-15 2023-04-28 零氪科技(北京)有限公司 一种在病历文本中识别出疾病内容的方法
CN109583367A (zh) * 2018-11-28 2019-04-05 网易(杭州)网络有限公司 图像文本行检测方法及装置、存储介质和电子设备
CN111259878A (zh) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 一种检测文本的方法和设备
CN109685055B (zh) * 2018-12-26 2021-11-12 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN111428730B (zh) * 2019-01-09 2022-07-08 中国科学技术大学 弱监督细粒度物体分类方法
CN109492230B (zh) * 2019-01-11 2022-12-20 浙江大学城市学院 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
CN111639639B (zh) * 2019-03-01 2023-05-02 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质
CN111695377B (zh) * 2019-03-13 2023-09-29 杭州海康威视数字技术股份有限公司 一种文本检测方法、装置和计算机设备
CN109948615B (zh) * 2019-03-26 2021-01-26 中国科学技术大学 多语言文本检测识别***
CN111914830A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 一种图像中的文本行定位方法、装置、设备及***
CN110502655B (zh) * 2019-07-31 2022-04-01 武汉大学 一种嵌入场景文字信息的图像自然描述语句生成方法
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质
CN113496150B (zh) * 2020-03-20 2023-03-21 长沙智能驾驶研究院有限公司 密集目标检测方法、装置、存储介质及计算机设备
CN111666941B (zh) * 2020-06-12 2024-03-29 北京达佳互联信息技术有限公司 一种文本检测方法、装置及电子设备
CN113762259A (zh) * 2020-09-02 2021-12-07 北京沃东天骏信息技术有限公司 文本定位方法、装置、计算机***和可读存储介质
CN112580624B (zh) * 2020-11-18 2023-08-04 中国科学院信息工程研究所 基于边界预测的多方向文本区域检测方法和装置
CN115082919B (zh) * 2022-07-22 2022-11-29 平安银行股份有限公司 一种地址识别方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975931A (zh) * 2016-05-04 2016-09-28 浙江大学 一种基于多尺度池化的卷积神经网络人脸识别方法
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106372571A (zh) * 2016-08-18 2017-02-01 宁波傲视智绘光电科技有限公司 路面交通标志检测与识别方法
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975931A (zh) * 2016-05-04 2016-09-28 浙江大学 一种基于多尺度池化的卷积神经网络人脸识别方法
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106372571A (zh) * 2016-08-18 2017-02-01 宁波傲视智绘光电科技有限公司 路面交通标志检测与识别方法
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置

Also Published As

Publication number Publication date
CN106980858A (zh) 2017-07-25

Similar Documents

Publication Publication Date Title
CN106980858B (zh) 一种语言文本检测与定位***及应用该***的语言文本检测与定位方法
CN107122375B (zh) 基于图像特征的图像主体的识别方法
CN107944559B (zh) 一种实体关系自动识别方法及***
CN105825502B (zh) 一种基于显著性指导的词典学习的弱监督图像解析方法
CN113642431B (zh) 目标检测模型的训练方法及装置、电子设备和存储介质
CN111274994B (zh) 漫画人脸检测方法、装置、电子设备及计算机可读介质
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN111339935B (zh) 一种基于可解释cnn图像分类模型的光学遥感图片分类方法
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN106294344A (zh) 视频检索方法和装置
CN110598586A (zh) 一种目标检测方法及***
CN112990296A (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及***
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN112990222B (zh) 一种基于图像边界知识迁移的引导语义分割方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN111915618A (zh) 基于峰值响应增强的实例分割算法、计算设备
CN107506792A (zh) 一种半监督的显著对象检测方法
CN111461121A (zh) 一种基于yolov3网络的电表示数识别方法
CN112734803A (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN114648676A (zh) 点云处理模型的训练和点云实例分割方法及装置
Khashman Investigation of different neural models for blood cell type identification
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及***
CN110796716A (zh) 一种基于多重残差网络和正则化迁移学习的图像着色方法
CN104835154A (zh) 一种基于随机游走的彩色图像目标获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant