CN106897732A - 一种基于连接文字段的自然图片中多方向文本检测方法 - Google Patents
一种基于连接文字段的自然图片中多方向文本检测方法 Download PDFInfo
- Publication number
- CN106897732A CN106897732A CN201710010596.7A CN201710010596A CN106897732A CN 106897732 A CN106897732 A CN 106897732A CN 201710010596 A CN201710010596 A CN 201710010596A CN 106897732 A CN106897732 A CN 106897732A
- Authority
- CN
- China
- Prior art keywords
- bounding box
- word section
- word
- connection
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于连接文字段的自然图片中多方向文本检测方法,文字段和连接是该检测方法中关键的两个步骤,定义如下:文字段指的是在图片上划分出许多单个多方向的包围盒区域,它们包围着一个文字条或者单词的一部分;连接指的是将相邻的字段连接起来,意味着它们属于同一个单词或同一句话。文字段和连接合起来使用一个端到端训练的全卷积神经网络以多种尺度进行等间隔地检测。最后的检测结果是先连接多个文字段组成新区域,然后对这些新区域进行组合而得到的。本发明提出的检测方法相对于现有技术在准确率、速度和模型简易度这些方面都取得了卓越的效果,效率高且鲁棒性强,能克服复杂的图片背景,另外也能检测图像中非拉丁文字的长文本。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于连接文字段的自然图片中多方向文本检测方法。
背景技术
读取自然图片中的文本是一个充满挑战的热门任务,在照片光学识别、地理定位和图像检索方面都有许多实际的应用。在文本读取***中,文字检测就是在单词级别或文字条级别上以包围盒来定位文字区域,它通常都作为非常关键的第一步。从某种意义上而言,文字检测也可以视为一种特殊的物体检测,即将单词、字符或文字条作为检测的目标。
尽管已有的技术已经在将物体检测方法应用于文字检测上取得了极大的成功,但是物体检测方法在定位文字区域方面仍有几点明显的不足。第一,单词或文字条的长宽比通常都比一般物体要大的多,之前的方法难以产生这种比例的包围盒;第二,一些非拉丁语的文本在相邻单词之间并不包含空格,比如中文汉字。已有的技术都只能检测到单词,在检测这种文本时就会不适用,因为这种不包含空格的文本无法提供划分不同单词的视觉信息。第三,在大型自然场景图片中,文字可能是任意方向的,然而现有的技术绝大多数都只能检测水平方向的文字。因此自然场景图片中的文本检测仍然是计算机视觉技术领域的难点之一。
发明内容
本发明的目的在于提供一种基于连接文字段的自然图片中多方向文本检测方法,该方法检测文本准确率高,速度快,模型简易,且鲁棒性强,能克服复杂的图片背景,另外也能检测非拉丁文字的长文本。
为实现上述目的,本发明从一个全新的视角来解决场景文字检测问题,提供了一种基于连接文字段的自然图片中多方向文本检测方法,包括下述步骤:
(1)训练文字段连接检测网络模型,包括如下子步骤:
(1.1)以词条级别标记训练图像集中所有文本图像的文本内容,标签为词条的矩形初始包围盒的四个点坐标,得到训练数据集;
(1.2)定义用于根据词条标签可以预测输出文字段和连接的文字段检测模型,所述网络模型由级联卷积神经网络和卷积预测器组成,根据上述训练数据集计算得到文字段和连接的标签,设计损失函数,结合在线扩增和在线负样本难例挖掘技术手段,利用反向传导方法训练该网络,得到文字段检测模型,包括如下子步骤:
(1.2.1)构建文字段检测卷积神经网络模型:提取特征的前几层卷积单元来自预训练的VGG-16网络,前几层卷积单元为卷积层1到池化层5,全连接层6和全连接层7分别转换为卷积层6和卷积层7,连接在其后的是一些额外加入的卷积层,用于提取更深度的特征进行检测,包括卷积层8、卷积层9、卷积层10,最后一层是卷积层11;后6个不同的卷积层分别输出不同尺寸的特征图,便于提取出多种尺度的高质量特征,检测文字段和连接是在这六个不同尺寸的特征图上进行的;对于这6个卷积层,每一层之后都添加尺寸为3×3的滤波器作为卷积预测器,来共同检测文字段和连接;
(1.2.2)从标注的词包围盒产生文字段包围盒标签:对于原始训练图像集Itr,记缩放后的训练图像集为Itr′,wI、hI分别为Itr′的宽度和高度,可以取384×384或512×512像素,第i张图片Itri′作为模型输入,Itri′上标注的所有词包围盒记作Wi=[Wi1,...,Wip],其中Wij为第i张图片上的第j个词包围盒,词包围盒可以是单词级别也可以是词条级别,j=1,...,p,p为第i张图片上词包围盒的总数量;记后6层卷积层分别输出的特征图构成集合Itroi′=[Itroi1′,...,Itroi6′],其中Itroil′为后6层卷积层中第l层输出的特征图,wl、hl分别为该特征图的宽度和高度,Itroil′上的坐标(x,y)对应Itri′上以(xa,ya)为中心点坐标的水平初始包围盒Bilq,它们满足下列公式:
初始包围盒Bilq的宽和高都被设置成一个常数al,用于控制输出文字段的比例,l=1,...,6;记第l层输出的特征图Itroil′对应的初始包围盒集合为Bil=[Bil1,...,Bilm],q=1,...,m,其中m为第l层输出的特征图上初始包围盒的数目;只要初始包围盒Bilq的中心被包含在Itr′上任一标注的词包围盒Wij内部,且Bilq的尺寸al和该标注的词包围盒Wij的高度h满足:那么这个初始包围盒Bilq被标记为正类,标签取值为1,并与高度最为接近的那个词包围盒Wij匹配;否则,当Bilq与所有词包围盒Wi都不满足上述两个条件时,Bilq就被标记为负类,标签取值为0;文字段在初始包围盒上产生,与初始包围盒标签类别相同;其中,比例常数1.5为经验值;
(1.2.3)在所述步骤(1.2.2)产生的带标签的初始包围盒上产生文字段并计算正类文字段偏移量:负类文字段包围盒s-为负类初始包围盒B-;正类文字段包围盒s+由正类初始包围盒B+经过以下步骤得到:a)记正类初始包围盒B+匹配到的标注词包围盒W与水平方向夹角为θs,以B+的中心点为中心,将W顺时针旋转θs角;b)裁剪W,去除超出B+左边和右边的部分;c)以B+的中心点为中心,将裁剪后的词包围盒W′逆时针旋转θs角,得到文字段s+真实标签的几何参数xs、ys、ws、hs、θs;d)计算得到文s+相对于B+的偏移量(Δxs,Δys,Δws,Δhs,Δθs),计算公式如下:
xs=alΔxs+xa
ys=alΔys+ya
ws=alexp(Δws)
hs=alexp(Δhs)
θs=Δθs
其中,xs、ys、ws、hs、θs分别为文字段包围盒s+的中心点横坐标、中心点纵坐标、宽度、高度以及与水平方向之间的夹角;xa、ya、wa、ha分别为水平初始包围盒B+的中心点横坐标、中心点纵坐标、宽度、高度;Δxs、Δys、Δws、Δhs、Δθs分别为文字段包围盒s+中心点横坐标xs相对初始包围盒B+的偏移量、纵坐标ys相对初始包围盒的偏移量、宽度ws的偏移变化量、高度hs的偏移变化量、角度θs的偏移量;
(1.2.4)对于步骤(1.2.3)产生的文字段包围盒计算连接标签:文字段s是在初始包围盒B上产生的,因此s之间的连接标签和它们对应的初始包围盒B之间的连接标签相同;对于特征图集合Itroi′=[Itroi1′,...,Itroi6′],如果在同一张特征图Itroil′的初始包围盒集合Bil里,两个初始包围盒的标签都是正类,且匹配到同一个词,那么之间的层内连接被标记为正类,否则标记为负类;如果在特征图Itroil′对应的初始包围盒集合Bil里的初始包围盒和Itroi(l-1)′对应的的初始包围盒集合Bi(l-1)里的初始包围盒的标签都是正类且匹配到同一个词包围盒Wij,那么之间的跨层连接被标记为正类,否则标记为负类;
(1.2.5)以缩放后的训练图像集Itr′作为文字段检测模型输入,预测文字段s输出:对模型初始化权重和偏置,前6万次训练迭代步骤学习率设置为10-3,之后学习率衰减到10-4;对于后6层卷积层,在第l层特征图Itroil′上的坐标(x,y)处,(x,y)对应到输入图像Itri′上以(xa,ya)为中心点坐标、以al为尺寸的初始包围盒Bilq,3×3的卷积预测器都会预测出Bilq被分别划分成正、负类的得分cs,cs为二维向量,取值范围为0-1之间的小数。同时也预测出5个数字作为被划分到正类文字段s+时的几何偏移量,其中分别为预测的文字段包围盒s+中心点横坐标相对正类初始包围盒B+的偏移量、纵坐标的相对正类初始包围盒B+的偏移量、高度的偏移变化量、宽度的偏移变化量、角度偏移量;
(1.2.6)在已预测的文字段基础上预测层内连接和跨层连接输出:对于层内连接,在同一张特征图Itroil′上坐标点(x,y)处,取x-1≤x′≤x+1、y-1≤y′≤y+1范围内近邻的点(x′,y′),这8个点对应到输入图像Itri′时,便获得了与(x,y)对应的基准文字段s(x,y,l)相连接的层内近邻文字段s(x′,y′,l),8个层内近邻文字段可表示为集合:
3×3卷积预测器会预测出s(x,y,l)与层内近邻集合的连接的正、负得分cl1,cl1为16维向量,其中,w为上标,表示层内连接;
对于跨层连接,一个跨层连接将两个连续卷积层输出的特征图上两个点处对应的文字段相连;由于每经过一层卷积层,特征图的的宽度和高度都会缩小一半,第l层输出特征图Itroil′的宽度wl和高度hl是第l-1层特征图Itroi(l-1)′的宽度wl-1和高度hl-1的一半,而Itroil′对应的初始包围盒尺度al是Itroi(l-1)′对应的初始包围盒尺度al-1的2倍,对于在第l层输出特征图Itroil′上的(x,y),在特征图Itroi(l-1)′上取2x≤x′≤2x+1、2y≤y′≤2y+1范围内的4个跨层近邻点(x′,y′),Itroil′上(x,y)对应到输入图像Itri′上的初始包围盒刚好与Itroi(l-1)′上4个跨层近邻点对应到输入图像Itri′上的4个初始包围盒空间位置重合,4个跨层近邻文字段s(x′,y′,l-1)可表示为集合:
3×3卷积预测器会预测出第l层基准文字段s(x,y,l)与第l-1层上近邻文字段集合之间跨层连接的正、负得分cl2,cl2为8维向量:
其中,表示预测器预测出s(x,y,l)与其所有4个近邻文字段之间的连接的正、负得分,c为上标,表示跨层连接;
所有的层内连接和所有的跨层连接构成连接集合Ns;
(1.2.7)以步骤(1.2.3)和步骤(1.2.4)获得的文字段标签、正类文字段真实偏移量、连接标签作为输出基准,以步骤(1.2.5)预测的文字段类别及得分、预测的文字段偏移量、步骤(1.2.6)预测的连接得分为预测输出,设计预测输出与输出基准之间的目标损失函数,对文字段连接检测模型利用反向传导法进行不断地训练,来最小化文字段分类、文字段偏移回归和连接分类的损失,针对所述文字段连接检测模型设计目标损失函数,目标损失函数是三个损失的加权和:
其中ys是所有文字段的标签,cs是预测的文字段得分,yl是预测的连接标签,cl是预测的连接得分,由层内连接得分cl1和跨层得分cl2组成;如果第i个初始包围盒标记为正类,那么ys(i)=1,否则为0;Lconf(ys,cs)是预测的文字段得分cs的softmax损失,Lconf(ys,cl)是预测的连接得分cl的softmax损失,是预测的文字段几何参数s和真实标签之间的平滑L1回归损失;ns是正类初始包围盒的数量,用来对文字段分类和回归损失进行归一化;nl是正类连接总数,用来对连接分类损失进行归一化;λ1和λ2为权重常数,在实际中取1;
(1.2.8)在步骤(1.2.7)的训练过程中,采用在线扩增方法对训练数据Itr进行在线扩增,并采用在线负样本难例挖掘策略来平衡正样本和负样本。在训练图片Itr被缩放到相同的尺寸并批量加载之前,它们被随机地裁剪成一个个图像块,每个图像块与文字段的真实包围盒的jaccard重叠系数o最小;对于多方向文字,数据扩增是在多方向文字包围盒的最小包围矩形上进行的,每个样本的重叠系数o从0、0.1、0.3、0.5、0.7和0.9中随机选择,图像块的大小为原始图片尺寸的0.1-1倍之间;训练图像不水平翻转;另外,文字段和连接负样本占据训练样本的大部分,采用在线负样本难例挖掘策略来平衡正样本和负样本,对文字段和连接分开进行挖掘,控制负样本与正样本之间的比例不超过3∶1。
(2)利用上述训练好的卷积神经网络对待检测文本图像进行文字段和连接检测,包括如下子步骤:
(2.1)对待检测文本图像进行文字段检测,由不同卷积层输出的特征图可以预测出不同尺度的文字段,由同一卷积层输出的特征图预测出相同尺度的文字段:对待检测图像集Itst中的第i张待检测文本图像Itsti,缩放到统一尺寸,具体尺寸可随待检测文本图像的情况人为设定,记缩放后的待检测文本图像为Itsti′。将图像Itsti′输入到步骤(1.2)中训练好的文字段连接检测模型,得到后6层卷积层分别输出的特征图构成的集合Itstoi′=[Itstoi1′,...,Itstoi6′],其中Itstoil′为后6层卷积层中第l层输出的特征图,l=1,...,6,在每张输出特征图Itstoil′上的坐标(x,y)处,3×3的卷积预测器都会预测出(x,y)对应的初始包围盒Bilq被预测为正、负类文字段的得分cs,同时也预测出5个数字作为被预测为正类文字段s+时的几何偏移量;
(2.2)对待检测文本图像检测出的所有特征层上的文字段进行连接检测,所述连接包括层内连接和跨层连接:在(2.1)预测的文字段基础上预测层内连接和跨层连接,对于层内连接,在同一张特征图Itstoil′上坐标点(x,y)处,3×3卷积预测器预测出s(x,y,l)与它8个近邻文字段之间层内连接的正、负得分cl1;对于跨层连接,3×3卷积预测器会预测出第l层基准文字段s(x,y,l)与第l-1层上4个近邻文字段的跨层连接正、负得分cl2,cl1和cl2构成预测的连接得分cl;
(2.3)将检测得到的文字段置信度得分和连接置信度得分组合,其中文字段置信度得分包括文字段正负类别得分和偏移量得分,利用卷积预测器输出softmax标准化得分:在(2.1)预测的文字段基础上预测层内连接和跨层连接,对于层内连接,在同一张特征图Itstoil′上坐标点(x,y)处,3×3卷积预测器预测出s(x,y,l)与8个近邻文字段之间层内连接的正、负得分cl1;对于跨层连接,3×3卷积预测器会预测出第l层基准文字段s(x,y,l)与第l-1层上4个近邻文字段的跨层连接正、负得分cl2,cl1和cl2构成预测的连接得分cl。
(3)组合文字段和连接,得到输出包围盒,包括如下子步骤:
(3.1)根据(2.3)中检测得到的标准化得分,过滤卷积预测器输出的文字段和连接,以过滤后的文字段作为节点,以连接作为边,构建连接图:对于步骤(2)待检测文本图像输入到文字段检测模型而产生的固定数量的文字段s和连接Ns,通过它们的得分进行过滤;为文字段s和连接Ns设置不同的过滤阈值,分别为α和β;过滤阈值可以根据不同的数据人为设定不同的值,在实际中进行多方向文本图像检测时,可以取α=0.9,β=0.7,进行多语种长文本图像检测时,可以取α=0.9,β=0.5,进行水平文本检测时,可以取α=0.6,β=0.3;将过滤后的文字段s′作为节点,过滤后的连接Ns′作为边,利用它们构建一个图;
(3.2)在图上执行深度优先搜索以找到相互连接的组件,每个组件记作集合B,包含由连接相连起来的文字段;
(3.3)对步骤(3.2)在图上进行深度优先搜索得到的文字段集合S,通过下述步骤组合成一个完整的词,包括:
(3.3.1)输入:|S|为集合S里的文字段数量,其中为第i个文字段,i为上标,分别为第i个文字段包围盒s(i)的中心横坐标和纵坐标,分别为文字段包围盒s(i)的宽度和高度,为文字段包围盒s(i)与水平方向之间的夹角;
(3.3.2)其中θb为输出包围盒的偏移角度,为集合里第i个文字段包围盒s的偏移角度,由集合S里所有文字段的平均偏移角度得到;
(3.3.3)找到直线tan(θb)x+b的截距b,使得集合S中所有的文字段到中心点的距离的总和最小;
(3.3.4)找到直线的两个端点(xp,yp)和(xq,yq),p表示第一个端点,q表示第二个端点,xp、yp分别为第一个端点的横、纵坐标,xq、yq分别为第二个端点的横、纵坐标;
(3.3.5)b表示输出包围盒,xb、yb分别为输出包围盒中心的横、纵坐标;
(3.3.6)其中wb为输出包围盒的宽度,wp、wq分别为以点p为中心的包围盒的宽度和以q为中心的包围盒的宽度;
(3.3.7)hb为输出包围盒的高度,为集合里第i个文字段包围盒s的高度,由由文字段集合S里所有文字段的平均高度得到;
(3.3.8)b:=(xb,yb,wb,hb,θb),b为输出包围盒,由坐标参数、尺寸参数、角度参数表示;
(3.3.9)输出组合而成的包围盒b。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)可以检测多方向文字:自然场景图片里的文本通常是任意方向或者扭曲的,本发明方法文字区域可以通过文字段包围盒进行局部描述,文字段包围盒可以被设置成任意方向,因此可以包含多方向或扭曲形状的文字。
(2)灵活度高:本发明方法也可以检测任意长度的文字条,因为组合文字段只依赖于预测的连接,因此既可以检测单词,也可以检测文字条;
(3)鲁棒性强:本发明方法采用的是以文字段包围盒进行局部描述,这种局部描述的方法能克服复杂的自然图片背景,从图片里捕获文本特征;
(4)效率高:本发明方法的文字段检测模型是端到端进行训练的,每秒能够处理超过20张大小为512x512图像,因为文字段和连接都是通过在全卷积CNN模型进行一次正向传播获得,不需要对输入图像进行离线的缩放和旋转;
(5)通用性强:一些非拉丁语的文本在相邻单词之间并不包含空格,比如中文汉字。已有的技术都只能检测到单词,在检测这种文本时就会不适用,因为这种不包含空格的文本无法提供划分不同单词的视觉信息。除了拉丁文字,本发明也能够检测非拉丁文字的长文本,因为本发明方法不需要利用空格来提供视觉划分信息。
附图说明
图1是本发明基于文字段连接的自然图片中多方向文本检测的流程图;
图2是本发明计算文字段真实标签各项参数的示意图;
图3是本发明卷积预测器的输出组成示意图;
图4是本发明文字段连接检测模型网络连接图;
图5是本发明一实施例中利用训练好的文字段连接检测网络模型对待检测文本图像进行检测文字段和连接输出包围盒的结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
卷积神经网络(Concolutional Neural Network,CNN):一种可用于图像分类、回归等任务的神经网络。网络通常由卷积层、降采样层和全连接层构成。卷积层和降采样层负责提取图像的特征,全连接层负责分类或回归。网络的参数包括卷积核以及全连接层的参数及偏置,参数可以通过反向传导算法,从数据中学习得到;
VGG16:2014年ILSVRC的亚军是VGGNet,包含16个CONV/FC层,具有非常均匀的架构,颇具吸引力,从开始到结束只执行3x3卷积和2x2池化层,成为经典的卷积神经网络模型。他们的预训练模型可用于Caffe的即插即用。它证明了网络的深度是良好性能的关键组成部分。
深度优先搜索(DFS):它是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点,尽可能深的搜索树的分支。当节点v的所在边都己被探寻过,搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点,则选择其中一个作为源节点并重复以上过程,整个进程反复进行直到所有节点都被访问为止。属于图论中的经典算法,利用深度优先搜索算法可以产生目标图的相应拓扑排序表,利用拓扑排序表可以方便的解决很多相关的图论问题,如最大路径问题等等。
如图1所示,本发明基于空间变换的自然场景下文本检测方法包括以下步骤:
(1)训练文字段连接检测网络模型,包括如下子步骤:
(1.1)以词条级别标记训练图像集中所有文本图像的文本内容,标签为词条的矩形初始包围盒的四个点坐标,得到训练数据集;
(1.2)定义用于根据词条标注可以预测输出文字段和连接的文字段检测模型,所述网络模型由级联卷积神经网络和卷积预测器组成,根据上述训练数据集计算得到文字段和连接的标签,设计损失函数,结合在线扩增和在线负样本难例挖掘技术手段,利用反向传导方法训练该网络,得到文字段检测模型,包括如下子步骤:
(1.2.1)构建文字段检测卷积神经网络模型:提取特征的前几层卷积单元来自预训练的VGG-16网络,前几层卷积单元为卷积层1到池化层5,全连接层6和全连接层7分别转换为卷积层6和卷积层7,连接在其后的是一些额外加入的卷积层,用于提取更深度的特征进行检测,包括卷积层8、卷积层9、卷积层10,最后一层是卷积层11;后6个不同的卷积层分别输出不同尺寸的特征图,便于提取出多种尺度的高质量特征,检测文字段和连接是在这六个不同尺寸的特征图上进行的;对于这6个卷积层,每一层之后都添加尺寸为3×3的滤波器作为卷积预测器,来共同检测文字段和连接;
(1.2.2)从标注的词包围盒产生文字段包围盒标签:对于原始训练图像集Itr,记缩放后的训练图像集为Itr′,wI、hI分别为Itr′的宽度和高度,可以取384×384或512×512像素,第i张图片Itri′作为模型输入,Itri′上标注的所有词包围盒记作Wi=[Wi1,...,Wip],其中Wij为第i张图片上的第j个词包围盒,词包围盒可以是单词级别也可以是词条级别,j=1,...,p,p为第i张图片上词包围盒的总数量;记后6层卷积层分别输出的特征图构成集合Itroi′=[Itroi1′,...,Itroi6′],其中Itroil′为后6层卷积层中第l层输出的特征图,wl、hl分别为该特征图的宽度和高度,Itroil′上的坐标(x,y)对应Itri′上以(xa,ya)为中心点坐标的水平初始包围盒Bilq,它们满足下列公式:
初始包围盒Bilq的宽和高都被设置成一个常数al,用于控制输出文字段的比例,l=1,...,6;记第l层输出的特征图Itroil′对应的初始包围盒集合为Bil=[Bil1,...,Bilm],q=1,...,m,其中m为第l层输出的特征图上初始包围盒的数目;只要初始包围盒Bilq的中心被包含在Itr′上任一标注的词包围盒Wij内部,且Bilq的尺寸al和该标注的词包围盒Wij的高度h满足:那么这个初始包围盒Bilq被标记为正类,标签取值为1,并与高度最为接近的那个词包围盒Wij匹配;否则,当Bilq与所有词包围盒Wi都不满足上述两个条件时,Bilq就被标记为负类,标签取值为0;文字段在初始包围盒上产生,与初始包围盒标签类别相同;其中,比例常数1.5为经验值;
(1.2.3)在所述步骤(1.2.2)产生的带标签的初始包围盒上产生文字段并计算正类文字段偏移量:负类文字段包围盒s-为负类初始包围盒B-;正类文字段包围盒s+由正类初始包围盒B+经过以下步骤得到:a)记正类初始包围盒B+匹配到的标注词包围盒W与水平方向夹角为θs,以B+的中心点为中心,将W顺时针旋转θs角;b)裁剪W,去除超出B+左边和右边的部分;c)以B+的中心点为中心,将裁剪后的词包围盒W′逆时针旋转θs角,得到文字段s+真实标签的几何参数xs、ys、ws、hs、θs;d)计算得到文s+相对于B+的偏移量(Δxs,Δys,Δws,Δhs,Δθs),计算公式如下:
xs=alΔxs+xa
ys=alΔys+ya
ws=alexp(Δws)
hs=alexp(Δhs)
θs=Δθs
其中,xs、ys、ws、hs、θs分别为文字段包围盒s+的中心点横坐标、中心点纵坐标、宽度、高度以及与水平方向之间的夹角;xa、ya、wa、ha分别为水平初始包围盒B+的中心点横坐标、中心点纵坐标、宽度、高度;Δxs、Δys、Δws、Δhs、Δθs分别为文字段包围盒s+中心点横坐标xs相对初始包围盒B+的偏移量、纵坐标ys相对初始包围盒的偏移量、宽度ws的偏移变化量、高度hs的偏移变化量、角度θs的偏移量;
(1.2.4)对于步骤(1.2.3)产生的文字段包围盒计算连接标签:文字段s是在初始包围盒B上产生的,因此s之间的连接标签和它们对应的初始包围盒B之间的连接标签相同;对于特征图集合Itroi′=[Itroi1′,...,Itroi6′],如果在同一张特征图Itroil′的初始包围盒集合Bil里,两个初始包围盒的标签都是正类,且匹配到同一个词,那么之间的层内连接被标记为正类,否则标记为负类;如果在特征图Itroil′对应的初始包围盒集合Bil里的初始包围盒和Itroi(l-1)′对应的的初始包围盒集合Bi(l-1)里的初始包围盒的标签都是正类且匹配到同一个词包围盒Wij,那么之间的跨层连接被标记为正类,否则标记为负类;
(1.2.5)以缩放后的训练图像集Itr′作为文字段检测模型输入,预测文字段s输出:对模型初始化权重和偏置,前6万次训练迭代步骤学习率设置为10-3,之后学习率衰减到10-4;对于后6层卷积层,在第l层特征图Itroil′上的坐标(x,y)处,(x,y)对应到输入图像Itri′上以(xa,ya)为中心点坐标、以al为尺寸的初始包围盒Bilq,3×3的卷积预测器都会预测出Bilq被分别划分成正、负类的得分cs,cs为二维向量,取值范围为0-1之间的小数。同时也预测出5个数字作为被划分到正类文字段s+时的几何偏移量,其中分别为预测的文字段包围盒s+中心点横坐标相对正类初始包围盒B+的偏移量、纵坐标的相对正类初始包围盒B+的偏移量、高度的偏移变化量、宽度的偏移变化量、角度偏移量;
(1.2.6)在已预测的文字段基础上预测层内连接和跨层连接输出:对于层内连接,在同一张特征图Itroil′上坐标点(x,y)处,取x-1≤x′≤x+1、y-1≤y′≤y+1范围内近邻的点(x′,y′),这8个点对应到输入图像Itri′时,便获得了与(x,y)对应的基准文字段s(x,y,l)相连接的8个层内近邻文字段s(x′,y′,l),8个层内近邻文字段可表示为集合:
3×3卷积预测器会预测出s(x,y,l)与层内近邻集合的连接的正、负得分cl1,cl1为16维向量,其中,w为上标,表示层内连接;
对于跨层连接,一个跨层连接将两个连续卷积层输出的特征图上两个点处对应的文字段相连;由于每经过一层卷积层,特征图的的宽度和高度都会缩小一半,第l层输出特征图Itroil′的宽度wl和高度hl是第l-1层特征图Itroi(l-1)′的宽度wl-1和高度hl-1的一半,而Itroil′对应的初始包围盒尺度al是Itroi(l-1)′对应的初始包围盒尺度al-1的2倍,对于在第l层输出特征图Itroil′上的(x,y),在特征图Itroi(l-1)′上取2x≤x′≤2x+1、2y≤y′≤2y+1范围内的4个跨层近邻点(x′,y′),Itroil′上(x,y)对应到输入图像Itri′上的初始包围盒刚好与Itroi(l-1)′上4个跨层近邻点对应到输入图像Itri′上的4个初始包围盒空间位置重合,4个跨层近邻文字段s(x′,y′,l-1)可表示为集合:
3×3卷积预测器会预测出第l层基准文字段s(x,y,l)与第l-1层上近邻文字段集合之间跨层连接的正、负得分cl2,cl2为8维向量:
其中,表示预测器预测出s(x,y,l)与其所有4个近邻文字段之间的连接的正、负得分,c为上标,表示跨层连接;
所有的层内连接和所有的跨层连接构成连接集合Ns;
(1.2.7)以步骤(1.2.3)和步骤(1.2.4)获得的文字段标签、正类文字段真实偏移量、连接标签作为输出基准,以步骤(1.2.5)预测的文字段类别及得分、预测的文字段偏移量、步骤(1.2.6)预测的连接得分为预测输出,设计预测输出与输出基准之间的目标损失函数,对文字段连接检测模型利用反向传导法进行不断地训练,来最小化文字段分类、文字段偏移回归和连接分类的损失,针对所述文字段连接检测模型设计目标损失函数,目标损失函数是三个损失的加权和:
其中ys是所有文字段的标签,cs是预测的文字段得分,yl是预测的连接标签,cl是预测的连接得分,由层内连接得分cl1和跨层得分cl2组成;如果第i个初始包围盒标记为正类,那么ys(i)=1,否则为0;Lconf(ys,cs)是预测的文字段得分cs的softmax损失,Lconf(ys,cl)是预测的连接得分cl的softmax损失,是预测的文字段几何参数s和真实标签之间的平滑L1回归损失;ns是正类初始包围盒的数量,用来对文字段分类和回归损失进行归一化;nl是正类连接总数,用来对连接分类损失进行归一化;λ1和λ2为权重常数,在实际中取1。
(1.2.8)在步骤(1.2.7)的训练过程中,采用在线扩增方法对训练数据Itr进行在线扩增,并采用在线负样本难例挖掘策略来平衡正样本和负样本。在训练图片Itr被缩放到相同的尺寸并批量加载之前,它们被随机地裁剪成一个个图像块,每个图像块与文字段的真实包围盒的jaccard重叠系数o最小;对于多方向文字,数据扩增是在多方向文字包围盒的最小包围矩形上进行的,每个样本的重叠系数o从0、0.1、0.3、0.5、0.7和0.9中随机选择,图像块的大小为原始图片尺寸的0.1-1倍之间;训练图像不水平翻转;另外,文字段和连接负样本占据训练样本的大部分,采用在线负样本难例挖掘策略来平衡正样本和负样本,对文字段和连接分开进行挖掘,控制负样本与正样本之间的比例不超过3∶1。
(2)利用上述训练好的卷积神经网络对待检测文本图像进行文字段和连接检测,包括如下子步骤:
(2.1)对待检测文本图像进行文字段检测,由不同卷积层输出的特征图可以预测出不同尺度的文字段,由同一卷积层输出的特征图预测出相同尺度的文字段:对待检测图像集Itst中的第i张待检测文本图像Itsti,缩放到统一尺寸,具体尺寸可随待检测文本图像的情况人为设定,记缩放后的待检测文本图像为Itsti′。将图像Itsti′输入到步骤(1.2)中训练好的文字段连接检测模型,得到后6层卷积层分别输出的特征图构成的集合Itstoi′=[Itstoi1′,...,Itstoi6′],其中Itstoil′为后6层卷积层中第l层输出的特征图,l=1,...,6,在每张输出特征图Itstoil′上的坐标(x,y)处,3×3的卷积预测器都会预测出(x,y)对应的初始包围盒Bilq被预测为正、负类文字段的得分cs,同时也预测出5个数字作为被预测为正类文字段s+时的几何偏移量;
(2.2)对待检测文本图像检测出的所有特征层上的文字段进行连接检测,所述连接包括层内连接和跨层连接:在(2.1)预测的文字段基础上预测层内连接和跨层连接,对于层内连接,在同一张特征图Itstoil′上坐标点(x,y)处,3×3卷积预测器预测出s(x,y,l)与它8个近邻文字段之间层内连接的正、负得分cl1;对于跨层连接,3×3卷积预测器会预测出第l层基准文字段s(x,y,l)与第l-1层上4个近邻文字段的跨层连接正、负得分cl2,cl1和cl2构成预测的连接得分cl;
(2.3)将检测得到的文字段置信度得分和连接置信度得分组合,其中文字段置信度得分包括文字段正负类别得分和偏移量得分,利用卷积预测器输出softmax标准化得分:在(2.1)预测的文字段基础上预测层内连接和跨层连接,对于层内连接,在同一张特征图Itstoil′上坐标点(x,y)处,3×3卷积预测器预测出s(x,y,l)与8个近邻文字段之间层内连接的正、负得分cl1;对于跨层连接,3×3卷积预测器预测出第l层基准文字段s(x,y,l)与第l-1层上4个近邻文字段的跨层连接正、负得分cl2,cl1和cl2构成预测的连接得分cl。
(3)组合文字段和连接,得到输出包围盒,包括如下子步骤:
(3.1)根据(2.3)中检测得到的标准化得分,过滤卷积预测器输出的文字段和连接,以过滤后的文字段作为节点,以连接作为边,构建连接图:对于步骤(2)待检测文本图像输入到文字段检测模型而产生的固定数量的文字段s和连接Ns,通过它们的得分进行过滤;为文字段s和连接Ns设置不同的过滤阈值,分别为α和β;过滤阈值可以根据不同的数据人为设定不同的值,在实际中进行多方向文本图像检测时,可以取α=0.9,β=0.7,进行多语种长文本图像检测时,可以取α=0.9,β=0.5,进行水平文本检测时,可以取α=0.6,β=0.3;将过滤后的文字段s′作为节点,过滤后的连接Ns′作为边,利用它们构建一个图;
(3.2)在图上执行深度优先搜索以找到相互连接的组件,每个组件记作集合B,包含由连接相连起来的文字段;
(3.3)对步骤(3.2)在图上进行深度优先搜索得到的文字段集合S,通过下述步骤组合成一个完整的词,包括:
(3.3.1)输入:|S|为集合S里的文字段数量,其中为第i个文字段,i为上标,分别为第i个文字段包围盒s(i)的中心横坐标和纵坐标,分别为文字段包围盒s(i)的宽度和高度,为文字段包围盒s(i)与水平方向之间的夹角;
(3.3.2)其中θb为输出包围盒的偏移角度,为集合里第i个文字段包围盒s的偏移角度,由集合S里所有文字段的平均偏移角度得到;
(3.3.3)找到直线tan(θb)x+b的截距b,使得集合S中所有的文字段到中心点的距离的总和最小;
(3.3.4)找到直线的两个端点(xp,yp)和(xq,yq),p表示第一个端点,q表示第二个端点,xp、yp分别为第一个端点的横、纵坐标,xq、yq分别为第二个端点的横、纵坐标;
(3.3.5)b表示输出包围盒,xb、yb分别为输出包围盒中心的横、纵坐标;
(3.3.6)其中wb为输出包围盒的宽度,wp、wq分别为以点p为中心的包围盒的宽度和以q为中心的包围盒的宽度;
(3.3.7)hb为输出包围盒的高度,为集合里第i个文字段包围盒s的高度,由由文字段集合S里所有文字段的平均高度得到;
(3.3.8)b:=(xb,yb,wb,hb,θb),b为输出包围盒,由坐标参数、尺寸参数、角度参数表示;
(3.3.9)输出组合而成的包围盒b。
Claims (7)
1.一种基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述方法包括下述步骤:
(1)训练文字段连接检测网络模型,包括如下子步骤:
(1.1)以词条级别标记训练图像集中所有文本图像的文本内容,标签为词条的矩形初始包围盒的四个点坐标,得到训练数据集;
(1.2)定义用于根据词条标签可以预测输出文字段和连接的文字段连接检测网络模型,所述文字段连接检测网络模型由级联卷积神经网络和卷积预测器组成,根据上述训练数据集计算得到文字段和连接的标签,设计损失函数,结合在线扩增和在线负样本难例挖掘方法,利用反向传导方法训练该文字段连接检测网络,得到文字段连接检测网络模型;
(2)利用上述训练好的文字段连接检测网络模型对待检测文本图像进行文字段和连接检测,包括如下子步骤:
(2.1)对待检测文本图像进行文字段检测,由不同卷积层输出的特征图预测出不同尺度的文字段,由同一卷积层输出的特征图预测出相同尺度的文字段;
(2.2)对待检测文本图像检测出的所有特征层上的文字段进行连接检测,所述连接包括层内连接和跨层连接;
(2.3)将检测得到的文字段的置信度得分和连接置信度得分组合,其中文字段置信度得分包括文字段正负类别得分和偏移量得分,利用卷积预测器输出softmax标准化得分;
(3)组合文字段和连接,得到输出包围盒,包括如下子步骤:
(3.1)根据(2.3)中检测得到的标准化得分,过滤卷积预测器输出的文字段和连接,以过滤后的文字段作为节点,以连接作为边,构建连接图;
(3.2)在图上执行深度优先搜索以找到相互连接的组件,每个组件记作集合S,包含由连接相连起来的文字段;
(3.3)将一个集合中的文字段组合成一个完整的词条,计算完整的词条包围盒并输出。
2.根据权利要求1所述的基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述步骤(1.2)具体为:
(1.2.1)构建文字段检测卷积神经网络模型:提取特征的前几层卷积单元来自预训练的VGG-16网络,前几层卷积单元为卷积层1到池化层5,全连接层6和全连接层7分别转换为卷积层6和卷积层7,连接在其后的是一些额外加入的卷积层,用于提取更深度的特征进行检测,包括卷积层8、卷积层9、卷积层10,最后一层是卷积层11;后6个不同的卷积层分别输出不同尺寸的特征图,便于提取出多种尺度的高质量特征,检测文字段和连接是在这六个不同尺寸的特征图上进行的;对于这6个卷积层,每一层之后都添加尺寸为3×3的滤波器作为卷积预测器,来共同检测文字段和连接;
(1.2.2)从标注的词包围盒产生文字段包围盒标签:对于原始训练图像集Itr,记缩放后的训练图像集为Itr′,wI、hI分别为Itr′的宽度和高度,以第i张图片Itri′作为模型输入,Itri′上标注的所有词包围盒记作Wi=[Wi1,...,Wip],其中Wij为第i张图片上的第j个词包围盒,词包围盒是单词级别或者词条级别,j=1,...,p,p为Itri′上词包围盒的总数量;记后6层卷积层分别输出的特征图构成集合Itroi′=[Itroi1′,...,Itroi6′],其中Itroil′为后6层卷积层中第l层输出的特征图,wl、hl分别为该特征图的宽度和高度,Itroil′上的坐标(x,y)对应Itri′上以(xa,ya)为中心点坐标的水平初始包围盒Bilq,它们满足下列公式:
初始包围盒Bilq的宽和高都被设置成一个常数al,用于控制输出文字段的比例,l=1,...,6;记第l层输出的特征图Itroil′对应的初始包围盒集合为Bil=[Bil1,...,Bilm],q=1,...,m,其中m为第l层输出的特征图上初始包围盒的数目;只要初始包围盒Bilq的中心被包含在Itr′上任一标注的词包围盒Wij内部,且Bilq的尺寸al和该标注的词包围盒Wij的高度h满足:那么这个初始包围盒Bilq被标记为正类,标签取值为1,并与高度最为接近的那个词包围盒Wij匹配;否则,当Bilq与所有词包围盒Wi都不满足上述两个条件时,Bilq就被标记为负类,标签取值为0;文字段在初始包围盒上产生,与初始包围盒标签类别相同;
(1.2.3)在所述步骤(1.2.2)产生的带标签的初始包围盒上产生文字段并计算正类文字段偏移量:负类文字段包围盒s-为负类初始包围盒B-;正类文字段包围盒s+由正类初始包围盒B+经过以下步骤得到:a)记正类初始包围盒B+匹配到的标注词包围盒W与水平方向夹角为θs,以B+的中心点为中心,将W顺时针旋转θs角;b)裁剪W,去除超出B+左边和右边的部分;c)以B+的中心点为中心,将裁剪后的词包围盒W′逆时针旋转θs角,得到文字段s+真实标签的几何参数xs、ys、ws、hs、θs;d)计算得到文s+相对于B+的偏移量(Δxs,Δys,Δws,Δhs,Δθs),计算公式如下:
xs=alΔxs+xa
ys=alΔys+ya
ws=alexp(Δws)
hs=alexp(Δhs)
θs=Δθs
其中,xs、ys、ws、hs、θs分别为文字段包围盒s+的中心点横坐标、中心点纵坐标、宽度、高度以及与水平方向之间的夹角;xa、ya、wa、ha分别为水平初始包围盒B+的中心点横坐标、中心点纵坐标、宽度、高度;Δxs、Δys、Δws、Δhs、Δθs分别为文字段包围盒s+中心点横坐标xs相对初始包围盒B+的偏移量、纵坐标ys相对初始包围盒的偏移量、宽度ws的偏移变化量、高度hs的偏移变化量、角度θs的偏移量;
(1.2.4)对于步骤(1.2.3)产生的文字段包围盒计算连接标签:文字段s是在初始包围盒B上产生的,因此s之间的连接标签和它们对应的初始包围盒B之间的连接标签相同;对于特征图集合Itroi′=[Itroi1′,...,Itroi6′],如果在同一张特征图Itroil′的初始包围盒集合Bil里,两个初始包围盒的标签都是正类,且匹配到同一个词,那么之间的层内连接被标记为正类,否则标记为负类;如果在特征图Itroil′对应的初始包围盒集合Bil里的初始包围盒和Itroi(l-1)′对应的的初始包围盒集合Bi(l-1)里的初始包围盒的标签都是正类且匹配到同一个词包围盒那么之间的跨层连接被标记为正类,否则标记为负类;
(1.2.5)以缩放后的训练图像集Itr′作为文字段检测模型输入,预测文字段s输出:对模型初始化权重和偏置,前6万次训练迭代步骤学习率设置为10-3,之后学习率衰减到10-4;对于后6层卷积层,在第l层特征图Itroil′上的坐标(x,y)处,(x,y)对应到输入图像Itri′上以(xa,ya)为中心点坐标、以al为尺寸的初始包围盒Bilq,3×3的卷积预测器都会预测出Bilq被分别划分成正、负类的得分cs,cs为二维向量,取值范围为0-1之间的小数;同时也预测出5个数字作为被划分到正类文字段s+时的几何偏移量,其中分别为预测的文字段包围盒s+中心点横坐标相对正类初始包围盒B+的偏移量、纵坐标的相对正类初始包围盒B+的偏移量、高度的偏移变化量、宽度的偏移变化量、角度偏移量;
(1.2.6)在已预测的文字段基础上预测层内连接和跨层连接输出:对于层内连接,在同一张特征图Itroil′上坐标点(x,y)处,取x-1≤x′≤x+1、y-1≤y′≤y+1范围内近邻的点(x′,y′),这8个点对应到输入图像Itri′时,便获得了与(x,y)对应的基准文字段s(x,y,l)相连接的层内近邻文字段s(x′,y′,l),8个层内近邻文字段可表示为集合:
3×3卷积预测器会预测出s(x,y,l)与层内近邻集合的连接的正、负得分cl1,cl1为16维向量,其中,w为上标,表示层内连接;
对于跨层连接,一个跨层连接将两个连续卷积层输出的特征图上两个点处对应的文字段相连;由于每经过一层卷积层,特征图的的宽度和高度都会缩小一半,第l层输出特征图Itroil′的宽度wl和高度hl是第l-1层特征图Itroi(l-1)′的宽度wl-1和高度hl-1的一半,而Itroil′对应的初始包围盒尺度al是Itroi(l-1)′对应的初始包围盒尺度al-1的2倍,对于在第l层输出特征图Itroil′上的(x,y),在特征图Itroi(l-1)′上取2x≤x′≤2x+1、2y≤y′≤2y+1范围内的4个跨层近邻点(x′,y′),Itroil′上(x,y)对应到输入图像Itri′上的初始包围盒刚好与Itroi(l-1)′上4个跨层近邻点对应到输入图像Itri′上的4个初始包围盒空间位置重合,4个跨层近邻文字段s(x′,y′,l-1)可表示为集合:
3×3卷积预测器会预测出第l层基准文字段s(x,y,l)与第l-1层上近邻文字段集合之间跨层连接的正、负得分cl2,cl2为8维向量:
其中,表示预测器预测出s(x,y,l)与其所有4个近邻文字段之间的连接的正、负得分,c为上标,表示跨层连接;
所有的层内连接和所有的跨层连接构成连接集合Ns;
(1.2.7)以步骤(1.2.3)和步骤(1.2.4)获得的文字段标签、正类文字段真实偏移量、连接标签作为输出基准,以步骤(1.2.5)预测的文字段类别及得分、预测的文字段偏移量、步骤(1.2.6)预测的连接得分为预测输出,设计预测输出与输出基准之间的目标损失函数,对文字段连接检测模型利用反向传导法进行不断地训练,来最小化文字段分类、文字段偏移回归和连接分类的损失,针对所述文字段连接检测模型设计目标损失函数,目标损失函数是三个损失的加权和:
其中ys是所有文字段的标签,cs是预测的文字段得分,yl是预测的连接标签,cl是预测的连接得分,由层内连接得分cl1和跨层得分cl2组成;如果第i个初始包围盒标记为正类,那么ys(i)=1,否则为0;Lconf(ys,cs)是预测的文字段得分cs的softmax损失,Lconf(ys,cl)是预测的连接得分cl的softmax损失,是预测的文字段几何参数s和真实标签之间的平滑L1回归损失;ns是正类初始包围盒的数量,用来对文字段分类和回归损失进行归一化;nl是正类连接总数,用来对连接分类损失进行归一化;λ1和λ2为权重常数;
(1.2.8)在步骤(1.2.7)的训练过程中,采用在线扩增方法对训练数据Itr进行在线扩增,并采用在线负样本难例挖掘策略来平衡正样本和负样本。在训练图片Itr被缩放到相同的尺寸并批量加载之前,它们被随机地裁剪成一个个图像块,每个图像块与文字段的真实包围盒的jaccard重叠系数o最小;对于多方向文字,数据扩增是在多方向文字包围盒的最小包围矩形上进行的,每个样本的重叠系数o从0、0.1、0.3、0.5、0.7和0.9中随机选择,图像块的大小为原始图片尺寸的0.1-1倍之间;训练图像不水平翻转;另外,文字段和连接负样本占据训练样本的大部分,采用在线负样本难例挖掘策略来平衡正样本和负样本,对文字段和连接分开进行挖掘,控制负样本与正样本之间的比例不超过3∶1。
3.根据权利要求1或2所述的基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述步骤(2.1)具体为:
对待检测图像集Itst中的第i张待检测文本图像Itsti,缩放到统一尺寸,具体尺寸可随待检测文本图像的情况人为设定,记缩放后的待检测文本图像为Itsti′。将图像Itsti′输入到步骤(1.2)中训练好的文字段连接检测模型,得到后6层卷积层分别输出的特征图构成的集合Itstoi′=[Itstoi1′,...,Itstoi6′],其中Itstoil′为后6层卷积层中第l层输出的特征图,l=1,...,6,在每张输出特征图Itstoil′上的坐标(x,y)处,3×3的卷积预测器都会预测出(x,y)对应的初始包围盒Bilq被预测为正、负类文字段的得分cs,同时也预测出5个数字作为被预测为正类文字段s+时的几何偏移量。
4.根据权利要求1或2所述的基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述步骤(2.2)具体为:
在(2.1)预测的文字段基础上预测层内连接和跨层连接,对于层内连接,在同一张特征图Itstoil′上坐标点(x,y)处,3×3卷积预测器预测出s(x,y,l)与它8个近邻文字段之间层内连接的正、负得分cl1;对于跨层连接,3×3卷积预测器会预测出第l层基准文字段s(x,y,l)与第l-1层上4个近邻文字段的跨层连接正、负得分cl2,cl1和cl2构成预测的连接得分cl。
5.根据权利要求1或2所述的基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述步骤(2.3)具体为:
根据步骤(2.1)和步骤(2.2)的结果,在每一张特征图Itstoil′上坐标(x,y)处,将预测的文字段的得分cs、文字段的偏移层内连接得分cl1、跨层连接得分cl2这四项串接成一个33维的向量,卷积预测器的输出通道后增加一层额外的softmax层以分别标准化文字段得分和连接得分。
6.根据权利要求1或2所述的基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述步骤(3.1)具体为;
对于步骤(2)待检测文本图像输入到文字段检测模型而产生的固定数量的文字段s和连接Ns,通过它们的得分进行过滤;为文字段s和连接Ns设置不同的过滤阈值,分别为α和β;将过滤后的文字段s′作为节点,过滤后的连接Ns′作为边,利用它们构建一个图。
7.根据权利要求1或2所述的基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述步骤(3.3)具体为:对步骤(3.2)在图上进行深度优先搜索得到的文字段集合S,通过下述步骤组合成一个完整的词,包括:
(3.3.1)输入:|S|为集合S里的文字段数量,其中为第i个文字段,i为上标,分别为第i个文字段包围盒s(i)的中心横坐标和纵坐标,分别为文字段包围盒s(i)的宽度和高度,为文字段包围盒s(i)与水平方向之间的夹角;
(3.3.2)其中θb为输出包围盒的偏移角度,为集合里第i个文字段包围盒s的偏移角度,由集合S里所有文字段的平均偏移角度得到;
(3.3.3)找到直线tan(θb)x+b的截距b,使得集合S中所有的文字段到中心点的距离的总和最小;
(3.3.4)找到直线的两个端点(xp,yp)和(xq,yq),p表示第一个端点,q表示第二个端点,xp、yp分别为第一个端点的横、纵坐标,xq、yq分别为第二个端点的横、纵坐标;
(3.3.5)b表示输出包围盒,xb、yb分别为输出包围盒中心的横、纵坐标;
(3.3.6)其中wb为输出包围盒的宽度,wp、wq分别为以点p为中心的包围盒的宽度和以q为中心的包围盒的宽度;
(3.3.7)hb为输出包围盒的高度,为集合里第i个文字段包围盒s的高度,由由文字段集合S里所有文字段的平均高度得到;
(3.3.8)b:=(xb,yb,wb,hb,θb),b为输出包围盒,由坐标参数、尺寸参数、角度参数表示;
(3.3.9)输出组合而成的包围盒b。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710010596.7A CN106897732B (zh) | 2017-01-06 | 2017-01-06 | 一种基于连接文字段的自然图片中多方向文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710010596.7A CN106897732B (zh) | 2017-01-06 | 2017-01-06 | 一种基于连接文字段的自然图片中多方向文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106897732A true CN106897732A (zh) | 2017-06-27 |
CN106897732B CN106897732B (zh) | 2019-10-08 |
Family
ID=59197865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710010596.7A Active CN106897732B (zh) | 2017-01-06 | 2017-01-06 | 一种基于连接文字段的自然图片中多方向文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897732B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766860A (zh) * | 2017-10-31 | 2018-03-06 | 武汉大学 | 基于级联卷积神经网络的自然场景图像文本检测方法 |
CN107844785A (zh) * | 2017-12-08 | 2018-03-27 | 浙江捷尚视觉科技股份有限公司 | 一种基于尺度估计的人脸检测方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
CN108427924A (zh) * | 2018-03-09 | 2018-08-21 | 华中科技大学 | 一种基于旋转敏感特征的文本回归检测方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109086663A (zh) * | 2018-06-27 | 2018-12-25 | 大连理工大学 | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 |
WO2019057169A1 (zh) * | 2017-09-25 | 2019-03-28 | 腾讯科技(深圳)有限公司 | 文本检测方法、存储介质和计算机设备 |
CN109583367A (zh) * | 2018-11-28 | 2019-04-05 | 网易(杭州)网络有限公司 | 图像文本行检测方法及装置、存储介质和电子设备 |
CN109685718A (zh) * | 2018-12-17 | 2019-04-26 | 中国科学院自动化研究所 | 图片方形化缩放方法、***及装置 |
CN109886264A (zh) * | 2019-01-08 | 2019-06-14 | 深圳禾思众成科技有限公司 | 一种文字检测方法、设备及计算机可读存储介质 |
CN109886286A (zh) * | 2019-01-03 | 2019-06-14 | 武汉精测电子集团股份有限公司 | 基于级联检测器的目标检测方法、目标检测模型及*** |
CN109977997A (zh) * | 2019-02-13 | 2019-07-05 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
CN110032969A (zh) * | 2019-04-11 | 2019-07-19 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110490232A (zh) * | 2019-07-18 | 2019-11-22 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
CN111259764A (zh) * | 2020-01-10 | 2020-06-09 | 中国科学技术大学 | 文本检测方法、装置、电子设备及存储装置 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111444674A (zh) * | 2020-03-09 | 2020-07-24 | 稿定(厦门)科技有限公司 | 文字变形方法、介质及计算机设备 |
CN111914822A (zh) * | 2020-07-23 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 文本图像标注方法、装置、计算机可读存储介质及设备 |
CN111967463A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种检测自然场景中弯曲文本的曲线拟合的方法 |
US20210019569A1 (en) * | 2019-07-16 | 2021-01-21 | Ancestry.Com Operations Inc. | Extraction of genealogy data from obituaries |
CN113065544A (zh) * | 2020-01-02 | 2021-07-02 | 阿里巴巴集团控股有限公司 | 一种文字识别方法、装置及电子设备 |
CN113515920A (zh) * | 2020-04-09 | 2021-10-19 | 北京庖丁科技有限公司 | 从表格中提取公式的方法、电子设备和计算机可读介质 |
CN115620081A (zh) * | 2022-09-27 | 2023-01-17 | 北京百度网讯科技有限公司 | 一种目标检测模型的训练方法及目标检测方法、装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050471A (zh) * | 2014-05-27 | 2014-09-17 | 华中科技大学 | 一种自然场景文字检测方法及*** |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105469047A (zh) * | 2015-11-23 | 2016-04-06 | 上海交通大学 | 基于无监督学习深度学习网络的中文检测方法及*** |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN105608456A (zh) * | 2015-12-22 | 2016-05-25 | 华中科技大学 | 一种基于全卷积网络的多方向文本检测方法 |
WO2016124103A1 (zh) * | 2015-02-03 | 2016-08-11 | 阿里巴巴集团控股有限公司 | 一种图片检测方法及设备 |
CN106156711A (zh) * | 2015-04-21 | 2016-11-23 | 华中科技大学 | 文本行的定位方法及装置 |
-
2017
- 2017-01-06 CN CN201710010596.7A patent/CN106897732B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050471A (zh) * | 2014-05-27 | 2014-09-17 | 华中科技大学 | 一种自然场景文字检测方法及*** |
WO2016124103A1 (zh) * | 2015-02-03 | 2016-08-11 | 阿里巴巴集团控股有限公司 | 一种图片检测方法及设备 |
CN106156711A (zh) * | 2015-04-21 | 2016-11-23 | 华中科技大学 | 文本行的定位方法及装置 |
CN105184312A (zh) * | 2015-08-24 | 2015-12-23 | 中国科学院自动化研究所 | 一种基于深度学习的文字检测方法及装置 |
CN105469047A (zh) * | 2015-11-23 | 2016-04-06 | 上海交通大学 | 基于无监督学习深度学习网络的中文检测方法及*** |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN105608456A (zh) * | 2015-12-22 | 2016-05-25 | 华中科技大学 | 一种基于全卷积网络的多方向文本检测方法 |
Non-Patent Citations (1)
Title |
---|
姚聪: "自然图像中文字检测与识别研究", 《中国博士学位论文全文数据库》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11030471B2 (en) | 2017-09-25 | 2021-06-08 | Tencent Technology (Shenzhen) Company Limited | Text detection method, storage medium, and computer device |
WO2019057169A1 (zh) * | 2017-09-25 | 2019-03-28 | 腾讯科技(深圳)有限公司 | 文本检测方法、存储介质和计算机设备 |
CN107766860A (zh) * | 2017-10-31 | 2018-03-06 | 武汉大学 | 基于级联卷积神经网络的自然场景图像文本检测方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN107977620B (zh) * | 2017-11-29 | 2020-05-19 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN107844785B (zh) * | 2017-12-08 | 2019-09-24 | 浙江捷尚视觉科技股份有限公司 | 一种基于尺度估计的人脸检测方法 |
CN107844785A (zh) * | 2017-12-08 | 2018-03-27 | 浙江捷尚视觉科技股份有限公司 | 一种基于尺度估计的人脸检测方法 |
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
CN108427924A (zh) * | 2018-03-09 | 2018-08-21 | 华中科技大学 | 一种基于旋转敏感特征的文本回归检测方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108549893B (zh) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109086663A (zh) * | 2018-06-27 | 2018-12-25 | 大连理工大学 | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 |
CN109086663B (zh) * | 2018-06-27 | 2021-11-05 | 大连理工大学 | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 |
CN109583367A (zh) * | 2018-11-28 | 2019-04-05 | 网易(杭州)网络有限公司 | 图像文本行检测方法及装置、存储介质和电子设备 |
CN109685718A (zh) * | 2018-12-17 | 2019-04-26 | 中国科学院自动化研究所 | 图片方形化缩放方法、***及装置 |
CN109886286A (zh) * | 2019-01-03 | 2019-06-14 | 武汉精测电子集团股份有限公司 | 基于级联检测器的目标检测方法、目标检测模型及*** |
CN109886286B (zh) * | 2019-01-03 | 2021-07-23 | 武汉精测电子集团股份有限公司 | 基于级联检测器的目标检测方法、目标检测模型及*** |
CN109886264A (zh) * | 2019-01-08 | 2019-06-14 | 深圳禾思众成科技有限公司 | 一种文字检测方法、设备及计算机可读存储介质 |
CN109977997A (zh) * | 2019-02-13 | 2019-07-05 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
CN110032969A (zh) * | 2019-04-11 | 2019-07-19 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110032969B (zh) * | 2019-04-11 | 2021-11-05 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
US11537816B2 (en) * | 2019-07-16 | 2022-12-27 | Ancestry.Com Operations Inc. | Extraction of genealogy data from obituaries |
US20230109073A1 (en) * | 2019-07-16 | 2023-04-06 | Ancestry.Com Operations Inc. | Extraction of genealogy data from obituaries |
US20210019569A1 (en) * | 2019-07-16 | 2021-01-21 | Ancestry.Com Operations Inc. | Extraction of genealogy data from obituaries |
CN110490232A (zh) * | 2019-07-18 | 2019-11-22 | 北京捷通华声科技股份有限公司 | 训练文字行方向预测模型的方法、装置、设备、介质 |
CN113065544B (zh) * | 2020-01-02 | 2024-05-10 | 阿里巴巴集团控股有限公司 | 一种文字识别方法、装置及电子设备 |
CN113065544A (zh) * | 2020-01-02 | 2021-07-02 | 阿里巴巴集团控股有限公司 | 一种文字识别方法、装置及电子设备 |
CN111259764A (zh) * | 2020-01-10 | 2020-06-09 | 中国科学技术大学 | 文本检测方法、装置、电子设备及存储装置 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111444674B (zh) * | 2020-03-09 | 2022-07-01 | 稿定(厦门)科技有限公司 | 文字变形方法、介质及计算机设备 |
CN111444674A (zh) * | 2020-03-09 | 2020-07-24 | 稿定(厦门)科技有限公司 | 文字变形方法、介质及计算机设备 |
CN113515920A (zh) * | 2020-04-09 | 2021-10-19 | 北京庖丁科技有限公司 | 从表格中提取公式的方法、电子设备和计算机可读介质 |
CN111967463A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种检测自然场景中弯曲文本的曲线拟合的方法 |
CN111914822A (zh) * | 2020-07-23 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 文本图像标注方法、装置、计算机可读存储介质及设备 |
CN111914822B (zh) * | 2020-07-23 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 文本图像标注方法、装置、计算机可读存储介质及设备 |
CN115620081A (zh) * | 2022-09-27 | 2023-01-17 | 北京百度网讯科技有限公司 | 一种目标检测模型的训练方法及目标检测方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106897732B (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897732A (zh) | 一种基于连接文字段的自然图片中多方向文本检测方法 | |
Zhang et al. | Scene classification via a gradient boosting random convolutional network framework | |
Zhu et al. | Deep learning in remote sensing: A comprehensive review and list of resources | |
Seo et al. | Structured sequence modeling with graph convolutional recurrent networks | |
Zhang et al. | EMS-GCN: An end-to-end mixhop superpixel-based graph convolutional network for hyperspectral image classification | |
Kantorov et al. | Contextlocnet: Context-aware deep network models for weakly supervised localization | |
CN104217214B (zh) | 基于可配置卷积神经网络的rgb‑d人物行为识别方法 | |
Sonka et al. | Image processing, analysis and machine vision | |
CN109919177B (zh) | 基于层次化深度网络的特征选择方法 | |
CN108830188A (zh) | 基于深度学习的车辆检测方法 | |
CN108764308A (zh) | 一种基于卷积循环网络的行人重识别方法 | |
CN108427924A (zh) | 一种基于旋转敏感特征的文本回归检测方法 | |
Sharma et al. | Shark detection from aerial imagery using region-based CNN, a study | |
CN107016357A (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN107239733A (zh) | 连续手写字识别方法及*** | |
CN104299006A (zh) | 一种基于深度神经网络的车牌识别方法 | |
CN108121931A (zh) | 二维码数据处理方法、装置及移动终端 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
Sharma et al. | Deep eigen space based ASL recognition system | |
CN108268890A (zh) | 一种高光谱图像分类方法 | |
Khasanah et al. | Implementation of data augmentation using convolutional neural network for batik classification | |
Diakite et al. | Hyperspectral image classification using 3D 2D CNN | |
Xu et al. | Grouped bidirectional LSTM network and multistage fusion convolutional transformer for hyperspectral image classification | |
Koziarski et al. | Marine snow removal using a fully convolutional 3d neural network combined with an adaptive median filter | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |