CN111242120A - 文字检测方法及*** - Google Patents

文字检测方法及*** Download PDF

Info

Publication number
CN111242120A
CN111242120A CN202010008296.7A CN202010008296A CN111242120A CN 111242120 A CN111242120 A CN 111242120A CN 202010008296 A CN202010008296 A CN 202010008296A CN 111242120 A CN111242120 A CN 111242120A
Authority
CN
China
Prior art keywords
network
texture information
suggestion
contour point
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010008296.7A
Other languages
English (en)
Other versions
CN111242120B (zh
Inventor
张勇东
王裕鑫
谢洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Original Assignee
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Research Institute, University of Science and Technology of China USTC filed Critical Beijing Zhongke Research Institute
Priority to CN202010008296.7A priority Critical patent/CN111242120B/zh
Publication of CN111242120A publication Critical patent/CN111242120A/zh
Application granted granted Critical
Publication of CN111242120B publication Critical patent/CN111242120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

一种文字检测方法及***,方法包括:对输入图像进行特征提取,得到特征图像;利用自适应区域建议网络进行预测,得到建议框;利用建议框对特征图像进行裁剪,得到裁剪特征图;在两个正交方向上分别对裁剪特征图进行文字纹理信息建模,得到每一正交方向对应的轮廓点热力图;对轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建输入图像中的文字。自适应区域建议网络能够适应文字的尺度变化生成对应文字区域的建议框,文字纹理信息建模模块在正交方向上进行文字纹理信息建模能够抑制假阳性的轮廓点,从而提升任意形状场景文字检测的精度。

Description

文字检测方法及***
技术领域
本公开涉及文字识别技术领域,具体地,涉及一种文字检测方法及***。
背景技术
自然场景文字检测是指在复杂背景中检测到文字区域,并用包围框对文字区域进行标识。自然场景文字检测的结果在自动驾驶、机器人等领域有广泛应用。自然场景中的文字检测面临分辨率低、背景复杂、字体尺寸多变等困难,使得传统文字检测技术的实际应用效果差。
随着深度学习技术的发展,基于深度学习的自然场景文字检测技术得到了显著提升,该检测技术虽然能够检测任意形状的文字,但是检测结果中包含较多的假阳性检测,并且受文字尺寸多样性问题的影响,其检测精度有待提升。
发明内容
(一)要解决的技术问题
有鉴于此,本公开提供了一种能够提升任意形状场景文字检测精度的文字检测方法及***。
(二)技术方案
本公开提供了一种文字检测方法,包括:对输入图像进行特征提取,得到特征图像;利用自适应区域建议网络进行预测,得到建议框;利用所述建议框对所述特征图像进行裁剪,得到裁剪特征图;在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,得到每一所述正交方向对应的轮廓点热力图;对所述轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建所述输入图像中的文字。
可选地,所述利用自适应区域建议网络进行预测,得到建议框,包括:利用所述自适应区域建议网络对预置锚框的点进行局部偏置预测,得到相应的预测点;根据所述预测点确定所述建议框。
可选地,所述两个正交方向为水平方向和垂直方向,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:根据第一卷积核,建立所述裁剪特征图在所述水平方向上的第一文字纹理信息模型;根据第二卷积核,建立所述裁剪特征图在所述垂直方向上的第二文字纹理信息模型。
可选地,所述第一卷积核的尺寸为1×k,所述第二卷积核的尺寸为k×1,k不大于所述裁剪特征图的尺寸,本公开中k=3。
可选地,所述方法还包括:根据所述裁剪特征图,利用微调网络对所述建议框进行调整,得到调整后的建议框;利用调整后的建议框对所述特征图像进行裁剪,得到调整后的裁剪特征图;对调整后的裁剪特征图进行上采样,得到上采样特征图。
可选地,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:在两个正交方向上分别对所述上采样特征图进行文字纹理信息建模。
可选地,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:
分别利用所述两个正交方向上的文字纹理信息感知网络对所述裁剪特征图进行文字纹理信息建模;
在对输入图像进行特征提取之前,所述方法还包括:
利用随机梯度下降法,根据损失函数对所述自适应区域建议网络、文字纹理信息感知网络、微调网络进行训练,所述损失函数为:
L=LArpnHcpLHcpVcpLVcpboxclassLboxclassboxregLboxreg
其中,L为所述损失函数,LArpn为所述自适应区域建议网络的损失函数,LHcp为一正交方向上的文字纹理信息感知网络的损失函数,LVcp为另一正交方向上的文字纹理信息感知网络的损失函数,Lboxclass、Lboxreg为所述微调网络的损失函数,λHcp为所述一正交方向上的文字纹理信息感知网络的平衡参数,λVcp为所述另一正交方向上的文字纹理信息感知网络的平衡参数,λboxclass、λboxreg为所述微调网络的平衡参数。
可选地,所述对所述轮廓点热力图进行筛选,得到轮廓点集合,包括:利用非极大值抑制法滤除所述轮廓点热力图中的背景像素点;根据预设阈值对所述轮廓点热力图进行筛选,得到所述轮廓点集合。
可选地,所述根据预设阈值对所述轮廓点热力图进行筛选,得到所述轮廓点集合,包括:筛选出在所述两个正交方向对应的轮廓点热力图中的响应值均大于所述预设阈值的像素点,以形成所述轮廓点集合。
本公开另一方面提供了一种文字检测***,包括:提取模块,用于对输入图像进行特征提取,得到特征图像;预测模块,用于利用自适应区域建议网络进行预测,得到建议框;裁剪模块,用于利用所述建议框对所述特征图像进行裁剪,得到裁剪特征图;建模模块,用于在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,得到每一所述正交方向对应的轮廓点热力图;筛选模块,用于对所述轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建所述输入图像中的文字。
(三)有益效果
本公开提供的文字检测方法及***,通过设计自适应区域建议网络,能够更好地适应文字的尺度变化,在正交方向上进行文字纹理信息建模,能够抑制假阳性的轮廓点,从而有效地解决了文字尺度变化和假阳性预测的问题,提升了任意形状场景文字检测的精度。
附图说明
图1示意性示出了本公开实施例提供的文字检测方法的流程图;
图2示意性示出了本公开实施例提供的文字检测方法中预测裁剪框的示意图;
图3示意性示出了本公开实施例提供的文字检测方法中文字纹理信息建模的示意图;
图4示意性示出了本公开实施例提供的文字检测***的结构框图;
图5示意性示出了本公开实施例提供的微调网络的示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
图1示意性示出了本公开实施例提供的文字检测方法的流程图。
参阅图1,同时结合图2-图3,对图1所示方法进行详细说明。如图1所示,该文字检测方法包括操作S110-操作S150。
操作S110,对输入图像进行特征提取,得到特征图像。
本实施例中,利用深度神经网络(Deep Neural Networks,DNN)进行文字检测,该深度神经网络包括ResNet50特征提取网络、自适应区域建议网络、微调网络、水平方向上的文字纹理信息感知网络、垂直方向上的文字纹理信息感知网络等。
在操作S110之前,应对该深度神经网络进行训练。具体地,例如采用随机梯度下降法(Stochastic Gradient Descent,SGD)进行端到端的训练,该深度神经网络整体的损失函数L为:
L=LArpnHcpLHcpVcpLVcpboxclassLboxclassboxregLboxreg
其中,LArpn为自适应区域建议网络的损失函数,LHcp为一正交方向(例如水平方向)上的文字纹理信息感知网络的损失函数,LVcp为另一正交方向(例如垂直方向)上的文字纹理信息感知网络的损失函数,Lboxclass、Lboxreg为微调网络的损失函数,λHcp为一正交方向上的文字纹理信息感知网络的平衡参数,λVcp为另一正交方向上的文字纹理信息感知网络的平衡参数,λboxclass、λboxreg为微调网络的平衡参数。
进一步地,自适应区域建议网络的损失函数LArpn为:
LArpn=LArpnclass+LArpnreg
Figure BDA0002355449200000041
Figure BDA0002355449200000042
其中,LArpnclass为分类损失函数,LArpnreg为回归损失函数,pi为预置的锚框是目标框(即建议框)的概率,Lcls为交叉熵损失函数,Npos为正锚框的个数,Intersection为锚框与目标框的交集,Union为锚框与目标框的并集,锚框与目标框的交并比大于0.5时,
Figure BDA0002355449200000043
为1,锚框与目标框的交并比不大于0.5时,
Figure BDA0002355449200000051
为0。
水平方向上的文字纹理信息感知网络的损失函数LHcp和垂直方向上的文字纹理信息感知网络的损失函数LVcp为:
Figure BDA0002355449200000052
其中,yi为轮廓点的标签,qi为轮廓点的预测值,Nneg为预测为背景像素点的个数,Npos为预测为轮廓点的个数。
微调网络的损失函数Lboxclass、Lboxreg为:
Figure BDA0002355449200000053
Figure BDA0002355449200000054
其中,pi1为box分支中锚框是目标框的概率,Lcls为交叉熵损失函数,Npos1为box分支和标签正确匹配预测框的个数,box分支中锚框与目标框的交并比大于0.5时,
Figure BDA0002355449200000055
为1,box分支中锚框与目标框的交并比不大于0.5时,
Figure BDA0002355449200000056
为0,Nreg为box分支中需要进行微调的框的个数,ti为预测框的参数,
Figure BDA0002355449200000057
为标签框的参数,Smoothl1为Smoothl1函数。
该深度神经网络训练过程中,选择初始学习率为0.0025,当训练次数达到120000-160000次时,学习率下降为原来的0.1倍,本实施例中例如训练180000次,此时该深度神经网络整体的损失函数L满足需求,即可利用该训练好的深度神经网络进行文字检测。
根据本公开的实施例,利用ResNet50特征提取网络对输入图像进行特征提取,得到特征图像。
操作S120,利用自适应区域建议网络进行预测,得到建议框。
根据本公开的实施例,操作S120包括子操作S120A和子操作S120B。
子操作S120A,利用自适应区域建议网络对预置锚框的点进行局部偏置预测,得到相应的预测点。具体地,得到的预测点为:
Figure BDA0002355449200000058
其中,n为预置锚框中点的数量,xl′为第l个预测点的横坐标,yl′为第l个预测点的纵坐标,xl为预置锚框中第l个点的横坐标,yl为预置锚框中第l个点的纵坐标,ωc为预置锚框的长,hc为预置锚框的宽,Δxl为自适应区域建议网络输出的预置锚框中第l个点的横坐标偏移量,Δyl为自适应区域建议网络输出的预置锚框中第l个点的纵坐标偏移量。
参阅图2,将预置锚框中点的数量n设置为9,表示一个中心点和八个边界点(包括左上点、中上点、右上点、右中点、右下点、中下点、左下点以及左中点)。
子操作S120B,根据预测点确定建议框。具体地,通过最大值最小值筛选得到四个最值坐标(包括最小横坐标、最小纵坐标、最大横坐标以及最大纵坐标)对应的预测点来确定建议框,如图2所示。用这四个最值坐标表示建议框(proposal)位置:
Figure BDA0002355449200000061
本实施例中,得到的建议框的数量为一个及以上。预测得到多个建议框,可以进一步提高文字检测的精度。
操作S130,利用建议框对特征图像进行裁剪,得到裁剪特征图。
本实施例中,建议框的数量为多个时,分别利用每个建议框裁剪特征图像,得到多个裁剪特征图,对这多个裁剪特征图进行归一化处理,以得到多个相同尺寸大小的裁剪特征图。
根据本公开的实施例,操作S130之后,该文字检测方法还包括:根据裁剪特征图,利用微调网络对建议框进行调整,得到调整后的建议框;利用调整后的建议框对特征图像进行裁剪,得到调整后的裁剪特征图。
参阅图5,利用微调网络对裁剪特征图进行计算,输出调整建议框的调整参数,利用该调整参数调整建议框,调整后的建议框为:
Figure BDA0002355449200000062
其中,x为调整后的建议框的中心点横坐标,y为调整后的建议框的中心点纵坐标,w为调整后的建议框的宽度,h为调整后的建议框的高度,xc为调整前的建议框的中心点横坐标,yc为调整前的建议框的中心点纵坐标,wc为调整前的建议框的宽度,hc为调整前的建议框的高度,xc、yc、wc、hc可以根据建议框(proposal)的最值坐标计算得到,t1、t2、t3、t4为微调网络输出的调整参数。
进一步地,该文字检测方法还包括:对调整后的裁剪特征图进行上采样,得到上采样特征图。上采样特征图的尺寸大于调整后的裁剪特征图的特征尺寸。
操作S140,在两个正交方向上分别对裁剪特征图进行文字纹理信息建模,得到每一正交方向对应的轮廓点热力图。
具体地,在两个正交方向上分别对调整后的上采样特征图进行文字纹理信息建模,得到每一正交方向对应的轮廓点热力图。
参阅图3,该两个正交方向为水平方向和垂直方向,操作S140包括子操作S140A和子操作S140B。
子操作S140A,根据第一卷积核,建立裁剪特征图在水平方向上的第一文字纹理信息模型。具体地,根据第一卷积核,滑动建立调整后的上采样特征图在水平方向上的第一文字纹理信息模型。第一卷积核的尺寸为1×k,k大于0且不大于裁剪特征图的尺寸,k例如为3。
子操作S140B,根据第二卷积核,建立裁剪特征图在垂直方向上的第二文字纹理信息模型。具体地,根据第二卷积核,滑动建立调整后的上采样特征图在垂直方向上的第二文字纹理信息模型。第二卷积核的尺寸为k×1。
进一步地,利用Sigmoid函数对第一文字纹理信息模型和第二文字纹理信息模型进行归一化处理,以得到水平方向的轮廓点热力图Hmap以及得到垂直方向的轮廓点热力图Vmap。
操作S150,对轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建输入图像中的文字。
本实施例中,利用轮廓点再评分算法对轮廓点热力图进行筛选,以得到同时在上述两个轮廓点热力图中具有高响应值的像素点,形成轮廓点集合。
根据本公开的实施例,操作S150包括子操作S150A和子操作S150B。
子操作S150A,利用非极大值抑制法滤除轮廓点热力图中的背景像素点。具体地,例如利用1×3的滑窗对水平方向的轮廓点热力图进行处理,利用3×1的滑窗对垂直方向的轮廓点热力图进行处理,并输出当前窗口中最大的像素点,其余像素点受到抑制。
子操作S150B,根据预设阈值对轮廓点热力图进行筛选,得到轮廓点集合。具体地,对非极大值抑制后的轮廓点热力图中每个像素点位置进行遍历,筛选出在水平方向和垂直方向对应的轮廓点热力图中的响应值均大于预设阈值的像素点,以形成轮廓点集合。预设阈值例如为0.5。
进一步地,根据筛选出的轮廓点集合重建输入图像中的文字区域,从而检测出输入图像中的文字。
本公开实施例中,利用该文字检测方法对大量任意形状场景下的文字进行检测,检测结果均表明,该文字检测方法具有非常好的检测性能。例如该文字检测方法在ICDAR2015数据集上的召回率、准确率、F值分别为86.1%、87.6%、86.9%,FPS为3.5;在Total-Text数据集上的召回率、准确率、F值分别为83.9%、86.9%、85.4%,FPS为3.8;在CTW1500数据集上的召回率、准确率、F值分别为84.1%、83.7%、83.9%,FPS为4.5。
图4示意性示出了本公开实施例提供的文字检测***的结构框图。
本公开实施例还提供了一种文字检测***。该文字检测***400包括提取模块410、预测模块420、裁剪模块430、建模模块440以及筛选模块450。
提取模块410例如可以执行操作S110,用于对输入图像进行特征提取,得到特征图像。
预测模块420例如可以执行操作S120,用于利用自适应区域建议网络进行预测,得到建议框。
裁剪模块430例如可以执行操作S130,用于利用建议框对特征图像进行裁剪,得到裁剪特征图。
建模模块440例如可以执行操作S140,用于在两个正交方向上分别对裁剪特征图进行文字纹理信息建模,得到每一正交方向对应的轮廓点热力图。
筛选模块450例如可以执行操作S150,用于对轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建输入图像中的文字。
本实施例未尽之细节,请参阅前述图1-图3所示实施例中的文字检测方法。
综上所述,本公开实施例中的文字检测方法及***,对输入图像进行特征提取,得到特征图像,利用自适应区域建议网络进行预测,得到建议框,利用建议框对特征图像进行裁剪,得到裁剪特征图,微调网络根据裁剪特征图对建议框进行调整,根据调整后的建议框对特征图像进行裁剪,得到调整后的裁剪特征图,在两个正交方向上分别对调整后的裁剪特征图进行文字纹理信息建模,得到每一正交方向对应的轮廓点热力图,对轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建输入图像中的文字,通过设计自适应区域建议网络,能够更好地适应文字的尺度变化,在正交方向上进行文字纹理信息建模,能够抑制假阳性的轮廓点,从而有效地解决了文字尺度变化和假阳性预测的问题,提升了任意形状场景文字检测的精度。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种文字检测方法,包括:
对输入图像进行特征提取,得到特征图像;
利用自适应区域建议网络进行预测,得到建议框;
利用所述建议框对所述特征图像进行裁剪,得到裁剪特征图;
在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,得到每一所述正交方向对应的轮廓点热力图;
对所述轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建所述输入图像中的文字。
2.根据权利要求1所述的方法,其中,所述利用自适应区域建议网络进行预测,得到建议框,包括:
利用所述自适应区域建议网络对预置锚框的点进行局部偏置预测,得到相应的预测点;
根据所述预测点确定所述建议框。
3.根据权利要求1所述的方法,其中,所述两个正交方向为水平方向和垂直方向,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:
根据第一卷积核,建立所述裁剪特征图在所述水平方向上的第一文字纹理信息模型;
根据第二卷积核,建立所述裁剪特征图在所述垂直方向上的第二文字纹理信息模型。
4.根据权利要求3所述的方法,其中,所述第一卷积核的尺寸为1×k,所述第二卷积核的尺寸为k×1,k不大于所述裁剪特征图的尺寸。
5.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述裁剪特征图,利用微调网络对所述建议框进行调整,得到调整后的建议框;
利用调整后的建议框对所述特征图像进行裁剪,得到调整后的裁剪特征图;
对调整后的裁剪特征图进行上采样,得到上采样特征图。
6.根据权利要求5所述的方法,其中,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:
在两个正交方向上分别对所述上采样特征图进行文字纹理信息建模。
7.根据权利要求5所述的方法,其中,所述在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,包括:
分别利用所述两个正交方向上的文字纹理信息感知网络对所述裁剪特征图进行文字纹理信息建模;
在对输入图像进行特征提取之前,所述方法还包括:
利用随机梯度下降法,根据损失函数对所述自适应区域建议网络、文字纹理信息感知网络、微调网络进行训练,所述损失函数为:
L=LArpnHcpLHcpVcpLVcpboxclassLboxclassboxregLboxreg
其中,L为所述损失函数,LArpn为所述自适应区域建议网络的损失函数,LHcp为一正交方向上的文字纹理信息感知网络的损失函数,LVcp为另一正交方向上的文字纹理信息感知网络的损失函数,Lboxclass、Lboxreg为所述微调网络的损失函数,λHcp为所述一正交方向上的文字纹理信息感知网络的平衡参数,λVcp为所述另一正交方向上的文字纹理信息感知网络的平衡参数,λboxclass、λboxreg为所述微调网络的平衡参数。
8.根据权利要求1所述的方法,其中,所述根据权利要求1所述的方法,其中,所述对所述轮廓点热力图进行筛选,得到轮廓点集合,包括:
利用非极大值抑制法滤除所述轮廓点热力图中的背景像素点;
根据预设阈值对所述轮廓点热力图进行筛选,得到所述轮廓点集合。
9.根据权利要求8所述的方法,其中,所述根据预设阈值对所述轮廓点热力图进行筛选,得到所述轮廓点集合,包括:
筛选出在所述两个正交方向对应的轮廓点热力图中的响应值均大于所述预设阈值的像素点,以形成所述轮廓点集合。
10.一种文字检测***,包括:
提取模块,用于对输入图像进行特征提取,得到特征图像;
预测模块,用于利用自适应区域建议网络进行预测,得到建议框;
裁剪模块,用于利用所述建议框对所述特征图像进行裁剪,得到裁剪特征图;
建模模块,用于在两个正交方向上分别对所述裁剪特征图进行文字纹理信息建模,得到每一所述正交方向对应的轮廓点热力图;
筛选模块,用于对所述轮廓点热力图中的轮廓点进行筛选,得到轮廓点集合,以重建所述输入图像中的文字。
CN202010008296.7A 2020-01-03 2020-01-03 文字检测方法及*** Active CN111242120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010008296.7A CN111242120B (zh) 2020-01-03 2020-01-03 文字检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010008296.7A CN111242120B (zh) 2020-01-03 2020-01-03 文字检测方法及***

Publications (2)

Publication Number Publication Date
CN111242120A true CN111242120A (zh) 2020-06-05
CN111242120B CN111242120B (zh) 2022-07-29

Family

ID=70868604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010008296.7A Active CN111242120B (zh) 2020-01-03 2020-01-03 文字检测方法及***

Country Status (1)

Country Link
CN (1) CN111242120B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783801A (zh) * 2020-07-17 2020-10-16 上海明波通信技术股份有限公司 物体轮廓提取方法及***和物体轮廓预测方法及***
CN111914843A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、***、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574513A (zh) * 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置
US20180349722A1 (en) * 2017-06-05 2018-12-06 Intuit Inc. Detecting font size in a digital image
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109670494A (zh) * 2018-12-13 2019-04-23 深源恒际科技有限公司 一种附带识别置信度的文本检测方法及***
CN109886077A (zh) * 2018-12-28 2019-06-14 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN110059685A (zh) * 2019-04-26 2019-07-26 腾讯科技(深圳)有限公司 文字区域检测方法、装置及存储介质
CN110263877A (zh) * 2019-06-27 2019-09-20 中国科学技术大学 场景文字检测方法
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及***
CN110598698A (zh) * 2019-08-29 2019-12-20 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574513A (zh) * 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置
US20180349722A1 (en) * 2017-06-05 2018-12-06 Intuit Inc. Detecting font size in a digital image
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109670494A (zh) * 2018-12-13 2019-04-23 深源恒际科技有限公司 一种附带识别置信度的文本检测方法及***
CN109886077A (zh) * 2018-12-28 2019-06-14 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN110059685A (zh) * 2019-04-26 2019-07-26 腾讯科技(深圳)有限公司 文字区域检测方法、装置及存储介质
CN110263877A (zh) * 2019-06-27 2019-09-20 中国科学技术大学 场景文字检测方法
CN110363252A (zh) * 2019-07-24 2019-10-22 山东大学 趋向于端到端的场景文字检测与识别方法以及***
CN110598698A (zh) * 2019-08-29 2019-12-20 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHUHUI XUE 等: "MSR: Multi-Scale Shape Regression for Scene Text Detection", 《ARXIV:1901.02596V1》 *
ZHUOTAO TIAN 等: "Learning Shape-Aware Embedding for Scene Text Detection", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
李飞: "基于移动终端的图像文字识别***的研究及实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
郝学智: "基于机器视觉的复杂背景下的数字字符识别", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783801A (zh) * 2020-07-17 2020-10-16 上海明波通信技术股份有限公司 物体轮廓提取方法及***和物体轮廓预测方法及***
CN111783801B (zh) * 2020-07-17 2024-04-23 上海明波通信技术股份有限公司 物体轮廓提取方法及***和物体轮廓预测方法及***
CN111914843A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN111242120B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN109711316B (zh) 一种行人重识别方法、装置、设备及存储介质
CN112232349B (zh) 模型训练方法、图像分割方法及装置
CN108509978B (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
US10846524B2 (en) Table layout determination using a machine learning system
CN109902600B (zh) 一种道路区域检测方法
CN107564009B (zh) 基于深度卷积神经网络的室外场景多目标分割方法
CN113361432B (zh) 一种基于深度学习的视频文字端到端检测与识别的方法
CN110135446B (zh) 文本检测方法及计算机存储介质
CN111242120B (zh) 文字检测方法及***
CN109191498B (zh) 基于动态记忆和运动感知的目标检测方法及***
CN114627052A (zh) 一种基于深度学习的红外图像漏气漏液检测方法及***
CN113627228A (zh) 一种基于关键点回归与多尺度特征融合的车道线检测方法
CN113822352B (zh) 基于多特征融合的红外弱小目标检测方法
CN111723841A (zh) 文本检测方法、装置、电子设备及存储介质
CN110633633B (zh) 一种基于自适应阈值的遥感影像道路提取方法
CN111209858A (zh) 一种基于深度卷积神经网络的实时车牌检测方法
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及***
CN111832453A (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN115810149A (zh) 基于超像素与图卷积的高分辨率遥感图像建筑物提取方法
CN116645592A (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN110751157B (zh) 图像显著性分割、图像显著性模型训练方法及装置
CN115641632A (zh) 一种基于分离三维卷积神经网络的人脸伪造检测方法
CN114998373A (zh) 基于多尺度损失函数的改进型U-Net云图分割方法
CN113837965B (zh) 图像清晰度识别方法、装置、电子设备及存储介质
CN111931572B (zh) 一种遥感影像的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant