CN113205092A - 文本检测方法、装置、设备及存储介质 - Google Patents

文本检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113205092A
CN113205092A CN202110498146.3A CN202110498146A CN113205092A CN 113205092 A CN113205092 A CN 113205092A CN 202110498146 A CN202110498146 A CN 202110498146A CN 113205092 A CN113205092 A CN 113205092A
Authority
CN
China
Prior art keywords
text box
initial
feature map
inputting
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110498146.3A
Other languages
English (en)
Inventor
孙磊
高凯珺
潘柳华
徐麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN202110498146.3A priority Critical patent/CN113205092A/zh
Publication of CN113205092A publication Critical patent/CN113205092A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种文本检测方法、装置、设备及存储介质。包括:对待检测图片进行特征提取,获得初始特征图;根据所述初始特征图确定初始文本框;根据所述初始特征图对所述初始文本框进行修正,获得目标文本框;对所述目标文本框内的文本进行检测。本发明实施例提供的文本检测方法,根据初始特征图对初始文本框进行修正,再基于修正后的文本框进行文本检测,可以保证对长文本检测时的文本完整性,从而提高文本检测的准确性。

Description

文本检测方法、装置、设备及存储介质
技术领域
本发明实施例涉及文字识别技术领域,尤其涉及一种文本检测方法、装置、设备及存储介质。
背景技术
文本在人们的生活中发挥着重要的作用,文本信息包含丰富准确的语义信息。文本在日常生活中处处可见:商店招牌、广告铭牌、街道标志、表单报告等。由于文本出现在不同的背景中,具有不同的大小、颜色、形状、光照条件和方向,自然环境中的文本检测是一项非常具有挑战性的工作。
现有的技术中,比较常见的方法通采用基于边界回归方法检测文本框,将回归框作为文本的检测结果。现有的文本检测对于较长文本,得到的检测框很难将长文本完全包括,可能将文本截取部分从而影响之后的文本识别。
发明内容
本发明实施例提供一种文本检测方法、装置、设备及存储介质,以实现对长文本的检测,提高文本检测的准确性。
第一方面,本发明实施例提供了一种文本检测方法,包括:
对待检测图片进行特征识别,获得初始特征图;
根据所述初始特征图确定初始文本框;
根据所述初始特征图对所述初始文本框进行修正,获得目标文本框;
对所述目标文本框内的文本进行检测。
第二方面,本发明实施例还提供了一种文本检测装置,其特征在于,包括:
初始特征图获取模块,用于对待检测图片进行特征识别,获得初始特征图;
初始文本框确定模块,用于根据所述初始特征图确定初始文本框;
目标文本框获取模块,用于根据所述初始特征图对所述初始文本框进行修正,获得目标文本框;
文本检测模块,用于对所述目标文本框内的文本进行检测。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例所述的文本检测方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施所述的文本检测方法的步骤。
本发明实施公开了一种文本检测方法、装置、设备及存储介质。对待检测图片进行特征识别,获得初始特征图;根据初始特征图确定初始文本框;根据初始特征图对初始文本框进行修正,获得目标文本框;对目标文本框内的文本进行检测。本发明实施例提供的文本检测方法,根据初始特征图对初始文本框进行修正,再基于修正后的文本框进行文本检测,可以保证对长文本检测时的文本完整性,从而提高文本检测的准确性。
附图说明
图1是本发明实施例一中的一种文本检测方法的流程图;
图2是本发明实施例二中的一种文本检测方法的原理图;
图3是本发明实施例二中的注意力子网络的结构示意图;
图4是本发明实施例二中的通道注意力模块的原理图;
图5是本发明实施例二中的空间注意力模块的原理图;
图6是本发明实施例三中的一种文本检测装置的结构示意图;
图7是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本检测方法的流程图,本实施例可适用于对图片中的文本进行检测的情况,该方法可以由文本检测装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有***校验功能的设备中。如图1所示,该方法具体包括如下步骤:
步骤110,对待检测图片进行特征提取,获得初始特征图。
其中,待检测图片可以是包含了文字信息的图片,如:商店招牌、广告铭牌、街道标志、表单报告等。特征图可以由多通道矩阵来表征。
本实施例中,对待检测图片进行特征提取的方式可以是:将待检测图片输入以卷积神经网络((Convolutional Neural Networks,CNN))结构为基础构造的网络,以获得初始特征图。例如:可以采用ResNet-50作为基网络进行构建。
步骤120,根据初始特征图确定初始文本框。
其中,初始文本框可以理解为将文本信息围起来的矩形框。文本框包含类别信息及文本框四个顶点坐标,其中,类别信息包括是文本框(用“0”表征)及非文本框(用“1”表征)两类。
本实施例中,根据初始特征图确定初始文本框的方式可以是:将初始特征图输入边框回归网络(box regression)进行边框回归,以预测出初始文本框。本实施例中,利用边框回归网络对初始特征图预测出的初始文本框不够准确,需要对初始文本框进行修正。
步骤130,根据初始特征图对初始文本框进行修正,获得目标文本框。
具体的,根据初始特征图对初始文本框进行修正,获得目标文本框的过程可是:将初始特征图和初始文本框输入注意力网络,获得目标文本框。
其中,注意力网络可以是基于注意力机制构建的网络。
步骤140,对目标文本框内的文本进行检测。
其中,文本检测可以采用现有的文字识别技术,此处不再赘述。
本实施例的技术方案,对待检测图片进行特征识别,获得初始特征图;根据初始特征图确定初始文本框;根据初始特征图对初始文本框进行修正,获得目标文本框;对目标文本框内的文本进行检测。本发明实施例提供的文本检测方法,根据初始特征图对初始文本框进行修正,再基于修正后的文本框进行文本检测,可以保证对长文本检测时的文本完整性,从而提高文本检测的准确性。
实施例二
图2是本发明实施例二提供的一种文本检测方法的原理图。以上述实施例为基础,该实施例中的文本检测方法由设定神经网络实现,如图2所示,该设定神经网络包括特征提取子网络、边框回归子网络及注意力子网络。基于该设定神经网络进行文本检测的原理可以是:将待检测图片输入特征提取子网络,获得初始特征图;将初始特征图输入边框回归子网络,获得初始文本框;将初始特征图和初始文本框输入注意力子网络,获得目标文本框。
其中,特征提取子网络可以是基于ResNet-50构建的backbone网络。边框回归子网络可以是采用现有的边框回归网络。
图3是本实施例中的注意力子网络的结构示意图,如图3所示,注意力子网络包括目标检测层、第一设定数量的卷积层、通道注意力模块、空间注意力模块及特征压缩模块。
本实施例中,将初始特征图和初始文本框输入注意力子网络,获得目标文本框的过程可以是:将初始特征图输入目标检测层,获得设定尺寸的第一特征图;将第一特征图依次输入第一设定数量的卷积层,以进行进一步特征提取,获得第二特征图;将第二特征图输入通道注意力模块,获得第一加权特征图;将第一加权特征图输入空间注意力模块,获得第二加权特征图;将第二加权特征图输入特征压缩模块,获得目标文本框。
其中,目标检测层可以是特殊池化(RoI Align)层。设定尺寸可以表示为W×H×C,其中,W、H和C是正整数。第一设定数量的卷积层可以是三个3×3的卷积层。具体的,将初始特征图输入到RoI Align层映射到W×H×C尺寸的第一特征图,然后经过三个3×3的卷积层进行进一步的特征提取,获得第二特征图,第二特征图的尺寸仍为W×H×C。
其中,通道注意力模块包括池化层、第二设定数量的卷积层及激活层。具体的,将第二特征图输入通道注意力模块,获得第一加权特征图的过程可以是:将第二特征图输入池化层,获得第一通道特征;将第一通道特征输入第二设定数量的卷积层,获得第二通道特征;将第二通道特征输入激活层,获得各通道的权重系数;将权重系数和第二特征图进行相乘,获得第一加权特征图。
其中,第二设定数量的卷积层可以是2个1×1的卷积层。示例性的,图4是本实施例中的通道注意力模块的原理图。如图4所示,将尺寸为W×H×C的第二特征图输入池化层获得尺寸为1×1×C的第一通道特征,然后使用1×1的卷积层按比例减少通道数为C/r,接着继续使用1×1的卷积层恢复通道数,获得第二通道特征。再然后将尺寸为1×1×C第二通道特征输入激活层,采用激活(sigmoid)函数对第二通道特征进行处理,获得各通道的权重系数。最后将各通道的权重系数与对应通道的第二特征图进行相乘,获得第一加权特征图。而且,第一加权特征图的尺寸仍为W×H×C。本实施例中,通道注意力模块是将不同的通道的特征进行新的加权,以放大重要通道的权重,减少不重要通道的权重。
其中,空间注意力模块包括通道降采样层。具体的,将第一加权特征图输入空间注意力模块,获得第二加权特征图的过程可以是:将第一加权特征图输入通道降采样层,获得设定通道数量的权重矩阵;将设定通道数据的权重矩阵分别与第一加权特征图进行点乘,获得设定通道数量的第二加权特征图。
本实施例中,空间注意力模块是将特征空间上的权重进行重新分配,本实施例中,由于文本框包括四个顶点,因此需要将通道数量变为4。其中,通道降采样层为1×1的卷积层。示例性的,图5是本实施例中的空间注意力模块的原理图,如图5所示,尺寸为W×H×C的第一加权特征图经过1×1的卷积层将通道变为4,获得4个W×H×1的权重矩阵,然后将这4个权重矩阵分别与第一加权特征图进行点乘,获得4个第二加权特征图,即4×W×H×C。空间注意力模块在空间上对每个像素进行了新的加权,与通道注意力模块类似,放大空间上更重要像素的权重,减少不重要像素的权重。
相应的,将第二加权特征图输入特征压缩模块,获得目标文本框的过程可以是:将设定通道数量的第二加权特征图分别输入特征压缩模块,获得设定通道数量的坐标值,设定通道数量的坐标值构成目标文本框。
其中,特征压缩模块可以通过调用reduce sum函数实现特征压缩。具体的,空间注意力模块输出4个第二加权特征图,特征压缩模块分别对这4个第二加权特征图调用reducesum函数进行压缩,获得4个1×1×C的的特征,最终获得4个坐标值。
可选的,如图3所示,通道注意力模块的输入与空间注意力模块的输入跳跃连接;空间注意力模块的输入与特征压缩模块的输入跳跃连接。即第二特征图与第一加权特征图融合后输入空间注意力模块,第二特征图与第二加权特征图融合后输入特征压缩模块。跳跃连接可以减少梯度消失情况的发生,同时可以将低层的特征直接传给高层并作融合,可以有效的提高网络的性能。
本实施例的技术方案,将待检测图片输入特征提取子网络,获得初始特征图;将初始特征图输入边框回归子网络,获得初始文本框;将初始特征图和初始文本框输入注意力子网络,获得目标文本框。通过注意力子网络对初始文本框进行修正,可以,可以保证对长文本检测时的文本完整性,从而提高文本检测的准确性。
可选的,设定神经网络的训练方式为:获取边框回归子网络的二分类损失函数及第一文本框坐标点损失函数;获取注意力子网络的第二文本框坐标点损失函数及文本框交并比损失函数;对二分类损失函数、第一文本框坐标点损失函数、第二文本框坐标点损失函数及文本框交并比损失函数进行加权求和,获得目标损失函数;基于目标损失函数对设定神经网络进行训练。
具体的,需要采集大量的图片样本输入设定神经网络,以对神经网络进行训练。
其中,二分类损失函数可以理解为根据边框回归子网络的二分类结果计算的损失函数。二分类可以包括文本和非文本两个类别。二分类损失函数的计算公式为:
Figure BDA0003055296400000081
其中,N为样本数量,yi为样本的分类结果(二分类为0或1),pi表示样本为正的概率,即样本是文本的概率。
第一文本框坐标点损失函数可以理解为根据边框回归子网络获取的初始文本框的四个顶点计算的损失函数。第一文本框坐标点损失函数的计算公式为:
Figure BDA0003055296400000082
其中,N为样本数量,qij为第i个样本的第j个实际坐标值,
Figure BDA0003055296400000083
为第i个样本的第j个预测坐标值,由于文本框有4个顶点,因此有8个坐标值。
第二文本框坐标点损失函数可以理解为根据注意力子网络获取的目标文本框的四个顶点计算的损失函数。第二文本框坐标点损失函数的计算公式为:
Figure BDA0003055296400000084
其中,Np为正样本的数量,qij为第i个样本的第j个实际坐标值,
Figure BDA0003055296400000085
为第i个样本的第j个预测坐标值,由于文本框有4个顶点,因此有8个坐标值。
文本框交并比损失函数可以理解为根据注意力子网络预测的目标文本框的面积与实际文本框的面积的交并比计算获得损失函数。文本框交并比损失函数的计算公式为:
Figure BDA0003055296400000091
其中,Np为正样本的数量,Xi为第i个样本的实际文本框面积,
Figure BDA0003055296400000092
为第i个样本的预测的目标文本框面积。基于IoU的损失函数对于尺度具有不变性,其对尺度不敏感的特性可以对不同尺度都得到到更准确的回归边界框。
本实施例中,对所述二分类损失函数、第一文本框坐标点损失函数、第二文本框坐标点损失函数及文本框交并比损失函数进行加权求和的计算公式为:
Figure BDA0003055296400000093
其中,λ和μ为权重系数。本实施例中,λ的取值要小于μ的取值,例如,λ取1,μ取2。这样的好处是,在计算损失函数时,使注意力子网络的预测结果占更高的比重,从而提高神经网络的精度。
实施例三
图6是本发明实施例三提供的一种文本检测装置的结构示意图。如图6所示,该装置包括:
初始特征图获取模块210,用于对待检测图片进行特征提取,获得初始特征图;
初始文本框确定模块220,用于根据所述初始特征图确定初始文本框;
目标文本框获取模块230,用于根据所述初始特征图对所述初始文本框进行修正,获得目标文本框;
文本检测模块240,用于对所述目标文本框内的文本进行检测.
可选的,所述方法由设定神经网络实现,所述设定神经网络包括特征提取子网络、边框回归子网络及注意力子网络;
初始特征图获取模块210,还用于:
将所述待检测图片输入所述特征提取子网络,获得初始特征图;
初始文本框确定模块220,还用于:
将所述初始特征图输入所述边框回归子网络,获得初始文本框;
目标文本框获取模块230,还用于:
将所述初始特征图和所述初始文本框输入所述注意力子网络,获得目标文本框。
可选的,所述注意力子网络包括目标检测层、第一设定数量的卷积层、通道注意力模块、空间注意力模块及特征压缩模块;目标文本框获取模块230,还用于:
将所述初始特征图输入所述目标检测层,获得设定尺寸的第一特征图;
将所述第一特征图依次输入所述第一设定数量的卷积层,以进行进一步特征提取,获得第二特征图;
将所述第二特征图输入所述通道注意力模块,获得第一加权特征图;
将所述第一加权特征图输入所述空间注意力模块,获得第二加权特征图;
将所述第二加权特征图输入所述特征压缩模块,获得目标文本框。
可选的,所述通道注意力模块包括池化层、第二设定数量的卷积层及激活层;目标文本框获取模块230,还用于:
将所述第二特征图输入所述池化层,获得第一通道特征;
将所述第一通道特征输入所述第二设定数量的卷积层,获得第二通道特征;
将所述第二通道特征输入所述激活层,获得各通道的权重系数;
将所述权重系数和所述第二特征图进行相乘,获得第一加权特征图。
可选的,所述空间注意力模块包括通道降采样层;目标文本框获取模块230,还用于:
将所述第一加权特征图输入所述通道降采样层,获得设定通道数量的权重矩阵;
将所述设定通道数量的权重矩阵分别与所述第一加权特征图进行点乘,获得设定通道数量的第二加权特征图;
将所述设定通道数量的第二加权特征图分别输入所述特征压缩模块,获得设定通道数量的坐标值,所述设定通道数量的坐标值构成目标文本框。
可选的,所述通道注意力模块的输入与所述空间注意力模块的输入跳跃连接;所述空间注意力模块的输入与所述特征压缩模块的输入跳跃连接。
可选的,还包括:设定神经网络的训练模块,用于:
获取所述边框回归子网络的二分类损失函数及第一文本框坐标点损失函数;
获取所述注意力子网络的第二文本框坐标点损失函数及文本框交并比损失函数;
对所述二分类损失函数、第一文本框坐标点损失函数、第二文本框坐标点损失函数及文本框交并比损失函数进行加权求和,获得目标损失函数;
基于所述目标损失函数对所述设定神经网络进行训练。
上述装置可执行本发明前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。
实施例四
图7为本发明实施例四提供的一种计算机设备的结构示意图。图7示出了适于用来实现本发明实施方式的计算机设备312的框图。图7显示的计算机设备312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备312是典型的文本检测功能的计算设备。
如图7所示,计算机设备312以通用计算设备的形式表现。计算机设备312的组件可以包括但不限于:一个或者多个处理器316,存储装置328,连接不同***组件(包括存储装置328和处理器316)的总线318。
总线318表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及***组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备312典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置328可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory,RAM)330和/或高速缓存存储器332。计算机设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***334可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储装置328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块326的程序336,可以存储在例如存储装置328中,这样的程序模块326包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块326通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备312也可以与一个或多个外部设备314(例如键盘、指向设备、摄像头、显示器324等)通信,还可与一个或者多个使得用户能与该计算机设备312交互的设备通信,和/或与使得该计算机设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且,计算机设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器320通过总线318与计算机设备312的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备312使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)***、磁带驱动器以及数据备份存储***等。
处理器316通过运行存储在存储装置328中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的文本检测方法。
实施例五
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理装置执行时实现如本发明实施例中的文本检测方法。
本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:对待检测图片进行特征提取,获得初始特征图;根据所述初始特征图确定初始文本框;根据所述初始特征图对所述初始文本框进行修正,获得目标文本框;对所述目标文本框内的文本进行检测。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种文本检测方法,其特征在于,包括:
对待检测图片进行特征提取,获得初始特征图;
根据所述初始特征图确定初始文本框;
根据所述初始特征图对所述初始文本框进行修正,获得目标文本框;
对所述目标文本框内的文本进行检测。
2.根据权利要求1所述的方法,其特征在于,所述方法由设定神经网络实现,所述设定神经网络包括特征提取子网络、边框回归子网络及注意力子网络;
对待检测图片进行特征提取,获得初始特征图,包括:
将所述待检测图片输入所述特征提取子网络,获得初始特征图;
根据所述初始特征图确定初始文本框,包括:
将所述初始特征图输入所述边框回归子网络,获得初始文本框;
根据所述初始特征图对所述初始文本框进行修正,获得目标文本框,包括:
将所述初始特征图和所述初始文本框输入所述注意力子网络,获得目标文本框。
3.根据权利要求2所述的方法,其特征在于,所述注意力子网络包括目标检测层、第一设定数量的卷积层、通道注意力模块、空间注意力模块及特征压缩模块;将所述初始特征图和所述初始文本框输入所述注意力子网络,获得目标文本框,包括:
将所述初始特征图输入所述目标检测层,获得设定尺寸的第一特征图;
将所述第一特征图依次输入所述第一设定数量的卷积层,以进行进一步特征提取,获得第二特征图;
将所述第二特征图输入所述通道注意力模块,获得第一加权特征图;
将所述第一加权特征图输入所述空间注意力模块,获得第二加权特征图;
将所述第二加权特征图输入所述特征压缩模块,获得目标文本框。
4.根据权利要求3所述的方法,其特征在于,所述通道注意力模块包括池化层、第二设定数量的卷积层及激活层;将所述第二特征图输入所述通道注意力模块,获得第一加权特征图,包括:
将所述第二特征图输入所述池化层,获得第一通道特征;
将所述第一通道特征输入所述第二设定数量的卷积层,获得第二通道特征;
将所述第二通道特征输入所述激活层,获得各通道的权重系数;
将所述权重系数和所述第二特征图进行相乘,获得第一加权特征图。
5.根据权利要求3所述的方法,其特征在于,所述空间注意力模块包括通道降采样层;将所述第一加权特征图输入所述空间注意力模块,获得第二加权特征图,包括:
将所述第一加权特征图输入所述通道降采样层,获得设定通道数量的权重矩阵;
将所述设定通道数量的权重矩阵分别与所述第一加权特征图进行点乘,获得设定通道数量的第二加权特征图;
相应的,将所述第二加权特征图输入所述特征压缩模块,获得目标文本框,包括:
将所述设定通道数量的第二加权特征图分别输入所述特征压缩模块,获得设定通道数量的坐标值,所述设定通道数量的坐标值构成目标文本框。
6.根据权利要求3所述的方法,其特征在于,所述通道注意力模块的输入与所述空间注意力模块的输入跳跃连接;所述空间注意力模块的输入与所述特征压缩模块的输入跳跃连接。
7.根据权利要求2所述的方法,其特征在于,所述设定神经网络的训练方式为:
获取所述边框回归子网络的二分类损失函数及第一文本框坐标点损失函数;
获取所述注意力子网络的第二文本框坐标点损失函数及文本框交并比损失函数;
对所述二分类损失函数、第一文本框坐标点损失函数、第二文本框坐标点损失函数及文本框交并比损失函数进行加权求和,获得目标损失函数;
基于所述目标损失函数对所述设定神经网络进行训练。
8.一种文本检测装置,其特征在于,包括:
初始特征图获取模块,用于对待检测图片进行特征提取,获得初始特征图;
初始文本框确定模块,用于根据所述初始特征图确定初始文本框;
目标文本框获取模块,用于根据所述初始特征图对所述初始文本框进行修正,获得目标文本框;
文本检测模块,用于对所述目标文本框内的文本进行检测。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的文本检测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的文本检测方法的步骤。
CN202110498146.3A 2021-05-08 2021-05-08 文本检测方法、装置、设备及存储介质 Pending CN113205092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110498146.3A CN113205092A (zh) 2021-05-08 2021-05-08 文本检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110498146.3A CN113205092A (zh) 2021-05-08 2021-05-08 文本检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113205092A true CN113205092A (zh) 2021-08-03

Family

ID=77030461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110498146.3A Pending CN113205092A (zh) 2021-05-08 2021-05-08 文本检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113205092A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013503A (zh) * 2022-12-27 2023-04-25 北大计算与数字经济研究院 一种牙科治疗计划确定方法、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116013503A (zh) * 2022-12-27 2023-04-25 北大计算与数字经济研究院 一种牙科治疗计划确定方法、电子设备及存储介质
CN116013503B (zh) * 2022-12-27 2024-02-20 北京大学长沙计算与数字经济研究院 一种牙科治疗计划确定方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11074445B2 (en) Remote sensing image recognition method and apparatus, storage medium and electronic device
JP7265034B2 (ja) 人体検出用の方法及び装置
CN110321958B (zh) 神经网络模型的训练方法、视频相似度确定方法
CN113657390A (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
CN113822428A (zh) 神经网络训练方法及装置、图像分割方法
CN112668588B (zh) 车位信息生成方法、装置、设备和计算机可读介质
CN110084172B (zh) 文字识别方法、装置和电子设备
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
CN110162657B (zh) 一种基于高层语义特征和颜色特征的图像检索方法及***
CN112766284B (zh) 图像识别方法和装置、存储介质和电子设备
CN113468330B (zh) 信息获取方法、装置、设备及介质
CN110826567A (zh) 光学字符识别方法、装置、设备及存储介质
CN113239925A (zh) 一种文本检测模型训练方法、文本检测方法及装置、设备
CN111209856B (zh) ***信息的识别方法、装置、电子设备及存储介质
CN112712036A (zh) 交通标志识别方法、装置、电子设备及计算机存储介质
CN113205092A (zh) 文本检测方法、装置、设备及存储介质
CN117746015A (zh) 小目标检测模型训练方法、小目标检测方法及相关设备
CN110321858B (zh) 视频相似度确定方法、装置、电子设备及存储介质
CN115100536B (zh) 建筑物识别方法、装置、电子设备和计算机可读介质
CN112287734A (zh) 碎屏检测及用于碎屏检测的卷积神经网络的训练方法
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
CN111612714B (zh) 图像修复方法、装置和电子设备
CN114119365A (zh) 一种应用检测方法、装置、设备及存储介质
CN111291758B (zh) 用于识别***文字的方法和装置
CN112801960A (zh) 图像处理方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination