CN110458164A - 图像处理方法、装置、设备及计算机可读存储介质 - Google Patents

图像处理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110458164A
CN110458164A CN201910724473.9A CN201910724473A CN110458164A CN 110458164 A CN110458164 A CN 110458164A CN 201910724473 A CN201910724473 A CN 201910724473A CN 110458164 A CN110458164 A CN 110458164A
Authority
CN
China
Prior art keywords
text
detection
conversion process
geometric parameter
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910724473.9A
Other languages
English (en)
Inventor
许有疆
旷章辉
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN201910724473.9A priority Critical patent/CN110458164A/zh
Publication of CN110458164A publication Critical patent/CN110458164A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种图像处理方法、装置、设备及计算机可读存储介质。该方法包括:获取输入图像的原始特征图;对所述原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图,所述多个不同的几何参数变换处理包括至少两个不同的尺寸变换处理和/或至少两个不同的方向变换处理;对所述多个变换特征图分别进行文本检测,获得多个检测文本框;基于所述多个检测文本框,得到所述输入图像的文本检测结果。

Description

图像处理方法、装置、设备及计算机可读存储介质
技术领域
本公开涉及计算机视觉技术领域,具体涉及一种图像处理方法、装置、设备及计算机可读存储介质。
背景技术
随着深度学习的迅速发展,计算机视觉技术对实际生产具有影响越来越重要的影响。对图像中的文本进行检测和识别,有助于计算机理解视觉内容。
与传统的物体检测不同,文本检测除了需要获取文字行的特征外,还需要面对文字的字体、悬殊的宽高、角度带来的挑战,以及需要克服尺度、角度的剧烈变化对网络学习可能带来的影响。
发明内容
本公开实施例提供一种图像处理方案。
第一方面,提供一种图像处理方法,所述方法包括:获取输入图像的原始特征图;对所述原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图,所述多个不同的几何参数变换处理包括至少两个不同的尺寸变换处理和/或至少两个不同的方向变换处理;对所述多个变换特征图分别进行文本检测,获得多个检测文本框;基于所述多个检测文本框,得到所述输入图像的文本检测结果。
结合本公开提供的任一实施方式,所述多个检测文本框中对应于不同的几何参数变换处理的检测文本框具有不同的大小和/或方向。
结合本公开提供的任一实施方式,所述多个检测文本框中对应于每个几何参数变换处理的检测文本框的大小和/或方向位于所述每个几何参数变换处理的预设数值范围内,其中,每个几何参数变换处理的预设数值范围是通过对所述每个几何参数变换处理的预设几何范围进行所述每个几何参数变换处理得到的,不同的几何参数变换处理对应不同的预设几何范围。
结合本公开提供的任一实施方式,所述对所述原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图,包括:通过多个不同分支对所述原始特征图进行几何参数变换处理,获得多个变换特征图。
结合本公开提供的任一实施方式,针对每个分支,所述方向变换处理包括以下中的至少一种:旋转、翻转、旋转加翻转、保持方向不变。
结合本公开提供的任一实施方式,所述基于所述多个检测文本框,得到目标文本框,包括:将所述多个检测文本框映射回所述输入图像,得到多个映射文本框;基于所述多个映射文本框,得到所述输入图像的文本检测结果。
结合本公开提供的任一实施方式,所述方法通过文本检测网络实现,还包括:根据所述多个检测文本框和所述输入图像的真值数据,确定网络损失值;基于所述网络损失值,对所述文本检测网络的网络参数进行调整。
结合本公开提供的任一实施方式,所述网络损失值是基于所述多个几何参数变换处理中的至少一个几何参数变换处理所预测的检测文本框得到的,其中,所述至少一个几何参数变换处理的预设几何范围包含所述输入图像的真值数据。
结合本公开提供的任一实施方式,所述根据所述多个检测文本框和所述输入图像的真值数据,确定网络损失值,包括:从所述多个检测文本框中选取至少一个检测文本框,其中,所述输入图像的真值数据位于所述至少一个检测文本框对应的几何参数变换处理的预设几何范围内;基于所述至少一个检测文本框和所述输入图像的真值数据,确定网络损失值。
结合本公开提供的任一实施方式,在所述获取所述输入图像的原始特征图之前,还包括:对样本图像进行多次变换处理,获得多个变换后的样本图像,使得所述多个不同的几何参数变换处理中每个几何参数变换处理对应的几何参数范围内包括至少一个变换后的样本图像中的文本框大小。
第二方面,提供一种图像处理装置,所述装置包括:获取单元,用于获取输入图像的原始特征图;几何参数变换单元,用于对所述原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图,所述多个不同的几何参数变换处理包括至少两个不同的尺寸变换处理和/或至少两个不同的方向变换处理;文本检测单元,用于对所述多个变换特征图分别进行文本检测,获得多个检测文本框;目标确定单元,用于基于所述多个检测文本框,得到所述输入图像的文本检测结果。
结合本公开提供的任一实施方式,所述多个检测文本框中对应于不同的几何参数变换处理的检测文本框具有不同的大小和/或方向。
结合本公开提供的任一实施方式,所述多个检测文本框中对应于每个几何参数变换处理的检测文本框的大小和/或方向位于所述每个几何参数变换处理的预设数值范围内,其中,每个几何参数变换处理的预设数值范围是通过对所述每个几何参数变换处理的预设几何范围进行所述每个几何参数变换处理得到的,不同的几何参数变换处理对应不同的预设几何范围。
结合本公开提供的任一实施方式,所述几何参数变换单元具体用于:通过多个不同分支对所述原始特征图进行几何参数变换处理,获得多个变换特征图。
结合本公开提供的任一实施方式,针对每个分支,所述方向变换处理包括以下中的至少一种:旋转、翻转、旋转加翻转、保持方向不变。
结合本公开提供的任一实施方式,所述目标确定单元具体用于:将所述多个检测文本框映射回所述输入图像,得到多个映射文本框;基于所述多个映射文本框,得到所述输入图像的文本检测结果。
结合本公开提供的任一实施方式,所述装置还包括文本检测网络训练单元,用于:根据所述多个检测文本框和所述输入图像的真值数据,确定网络损失值;基于所述网络损失值,对所述文本检测网络的网络参数进行调整。
结合本公开提供的任一实施方式,所述网络损失值是基于所述多个几何参数变换处理中的至少一个几何参数变换处理所预测的检测文本框得到的,其中,所述至少一个几何参数变换处理的预设几何范围包含所述输入图像的真值数据。
结合本公开提供的任一实施方式,所述文本检测网络训练单元在用于根据所述多个检测文本框和所述输入图像的真值数据,确定网络损失值时,具体用于:从所述多个检测文本框中选取至少一个检测文本框,其中,所述输入图像的真值数据位于所述至少一个检测文本框对应的几何参数变换处理的预设几何范围内;基于所述至少一个检测文本框和所述输入图像的真值数据,确定网络损失值。
结合本公开提供的任一实施方式,所述装置还包括样本变换单元,用于在所述获取所述输入图像的原始特征图之前,对样本图像进行多次变换处理,获得多个变换后的样本图像,使得所述多个不同的几何参数变换处理中每个几何参数变换处理对应的几何参数范围内包括至少一个变换后的样本图像中的文本框大小。
第三方面,提供一种图像处理设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的图像处理方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施方式所述的图像处理方法。
本公开一个或多个实施例的图像处理方法、装置、设备及计算机可读存储介质,通过对输入图像的原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图进行文本检测,可以将输入图像中的文本归一化到一定的几何检测范围内,从而可以适用于各种场景的文本的检测,提高文本测检的效果。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一示例性实施例示出的一种图像处理方法的流程示意图;
图2是本申请一示例性实施例示出的一种几何参数变换处理的示意图;
图3是本申请一示例性实施例示出的一种文本检测网络的结构示意图;
图4是本申请一示例性实施例示出的一种文本检测网络的训练方法的流程示意图;
图5A是应用相关技术的文本检测结果示意图;
图5B是本申请一示例性实施例示出的一种文本检测结果示意图;
图6是本申请一示例性实施例示出的一种图像处理装置的结构示意图;
图7是本申请一示例性实施例示出的一种图像处理设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
图1为本公开实施例图像处理方法的流程示意图。如图1所示,该方法包括步骤110~140。
在步骤110中,获取输入图像的原始特征图。
其中,输入图像可以是图像采集装置实时采集的图像,也可以是预先存储的图像。并且,该输入图像可以是图片格式的图像,也可以是视频中的图像帧,本公开实施例对此不作限制。
在一个示例中,可以通过特征提取网络提取输入图像的原始特征图,例如卷积神经网络,本公开实施例不限制特征提取网络的具体结构。
在另一个示例中,可以从其他设备处获得输入图像的原始特征图,例如,接收终端发送的原始特征图,但本公开实施例不限于此。
在步骤120中,对所述原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图,所述多个不同的几何参数变换处理包括至少两个不同的尺寸变换处理和/或至少两个不同的方向变换处理。
在一个示例中,可以首先对原始特征图进行至少两个不同的尺寸变换处理,获得至少两个不同尺度的特征图;针对每个尺寸变换后的特征图,进行至少两个不同的方向变换处理,获得至少两个不同方向的特征图。例如,首先对原始特征图进行M个不同的尺寸变换处理,获得M个不同尺度的特征图;针对每个尺寸变换后的特征图,进行N个不同的方向变换处理,获得N个不同方向的特征图。则在对原始特征图进行上述几何参数变换处理后,获得M*N个变换特征图。
本领域技术人员应当理解,对于进行尺寸变换和方向变换的顺序、数目,以上仅为示例上说明,本公开实施例不作限制。
在步骤130中,对所述多个变换特征图分别进行文本检测,获得多个检测文本框。
在一个示例中,可以利用一个共享的文本检测头(text detection header)网络对多个变换特征图分别进行文本检测,获得多个检测文本框。
在另一个示例中,可以利用多个文本检测头,分别对多个变换特征图进行文本检测,相应地获得多个检测文本框。其中,所述多个文本检测头的数目优选与进行几何参数变换处理的分支的数目相等。
在步骤140中,基于所述多个检测文本框,得到所述输入图像的文本检测结果。
所述多个检测文本框,是根据多个变换特征图进行文本检测得到的,因此,将所述多个文本框是相应地反向映射回原始的尺寸和方向,即能够得到输入图像的文本检测结果。
在本公开实施例中,通过对输入图像的原始特征图进行多种不同的几何参数变换处理,获得多个变换特征图进行文本检测,可以将输入图像中的文本归一化到一定的几何检测范围内,从而可以适用于各种场景的文本的检测,提高文本测检的效果。
在一些实施例中,可以通过多个不同分支对所述原始特征图进行几何参数变换处理,获得多个变换特征图。
图2示出通过八个分支对原始特征图进行几何参数变换处理,输出八个变换特征图的示例。如图2所示,对原始特征图进行的几何参数变换处理包括对所述原始特征图进行尺寸变换处理(表示为),经尺寸变换后再对每个尺寸变换后特征图进行方向变换处理(表示为)。
在本公开实施例中,对特征图进行的尺寸变换处理包括将特征图的尺寸变换为一半、1/4、1/8等等。如图2所示,Si表示尺寸变换,其中,i表示尺寸变换幅度,例如,S1(或S)表示保持特征图的尺度不变,S1/2表示将特征图的尺寸变换为一半,S1/4表示将特征图的尺寸变换为1/4,以此类推。以S1/2为例,经该变换得到的特征图使得输入特征图的空间分辨率变换为原空间分辨率的1/2,也即,特征图的宽度变为一半,高度变为一半。
在本公开实施例中,对特征图进行的方向变换处理包括以下中的至少一种:旋转、翻转、旋转加翻转、保持方向不变。如图2所示,O表示保持特征图的方向不变,Or表示对特征图进行旋转(顺时针旋转π/2),Of表示对特征图进行水平翻转,Or+f表示对特征图进行旋转以及翻转。
原始特征图经图2所示的几何参数变换处理,对原始特征图进行了八个分支的不同尺寸变换处理和方向变换处理,从而获得八个不同的变换特征图。表1示出了经图2中八个分支的不同尺寸变换处理和方向变换处理后得到的变换后的文本框参数。在表1中,(x’,y’)、h’、ω’和θ’分别表示变换后的文本框的中心坐标、高度、宽度以及角度;(x,y)、h、ω和θ分别表示输入图像中的文本框的中心坐标、高度、宽度以及角度。
表1
在本公开实施例中,对所述多个变换特征图分别进行文本检测,获得多个检测文本框。所得到的检测文本框与变换特征图相对应,也即与几何参数变换处理相对应。
在一些实施例中,根据所述多个变换特征图所获得的多个检测文本框中,对应于不同几何参数变换处理的检测文本框具有不同的大小和/或方向。
进行不同几何参数变换处理,所获得的变换特征图在大小上,或者在方向上是不同的,或者在大小和方向上都是不同的,因此根据经不同几何参数变换处理得到的变换特征图所获得的检测文本框,也在大小和/或方向上有所有不同。
在一些实施例中,不同的几何参数变换处理对应不同的预设几何范围,多个检测文本框中对应于每个几何参数变换处理的检测文本框的大小和/或方向位于所述每个几何参数变换处理的预设数值范围内,其中,每个几何参数变换处理的预设数值范围是通过对所述每个几何参数变换处理的预设几何范围进行所述每个几何参数变换处理得到的。
各个不同的几何参数变换处理所对应的预设数值范围,共同形成了检测文本框的数值范围,不妨将所述检测文本框的数值范围称为几何检测范围。
以尺寸变换举例来说,第一分支保持特征图的尺度不变,其对应的预设尺度范围为[10,80]像素;第二分支将特征图的尺寸变换为二分之一,其对应的预设尺度范围为[60,200]像素。由于第二分支将特征图的尺寸变换为一半,因此经变换后尺度参数的范围为[30,100]像素。也即是说,文本检测头网络进行检测的尺度范围为[10,100]。通过这种方式,文本框检测的尺度范围从[10,200]被归一化到了[10,100]。
以方向变换举例来说,第一分支将方向参数在[-π/2,-π/4]和[π/4,π/2]范围内的文本框,分别变换为方向参数在[-π/4,0]和[0,π/4]范围内;而第二分支对方向不进行变化,其预设方向范围为[-π/2,π/2]。因此,这两个分支输出的文本框的方向范围为[-π/4,0]和[0,π/4]。也即是说,文本检测头网络进行检测的方向范围为[-π/4,0]和[0,π/4]。通过这种方式,文本框检测的方向范围从[-π/2,π/2]被归一化到了[-π/4,0]和[0,π/4]。
在一些实施例中,可以通过以下方式,基于所获得的多个检测文本框,得到所述输入图像的文本检测结果:
将所获得的多个检测文本框映射回所述输入图像,也即对所述检测文本框进行与对应的几何参数变换处理相应的反变换,得到对应于所述输入图像的映射文本框;根据所述输入图像上的映射文本框,可以得到输入图像的文本检测结果。
将多个检测文本框映射回输入图像,有可能对于同一位置的文本产生多个重叠的文本框。在一个可能的实施方式中,可以通过非极大值抑值法(Non-Maximum Suppression,NMS)移除重叠的文本框,得到目标文本框,通过所述目标文本框获得输入图像的文本检测结果。
在一些实施例中,所述图像处理方法可以通过文本检测网络实现。
图3示出了本公开至少一个实施例可以应用的一种文本检测网络的网络结构,需要说明的是,图3仅是示例性地示出了一种文本检测网络,实际实施中不局限于此。
如图3所示,文本检测网络可以包括特征提取网络310、几何参数变换网络320和文本检测头网络330。
其中,特征提取网络310用于提取输入图像(样本图像)的特征,生成所述输入图像的原始特征图。其可以是卷积神经网络,例如可以采用已有的VGG、ResNet、DenseNet等等,也可以采用其他的卷积神经网络结构。本公开对特征提取网络的具体结构不做限定,在一种可选的实现方式中,特征提取网络可以包括卷积层、激励层、池化层等网络单元,由上述网络单元按照一定方式堆叠而成。
几何参数变换网络320用于对所述原始特征图进行多种不同的几何参数变换,获得多个变换特征图。
几何参数变换网络320可以包括多个分支,通过多个分支对所述原始特征图进行几何参数变换处理。
在不同分支对应于不同的几何参数变换处理的情况下,每个分支具有不同的预设几何范围,也即,不同的几何参数变换处理对应不同的预设几何范围。如图3所示,每个分支包括一个尺寸变换模块和一个方向变换模块,对原始特征图进行尺寸变换处理以及方向变换处理。在几何参数变换网络包括M个尺寸变换模块和N个方向变换模块的情况下,可以构成M×N个分支,也即可以实现M×N种不同的几何参数变换处理。
本公开对尺寸变换模块的具体结构不做限定,在一种可选的实现方式中,尺寸变换模块可以由卷积层、池化层等网络单元按照一定方式堆叠而成。例如,S1可以是1×1的卷积层,S1/2可以是1×1的卷积层、2×2的池化层(步幅为2)、3×3的卷积池的堆叠。
本公开对方向变换模块的具体结构不做限定,在一种可选的实现方式中,方向变换模块可以由卷积层、旋转层、翻转层等网络单元按照一定方式堆叠而成。例如,O可以是1×1的卷积层,Or可以是1×1的卷积层、旋转层、3×3的卷积池的堆叠,Of可以是1×1的卷积层、翻转层、3×3的卷积池的堆叠,Or+f可以是1×1的卷积层、旋转层、翻转层、3×3的卷积池的堆叠。
文本检测头网络330用于对几何参数变换网络320输出的多个变换特征图分别进行文本检测,获得多个检测文本框。
本公开对文本检测网络的具体结构不做限定,可以利用一个共享的文本检测头对多个变换特征图分别进行文本检测,获得多个检测文本框;也可以利用多个文本检测头,分别对多个变换特征图进行文本检测,相应地获得多个检测文本框。其中,所述多个文本检测头的数目优选与几何参数变换网络320的分支的数目相等。
对于本公开实施例中所采用的文本检测网络,可以通过以下方法对所述森本检测网络进行训练。图4示例性示出了一种文本检测网络的训练方法,如图4所示,该方法包括步骤410~步骤420。
在步骤410中,根据所述多个检测文本框和所述输入图像的真值数据,确定网络损失值。
在文本检测网络的训练过程中,所述输入图像为样本图像,并且在所述样本图像中标注有文本框的真值数据。该真值数据可以包括文本框的四个顶点坐标,例如可以表示为(x1,y1,x2,y2),或者文本框的中心点坐标、高宽、宽度、角度,例如可以表示为(x,y,h,w,θ)。
在对所述样本图像的原始特征图进行多种不同的几何参数变换处理时,所述样本图像中的文本框的真值数据也随着几何参数变换处理而发生相应的变化。而检测文本框是对变换特征图进行检测所得的,因此检测文本框和真值数据相对于原始的样本图像中的文本框都进行了相应的几何参数变换。根据所述多个检测文本框和所述样本图像的真值数据,可以确定网络损失值;基于所述网络损失值,对所述文本检测网络的网络参数进行调整。
通过以上方法,实现了对文本检测网络的优化,使该网络能够获得输入图像中的检测文本框。
在一种可选的实现方式中,所述网络损失值是基于多个几何参数变换处理中的至少一个几何参数变换处理所预测的检测文本框得到的,其中,所述至少一个几何参数变换处理的预设几何范围包含所述输入图像的真值数据。
在一个示例中,从多个检测文本框中选取至少一个检测文本框,其中,所述输入图像的真值数据位于所述至少一个检测文本框对应的几何参数变换处理的预设几何范围内;基于所述至少一个检测文本框和所述输入图像的真值数据,确定网络损失值。也即,所选取的至少一个检测文本框与对应的真值数据被用于确定网络损失值,而未被选取的检测文本框与对应的真值数据不参与确定网络损失值。
对于每个分支而言,在文本框的真值数据在该分支的预设几何范围内的情况下,利用该分支所预测的检测文本框与所述真值数据确定网络损失值;否则,所述检测文本框与所述真值数据不参与网络损失值的计算。
举例来说,如果一个分支的预设几何范围为[10,200]像素,对于输入至该分支的样本图像的原始特征图,在文本框的真值数据落入[10,200]的情况下,利用根据该分支输出的变换特征图预测得到的检测文本框,与该真值数据,确定网络损失值;而在文本框的真值数据在[10,200]之外的情况下,则相应的检测文本框和真值数据不参与网络损失值的计算。
在本公开实施例中,通过选取输入图像的真值数据位于几何参数变换处理的预设几何范围内的至少一个检测文本框,与对应的输入图像的真值数据,确定网络损失值,提高了文本检测网络在根据几何参数变换处理的预设几何范围所确定的几何检测范围内的文本检测能力,提高了文本检测效果。
在一个示例中,在获取所述输入图像的原始特征图之前,对样本图像进行增广,例如可以对输入图像(样本图像)进行多次变换处理,获得多个变换后的样本图像,使得所述多种不同的几何参数变换处理中每个几何参数变换处理对应的几何参数范围内包括至少一个变换后的样本图像中的文本框大小,从而使文本检测网络的每个分支得到均衡的训练,提高文本检测能力。
以图3所示的几何参数变换处理为例,该原始特征图首先进行尺寸变换(表示为),经尺寸变换后再进行方向变换(表示为),图3示出了八个分支S+O、S+Or、S+Of、S+Or+f、S1/2+O、S1/2+Or、S1/2+Of、S1/2+Or+f分别输出的变换特征图。由图3可见,在各个分支中,原始特征图分别进行了不同的尺度和方向上的变换。
由于各个分支具有不同的预测几何范围,增广后的样本图像中标注的文本框的真值数据可能落到不同的预测几何范围中,从而使得根据对应的几何参数变换处理得的检测文本框和相应的真值数据能够用于网络损失值的计算,参与网络参数的调整。
在本公开实施例中,通过对样本图像进行增广,保使每个每支都得到有效的训练。所述文本检测网络经训练后,能够将输入图像中几何分布差异较大的文本框归一化到设定参数范围内,提高了文本测检效果。
表2示出对ICDAR(The International Conference on the Integration ofDigital Archival Resource,国际文档分析和识别会议)2015和ICDAR 2017MLT(Multi-lingual scene text detection,多语言场景文字检测和文种分类)的数据集应用现有模型和应用本公开实施例的文本检测网络所进行文本检测的效果比较。在测试过程中,分别将ICDAR 2015和ICDAR 2017MLT数据集的输入图像的长边调整至2240和3200,并且只执行一次前向测试(one-forward testing)。在表2中,FPS表示每秒传输帧数。
表2
由表2可见,对ICDAR 2015和ICDAR 2017MLT的数据集应用本公开实施例的图像处理方法,相较于大部分的现有技术,在召回率、精度和F分数上都得到了提升。
以下给出在本公开实施例的图像处理方法在实际应用中的示例。如图5A所示,其中方框510(对应于第一文本框,大小为:20*100)中的文本,与方框520(对应于第二文本框,大小为:10*50)中的文本,在尺度上具有较大差异,也即该图像中的文本框几何分布差异较大。采用现有的PSENet(Progressive Scale Expansion Network,渐进式尺度扩展网络)进行文本识别的结果如图5A所示,其并不能完整地识别方框510中的文本(其中阴影覆盖部分为所检测出的文本)。根据本公开实施例的图像处理方法,对输入图像的原始特征图进行多个分支的不同的几何参数变换处理,例如,第一分支输出的第一变换特征图保持原始特征图的尺度不变、方向不变,第二分支输出的第二变换特征图相较于原始特征图尺寸变换为一半、方向不变。那么,文本头检测网络可以根据第一变换特征图检测第二文本框,根据第二变换特征图检测第一文本框,而第二变换特征图经过几何参数变换处理,其中的第一文本框尺寸也变为一半,即为10*50。
可见,输入图像中第一文本框和第二文本框的几何分布差异被归一化到了一定的几何检测范围内,从而使文本检测头网络可以实现更好的检测和效果。
图5B示出了根据本公开实施例方法进行文本检测的结果。如图5B所示,根据本公开实施例方法,对于方框510和方框520中的文本,都可以实现较好的检测结果(其中阴影覆盖部分为所检测出的文本)。
本领域技术人员应当理解,由于图5A和图5B中的文本仅用于示意性说明,因此文本内容本身的清晰度并不影响对技术方案的理解。
图6提供了一种图像处理装置,如图6所述,该装置可以包括:
获取单元601,用于获取输入图像的原始特征图;
几何参数变换单元602,用于对所述原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图,所述多个不同的几何参数变换处理包括至少两个不同的尺寸变换处理和/或至少两个不同的方向变换处理;
文本检测单元603,用于对所述多个变换特征图分别进行文本检测,获得多个检测文本框;
目标确定单元604,用于基于所述多个检测文本框,得到所述输入图像的文本检测结果。
在另一个实施例中,所述多个检测文本框中对应于不同的几何参数变换处理的检测文本框具有不同的大小和/或方向。
在另一个实施例中,所述多个检测文本框中对应于每个几何参数变换处理的检测文本框的大小和/或方向位于所述每个几何参数变换处理的预设数值范围内,其中,每个几何参数变换处理的预设数值范围是通过对所述每个几何参数变换处理的预设几何范围进行所述每个几何参数变换处理得到的,不同的几何参数变换处理对应不同的预设几何范围。
在另一个实施例中,几何参数变换单元602具体用于:通过多个不同分支对所述原始特征图进行几何参数变换处理,获得多个变换特征图。
在另一个实施例中,所述方向变换处理包括以下中的至少一种:旋转、翻转、旋转加翻转、保持方向不变。在另一个实施例中,目标确定单元604具体用于:将所述多个检测文本框映射回所述输入图像,得到多个映射文本框;基于所述多个映射文本框,得到所述输入图像的文本检测结果。在另一个实施例中,所述装置还包括文本检测网络训练单元,用于:根据所述多个检测文本框和所述输入图像的真值数据,确定网络损失值;基于所述网络损失值,对所述文本检测网络的网络参数进行调整。
在另一个实施例中,所述网络损失值是基于所述多个几何参数变换处理中的至少一个几何参数变换处理所预测的检测文本框得到的,其中,所述至少一个几何参数变换处理的预设几何范围包含所述输入图像的真值数据。在另一个实施例中,文本检测网络训练单元604在用于根据所述多个检测文本框和所述输入图像的真值数据,确定网络损失值时,具体用于:从所述多个检测文本框中选取至少一个检测文本框,其中,所述输入图像的真值数据位于所述至少一个检测文本框对应的几何参数变换处理的预设几何范围内;基于所述至少一个检测文本框和所述输入图像的真值数据,确定网络损失值。
在另一个实施例中,所述装置还包括样本变换单元,用于在所述获取所述输入图像的原始特征图之前,对样本图像进行多次变换处理,获得多个变换后的样本图像,使得所述多个不同的几何参数变换处理中每个几何参数变换处理对应的几何参数范围内包括至少一个变换后的样本图像中的文本框大小。
图7为本公开至少一个实施例提供的图像处理设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本说明书任一实施例所述的图像处理方法。
本说明书至少一个实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本说明书任一实施例所述的图像处理方法。
本说明书至少一个实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本说明书任一所述的定位方法。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例还提供一种计算机可读存储介质,该存储介质上可以存储有计算机程序,所述程序被处理器执行时实现本说明书任一实施例描述的驾驶员注视区域的检测方法的步骤,和/或,实现本说明书任一实施例描述的驾驶员注视区域的神经网络的训练方法的步骤。其中,所述的“和/或”表示至少具有两者中的其中一个,例如,“A和/或B”包括三种方案:A、B、以及“A和B”。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和***通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (10)

1.一种图像处理方法,其特征在于,所述方法包括:
获取输入图像的原始特征图;
对所述原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图,所述多个不同的几何参数变换处理包括至少两个不同的尺寸变换处理和/或至少两个不同的方向变换处理;
对所述多个变换特征图分别进行文本检测,获得多个检测文本框;
基于所述多个检测文本框,得到所述输入图像的文本检测结果。
2.根据权利要求1所述的方法,其特征在于,所述多个检测文本框中对应于不同的几何参数变换处理的检测文本框具有不同的大小和/或方向。
3.根据权利要求1或2所述的方法,其特征在于,所述多个检测文本框中对应于每个几何参数变换处理的检测文本框的大小和/或方向位于所述每个几何参数变换处理的预设数值范围内,其中,每个几何参数变换处理的预设数值范围是通过对所述每个几何参数变换处理的预设几何范围进行所述每个几何参数变换处理得到的,不同的几何参数变换处理对应不同的预设几何范围。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述对所述原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图,包括:
通过多个不同分支对所述原始特征图进行几何参数变换处理,获得多个变换特征图。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方向变换处理包括以下中的至少一种:旋转、翻转、旋转加翻转、保持方向不变。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述基于所述多个检测文本框,得到目标文本框,包括:
将所述多个检测文本框映射回所述输入图像,得到多个映射文本框;
基于所述多个映射文本框,得到所述输入图像的文本检测结果。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法通过文本检测网络实现,还包括:
根据所述多个检测文本框和所述输入图像的真值数据,确定网络损失值;
基于所述网络损失值,对所述文本检测网络的网络参数进行调整。
8.一种图像处理装置,其特征在于,所述装置包括:
获取单元,用于获取输入图像的原始特征图;
几何参数变换单元,用于对所述原始特征图进行多个不同的几何参数变换处理,获得多个变换特征图,所述多个不同的几何参数变换处理包括至少两个不同的尺寸变换处理和/或至少两个不同的方向变换处理;
文本检测单元,用于对所述多个变换特征图分别进行文本检测,获得多个检测文本框;
目标确定单元,用于基于所述多个检测文本框,得到所述输入图像的文本检测结果。
9.一种图像处理设备,其特征在于,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一所述的方法。
CN201910724473.9A 2019-08-07 2019-08-07 图像处理方法、装置、设备及计算机可读存储介质 Pending CN110458164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910724473.9A CN110458164A (zh) 2019-08-07 2019-08-07 图像处理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910724473.9A CN110458164A (zh) 2019-08-07 2019-08-07 图像处理方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110458164A true CN110458164A (zh) 2019-11-15

Family

ID=68485169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910724473.9A Pending CN110458164A (zh) 2019-08-07 2019-08-07 图像处理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110458164A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968028A (zh) * 2020-08-14 2020-11-20 北京字节跳动网络技术有限公司 图像生成方法、装置、设备和计算机可读介质
CN113033248A (zh) * 2019-12-09 2021-06-25 Oppo广东移动通信有限公司 一种图像识别方法及装置、计算机可读存储介质
CN113515978A (zh) * 2020-04-16 2021-10-19 阿里巴巴集团控股有限公司 数据处理方法、设备及存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366631A (zh) * 2012-04-09 2013-10-23 北京四维图新科技股份有限公司 一种制作室内地图的方法和制作室内地图的装置
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108229303A (zh) * 2017-11-14 2018-06-29 北京市商汤科技开发有限公司 检测识别和检测识别网络的训练方法及装置、设备、介质
CN108446698A (zh) * 2018-03-15 2018-08-24 腾讯大地通途(北京)科技有限公司 在图像中检测文本的方法、装置、介质及电子设备
CN108460649A (zh) * 2017-02-22 2018-08-28 阿里巴巴集团控股有限公司 一种图像识别方法及装置
CN108564084A (zh) * 2018-05-08 2018-09-21 北京市商汤科技开发有限公司 文字检测方法、装置、终端及存储介质
CN108734052A (zh) * 2017-04-13 2018-11-02 北京旷视科技有限公司 文字检测方法、装置和***
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109325494A (zh) * 2018-08-27 2019-02-12 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
CN109361934A (zh) * 2018-11-30 2019-02-19 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN109492638A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 文本检测方法、装置及电子设备
CN109635718A (zh) * 2018-12-10 2019-04-16 科大讯飞股份有限公司 一种文本区域划分方法、装置、设备及存储介质
CN109711352A (zh) * 2018-12-28 2019-05-03 中国地质大学(武汉) 基于几何卷积神经网络的车辆前方道路环境透视感知方法
CN109800749A (zh) * 2019-01-17 2019-05-24 湖南师范大学 一种文字识别方法及装置
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子***
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110033000A (zh) * 2019-03-21 2019-07-19 华中科技大学 一种票据图像的文本检测与识别方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366631A (zh) * 2012-04-09 2013-10-23 北京四维图新科技股份有限公司 一种制作室内地图的方法和制作室内地图的装置
CN108460649A (zh) * 2017-02-22 2018-08-28 阿里巴巴集团控股有限公司 一种图像识别方法及装置
CN108734052A (zh) * 2017-04-13 2018-11-02 北京旷视科技有限公司 文字检测方法、装置和***
CN108229303A (zh) * 2017-11-14 2018-06-29 北京市商汤科技开发有限公司 检测识别和检测识别网络的训练方法及装置、设备、介质
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108446698A (zh) * 2018-03-15 2018-08-24 腾讯大地通途(北京)科技有限公司 在图像中检测文本的方法、装置、介质及电子设备
CN108564084A (zh) * 2018-05-08 2018-09-21 北京市商汤科技开发有限公司 文字检测方法、装置、终端及存储介质
CN109325494A (zh) * 2018-08-27 2019-02-12 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN109492638A (zh) * 2018-11-07 2019-03-19 北京旷视科技有限公司 文本检测方法、装置及电子设备
CN109361934A (zh) * 2018-11-30 2019-02-19 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN109635718A (zh) * 2018-12-10 2019-04-16 科大讯飞股份有限公司 一种文本区域划分方法、装置、设备及存储介质
CN109711352A (zh) * 2018-12-28 2019-05-03 中国地质大学(武汉) 基于几何卷积神经网络的车辆前方道路环境透视感知方法
CN109800749A (zh) * 2019-01-17 2019-05-24 湖南师范大学 一种文字识别方法及装置
CN109829437A (zh) * 2019-02-01 2019-05-31 北京旷视科技有限公司 图像处理方法、文本识别方法、装置和电子***
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110033000A (zh) * 2019-03-21 2019-07-19 华中科技大学 一种票据图像的文本检测与识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张伟等: "基于不变矩特征匹配的目标定位方法的实现", 《光学技术》 *
张伟等: "基于不变矩特征匹配的目标定位方法的实现", 《光学技术》, no. 03, 20 May 2005 (2005-05-20) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033248A (zh) * 2019-12-09 2021-06-25 Oppo广东移动通信有限公司 一种图像识别方法及装置、计算机可读存储介质
CN113515978A (zh) * 2020-04-16 2021-10-19 阿里巴巴集团控股有限公司 数据处理方法、设备及存储介质
CN113515978B (zh) * 2020-04-16 2022-07-05 阿里巴巴集团控股有限公司 数据处理方法、设备及存储介质
CN111968028A (zh) * 2020-08-14 2020-11-20 北京字节跳动网络技术有限公司 图像生成方法、装置、设备和计算机可读介质

Similar Documents

Publication Publication Date Title
Coors et al. Spherenet: Learning spherical representations for detection and classification in omnidirectional images
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
CN110458164A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN107105310B (zh) 一种视频直播中人物形象替换方法、装置和一种录播***
CN108604369B (zh) 一种去除图像噪声的方法、装置、设备及卷积神经网络
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN102834843B (zh) 用于面部检测的方法和装置
CN109618090A (zh) 对通过使用广角透镜捕获的图像的图像失真校正的方法和***
CN110132274A (zh) 一种室内定位方法、装置、计算机设备及存储介质
US8803880B2 (en) Image-based lighting simulation for objects
CN112771578B (zh) 使用细分缩放和深度上缩放的图像生成
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN109472757B (zh) 一种基于生成对抗神经网络的图像去台标方法
CN111476835B (zh) 多视角图像一致性的无监督深度预测方法、***、装置
CN111275784A (zh) 生成图像的方法和装置
WO2022205755A1 (zh) 纹理生成方法、装置、设备及存储介质
CN110705566A (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
US20220036067A1 (en) Method, apparatus and system for identifying target objects
CN116229319A (zh) 多尺度特征融合课堂行为检测方法与***
CN113822951A (zh) 图像处理方法、装置、电子设备及存储介质
CN108259764A (zh) 摄像机、应用于摄像机的图像处理方法及装置
CN116228962A (zh) 大场景神经视图合成
CN112308102B (zh) 图像相似度计算方法、计算装置及存储介质
CN110414494B (zh) 带有aspp反卷积网络的sar图像分类方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115