CN113963008A - 一种高分辨率图像的小目标语义分割方法及*** - Google Patents

一种高分辨率图像的小目标语义分割方法及*** Download PDF

Info

Publication number
CN113963008A
CN113963008A CN202111425780.0A CN202111425780A CN113963008A CN 113963008 A CN113963008 A CN 113963008A CN 202111425780 A CN202111425780 A CN 202111425780A CN 113963008 A CN113963008 A CN 113963008A
Authority
CN
China
Prior art keywords
network
data set
sample data
training sample
thundernet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111425780.0A
Other languages
English (en)
Inventor
田桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong OPT Machine Vision Co Ltd
Original Assignee
Guangdong OPT Machine Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong OPT Machine Vision Co Ltd filed Critical Guangdong OPT Machine Vision Co Ltd
Priority to CN202111425780.0A priority Critical patent/CN113963008A/zh
Publication of CN113963008A publication Critical patent/CN113963008A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种高分辨率图像的小目标语义分割方法及***,该方法包括:获取待分割的高分辨率图像;采用训练好的ThunderNet网络对所述高分辨率图像的小目标进行粗定位,确定目标区域;采用训练好的DeepLabv3+网络对所述目标区域进行像素级分类,得到像素级分类结果。本发明提供的一种高分辨率图像的小目标语义分割方法及***,通过先采用训练好的ThunderNet网络对高分辨率图像的小目标进行粗定位,然后再采用训练好的DeepLabv3+网络对进行像素级分类,可实现对高分辨率图像中的小目标的语义分割,并提高分割的准确度和效率,具备较高的鲁棒性和抗干扰性。

Description

一种高分辨率图像的小目标语义分割方法及***
技术领域
本发明涉及图像处理技术领域,尤其涉及一种高分辨率图像的小目标语义分割方法及***。
背景技术
近年来,随着计算机信息技术的发展,深度学习被大量应用于计算机视觉中,比如应用于目标检测任务中,使得目标检测完成了从手动提取人工设计的特征到应用卷积神经网络让计算机自动提取特征的转变,极大的提高了速度和准确度,从而使得基于深度学习的计算机视觉成为图像处理领域的主流。
在图像处理领域中,在一些应用场景下,比如检测图像中的缺陷等小目标时,需要先对图像中的一些目标内容进行语义分割,图像的语义分割是对图像在像素级别上的分类,通过语义分割模型将图像中的属于同类的目标内容分为一类,目标内容可以是特定的人物、物体或文字等,将目标内容在图像确定像素级别的边界并进行分割。例如图像中的存在一车辆,判断属于该车辆的像素并将全部属于该车辆的像素分割出来,确定该车辆在像素级别的边界分割框。
目前,现有的语义分割技术均存在一些不同程度的不足,比如采用FCN网络的语义分割技术的感受野太小,无法获取全局信息,因此该网络的分割结果不够精细;采用U-net网络的语义分割技术没有全连接层,只有每个卷积层的有效部分,很难通过弹性形变对刚体数据进行增强;采用DeepLab网络的语义分割技术卷积层较多,造成训练时间较长。
因此,很有必要对现有技术进行改进。
以上信息作为背景信息给出只是为了辅助理解本公开,并没有确定或者承认任意上述内容是否可用作相对于本公开的现有技术。
发明内容
本发明提供一种高分辨率图像的小目标语义分割方法及***,以解决现有技术的不足。
为实现上述目的,本发明提供以下的技术方案:
第一方面,本发明实施例提供一种高分辨率图像的小目标语义分割方法,所述方法包括:
获取待分割的高分辨率图像;
采用训练好的ThunderNet网络对所述高分辨率图像的小目标进行粗定位,确定目标区域;
采用训练好的DeepLabv3+网络对所述目标区域进行像素级分类,得到像素级分类结果。
进一步地,所述高分辨率图像的小目标语义分割方法中,在所述获取待分割的高分辨率图像的步骤之前,所述方法还包括:
构建所述ThunderNet网络和所述DeepLabv3+网络;
获取训练样本数据集;
对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集;
将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位;
将所述训练样本数据集中的粗定位区域进行裁剪,得到包含小目标的区域图像;
将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
进一步地,所述高分辨率图像的小目标语义分割方法中,所述对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集的步骤包括:
对所述训练样本数据集中的图像进行灰度化、二值化、取反和连通域标记操作;
计算每个所述连通域的质心坐标;
将所述质心坐标的x坐标随机在x∈[0,width]中取一个数,其中width代表图像的宽,以及将所述质心坐标的y坐标随机在y∈[0,height]中取一个数,其中height代表图像的高;
将所述质心坐标在水平方向上左右(加减)平移量tr_x,tr_x的取值范围为[0,width],并在该范围内随机取一个值,垂直方向平移上左右(加减)平移量tr_y,tr_y的取值范围为[0,height],并在该范围内随机取一个值,增加判断若平移后的坐标只要有一个超出该图像的范围,则重新取一个随机值;
以平移后的所述质心坐标进行裁剪,再缩放到统一大小。
进一步地,所述高分辨率图像的小目标语义分割方法中,所述将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位的步骤包括:
对扩充后的所述训练样本数据集中的小目标进行标记:
将标记好的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述小目标进行粗定位。
进一步地,所述高分辨率图像的小目标语义分割方法中,所述将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类的步骤包括:
将所述区域图像输入到所述DeepLabv3+网络中;
通过所述DeepLabv3+网络中的浅层卷积层提取所述区域图像的低级特征,并通过使用编码器和解码器迭代出高级特征;
将所述低级特征和高级特征进行融合,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
第二方面,本发明实施例提供一种高分辨率图像的小目标语义分割***,所述***包括:
图像获取模块,用于获取待分割的高分辨率图像;
粗定位模块,用于采用训练好的ThunderNet网络对所述高分辨率图像的小目标进行粗定位,确定目标区域;
像素级分类模块,用于采用训练好的DeepLabv3+网络对所述目标区域进行像素级分类,得到像素级分类结果。
进一步地,所述高分辨率图像的小目标语义分割***还包括模型训练模块,用于:
在所述获取待分割的高分辨率图像的步骤之前,构建所述ThunderNet网络和所述DeepLabv3+网络;
获取训练样本数据集;
对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集;
将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位;
将所述训练样本数据集中的粗定位区域进行裁剪,得到包含小目标的区域图像;
将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
进一步地,所述高分辨率图像的小目标语义分割***中,所述模型训练模块执行的所述对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集的步骤包括:
对所述训练样本数据集中的图像进行灰度化、二值化、取反和连通域标记操作;
计算每个所述连通域的质心坐标;
将所述质心坐标的x坐标随机在x∈[0,width]中取一个数,其中width代表图像的宽,以及将所述质心坐标的y坐标随机在y∈[0,height]中取一个数,其中height代表图像的高;
将所述质心坐标在水平方向上左右(加减)平移量tr_x,tr_x的取值范围为[0,width],并在该范围内随机取一个值,垂直方向平移上左右(加减)平移量tr_y,tr_y的取值范围为[0,height],并在该范围内随机取一个值,增加判断若平移后的坐标只要有一个超出该图像的范围,则重新取一个随机值;
以平移后的所述质心坐标进行裁剪,再缩放到统一大小。
进一步地,所述高分辨率图像的小目标语义分割***中,所述模型训练模块执行的所述将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位的步骤包括:
对扩充后的所述训练样本数据集中的小目标进行标记:
将标记好的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述小目标进行粗定位。
进一步地,所述高分辨率图像的小目标语义分割***中,所述模型训练模块执行的所述将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类的步骤包括:
将所述区域图像输入到所述DeepLabv3+网络中;
通过所述DeepLabv3+网络中的浅层卷积层提取所述区域图像的低级特征,并通过使用编码器和解码器迭代出高级特征;
将所述低级特征和高级特征进行融合,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例提供的一种高分辨率图像的小目标语义分割方法及***,通过先采用训练好的ThunderNet网络对高分辨率图像的小目标进行粗定位,然后再采用训练好的DeepLabv3+网络对进行像素级分类,可实现对高分辨率图像中的小目标的语义分割,并提高分割的准确度和效率,具备较高的鲁棒性和抗干扰性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例一提供的一种高分辨率图像的小目标语义分割方法的流程示意图;
图2是本发明实施例一中实验结果示意图;
图3是本发明实施例一中实验结果示意图;
图4是本发明实施例二提供的一种高分辨率图像的小目标语义分割方***的功能模块示意图。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中设置的组件。当一个组件被认为是“设置在”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中设置的组件。
此外,术语“长”“短”“内”“外”等指示方位或位置关系为基于附图所展示的方位或者位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或原件必须具有此特定的方位、以特定的方位构造进行操作,以此不能理解为本发明的限制。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例一
有鉴于现有技术存在的缺陷,本发明人基于从事该行业多年丰富的实务经验及专业知识,并配合学理的运用,积极加以研究创新,以期创设一种切实可行的语义分割技术,使其更具有实用性。在经过不断的研究、设计并反复试作及改进后,终于创设出确具实用价值的本发明。
请参阅图1,图1是本发明实施例公开的一种高分辨率图像的小目标语义分割方法的流程示意图,该方法适用于检测高分辨率图像中的缺陷的场景,该方法由高分辨率图像的小目标语义分割***来执行,该***可以由软件和/或硬件实现。如图1所示,该高分辨率图像的小目标语义分割方法可以包括以下步骤:
S101、获取待分割的高分辨率图像。
S102、采用训练好的ThunderNet网络对所述高分辨率图像的小目标进行粗定位,确定目标区域。
需要说明的是,本实施例选择采用所述ThunderNet网络是因为所述ThunderNet网络能够对小目标精准定位。
本步骤在粗定位时会在所述高分辨率图像上得到一格矩形框,该矩形框会框柱小目标,所述矩形框即为目标区域。
S103、采用训练好的DeepLabv3+网络对所述目标区域进行像素级分类,得到像素级分类结果。
需要说明的是,本实施例选择采用所述DeepLabv3+网络是因为所述DeepLabv3+网络相对于其它网络,比如U-net网络、SegNet网络、PSPNet网络等,能够提取较好的特征。
优选地,在本实施例中,在所述步骤S101之前,所述方法还可以进一步包括以下步骤:
构建所述ThunderNet网络和所述DeepLabv3+网络;
获取训练样本数据集;
对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集;
将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位;
将所述训练样本数据集中的粗定位区域进行裁剪,得到包含小目标的区域图像;
将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
需要说明的是,在对所述训练样本数据集中的粗定位区域进行裁剪时,通过先验知识一般裁剪的大小为512*512,虽然可根据需要调整该尺寸,但通过实验证明,本实施例以该尺寸的效果为最佳。
所述训练样本数据集为带有缺陷的图像的集合,该些带有缺陷的图像是使用智能相机在工业上采集得到的。由于在实际的生产过程中,OK的图像比较多,NG的图像比较少,也即带有缺陷的图像比较难以采集,因此只能对训练样本数据集中采集到的少量带有缺陷的图像进行扩充,具体可采用随机裁剪、质心裁剪、旋转和翻折等方法原理进行数据增强。
本实施例以其中的质心裁剪原理为例进行介绍,即优选地,在本实施例中,所述对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集的步骤还可以进一步细化为以下内容:
对所述训练样本数据集中的图像进行灰度化、二值化、取反和连通域标记操作;
计算每个所述连通域的质心坐标;
将所述质心坐标的x坐标随机在x∈[0,width]中取一个数,其中width代表图像的宽,以及将所述质心坐标的y坐标随机在y∈[0,height]中取一个数,其中height代表图像的高;
将所述质心坐标在水平方向上左右(加减)平移量tr_x,tr_x的取值范围为[0,width],并在该范围内随机取一个值,垂直方向平移上左右(加减)平移量tr_y,tr_y的取值范围为[0,height],并在该范围内随机取一个值,增加判断若平移后的坐标只要有一个超出该图像的范围,则重新取一个随机值;
以平移后的所述质心坐标进行裁剪,再缩放到统一大小。
优选地,在本实施例中,所述将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位的步骤还可以进一步细化为以下内容:
对扩充后的所述训练样本数据集中的小目标进行标记:
将标记好的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述小目标进行粗定位。
需要说明的是,本实施例需要对所述训练样本数据集中的每个图像进行标记缺陷标记,以训练所述ThunderNet网络可以做到对小目标所在区域的粗定位。
优选地,在本实施例中,所述将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类的步骤还可以进一步细化为以下内容:
将所述区域图像输入到所述DeepLabv3+网络中;
通过所述DeepLabv3+网络中的浅层卷积层提取所述区域图像的低级特征,并通过使用编码器和解码器迭代出高级特征;
将所述低级特征和高级特征进行融合,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
需要说明的是,低级特征和高级特征分别是指所述区域图像的底层信息和高层信息,通过所述DeepLabv3+网络中的浅层卷积层先提取出低级特征,然后通过卷积网络的加深不断的迭代出高级特征。
本实施例使用所述DeepLabv3+网络进行预测,将高分辨率图像先按照训练的尺寸裁剪成N个小图像,裁剪图像不足的尺寸填充0,为了提高预测速度,同时喂入一个批量数据,然后将预测结果拼接起来。
需要说明的是,由于高分辨率图像里面的缺陷目标的像素比较少,卷积神经网络通过下采样操作会造成特征图分辨率变小,导致预测精度降低,边界信息丢失,而且大分辨率图像非常耗时,为了解决这些问题,本实施例选择使用DeepLabv3+网络,该网络内部直接使用双线性插值操作,不用参与训练,另外一个创新点则是采用编码器和解码器,融合了图像的高层和底层的信息,使特征包含了更多丰富的有效信息,这就达到了保留小目标的信息,使网络更好的学习小目标的特征来进行缺陷瑕疵的检测。
在网络训练过程中,每一次的卷积操作到会导致数据的分布改变,进一步会改变学习率,如果不能选择合适的学习率,很容易造成模型过拟合或者欠拟合,这样就无法保证梯度的有效下降,采用批量归一化算法可以规避这个问题。假设x的值表示一个小批处理B={x1,x2,...,xm},归一化样本数据可以表示为Y={y1,y2,...,ym},其中每个输入xi对应于每个输出yi,即yi←BN(xi)。在
这个网络的训练阶段,我们可以得到很多参数。批量归一化算法如下所示:
输入一个小批量:B={x1,x2,...,xm};
最小批量均值:
Figure BDA0003378360650000111
最小批量方差:
Figure BDA0003378360650000112
归一化的值:
Figure BDA0003378360650000113
输出值:yi←γξi+β≡BN(xi);
然后在训练阶段通过反向传播算法获得归一化层参数的梯度。设L为损失梯度函数,用链式法则描述归一化层参数的梯度下降:
Figure BDA0003378360650000114
Figure BDA0003378360650000115
Figure BDA0003378360650000116
最后,根据以下公式确定两个学习参数:
Figure BDA0003378360650000117
Figure BDA0003378360650000118
由于卷积神经网络使用GPU并行计算,将数据进行小批量的处理效果是比采用所有维度的数据要好,故对小批量的数据进行数据归一化,保持相同的数据分布。在该算法中,利用小批数据的均值和方差来估计各维度的均值和方差,并通过更新全局方差和均值来将各维度的均值和方差部分联系起来,从而简化了归一化计算过程。
卷积神经网络使用不同的卷积核通过卷积操作得到不同的特征图,这样网络中就会有成千上百的参数,参数过多。为此,一般采用池化的方法降低该参数的维度,目前常用的池化方法有最小、最大、均值和中值等池化方法。最小值池化和最大值池化总是选择最小或者最大像素值做平均操作,这样无法建立一个较好的模型,通过网络的反向传播来更新参数,这样特征的丢失是不可避免,就会影响卷积神经网络的鲁棒性。本实施例使用随机最大池化的方法可以保留特征信息,只要有一个神经元被打开,响应将由样本值S产生,反之,S就不会响应,可以使用下面的公式表示:
p(s=1|k)=∑i,j∈Cexp((Fl*k)ij/(∑exp((Fl*k)ij+bl))。
为了证明方案的可行性,本实施例基于上述提及的算法原理进行了实验,实验的具体结果显示如图2和图3所示。图2和图3分别是两种工件,展示的是一个预测的过程,工件1中的Input Image(输入图像)的图像大小是3000*2000,工件2中的Input Image的图像大小是2800*2500,使用训练好的ThunderNet网络对高分辨率图像的小目标进行一个粗定位,然后再使用训练好的DeepLabv3+网络进行像素级分类,从实验的结果来看,能够精准的找到小目标的位置并把它分割出来。
下表1是一些参数说明和试验数据记录;
表1
Figure BDA0003378360650000121
Figure BDA0003378360650000131
从该表中得知图像大小为3000*2000和2800*2500的图像的训练准确率达到了95%左右,评估准确率达到了92%左右,该结果达到了工业上的缺陷检测需求,该算法的设计在工业上的应用具有一定价值和意义。
本发明实施例提供的一种高分辨率图像的小目标语义分割方法,通过先采用训练好的ThunderNet网络对高分辨率图像的小目标进行粗定位,然后再采用训练好的DeepLabv3+网络对进行像素级分类,可实现对高分辨率图像中的小目标的语义分割,并提高分割的准确度和效率,具备较高的鲁棒性和抗干扰性。
实施例二
请参阅附图4,为本发明实施例二提供的一种高分辨率图像的小目标语义分割***的功能模块示意图,该***适用于执行本发明实施例提供的高分辨率图像的小目标语义分割方法。该***具体包含如下模块:
图像获取模块201,用于获取待分割的高分辨率图像;
粗定位模块202,用于采用训练好的ThunderNet网络对所述高分辨率图像的小目标进行粗定位,确定目标区域;
像素级分类模块203,用于采用训练好的DeepLabv3+网络对所述目标区域进行像素级分类,得到像素级分类结果。
优选地,所述***还包括模型训练模块,用于:
在所述获取待分割的高分辨率图像的步骤之前,构建所述ThunderNet网络和所述DeepLabv3+网络;
获取训练样本数据集;
对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集;
将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位;
将所述训练样本数据集中的粗定位区域进行裁剪,得到包含小目标的区域图像;
将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
优选地,所述模型训练模块执行的所述对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集的步骤包括:
对所述训练样本数据集中的图像进行灰度化、二值化、取反和连通域标记操作;
计算每个所述连通域的质心坐标;
将所述质心坐标的x坐标随机在x∈[0,width]中取一个数,其中width代表图像的宽,以及将所述质心坐标的y坐标随机在y∈[0,height]中取一个数,其中height代表图像的高;
将所述质心坐标在水平方向上左右(加减)平移量tr_x,tr_x的取值范围为[0,width],并在该范围内随机取一个值,垂直方向平移上左右(加减)平移量tr_y,tr_y的取值范围为[0,height],并在该范围内随机取一个值,增加判断若平移后的坐标只要有一个超出该图像的范围,则重新取一个随机值;
以平移后的所述质心坐标进行裁剪,再缩放到统一大小。
优选地,所述模型训练模块执行的所述将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位的步骤包括:
对扩充后的所述训练样本数据集中的小目标进行标记:
将标记好的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述小目标进行粗定位。
优选地,所述模型训练模块执行的所述将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类的步骤包括:
将所述区域图像输入到所述DeepLabv3+网络中;
通过所述DeepLabv3+网络中的浅层卷积层提取所述区域图像的低级特征,并通过使用编码器和解码器迭代出高级特征;
将所述低级特征和高级特征进行融合,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
本发明实施例提供的一种高分辨率图像的小目标语义分割***,通过先采用训练好的ThunderNet网络对高分辨率图像的小目标进行粗定位,然后再采用训练好的DeepLabv3+网络对进行像素级分类,可实现对高分辨率图像中的小目标的语义分割,并提高分割的准确度和效率,具备较高的鲁棒性和抗干扰性。
上述***可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
至此,以说明和描述的目的提供上述实施例的描述。不意指穷举或者限制本公开。特定的实施例的单独元件或者特征通常不受到特定的实施例的限制,但是在适用时,即使没有具体地示出或者描述,其可以互换和用于选定的实施例。在许多方面,相同的元件或者特征也可以改变。这种变化不被认为是偏离本公开,并且所有的这种修改意指为包括在本公开的范围内。
提供示例实施例,从而本公开将变得透彻,并且将会完全地将该范围传达至本领域内技术人员。为了透彻理解本公开的实施例,阐明了众多细节,诸如特定零件、装置和方法的示例。显然,对于本领域内技术人员,不需要使用特定的细节,示例实施例可以以许多不同的形式实施,而且两者都不应当解释为限制本公开的范围。在某些示例实施例中,不对公知的工序、公知的装置结构和公知的技术进行详细地描述。
在此,仅为了描述特定的示例实施例的目的使用专业词汇,并且不是意指为限制的目的。除非上下文清楚地作出相反的表示,在此使用的单数形式“一个”和“该”可以意指为也包括复数形式。术语“包括”和“具有”是包括在内的意思,并且因此指定存在所声明的特征、整体、步骤、操作、元件和/或组件,但是不排除存在或额外地具有一个或以上的其他特征、整体、步骤、操作、元件、组件和/或其组合。除非明确地指示了执行的次序,在此描述的该方法步骤、处理和操作不解释为一定需要按照所论述和示出的特定的次序执行。还应当理解的是,可以采用附加的或者可选择的步骤。
当元件或者层称为是“在……上”、“与……接合”、“连接到”或者“联接到”另一个元件或层,其可以是直接在另一个元件或者层上、与另一个元件或层接合、连接到或者联接到另一个元件或层,也可以存在介于其间的元件或者层。与此相反,当元件或层称为是“直接在……上”、“与……直接接合”、“直接连接到”或者“直接联接到”另一个元件或层,则可能不存在介于其间的元件或者层。其他用于描述元件关系的词应当以类似的方式解释(例如,“在……之间”和“直接在……之间”、“相邻”和“直接相邻”等)。在此使用的术语“和/或”包括该相关联的所罗列的项目的一个或以上的任一和所有的组合。虽然此处可能使用了术语第一、第二、第三等以描述各种的元件、组件、区域、层和/或部分,这些元件、组件、区域、层和/或部分不受到这些术语的限制。这些术语可以只用于将一个元件、组件、区域或部分与另一个元件、组件、区域或部分区分。除非由上下文清楚地表示,在此使用诸如术语“第一”、“第二”及其他数值的术语不意味序列或者次序。因此,在下方论述的第一元件、组件、区域、层或者部分可以采用第二元件、组件、区域、层或者部分的术语而不脱离该示例实施例的教导。
空间的相对术语,诸如“内”、“外”、“在下面”、“在……的下方”、“下部”、“上方”、“上部”等,在此可出于便于描述的目的使用,以描述如图中所示的一个元件或者特征和另外一个或多个元件或者特征之间的关系。空间的相对术语可以意指包含除该图描绘的取向之外该装置的不同的取向。例如如果翻转该图中的装置,则描述为“在其他元件或者特征的下方”或者“在元件或者特征的下面”的元件将取向为“在其他元件或者特征的上方”。因此,示例术语“在……的下方”可以包含朝上和朝下的两种取向。该装置可以以其他方式取向(旋转90度或者其他取向)并且以此处的空间的相对描述解释。

Claims (10)

1.一种高分辨率图像的小目标语义分割方法,其特征在于,所述方法包括:
获取待分割的高分辨率图像;
采用训练好的ThunderNet网络对所述高分辨率图像的小目标进行粗定位,确定目标区域;
采用训练好的DeepLabv3+网络对所述目标区域进行像素级分类,得到像素级分类结果。
2.根据权利要求1所述的高分辨率图像的小目标语义分割方法,其特征在于,在所述获取待分割的高分辨率图像的步骤之前,所述方法还包括:
构建所述ThunderNet网络和所述DeepLabv3+网络;
获取训练样本数据集;
对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集;
将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位;
将所述训练样本数据集中的粗定位区域进行裁剪,得到包含小目标的区域图像;
将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
3.根据权利要求2所述的高分辨率图像的小目标语义分割方法,其特征在于,所述对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集的步骤包括:
对所述训练样本数据集中的图像进行灰度化、二值化、取反和连通域标记操作;
计算每个所述连通域的质心坐标;
将所述质心坐标的x坐标随机在x∈[0,width]中取一个数,其中width代表图像的宽,以及将所述质心坐标的y坐标随机在y∈[0,height]中取一个数,其中height代表图像的高;
将所述质心坐标在水平方向上左右平移量tr_x,tr_x的取值范围为[0,width],并在该范围内随机取一个值,垂直方向平移上左右平移量tr_y,tr_y的取值范围为[0,height],并在该范围内随机取一个值,增加判断若平移后的坐标只要有一个超出该图像的范围,则重新取一个随机值;
以平移后的所述质心坐标进行裁剪,再缩放到统一大小。
4.根据权利要求2所述的高分辨率图像的小目标语义分割方法,其特征在于,所述将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位的步骤包括:
对扩充后的所述训练样本数据集中的小目标进行标记:
将标记好的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述小目标进行粗定位。
5.根据权利要求2所述的高分辨率图像的小目标语义分割方法,其特征在于,所述将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类的步骤包括:
将所述区域图像输入到所述DeepLabv3+网络中;
通过所述DeepLabv3+网络中的浅层卷积层提取所述区域图像的低级特征,并通过使用编码器和解码器迭代出高级特征;
将所述低级特征和高级特征进行融合,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
6.一种高分辨率图像的小目标语义分割***,其特征在于,所述***包括:
图像获取模块,用于获取待分割的高分辨率图像;
粗定位模块,用于采用训练好的ThunderNet网络对所述高分辨率图像的小目标进行粗定位,确定目标区域;
像素级分类模块,用于采用训练好的DeepLabv3+网络对所述目标区域进行像素级分类,得到像素级分类结果。
7.根据权利要求6所述的高分辨率图像的小目标语义分割***,其特征在于,所述***还包括模型训练模块,用于:
在所述获取待分割的高分辨率图像的步骤之前,构建所述ThunderNet网络和所述DeepLabv3+网络;
获取训练样本数据集;
对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集;
将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位;
将所述训练样本数据集中的粗定位区域进行裁剪,得到包含小目标的区域图像;
将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
8.根据权利要求7所述的高分辨率图像的小目标语义分割***,其特征在于,所述模型训练模块执行的所述对所述训练样本数据集进行数据增强,以扩充所述训练样本数据集的步骤包括:
对所述训练样本数据集中的图像进行灰度化、二值化、取反和连通域标记操作;
计算每个所述连通域的质心坐标;
将所述质心坐标的x坐标随机在x∈[0,width]中取一个数,其中width代表图像的宽,以及将所述质心坐标的y坐标随机在y∈[0,height]中取一个数,其中height代表图像的高;
将所述质心坐标在水平方向上左右平移量tr_x,tr_x的取值范围为[0,width],并在该范围内随机取一个值,垂直方向平移上左右平移量tr_y,tr_y的取值范围为[0,height],并在该范围内随机取一个值,增加判断若平移后的坐标只要有一个超出该图像的范围,则重新取一个随机值;
以平移后的所述质心坐标进行裁剪,再缩放到统一大小。
9.根据权利要求7所述的高分辨率图像的小目标语义分割***,其特征在于,所述模型训练模块执行的所述将扩充后的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述训练样本数据集中的小目标进行粗定位的步骤包括:
对扩充后的所述训练样本数据集中的小目标进行标记:
将标记好的所述训练样本数据集输入到所述ThunderNet网络中,以训练所述ThunderNet网络对所述小目标进行粗定位。
10.根据权利要求7所述的高分辨率图像的小目标语义分割***,其特征在于,所述模型训练模块执行的所述将所述区域图像输入到所述DeepLabv3+网络中,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类的步骤包括:
将所述区域图像输入到所述DeepLabv3+网络中;
通过所述DeepLabv3+网络中的浅层卷积层提取所述区域图像的低级特征,并通过使用编码器和解码器迭代出高级特征;
将所述低级特征和高级特征进行融合,以训练所述DeepLabv3+网络对所述区域图像进行像素级分类。
CN202111425780.0A 2021-11-26 2021-11-26 一种高分辨率图像的小目标语义分割方法及*** Pending CN113963008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111425780.0A CN113963008A (zh) 2021-11-26 2021-11-26 一种高分辨率图像的小目标语义分割方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111425780.0A CN113963008A (zh) 2021-11-26 2021-11-26 一种高分辨率图像的小目标语义分割方法及***

Publications (1)

Publication Number Publication Date
CN113963008A true CN113963008A (zh) 2022-01-21

Family

ID=79472451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111425780.0A Pending CN113963008A (zh) 2021-11-26 2021-11-26 一种高分辨率图像的小目标语义分割方法及***

Country Status (1)

Country Link
CN (1) CN113963008A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581510A (zh) * 2022-02-28 2022-06-03 扬州宝祥节能科技有限公司 基于模式识别的卷帘窗阻力点定位方法及人工智能***
CN115310469A (zh) * 2022-10-12 2022-11-08 广东奥普特科技股份有限公司 条形码定位模型训练方法、定位方法、***、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581510A (zh) * 2022-02-28 2022-06-03 扬州宝祥节能科技有限公司 基于模式识别的卷帘窗阻力点定位方法及人工智能***
CN115310469A (zh) * 2022-10-12 2022-11-08 广东奥普特科技股份有限公司 条形码定位模型训练方法、定位方法、***、设备及介质

Similar Documents

Publication Publication Date Title
US10127675B2 (en) Edge-based local adaptive thresholding system and methods for foreground detection
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN103325112B (zh) 动态场景中运动目标快速检测方法
CN108305260B (zh) 一种图像中角点的检测方法、装置及设备
CN109977997B (zh) 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
US20140341421A1 (en) Method for Detecting Persons Using 1D Depths and 2D Texture
CN110599489A (zh) 一种目标空间定位方法
EP2757529B1 (en) Systems and methods for 3D data based navigation using descriptor vectors
CN112336342B (zh) 手部关键点检测方法、装置及终端设备
CN113963008A (zh) 一种高分辨率图像的小目标语义分割方法及***
CN111311647A (zh) 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置
CN111161222A (zh) 一种基于视觉显著性的印刷辊筒缺陷检测方法
CN113888461A (zh) 基于深度学习的小五金件缺陷检测方法、***及设备
Xing et al. Traffic sign recognition using guided image filtering
US11367206B2 (en) Edge-guided ranking loss for monocular depth prediction
Zhao et al. Recognition of flooding and sinking conditions in flotation process using soft measurement of froth surface level and QTA
Kim et al. Robust facial landmark extraction scheme using multiple convolutional neural networks
Kumar et al. An efficient approach for highway lane detection based on the Hough transform and Kalman filter
CN117315210B (zh) 一种基于立体成像的图像虚化方法及相关装置
CN110751670B (zh) 一种基于融合的目标跟踪方法
CN108647605B (zh) 一种结合全局颜色与局部结构特征的人眼凝视点提取方法
CN108154513A (zh) 基于双光子成像数据的细胞自动探测和分割方法
Fang et al. Lane boundary detection algorithm based on vector fuzzy connectedness
CN114972492A (zh) 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质
EP2875488A1 (en) Biological unit segmentation with ranking based on similarity applying a shape and scale descriptor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination