CN116682014B - 一种灯幕楼宇图像分割方法、装置、设备及存储介质 - Google Patents

一种灯幕楼宇图像分割方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116682014B
CN116682014B CN202310672676.4A CN202310672676A CN116682014B CN 116682014 B CN116682014 B CN 116682014B CN 202310672676 A CN202310672676 A CN 202310672676A CN 116682014 B CN116682014 B CN 116682014B
Authority
CN
China
Prior art keywords
sample
feature map
training
training model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310672676.4A
Other languages
English (en)
Other versions
CN116682014A (zh
Inventor
邓攀
徐威
华军
冷晓宏
刘广平
朱岳清
钱汇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Lighting Co ltd
Original Assignee
Wuxi Lighting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Lighting Co ltd filed Critical Wuxi Lighting Co ltd
Priority to CN202310672676.4A priority Critical patent/CN116682014B/zh
Publication of CN116682014A publication Critical patent/CN116682014A/zh
Application granted granted Critical
Publication of CN116682014B publication Critical patent/CN116682014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请是一种灯幕楼宇图像分割方法、装置、设备及存储介质,具体涉及图像检测技术领域。所述方法包括:获取样本楼宇图像;获取预训练模型;保持预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;通过样本楼宇图像对第一训练模型进行全局训练,获得目标检测模型;目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。基于上述方案,提高了灯幕楼宇图像分割准确度。

Description

一种灯幕楼宇图像分割方法、装置、设备及存储介质
技术领域
本申请涉及图像检测领域,具体涉及一种灯幕楼宇图像分割方法、装置、设备及存储介质。
背景技术
现代建筑技术不仅能够设计各具特色的建筑结构,而且为高层建筑提供了更具扩展性的侧面表面积,这为在楼宇表面铺设灯幕,以展示各类灯光效果提供了更大的发挥空间。
在实际应用场景中,需要对灯幕楼宇进行识别,将灯幕楼宇与背景分割开来,以满足对灯幕楼宇图像的一些使用需求。现有技术中通过人工拍摄样本楼宇图像,并在样本楼宇图像中人工标注出灯幕楼宇,以制作楼宇图像数据集,再结合机器学习,通过楼宇图像数据集训练出想要的楼宇识别机器模型。后续即可通过该楼宇识别机器模型对目标楼宇图片进行识别。
然而,上述方案中的楼宇图像数据集较小,使得大楼识别准确度低。
发明内容
本申请提供了一种灯幕楼宇图像分割方法、装置、设备及存储介质,在实现灯幕楼宇图像分割时,识别准确度高,该技术方案如下。
一方面,提供了一种灯幕楼宇图像分割方法,所述方法包括:
获取样本楼宇图像;所述样本楼宇图像包括表面铺设灯幕的楼宇;所述样本楼宇图像还包括样本标注,所述样本标注用于标注所述楼宇;
获取预训练模型;所述预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头;
保持所述预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对所述预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;
通过样本楼宇图像对所述第一训练模型进行全局训练,获得目标检测模型;所述目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。
又一方面,提供了一种灯幕楼宇图像分割装置,所述装置包括:
数据获取模块,用于获取样本楼宇图像;所述样本楼宇图像包括表面铺设灯幕的楼宇;所述样本楼宇图像还包括样本标注,所述样本标注用于标注所述楼宇;
预训练模型获取模块,用于获取预训练模型;所述预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头;
第一训练模块,用于保持所述预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对所述预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;
第二训练模块,用于通过样本楼宇图像对所述第一训练模型进行全局训练,获得目标检测模型;所述目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。
在一种可能的实现方式中,所述保持所述预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对所述预训练模型的注意力模块与解耦头进行训练,获得第一训练模型,包括:
通过预训练模型的骨干网络,对所述样本楼宇图像进行特征提取,得到至少两个层次的目标样本特征图;
通过预训练模型的颈部特征金字塔,将至少两个层次的目标样本特征图,与各个层次的目标样本特征图进行融合,以获得至少两个层次的样本融合特征图;
通过预训练模型的注意力模块,分别对至少两个层次的样本融合特征图进行处理,得到至少两个层次的目标感受野特征图;
通过预训练模型的解耦头,分别对所述至少两个层次的目标感受野特征图进行处理,得到二分类结果;
根据所述二分类结果以及所述样本标注,得到第一损失函数;
保持主干网络与颈部特征金字塔的参数不变,根据所述第一损失函数对预训练模型的注意力模块以及解耦头进行反向传播更新,获得第一训练模型。
在一种可能的实现方式中,所述通过样本楼宇图像对所述第一训练模型进行全局训练,获得目标检测模型,包括:
通过第一训练模型对所述样本大楼图像进行处理,得到第二损失函数;
根据所述第二损失函数,对第一训练模型进行训练,得到全局训练后的目标检测模型。
在一种可能的实现方式中,所述预训练模型的骨干网络中包括第一特征提取模块、第二特征提取模块、第三特征提取模块以及第四特征提取模块;所述至少两个层次的目标样本特征图包括第一样本特征图、第二样本特征图、第三样本特征图以及第四样本特征图;
所述通过预训练模型的骨干网络,对所述样本楼宇图像进行特征提取,得到至少两个层次的目标样本特征图,包括:
通过所述第一特征提取模块对所述样本楼宇图像进行处理,得到第一样本特征图;
通过所述第二特征提取模块对所述第一样本特征图进行处理,得到第二样本特征图;
通过所述第三特征提取模块对所述第二样本特征图进行处理,得到第三样本特征图;
通过所述第四特征提取模块对所述第三样本特征图进行处理,得到第四样本特征图。
在一种可能的实现方式中,所述两个层次的样本融合特征图包括第一样本融合特征图、第二样本融合特征图以及第三样本融合特征图;
通过预训练模型的颈部特征金字塔,将至少两个层次的目标样本特征图,与各个层次的目标样本特征图进行融合,以获得至少两个层次的样本融合特征图,包括:
对所述第四样本特征图进行第一卷积处理,得到第一中间特征图;
对所述第一中间特征图进行上采样;将上采样后的第一中间特征图与所述第三样本特征图进行拼接,拼接后依次进行第二卷积处理以及第一卷积处理,得到第二中间特征图;
对所述第二中间特征图进行上采样;将上采样后的第二中间特征图与所述第二样本特征图进行拼接,拼接后进行第二卷积处理,得到第一样本融合特征图;
对所述第一样本融合特征图进行第一卷积处理,处理后与所述第二中间特征图进行拼接,拼接后进行第二卷积处理,得到第二样本融合特征图;
依次对所述第二样本融合特征图进行第一卷积处理、与所述第一中间特征图进行拼接以及第二卷积处理,得到第三样本融合特征图。
在一种可能的实现方式中,所述通过预训练模型的注意力模块,分别对至少两个层次的样本融合特征图进行处理,得到至少两个层次的目标感受野特征图,包括:
分别对所述第一样本融合特征图、第二样本融合特征图以及第三样本融合特征图依次进行切分、融合和选择,得到第一目标感受野特征图、第二目标感受野特征图以及第三目标感受野特征图。
在一种可能的实现方式中,所述通过预训练模型的解耦头,分别对所述至少两个层次的目标感受野特征图进行处理,得到二分类结果,包括:
分别对所述第一目标感受野特征图、第二目标感受野特征图以及第三目标感受野特征图进行处理,得到第一分类结果、第二分类结果以及第三分类结果;
将第一分类结果、第二分类结果以及第三分类结果进行拼接并转置,得到二分类结果。
再一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述的灯幕楼宇图像分割方法。
又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述的灯幕楼宇图像分割方法。
再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质中读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述灯幕楼宇图像分割方法。
本申请提供的技术方案可以包括以下有益效果:
本申请先获取样本楼宇图像;样本楼宇图像包括表面铺设灯幕的楼宇;样本楼宇图像还包括样本标注,样本标注用于标注楼宇;再获取预训练模型;预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头;再保持预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;最后通过样本楼宇图像对第一训练模型进行全局训练,获得目标检测模型;目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。上述方案,基于预训练模型,先保持预训练模型的主干网络与颈部特征金字塔的参数不变,对预训练模型的注意力模块与解耦头进行部分训练得到第一训练模型,再对第一训练模型进行全局训练得到目标训练模型,通过部分训练和全局训练,能够在样本楼宇图像较少的情况下提高目标检测模型的灯幕楼宇图像分割准确度。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种灯幕楼宇图像分割***的结构示意图。
图2是根据一示例性实施例示出的一种灯幕楼宇图像分割方法的流程图。
图3是根据一示例性实施例示出的一种灯幕楼宇图像分割方法的流程图。
图4是本申请实施例涉及的目标检测模型的结构示例图。
图5是根据一示例性实施例示出的一种灯幕楼宇图像分割装置的结构方框图。
图6是根据一示例性实施例示出的计算机设备的结构框图。
具体实施方式
下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应理解,在本申请的实施例中提到的“指示”可以是直接指示,也可以是间接指示,还可以是表示具有关联关系。举例说明,A指示B,可以表示A直接指示B,例如B可以通过A获取;也可以表示A间接指示B,例如A指示C,B可以通过C获取;还可以表示A和B之间具有关联关系。
在本申请实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。
本申请实施例中,“预定义”可以通过在设备(例如,包括终端设备和网络设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现,本申请对于其具体的实现方式不做限定。
图1是根据一示例性实施例示出的一种灯幕楼宇图像分割***的结构示意图。该灯幕楼宇图像分割***中包含服务器110以及终端设备120。其中,该终端设备120中可以包含数据处理设备以及数据存储模块。
可选的,该终端设备120通过传输网络(如无线通信网络)与服务器110实现通信连接,该终端设备120可以通过无线通信网络,将数据存储模块中存储的各个数据(如图像数据)上传至服务器110,以便服务器110对获取到的图像数据进行处理,例如通过上传的图像数据对应用于灯幕楼宇图像分割等方面的卷积神经网络模型进行训练。
可选的,该终端设备120中还包括有指令输入组件,如鼠标、键盘、触控屏等组件(图1未示出),该指令输入组件接收到用户输入的指定指令后,可以在终端设备上输入对应的数据。例如当终端设备上安装有灯幕楼宇图像分割软件时,用户可以通过指令输入组件向终端设备输入对应的指令,以控制该灯幕楼宇图像分割软件输出对应的灯幕楼宇图像分割结果。
可选的,该终端设备可以将该图像文件上传至服务器110,以便服务器110对应用于灯幕楼宇图像分割等方面的卷积神经网络模型进行训练。
可选的,该终端设备中还包含有数据处理设备,该数据处理设备可以在终端设备120打开图像文件时,通过服务器下发的卷积神经网络模型对图像文件进行分割。
可选的,该服务器110可以获取到各个终端设备上传的图像文件,并通过人工等方式对图像文件进行标注,以通过上传的图像文件以及标注信息对卷积神经网络模型进行训练,当训练完成后可以将训练后的卷积神经网络模型传输至终端设备中,以便终端设备对图像文件进行灯幕楼宇图像分割。
可选的,当该终端设备接收并打开图像文件后,终端设备可以将该图像文件上传至服务器110中,以便服务器110中训练好的卷积神经网络模型对图像文件进行分割,得到分割结果并返回至终端设备,以实现图像文件的在线分割。
可选的,上述服务器可以是由多个物理服务器构成的服务器集群或者是分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等技术运计算服务的云服务器。
可选的,该***还可以包括管理设备,该管理设备用于对该***进行管理(如管理各个模块与服务器之间的连接状态等),该管理设备与服务器之间通过通信网络相连。可选的,该通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网,但也可以是其他任何网络,包括但不限于局域网、城域网、广域网、移动、有限或无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言、可扩展标记语言等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层、传输层安全、虚拟专用网络、网际协议安全等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
图2是根据一示例性实施例示出的一种灯幕楼宇图像分割方法的流程图。该方法由计算机设备执行,该计算机设备可以是如图1中所示的终端设备与服务器中的一者。如图2所示,该灯幕楼宇图像分割方法可以包括如下步骤:
步骤201,获取样本楼宇图像。
该样本楼宇图像包括表面铺设灯幕的楼宇;该样本楼宇图像还包括样本标注,该样本标注用于标注该楼宇。
图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同,简单的说就是在一副图像中,把目标从背景中分离出来。
为了提升进行图像分割的目标检测模型的精度,需要对该目标检测模型进行训练。首先,需要获取用于训练的样本楼宇图像,该样本楼宇图像包括人工对样本楼宇图像中的楼宇进行轮廓标注得到的样本标注。
步骤202,获取预训练模型。
预训练模型是指已由技术人员通过大量的数据集进行训练后的模型。由于目前没有针对灯幕楼宇图像的数据集,因此需要自行制作样本楼宇图像,样本数量不足,而从头开始进行模型训练对样本数量和设备算力要求非常高,因此可以选取解决类似问题的预训练模型作为目标检测模型的基础,例如选取可解决图像分割问题的预训练模型并对其结构进行所需的设计。
可选的,该预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头。
步骤203,保持该预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对该预训练模型的注意力模块与解耦头进行训练,获得第一训练模型。
考虑到样本楼宇图像不足以提供充分的训练样本,因此本申请采用了两步微调训练模式。该两步微调训练模式即先进行步骤203中保持主干网络与颈部特征金字塔的参数不变,对注意力模块以及解耦头进行部分训练,再进行步骤204中的全局训练,部分训练和全局训练均采用微调模式。
步骤204,通过样本楼宇图像对该第一训练模型进行全局训练,获得目标检测模型。
应说明的是,该预训练模型、第一训练模型以及目标检测模型的模型结构均相同,三者的区别在于训练程度的不同,即预训练模型是初始模型,第一训练模型是进行了步骤203的部分训练之后的模型,目标检测模型是进行了步骤204的全局训练之后的模型。
该目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。也就是说,在获得目标检测模型后,即可将用户想要进行分割的目标楼宇图像输入目标检测模型,将目标楼宇图像进行分割。
综上所述,本申请先获取样本楼宇图像;样本楼宇图像包括表面铺设灯幕的楼宇;样本楼宇图像还包括样本标注,样本标注用于标注楼宇;再获取预训练模型;预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头;再保持预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;最后通过样本楼宇图像对第一训练模型进行全局训练,获得目标检测模型;目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。上述方案,基于预训练模型,先保持预训练模型的主干网络与颈部特征金字塔的参数不变,对预训练模型的注意力模块与解耦头进行部分训练得到第一训练模型,再对第一训练模型进行全局训练得到目标训练模型,通过部分训练和全局训练,能够在样本楼宇图像较少的情况下提高目标检测模型的灯幕楼宇图像分割准确度。
图3是根据一示例性实施例示出的一种灯幕楼宇图像分割方法的流程图。该方法由计算机设备执行,该计算机设备可以是如图1中所示的终端设备与服务器中的一者。如图3所示,该灯幕楼宇图像分割方法可以包括如下步骤:
步骤301,获取样本楼宇图像。
在实际应用场景中,由于当前并没有针对灯幕楼宇的楼宇图像数据集,因此需要进行人工采集和网络搜集,以获取样本楼宇图像。该样本楼宇图像包括表面铺设灯幕的楼宇;该样本楼宇图像还包括样本标注,该样本标注用于标注该楼宇。
进一步的,通过样本楼宇图像训练出目标检测模型,该目标检测模型用于进行灯幕楼宇图像分割。该灯幕楼宇图像分割的目标是以拍摄获取的高清图像(即目标楼宇图像)作为输入,该目标检测模型需要预测高清图像中楼宇的位置及大小信息,以便裁剪出高清图像中的楼宇。
首先,以人工拍摄和网络爬虫的方式,采集楼宇图像。
进一步的,对楼宇图像进行预处理,例如数据清洗,筛选出有效的图像数据(即包含灯幕的楼宇图像),以便形成初始楼宇图像数据集S0
对楼宇图像进行预处理的主要目标是,将初始楼宇图像数据集S0转换为适宜模型训练和评估的标准楼宇图像数据集S,该标准楼宇图像数据集S包含了数据归一化操作及数据标注操作,便于执行模型训练和效果验证。
可选的,将初始楼宇图像数据集S0中的楼宇图像均转换为RGB格式,即标准楼宇图像数据集S中的样本楼宇图像均为RGB格式。
可选的,通过LabelImg标注软件对楼宇图像中的楼宇进行标注,得到包括样本标注的样本楼宇图像。
可选的,仅标注楼宇图像中处于中心位置的楼宇,即一张楼宇图像中仅标注最中间的楼宇。
进一步的,将标准楼宇图像数据集S按一定比例划分为训练集Strain和测试集Stest。可选的,训练集Strain与测试集Stest的划分比例为8:2。
示例性的,通过人工拍摄的方式获取楼宇图像,即以不同角度环绕拍摄不同建筑物,共获取29个楼宇视频片段,并在楼宇视频片段中截取75张不同视角的楼宇图像;以网络爬虫的方式获取楼宇图像,即以网络资源为资料库,使用爬虫程序,以城市夜景大楼、大楼夜间灯带、霓虹灯大楼、夜景建筑灯光为关键词,搜集5762张霓虹灯大楼图像,再经过初步筛选,得到300张符合需要的楼宇图像。通过两种方式,共获取375张样本楼宇图像,并添加样本标注,以作为标准楼宇图像数据集S。为了便于模型训练和效果评估,将标准楼宇图像数据集S以8:2的比例划分为训练集Strain和测试集Stest。其中训练集Strain中共包含300张楼宇图像,测试集Stest中共包含75张楼宇图像。
步骤302,获取预训练模型。
预训练模型是指已由技术人员通过大量的数据集进行训练后的模型。
由于从头开始进行模型训练对样本数量和设备算力要求非常高,因此可以选取解决类似问题的预训练模型作为目标检测模型的基础,例如选取可解决图像分割问题的多目标检测模型YOLO-X作为预训练模型的参考结构。
进一步的,考虑到检测速度问题,采用参数体量较小的YOLOX-s模型作为预训练模型的参考结构。
进一步的,以YOLOX-s模型为参考结构,设计预训练模型,该预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头。
示例性的,该预训练模型通过COCO数据集(一种用于目标检测、分割和图像描述的数据集)进行训练。
步骤303,通过预训练模型的骨干网络,对该样本楼宇图像进行特征提取,得到至少两个层次的目标样本特征图。
在获取到样本楼宇图像和预训练模型后,即可通过样本楼宇图像对预训练模型进行训练。首先,通过预训练模型的骨干网络,对该样本楼宇图像进行特征提取,得到至少两个层次的目标样本特征图。
可选的,该预训练模型的骨干网络中包括第一特征提取模块、第二特征提取模块、第三特征提取模块以及第四特征提取模块;该至少两个层次的目标样本特征图包括第一样本特征图、第二样本特征图、第三样本特征图以及第四样本特征图。
首先,通过该第一特征提取模块对该样本楼宇图像进行处理,得到第一样本特征图。
进一步的,通过该第二特征提取模块对该第一样本特征图进行处理,得到第二样本特征图。
进一步的,通过该第三特征提取模块对该第二样本特征图进行处理,得到第三样本特征图。
进一步的,通过该第四特征提取模块对该第三样本特征图进行处理,得到第四样本特征图。
可选的,该第一特征提取模块包括第一卷积处理模块和第二卷积处理模块。该第一卷积处理模块对输入的特征图依次进行卷积、归一化和激活。该第二卷积处理模块包括两个分支,第一分支包括一个第一卷积处理模块,第二分支包括一个第一卷积处理模块和n个第一处理模块,第二卷积处理模块的两个分支分别对输入的特征图进行处理后将两个分支的结果拼接(concat),将拼接后的结果再经过一个第一卷积处理模块进行处理,作为输出。该第一处理模块中,依次通过两个第一卷积处理模块对输入的特征图进行处理,再将处理结果与输入的特征图相加(add),作为输出。
可选的,该第二特征提取模块以及第三特征提取模块与第一特征提取模块相同。
可选的,该第四特征提取模块中依次包括第一卷积处理模块、SPP(空间金字塔池化)模块以及第二卷积处理模块。该SPP模块中,先通过一个第一卷积处理模块对输入的特征图进行处理,再通过四个并行分支(一个分支上不做池化,直接将经第一卷积处理模块处理的特征图作为输出,另外三个分支分别对经第一卷积处理模块处理的特征图进行卷积核大小分别为5×5、9×9以及13×13的池化,再输出)对经第一卷积处理模块处理的特征图进行处理,将四个并行分支的处理结果拼接后,再通过一个第一卷积处理模块进行处理,得到输出结果。
步骤304,通过预训练模型的颈部特征金字塔,将至少两个层次的目标样本特征图,与各个层次的目标样本特征图进行融合,以获得至少两个层次的样本融合特征图。
可选的,该两个层次的样本融合特征图包括第一样本融合特征图、第二样本融合特征图以及第三样本融合特征图。
首先,对该第四样本特征图进行第一卷积处理,得到第一中间特征图;
进一步的,对该第一中间特征图进行上采样;将上采样后的第一中间特征图与该第三样本特征图进行拼接,拼接后依次进行第二卷积处理以及第一卷积处理,得到第二中间特征图。
进一步的,对该第二中间特征图进行上采样;将上采样后的第二中间特征图与该第二样本特征图进行拼接,拼接后进行第二卷积处理,得到第一样本融合特征图。
进一步的,先对该第一样本融合特征图进行第一卷积处理,处理后与该第二中间特征图进行拼接,拼接后进行第二卷积处理,得到第二样本融合特征图。
进一步的,依次对该第二样本融合特征图进行第一卷积处理、与该第一中间特征图进行拼接以及第二卷积处理,得到第三样本融合特征图。
应说明的是,执行该第一卷积处理的模块与步骤303中的第一卷积处理模块相同,执行该第二卷积处理的模块与步骤303中的第二卷积处理模块相同。
步骤305,通过预训练模型的注意力模块,分别对至少两个层次的样本融合特征图进行处理,得到至少两个层次的目标感受野特征图。
该注意力模块中包含与每个层次的样本融合特征图对应的分模块。
可选的,该至少两个层次的目标感受野特征图包括第一目标感受野特征图、第二目标感受野特征图以及第三目标感受野特征图。
可选的,分别对该第一样本融合特征图、第二样本融合特征图以及第三样本融合特征图依次进行切分(split)、融合(fuse)和选择(select),得到第一目标感受野特征图、第二目标感受野特征图以及第三目标感受野特征图。
该注意力模块的分模块中的切分部分包含多个分支,分别对输入的样本特征融合图进行不同卷积核大小的卷积处理,分支的数量可以根据实际需要进行设置。该注意力模块的分模块中的融合部分可以结合多个分支的信息,获取选择权重的全局和综合表示。该注意力模块的分模块中的选择部分根据该选择权重聚合不同分支的处理结果,得到目标感受野(卷积核)特征图。通过该注意力模块,可以获取样本楼宇图像的更多细节,提升图像分割准确度。
可选的,该注意力模块的分模块为SK(Selective Kernel,选择性内核网络)注意力模块。
步骤306,通过预训练模型的解耦头,分别对该至少两个层次的目标感受野特征图进行处理,得到二分类结果。
可选的,分别对该第一目标感受野特征图、第二目标感受野特征图以及第三目标感受野特征图进行处理,得到第一分类结果、第二分类结果以及第三分类结果;
进一步的,将第一分类结果、第二分类结果以及第三分类结果进行拼接并转置(transpose),得到二分类结果。
由于灯幕楼宇图像分割任务实质从属于单目标检测问题,即仅检测前景中的楼宇,其他区域均视为背景项。因此,该发明将预训练模型的多类别解耦头设置精简为适宜灯幕楼宇图像分割任务的单类别模型结构。具体来说,本申请将预训练模型的解耦头编辑为适宜灯幕楼宇图像分割任务的二分类模式。二分类指的是将解耦头中的类别数目调整为1,即只对目标物体是否为灯幕楼宇进行分类。是,则判定为灯幕楼宇;否,则判定为背景。
步骤307,根据该二分类结果以及该样本标注,得到第一损失函数。
示例性的,该第一损失函数的公式如下:
其中,LC1s为目标楼宇的类别损失项。LObj为目标楼宇的置信度损失项,LReg为相关于目标楼宇的位置信息的回归损失项。将标准楼宇图像数据集S中的训练集Strain={xi}作为输入样本集合,xi为训练集中的样本,则三项损失分别如下:
其中,在类别损失项LC1s和置信度损失项LObj中,yi指示了xi的实际标签值,为与xi对应的模型预测标签值(概率值)。在回归损失项LReg中,向量内的参数分别标注了xi中目标框(样本标注)的实际中心位置信息及尺度信息(宽和高),即对应目标楼宇在样本楼宇图像形成的二维空间中的坐标及大小(wi,hi)。同理,为xi中模型预测框(即分割结果)的坐标及大小。
应说明的是,该二分类特指类别损失项LC1s设置为二分类,类别损失项为1,则为灯幕楼宇;类别损失项为0,则为背景。
步骤308,保持主干网络与颈部特征金字塔的参数不变,根据该第一损失函数对预训练模型的注意力模块以及解耦头进行反向传播更新,获得第一训练模型。
应说明的是,步骤303~步骤308即是一个完整的训练过程,实际训练中可根据需要进行多次该训练过程,直到预测结果达到想要的效果。
可选的,在进行模型训练前,对模型进行常规预设置,包含迭代步数、学习率及正则化。
示例性的,对模型(包括预处理模型和第一训练模型)进行训练的硬件条件为,Intel(R)Core(TM)i7-12700KF处理器、64GB内存和NVIDIAGeForceRTX 3060显卡。在Pytorch深度学习框架下进行训练。
示例性的,采用标准SGD优化器来执行模型训练。其中训练设置如下:总体迭代步数为20,学习率固定为0.001。为防止过拟合,采用了weight decay正则化处理,其中动量项设为0.9,权重衰减系数设为5e-4。
步骤309,通过样本楼宇图像对该第一训练模型进行全局训练,获得目标检测模型。
考虑到训练集Strain不足以提供充分的训练样本,因此本申请采用了两步微调训练模式。该两步微调训练模式即先保持主干网络与颈部特征金字塔的参数不变对注意力模块以及解耦头进行部分训练(对应步骤303~步骤308),再进行步骤309中的全局训练,部分训练仅对第一训练模型的后端进行训练,学习率也较低,即后端微调训练;全局训练采用微调模式进行训练,学习率设置得比部分训练更低。
在进行全局训练时,首先通过第一训练模型对该样本大楼图像进行处理,得到第二损失函数;
进一步的,根据该第二损失函数,对第一训练模型进行训练,得到全局训练后的目标检测模型。
应说明的是,步骤303~步骤308的部分训练与步骤309的全局训练在步骤方面的区别仅在于,在部分训练中保持主干网络与颈部特征金字塔的参数不变。
该目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。
示例性的,全局训练的设置如下:总体迭代步数设置为40,学习率固定为0.0001。在weight decay正则化处理中,动量项设为0.9,权重衰减系数为0.0005。
图4是本申请实施例涉及的目标检测模型的结构示例图。图4中,BaseConv对应第一卷积处理模块,CSP对应第二卷积处理模块,Up-sample为上采样,SK Attention即SK注意力模块。
应说明的是,本申请中的预训练模型、第一训练模型以及目标检测模型的模型结构均相同,三者的区别在于训练程度的不同。
示例性的,本申请通过实验对模型进行评估,以进一步说明本申请方法的有效性。实验过程如下:
通过测试集Stest对目标检测模型进行评估测试,并将测试结果与传统训练方法进行对比。
可选的,依照当前的目标检测文献,采用衡量预测框(即分割结果)与真实框(即样本标注)之间重叠度的平均精确度指标作为评价指标。可选的,采用mAP(IoU@50)指标作为评价指标。
可选的,通过消融性试验的方式,评估目标检测模型的有效性。具体来说,通过对比不同训练方式下的测试结果,评估目标检测模型的有效性,评估结果如下表:
表1:目标检测模型在不同训练方式下的性能对比。
训练方式 学习率 结果精度
标准训练 1.00E-2 65.41%
标准训练 1.00E-3 82.73%
部分训练+全局训练 1.00E-3/1.00E-3 66.17%
部分训练+全局训练 1.00E-3/1.00E-4 84.44%
从表一中可以看出,结合步骤303~步骤308的部分训练和步骤309的全局训练,即采用两步微调训练模式对预训练模型进行训练,可以得到精度更高的目标检测模型。
综上所述,本申请先获取样本楼宇图像;样本楼宇图像包括表面铺设灯幕的楼宇;样本楼宇图像还包括样本标注,样本标注用于标注楼宇;再获取预训练模型;预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头;再保持预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;最后通过样本楼宇图像对第一训练模型进行全局训练,获得目标检测模型;目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。上述方案,基于预训练模型,先保持预训练模型的主干网络与颈部特征金字塔的参数不变,对预训练模型的注意力模块与解耦头进行部分训练得到第一训练模型,再对第一训练模型进行全局训练得到目标训练模型,通过部分训练和全局训练,能够在样本楼宇图像较少的情况下提高目标检测模型的灯幕楼宇图像分割准确度。
图5是根据一示例性实施例示出的一种灯幕楼宇图像分割装置的结构方框图。该灯幕楼宇图像分割装置包括:
数据获取模块501,用于获取样本楼宇图像;该样本楼宇图像包括表面铺设灯幕的楼宇;该样本楼宇图像还包括样本标注,该样本标注用于标注该楼宇;
预训练模型获取模块502,用于获取预训练模型;该预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头;
第一训练模块503,用于保持该预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对该预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;
第二训练模块504,用于通过样本楼宇图像对该第一训练模型进行全局训练,获得目标检测模型;该目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。
在一种可能的实现方式中,该保持该预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对该预训练模型的注意力模块与解耦头进行训练,获得第一训练模型,包括:
通过预训练模型的骨干网络,对该样本楼宇图像进行特征提取,得到至少两个层次的目标样本特征图;
通过预训练模型的颈部特征金字塔,将至少两个层次的目标样本特征图,与各个层次的目标样本特征图进行融合,以获得至少两个层次的样本融合特征图;
通过预训练模型的注意力模块,分别对至少两个层次的样本融合特征图进行处理,得到至少两个层次的目标感受野特征图;
通过预训练模型的解耦头,分别对该至少两个层次的目标感受野特征图进行处理,得到二分类结果;
根据该二分类结果以及该样本标注,得到第一损失函数;
保持主干网络与颈部特征金字塔的参数不变,根据该第一损失函数对预训练模型的注意力模块以及解耦头进行反向传播更新,获得第一训练模型。
在一种可能的实现方式中,该通过样本楼宇图像对该第一训练模型进行全局训练,获得目标检测模型,包括:
通过第一训练模型对该样本大楼图像进行处理,得到第二损失函数;
根据该第二损失函数,对第一训练模型进行训练,得到全局训练后的目标检测模型。
在一种可能的实现方式中,该预训练模型的骨干网络中包括第一特征提取模块、第二特征提取模块、第三特征提取模块以及第四特征提取模块;该至少两个层次的目标样本特征图包括第一样本特征图、第二样本特征图、第三样本特征图以及第四样本特征图;
该通过预训练模型的骨干网络,对该样本楼宇图像进行特征提取,得到至少两个层次的目标样本特征图,包括:
通过该第一特征提取模块对该样本楼宇图像进行处理,得到第一样本特征图;
通过该第二特征提取模块对该第一样本特征图进行处理,得到第二样本特征图;
通过该第三特征提取模块对该第二样本特征图进行处理,得到第三样本特征图;
通过该第四特征提取模块对该第三样本特征图进行处理,得到第四样本特征图。
在一种可能的实现方式中,该两个层次的样本融合特征图包括第一样本融合特征图、第二样本融合特征图以及第三样本融合特征图;
通过预训练模型的颈部特征金字塔,将至少两个层次的目标样本特征图,与各个层次的目标样本特征图进行融合,以获得至少两个层次的样本融合特征图,包括:
对该第四样本特征图进行第一卷积处理,得到第一中间特征图;
对该第一中间特征图进行上采样;将上采样后的第一中间特征图与该第三样本特征图进行拼接,拼接后依次进行第二卷积处理以及第一卷积处理,得到第二中间特征图;
对该第二中间特征图进行上采样;将上采样后的第二中间特征图与该第二样本特征图进行拼接,拼接后进行第二卷积处理,得到第一样本融合特征图;
对该第一样本融合特征图进行第一卷积处理,处理后与该第二中间特征图进行拼接,拼接后进行第二卷积处理,得到第二样本融合特征图;
依次对该第二样本融合特征图进行第一卷积处理、与该第一中间特征图进行拼接以及第二卷积处理,得到第三样本融合特征图。
在一种可能的实现方式中,该通过预训练模型的注意力模块,分别对至少两个层次的样本融合特征图进行处理,得到至少两个层次的目标感受野特征图,包括:
分别对该第一样本融合特征图、第二样本融合特征图以及第三样本融合特征图依次进行切分、融合和选择,得到第一目标感受野特征图、第二目标感受野特征图以及第三目标感受野特征图。
在一种可能的实现方式中,该通过预训练模型的解耦头,分别对该至少两个层次的目标感受野特征图进行处理,得到二分类结果,包括:
分别对该第一目标感受野特征图、第二目标感受野特征图以及第三目标感受野特征图进行处理,得到第一分类结果、第二分类结果以及第三分类结果;
将第一分类结果、第二分类结果以及第三分类结果进行拼接并转置,得到二分类结果。
综上所述,本申请先获取样本楼宇图像;样本楼宇图像包括表面铺设灯幕的楼宇;样本楼宇图像还包括样本标注,样本标注用于标注楼宇;再获取预训练模型;预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头;再保持预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;最后通过样本楼宇图像对第一训练模型进行全局训练,获得目标检测模型;目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果。上述方案,基于预训练模型,先保持预训练模型的主干网络与颈部特征金字塔的参数不变,对预训练模型的注意力模块与解耦头进行部分训练得到第一训练模型,再对第一训练模型进行全局训练得到目标训练模型,通过部分训练和全局训练,能够在样本楼宇图像较少的情况下提高目标检测模型的灯幕楼宇图像分割准确度。
图6示出了本申请一示例性实施例示出的计算机设备600的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备600包括中央处理单元(Central Processing Unit,CPU)601、包括随机存取存储器(Random Access Memory,RAM)602和只读存储器(Read-Only Memory,ROM)603的***存储器604,以及连接***存储器604和中央处理单元601的***总线605。所述计算机设备600还包括用于存储操作***609、应用程序610和其他程序模块611的大容量存储设备606。
所述大容量存储设备606通过连接到***总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备606及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说,所述大容量存储设备606可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory,EEPROM)闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(DigitalVersatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器604和大容量存储设备606可以统称为存储器。
根据本公开的各种实施例,所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在所述***总线605上的网络接口单元607连接到网络608,或者说,也可以使用网络接口单元607来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括至少一条计算机程序,所述至少一条计算机程序存储于存储器中,中央处理单元601通过执行该至少一条计算机程序来实现上述各个实施例所示的方法中的全部或部分步骤。
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现上述方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2或图3任一实施例所示方法的全部或部分步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (9)

1.一种灯幕楼宇图像分割方法,其特征在于,所述方法包括:
获取样本楼宇图像;所述样本楼宇图像包括表面铺设灯幕的楼宇;所述样本楼宇图像还包括样本标注,所述样本标注用于标注所述楼宇;
获取预训练模型;所述预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头;所述预训练模型的解耦头编辑为二分类模式,对目标物体是否为灯幕楼宇进行分类;
保持所述预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对所述预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;
通过样本楼宇图像对所述第一训练模型进行全局训练,获得目标检测模型;所述目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果;
所述保持所述预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对所述预训练模型的注意力模块与解耦头进行训练,获得第一训练模型,包括:
通过预训练模型的骨干网络,对所述样本楼宇图像进行特征提取,得到至少两个层次的目标样本特征图;
通过预训练模型的颈部特征金字塔,将至少两个层次的目标样本特征图,与各个层次的目标样本特征图进行融合,以获得至少两个层次的样本融合特征图;
通过预训练模型的注意力模块,分别对至少两个层次的样本融合特征图进行处理,得到至少两个层次的目标感受野特征图;
通过预训练模型的解耦头,分别对所述至少两个层次的目标感受野特征图进行处理,得到二分类结果;
根据所述二分类结果以及所述样本标注,得到第一损失函数;
保持主干网络与颈部特征金字塔的参数不变,根据所述第一损失函数对预训练模型的注意力模块以及解耦头进行反向传播更新,获得第一训练模型。
2.根据权利要求1所述的方法,其特征在于,所述通过样本楼宇图像对所述第一训练模型进行全局训练,获得目标检测模型,包括:
通过第一训练模型对所述样本楼宇图像进行处理,得到第二损失函数;
根据所述第二损失函数,对第一训练模型进行训练,得到全局训练后的目标检测模型。
3.根据权利要求1所述的方法,其特征在于,所述预训练模型的骨干网络中包括第一特征提取模块、第二特征提取模块、第三特征提取模块以及第四特征提取模块;所述至少两个层次的目标样本特征图包括第一样本特征图、第二样本特征图、第三样本特征图以及第四样本特征图;
所述通过预训练模型的骨干网络,对所述样本楼宇图像进行特征提取,得到至少两个层次的目标样本特征图,包括:
通过所述第一特征提取模块对所述样本楼宇图像进行处理,得到第一样本特征图;
通过所述第二特征提取模块对所述第一样本特征图进行处理,得到第二样本特征图;
通过所述第三特征提取模块对所述第二样本特征图进行处理,得到第三样本特征图;
通过所述第四特征提取模块对所述第三样本特征图进行处理,得到第四样本特征图。
4.根据权利要求3所述的方法,其特征在于,所述两个层次的样本融合特征图包括第一样本融合特征图、第二样本融合特征图以及第三样本融合特征图;
通过预训练模型的颈部特征金字塔,将至少两个层次的目标样本特征图,与各个层次的目标样本特征图进行融合,以获得至少两个层次的样本融合特征图,包括:
对所述第四样本特征图进行第一卷积处理,得到第一中间特征图;
对所述第一中间特征图进行上采样;将上采样后的第一中间特征图与所述第三样本特征图进行拼接,拼接后依次进行第二卷积处理以及第一卷积处理,得到第二中间特征图;
对所述第二中间特征图进行上采样;将上采样后的第二中间特征图与所述第二样本特征图进行拼接,拼接后进行第二卷积处理,得到第一样本融合特征图;
对所述第一样本融合特征图进行第一卷积处理,处理后与所述第二中间特征图进行拼接,拼接后进行第二卷积处理,得到第二样本融合特征图;
依次对所述第二样本融合特征图进行第一卷积处理、与所述第一中间特征图进行拼接以及第二卷积处理,得到第三样本融合特征图。
5.根据权利要求4所述的方法,其特征在于,所述通过预训练模型的注意力模块,分别对至少两个层次的样本融合特征图进行处理,得到至少两个层次的目标感受野特征图,包括:
分别对所述第一样本融合特征图、第二样本融合特征图以及第三样本融合特征图依次进行切分、融合和选择,得到第一目标感受野特征图、第二目标感受野特征图以及第三目标感受野特征图。
6.根据权利要求5所述的方法,其特征在于,所述通过预训练模型的解耦头,分别对所述至少两个层次的目标感受野特征图进行处理,得到二分类结果,包括:
分别对所述第一目标感受野特征图、第二目标感受野特征图以及第三目标感受野特征图进行处理,得到第一分类结果、第二分类结果以及第三分类结果;
将第一分类结果、第二分类结果以及第三分类结果进行拼接并转置,得到二分类结果。
7.一种灯幕楼宇图像分割装置,其特征在于,所述装置包括:
数据获取模块,用于获取样本楼宇图像;所述样本楼宇图像包括表面铺设灯幕的楼宇;所述样本楼宇图像还包括样本标注,所述样本标注用于标注所述楼宇;
预训练模型获取模块,用于获取预训练模型;所述预训练模型包括主干网络、颈部特征金字塔、注意力模块以及解耦头;所述预训练模型的解耦头编辑为二分类模式,对目标物体是否为灯幕楼宇进行分类;
第一训练模块,用于保持所述预训练模型的主干网络与颈部特征金字塔的参数不变,并通过样本楼宇图像对所述预训练模型的注意力模块与解耦头进行训练,获得第一训练模型;
第二训练模块,用于通过样本楼宇图像对所述第一训练模型进行全局训练,获得目标检测模型;所述目标检测模型用于对目标楼宇图像进行处理,得到楼宇分割结果;
所述第一训练模块还用于:
通过预训练模型的骨干网络,对所述样本楼宇图像进行特征提取,得到至少两个层次的目标样本特征图;
通过预训练模型的颈部特征金字塔,将至少两个层次的目标样本特征图,与各个层次的目标样本特征图进行融合,以获得至少两个层次的样本融合特征图;
通过预训练模型的注意力模块,分别对至少两个层次的样本融合特征图进行处理,得到至少两个层次的目标感受野特征图;
通过预训练模型的解耦头,分别对所述至少两个层次的目标感受野特征图进行处理,得到二分类结果;
根据所述二分类结果以及所述样本标注,得到第一损失函数;
保持主干网络与颈部特征金字塔的参数不变,根据所述第一损失函数对预训练模型的注意力模块以及解耦头进行反向传播更新,获得第一训练模型。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至6任一所述的灯幕楼宇图像分割方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至6任一所述的灯幕楼宇图像分割方法。
CN202310672676.4A 2023-06-07 2023-06-07 一种灯幕楼宇图像分割方法、装置、设备及存储介质 Active CN116682014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310672676.4A CN116682014B (zh) 2023-06-07 2023-06-07 一种灯幕楼宇图像分割方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310672676.4A CN116682014B (zh) 2023-06-07 2023-06-07 一种灯幕楼宇图像分割方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116682014A CN116682014A (zh) 2023-09-01
CN116682014B true CN116682014B (zh) 2024-07-05

Family

ID=87788659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310672676.4A Active CN116682014B (zh) 2023-06-07 2023-06-07 一种灯幕楼宇图像分割方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116682014B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051953A (zh) * 2022-11-23 2023-05-02 中国铁塔股份有限公司重庆市分公司 基于可选择卷积核网络及加权双向特征金字塔的小目标检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963236A (zh) * 2021-11-02 2022-01-21 北京奕斯伟计算技术有限公司 目标检测方法及装置
CN115205467A (zh) * 2022-08-10 2022-10-18 南京理工大学 一种基于轻量化和注意力机制的空间非合作目标部件识别方法
CN115861799A (zh) * 2022-11-21 2023-03-28 北京理工大学 基于注意力梯度的轻量化空对地目标检测方法
CN115661673A (zh) * 2022-12-28 2023-01-31 中国电子科技集团公司第十四研究所 一种基于YOLOv4和注意力机制的图像目标检测方法
CN116152633A (zh) * 2023-04-18 2023-05-23 天津大学 一种基于空间特征表示的目标检测网络的检测方法和***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051953A (zh) * 2022-11-23 2023-05-02 中国铁塔股份有限公司重庆市分公司 基于可选择卷积核网络及加权双向特征金字塔的小目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
U3-YOLOXs: An improved YOLOXs for Uncommon Unregular Unbalance detection of the rape subhealth regions;Xinjing Gong等;《Computers and Electronics in Agriculture 》;20221107;第1-14页 *
Xinjing Gong等.U3-YOLOXs: An improved YOLOXs for Uncommon Unregular Unbalance detection of the rape subhealth regions.《Computers and Electronics in Agriculture 》.2022,第1-14页. *

Also Published As

Publication number Publication date
CN116682014A (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN113780296B (zh) 基于多尺度信息融合的遥感图像语义分割方法及***
Alsabhan et al. Automatic building extraction on satellite images using Unet and ResNet50
CN111242493A (zh) 一种街道品质评价方法、装置、***及存储介质
CN112581443A (zh) 一种风力发电机叶片表面损伤轻量化识别方法
CN116468730B (zh) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法
CN110245704B (zh) 业务处理方法、装置、存储介质与电子设备
CN109740479A (zh) 一种车辆重识别方法、装置、设备及可读存储介质
CN111160096A (zh) 禽蛋异常的识别方法、装置及***、存储介质、电子装置
CN112528058B (zh) 基于图像属性主动学习的细粒度图像分类方法
CN115565019A (zh) 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法
CN115393666A (zh) 图像分类中基于原型补全的小样本扩充方法及***
CN114519819A (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备
CN112733652B (zh) 图像目标识别方法、装置、计算机设备及可读存储介质
Wang et al. Instance segmentation of soft‐story buildings from street‐view images with semiautomatic annotation
CN116012709B (zh) 一种高分辨率遥感影像建筑物提取方法及***
CN117036834A (zh) 基于人工智能的数据分类方法、装置及电子设备
CN116682014B (zh) 一种灯幕楼宇图像分割方法、装置、设备及存储介质
CN112529116B (zh) 场景元素融合处理方法、装置和设备及计算机存储介质
CN114419018A (zh) 图像采样方法、***、设备及介质
CN116385818B (zh) 云检测模型的训练方法、装置及设备
CN116958176B (zh) 图像分割方法、装置、计算机设备及介质
CN117058498B (zh) 分割图评估模型的训练方法、分割图的评估方法及装置
US20240135679A1 (en) Method for classifying images and electronic device
Ramani et al. Automatic Feature Extraction from High-Resolution Satellite Imagery using Deep Learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant