CN117576573B - 基于改进vgg16模型的建筑氛围评价方法、***、设备及介质 - Google Patents

基于改进vgg16模型的建筑氛围评价方法、***、设备及介质 Download PDF

Info

Publication number
CN117576573B
CN117576573B CN202410061106.6A CN202410061106A CN117576573B CN 117576573 B CN117576573 B CN 117576573B CN 202410061106 A CN202410061106 A CN 202410061106A CN 117576573 B CN117576573 B CN 117576573B
Authority
CN
China
Prior art keywords
building
feature
layer
atmosphere
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410061106.6A
Other languages
English (en)
Other versions
CN117576573A (zh
Inventor
陈纵
梁海岫
郑豪
姜磊
林泽轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Maritime University
Original Assignee
Guangzhou Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Maritime University filed Critical Guangzhou Maritime University
Priority to CN202410061106.6A priority Critical patent/CN117576573B/zh
Publication of CN117576573A publication Critical patent/CN117576573A/zh
Application granted granted Critical
Publication of CN117576573B publication Critical patent/CN117576573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及建筑氛围分类技术领域,尤其涉及基于改进VGG16模型的建筑氛围评价方法、***、设备及介质,所述方法具体包括:获取建筑图像数据集;构建改进VGG16模型的网络结构,生成初始建筑氛围分类模型;对所述建筑图像数据集进行预处理后,根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型;根据所述目标建筑氛围分类模型,结合梯度加权类激活映射方法,获得输入建筑图像是否符合宁静氛围的结果,以及所述输入建筑图像的各个特征对宁静氛围的结果的影响程度。本发明通过对建筑环境的感知数据进行处理和分析,实现了对建筑氛围的客观、准确、高效的量化预测。

Description

基于改进VGG16模型的建筑氛围评价方法、***、设备及介质
技术领域
本发明涉及建筑氛围分类技术领域,尤其涉及基于改进VGG16模型的建筑氛围评价方法、***、设备及介质。
背景技术
建筑的灵魂在于其塑造环境的氛围,这一点在设计创造和评价过程中至关重要。虽然建筑的外表造型不容忽视,但更深层次的,是它如何触动使用者情感的能力。氛围的魅力在于其对人们感知的深刻影响,因为它是人们所经历空间的最直接且最本质的体验。哪怕是匆匆一瞥,一个场所的魅力也有可能在心底留下不可磨灭的烙印。建筑空间远不止是一堆砖瓦的堆砌,它是充满活力的,呼吸着生命力的存在。以修道院为例,其空间布局旨在促进内省和祷告。这样的设计不仅营造出深沉的宁静感,还细致入微地引导信众进入反思与冥想的境界,有时甚至能让人们对时间的流逝有着全新的认识。一次印象深刻的建筑体验能触动访客的心灵,让他们全神贯注于自我的感受与存在。
尽管氛围的影响不言而喻,但由于其主观而难以量化的特性,对它的深入理解和定义至今仍充满挑战,这使得对氛围的量化评估变得异常困难,尤其是传统的氛围量化预测方法主要依赖于感知分析,受限于主观因素和复杂性,使得其结果不够准确可靠,更无法做到深入对建筑的局部设计特征与建筑氛围之间的关联程度进行准确量化。
发明内容
本发明的目的在于提供基于改进VGG16模型的建筑氛围评价方法、***、设备及介质,通过对建筑环境的感知数据进行处理和分析,实现了对建筑氛围的客观、准确、高效的量化预测,以解决上述现有技术问题的至少之一。
第一方面,本发明提供了基于改进VGG16模型的建筑氛围评价方法,所述方法具体包括:
获取建筑图像数据集,所述建筑图像数据集包括宁静氛围组建筑图像集和标准对照组建筑图像集;
构建改进VGG16模型的网络结构,生成初始建筑氛围分类模型;
对所述建筑图像数据集进行预处理后,根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型;
根据所述目标建筑氛围分类模型,结合梯度加权类激活映射方法,获得输入建筑图像是否符合宁静氛围的结果,以及所述输入建筑图像的各个特征对宁静氛围的结果的影响程度。
进一步地,所述构建改进VGG16模型的网络结构,具体包括:
将接收224×224像素的RGB三通道图像的原始VCG网络输入层替换为接收1024×1024像素的RGB三通道图像的VCG网络输入层;
对原始VCG16模型进行截断并获取截断内容,所述截断内容包括13个卷积层和5个最大池化层,根据所述截断内容构建特征提取层,所述特征提取层用于提取建筑图像的特征信息;
根据通道注意力机制和空间注意力机制构建细化局部特征网络层模块,所述细化局部特征网络层模块用于获取所述特征信息的关键局部特征;
分别为每个最大池化层添加一个用于将最大池化层的输出特征图转换成一维向量的Flatten层;
添加第一全连接层和第二全连接层,将所述第一全连接层的神经元数量设置为1024个,所述第二全连接层的神经元数量设置为512个,所述第一全连接层和所述第二全连接层用于接收所述Flatten层输出的一维向量并进行分类处理;
在所述第一全连接层和所述第二全连接层之后添加输出层,所述输出层的神经元数量设置为2个,并采用sigmoid激活函数,输出范围为[0,1]。
进一步地,所述特征提取层包括5组特征提取结构,第1组、第2组特征提取结构分别都包括2个卷积层,第3组、第4组、第5组特征提取结构分别都包括3个卷积层,每个卷积层均使用3x3大小的卷积核,核数从64逐渐增加到512,步长设置为1,每组特征提取结构之后分别设置有1个最大池化层,每个最大池化层的核尺寸设为2×2、步长设为2,并采用valid模式以避免边缘特征损失。
进一步地,所述根据通道注意力机制和空间注意力机制构建细化局部特征网络层模块,具体包括:
基于池化技术和AWGN网络创建通道注意力单元,所述通道注意力单元用于对原始输入特征图进行特征重校准后得到第一特征图;
基于LCM模块创建空间注意力单元,所述空间注意力单元用于对所述第一特征图进行特征重校准后获得第二特征图;
根据所述通道注意力单元和所述空间注意力单元构建细化局部特征网络层模块,在每组特征提取结构后面均添加所述细化局部特征网络层模块。
进一步地,所述基于池化技术和AWGN网络创建通道注意力单元,所述通道注意力单元用于对原始输入特征图进行特征重校准后得到第一特征图,具体包括:
基于全局平均池化和全局标准差池化分别获取每个通道的统计特征并进行特征融合后,获得第一特征描述符;
基于AWGN网络,通过所述第一特征描述符生成每个通道的通道注意力权重;
获取原始输入特征图,根据每个通道的通道注意力权重对所述原始输入特征图进行特征重校准后得到第一特征图。
进一步地,所述基于LCM模块创建空间注意力单元,所述空间注意力单元用于对所述第一特征图进行特征重校准后获得第二特征图,具体包括:
基于LCM模块分析所述原始输入特征图的每个空间位置的局部结构,获得每个空间位置的局部相关特征图;
将每个空间位置的局部相关特征图进行跨通道信息整合,并通过sigmoid函数获得空间注意力图;
基于所述空间注意力图获得每个空间位置的相关性权重,根据每个空间位置的相关性权重对所述第一特征图进行特征重校准后获得第二特征图。
进一步地,所述根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型,具体包括:
将预处理后的建筑图像数据集输入到所述初始建筑氛围分类模型中;
根据SGD优化器的调优参数和更新规则对所述初始建筑氛围分类模型进行网络训练,同时评估所述网络训练的输出结果的准确率、召回率和特异度并进行校准,获得目标建筑氛围分类模型;
所述调优参数包括:初始学习率为0.001,动量为0.9,学习率衰减为0.000001,使用二元交叉熵损失函数计算损失,总计训练300轮;
所述更新规则满足,其中,/>表示第t+1次迭代的参数,/>表示第t次迭代的参数,/>表示学习率,用于控制参数更新的步长,/>表示损失函数J对参数/>的梯度。
第二方面,本发明提供了基于改进VGG16模型的建筑氛围评价***,所述***具体包括:
图像数据采集模块,用于获取建筑图像数据集,所述建筑图像数据集包括宁静氛围组建筑图像集和标准对照组建筑图像集;
第一模型生成模块,用于构建改进VGG16模型的网络结构,生成初始建筑氛围分类模型;
第二模型生成模块,用于对所述建筑图像数据集进行预处理后,根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型;
模型输出结果模块,用于根据所述目标建筑氛围分类模型,结合梯度加权类激活映射方法,获得输入建筑图像是否符合宁静氛围的结果,以及所述输入建筑图像的各个特征对宁静氛围的结果的影响程度。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器及存储在存储器上的计算机程序,当所述计算机程序在处理器上被执行时,实现如上述方法中任一项所述的基于改进VGG16模型的建筑氛围评价方法。
第四方面,本发明提供了一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器运行时,实现如上述方法中任一项所述的基于改进VGG16模型的建筑氛围评价方法。
与现有技术相比,本发明具有以下技术效果的至少之一:
1、通过对建筑环境的感知数据进行处理和分析,实现了对建筑氛围的客观、准确、高效的量化预测,能够在建筑环境中更全面地捕捉关键特征,提高了氛围量化预测的准确性和可靠性。
2、克服了以往建筑氛围感知分析受限于主观因素和复杂性的问题,模型的预测基于数据的客观特征,减少对主观因素的依赖,提高了预测的一致性和稳定性,卷积神经网络能够学习复杂的图像特征,使得模型能够更全面、深入地理解建筑环境中的氛围特征,这样的学习能力有助于模型适应不同风格和场景的建筑,为各种场景和应用提供了更广泛的适用性。
3、克服了传统方法可能难以准确捕捉建筑图像中与氛围有关的关键区域,导致模型性能受到限制的问题,细化局部特征网络层模块通过引入注意力机制,设计新的通道注意力和空间注意力机制,模型能够更精准地定位图像中与建筑氛围相关的关键区域,有助于减少不相关区域的干扰,提高模型对于重要特征的集中学习,细化局部特征,从而提高氛围感知的准确性。
4、提出基于梯度加权类激活映射的模型建筑氛围关注区域可视化方法,该方法通过生成关注区域的热图,直观展示了模型对于建筑图像中不同区域的关注程度,从而提高了模型的可解释性。可视化结果为建筑设计者提供了有关模型关注的建筑特征的信息,可以作为改进建筑设计的指导。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的基于改进VGG16模型的建筑氛围评价方法的流程示意图;
图2是本发明第二实施例提供的基于改进VGG16模型的建筑氛围评价方法的流程示意图;
图3是本发明第三实施例提供的基于改进VGG16模型的建筑氛围评价方法的流程示意图;
图4是本发明第四实施例提供的基于改进VGG16模型的建筑氛围评价方法的流程示意图;
图5是本发明一实施例提供的基于改进VGG16模型的建筑氛围评价***的结构示意图;
图6是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
参照图1,本发明第一实施例提供了基于改进VGG16模型的建筑氛围评价方法,所述方法具体包括:
S101,获取建筑图像数据集,所述建筑图像数据集包括宁静氛围组建筑图像集和标准对照组建筑图像集。
在本实施例中,可以从Google、Bing等搜索引擎中获取若干宁静氛围组图像(关键词:"serene architecture" "peaceful architecture" 和 "tranquil architecture")和标准对照组图像(关键词:"normal UK architecture interior"和"normal UKarchitecture interior")并筛选排除重复图片与无关图片(如建筑模型图片、渲染图片、书籍封面等),得到最终的数据集。其中,宁静氛围组建筑图像集是通过在各种宁静的场所拍摄建筑图像而得来的,这些场所可能包括乡村、山区、湖泊附近等,这些环境通常能给人带来宁静、放松的感觉。标准对照组建筑图像集则是从各种不同的建筑图像中随机选取,这些图像可能来自城市、公园、商业区等不同环境,它们不具有特定的氛围特征。
S102,构建改进VGG16模型的网络结构,生成初始建筑氛围分类模型。
在本实施例中,VGG16是一种深度卷积神经网络模型,其特点是采用了连续的小的卷积核,相较于其他模型具有更深的层次结构,从而能够更好地提取和抽象图像中的特征信息,因此有利于对偏向主观的建筑氛围的图像进行特征提取。在原始的VCG16模型的基础上,可以对VGG16模型进行改进,以适应建筑氛围分类任务,例如:增加卷积层,在VGG16模型的最后两个全连接层之前,增加2个卷积层,以提高特征提取能力;替换全连接层,将VGG16模型中的最后两个全连接层替换为具有更少神经元数量的全连接层,以降低模型的复杂度,并提高分类性能;添加Dropout层,在全连接层之间添加Dropout层,以防止过拟合;调整激活函数,将最后一层全连接层的激活函数改为Softmax函数,以进行多分类任务;等等。
在一些实施例中,在步骤S102中,所述构建改进VGG16模型的网络结构,具体包括:
将接收224×224像素的RGB三通道图像的原始VCG网络输入层替换为接收1024×1024像素的RGB三通道图像的VCG网络输入层;
对原始VCG16模型进行截断并获取截断内容,所述截断内容包括13个卷积层和5个最大池化层,根据所述截断内容构建特征提取层,所述特征提取层用于提取建筑图像的特征信息;
根据通道注意力机制和空间注意力机制构建细化局部特征网络层模块,所述细化局部特征网络层模块用于获取所述特征信息的关键局部特征;
分别为每个最大池化层添加一个用于将最大池化层的输出特征图转换成一维向量的Flatten层;
添加第一全连接层和第二全连接层,将所述第一全连接层的神经元数量设置为1024个,所述第二全连接层的神经元数量设置为512个,所述第一全连接层和所述第二全连接层用于接收所述Flatten层输出的一维向量并进行分类处理;
在所述第一全连接层和所述第二全连接层之后添加输出层,所述输出层的神经元数量设置为2个,并采用sigmoid激活函数,输出范围为[0,1]。
具体地,所述特征提取层包括5组特征提取结构,第1组、第2组特征提取结构分别都包括2个卷积层,第3组、第4组、第5组特征提取结构分别都包括3个卷积层,每个卷积层均使用3x3大小的卷积核,核数从64逐渐增加到512,步长设置为1,每组特征提取结构之后分别设置有1个最大池化层,每个最大池化层的核尺寸设为2×2、步长设为2,并采用valid模式以避免边缘特征损失。
在该实施例中,使用改进后的VGG16网络结构为主干,构建了建筑氛围分类模型;该网络结构由新的输入层、保留的VGG16特征提取网络层、细化局部特征网络层模块(改进通道注意力和空间注意力的融合模块)以及新的全连接层组成。
(1)输入层
替换原始VGG网络的输入层,从接收224×224像素改为接收分辨率为1024x1024像素的RGB三通道图像的输入层,以保证足够的分辨率以捕捉到建筑结构中的细节。
(2)VGG16原始模型截断的特征提取部分
采用经典的VGG16网络部分结构,对经典网络进行截断,仅使用13个卷积层和5个最大池化层作为特征提取器的一部分,而省略了其全连接层。13个卷积层划分为5组,其中第一组和第二组各包含两个卷积层,后三组各包含三个卷积层。所有卷积层均使用3x3大小的卷积核,核数从64逐渐增加到512(64,128,256,512,512),步长均设为1。此部分的特征提取层终结于Conv5_3(第五组的第三个卷积层)。每组卷积层后面有一个最大池化层,五个池化层的核尺寸设为2x2,所有池化层步长设为2,并采用valid模式以避免边缘特征损失,最大池化层可以对卷积层的输出进行下采样,同时保留最重要的特征信息。
特征提取层包含5组特征提取结构,每组结构中的卷积层数量不同,从第1组的2个卷积层到第5组的3个卷积层,逐渐增加卷积层的深度。这种多组特征提取结构的设计能够捕获不同层次的特征,从浅层到深层,逐步抽象出更高级别的特征表示。
每个卷积层都使用3x3大小的卷积核,这种小卷积核的设计有助于捕获图像中的局部细节信息。同时,核数从64逐渐增加到512,这意味着随着特征提取的深入,模型能够逐渐学习到更多的特征通道,增强特征的表示能力。
每个卷积层的步长设置为1,这意味着卷积操作会在整个图像上平滑进行,不会引入大的位置偏移。此外,每个特征提取结构之后都设置有一个最大池化层,池化层的核尺寸为2x2,步长为2。最大池化操作有助于降低特征的维度,减少计算量,同时还能增强模型的鲁棒性,对图像的微小变化不敏感。采用valid模式进行池化操作可以避免边缘特征的损失,确保模型能够从完整的输入图像中提取有意义的特征。
通过上述设计,特征提取层能够有效地从输入图像中提取出丰富而具有层次的特征。
(3)细化局部特征网络层模块
受Transformer模型启发,在建筑氛围量化预测任务中,为使模型在处理信息时能够自动对关键信息部分给予更多的关注,而不是将所有的信息都同等对待,本发明引入注意力机制,设计了一个通道和空间注意力结合的细化局部特征网络层模块。在每组的卷积块之后加入细化局部特征网络层模块,沿着两个独立的维度(通道和空间)依次推断注意力图,然后学习通道和特征空间位置之间的相互关系,将注意力图乘以输入特征图以进行自适应特征修饰,更好地提取建筑氛围关注区域的细节信息,模块结构如图所示。
(4)添加全连接层和输出层
Flatten层:首先添加一个Flatten层将最后一个最大池化层的输出特征图(feature maps)转换成一维的向量。
全连接层:接着添加两个全连接层。第一个全连接层的神经元数量设置为1024个,较多的神经元可以捕捉更多的特征组合,第二个全连接层的神经元数量则设置为512个,两个全连接层后面均加入ReLU激活函数,以解决梯度消失问题,同时使用Dropout来减少过拟合的风险,Dropout率设置为0.5,即50%的神经元将在每次更新时随机被忽略,从而防止它们过度适应训练数据。
输出层:针对建筑氛围量化预测任务,输出层神经元数量设置为2个,并采用sigmoid激活函数,输出范围为[0,1]。
在一些实施例中,所述根据通道注意力机制和空间注意力机制构建细化局部特征网络层模块,如图2所示,具体包括:
S201,基于池化技术和AWGN网络创建通道注意力单元,所述通道注意力单元用于对原始输入特征图进行特征重校准后得到第一特征图。
在本实施例中,对原始输入特征图进行池化处理,池化操作可以降低特征图的维度,减少计算量,同时增强模型的鲁棒性。将经过池化技术处理的特征图输入到AWGN(Adaptive Weight Generation Network, 自适应的权重生成网络)网络中进行特征重校准,AWGN网络通过计算特征图中每个通道的重要性得分,对通道进行加权处理,从而重新校准特征图的通道信息。上述校准机制可以突出重要通道的特征信息,降低无关或冗余通道的影响,提高特征的有效性和分类准确率。
S202,基于LCM模块创建空间注意力单元,所述空间注意力单元用于对所述第一特征图进行特征重校准后获得第二特征图。
在本实施例中,将第一特征图输入到LCM(Local Context Module)模块中进行处理,LCM模块通过对局部上下文信息的建模,捕获特征图中空间位置的关联性,然后通过计算特征图中每个空间位置的重要性得分,对空间位置进行加权处理,从而重新校准特征图的空间信息,得到第二特征图。上述校准机制可以突出重要空间位置的特征信息,降低无关或冗余空间位置的影响,提高特征的有效性和分类准确率。
S203,根据所述通道注意力单元和所述空间注意力单元构建细化局部特征网络层模块,在每组特征提取结构后面均添加所述细化局部特征网络层模块。
在本实施例中,通过在每组特征提取结构后面添加细化局部特征网络层模块,可以进一步增强模型的特征表示能力,提高分类或识别任务的准确性,其通过通道注意力单元和空间注意力单元的联合作用,可以对特征图进行多维度的特征重校准,有助于模型更好地适应复杂和多变的场景,提高对不同数据分布的泛化能力。
进一步地,上述步骤S201具体如图3所示还包括:
S2011,基于全局平均池化和全局标准差池化分别获取每个通道的统计特征并进行特征融合后,获得第一特征描述符。
在该实施例中,不同于卷积注意力模块(Convolutional Block AttentionModule,CBAM),本发明采用全局平均池化(Global Average Pooling,GAP)和全局标准差池化(Global Standard Deviation Pooling,GSDP)来获取每个通道的统计特征,引入GSDP的目的为考虑通道内部的特征分布差异。全局平均池化和全局标准差池化分别从平均值和波动性两个方面提取每个通道的特征信息。这种多维度的特征提取方法能够更好地捕获输入特征图的内在结构和模式,为后续任务提供更丰富的特征表示。
GAP将 (H×W×C) 的特征图转变为 (1×1×C) 的向量,抓取通道的平均信息;对于输入特征图,其中C是通道数,H是高度,W是宽度,全局平均池化按如下方式计算:
对于每一个通道c,计算全局平均值
这样,得到一个向量,其每个元素表示相应通道的全局平均值。
GSDP也将 (H×W×C) 的特征图转变为 (1×1×C) 的向量,捕获通道内的分散程度。
使用上面计算的全局平均值,计算每个通道的标准差:
与全局平均池化类似,这会产生一个向量,其每个元素表示对应通道的全局标准差。
和/>沿着通道维度拼接(concatenate),生成融合后的描述符
S2012,基于AWGN网络,通过所述第一特征描述符生成每个通道的通道注意力权重。
在该实施例中,得到后,该描述符可以被用来为每个通道计算一个注意力权重。这些统计特征被送入一个小型的网络(两层全连接层),该网络学习生成每个通道的权重。第一个全连接层可能将 (1×1×C) 的向量降维到 (1×1×(C/r)),其中r是缩减率,用于控制模型复杂度。第二个全连接层则将维度从 (1×1×(C/r))增加回(1×1×C) 。
使用第一个全连接层对进行降维,得到一个较小维度的特征向量/>,其中 r 是压缩比率。
其中是全连接层的权重,/>是偏置项,ReLU是非线性激活函数。
下一步是通过第二个全连接层将特征向量的维度重新升高到原始通道数C,得到通道注意力权重/>,并使用sigmoid函数激活生成的权重。
其中是全连接层的权重,/>是偏置项,sigmoid是激活函数,用于将权重归一化到( (0, 1) )区间。
生成的通道注意力权重可以对特征图中的每个通道进行加权处理,通过对重要通道赋予较大的权重,而对不重要或冗余的通道赋予较小的权重,可以进一步突出特征图的重点信息,降低无关或冗余信息的影响。
S2013,获取原始输入特征图,根据每个通道的通道注意力权重对所述原始输入特征图进行特征重校准后得到第一特征图。
在该实施例中,将激活后的权重乘以原始输入特征图以执行通道级的特征重校准,以此来增强模型对信息丰富区域的关注,即
其中,表示上述第一特征图,/>表示上述原始输入特征图,/>表示通道注意力权重。
通过使用通道注意力权重,可以对原始输入特征图中的每个通道进行加权处理。这种加权处理可以突出重要通道的特征信息,同时抑制不重要或冗余通道的特征信息,有助于模型更好地理解和提取特征图的内在结构,提高分类或识别任务的准确性。
进一步地,上述步骤S202具体如图4所示还包括:
S2021,基于LCM模块分析所述原始输入特征图的每个空间位置的局部结构,获得每个空间位置的局部相关特征图。
在该实施例中,为通过强化图像中局部相关区域的特征,以提高VGG16模型在建筑氛围量化预测任务中的表现,对于空间注意力机制设计,我们采用局部相关性模块(LocalCorrelation Module, LCM)通过分析图像中每个位置的局部结构,从而生成一个空间注意力图,这个注意力图可以用来强调或抑制特定区域的特征表示,来更好地捕捉局部特征之间的依赖关系。
不同于CBAM(CBAM的空间注意力更多地侧重于全局上下文特征),LCM的空间注意力更专注于局部特征之间的相关性对每个位置,计算其与周围邻域内所有位置的相关性。通过一个卷积操作实现,其中卷积核的大小定义了局部邻域的范围,这里采用3×3卷积核,旨在通过强化局部区域的相关性来提升对细节特征的响应。对获得的局部特征进行自相关运算,利用逐元素平方操作,以强调局部特征中的相关性。
对于输入特征图,我们应用一组3×3卷积核进行局部特征提取。这些卷积核可以捕获每个位置的局部模式和结构。
其中是卷积核的权重参数,/>是偏置参数,/>表示卷积操作,/>是激活函数。通常/>会设置为与输入特征图( C )相同的通道数,以便保持通道维度的一致性。
在局部特征上执行自相关运算,它可以是逐元素的平方运算,或者是特征间的乘法操作。这一步强化了图像中的局部特征。
这里表示Hadamard积(逐元素乘法),它会强调局部特征中的相关性。
LCM模块可以对原始输入特征图的每个空间位置进行分析,提取其局部结构特征,能够感知到特征图中每个空间位置的局部结构信息,可以更好地捕捉到图像中的边缘、纹理等细节信息,有助于模型更好地理解图像内容,有助于模型更好地理解图像中物体的位置和相对关系,提高分类或识别任务的准确性。
S2022,将每个空间位置的局部相关特征图进行跨通道信息整合,并通过sigmoid函数获得空间注意力图。
在该实施例中,使用这些归一化的权重来加权局部邻域的特征,以强化相关性高的特征。
最后一步是生成空间注意力图,这是通过对应用另一个1x1卷积,然后通过sigmoid激活函数来完成的。这样可以将每个位置上的特征向量映射到一个单一的标量值,该值在0和1之间,表示该位置的重要性。通过sigmoid函数归一化这些相关性权重。
其中是1x1卷积的权重,/>是偏置,sigmoid是激活函数,是最终的激活权重,/>是进行跨通道信息整合后的相关性权重。
通过将每个空间位置的局部相关特征图进行跨通道信息整合,可以将不同通道的特征信息进行融合,提取出更丰富和全面的特征表示,有助于模型更好地理解输入特征图的内在结构和模式,提高分类或识别任务的准确性,反映了模型对不同空间位置的关注程度,有助于模型更好地聚焦于重要的区域和细节。
S2023,基于所述空间注意力图获得每个空间位置的相关性权重,根据每个空间位置的相关性权重对所述第一特征图进行特征重校准后获得第二特征图。
在该实施例中,将激活后的权重乘以第一特征图以执行通道级的特征重校准,以此来增强模型对信息丰富区域的关注。
其中,表示第二特征图,/>表示第一特征图,/>表示最终激活的相关性权重。
通过使用空间注意力图中每个空间位置的相关性权重,可以对第一特征图中的特征进行加权处理,可以突出重要空间位置的特征信息,同时抑制不重要或冗余空间位置的特征信息,有助于模型更好地理解特征图中的全局结构和模式,进一步增强模型的表达能力。
S103,对所述建筑图像数据集进行预处理后,根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型。
在本实施例中,对所述建筑图像数据集进行预处理,具体包括:
(1)对采集的建筑图像进行数据增强:对图像数据进行数据增强,包括旋转、缩放、剪切和水平翻转等;让模型能够学习到更加鲁棒的特征,提高其对不同环境和条件下的泛化能力。
1.1)旋转
选择一个随机角度,将图像旋转该角度,角度改变限定在[-30°, 30°],旋转操作可以帮助模型学习到位置不变性。对于角度θ,图像上的每个点(x, y)将变换为(x', y'),其中:
1.2)缩放
对图像以随机的缩放因子进行缩放。将缩放因子限制在一个[0.8, 1.2]的范围内,缩放后的图像需要重新调整到网络输入尺寸。
1.3)剪切
对图像进行剪切变换,改变图像内容的透视。剪切变换可以用仿射变换矩阵来表示,通常在水平或垂直方向上应用。
1.4)水平翻转
将图像以一定的概率水平翻转,可以提供更多的数据多样性。
(2)对图像进行格式转换、尺寸调整:将图像的数据类型转换为浮点型float32;并且对图像进行尺寸调整,确保图像的尺寸与模型输入的尺寸相匹配(改进后的VGG16要求的输入尺寸为1024x1024像素)。
(3)对增强调整后的图像数据进行均值标准化(mean):去除数据的均值偏移,将特征数据的均值调整为0。针对三个颜色通道(RGB)分别计算,将每个像素值减去在大型数据集(ImageNet)上计算得到的每个颜色通道的全局平均值,并除以标准差。这种方式确保了输入数据的分布与预训练模型使用的分布相匹配,帮助模型更好地泛化到新数据。使用以下ImageNet上预训练的VGG16模型的均值和标准差:
均值(RGB顺序): [123.68, 116.779, 103.939]
标准差(RGB顺序): [58.393, 57.12, 57.375]
对于每个颜色通道,标准化的计算公式如下:
其中,是在位置(x, y)处颜色通道c(红R或绿G或蓝B)的像素值,/>是指该颜色通道在ImageNet数据集上的均值,/>是指该颜色通道在ImageNet数据集上的标准差。
通过这个过程,建筑图像数据集的每个特征都经过了零均值和单位标准差的处理,有助于在训练卷积神经网络模型时加速梯度下降算法的收敛速度,减少参数更新的方差,并且保持不同特征尺度的一致性,防止某些特征的权重过大对模型产生不良影响;同时通过减少输入特征之间的相关性,均值标准化有助于模型学习更加鲁棒的特征,从而提高模型的泛化能力。
数据预处理有利于确保输入数据的质量和一致性,这一步骤有助于提高模型的稳定性和泛化能力。
进一步地,在上述步骤S103中,所述根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型,具体包括:
将预处理后的建筑图像数据集输入到所述初始建筑氛围分类模型中;
根据SGD优化器的调优参数和更新规则对所述初始建筑氛围分类模型进行网络训练,同时评估所述网络训练的输出结果的准确率、召回率和特异度并进行校准,获得目标建筑氛围分类模型;
所述调优参数包括:初始学习率为0.001,动量为0.9,学习率衰减为0.000001,使用二元交叉熵损失函数计算损失,总计训练300轮;
所述更新规则满足,其中,/>表示第t+1次迭代的参数,/>表示第t次迭代的参数,/>表示学习率,用于控制参数更新的步长,/>表示损失函数J对参数/>的梯度。
在该实施例中,将预处理好的建筑图像输入到网络中进行训练,并使用SGD优化器调优,初始学习率为0.001,动量为0.9,学习率衰减为0.000001,使用二元交叉熵损失函数计算损失,总计训练300轮,通过训练神经网络模型进行建筑氛围量化预测模型的学习。
SGD(Stochastic Gradient Descent,随机梯度下降)是深度学习中最基本的优化算法之一,用于最小化损失函数,从而更新模型的参数。SGD的基本思想是通过迭代更新参数,使得损失函数逐渐收敛到最小值。
在具体实现中,引入了动量,以在更新中考虑过去梯度的加权平均。这有助于在梯度方向上累积速度,提高收敛性;同时采用学习率调度方法, 动态调整学习率,随训练过程逐渐减小学习率,有助于更精细地调整参数。在损失函数的选择上,由于是二分类任务,因此采用二元交叉熵(Binary Crossentropy)损失函数,其表达式如下:
其中,是样本数量,/>是第i个样本的实际标签(0或1),/>是第i个样本的模型预测输出。
在训练过程中,模型将尝试最小化二元交叉熵损失函数,以优化模型参数,使其更好地适应建筑氛围量化预测任务。
同时,采用准确率(Accuracy)、召回率(Recall)和特异度(Specificity)作为模型评估性能指标,计算公式如下:
;/>
其中,TP表示正确预测的宁静氛围图像数量,FP表示将宁静氛围图像预测为标准对照图像的数量,TN表示正确预测的标准对照图像数量,FN表示将标准对照图像预测为宁静氛围图像的数量。Accuracy为预测类别正确的图像数量占总预测图像数量的样本比例,在类别数据平衡的情况下,反映模型对建筑氛围量化预测的可靠程度。通过计算可以得到一个在0到1之间的值,表示模型的整体分类准确度。通常准确度越高,模型的性能越好。Recall为预测正确的宁静氛围图像占总真实宁静氛围图像的比例,反映模型对宁静氛围的建筑图像预测的准确性。Specificity为预测正确的标准对照图像占总真实标准对照图像的比例,反映模型对标准对照的建筑图像预测的准确性。在Accuracy指标的基础上,加入Recall和Specificity两个指标,以更全面地评估模型性能。
S104,根据所述目标建筑氛围分类模型,结合梯度加权类激活映射方法,获得输入建筑图像是否符合宁静氛围的结果,以及所述输入建筑图像的各个特征对宁静氛围的结果的影响程度。
在本实施例中,将新的建筑环境图像进行预处理后并输入已训练好的模型,得到建筑氛围的量化预测输出结果。
在图像预测的输出之后,加入梯度加权类激活映射 (Gradient-weighted ClassActivation Mapping,Grad-CAM)方法,无需更改架构或重新训练,通过使用梯度信息来可视化模型对输入图像的关注区域,从而提供更详细的模型解释。
(1)梯度信息:在模型进行前向传播时,记录特定类别的输出分数对于卷积层的梯度。这些梯度表示了输出分数相对于卷积层特征图的变化程度。
(2)全局平均池化:对梯度信息进行全局平均池化,得到每个特征图上的权重,表示该特征图对于目标类别的重要性。
(3)加权和:将每个特征图乘以相应的权重,然后对所有特征图进行加权和。这个加权和表示输入图像的哪些区域对于模型最终的分类决策起到了关键作用。
(4)ReLU激活:对加权和应用ReLU激活函数,以排除负权重对最终可视化的影响。
(5)上采样:将最终的特征图上采样到与输入图像相同的大小,得到Grad-CAM的可视化结果。
Grad-CAM的输出结果是一个热力图,用于表示输入的建筑环境图像中模型关注的区域。这有助于解释模型的氛围感知决策,并提供对宁静氛围分类结果的可视化理解。
通过模型输出获取机器判断建筑是否符合宁静氛围的结果,同时可以对模型输出的热力图结果进行解释,明确不同特征对建筑氛围的影响程度。根据模型的量化预测和可视化结果,可以为建筑设计、改进建筑环境质量和用户体验提供实质性的指导。
以上步骤构成了改进VGG16模型(卷积神经网络)的建筑氛围量化预测和评价方法的主要算法流程。算法通过改进VGG16模型的量化预测和梯度加权类激活映射方法的可视化,能够更全面、更客观地分析建筑环境感知数据,提高氛围量化预测的准确性和实用性,并为提高建筑环境质量提供指导。
参照图5,本发明一实施例提供了基于改进VGG16模型的建筑氛围评价***5,所述***5具体包括:
图像数据采集模块501,用于获取建筑图像数据集,所述建筑图像数据集包括宁静氛围组建筑图像集和标准对照组建筑图像集;
第一模型生成模块502,用于构建改进VGG16模型的网络结构,生成初始建筑氛围分类模型;
第二模型生成模块503,用于对所述建筑图像数据集进行预处理后,根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型;
模型输出结果模块504,用于根据所述目标建筑氛围分类模型,结合梯度加权类激活映射方法,获得输入建筑图像是否符合宁静氛围的结果,以及所述输入建筑图像的各个特征对宁静氛围的结果的影响程度。
可以理解的是,如图1所示的基于改进VGG16模型的建筑氛围评价方法实施例中的内容均适用于本基于改进VGG16模型的建筑氛围评价***实施例中,本基于改进VGG16模型的建筑氛围评价***实施例所具体实现的功能与如图1所示的基于改进VGG16模型的建筑氛围评价方法实施例相同,并且达到的有益效果与如图1所示的基于改进VGG16模型的建筑氛围评价方法实施例所达到的有益效果也相同。
需要说明的是,上述***之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述***的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
参照图6,本发明实施例还提供了一种计算机设备6,包括:存储器602和处理器601及存储在存储器602上的计算机程序603,当所述计算机程序603在处理器601上被执行时,实现如上述方法中任一项所述的基于改进VGG16模型的建筑氛围评价方法。
所述计算机设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该计算机设备6可包括,但不仅限于,处理器601、存储器602。本领域技术人员可以理解,图6仅仅是计算机设备6的举例,并不构成对计算机设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器601可以是中央处理单元(Central Processing Unit,CPU),该处理器601还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器602在一些实施例中可以是所述计算机设备6的内部存储单元,例如计算机设备6的硬盘或内存。所述存储器602在另一些实施例中也可以是所述计算机设备6的外部存储设备,例如所述计算机设备6上配备的插接式硬盘,智能存储卡(Smart MediaCard, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器602还可以既包括所述计算机设备6的内部存储单元也包括外部存储设备。所述存储器602用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器602还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,实现如上述方法中任一项所述的基于改进VGG16模型的建筑氛围评价方法。
该实施例中,所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所公开的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

Claims (9)

1.基于改进VGG16模型的建筑氛围评价方法,其特征在于,所述方法具体包括:
获取建筑图像数据集,所述建筑图像数据集包括宁静氛围组建筑图像集和标准对照组建筑图像集;
构建改进VGG16模型的网络结构,生成初始建筑氛围分类模型;
其中,所述构建改进VGG16模型的网络结构,具体包括:
将接收224×224像素的RGB三通道图像的原始VGG网络输入层替换为接收1024×1024像素的RGB三通道图像的VGG网络输入层;
对原始VGG16模型进行截断并获取截断内容,所述截断内容包括13个卷积层和5个最大池化层,根据所述截断内容构建特征提取层,所述特征提取层用于提取建筑图像的特征信息;
根据通道注意力机制和空间注意力机制构建细化局部特征网络层模块,所述细化局部特征网络层模块用于获取所述特征信息的关键局部特征;
分别为每个最大池化层添加一个用于将最大池化层的输出特征图转换成一维向量的Flatten层;
添加第一全连接层和第二全连接层,将所述第一全连接层的神经元数量设置为1024个,所述第二全连接层的神经元数量设置为512个,所述第一全连接层和所述第二全连接层用于接收所述Flatten层输出的一维向量并进行分类处理;
在所述第一全连接层和所述第二全连接层之后添加输出层,所述输出层的神经元数量设置为2个,并采用sigmoid激活函数,输出范围为[0,1];
对所述建筑图像数据集进行预处理后,根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型;
根据所述目标建筑氛围分类模型,结合梯度加权类激活映射方法,获得输入建筑图像是否符合宁静氛围的结果,以及所述输入建筑图像的各个特征对宁静氛围的结果的影响程度。
2.根据权利要求1所述的方法,其特征在于,所述特征提取层包括5组特征提取结构,第1组、第2组特征提取结构分别都包括2个卷积层,第3组、第4组、第5组特征提取结构分别都包括3个卷积层,每个卷积层均使用3x3大小的卷积核,核数从64逐渐增加到512,步长设置为1,每组特征提取结构之后分别设置有1个最大池化层,每个最大池化层的核尺寸设为2×2、步长设为2,并采用valid模式以避免边缘特征损失。
3.根据权利要求2所述的方法,其特征在于,所述根据通道注意力机制和空间注意力机制构建细化局部特征网络层模块,具体包括:
基于池化技术和AWGN网络创建通道注意力单元,所述通道注意力单元用于对原始输入特征图进行特征重校准后得到第一特征图;
基于LCM模块创建空间注意力单元,所述空间注意力单元用于对所述第一特征图进行特征重校准后获得第二特征图;
根据所述通道注意力单元和所述空间注意力单元构建细化局部特征网络层模块,在每组特征提取结构后面均添加所述细化局部特征网络层模块。
4.根据权利要求3所述的方法,其特征在于,所述基于池化技术和AWGN网络创建通道注意力单元,所述通道注意力单元用于对原始输入特征图进行特征重校准后得到第一特征图,具体包括:
基于全局平均池化和全局标准差池化分别获取每个通道的统计特征并进行特征融合后,获得第一特征描述符;
基于AWGN网络,通过所述第一特征描述符生成每个通道的通道注意力权重;
获取原始输入特征图,根据每个通道的通道注意力权重对所述原始输入特征图进行特征重校准后得到第一特征图。
5.根据权利要求3所述的方法,其特征在于,所述基于LCM模块创建空间注意力单元,所述空间注意力单元用于对所述第一特征图进行特征重校准后获得第二特征图,具体包括:
基于LCM模块分析所述原始输入特征图的每个空间位置的局部结构,获得每个空间位置的局部相关特征图;
将每个空间位置的局部相关特征图进行跨通道信息整合,并通过sigmoid函数获得空间注意力图;
基于所述空间注意力图获得每个空间位置的相关性权重,根据每个空间位置的相关性权重对所述第一特征图进行特征重校准后获得第二特征图。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型,具体包括:
将预处理后的建筑图像数据集输入到所述初始建筑氛围分类模型中;
根据SGD优化器的调优参数和更新规则对所述初始建筑氛围分类模型进行网络训练,同时评估所述网络训练的输出结果的准确率、召回率和特异度并进行校准,获得目标建筑氛围分类模型;
所述调优参数包括:初始学习率为0.001,动量为0.9,学习率衰减为0.000001,使用二元交叉熵损失函数计算损失,总计训练300轮;
所述更新规则满足,其中,/>表示第t+1次迭代的参数,表示第t次迭代的参数,/>表示学习率,用于控制参数更新的步长,/>表示损失函数J对参数/>的梯度。
7.基于改进VGG16模型的建筑氛围评价***,其特征在于,所述***具体包括:
图像数据采集模块,用于获取建筑图像数据集,所述建筑图像数据集包括宁静氛围组建筑图像集和标准对照组建筑图像集;
第一模型生成模块,用于构建改进VGG16模型的网络结构,生成初始建筑氛围分类模型;
其中,所述构建改进VGG16模型的网络结构,具体包括:
将接收224×224像素的RGB三通道图像的原始VGG网络输入层替换为接收1024×1024像素的RGB三通道图像的VGG网络输入层;
对原始VGG16模型进行截断并获取截断内容,所述截断内容包括13个卷积层和5个最大池化层,根据所述截断内容构建特征提取层,所述特征提取层用于提取建筑图像的特征信息;
根据通道注意力机制和空间注意力机制构建细化局部特征网络层模块,所述细化局部特征网络层模块用于获取所述特征信息的关键局部特征;
分别为每个最大池化层添加一个用于将最大池化层的输出特征图转换成一维向量的Flatten层;
添加第一全连接层和第二全连接层,将所述第一全连接层的神经元数量设置为1024个,所述第二全连接层的神经元数量设置为512个,所述第一全连接层和所述第二全连接层用于接收所述Flatten层输出的一维向量并进行分类处理;
在所述第一全连接层和所述第二全连接层之后添加输出层,所述输出层的神经元数量设置为2个,并采用sigmoid激活函数,输出范围为[0,1];
第二模型生成模块,用于对所述建筑图像数据集进行预处理后,根据预处理后的建筑图像数据集对所述初始建筑氛围分类模型进行训练,获得目标建筑氛围分类模型;
模型输出结果模块,用于根据所述目标建筑氛围分类模型,结合梯度加权类激活映射方法,获得输入建筑图像是否符合宁静氛围的结果,以及所述输入建筑图像的各个特征对宁静氛围的结果的影响程度。
8.一种计算机设备,其特征在于,包括:存储器和处理器及存储在存储器上的计算机程序,当所述计算机程序在处理器上被执行时,实现如权利要求1至6中任一项所述的基于改进VGG16模型的建筑氛围评价方法。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至6中任一项所述的基于改进VGG16模型的建筑氛围评价方法。
CN202410061106.6A 2024-01-16 2024-01-16 基于改进vgg16模型的建筑氛围评价方法、***、设备及介质 Active CN117576573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410061106.6A CN117576573B (zh) 2024-01-16 2024-01-16 基于改进vgg16模型的建筑氛围评价方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410061106.6A CN117576573B (zh) 2024-01-16 2024-01-16 基于改进vgg16模型的建筑氛围评价方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN117576573A CN117576573A (zh) 2024-02-20
CN117576573B true CN117576573B (zh) 2024-05-17

Family

ID=89886696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410061106.6A Active CN117576573B (zh) 2024-01-16 2024-01-16 基于改进vgg16模型的建筑氛围评价方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN117576573B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476283A (zh) * 2020-03-31 2020-07-31 上海海事大学 基于迁移学习的青光眼眼底图像识别方法
CN111523561A (zh) * 2020-03-19 2020-08-11 深圳市彬讯科技有限公司 图像风格识别方法、装置、计算机设备及存储介质
CN111612066A (zh) * 2020-05-21 2020-09-01 成都理工大学 基于深度融合的卷积神经网络的遥感图像分类方法
CN113362223A (zh) * 2021-05-25 2021-09-07 重庆邮电大学 基于注意力机制和双通道网络的图像超分辨率重建方法
CN115311555A (zh) * 2022-07-15 2022-11-08 武汉大学 一种基于批风格混合的遥感影像建筑物提取模型泛化方法
WO2022252272A1 (zh) * 2021-06-03 2022-12-08 江苏大学 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN115830379A (zh) * 2022-12-05 2023-03-21 太原科技大学 基于双注意力机制的零样本建筑图像分类方法
CN117315477A (zh) * 2023-10-17 2023-12-29 北京林业大学 一种基于深度学习的古建筑识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679525B (zh) * 2017-11-01 2022-11-29 腾讯科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523561A (zh) * 2020-03-19 2020-08-11 深圳市彬讯科技有限公司 图像风格识别方法、装置、计算机设备及存储介质
CN111476283A (zh) * 2020-03-31 2020-07-31 上海海事大学 基于迁移学习的青光眼眼底图像识别方法
CN111612066A (zh) * 2020-05-21 2020-09-01 成都理工大学 基于深度融合的卷积神经网络的遥感图像分类方法
CN113362223A (zh) * 2021-05-25 2021-09-07 重庆邮电大学 基于注意力机制和双通道网络的图像超分辨率重建方法
WO2022252272A1 (zh) * 2021-06-03 2022-12-08 江苏大学 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN115311555A (zh) * 2022-07-15 2022-11-08 武汉大学 一种基于批风格混合的遥感影像建筑物提取模型泛化方法
CN115830379A (zh) * 2022-12-05 2023-03-21 太原科技大学 基于双注意力机制的零样本建筑图像分类方法
CN117315477A (zh) * 2023-10-17 2023-12-29 北京林业大学 一种基于深度学习的古建筑识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于建筑群体氛围的柔性色彩规划策略研究;刘思捷 等;《住宅科技》;20190531(第5期);第1-6页 *
疗愈导向的大学校园支持性环境营造国际研究进展与启示 ——基于CiteSpace知识图谱分析;梁海岫 等;《新建筑》;20230228(第2期);第67-73页 *

Also Published As

Publication number Publication date
CN117576573A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
KR102629380B1 (ko) 실제 3차원 객체를 실제 객체의 2-차원 스푸프로부터 구별하기 위한 방법
US20220230324A1 (en) Camouflaged object segmentation method with distraction mining
CN111507378A (zh) 训练图像处理模型的方法和装置
CN111709409A (zh) 人脸活体检测方法、装置、设备及介质
CN112639828A (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN104866868A (zh) 基于深度神经网络的金属币识别方法和装置
CN112651333B (zh) 静默活体检测方法、装置、终端设备和存储介质
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN112115900B (zh) 图像处理方法、装置、设备及存储介质
CN113240120A (zh) 基于温习机制的知识蒸馏方法、装置、计算机设备和介质
US11367206B2 (en) Edge-guided ranking loss for monocular depth prediction
CN116740439A (zh) 一种基于跨尺度金字塔Transformer的人群计数方法
Carballal et al. Transfer learning features for predicting aesthetics through a novel hybrid machine learning method
Singh et al. SEAM-an improved environmental adaptation method with real parameter coding for salient object detection
CN116701706B (zh) 一种基于人工智能的数据处理方法、装置、设备及介质
CN117576573B (zh) 基于改进vgg16模型的建筑氛围评价方法、***、设备及介质
Shinde et al. Feedforward back propagation neural network (FFBPNN) based approach for the identification of handwritten math equations
CN115311550B (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
Kumar et al. Guiding attention of faces through graph based visual saliency (GBVS)
CN116363461A (zh) 多视图儿童肿瘤病理图像分类的深度网络增量学习方法
CN113052242B (zh) 图像处理网络的训练方法及装置、图像处理方法及装置
CN111539420B (zh) 基于注意力感知特征的全景图像显著性预测方法及***
Yuan et al. Image matting trimap optimization by ant colony algorithm
Ciocarlan et al. Deep-NFA: A deep a contrario framework for tiny object detection
CN113674383A (zh) 生成文本图像的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant