CN116563748A - 一种高层施工建筑物高度测量方法及*** - Google Patents
一种高层施工建筑物高度测量方法及*** Download PDFInfo
- Publication number
- CN116563748A CN116563748A CN202310409740.XA CN202310409740A CN116563748A CN 116563748 A CN116563748 A CN 116563748A CN 202310409740 A CN202310409740 A CN 202310409740A CN 116563748 A CN116563748 A CN 116563748A
- Authority
- CN
- China
- Prior art keywords
- building
- video data
- semantic segmentation
- height
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000010276 construction Methods 0.000 title abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 147
- 238000005259 measurement Methods 0.000 claims abstract description 27
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 49
- 230000007246 mechanism Effects 0.000 claims description 46
- 238000000605 extraction Methods 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 18
- 210000005036 nerve Anatomy 0.000 claims description 12
- 238000000691 measurement method Methods 0.000 claims description 8
- 230000001537 neural effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract 1
- 230000002776 aggregation Effects 0.000 description 9
- 238000004220 aggregation Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000669761 Aggregata Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000009435 building construction Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01B—MEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
- G01B21/00—Measuring arrangements or details thereof, where the measuring technique is not covered by the other groups of this subclass, unspecified or not relevant
- G01B21/02—Measuring arrangements or details thereof, where the measuring technique is not covered by the other groups of this subclass, unspecified or not relevant for measuring length, width, or thickness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/02—Recognising information on displays, dials, clocks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种高层施工建筑物高度测量方法及***,属于建筑物数据处理技术,包括:获取待测量建筑物的外立面视频数据;将外立面视频数据输入至实时语义分割模型,对外立面视频数据进行分割预测,获得视频数据语义分割预测结果;采集无人机气压计参数,结合视频数据语义分割预测结果和无人机气压计参数,得到建筑物高度信息;根据建筑物图纸楼层信息,采用机器学习将建筑物高度信息与建筑物图纸楼层信息进行校准,得到待测量建筑物的楼层测量结果。本发明通过构建高层施工建筑中关键点数据集,由无人机获取实测视频数据,采用实时语义分割模型进行分割预测,结合多种高度相关参数进行高度信息和楼层信息校准,获得较为准确的建筑高度和楼层信息。
Description
技术领域
本发明涉及建筑物数据处理技术领域,尤其涉及一种高层施工建筑物高度测量方法及***。
背景技术
在高层建筑施工中,通常需要测量高层建筑关键节点,例如高度和楼层等,通常采用例如激光雷达采集的三维点云对建筑工程进行三维重建,以构建得到建筑工程的三维模型,进而读取对应关键节点的高度。
目前,在测量建筑高度中使用激光雷达无人机扫描点云和计算点云参数对建筑工程进行重构,需要耗费很多资金并投入很多算力。但是,工程施工过程是一个动态的过程,频繁的投入会造成资金和算力的浪费。现有的方法无法满足同时兼顾测量的精准性和低成本资源的投入。
因此,需要提出一种新的高层施工建筑物高度测量方法。
发明内容
本发明提供一种高层施工建筑物高度测量方法及***,用以解决现有技术中针对高层施工建筑高度测量存在实施难度高、精准度低和成本较高的缺陷。
第一方面,本发明提供一种高层施工建筑物高度测量方法,包括:
获取待测量建筑物的外立面视频数据;
将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果;
采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息;
根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果。
第二方面,本发明还提供一种高层施工建筑物高度测量***,包括:
获取模块,用于获取待测量建筑物的外立面视频数据;
预测模块,用于将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果;
处理模块,用于采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息;
校准模块,用于根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述高层施工建筑物高度测量方法。
本发明提供的高层施工建筑物高度测量方法及***,通过构建高层施工建筑中关键点数据集,由无人机获取实测视频数据,采用实时语义分割模型进行分割预测,结合多种高度相关参数进行高度信息和楼层信息校准,获得较为准确的建筑高度和楼层信息。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的高层施工建筑物高度测量方法的流程示意图;
图2是本发明提供的***应用环境图;
图3是本发明提供的实时语义分割模型结构图;
图4是本发明提供的高层施工建筑物高度测量***的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的高层施工建筑物高度测量方法的流程示意图,如图1所示,包括:
步骤100:获取待测量建筑物的外立面视频数据;
步骤200:将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果;
步骤300:采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息;
步骤400:根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果。
需要说明的是,本发明实施例提出的高层施工建筑物高度测量方法,可应用于如图2所示的应用环境中,视频数据以及气压计参数采集设备与视频数据以及气压计参数处理平台进行通信,数据存储***可以存储视频数据以及气压计参数处理平台需要处理的数据,数据存储***放在移动工作站中。
根据采集的实测视频数据,调用预先训练得到的实时语义分割模型,对实测视频数据进行分割预测,得到实测视频数据的语义分割预测结果,其中,实时语义分割模型包括注意力机制特征提取层和图卷积特征提取层,以及注意力机制分割网络和卷积神经分割网络,通过将注意力机制特征提取层和图卷积特征提取层的结果进行融合,得到融合特征,将融合特征输入至分割网络中进行分析,得到实测视频数据的语义分割预测结果,根据语义分割预测结果对气压计进行参数读取,得到当前被分割关键点的高度参数,然后根据OCR文字识别(Optical Character Recognition,OCR)识别建筑模楼层表,构建机器学***台可以但不限于各种含高性能NVIDIA显卡的个人计算机、笔记本电脑、移动工作站,也可以集成在独立的服务器或者是多个服务器组成的服务器集群上,视频数据以及气压计参数采集设备可以是任意一种含有气压计和摄像头的无人机。
本发明通过构建高层施工建筑中关键点数据集,由无人机获取实测视频数据,采用实时语义分割模型进行分割预测,结合多种高度相关参数进行高度信息和楼层信息校准,获得较为准确的建筑高度和楼层信息。
基于上述实施例,所述获取待测量建筑物的外立面视频数据,包括:
确定所述待测量建筑物的预设关键节点;
通过无人机载视频采集设备对所述预设关键节点进行扫描,获取所述外立面视频数据;
由无人机将所述外立面视频数据通过预设传输协议传输至移动工作站进行处理。
具体地,本发明实施例获取施工中建筑物外立面洞口等关键节点视频数据,关键节点是对施工中建筑进行观察,容易识别的节点,包括房间窗户、阳台门、厕所窗户或者洞口等,通过对洞口观察可以大致获取建筑物楼层数。
施工中建筑物外立面洞口等关键节点视频实测数据可以是包含上述建筑物外立面中全部窗户、洞口、阳台窗、施工中爬架的视频数据,通过搭载了摄像头视频采集设备的无人机对施工中建筑物外立进行扫描采集得到。
视频数据是在一定数量连续的照片集合,扫描视频数据通过视频协议,传输到移动工作站中,根据无人机机型选择视频协议,如RTSP、RTMP、HLS、HTTP等。传输到移动工作站的过程,根据无人机性能和网络状况,选择是否采用压缩算法压缩的流数据,如经过压缩算法压缩的流数据,以H.264为主的编码算法,或者未经压缩的原始流数据。
基于上述实施例,所述预先训练好的实时语义分割模型,通过如下步骤获得:
构建初始实时语义分割模型;
基于预设公开数据集对所述初始实时语义分割模型中的初始双支下采样层进行预训练,获取训练双支下采样层权重;
采用预设关键点训练数据集,利用所述训练双支下采样层权重对所述初始实时语义分割模型中的预训练后双支下采样层进行训练,得到训练特征数据;
通过注意力机制特征提取层和图卷积特征提取层对所述训练特征数据进行融合处理,得到训练融合特征;
将所述训练融合特征分别输入初始双支上采样网络中的注意力机制分割网络和神经卷积分割网络,得到初始分割预测值;
将所述初始分割预测值输入至初始分类网络进行迭代学习,直至满足最大预设迭代次数,得到所述预先训练好的实时语义分割模型。
其中,所述构建初始实时语义分割模型,包括:
确定输入层分别与并列的所述注意力机制特征提取层和所述图卷积特征提取层相连接,所述注意力机制特征提取层和所述图卷积特征提取层分别与特征融合层相连接;
确定所述特征融合层分别与所述注意力机制分割网络和所述神经卷积分割网络相连接,所述注意力机制分割网络和所述神经卷积分割网络分别与解码后特征融合层相连接,所述解码后特征融合层与输出层相连接。
其中,所述预设关键点训练数据集,通过以下步骤获得:
获取不同样式的门窗洞口图片,将所述门窗洞口图片剪裁为预设大小尺寸,采用预设编码和预设格式保存剪裁后的门窗洞口图片,确定所述剪裁后的门窗洞口图片为数据集前景;
获取不同样式的墙壁图片,将所述墙壁图片剪裁为预设大小尺寸,采用预设编码和预设格式保存剪裁后的墙壁图片,确定所述剪裁后的墙壁图片为数据集背景;
通过预设数据库将所述数据集前景与所述数据集背景合并,生成预设标注格式的标签图片,分别将标签和图片存入标签文件夹和图片文件夹中;
遍历所述标签文件夹和所述图片文件夹,生成标签相对地址和图片相对地址,基于所述标签相对地址和所述图片相对地址确定标注样本数据集;
按照预设比例将所述标注样本数据集划分为训练集和验证集,得到所述预设关键点训练数据集。
具体地,首先构建初始实时语义分割模型,将视频数据输入,实时语义分割模型包括并列的注意力机制的特征提取层和图卷积网络特征提取层,以及并列的注意力机制的分割网络与卷积神经分割网络。通过将注意力机制特征提取层和图卷积网络特征提取层的结果进行融合,得到特征融合层,将特征融合层的融合特征分别输入至注意力机制的分割网络与卷积神经分割网络进行分析解码,进行解码后特征融合,得到实测视频数据的语义分割预测结果,模型结构如图3所示。
实时语义分割模型中的注意力机制的特征提取层为Swim Transformer,采用了Shifted Window based Self-Attention,将Q和K的相关度计算限制在窗口内,因此复杂度降低到O(n)。网络其中的一层是采用了W-MSA(Window Multihead Self Attention),那么下一层是采用了SW-MSA(Shift Window Multihead Self Attention),由于窗口内计算的Attention会使其丢失全局信息,从而限制模型能力,因此下一层通过移动窗口,实现相邻windows间的交互。SW-MSA的问题:移动窗口重新切分之后,windows的个数变多了,而且尺寸也不一致了。为了解决这个问题,使用了Cyclic-Shifting的方法,通过mask机制,计算的windows个数和尺寸还是维持和W-MSA不变。其中,Cyclic-Shifting是将移动造成的非像素块合并为像素块。
实时语义分割模型中图卷积网络特征提取层为ViG,使用GNN可以获得更大的视野。使用GNN网络之前,需要对图像进行预处理,具体操作如下:
将图像转化为可进行图卷积计算的图,首先将2D图像均匀切分为12个小块,把小块称为patch。将patch映射转化为特征向量,用X表示,即X=[X1,X2,…,X12]。每个patch为一个节点,即V=[V1,V2,…,V12]。对于每个patch,计算它的K近邻N(Vi)(i∈[1,12])并连接,获得图结构G=G(X)。GNN层对相邻patch进行特征聚集,并在节点之间进行信息交换,操作如下:
G’=F(G,W)=Updata(Aggregata(G,Wagg),Wupdata),
其中,Aggregate表示聚合操作,Updata表示更新聚合后的patch特征,Wagg表示聚合操作的可学习权重,Wupdata表示更新操作的可学习权重,G表示图结构,W表示聚合更新操作集合,F表示特征聚集函数、G’表示特征聚集后结果。对相邻patch的特征进行Aggregate后计算得出节点,然后进行Update操作。
更具体地说,Aggregate聚合操作是通过聚合邻居节点的特征来计算节点的表示xi”:
其中N(xi)是xi的邻居节点的集合,xj是除xi之外的其它节点,计算最大相对图卷积。
Updata更新操作是进一步合并聚合的特征:
xi’=xi”Wupdata,
这里省略了偏置项,对应上面的图卷积处理可以表示为X’=GraphConv(X)。
由于patch互相存在相似性以及GNN聚合易导致过平滑,为了缓解这个问题,ViG网络引入前馈神经网络(FFN)模块以及更多线性变换。在图卷积神经网络(GNN)之前和之后加入一个线性层,在图卷积神经网络(GNN)后***一个非线性激活函数,此模块称为Grapher模块。
给定输入的特征向量D是特征维度:
Y=σ(GraphConv(XWin))Wout+X,
式中Win、Wout为全连接层权值,σ为激活函数,省略偏置项。
为进一步缓解过度平滑问题,在每个节点上使用前馈网络:
Z=σ(YW1)W2+Y
式中W1、W2为全连接层的权值,省略偏置项。
再把得到的Graph,还原成为图片的2D结构,即对每一个patch还原到初始位置。然后通过聚合层,融合注意力机制特征网络和图卷积网络特征网络所提取的特征。
然后,注意力机制的分割网络与卷积神经分割网络对融合特征进行分割。
具体的,注意力机制的分割网络使用的是Segformer的分割头部分,使用4层多层感知机(Multilayer Perceptron,MLP)层,对不同层的Feature分别过一个linear层确保他们的channel维度一样,上采样到56×56分辨率,然后把图片连接起来,通过linear层融合。
卷积神经分割网络,使用的是卷积神经网络分割头,参考U-Net上采样方式。通过4次上采样,对提取的特征,上采样到56×56分辨率,然后把图片连接起来,进行融合。然后和注意力机制的分割网络得到的结果进行融合。再进行上采样到224×224分辨率,得到最终结果。
在训练模型之前,还需要制作施工建筑物关键点数据集,具体包括:
通过现场实际拍摄和网络查找的方式,获取不同样式的门窗洞口图片。使用AdobePhotoShop对每一张图片进行剪裁,并扣取图片中的门窗洞口,保证尺寸小于224×224分辨率,编排号码并以PNG格式进行保存,作为数据集的前景;
通过现场实际拍摄和网络查找的方式,获取不同样式的墙壁图片,剪裁为224×224尺寸的图片,编排号码并以PNG格式进行保存,作为数据集的背景;
使用python结合CV2库和OS库等,对编排好号码的前景与背景进行合并,并且自动生成类似cityscapes格式的PNG标签图片,保存至图片文件夹和标签文件夹中;
对图片文件夹和标签文件夹中进行遍历,生成图片的相对地址和标签的相对地址,保存至文本,完成类cityscapes格式的数据集制作;
根据标注样本数据集,首先对数据集进行8:2随机分配为训练集和验证集,用以对初始实时语义分割模型进行训练,获得实时语义分割模型。
进一步地,使用施工中建筑物关键点数据集训练实时语义分割网络,具体包括:
对初始实时语义分割模型中的初始双支下采样层进行预训练,图神经网络和注意力机制网络先使用公开数据集ImageNet对各张图片和对应标签图片进行分类任务训练,并保存训练双支下采样层权重;
导入双支下采样层训练权重,继续对实时语义分割模型中的预训练后双支下采样层进行训练,通过语义分割模型中并列的预训练后注意力机制特征提取层和预训练后图卷积特征提取层提取标注样本数据集中视频数据的训练注意力机制特征数据和训练图卷积特征数据;通过预训练后的语义分割模型中的预训练后注意力机制特征提取层提取标注样本数据集中视频数据的训练注意力机制特征数据,通过与预训练后注意力机制特征提取层并列支路上的预训练后图卷积特征提取层提取标注样本数据集中视频数据的训练图卷积特征数据;
对注意力机制特征提取层和图卷积特征提取层数据进行融合处理,得到训练融合特征,可以理解的,融合网络由线性层、卷积层等神经网络结构构成;
将训练融合特征分别输入初始双支上采样网络中的注意力机制网络和神经卷积网络,得到初始分割预测值;
将初始上采样预测值输入初始分类网络中进行迭代学习,这里的迭代学习结束条件可以根据最大可迭代次数进行设置,最大可迭代次数为扩大感受野的上限阈值,上限阈值可以根据感受野中语义分割指标MIoU性能确定;将特征提取网络的输出作为分割预测网络的输入,将分割预测网络的输出作为特征提取网络的输入,进行相互指导迭代学习,可以进一步提升实时语义分割网络分割性能。网络之间的关联性,提高最终得到的实时语义分割模型的准确性
当相互指导迭代学习满足迭代结束条件时,将此时的实时语义分割模型确定为训练好的实时语义分割模型。通过将特征提取网络的输出作为分割预测网络的输入,将分割预测网络的输出作为特征提取网络的输入,进行相互指导迭代学习,直至满足迭代结束条件时,获得实时语义分割模型,对语义分割模型进行训练的目的即得到最优的计算参数,从而保证实际使用时语义分割的准确性,提升算法效率。
基于上述实施例,所述将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果,包括:
获取所述外立面视频数据中的每一帧视频图像和所述实时语义分割模型的预先训练参数权重,基于所述预先训练参数权重对所述每一帧视频图像进行下采样,得到下采样后的每一帧视频图像;
将所述下采样后的每一帧视频图像分别输入至注意力机制特征提取层和图卷积特征提取层,得到注意力机制特征提取的特征图和图卷积特征提取的特征图;
融合所述注意力机制特征提取的特征图和所述图卷积特征提取的特征图,得到融合特征图;
将所述融合特征图输入分别输入至注意力机制分割网络和神经卷积分割网络进行上采样操作,得到注意力通道的特征图和神经卷积网络通道的特征图;
融合所述注意力通道的特征图和所述神经卷积网络通道的特征图,基于所述实时语义分割模型中的目标类别进行像素分类,并进行上采样操作,得到预设目标大小尺寸的掩膜图像;
依次将每一帧视频图像输入至所述实时语义分割模型,得到覆盖掩膜视频数据。
具体地,首先,本发明实施例使用CV2库中的cv2.VideoCapture()函数读取输入的视频数据,得到视频每一帧图像;然后,导入实时语义分割模型并让模型读取预先训练好的参数权重;再进行下采样操作,得到下采样后的视频每一帧图像;最后,将视频每一帧图像传入实时语义分割模型中。
待视频每一帧图像传入实时语义分割模型后,图像通过注意力机制特征提取层和图卷积特征提取层,分别得到注意力机制特征提取的特征图和图卷积特征提取的特征图。
将注意力机制特征提取的特征图和图卷积特征提取的特征图进行特征融合计算,得到双支网络提取的融合特征图;再将双支网络提取的融合特征图通过注意力机制和神经卷积网络中,对融合特征图进行上采样,得到注意力通道和神经卷积网络通道的特征图。
最后将注意力通道和神经卷积网络通道的特征图进行融合,同时根据实时语义分割模型中的目标类别对像素进行分类,经过上采样操作后,得到目标尺寸大小的掩膜图像。对视频每一帧图像连续输入至实时语义分割模型,模型连续输出对应掩膜图像,最终得到覆盖掩膜的视频。
基于上述实施例,所述采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息,包括:
将所述无人机气压计参数转化为高度参数;
将所述视频数据语义分割预测结果与所述高度参数进行对应,获取所述建筑物高度信息。
具体地,由移动工作站通过对视频输入进行实时语义分割,在每一帧图片的同一位置设置一条基准线,当一个完整的掩膜通过基准线时,读入无人机气压计的气压高度参数,此时移动工作站的实时语义分割模型和无人机气压计测得的气压高度数据构成多模态交互,可以得到建筑物高度信息。
基于上述实施例,所述根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果,包括:
通过OCR文字识别获取建筑物图纸中的建筑物图纸楼层信息,基于所述建筑物图纸楼层信息进行建模得到楼层理论高度;
由线性回归函数,基于所述建筑物高度信息得到楼层实际高度;
将所述楼层理论高度和所述楼层实际高度进行平均,获得所述待测量建筑物的最终实际高度和楼层数。
可以理解的是,本发明实施例还通过结合预先识别的图纸数据,生成与建筑模型数据具有映射关系的数据,即通过OCR识别图纸中的楼层表,得到建筑模型数据,构建机器学习线性回归模型中的系数,反馈出关键节点的高度参数。导入气压计参数,换算成高度,使用回归模型对结果进行修正,使减少因气压计精度带来的误差,最终确定建筑物关键节点的高度。
下面对本发明提供的高层施工建筑物高度测量***进行描述,下文描述的高层施工建筑物高度测量***与上文描述的高层施工建筑物高度测量方法可相互对应参照。
图4是本发明实施例提供的高层施工建筑物高度测量***的结构示意图,如图4所示,包括:获取模块41、预测模块42、处理模块43和校准模块44,其中:
获取模块41用于获取待测量建筑物的外立面视频数据;预测模块42用于将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果;处理模块43用于采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息;校准模块44用于根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行高层施工建筑物高度测量方法,该方法包括:获取待测量建筑物的外立面视频数据;将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果;采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息;根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的高层施工建筑物高度测量方法,该方法包括:获取待测量建筑物的外立面视频数据;将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果;采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息;根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的高层施工建筑物高度测量方法,该方法包括:获取待测量建筑物的外立面视频数据;将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果;采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息;根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种高层施工建筑物高度测量方法,其特征在于,包括:
获取待测量建筑物的外立面视频数据;
将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果;
采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息;
根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果。
2.根据权利要求1所述的高层施工建筑物高度测量方法,其特征在于,所述获取待测量建筑物的外立面视频数据,包括:
确定所述待测量建筑物的预设关键节点;
通过无人机载视频采集设备对所述预设关键节点进行扫描,获取所述外立面视频数据;
由无人机将所述外立面视频数据通过预设传输协议传输至移动工作站进行处理。
3.根据权利要求1所述的高层施工建筑物高度测量方法,其特征在于,所述预先训练好的实时语义分割模型,通过如下步骤获得:
构建初始实时语义分割模型;
基于预设公开数据集对所述初始实时语义分割模型中的初始双支下采样层进行预训练,获取训练双支下采样层权重;
采用预设关键点训练数据集,利用所述训练双支下采样层权重对所述初始实时语义分割模型中的预训练后双支下采样层进行训练,得到训练特征数据;
通过注意力机制特征提取层和图卷积特征提取层对所述训练特征数据进行融合处理,得到训练融合特征;
将所述训练融合特征分别输入初始双支上采样网络中的注意力机制分割网络和神经卷积分割网络,得到初始分割预测值;
将所述初始分割预测值输入至初始分类网络进行迭代学习,直至满足最大预设迭代次数,得到所述预先训练好的实时语义分割模型。
4.根据权利要求3所述的高层施工建筑物高度测量方法,其特征在于,所述构建初始实时语义分割模型,包括:
确定输入层分别与并列的所述注意力机制特征提取层和所述图卷积特征提取层相连接,所述注意力机制特征提取层和所述图卷积特征提取层分别与特征融合层相连接;
确定所述特征融合层分别与所述注意力机制分割网络和所述神经卷积分割网络相连接,所述注意力机制分割网络和所述神经卷积分割网络分别与解码后特征融合层相连接,所述解码后特征融合层与输出层相连接。
5.根据权利要求3所述的高层施工建筑物高度测量方法,其特征在于,所述预设关键点训练数据集,通过以下步骤获得:
获取不同样式的门窗洞口图片,将所述门窗洞口图片剪裁为预设大小尺寸,采用预设编码和预设格式保存剪裁后的门窗洞口图片,确定所述剪裁后的门窗洞口图片为数据集前景;
获取不同样式的墙壁图片,将所述墙壁图片剪裁为预设大小尺寸,采用预设编码和预设格式保存剪裁后的墙壁图片,确定所述剪裁后的墙壁图片为数据集背景;
通过预设数据库将所述数据集前景与所述数据集背景合并,生成预设标注格式的标签图片,分别将标签和图片存入标签文件夹和图片文件夹中;
遍历所述标签文件夹和所述图片文件夹,生成标签相对地址和图片相对地址,基于所述标签相对地址和所述图片相对地址确定标注样本数据集;
按照预设比例将所述标注样本数据集划分为训练集和验证集,得到所述预设关键点训练数据集。
6.根据权利要求1所述的高层施工建筑物高度测量方法,其特征在于,所述将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果,包括:
获取所述外立面视频数据中的每一帧视频图像和所述实时语义分割模型的预先训练参数权重,基于所述预先训练参数权重对所述每一帧视频图像进行下采样,得到下采样后的每一帧视频图像;
将所述下采样后的每一帧视频图像分别输入至注意力机制特征提取层和图卷积特征提取层,得到注意力机制特征提取的特征图和图卷积特征提取的特征图;
融合所述注意力机制特征提取的特征图和所述图卷积特征提取的特征图,得到融合特征图;
将所述融合特征图输入分别输入至注意力机制分割网络和神经卷积分割网络进行上采样操作,得到注意力通道的特征图和神经卷积网络通道的特征图;
融合所述注意力通道的特征图和所述神经卷积网络通道的特征图,基于所述实时语义分割模型中的目标类别进行像素分类,并进行上采样操作,得到预设目标大小尺寸的掩膜图像;
依次将每一帧视频图像输入至所述实时语义分割模型,得到覆盖掩膜视频数据。
7.根据权利要求1所述的高层施工建筑物高度测量方法,其特征在于,所述采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息,包括:
将所述无人机气压计参数转化为高度参数;
将所述视频数据语义分割预测结果与所述高度参数进行对应,获取所述建筑物高度信息。
8.根据权利要求1所述的高层施工建筑物高度测量方法,其特征在于,所述根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果,包括:
通过OCR文字识别获取建筑物图纸中的建筑物图纸楼层信息,基于所述建筑物图纸楼层信息进行建模得到楼层理论高度;
由线性回归函数,基于所述建筑物高度信息得到楼层实际高度;
将所述楼层理论高度和所述楼层实际高度进行平均,获得所述待测量建筑物的最终实际高度和楼层数。
9.一种高层施工建筑物高度测量***,其特征在于,包括:
获取模块,用于获取待测量建筑物的外立面视频数据;
预测模块,用于将所述外立面视频数据输入至预先训练好的实时语义分割模型,对所述外立面视频数据进行分割预测,获得视频数据语义分割预测结果;
处理模块,用于采集无人机气压计参数,结合所述视频数据语义分割预测结果和所述无人机气压计参数,得到建筑物高度信息;
校准模块,用于根据建筑物图纸楼层信息,采用机器学习将所述建筑物高度信息与所述建筑物图纸楼层信息进行校准,得到所述待测量建筑物的楼层测量结果。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述高层施工建筑物高度测量方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310409740.XA CN116563748A (zh) | 2023-04-14 | 2023-04-14 | 一种高层施工建筑物高度测量方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310409740.XA CN116563748A (zh) | 2023-04-14 | 2023-04-14 | 一种高层施工建筑物高度测量方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563748A true CN116563748A (zh) | 2023-08-08 |
Family
ID=87488947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310409740.XA Pending CN116563748A (zh) | 2023-04-14 | 2023-04-14 | 一种高层施工建筑物高度测量方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563748A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953166A (zh) * | 2024-03-26 | 2024-04-30 | 航天规划设计集团有限公司 | 一种三维建筑模型构建方法及*** |
-
2023
- 2023-04-14 CN CN202310409740.XA patent/CN116563748A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117953166A (zh) * | 2024-03-26 | 2024-04-30 | 航天规划设计集团有限公司 | 一种三维建筑模型构建方法及*** |
CN117953166B (zh) * | 2024-03-26 | 2024-06-14 | 航天规划设计集团有限公司 | 一种三维建筑模型构建方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022083402A1 (zh) | 障碍物检测方法、装置、计算机设备和存储介质 | |
CN113936256A (zh) | 一种图像目标检测方法、装置、设备以及存储介质 | |
CN113780211A (zh) | 一种基于改进型Yolov4-tiny的轻量级飞机检测方法 | |
CN109635714B (zh) | 文档扫描图像的矫正方法及装置 | |
JP2023533907A (ja) | 自己注意ベースのニューラルネットワークを使用した画像処理 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN112651316A (zh) | 二维和三维多人姿态估计***及方法 | |
CN116563748A (zh) | 一种高层施工建筑物高度测量方法及*** | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN114372523A (zh) | 一种基于证据深度学习的双目匹配不确定性估计方法 | |
CN112861970A (zh) | 一种基于特征融合的细粒度图像分类方法 | |
CN111640116A (zh) | 基于深层卷积残差网络的航拍图建筑物分割方法及装置 | |
CN114648669A (zh) | 一种域自适应双目视差计算的动车组故障检测方法及*** | |
CN116188893A (zh) | 基于bev的图像检测模型训练及目标检测方法和装置 | |
CN117593702B (zh) | 远程监控方法、装置、设备及存储介质 | |
CN114663598A (zh) | 三维建模方法、装置和存储介质 | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
CN115984646B (zh) | 面向遥感跨卫星观测的分布式目标检测方法、装置和卫星 | |
CN117056863A (zh) | 一种基于多模态数据融合的大数据处理方法 | |
JP2018124963A (ja) | 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム | |
CN116740514A (zh) | 时空误差容忍的多智能体协同感知方法、装置和电子设备 | |
CN115984647A (zh) | 面向星群的遥感分布式协同推理方法、装置、介质和卫星 | |
CN116630528A (zh) | 基于神经网络的静态场景重建方法 | |
JP2020064364A (ja) | 学習装置、画像生成装置、学習方法、及び学習プログラム | |
CN110321794B (zh) | 一种融入语义模型的遥感图像油罐检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |