CN115937680A

CN115937680A - 一种基于深度神经网络的围龙屋建筑地理空间定位方法

Info

Publication number: CN115937680A
Application number: CN202211588172.6A
Authority: CN
Inventors: 陶金; 冯惠城; 叶昭怡; 李庚�; 陈梓炫; 李敏浩
Original assignee: Guangzhou Dafu Cultural Technology Co ltd; South China University of Technology SCUT
Current assignee: Guangzhou Dafu Cultural Technology Co ltd; South China University of Technology SCUT
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-04-07
Also published as: WO2024125141A1

Abstract

本发明公开了一种基于深度神经网络的围龙屋建筑地理空间定位方法，步骤如下：制作全类型围龙屋建筑遥感影像的训练集和验证集，包含3类形态微差的围龙屋影像，以及破损倒塌的围龙屋影像；使用上述训练集和验证集，在预训练权重模型YOLOv5x的基础上，训练得到优化的围龙屋识别模型；将带有地理空间信息的待识别影像集输入模型，得到识别结果；根据影像地理空间信息，将识别出的标签框中心点的归一化数值转化为真实投影坐标信息；进行数据集去重；通过地理信息处理软件加载中心点坐标，得到围龙屋识别结果及其可视化分布。本方法可用于大区域范围内各种类型、各种状态的围龙屋建筑的快速、准确检测，识别结果可作为围龙屋地面普查的潜在对象。

Description

一种基于深度神经网络的围龙屋建筑地理空间定位方法

技术领域

本发明涉及基于遥感影像的建筑检测技术领域，具体涉及一种基于深度神经网络的围龙屋建筑地理空间定位方法。

背景技术

围龙屋是中国传统民居的特殊类型，是建筑文化遗产的典型代表。目前对围龙屋的调查主要依靠人工实地调查，围龙屋的线索来源主要是当地居民和村委报告。但是居民并非专业人员，对围龙屋认识不足，大量的围龙屋因漏报，没有被列入遗产保护名录。由于围龙屋广泛地分布在山区，导致专业人员调查缺少有效目标，需要花费极大的人力、财力和时间精力，难以通过田野调查获取完整的围龙屋分布目录。另外，围龙屋种类多样，不同地区的围龙屋形态也存在一定的差别，导致围龙屋确定的标准不够明晰。许多围龙屋还存在破损、倒塌等现象，这进一步增加了围龙屋的辨别难度。

目前的围龙屋检测做法的主要问题：

(1)未提出围龙屋图像数据集的要求，特别是没有指出图像的裁切大小。当待识别的地理空间范围较大时，由于计算机性能的限制，其遥感影像需要通过裁切后，才能用于识别。

(2)未提出围龙屋图像分辨率的要求。由于模型在微小对象识别方面可能存在一定的误差，因此围龙屋对象在单幅图像上的大小是重要的前提条件。检测时需要根据遥感影像的分辨率，对图像进行合理的裁切，以满足识别的需要。

(3)围龙屋样本来源局限，且没有对围龙屋类型进行细分，因此训练样本中缺少不同类型的围龙屋图像，这将影响对不同特征的围龙屋的识别精度。

(4)只局限于对围龙屋进行识别，没有提出返回围龙屋地理投影坐标的思路，因而无法用于辅助地面田野调查。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于深度神经网络的围龙屋建筑地理空间定位方法。该方法通过控制训练集和验证集中围龙屋的类型、保存状态等参数，基于YOLOv5x预训练权重模型训练得到优化的围龙屋识别模型，得到识别结果后，将归一化位置数值转化为真实的投影坐标信息，并利用地理信息处理软件进行可视化展示。该方法可用于大区域范围内各种类型、各种状态的围龙屋建筑的快速、准确检测，识别结果可作为围龙屋地面普查的潜在对象。

本发明的目的可以通过采取如下技术方案达到：

一种基于深度神经网络的围龙屋建筑地理空间定位方法，所述定位方法包括如下步骤：

S1、图源选择：以天地图公开的卫星遥感影像为基本图源，下载待识别区域遥感影像；

S2、图像裁切：对下载的图像进行裁剪，形成待识别影像集D；

S3、制作训练集和验证集：在待识别影像集D中，选择并标注包含围龙屋建筑的影像，形成训练集T和验证集Y，其中，所述训练集T和验证集Y中均包含两种目标类型，第1类标记为WLW，对应3种形态微差的围龙屋类型，即WLW_A,WLW_B,WLW_C；第2类标记为WLW_D，对应处于破损和倒塌状态的围龙屋；

S4、训练识别模型：使用上一个步骤制作的训练集T，在YOLOv5x预训练权重模型的基础上进行训练，在验证集Y上进行验证，获取围龙屋识别模型WLW_BEST.pt；

S5、围龙屋识别：将待识别影像集D中的图片，输入模型WLW_BEST.pt中进行识别，通过计算得到每一张影像中的围龙屋识别结果，记为r；

S6、计算识别结果标签框中心点的真实地理坐标值：提取识别结果对象所在源遥感影像左上角和右下角的投影坐标值，并提取识别结果标签框中心点的归一值，计算识别结果标签框中心点的投影坐标值，结果统一存储在识别结果数据集R中；

S7、数据点去重：对数据集R进行重复性检验，去除重复数据点并计算真实中心点数据；

S8、数据可视化：将识别结果数据集R中的围龙屋中心点投影坐标数据，根据中心点的x轴投影坐标值center_x和y轴投影坐标值center_y，导入地理信息处理软件中，进行点要素的可视化处理，得到围龙屋建筑的空间分布图。

进一步地，所述步骤S1中待识别区域遥感影像的影像分辨率d最低要求如下：

遥感影像的空间分辨率由小型围龙屋的尺寸所决定。围龙屋建筑后部由类似半圆形的建筑组成，这是围龙屋与其他建筑图像形态学差异的主要因素。由于围龙屋建筑规模差异比较大，其宽度多在20m-80m之间，因此小型围龙屋和大型围龙屋在影像图上所占据的像素区域差异比较大，故需要确保小型围龙屋建筑能够被准确识别。为了避免经过卷积后小型围龙屋后部半圆形建筑的特征像素过少而导致漏检，需保证小型围龙屋建筑在遥感影像上的像素区域至少为以下尺寸：

围龙屋宽度像素W_PXmin≥20px；

围龙屋进深像素L_PXmin≥20px；

而小型围龙屋的实际尺寸一般为：

围龙屋宽度W≥20m；

围龙屋进深L≥20m；

因此要求遥感影像的最小分辨率为：

d＝(W/W_PXmin)或者d＝(L/L_PXmin)，即d≥1m/px。根据天地图遥感影像瓦片层级对应的分辨率，应选择≥18级影像数据，影像格式应为带地理空间信息的geotiff。

进一步地，所述步骤S2中影像裁切的大小为640px*640px。该大小能使其与YOLOv5预训练模型的图片尺寸保持一致，能够避免图像送入神经网络时进行缩放，而导致围龙屋在图像上的特征改变。

进一步地，由于目前没有公开的围龙屋数据集供本发明使用，因此本发明中收集并制作了相关的围龙屋训练集T和验证集Y。所述步骤S3中训练集T中包含两种目标类型，第1类标记为WLW，如图2所示，对应3种形态微差的围龙屋类型，其中WLW_A对应后部形状为半圆形的围龙屋，WLW_B对应后部形状为半圆角矩形的围龙屋，WLW_C对应外部被其他建筑构造包围的围龙屋，每种类别的样本图片数量≥250张，并且围龙屋总样本数量≥900个。该形态微差分类一方面考虑了围龙屋的主体共性特征，将其作为同一类对象进行识别；另一方面，将具有一定微差的不同类型的围龙屋均纳入到训练样本中，能够提升识别的正确率。第2类标记为WLW_D，对应破损或倒塌状态的围龙屋，样本图片数量≥250张，并且围龙屋总样本数量≥300个。由于围龙屋为古建筑，许多围龙屋处于破损和倒塌的状态，这类围龙屋在遥感影像上的图像形态学特征与保存较好的围龙屋存在较大的区别，将破损围龙屋作为一种单独的类型进行识别能防止识别结果大量漏检，提升识别准确度。验证集Y的标记方式与训练集T保持一致，其中，WLW_A、WLW_B、WLW_C、WLW_D每种类别的验证集样本图片数量≥50张，并且围龙屋总样本数量≥250个。

进一步地，所述步骤S3中围龙屋影像标注方式包括3种：方式一，如图3所示，WLW_A和WLW_B要求将完整的围龙屋范围纳入标注框内部；方式二，如图4所示，WLW_C要求包含建筑内部围龙屋后部的半圆型构造，以及与之相连的前部建筑物，但是不包含半圆型构造外部的其他建筑组成部分，使标注更为精确；方式三，如图5所示，WLW_D要求将围龙屋倒塌的部分完全包含到标注框内部，即将该围龙屋未倒塌时的整体范围纳入标注框内部。

进一步地，所述步骤S4中选用的YOLOv5x预训练权重模型是Ultralytic于2020年6月公开发布的YOLOv5网络模型预训练权重模型中精度最高的模型，如图6所示，YOLOv5模型的网络结构包括依次连接的输入端、Backbone骨干网络、Neck网络和Head输出端，将训练集T、验证集Y和待识别影像集D输入YOLOv5网络模型进行模型训练的过程如下：

(1)图片预处理：将标注好的数据集送入模型的输入端，输入端对训练集的图片进行预处理，预处理包括Mosaic数据增强和自适应锚框计算；

(2)特征提取：预处理后的图片进入Backbone骨干网络，包括BottleneckCSP模块和Focus模块，经过一次卷积得到三个不同大小的特征图；

(3)特征融合：将上步骤得到的三个不同大小的特征图输入Neck网络进行特征融合，利用FPN+PAN的方式，对特征提取模块提取到的特征，使模型获取三个尺度的特征图；

(4)预测输出：将上步骤得到的特征图输入Head输出端，由此得到预测框的位置、类别和置信度；在训练阶段，将预测框与真实框进行匹配得出正负样本，然后通过计算损失函数来调节权重参数，验证阶段采用加权非极大值抑制的方式筛选预测框，通过计算准确率、平均精度来不断优化模型参数。

进一步地，所述步骤S5中训练并获取模型WLW_BEST.pt的迁移学习模型训练过程如下：

(1)自定义配置文件：自定义YOLOv5网络模型数据配置文件WLW.yaml，包括填写数据集的路径path、类别数nc、识别类别名字names；

(2)调优参数训练模型：将设置好的WLW.yaml文件放入配置好环境的计算机中；加载yolov5x.pt预训练权重模型，获得更好的网络模型初始化参数；加载训练集T和验证集Y，训练迭代轮数调整为300世代，学习率设置为0.01并开始训练；重复训练过程使YOLOv5逐渐收敛，并通过验证集的测试不断调整参数，以使其具有泛化能力和精度提升。

(3)模型获取：训练过程中实时观察验证集Y验证的结果数据，训练结束后保存最优的模型WLW_BEST.pt。

进一步地，所述步骤S5中，对于待识别影像集D中的图片输入至模型WLW_BEST.pt进行计算；将置信度阈值conf-thres设为0.80，交并比iou-thres设置为0.6，并保存分类结果和置信度得分，得到每一幅遥感影像的识别结果r，识别结果写入一个txt文档中，其中，识别结果r包含1条或多条识别结果；

设第i幅遥感影像对应n个识别结果，k为n中的一条结果，1≤k≤n，则每一条识别结果r_ik中都包含以下内容：

图片名称：与源图片保持一致，记为pic_name_ik；

识别结果标签框中心点x轴坐标归一值：记为x_ik_center；

识别结果标签框中心点y轴坐标归一值：记为y_ik_center；

识别结果标签框宽度的归一值：记为w_ik；

识别结果标签框高度的归一值：记为h_ik；

置信度：记为conf_ik；

类别：0，对应于WLW_A,WLW_B,WLW_C；1，对应于WLW_D；

进一步地，所述步骤S6中，为实现数据可视化，使识别结果可直接作为围龙屋地面普查的潜在对象，如图7所示，提取识别对象所在第i幅遥感影像的投影坐标值，包括左上角的x轴投影坐标值x _i1、左上角的y轴投影坐标值y_i1、右下角的x轴投影坐标值x_i2、右下角的y轴投影坐标值y_i2；

设第i幅遥感影像对应n个识别结果，k为n中的1条结果，1≤k≤n，提取围龙屋识别结果r_ik中的识别结果标签框中心点x轴坐标归一值x_ikc；识别结果标签框中心点y轴坐标归一值y_ikc；计算识别结果标签框x轴中心点的投影坐标值center_x_ik，以及识别结果标签框y轴中心点投影坐标值center_yik，标签框中心点的真实地理坐标值计算方法为：

center_x_ik＝x_i1+(x_i2-x_i1)*x_ikc

center_y_ik＝y_i2+(y_i1-y_i2)*(1-y_ikc)

计算结果统一存储在识别结果数据集R中。

进一步地，所述步骤S7中对数据集R进行重复性检验，去除重复数据点并计算真实中心点数据，过程如下：

一座围龙屋在x轴或y轴被两幅遥感影像切割，可能会被识别两次，影响数据集R的准确性。设p，q为识别结果数据集R中的任意两条数据，则判断R_p和R_q是否为同一个围龙屋在x轴或y轴被两幅遥感影像切割而形成的两条数据，其中，如图8所示，判断一座围龙屋在y轴方向上被切割的标准为同时包含以下三点：(1)两条数据所在源遥感影像的名称不同；(2)两条数据满足所在的识别结果标签框在x轴方向上的距离不大于4个像素点：当一座围龙屋在y轴方向上被两幅影像切割，理论上两个识别标签框在x轴方向上应无缝相连，但实验结果表明标签框不一定完全贴合所在源遥感影像的边界，可能存在不大于2个像素点的误差，因此两个识别标签框在x轴方向上的距离不大于4个像素点；(3)两条数据中任意一条识别结果标签框的中心点y轴投影坐标值位于另一条识别结果标签框的y轴范围内；具体计算方式如下：

式中，pic_name_p为数据p所在源遥感影像的名称；pic_name_q为数据q所在源遥感影像的名称；x_q1为数据q所在源遥感影像左上角的x轴投影坐标值；x_p2、x_p1为数据p所在源遥感影像右下角、左上角的x轴投影坐标值；center_y_p为数据p的y轴投影坐标值；center_y_q为数据q的y轴投影坐标值；y_p1、y_p2为数据p所在源遥感影像左上角、右下角的y轴投影坐标值；y_q1、y_q2为数据q所在源遥感影像左上角、右下角的y轴投影坐标值；

其中，如图9所示，判断一座围龙屋在x轴方向上被切割的标准为同时包含以下三点：(1)两条数据所在源遥感影像的名称不同；(2)两条数据满足所在的识别结果标签框在y轴方向上的距离不大于4个像素点：当一座围龙屋在x轴方向上被两幅影像切割，理论上两个识别标签框在y轴方向上应无缝相连，但实验结果表明标签框不一定完全贴合所在源遥感影像的边界，可能存在不大于2个像素点的误差，因此两个识别标签框在y轴方向上的距离不大于4个像素点；(3)两条数据中任意一条识别结果标签框的中心点x轴投影坐标值位于另一条识别结果标签框的x轴范围内，具体计算方式如下：

式中，pic_name_p为数据p所在源遥感影像的名称；pic_name_q为数据q所在源遥感影像的名称；y_q1为数据q所在源遥感影像左上角的y轴投影坐标值；y_p2、y_p1为数据p所在源遥感影像右下角、左上角的y轴投影坐标值；center_x_p为数据p所在识别标签框中心点的x轴投影坐标值；center_x_q为数据q所在识别标签框中心点的x轴投影坐标值；x_p1、x_p2为数据p所在源遥感影像左上角、右下角的x轴投影坐标值；x_q1、x_q2为数据q所在源遥感影像左上角、右下角的x轴投影坐标值；

若R_p和R_q满足同一个围龙屋在x轴或y轴被两幅遥感影像切割而形成的两条数据，去除R_p和R_q，计算真实中心点数据并存入数据集R，真实中心点计算方法为：

center_x＝|center_x_p-center_x_q|/2

center_y＝|center_y_p-center_y_q|/2

若不满足，则保留R_p和R_q。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明方法采用YOLOv5x预训练模型，一方面训练简单，易于上手，避免了复杂繁琐的操作，可用性强；另一方面，通过大量的样本数据训练神经网络，使其能够自动地快速提取更丰富、更具表达力的围龙屋特征，避免大量漏检测的情况出现。

(2)本发明方法细化了围龙屋数据集图像的要求，包括最低要求围1m/px的图像分辨率、带有地理空间信息的geotiff图像格式和640px*640px的图像裁切大小。一方面能直接采集识别结果的地理坐标值，实现数据可视化；另一方面，简化过程并减小识别误差，避免图像送入神经网络时进行缩放，而导致围龙屋在图像上的特征改变。

(3)本发明方法根据图像形态学对围龙屋的类型进行细分，数据集中包含3种形态微差和破损或倒塌状态的两种围龙屋目标类型图像，提高围龙屋识别和定位的精度和全面性。

(4)本发明方法通过真实地理坐标值的转换进行数据可视化，使识别结果可直接作为围龙屋地面普查的潜在对象，可用于大区域范围内各种类型、各种状态的围龙屋建筑的快速、准确检测，大大降低了人力物力成本。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明中公开的一种基于深度神经网络的围龙屋建筑地理空间定位方法的步骤流程图；

图2是本发明中公开的3种形态微差围龙屋的图像学特征图；

图3是本发明中公开的建筑后部形态为半圆形或半圆角矩形的围龙屋的标注方法示意图；

图4是本发明中公开的外部被其他建筑构造包围的围龙屋的标注方法示意图；

图5是本发明中公开的破损或倒塌围龙屋的标注方法示意图；

图6是本发明中使用的YOLOv5的网络结构示意图；

图7是本发明中公开的遥感图像与识别结果标签框的位置关系标注信息示意图；

图8是本发明中公开的围龙屋在y轴被切割的真实中心点计算方法示意图；

图9是本发明中公开的围龙屋在x轴被切割的真实中心点计算方法示意图。

图10是本发明实施例一的经多次试验后获得的最优模型示意图；

图11是本发明实施例一的识别结果数据可视化；

图12是本发明实施例二的识别结果数据可视化；

图13是本发明实施例一和实施例二模型识别结果的对比示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1是本发明中公开的一种基于深度神经网络的围龙屋建筑地理空间定位方法的步骤流程图。如图1所示，一种基于深度神经网络的围龙屋建筑地理空间定位方法包括如下步骤：

上述步骤S1中，首先下载天地图公开的广东省、江西省和福建省三省客家民居研究区域的遥感影像图，包括梅州、河源、惠州、韶关、深圳、揭阳、汕头、汕尾、清远、潮州、广州、龙岩、三明、漳州、泉州、厦门、赣州等地，选择≥18级影像数据，影像格式为带有地理空间信息的geotiff。

上述步骤S2中，将三省客家民居研究区域的影像裁剪为640px*640px，使其与Yolov5预训练模型的图片尺寸保持一致，能够避免图像送入神经网络时进行缩放，而导致围龙屋在图像上的特征改变。

S3、制作训练集和验证集：在待识别影像集D中，选择并标注包含围龙屋建筑的影像，形成训练集T和验证集Y，其中，所述训练集T和验证集Y中均包含两种目标类型，第1类标记为WLW，对应3种形态微差的围龙屋类型，即WLW_A,WLW_B,WLW_C；第2类标记为WLW_D，对应处于破损和倒塌状态的围龙屋；上述步骤S3中：

1.对于3种形态微差的围龙屋：三省客家民居研究区域围龙屋建筑的类型有一定的差别，根据围龙屋形态，主要可以分为三类，第一类围龙屋建筑后部形状为半圆形，第二类围龙屋建筑后部为半圆角矩形，第三类围龙屋外部被其他建筑构造包围。这种差别反应在遥感影像的图像形态学特征上，将会影响围龙屋识别的准确率。因此在训练样本选择上，一方面考虑围龙屋的主体共性特征，将其作为同一类对象进行识别；另一方面，将具有一定微差的不同类型的围龙屋均纳入到训练样本中，且需要保证每一微差类型的围龙屋样本都达到一定的数量标准，其中本次实施例训练集T中使用WLW_A,WLW_B,WLW_C样本图片共1021张，围龙屋总样本数量1289个。

2.对破损或倒塌状态的围龙屋：由于围龙屋为古建筑，许多围龙屋年久失修，处于破损和倒塌的状态。这类围龙屋在遥感影像上的图像形态学特征与保存较好的围龙屋存在较大的区别。如果不加以区分，会导致围龙屋的大量漏检。因此需要将破损围龙屋作为一种单独的类型进行识别。将破损围龙屋标记为WLW_D，本次实施例训练集T中该类型围龙屋样本图片281张，破损围龙屋总样本数量336个。

3.3种形态微差的围龙屋的标注方式：WLW_A和WLW_B应当将完整的围龙屋范围纳入标注框内部；WLW_C外部还有建筑物，因此需要将内部围龙部分纳入标注框内部，而非将整个建筑纳入标注框，从而避免类似建筑带来干扰。

4.破损或倒塌围龙屋的标注方式：应将围龙屋倒塌的部分完全包含到标注框内部，即将该围龙屋未倒塌时的整体范围纳入标注框内部。

5.对于验证集Y：本次实施例的验证集Y共有200张图片，围龙屋总样本数量264个。其中，WLW_A,WLW_B,WLW_C样本图片共150张，围龙屋总样本数量206个；WLW_D样本图片共50张，围龙屋总样本数量58个。

S4、训练识别模型：使用上一个步骤制作的训练集T，在YOLOv5x预训练权重模型的基础上进行训练，在验证集Y上进行验证，获取围龙屋识别模型WLW_BEST.pt；上述步骤S4中，

1.自定义配置文件：自定义YOLOv5网络模型数据配置文件WLW.yaml，本次实施例中，类别数nc为2、识别类别名字names为WLW和WLW_D；

2.调优参数训练模型：将设置好的WLW.yaml文件放入配置好环境的计算机中；加载yolov5x.pt预训练权重模型，获得更好的网络模型初始化参数；加载训练集T和验证集Y，将训练迭代轮数调整为300世代，初试学习率设置为0.01并开始训练；重复上述过程使YOLOv5逐渐收敛，并通过验证集的测试不断调整参数，以使其具有泛化能力和精度提升；

3.获取模型：如图10所示，最终在验证集的训练结果数据Precision为0.78，Recall为0.81，mAP为0.87，[email protected]:0.95为0.86，训练结束后保存最优的模型WLW_BEST.pt；其中，Precision值表示精准率，Recall值表示召回率，mAP值表示平均精度值，[email protected]:0.95值表示不同交并比阈值上的平均mAP值。

S5、围龙屋识别：将待识别影像集D中的图片，输入模型WLW_BEST.pt中，通过计算得到每一张影像中的围龙屋识别结果，记为r；

上述步骤S5中，置信度阈值conf-thres设为0.80，交并比iou-thres设置为0.6，并保存分类结果和置信度得分，识别结果写入一个txt文档中。识别结果r可能包含1条识别结果，也可能包含多条识别结果。

设第i幅遥感影像对应n(n≥1)个识别结果，k为n中的一条结果(1≤k≤n)，则每一条识别结果r_ik中都包含以下内容：

图片名称：与源图片保持一致，记为pic_name_ik；

识别结果标签框中心点x轴坐标归一值：记为x_ik_center；

识别结果标签框中心点y轴坐标归一值：记为y_ik_center；

识别结果标签框宽度的归一值：记为w_ik；

识别结果标签框高度的归一值：记为h_ik；

置信度：记为conf_ik；

类别：0，对应于WLW_A,WLW_B,WLW_C；1，对应于WLW_D。

上述步骤S6中，提取识别对象所在源遥感影像i的投影坐标值，包括左上角的x轴投影坐标值x _i1；左上角的y轴投影坐标值y_i1；右下角的x轴投影坐标值x_i2；右下角的y轴投影坐标值y_i2。设第i幅遥感影像对应n(n≥1)个识别结果，k为n中的一条结果(1≤k≤n)，提取围龙屋识别结果r_ik中的识别结果标签框中心点x轴坐标归一值x_ikc；识别结果标签框中心点y轴坐标归一值y_ikc。计算识别结果标签框x轴中心点的投影坐标值center_x_ik，以及识别结果标签框y轴中心点投影坐标值center_y_ik。计算方法为：

center_x_ik＝x _i1+(x _i2-x _i1)*x _ikc

center_y_ik＝y _i2+(y _i1-y _i2)*(1-y _ikc)

计算结果统一存储在识别结果数据集R中，共得到5717个数据点。

所述步骤S7中，设p，q为识别结果数据集R中的任意两条数据，则判断R_p和R_q是否为同一个围龙屋在x轴或y轴被两幅遥感影像切割而形成的两条数据。判断一座围龙屋在y轴方向上被切割的标准为同时包含以下三点：(1)两条数据所在源遥感影像的名称不同；(2)两条数据满足所在的识别结果标签框在x轴方向上的距离不大于4个像素点：当一座围龙屋在y轴方向上被两幅影像切割，理论上两个识别标签框在x轴方向上应无缝相连，但实验结果表明标签框不一定完全贴合所在源遥感影像的边界，可能存在不大于2个像素点的误差，因此两个识别标签框在x轴方向上的距离不大于4个像素点；(3)两条数据中任意一条识别结果标签框的中心点y轴投影坐标值位于另一条识别结果标签框的y轴范围内；具体计算方式如下：

其中，pic_name_p为数据p所在源遥感影像的名称；pic_name_q为数据q所在源遥感影像的名称；x_q1为数据q所在源遥感影像左上角的x轴投影坐标值；x_p2、x_p1为数据p所在源遥感影像右下角、左上角的x轴投影坐标值；center_y_p为数据p所在识别标签框中心点的y轴投影坐标值；center_y_q为数据q所在识别标签框中心点的y轴投影坐标值；y_p1、y_p2为数据p所在源遥感影像左上角、右下角的y轴投影坐标值；y_q1、y_q2为数据q所在源遥感影像左上角、右下角的y轴投影坐标值。

判断一座围龙屋在x轴方向上被切割的标准包含三点：(1)两条数据所在源遥感影像的名称不同；(2)两条数据满足所在的识别结果标签框在y轴方向上的距离不大于4个像素点：当一座围龙屋在x轴方向上被两幅影像切割，理论上两个识别标签框在y轴方向上应无缝相连，但实验结果表明标签框不一定完全贴合所在源遥感影像的边界，可能存在不大于2个像素点的误差，因此两个识别标签框在y轴方向上的距离不大于4个像素点；(3)两条数据中任意一条识别结果标签框的中心点x轴投影坐标值位于另一条识别结果标签框的x轴范围内；具体计算方式如下：

其中，pic_name_p为数据p所在源遥感影像的名称；pic_name_q为数据q所在源遥感影像的名称；y_q1为数据q所在源遥感影像左上角的y轴投影坐标值；y_p2、y_p1为数据p所在源遥感影像右下角、左上角的y轴投影坐标值；center_x_p为数据p所在识别标签框中心点的x轴投影坐标值；center_x_q为数据q所在识别标签框中心点的x轴投影坐标值；x_p1、x_p2为数据p所在源遥感影像左上角、右下角的x轴投影坐标值；x_q1、x_q2为数据q所在源遥感影像左上角、右下角的x轴投影坐标值。

根据围龙屋在y轴或x轴方向上被切割的标准，遍历数据集R所有数据点，共发现38处重复数据点，去除重复数据点，计算真实中心点数据并存入数据集R，真实中心点计算方法为：

center_x＝|center_x_p-center_x_q|/2

center_y＝|center_y_p-center_y_q|/2

去重后数据集R共有5698个围龙屋数据点。

S8、数据可视化：将识别结果数据集R中的围龙屋中心点投影坐标数据，根据center_x和center_y的值，导入地理信息处理软件中，进行点要素的可视化处理，得到围龙屋建筑的空间分布图，如图11所示。

实验识别结果显示，采用基于深度神经网络的围龙屋建筑地理空间定位方法识别客家民居研究区域围龙屋，能够精确、快速识别大区域范围内各种类型、各种状态的围龙屋建筑，识别结果可直接作为围龙屋地面普查的潜在对象。

实施例二

本实施例与所提供的实施例一的方法大致相同，其主要区别在于：步骤S3中未进行训练集T和验证集Y的分类。

本实施例中的训练集T和验证集Y样本图片的总数量和围龙屋的总样本数量与实施例一相同，标签统一标注为WLW，多次试验后获得的最优模型保存为WLW2_BEST.pt，与实施例一数据对比如表1所示；

表1.不同实施例的数据对比表

	Precision	Recall	mAP	[email protected]:0.95
					WLW_BEST.pt	0.78	0.81	0.87	0.86
WLW2_BEST.pt	0.59	0.67	0.49	0.22

其中，Precision值表示精准率，Recall值表示召回率，mAP值表示平均精度值，[email protected]:0.95值表示不同交并比阈值上的平均mAP值。

将待识别影像集D中的图片输入至模型WLW2_BEST.pt进行计算，获取识别结果，经过去重后数据集R共有3792个围龙屋数据点；导入地理信息处理软件中，进行点要素的可视化处理，得到围龙屋建筑的空间分布图，如图12所示。

两次实施例的识别结果对比如图13所示，可以看出，实施例二的识别结果遗漏大量三种微差形态的围龙屋和破损或倒塌状态的围龙屋，存错率也较高；与实施一的识别结果进行对比，实施例一模型识别结果中围龙屋的数量、围龙屋种类的全面性和识别准确度均高于实施例二模型识别结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的围龙屋建筑地理空间定位方法，其特征在于，所述定位方法包括如下步骤：

S5、围龙屋识别：将待识别影像集D中的图片，输入围龙屋识别模型WLW_BEST.pt中进行识别，通过计算得到每一张影像中的围龙屋识别结果，记为r；

2.根据权利要求1所述的一种基于深度神经网络的围龙屋建筑地理空间定位方法，其特征在于，所述步骤S1中待识别区域遥感影像的影像分辨率d最低要求为1m/px，影像格式应为带地理空间信息的geotiff，其中，px代表像素；根据天地图遥感影像瓦片层级对应的分辨率，应选择大于等于18级的影像数据。

3.根据权利要求1所述的一种基于深度神经网络的围龙屋建筑地理空间定位方法，其特征在于，所述步骤S2中影像裁切的大小为640px*640px，其中，px代表像素。

4.根据权利要求1所述的一种基于深度神经网络的围龙屋建筑地理空间定位方法，其特征在于，所述步骤S3中，训练集T和验证集Y均包含两种目标类型，第一种目标类型记为WLW，含3种形态微差的围龙屋，其中WLW_A对应后部形状为半圆形的围龙屋，WLW_B对应后部形状为半圆角矩形的围龙屋，WLW_C对应外部被其他建筑构造包围的围龙屋；另一种目标类型是破损或倒塌状态的围龙屋，记为WLW_D，其中，WLW_A、WLW_B、WLW_C、WLW_D每种类别的训练集样本图片数量≥250张，并且围龙屋总样本数量≥1200个；每种类别的验证集样本图片数量≥50张，并且围龙屋总样本数量≥250个。

5.根据权利要求1所述的一种基于深度神经网络的围龙屋建筑地理空间定位方法，其特征在于，所述步骤S3中围龙屋影像标注方式包括3种：方式一，WLW_A和WLW_B要求将完整的围龙屋范围纳入标注框内部；方式二，WLW_C要求包含建筑内部围龙屋后部的半圆型构造，以及与之相连的前部建筑物，但是不包含半圆型构造外部的其他建筑组成部分；方式三，WLW_D要求将围龙屋倒塌的部分完全包含到标注框内部，即将该围龙屋未倒塌时的整体范围纳入标注框内部。

6.根据权利要求1所述的一种基于深度神经网络的围龙屋建筑地理空间定位方法，其特征在于，所述步骤S4中训练并获取模型WLW_BEST.pt的过程包括：设置YOLOv5网络数据配置文件初始参数并输入网络结构，使用yolov5x.pt的预训练权重，训练迭代轮数为300世代，模型初始学习率为0.01；将训练得到的模型在验证集Y上进行测试，验证模型的有效性，最终得到围龙屋识别模型WLW_BEST.pt。

7.根据权利要求1所述的一种基于深度神经网络的围龙屋建筑地理空间定位方法，其特征在于，所述步骤S5中，对于待识别影像集D中的图片输入至模型WLW_BEST.pt进行计算，设置置信度阈值和交并比阈值，保存分类结果和置信度得分，得到每一幅遥感影像的识别结果r，识别结果写入一个txt文档中，其中，识别结果r包含一条或多条识别结果；

图片名称：与源图片保持一致，记为pic_name_ik；

识别结果标签框中心点x轴坐标归一值：记为x_ik_center；

识别结果标签框中心点y轴坐标归一值：记为y_ik_center；

识别结果标签框宽度的归一值：记为w_ik；

识别结果标签框高度的归一值：记为h_ik；

置信度：记为conf_ik；

类别：0，对应于WLW_A,WLW_B,WLW_C；1，对应于WLW_D。

8.根据权利要求1所述的一种基于深度神经网络的围龙屋建筑地理空间定位方法，其特征在于，所述步骤S6中，提取识别对象所在第i幅遥感影像的投影坐标值，包括左上角的x轴投影坐标值x_i1、左上角的y轴投影坐标值y_i1、右下角的x轴投影坐标值x_i2、右下角的y轴投影坐标值y_i2；

设第i幅遥感影像对应n个识别结果，k为n中的1条结果，1≤k≤n，提取围龙屋识别结果r_ik中的识别结果标签框中心点x轴坐标归一值x_ikc；识别结果标签框中心点y轴坐标归一值y_ikc；计算识别结果标签框x轴中心点的投影坐标值center_x_ik，以及识别结果标签框y轴中心点投影坐标值center_y_ik，计算方法为：

center_x_ik＝x_i1+(x_i2-x_i1)*x_ikc

center_y_ik＝y_i2+(y_i1-y_i2)*(1-y_ikc)

计算结果统一存储在识别结果数据集R中。

9.根据权利要求1所述的一种基于深度神经网络的围龙屋建筑地理空间定位方法，其特征在于，所述步骤S7中对数据集R进行重复性检验，去除重复数据点并计算真实中心点数据，过程如下：

设p，q为识别结果数据集R中的任意两条数据，则判断R_p和R_q是否为同一个围龙屋在x轴或y轴被两幅遥感影像切割而形成的两条数据，其中，判断一座围龙屋在y轴方向上被切割的标准为同时包含以下三点：(1)两条数据所在源遥感影像的名称不同；(2)两条数据满足所在的识别结果标签框在x轴方向上的距离不大于4个像素点；(3)两条数据中任意一条识别结果标签框的中心点y轴投影坐标值位于另一条识别结果标签框的y轴范围内；具体计算方式如下：

其中，判断一座围龙屋在x轴方向上被切割的标准为同时包含以下三点：(1)两条数据所在源遥感影像的名称不同；(2)两条数据满足所在的识别结果标签框在y轴方向上的距离不大于4个像素点；(3)两条数据中任意一条识别结果标签框的中心点x轴投影坐标值位于另一条识别结果标签框的x轴范围内，具体计算方式如下：

center_x＝|center_x_p-center_x_q|/2

center_y＝|center_y_p-center_y_q|/2

若不满足，则保留R_p和R_q。