CN109657728B

CN109657728B - 样例生产方法及模型训练方法

Info

Publication number: CN109657728B
Application number: CN201811598543.2A
Authority: CN
Inventors: 刘昱君; 李明巨; 石善球; 王丹; 许磊磊; 张璐; 李福洪; 朱映
Original assignee: PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Current assignee: PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2021-03-30
Anticipated expiration: 2038-12-26
Also published as: CN109657728A

Abstract

本发明实施例提供一种样例生产方法及模型训练方法，该样例生产方法包括：从与影像数据匹配的待选矢量数据中获取待处理地物要素的标识码，其中，所述待选矢量数据中记录有多种地物要素的标识码以及所述标识码对应的地物边界信息；根据第一预设条件对所述标识码对应的地物边界信息进行预处理，得到目标要素数据；利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，其中，所述目标样例用于构建深度学习算法中的训练模型。通过上述方法能够利用与影像数据匹配关联的待选矢量数据得到多个目标样例，解决了现有技术中样例少、样例生产效率低的问题。

Description

样例生产方法及模型训练方法

技术领域

本发明涉及数据处理领域，具体而言，涉及一种样例生产方法及模型训练方法。

背景技术

自从深度学习技术在语音识别、图像处理等方面得到应用以后，遥感影像解译领域也开始利用深度学习技术参与部分解译过程。但是，目前的遥感影像样例数据存在两方面问题：一，样例类别少，数据量不足；二，样例需要采用手动选取、人工标注，工作量大，导致样例生产效率低。这两方面问题制约了深度学习技术在遥感影像解译领域的发展。

发明内容

为克服现有技术中存在的问题，本发明实施例的目的在于提供一种样例生产方法及模型训练方法。

第一方面，本发明实施例提供一种样例生产方法，所述方法包括：

从与影像数据匹配的待选矢量数据中获取待处理地物要素的标识码，其中，所述待选矢量数据中记录有多种地物要素的标识码以及所述标识码对应的地物边界信息；

根据第一预设条件对所述标识码对应的地物边界信息进行预处理，得到目标要素数据；

利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，其中，所述目标样例用于构建深度学习算法中的训练模型。

通过上述方法，能够利用与影像数据匹配关联的待选矢量数据作为生产样例的数据源，进一步对待选矢量数据中的某些标识码所表示的要素进行处理，例如对某些要素的地物边界信息进行预处理以得到符合样例生产要求的目标要素数据，其中，对应不同的目标样例需求，可以对待选矢量数据中的要素进行不同的预处理。然后根据目标要素数据对影像数据进行切割，得到多个目标样例，这些目标样例可能是关于同种地物要素的，也可能是关于多种地物要素的。其中，可以利用上述方法对影像数据进行批量切割，提高样例生产效率。这些目标样例可以作为深度学习过程中的训练样本，可用于构建深度学习算法中的训练模型，上述方法能够解决现有技术中由于样例少、样例生产效率低的问题，能够拓展深度学习技术的应用领域。

结合第一方面，在一种可能的设计中，所述根据第一预设条件对所述标识码对应的地物边界信息进行预处理，得到目标要素数据，包括：

获取与所述标识码对应的地物边界信息，所述地物边界信息包括地物面积；

根据所述地物面积对所述标识码所表示的地物要素进行过滤，得到目标要素数据。

通过上述方法能够在生产单目标识别样例、单要素分割样例之前，对达不到样例生产要求的要素进行过滤，得到符合样例生产要求的目标要素的数据。其中，样例生产要求可能是某种地物要素的占地面积，也可能是某种地物要素在影像数据中的像素量。例如，可以直接判断地物面积是否低于阈值，若是，删除地物面积低于阈值的要素，以对所述第一要素进行过滤，得到目标要素数据；也可以根据获取到的地物面积计算相应要素在影像数据中的像素量，再将计算出的像素量与像素阈值进行对比，滤除像素量低于像素阈值的要素。

结合第一方面，在一种可能的设计中，所述目标样例包括单要素分割样例，所述单要素分割样例包括第一参考样例、第一参考标签，所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，包括：

获取所述目标要素数据中的各个要素的地物边界信息，得到每个要素的包络矩形；

根据所述包络矩形对所述影像数据进行切割，以从所述影像数据中提取由所述包络矩形切割到的像素，并对所述包络矩形中的非目标要素部分进行单色填充，得到所述第一参考样例；

对所述包络矩形中的目标要素部分进行单色填充，得到所述第一参考标签，其中，所述目标要素部分与所述非目标要素部分填充的颜色不同。

通过上述方法能够生产指定类型的单要素分割样例，指定类型所对应的要素可以是农田、旱地、植被等成片出现的要素。这些要素与要素之间的间距小。

结合第一方面，在一种可能的设计中，所述目标样例包括单要素分割样例，所述单要素分割样例包括第二参考样例、第二参考标签，所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，包括：

根据所述目标要素数据中各个要素的地物边界信息确定每个要素的裁剪矩形；

利用所述裁剪矩形对所述影像数据进行切割，以从所述影像数据中提取由所述裁剪矩形切割到的像素，得到所述第二参考样例；

用两种颜色分别对同一所述裁剪矩形中的目标要素部分、非目标要素部分进行单色填充，得到所述第二参考标签，其中，所述目标要素部分的标识码与所述非目标要素部分的标识码不同。

其中，裁剪矩形可能是通过各个要素边界确定的包络矩形，也可能是通过所有要素的总边界以及单种要素的平均面积确定的裁剪网格。不论是包络矩形还是裁剪网格都有可能作为裁剪矩形对影像数据进行切割，进一步生成单要素分割样例。通过上述方法，能够结合具体需求生产不同类型的单要素分割样例。每一种单要素分割样例都包括了参考样例、与参考样例关联的参考标签。并且每一种单要素分割样例的生产过程都可以批量实现，可以一次性得到多个单要素分割样例。若是利用单要素分割样例作为训练数据得到训练模型，可以帮助用户快速区分单个要素，标识出独立要素的轮廓。

结合第一方面，在一种可能的设计中，所述目标样例包括多要素分割样例，所述根据第一预设条件对所述标识码对应的地物边界信息进行预处理，得到目标要素数据，包括：

以所述待选矢量数据中的各个标识码作为要素区分标志，利用预设的颜色配置表对所述待选矢量数据中记录的各个地物要素进行渲染，得到目标要素数据。

上述方法可以为生产多要素分割样例奠定基础，尤其为得到多要素分割样例中的标签奠定基础。通过对各个地物要素进行渲染，可以直接通过颜色来区分多种要素。

结合第一方面，在一种可能的设计中，所述多要素分割样例包括多要素分割参考样例、多要素分割参考标签，所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，包括：

根据所述目标要素数据中的各个要素的地物边界信息确定标准网格；

利用所述标准网格对所述影像数据进行切割，得到所述多要素分割参考样例；

对存在于所述标准网格中的多个要素进行栅格化处理，得到所述多要素分割参考标签。

通过上述方法可以得到大量的多要素分割样例，这些多要素分割样例的可靠性高。若是利用多要素分割样例作为训练数据得到训练模型，可以帮助用户快速区分多个要素，标识出多个要素的轮廓。

获取缓冲区间；

根据所述缓冲区间对所述标识码对应的地物边界进行区域缓冲更新，得到目标要素数据，所述目标要素数据中记录有更新后的地物边界信息。

通过上述方法，能够对某些达不到样例生产要求的要素进行预处理，对达不到样例生产要求的要素进行缓冲更新，得到这些要素的新的要素边界。实际情况中，这些达不到样例生产要求的要素可能是由于占地面积过小，而导致在影像数据中的像素量低的要素；也有可能是因为在初次记录的时候信息就不足(可能仅仅以点、线进行描述)，导致难以确定实际面积的要素。

结合第一方面，在一种可能的设计中，所述获取缓冲区间的方式包括：

响应用户输入的缓冲指令，得到缓冲指令中的缓冲范围，将所述缓冲范围作为缓冲区间。

其中，对于缓冲指令中的缓冲范围可能是针对某个单独的要素的缓冲区间，也可能是针对某一类要素的批量缓冲区间。

结合第一方面，在一种可能的设计中，所述获取缓冲区间的方式还包括：以预设的缓冲范围作为批量缓冲的缓冲区间。

结合第一方面，在一种可能的设计中，所述目标样例包括单目标识别样例，所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，包括：

利用所述更新后的地物边界信息中的边界对所述影像数据进行切割，得到所述单目标识别样例。

通过上述方法能够得到多个单目标识别样例，若是用这些单目标识别样例作为训练数据得到训练模型，可以在遥感影像解译过程中实现目标分类或者目标识别。

结合第一方面，在一种可能的设计中，在所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例之前，所述方法还包括：

对所述目标要素数据中的各个要素设置地区属性。

通过上述方法，可以将地区信息与要素信息进行关联，生产得到带有地区属性的目标样例。

结合第一方面，在一种可能的设计中，所述方法还包括：

记录所述目标样例的地区属性、与所述目标样例关联的要素类别、图片像素属性。

通过上述方法，记录目标样例的相关属性后有利于后续管理查询，方便对目标样例进行维护。

第二方面，本发明实施例还提供一种模型训练方法，所述方法包括：

获取上述第一方面所述的样例生产方法得到的多个目标样例；

将所述多个目标样例作为训练数据输入待训练模型进行训练，得到解译模型。

通过上述方法得到的解译模型具有更高的可靠性，应用范围更广，解决了遥感影像解译领域中由于缺乏训练样本而导致难以发展深度学习技术的问题。

第三方面，本发明实施例还提供一种样例生产装置，所述装置包括：

数据源获取模块，用于从与影像数据关联的待选矢量数据中获取待处理地物要素的标识码，其中，所述待选矢量数据中记录有多个地物要素的标识码以及所述标识码对应的地物边界信息；

预处理模块，用于根据第一预设条件对所述标识码对应的地物边界信息进行预处理，得到目标要素数据；

生成模块，用于利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，其中，所述目标样例用于构建深度学习算法中的训练模型。

第四方面，本发明实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面所述方法的步骤。

第五方面，本发明实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面所述的方法中的步骤。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的电子设备的结构示意图。

图2为本发明实施例提供的样例生产方法的流程图。

图3为本发明实施例提供的一个实例中的水田样例图。

图4为本发明实施例提供的另一个实例中关于水田的单要素分割样例图。

图5为本发明实施例提供的一个实例中关于坑塘的单要素分割样例图。

图6为本发明实施例提供的一个实例中关于停车场的单要素分割样例图。

图7为本发明实施例提供的一个实例中的多要素分割样例图。

图8为本发明实施例提供的样例生产装置的功能模块示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

申请人经过研究发现，目前的遥感影像样例数据集大部分来自必应地图和谷歌地图影像，样例类别少，且大多采用手动选取、人工标注的方式，工作量大，且生产样例的方式也只是对地物进行大概的矩形框定实现标选，粗糙的标签样例将深度学习在遥感解译模型的应用方向限制在了目标分类与目标检测层面。

因此，申请人针对现有面向深度学习的学习样本在遥感解译领域的源数据资料少，样本生产困难的问题，充分分析已有的基础测绘数据、地理国情普查与监测数据的采集标准、地理国情普查数据的采集方式，设计了一套样例生产方式，根据深度学习在遥感解译领域的不同应用方向以及对于样例的多种需求，设计了能够批量生产可靠样例的方法。

由于各期基础测绘数据是严格按照测绘要求得到的，地理国情普查监测数据也是经过完整的质量控制体系才得到的，两种数据都足够可靠，具有较高的真实性。在实际的数据获取过程中，各期基础测绘数据、地理国情普查监测数据经过航空/卫星摄影实现获取遥感影像数据，并且通过了专业领域人员解译了影像采集要素，制定了一系列关于数据采集的基本要求，通过外业核查、内业编图，最后质检建库的流程。其中，针对各时期所对应的遥感影像数据，经过初步数据处理以及现场调绘，最终进行质检后，可以得到地理国情矢量数据、基础测绘矢量数据。各期基础测绘数据、地理国情普查监测数的生产流程与人工生产样例的流程基本相同，具有完整的质量控制体系，尤其是地理国情普查中的地表覆盖数据，覆盖了各个地区，其不同种类的地物甚至同种类的不同地物，都具有明确且精度很高的轮廓界限，将各期遥感影像中的每个像素都分配到了某个对象类别，而深度学习中的语义分割也就是需要对目标进行像素级分类，前述两种数据基于像素级别采集地物的精度能够满足作为实例分割的样例要求，地理国情矢量数据、基础测绘矢量数据的数据精度是能够得到保证的。

在申请人研究发现上述内容后，获取了与上述地理国情普查数据(监测、地表覆盖)匹配关联的地理国情矢量数据，以及与上述基础测绘数据匹配关联的基础测绘矢量数据，设计了本申请的样例生产方法。

下面将对本发明实施例中的一些用语进行解释。

地理国情矢量数据：由地理国情普查数据得到的矢量数据，能够描述地表覆盖数据、监测数据。在地理国情地表覆盖数据中，主要是基于面要素采集的。地表覆盖分类信息反映了地表的自然地表、自然营造物的自然属性或状况。地理国情矢量数据可以是通过航拍的遥感影像(航片)得到的，也可以是通过卫星拍摄的遥感影像(卫片)得到的。其中，航片的影像分辨率可以是0.3米、0.5米，卫片的影像分辨率可以是1米。

基础测绘矢量数据：由基础测绘数据得到的矢量数据，能够描述测绘数据中特征鲜明的自然、人工地物。基础测绘数据包括DLG、DOM、DEM、DRG等4D数据产品。基础测绘矢量数据可以是通过航拍的遥感影像(航片)得到的，也可以是通过卫星拍摄的遥感影像(卫片)得到的。其中，航片的影像分辨率可以是0.3米、0.5米，卫片的影像分辨率可以是1米。需要说明的是，下面的实施例提到的基础测绘数据是以DLG类型进行样例生产的，在其他可能的实施例中，本领域技术人员可以采用其他类型(例如DOM、DEM、DRG等)的基础测绘矢量数据生产样例。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，是本发明实施例提供的电子设备100的方框示意图。电子设备100可以是服务器、个人电脑(personal computer，PC)、平板电脑、智能手机、个人数字助理(personal digital assistant，PDA)等。

电子设备100包括处理器110、存储器120和总线，存储器120存储有处理器110可执行的机器可读指令，当电子设备100运行时，处理器110与存储器120之间通过总线通信，这些机器可读指令被处理器110执行时执行如下样例生产方法中的各个步骤。

在具体的实施过程中，为了与其他的终端设备进行通信连接，电子设备100还可以包括通信接口、通讯与网络扩展卡等部件；为了显示样例生产方法中的各个阶段性结果或者为用户提供一个交互界面，电子设备100还可以包括显示单元；为了接收用户输入的数据或者为了输出用户所需的数据，电子设备100还可以包括输入输出单元，在此不再赘述。

第一实施例

请参阅图2，是本发明实施例提供的样例生产方法的流程图。由于在本申请中涉及到多个样例的生产过程，在一种实施方式中，可以事先通过调研得到多种样例需求，针对每一种样例都生产相应的样例；在另一种实施方式中，可以在用户输入样例需求后，读取并识别用户的样例需求，进一步判断需要产生哪一种或者哪几种样例，再产生合适的样例。

下面将对图2所示的具体流程进行详细阐述，包括S21-S23。

S21，从与影像数据匹配的待选矢量数据中获取待处理地物要素的标识码，其中，待选矢量数据中记录有多种地物要素的标识码以及标识码对应的地物边界信息。

S22，根据第一预设条件对标识码对应的地物边界信息进行预处理，得到目标要素数据。其中，为了尽可能的满足不同的目标样例需求，可以对待选矢量数据中的要素进行不同的预处理。

S23，利用目标要素数据对影像数据进行切割，得到多个目标样例，其中，目标样例用于构建深度学习算法中的训练模型。

其中，在S21中，影像数据表示遥感影像(英文：Remote Sensing Image，简称：RS)数据，是指记录各种地物电磁波大小的胶片或照片，主要分为航空相片和卫星相片，分别简称航片、卫片。

与影像数据匹配关联的待选矢量数据可以是地理国情矢量数据，也可以是基础测绘矢量数据。不论是哪种待选矢量数据，都是与遥感影像匹配关联的。通过前述两种待选矢量数据作为生产样例的数据源，可以得到准确度较高的样例。本领域技术人员可以根据实际需要选择待选矢量数据作为数据来源，进一步基于选择的数据来源生产多种目标样例，生产得到的目标样例可以应用于要素分割，也可以应用于要素分类或识别。

在一个实例中，待选矢量数据是地理国情矢量数据。待选矢量数据可以表格的形式呈现，以地物要素的标识码为主键值，每一行数据表示一个要素，例如，一行矢量数据表示一个面要素，若是选中其中一行矢量数据，相当于在一个经过汇总的图集中选中了其中一个图层中的一个要素，这个被选中的要素存在闭合的边界，边界以内的面积表示为待选矢量数据中的面积值，需要说明的是，由于待选矢量数据是与影像数据匹配的，通过待选矢量数据中某个要素的标识码以及面积值，能够计算得到影像数据中关于该要素的像素量。

同理，待选矢量数据中的每行数据还可以表示一个点要素或者线要素，例如，当待选矢量数据是基础测绘矢量数据时，每个标识码所对应的相关数据可以表示基础测绘数据中的一个点或者一条线。

待选矢量数据中的地物边界信息除了面积值以外，还可能包括与标识码对应的要素的其他边界信息，例如坐标。但是这些坐标只能展现经度、维度、高度等绝对坐标信息，若是要得到要素的具***置属性，需要另外添加设置行政地区属性。

在获取到待选矢量数据中的部分或者全部标识码后，可以对这些标识码所对应的地物要素进行预处理，执行S22。

关于S22，根据不同的样例需求设置了不同的规则作为第一预设条件。第一预设条件中规定了需要对要素进行处理的处理事项，包括：生产样例所需的边界面积/要素的最低像素量、地区属性设置、颜色设置、边界缓冲等处理项。在得到第一预设条件后，进一步根据第一预设条件执行相应处理项，以对上述标识码所对应的地物要素进行预处理，预处理之后可以得到目标要素数据。

关于S23，在得到目标要素数据后，可以目标要素数据中的各个要素边界为基础，进一步对影像数据进行批量切割，得到多个目标样例，这些目标样例可以作为训练集构建影像解译训练模型。其中，若是待选矢量数据是地理国情矢量数据，那么切割的就是与地理国情矢量数据关联的遥感影像数据，若待选矢量数据是基础测绘矢量数据，那么切割的就是与基础测绘矢量数据关联的遥感影像数据。

由于现有的遥感影像样例少，并且现有的样例采用手工选取、人工标注，工作量大还容易出错，生成得到的样例粗糙，样例的应用方向受到限制。而通过本实施例中的上述方法，能够自动生成大量的目标样例。首先，以地理国情矢量数据为主、基础测绘矢量数据为辅的待选矢量数据是与遥感影像数据匹配关联的，通过对待选矢量数据中的要素进行预处理以后，利用预处理后得到的目标要素数据对遥感影像数据进行切割，能够批量生产多个目标样例，得到的样例多、数据可靠，精度高，能够满足深度学习的应用要求。

其次，根据深度学习在遥感解译领域的不同应用方向，在第一预设条件中设置了多种处理项以对待选矢量数据进行预处理，进一步根据预处理后目标要素数据生成多种目标样例，以满足不同的应用需求。

因此，上述方法以地表覆盖数据为主，基础测绘数据中特征鲜明的自然和人工地物加以补充，为各期所对应的遥感影像数据自动化生产应用于不同方向的标签样例，解决了深度学习技术在遥感解译领域样本不足的问题。

为了满足深度学习技术在遥感解译领域的不同应用方向，本实施例设置了三种目标样例，包括单要素分割样例、多要素分割样例、单目标识别样例。

其中，单目标识别样例可用于进行要素识别或者分类，以多个单目标识别样例为训练数据生成的训练模型可以识别影像中的要素种类，判别出某个要素是什么地物。

单要素分割样例可用于进行单要素分割，以多个单要素分割样例为训练数据生成的训练模型可以对某个影像中的单个要素进行分割，例如将某个图中能够表示指定要素的轮廓标识出来，以将该指定要素与影像中的其他部分进行区分，得到单个要素的轮廓。其中，单要素分割样例还包括多种细分样例，每个单要素分割样例都包括了由影像数据切割得到的参考样例以及根据矢量数据得到的参考标签。

同理，多要素分割样例可用于进行多要素分割，以多个多要素分割样例为训练数据生成的训练模型可以对某个影像中的多个要素进行分割，例如将某个图中能够表示指定要素的轮廓标识出来，以将对同一影像中的多个指定要素进行区分，得到多个要素的轮廓。其中，每个多要素分割样例都包括了由影像数据切割得到的参考样例以及根据矢量数据得到的参考标签。

在生成目标样例的过程中，由于某些要素可能由于实际占地面积太小，影像数据中关于这些要素的像素量不足，因此可以在对待选矢量数据进行过滤以后再对影像数据进行切割。为了实现这一功能，上述S21中的地物边界信息可以包括地物面积，上述方法的S22可以包括下列子步骤：S221-S222。

S221：获取与所述标识码对应的地物边界信息，所述地物边界信息包括地物面积。例如，可以先根据标识码提取同种类型的要素，再获取每个要素对应的地物面积；也可以直接根据待选矢量数据同时获取标识码、地物面积。

S222：根据所述地物面积对所述标识码所表示的地物要素进行过滤，得到目标要素数据。作为一种实施方式，可以直接判断地物面积是否低于面积阈值，若是，删除地物面积低于阈值的要素，以对第一要素进行过滤，得到目标要素数据。作为另一种实施方式，可以根据获取到的地物面积计算该要素在影像数据中的像素量，再判断计算出的像素量是否低于像素阈值，若是，删除像素量低于像素阈值的要素，以对第一要素进行过滤，得到目标要素数据。其中，本领域技术人员可以根据实际需要对待选矢量数据中的每种要素设置相应的面积阈值/像素阈值，面积阈值、像素阈值的具体设置方式以及具体值不应理解为对本申请的限制。

在一个实例中，以地理国情矢量数据作为待选矢量数据，第一要素是种植土地、林草、农田旱地、植被等地物要素，利用上述方法可以生产单要素分割样例、单目标识别样例。这些地物要素的特点是通常以成片的形式出现，且同种地物要素与要素之间间距很小，某些要素的面积很小。

若是直接以待选矢量数据中获得的标识码所对应的全部要素进行影像切割，会导致切割得到的某些影像采集像素不足，则不能完全反映出某些要素的纹理特征(例如图3中的水田就是因为像素量不足而得不到水田要素的纹理特征)，生产出来的样例就不具备该要素的鲜明特征。针对此类问题，本实施例中对于各地物要素进行定性定量分析，确定了不同要素的最低像素量，即能反映地物要素的主要特征的像素量的下限，在矢量数据中反映为该要素的面积大小。在过滤掉一定面积的要素之后再生产目标样例。

需要说明的是，某些点/线要素可能像素量本来就少，为了避免误操作，因此，若识别到标识码所表示的要素是点、线要素，可以不进行过滤，而是有另外一种处理方法，就是对这些要素进行边界拓展或者缓冲，以使某些点/线要素的像素量满足样例生产要求。例如，针对塔、城门、牌楼、烟囱、卫星站、天文台、隧道等要素，可能是仅用待选矢量数据中的点要素或者线要素来表示。对于这些仅以点、线来表示一个要素的矢量数据，可以对这些要素进行边界拓展或者缓冲，以使得这些要素的边界得到缓冲更新，再对边界更新后的要素进行处理，例如利用更新后的边界对影像数据进行切割。为了实现这一功能，上述S22还可以包括：获取缓冲区间，根据缓冲区间对标识码对应的地物边界进行区域缓冲更新，得到目标要素数据，目标要素数据中记录有更新后的地物边界信息。

其中，获取缓冲区间的方式有两种：一，响应用户输入的缓冲指令，得到缓冲指令中的缓冲范围，对于缓冲指令中的缓冲范围可能是针对某个单独的要素的缓冲区间，也可能是针对某一类要素的批量缓冲区间；二，获取预设的缓冲范围，以预设的缓冲范围作为对要素边界进行批量缓冲的缓冲区间。

需要说明的是，对于上述过滤、缓冲更新过程的顺序不应理解为对本发明的限制。在生产单目标识别样例的过程中，可能会采用基础测绘矢量数据中的点、线要素来生产目标样例，因此有必要对这些点、线要素进行边界缓冲。至于实际是需要过滤还是缓冲更新，可以根据用户的需求进行设置。在一种实施方式中，可以在接收到用户输入或者选中的要素种类以及样例要求后，生成符合用户需求的第一预设条件，也可以根据事先调研得到的用户需求得到不同需求各自对应的第一预设条件。

下面将分别介绍三种目标样例的具体生成过程。

第一种，单要素分割样例。由于不同种类的要素之间差异性较大，因此，对于单要素分割样例，设置了两类细分样例，第一类细分样例包括第一参考样例、第一参考标签，第二类细分样例包括第二参考样例、第二参考标签。对于第二类细分样例有两种不同的处理方式。换言之，每一种细分样例都包括参考样例和参考标签。在本实施例中，对于任意一种参考标签都进行了颜色填充，使得每一个参考标签都包含正、反标签。

在生产单要素分割样例的一种实施方式中，单要素分割样例包括第一参考样例、第一参考标签。上述S23包括以下子步骤：S231a-S233a。

S231a：获取所述目标要素数据中的各个要素的地物边界信息，得到每个要素的包络矩形。作为一种实施方式，可以先获取地物边界信息中每个要素的要素边界。其中，与待选矢量数据中的数据表示方法类似，目标要素数据中的各个地物要素以标识码进行要素区分。在一个实例中，标识码是code码，水田的标识码是“0110”，通过标识码“0110”可以提取目标要素数据中所有的水田要素，并得到每个水田的要素边界。基于获取到的要素边界可以确定要素边界的四至信息，通过四至信息能够确定目标要素的最小外接矩形，即包络矩形。

可选地，在S232a之前(甚至可以在S231a之前)，可以对待选矢量数据或者目标要素数据中的每个要素添加地区属性。作为一种实施方式，可以将行政区划数据中的地区属性空间与待选矢量数据中的各个要素关联或者将行政区划数据中的地区属性空间与目标要素数据中的各个要素关联。例如，只需要为确定出的包络矩形加上地区属性即可。

S232a：根据所述包络矩形对所述影像数据进行切割，以从所述影像数据中提取由所述包络矩形切割到的像素，并对所述包络矩形中的非目标要素部分进行单色填充，得到所述第一参考样例。

S233a：对所述包络矩形中的目标要素部分进行单色填充，得到所述第一参考标签，其中，所述目标要素部分与所述非目标要素部分填充的颜色不同。需要说明的是，目标要素部分与非目标要素部分分别对应的标识码不同。

其中，图4中的左边部分可以表示一个实例中关于水田的第一参考样例，图4中的右边部分可以表示一个实例中关于水田的第一参考标签。

需要说明的是，S232a、S233a之间的顺序不应理解为对本发明的限制，在实际实施过程中，S232a、S233a可以同时执行，也可以分步执行，例如还可以先执行S233a，再执行S232a。在执行S233a时，可以采用两种颜色分别对包络矩形中的目标要素部分、非目标要素部分进行单色填充。

在一个实例中，对于包络矩形中的非目标要素部分填充的颜色是黑色。包络矩形中的目标要素部分、非目标要素部分分别作为第一参考标签的正、反样例(或正、反标签)。当然，在其他实例中，可以是其他颜色，只要能够与包络矩形中的目标要素部分进行有效区分即可。

由于地理国情普查数据采集过程中，主要的目标是构建现势性强，高精度全覆盖的地理国情数据库，对所涉范围内所有地物进行全面覆盖的进行归类，并没有定性分析要素在影像中的具体情况(例如下图3中的水田，图3是不符合样例要求的示意图。)。若是得到如图3所示的样例，虽然是得到了水田要素的轮廓，但是无法反应出水田的纹理特征，为此才设计了第一参考样例，将目标要素部分与非目标要素部分进行明显区分，在第一参考样例中保留了要素的纹理特征。

通过以上方式可以利用单独要素的边界信息对影像数据进行批量切割，得到多个第一参考样例、与多个第一参考样例关联的多个第一参考标签。得到的单要素分割样例更为真实可靠。有利于对水田、旱地等需要保留地物要素纹理特征的要素生产目标样例。

在生产单要素分割样例的另一种实施方式中，单要素分割样例包括第二参考样例、第二参考标签。上述S23包括以下子步骤：S231b-S233b。

S231b：根据所述目标要素数据中各个要素的地物边界信息确定每个要素的裁剪矩形。

S232b：利用所述裁剪矩形对所述影像数据进行切割，以从所述影像数据中提取由所述裁剪矩形切割到的像素，得到所述第二参考样例。

S233b：用两种颜色分别对同一所述裁剪矩形中的目标要素部分、非目标要素部分进行单色填充，得到所述第二参考标签，其中，所述目标要素部分的标识码与所述非目标要素部分的标识码不同。

需要说明的是，S232b、S233b之间的顺序不应理解为对本发明的限制，在实际实施过程中，S232b、S233b可以同时执行，也可以分步执行，例如还可以先执行S233b，再执行S232b。

可选地，裁剪矩形是包络矩形或者裁剪网格。

在一种情况下，裁剪矩形是裁剪网格，那么S231b包括：获取目标要素数据中的各个要素的地物边界信息，得到所有要素的总边界、单种要素的平均面积；根据总边界确定裁剪网格的***边框，并根据单种要素的平均面积确定裁剪网格中单个网格的大小。以上方式可以更为灵活的确定裁剪网格的边界以及裁剪网格中单个网格的大小。

其中，裁剪网格中的网格线用于切断要素。例如，对于河流这种要素，提取河流的所有要素的标识码后，可以将所有河流要素提取到同一个图层中，计算单个河流要素的平均面积，根据平均面积确定裁剪网格中单个网格的大小，并根据所有河流的总边界划分裁剪网格。在一个实例中，若要素的平均面积为12000平方米，可以开平方取就近的方式确定单个网格的大小为110米*110米，若影像分辨率为1米，该单个网格的大小也可以表示为110像素*110像素。需要说明的是，以上描述只是提供了一种确定裁剪网格的方式，并不应理解为对本申请的限制。

在设置裁剪网格后，可以对裁剪网格中的每个网格添加地区属性。作为一种实施方式，可以将网格数据与预设的行政区划数据进行叠置分析。

相应的，S232b包括：利用裁剪网格对影像数据进行切割，以提取影像数据中的部分像素，得到第二参考样例。

相应的，S233b包括：用两种颜色分别对同一网格中的目标要素部分、非目标要素部分进行单色填充，得到第二参考标签，其中，目标要素部分的标识码与非目标要素部分的标识码不同。在一个实例中，对于同一网格中的目标要素部分可以置白，非目标要素部分可以置黑。

在一个实例中，由于河渠、公路、铁路等要素的形状大小各异，面积差别大，且河渠、公路、铁路等要素多为细长状，若是直接以这类要素的上、下、左、右边界范围来裁剪样例，得到的样例尺寸篇幅偏大，且要素地物在样例图片中所占的比重小，会失去作为这类要素样例的意义与价值。本例中考虑到要尽量体现要素的局部特征以及要素的完整性，根据同种要素的平均面积制定裁剪网格的大小，以裁剪网格的边界(网格线)打断要素，通过网格边界来提取对应影像像素，批量生产样例。还可以按位置选择网格内的目标要素，将网格中的要素面积除以网格面积得到面积占比，再将该面积占比与一预设值作对比进行取舍，删除面积占比过小的要素，保证目标样例的质量，生产标签样例(第二参考样例、第二参考标签)。在一个实例中，可以得到如图5所示的关于坑塘的单要素分割样例，图5中左边部分表示第二参考样例，图5中的右边部分表示第二参考标签。

通过以上方式有利于对河渠、公路、铁路等形状大小各异、面积差别大的细长状要素生产目标样例，利用网格来对影像数据进行切割，进一步对网格中的目标要素部分、非目标要素部分进行颜色填充，保留了要素的完整性，得到的目标样例更为真实可靠。

在另一种情况下，裁剪矩形是包络矩形，那么S231b的具体执行过程与上述S231a的过程类似，关于要素边界、包络矩形等说明请参见前述描述，在此不再赘述。可选地，在确定包络矩形后，可以为包络矩形添加地区属性。

相应的，若裁剪矩形是包络矩形，S232b可以包括：利用包络矩形对影像数据进行切割，以提取影像数据中的部分像素，得到第二参考样例。

相应的，S233b可以包括：在包络矩形中，以要素边界为分界线，用两种颜色分别对要素边界的内部、外部进行单色填充，得到第二参考标签。在同一包络矩形中，要素边界的内部表示目标要素部分，要素边界的外部表示非目标要素部分。在一个实例中，可以对目标要素部分置白，对非目标要素部分置黑，栅格化生产第二参考标签。其中，包络矩形可以根据每个要素的二维坐标中最小、最大值确定。

通过上述方法，能够对停车场、飞机场、停机坪跑道类相隔跨度大的要素生产目标样例，并且能够保证样例的完整性，体现出要素特征，在一个实例中，可以得到如图6所示的关于停车场的单要素分割样例，图6中的左边部分表示第二参考样例，图6中的右边部分表示第二参考标签。

第二种，多要素分割样例。在一个实例中，待选矢量数据是基于面要素采集的，采集的不同种类的地物甚至同种类的不同地物都具有明确的轮廓界限，且精度较高，将遥感拍摄时期的遥感图像中每个像素都分配到了某个对象类别。而深度学习的语义分割就是对目标进行像素分类，像素级别采集地物的精度可以满足作为深度学习语义分割的样例要求。

针对多要素分割样例，上述S22可以包括：以待选矢量数据中的各个标识码作为要素区分标志，利用预设的颜色配置表对待选矢量数据中记录的各个地物要素进行渲染，得到目标要素数据。例如，若是以地理国情矢量数据作为待选矢量数据，可以对地理国情矢量数据中的各地物要素进行唯一值渲染颜色。

其中，可以对不同种类的地物要素定义不同RGB颜色，以不同的颜色表示不同的地物要素，形成颜色配置表。利用颜色配置表对待选矢量数据中记录的地物要素进行颜色分配，实现渲染。

在渲染结束后，可以对渲染后的要素进行全局栅格化处理，进一步执行切割步骤，也可以是先进行切割步骤，再对切割得到的内容进行全局或者局部栅格化处理。

其中，多要素分割样例包括多要素分割参考样例、多要素分割参考标签。为了得到多要素分割参考样例、多要素分割参考标签，上述S23可以包括以下子步骤：S231c-S233c。

S231c：根据所述目标要素数据中的各个要素的地物边界信息确定标准网格。

例如，可以先获取目标要素数据中的各个要素的地物边界信息，得到所有要素的总边界；再根据总边界确定标准网格的***边框。在一个实例中，标准网格中单个网格的大小可以是1024像素*1024像素。

S232c：利用所述标准网格对所述影像数据进行切割，得到所述多要素分割参考样例。

S233c：对存在于所述标准网格中的多个要素进行栅格化处理，得到所述多要素分割参考标签。

需要说明的是，S232c、S233c之间的顺序不应理解为对本发明的限制。

通过上述方法，能够对得到大量多要素分割样例，这样得到的多要素分割样例精度高，每个像素都可以分配到要素所在的对象类别，按照像素级别采集的地物要素的精度能够满足深度学习语义分割要求。经过栅格化处理后的多要素分割样例可靠性高，通过颜色可以给人以直观的感受，区分度高，机器可读性强。在一个实例中，可以得到如图7所示的多要素分割样例，图7中的左边部分表示多要素分割参考样例，图7中的右边部分表示多要素分割参考标签。

第三种，单目标识别样例。为了得到单目标识别样例，上述S23可以包括:利用更新后的地物边界信息中的边界对影像数据进行切割，得到单目标识别样例。

其中，更新后的地物边界信息是指经过缓冲或者更新的要素边界。

作为分类样例或者识别样例的单目标识别样例，其生产精度并不需要达到像素级别，单目标识别样例只需要满足能够充分体现相应类别地物的基本特征、能够区别与其他部分即可。基于此要求，用于生产单目标识别样例的主要数据源是基础测绘矢量数据中的点/线要素以及地理国情矢量数据中的高层建筑的面要素。这些要素的特点是占地面积小，在影像中所占的像素少。这些要素在待选矢量数据中可能仅仅只有一个点要素、线要素的信息，要素的边界面积小甚至等同于无。这时，需要对这些点、线要素进行边界缓冲或者更新，使得更新后要素边界能够涵盖这些要素的主要特征。进一步利用更新后的要素边界对影像数据进行切割，得到单目标识别样例。

其中，对于点/线要素的缓冲方式可以这样实现：点/线要素根据实际遥感影像进行缓冲构面，直到能够包含住该要素的主要特征。在缓冲完成后执行上述S23，利用更新后的地物边界信息得到新的***矩形轮廓，对新的***矩形轮廓进行漫水填充，切割生产单目标识别样例。

而对于高层房屋等面要素生产单目标识别样例时，由于摄影时存在侧视角，具有一定高度的地物(高层建筑)在影像上产生位移差，要素与影像实物难以吻合匹配，此时可以根据预设的批量缓冲区间对这些面要素进行边界缓冲，再利用缓冲后得到的新的边界对影像数据进行切割，得到单目标识别样例。

本实施例中，可选地，在S23之前，方法还包括：对目标要素数据中的各个要素设置地区属性。

作为一种实施方式，直接对要素的要素边界限定的范围设置地区属性即可。在具体实施时，可以利用记录有多个目标要素的目标要素数据与预设的行政区划数据进行叠置分析，以对目标要素数据中的多个目标要素批量添加地区属性。

作为另一种实施方式，可以对要素的包络矩形设置地区属性。添加地区属性的方式可以是利用涵盖了目标要素的多个包络矩形和预设的行政区划数据进行叠置分析，以实现对包络矩形中的要素添加地区属性。

作为再一种实施方式，可以对设置的标准网格设置地区属性。仅需要对标准网格数据与预设的行政区划数据进行叠置分析即可。利用添加了地区属性的标准网格对影像进行切割所生产的目标样例自然有了地区属性。

可选地，在本实施例中，方法还包括：记录目标样例的地区属性、与目标样例关联的要素类别、图片像素属性。

通过记录目标样例的地区属性、要素类别、图片像素属性、图像名称等内容，有利于后续管理查询。

综上所述，通过上述方法，能够利用与影像数据匹配关联的地理国情矢量数据或者基础测绘矢量数据作为待选矢量数据，对待选矢量数据中的要素进行预处理后，得到符合样例生产要求的目标要素数据，然后基于目标要素数据确定用于切割影像数据的矩形(或网格)，最后对影像数据进行分割，以得到可靠度较高的多个目标样例，且可以得到能够应用于不同需求的多种目标样例。解决了现有技术中由于样例少、样例生产困难等原因而限制了深度学习技术在遥感影像解译领域的应用问题，并且摆脱了以往只能依靠人工获取样例的模式，提高了样例生产效率。

第二实施例

本实施例提供一种模型训练方法，方法包括两个环节。

第一环节，获取第一实施例提供的样例生产方法得到的多个目标样例。

第二环节，将多个目标样例作为训练数据输入待训练模型进行训练，得到解译模型。其中，关于本实施例中所述目标样例的其他细节请请进一步参考前述实施例的相关描述，在此不再赘述。

通过上述方法能够在深度学习技术中有效利用本发明实施例提供的多个目标样例，得到解译模型。由于训练数据源充足，得到的解译模型可靠性更高，拓展了深度学习在遥感影像解译领域的应用。

第三实施例

本实施例提供了一种样例生产装置300，如图8所示，样例生产装置300包括：

数据源获取模块310，用于从与影像数据匹配的待选矢量数据中获取待处理地物要素的标识码，其中，待选矢量数据中记录有多种地物要素的标识码以及标识码对应的地物边界信息；

预处理模块320，用于根据第一预设条件对标识码对应的地物边界信息进行预处理，得到目标要素数据；

生成模块330，用于利用目标要素数据对影像数据进行切割，得到多个目标样例，其中，目标样例用于构建深度学习算法中的训练模型。

上述装置用于执行前述第一实施例中各个步骤，关于上述装置的其他细节请进一步参考前述第一实施例中的相关描述，在此不再赘述。

通过上述装置能够得到大量的目标样例，解决了现有技术中样例少、样例生产效率低的问题。

除了上述实施例以外，本申请实施例还提供了一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时运行如上述第一实施例提供的样例生产方法中的各个步骤。存储介质包括：U盘、移动硬盘、存储器、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种样例生产方法，其特征在于，所述方法包括：

利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，其中，所述目标样例用于构建深度学习算法中的训练模型；

所述目标样例包括单要素分割样例，所述单要素分割样例包括第一参考样例、第一参考标签，所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，包括：

对所述包络矩形中的目标要素部分进行单色填充，得到所述第一参考标签，其中，所述目标要素部分与所述非目标要素部分填充的颜色不同；

或：

所述目标样例包括单要素分割样例，所述单要素分割样例包括第二参考样例、第二参考标签，所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，包括：

用两种颜色分别对同一所述裁剪矩形中的目标要素部分、非目标要素部分进行单色填充，得到所述第二参考标签，其中，所述目标要素部分的标识码与所述非目标要素部分的标识码不同；

或：

所述目标样例包括多要素分割样例，所述多要素分割样例包括多要素分割参考样例、多要素分割参考标签，所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，包括：

2.如权利要求1所述的方法，其特征在于，所述根据第一预设条件对所述标识码对应的地物边界信息进行预处理，得到目标要素数据，包括：

3.如权利要求1所述的方法，其特征在于，所述根据第一预设条件对所述标识码对应的地物边界信息进行预处理，得到目标要素数据，包括：

4.如权利要求1所述的方法，其特征在于，所述根据第一预设条件对所述标识码对应的地物边界信息进行预处理，得到目标要素数据，包括：

获取缓冲区间；

5.如权利要求4所述的方法，其特征在于，所述目标样例包括单目标识别样例，所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例，包括：

6.如权利要求1-5任一项所述的方法，其特征在于，在所述利用所述目标要素数据对所述影像数据进行切割，得到多个目标样例之前，所述方法还包括：

对所述目标要素数据中的各个要素设置地区属性。

7.一种模型训练方法，其特征在于，所述方法包括：

获取权利要求1-6任一项所述的样例生产方法得到的多个目标样例；