CN112085840B

CN112085840B - 语义分割方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112085840B
Application number: CN202010981890.4A
Authority: CN
Inventors: 者雪飞; 暴林超; 林鸿鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2024-03-29
Anticipated expiration: 2040-09-17
Also published as: CN112085840A

Abstract

本申请提供了一种语义分割方法、装置、设备及计算机可读存储介质；方法包括：通过获取针对三维模型的展示操作；响应于展示操作，在人机交互界面展示三维模型；人机交互界面包括语义分割选项；获取针对语义分割选项的选择操作；响应于选择操作，在获取到二维图像的二维分割结果后，在人机交互界面展示三维模型的语义分割结果；语义分割结果为根据二维图像的二维分割结果和三维模型的模型属性确定的；二维图像与三维模型属于同一场景。通过本申请提供的基于人工智能的语义分割方法，能够提升对三维模型的分割效率、提升用户体验。

Description

语义分割方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及数据处理技术，尤其涉及一种语义分割方法、装置、设备及计算机可读存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。其中，三维物体重建(3D object reconstruction)和目标分割(Target segmentation)是人工智能的重要分支，在实际的工程应用中，需要对特定的三维模型进行语义分割来得到目标对象的部分三维模型，已进行后续的工程应用。

在传统的三维模型分割过程中，往往是根据三维分割网络对该三维模型的点云数据进行语义分割，由于点云数据的数据量庞大，在实际的分割过程中，不仅计算量大，耗时长，而且分割准确度较低，无法得到更加真实的语义分割结果。

发明内容

本申请实施例提供一种语义分割方法、装置、设备及计算机可读存储介质，能够提升了三维模型的分割效率和分割准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语义分割方法，包括：获取针对三维模型的展示操作；响应于展示操作，在人机交互界面展示三维模型；人机交互界面包括语义分割选项；获取针对语义分割选项的选择操作；响应于选择操作，在获取到二维图像的二维分割结果后，在人机交互界面展示三维模型的语义分割结果；语义分割结果为根据二维图像的二维分割结果和三维模型的模型属性确定的；二维图像与三维模型属于同一场景。

在一些实施例中，所述方法还包括将二维分割结果映射至三维模型，得到三维模型的语义分割结果；所述将二维分割结果映射至三维模型，得到三维模型的语义分割结果，包括：获取二维图像的二维分割结果；二维分割结果至少包括二维图像中多个像素点对应的标签；将二维图像的多个像素点，与三维模型的多个顶点进行映射；根据多个像素点对应的标签，确定每一顶点的初始标签；根据每一顶点的初始标签，和三维模型的多个子表面中每一子表面的属性信息建立能量函数；基于能量函数，对初始分割结果进行优化，得到语义分割结果。

在一些实施例中，所述能量函数包括第一损失项、第二损失项和权重；所述三维模型还包括多个相交边；所述根据每一顶点的初始标签，和三维模型的多个子表面中每一子表面的属性信息建立能量函数，包括：根据每一顶点和每一顶点对应的多个第一子表面确定第一损失项；第一损失项与每一顶点的初始标签和多个第一子表面中每一第一子表面的属性信息相关；根据多个相交边中每一相交边对应的两个相邻顶点和两个相邻的第二子表面建立第二损失项；第二损失项与相交边的长度、两个第二子表面之间的夹角和两个相邻顶点中每一相邻顶点的初始标签相关；根据第一损失项、第二损失项和权重建立能量函数。

在一些实施例中，所述属性信息包括以下至少之一：高度信息、平面信息、垂直信息和面积信息，所述方法还包括：确定每一子表面的属性信息。

在一些实施例中，在属性信息包括高度信息的情况下，所述确定每一子表面的属性信息，包括：确定每一子表面的质心位置；根据每一子表面的质心位置和预设的局部邻域范围，确定每一子表面对应的邻域质心集合；邻域质心集合中包括多个邻域质心；根据每一子表面对应的多个邻域质心的质心位置，确定每一子表面对应的高度信息。

在一些实施例中，在属性信息包括平面信息的情况下，所述确定每一子表面的属性信息，包括：确定每一子表面对应的相邻子表面集合；相邻子表面包含多个与子表面相邻的相邻子表面；根据每一子表面对应的相邻子表面集合，获取每一子表面对应的相邻面顶点集合；根据每一子表面对应的相邻面顶点集合建立协方差矩阵；协方差矩阵对应多个特征值；根据每一子表面对应的多个特征值，确定每一子表面对应的平面信息。

在一些实施例中，在属性信息包括垂直信息的情况下，所述确定每一子表面的属性信息，包括：确定每一子表面的单位法向量；根据每一子表面的单位法向量和预设的标准单位法向量，确定每一子表面对应的垂直信息。

在一些实施例中，所述基于能量函数，对初始分割结果进行优化，得到语义分割结果，包括：通过对能量函数进行最小化迭代处理，对初始分割结果进行优化，得到语义分割结果。

在一些实施例中，所述获取二维图像的二维分割结果，包括：采用语义分割模型对二维图像进行分割，得到二维图像的分割结果。

在一些实施例中，在二维图像为航拍图像的情况下，所述语义分割模型的获取过程，包括：获取街景样本数据集和航拍样本数据集；街景样本数据集包括多个携带分割标注的街景样本图片；航拍样本数据集包括多个携带分割标注的航拍样本图片；根据街景样本数据集对预设的初始分割模型进行训练，得到训练后的街景分割模型；根据航拍样本数据集对街景分割模型进行训练，得到语义分割模型。

在一些实施例中，所述将二维图像的多个像素点，与三维模型的多个顶点进行映射，包括：根据二维图像的拍摄参数，确定三维模型对应的三维坐标系与二维图像对应的二维坐标系的转换关系；根据多个像素点中每一像素点的二维坐标、多个顶点中每一顶点的三维坐标和转换关系，将多个像素点与多个顶点进行映射。

在一些实施例中，所述根据多个像素点对应的标签，确定每一顶点的初始标签，包括：根据与每一顶点映射的像素点对应的标签，确定每一顶点的初始标签。

本申请实施例提供一种语义分割装置，所述装置包括：

第一获取模块，用于获取针对三维模型的展示操作。

第一展示模块，用于响应于展示操作，在人机交互界面展示三维模型；人机交互界面包括语义分割选项。

第二获取模块，用于获取针对语义分割选项的选择操作。

第二展示模块，用于响应于选择操作，在获取到二维图像的二维分割结果后，在人机交互界面展示三维模型的语义分割结果；语义分割结果为根据二维图像的二维分割结果和三维模型的模型属性确定的；二维图像与三维模型属于同一场景。

本申请实施例提供一种语义分割设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的语义分割方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的语义分割方法。

本申请实施例具有以下有益效果：

本申请实施例通过获取针对三维模型的展示操作；响应于展示操作，在人机交互界面展示三维模型；人机交互界面包括语义分割选项；获取针对语义分割选项的选择操作；响应于选择操作，在获取到二维图像的二维分割结果后，在人机交互界面展示三维模型的语义分割结果；语义分割结果为根据二维图像的二维分割结果和三维模型的模型属性确定的；二维图像与三维模型属于同一场景。如此，可以在展示三维模型的过程中，根据二维图像的二维分割结果和所述三维模型的模型属性对三维模型进行语义分割，相比于传统技术中直接对三维模型对应的点云数据进行分割的方案，本方案在保证分割准确率的同时，减少了对三维模型进行语义分割时的数据计算量，提高了分割效率，进而可以提高对用户操作的响应效率，提升用户体验。

附图说明

图1是本申请实施例提供的语义分割***的一个可选的架构示意图；

图2是本申请实施例提供的语义分割设备的结构示意图；

图3是本申请实施例提供的语义分割方法的一个可选的流程示意图；

图4是本申请实施例提供的语义分割方法的一个可选的流程示意图；

图5A是本申请实施例提供的语义分割方法的一个可选的流程示意图；

图5B是本申请实施例提供的一个可选的三维模型示意图；

图6是本申请实施例提供的语义分割方法的一个可选的流程示意图；

图7是本申请实施例提供的语义分割方法的一个可选的流程示意图；

图8是本申请实施例提供的语义分割方法的一个可选的流程示意图；

图9A是本申请实施例提供的城市航拍重建模型语义分割方法的一个可选的流程示意图；

图9B是本申请实施例提供的映射过程的一个可选的流程示意图；

图9C是本申请实施例提供的一个可选的航拍图像示意图；

图9D是本申请实施例提供的一个可选的二维分割效果示意图；

图9E是本申请实施例提供的一个可选的三维模型示意图；

图9F是本申请实施例提供的一个可选的三维分割效果示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使在本实施例中描述的本申请实施例能够以除了在在本实施例中图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本申请实施例提供的方案涉及人工智能的计算机视觉技术等技术，具体通过如下实施例进行说明：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例所涉及计算机视觉技术以及机器学习技术。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、定位和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、OCR(Optical Character Recognition，光学字符识别)、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例主要涉及计算机视觉中的图像语义理解技术，基于图像语义理解进行图像分割。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

(1)3D语义分割：3D语义分割技术是将点云划分为语义上有意义的部分，然后在语义上将每个部分标记为预定义的类之一。

(2)马尔科夫随机场(MRF)：马尔科夫随机场是是一个可以由无向图表示的概率分布模型。图中每个结点表示一个或者一组变量，结点之间的边表示两个变量之间的依赖关系。

本申请实施例提供一种语义分割方法、装置、设备和计算机可读存储介质，通过响应于三维模型展示操作，在人机交互界面展示所述三维模型和语义分割选项；响应于针对所述语义分割选项的选择操作，在所述人机交互界面展示所述三维模型的语义分割结果；语义分割结果为根据二维图像的二维分割结果和三维模型的模型属性确定的；二维图像与三维模型属于同一场景。通过本申请，能够提升对三维模型的分割效率、提升用户体验。下面说明本申请实施例提供的电子设备的示例性应用。

参见图1，图1是本申请实施例提供的语义分割***100的一个可选的架构示意图，为实现支撑一个语义分割应用，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。图1还示出了服务器200可以为服务器集群，该服务器集群包括服务器200-1至200-3，同样地，服务器200-1至200-3可以是实体机器，也可以是利用虚拟化技术(如容器技术及虚拟机技术等)构建的虚拟机器，本申请实施例对此不做限定，当然，在本实施例中也可使用单个服务器来进行服务的提供。

在一些实施例中，终端400在接收到三维模型展示操作后，会获取该三维模型的数据文件，该三维模型的数据文件已经预先存储于终端400中，在终端400接收到用户对于该三维模型的展示操作后，可以直接获取该三维模型的数据文件；该三维模型的数据文件还可以存储于与终端400连接的服务器200中，在终端400接收到用户对于该三维模型的展示操作后，可以发送文件请求至服务器200，并接受该服务器200返回的该三维模型的数据文件。终端400在进行解析后，可以在图形界面410(示例性示出了图形界面410-1和图形界面410-2)显示该三维模型和语义分割选项。之后，在终端400接收到用户针对所述语义分割选项的选择操作后，可以由终端400根据二维图像的二维分割结果和三维模型的模型属性确定三维模型的语义分割结果；也可以通过终端400发送语义分割请求至服务器200，服务器200根据二维图像的二维分割结果和三维模型的模型属性确定三维模型的语义分割结果，并将该语义分割结果发送至终端400。终端400可以在图形界面410(示例性示出了图形界面410-1和图形界面410-2)显示该三维模型的语义分割结果。

参见图2，图2是本申请实施例提供的语义分割设备500的结构示意图，图2所示的语义分割设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。语义分割设备500中的各个组件通过总线***540耦合在一起。可理解，总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***551，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的语义分割装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的语义分割装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语义分割方法。

在一些实施例中，本申请实施例提供的语义分割装置可以采用软件方式实现，图2示出了存储在存储器550中的语义分割装置555，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块5551、第一展示模块5552、第二获取模块5553和第二展示模块5554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语义分割方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

将结合本申请实施例提供的终端的示例性应用和实施，在本申请实施例中，将以终端为执行主体说明本申请实施例提供的语义分割方法。

参见图3，图3是本申请实施例提供的语义分割方法的一个可选的流程示意图，将结合图3示出的步骤进行说明。

在步骤301中，获取针对三维模型的展示操作。

在步骤302中，响应于展示操作，在人机交互界面展示三维模型；人机交互界面包括语义分割选项。

在一些实施例中，该三维模型的数据文件已经预先存储于终端中，在终端接收到用户对于该三维模型的展示操作后，可以获取该三维模型的数据文件。在进行解析后，可以在终端当前的人机交互界面展示该三维模型。该三维模型的数据文件还可以存储于与终端连接的服务器中，在终端接收到用户对于该三维模型的展示操作后，可以发送文件请求至服务器，并接受该服务器返回的该三维模型的数据文件。在进行解析后，可以在终端当前的人机交互界面展示该三维模型。

在一些实施例中，在展示该三维模型的过程中，还可以通过该人机交互界面接收用户对三维模型的实时操作，该实时操作可以包括但不限于是各种拖拽操作、缩放操作和旋转操作等，并根据该实时操作实时调整三维模型的显示状态，该显示状态包括但不限于是显示位置、大小尺寸和显示角度等。

在本实施例中，在人机交互界面显示该三维模型的同时，人机交互界面还会显示该三维模型对应的语义分割选项。该选项可以是直接显示或悬浮显示在该人机交互界面上，也可以是以二级或更高级别菜单选项的方式显示在该人机交互界面上，本申请对此不作限定。

在步骤303中，获取针对语义分割选项的选择操作。

在步骤304中，响应于选择操作，在获取到二维图像的二维分割结果后，在人机交互界面展示三维模型的语义分割结果；语义分割结果为根据二维图像的二维分割结果和三维模型的模型属性确定的；二维图像与三维模型属于同一场景。

在一些实施例中，在终端接收到用户对于上述语义分割选项的选择操作后，可以出发对该三维模型的语义分割处理步骤。其中，该选择操作可以为用户对该语义分割选项的点击、长按等直接的选择操作；也可以为用户通过语音、手势等方式输入至终端的指令，在终端对该指令进行转换后，可以触发该语义分割选项。

在一些实施例中，该语义分割结果为根据二维图像的二维分割结果和三维模型的模型属性确定的。该二维图像可以是预先与该三维模型建立对应关系的图像，在接收到用户对于上述语义分割选项的选择操作后，可以根据该对应关系，直接获取该三维模型对应的二维图像。该二维图像可以预先存储于终端内，也可以预先存储于服务器中，还可以通过在线搜索得到。

在一些实施例中，该二维图像还可以是用户实时选择的。在终端接收到用户对于上述语义分割选项的选择操作后，会在该人机交互界面中显示一图像获取窗口，并通过该图像获取窗口获取用户实时选择的图像作为该二维图像。其中，获取图像的方式包括但不限于是：在该图像获取窗口中显示多张待选择图像，根据用户的选择操作确定部分待选择图像为实时选择的二维图像；通过该图像获取窗口接收用户从该人工交互界面中的其他窗口拖拽过来的二维图像；通过该图像获取窗口接收用户输入的图片地址，根据该图片地址获取用户实时选择的二维图像。

在一些实施例中，三维模型的模型属性可以包括以下至少之一：三维模型的尺寸、三维模型的类型、三维模型的几何属性。其中，三维模型的集合属性包括该三维模型中顶点的几何属性、子表面的几何属性和相交边的几何属性。

在一些实施例中，在在人机交互界面展示三维模型的语义分割结果的过程中，可以根据该语义分割结果对原始的三维模型进行上色。终端中预先存储语义分割结果中各个标签对应的颜色，在展示该语义分割结果的过程中，根据每一标签对应的颜色对原始的三维模型进行上色，以体现该三维模型中不同类型区域之间的差异。

通过本申请实施例对于图3的上述示例性实施可知，本申请实施例通过获取针对三维模型的展示操作；响应于展示操作，在人机交互界面展示三维模型；人机交互界面包括语义分割选项；获取针对语义分割选项的选择操作；响应于选择操作，在获取到二维图像的二维分割结果后，在人机交互界面展示三维模型的语义分割结果；语义分割结果为根据二维图像的二维分割结果和三维模型的模型属性确定的；二维图像与三维模型属于同一场景。如此，可以在展示三维模型的过程中，根据二维图像的二维分割结果和所述三维模型的模型属性对三维模型进行语义分割，相比于传统技术中直接对三维模型对应的点云数据进行分割的方案，本方案在保证分割准确率的同时，减少了对三维模型进行语义分割时的数据计算量，提高了分割效率，进而可以提高对用户操作的响应效率，提升用户体验。

在一些实施例中，基于图3，在所述人机交互界面展示所述三维模型的语义分割结果之前，所述方法还包括：将二维分割结果映射至三维模型，得到三维模型的语义分割结果。可以通过以下方式实现上述将二维分割结果映射至三维模型，得到三维模型的语义分割结果的步骤：

参见图4，图4是本申请实施例提供的语义分割方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

在步骤401中，获取二维图像的二维分割结果；二维分割结果至少包括二维图像中多个像素点对应的标签。

在一些实施例中，在人机交互界面展示三维模型的语义分割结果之前，可以通过以下方式获取该二维图像的二维分割结果：(1)将该二维图像转换为灰度图像，获取该灰度图像中各个像素的灰度值，通过设置至少一个灰度阈值，将灰度值处于同一阈值区间的多个像素划分为同一类别，并对每一类别的多个像素添加对应的标签，以得到该二维分割结果；(2)检测该二维图像中包含不同区域的边缘，通过检测得到的边缘对该二维图像中的多个像素点进行划分并添加对应标签，以得到该二维分割结果；(3)可以先通过大量添加标注的样本图片对初始分割模型进行训练，在训练完成后得到对应的分割模型，根据该分割模型对该二维图像进行二维语义分割，以得到该二维分割结果。

其中，该二维图像包含多个像素点，该二维分割结果至少包括二维图像中多个像素点对应的标签。在一个实施例中，该二维分割结果包括了该二维图像中每一像素点对应的标签；在一个实施例中，该二维分割结果包括了该二维图像中部分像素点对应的标签。

例如，以该二维图像包括H(高)*W(宽)个像素点为例，该二维分割结果可以为每一像素点对应的标签，即，得到的二维分割结果可以表示为H(高)*W(宽)*K，其中，K表示每一像素点对应的标签；该二维分割结果还可以为该二维图像中部分像素点对应的标签，即得到的二维分割结果可以表示为N*K，其中，N表示部分像素点的像素点个数，K表示每一像素点对应的标签。

在步骤402中，将二维图像的多个像素点，与三维模型的多个顶点进行映射。

在一些实施例中，该三维模型与该二维图像属于同一场景，也就是说，在三维模型为真实场景下对一个目标物体进行建模得到的虚拟三维模型的情况下，该二维图像为在该目标物体的拍摄图片。

例如，在道路场景中，若该三维模型为真实道路场景中对某一区域(包括道路，植被和建筑物等)进行建模得到的虚拟三维模型，该二维图像为该区域的拍摄图片，该拍摄图片至少包括该区域内的一个真实物体的影像。

在一些实施例中，可以获取二维图像中各像素点所在的二维坐标系与该三维模型中各顶点所在的三维坐标系之间的转换关系，根据该转换关系可以将二维图像中的像素点与三维模型中的顶点进行映射。

在步骤403中，根据多个像素点对应的标签，确定每一顶点的初始标签。

在一些实施例中，在确定每一顶点对应的像素点后，将该对应的像素点的标签作为该顶点对应的初始标签。

在步骤404中，根据每一顶点的初始标签，和三维模型的多个子表面中每一子表面的属性信息建立能量函数。

在一些实施例中，每一子表面的属性信息可以为该子表面的几何属性。例如，可以包括该子表面的面积属性、高度属性、方向属性和平整度属性等。在上述步骤404中，基于每一顶点的初始标签，构建该初始标签对应的马尔科夫随机场(MRF)，并根据三维模型中多个子表面中每一子表面的属性信息定义该马尔科夫随机场的能量函数。在该能量函数取得最小值时的每一顶点的标签就是期望的分割结果。

在步骤405中，基于能量函数，对初始分割结果进行优化，得到语义分割结果。

在一些实施例中，该步骤405可以包括通过对能量函数进行最小化迭代处理，对初始分割结果进行优化，得到语义分割结果。其中，在该最小化迭代处理中的每一次最小化处理中，通过随机的改变任意一个或多个顶点的标签，以尝试降低该能量函数的值。在该能量函数的值降低的情况下，保留该任意一个或多个顶点变更后的标签；在该能量函数的值升高的情况下，将该任意一个或多个顶点变更后的标签还原到变更前的标签。通过不断的最小化处理，直至该能量函数以达到最小值，将当前每一顶点对应的标签作为最终的语义分割结果。

在一些实施例中，可以通过以下任意一种方法完成对该能量函数的最小化迭代处理：阿尔法展开方法、阿尔法贝塔交换方法和快速PD方法。其中，阿尔法贝塔交换方法的总体思路是每一次交换调整两个标签来使得能量函数下降，遍历所有组合标签直至能量函数在所有的一次交换调整标签中不能下降，最小化迭代处理完成，达到最优。经过最小化迭代处理之后，该能量函数已经达到最小值，进而可以将当前最小值对应的多个顶点的标签作为最终的语义分割结果。

通过本申请实施例对于图4的上述示例性实施可知，本申请实施例通过将二维图像的二维分割结果转换到同一场景下的三维模型中，可以快速确定三维模型中每一顶点的初始标签，相比于传统技术中直接对三维模型对应的点云数据进行分割的方案，本方案在保证分割准确率的同时，减少了对三维模型进行语义分割时的数据计算量，提高了分割效率；另外，由于将对三维模型各顶点的标签与三维模型中每一子表面的几何属性相结合，加入了马尔科夫随机场(MRF)的几何约束，并建立能量函数，在通过该能量函数对初始分割结果进行优化的过程中，由于考虑到了三维模型的集合属性，可以使得最终的语义分割结果更加真实，分割准确率更高。

在一些实施例中，参见图5A，图5A是本申请实施例提供的语义分割方法的一个可选的流程示意图，基于图4，图4示出的步骤404可更新为步骤501至步骤503。

在步骤501中，根据每一顶点和每一顶点对应的多个第一子表面确定第一损失项；第一损失项与每一顶点的初始标签和多个第一子表面中每一第一子表面的属性信息相关。

在一些实施例中，该三维模型可以由上述多个子表面组成，其中，两个子表面之间可以确定一个相交边，三个子表面可以确定一个顶点。其中，子表面可以为三角面、四边形面等。

请参阅图5B，图5B是本申请实施例提供的一个可选的三维模型示意图，其中，该三维模型示意图只简单的示出了一个完整三维模型的部分三维模型，可以看出，该部分三维模型由A1、A2和A3三个子表面组成，其中，A1和A2可以确定一个相交边O1O4，A1和A3可以确定一个相交边O2O4，A2和A3可以确定一个相交边O3O4；A1、A2和A3可以确定一个顶点O4。

在一个实施例中，对于该三维模型中包含的多个顶点，分别确定每一顶点对应的能量数据，将每一顶点的能量数据的和作为该第一损失项。例如，该第一损失项E1可以表示为下述公式(1)：

E1＝∑_i∈SD_i(l_i) (1)；

其中，i表示三维模型中的顶点，S表示三维模型中所有子表面的集合，l_i表示顶点i对应的初始标签，D_i表示顶点i对应的能量数据。

在一个实施例中，一个顶点对应的能量数据与该顶点对应的初始标签，和该顶点对应的多个第一子表面的属性信息相关。其中，该顶点对应的多个第一子表面为包括该顶点的子表面。例如，请参阅图5B，对于顶点O4，其对应的多个第一子表面包括A1、A2和A3，因此，该顶点O4对应的能量数据与A1的属性信息、A2的属性信息和A3的属性信息相关。

在一个实施例中，该属性信息可以包括以下至少之一：高度信息、平面信息、垂直信息和面积信息。其中，该高度信息用于表征该子表面在三维模型中的相对高度属性，该平面信息用于表征该子表面与相邻子表面形成的面的平整程度，该垂直信息用于表征该子表面与预设垂直方向之间的差异程度，该面积信息用于表征该子表面的尺寸大小。

对于顶点i对应的一个第一子表面，该第一子表面对应能量数据可以表示为下述公式(2)：

D_i(l_i)＝A_i ×(1-B(l_i)) (2)；

其中，D_i(l_i)表示包含顶点i的一个第一子表面的能量数据，A_i表示该第一子表面的面积信息，该B(l_i)为与该第一子表面的高度信息、平面信息和垂直信息中的至少一个相关。对于不同的l_i，该B(l_i)可以为不同的形式。

例如，以顶点的初始标签包括“地面”标签和“植被”标签为例，在顶点i的初始标签为“地面”的情况下，该B(l_i)可以表示为(垂直信息*平面信息*(1-高度信息))；在顶点i的初始标签为“植被”的情况下，该B(l_i)可以表示为(垂直信息*(1-平面信息))，相应地，该第一子表面对应能量数据可以表示为下述公式(3)：

其中，a_p表示该第一子表面的平面信息，a_h表示该第一子表面的垂直信息，a_e表示该第一子表面的高度信息，

在步骤502中，根据多个相交边中每一相交边对应的两个相邻顶点和两个相邻的第二子表面建立第二损失项；第二损失项与相交边的长度的距离、两个第二子表面之间的夹角和两个相邻顶点中每一相邻顶点的初始标签相关。

在一些实施例中，对于该三维模型中包含的多个相交边，分别确定每一相交边对应的损失数据，将每一相交边的损失数据的和作为该第二损失项。例如，该第二损失项E2可以表示为下述公式(4)：

E2＝∑_{i,j}∈EV_ij(l_i,l_j) (4)；

其中，E表示该三维模型中相交边的集合，i和j表示每一相交边的两个顶点，l_i表示顶点i对应的初始标签，l_j表示顶点j对应的初始标签，V_ij表示由顶点i和顶点j确定的相交边对应的损失数据。

在一些实施例中，每一相交边可以确定一组相邻顶点，该组相邻顶点包括两个相邻顶点；同时每一相交边可以确定一组相邻子表面，该组相邻子表面包括两个第二子表面。该V_ij与相交边的长度、两个第二子表面之间的夹角和两个相邻顶点中每一相邻顶点的初始标签相关。其中该V_ij可以表示为下述公式(5)：

其中，C_ij表示由顶点i和顶点j确定的相交边的长度；w_ij表示两个第二子表面之间的夹角，还可以表示两个第二子表面对应的法向量夹角，还可以表示为两个第二子表面之间的夹角的余弦值，还可以表示为两个第二子表面对应的法向量夹角的余弦值；表示示性函数，在顶点i和顶点j对应的初始标签不相同时为1，在顶点i和顶点j对应的初始标签相同时为0。

例如，请参阅图5B，对于相交边O1O4，其对应的损失数据V_O4,O1可以表示为公式(6)：

在步骤503中，根据第一损失项、第二损失项和权重建立能量函数。

在一些实施例中，该权重用于权衡该第一损失项与第二损失项，可以根据具体的分割场景进行预先设置。该能量函数可以表示为公式(7)：

U(l)＝E1+γE2＝∑_i∈SD_i(l_i)+γ∑_{i,j}∈EV_ij(l_i,l_j) (7)；

其中，γ表示该权重。

通过本申请实施例对于图5A的上述示例性实施可知，本申请实施例通过确定三维模型中每一子表面的高度信息、平面信息、垂直信息和面积信息，在定义第一损失项时，可以实现从各个几何维度约束各顶点的分割结果，并且，在定义第二损失项时中考虑了相邻顶点在相交边长度、相交角度与标签的因素，通过这样的约束可以提升分割结果的真实性，提升语义分割的准确度。

在一些实施例中，参见图6，图6是本申请实施例提供的语义分割方法的一个可选的流程示意图，基于图5A，所述方法还可以包括步骤601。

在步骤601中，确定每一子表面的属性信息。

在一些实施例中，为了加快能量函数的建立过程，提高能量函数的建立效率，可以在步骤501之前，先确定该三维模型中每一子表面的属性信息。其中，在确定该三维模型中每一子表面的属性信息之前，还可以通过终端接收用户对该三维模型中多个子表面的选择指令，以在多个子表面中选择部分子表面作为目标子表面，在步骤601中，只对该目标子表面进行处理，确定每一目标子表面的属性信息。

在一些实施例中，在属性信息包括高度信息的情况下，确定每一子表面的属性信息，包括：

确定每一子表面的质心位置；根据每一子表面的质心位置和预设的局部邻域范围，确定每一子表面对应的邻域质心集合；邻域质心集合中包括多个邻域质心；根据每一子表面对应的多个邻域质心的质心位置，确定每一子表面对应的高度信息。

在本实施例中，若三维模型包括N个子表面，通过计算每一子表面的质心位置，可以得到N个质心和每一质心对应的质心位置。对于任意一个子表面，可以以该子表面的质心位置为中心，寻找在预设的局部邻域范围内的邻域质心，每一邻域质心都可以对应一个邻域子表面，建立每一子表面对应的邻域质心集合，根据每一子表面对应的邻域质心集合中的多个邻域质心的质心位置，可以确定每一子表面的高度信息。

其中，可以通过以下方式实现上述根据每一子表面的质心位置和预设的局部邻域范围，确定每一子表面对应的邻域质心集合：(1)该局部邻域范围可以为一个距离阈值，对于一个子表面的质心位置，将质心位置距离小于该距离阈值的其他质心作为邻域质心，进而获得该子表面对应的邻域质心集合；(2)该局部邻域范围可以为一个数量阈值，对于一个子表面的质心位置，可以依次获取距离该质心位置最近的其他质心作为邻域质心，直至获取到该数量阈值个邻域质心，进而获得该子表面对应的邻域质心集合。其中，该局部邻域范围可以根据三维模型的大小相关，三维模型越大，该局部邻域范围越大。

在得到每一子表面对应的邻域质心集合后，可以通过下述公式(8)确定每一子表面对应的高度信息：

其中，f_i为子表面，a_e为高度信息，z_i为子表面f_i的质心高度，z_min为该子表面f_i对应的邻域质心集合中的质心高度的最小值，z_max为该子表面f_i对应的邻域质心集合中的质心高度的最大值。采用平方根目的是可确保较小的相对高度值也可以获得较大的高度信息。

在一些实施例中，在属性信息包括平面信息的情况下，确定每一子表面的属性信息，包括：

确定每一子表面对应的相邻子表面集合；相邻子表面包含多个与子表面相邻的相邻子表面；根据每一子表面对应的相邻子表面集合，获取每一子表面对应的相邻面顶点集合；根据每一子表面对应的相邻面顶点集合建立协方差矩阵；协方差矩阵对应多个特征值；根据每一子表面对应的多个特征值，确定每一子表面对应的平面信息。

在本实施例中，子表面对应的相邻子表面集合中包含的多个相邻子表面可以为与该子表面直接相邻的子表面，即相邻子表面可以与该子表面相交。在该相邻子表面集合中，每一相邻子表面均包括至少三个顶点，统计该子表面对应的所有相邻子表面的顶点，并删除重复的顶点，即可得到该相邻面顶点集合。以子表面均为三角面为例，若存在一个子表面A5对应的相邻子表面集合中包括相邻子表面A51、A52和A53，其中，A5包括顶点O51、O52和O53，A51包括顶点O51、O52和O54，A52包括顶点O52、O53和O55，A53包括顶点O53、O51和O56，统计该子表面A5的所有相邻子表面的顶点，并删除重复的顶点，可以得到相邻面顶点集合包括(O51、O52、O53、O54、O55和O56)。

在本实施例中，可以根据该相邻面顶点集合中每一相邻面顶点建立协方差矩阵，对该协方差矩阵求解，可以得到该协方差矩阵对应的三个特征值λ₀、λ₁和λ₂，其中，λ₀≤λ₁≤λ₂。该子表面对应的平面信息通过公式(9)确定：

其中，f_i为子表面，a_p为平面信息。该平面信息可以表征该子表面f_i附近的平面属性，如果是完全平面，那么这个计算结果是1，如果是多个相同的各向异性超平面，也就是三个特征值都相等，那么这个计算结果是0。

在一些实施例中，在属性信息包括垂直信息的情况下，确定每一子表面的属性信息，包括：

确定每一子表面的单位法向量；根据每一子表面的单位法向量和预设的标准单位法向量，确定每一子表面对应的垂直信息。

在本实施例中，每一子表面对应的平面信息通过公式(10)确定：

a_h(f_i)＝|n_i·n_z| (10)；

其中，f_i为子表面，a_h为垂直信息，n_i为子表面f_i的单位法向量，n_z为预设的标准单位法向量。其中，该标准单位法向量可以与该三维模型所在坐标系的z轴同向。

通过本申请实施例对于图6的上述示例性实施可知，本申请通过确定三维模型中每一子表面的高度信息、平面信息、垂直信息和面积信息，在根据每一子表面建立能量函数的过程中，可以实现从各个几何维度约束各顶点的分割结果，进而可以提升分割结果的真实性，提升语义分割的准确度。

在一些实施例中，基于图4，步骤401中获取二维图像的二维分割结果可以包括：采用语义分割模型对二维图像进行分割，得到二维图像的分割结果。本申请实施例还提供一种语义分割模型的获取方法，本申请实施例提供的语义分割模型获取方法可以用于农业、工业和医疗卫生等各种领域。为了方便理解，以下以道路场景为例，对语义分割模型的获取过程进行说明。

在一些实施例中，可以获取航拍样本数据集；航拍样本数据集包括多个携带分割标注的航拍样本图片；根据航拍样本数据集对预设的初始分割模型进行训练，得到该语义分割模型。

其中，每一航拍样本图片均携带分割标注。通过该分割标注，可以将航拍样本图片分割为不同的区域，每一区域内为同一类型的目标对象。例如，可以通过该分割标注将航拍图像分割为区域1、区域2和其他区域，区域1中的像素点均被添加了道路标签，区域2中的像素均被添加了植被标签，其他区域未添加标签或添加了空值标签。

在根据航拍样本数据集对预设的初始分割模型进行训练，得到该语义分割模型的过程中，可以先将该航拍样本数据集划分为训练集和测试集，利用该训练集对预设的初始分割模型进行训练，再利用该测试集对训练后的初始分割模型进行验证，在分割准确率达到预设标准时，输出该训练后的初始分割模型作为语义分割模型。

在获取三维模型的过程中，往往通过无人机航拍等方法获取当前道路场景中的植被、道路和建筑物的建模数据，该建模数据可以包括航拍图像、点云数据等。在对该三维模型的分割过程中，为了实现更好的分割效果，往往需要同样的角度进行二维图像的获取，也就是说，为了实现更好的分割效果本申请实施例中的二维图像为通过无人机航拍等方法获取的航拍图像。

对于道路场景下的图像分割问题，传统的语义分割模型往往通过大量的街景图像获取对应的街景分割模型，通过街景分割模型处理航拍图像时，由于视角不同，经常会出现将建筑物分割为道路类别的问题。因此，请参见图7，图7是本申请实施例提供的一个可选的语义分割模型获取过程的流程示意图，将结合图7示出的步骤进行说明。

在步骤701中，获取街景样本数据集和航拍样本数据集；街景样本数据集包括多个携带分割标注的街景样本图片；航拍样本数据集包括多个携带分割标注的航拍样本图片。

在步骤702中，根据街景样本数据集对预设的初始分割模型进行训练，得到训练后的街景分割模型。

在一些实施例中，在根据街景样本数据集对预设的初始分割模型进行训练，得到该街景分割模型的过程中，可以先将该街景样本数据集划分为训练集和测试集，利用该训练集对预设的初始分割模型进行训练，再利用该测试集对训练后的初始分割模型进行验证，在分割准确率达到预设标准时，输出该训练后的初始分割模型作为街景分割模型。

在步骤703中，根据航拍样本数据集对街景分割模型进行训练，得到语义分割模型。

在一些实施例中，在得到该街景分割模型后，可以通过航拍样本数据集对街景分割模型继续训练。其中，可以先将该航拍样本数据集划分为训练集和测试集，利用该训练集对街景分割模型进行训练，再利用该测试集对训练后的街景分割模型进行验证，在分割准确率达到预设标准时，输出该训练后的街景分割模型作为语义分割模型。该航拍样本数据集中航拍样本图片的数量可以远远小于街景样本数据集中街景样本图片的数量。

通过本申请实施例对于图7的上述示例性实施可知，本申请实施例通过街景样本数据集先对预设的初始分割模型进行预训练，得到具有一定的学习能力的街景分割模型，再通过少量的航拍样本图片对预训练后的街景分割模型进行再一次学习，得到的语义分割模型不仅可以对街景图片进行准确的分割处理，还可以对航拍图片进行准确的分割处理。由于先采用了大量现有的街景样本数据集对初始分割模型进行预训练，在得到最终语义分割模型的过程中，只需要小批量的航拍样本图片，减少了对航拍样本图片进行标注的人工成本；并且，通过道路场景下的街景类别图片和航拍类别图片的训练顺序，可以提升模型获取效率。

在一些实施例中，参见图8，图8是本申请实施例提供的语义分割方法的一个可选的流程示意图，基于图4，步骤402可以更新为步骤801，步骤403可以更新为步骤802。

在步骤801中，根据二维图像的拍摄参数，确定三维模型对应的三维坐标系与二维图像对应的二维坐标系的转换关系；根据多个像素点中每一像素点的二维坐标、多个顶点中每一顶点的三维坐标和转换关系，将多个像素点与多个顶点进行映射。

在一些实施例中，该拍摄参数可以为拍摄该二维图像的相机的拍摄参数。其中，该拍摄参数包括相机内参数和相机外参数，相机内参数为与该相机自身特性相关的参数，比如相机的焦距、像素大小等；相机外参数为该相机在世界坐标系中的参数，比如相机的位置、旋转方向等。

可以通过以下方式获取三维模型对应的三维坐标系与二维图像对应的二维坐标系的转换关系：获取该三维模型对应的三维坐标系与世界坐标系之间的第一转换关系；通过该拍摄参数获取该二维图像对应的二维坐标系与世界坐标系之间的第二转换关系；根据该第一转换关系和第二转换关系可以确定三维模型对应的三维坐标系与二维图像对应的二维坐标系的转换关系。

在一些实施例中，对于该三维模型中每一顶点，通过该转换关系可以获取每一顶点在该二维图像中对应的像素点。其中，三维模型中的一个顶点只对应二维图像中的一个像素点；三维模型中的多个顶点可能同时对应二维图像中的一个像素点。

在步骤802中，根据与每一顶点映射的像素点对应的标签，确定每一顶点的初始标签。

在一些实施例中，在确定每一顶点映射的像素点后，根据该像素点对应的标签，可以确定每一顶点的初始标签。

通过本申请实施例对于图8的上述示例性实施可知，本申请实施例通过建立二维图像与三维模型之间的坐标系的转换关系，可以根据二维图像中的分割结果快速确定三维模型中各个顶点的分割结果，相比于传统技术中直接对过三维模型对应的点云数据进行分割的方案，本方案在保证分割准确率的同时，减少了对三维模型进行语义分割时的数据计算量，提高了分割效率。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例可以解决各种类型的三维模型的语义分割问题，为了方便理解，以下以城市航拍重建模型的语义分割过程为例，提出了一种城市航拍重建模型语义分割方法。该城市航拍重建模型语义分割方法用于从重建好的3D模型提取得到引擎可用的资源，对于重建好的3D模型，为了提取有用模型用于后处理，就必须进行语义分割，对3D模型的树木、建筑、道路等进行区分。

3D语义分割：3D语义分割技术是将点云划分为语义上有意义的部分，然后在语义上将每个部分标记为预定义的类之一。

马尔科夫随机场(MRF)：马尔科夫随机场是是一个可以由无向图表示的概率分布模型。图中每个结点表示一个或者一组变量，结点之间的边表示两个变量之间的依赖关系。

为了解决三维模型的语义分割问题，相关技术中存在以下解决方案：

(1)3D点云语义分割网络。

其中，该3D点云语义分割网络可以包括：A、采用PointNet++类网络对输入点云进行分割，PointNet++引入了一个层次化的神经网络用于提取邻域特征，同时，PointNet++提出了一个自适应特征学习层去学习不同邻域采样尺度的特征。B、在PointNet++这类方法中，由于GPU硬件设备的限制，在对大场景点云进行处理时只能对大场景点云进行分块处理输入，这种方法会割裂开场景点云之间的相关联系，且处理起来比较麻烦，因此RandLA-Net提出一种针对大场景3D点云的语义分割方法，具体策略为：通过随机点云采样先对输入点云进行降采样，而后采用了一种特征融合模块去增大每个3D点的感受野从而来弥补随机采样带来的关键特征丢失。

(2)图像语义分割网络。

其中，图像语义分割任务最初流行方法是图像块分类，即利用像素周围的图像块对每一个像素进行独立的分类。使用图像块分类的主要原因是分类网络通常是全连接层且要求固定尺寸的图像。采用全卷积网络FCN，使得卷积神经网络无需全连接层即可进行密集的像素预测，全卷积网络从而得到普及。使用这种方法可生成任意大小的图像分割图，且该方法比图像块分类法要快很多。之后，语义分割领域几乎所有先进方法都采用了全卷积网络模型。由于FCN在进行图像语义分割时没有充分考虑像素与像素之间的关系，缺乏空间一致性，对图像中的细节不够敏感，导致分割结果不够精细。通过在FCN的末端增加全连接条件随机场，对粗糙分割图进行边界优化，并使用带孔卷积(atrous convolution)扩大特征图的感受野，提出了DeepLab网络。而后陆续又出现了DeepLab v2，DeepLab v3，Deeplab v3+等。

发明人发现图像语义分割任务相比于3D语义分割技术更加成熟，而且实用性更强。因此，发明人认为在工程应用中先在对2D图像采用语义分割网络得到分割结果再将其映射到3D模型上效果比起直接3D点云语义分割要好很多。

相应地，相关技术中存在问题如下：

(1)3D点云分割网络

3D点云分割网络最大的缺点是其训练数据是理想的CAD模型或者精度很高的激光扫描模型，但是由于场景前端重建出来的模型精度是有限的，与训练数据差距较大，因此拿PointNet++或者RandLA-Net等网络训练的模型去测试效果很差。另外，由于3D点云语义分割数据标注难度和成本都很高，而且对不同类型的重建建筑也都得重新标注，因此采用人工标注的3D语义分割数据去训练点云网络成本也较高，而且不实用。

(2)图像分割网络

基于2D图像分割网络的3D分割最大问题在于数据，目前主流2D语义分割网络训练数据大都是街景数据或者自然图片，缺少航拍图像分割数据。因此在训练分割网络时会采用街景分割数据集进行代替，但是，由于航拍数据和街景数据的图片存在差异，因此2D语义分割结果会出现很多误判，比如由于航拍数据是从上向下看的，会使得航拍图像标注为建筑物的部分在采用街景图像预训练的模型中被误分为道路。

本申请实施例提供的一种城市航拍重建模型语义分割方法，可以解决2D语义分割网络出现的误判问题，特别是针对航拍数据中建筑物容易被误分为道路的情况，本城市航拍重建模型语义分割方法在图像语义分割基础上中加入了马尔科夫随机场(MRF)的几何约束，效果比现有的技术方案提升明显。

本申请实施例提供的一种城市航拍重建模型语义分割方法，包括：将航拍图像输入分割网络得到分割结果，之后将其图像分割结果映射到3D模型上，进一步利用3D模型上的几何约束对分割结果做进一步的细化。其中，在得到2D图像分割结果后，将其映射到3D模型，采用马尔科夫随机场(MRF)能量函数的几何约束对图像分割结果进行进一步细化，可以提升分割准确率。

请参阅图9A，图9A是本申请实施例提供的城市航拍重建模型语义分割方法的一个可选的流程示意图。

在步骤901中，训练分割网络。其中，采用街景语义分割数据集训练分割网络，利用少量已标注好的航拍数据集对上一步训练好的网络进行微调，待网络训练结束后，将***无人机得到的航拍图像送进分割网络得到图像分割结果。目前缺乏大批量的航拍图片数据集，所以先采用街景数据集先对网络预训练，使得网络具有一定的学习能力，再在自己标注的小批量航拍数据集上对预训练后的网络进行再一次学习，这样效果是可以做到最好。

在步骤902中，分割结果映射到3D。其中，利用相机内外参，将每张航拍图像的2D分割结果与其在原始3D模型的坐标相对应，在上色策略上，在一个顶点有多个图片像素点颜色对应情况下，采用投票方式来而不是直接加权平均来获得最终的顶点颜色值，进一步提高了贴图后的3D模型语义分割结果的准确度。其中，相机内外参包括：相机内参数(是与相机自身特性相关的参数，比如相机的焦距、像素大小等)和相机外参数(在世界坐标系中的参数，比如相机的位置、旋转方向等)。

上述将分割结果映射到3D模型的过程，包括：a、获取航拍图像的二维分割结果，该二维分割结果包括每一像素点对应的分割标签；b、根据相机内外参，将三维模型(由多个顶点和多个三角面组成)中的顶点映射到该二维分割图像中，得到三维模型中每一顶点对应的分割标签。

请参阅图9B，图9B是本申请实施例提供的映射过程的一个可选的流程示意图。其中，921为航拍图像所在的平面，该平面对应二维坐标系x’-y’，922为相机在三维空间内的三维坐标系X-Y-Z，对于三维坐标系中每个空间点P(顶点)在航拍图像上都有对应的像素位置P’，因此对于3D模型每个顶点都可以找到该顶点在航拍图像的对应位置，然后就可以通过图像的分割结果就能得到该顶点的分割结果。例如，顶点P9的分割标签是3(1是代表道路，2代表树木，3代表建筑)，***中预设各分割标签对应的颜色，红色代表1，蓝色代表2，黄色代表3。顶点P9的标签是3，那么就可以将顶点P9颜色设定为黄色，这样就完成了上色过程。

在步骤903中，计算几何属性(属性信息)。对步骤902中的3D模型计算每个三角面的几何属性，该几何属性可以包括高度属性(高度信息)a_e、平面属性(平面信息)a_p和垂直属性(垂直信息)a_h。其中，各集合属性可以通过如下过程定义。

在一些实施例中，该高度属性a_e定义为该三角面f_i质心的相对高度函数，可以表示为公式(8)，其中，(z_min，z_max)代表该三角面局部空间邻域(邻域指的是在空间上某一个点周围离它距离最近的K个点，K是可以自定义，K越大说明邻域越大，反之则越小)内所有三角形小平面的高度范围，采用平方根目的是可确保较小的相对高度值获得较大的高程属性。邻域的大小，可由实际模型的坐标值设定。

在一些实施例中，平面属性a_p定义为三角面f_i的平整度函数，可以表示为公式(9)其中，计算与三角面f_i相邻的所有三角面顶点的协方差矩阵，得到对应的三个特征值(λ₀、λ₁和λ₂)，这样就可以反映三角面fi附近的平面属性，λ₀表示平面协方差的最小特征值，对于完全平面的超小平面，平面度为1；对于具有三个相同的各向同性的超平面，平面度为0。

在一些实施例中，垂直属性a_h用于衡量三角面f_i的单位法向量相对于垂直轴的偏差，可以表示为公式(10)。其中n_z代表沿着z轴的单位法向量，n_i则代表面f_i单位法向量。

在步骤904中，计算能量函数：在2D图像语义分割映射得到的3D模型的基础上，结合上述的几何属性，可以采用马尔科夫随机场(MRF)模型来进一步约束和细化3D语义分割结果，能量函数U如公式(11)所示：

U(l)＝∑_i∈SD_i(l_i)+γ∑_{i,j}∈EV_ij(l_i,l_j) (11)；

其中S代表所有三角面的集合，l_i代表第(2)得到的初步3D语义分割标签结果，即顶点i属于l_i类，E则代表该3D模型中所有相交的两个三角面，D_i表示如公式(3)，其中而V_ij目的是让相连的分割结果更加平滑避免骤变，表示如公式(5)，其中C_ij代表两个面之间相交边的长度，w_ij表示两个面法向量夹角的余弦值，l则表示特征函数(示性函数)。

在步骤905中，交换算法优化迭代。采用α-β交换算法对上述的能量函数进行最小化迭代。进而可以得到优化后的，每一顶点对应的分割标签。

请参阅图9C至图9F，图9C是本申请实施例提供的一个可选的航拍图像示意图。对该航拍图像进行二维语义分割之后，可以得到图9D中所示的二维分割效果。为了便于识别，图中由白色实线931框选的区域内的各像素点已经被添加了“植被”标签，图中由白色虚线932框选的区域内的各像素点已经被添加了“道路”标签。图9E是本申请实施例提供的一个可选的三维模型示意图。其中，在将该图9D对应的二维分割结果映射到图9E所示的三维模型中之后，可以得到图9F中所示的三维分割效果。为了便于识别，图中由白色实线941框选的区域内的各顶点已经被添加了“植被”标签，图中由白色虚线942框选的区域内的各顶点已经被添加了“道路”标签。

下面继续说明本申请实施例提供的语义分割装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的语义分割装置555中的软件模块可以包括：

第一获取模块5551，用于获取针对三维模型的展示操作。

第一展示模块5552，用于响应于展示操作，在人机交互界面展示三维模型；人机交互界面包括语义分割选项。

第二获取模块5553，用于获取针对语义分割选项的选择操作。

第二展示模块5554，用于响应于选择操作，在获取到二维图像的二维分割结果后，在人机交互界面展示三维模型的语义分割结果；语义分割结果为根据二维图像的二维分割结果和三维模型的模型属性确定的；二维图像与三维模型属于同一场景。

在一些实施例中，语义分割装置555还包括获取模块、映射模块、确定模块、建立模块和优化模块，其中；

获取模块，用于获取二维图像的二维分割结果；二维分割结果至少包括二维图像中多个像素点对应的标签；

映射模块，用于将二维图像的多个像素点，与三维模型的多个顶点进行映射；三维模型与二维图像属于同一场景；

确定模块，用于根据多个像素点对应的标签，确定每一顶点的初始标签；

建立模块，用于根据每一顶点的初始标签，和三维模型的多个子表面中每一子表面的属性信息建立能量函数；

优化模块，用于基于能量函数，对初始分割结果进行优化，得到语义分割结果。

在一些实施例中，能量函数包括第一损失项、第二损失项和权重；三维模型还包括多个相交边，所述建立模块还用于根据每一顶点和每一顶点对应的多个第一子表面确定第一损失项；第一损失项与每一顶点的初始标签和多个第一子表面中每一第一子表面的属性信息相关；

根据多个相交边中每一相交边对应的两个相邻顶点和两个相邻的第二子表面建立第二损失项；第二损失项与相交边的长度、两个第二子表面之间的夹角和两个相邻顶点中每一相邻顶点的初始标签相关；

根据第一损失项、第二损失项和权重建立能量函数。

在一些实施例中，属性信息包括以下至少之一：高度信息、平面信息、垂直信息和面积信息，语义分割装置555还包括属性确定模块，属性确定模块用于确定每一子表面的属性信息。

在一些实施例中，在属性信息包括高度信息的情况下，属性确定模块还用于确定每一子表面的质心位置；根据每一子表面的质心位置和预设的局部邻域范围，确定每一子表面对应的邻域质心集合；邻域质心集合中包括多个邻域质心；根据每一子表面对应的多个邻域质心的质心位置，确定每一子表面对应的高度信息。

在一些实施例中，在属性信息包括平面信息的情况下，属性确定模块还用于确定每一子表面对应的相邻子表面集合；相邻子表面包含多个与子表面相邻的相邻子表面；根据每一子表面对应的相邻子表面集合，获取每一子表面对应的相邻面顶点集合；根据每一子表面对应的相邻面顶点集合建立协方差矩阵；协方差矩阵对应多个特征值；根据每一子表面对应的多个特征值，确定每一子表面对应的平面信息。

在一些实施例中，在属性信息包括垂直信息的情况下，属性确定模块还用于确定每一子表面的单位法向量；根据每一子表面的单位法向量和预设的标准单位法向量，确定每一子表面对应的垂直信息。

在一些实施例中，优化模块，还用于通过对能量函数进行最小化迭代处理，对初始分割结果进行优化，得到语义分割结果。

在一些实施例中，获取模块，还用于采用语义分割模型对二维图像进行分割，得到二维图像的分割结果。

在一些实施例中，在二维图像为航拍图像的情况下，语义分割装置555还包括训练模块，训练模块用于获取街景样本数据集和航拍样本数据集；街景样本数据集包括多个携带分割标注的街景样本图片；航拍样本数据集包括多个携带分割标注的航拍样本图片；根据街景样本数据集对预设的初始分割模型进行训练，得到训练后的街景分割模型；根据航拍样本数据集对街景分割模型进行训练，得到语义分割模型。

在一些实施例中，映射模块，还用于根据二维图像的拍摄参数，确定三维模型对应的三维坐标系与二维图像对应的二维坐标系的转换关系；根据多个像素点中每一像素点的二维坐标、多个顶点中每一顶点的三维坐标和转换关系，将多个像素点与多个顶点进行映射。

在一些实施例中，确定模块，还用于根据与每一顶点映射的像素点对应的标签，确定每一顶点的初始标签。

本发明实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本发明实施例上述的语义分割方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的语义分割方法，例如，如图3、图4、图5A、图6、图7、图8或图9A示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例能够实现以下技术效果：

(1)可以在展示三维模型的过程中，根据二维图像的二维分割结果和所述三维模型的模型属性对三维模型进行语义分割，相比于传统技术中直接对三维模型对应的点云数据进行分割的方案，本方案在保证分割准确率的同时，减少了对三维模型进行语义分割时的数据计算量，提高了分割效率，进而可以提高对用户操作的响应效率，提升用户体验。

(2)通过将二维图像的二维分割结果转换到同一场景下的三维模型中，可以快速确定三维模型中每一顶点的初始标签，相比于传统技术中直接对三维模型对应的点云数据进行分割的方案，本方案在保证分割准确率的同时，减少了对三维模型进行语义分割时的数据计算量，提高了分割效率；另外，由于将对三维模型各顶点的标签与三维模型中每一子表面的几何属性相结合，加入了马尔科夫随机场(MRF)的几何约束，并建立能量函数，在通过该能量函数对初始分割结果进行优化的过程中，由于考虑到了三维模型的集合属性，可以使得最终的语义分割结果更加真实，分割准确率更高。

(3)通过确定三维模型中每一子表面的高度信息、平面信息、垂直信息和面积信息，在定义第一损失项时，可以实现从各个几何维度约束各顶点的分割结果，并且，在定义第二损失项时中考虑了相邻顶点在相交边长度、相交角度与标签的因素，通过这样的约束可以提升分割结果的真实性，提升语义分割的准确度。

(4)通过确定三维模型中每一子表面的高度信息、平面信息、垂直信息和面积信息，在根据每一子表面建立能量函数的过程中，可以实现从各个几何维度约束各顶点的分割结果，进而可以提升分割结果的真实性，提升语义分割的准确度。

(5)通过街景样本数据集先对预设的初始分割模型进行预训练，得到具有一定的学习能力的街景分割模型，再通过少量的航拍样本图片对预训练后的街景分割模型进行再一次学习，得到的语义分割模型不仅可以对街景图片进行准确的分割处理，还可以对航拍图片进行准确的分割处理。由于先采用了大量现有的街景样本数据集对初始分割模型进行预训练，在得到最终语义分割模型的过程中，只需要小批量的航拍样本图片，减少了对航拍样本图片进行标注的人工成本；并且，通过道路场景下的街景类别图片和航拍类别图片的训练顺序，可以提升模型获取效率。

(6)通过建立二维图像与三维模型之间的坐标系的转换关系，可以根据二维图像中的分割结果快速确定三维模型中各个顶点的分割结果，相比于传统技术中直接对过三维模型对应的点云数据进行分割的方案，本方案在保证分割准确率的同时，减少了对三维模型进行语义分割时的数据计算量，提高了分割效率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种语义分割方法，其特征在于，包括：

获取针对三维模型的展示操作；

响应于所述展示操作，在人机交互界面展示所述三维模型；所述人机交互界面包括语义分割选项；

获取针对所述语义分割选项的选择操作；

响应于所述选择操作，获取到二维图像的二维分割结果，所述二维分割结果至少包括所述二维图像中多个像素点对应的标签；

将所述二维图像的多个像素点，与所述三维模型的多个顶点进行映射；根据所述多个像素点对应的标签，确定每一所述顶点的初始标签；所述三维模型还包括多个相交边；

根据每一所述顶点和每一所述顶点对应的多个第一子表面确定第一损失项；所述第一损失项与每一所述顶点的初始标签和所述多个第一子表面中每一所述第一子表面的属性信息相关；

根据所述多个相交边中每一所述相交边对应的两个相邻顶点和两个相邻的第二子表面建立第二损失项；所述第二损失项与所述相交边的长度、所述两个第二子表面之间的夹角和所述两个相邻顶点中每一所述相邻顶点的初始标签相关；

根据所述第一损失项、所述第二损失项和权重建立能量函数；

基于所述能量函数，对初始分割结果进行优化，得到语义分割结果；

在所述人机交互界面展示所述三维模型的语义分割结果；所述语义分割结果为根据所述二维图像的二维分割结果和所述三维模型的模型属性确定的；所述二维图像与所述三维模型属于同一场景。

2.根据权利要求1所述的方法，其特征在于，所述属性信息包括以下至少之一：高度信息、平面信息、垂直信息和面积信息，所述方法还包括：

确定每一所述子表面的属性信息。

3.根据权利要求2所述的方法，其特征在于，在所述属性信息包括所述高度信息的情况下，所述确定每一所述子表面的属性信息，包括：

确定每一所述子表面的质心位置；

根据每一所述子表面的质心位置和预设的局部邻域范围，确定每一所述子表面对应的邻域质心集合；所述邻域质心集合中包括多个邻域质心；

根据每一所述子表面对应的多个邻域质心的质心位置，确定每一所述子表面对应的高度信息。

4.根据权利要求2所述的方法，其特征在于，在所述属性信息包括所述平面信息的情况下，所述确定每一所述子表面的属性信息，包括：

确定每一所述子表面对应的相邻子表面集合；所述相邻子表面包含多个与所述子表面相邻的相邻子表面；

根据每一所述子表面对应的相邻子表面集合，获取每一所述子表面对应的相邻面顶点集合；

根据每一所述子表面对应的相邻面顶点集合建立协方差矩阵；所述协方差矩阵对应多个特征值；

根据每一所述子表面对应的多个特征值，确定每一所述子表面对应的平面信息。

5.根据权利要求2所述的方法，其特征在于，在所述属性信息包括所述垂直信息的情况下，所述确定每一所述子表面的属性信息，包括：

确定每一所述子表面的单位法向量；

根据每一所述子表面的单位法向量和预设的标准单位法向量，确定每一所述子表面对应的垂直信息。

6.一种语义分割装置，其特征在于，包括：

第一获取模块，用于获取针对三维模型的展示操作；

第一展示模块，用于响应于所述展示操作，在人机交互界面展示所述三维模型；所述人机交互界面包括语义分割选项；

第二获取模块，用于获取针对所述语义分割选项的选择操作；

第二展示模块，用于响应于所述选择操作，获取到二维图像的二维分割结果，所述二维分割结果至少包括所述二维图像中多个像素点对应的标签；将所述二维图像的多个像素点，与所述三维模型的多个顶点进行映射；根据所述多个像素点对应的标签，确定每一所述顶点的初始标签；所述三维模型还包括多个相交边；根据每一所述顶点和每一所述顶点对应的多个第一子表面确定第一损失项；所述第一损失项与每一所述顶点的初始标签和所述多个第一子表面中每一所述第一子表面的属性信息相关；根据所述多个相交边中每一所述相交边对应的两个相邻顶点和两个相邻的第二子表面建立第二损失项；所述第二损失项与所述相交边的长度、所述两个第二子表面之间的夹角和所述两个相邻顶点中每一所述相邻顶点的初始标签相关；根据所述第一损失项、所述第二损失项和权重建立能量函数；基于所述能量函数，对初始分割结果进行优化，得到语义分割结果；在所述人机交互界面展示所述三维模型的语义分割结果；所述语义分割结果为根据所述二维图像的二维分割结果和所述三维模型的模型属性确定的；所述二维图像与所述三维模型属于同一场景。

7.一种语义分割设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至5任一项所述的方法。