CN113902712A

CN113902712A - 基于人工智能的图像处理方法、装置、设备及介质

Info

Publication number: CN113902712A
Application number: CN202111186574.9A
Authority: CN
Inventors: 张翼腾; 陈雪锦; 王鑫; 张润泽
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2022-01-07

Abstract

本申请提供了一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品；涉及人工智能技术；方法包括：对包括建筑结构的图像进行特征提取处理，得到建筑结构的初始特征；对建筑结构的初始特征进行基于列空间的聚合处理，得到建筑结构的列上下文特征；对建筑结构的初始特征进行基于行空间的聚合处理，得到建筑结构的行上下文特征；基于建筑结构的列上下文特征以及行上下文特征进行融合处理，得到建筑结构的增强特征；基于建筑结构的增强特征进行立面元素检测处理，得到建筑结构中立面元素的位置信息。通过本申请，能够提高图像中建筑结构的检测的准确性。

Description

基于人工智能的图像处理方法、装置、设备及介质

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

人工智能(AI，Artificial Intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图像处理是人工智能领域的重要应用之一，能够在包括建筑结构的图像中，确定出建筑结构中立面元素的位置信息，以便后续基于立面元素的位置信息进行建筑结构的后处理。

相关技术中缺乏图像处理的有效方案，主要依赖于通过稠密的建筑分类结果，以检测出图像中建筑结构中立面元素的区域。但是，这种方案检测出的立面元素的区域不准确，浪费了大量的计算资源。

发明内容

本申请实施例提供一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提高图像中建筑结构的检测的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的图像处理方法，包括：

对包括建筑结构的图像进行特征提取处理，得到所述建筑结构的初始特征；

对所述建筑结构的初始特征进行基于列空间的聚合处理，得到所述建筑结构的列上下文特征；

对所述建筑结构的初始特征进行基于行空间的聚合处理，得到所述建筑结构的行上下文特征；

基于所述建筑结构的列上下文特征以及行上下文特征进行融合处理，得到所述建筑结构的增强特征；

基于所述建筑结构的增强特征进行立面元素检测处理，得到所述建筑结构中立面元素的位置信息。

上述技术方案中，所述对所述建筑结构的初始特征进行基于行空间的聚合处理，得到所述建筑结构的行上下文特征，包括：

对所述建筑结构的初始特征进行行注意力处理，得到所述建筑结构的行注意力图；

基于所述建筑结构的行注意力图进行上下文聚合处理，得到所述建筑结构的列上下文特征。

本申请实施例提供一种基于人工智能的图像处理装置，包括：

特征提取模块，用于对包括建筑结构的图像进行特征提取处理，得到所述建筑结构的初始特征；

第一聚合模块，用于对所述建筑结构的初始特征进行基于列空间的聚合处理，得到所述建筑结构的列上下文特征；

第二聚合模块，用于对所述建筑结构的初始特征进行基于行空间的聚合处理，得到所述建筑结构的行上下文特征；

融合模块，用于基于所述建筑结构的列上下文特征以及行上下文特征进行融合处理，得到所述建筑结构的增强特征；

检测模块，用于基于所述建筑结构的增强特征进行立面元素检测处理，得到所述建筑结构中立面元素的位置信息。

上述技术方案中，所述第一聚合模块还用于对所述建筑结构的初始特征进行列注意力处理，得到所述建筑结构的列注意力图；

基于所述建筑结构的列注意力图进行上下文聚合处理，得到所述建筑结构的列上下文特征。

上述技术方案中，所述第一聚合模块还用于对所述建筑结构的初始特征进行基于值特征的映射处理，得到所述建筑结构的值特征图；

对所述建筑结构的值特征图进行列特征提取处理，得到所述值特征图中的列特征；

基于所述建筑结构的列注意力图，对所述值特征图中的列特征进行加权处理，得到所述建筑结构的列上下文特征。

上述技术方案中，所述第一聚合模块还用于对所述建筑结构的初始特征进行基于查询特征的映射处理，得到所述建筑结构的查询特征图；

对所述建筑结构的初始特征进行基于键特征的映射处理，得到所述建筑结构的键特征图；

基于所述建筑结构的查询特征图以及所述建筑结构的键特征图进行列相关性处理，得到所述建筑结构的列注意力图。

上述技术方案中，所述第一聚合模块还用于对所述建筑结构的键特征图进行列特征提取处理，得到所述键特征图的列特征；

基于所述键特征图的列特征对所述建筑结构的查询特征图进行相关性处理，得到所述建筑结构的列注意力图。

上述技术方案中，所述第一聚合模块还用于针对所述查询特征图中多个位置中的任一位置执行以下处理：

基于所述建筑结构的查询特征图，确定所述位置的查询特征向量；

基于所述键特征图的列特征，确定所述位置的列特征向量；

基于所述位置的查询特征向量以及所述位置的列特征向量，确定所述位置的注意力权重；

将所述多个位置分别对应的注意力权重进行组合处理，得到所述建筑结构的列注意力图。

上述技术方案中，所述第二聚合模块还用于对所述建筑结构的初始特征进行行注意力处理，得到所述建筑结构的行注意力图；

上述技术方案中，所述融合模块还用于对所述建筑结构的列上下文特征以及行上下文特征进行拼接处理，得到所述建筑结构的上下文特征；

对所述建筑结构的上下文特征进行映射处理，得到所述建筑结构的映射特征；

将所述建筑结构的映射特征与所述建筑结构的初始特征进行加和处理，得到所述建筑结构的增强特征。

上述技术方案中，所述检测模块还用于对所述建筑结构的增强特征进行基于立面元素的中心点预测处理，得到所述建筑结构中立面元素的中心点信息；

对所述建筑结构的增强特征进行基于立面元素的尺寸预测处理，得到所述建筑结构中立面元素的尺寸信息；

基于所述建筑结构中立面元素的中心点信息以及所述尺寸信息，确定所述建筑结构中立面元素的位置信息。

上述技术方案中，所述检测模块还用于对所述建筑结构的增强特征进行基于立面元素的偏移量预测处理，得到所述建筑结构中立面元素的偏移信息；

将所述建筑结构中立面元素的偏移信息与所述中心点信息进行加和处理，得到所述建筑结构中立面元素的标准中心点信息；

基于所述建筑结构中立面元素的标准中心点信息以及所述尺寸信息，确定所述建筑结构中立面元素的位置信息。

上述技术方案中，所述图像处理方法是通过调用神经网络模型实现的；所述装置还包括：

训练模块，用于通过初始化的所述神经网络模型对包括建筑结构的图像样本进行立面元素预测处理，得到所述图像样本中立面元素的预测位置信息；

基于所述预测位置信息以及所述图像样本中立面元素的位置标签，构建所述神经网络模型的位置损失函数；

基于所述位置损失函数更新所述神经网络模型的参数，将所述神经网络模型的更新的参数作为训练后的所述神经网络模型的参数。

上述技术方案中，所述预测位置信息是通过预测中心点信息、预测偏移信息以及预测尺寸信息表征的；

所述训练模块还用于基于所述预测中心点信息以及所述图像样本中立面元素的中心点标签，构建所述神经网络模型的中心点损失函数；

基于所述预测偏移信息以及所述图像样本中立面元素的偏移标签，构建所述神经网络模型的偏移损失函数；

基于所述预测尺寸信息以及所述图像样本中立面元素的尺寸标签，构建所述神经网络模型的尺寸损失函数；

对所述中心点损失函数、所述偏移损失函数以及所述尺寸损失函数进行加权求和处理，得到所述神经网络模型的位置损失函数。

本申请实施例提供一种用于图像处理的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的图像处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的图像处理方法。

本申请实施例具有以下有益效果：

通过综合图像中建筑结构的列上下文特征以及列上下文特征，以获取图像中建筑结构的增强特征，并基于建筑结构的增强特征进行立面元素检测处理，从而有效利用图像中建筑结构在行和列上的空间排布规则性，以获取建筑结构中立面元素的位置信息，提高图像中建筑结构的检测的准确性，相较于基于稠密的建筑分类结果检测建筑结构的方案，节约了相关的计算资源。

附图说明

图1是本申请实施例提供的图像处理***的应用场景示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3A-图3C是本申请实施例提供的基于人工智能的图像处理方法的流程示意图；

图4是本申请实施例提供的列上下文分支的结构示意图；

图5是本申请实施例提供的行上下文分支的结构示意图；

图6是相关技术提供的解析结果示意图；

图7是本申请实施例提供的解析结果示意图；

图8是本申请实施例提供的建筑物立面解析结果加载过程示意图；

图9是本申请实施例提供的建筑物立面模型渲染示意图；

图10是本申请实施例提供的建筑物立面模型程序化构建示意图；

图11是本申请实施例提供的建筑物立面编辑示意图；

图12是本申请实施例提供的城市街道场景模型构建示意图；

图13是本申请实施例提供的建筑物立面元素排布规则性示意图；

图14是本申请实施例提供的基于元素排布上下文的立面解析网络结构示意图；

图15是本申请实施例提供的自注意力机制原理示意图示意图；

图16是本申请实施例提供的列分支与行分支的上下文聚合原理示意图示意图；

图17是本申请实施例提供的基于中心点预测的检测器头部结构示意图；

图18是本申请实施例提供的立面元素包围框预测示意图；

图19是本申请实施例提供的ECP数据集上定性可视化结果；

图20是本申请实施例提供的在CMP数据集上的准确率-召回率曲线图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)客户端：终端中运行的用于提供各种服务的应用程序，例如视频客户端、游戏客户端等。

2)响应于：用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

3)建筑立面元素：建筑和建筑的外部空间直接接触的界面所展现出来的形象、组件，如窗户、门、阳台、线脚等。

本申请实施例提供了一种基于人工智能的图像处理方法、装置、电子设备及计算机可读存储介质，能够提高图像中建筑结构的检测的准确性。

本申请实施例所提供的基于人工智能的图像处理方法，可以由终端/服务器独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文所述的基于人工智能的图像处理方法，或者，终端向服务器发送针对待检测图像(包含建筑结构的图像)的检测请求，服务器根据接收的针对待检测图像的检测请求执行基于人工智能的图像处理方法，对图像中建筑结构的初始特征进行基于列空间的聚合处理，得到建筑结构的列上下文特征，对建筑结构的初始特征进行基于行空间的聚合处理，得到建筑结构的行上下文特征，基于建筑结构的列上下文特征以及行上下文特征进行立面元素检测处理，得到图像中建筑结构中立面元素的位置信息，从而有效利用图像中建筑结构在行和列上的空间排布规则性，以获取建筑结构中立面元素的位置信息，提高图像中建筑结构的检测的准确性。

本申请实施例提供的用于图像处理的电子设备可以是各种类型的终端或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(AI as a Service，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，其中的一种人工智能云服务可以为图像处理服务，即云端的服务器封装有本申请实施例提供的图像处理的程序。用户通过终端(运行有客户端，例如检测客户端)调用云服务中的图像处理服务，以使部署在云端的服务器调用封装的图像处理的程序，对图像中建筑结构的初始特征进行基于列空间的聚合处理，得到建筑结构的列上下文特征，对建筑结构的初始特征进行基于行空间的聚合处理，得到建筑结构的行上下文特征，基于建筑结构的列上下文特征以及行上下文特征进行立面元素检测处理，得到建筑结构中立面元素的位置信息，从而有效利用图像中建筑结构在行和列上的空间排布规则性，以获取建筑结构中立面元素的位置信息，提高图像中建筑结构的检测的准确性。

参见图1，图1是本申请实施例提供的图像处理***10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端(运行有客户端，例如建筑检测客户端)可以被用来获取针对待检测图像(包含建筑结构的图像)的检测请求，例如，当用户打开终端上运行的检测客户端后，选择某包含建筑结构的图像，终端自动获取针对待检测图像(包含建筑结构的图像)的检测请求。

在一些实施例中，终端200中运行的客户端中可以植入有图像处理插件，用以在客户端本地实现基于人工智能的图像处理方法。例如，终端200调用图像处理插件，以实现基于人工智能的图像处理方法，对图像中建筑结构的初始特征进行基于列空间的聚合处理，得到建筑结构的列上下文特征，对建筑结构的初始特征进行基于行空间的聚合处理，得到建筑结构的行上下文特征，基于建筑结构的列上下文特征以及行上下文特征进行立面元素检测处理，得到建筑结构中立面元素的位置信息，从而有效利用图像中建筑结构在行和列上的空间排布规则性，以获取图像中建筑结构中立面元素的位置信息，提高图像中建筑结构的检测的准确性，以便后续基于立面元素的位置信息进行建筑结构的后处理，例如游戏中虚拟建筑建模、城市化仿真建模等。

在一些实施例中，终端200获取针对待检测图像(包含建筑结构的图像)的检测请求后，调用服务器100的图像处理接口(可以提供为云服务的形式，即图像处理服务)，服务器100基于针对待检测图像的检测请求，对图像中建筑结构的初始特征进行基于列空间的聚合处理，得到建筑结构的列上下文特征，对建筑结构的初始特征进行基于行空间的聚合处理，得到建筑结构的行上下文特征，基于建筑结构的列上下文特征以及行上下文特征进行立面元素检测处理，得到建筑结构中立面元素的位置信息，从而有效利用图像中建筑结构在行和列上的空间排布规则性，以获取图像中建筑结构中立面元素的位置信息，并将立面元素的位置信息发送至终端200，以在终端200中呈现立面元素在待检测图像中的位置，提高图像中建筑结构的检测的准确性，以便后续基于立面元素的位置信息进行建筑结构的后处理，例如游戏中虚拟建筑建模、城市化仿真建模等。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的基于人工智能的图像处理方法，计算机程序为如图1示出的终端200中运行的客户端，例如，计算机程序可以是操作***中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作***中安装才能运行的程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，多个服务器可组成为一区块链，而服务器100为区块链上的节点，区块链中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。其中，本申请实施例提供的基于人工智能的图像处理方法所相关的数据(例如图像处理的逻辑、立面元素的位置信息)可保存于区块链上。

下面说明本申请实施例提供的电子设备的结构，参见图2，图2是本申请实施例提供的电子设备500的结构示意图，该电子设备500可以是终端或服务器，本申请实施例以该电子设备500是服务器为例进行说明，图2所示的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线***540耦合在一起。可理解，总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access M emory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***551，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他电子设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的基于人工智能的图像处理装置可以采用软件方式实现，图2示出了存储在存储器550中的基于人工智能的图像处理装置555，其可以是程序和插件等形式的软件，包括以下软件模块：特征提取模块5551、第一聚合模块5552、第二聚合模块5553、融合模块5554、检测模块5555以及训练模块5556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

如前所述，本申请实施例提供的基于人工智能的图像处理方法可以由各种类型的电子设备实施。参见图3A，图3A是本申请实施例提供的基于人工智能的图像处理方法的流程示意图，结合图3A示出的步骤进行说明。

在下面步骤中，建筑结构可以是真实的建筑物，还可以是虚拟的建筑模型等。

在步骤101中，对包括建筑结构的图像进行特征提取处理，得到建筑结构的初始特征。

作为获取包括建筑结构的图像的示例，当用户通过终端选择某包含建筑结构的图像(即待检测图像)，终端自动获取针对待检测图像的检测请求，并将针对待检测图像的检测请求发送至服务器，服务器接收该针对待检测图像的检测请求，并解析针对待检测图像的检测请求，以获取包括建筑结构的图像，并通过特征提取网络对包括建筑结构的图像进行特征提取处理，以得到建筑结构的初始特征，以便后续基于建筑结构的初始特征进行立面解析，以检测出里立面元素。其中，建筑结构的初始特征是一种经过初步特征提取的低阶特征，表示图像中包括的建筑结构的整体特征(例如每个像素的位置信息、属性信息、像素值等)，该初始特征可能包括图像中除建筑结构以外的其他特征。

需要说明的是，本申请实施例并不局限于特征提取网络的具体结构，例如特征提取网络可以是沙漏(Hourglass)网络，还可以是卷积神经网络等。例如，通过Hourglass网络对包括建筑结构的图像进行特征提取处理，得到建筑结构的深度特征(即初始特征)。

在步骤102中，对建筑结构的初始特征进行基于列空间的聚合处理，得到建筑结构的列上下文特征。

例如，基于图像中建筑结构在行和列上的空间排布规则性，可以通过元素排布上下文模块中的列上下文分支对建筑结构的初始特征进行基于列空间的聚合处理，以得到建筑结构的列上下文特征，后续结合行上下文特征，以综合建筑结构的行上下文特征以及列上下文特征进行立面元素检测处理，从而有效利用图像中建筑结构在行和列上的空间排布规则性，提高图像中建筑结构的检测的准确性，相较于基于稠密的建筑分类结果检测建筑结构的方案，节约了相关的计算资源。其中，建筑结构的列上下文特征表示图像中每个位置与对应列上所有位置之间的相关性，例如对于图像中某个位置p＝(i,j)，列上下文特征表示位置p与第j列上所有位置之间的相关性

参见图3B，图3B是本申请实施例提供的基于人工智能的图像处理方法的一个可选的流程示意图，图3B示出图3A中的步骤102可以通过步骤1021-步骤1022实现：在步骤1021中，对建筑结构的初始特征进行列注意力处理，得到建筑结构的列注意力图；在步骤1022中，基于建筑结构的列注意力图进行上下文聚合处理，得到建筑结构的列上下文特征。

例如，通过自注意力机制对建筑结构的初始特征(即特征图F)进行列注意力处理，得到建筑结构的列注意力图(即列注意力图A_col)，基于建筑结构的列注意力图进行上下文聚合处理，得到建筑结构的列上下文特征S_col，以通过列上下文分支计算建筑结构中每个位置p＝(i,j)与第j列上所有位置之间的相关性。

在一些实施例中，基于建筑结构的列注意力图进行上下文聚合处理，得到建筑结构的列上下文特征，包括：对建筑结构的初始特征进行基于值特征的映射处理，得到建筑结构的值特征图；对建筑结构的值特征图进行列特征提取处理，得到值特征图中的列特征；基于建筑结构的列注意力图，对值特征图中的列特征进行加权处理，得到建筑结构的列上下文特征。

如图4所示，通过自注意力机制对建筑结构的初始特征(即图4中特征图F)进行基于值特征的映射处理，得到建筑结构的值特征图(即图4中的值特征图V)，对建筑结构的值特征图V进行列特征提取处理，得到值特征图V中的列特征Ω_p，并基于建筑结构的列注意力图，对值特征图中的列特征Ω_p进行加权处理，得到建筑结构的列上下文特征S_row。

例如，值特征图V的尺寸为C×H×W，对于某个位置p＝(i,j)，值抽取过程可以得到列特征Ω_p，这个集合由C个向量构成，所得Ω_p的第c个成员被定义为

其中，V_cij表示值特征图V的第c个通道上位于(i,j)处的值。其中，建筑结构的列注意力图在位置p处的值被分别用作列特征Ω_p的权重，用于在位置p处进行上下文聚合，聚合过程会产生在位置p处的列上下文特征向量

其中，

表示建筑结构的列注意力图在第c个通道上位于(i,j)处的值，结合建筑结构中所有位置的

以获取建筑结构的列上下文特征S_row。

在一些实施例中，对建筑结构的初始特征进行列注意力处理，得到建筑结构的列注意力图，包括：对建筑结构的初始特征进行基于查询特征的映射处理，得到建筑结构的查询特征图；对建筑结构的初始特征进行基于键特征的映射处理，得到建筑结构的键特征图；基于建筑结构的查询特征图以及建筑结构的键特征图进行列相关性处理，得到建筑结构的列注意力图。

如图4所示，通过自注意力机制对建筑结构的初始特征(即图4中特征图F)进行基于查询特征的映射处理，得到建筑结构的查询特征图(即图4中的查询特征图Q)，通过自注意力机制对建筑结构的初始特征进行基于键特征的映射处理，得到建筑结构的键特征图(即图4中的查询特征图K)，通过列上下文分支结合建筑结构的查询特征图以及建筑结构的键特征图进行列相关性处理，得到建筑结构的列注意力图A_col。

在一些实施例中，基于建筑结构的查询特征图以及建筑结构的键特征图进行列相关性处理，得到建筑结构的列注意力图，包括：对建筑结构的键特征图进行列特征提取处理，得到键特征图的列特征；基于键特征图的列特征对建筑结构的查询特征图进行相关性处理，得到建筑结构的列注意力图。

如图4所示，键特征图K的尺寸为C×H×W，对于某个位置p＝(i,j)，值抽取过程可以得到列特征Y_p＝{K_(1,j),K_(2,j),…,K_(u,j),…,K_(H,j)}，其中，Y_p的基数为H，对于查询特征图Q上位于p处的查询特征向量

则基于查询特征向量Q_p以及列特征Y_p进行相关性处理，得到位于p处的列注意力权重，结合建筑结构中所有位置的列注意力权重，以获取建筑结构的列注意力图。

在一些实施例中，基于键特征图的列特征对建筑结构的查询特征图进行相关性处理，得到建筑结构的列注意力图，包括：针对查询特征图中多个位置中的任一位置执行以下处理：基于建筑结构的查询特征图，确定位置的查询特征向量；基于键特征图的列特征，确定位置的列特征向量；基于位置的查询特征向量以及位置的列特征向量，确定位置的注意力权重；将多个位置分别对应的注意力权重进行组合处理，得到建筑结构的列注意力图。

例如，键特征图中位于p处的列特征Y_p＝{K_(1,j),K_(2,j),…,K_(i,j),…,K_(H,j)}，对于查询特征图Q上位于p处的查询特征向量Q_p，基于Q_p以及Y_p，确定位于p处的注意力权重

其中，

是向量^cA_p的第k个元素，且

是集合Y_p的第k个特征向量，所有位置分别对应的注意力权重，以构成建筑结构的列注意力图。

在步骤103中，对建筑结构的初始特征进行基于行空间的聚合处理，得到建筑结构的行上下文特征。

例如，基于建筑结构在行和列上的空间排布规则性，可以通过元素排布上下文模块中的行上下文分支对建筑结构的初始特征进行基于行空间的聚合处理，以得到建筑结构的行上下文特征，后续结合列上下文特征，以综合建筑结构的行上下文特征以及列上下文特征进行立面元素检测处理，从而有效利用图像中建筑结构在行和列上的空间排布规则性，提高图像中建筑结构的检测的准确性，相较于基于稠密的建筑分类结果检测建筑结构的方案，节约了相关的计算资源。其中，本申请实施例中步骤102与步骤103之间并无明显的先后顺序。其中，建筑结构的行上下文特征表示图像中每个位置与对应行上所有位置之间的相关性，例如对于图像中某个位置p＝(i,j)，行上下文特征表示位置p与第i行上所有位置之间的相关性。

在一些实施例中，对建筑结构的初始特征进行基于行空间的聚合处理，得到建筑结构的行上下文特征，包括：对建筑结构的初始特征进行行注意力处理，得到建筑结构的行注意力图；基于建筑结构的行注意力图进行上下文聚合处理，得到建筑结构的列上下文特征。

例如，通过自注意力机制对建筑结构的初始特征(即特征图F)进行行注意力处理，得到建筑结构的行注意力图(即列注意力图A_row，基于建筑结构的行注意力图进行上下文聚合处理，得到建筑结构的行上下文特征S_row，以通过行上下文分支计算建筑结构中每个位置p＝(i,j)与第i行上所有位置之间的相关性。

在一些实施例中，基于建筑结构的行注意力图进行上下文聚合处理，得到建筑结构的行上下文特征，包括：对建筑结构的初始特征进行基于值特征的映射处理，得到建筑结构的值特征图；对建筑结构的值特征图进行行特征提取处理，得到值特征图中的行特征；基于建筑结构的行注意力图，对值特征图中的行特征进行加权处理，得到建筑结构的行上下文特征。

如图5所示，通过自注意力机制对建筑结构的初始特征(即图5中特征图F)进行基于值特征的映射处理，得到建筑结构的值特征图(即图5中的值特征图V)，对建筑结构的值特征图V进行行特征提取处理，得到值特征图V中的行特征Λ_p，并基于建筑结构的行注意力图，对值特征图中的行特征Λ_p进行加权处理，得到建筑结构的行上下文特征S_row。

例如，值特征图V的尺寸为C×H×W，对于某个位置p＝(i,j)，值抽取过程可以得到行特征Λ_p，这个集合由C个向量构成，所得Λ_p的第c个成员被定义为

其中，V_cij表示值特征图V的第c个通道上位于(i,j)处的值。其中，建筑结构的行注意力图在位置p处的值被分别用作行特征Λ_p的权重，用于在位置p处进行上下文聚合，聚合过程会产生在位置p处的行上下文特征向量

其中，

表示建筑结构的行注意力图在第c个通道上位于(i,j)处的值，结合建筑结构中所有位置的

以获取建筑结构的行上下文特征S_row。

在一些实施例中，对建筑结构的初始特征进行行注意力处理，得到建筑结构的行注意力图，包括：对建筑结构的初始特征进行基于查询特征的映射处理，得到建筑结构的查询特征图；对建筑结构的初始特征进行基于键特征的映射处理，得到建筑结构的键特征图；基于建筑结构的查询特征图以及建筑结构的键特征图进行行相关性处理，得到建筑结构的行注意力图。

如图5所示，通过自注意力机制对建筑结构的初始特征(即图5中特征图F)进行基于查询特征的映射处理，得到建筑结构的查询特征图(即图5中的查询特征图Q)，通过自注意力机制对建筑结构的初始特征进行基于键特征的映射处理，得到建筑结构的键特征图(即图5中的查询特征图K)，通过行上下文分支结合建筑结构的查询特征图以及建筑结构的键特征图进行行相关性处理，得到建筑结构的行注意力图A_row。

在一些实施例中，基于建筑结构的查询特征图以及建筑结构的键特征图进行行相关性处理，得到建筑结构的行注意力图，包括：对建筑结构的键特征图进行行特征提取处理，得到键特征图的行特征；基于键特征图的行特征对建筑结构的查询特征图进行相关性处理，得到建筑结构的行注意力图。

如图5所示，键特征图K的尺寸为C×H×W，对于某个位置p＝(i,j)，值抽取过程可以得到行特征X_p＝{K_(i,j),K_(i,2),…,K_(i,j),…,K_(i,W)}，其中，X_p的基数为W，对于查询特征图Q上位于p处的查询特征向量

则基于查询特征向量Q_p以及行特征X_p进行相关性处理，得到位于p处的行注意力权重，结合建筑结构中所有位置的行注意力权重，以获取建筑结构的行注意力图。

在一些实施例中，基于键特征图的行特征对建筑结构的查询特征图进行相关性处理，得到建筑结构的行注意力图，包括：针对查询特征图中多个位置中的任一位置执行以下处理：基于建筑结构的查询特征图，确定位置的查询特征向量；基于键特征图的行特征，确定位置的行特征向量；基于位置的查询特征向量以及位置的行特征向量，确定位置的注意力权重；将多个位置分别对应的注意力权重进行组合处理，得到建筑结构的行注意力图。

例如，键特征图中位于p处的行特征X_p＝{K_(i,1),K_(i,2),…,K_(i,j),…,K_(i,W)}，对于查询特征图Q上位于p处的查询特征向量Q_p，基于Q_p以及X_p，确定位于p处的注意力权重

其中，

是向量

的第k个元素，且

是集合X_p的第k个特征向量，所有位置分别对应的注意力权重，以构成建筑结构的行注意力图。

在步骤104中，基于建筑结构的列上下文特征以及行上下文特征进行融合处理，得到建筑结构的增强特征。

例如，在获得建筑结构的列上下文特征以及行上下文特征后，需要融合建筑结构的列上下文特征以及行上下文特征，以获得建筑结构的增强特征，例如对建筑结构的列上下文特征以及行上下文特征进行拼接处理，得到建筑结构的增强特征。该建筑结构的增强特征表征建筑结构中每个位置与对应行或列上所有位置之间的相关性，后续有效利用图像中建筑结构在行和列上的空间排布规则性，提高图像中建筑结构的检测的准确性，相较于基于稠密的建筑分类结果检测建筑结构的方案，节约了相关的计算资源。

在一些实施例中，基于建筑结构的列上下文特征以及行上下文特征进行融合处理，得到建筑结构的增强特征，包括：对建筑结构的列上下文特征以及行上下文特征进行拼接处理，得到建筑结构的上下文特征；对建筑结构的上下文特征进行映射处理，得到建筑结构的映射特征；将建筑结构的映射特征与建筑结构的初始特征进行加和处理，得到建筑结构的增强特征。

例如，建筑结构的列上下文特征S_col与行上下文特征S_row级联在一起，得到建筑结构的上下文特征S，并通过卷积层处理，产生富含上下文信息的特征图M＝ω(S)，即建筑结构的映射特征。随后，元素排布上下文模块以逐元素相加的方式处理特征图M与建筑结构的初始特征F，并产生增强特征图F′，即建筑结构的增强特征。

在步骤105中，基于建筑结构的增强特征进行立面元素检测处理，得到建筑结构中立面元素的位置信息。

例如，在获得建筑结构的增强特征后，有效利用建筑结构在行和列上的空间排布规则性，通过检测器头部对增强特征进行立面元素检测处理，得到建筑结构中立面元素的位置信息，提高建筑结构检测的准确性，相较于基于稠密的建筑分类结果检测建筑结构的方案，节约了相关的计算资源。

参见图3C，图3C是本申请实施例提供的基于人工智能的图像处理方法的一个可选的流程示意图，图3C示出图3A中的步骤105可以通过步骤1051-步骤1053实现：在步骤1051中，对建筑结构的增强特征进行基于立面元素的中心点预测处理，得到建筑结构中立面元素的中心点信息；在步骤1052中，对建筑结构的增强特征进行基于立面元素的尺寸预测处理，得到建筑结构中立面元素的尺寸信息；在步骤1053中，基于建筑结构中立面元素的中心点信息以及尺寸信息，确定建筑结构中立面元素的位置信息。

例如，对建筑结构的增强特征进行基于立面元素的中心点预测处理，得到建筑结构中每个立面元素的中心点坐标(即中心点信息)，对建筑结构的增强特征进行基于立面元素的尺寸预测处理，得到建筑结构中每个立面元素的宽高尺寸(即尺寸信息)，基于建筑结构中每个立面元素的中心点信息以及尺寸信息，确定建筑结构中每个立面元素的包围框的顶点坐标(即位置信息)。

在一些实施例中，基于建筑结构中立面元素的中心点信息以及尺寸信息，确定建筑结构中立面元素的位置信息，包括：对建筑结构的增强特征进行基于立面元素的偏移量预测处理，得到建筑结构中立面元素的偏移信息；将建筑结构中立面元素的偏移信息与中心点信息进行加和处理，得到建筑结构中立面元素的标准中心点信息；基于建筑结构中立面元素的标准中心点信息以及尺寸信息，确定建筑结构中立面元素的位置信息。

例如，由于将输入的待检测图像进行下采样，以基于下采样后待检测进行后续聚合、融合、检测等处理，而立面元素的位置坐标是在原始图像分辨率下进行的，因此直接使用增强特征图F′预测中心点位置，会伴随着一定的精度损失。因此，通过局部偏移量预测分支对建筑结构的增强特征进行基于立面元素的偏移量预测处理，得到建筑结构中立面元素的偏移信息

表示对应于不同位置的二维偏移向量，用于调整中心点位置以恢复精度。

例如，对于针对各立面元素的中心点的集合中的任一中心点(x_k,y_k)，与之对应的偏移量(即偏移信息)为

那么，对应的中心点坐标为ν＝(x_k+Δx_k,y_k+Δy_k)。得到中心点位置v后，即可结合对象宽高尺寸得到其包围框的几何表达，以确定对应中心点位置v的立面元素的位置信息。

在一些实施例中，图像处理方法是通过调用神经网络模型实现的；神经网络模型的训练过程包括：通过初始化的神经网络模型对包括建筑结构的图像样本进行立面元素预测处理，得到图像样本中立面元素的预测位置信息；基于预测位置信息以及图像样本中立面元素的位置标签，构建神经网络模型的位置损失函数；基于位置损失函数更新神经网络模型的参数，将神经网络模型的更新的参数作为训练后的神经网络模型的参数。

例如，通过初始化的神经网络模型对包括建筑结构的图像样本进行特征提取处理，得到建筑结构的初始特征，对建筑结构的初始特征进行基于列空间的聚合处理，得到建筑结构的列上下文特征，对建筑结构的初始特征进行基于行空间的聚合处理，得到建筑结构的行上下文特征，基于建筑结构的列上下文特征以及行上下文特征进行融合处理，得到建筑结构的增强特征，基于建筑结构的增强特征进行立面元素检测处理，得到图像样本中立面元素的预测位置信息，基于预测位置信息以及图像样本中立面元素的位置标签，构建神经网络模型的位置损失函数(交叉熵损失函数)的值后，可以判断位置损失函数的值是否超出预设阈值，当位置损失函数的值超出预设阈值时，基于位置损失函数确定神经网络模的误差信号，将误差信息在神经网络模中反向传播，并在传播的过程中更新各个层的模型参数。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值，即根据输出结果与实际值之间的误差构建损失函数，并逐层求出损失函数对模型参数的偏导数，生成损失函数对各层模型参数的梯度，由于梯度的方向表明误差扩大的方向，因此对模型参数的梯度取反，与以各层模型的原始参数求和，将得到的求和结果作为更新后的各层模型参数，从而减小模型参数引起的误差；不断迭代上述过程，直至收敛。

在一些实施例中，预测位置信息是通过预测中心点信息、预测偏移信息以及预测尺寸信息表征的；基于预测位置信息以及图像样本中立面元素的位置标签，构建神经网络模型的位置损失函数，包括：基于预测中心点信息以及图像样本中立面元素的中心点标签，构建神经网络模型的中心点损失函数；基于预测偏移信息以及图像样本中立面元素的偏移标签，构建神经网络模型的偏移损失函数；基于预测尺寸信息以及图像样本中立面元素的尺寸标签，构建神经网络模型的尺寸损失函数；对中心点损失函数、偏移损失函数以及尺寸损失函数进行加权求和处理，得到神经网络模型的位置损失函数。

例如，对建筑结构的增强特征进行基于立面元素的中心点预测处理，得到建筑结构中立面元素的预测中心点信息；对建筑结构的增强特征进行基于立面元素的尺寸预测处理，得到建筑结构中立面元素的预测尺寸信息；对建筑结构的增强特征进行基于立面元素的偏移量预测处理，得到建筑结构中立面元素的预测偏移信息；基于建筑结构中立面元素的预测中心点信息、预测偏移信息以及预测尺寸信息，确定建筑结构中立面元素的预测位置信息。

其中，神经网络模型的中心点损失函数为

其中，E_k表示中心点信息标签(即真实的中心点信息)，

表示预测中心点信息，N表示图像样本的总数量；建筑结构中立面元素的偏移损失函数

其中，O_k表示偏移信息标签(即真实的偏移信息)，

表示预测偏移信息；建筑结构中立面元素的尺寸损失函数

其中，U_k表示尺寸信息标签(即真实的尺寸信息)，

表示预测尺寸信息，对中心点损失函数、偏移损失函数以及尺寸损失函数进行加权求和处理，即可得到神经网络模型的位置损失函数，从而充分学习立面元素的中心点信息、偏移信息、尺寸信息，提高检测立面元素的位置信息的准确性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例可应用于包括建筑结构的图像检测的应用场景，例如关于游戏中虚拟建筑建模的应用场景，对包含建筑结构(建筑物)的图像进行聚合处理，得到建筑结构的列上下文特征以及行上下文特征，并基于建筑结构的列上下文特征以及行上下文特征进行立面元素检测处理，从而有效利用图像中建筑结构在行和列上的空间排布规则性，以获取准确的立面元素的位置信息，基于立面元素的位置信息进行游戏中虚拟建筑建模，以构建与图像中建筑结构类似的虚拟建筑结构，提高用户在游戏过程中的沉浸感；关于城市化仿真建模的应用场景，对包含建筑结构的图像进行聚合处理，得到建筑结构的列上下文特征以及行上下文特征，并基于建筑结构的列上下文特征以及行上下文特征进行立面元素检测处理，从而有效利用图像中建筑结构在行和列上的空间排布规则性，以获取准确的立面元素的位置信息，基于立面元素的位置信息进行仿真建模，以模拟图像中建筑结构，构建城市化仿真虚拟模型；关于安全性能分析的应用场景，基于图像中建筑结构的列上下文特征以及行上下文特征进行立面元素检测处理，从而有效利用图像中建筑结构在行和列上的空间排布规则性，以获取准确的立面元素的位置信息，基于立面元素的位置信息进行安全性能分析，以实时准确地进行安全预警。下面以游戏中虚拟建筑建模的应用场景为例进行说明：

相关技术中，如图6所示，在检测图像中建筑结构的过程中，使用语义分割网络产生稠密的像素级分类结果，例如稠密的阳台区域601，这种图像处理方式不能很好地表达相互交叠或嵌套的立面元素区域，并且稠密的像素集合无法直接表达独立的立面元素，且不直接含有立面元素区域的明确几何描述，立面分割还会经常产生不规则的分割区域，上述问题给建筑立面的程序化建模过程带来了额外的复杂性。

为了解决上述问题，本申请实施例基于目标检测框架对建筑物立面进行解析，提出了一种空间上下文聚合方法，聚合行与列两个方向上的上下文信息，有效利用了图像中建筑物立面元素在行与列上的空间排布规则性与外观相似性，将建筑物立面布局规则嵌入深度卷积神经网络中对解析过程进行指导。

如图7所示，本申请实施例基于目标检测框架对多种典型立面元素进行解析，产生以紧凑几何形式表达的规则元素区域作为元素解析结果，例如阳台包围框701，可以更好地支持建筑立面的程序化建模。另一方面，考虑利用立面元素排布规律设计一种上下文聚合方法，聚合行与列上的空间上下文，用于指导建筑物立面的解析过程，有助于提高立面解析的鲁棒性与准确性。

需要说明的是，本申请实施例通过对建筑物立面图像进行解析，得到带语义的立面元素对象区域，可适用于城市街道场景建筑物立面的快速建模与编辑。为了体现上述应用过程，基于本申请实施例的立面解析方法，并依托于三维创作软件开发的立面模型建模与编辑插件。该插件具备立面模型构建相关功能，其工作流程为：建筑物立面解析、解析结果存储与加载、建筑立面多边形模型构建、建筑物立面模型编辑。下面对应用流程的不同阶段进行描述。

本申请实施例得到的立面解析结果为多个含有语义的参数化矩形区域，每个立面元素对象对应于一个包含5个参数的结构体，其中，第一个参数为无符号整型，用于表示立面元素类别，其余4个参数为一组，表示矩形左上角与右下角的浮点数坐标，得到的所有立面解析结果可被存储为JSON等格式化数据，便于后续的加载与解析。

如图8所示，在得到立面解析结果后，点击加载按钮801加载立面解析结果；如图9所示，将立面解析结果渲染至二维面901上；如图10所示，可以通过对不同立面元素对象的区域进行挤出，得到以多边形表达的建筑物立面模型1001；如图11所示，可以通过插件的界面控件调整立面元素对象的几何参数1101，以进行模型编辑，调整模型的表现形式；建模完成后，呈现如图12所示的建模样例，例如部分建筑模型1201，将该建筑模型1201应用于游戏中，以使游戏中的虚拟建筑模型越来越逼真，从而提高用户在游戏过程中的沉浸感。

需要说明的是，建筑立面元素在布局上表现出很强的规则性。如图13所示，从空间位置上看，同类立面元素对象在水平方向与垂直方向上均具有高度对齐性，例如窗户在水平方向与垂直方向上均高度对齐。一个位于某一行或某一列的立面元素对象与同行或同列的其它对象间有很强的相关性，这两个方向上的相关性为立面元素的检测提供了极有价值的上下文。

综上，本申请实施例利用建筑立面布局的规则性来辅助建筑立面元素的检测，提出一种元素排布上下文模块(EACM，Element-Arrangement Context Mo dule)对水平与垂直方向上的元素排布空间上下文进行捕获，将立面元素的排布规则性嵌入到深度卷积神经网络中，以构成建筑物立面解析网络。

如图14所示的建筑物立面解析网络，建筑物立面解析网络对一幅建筑立面图像进行解析，输出以参数化包围框表达的立面元素解析结果。建筑物立面解析网络包含三个部分，分别是特征提取网络、元素排布上下文模块、检测器头部。其中，特征提取网络用于从建筑立面图像提取深度特征，元素排布上下文模块捕获和聚合空间行上下文与列上下文，检测器头部利用提取到的特征预测立面元素的包围框。在推理阶段，输入图像依次经过这三个部分得到解析结果。下面首先对从输入图像到输出解析结果这一过程中网络各部分的输入输出进行描述。

需要说明的是，输入图像首先经过一个堆叠的Hourglass网络(即特征提取网络)提取深度特征。Hourglass网络将输入图像下采样四倍，并输出尺寸为H×W的特征图F(即深度特征)。之后，特征图F被送入元素排布上下文模块，该模块可以计算立面上某个位置与和其同行或同列上的所有其他位置之间的相关性，并且元素排布上下文模块包含的列上下文分支能够聚合列上的上下文信息，元素排布上下文模块包含的行上下文分支能够聚合行上的上下文信息。特征图F被送入这两个分支，分别输出特征图S_col与S_row，S_col与S_row具有相同的尺寸。为了利用行与列上的元素排布上下文对检测过程进行辅助，需要将两部分特征图有效地融合起来。特征融合时，S_col与S_row先被级联在一起，得到特征图S。然后，S被一个具有1×1卷积核的卷积层处理，以进行特征适配，并得到与特征图F的尺寸匹配的特征图M。特征图M含有丰富的行列空间上下文信息，这部分信息被用来增强深度特征，且增强过程以逐元素相加实现。增强后的特征F′被送入检测器头部，用于预测参数化包围框，并得到最终的解析结果。其中，图14中的检测器头部可以是任意具有通过处理深度特征进行包围框参数预测能力的检测方法，说明本申请实施例中的元素排布上下文模块是即插即用的，能够随着检测方法的发展被用于新型检测框架中。与上述过程中涉及到的网络各部分的输出特征图对应的尺寸如表1所示。

表1立面解析网络各部分的输出特征图的尺寸

特征图	特征图尺寸(通道数×高×宽)
		F	C×H×W
S<sub>col</sub>	C×H×W
		S<sub>row</sub>	C×H×W
S	2C×H×W
		M	C×H×W
F′	C×H×W

其中，元素排布上下文模块包括两个并行的分支，即列上下文分支和行上下文分支，用于聚合空间上下文，引导网络关注对齐排布在列与行上的立面元素。需要说明的是，使用自注意力机制对图像长程依赖性进行建模，可以有效捕获非局部信息。本申请实施例基于注意力机制实现元素排布上下文模块中的两个上下文分支，并利用立面元素排布规律对非局部上下文的聚合方式进行优化。下面首先对自注意力机制进行描述，再详细介绍两个上下文分支的技术细节。

其中，自注意力机制对全图计算相关性矩阵，并以其值为权重对非局部上下文进行聚合。如图15所示，X_p表示位置p处的表示向量，以其为输入，通过计算过程

得到相关性矩阵W，该计算过程如公式(1)所示：

其中，f_q与f_k分别表示查询变换函数与键变换函数。

在得到相关性矩阵W后，以其值为权重进行非局部上下文聚合，聚合过程γ如公式(2)所示：

Z_p＝∑_iW_p,if_v(X_i) (2)

其中，f_v表示值变换函数，Z_p表示对应于位置p处的输出向量。

如图16所示的元素排布上下文模块，遵循自注意力原理，元素排布上下文模块首先将三个卷积核尺寸为1×1的卷积层并行地应用于特征图F上，并分别得到查询特征图Q、键特征图K、值特征图V，三个特征图的尺寸均为C×H×W。元素排布上下文模块的两个分支均使用Q、K与V来产生上下文特征，即两个分支上的卷积层是权重共享的。对于某个位置p＝(i,j)，列上下文分支计算位置p与第j列上所有位置之间的相关性，而行上下文分支计算位置p与第i行上所有位置之间的相关性。

对于查询特征图Q上位于p处的查询特征向量

元素排布上下文模块的两个分支分别沿着第i行与第j列从特征图K上抽取特征向量，构成两个向量集合如公式(3)所示：

其中，集合X_p与Y_p的基数分别为W与H。

在列上下文分支中，首先计算位置p与同列上所有不同位置间的相关性，形成位于列注意力图A_col上的向量

如公式(4)所示：

其中，

是向量^cA_p的第k个元素，且

是集合Y_p的第k个特征向量。

对于行上下文分支，与注意力图A_col的计算过程相似，元素排布上下文模块计算行注意力图A_row，其位于p处的向量如公式(5)所示：

其中，

是向量

的第k个元素，且

是集合X_p的第k个特征向量。

上述过程得到的行注意力图A_row与列注意力图A_col的值度量了不同行与列上的相关性。在完成注意图的计算后，元素排布上下文模块会沿着空间维度，在对应的行与列上从值特征图V中抽取值，用于进一步的上下文聚合过程。对于某个位置p＝(i,j)，值抽取过程可以得到两个集合，即值特征图V的行特征Λ_p与列特征Ω_p，这两个集合均由C个向量构成，所得集合Λ_p与Ω_p的第c个元素表示如公式(6)所示：

其中，V_cij表示值特征图V的第c个通道上位于(i,j)处的值。

其中，相关性向量^cA_p与^rA_p的值被分别用作向量

与

的权重，用于在位置p处进行上下文聚合，聚合过程会产生向量

与

如公式(7)所示：

其中，对每个位置进行公式(7)给出的空间上下文聚合过程，会产生行上下文特征S_row与列上下文特征S_col，将行上下文特征S_row与列上下文特征S_col融合在一起，用于对深度特征F进行增强。S_col与S_row首先被级联在一起得到S，并通过卷积层处理，产生富含上下文信息的特征图M。随后，元素排布上下文模块以逐元素相加的方式处理特征图M与F，并产生增强特征图F′，这一过程如公式(8)所示：

F′＝ω(S)+F (8)

其中，ω表示一个变换函数，通过一个具有1×1卷积核的卷积层实现。

在使用元素排布上下文模块对局部特征F增强后，得到的增强特征图F′被送入检测器头部以预测立面元素对象的参数化包围框。立面元素表现出高度规则的外形，因而立面图像中对称的立面对象区域可被隐式地编码为一个中心点位置和与其对应的宽高尺寸参数。以此为基础，本申请实施例使用一种基于中心点预测的单阶段检测方法作为检测器头部。

如图17所示的检测器头部，为了预测构成包围框需要的几何参数，检测器头部使用了三个预测分支，分别是中心点热图预测分支、局部偏移量预测分支和包围框尺寸预测分支。这三个分支均由卷积层实现，首先使用3×3卷积层处理输入增强特征图F′，然后应用一个1×1卷积层得到对应分支的预测结果。

其中，针对中心点热图预测分支，中心点热图是多通道的预测结果，该分支产生

它定位了立面元素的中心点位置，C′表示立面元素类别数，热图上位于(i,j)处第c个通道上的值

表示在该位置上具有立面元素类型c的对象的概率；由于特征提取网络将输入图像下采样四倍，而坐标的标注是在输入图像分辨率下进行的，这意味着直接使用F′预测中心点位置会伴随着一定的精度损失，针对这一问题，局部偏移量预测分支产生一个两通道的结果

表示对应于不同位置的二维偏移向量，用于调整中心点位置以恢复精度；针对包围框尺寸预测分支，包围框尺寸预测分支产生一个两通道的结果

两个通道分别对应于立面元素区域的宽高尺寸。

在得到三个分支产生的

与

后，需要将它们结合起来以得到立面元素的包围框，作为立面解析的最终结果。如图18所示的包围框预测示意图，立面元素的中心点的坐标可通过在

中寻找8-邻域最大值得到。在实现时，峰值提取可以通过使用一个3×3最大池化层实现。这一步会产生一个中心点点集

即所有立面元素的中心点的集合。对于集合中的点

与之对应的局部偏移量为

那么，对应的中心点坐标的计算过程如公式(9)所示：

ν＝(x_k+Δx_k,y_k+Δy_k) (9)

其中，在得到中心点位置ν后，即可结合立面元素宽高尺寸得到其包围框的几何表达。一个立面元素的包围框以其左上方与右下方的两个端点表示，如公式(10)所示：

其中，

表示

上位于(x_k,y_k)处的向量。

在网络训练时，需要对检测器头部产生的

与

进行监督。由于特征提取部分的骨干网络会将输入图像进行下采样，为了在与网络输出相同的分辨率下进行监督，原始标注数据需要经过一些预处理，以得到用于损失计算的真实数据。

例如，骨干网络的下采样因数是r，对于输入图像上的某个位置p＝(x,y)，其在网络输出分辨率下对应的位置如公式(11)所示：

其中，

表示取底函数。

对于中心点预测的监督，监督数据应为一个表达中心点位置的热图。为了产生用于监督的热图，以二维高斯分布设置中心点标注位置附近的值，得到热图E。用于精度恢复的局部偏移量的监督数据O(即真实数据)，通过公式(12)计算得到：

对于中心点预测分支，使用如公式(13)所示的损失函数：

其中，N表示立面元素的数量，α和β表示用于控制不同项对损失贡献的超参数，在实现时可以根据需求被分别设置为2与4。

对于局部偏移量预测与宽高尺寸预测，均使用标准的

距离作为损失函数。与局部偏移量对应的损失函数如公式(14)所示：

其中，O_k表示第k个中心点对应的局部偏移量的真实值，

表示第k个中心点对应的局部偏移量的预测值。

对于与宽高尺寸预测对应的损失函数如公式(15)所示：

其中，U_k表示第k个中心点对应的宽高尺寸的真实值，

表示第k个中心点对应的宽高尺寸的预测值。

最终的损失函数为如公式(16)所示：

L＝L_p+λL_o+μL_s (16)

其中，λ与μ分别表示控制权重的尺度因数，在实现时根据需求可以设置为1和0.1。

为了训练本申请实施例提供的立面解析网络，需要使用带有包围框标注的建筑物立面图像。建筑物立面图像可以通过收集互联网上的建筑物图像或公开的建筑立面数据得到，也可以使用实际拍摄的建筑物立面。立面元素对象的包围框参数标注可以使用标注工具(如labelme或同类工具)得到。训练阶段使用的数据增强方法包括图像水平随机翻转、尺度因数在某区间(例如[0.6,1.3])内取值的图像随机缩放、图像颜色抖动。在训练时，原始图像在输入网络之前需要被随机剪裁或填补到一定大小以适配网络的输入分辨率，可根据训练数据的原始尺寸进行调整。

综上，本申请实施例中的元素排布上下文模块(EACM)，与必须的检测器部分组合在一起构成本申请实施例的立面解析网络。如表2所示，在公开数据集ECP上与立面解析方法(例如DeepFacade的两个版本)进行定量与定性对比分析。此外，为了验证本申请实施例的EACM的有效性，还展示了在具有挑战性的CMP建筑物立面数据集上的性能提升效果，并与上下文聚合方法RCC A进行定量对比。

表2 ECP数据集上定量评价结果

如表2所示，本申请实施例的方法的定量结果在不同指标上全面超过了第一个版本的DeepFacade方法。与第二版本的DeepFacade相比，本申请实施例的方法在取得可比的平均像素精度的同时，在交并比评价指标上大幅超过了相关方法。

如图19所示的本申请实施例提供的方法与两个版本的DeepFacade在定性上的解析结果可视化对比，本申请实施例提供的立面解析网络产生了更加规则且准确的建筑物立面解析结果，且产生的参数化解析结果合理地表达了相互交叠或嵌套的立面元素区域。尽管窗户与阳台交叠的区域具有复杂的纹理，本申请实施例提供的立面解析网络仍然预测了完整的窗户与阳台对象，这对建筑立面模型的构建是十分重要的。

如表3所示的本申请实施例提供的EACM上下文聚合模块与RCCA方法在CMP数据集上的量化对比结果，在进行对比时实验时，将图14中的元素排布上下文模块替换为循环次数为1和2的RCCA模块，并分别得到表3中对应于R为1和2的结果。

表3不同上下文聚合方法在CMP数据集上的定量评价

方法	AP(％)	AP<sup>50</sup>(％)	AP<sup>75</sup>(％)
				基线	39.7	67.9	41.0
+RCCA(R＝1)	39.7	68.4	40.7
				+RCCA(R＝2)	39.8	68.3	41.2
+EACM	40.2	68.4	42.3

由表3可知，与相关技术中的上下文聚合方法相比，本申请实施例提供的方法可以有效提高建筑物立面解析的整体性能。

如图20所示的不同交并比阈值下的准确率-召回率曲线，阈值从0.5至0.9以0.1为步长进行设置，在不同的阈值下，本申请实施例提供的方法均表现出了明显的性能提升效果。

如表4所示的本申请实施例提供的方法对不同立面元素类型的解析结果，该表还包含了本申请实施例提供的EACM对各类型元素解析的性能提升效果。翻转测试是测试时的一种数据增强方法，综合了对原始图像与经过水平翻转的图像的解析结果作为最终的输出结果。

表4本申请实施例提供的方法对不同立面元素类型的解析结果

由表4可知，在使用本申请实施例提供的EACM后，解析器的整体性能与不同类别立面元素的解析结果均得到了明显的改善，特别是对于空间排布规律的立面元素类型，平均准确率有较大幅度的提升。

综上，本申请实施例中的特征提取网络主要用于从建筑立面图像提取图像特征，通过元素排布上下文模块用于从图像特征中捕获和聚合空间行上下文与列上下文，因此图像特征提取部分可以根据硬件配准、计算速度需求来选择合适的卷积网络结构，例如AlexNet、ResNet101、ResNet152、UNet等。经过增强特征图被馈入一个检测器头部，用于预测参数化包围框，并得到最终的解析结果，该检测器头部可以是任意具有通过处理深度特征进行包围框参数预测能力的检测方法，即本申请实施例提供的元素排布上下文模块是即插即用的，能够随着检测方法的发展被用于新型检测框架中，具有良好的适用性。

至此已经结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的基于人工智能的图像处理方法。本申请实施例还提供基于人工智能的图像处理装置，实际应用中，基于人工智能的图像处理装置中的各功能模块可以由电子设备(如终端、服务器或服务器集群)的硬件资源，如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的基于人工智能的图像处理装置555，其可以是程序和插件等形式的软件，例如，软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件***中的专用软件模块、应用程序接口、插件、云服务等实现方式，下面对不同的实现方式举例说明。

其中，基于人工智能的图像处理装置555包括一系列的模块，包括特征提取模块5551、第一聚合模块5552、第二聚合模块5553、融合模块5554、检测模块5555以及训练模块5556。下面继续说明本申请实施例提供的基于人工智能的图像处理装置555中各个模块配合实现图像处理方案。

特征提取模块5551，用于对包括建筑结构的图像进行特征提取处理，得到所述建筑结构的初始特征；第一聚合模块5552，用于对所述建筑结构的初始特征进行基于列空间的聚合处理，得到所述建筑结构的列上下文特征；第二聚合模块5553，用于对所述建筑结构的初始特征进行基于行空间的聚合处理，得到所述建筑结构的行上下文特征；融合模块5554，用于基于所述建筑结构的列上下文特征以及行上下文特征进行融合处理，得到所述建筑结构的增强特征；检测模块5555，用于基于所述建筑结构的增强特征进行立面元素检测处理，得到所述建筑结构中立面元素的位置信息。

在一些实施例中，所述第一聚合模块5552还用于对所述建筑结构的初始特征进行列注意力处理，得到所述建筑结构的列注意力图；基于所述建筑结构的列注意力图进行上下文聚合处理，得到所述建筑结构的列上下文特征。

在一些实施例中，所述第一聚合模块5552还用于对所述建筑结构的初始特征进行基于值特征的映射处理，得到所述建筑结构的值特征图；对所述建筑结构的值特征图进行列特征提取处理，得到所述值特征图中的列特征；基于所述建筑结构的列注意力图，对所述值特征图中的列特征进行加权处理，得到所述建筑结构的列上下文特征。

在一些实施例中，所述第一聚合模块5552还用于对所述建筑结构的初始特征进行基于查询特征的映射处理，得到所述建筑结构的查询特征图；对所述建筑结构的初始特征进行基于键特征的映射处理，得到所述建筑结构的键特征图；基于所述建筑结构的查询特征图以及所述建筑结构的键特征图进行列相关性处理，得到所述建筑结构的列注意力图。

在一些实施例中，所述第一聚合模块5552还用于对所述建筑结构的键特征图进行列特征提取处理，得到所述键特征图的列特征；基于所述键特征图的列特征对所述建筑结构的查询特征图进行相关性处理，得到所述建筑结构的列注意力图。

在一些实施例中，所述第一聚合模块5552还用于针对所述查询特征图中多个位置中的任一位置执行以下处理：基于所述建筑结构的查询特征图，确定所述位置的查询特征向量；基于所述键特征图的列特征，确定所述位置的列特征向量；基于所述位置的查询特征向量以及所述位置的列特征向量，确定所述位置的注意力权重；将所述多个位置分别对应的注意力权重进行组合处理，得到所述建筑结构的列注意力图。

在一些实施例中，所述第二聚合模块5553还用于对所述建筑结构的初始特征进行行注意力处理，得到所述建筑结构的行注意力图；基于所述建筑结构的行注意力图进行上下文聚合处理，得到所述建筑结构的列上下文特征。

在一些实施例中，所述融合模块5554还用于对所述建筑结构的列上下文特征以及行上下文特征进行拼接处理，得到所述建筑结构的上下文特征；对所述建筑结构的上下文特征进行映射处理，得到所述建筑结构的映射特征；将所述建筑结构的映射特征与所述建筑结构的初始特征进行加和处理，得到所述建筑结构的增强特征。

在一些实施例中，所述检测模块5555还用于对所述建筑结构的增强特征进行基于立面元素的中心点预测处理，得到所述建筑结构中立面元素的中心点信息；对所述建筑结构的增强特征进行基于立面元素的尺寸预测处理，得到所述建筑结构中立面元素的尺寸信息；基于所述建筑结构中立面元素的中心点信息以及所述尺寸信息，确定所述建筑结构中立面元素的位置信息。

在一些实施例中，所述检测模块5555还用于对所述建筑结构的增强特征进行基于立面元素的偏移量预测处理，得到所述建筑结构中立面元素的偏移信息；将所述建筑结构中立面元素的偏移信息与所述中心点信息进行加和处理，得到所述建筑结构中立面元素的标准中心点信息；基于所述建筑结构中立面元素的标准中心点信息以及所述尺寸信息，确定所述建筑结构中立面元素的位置信息。

在一些实施例中，所述图像处理方法是通过调用神经网络模型实现的；所述装置还包括：训练模块5556，用于通过初始化的所述神经网络模型对包括建筑结构的图像样本进行立面元素预测处理，得到所述图像样本中立面元素的预测位置信息；基于所述预测位置信息以及所述图像样本中立面元素的位置标签，构建所述神经网络模型的位置损失函数；基于所述位置损失函数更新所述神经网络模型的参数，将所述神经网络模型的更新的参数作为训练后的所述神经网络模型的参数。

在一些实施例中，所述预测位置信息是通过预测中心点信息、预测偏移信息以及预测尺寸信息表征的；所述训练模块5556还用于基于所述预测中心点信息以及所述图像样本中立面元素的中心点标签，构建所述神经网络模型的中心点损失函数；基于所述预测偏移信息以及所述图像样本中立面元素的偏移标签，构建所述神经网络模型的偏移损失函数；基于所述预测尺寸信息以及所述图像样本中立面元素的尺寸标签，构建所述神经网络模型的尺寸损失函数；对所述中心点损失函数、所述偏移损失函数以及所述尺寸损失函数进行加权求和处理，得到所述神经网络模型的位置损失函数。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的图像处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的图像处理方法，例如，如图3A-图3C示出的基于人工智能的图像处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述建筑结构的初始特征进行基于列空间的聚合处理，得到所述建筑结构的列上下文特征，包括：

对所述建筑结构的初始特征进行列注意力处理，得到所述建筑结构的列注意力图；

3.根据权利要求2所述的方法，其特征在于，所述基于所述建筑结构的列注意力图进行上下文聚合处理，得到所述建筑结构的列上下文特征，包括：

对所述建筑结构的初始特征进行基于值特征的映射处理，得到所述建筑结构的值特征图；

4.根据权利要求2所述的方法，其特征在于，所述对所述建筑结构的初始特征进行列注意力处理，得到所述建筑结构的列注意力图，包括：

对所述建筑结构的初始特征进行基于查询特征的映射处理，得到所述建筑结构的查询特征图；

5.根据权利要求4所述的方法，其特征在于，所述基于所述建筑结构的查询特征图以及所述建筑结构的键特征图进行列相关性处理，得到所述建筑结构的列注意力图，包括：

对所述建筑结构的键特征图进行列特征提取处理，得到所述键特征图的列特征；

6.根据权利要求5所述的方法，其特征在于，所述基于所述键特征图的列特征对所述建筑结构的查询特征图进行相关性处理，得到所述建筑结构的列注意力图，包括：

针对所述查询特征图中多个位置中的任一位置执行以下处理：

基于所述键特征图的列特征，确定所述位置的列特征向量；

7.根据权利要求1所述的方法，其特征在于，所述基于所述建筑结构的列上下文特征以及行上下文特征进行融合处理，得到所述建筑结构的增强特征，包括：

对所述建筑结构的列上下文特征以及行上下文特征进行拼接处理，得到所述建筑结构的上下文特征；

8.根据权利要求1所述的方法，其特征在于，所述基于所述建筑结构的增强特征进行立面元素检测处理，得到所述建筑结构中立面元素的位置信息，包括：

对所述建筑结构的增强特征进行基于立面元素的中心点预测处理，得到所述建筑结构中立面元素的中心点信息；

9.根据权利要求8所述的方法，其特征在于，所述基于所述建筑结构中立面元素的中心点信息以及所述尺寸信息，确定所述建筑结构中立面元素的位置信息，包括：

对所述建筑结构的增强特征进行基于立面元素的偏移量预测处理，得到所述建筑结构中立面元素的偏移信息；

10.根据权利要求1所述的方法，其特征在于，所述图像处理方法是通过调用神经网络模型实现的；所述神经网络模型的训练过程包括：

通过初始化的所述神经网络模型对包括建筑结构的图像样本进行立面元素预测处理，得到所述图像样本中立面元素的预测位置信息；

11.根据权利要求10所述的方法，其特征在于，

所述预测位置信息是通过预测中心点信息、预测偏移信息以及预测尺寸信息表征的；

所述基于所述预测位置信息以及所述图像样本中立面元素的位置标签，构建所述神经网络模型的位置损失函数，包括：

基于所述预测中心点信息以及所述图像样本中立面元素的中心点标签，构建所述神经网络模型的中心点损失函数；

12.一种基于人工智能的图像处理装置，其特征在于，所述装置包括：

融合模块，用于对所述建筑结构的初始特征、列上下文特征以及行上下文特征进行融合处理，得到所述建筑结构的增强特征；

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的基于人工智能的图像处理方法。

14.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时实现权利要求1至11任一项所述的基于人工智能的图像处理方法。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的基于人工智能的图像处理方法。