CN116468907B

CN116468907B - 图像处理、图像分类和图像检测的方法及设备

Info

Publication number: CN116468907B
Application number: CN202310345621.2A
Authority: CN
Inventors: 谢晨伟; 孙思洋; 熊雄; 郑赟; 赵德丽; 周靖人
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2024-01-30
Anticipated expiration: 2043-03-31
Also published as: CN116468907A

Abstract

本申请提供一种图像处理、图像分类和图像检测的方法及设备。本申请的方法，通过对待处理的目标图像，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，可提升目标图像的向量表示的特征表达能力，进一步地，根据目标图像的增强向量表示进行图像处理，可以大大提升图像处理的精准度。

Description

图像处理、图像分类和图像检测的方法及设备

技术领域

本申请涉及计算机技术，尤其涉及一种图像处理、图像分类和图像检测的方法及设备。

背景技术

随着人工智能技术的发展，对图像进行处理的应用场景越来越多，图像处理被广泛应用于计算机视觉领域、以及计算机视觉与自然语言处理等其他技术的交叉领域的各种应用场景。例如，图像分类、目标检测、基于图像和文本的多模态检索等。基于人工智能技术训练合适的图像处理模型，利用图像处理模型对输入图像编码，根据编码得到的输入图像的向量表示进行图像处理，获得图像处理结果。

通常在模型训练过程中，图像处理模型对数量足够的样本图像进行编码及图像处理，希望图像处理模型能够充分拟合样本图像中特征信息，得到表达能力较强的图像向量表示。但是在实际训练过程中往往存在欠拟合或过拟合的情况，图像处理模型不能很好地拟合样本图像的特征信息，导致编码得到的图像向量表示的表达能力差，从而导致图像处理的精准度低。

发明内容

本申请提供一种图像处理、图像分类和图像检测的方法及设备，用以解决现有的图像处理的精准度低的问题。

第一方面，本申请提供一种图像处理方法，包括：

根据待处理的目标图像，将所述目标图像编码为第一向量表示，并获取与所述目标图像相关的多个参考图像及所述参考图像的文本描述；

使用所述多个参考图像及所述参考图像的文本描述，对所述目标图像的第一向量表示进行特征增强，得到所述目标图像的增强向量表示；

根据所述目标图像的增强向量表示进行图像处理，得到图像处理结果。

第二方面，本申请提供一种图像分类方法，包括：

响应于图像分类请求，获取待分类的目标图像和多个类别信息；

获取各所述类别信息对应的文本描述，将各所述类别信息对应的文本描述编码为第一文本表示，将所述目标图像编码为第一向量表示，并获取与所述目标图像相关的多个参考图像及所述参考图像的文本描述；

根据所述目标图像的增强向量表示与所述第一文本表示，进行图像分类，得到所述目标图像对应的类别信息。

第三方面，本申请提供一种图像检索方法，包括：

响应于图像检索请求，所述图像检索请求包含输入文本；

将所述输入文本编码为第一文本表示；

根据所述第一文本表示与图像库中目标图像的增强向量表示的相关度，检索与所述输入文本匹配的目标图像，并输出与所述输入文本匹配的目标图像；

其中，所述图像库中目标图像的增强向量表示通过如下方式确定：

将所述目标图像编码为第一向量表示，并获取与所述目标图像相关的多个参考图像及所述参考图像的文本描述；

使用所述多个参考图像及所述参考图像的文本描述，对所述目标图像的第一向量表示进行特征增强，得到所述目标图像的增强向量表示。

第四方面，本申请提供一种图像处理方法，应用于端侧设备，包括：

获取待处理的目标图像，向服务器发送包含所述目标图像的图像处理请求；接收所述服务器发送的所述目标图像的图像处理结果，所述图像处理结果通过第一方面所述的方法确定；输出所述目标图像的图像处理结果。

第五方面，本申请提供一种云服务器，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现第一方面、第二方面或第三方面所述的方法。

本申请提供的图像处理、图像分类和图像检测的方法及设备，通过对待处理的目标图像，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，可提升目标图像的向量表示的特征表达能力，根据目标图像的增强向量表示进行图像处理，可以大大提升图像处理的精准度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请所适用的一种示例性的图像处理***架构图；

图2为本申请一示例性实施例提供的图像处理方法流程图；

图3为本申请一示例性实施例提供的图像处理的架构图；

图4为本申请另一示例性实施例提供的图像处理方法流程图；

图5为本申请一示例性实施例提供的基于多模态数据的图像处理的架构图；

图6为本申请一示例性实施例提供的检索增强模块的一种示例架构图；

图7为本申请另一示例性实施例提供的检索增强模块的一种示例架构图；

图8为本申请一示例性实施例提供的图像处理的交互流程图；

图9为本申请一示例性实施例提供的图像分类方法流程图；

图10为本申请一示例性实施例提供的基于多模态表征模型的图像分类的架构图；

图11为本申请一示例性实施例提供的图像检索方法流程图；

图12为本申请一示例性实施例提供的图像处理装置的结构示意图；

图13为本申请一示例实施例提供的一种云服务器的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

多模态表征模型：一种深度学习模型，能够同时对多种模态的数据(如图像、文本等)进行特征表示。

CLIP：一个经典的多模态表征模型。

针对在实际训练过程中图像处理模型不能很好地拟合样本图像的特征信息，导致编码得到的图像向量表示的表达能力差，从而导致图像处理的精准度低的问题，本申请提供一种新的图像处理方法，根据待处理的目标图像，将目标图像编码为第一向量表示；并且，获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，根据目标图像的增强向量表示进行图像处理，得到图像处理结果，参考图像的文本描述中通常包含了对参考图像包含的目标对象、类别等特征信息，基于参考图像及其文本描述对输入的目标图像的向量表示进行特征增强，可使得增强向量表示具有更好地表达能力，从而可以提升图像处理的精准度。

图1为本申请所适用的一种示例性的图像处理***架构图，如图1所示，该***架构具体可包括服务器和端侧设备。

其中，服务器具体可为设置在本地的服务器、也可以是设置在云端的服务器集群。服务器与各个端侧设备间具有可通信的通信链路，能够实现服务器与各个端侧设备间的通信连接。

端侧设备是指向服务器提供待提取待处理的目标图像的电子设备，具体可以是具有网络通信功能、运算功能以及信息显示功能的硬件设备，其包括但不限于用户使用的智能终端、平板电脑、个人电脑等终端设备，物联网设备，服务平台或机构的服务器等。

端侧设备获取待处理的目标图像，该目标图像可以是用户通过端侧设备上传的、或者是端侧设备根据应用需求所采集的、或者是端侧设备预存储的图像库中的图像、或者是端侧设备根据应用需求对输入图像进行预处理后得到的目标图像、或者是端侧设备根据应用需求从其他数据平台获得的，此处对于待处理的目标图像的来源不做具体限定。端侧设备向服务器发送待处理的目标图像。服务器接收端侧设备发送的待处理的目标图像，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述；使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示；根据目标图像的增强向量表示进行图像处理，得到图像处理结果。服务器将图像处理结果发送至端侧设备。

一种可能的应用场景为图像分类场景，在一图像分类示例场景中，端侧设备向服务器发送第一图像分类请求，该第一图像分类请求包含待分类的目标图像。服务器接收第一图像分类请求，获取待分类的目标图像。服务器将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述；使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示；根据目标图像的增强向量表示进行图像分类，得到目标图像对应的类别信息，也即得到图像分类结果。服务器将目标图像对应的类别信息发送至端侧设备。端侧设备输出目标图像对应的类别信息。

在图像分类的另一示例场景中，支持类别信息的扩展，由端侧设备给定图像分类时可选的类别信息。端侧设备向服务器发送第二图像分类请求，该第二图像分类请求包含待分类的目标图像，以及可选的多个类别信息。服务器接收第二图像分类请求，获取待分类的目标图像和可选的多个类别信息。服务器获取各类别信息对应的文本描述，将各类别信息对应的文本描述编码为第二文本表示，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述；使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示；将目标图像的增强向量表示与第一文本表示融合，得到融合向量表示；根据融合向量表示进行图像分类，得到目标图像对应的类别信息。也即得到目标图像的图像分类结果。服务器将目标图像对应的类别信息发送至端侧设备。端侧设备输出目标图像对应的类别信息。

另一种可能的应用场景为图像检索场景，在一图像检索示例场景中，对于待检索的图像库中的目标图像，服务器将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述；使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示；服务器存储各个目标图像的增强向量表示。在图像检索时，端侧设备向服务器发送图像检索请求，图像检索请求包含输入文本。服务器接收图像检索请求，获取输入文本，将输入文本编码为第一文本表示，根据第一文本表示与图像库中目标图像的增强向量表示的相关度，检索与输入文本匹配的目标图像，得到图像检索结果。服务器将与输入文本匹配的目标图像输出至端侧设备。其中，服务器可以预先离线地获取图像库中各目标图像的增强向量表示，并存储各个目标图像的增强向量表示，这样在线上检索时可以直接获取已存储的目标图像的增强向量表示，可以提升检索效率。另外在一些其他的图像检索场景中，服务器也可以线上检索时获取目标图像的增强向量表示，具体可以根据实际应用场景的需要进行配置，此处不做具体限定。该示例场景为基于输入文本检索相关图像的场景，还可以应用于基于输入图像检索相关图像、或者基于输入图像和输入文本等多模态数据检索相关图像的场景，其他示例场景中可以使用类似方法获取输入图像的增强向量表示，基于输入图像的增强向量表示检索相关图像。

另一种可能的应用场景为目标检测场景，在一目标检测示例场景中，端侧设备向服务器发送第一目标检测请求，该第一目标检测请求包含输入图像。服务器接收第一目标检测请求，获取输入图像。服务器确定图像中的多个候选区域，对于任意的候选区域，将候选区域的图像作为目标图像，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述；使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，根据目标图像的增强向量表示，确定目标图像是否包含目标对象、以及所包含的目标对象的类别；进一步地，服务器确定包含目标对象的候选区域，以及候选区域内所包含的目标对象的类别，得到输入图像的目标检测结果。服务器将输入图像的目标检测结果发送至端侧设备。端侧设备输出输入图像的目标检测结果。目标检测的场景包括但不限于：人脸检测(具体可用于人脸支付，车站、机场实名认证，走失人员检测，智能门控等应用场景)、行人检测(具体可用于辅助驾驶、区域入侵检测、违规行为检测等应用场景)、车辆检测(具体可用于自动驾驶、违章查询等应用场景)、遥感检测(具体可用于农作物监测，土地使用、公路、河流监测等应用场景)。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请一示例性实施例提供的图像处理方法流程图。本实施例的执行主体为上述图像处理***架构中的服务器。如图2所示，该方法具体步骤如下：

步骤S200、获取待处理的目标图像。

在应用于不同的应用场景时，待处理的目标图像可以是不同来源的图像。目标图像可以是用户通过端侧设备上传的、或者是端侧设备根据应用需求所采集的、或者是端侧设备预存储的图像库中的图像、或者是端侧设备根据应用需求对输入图像进行预处理后得到的目标图像、或者是端侧设备根据应用需求从其他数据平台获得的，此处对于待处理的目标图像的来源不做具体限定。

示例性地，以基于输入文本进行图像检索的场景为例，目标图像可以待检索的图像库中的图像。以图像分类场景为例，目标图像可以是用户向端侧设备上传的图像，或者是使用端侧设备采集的图像。以目标检测场景为例，端侧设备首先确定待进行目标检测的输入图像中的多个候选区域，将各候选区域内的图像作为目标图像。

步骤S201、将目标图像编码为第一向量表示。

该步骤中，通过图像编码模块，对目标图像进行编码，得到目标图像的向量表示(记为第一向量表示)。

步骤S202、获取与目标图像相关的多个参考图像及参考图像的文本描述。

本实施例中，通过将目标图像与预设的参考图像进行相关度匹配，将与目标图像相关度较高的参考图像作为与目标图像相关的参考图像，得到与目标图像相关的多个参考图像，并获取与目标图像相关的多个参考图像的文本描述。

可选地，在实现获取与目标图像相关的多个参考图像时，可以通过预训练的图像检索模型从预设的参考图像中检索出与目标图像相关度较高的多个参考图像。例如，图像检索模型可以使用基于无监督自蒸馏方法的DINO-S/8模型，该DINO-S/8模型是一种不需要标注的训练数据、使用自蒸馏的方式学习的检索模型；或者，图像检索模型可以使用基于动量更新的对比学习(MoCo)的图像检索模型。

可选地，在实现获取与目标图像相关的多个参考图像时，可以通过计算目标图像与预设的参考图像的相似度，筛选出与目标图像相似度较高(如相似度大于预设相似度阈值)的参考图像，作为与目标图像相关的多个参考图像。其中，计算目标图像与预设的参考图像的相似度可以采用现有的任意一种计算两张图像相似度的方式实现，例如，计算图像表征向量的余弦相似度、实现图像相似度比较的哈希算法、计算图像的直方图距离等，此处不做具体限定。另外，预设相似度阈值可以根据实际应用场景和经验值设置，此处不做具体限定。

上述步骤S202与步骤S201可以并行地进行，或者以任意顺序先后执行，此处不做具体限定。

步骤S203、使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示。

在获取到与目标图像相关的多个参考图像及参考图像的文本描述之后，该步骤中，通过检索增强模块(Retrieval Augmented Module，简称RAM)，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示。

具体地，通过检索增强模块RAM，可以将目标图像相关的多个参考图像的图像向量表示，以及参考图像的文本描述的文本向量表示，嵌入目标图像的第一向量表示，以增强目标图像的特征表达能力，得到目标图像的增强向量表示。

步骤S204、根据目标图像的增强向量表示进行图像处理，得到图像处理结果。

在应用于不同的应用场景时，进行图像处理的方式不同，得到的图像处理结果也不同。

示例性地，在应用于图像分类场景时，根据目标图像的增强向量表示进行图像分类，确定目标图像对应的类别信息，得到图像分类结果。

示例性地，在应用于目标检测场景时，待处理的目标图像为给定的输入图像中候选区域对应的图像。该步骤中，根据目标图像的增强向量表示，确定目标图像是否包含目标对象、以及所包含的目标对象的类别，并确定包含目标对象的候选区域，以及候选区域内所包含的目标对象的类别，得到目标检测结果。

示例性地，图3为本申请实施例提供的图像处理的架构图，如图3所示，对于待处理的目标图像，通过图像编码模块将目标图像编码为第一向量表示；从预设的参考图像中检索与目标图像相关度较高的M个参考图像，并获取参考图像的文本描述。进一步地，通过检索增强模块(RAM)，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，输出目标图像的增强向量表示。进一步地，通过图像处理模块，根据目标图像的增强向量表示进行图像处理，得到图像处理结果。其中，M为正整数，M的值可以根据实际应用场景的需要进行设置和调整，例如M可以为5，此处不做具体限定。基于图3所示的架构，本实施例中用于实现图像处理的图像处理模型，包括图像编码模块、检索增强模块和图像处理模块。其中，图像编码模块可以使用任意一种将图像编码为向量表示的神经网络实现。图像处理模块根据图像处理的任务不同，使用与图像处理任务相匹配的神经网络(解码模块)实现。检索增强模块的具体结构将在后续实施例中详细说明。

本实施例的方法，在图像处理过程中，对于待处理的目标图像，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，可提升目标图像的向量表示的特征表达能力，根据目标图像的增强向量表示进行图像处理，可以大大提升图像处理的精准度。

在一可选实施例中，本申请提供的方法可以应用于对包含图像和其他类型(模态)的数据的多模态数据处理场景中。图4为本申请另一示例性实施例提供的图像处理方法流程图，在一可选实施例中，如图4所示，该方法具体步骤如下：

步骤S401、获取输入文本和待处理的目标图像。

本实施例中，在应用于多模态数据处理场景时，根据具体图像处理场景的应用需求，输入数据可以包括待处理的目标图像，以及输入文本。

示例性地，在一支持类别信息扩展/自定义的图像分类场景中，可以由用户通过端侧设备给定可选的类别信息，以及待处理的目标图像。其中，可选的类别信息为文本信息，作为输入文本。服务器通过本实施例的方法预测目标图像对应的类别信息(为给定可选的类别信息中的一个或者多个)，得到图像分类结果。

示例性地，在一图像检索示例场景中，用户通过端侧设备向服务器提交输入文本。服务器将图像库中的图像作为目标图像，基于用户输入文本，通过本实施例的方法从图像库中检索出与输入文本匹配的目标图像，得到图像检索结果。

步骤S402、将输入文本编码为第一文本表示。

该步骤中，通过文本编码模块对于输入文本进行编码，得到输入文本的文本表示，记为第一文本表示。

步骤S403、将目标图像编码为第一向量表示。

步骤S404、获取与目标图像相关的多个参考图像及参考图像的文本描述。

步骤S405、使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示。

步骤S403-S405与前述步骤S201-S203的具体实现方式相同，具体参见前述实施例及后续实施例中的相关内容，此处不再赘述。

本实施例中，步骤S403-S405获取目标图像的增强向量表示的过程，与步骤S402获取输入文本的文本表示的过程，这两个过程可以并行地进行，也可以任意顺序先后执行，此处不做具体限定。

步骤S406、根据目标图像的增强向量表示和第一文本表示进行图像处理，得到目标图像的图像处理结果。

示例性地，在一支持类别信息扩展/自定义的图像分类场景中，可以由用户通过端侧设备给定可选的类别信息，以及待处理的目标图像。其中，可选的类别信息为文本信息，作为输入文本。该步骤中，服务器根据目标图像的增强向量表示和第一文本表示，进行图像分类，确定目标图像对应的类别信息(为给定可选的类别信息中的一个或者多个)，得到图像分类结果。

具体地，服务器根据目标图像的增强向量表示和第一文本表示，预测目标图像对应于各类别信息的概率，并选择概率较大的一个或者多个类别信息，作为目标图像的类别信息。

示例性地，在一图像检索示例场景中，待处理的目标图像为待检索的图像库中的图像。用户通过端侧设备向服务器提交输入文本。该步骤中，服务器根据第一文本表示与目标图像的增强向量表示的相关度，检索与输入文本匹配的目标图像，得到图像检索结果。

具体地，服务器根据第一文本表示与目标图像的增强向量表示的相关度，筛选出相关度较高的一个或者多个目标图像，作为与输入文本匹配的目标图像。例如，筛选出相关度大于预设相关度阈值的目标图像，作为与输入文本匹配的目标图像；或者，根据与第一文本表示的相关度，对目标图像进行排序，并选择相关度较高的预设数量的目标图像，作为与输入文本匹配的目标图像。其中，预设相关度阈值、预设数量可以根据具体应用场景和经验值进行设置，此处不做具体限定。

示例性地，图5为本申请实施例提供的基于多模态数据的图像处理的架构图，本实施例中，输入数据包括目标图像和输入文本等多种不同模态的数据，如图5所示，对于输入文本，通过文本编码模块将输入文本编码为第一文本表示；对于输入的目标图像，通过图像编码模块将目标图像编码为第一向量表示；从预设的参考图像中检索与目标图像相关度较高的M个参考图像，并获取参考图像的文本描述。进一步地，通过检索增强模块(RAM)，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，输出目标图像的增强向量表示。进一步地，通过图像处理模块，根据目标图像的增强向量表示和输入文本的第一文本表示，进行图像处理得到图像处理结果。其中，M为正整数，M的值可以根据实际应用场景的需要进行设置和调整，例如M可以为5，此处不做具体限定。基于图5所示的架构，本实施例中用于实现图像处理的图像处理模型，包括图像编码模块、文本编码模块、检索增强模块和图像处理模块。其中，图像编码模块可以使用任意一种将图像编码为向量表示的神经网络实现。文本编码模块可以使用任意一种将文本编码为向量表示的神经网络实现。图像处理模块根据图像处理的任务不同，使用与图像处理任务相匹配的神经网络(解码模块)实现。检索增强模块的具体结构将在后续实施例中详细说明。

示例性地，在多模态数据处理场景中，图像处理模型可以基于多模态表征模型(如CLIP)实现，也即图像处理模型中的图像编码模块和文本编码模块可以使用多模态表征模型(如CLIP)中的图像编码模块和文本编码模块实现。前述步骤S203的方案，可以用于对多模态表征模型(如CLIP)中的图像编码模块编码得到的图像向量表示进行特征增强，以提升多模态表征模型(如CLIP)所提取的图像向量表示的表达能力，从而提升下游的多模态数据处理任务的精准度。

在上述任一方法实施例基础上，在图像处理模型的训练阶段，构建训练集和参考集。该参考集包含多个图文对，一个图文对包含一个参考图像及该参考图像的文本描述。训练集包含样本图像和样本图像的结果标注信息。从参考集中，获取与样本图像相关的多个参考图像及参考图像的文本描述。通过待训练的图像处理模型，将样本图像编码为第一向量表示，并使用与样本图像相关的多个参考图像及参考图像的文本描述，对样本图像的第一向量表示进行特征增强，得到样本图像的增强向量表示；根据样本图像的增强向量表示进行图像处理，得到样本图像的图像处理结果；根据样本图像的图像处理结果和结果标注信息，更新图像处理模型的参数，得到训练好的图像处理模型，训练好的图像处理模型用于对待处理的目标图像进行图像处理，得到目标图像的图像处理结果。

示例性地，基于图3所示架构的图像处理模型，包括图像编码模块、检索增强模块和图像处理模块。在图像处理模型的训练阶段，构建训练集和参考集。该参考集包含多个图文对，一个图文对包含一个参考图像及该参考图像的文本描述。训练集包含样本图像和样本图像的结果标注信息。从参考集中，获取与样本图像相关的多个参考图像及参考图像的文本描述，通过图像处理模型的图像编码模块将样本图像编码为第一向量表示。通过图像处理模型的检索增强模块，使用与样本图像相关的多个参考图像及参考图像的文本描述，对样本图像的第一向量表示进行特征增强，得到样本图像的增强向量表示。通过图像处理模型的图像处理模块，根据样本图像的增强向量表示进行图像处理，得到样本图像的图像处理结果。进一步地，根据样本图像的图像处理结果和结果标注信息，更新图像处理模型的图像编码模块、检索增强模块和图像处理模块的参数，得到训练好的图像处理模型。训练好的图像处理模型可用于对待处理的目标图像进行图像处理的应用场景。

示例性地，基于图5所示架构的图像处理模型，包括图像编码模块、文本编码模块、检索增强模块和图像处理模块。在图像处理模型的训练阶段，构建训练集和参考集。该参考集包含多个图文对，一个图文对包含一个参考图像及该参考图像的文本描述。训练集包含样本文本、样本图像和样本图像的结果标注信息。从参考集中，获取与样本图像相关的多个参考图像及参考图像的文本描述。通过图像处理模型的文本编码模块将样本文本编码为第一文本表示。通过图像处理模型的图像编码模块将样本图像编码为第一向量表示。通过图像处理模型的检索增强模块，使用与样本图像相关的多个参考图像及参考图像的文本描述，对样本图像的第一向量表示进行特征增强，得到样本图像的增强向量表示。通过图像处理模型的图像处理模块，根据样本图像的增强向量表示和样本文本的第一文本表示，进行图像处理得到图像处理结果。进一步地，根据样本图像的图像处理结果和结果标注信息，更新图像处理模型的图像编码模块、文本编码模块、检索增强模块和图像处理模块的参数，得到训练好的图像处理模型，训练好的图像处理模型可应用于基于多模态数据的图像处理场景中，也可不使用文本编码模块，应用于仅输入目标图像的图像处理场景中。

在一可选实施例中，上述任一实施例中，获取与目标图像相关的多个参考图像及参考图像的文本描述，具体可以采用如下方式实现：

获取预先构建的参考集，参考集包含参考图像及参考图像的文本描述；基于图像间的相关度，在参考集中检索到与目标图像相关的多个参考图像，以及多个参考图像的文本描述。其中，预先构建的参考集为对图像处理模型的训练阶段所构建的参考集。

具体地，通过将目标图像与预设的参考图像进行相关度匹配，将与目标图像相关度较高的参考图像作为与目标图像相关的参考图像，得到与目标图像相关的多个参考图像，并获取与目标图像相关的多个参考图像的文本描述。

在上述任一实施例基础上，本实施例中对检索增强模块的具体实现方式进行详细地说明。前述步骤S203和步骤S404中，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，具体通过如下步骤S1-S3实现：

步骤S1、将多个参考图像分别编码为第二向量表示，并将多个参考图像的文本描述分别编码为第二文本表示。

本实施例中，检索增强模块包括图像编码网络、文本编码网络和交叉注意力网络。检索增强模块中的图像编码网络可以使用任意一种将图像编码为向量表示的神经网络实现。另外，检索增强模块中用于对参考图像编码的图像编码网络，与图像处理模型中用于对目标图像编码的图像编码模块，可以使用同一图像编码的神经网络实现，也可以使用不同的图像编码神经网络实现。检索增强模块中的文本编码网络可以使用任意一种将文本编码为向量表示的神经网络实现。另外，检索增强模块中用于对参考图像的文本描述进行编码的文本编码网络，与图像处理模型中用于对输入文本进行编码的文本编码模块，可以使用同一文本编码神经网络实现，也可以使用不同的文本编码神经网络实现。

该步骤中，对于与目标图像相关的多个参考图像，通过分别将各个参考图像编码为图像向量表示，得到各个参考图像的第二向量表示，可以表示为{e_j ^I}_j ^M _＝1，其中M表示参考图像的数量，M为正整数，e_j ^I表示第j个参考图像的第二向量表示，j在1至M中取值。

对于与目标图像相关的多个参考图像的文本描述，通过文本编码模块将各个文本描述编码为文本向量表示，得到各个文本描述的第二文本表示，可以表示为{e_j ^T}_j ^M _＝1，其中M表示参考图像的数量，M为正整数，e_j ^T表示第j个参考图像的文本描述的第二文本表示，j在1至M中取值。

步骤S2、对目标图像的第一向量表示、多个参考图像的第二向量表示、以及多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，得到增强特征。

该步骤中，通过交叉注意力网络，对目标图像的第一向量表示、多个参考图像的第二向量表示、以及多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，来将多个参考图像的第二向量表示、以及多个参考图像的文本描述的第二文本表示嵌入到目标图像的第一向量表示中，得到增强特征。

步骤S3、将目标图像的第一向量表示和增强特征融合，得到目标图像的增强向量表示。

在得到增强特征之后，将增强特征与目标图像的第一向量表示融合，即可得到目标图像的增强向量表示。示例性地，可以将增强特征与目标图像的第一向量表示求和，得到目标图像的增强向量表示；或者根据预设权重系数，将增强特征与目标图像的第一向量表示加权求和，得到目标图像的增强向量表示。其中预设权重系数可以根据具体应用场景和经验值设置，此处不做具体限定。

示例性地，图6为本实施例提供的检索增强模块的一种示例架构图，在一可选实施例中，如图6所示，检索增强模块包含图像编码网络、文本编码网络和一个交叉注意力网络。将各个参考图像输入图像编码网络进行编码，得到各个参考图像的第二向量表示，表示为{e_j ^I}_j ^M _＝1。将各个参考图像的文本描述输入文本编码网络进行编码，得到各个文本描述的第二文本表示，表示为{e_j ^T}_j ^M _＝1。将第一向量表示作为查询特征、将多个参考图像的第二向量表示作为键特征、将多个参考图像的文本描述的第二文本表示作为值特征，通过交叉注意力网络，对查询特征、键特征和值特征进行交叉注意力计算，得到增强特征。进一步地，将增强特征与目标图像的第一向量表示求和，得到目标图像的增强向量表示。其中，交叉注意力网络可以使用任意一种进行交叉注意力计算的神经网络实现，例如可以使用多头交叉注意力(Multi-head Cross Attention)网络。

示例性地，图7为本实施例提供的检索增强模块的一种示例架构图，在另一可选实施例中，如图7所示，检索增强模块包含图像编码网络、文本编码网络和两个交叉注意力网络。将各个参考图像输入图像编码网络进行编码，得到各个参考图像的第二向量表示，表示为{e_j ^I}_j ^M _＝1。将各个参考图像的文本描述输入文本编码网络进行编码，得到各个文本描述的第二文本表示，表示为{e_j ^T}_j ^M _＝1。将第一向量表示作为查询特征、将多个参考图像的第二向量表示作为键特征、将多个参考图像的文本描述的第二文本表示作为值特征，通过第一个交叉注意力网络进行交叉注意力计算，得到第一特征。并且，将第一向量表示作为查询特征、将多个参考图像的文本描述的第二文本表示作为键特征、将多个参考图像的第二向量表示作为值特征，通过第二个交叉注意网络进行交叉注意力计算，得到第二特征，第一特征和第二特征均作为增强特征。进一步地，将第一特征、第二特征与目标图像的第一向量表示求和，得到目标图像的增强向量表示。其中，两个交叉注意力网络可以使用相同结构，具体可以使用任意一种进行交叉注意力计算的神经网络实现，例如可以使用多头交叉注意力(Multi-head Cross Attention)网络。

图8为本申请一示例性实施例提供的图像处理的交互流程图。如图8所示，在实现图像处理方法时，端侧设备与服务器的交互流程如下：

步骤S800、端侧设备获取待处理的目标图像。

步骤S801、端侧设备向服务器发送图像处理请求，图像处理请求包含待处理的目标图像。

步骤S802、服务器接收端侧设备发送的图像处理请求。

在接收到端侧设备发送的图像处理请求之后，服务器从图像处理请求中获取待处理的目标图像。

步骤S803、服务器根据待处理的目标图像，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示。

步骤S804、服务器根据目标图像的增强向量表示进行图像处理，得到图像处理结果。

本实施例中步骤S803-S804的具体实现方式与前述实施例中步骤S201-S204的具体实现方式相同，具体参见与步骤S201-S204相关的内容，此处不再赘述。

步骤S805、服务器向端侧设备发送图像处理结果。

步骤S806、端侧设备接收服务器发送的图像处理结果。

步骤S807、端侧设备输出图像处理结果。

下面结合具体应用场景，为图像处理方法的处理流程进行示例性地说明。

图9为本申请一示例性实施例提供的图像分类方法流程图。本实施例中，将前述实施例的图像处理方法应用于基于多模态表征模型的图像分类场景中。图10为本申请实施例提供的基于多模态表征模型的图像分类的架构图。基于图10所示架构，如图9所示，该图像分类方法具体流程如下：

步骤S901、响应于图像分类请求，获取待分类的目标图像和多个类别信息。

本实施例中，用户可以通过端侧设备给定进行图像分类时的可选的类别信息。端侧设备向服务器发送第二图像分类请求，该第二图像分类请求包含待分类的目标图像，以及可选的多个类别信息。

步骤S902、获取各类别信息对应的文本描述。

其中，类别信息可以是类别名称、也可以是表示不同类别的编号等标识信息。本实施例中，获取类别信息对应的包含语义信息的文本描述，使得文本描述包含类别的语义信息。

示例性地，可以根据文本描述模板，将类别信息填入文本描述模板中的指定位置，得到对应的文本描述。其中，应用于不同的应用场景时，所使用的文本描述模板可以不同，具体可以根据具体应用场景和经验进行设置，此处不做具体限定。

例如，以对狗的分类场景为例，类别信息可以包括如下类别信息：“Brittanydog”、“Shetland Sheep dog”、“Bighorn Sheep”、……、“airplane wing”。文本描述模板可以为“A photo of a{object}.”，其中，{object}表示填入类别信息的指定位置。通过将类别信息“Brittany dog”填入文本描述模板的{object}处，得到对应的文本描述为“A photoof a Brittany dog.”。

步骤S903、将各类别信息对应的文本描述编码为第一文本表示。

该步骤中，如图10所示，将各类别信息对应的文本描述逐一输入文本编码模块，通过文本编码模块将各类别信息对应的文本描述编码为文本表示，得到各类别信息对应的文本描述编码的第一文本表示。

步骤S904、将目标图像编码为第一向量表示。

该步骤中，如图10所示，将待分类的目标图像输入图像编码模块，通过图像编码模块将目标图像编码为图像向量表示，得到目标图像的第一向量表示。

步骤S905、获取与目标图像相关的多个参考图像及参考图像的文本描述。

步骤S906、使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示。

如图10所示，将目标图像的第一向量表示和与目标图像相关的多个参考图像及参考图像的文本描述，输入检索增强模块，通过检索增强模块使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示。

本实施例中，步骤S904-S906的具体实现方式与前述实施例中步骤S201-S204的具体实现方式相同，具体参见与步骤S201-S204相关的内容，此处不再赘述。

本实施例中，参考图像的文本描述包含了参考图像中图像内容的相关描述，文本描述本身就包含了参考图像的类别信息的描述，或者，文本描述所包含的参考图像中图像内容的相关描述中包含了与类别信息相关的高级语义特征。通过使用与目标图像相关的多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，使得得到目标图像的增强向量表示对参考图像类别的表达能力更强，从而可以提升图像分类的精准度。

需要说明的是，本实施例中步骤S902-S903、步骤S904、与步骤S905-S906，这三个处理过程可以并行地进行。

步骤S907、根据目标图像的增强向量表示与第一文本表示，进行图像分类，得到目标图像对应的类别信息。

本实施例中，在应用于图像分类场景时，图像处理模块为分类预测模块。如图10所示，将目标图像的增强向量表示与第一文本表示拼接后输入分类预测模块进行分类预测，得到目标图像对应的类别信息。图10中N表示类别信息的数量，N为大于1的正整数。

可选地，该步骤中根据目标图像的增强向量表示和第一文本表示，预测目标图像对应于各类别信息的概率，并选择概率较大的一个或者多个类别信息，作为目标图像的类别信息。

可选地，该步骤中计算目标图像的增强向量表示与各类别信息对应的文本描述的第一文本表示的相似度，并选出对应的文本描述的第一文本表示与目标图像的增强向量表示相似度较大的一个或者多个类别信息，作为目标图像对应的类别信息。

本实施例提供了应用于基于多模态表征模型的图像分类场景时的图像处理方法的详细流程，通过将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，可提升目标图像的向量表示的特征表达能力，根据目标图像的增强向量表示和输入文本的第一文本向量进行图像分类，可以大大提升图像分类的精准度。

图11为本申请一示例性实施例提供的图像检索方法流程图。本实施例中，将前述实施例的图像处理方法应用于基于多模态表征模型的图像检索场景中。如图11所示，该图像检索方法具体流程如下：

步骤S111、响应于图像检索请求，图像检索请求包含输入文本。

本实施例中，用户向端侧设备提交输入文本，并通过端侧设备向服务器发送包含输入文本的图像检索请求。其中，输入文本可以是用户输入的查询语句、或查询关键词。

步骤S112、将输入文本编码为第一文本表示。

本实施例中，基于图5所示架构，服务器通过文本编码模块将输入文本编码为第一文本表示。

步骤S113、根据第一文本表示与图像库中目标图像的增强向量表示的相关度，检索与输入文本匹配的目标图像。

该步骤中，服务器通过图像处理模块，计算输入文本的第一文本表示与图像库中目标图像的增强向量表示的相关度，并选择与输入文本的第一文本表示相关度较高的一个或者多个目标图像，作为与输入文本匹配的目标图像。

示例性地，计算输入文本的第一文本表示与图像库中目标图像的增强向量表示的相关度，可以通过计算输入文本的第一文本表示与图像库中目标图像的增强向量表示的余弦相似度、欧式距离或者其他任意一种计算两个向量间相似度的方式实现，将输入文本的第一文本表示与图像库中目标图像的增强向量表示的相似度作为二者的相关度，此处不做具体限定。

进一步地，根据输入文本的第一文本表示与图像库中目标图像的增强向量表示的相关度，筛选出相关度大于预设相关度阈值的目标图像，作为与输入文本匹配的目标图像；或者，根据与第一文本表示的相关度，对目标图像进行排序，并选择相关度较高的预设数量的目标图像，作为与输入文本匹配的目标图像。其中，预设相关度阈值、预设数量可以根据具体应用场景和经验值进行设置，此处不做具体限定。

本实施例中，图像库中目标图像的增强向量表示通过方式确定：将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述；使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示。这一过程的具体实现方式参见前述步骤S201-S203的相关内容，此处不再赘述。

需要说明的是，本实施例中，服务器可以预先(离线地)获取图像库中目标图像的增强向量表示，并存储图像库中目标图像的增强向量表示。在线进行图像检索过程中需要获取图像库中目标图像的增强向量表时，可直接读取已存储的图像库中目标图像的增强向量表，可以提升图像检索的效率和实时性。

步骤S114、输出与输入文本匹配的目标图像。

本实施例提供了应用于基于多模态表征模型的图检索场景时的图像处理方法的详细流程，通过将图像库中的图像作为目标图像，将目标图像编码为第一向量表示，并获取与目标图像相关的多个参考图像及参考图像的文本描述，使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示，可提升目标图像的向量表示的特征表达能力。在进行图像检索时，将输入文本编码为第一文本向量，根据图像库中各个目标图像的增强向量表示和输入文本的第一文本向量的相关度，检索出与输入文本匹配的目标图像，可以大大提升图像检索的精准度。

图12为本申请一示例性实施例提供的图像处理装置的结构示意图。本申请实施例提供的图像处理装置可以执行图像处理方法实施例提供的处理流程。如图12所示，图像处理装置120包括：图像编码单元121、参考图像检索单元122、检索增强单元123和图像处理单元124。

具体地，图像编码单元121用于根据待处理的目标图像，将目标图像编码为第一向量表示。

参考图像检索单元122用于获取与目标图像相关的多个参考图像及参考图像的文本描述。

检索增强单元123用于使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示。

图像处理单元124用于根据目标图像的增强向量表示进行图像处理，得到图像处理结果。

在一可选实施例中，图像处理装置120还包括：文本编码单元，用于获取输入文本，将输入文本编码为第一文本表示。

在实现根据目标图像的增强向量表示进行图像处理，得到目标图像的图像处理结果时，图像处理单元124还用于：根据目标图像的增强向量表示和第一文本表示进行图像处理，得到目标图像的图像处理结果。

在一可选实施例中，在实现获取与目标图像相关的多个参考图像及参考图像的文本描述时，参考图像检索单元122还用于：

获取预先构建的参考集，参考集包含参考图像及参考图像的文本描述；基于图像间的相关度，在参考集中检索到与目标图像相关的多个参考图像，以及多个参考图像的文本描述。

在一可选实施例中，在实现使用多个参考图像及参考图像的文本描述，对目标图像的第一向量表示进行特征增强，得到目标图像的增强向量表示时，检索增强单元123还用于：

将多个参考图像分别编码为第二向量表示，并将多个参考图像的文本描述分别编码为第二文本表示；对目标图像的第一向量表示、多个参考图像的第二向量表示、以及多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，得到增强特征；将目标图像的第一向量表示和增强特征融合，得到目标图像的增强向量表示。

在一可选实施例中，在实现对目标图像的第一向量表示、多个参考图像的第二向量表示、以及多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，得到增强特征时，检索增强单元123还用于：

将第一向量表示作为查询特征、将多个参考图像的第二向量表示作为键特征、将多个参考图像的文本描述的第二文本表示作为值特征，对查询特征、键特征和值特征进行交叉注意力计算，得到增强特征。

将第一向量表示作为查询特征、将多个参考图像的第二向量表示作为键特征、将多个参考图像的文本描述的第二文本表示作为值特征，进行交叉注意力计算，得到第一特征；将第一向量表示作为查询特征、将多个参考图像的文本描述的第二文本表示作为键特征、将多个参考图像的第二向量表示作为值特征，进行交叉注意力计算，得到第二特征；增强特征包括第一特征和第二特征。

在一可选实施例中，在实现根据目标图像的增强向量表示进行图像处理，得到目标图像的图像处理结果时，图像处理单元124还用于：

根据目标图像的增强向量表示进行图像分类，确定目标图像对应的类别信息，得到图像分类结果；或者，待处理的目标图像为给定的输入图像中候选区域对应的图像，根据目标图像的增强向量表示，确定目标图像是否包含目标对象、以及所包含的目标对象的类别，并确定包含目标对象的候选区域，以及候选区域内所包含的目标对象的类别，得到目标检测结果。

在一可选实施例中，图像处理装置120还包括：

通信单元，用于接收端侧设备发送的图像处理请求，图像处理请求包含待处理的目标图像。

在根据目标图像的增强向量表示进行图像处理，得到图像处理结果之后，通信单元还包括：向端侧设备发送图像处理结果。

在一可选实施例中，待处理的目标图像为待检索的图像库中的图像。在实现根据目标图像的增强向量表示和第一文本表示进行图像处理，得到目标图像的图像处理结果时，图像处理单元124还用于：

根据第一文本表示与目标图像的增强向量表示的相关度，检索与输入文本匹配的目标图像，得到图像检索结果。

在一可选实施例中，图像处理装置120还包括：模型训练单元，用于在获取预先构建的参考集之前，构建训练集和参考集，训练集包含样本图像和样本图像的结果标注信息；通过待训练的图像处理模型，将样本图像编码为第一向量表示，并从参考集中，获取与样本图像相关的多个参考图像及参考图像的文本描述；使用与样本图像相关的多个参考图像及参考图像的文本描述，对样本图像的第一向量表示进行特征增强，得到样本图像的增强向量表示；根据样本图像的增强向量表示进行图像处理，得到样本图像的图像处理结果；根据样本图像的图像处理结果和结果标注信息，更新图像处理模型的参数，得到训练好的图像处理模型，训练好的图像处理模型用于对待处理的目标图像进行图像处理，得到目标图像的图像处理结果。

本申请实施例提供的装置可以具体用于执行上述任一方法实施例中服务器所执行的处理流程，具体功能和所能实现的技术效果此处不再赘述。

图13为本申请实施例提供的一种云服务器的结构示意图。如图13所示，该云服务器包括：存储器1301和处理器1302。存储器1301，用于存储计算机执行指令，并可被配置为存储其它各种数据以支持在云服务器上的操作。处理器1302，与存储器1301通信连接，用于执行存储器1301存储的计算机执行指令，以实现上述任一方法实施例提供的技术方案，其具体功能和所能实现的技术效果类似，此处不再赘述。

可选的，如图13所示，该云服务器还包括：防火墙1303、负载均衡器1304、通信组件1305、电源组件1306等其它组件。图13中仅示意性给出部分组件，并不意味着云服务器只包括图13所示组件。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，云服务器的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得云服务器执行上述任一方法实施例所提供的方案，具体功能和所能实现的技术效果此处不再赘述。本申请实施例提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中云服务器的技术方案。可选的，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例提供的技术方案。

上述存储器可以是对象存储(Object Storage Service，OSS)。上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如移动热点(WiFi)，第二代移动通信***(2G)、第三代移动通信***(3G)、***移动通信***(4G)/长期演进(LTE)、第五代移动通信***(5G)等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘存储器(CD-ROM)、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户属性信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上，除非另有明确具体的限定。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种图像处理方法，其特征在于，包括：

根据待处理的目标图像，将所述目标图像编码为第一向量表示，并获取与所述目标图像相似度大于预设相似度阈值的多个参考图像及所述参考图像的文本描述；

根据所述目标图像的增强向量表示进行图像处理，得到所述目标图像的图像处理结果；

所述使用所述多个参考图像及所述参考图像的文本描述，对所述目标图像的第一向量表示进行特征增强，得到所述目标图像的增强向量表示，包括：

将所述多个参考图像分别编码为第二向量表示，并将所述多个参考图像的文本描述分别编码为第二文本表示；

对所述目标图像的第一向量表示、所述多个参考图像的第二向量表示、以及所述多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，得到增强特征；

将所述目标图像的第一向量表示和所述增强特征融合，得到所述目标图像的增强向量表示。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取输入文本，将所述输入文本编码为第一文本表示；

所述根据所述目标图像的增强向量表示进行图像处理，得到所述目标图像的图像处理结果，包括：

根据所述目标图像的增强向量表示和所述第一文本表示进行图像处理，得到所述目标图像的图像处理结果。

3.根据权利要求1或2所述的方法，其特征在于，所述获取与所述目标图像相关的多个参考图像及所述参考图像的文本描述，包括：

获取预先构建的参考集，所述参考集包含参考图像及参考图像的文本描述；

基于图像间的相关度，在所述参考集中检索到与所述目标图像相关的多个参考图像，以及所述多个参考图像的文本描述。

4.根据权利要求1所述的方法，其特征在于，所述对所述目标图像的第一向量表示、所述多个参考图像的第二向量表示、以及所述多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，得到增强特征，包括：

将所述第一向量表示作为查询特征、将所述多个参考图像的第二向量表示作为键特征、将所述多个参考图像的文本描述的第二文本表示作为值特征，对所述查询特征、键特征和值特征进行交叉注意力计算，得到所述增强特征。

5.根据权利要求1所述的方法，其特征在于，所述对所述目标图像的第一向量表示、所述多个参考图像的第二向量表示、以及所述多个参考图像的文本描述的第二文本表示，进行交叉注意力计算，得到增强特征，包括：

将所述第一向量表示作为查询特征、将所述多个参考图像的第二向量表示作为键特征、将所述多个参考图像的文本描述的第二文本表示作为值特征，进行交叉注意力计算，得到第一特征；

将所述第一向量表示作为查询特征、将所述多个参考图像的文本描述的第二文本表示作为键特征、将所述多个参考图像的第二向量表示作为值特征，进行交叉注意力计算，得到第二特征；

所述增强特征包括所述第一特征和所述第二特征。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像的增强向量表示进行图像处理，得到所述目标图像的图像处理结果，包括：

根据所述目标图像的增强向量表示进行图像分类，确定所述目标图像对应的类别信息，得到图像分类结果；

或者，

所述待处理的目标图像为给定的输入图像中候选区域对应的图像，根据所述目标图像的增强向量表示，确定所述目标图像是否包含目标对象、以及所包含的目标对象的类别，并确定包含目标对象的候选区域，以及候选区域内所包含的目标对象的类别，得到目标检测结果。

7.根据权利要求1或6所述的方法，其特征在于，还包括：

接收端侧设备发送的图像处理请求，所述图像处理请求包含待处理的目标图像；

所述根据所述目标图像的增强向量表示进行图像处理，得到图像处理结果之后，还包括：

向所述端侧设备发送所述图像处理结果。

8.根据权利要求2所述的方法，其特征在于，所述待处理的目标图像为待检索的图像库中的图像，

所述根据所述目标图像的增强向量表示和所述第一文本表示进行图像处理，得到所述目标图像的图像处理结果，包括：

根据所述第一文本表示与所述目标图像的增强向量表示的相关度，检索与所述输入文本匹配的目标图像，得到图像检索结果。

9.根据权利要求3所述的方法，其特征在于，所述获取预先构建的参考集之前，还包括：

构建训练集和所述参考集，所述训练集包含样本图像和所述样本图像的结果标注信息；

通过待训练的图像处理模型，将所述样本图像编码为第一向量表示，并从所述参考集中，获取与所述样本图像相关的多个参考图像及所述参考图像的文本描述；

使用与所述样本图像相关的多个参考图像及所述参考图像的文本描述，对所述样本图像的第一向量表示进行特征增强，得到所述样本图像的增强向量表示；

根据所述样本图像的增强向量表示进行图像处理，得到所述样本图像的图像处理结果；

根据所述样本图像的图像处理结果和结果标注信息，更新所述图像处理模型的参数，得到训练好的图像处理模型，训练好的图像处理模型用于对待处理的目标图像进行图像处理，得到所述目标图像的图像处理结果。

10.一种图像分类方法，其特征在于，包括：

获取各所述类别信息对应的文本描述，将各所述类别信息对应的文本描述编码为第一文本表示，将所述目标图像编码为第一向量表示，并获取与所述目标图像相似度大于预设相似度阈值的多个参考图像及所述参考图像的文本描述；

根据所述目标图像的增强向量表示与所述第一文本表示，进行图像分类，得到所述目标图像对应的类别信息；

11.一种图像检索方法，其特征在于，包括：

响应于图像检索请求，所述图像检索请求包含输入文本；

将所述输入文本编码为第一文本表示；

将所述目标图像编码为第一向量表示，并获取与所述目标图像相似度大于预设相似度阈值的多个参考图像及所述参考图像的文本描述；

12.一种图像处理方法，其特征在于，应用于端侧设备，包括：

获取待处理的目标图像，

向服务器发送包含所述目标图像的图像处理请求；

接收所述服务器发送的所述目标图像的图像处理结果，所述图像处理结果通过如权利要求1-9中任一项所述的方法确定；

输出所述目标图像的图像处理结果。

13.一种云服务器，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-9中任一项所述的方法。