CN109002852A

CN109002852A - 图像处理方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN109002852A
Application number: CN201810758796.5A
Authority: CN
Inventors: 陈志博; 石楷弘
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2018-12-14
Anticipated expiration: 2038-07-11
Also published as: CN109002852B

Abstract

本申请涉及一种图像处理方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取输入图像；通过第一模型提取所述输入图像的图像特征；通过所述第一模型并根据所述图像特征，确定与所述输入图像相应的类别标签文本；将所述图像特征和相应的类别标签文本进行跨模态融合，得到综合特征；通过第二模型处理所述综合特征，输出所述输入图像的图像描述文本。本申请提供的方案可以提高图像理解信息的准确性。

Description

图像处理方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像处理方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术的发展，通过计算机设备来处理各种复杂问题或者和人们进行互动已变得越来越频繁。比如，通过计算机设备来帮助人们理解图像，特别是对于幼儿、老年人、视觉功能障碍者或者语言理解障碍者等具有很大的帮助。

传统的图像理解方法通常是提取图像的图像特征，将图像特征和预设的文本共同输入至编码器中，通过解码器进行解码，以得到图像理解信息。然而，传统的图像理解方法，通过编码-解码的结构对图像进行处理，随着处理时间的增加，会慢慢缺少图像特征的指导，使得图像理解不够准确。

发明内容

基于此，有必要针对传统的图像理解方案中对图像理解的不够准确的技术问题，提供一种图像处理方法、装置、计算机可读存储介质和计算机设备。

一种图像处理方法，包括：

获取输入图像；

通过第一模型提取所述输入图像的图像特征；

通过所述第一模型并根据所述图像特征，确定与所述输入图像相应的类别标签文本；

将所述图像特征和相应的类别标签文本进行跨模态融合，得到综合特征；

通过第二模型处理所述综合特征，输出所述输入图像的图像描述文本。

一种图像处理装置，所述装置包括：

获取模块，用于获取输入图像；

提取模块，用于通过第一模型提取所述输入图像的图像特征；

确定模块，用于通过所述第一模型并根据所述图像特征，确定与所述输入图像相应的类别标签文本；

融合模块，用于将所述图像特征和相应的类别标签文本进行跨模态融合，得到综合特征；

输出模块，用于通过第二模型处理所述综合特征，输出所述输入图像的图像描述文本。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述图像处理方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述图像处理方法的步骤。

上述图像处理方法、装置、计算机可读存储介质和计算机设备，通过第一模型提取输入图像的图像特征，并确定与输入图像相应的类别标签文本，可以快速准确地获得输入图像的图像特征和相应的类别标签文本。将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征，再通过第二模型处理综合特征，得到图像描述文本。这样，可以使得第二模型在处理过程中既能充分利用输入图像本身的图像特征，又能结合输入图像所属的类别信息。这样细致且充分地利用了输入图像的特征，在对图像进行理解时，得到了图像特征和类别标签文本的双重指导，大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

一种图像处理方法，包括：

获取输入图像、以及与所述输入图像相应的问题文本；

提取所述输入图像的图像特征；

提取所述问题文本的文本特征；

按照所述文本特征，对所述图像特征进行注意力分配处理，得到注意力权值；

根据所述图像特征和所述注意力权值确定加权图像特征；

依据所述加权图像特征进行分类处理，获得所述问题文本对应的答案文本。

一种图像处理装置，包括：

获取模块，用于获取输入图像、以及与所述输入图像相应的问题文本；

提取模块，用于提取所述输入图像的图像特征；

所述提取模块还用于提取所述问题文本的文本特征；

注意力分配处理，用于按照所述文本特征，对所述图像特征进行注意力分配处理，得到注意力权值；

确定模块，用于根据所述图像特征和所述注意力权值确定加权图像特征；

分类模块，用于依据所述加权图像特征进行分类处理，获得所述问题文本对应的答案文本。

上述图像处理方法、装置、计算机可读存储介质和计算机设备，提取输入图像的图像特征，提取与输入图像相应的问题文本的文本特征，并按照文本特征，对图像特征进行注意力分配处理，得到注意力权值，根据图像特征和注意力权值确定加权图像特征。再依据加权图像特征进行分类处理，输出与问题文本对应的答案文本。这样，可根据问题文本相应的文本特征，对图像特征进行注意力分配处理，以得到加权图像特征，使得在图像处理过程中可以聚焦到与问题文本相关的图像特征上，再通过对加权图像特征进行分类处理可以大大提高答案文本的准确性，也就是大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

附图说明

图1为一个实施例中图像处理方法的应用环境图；

图2为一个实施例中图像处理方法的流程示意图；

图3为一个实施例中输入图像的示意图；

图4为一个实施例中将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征步骤的流程示意图；

图5为一个实施例中进行图像问答的步骤的流程示意图；

图6为另一个实施例中图像处理方法的流程示意图；

图7为又一个实施例中图像处理方法的流程示意图；

图8为一个实施例中图像处理方法的流程示意图；

图9为一个实施例中提取问题文本的文本特征的步骤的流程示意图；

图10为另一个实施例中图像处理方法的流程示意图；

图11为又一个实施例中图像处理方法的流程示意图；

图12为一个实施例中图像处理装置的结构框图；

图13为另一个实施例中图像处理装置的结构框图；

图14为一个实施例中图像处理装置的结构框图；

图15为一个实施例中计算机设备的结构框图；

图16为另一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中图像处理方法的应用环境图。参照图1，该图像处理方法应用于图像处理***。该图像处理***包括终端110和服务器120。图像处理方法可以在终端110或服务器120中完成，终端110可直接获取输入图像，并在终端侧执行上述图像处理方法；或者，终端110也可在获取输入图像后将输入发送至服务器，使得服务器获取输入图像并执行上述图像处理方法。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑和笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种图像处理方法。本实施例主要以该方法应用于上述图1中的计算机设备，如终端110或服务器120来举例说明。参照图2，该图像处理方法具体包括如下步骤：

S202，获取输入图像。

具体地，计算机设备可获取本地的图像作为输入图像，或者通过网络连接、USB(Universal Serial Bus，通用串行总线)接口连接等通信方式从其他计算机设备处获取输入图像。

在一个实施例中，终端可通过摄像头在摄像头当前的视野下采集图像，将采集的图像作为输入图像。或者，终端可通过向用户展示图像展示界面，用户可在图像展示界面中进行选中操作，终端可将选中的图像作为输入图像。其中，图像展示界面中展示的图像可以是终端本地存储的图像，也可以是终端通过网络连接访问服务器以获得的图像。

在一个实施例中，终端获取到输入图像后可在本地执行图像处理方法。或者，终端可将输入图像发送至服务器，使得服务器获取输入图像并执行图像处理方法。

S204，通过第一模型提取输入图像的图像特征。

其中，模型是由人工神经网络构成的模型。人工神经网络(Artificial NeuralNetworks，简写为ANNs)，也简称为神经网络(NNs)或称作连接模型(Connection Model)。人工神经网络可从信息处理角度对人脑神经元网络进行抽象，以建立某种模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。

神经网络模型比如CNN(Convolutional Neural Network，卷积神经网络)模型、DNN(Deep Neural Network，深度神经网络)模型和RNN(Recurrent Neural Network，循环神经网络)模型等。

其中，卷积神经网络包括卷积层(Convolutional Layer)和池化层(PoolingLayer)。卷积神经网络模型有多种，比如VGG(Visual Geometry Group视觉集合组)网络模型、GoogleNet(谷歌网络)模型或ResNet(能效评估***)网络模型等。深度神经网络包括输入层、隐含层和输出层，层与层之间是全连接的关系。循环神经网络是一种对序列数据建模的神经网络，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。循环神经网络模型，比如LSTM(Long Short-Term Memory Neural Network，长短时记忆神经网络)模型。

图像特征是表示图像的颜色、纹理、形状或空间关系等的特征。在本实施例中，图像特征具体可以是计算机设备从输入图像中提取出的可以表示图像的颜色、纹理、形状或空间关系等数据，得到图像的“非图像”的表示或描述，如数值、向量或符号等。

在本实施例中，第一模型具体可以是卷积神经网络模型，比如ResNet-80。计算机设备可将输入图像输入至第一模型中，通过第一模型提取输入图像的图像特征。比如，计算机设备可将输入图像输入至卷积神经网络模型中，通过卷积神经网络的卷积层对输入图像进行卷积处理，提取输入图像的图像特征。也就是卷积神经网络可通过卷积层对输入图像进行卷积处理后，得到输入图像的feature map(特征图)，这里的feature map就是本实施例中的图像特征。

在一个实施例中，第一模型是以图像库(ImageNet)中的图像和相应的类别标签作为训练数据，进行学习训练得到的用于对输入图像进行分类的模型。计算机设备在获取到输入图像后，将输入图像输入第一模型，通过第一模型的卷积层结构提取输入图像的图像特征，通过第一模型的池化层结构和/或全连接层结构确定输入图像相应的类别标签文本。

S206，通过第一模型并根据图像特征，确定与输入图像相应的类别标签文本。

其中，类别标签文本是输入图像所属的类别对应的标签文本。具体地，计算机设备可通过第一模型提取图像特征，再对提取的图像特征进行后续的分类处理，得到输入图像的类别，进而确定输入图像相应的类别标签文本。

在一个实施例中，第一模型具体可以是卷积神经网络模型。计算机设备可将输入图像输入至卷积神经网络模型中，以提取输入图像的图像特征。再通过池化层和全连接层对图像特征进行处理，得到输入图像所属类别的概率值。将最大概率值所对应的类别标签作为与输入图像相应的类别标签。

在一个实施例中，计算机设备可通过多任务卷积神经网络对输入图像进行处理，以得到输入图像相应的多个类别标签文本。其中，多任务卷积神经网络是可以进行多任务学习的卷积神经网络。多任务卷积神经网络的网络结构和单任务卷积神经网络的结构略有不同。对于单任务卷积神经网络，也就是独立的神经网络，每个网络是针对输入而仅有一个输出的函数。而多任务卷积神经网络则针对输入可以有多个输出，每个输出对应一个任务。可以理解的是，这些输出可以连接他们共享的一个隐层的所有神经元，这些隐层中用于某个任务的特征也可以被其他任务利用，促使多个任务共同学习，这样，单个网络学习到的特征可以帮助另一个网络的学习。

S208，将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征。

其中，跨模态融合是将具有不同模态的数据进行融合。在本实施例中，不同模态的数据具体是指与输入图像对应的图像特征、以及与类别标签文本对应的文本数据。具体地，计算机设备可将提取的图像特征和相应的类别标签文本映射至同一空间内的数据，再对映射后的数据进行融合处理，得到综合特征。

在一个实施例中，通过第一模型提取输入图像的图像特征。计算机设备可通过循环神经网络提取类别标签文本的文本特征。其中，图像特征和文本特征的表现形式都可以是向量形式。计算机设备在对图像特征和文本特征进行融合之前，可将图像特征和文本特征分别转换成标准形式，使两者的特征向量都处于同一范围内。比如，可分别对图像特征和文本特征进行归一化处理。常用的归一化算法有函数法和概率密度法。其中，函数法，比如最大-最小函数、均值-方差函数(将特征都归一化到了一个一致的区间，比如均值为0，方差为1的区间)或双曲sigmoid(S型生长曲线)函数等。

进一步地，计算机设备可对归一化处理后的图像特征和相应的类别标签文本对应的文本特征，执行融合操作，得到综合特征。其中，将图像特征和文本特征进行融合的算法具体可采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法或基于深度学习理论算法等。或者，计算机设备可对归一化处理后的两个向量进行加权求和，已将图像特征和文本特征进行融合，得到综合特征。

在一个实施例中，计算机设备可通过循环神经网络提取类别标签文本的文本特征，对图像特征和文本特征做注意力分配处理，也就是attention处理，得到注意力分配权值，也就是注意力权值(attention value)，再将attention value和图像特征结合，得到综合特征。

其中，attention处理，可以理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息。聚焦的过程体现在注意力分配权值的计算上，注意力分配权值越大越，则越聚焦于其对应的图像特征上。

S210，通过第二模型处理综合特征，输出输入图像的图像描述文本。

其中，图像描述文本是描述输入图像的文本，比如识别输入图像中的物体、理解物体间的关系等，图像描述文本具体可以是一个词、一个整句或者段落文本等。第二模型具体可以是循环神经网络模型，比如LSTM(Long Short-Term Memory Neural Network，长短时记忆神经网络)模型。

具体地，计算机设备可将综合特征输入至第二模型中，通过第二模型对综合特征进行处理，以输出输入图像的图像描述文本。

在一个实施例中，步骤S210具体可以包括以下步骤：获取与输入图像对应的图像预描述文本；将综合特征和图像预描述文本的各个词向量依次输入至第二模型；通过第二模型处理依次输入的综合特征和词向量，输出输入图像的图像描述文本。

其中，图像预描述文本是预先对输入图像进行描述的文本。图像预描述文本具体可以是认为对输入图像进行理解后，得到的初始的较为粗糙的描述文本。图像预描述文本和图像描述文本可以是统一中语言种系，也可以是不同的语言种系。比如，图像预描述文本可以是以中文对输入图像进行描述的文本，而图像描述文本则是以英文对输入图像进行描述的文本。

在一个实施例中，计算机设备可获取与输入图像对应的图像预描述文本，并获取图像预描述文本的各个词向量。计算机设备可以采用编码-解码的方式，将综合特征作为第一时刻输入，将各个词向量分别作为后续时刻的输入，通过第二模型处理依次输入的综合特征和词向量，输出图像描述文本。这样，第二模型可以结合综合特征和图像预描述文本，是的输出的图像描述文本更贴合输入图像，大大提高了图像理解信息的准确性。

上述图像处理方法，通过第一模型提取输入图像的图像特征，并确定与输入图像相应的类别标签文本，可以快速准确地获得输入图像的图像特征和相应的类别标签文本。将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征，再通过第二模型处理综合特征，得到图像描述文本。这样，可以使得第二模型在处理过程中既能充分利用输入图像本身的图像特征，又能结合输入图像所属的类别信息。这样细致且充分地利用了输入图像的特征，在对图像进行理解时，得到了图像特征和类别标签文本的双重指导，大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

在一个实施例中，通过第一模型提取输入图像的图像特征的步骤包括：通过第一模型确定输入图像中互不相同的多个候选区域；通过第一模型，分别提取各候选区域的图像特征。

具体地，计算机设备可通过第一模型处理输入图像，确定输入图像中的多个目标，并根据相应的目标确定输入图像中互不相同的多个候选区域，也就是Region Proposal。其中，各候选区域互不相同，可以部分重叠或者完全不重叠。其中，候选区域的重叠指的是不同的候选区域中有相同的像素。计算机设备可通过第一模型，分别提取各候选区域的图像特征。

其中，对输入图像进行候选区域的划分的算法有多种，比如可采用滑动窗口判断法、目标检测法(Selective Search for Object Recognition)或者SSD(Single ShotMultibox Detector，单发多框检测)算法等。

在一个实施例中，计算机设备可通过第一模型并根据各个候选区域相应的图像特征，确定与各候选区域相应的类别标签文本。举例说明，参考图3，图3示出了一个实施例中的输入图像的示意图。如图3所示，输入图像包括有一栋房、一条小溪、一条狗和一个人。其中，小溪在房子的前方，狗在小溪旁，人在房子的左边。将上述输入图像输入至第一模型中，第一模型可确定多个候选区域，比如图3中虚线框所包括的区域A-D。相应地，第一模型可分别提取相应候选区域的图像特征，确定与各候选区域相应的类别标签文本。比如与候选区域A相应的类别标签文本为“房子”、与候选区域B相应的类别标签文本为“人”、与候选区域C相应的类别标签文本“小溪”、以及与候选区域D相应的类别标签文本“狗”。

上述实施例中，通过第一模型确定输入图像中互不相同的多个候选区域，并分别提取各候选区域的图像特征，以便确定与输入图像相应的多个类别标签文本。

在一个实施例中，步骤S210，即通过第二模型处理综合特征，输出输入图像的图像描述文本的步骤具体包括：将各候选区域相应的综合特征拼接，获得拼接特征；通过第二模型处理拼接特征，输出输入图像的图像描述文本。

具体地，计算机设备可将各候选区域相应的图像特征和类别标签文本进行跨模态融合，得到各候选区域相应的综合特征。计算机设备可将各候选区域相应的综合特征拼接，获得拼接特征，通过第二模型处理拼接特征，输出输入图像的图像描述文本。

在一个实施例中，计算机设备可确定输入图像中互不相同的多个候选区域，计算机设备确定候选区域后，可选择满足预设条件的候选区域作为目标候选区域，进而提取目标候选区域的图像特征、以及确定目标候选区域相应的类别标签文本，以分别对目标候选区域相应的图像特征和类别标签文本进行跨模态融合，得到多个综合特征。

其中，预设条件比如，候选区域的面积与输入图像的面积的比值满足预设比值，或比值最大的前几名，比如前三名。预设条件还比如，通过网络模型在大数据下学习到的最受人们欢迎的目标，选择预设数量的包含相应目标的候选区域。

上述实施例中，通过将各候选区域相应的综合特征拼接，得到拼接特征，再根据拼接特征输出图像描述文本，更充分地利用图像信息，将图像特征和类别标签文本进行有效地结合，大大提高了图像理解信息的准确性。

在一个实施例中，步骤S208，也就是将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征的步骤具体包括以下步骤：

S402，确定与类别标签文本相应的编码数据。

其中，编码数据是对类别标签文本进行编码处理得到的数据，编码数据可以代表被编码的数据，也就是本实施例中的类别标签文本。常用的编码方式有：单极性码、极性码、双极性码、归零码、双相码、不归零码、曼彻斯特编码、差分曼彻斯特编码、多电平编码等。

在一个实施例中，计算机设备可预先设置类别标签文本和编码数据的映射关系。根据映射关系，确定与类别标签文本相应的编码数据。举例说明，比如可预先设置类别标签文本“狗”对应于编码数据“0001”、类别标签文本“人”对应于编码数据“0002”、类别标签文本“山”对应于编码数据“0003”、类别标签文本“房子”对应于编码数据“0101”等。当计算机设备确定与图像特征相应的类别标签为“狗”时，则可确定相应的编码数据“0001”。

在一个实施例中，计算机设备可通过循环神经网络提取类别标签文本的文本特征，将相应的文本特征作为与类别标签文本相应的编码数据。

S404，根据编码数据，对图像特征进行注意力分配处理，得到注意力权值。

在一个实施例中，计算机设备可以根据编码数据，对图像特征进行注意力分配处理，得到注意力权值。

在一个实施例中，计算机设备可将编码数据和图像特征按预设标准规则分别映射成同一空间内的标准向量。再对分别与编码数据和图像特征相应的标准向量进行点乘操作，得到中间结果。对中间结果依次进行池化处理(比如sum pooling处理)和回归处理(比如softmax处理)，得到注意力权值。

S406，根据注意力权值和图像特征，计算得到综合特征。

具体地，计算机设备可将注意力权值和相应的图像特征结合，得到加权后的综合特征。在一个实施例中，计算机设备可通过注意力模型来实现将图像特征和相应的类别标签文本进行跨模态融合，得到综合文本的步骤。将图像特征和相应的类别标签文本输入至注意力模型中，注意力模型可通过网络结构自动的学习权重，得到注意力权值。再将注意力权值和图像特征进行结合，得到综合特征。在得到的综合特征中，注意力模型越聚焦的地方，所占的权重就越大。

上述实施例中，通过对图像特征和相应的编码数据进行注意力分配处理，得到注意力权值，再将注意力权值和图像特征相结合，得到综合特征，使得综合特征中越重要的元素所占的权重越大，可使得在图像处理过程中能聚焦到目标元素，大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

在一个实施例中，图像处理方法还包括：通过第一模型提取输入图像中的文本内容。将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征的步骤具体包括：将图像特征、与图像特征相应的文本内容、以及与图像特征相应的类别标签文本进行跨模态融合，得到综合特征。

具体地，输入图像中包括有文本内容。计算机设备可采用多示例学习(MultipleInstance Learning)的方法，从输入图像中提取具有语义含义的文本内容。将图像特征、与图像特征相应的文本内容、以及与图像特征相应的类别标签文本进行跨模态融合，得到综合特征。

在一个实施例中，计算机设备通过第一模型确定输入图像中互不相同的多个候选区域，计算机设备从输入图像中提取具有语义含义的文本内容时，可将文本内容对应到相应的候选区域。相应地，计算机设备可将各候选区域相应的图像特征、文本内容、类别标签文本进行跨模态融合，以得到综合特征。

上述实施例中，通过提取输入图像中的文本内容，将图像特征、与图像特征相应的文本内容、以及与图像特征相应的类别标签文本三者进行跨模态融合，可以更充分细致地挖掘出输入图像的特征，使得图像描述文本更准确，进一步提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

在一个实施例中，该图像处理方法还包括进行图像问答的步骤，该步骤具体包括：

S502，获取输入图像相应的问题文本。

其中，问题文本是描述针对于输入图像的问题的文本。比如，参考图3中的输入图像，相应的问题文本具体可以是“房子的前面是什么？”、“房子的左边是什么？”或“小溪旁边有什么？”等。

具体地，计算机设备可获取本地与输入图像相应的文本作为问题文本，或者通过网络连接、USB(Universal Serial Bus，通用串行总线)接口连接等通信方式从其他计算机设备处获取问题文本。

在一个实施例中，终端可通过向用户展示图像展示界面，用户可在图像展示界面中进行选中操作，终端可将选中的图像作为输入图像。终端可在图像展示界面中展示的输入图像旁展示预设的问题文本。用户可在图像展示界面中进行选中操作，终端将用户选中的问题文本作为与输入图像相应的问题文本。

在一个实施例中，终端可调用本地的声音采集装置采集语音数据。在本地对语音数据进行识别，或者将相应的语音数据发送至服务器，以对语音数据进行识别，得到相应的问题文本。

在一个实施例中，终端获取到输入图像和相应的问题文本后可在本地执行图像处理方法。或者，终端可将输入图像、以及相应的问题文本发送至服务器，使得服务器获取输入图像、及相应的问题文本并执行图像处理方法。

S504，提取问题文本的文本特征。

具体地，计算机设备可通过循环神经网络提取问题文本的文本特征。循环神经网络，比如LSTM网络。在一个实施例中，计算机设备可提取问题文本的字、词或者整句的文本特征。

S506，按照文本特征，对图像特征进行注意力分配处理，得到注意力权值。

在一个实施例中，计算机设备可以按照文本特征，对图像特征进行注意力分配处理，得到注意力权值。

在一个实施例中，计算机设备可将文本特征和图像特征按预设标准规则分别映射成同一空间内的标准向量。再对分别与编码数据和图像特征相应的标准向量进行点乘操作，得到中间结果。对中间结果依次进行池化处理(比如sum pooling处理)和回归处理(比如softmax处理)，得到注意力权值。

S508，根据图像特征和注意力权值确定加权图像特征。

具体地，计算机设备可将注意力权值和相应的图像特征结合，得到加权后的加权图像特征。在一个实施例中，计算机设备可通过注意力模型来实现将图像特征和相应的问题文本的跨模态融合，得到加权图像特征的步骤。将图像特征和相应的问题文本输入至注意力模型中，注意力模型可通过网络结构自动的学习权重，得到注意力权值。再将注意力权值和图像特征进行结合，得到加权图像特征。在得到的加权图像特征中，和问题文本越相关的地方，所占的权重就越大。

S510，依据加权图像特征进行分类处理，获得问题文本对应的答案文本。

具体地，计算机设备可通过机器学习分类器对加权图像特征进行分类处理，得到加权图像特征所属的类别标签文本。将相应的类别标签文本作为与问题文本对应的答案文本。

在一个实施例中，计算机设备可将加权图像特征输入至训练好的机器学习分类器，进行3000类分类，得到相应的类别标签文本，将类别标签文本作为与问题文本对应的答案文本。

举例说明，参考图3的输入图像，当与输入图像相应的问题文本是“房子的前面是什么？”时，依据上述图像处理方法得到的答案文本是“小溪”；当与输入图像相应的问题文本是“小溪旁边有什么？”时，依据上述图像处理方法得到的答案文本是“狗”。

上述实施例中，提取与输入图像相应的问题文本的文本特征，并按照文本特征，对图像特征进行注意力分配处理，得到注意力权值，根据图像特征和注意力权值确定加权图像特征。再依据加权图像特征进行分类处理，输出与问题文本对应的答案文本。这样，可根据问题文本相应的文本特征，对图像特征进行注意力分配处理，以得到加权图像特征，使得在图像处理过程中可以聚焦到与问题文本相关的图像特征上，再通过对加权图像特征进行分类处理可以大大提高答案文本的准确性，也就是大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

在一个实施例中，参考图6，图6示出了一个实施例中图像处理方法的流程示意图。如图6所示，计算机设备可将第一模型、第二模型和注意力模型相结合，构造一个Imagecaption***，用于处理输入图像，以得到输入图像的图像描述文本。其中Image caption***中的充当第一模型的结构是CNN模型结构，充当第二模型结构的是RNN模型结构。这样，可通过一个完整的Image caption***，对输入图像进行处理，输出与输入图像相应的图像理解文本。

如图6所示，可将输入图像(Image)输入至该Image caption***中，通过卷积神经网络模型(CNN网络结构)确定多个候选区域(Region Proposal)，再通过卷积神经网络模型(CNN网络结构)提取相应的候选区域的图像特征(Feature map)。通过卷积神经网络模型(CNN网络结构)确定与各候选区域相应的类别标签文本(Label)。通过注意力模型对类别标签文本和图像特征执行注意力分配处理，得到相应的综合特征。将综合特征输入至长短期记忆网络模型(LSTM网络结构)中，输出相应的图像描述文本(Image Caption)。

如图7所示，在一个具体的实施例中，图像处理方法包括：

S702，获取输入图像。

S704，通过第一模型确定输入图像中互不相同的多个候选区域。

S706，通过第一模型，分别提取各候选区域的图像特征。

S708，通过第一模型并根据图像特征，确定与输入图像相应的类别标签文本。

S710，确定与类别标签文本相应的编码数据。

S712，根据编码数据，对图像特征进行注意力分配处理，得到注意力权值。

S714，根据注意力权值和图像特征，计算得到综合特征。

S716，将各候选区域相应的综合特征拼接，获得拼接特征。

S718，获取与输入图像对应的图像预描述文本。

S720，将拼接特征和图像预描述文本的各个词向量依次输入至第二模型。

S722，通过第二模型处理依次输入的拼接特征和词向量，输出输入图像的图像描述文本。

图7为一个实施例中图像处理方法的流程示意图。应该理解的是，虽然图7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图8所示，在一个实施例中，提供了一种图像处理方法。本实施例主要以该方法应用于上述图1中的计算机设备，如终端110或服务器120来举例说明。参照图8，该图像处理方法具体包括如下步骤：

S802，获取输入图像、以及与输入图像相应的问题文本。

具体地，计算机设备可获取本地的图像、以及相应的文本作为输入图像和相应的问题文本，或者通过网络连接、USB接口连接等通信方式从其他计算机设备处获取输入图像、以及相应的问题文本。

在一个实施例中，终端可通过摄像头在摄像头当前的视野下采集图像，将采集的图像作为输入图像。在一个实施例中，终端可调用本地的声音采集装置采集语音数据。在本地对语音数据进行识别，或者将相应的语音数据发送至服务器，以对语音数据进行识别，得到相应的问题文本。

在一个实施例中，终端可展示图像展示界面，用户可在图像展示界面中进行选中操作，终端可将选中的图像作为输入图像。其中，图像展示界面中展示的图像可以是终端本地存储的图像，也可以是终端通过网络连接访问服务器以获得的图像。终端可在图像展示界面中展示的输入图像旁展示预设的问题文本。用户可在图像展示界面中进行选中操作，终端将用户选中的问题文本作为与输入图像相应的问题文本。

S804，提取输入图像的图像特征。

在一个实施例中，计算机设备可通过卷积神经网络，比如ResNet-80，提取输入图像的图像特征。将输入图像输入至卷积神经网络中，通过卷积神经网络的卷积层对输入图像进行卷积处理，提取输入图像的图像特征。也就是卷积神经网络可通过卷积层对输入图像进行卷积处理后，得到输入图像的feature map(特征图)，这里的feature map就是本实施例中的图像特征。

在一个实施例中，卷积神经网络是以图像库(ImageNet)中的图像和相应的类别标签作为训练数据，进行学习训练得到的。计算机设备在获取到输入图像后，将输入图像输入卷积神经网络，通过卷积神经网络的卷积层结构提取输入图像的图像特征。

S806，提取问题文本的文本特征。

S808，按照文本特征，对图像特征进行注意力分配处理，得到注意力权值。

具体地，计算机设备可以按照文本特征，对图像特征进行注意力分配处理，得到注意力权值。

在一个实施例中，计算机设备可将文本特征映射成第一标准特征，将图像特征映射成第二标准特征。其中第一标准特征和第二标准特征是在同一映射空间下的特征。将第一标准特征和第二标准特征相加，再进行非线性运算，最后进行softmax处理，得到注意力权值。

在一个实施例中，计算机设备可将文本特征映射成第一标准特征，将图像特征映射成第二标准特征。其中第一标准特征和第二标准特征是在同一映射空间下的特征。再对第一标准特征和第二特征进行点乘操作，得到中间特征。对中间特征依次进行池化处理(比如sum pooling处理)和回归处理(比如softmax处理)，得到注意力权值。

S810，根据图像特征和注意力权值确定加权图像特征。

S812，依据加权图像特征进行分类处理，获得问题文本对应的答案文本。

在一个实施例中，步骤S806，即提取问题文本的文本特征的步骤具体包括：

S902，获取与问题文本相应的字序列。

具体地，计算机设备可将问题文本进行拆分，得到相应的单个字组成的字序列。

S904，对问题文本进行分词处理，得到与问题文本相应的词序列。

具体地，计算机设备可采用分词方法对问题文本进行分词处理，得到由各词组成的词序列。计算机设备可采用基于词典的分词算法或者分词模型等对问题文本进行分词。其中，基于词典的分词算法具体可以是基于词典的正向最大匹配算法、逆向最大匹配算法、最少切分算法或者双向最大匹配算法等。分词模型具体可以是隐马尔可夫模型或CRF(conditional random field algorithm，条件随机场算法)模型等。

在一个实施例中，计算机设备对问题文本进行分词后，对分词得到的词去停用词后，得到词序列。其中，停用词(Stop Words)是指在信息检索中，为节省存储空间和提高检索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词，比如一些应用十分广泛的词、语气助词、客套词、介词或连接词等。

S906，分别提取字序列、词序列和问题文本整句的文本特征。

具体地，计算机设备可通过循环神经网络分别提取字序列、词序列和问题文本整句的文本特征。

上述实施例中，分别提取问题文本相应的字序列、词序列和问题文本整句的文本特征，可对问题文本按字级别，词级别和句子级别以进行多层次的特征提取，充分挖掘出问题文本的文本信息。

在一个实施例中，步骤S808，即按照文本特征，对图像特征进行注意力分配处理，得到注意力权值的步骤包括：分别根据字序列、词序列和问题文本整句的文本特征，对图像特征进行注意力分配处理，得到第一注意力权值、第二注意力权值和第三注意力权值。步骤S810，即根据图像特征和注意力权值确定加权图像特征的步骤包括：根据第一注意力权值、第二注意力权值和第三注意力权值，结合图像特征，确定加权图像特征。

具体地，计算机设备可分别根据字序列、词序列和问题文本整句的文本特征，对图像特征进行注意力分配处理，得到第一注意力权值、第二注意力权值和第三注意力权值。进而，根据第一注意力权值、第二注意力权值和第三注意力权值，结合图像特征，确定加权图像特征。

在一个实施例中，计算机设备可分别根据第一注意力权值、第二注意力权值和第三注意力权值对图像特征进行加权处理，获得相应的第一中间图像特征。将各第一中间图像特征融合，获得第二中间图像特征，并将第二图像特征直接作为加权图像特征。

在一个实施例中，计算机设备可对第一注意力权值、第二注意力权值和第三注意力权值进行融合，比如加权求和，得到综合注意力权值。根据综合注意力权值和图像特征，得到第二中间图像特征，并将第二中间图像特征直接作为加权图像特征。

在一个实施例中，计算机设备可别根据第一注意力权值、第二注意力权值和第三注意力权值对图像特征进行加权处理，获得相应的第一中间图像特征。将各第一中间图像特征融合，获得第二中间图像特征。按照问题文本整句的文本特征，对第二中间图像特征进行注意力分配处理，得到第四注意力权值。根据第二中间图像特征和第四注意力权值确定加权图像特征。

在一个实施例中，计算机设备将第一注意力权值、第二注意力权值和第三注意力权值分别与图像特征进行结合，得到相应的与问题文本的字级别、词级别和句子级别对应的第一中间图像特征。计算机设备可将词级别对应的第一中间图像特征与字级别对应的第一中间图像特征进行叠加，再与句子级别对应的第一中间图像特征进行叠加，得到第二中间图像特征。

在一个实施例中，计算机设备可按照问题文本整句的文本特征，对第二中间图像特征再进行注意力分配处理，得到第四注意力权值，根据第二中间图像特征和第四注意力权值确定加权图像特征。上述实施例中，通过问题文本的多层次分别与图像特征进行注意力分配处理后，得到第二中间图像特征。再根据问题文本整句的文本特征，对第二中间图像特征做注意力分配处理，以得到加权图像特征，使得加权图像特征的重点更贴近问题文本的内容，进而可以提高后续对加权图像特征进行分类处理得到的答案文本的准确性。

上述实施例中，分别根据与问题文本对应的字序列、词序列和问题文本整句的文本特征，对图像特征进行注意力分配处理，得到第一注意力权值、第二注意力权值和第三注意力权值，再根据第一注意力权值、第二注意力权值和第三注意力权值，结合图像特征，确定加权图像特征。这样，可以充分挖掘出问题文本的文本信息，使得加权图像特征的重点更贴近问题文本的内容，进而可以提高后续对加权图像特征进行分类处理得到的答案文本的准确性。

在一个实施例中，参考图10，图10示出了一个实施例中图像处理方法的流程图。如图10所示，计算机设备可通过卷积神经网络，提取输入图像的图像特征。通过循环神经网络，提取问题文本的文本特征。将加权图像特征输入至机器学习分类器进行分类处理，得到与问题文本对应的答案文本。在本实施例中，计算机设备可将卷积神经网络、循环神经网络和机器学习分类器相结合，构造一个视觉问答(visual question answering)***。

如图10所示，可将输入图像(image)输入至该视觉问答***中，通过卷积神经网络模型(CNN网络结构)提取输入图像的图像特征(feature map)。将问题文本输入至该视觉问答***中，通过长短期记忆网络模型(LSTM网络结构)提取问题文本的文本特征(questionfeature)。对图像特征和文本特征做注意力分配处理(Attention处理)，再做回归处理(softmax处理)，得到注意力权值(Attention value)。根据注意力权值和图像特征，得到第二中间图像特征(Attention map)。将第二中间图像特征(Attention map)和问题文本整句做注意力分配处理(Attention)，得到加权图像特征。将加权图像特征输入至机器学习分类器中进行分类(Classification)处理，得到与问题文本对应的答案文本(Answer)。

在一个实施例中，计算机设备还可采用co-attention(协调-注意力分配处理)的方式对图像特征和文本特征进行注意力分配处理。co-attention处理方式主要是指根据文本特征对图像特征进行注意力分配处理，根据图像特征对文本特征进行注意力分配处理，再将两者处理的结果相结合，在此就不再赘述。

如图11所示，在一个具体地实施例中，图像处理方法包括以下步骤：

S1102，获取输入图像、以及与输入图像相应的问题文本。

S1104，通过卷积神经网络，提取输入图像的图像特征。

S1106，获取与问题文本相应的字序列。

S1108，对问题文本进行分词处理，得到与问题文本相应的词序列。

S1110，通过循环神经网络，分别提取字序列、词序列和问题文本整句的文本特征。

S1112，分别根据字序列、词序列和问题文本整句的文本特征，对图像特征进行注意力分配处理，得到第一注意力权值、第二注意力权值和第三注意力权值。

S1114，分别根据第一注意力权值、第二注意力权值和第三注意力权值对图像特征进行加权处理，获得相应的第一中间图像特征。

S1116，将各第一中间图像特征融合，获得第二中间图像特征。

S1118，按照问题文本整句的文本特征，对第二中间图像特征进行注意力分配处理，得到第四注意力权值。

S1120，根据第二中间图像特征和第四注意力权值确定加权图像特征。

S1122，将加权图像特征输入至机器学习分类器进行分类处理，得到与问题文本对应的答案文本。

上述图像处理方法，提取输入图像的图像特征，提取与输入图像相应的问题文本的文本特征，并按照文本特征，对图像特征进行注意力分配处理，得到注意力权值，根据图像特征和注意力权值确定加权图像特征。再依据加权图像特征进行分类处理，输出与问题文本对应的答案文本。这样，可根据问题文本相应的文本特征，对图像特征进行注意力分配处理，以得到加权图像特征，使得在图像处理过程中可以聚焦到与问题文本相关的图像特征上，再通过对加权图像特征进行分类处理可以大大提高答案文本的准确性，也就是大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

图11为一个实施例中图像处理方法的流程示意图。应该理解的是，虽然图11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图11中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在具体应用场景中，用户可将一张新的图像输入至上述图像处理***中，图像处理***执行上述图像处理方法，给出对于该图像的理解。比如，图像处理***可以输出该图像的图像描述文本。或者，对于给定的图像，用户可以提出若干个问题，图像处理***执行上述图像处理方法，可以输出相应的答案文本。特别是在教育领域，上述图像处理方法可以帮助使用者有效快速的理解图中的语义信息，而且可以和使用者发生问答互动，特别是对于幼儿、老年人、视觉功能障碍者或者语言理解障碍者等具有很大的帮助。

如图12所示，在一个实施例中，提供了一种图像处理装置1200，包括：获取模块1201、提取模块1202、确定模块1203、融合模块1204和输出模块1205。

获取模块1201，用于获取输入图像。

提取模块1202，用于通过第一模型提取输入图像的图像特征。

确定模块1203，用于通过第一模型并根据图像特征，确定与输入图像相应的类别标签文本。

融合模块1204，用于将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征。

输出模块1205，用于通过第二模型处理综合特征，输出输入图像的图像描述文本。

在一个实施例中，提取模块1202还用于通过第一模型确定输入图像中互不相同的多个候选区域；通过第一模型，分别提取各候选区域的图像特征。

在一个实施例中，输出模块1205还用于将各候选区域相应的综合特征拼接，获得拼接特征；通过第二模型处理拼接特征，输出输入图像的图像描述文本。

在一个实施例中，融合模块1204还用于确定与类别标签文本相应的编码数据；根据编码数据，对图像特征进行注意力分配处理，得到注意力权值；根据注意力权值和图像特征，计算得到综合特征。

在一个实施例中，提取模块1202还用于通过第一模型提取输入图像中的文本内容。融合模块1204还用于将图像特征、与图像特征相应的文本内容、以及与图像特征相应的类别标签文本进行跨模态融合，得到综合特征。

在一个实施例中，输出模块1205还用于获取与输入图像对应的图像预描述文本；将综合特征和图像预描述文本的各个词向量依次输入至第二模型；通过第二模型处理依次输入的综合特征和词向量，输出输入图像的图像描述文本。

如图13所示，在一个实施例中，图像处理装置1200还包括注意力分配处理模块1206。

获取模块1201还用于获取输入图像相应的问题文本。

提取模块1202还用于提取问题文本的文本特征。

注意力分配处理模块1206，用于按照文本特征，对图像特征进行注意力分配处理，得到注意力权值。

确定模块1203还用于根据图像特征和注意力权值确定加权图像特征。

输出模块1205还用于依据加权图像特征进行分类处理，获得问题文本对应的答案文本。

上述图像处理装置，通过第一模型提取输入图像的图像特征，并确定与输入图像相应的类别标签文本，可以快速准确地获得输入图像的图像特征和相应的类别标签文本。将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征，再通过第二模型处理综合特征，得到图像描述文本。这样，可以使得第二模型在处理过程中既能充分利用输入图像本身的图像特征，又能结合输入图像所属的类别信息。这样细致且充分地利用了输入图像的特征，在对图像进行理解时，得到了图像特征和类别标签文本的双重指导，大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

如图14所示，在一个实施例中，提供了一种图像处理装置1400，包括：获取模块1401、提取模块1402、注意力分配处理模块1403、确定模块1404和分类模块1405。

获取模块1401，用于获取输入图像、以及与输入图像相应的问题文本。

提取模块1402，用于提取输入图像的图像特征。

提取模块1402还用于提取问题文本的文本特征。

注意力分配处理模块1403，用于按照文本特征，对图像特征进行注意力分配处理，得到注意力权值。

确定模块1404，用于根据图像特征和注意力权值确定加权图像特征。

分类模块1405，用于依据加权图像特征进行分类处理，获得问题文本对应的答案文本。

在一个实施例中，提取模块1402还用于获取与问题文本相应的字序列；对问题文本进行分词处理，得到与问题文本相应的词序列；分别提取字序列、词序列和问题文本整句的文本特征。

在一个实施例中，注意力分配处理模块1403还用于分别根据字序列、词序列和问题文本整句的文本特征，对图像特征进行注意力分配处理，得到第一注意力权值、第二注意力权值和第三注意力权值。确定模块1404还用于根据第一注意力权值、第二注意力权值和第三注意力权值，结合图像特征，确定加权图像特征。

在一个实施例中，确定模块1404还用于分别根据第一注意力权值、第二注意力权值和第三注意力权值对图像特征进行加权处理，获得相应的第一中间图像特征；将各第一中间图像特征融合，获得第二中间图像特征；按照问题文本整句的文本特征，对第二中间图像特征进行注意力分配处理，得到第四注意力权值；根据第二中间图像特征和第四注意力权值确定加权图像特征。

在一个实施例中，注意力分配处理模块1403还用于将文本特征映射成第一标准特征；将图像特征映射成第二标准特征；对第一标准特征和第二标准特征进行点乘运算，得到中间特征；对中间特征依次进行池化处理和回归处理，得到注意力权值。

在一个实施例中，提取模块1402还用于通过卷积神经网络，提取输入图像的图像特征。通过循环神经网络，提取问题文本的文本特征。分类模块1405还用于将加权图像特征输入至机器学习分类器进行分类处理，得到与问题文本对应的答案文本。

上述图像处理装置，提取输入图像的图像特征，提取与输入图像相应的问题文本的文本特征，并按照文本特征，对图像特征进行注意力分配处理，得到注意力权值，根据图像特征和注意力权值确定加权图像特征。再依据加权图像特征进行分类处理，输出与问题文本对应的答案文本。这样，可根据问题文本相应的文本特征，对图像特征进行注意力分配处理，以得到加权图像特征，使得在图像处理过程中可以聚焦到与问题文本相关的图像特征上，再通过对加权图像特征进行分类处理可以大大提高答案文本的准确性，也就是大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

图15示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图15所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现路线挖掘方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行路线挖掘方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图16示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图16所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器以及网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现路线挖掘方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行路线挖掘方法。

本领域技术人员可以理解，图15以及图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的图像处理装置可以实现为一种计算机程序的形式，计算机程序可在如图15或图16所示所示的计算机设备上运行。计算机设备的存储器中可存储组成该图像处理装置的各个程序模块，比如，图12所示的获取模块、提取模块、确定模块、融合模块和输出模块。还比如，图14所示的获取模块、提取模块、注意力分配处理模块、确定模块和分类模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的发型识别方法中的步骤。

例如，图15或图16所示的计算机设备可以通过如图12所示的图像处理装置中的获取模块执行步骤S202。计算机设备可通过提取模块执行步骤S204。计算机设备可通过确定模块执行步骤S206。计算机设备可通过融合模块执行步骤S208。计算机设备可通过输出模块执行步骤S210。

例如，图15或图16所示的计算机设备可以通过如图14所示的图像处理装置中的获取模块执行步骤S802。计算机设备可通过提取模块执行步骤S804和S806。计算机设备可通过注意力分配处理模块执行步骤S808。计算机设备可通过确定模块执行步骤S210。计算机设备可通过分类模块执行步骤S812。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取输入图像；通过第一模型提取输入图像的图像特征；通过第一模型并根据图像特征，确定与输入图像相应的类别标签文本；将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征；通过第二模型处理综合特征，输出输入图像的图像描述文本。

在一个实施例中，计算机程序使得处理器在执行通过第一模型提取输入图像的图像特征的步骤时具体执行以下步骤：通过第一模型确定输入图像中互不相同的多个候选区域；通过第一模型，分别提取各候选区域的图像特征。

在一个实施例中，计算机程序使得处理器在执行通过第二模型处理综合特征，输出输入图像的图像描述文本的步骤时具体执行以下步骤：将各候选区域相应的综合特征拼接，获得拼接特征；通过第二模型处理拼接特征，输出输入图像的图像描述文本。

在一个实施例中，计算机程序使得处理器在执行将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征的步骤时具体执行以下步骤：确定与类别标签文本相应的编码数据；根据编码数据，对图像特征进行注意力分配处理，得到注意力权值；根据注意力权值和图像特征，计算得到综合特征。

在一个实施例中，计算机程序使得处理器还执行以下步骤：通过第一模型提取输入图像中的文本内容；计算机程序使得处理器在执行将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征的步骤时具体执行以下步骤：将图像特征、与图像特征相应的文本内容、以及与图像特征相应的类别标签文本进行跨模态融合，得到综合特征。

在一个实施例中，计算机程序使得处理器在执行通过第二模型处理综合特征，输出输入图像的图像描述文本的步骤时具体执行以下步骤：获取与输入图像对应的图像预描述文本；将综合特征和图像预描述文本的各个词向量依次输入至第二模型；通过第二模型处理依次输入的综合特征和词向量，输出输入图像的图像描述文本。

在一个实施例中，计算机程序使得处理器还执行以下步骤：获取输入图像相应的问题文本；提取问题文本的文本特征；按照文本特征，对图像特征进行注意力分配处理，得到注意力权值；根据图像特征和注意力权值确定加权图像特征；依据加权图像特征进行分类处理，获得问题文本对应的答案文本。

上述计算机设备，通过第一模型提取输入图像的图像特征，并确定与输入图像相应的类别标签文本，可以快速准确地获得输入图像的图像特征和相应的类别标签文本。将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征，再通过第二模型处理综合特征，得到图像描述文本。这样，可以使得第二模型在处理过程中既能充分利用输入图像本身的图像特征，又能结合输入图像所属的类别信息。这样细致且充分地利用了输入图像的特征，在对图像进行理解时，得到了图像特征和类别标签文本的双重指导，大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取输入图像、以及与输入图像相应的问题文本；提取输入图像的图像特征；提取问题文本的文本特征；按照文本特征，对图像特征进行注意力分配处理，得到注意力权值；根据图像特征和注意力权值确定加权图像特征；依据加权图像特征进行分类处理，获得问题文本对应的答案文本。

在一个实施例中，计算机程序使得处理器在执行提取问题文本的文本特征的步骤时具体执行以下步骤：获取与问题文本相应的字序列；对问题文本进行分词处理，得到与问题文本相应的词序列；分别提取字序列、词序列和问题文本整句的文本特征。

在一个实施例中，计算机程序使得处理器在执行按照文本特征，对图像特征进行注意力分配处理，得到注意力权值的步骤时具体执行以下步骤：分别根据字序列、词序列和问题文本整句的文本特征，对图像特征进行注意力分配处理，得到第一注意力权值、第二注意力权值和第三注意力权值；计算机程序使得处理器在执行根据图像特征和注意力权值确定加权图像特征的步骤时具体执行以下步骤：根据第一注意力权值、第二注意力权值和第三注意力权值，结合图像特征，确定加权图像特征。

在一个实施例中，计算机程序使得处理器在执行根据第一注意力权值、第二注意力权值和第三注意力权值，结合图像特征，确定加权图像特征的步骤时具体执行以下步骤：分别根据第一注意力权值、第二注意力权值和第三注意力权值对图像特征进行加权处理，获得相应的第一中间图像特征；将各第一中间图像特征融合，获得第二中间图像特征；按照问题文本整句的文本特征，对第二中间图像特征进行注意力分配处理，得到第四注意力权值；根据第二中间图像特征和第四注意力权值确定加权图像特征。

在一个实施例中，计算机程序使得处理器在执行按照文本特征，对图像特征进行注意力分配处理，得到注意力权值的步骤时具体执行以下步骤：将文本特征映射成第一标准特征；将图像特征映射成第二标准特征；对第一标准特征和第二标准特征进行点乘运算，得到中间特征；对中间特征依次进行池化处理和回归处理，得到注意力权值。

在一个实施例中，计算机程序使得处理器在执行提取输入图像的图像特征的步骤时具体执行以下步骤：通过卷积神经网络，提取输入图像的图像特征；计算机程序使得处理器在执行提取问题文本的文本特征的步骤时具体执行以下步骤：通过循环神经网络，提取问题文本的文本特征；计算机程序使得处理器在执行依据加权图像特征进行分类处理，获得问题文本对应的答案文本的步骤时具体执行以下步骤：将加权图像特征输入至机器学习分类器进行分类处理，得到与问题文本对应的答案文本。

上述计算机设备，提取输入图像的图像特征，提取与输入图像相应的问题文本的文本特征，并按照文本特征，对图像特征进行注意力分配处理，得到注意力权值，根据图像特征和注意力权值确定加权图像特征。再依据加权图像特征进行分类处理，输出与问题文本对应的答案文本。这样，可根据问题文本相应的文本特征，对图像特征进行注意力分配处理，以得到加权图像特征，使得在图像处理过程中可以聚焦到与问题文本相关的图像特征上，再通过对加权图像特征进行分类处理可以大大提高答案文本的准确性，也就是大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取输入图像；通过第一模型提取输入图像的图像特征；通过第一模型并根据图像特征，确定与输入图像相应的类别标签文本；将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征；通过第二模型处理综合特征，输出输入图像的图像描述文本。

上述计算机可读存储介质，通过第一模型提取输入图像的图像特征，并确定与输入图像相应的类别标签文本，可以快速准确地获得输入图像的图像特征和相应的类别标签文本。将图像特征和相应的类别标签文本进行跨模态融合，得到综合特征，再通过第二模型处理综合特征，得到图像描述文本。这样，可以使得第二模型在处理过程中既能充分利用输入图像本身的图像特征，又能结合输入图像所属的类别信息。这样细致且充分地利用了输入图像的特征，在对图像进行理解时，得到了图像特征和类别标签文本的双重指导，大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：获取输入图像、以及与输入图像相应的问题文本；提取输入图像的图像特征；提取问题文本的文本特征；按照文本特征，对图像特征进行注意力分配处理，得到注意力权值；根据图像特征和注意力权值确定加权图像特征；依据加权图像特征进行分类处理，获得问题文本对应的答案文本。

上述计算机可读存储介质，提取输入图像的图像特征，提取与输入图像相应的问题文本的文本特征，并按照文本特征，对图像特征进行注意力分配处理，得到注意力权值，根据图像特征和注意力权值确定加权图像特征。再依据加权图像特征进行分类处理，输出与问题文本对应的答案文本。这样，可根据问题文本相应的文本特征，对图像特征进行注意力分配处理，以得到加权图像特征，使得在图像处理过程中可以聚焦到与问题文本相关的图像特征上，再通过对加权图像特征进行分类处理可以大大提高答案文本的准确性，也就是大大提高了图像理解信息的准确性，提高了计算机设备对图像的理解能力。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像处理方法，包括：

获取输入图像；

通过第一模型提取所述输入图像的图像特征；

2.根据权利要求1所述的方法，其特征在于，所述通过第一模型提取所述输入图像的图像特征包括：

通过第一模型确定所述输入图像中互不相同的多个候选区域；

通过所述第一模型，分别提取各候选区域的图像特征。

3.根据权利要求2所述的方法，其特征在于，所述通过第二模型处理所述综合特征，输出所述输入图像的图像描述文本包括：

将各候选区域相应的综合特征拼接，获得拼接特征；

通过第二模型处理所述拼接特征，输出所述输入图像的图像描述文本。

4.根据权利要求1所述的方法，其特征在于，所述将所述图像特征和相应的类别标签文本进行跨模态融合，得到综合特征包括：

确定与所述类别标签文本相应的编码数据；

根据所述编码数据，对所述图像特征进行注意力分配处理，得到注意力权值；

根据所述注意力权值和所述图像特征，计算得到综合特征。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过所述第一模型提取所述输入图像中的文本内容；

所述将所述图像特征和相应的类别标签文本进行跨模态融合，得到综合特征包括：

将所述图像特征、与所述图像特征相应的文本内容、以及与所述图像特征相应的类别标签文本进行跨模态融合，得到综合特征。

6.根据权利要求1所述的方法，其特征在于，所述通过第二模型处理所述综合特征，输出所述输入图像的图像描述文本包括：

获取与所述输入图像对应的图像预描述文本；

将所述综合特征和所述图像预描述文本的各个词向量依次输入至第二模型；

通过所述第二模型处理依次输入的综合特征和词向量，输出所述输入图像的图像描述文本。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

获取所述输入图像相应的问题文本；

提取所述问题文本的文本特征；

根据所述图像特征和所述注意力权值确定加权图像特征；

8.一种图像处理方法，包括：

获取输入图像、以及与所述输入图像相应的问题文本；

提取所述输入图像的图像特征；

提取所述问题文本的文本特征；

根据所述图像特征和所述注意力权值确定加权图像特征；

9.根据权利要求8所述的方法，其特征在于，所述提取所述问题文本的文本特征包括：

获取与所述问题文本相应的字序列；

对所述问题文本进行分词处理，得到与所述问题文本相应的词序列；

分别提取所述字序列、所述词序列和所述问题文本整句的文本特征。

10.根据权利要求9所述的方法，其特征在于，所述按照所述文本特征，对所述图像特征进行注意力分配处理，得到注意力权值包括：

分别根据所述字序列、所述词序列和所述问题文本整句的文本特征，对所述图像特征进行注意力分配处理，得到第一注意力权值、第二注意力权值和第三注意力权值；

所述根据所述图像特征和所述注意力权值确定加权图像特征包括：

根据所述第一注意力权值、所述第二注意力权值和所述第三注意力权值，结合所述图像特征，确定加权图像特征。

11.根据权利要求10所述的方法，其特征在于，所述根据所述第一注意力权值、所述第二注意力权值和所述第三注意力权值，结合所述图像特征，确定加权图像特征包括：

分别根据所述第一注意力权值、所述第二注意力权值和所述第三注意力权值对所述图像特征进行加权处理，获得相应的第一中间图像特征；

将各所述第一中间图像特征融合，获得第二中间图像特征；

按照所述问题文本整句的文本特征，对所述第二中间图像特征进行注意力分配处理，得到第四注意力权值；

根据所述第二中间图像特征和所述第四注意力权值确定加权图像特征。

12.根据权利要求8所述的方法，其特征在于，所述按照所述文本特征，对所述图像特征进行注意力分配处理，得到注意力权值包括：

将所述文本特征映射成第一标准特征；

将所述图像特征映射成第二标准特征；

对所述第一标准特征和所述第二标准特征进行点乘运算，得到中间特征；

对所述中间特征依次进行池化处理和回归处理，得到注意力权值。

13.根据权利要求8至12中任一项所述的方法，其特征在于，所述提取所述输入图像的图像特征包括：

通过卷积神经网络，提取所述输入图像的图像特征；

所述提取所述问题文本的文本特征包括：

通过循环神经网络，提取所述问题文本的文本特征；

所述依据所述加权图像特征进行分类处理，获得所述问题文本对应的答案文本包括：

将所述加权图像特征输入至机器学习分类器进行分类处理，得到与所述问题文本对应的答案文本。

14.一种图像处理装置，所述装置包括：

获取模块，用于获取输入图像；

15.一种图像处理装置，包括：

提取模块，用于提取所述输入图像的图像特征；

所述提取模块还用于提取所述问题文本的文本特征；

注意力分配处理模块，用于按照所述文本特征，对所述图像特征进行注意力分配处理，得到注意力权值；

16.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。