CN109858555B

CN109858555B - 基于图像的数据处理方法、装置、设备及可读存储介质

Info

Publication number: CN109858555B
Application number: CN201910111412.5A
Authority: CN
Inventors: 黄剑辉; 黄苹苹; 乔敏; 李盈
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2022-05-17
Anticipated expiration: 2039-02-12
Also published as: EP3696729A1; JP2020135852A; JP6893233B2; KR102266529B1; KR20200098379A; US11151406B2; CN109858555A; US20200257922A1

Abstract

本发明实施例公开了一种基于图像的数据处理方法、装置、设备及可读存储介质。其中，方法包括：获取图像和待处理的文本；提取图像中多个对象的特征，以及提取所述文本的特征；根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征；根据所述图像的融合特征和文本的特征，对所述文本进行处理。本发明实施例能够精确学习文本与图像中各对象的关联关系，提高处理准确率。

Description

基于图像的数据处理方法、装置、设备及可读存储介质

技术领域

本发明实施例涉及计算机视觉技术，尤其涉及一种基于图像的数据处理方法、装置、设备及可读存储介质。

背景技术

随着计算机视觉技术的发展，出现了视觉问答等基于图像的数据处理方法。视觉问答(Visual Question Answer，VQA)是多模态数据挖掘的前沿应用之一，旨在对视觉图像的自然语言问答，作为视觉理解(Visual Understanding)的一个研究方向，连接着视觉和语言，VQA需要在理解图像的基础上，根据具体的文本问题做出处理。

目前的基于图像的数据处理方法中，首先采用两套不同的底层表示***，分别提取出图像和文本的底层特征，并学习到图像和文本的高层特征，再通过关联学习模块对图像和文本的高层特征进行关联，进而对文本做出处理。

目前的基于图像的数据处理方法需要在图像特征和文本特征之上，学习文本与图像中各对象的关联关系，使得该关联关系的准确性不高，导致文本处理错误。

发明内容

本发明实施例提供一种基于图像的数据处理方法、装置、设备及可读存储介质，以精确学习文本与图像中各对象的关联关系，提高处理的准确率。

第一方面，本发明实施例提供了一种基于图像的数据处理方法，包括：

获取图像和待处理的文本；

提取图像中多个对象的特征，以及提取所述文本的特征；

根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征；

根据所述图像的融合特征和文本的特征，对所述文本进行处理。

第二方面，本发明实施例还提供了一种基于图像的数据处理装置，包括：

获取模块，用于获取图像和待处理的文本；

提取模块，用于提取图像中多个对象的特征，以及提取文本的特征；

融合模块，用于根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征；

处理模块，用于根据图像的融合特征和文本的特征，对所述文本进行处理。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一实施例所述的基于图像的数据处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的基于图像的数据处理方法。

本发明实施例中，通过获取图像和待处理的文本，提取图像中多个对象的特征，以及提取文本的特征，根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征，充分利用文本与对象特征具有关联性这一先验知识，并基于匹配度调整图像的特征，使得融合特征更加关注与文本具有强关联性的部分，避免注意力分布分散；通过与文本强关联的融合特征和文本的特征，能够提高对文本进行处理的准确率。

附图说明

图1a是本发明实施例一提供的一种基于图像的数据处理方法的流程图；

图1b是本发明实施例一提供的每个对象所在的边界框的示意图；

图1c是本发明实施例一提供的融合特征对应的图像的示意图；

图2a是本发明实施例二提供的一种基于图像的数据处理方法的流程图；

图2b是本发明实施例二提供的通过匹配模型进行匹配操作的流程示意图；

图2c是本发明实施例二提供的一种匹配模型训练的流程图；

图2d是本发明实施例二提供的采用匹配模型的基于图像的数据处理方法的流程图；

图3是本发明实施例三提供的一种基于图像的数据处理方法的流程图；

图4是本发明实施例四提供的一种基于图像的数据处理装置的结构示意图；

图5是本发明实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1a是本发明实施例一提供的一种基于图像的数据处理方法的流程图，本实施例可适用于通过对图像进行识别，对文本进行处理的情况，该方法可以由基于图像的数据处理装置来执行，该装置可以由硬件和/或软件构成，并一般集成在电子设备中，具体包括如下操作：

S110、获取图像和待处理的文本。

本实施例中，图像可以是照片、截图、视频帧等。待处理的文本为包括关于该图像的形式自由、开放式的自然语言文本。待处理的文本包括对文本的理解，例如真假判断、文本内容解释等；待处理的文本还包括自然语言问题，文本所提问题的类型包括但不限于细粒度识别(例如：这位女士是白种人吗？)、物体识别(例如：图中有几个香蕉？)、行为识别(例如：这位女士在哭吗？)和对问题所包含文本的理解。

S120、提取图像中多个对象的特征，以及提取文本的特征。

可选地，将图像输入至目标检测模型或者分类模型中，提取出图像中多个对象的特征，进一步地，还提取每个对象所在的边界框坐标。其中，目标检测模型或者分类模型可以是基于深度学习的目标检测模型或者分类模型，例如R-CNN、Fast R-CNN等。

可选地，预先设置需要提取的对象数量，例如36个、52个，目标检测模型提取预设数量个对象的特征，并提取每个对象所在的边界框坐标。图1b是本发明实施例一提供的每个对象所在的边界框的示意图。图1b示出了两个对象，分别是熊身和熊掌，熊身所在的边界框用粗实线表示，熊掌所在的边界框用细实线表示。

可选地，通过词袋模型(bag of words model)或者循环神经网络(RecurrentNeural Network，RNN)提取文本的特征。

S130、根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征。

按照注意力机制(Attention Mechanism)，人们在观察图像的时候，其实并不是一次就把整幅图像的每个位置像素都看过，大多是根据需求将注意力集中到图像的特定部分，例如人物的面部。而且人类会根据之前观察的图像学习到未来要观察图像注意力应该集中的位置。类似地，对于文本来说，文本对图像中每个对象的注意力也不同，例如“你能看到熊掌吗？”的注意力应重点在图1b中的熊掌；又例如，“熊是什么表情”的注意力应重点在图1b中的熊头。

基于上述分析，根据文本施加注意力较多的对象的特征，有利于更准确地对文本进行处理。本实施例中，采用文本与每个对象的特征的匹配度来表示文本对每个对象的注意力。基于此，根据文本与每个对象的特征的匹配度，对每个对象的特征进行调整。例如，对匹配度大的对象的特征进行强化，对匹配度小的对象的特征进行弱化；然后，将调整后每个对象的特征融合为图像的新特征。为了方便描述与区分，将融合后图像的新特征称为图像的融合特征。图1c是本发明实施例一提供的融合特征对应的图像的示意图。例如，待处理的文本为“你能看到熊掌吗？”，文本与熊掌对象的特征的匹配度为90％，熊腿的特征的匹配度为50％，与其它对象(如树干对象、草丛对象)的特征匹配度为10％。然后，采用匹配度调整对应对象的特征，融合得到图像的融合特征。可选地，保留或者强化匹配度大于等于匹配度阈值的对象的特征，删除或者弱化匹配度小于匹配度阈值的对象的特征，再将保留的特征融合得到图像的融合特征。从图1c中可以看出熊掌的特征进行了强化，熊腿的特征无变化，其它对象的特征进行了弱化。

在根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征之前，还包括文本与每个对象的特征的匹配度的计算操作。可选地，提取图像中多个对象的特征以及获取每个对象的类别，例如熊掌、熊腿、树干、草丛等。在文本中查找每个对象的类别，根据查找结果确定文本与每个对象的特征的匹配度。例如，在“你能看到熊掌吗？”中查找到“熊掌”和“熊腿”中的“熊”，未查找到“树干”和“草丛”。因此，确定文本与熊掌对象的特征的匹配度大，与熊腿对象的特征的匹配度适中，与树干和草丛对象的特征的匹配度小。

S140、根据图像的融合特征和文本的特征，对文本进行处理。

可选地，对文本的处理操作包括但不限于对文本的理解，例如真假判断、文本内容解释等；以及对文本的回答。

可选地，将图像的融合特征和文本的特征输入至视觉问答(Visual QuestionAnswer，VQA)***中，得到VQA***输出的回答。本实施例提供的VQA***包括以下几种模型组合，例如Deeper LSTM Q+norm I模型、VIS+LSTM模型、2-VIS+BLSTM、IMG+BOW等。

实施例二

本实施例在上述实施例各可选实施方式的基础上，进一步优化。可选地，在“根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征”之前，追加操作“依次将每个对象对应的边界框内的图像和文本输入至匹配模型中，得到匹配模型输出的每个对象的特征分别与文本中每个词的特征的匹配度；根据每个对象的特征分别与文本中每个词的特征的匹配度，得到文本与每个对象的特征的匹配度”。图2a是本发明实施例二提供的一种基于图像的数据处理方法的流程图，本实施例提供的方法包括以下操作：

S210、获取图像和待处理的文本。

S220、提取图像中多个对象的特征，以及提取文本的特征。

S230、依次将每个对象对应的边界框内的图像和文本输入至匹配模型中，得到匹配模型输出的每个对象的特征分别与文本中每个词的特征的匹配度。

根据上述实施例的相关描述，依次将每个图像输入至目标检测模型或者分类模型中，提取出图像中多个对象的特征，以及每个对象所在的边界框坐标。本实施例中，根据每个对象所在的边界框坐标从图像中截取每个对象对应的边界框内的图像。然后，依次将每个对象对应的边界框内的图像输入至匹配模型中。在输入第一个图像时，还应输入文本，文本输入一次即可，后续输入图像时可不再输入文本。当然，也可以在每次输入图像时，均输入文本。

图2b是本发明实施例二提供的通过匹配模型进行匹配操作的流程示意图。结合图2b，匹配模型包括：图像特征提取步骤、文本特征提取步骤、图像特征维度变换步骤、文本特征维度变换步骤以及匹配步骤。

其中，图像特征提取步骤，用于从每个对象对应的边界框内的图像中提取每个对象的特征；图像特征维度变换步骤，用于将每个对象的特征维度变换为预设维度；文本特征提取步骤，用于提取文本中每个词的特征；文本特征维度变换步骤，用于将文本中每个词的特征维度变换为预设维度；匹配步骤，用于计算维度变化后，每个对象的特征分别与每个词的特征的匹配度。

一般情况下，图像比文本包含的信息较多，经过特征提取后，每个对象的特征维度与文本中每个词的特征维度不同，在一示例中，每个对象的特征维度是1024，每个词的特征维度是300，要想计算每个对象的特征与每个词的特征的匹配度，需要将二者的特征维度变换为预设维度，具体地，对提取出的特征进行矩阵变换，得到共同维度的特征，例如600维的特征。

接着，匹配步骤处，计算维度变换后，每个对象的特征与每个词的特征的匹配度。可选地，匹配步骤，具体用于：计算维度变换后，每个对象的特征分别与文本中每个词的特征的距离、余弦相似度，或距离和余弦相似度，得到每个对象的特征与文本中每个词的特征的匹配度。可选地，距离包括欧式距离、马氏距离等。对于计算距离和余弦相似度得到匹配度的情况，可以选取每个对象的特征分别与文本中每个词的特征的距离和余弦相似度中的较大值、较小值或者平均值，得到每个对象的特征与文本中每个词的特征的匹配度。

在一可选实施方式中，在依次将每个对象对应的边界框内的图像和文本输入至匹配模型中之前，还包括匹配模型的训练操作，图2c是本发明实施例二提供的一种匹配模型训练的流程图，训练过程大致包括以下三步：

第一步：获取用于训练匹配模型的正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和正样本对象的标签。其中，正样本对象的标签(Label)为正样本对象的类别。

VG数据集中每张图像的标注信息包括图像中每个对象、关系和属性，以及对象和属性在图像中的边界框坐标，其中，对象和对应边界框内的图像存在强关联性。

本实施例中，利用现有的VG(Visual Genome)数据集获取上述图像和标签。具体地，预设正样本对象为S，对应的标签也为S，负样本对象为非S。在VG数据集上，根据正样本对象S在图像中的边界框坐标，截取正样本对象对应的边界框内的图像，根据负样本对象非S在图像中的边界框坐标，截取负样本对象对应的边界框内的图像。在图2c中，正样本对象为熊掌，负样本对象为熊身，对应的边界框内的图像用实线框出，正样本对象的标签为熊掌。

第二步：将正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和标签输入至匹配模型中，得到正样本对象的特征与标签特征的第一匹配度，以及负样本对象的特征与标签特征的第二匹配度。

匹配模型中的图像特征提取步骤从正样本对象对应的边界框内的图像中提取正样本对象的特征，从负样本对象对应的边界框内的图像中提取负样本对象的特征；文本特征提取步骤提取标签的特征。然后，图像特征维度变换步骤将正样本对象的特征维度和负样本对象的特征维度均变换为预设维度，文本特征维度变换步骤将标签的特征维度变换为预设维度。匹配步骤计算维度变换后，正样本对象的特征与标签的特征的第一匹配度，以及负样本对象的特征与标签的特征的第二匹配度。第一匹配度是正样本对象的特征与标签的特征的距离和/或余弦相似度，第二匹配度是负样本对象的特征与标签的特征的距离和/或余弦相似度。

第三步：以最大化第一匹配度并最小化第二匹配度为目标，或者以第一匹配度与第二匹配度的差值大于预设阈值为目标，训练匹配模型。

根据最大化第一匹配度并最小化第二匹配度构建目标函数，或者根据第一匹配度与第二匹配度的差值大于预设阈值构建目标函数，再根据目标函数，迭代匹配模型中的参数。可选地，可以迭代匹配模型中全部或者部分步骤的参数，例如，图像特征提取步骤、文本特征提取步骤、图像特征维度变换步骤和文本特征维度变换步骤中的参数采用经验值，不进行迭代，仅迭代匹配步骤中的参数。

S240、根据每个对象的特征分别与文本中每个词的特征的匹配度，得到文本与每个对象的特征的匹配度。

可选地，在每个对象的特征分别与文本中每个词的特征的匹配度中，计算与每个对象的特征对应的最大匹配度或者平均匹配度，作为文本与每个对象的特征的匹配度。例如，熊掌的特征与文本“你能看到熊掌吗？”中“你”、“能”、“看到”、“熊掌”、“吗”的特征的匹配度分别为10％、10％、10％、90％、10％，则文本与熊掌的特征的匹配度为：最大匹配度90％，或者平均匹配度26％。又例如，草丛的特征与文本“你能看到熊掌吗？”中“你”、“能”、“看到”、“熊掌”、“吗”的特征的匹配度分别为15％、10％、10％、10％、10％，则文本与草丛的特征的匹配度为：最大匹配度15％，或者平均匹配度11％。

S250、根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征。

S260、根据图像的融合特征和文本的特征，对文本进行处理。

图2d是本发明实施例二提供的采用匹配模型的基于图像的数据处理方法的流程图，基于图像的数据处理装置的输入为文本“你能看到熊掌吗？”，图1b示出的图像。基于图像的数据处理装置一方面提取文本的特征，一方面通过匹配模型得到匹配度，进而根据匹配度将多个对象的特征融合为图像的融合特征，然后对文本的特征和融合特征进行融合再分类，对文本进行处理。

本实施例中，通过依次将每个对象对应的边界框内的图像和文本输入至匹配模型中，得到匹配模型输出的每个对象的特征分别与文本中每个词的特征的匹配度，从而基于预先训练的匹配模型，直接得到对象的特征分别与每个词的特征的匹配度，而且，从图像的角度，体现了局部特征与文本中哪些词是对应的；从文本的角度，可以得到词对应了图像中哪些局部信息。对象与文本的匹配度细化到对象与每个词的匹配度，预先学习到图像的局部特征与词之间细粒度、精准地关联。

进一步地，通过根据每个对象的特征分别与文本中每个词的特征的匹配度，得到文本与每个对象的特征的匹配度，从而针对与每个词的匹配度，综合得到文本与对象的匹配度，提高了匹配度的准确性，进而提高文本处理的准确性。

进一步地，本实施例采用正负样本对匹配模型进行训练，减小了匹配的正样本对象与标签的距离，同时，增大了不匹配的负样本对象与标签的距离，能够有效提高模型训练的准确性；而且，用于预训练匹配模型的样本仅包括边界框内的图像和标签，相比于包括图像、问句和回答的VQA数据来说，样本获取渠道广泛，进而应用场景广泛、文本易于扩充。本实施例提供的采用匹配模型的基于图像的数据处理方法是一种普适性、应用场景广泛、应用成本低且文本易于扩充的多模态学习方法，在原任务的计算***流程变化不大的情况下，可以将匹配模型应用到几乎所有的多模态任务上。

进一步地，本实施例充分利用对象的标签和对象、标签和文本之间的强相关性，有助于增强基于图像的数据处理装置对图像和文本之间的关联进行学习。

实施例三

图3是本发明实施例三提供的一种基于图像的数据处理方法的流程图。本发明实施例在上述各实施例的技术方案的基础上进行操作细化。可选地，将操作“根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征”细化为“根据文本与每个对象的特征的匹配度，对每个对象的特征进行加权求和，得到图像的融合特征”。如图3所示的一种基于图像的数据处理方法，包括：

S310、获取图像和待处理的文本。

S320、提取图像中多个对象的特征，以及提取文本的特征。

S330、根据文本与每个对象的特征的匹配度，对每个对象的特征进行加权求和，得到图像的融合特征。

可选地，文本与每个对象的特征的匹配度可以采用以下两种可选实施方式得到：

第一种可选实施方式：依次将每个对象对应的边界框内的图像和文本输入至匹配模型中，得到匹配模型输出的每个对象的特征分别与文本中每个词的特征的匹配度；根据每个对象的特征分别与文本中每个词的特征的匹配度，得到文本与每个对象的特征的匹配度。

第二种可选实施方式：获取每个对象的类别；在文本中查找每个对象的类别，并根据查找结果确定文本与每个对象的特征的匹配度。

上述两种可选实施方式的具体描述详见上述各实施例，此处不再赘述。

本操作中，将文本与每个对象的特征的匹配度，作为每个对象的特征的权值，采用权值对对应对象的特征进行加权求和，得到图像的融合特征。例如：文本“你能看到熊掌吗？”与熊掌的特征的匹配度为90％，与草丛的特征的匹配度为10％，与树干的特征的匹配度为10％，与熊腿的特征的匹配度为50％，则图像的融合特征为90％×熊掌的特征+10％×草丛的特征+10％×树干的特征+50％×熊腿的特征。

值得说明的是，为了保证对象的特征的准确和全面，在对多个对象的特征进行融合时，多个对象的特征采用维度变换之前的特征，即采用从每个对象对应的边界框内的图像中提取出的每个对象的特征。

S340、根据图像的融合特征和文本的特征，对文本进行处理。

相比于现有技术，本实施例将图像的融合特征替换掉图像的高层特征，显然，融合特征具备了图像的局部特征与文本之间的匹配度的先验知识，继而有利于提高文本处理的准确性。例如，由于文本中的“熊掌”与熊掌对象的特征得到了较高的匹配度，则基于图像的数据处理装置能够准确找到“熊掌”在图中对应的区域，进而分析得到正确答案是“是”。

实施例四

图4是本发明实施例四提供的一种基于图像的数据处理装置的结构示意图，本发明实施例适用于通过对图像进行识别，对文本进行处理的情况，结合图4,基于图像的数据处理装置包括：获取模块410、提取模块420、融合模块430和处理模块440。

获取模块410，用于获取图像和待处理的文本；

提取模块420，用于提取图像中多个对象的特征，以及提取文本的特征；

融合模块430，用于根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征；

处理模块440，用于根据融合模块430得到的图像的融合特征和提取模块420提取的文本的特征，对文本进行处理。

可选地，该装置还包括第一匹配度获得模块，用于在根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征之前，依次将每个对象对应的边界框内的图像和文本输入至匹配模型中，得到匹配模型输出的每个对象的特征分别与文本中每个词的特征的匹配度；根据每个对象的特征分别与文本中每个词的特征的匹配度，得到文本与每个对象的特征的匹配度。

可选地，匹配模型包括：图像特征提取步骤、文本特征提取步骤、图像特征维度变换步骤、文本特征维度变换步骤以及匹配步骤；其中，图像特征提取步骤，用于从每个对象对应的边界框内的图像中提取每个对象的特征；图像特征维度变换步骤，用于将每个对象的特征维度变换为预设维度；文本特征提取步骤，用于提取文本中每个词的特征；文本特征维度变换步骤，用于将文本中每个词的特征维度变换为预设维度；匹配步骤，用于计算维度变换后，每个对象的特征分别与每个词的特征的匹配度。

可选地，匹配步骤，具体用于：计算维度变换后，每个对象的特征分别与文本中每个词的特征的距离和/或余弦相似度，得到每个对象的特征与文本中每个词的特征的匹配度。

可选地，该装置还包括模型训练模块，用于在依次将每个对象对应的边界框内的图像和文本输入至匹配模型中之前，获取用于训练匹配模型的正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和正样本对象的标签；将正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和标签输入至匹配模型中，得到正样本对象的特征与标签特征的第一匹配度，以及负样本对象的特征与标签特征的第二匹配度；以最大化第一匹配度并最小化第二匹配度为目标，或者以第一匹配度与第二匹配度的差值大于预设阈值为目标，训练匹配模型。

可选地，第一匹配度获得模块在根据每个对象的特征分别与文本中每个词的特征的匹配度，得到文本与每个对象的特征的匹配度时，具体用于：在每个对象的特征分别与文本中每个词的特征的匹配度中，计算与每个对象的特征对应的最大匹配度或者平均匹配度，作为文本与每个对象的特征的匹配度。

可选地，该装置还包括第二匹配度获得模块，用于在根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征之前，获取每个对象的类别；在文本中查找每个对象的类别，并根据查找结果确定文本与每个对象的特征的匹配度。

可选地，融合模块430在根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征时，具体用于：根据文本与每个对象的特征的匹配度，对每个对象的特征进行加权求和，得到图像的融合特征。

本发明实施例所提供的基于图像的数据处理装置可执行本发明任意实施例所提供的基于图像的数据处理方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本发明实施例五提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图5显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

电子设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的基于图像的数据处理方法。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例的基于图像的数据处理方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于图像的数据处理方法，其特征在于，包括：

获取图像和待处理的文本；

提取图像中多个对象的特征，以及提取所述文本的特征；

根据文本与多个对象中每个对象的特征的匹配度，保留或者强化匹配度大于等于匹配度阈值的对象的特征，删除或者弱化匹配度小于匹配度阈值的对象的特征，再将保留的特征融合得到图像的融合特征；其中，文本与每个对象的特征的匹配度表示文本对每个对象的注意力；

根据所述图像的融合特征和文本的特征，对所述文本进行处理；

其中，所述文本与多个对象中每个对象的特征的匹配度的确定过程，包括：

依次将每个对象对应的边界框内的图像和文本输入至匹配模型中，得到匹配模型输出的每个对象的特征分别与文本中每个词的特征的匹配度；

根据每个对象的特征分别与文本中每个词的特征的匹配度，得到所述文本与每个对象的特征的匹配度。

2.根据权利要求1所述的方法，其特征在于，所述匹配模型包括：图像特征提取步骤、文本特征提取步骤、图像特征维度变换步骤、文本特征维度变换步骤以及匹配步骤；

其中，图像特征提取步骤，用于从每个对象对应的边界框内的图像中提取每个对象的特征；图像特征维度变换步骤，用于将每个对象的特征维度变换为预设维度；文本特征提取步骤，用于提取文本中每个词的特征；文本特征维度变换步骤，用于将文本中每个词的特征维度变换为所述预设维度；匹配步骤，用于计算维度变换后，每个对象的特征分别与每个词的特征的匹配度。

3.根据权利要求2所述的方法，其特征在于，所述匹配步骤，具体用于：

计算维度变换后，每个对象的特征分别与文本中每个词的特征的距离和/或余弦相似度，得到每个对象的特征与文本中每个词的特征的匹配度。

4.根据权利要求1所述的方法，其特征在于，在所述依次将每个对象对应的边界框内的图像和文本输入至匹配模型中之前，还包括：

获取用于训练所述匹配模型的正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和正样本对象的标签；

将所述正样本对象对应的边界框内的图像、负样本对象对应的边界框内的图像和所述标签输入至匹配模型中，得到正样本对象的特征与标签特征的第一匹配度，以及负样本对象的特征与标签特征的第二匹配度；

以最大化第一匹配度并最小化第二匹配度为目标，或者以第一匹配度与第二匹配度的差值大于预设阈值为目标，训练所述匹配模型。

5.根据权利要求1所述的方法，其特征在于，所述根据每个对象的特征分别与文本中每个词的特征的匹配度，得到所述文本与每个对象的特征的匹配度，包括：

在每个对象的特征分别与文本中每个词的特征的匹配度中，计算与每个对象的特征对应的最大匹配度或者平均匹配度，作为所述文本与每个对象的特征的匹配度。

6.根据权利要求1所述的方法，其特征在于，所述文本与多个对象中每个对象的特征的匹配度的确定过程，包括：

获取每个对象的类别；

在文本中查找每个对象的类别，并根据查找结果确定文本与每个对象的特征的匹配度。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述根据文本与多个对象中每个对象的特征的匹配度，将多个对象的特征融合为图像的融合特征，包括：

根据文本与每个对象的特征的匹配度，对每个对象的特征进行加权求和，得到图像的融合特征。

8.一种基于图像的数据处理装置，其特征在于，包括：

获取模块，用于获取图像和待处理的文本；

融合模块，用于根据文本与多个对象中每个对象的特征的匹配度，保留或者强化匹配度大于等于匹配度阈值的对象的特征，删除或者弱化匹配度小于匹配度阈值的对象的特征，再将保留的特征融合得到图像的融合特征；其中，文本与每个对象的特征的匹配度表示文本对每个对象的注意力；

处理模块，用于根据图像的融合特征和文本的特征，对所述文本进行处理；

所述装置还包括第一匹配度获得模块，用于：依次将每个对象对应的边界框内的图像和文本输入至匹配模型中，得到匹配模型输出的每个对象的特征分别与文本中每个词的特征的匹配度；根据每个对象的特征分别与文本中每个词的特征的匹配度，得到文本与每个对象的特征的匹配度。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于图像的数据处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的基于图像的数据处理方法。