CN114186039A

CN114186039A - 一种视觉问答方法、装置及电子设备

Info

Publication number: CN114186039A
Application number: CN202111428675.2A
Authority: CN
Inventors: 焦佳成
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-15

Abstract

本公开提供了一种视觉问答方法、装置及电子设备，涉及计算机视觉领域，尤其涉及深度学习和云计算技术领域。具体实现方案为：获取输入图像以及所述输入图像对应的输入文本；确定所述输入图像对应的第一图像特征及所述文本对应的文本特征；基于所述第一图像特征和所述文本特征进行至少两次融合处理，得到融合特征；基于所述融合特征确定所述输入图像对应的输出信息。

Description

一种视觉问答方法、装置及电子设备

技术领域

本公开涉及计算机视觉领域，尤其涉及视觉问答领域的视觉问答方法、装置及电子设备。

背景技术

在客户服务等场景中，通常需要智能客服机器人对用户提出的问题进行回答。因此，如何针对用户提出的问题进行精准的回答是视觉问答领域一直追求的目标。

发明内容

本公开提供了一种视觉问答方法、装置及电子设备。

根据本公开的第一方面，提供了一种视觉问答方法，包括：

获取输入图像以及所述输入图像对应的输入文本；

确定所述输入图像对应的第一图像特征及所述文本对应的文本特征；

基于所述第一图像特征和所述文本特征进行至少两次融合处理，得到融合特征；

基于所述融合特征确定所述输入图像对应的输出信息。

根据本公开的第二方面，提供了一种视觉问答装置，所述视觉问答装置包括：

获取模块，用于获取输入图像以及所述输入图像对应的输入文本；

第一确定模块，用于确定所述输入图像对应的第一图像特征及所述文本对应的文本特征；

特征融合模块，用于基于所述第一图像特征和所述文本特征进行至少两次融合处理，得到融合特征；

第二确定模块，用于基于所述融合特征确定所述输入图像对应的输出信息。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的视觉问答方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的视觉问答方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据上述的视觉问答方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的视觉问答方法的一种处理流程示意图；

图2是本公开实施例提供的视觉问答方法的一种详细处理流程示意图；

图3是本公开实施例提供的卷积神经网络模型对输入图像进行处理的示意图；

图4是本公开实施例提供的输入图像经卷积层处理的示意图；

图5是本公开实施例提供的经卷积层处理得到的特征经池化层处理的示意图；

图6是本公开实施例提供的语言处理模型对文本进行学习的示意图；

图7是本公开实施例提供的服务器对输入图像的第一图像特征和文本特征进行至少两次融合处理的示意图；

图8是本公开实施例提供的视觉问答装置的一种可选组成结构示意图；

图9是用来实现本公开实施例的视觉问答方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。

在对本公开实施例进行详细描述之前，对本公开涉及的相关名词进行说明。

计算机视觉技术(Computer Vision，CV)：是一门研究如何使机器“看”的科学；具体的，是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量得机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一门科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维技术(3-Dimension，3D)、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本公开实施例中，通过对输入图像进行处理，能够根据输入图像输出对应的答案。

视觉问答(Visual Question Answering，VQA)是一种涉及计算机视觉和自然语言处理(Natural Language Processing，NLP)两大领域的学习任务。具体的，向计算机设备中输入一张图片，或者一张图片和一个关于这张图片的形式自由(free-form)、开放式(opened)的自然语言的问题，输出为：产生的自然语言的回答。通过计算机设备对图片的内容、问题的含义和意图以及相关的常识有一定的理解，使得计算机设备根据输入的图片和问题输出一个符合自然语言规则且合理的输出信息。

本公开提供的视觉问答方法可以应用于智能客服场景。在智能客服场景下，客户服务至少可以包括：售前服务和售后服务；对客户购买产品或服务之前、以及客户购买产品或服务之后提出的问题进行回答。利用智能客户机器人进行客户服务能够节省人工成本，提高客户服务的效率；相关技术中，利用智能客户机器人回答用户提出的问题主要包括两种形式，第一种形式是固定回答内容，如工单***按照预设的固定的回答响应用户的首次提问；因此，第一种形式无法分析用户的问题和提问情感，无法根据用户问题的分析结果进行针对性的提示和回答。第二种形式是按照预设的规则回答用户的提问，如对用户的提问进行关键词检测，根据检测到的关键词与预设的关键词的匹配程度对用户的提问进行回答；第二种形式对于生僻的提问内容无法响应专业的回答。

上述仅以智能客服场景为例，本公开实施例提供的视觉问答方法还可以应用于其他需要视觉对话的场景，如对图片进行讲解的场景，本公开实施例不对应用场景进行限定。

图1是本公开提供的视觉问答方法的一种可选处理流程示意图，视觉问答方法至少可以包括以下步骤：

步骤S101，获取输入图像以及输入图像对应的输入文本。

在一些可选实施例中，输入图像为用户通过终端设备发送至电子设备的图像，输入图像可以是用户通过终端设备拍摄的图像，输入图像也可以是用户对应的终端设备中存储的图像，输入图像还可以是用户截取的终端设备上安装的应用程序界面或小程序界面等。本公开实施例对输入图像的类型不加以限定。

在一些可选实施例中。获取输入图像之后，可以分析输入图像的合法性；如判断输入图像中是否包括受限内容，若输入图像中包括受限内容，则不对输入图像进行后续处理。其中，受限内容可以包括：涉及暴力的图文和涉及赌博的图文等。

在一些可选实施例中，输入图像对应的输入文本，可以由用户通过终端设备发送至电子设备，也可以是电子设备根据输入图像获取的与输入图像对应的输入文本；输入图像对应的输入文本可以是基于输入图像提问的问题。

在具体实施时，针对用户通过终端设备向电子设备发送输入图像对应的输入文本的情况，用户可以通过终端设备向电子设备发送语音信息，电子设备通过解析语音信息获取输入图像对应的输入文本；或者用户通过终端设备向电子设备发送一份文档，文档中包括输入图像对应的输入文本。

在具体实施时，针对电子设备根据输入图像获取与输入图像对应的输入文本的情况，电子设备中可以预存多张图像，并且预存每张图像对应的文本；其中，每张图像对应的文本可以是基于每张图像提问的问题；多张图像对应的文本形成一个问题列表；该问题列表中的问题可以是基于图像对应的领域知识形成的；举例来说，针对客户服务领域，通过对图像进行识别和提取关键信息，可以获取图像中包括订单号，则图像对应的问题可以是“订单号是什么？”。可选地，可以预存基于每张图像提问的全部问题，也可以预存基于每张图像高频提问的问题；其中，预存问题的提问频率阈值可根据需要灵活设置。

步骤S102，确定输入图像对应的第一图像特征及文本对应的文本特征。

在一些可选实施例中，第一图像特征和文本特征可以基于电子设备包括的视觉问答模型包括的两个不同的神经网络模型获取。作为示例，第一图像特征可以由卷积神经网络模型对输入图像进行处理得到；文本特征可以由自然语言处理模型对文本进行学习得到。

步骤S103，基于第一图像特征和文本特征进行至少两次融合处理，得到融合特征。

在一些可选实施例中，电子设备可以基于输入图像的通道权重和输入图像的图像权重对第一图像特征进行处理，得到第二图像特征；再对第二图像特征和文本特征进行至少两次融合处理，得到融合特征。其中，通道权重用于表征输入图像中每个通道对于输入图像检测的重要程度；图像权重用于表征输入图像的重要程度。

步骤S104，基于融合特征确定输入图像对应的输出信息。

在一些可选实施例中，基于融合特征确定输入图像对应的输出信息的具体处理过程可以包括：基于融合特征确定输入图像对应的至少一个候选输出信息；确定每个候选输出信息的置信度；确定置信度最高的候选输出信息为所述输入图像对应的输出信息。

在具体实施时，可以将融合特征输入预先训练好的视觉问答模型，得到融合特征对应的多个候选输出信息以及每个候选输出信息的置信度；再对置信度进行归一化处理，通过比较归一化处理后的置信度的大小得到归一化处理后的置信度最大值，置信度最大值对应的候选输出信息为输入图像对应的输出信息。

其中，视觉问题模型是预先训练好的神经网络模型，具有根据融合特征确定输入图像对应的输出信息的性能。

在一些可选实施例中，还可以预先设定置信度阈值，输入图像对应的输出信息的置信度应大于或等于置信度阈值。在一些场景下，若全部候选输出信息的置信度均小于置信度阈值，则全部候选输出信息均不可以作为输入图像的置信度阈值。

本公开实施例中，对图像特征和文本特征进行两次融合，基于文本和图像两种模态数据回答用户提出的问题，相较于固定回答内容以及按照预设的规则回答用户的提问，能够更灵活、准确地基于输入图像得到对应的输出信息。

针对上述步骤S103,基于输入图像的通道权重和输入图像的图像权重对第一图像特征进行处理，得到第二图像特征的处理过程可以包括：

步骤a，基于输入图像中每个通道对应的通道权重，分别对第一图像特征中对应通道的图像特征进行加权处理，得到通道图像特征；

步骤b，基于输入图像的图像权重对通道图像特征进行加权处理，得到第二图像特征。

在具体实施时，输入图像可以是多通道图像，如三通道图像；每个通道对应一个权重系数，三个通道对应的通道权重可以不同。通过对通道进行重要程度的划分，为通道赋予不同的通道权重，能够根据通道的重要程度对各个通道的特征进行筛选。在一些可选实施例中，可能存在部分通道对应的通道权重系数过小的情况，若通道权重系数过小，则会掣肘用于第一图像特征提取的神经网络模型中学习率的设置；基于此，可以通过正则化处理，使得较小的通道权重系数对应第一图像特征中的较大的特征向量。

在具体实施时，不同的输入图像对应不同的图像权重，将图像权重与经通道权重处理后的图像特征按位相乘(也可以称为叉乘)，得到第二图像特征。

如此，通过对第一图像特征按通道乘以对应的通道权重系数，以及乘以输入图像对应的图像权重系数，使得与输入图像对应的各个图像切片相乘的权重系数不同，增益了对输入图像的检测结果有正向增益的上下文图像特征，惩罚了与输入图像的检测结果不相关的上下文图像特征。

针对上述步骤S103，对第二图像特征和文本特征进行至少两次融合处理，得到融合特征的处理过程可以包括：

步骤c，对第二图像特征和文本特征进行第一融合处理，得到第三特征图像。

在一些可选实施例中，对第二图像特征和文本特征进行第一融合处理可以包括：将第二图像特征与文本特征相加；第二图像特征和文本特征的维度相同。

步骤d，对第三图像特征和文本特征进行第二融合处理，得到融合特征。

在一些可选实施例中，对第三图像特征和文本特征进行第二融合处理可以包括：确定输入图像中每个像素的空间注意力权重系数；利用空间注意力权重系数对第三图像特征进行加权处理，得到第四图像特征；将所述第四图像特征与所述文本特征相加，得到所述融合特征。

其中，每个像素的空间注意力权重系数能够对输入图像内部的区域进行注意力机制的增强；利用每个像素的空间注意力权重系数乘以对应像素的图像特征，能够实现对输入图像中区域的特征增强。

本公开实施例中，通过空间注意力机制对图像特征进行处理，能够弱化输入图像中包括的背景信息等对输入图像检测无用的信息，强化输入图像的部分区域中包括的关键信息。

针对上述步骤d，对第三图像特征和文本特征进行第二融合处理，得到融合特征的具体实现过程可以包括：将第三图像特征与文本特征通过矩阵按位相加的方式进行特征融合，得到融合特征。其中，第三图像特征与文本特征的矩阵维度相同。

图2是本公开提供的视觉问答方法的一种详细处理流程示意图，视觉问答方法至少可以包括以下步骤：

步骤S201，用户通过终端设备向终端设备发送输入图像。

在一些可选实施例中，终端设备上安装的应用程序中设置有智能客服，用户通过智能客服上传输入图像，输入图像的示意图，如图3所示。

步骤S202，终端设备将输入图像发送至服务器。

步骤S203，服务器根据输入图像确定输入图像对应的输入文本。

在一些可选实施例中，服务器对输入图像进行检测，获取输入图像中的关键信息，基于获取的关键信息确定输入图像对应的输入文本。

步骤S204，服务器确定输入图像对应的第一图像特征及文本对应的文本特征。

在一些可选实施例中，服务器可通过视觉问答模型包括的卷积神经网络模型对输入图像进行处理得到第一图像特征，通过视觉问答模型包括的自然语言处理模型对文本进行学习得到文本特征。

作为示例，卷积神经网络模型对输入图像进行处理的示意图，可以如图3所示，经过卷积层对输入图像进行特征提取，再经过池化层对输入图像进行降维处理；输入图像经过5次卷积层和池化层的处理之后，经全连接层输出第一图像特征。

其中，输入图像经卷积层处理的示意图，如图4所示，输入图像经卷积层的卷积核处理后，得到输入图像的小区域的图像特征。经卷积层处理得到的特征经池化层处理的示意图，如图5所示，四个小区域的图像特征经池化层处理后，得到降维后的图像特征。

作为示例，语言处理模型对文本进行学习的示意图，如图6所示，X_t代表在时刻t输入的文本，利用语言处理模型对输入的文本进行编码，得到预设长度的向量，在一个处理模块中将当前时刻的输入向量与上一处理模块的长期记忆向量和短期记忆向量结合，得到文本特征。其中，σ和tanh为处理函数；σ为sigmod函数，

tanh函数为：

步骤S205，服务器对输入图像的第一图像特征和文本特征进行至少两次融合处理，得到融合特征。

在一些可选实施例中，服务器对输入图像的第一图像特征和文本特征进行至少两次融合处理的示意图，如图7所示，服务器基于输入图像的通道权重以及图像权重对第一图像特征进行处理，得到第二图像特征；结合上下文注意力机制将第二图像特征与文本特征进行第一次融合，得到第三图像特征。再基于空间注意力机制对第三图像特征进行处理，得到第四图像特征，将第四图像特征与文本特征进行第二次融合，得到融合特征。

其中，上下文注意力机制依赖于一个卷积层实现，该卷积层可以记作φ_C，该卷积层的卷积核大小与文本特征和第二图像特征的维度相同，通过该卷积层生成上下文注意力权重；上下文注意力权重可通过函数激活，上下文注意力权重通过函数激活后，便可应用于第二图像特征与文本特征进行第一次融合的过程。

其中，输入图像对应的第一图像特征记作

D为此第一图像特征对应的通道数(channel)，H和W分别为第一图像特征对应的特征图谱的高度和宽度。第一图像特征可通过下述公式确定：

C_i＝φ_C(X_i)，X_i为第i个输入图像对应的第一图像特征。

第i个输入图像的第d个通道的通道权重可通过下述公式确定：

第i个输入图像的图像权重可通过下述公式确定：

通过下述公式将第i个输入图像的第一图像特征与第i个输入图像的图像权重，

在具体实施时，空间注意力机制能够实现对输入图像中区域的特征增强。作为示例，空间注意力机制可通过卷积层实现，基于空间注意力机制将卷积层的输出结果生成一个注意力矩阵，再对注意力矩阵进行激活和正则化处理，如下述公式所示：

S_i＝φ_S(X′_i)

其中，φ表示卷积层，

表示正则化处理后的输出结果。

步骤S206，服务器基于融合特征确定输入图像对应的输出信息。

在一些可选实施例中，服务器通过视觉问答模型得到融合特征对应的多个候选输出信息以及每个候选输出信息的置信度；再对置信度进行归一化处理，通过比较归一化处理后的置信度的大小得到归一化处理后的置信度最大值，置信度最大值对应的候选输出信息为输入图像对应的输出信息。其中，输入图像对应的输出信息的置信度大于或等于置信度阈值；置信度阈值可根据实际情况灵活设置，如设置为75％。

在一些可选实施例中，服务器确定输入图像对应的输出信息之后，向终端设备发送输出信息；终端设备可通过应用程序中的智能客服向用户呈现输出信息。

本公开实施例还提供一种视觉问答装置，所述视觉问答装置的组成结构，如图8所示，包括：

获取模块401，用于获取输入图像以及所述输入图像对应的输入文本；

第一确定模块402，用于确定所述输入图像对应的第一图像特征及所述文本对应的文本特征；

特征融合模块403，用于基于所述第一图像特征和所述文本特征进行至少两次融合处理，得到融合特征；

第二确定模块404，用于基于所述融合特征确定所述输入图像对应的输出信息。

在一些可选实施例中，特征融合模块403，用于基于所述输入图像的通道权重和所述输入图像的图像权重对所述第一图像特征进行处理，得到第二图像特征；对所述第二图像特征和所述文本特征进行至少两次融合处理，得到融合特征。

在一些可选实施例中，特征融合模块403，用于基于所述输入图像中每个通道对应的通道权重，分别对所述第一图像特征中对应通道的图像特征进行加权处理，得到通道图像特征；基于所述输入图像的图像权重对所述通道图像特征进行加权处理，得到所述第二图像特征。

在一些可选实施例中，特征融合模块403，用于对所述第二图像特征和所述文本特征进行第一融合处理，得到第三特征图像；

对所述第三图像特征和所述文本特征进行第二融合处理，得到所述融合特征。

在一些可选实施例中，特征融合模块403，用于将所述第二图像特征与所述文本特征相加，得到所述第三图像特征。

在一些可选实施例中，特征融合模块403，用于确定所述输入图像中每个像素的空间注意力权重系数；

利用所述空间注意力权重系数对所述第三图像特征进行加权处理，得到第四图像特征；

将所述第四图像特征与所述文本特征相加，得到所述融合特征。

在一些可选实施例中，第二确定模块404，用于基于所述融合特征确定所述输入图像对应的至少一个候选输出信息；

确定每个所述候选输出信息的置信度；

确定置信度最高的候选输出信息为所述输入图像对应的输出信息。

在一些可选实施例中，第二确定模块404，还用于若所述候选输出信息的置信度均小于置信度阈值，则放弃全部所述候选输出信息。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。在一些可选实施例中，电子设备800可以是终端设备，也可以是服务器。在一些可选实施例中，电子设备800可以通过运行计算机程序来实现本申请实施例提供的视觉问答方法，例如，计算机程序可以是操作***中的原生程序或软件模块；可以是本地(Native)应用程序(Application，APP)，即需要在操作***中安装才能运行的程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

在实际应用中，电子设备800可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。电子设备800可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。

电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备、车载终端和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如视觉问答方法。例如，在一些可选实施例中，视觉问答方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些可选实施例中，计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的视觉问答方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为视觉问答方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的交通识别限制方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视觉问答方法，包括：

获取输入图像以及所述输入图像对应的输入文本；

基于所述融合特征确定所述输入图像对应的输出信息。

2.根据权利要求1所述的方法，其中，所述基于所述第一图像特征和所述文本特征进行至少两次融合处理，得到融合特征包括：

基于所述输入图像的通道权重和所述输入图像的图像权重对所述第一图像特征进行处理，得到第二图像特征；

对所述第二图像特征和所述文本特征进行至少两次融合处理，得到融合特征。

3.根据权利要求2所述的方法，其中，所述基于所述输入图像的通道权重和所述输入图像的图像权重对所述第一图像特征进行处理，得到第二图像特征，包括：

基于所述输入图像中每个通道对应的通道权重，分别对所述第一图像特征中对应通道的图像特征进行加权处理，得到通道图像特征；

基于所述输入图像的图像权重对所述通道图像特征进行加权处理，得到所述第二图像特征。

4.根据权利要求2所述的方法，其中，所述对所述第二图像特征和所述文本特征进行融合处理，得到融合特征包括：

对所述第二图像特征和所述文本特征进行第一融合处理，得到第三特征图像；

5.根据权利要求4所述的方法，其中，所述对所述第二图像特征和所述文本特征进行第一融合处理，得到第三特征图像包括：

将所述第二图像特征与所述文本特征相加，得到所述第三图像特征。

6.根据权利要求4所述的方法，其中，所述对所述第三图像特征和所述文本特征进行第二融合处理，得到所述融合特征包括：

确定所述输入图像中每个像素的空间注意力权重系数；

7.根据权利要求1所述的方法，其中，所述基于所述融合特征确定所述输入图像对应的输出信息，包括：

基于所述融合特征确定所述输入图像对应的至少一个候选输出信息；

确定每个所述候选输出信息的置信度；

8.根据权利要求7所述的方法，其中，所述方法还包括：

响应于所述候选输出信息的置信度均小于置信度阈值，放弃全部所述候选输出信息。

9.一种视觉问答装置，所述视觉问答装置包括：

10.根据权利要求9所述的视觉问答装置，其中，所述特征融合模块，用于基于所述输入图像的通道权重和所述输入图像的图像权重对所述第一图像特征进行处理，得到第二图像特征；

11.根据权利要求10所述的视觉问答装置，其中，所述特征融合模块，用于基于所述输入图像中每个通道对应的通道权重，分别对所述第一图像特征中对应通道的图像特征进行加权处理，得到通道图像特征；

12.根据权利要求10所述的视觉问答装置，其中，所述特征融合模块，用于对所述第二图像特征和所述文本特征进行第一融合处理，得到第三特征图像；

13.根据权利要求12所述的视觉问答装置，其中，所述特征融合模块，用于将所述第二图像特征与所述文本特征相加，得到所述第三图像特征。

14.根据权利要求12所述的视觉问答装置，其中，所述特征融合模块，用于确定所述输入图像中每个像素的空间注意力权重系数；

15.根据权利要求9所述的视觉问答装置，其中，所述第二确定模块，用于基于所述融合特征确定所述输入图像对应的至少一个候选输出信息；

确定每个所述候选输出信息的置信度；

16.根据权利要求15所述的视觉问答装置，其中，所述第二确定模块，用于响应于所述候选输出信息的置信度均小于置信度阈值，放弃全部所述候选输出信息。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1至8中任一项所述的方法。