CN117312508A

CN117312508A - 基于图像的问答方法、装置、设备、存储介质和程序产品

Info

Publication number: CN117312508A
Application number: CN202311206363.6A
Authority: CN
Inventors: 陈亨达
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-29

Abstract

本申请涉及一种基于图像的问答方法、装置、设备、存储介质和程序产品，该方法通过从用户终端获取目标图像以及与目标图像对应的问题文本，然后将目标图像和问题文本输入至预先训练的目标问答模型中，通过目标问答模型分别对目标图像和问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，对视觉对象特征、场景文本特征和问题特征进行融合处理，并基于融合处理结果得到问题文本对应的答案，最后将答案反馈至用户终端。上述方法中，通过将视觉对象特征、场景文本特征和问题特征进行融合处理，可以综合考虑图像和问题的多模态信息，能够更好地理解问题，从而更准确地回答问题，进而提高问题回复的准确性。

Description

基于图像的问答方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及视觉问答技术领域，特别是涉及一种基于图像的问答方法、装置、设备、存储介质和程序产品。

背景技术

随着金融科技的飞速发展，银行智能客服在金融领域的应用日益广泛，银行智能客服能够为用户提供在线的帮助和支持。例如，银行智能客服能够自动处理用户的查询、提供金融产品信息、解答常见问题等。

目前，用户在咨询某种金融业务时，通常会选择向银行智能客服发送相关图片并提出相关问题，以获得个性化的帮助和指导。银行智能客服则会结合图片和问题，通过图像识别技术和自然语言处理技术，为用户提供针对性的回答和解决方案。

但是，银行智能客服在回答用户问题时，存在回复不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高回复准确性的基于图像的问答方法、装置、设备、存储介质和程序产品。

第一方面，本申请提供了一种基于图像的问答方法，该方法包括：

从用户终端获取目标图像以及与目标图像对应的问题文本；

将目标图像和问题文本输入至预先训练的目标问答模型中，通过目标问答模型分别对目标图像和问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，对视觉对象特征、场景文本特征和问题特征进行融合处理，并基于融合处理结果得到问题文本对应的答案；

将答案反馈至用户终端。

在其中一个实施例中，目标问答模型包括第一融合网络和第二融合网络；对视觉对象特征、场景文本特征和问题特征进行融合处理，包括：

将视觉对象特征、场景文本特征输入第一融合网络进行融合处理，得到初始融合特征；

将初始融合特征和问题特征输入第二融合网络进行融合处理，得到融合处理结果。

在其中一个实施例中，目标问答模型还包括第一特征提取网络和第二特征提取网络，通过目标问答模型分别对目标图像和问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，包括：

将目标图像输入至第一特征提取网络中进行特征提取，得到视觉对象特征和场景文本特征；

将问题文本输入至第二特征提取网络中进行特征提取，得到问题特征。

在其中一个实施例中，目标问答模型还包括动态指针网络，基于融合处理结果得到问题文本对应的答案，包括：

将融合处理结果输入至动态指针网络中，动态生成指针位置；指针位置用于指示在输出序列中问题文本对应的答案的位置范围；

根据指针位置，确定问题文本对应的答案。

在其中一个实施例中，目标问答模型还包括第三特征提取网络，该方法还包括：

将目标图像输入至第三特征提取网络中进行特征提取，得到全局网格特征；

对应地，将初始融合特征和问题特征输入至第二融合网络中进行融合处理，得到融合处理结果，包括：

将全局网格特征、初始融合特征和问题特征输入至第二融合网络中进行融合处理，得到融合处理结果。

在其中一个实施例中，该方法还包括：

获取训练样本集；训练样本集包括多个训练样本和各训练样本的标注，训练样本包括样本图像和样本图像对应的样本问题，样本图像中包括样本对象以及样本场景文本；标注包括样本问题对应的样本答案；

基于训练样本集对初始问答模型中的初始特征提取网络、初始融合网络和初始问答网络进行联合训练，得到目标问答模型。

第二方面，本申请还提供了一种基于图像的问答装置，该装置包括：

获取模块，用于从用户终端获取目标图像以及与目标图像对应的问题文本；

问答模块，用于将目标图像和问题文本输入至预先训练的目标问答模型中，通过目标问答模型分别对目标图像和问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，对视觉对象特征、场景文本特征和问题特征进行融合处理，并基于融合处理结果得到问题文本对应的答案；

反馈模块，用于将答案反馈至用户终端。

第三方面，本申请还提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

从用户终端获取目标图像以及与目标图像对应的问题文本；

将答案反馈至用户终端。

第四方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

从用户终端获取目标图像以及与目标图像对应的问题文本；

将答案反馈至用户终端。

第五方面，本申请还提供了一种计算机程序产品，该计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

从用户终端获取目标图像以及与目标图像对应的问题文本；

将答案反馈至用户终端。

上述基于图像的问答方法、装置、设备、存储介质和程序产品，从用户终端获取目标图像以及与目标图像对应的问题文本，然后将目标图像和问题文本输入至预先训练的目标问答模型中，通过目标问答模型分别对目标图像和问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，对视觉对象特征、场景文本特征和问题特征进行融合处理，并基于融合处理结果得到问题文本对应的答案，最后将答案反馈至用户终端。上述方法中，通过将视觉对象特征、场景文本特征和问题特征进行融合处理，可以综合考虑图像和问题的多模态信息，能够更好地理解问题，从而更准确地回答问题，进而提高问题回复的准确性。

附图说明

图1为一个实施例中基于图像的问答方法的应用***图；

图2为一个实施例中基于图像的问答方法的流程示意图；

图3为另一个实施例中基于图像的问答方法的流程示意图；

图4为另一个实施例中基于图像的问答方法的流程示意图；

图5为另一个实施例中基于图像的问答方法的流程示意图；

图6为另一个实施例中基于图像的问答方法的流程示意图；

图7为另一个实施例中基于图像的问答方法的流程示意图；

图8为另一个实施例中基于图像的问答方法的流程示意图；

图9为一个实施例中基于图像的问答装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

随着金融科技的飞速发展，银行智能客服在金融领域的应用日益广泛，银行智能客服能够为用户提供在线的帮助和支持。例如，银行智能客服能够自动处理用户的查询、提供金融产品信息、解答常见问题等。目前，用户在咨询某种金融业务时，通常会选择向银行智能客服发送相关图片并提出相关问题，以获得个性化的帮助和指导。银行智能客服则会结合图片和问题，通过图像识别技术和自然语言处理技术，为用户提供针对性的回答和解决方案。但是，银行智能客服在回答用户问题时，存在回复不准确的问题。本申请提供了一种基于图像的问答方法，旨在解决上述技术问题，下面实施例将具体说明本申请所述的基于图像的问答方法。

本申请实施例提供的基于图像的问答方法，可以应用于如图1所示的应用***中。其中，计算机设备01通过网络与用户终端02进行通信，其中，计算机设备01可以用独立的服务器或者是多个服务器组成的服务器集群来实现。用户终端02可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等，便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的应用***的限定，具体的应用***可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置

在一个实施例中，如图2所示，提供了一种基于图像的问答方法，以该方法应用于图1中的计算机设备01为例进行说明，包括以下步骤：

S201，从用户终端获取目标图像以及与目标图像对应的问题文本。

其中，目标图像为包含图像中的视觉对象和图像中的场景文本的图像。视觉对象是指图像中的物体、人物、动物或其他可识别的实体。场景文本是指图像中的文字信息，例如标语、商标、标牌、字幕等。

本申请实施例中，用户可以在用户终端上选择或拍摄与操作相关的目标图像，例如一张支票、汇票、身份证或其他需要处理的金融文件。用户同时输入与目标图像相关的问题文本，例如支票的金额、转账的收款方账号或贷款申请的用途等，然后可以通过网络将目标图像和与目标图像相关的问题文本发送至计算机设备，计算机设备即可接收来自用户终端的目标图像和与目标图像对应的问题文本。

S202，将目标图像和问题文本输入至预先训练的目标问答模型中，通过目标问答模型分别对目标图像和问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，对视觉对象特征、场景文本特征和问题特征进行融合处理，并基于融合处理结果得到问题文本对应的答案。

其中，目标问答模型可以为视觉问答的神经网络模型。目标问答模型可以应用在金融领域，作为银行的智能客服，还可以应用在其他领域。视觉对象特征用于表征目标图像中的视觉对象的特征。场景文本特征用于表征目标图像中的场景文本的特征。

本申请实施例中，计算机设备基于上述步骤得到目标图像以及与目标图像对应的问题文本之后，可以将目标图像和问题文本输入至预先训练的目标问答模型中，也可以将目标图像和问题文本进行预处理后再输入至预先训练的目标问答模型中。目标问答模型可以对目标图像中的视觉对象进行特征提取，得到视觉对象的特征，同时对目标图像中的场景文本进行特征提取，得到场景文本特征，以及对问题文本进行问题的语义和语境信息分析，得到问题特征。然后可以直接将视觉对象特征、场景文本特征和问题特征三种特征全部融合，得到融合处理结果，再基于融合处理结果生成与问题相匹配的答案。

可选的，还可以先将视觉对象特征和场景文本特征进行初步融合，然后再将初步融合后的结果和问题特征进行再次融合，得到融合处理结果，再基于融合处理结果生成与问题相匹配的答案。

可选的，还可以先将场景文本特征和问题特征进行初步融合，然后再将初步融合后的结果和问题特征进行再次融合，得到融合处理结果，再基于融合处理结果生成与问题相匹配的答案。还可以在视觉对象特征、场景文本特征和问题特征的基础上融合其他特征，得到融合处理结果，再基于融合处理结果生成与问题相匹配的答案。

例如，用户提供一张包含股票图表和公司名称的投资报告图像，并提出“这个公司的股票表现如何”的问题。目标问答模型可以对该图像进行特征提取，得到股票图表、公司标志等视觉对象的特征，以及对问题文本进行文本处理，理解问题中的关键词"公司"和"股票表现"以及其它问题的相关信息。然后可以根据股票图表和问题文本，分析和预测该公司的股票表现，并生成类似于"根据历史数据分析，该公司的股票近期表现不错"的答案。

S203，将答案反馈至用户终端。

本申请实施例中，计算机设备基于上述步骤得到问题文本对应的答案之后，可以通过网络连接、消息传递或其他通信渠道将生成的答案返回用户终端。

上述基于图像的问答方法通过从用户终端获取目标图像以及与目标图像对应的问题文本，然后将目标图像和问题文本输入至预先训练的目标问答模型中，通过目标问答模型分别对目标图像和问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，对视觉对象特征、场景文本特征和问题特征进行融合处理，并基于融合处理结果得到问题文本对应的答案，最后将答案反馈至用户终端。上述方法中，通过将视觉对象特征、场景文本特征和问题特征进行融合处理，可以综合考虑图像和问题的多模态信息，能够更好地理解问题，从而更准确地回答问题，进而提高问题回复的准确性。

在一个实施例中，还提供了一种对视觉对象特征、场景文本特征和问题特征进行融合处理的具体实现方式，其中，目标问答模型包括第一融合网络和第二融合网络，如图3所示，上述步骤S202中的“对视觉对象特征、场景文本特征和问题特征进行融合处理”，包括：

S301，将视觉对象特征、场景文本特征输入第一融合网络进行融合处理，得到初始融合特征。

其中，第一融合网络可以为注意力机制融合网络，可以为多层感知网络，还可以为融合卷积神经网络。初始融合特征为将视觉对象特征和场景文本特征进行融合的特征。

本申请实施例中，计算机设备基于上述步骤得到视觉对象特征、场景文本特征和问题特征之后，可以将视觉对象特征和场景文本特征输入第一融合网络进行融合处理，具体可以将两个特征向量连接起来，或者使用一些特定的融合操作，例如逐元素相加或乘积等，生成初始融合特征。

S302，将初始融合特征和问题特征输入第二融合网络进行融合处理，得到融合处理结果。

其中，第二融合网络可以为Transformer特征融合网络，也可以采用与第一融合网络相同架构的网络。

本申请实施例中，计算机设备一个基于上述步骤得到初始融合特征之后，可以将初始融合特征和问题特征输入第二融合网络进行融合处理，具体可以将两个特征向量连接起来，或者使用一些特定的融合操作，例如逐元素相加或乘积等，最终生成融合处理结果。

上述实施例中，通过第一融合网络对视觉对象特征和场景文本特征进行融合处理，有助于更好地理解场景文本和视觉对象之间的关系，以及通过第二融合网络对初始融合特征和问题特征的进一步融合处理，有助于更好地理解问题的语义和语境，经过两次特征的融合，可以将不同模态的信息整合在一起，从而提高问答的准确性和效率。

在一个实施例中，还提供了一种获取视觉对象特征、场景文本特征和问题特征的具体实现方式，其中，目标问答模型还包括第一特征提取网络和第二特征提取网络，如图4所示，上述步骤S202中的“通过目标问答模型分别对目标图像和问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征”，包括：

S401，将目标图像输入至第一特征提取网络中进行特征提取，得到视觉对象特征和场景文本特征。

其中，第一特征提取网络可以为卷积神经网络。

本申请实施例中，计算机设备基于上述步骤得到目标图像之后，可以先对目标图像进行图像的尺寸调整、裁剪、归一化或者色彩空间转换等预处理，以适应第一特征提取网络的输入要求。然后再将预处理后的目标图像输入第一特征提取网络，第一特征提取网络通过多次卷积和池化操作，得到视觉对象特征。例如，可以提取出边缘、纹理、颜色等低级的视觉特征，并逐渐获得更高级的语义特征，如物体形状、物体部分、对象类别等。以及第一特征提取网络可以通过文本检测算法或OCR技术对图像中的文本区域进行提取，再使用词向量化、词袋模型等，将提取得到的文本区域转化为特征向量，进而得到场景文本特征。

S402，将问题文本输入至第二特征提取网络中进行特征提取，得到问题特征。

其中，第二特征提取网络可以为自然语言处理网络，还可以为循环神经网络。

本申请实施例中，计算机设备基于上述步骤得到与目标图像对应的问题文本之后，可以先对输入的问题文本进行文本的分词、去除停用词、词干化或者其他文本清洗的预处理，以便适应第二特征提取网络的输入要求。然后将预处理后的问题文本输入第二特征提取网络中，第二特征提取网络可以对问题文本进行建模，捕获问题的语义信息、上下文关联和重要特征，得到问题的特征表示，再进行特征提取，得到问题特征。

需要说明的是，上述S401和S402是其中一种执行顺序，在实际应用中，也可以先执行S402再执行S401；或者，S401和S402并行执行。

上述实施例中，通过对目标图像进行特征提取，可以更好地捕捉图像中的物体、场景和文本信息，以及通过对问题文本进行特征提取，可以更好地理解问题的语义和上下文信息，提高了特征提取的准确度。

在一个实施例中，还提供了一种基于融合处理结果得到问题文本对应的答案的具体实现方式，其中，目标问答模型还包括动态指针网络，如图5所示，上述步骤S202中的“基于融合处理结果得到问题文本对应的答案”，包括：

S501，将融合处理结果输入至动态指针网络中，动态生成指针位置；指针位置用于指示在输出序列中问题文本对应的答案的位置范围。

其中，动态指针网络为基于注意力机制的网络，用于确定问题文本在输出序列(通常是答案序列)中的位置范围。

本申请实施例中，计算机设备基于上述步骤得到融合处理结果之后，可以将融合处理结果输入到动态指针网络中，动态指针网络通过注意力分布的方式对融合处理结果进行一系列的注意力计算，找出输出序列中问题文本对应答案开始和结束的位置，进而确定问题文本对应答案的位置范围，实现动态生成指针位置的过程。

S502，根据指针位置，确定问题文本对应的答案。

本申请实施例中，计算机设备基于上述步骤得到指针位置之后，可以根据指针位置中的开始位置和结束位置，在输出序列中提取出对应的部分作为答案。如果输出序列是一个序列生成任务，如生成文本序列，可以使用解码器将提取到的部分答案进行进一步处理和解码，然后根据解码器的输出，再利用生成解码器输出概率最高的词语或使用一些其他的后处理技术(如束搜索、长度惩罚)将其转化为问题文本对应的最终答案。

上述实施例中，由于动态指针网络能够自适应地根据输入信息生成指针位置，所以利用动态指针网络生成问题文本对应的答案，能够精确地确定问题文本在输出序列中的位置范围，提高了答案位置的准确性。同时，通过对融合处理结果进行分析处理，可以综合考虑图像和问题的多模态信息，能够更好地理解问题，从而更准确地回答问题，进而提供更全面和准确的答案。

在一个实施例中，还提供了一种将初始融合特征和问题特征输入第二融合网络进行融合处理，得到融合处理结果的具体实现方式，其中，目标问答模型还包括第三特征提取网络，如图6所示，上述步骤S302中的“将初始融合特征和问题特征输入第二融合网络进行融合处理，得到融合处理结果”，包括：

S601，将目标图像输入至第三特征提取网络中进行特征提取，得到全局网格特征。

其中，第三特征提取网络可以为卷积神经网络或者其他结构构成的。全局网格特征用于表征目标图像的整体结构和关键信息。

本申请实施例中，计算机设备基于上述步骤得到与目标图像之后，可以先对目标图像进行图像的尺寸调整、裁剪、归一化或者色彩空间转换等预处理，以适应第三特征提取网络的输入要求。然后再将预处理后的目标图像输入第三特征提取网络，第三特征提取网络可以通过堆叠多个卷积层和池化层来逐渐抽取图像的不同层次的特征表示，最后得到能够描述整个目标图像的结构和关键信息的全局网格特征。

对应地，在执行步骤S302“将初始融合特征和问题特征输入至第二融合网络中进行融合处理，得到融合处理结果”时，具体执行步骤S602：将全局网格特征、初始融合特征和问题特征输入至第二融合网络中进行融合处理，得到融合处理结果。

本申请实施例中，计算机设备基于上述步骤得到初始融合特征、问题特征和全局网格特征之后，可以将全局网格特征、初始融合特征和问题特征输入第二融合网络进行融合处理，具体可以将三个特征向量连接起来，或者使用一些特定的融合操作，例如逐元素相加或乘积等，最终生成融合处理结果。

上述实施例中，通过提取目标图像的全局网格特征，这些特征可以捕捉到图像的整体特点和结构信息，可以帮助网络更好地理解和处理目标图像相关的问题。以及同时将全局网格特征、初始融合特征和问题特征结合在一起，可以使不同特征相互补充，并得到更准确、更完整的融合处理结果，有助于提升***在任务中的性能和表现。

在一个实施例中，还提供了一种对初始问答模型进行训练得到目标问答模的具体实现方式，如图7所示，该训练方法包括：

S701，获取训练样本集。

其中，训练样本集包括多个训练样本和各训练样本的标注，训练样本包括样本图像和样本图像对应的样本问题，样本图像中包括样本对象以及样本场景文本；标注包括样本问题对应的样本答案。

本申请实施例中，计算机设备可以在互联网上搜索、从相关数据库或资源中获取等方式收集收集大量的样本图像和样本图像对应的样本问题，然后将样本问题与样本图像进行配对，通过人工编写问题或从开放的问答数据集中获取样本问题对应的样本答案，为每个样本问题和样本图像对生成对应的标注。

可选的，还可以对样本图像进行图像增强、缩放、去噪等操作的预处理，可以对样本问题进行分词、词干提取、去除停用词等操作的文本处理，再将预处理后的样本图像与对应的样本问题以及标注的样本答案组合在一起，构建训练样本集，每个训练样本包含一个样本图像和一个样本问题，以及对应的样本答案。

例如，样本图像为具有金融数据、图表或金融交易场景的图像，样本问题则可以是与金融领域相关的问题，如风险管理、投资策略、市场趋势分析等。最后再为每个样本问题提供对应的样本答案，可以通过专业标注师的标注、金融专家的参与或从已有的金融数据库中提取。

S702，基于训练样本集对初始问答模型中的初始特征提取网络、初始融合网络和初始问答网络进行联合训练，得到目标问答模型。

本申请实施例中，计算机设备基于上述步骤得到训练样本集之后，可以将训练样本集输入到初始特征提取网络中进行特征提取，提取样本图像中的样本视觉对象特征、样本场景文本特征、样本全局网格特征和样本问题特征，再将样本图像中的样本视觉对象特征和样本场景文本特征输入到初始融合网络中的初次融合网络中，进行特征的初次融合处理，再将初次融合处理结果、样本全局网格特征和样本问题特征输入至初始融合网络中的二次融合网络中，进行二次融合处理，最后将二次融合处理结果输入至初始问答网络中，生成问题答案的预测结果。通过反向传播算法计算损失函数相对于网络参数的梯度，并使用优化算法，如梯度下降，来更新网络中的权重和参数，使得损失函数逐渐减小，依次更新初始特征提取网络、初始融合网络和初始问答网络的参数，直到达到预定的训练轮数或损失函数收敛为止，最终训练完成得到目标问答模型。

上述实施例中，通过联合训练，特征提取网络、融合网络和问答网络可以充分利用训练样本集中的多模态信息，能够提高模型的表达能力和泛化能力，同时增强模型对复杂问题和图像的理解能力。而且，基于训练样本集进行联合训练可以使初始问答模型逐步优化，得到一个更强大、更准确的目标问答模型，能够更好地理解和回答问题。

综合上述所有实施例，还提供了一种基于图像的问答方法，如图8所示，该方法包括：

S801，获取训练样本集。训练样本集包括多个训练样本和各训练样本的标注，训练样本包括样本图像和样本图像对应的样本问题，样本图像中包括样本对象以及样本场景文本，标注包括样本问题对应的样本答案。

S802，基于训练样本集对初始问答模型中的初始特征提取网络、初始融合网络和初始问答网络进行联合训练，得到目标问答模型。

S803，从用户终端获取目标图像以及与目标图像对应的问题文本。

S804，将目标图像输入至第一特征提取网络中进行特征提取，得到视觉对象特征和场景文本特征。

S805，将问题文本输入至第二特征提取网络中进行特征提取，得到问题特征。

S806，将目标图像输入至第三特征提取网络中进行特征提取，得到全局网格特征。

S807，将视觉对象特征、场景文本特征输入第一融合网络进行融合处理，得到初始融合特征。

S808，将全局网格特征、初始融合特征和问题特征输入至第二融合网络中进行融合处理，得到融合处理结果。

S809，将融合处理结果输入至动态指针网络中，动态生成指针位置；指针位置用于指示在输出序列中问题文本对应的答案的位置范围。

S810，根据指针位置，确定问题文本对应的答案。

S811，将答案反馈至用户终端。

上述各步骤所述的方法在前述实施例中均有说明，详细内容请参见前述说明，此处不赘述。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于图像的问答方法的基于图像的问答装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于图像的问答装置实施例中的具体限定可以参见上文中对于基于图像的问答方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种基于图像的问答装置，包括：

目标数据获取模块10，用于从用户终端获取目标图像以及与目标图像对应的问题文本。

问答模块11，用于将目标图像和问题文本输入至预先训练的目标问答模型中，通过目标问答模型分别对目标图像和问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，对视觉对象特征、场景文本特征和问题特征进行融合处理，并基于融合处理结果得到问题文本对应的答案。

反馈模块12，用于将答案反馈至用户终端。

在一个实施例中，上述问答模块11，包括：

第一融合单元，用于将视觉对象特征、场景文本特征输入第一融合网络进行融合处理，得到初始融合特征。

第二融合单元，用于将初始融合特征和问题特征输入第二融合网络进行融合处理，得到融合处理结果。

在一个实施例中，上述问答模块11，包括：

第一特征提取单元，用于将目标图像输入至第一特征提取网络中进行特征提取，得到视觉对象特征和场景文本特征。

第二特征提取单元，用于将问题文本输入至第二特征提取网络中进行特征提取，得到问题特征。

在一个实施例中，上述问答模块11，包括：

生成单元，用于将融合处理结果输入至动态指针网络中，动态生成指针位置。指针位置用于指示在输出序列中问题文本对应的答案的位置范围；

确定单元，用于根据指针位置，确定问题文本对应的答案。

在一个实施例中，上述问答模块11，包括：

第三特征提取单元，用于将目标图像输入至第三特征提取网络中进行特征提取，得到全局网格特征。

第三融合单元，将全局网格特征、初始融合特征和问题特征输入至第二融合网络中进行融合处理，得到融合处理结果。

在一个实施例中，上述基于图像的问答装置，包括：

样本获取模块，用于获取训练样本集。所述训练样本集包括多个训练样本和各所述训练样本的标注，所述训练样本包括样本图像和所述样本图像对应的样本问题，所述样本图像中包括样本对象以及样本场景文本；所述标注包括所述样本问题对应的样本答案。

训练模块，用于基于所述训练样本集对初始问答模型中的初始特征提取网络、初始融合网络和初始问答网络进行联合训练，得到所述目标问答模型。

上述基于图像的问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于图像的问答方法方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

从用户终端获取目标图像以及与目标图像对应的问题文本；

将答案反馈至用户终端。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据指针位置，确定问题文本对应的答案。

上述实施例提供的一种计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

从用户终端获取目标图像以及与目标图像对应的问题文本；

将答案反馈至用户终端。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据指针位置，确定问题文本对应的答案。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

从用户终端获取目标图像以及与目标图像对应的问题文本；

将答案反馈至用户终端。

根据指针位置，确定问题文本对应的答案。

上述实施例提供的一种计算机程序产品，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于图像的问答方法，其特征在于，所述方法包括：

从用户终端获取目标图像以及与所述目标图像对应的问题文本；

将所述目标图像和所述问题文本输入至预先训练的目标问答模型中，通过所述目标问答模型分别对所述目标图像和所述问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，对所述视觉对象特征、所述场景文本特征和所述问题特征进行融合处理，并基于融合处理结果得到所述问题文本对应的答案；

将所述答案反馈至所述用户终端。

2.根据权利要求1所述的方法，其特征在于，所述目标问答模型包括第一融合网络和第二融合网络；所述对所述视觉对象特征、所述场景文本特征和所述问题特征进行融合处理，包括：

将所述视觉对象特征、所述场景文本特征输入所述第一融合网络进行融合处理，得到初始融合特征；

将所述初始融合特征和所述问题特征输入所述第二融合网络进行融合处理，得到所述融合处理结果。

3.根据权利要求2所述的方法，其特征在于，所述目标问答模型还包括第一特征提取网络和第二特征提取网络，所述通过所述目标问答模型分别对所述目标图像和所述问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，包括：

将所述目标图像输入至所述第一特征提取网络中进行特征提取，得到所述视觉对象特征和所述场景文本特征；

将所述问题文本输入至所述第二特征提取网络中进行特征提取，得到所述问题特征。

4.根据权利要求3所述的方法，其特征在于，所述目标问答模型还包括动态指针网络，所述基于融合处理结果得到所述问题文本对应的答案，包括：

将所述融合处理结果输入至所述动态指针网络中，动态生成指针位置；所述指针位置用于指示在输出序列中所述问题文本对应的答案的位置范围；

根据所述指针位置，确定所述问题文本对应的答案。

5.根据权利要求3所述的方法，其特征在于，所述目标问答模型还包括第三特征提取网络，所述方法还包括：

将所述目标图像输入至所述第三特征提取网络中进行特征提取，得到全局网格特征；

对应地，所述将所述初始融合特征和所述问题特征输入至所述第二融合网络中进行融合处理，得到所述融合处理结果，包括：

将所述全局网格特征、所述初始融合特征和所述问题特征输入至所述第二融合网络中进行融合处理，得到所述融合处理结果。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取训练样本集；所述训练样本集包括多个训练样本和各所述训练样本的标注，所述训练样本包括样本图像和所述样本图像对应的样本问题，所述样本图像中包括样本对象以及样本场景文本；所述标注包括所述样本问题对应的样本答案；

基于所述训练样本集对初始问答模型中的初始特征提取网络、初始融合网络和初始问答网络进行联合训练，得到所述目标问答模型。

7.一种基于图像的问答装置，其特征在于，所述装置包括：

目标数据获取模块，用于从用户终端获取目标图像以及与所述目标图像对应的问题文本；

问答模块，用于将所述目标图像和所述问题文本输入至预先训练的目标问答模型中，通过所述目标问答模型分别对所述目标图像和所述问题文本进行特征提取，得到视觉对象特征、场景文本特征和问题特征，对所述视觉对象特征、所述场景文本特征和所述问题特征进行融合处理，并基于融合处理结果得到所述问题文本对应的答案；

反馈模块，用于将所述答案反馈至所述用户终端。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。