CN117473055A

CN117473055A - 答案生成方法、装置、电子设备及存储介质

Info

Publication number: CN117473055A
Application number: CN202311162010.0A
Authority: CN
Inventors: 王宇波; 姜德强; 尹坤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2024-01-30

Abstract

本申请公开了一种答案生成方法、装置、电子设备及存储介质，可以应用于云技术、人工智能、智慧交通、车联网等各种场景，所述方法包括：确定目标信息拼接结果；将目标信息拼接结果输入答案预测模型，生成目标答案文本；其中，答案预测模型的训练方法包括：将样本信息拼接结果输入待训练多模态编码器得到样本上下文特征；将样本序列起始单词以及样本问题文本对应的样本答案文本，输入待训练解码器的第一预设注意力层，得到样本掩码特征；将样本上下文特征以及样本掩码特征，输入待训练解码器的第二预设注意力层，得到样本答案预测结果；基于样本答案预测结果与样本答案文本之间的差异，得到答案预测模型。本申请提高了模型预测答***率。

Description

答案生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种答案生成方法、装置、电子设备及存储介质。

背景技术

随着深度学习在文档人工智能领域的发展，自监督预训练多模态模型在文档视觉问答任务上取得了很好的表现。目前主流的文档预训练方法大多数着眼于文档理解，即先使用文字识别工具识别文档文本和布局，然后结合图像信息使用一个大型的多模态编码器进行建模。应用到文档问答任务中时，遵循从文档文本中抽取片段作为答案的方式完成问答。抽取式的范式对输入模型的文本质量具有很高要求，所以，文本识别的准确率对该任务具有很大的影响。

发明内容

本申请提供了一种答案生成方法、装置、电子设备及存储介质，降低了模型在生成答案时对文本识别模块的依赖，减轻了模型对文本识别模块识别的噪声文本的敏感度，同时提高了模型预测答***率。

一方面，本申请提供了一种答案生成方法，所述方法包括：

基于目标文本图像以及与所述目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果；

将所述目标信息拼接结果输入答案预测模型，生成所述目标问题文本对应的目标答案文本；其中，所述答案预测模型的训练方法包括：

基于样本文本图像以及与所述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果；

将所述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征；

将样本序列起始单词以及所述样本问题文本对应的样本答案文本，输入所述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征；所述样本序列起始单词为所述样本上下文特征中的序列起始单词；

将所述样本上下文特征以及所述样本掩码特征，输入所述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果；

基于所述样本答案预测结果与所述样本答案文本之间的差异，对所述待训练模型进行训练，得到所述答案预测模型。

另一方面提供了一种答案生成装置，所述装置包括：

目标拼接结果确定模块，用于基于目标文本图像以及与所述目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果；

答案文本生成模块，用于将所述目标信息拼接结果输入答案预测模型，生成所述目标问题文本对应的目标答案文本；

模型训练模块，用于训练得到所述答案预测模型；

其中，所述模型训练模块包括：

样本结果确定子模块，用于基于样本文本图像以及与所述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果；

样本上下文特征确定子模块，用于将所述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征；

样本掩码特征确定子模块，用于将样本序列起始单词以及所述样本问题文本对应的样本答案文本，输入所述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征；所述样本序列起始单词为所述样本上下文特征中的序列起始单词；

样本答案预测结果确定子模块，用于将所述样本上下文特征以及所述样本掩码特征，输入所述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果；

模型训练子模块，用于基于所述样本答案预测结果与所述样本答案文本之间的差异，对所述待训练模型进行训练，得到所述答案预测模型。

另一方面提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的答案生成方法。

另一方面提供了一种计算机存储介质，所述计算机存储介质存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的答案生成方法。

另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行以实现如上所述的答案生成方法。

本申请提供的答案生成方法、装置、电子设备及存储介质，具有如下技术效果：

本申请基于目标文本图像以及与目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果；将目标信息拼接结果输入答案预测模型，生成目标问题文本对应的目标答案文本；其中，答案预测模型的训练方法包括：基于样本文本图像以及与样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果；将样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征；将样本序列起始单词以及样本问题文本对应的样本答案文本，输入待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征；样本序列起始单词为样本上下文特征中的序列起始单词；将样本上下文特征以及样本掩码特征，输入待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果；基于样本答案预测结果与样本答案文本之间的差异，对待训练模型进行训练，得到答案预测模型。本申请将多模态编码器与解码器进行拼接后，联合训练得到答案预测模型，由于将答案预测任务建模为生成范式，所以，模型不需要在输入文本中抽取片段作为答案，从而降低了模型在生成答案时对文本识别模块的依赖，减轻了模型对文本识别模块识别的噪声文本的敏感度，同时能够弥补多模态编码器无法给出多跨度答案的缺陷，且解码器的加入提高了答案预测模型的理解能力，提高了模型预测答***率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本说明书实施例提供的一种答案生成***的示意图；

图2是本说明书实施例提供的一种答案生成方法的流程示意图；

图3是本说明书实施例提供的一种将目标信息拼接结果输入答案预测模型，生成上述目标问题文本对应的目标答案文本的方法的流程示意图；

图4是本说明书实施例提供的一种基于样本文本图像以及与上述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果的方法的流程示意图；

图5是本说明书实施例提供的一种确定样本信息拼接结果的方法的流程示意图；

图6是本说明书实施例提供的一种将上述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征的方法的流程示意图；

图7是本说明书实施例提供的一种将样本序列起始单词以及上述样本问题文本对应的样本答案文本，输入上述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征的方法的流程示意图；

图8是本说明书实施例提供的一种基于上述样本初始结果，确定上述样本答案单词序列中各个样本答案单词对应的样本词特征的方法的流程示意图；

图9是本说明书实施例提供的一种基于上述样本答案预测结果与上述样本答案文本之间的差异，对上述待训练模型进行训练，得到上述答案预测模型的方法的流程示意图；

图10是本说明书实施例提供的一种答案预测模型的结构示意图；

图11是本说明书实施例提供的一种LayoutLMv3编码器的结构示意图；

图12是本说明书实施例提供的一种答案生成装置的结构示意图；

图13是本说明书实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，在对本说明书实施例进行描述的过程中出现的部分名词或者术语作如下解释：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

具体地，本申请实施例提供的方案涉及人工智能的机器学习领域。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本说明书实施例提供的一种答案生成***的示意图，如图1所示，该答案生成***可以至少包括服务器01和客户端02。

具体的，本说明书实施例中，所述服务器01可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的，所述服务器01可以用于训练得到答案预测模型。

具体的，本说明书实施例中，所述客户端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、智能语音交互设备、智能家电、车载终端等类型的实体设备，也可以包括运行于实体设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。具体的，所述客户端02可以用于在线查询目标问题文本对应的目标答案文本。

以下介绍本申请的一种答案生成方法，图2是本说明书实施例提供的一种答案生成方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

具体的如图2所示，上述方法可以包括：

S201：基于目标文本图像以及与上述目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果。

在本说明书实施例中，目标文本图像为包含文本信息的图像，可以为表单、票据、邮件、合同、报告、证书等对应的图像；目标问题文本为针对目标文本图像中信息所构建的问题文本。上述目标信息拼接结果为上述目标文本图像对应的目标识别文本序列、目标图像块序列以及上述目标问题文本的拼接结果。可以对上述目标文本图像进行解析，得到上述目标识别文本序列以及上述目标图像块序列；将上述目标问题文本、上述目标识别文本序列以及上述目标图像块序列进行拼接，得到目标拼接信息；在上述目标拼接信息中嵌入上述目标问题文本、上述目标识别文本序列以及上述目标图像块序列各自对应的目标位置信息，得到上述目标信息拼接结果。

示例性的，可以获取上述目标识别文本序列中各个目标识别文本对应的一维位置信息、上述目标问题文本对应的一维位置信息以及上述目标图像块序列中各个目标图像块对应的一维位置信息；在上述目标识别文本序列的每个目标识别文本中嵌入每个目标识别文本对应的一维位置信息，得到每个目标识别文本对应的第一目标嵌入文本；在上述目标图像块序列的每个目标图像块中嵌入每个目标图像块对应的一维位置信息，得到每个目标图像块对应的目标嵌入图像块；基于每个上述第一目标嵌入文本以及每个上述目标嵌入图像块，确定上述目标信息拼接结果。

示例性的，可以根据上述目标识别文本序列对应的边界框坐标，确定上述目标识别文本序列中各个目标识别文本在上述目标文本图像中的二维位置信息；在上述目标识别文本序列的每个目标识别文本中，嵌入每个目标识别文本对应的二维位置信息，得到每个目标识别文本对应的第二目标嵌入文本；将每个上述第一目标嵌入文本以及每个第二目标嵌入文本进行拼接，得到目标嵌入拼接文本；将上述目标嵌入拼接文本以及每个上述目标嵌入图像块进行拼接，得到上述目标信息拼接结果。其中，二维位置信息表征目标文本图像在目标文本图像中的布局信息。

S203：将上述目标信息拼接结果输入答案预测模型，生成上述目标问题文本对应的目标答案文本。

在本说明书实施例中，如图3所示，上述将上述目标信息拼接结果输入答案预测模型，生成上述目标问题文本对应的目标答案文本，包括：

S2031：将上述目标信息拼接结果输入上述答案预测模型的多模态编码器进行编码处理，得到目标上下文特征；

在本说明书实施例中，目标上下文特征包括目标上下文文本特征以及目标上下文图像特征；上述目标上下文文本特征为目标识别文本中与上述目标问题文本存在关联关系的文本对应的特征，上述目标上下文图像特征为目标图像块序列中与上述目标问题文本存在关联关系的图像块对应的特征。

S2033：获取上述目标上下文特征中的序列起始单词，得到目标序列起始单词；

S2035：将上述目标序列起始单词输入上述答案预测模型中解码器的第一多头注意力层，进行掩码处理，得到目标掩码特征；

在本说明书实施例中，目标上下文特征中的序列起始单词可以为BOS，其表示序列开始单词，它是解码器的输入序列的第一个单词。

S2037：将上述目标上下文特征以及上述目标掩码特征输入上述解码器的第二多头注意力层，进行交叉注意力学习，生成上述目标问题文本对应的目标答案文本。

示例性的，可以根据多个目标文本图像以及目标问题文本，构建目标信息拼接结果后输入答案预测模型，得到各个目标文本图像对应的目标答案文本；还可以根据同一目标文本图像构建多个目标问题文本，并根据目标文本图像与多个目标问题文本构建目标信息拼接结果后输入答案预测模型，得到每个目标问题文本对应的目标答案文本。

其中，上述答案预测模型的训练方法包括：

S301：基于样本文本图像以及与上述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果。

在本说明书实施例中，上述样本信息拼接结果为上述样本文本图像对应的样本识别文本序列、样本图像块序列以及上述样本问题文本的拼接结果；

示例性的，可以根据多个样本文本图像以及样本问题文本，构建样本信息拼接结果后输入答案预测模型，得到各个样本文本图像对应的样本答案文本；还可以根据同一样本文本图像构建多个样本问题文本，并根据样本文本图像与多个样本问题文本构建样本信息拼接结果后输入答案预测模型，得到每个样本问题文本对应的样本答案文本。

在本说明书实施例中，如图4所示，上述基于样本文本图像以及与上述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果，包括：

S30101：对上述样本文本图像进行解析，得到上述样本识别文本序列以及上述样本图像块序列；

在本说明书实施例中，在样本文本图像的解析过程中，可以通过文本识别模块对样本文本图像进行解析得到样本识别文本序列，文本识别模块可以为OCR(OpticalCharacter Recognition，光学字符识别)；对于全部的样本文本图像，其对应的样本图像块序列中各个样本图像块的数量相同；可以对样本文本图像进行分割，得到至少两个样本图像块，再根据至少两个样本图像块，生成样本图像块序列。

S30103：将上述样本问题文本、上述样本识别文本序列以及上述样本图像块序列进行拼接，得到样本拼接信息；

在本说明书实施例中，可以对样本问题文本、样本识别文本序列以及上述样本图像块序列进行拼接，得到样本拼接信息；对于每个样本拼接信息均可以标注对应的样本答案文本。

S30105：在上述样本拼接信息中嵌入上述样本问题文本、上述样本识别文本序列以及上述样本图像块序列各自对应的样本位置信息，得到上述样本信息拼接结果。

在本说明书实施例中，可以对上述样本文本图像进行解析，得到样本识别文本序列以及样本图像块序列；将样本问题文本、样本识别文本序列以及样本图像块序列进行拼接，得到样本拼接信息；在样本拼接信息中嵌入样本问题文本、样本识别文本序列以及样本图像块序列各自对应的样本位置信息，从而得到多模态的样本信息拼接结果。

在本说明书实施例中，如图5所示，步骤S30105：在上述样本拼接信息中嵌入上述样本问题文本、上述样本识别文本序列以及上述样本图像块序列各自对应的样本位置信息，得到上述样本信息拼接结果，包括：

S301051：获取上述样本识别文本序列中各个样本识别文本对应的一维位置信息、上述样本问题文本对应的一维位置信息以及上述样本图像块序列中各个样本图像块对应的一维位置信息；

在本说明书实施例中，每个样本识别文本对应的一维位置信息表征每个样本识别文本在样本识别文本序列中的位置信息；样本问题文本对应的一维位置信息表征样本问题文本在样本识别文本序列中的位置信息；每个样本图像块对应的一维位置信息表征每个样本图像块在样本图像块序列中的位置信息。

S301053：在上述样本识别文本序列的每个样本识别文本中嵌入每个样本识别文本对应的一维位置信息，得到每个样本识别文本对应的第一样本嵌入文本；

在本说明书实施例中，可以在样本识别文本序列的每个样本识别文本中嵌入每个样本识别文本对应的一维位置信息，得到每个样本识别文本对应的第一样本嵌入文本；从而可以在样本识别文本中融入位置信息，便于后续结合语义信息以及位置信息进行样本答案文本的预测。

S301055：在上述样本图像块序列的每个样本图像块中嵌入每个样本图像块对应的一维位置信息，得到每个样本图像块对应的样本嵌入图像块；

在本说明书实施例中，可以在样本图像块序列的每个样本图像块中嵌入每个样本图像块对应的一维位置信息，得到每个样本图像块对应的样本嵌入图像块；从而可以在样本图像块中融入位置信息，便于后续结合语义信息以及位置信息进行样本答案文本的预测。

S301057：基于每个上述第一样本嵌入文本以及每个上述样本嵌入图像块，确定上述样本信息拼接结果。

在本说明书实施例中，可以对每个第一样本嵌入文本以及每个样本嵌入图像块进行拼接，从而得到多模态的样本信息拼接结果。

在本说明书实施例中，上述方法还包括：

根据上述样本识别文本序列对应的边界框坐标，确定上述样本识别文本序列中各个样本识别文本在上述样本文本图像中的二维位置信息；

在上述样本识别文本序列的每个样本识别文本中，嵌入每个样本识别文本对应的二维位置信息，得到每个样本识别文本对应的第二样本嵌入文本；

其中，基于每个上述第一样本嵌入文本以及每个上述样本嵌入图像块，确定上述样本信息拼接结果，包括：

将每个上述第一样本嵌入文本以及每个第二样本嵌入文本进行拼接，得到样本嵌入拼接文本；

将上述样本嵌入拼接文本以及每个上述样本嵌入图像块进行拼接，得到上述样本信息拼接结果。

在本说明书实施例中，对于样本图像块取消了二维位置信息的嵌入，对于样本问题文本使用全零空边界框；等效于取消二维位置信息嵌入，即仅在样本图像块、样本问题文本中嵌入一维位置信息，从而降低模型训练过程中的运算量，并提高样本信息拼接结果的准确率。

S303：将上述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征。

在本说明书实施例中，上述待训练多模态编码器包括待训练文本提取网络、待训练图像提取网络以及待训练特征拼接网络，如图6所示，将上述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征，包括：

S3031：将上述样本信息拼接结果输入待训练模型的待训练多模态编码器，基于上述待训练文本提取网络，提取上述样本识别文本序列中与上述样本问题文本存在关联关系的文本对应的特征，得到样本上下文文本特征；

S3033：基于上述待训练图像提取网络，提取上述样本图像块序列中与上述样本问题文本存在关联关系的图像块对应的特征，得到样本上下文图像特征；

S3035：基于上述待训练特征拼接网络，对上述样本上下文文本特征以及上述样本上下文图像特征进行拼接，得到上述样本上下文特征。

在本说明书实施例中，可以将样本信息拼接结果输入待训练模型的待训练多模态编码器，根据待训练文本提取网络，提取上述样本识别文本序列中与上述样本问题文本存在关联关系的文本对应的特征，得到样本上下文文本特征；根据待训练图像提取网络，提取上述样本图像块序列中与上述样本问题文本存在关联关系的图像块对应的特征，得到样本上下文图像特征；再根据待训练特征拼接网络，对上述样本上下文文本特征以及上述样本上下文图像特征进行拼接，得到样本上下文特征；从而实现将样本上下文文本特征以及样本上下文图像特征进行融合，得到样本上下文特征。

S305：将样本序列起始单词以及上述样本问题文本对应的样本答案文本，输入上述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征；上述样本序列起始单词为上述样本上下文特征中的序列起始单词。

在本说明书实施例中，如图7所示，上述将样本序列起始单词以及上述样本问题文本对应的样本答案文本，输入上述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征，包括：

S3051：将上述样本序列起始单词，输入上述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本初始结果；

在本说明书实施例中，第一预设注意力层可以为第一多头注意力层，可以通过预设掩码策略对样本序列起始单词，进行掩码处理，得到样本初始结果。即解码器在解码时按照先后顺序，为了防止标签泄露，使用注意力掩码使先前的单词无法关注到未来的单词信息。

S3053：将上述样本答案文本，输入上述待训练模型中待训练解码器的第一预设注意力层，进行单词解析，得到样本答案单词序列；

在本说明书实施例中，可以对样本答案文本进行单词解析，得到样本答案单词序列，其中，样本答案单词序列中样本答案单词可以为预设维度的单词。

S3055：基于上述样本初始结果，确定上述样本答案单词序列中各个样本答案单词对应的样本词特征；

示例性的，如图8所示，上述基于上述样本初始结果，确定上述样本答案单词序列中各个样本答案单词对应的样本词特征，包括：

S30551：将样本答案单词序列中排序首位的样本答案单词作为当前样本单词；

S30553：对上述样本答案单词序列中位于上述当前样本单词之后的单词进行掩码处理，得到当前掩码后的样本答案单词序列；

S30555：根据上述样本初始结果以及上述当前掩码后的样本答案单词序列，确定上述当前样本单词对应的当前样本词特征；

S30557：将上述样本答案单词序列中位于上述当前样本单词后一位的样本答案单词重新作为当前样本单词；

S30559：重复对上述样本答案单词序列中位于上述当前样本单词之后的单词进行掩码处理，得到当前掩码后的样本答案单词序列至上述将上述样本答案单词序列中位于上述当前样本单词后一位的样本答案单词重新作为当前样本单词的步骤，直至上述样本答案单词序列中不存在位于上述当前样本单词后一位的样本答案单词；

S305511：将上述样本答案单词序列中各个当前样本单词各自对应的当前样本词特征，确定为上述样本答案单词序列中各个样本答案单词对应的样本词特征。

在本说明书实施例中，可以获取样本答案单词序列中排序第一位的第一样本答案单词；将样本答案单词序列中位于第一样本答案单词之后的单词进行掩码处理，得到第一掩码样本答案单词序列；根据上述样本初始结果以及第一掩码样本答案单词序列，确定第一样本答案单词对应的第一样本词特征；获取样本答案单词序列中排序第二位的第二样本答案单词；将样本答案单词序列中位于第二样本答案单词之后的单词进行掩码处理，得到第二掩码样本答案单词序列；根据上述样本初始结果以及第二掩码样本答案单词序列，确定第二样本答案单词对应的第二样本词特征；以此类推，依次得到样本答案单词序列中各个样本答案单词对应的样本词特征。

S3057：基于上述样本答案单词序列中各个样本答案单词对应的样本词特征，确定上述样本掩码特征。

在本说明书实施例中，可以将样本答案单词序列中各个样本答案单词对应的样本词特征进行拼接，得到样本掩码特征。

S307：将上述样本上下文特征以及上述样本掩码特征，输入上述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果。

在本说明书实施例中，第二预设注意力层可以为第二多头注意力层；将上述样本上下文特征以及上述样本掩码特征，输入上述待训练解码器的第二预设注意力层，进行交叉注意力学习；注意力机制中的K，V矩阵使用样本上下文特征进行计算，而Q矩阵使用第一预设注意力层输出的样本掩码特征进行计算，这样每一个单词都可以利用到编码器编码后所有单词的信息。在文档问答过程中，交叉注意力机制使答案生成的过程持续关注编码器编码后的深层多模态语义信息，对生成答案具有指导作用。

在本说明书实施例中，上述将上述样本上下文特征以及上述样本掩码特征，输入上述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果，包括：

将上述样本上下文特征以及上述样本掩码特征，输入上述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本预测单词集；

将上述预测单词集中每个样本预测单词按照每个样本预测单词所对应的位置信息进行拼接，生成上述样本答案预测结果。

在本说明书实施例中，可以利用柔性最大传递函数(Softmax)预测样本答案单词，Softmax函数对解码器最终的输出，计算概率分布，从而预测得出各个样本答案单词；再根据各个样本答案单词，生成样本答案文本。

示例性的，可以在解码器的最终层后添加语言模型头部(LM Head)以预测样本答案单词。由于模型此时是编码器-解码器架构，所以问答任务建模为文本自回归生成任务。在训练期间可以使用教师强制策略；教师强制是一种快速有效地训练循环神经网络模型的方法，该模型使用来自先前时间步长的输出作为输入。

S309：基于上述样本答案预测结果与上述样本答案文本之间的差异，对上述待训练模型进行训练，得到答案预测模型。

在本说明书实施例中，如图9所示，基于上述样本答案预测结果与上述样本答案文本之间的差异，对上述待训练模型进行训练，得到上述答案预测模型，包括：

S3091：根据上述样本答案预测结果中每个样本预测单词的位置信息以及上述样本答案文本中每个样本答案单词的位置信息，构建各个样本预测单词与各个样本答案单词之间的映射关系；

其中，样本预测单词与样本答案单词为一一对应关系。

S3093：根据上述映射关系，确定每个样本预测单词与每个样本预测单词对应的样本答案单词之间的交叉熵损失数据；

S3095：根据每个样本预测单词对应的交叉熵损失数据，对上述待训练模型的模型参数进行调整，直至满足训练结束条件；

S3097：将训练结束时的待训练模型，确定为上述答案预测模型。

在本说明书实施例中，训练结束条件可以通过交叉熵损失数据、训练迭代次数中的至少一项确定；例如，可以将交叉熵损失数据小于预设阈值时的待训练模型确定为答案预测模型。

示例性的，如图10所示，图10为一种答案预测模型的结构示意图，其中，答案预测模型为LayoutLMv3-Decoder架构，包括多模态编码器以及解码器，其中，多模态编码器为LayoutLMv3编码器，解码器为BART解码器；使用自注意力机制实现图像和文本模态内及跨模态交互；通过交叉注意力机制与编码器的多模态信息实现交互。

在本说明书实施例中，如图11所示，图11为LayoutLMv3编码器的结构示意图，LayoutLMv3采用了单编码器架构，应用统一的文本图像多模态转换模块(Transformer)来学习跨模态表示。该多模态Transformer具有多层架构，每层主要由多头多模态自注意力层和全连接网络组成。LayoutLMv3的输入由文本嵌入T＝{t₀，t₁，…，t_L-1}和图像嵌入V＝{v₀，v₁，…，v_M-1}两个序列拼接组成，其中，L和M分别是文本和图像的序列长度。原始的文本和图像特征通过编码器后，最后一层输出文本和图像上下文表示，即目标上下文文本特征以及目标上下文图像特征。SEP标记的作用是分隔不同句子之间的标记。在输入序列中，如果存在多个句子，需要用SEP标记将它们分隔开来。SEP标记的存在有助于模型理解句子之间的关系，同时也方便模型进行下游任务的处理。编码器中的SPE是指具有步长为2的2D/3D卷积块，降低特征分辨率。相反，解码器中的SPE是2D/3D转置卷积块，这增加了特征分辨率。

如图11所示，LayoutLMv3编码器中包括文本嵌入处理、图像嵌入处理以及布局嵌入处理；在处理经过光学字符识别的文本输入时，LayoutLMv3使用字节对编码(BPE)的方式对OCR文本序列进行标识化，然后在文本序列的起始位置前添加[CLS]标记，在序列结束位置后面添加[SEP]标记，为了对齐文本序列的长度，当其小于L时添加[PAD]标记。对于单词嵌入的设置，使用来自预训练模型的单词嵌入矩阵来初始化。最终的文本嵌入将单词嵌入和一维位置嵌入相加，单词嵌入是token本身的嵌入表示，一维位置嵌入是token的索引表示。LayoutLMv3在将文档图像输入到多模态Transformer之前，将图像划分为多个图像块(imagepatch)然后进行线性投影。具体做法如下，先将文档图像尺寸重置到H×W，分别表示图像的高度和宽度，此时图像可表示为 C表示图片通道数。然后将图像划分成多个P×P的图像块，再使用线性投影层将图像块投影到和文本嵌入相同的特征空间维度D再展平，此时得到长度为M＝HW/P2的图像向量序列。由于划分图像块的方式无法捕捉到位置信息，所以要再对每个图像嵌入添加可学习的一维位置嵌入。LayoutLMv3是文档智能模型中第一个不依赖卷积神经网络(Convolutional Neural Networks，CNN)来提取图像特征的多模态模型，不仅减少了参数量还省去了复杂的图像预处理步骤。布局嵌入层的作用是从边界框的坐标表示中嵌入空间布局信息，其中边界框的高度、宽度以及四个边界坐标由OCR引擎识别。具体来讲，OCR识别得到的边界框坐标表示文本在文档图像中的二维位置(2D Position)。对于文档文本，LayoutLMv3沿用前代的方法，根据图像的尺寸对所有坐标归一化到区间[0，1000]，并使用不同的嵌入层分别嵌入X轴、Y轴、宽度W和高度H特征。LayoutLMv3采用片段级布局位置，即一句文本中的单词共享相同的边界框，因为片段中的单词通常表达相同的语义；对于图像块，实验表明添加布局嵌入没有提升，因此不使用图像布局嵌入。对于问题文本和特殊标记如[CLS]，[PAD]，[SEP]，使用空边界框box＝(0，0，0，0，0，0)。给定第i个(0≤i<L)文本单词的共享边界框，布局嵌入层先分别嵌入六个特征，然后按嵌入维度拼接到文本特征空间，以构建文本二维位置嵌入；编码器将图像嵌入和文本嵌入拼接为一个统一的序列，通过添加布局嵌入来融合空间信息，以获得第i个(0≤i<L+M)token的第一层输入。LayoutLMv3的自注意力内部采用了空间感知的自注意力机制，在计算自注意力得分中加入了相对位置信息作为偏差项。文档智能模型通常根据Transformer的架构构造多模态编码器，编码器由多块多头自注意层和前馈网络组成。然而由于位置信息是以绝对位置的形式输入，常规的自注意力机制只能隐式地获取输入token之间的关系，考虑到文档布局中的局部不变性，需要***相对位置信息来表示偏差，因此，LayoutLMv3将空间自注意力机制引入到注意力层中。

在本说明书实施例中，使用LayoutLMv3和LayoutLMv3Decoder两个模型分别在经过文本识别模块识别的DocVQA训练集上训练，DocVQA是一个关于文档图像信息提取的开放式问答数据集。该数据集在对文件结构理解的问题上进行了改进。数据集包含在12000多个文件图像上定义了的5万个问题。在验证集上验证模型，并在测试集上评估字符串相似度(Average Normalized Levenshtein Similarity，ANLS)和准确率(Accuracy)。测试结果如下表1所示：

表1

其中，“-”表示不明确，“*”表示在完整训练集上训练，模态T表示文本，L表示布局(二维位置信息)，V表示图像。BERT：全称Bidirectional Encoder Representation fromTransformers，为一种预训练语言模型。RoBERTa是BERT的改进版，相比于BERT，其具有更大的模型参数量、更多的训练数据。LayoutLM是在BERT模型结构基础上,新增了两个输入特征：2-D位置特征与图像特征。Donut由一个视觉编码器和一个思维逻辑层次模型(Neuro-Linguistic Programming，NLP)的语言解码器构成。Dessurt为离散化模型。

从表1中可以看到，在参数量处于同一量级下，LayoutLMv3Decoder在DocVQA数据集上达到了比微调LayoutLMv3基本模型更好的性能，测试集ANLS提升约1.44个百分点，同时答案准确率提升5.94个百分点。这个结果说明，为编码器架构的LayoutLMv3连接BART解码器，改变抽取式任务为生成式任务，对于性能提升是有益的。而准确率相对于ANLS有更大的提升，可见，添加解码器能够减轻模型对OCR噪声文本的敏感程度，从而生成更准确的答案。

同时可以看到LayoutLMv3模型相比于BERT和RoBERTa两种接受纯文本模态输入的模型，能够达到更好的性能。而LayoutLM虽然也接受三个模态的输入，但性能提升不及LayoutLMv3，推测是由于其视觉信息的输入采用加和而非拼接的方式，导致跨模态的对齐的缺失。相比于只接受视觉模态信息的生成模型Donut和Dessurt，其性能仍不及BERT，说明文本信息的输入对于DocVQA任务至关重要。

在本说明书实施例中，保持训练样本以及其他设置不变，分别使用两种OCR识别后的数据集进行训练，在测试集上评价ANLS指标和Accuracy指标，得到的OCR对比实验的结果如下表2所示：

表2：

模型	OCR	ANLS	准确率
				LayoutLMv3	Tesseract	70.38	53.88
LayoutLMv3Decoder	Tesseract	72.96	63.15
				LayoutLMv3	Microsoft	73.03	60.57
LayoutLMv3Decoder	Microsoft	74.47	66.51

其中，tesseract为开源的光学字符识别引擎，Microsoft为微软光学字符识别算法；无论使用LayoutLMv3还是LayoutLMv3Decoder，使用较差的OCR(Tesseract)识别后的数据集训练模型都会产生更差的性能；而LayoutLMv3Decoder在OCR识别能力下降后，测试集ANLS和准确率的下降幅度(ANLS下降1.51，准确率下降3.36)均小于LayoutLMv3(ANLS下降2.65，准确率下降6.69)。这个实验结果从另一个角度说明，LayoutLMv3结合解码器能够减轻OCR能力的降低对模型性能的负面影响。

在一示例性实施例中，当文本识别模块基于目标文本图像识别得到的目标识别文本序列出现错误时，例如，识别过程中遗漏了“let yourself grow！”的“let”字样，但是LayoutLMv3-Decoder还是在利用了视觉信息的同时结合解码器生成了正确答案。

由以上本说明书实施例提供的技术方案可见，本说明书实施例基于目标文本图像以及与目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果；将目标信息拼接结果输入答案预测模型，生成目标问题文本对应的目标答案文本；其中，答案预测模型的训练方法包括：基于样本文本图像以及与样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果；将样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征；将样本序列起始单词以及样本问题文本对应的样本答案文本，输入待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征；样本序列起始单词为样本上下文特征中的序列起始单词；将样本上下文特征以及样本掩码特征，输入待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果；基于样本答案预测结果与样本答案文本之间的差异，对待训练模型进行训练，得到答案预测模型。本申请将多模态编码器与解码器进行拼接后，联合训练得到答案预测模型，由于将答案预测任务建模为生成范式，所以，模型不需要在输入文本中抽取片段作为答案，从而降低了模型在生成答案时对文本识别模块的依赖，减轻了模型对文本识别模块识别的噪声文本的敏感度，同时能够弥补多模态编码器无法给出多跨度答案的缺陷，且解码器的加入提高了答案预测模型的理解能力，提高了模型预测答***率。

本说明书实施例还提供了一种答案生成装置，如图12所示，上述装置包括：

目标拼接结果确定模块1210，用于基于目标文本图像以及与上述目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果；

答案文本生成模块1220，用于将上述目标信息拼接结果输入答案预测模型，生成上述目标问题文本对应的目标答案文本；

模型训练模块1230，用于训练得到上述答案预测模型；

其中，上述模型训练模块包括：

样本结果确定子模块12310，用于基于样本文本图像以及与上述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果；

样本上下文特征确定子模块12320，用于将上述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征；

样本掩码特征确定子模块12330，用于将样本序列起始单词以及上述样本问题文本对应的样本答案文本，输入上述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征；上述样本序列起始单词为上述样本上下文特征中的序列起始单词；

样本答案预测结果确定子模块12340，用于将上述样本上下文特征以及上述样本掩码特征，输入上述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果；

模型训练子模块12350，用于基于上述样本答案预测结果与上述样本答案文本之间的差异，对上述待训练模型进行训练，得到上述答案预测模型。

在一些实施例中，上述样本掩码特征确定子模块可以包括：

样本结果确定单元，用于将上述样本序列起始单词，输入上述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本初始结果；

样本答案序列确定单元，用于将上述样本答案文本，输入上述待训练模型中待训练解码器的第一预设注意力层，进行单词解析，得到样本答案单词序列；

样本词特征确定单元，用于基于上述样本初始结果，确定上述样本答案单词序列中各个样本答案单词对应的样本词特征；

样本掩码特征确定单元，用于基于上述样本答案单词序列中各个样本答案单词对应的样本词特征，确定上述样本掩码特征。

在一些实施例中，上述样本词特征确定单元可以包括：

当前单词确定子单元，用于将上述样本答案单词序列中排序首位的样本答案单词作为当前样本单词；

当前答案序列确定子单元，用于对上述样本答案单词序列中位于上述当前样本单词之后的单词进行掩码处理，得到当前掩码后的样本答案单词序列；

当前样本词特征确定子单元，用于根据上述样本初始结果以及上述当前掩码后的样本答案单词序列，确定上述当前样本单词对应的当前样本词特征；

当前单词更新子单元，用于将上述样本答案单词序列中位于上述当前样本单词后一位的样本答案单词重新作为当前样本单词；

重复子单元，用于重复上述对上述样本答案单词序列中位于上述当前样本单词之后的单词进行掩码处理，得到当前掩码后的样本答案单词序列至上述将上述样本答案单词序列中位于上述当前样本单词后一位的样本答案单词重新作为当前样本单词的步骤，直至上述样本答案单词序列中不存在位于上述当前样本单词后一位的样本答案单词；

样本词特征确定子单元，用于将上述样本答案单词序列中各个当前样本单词各自对应的当前样本词特征，确定为上述样本答案单词序列中各个样本答案单词对应的样本词特征。

在一些实施例中，上述样本答案预测结果确定子模块可以包括：

样本预测单词确定单元，用于将上述样本上下文特征以及上述样本掩码特征，输入上述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本预测单词集；

信息拼接单元，用于将上述预测单词集中每个样本预测单词按照每个样本预测单词所对应的位置信息进行拼接，生成上述样本答案预测结果。

在一些实施例中，上述模型训练子模块可以包括：

映射关系构建单元，用于根据上述样本答案预测结果中每个样本预测单词的位置信息以及上述样本答案文本中每个样本答案单词的位置信息，构建各个样本预测单词与各个样本答案单词之间的映射关系；

损失数据确定单元，用于根据上述映射关系，确定每个样本预测单词与每个样本预测单词对应的样本答案单词之间的交叉熵损失数据；

训练单元，用于根据每个样本预测单词对应的交叉熵损失数据，对上述待训练模型的模型参数进行调整，直至满足训练结束条件；

模型确定单元，用于将训练结束时的待训练模型，确定为上述答案预测模型。

在一些实施例中，上述样本结果确定子模块可以包括：

图像解析单元，用于对上述样本文本图像进行解析，得到上述样本识别文本序列以及上述样本图像块序列；

序列拼接单元，用于将上述样本问题文本、上述样本识别文本序列以及上述样本图像块序列进行拼接，得到样本拼接信息；

拼接结果确定单元，用于在上述样本拼接信息中嵌入上述样本问题文本、上述样本识别文本序列以及上述样本图像块序列各自对应的样本位置信息，得到上述样本信息拼接结果。

在一些实施例中，上述拼接结果确定单元可以包括：

一维位置信息获取单元，用于获取上述样本识别文本序列中各个样本识别文本对应的一维位置信息、上述样本问题文本对应的一维位置信息以及上述样本图像块序列中各个样本图像块对应的一维位置信息；

第一位置嵌入单元，用于在上述样本识别文本序列的每个样本识别文本中嵌入每个样本识别文本对应的一维位置信息，得到每个样本识别文本对应的第一样本嵌入文本；

样本嵌入图像块确定单元，用于在上述样本图像块序列的每个样本图像块中嵌入每个样本图像块对应的一维位置信息，得到每个样本图像块对应的样本嵌入图像块；

样本信息拼接结果确定单元，用于基于每个上述第一样本嵌入文本以及每个上述样本嵌入图像块，确定上述样本信息拼接结果。

在一些实施例中，上述装置还可以包括：

二维位置信息确定模块，用于根据上述样本识别文本序列对应的边界框坐标，确定上述样本识别文本序列中各个样本识别文本在上述样本文本图像中的二维位置信息；

第二位置嵌入模块，用于在上述样本识别文本序列的每个样本识别文本中，嵌入每个样本识别文本对应的二维位置信息，得到每个样本识别文本对应的第二样本嵌入文本；

在一些实施例中，上述样本信息拼接结果确定单元可以包括：

样本嵌入拼接文本确定子单元，用于将每个上述第一样本嵌入文本以及每个第二样本嵌入文本进行拼接，得到样本嵌入拼接文本；

样本信息拼接结果确定子单元，用于将上述样本嵌入拼接文本以及每个上述样本嵌入图像块进行拼接，得到上述样本信息拼接结果。

在一些实施例中，上述待训练多模态编码器包括待训练文本提取网络、待训练图像提取网络以及待训练特征拼接网络，上述装置还可以包括：

在一些实施例中，上述样本上下文特征确定子模块包括：

第一特征提取单元，用于将上述样本信息拼接结果输入待训练模型的待训练多模态编码器，基于上述待训练文本提取网络，提取上述样本识别文本序列中与上述样本问题文本存在关联关系的文本对应的特征，得到样本上下文文本特征；

第二特征提取单元，用于基于上述待训练图像提取网络，提取上述样本图像块序列中与上述样本问题文本存在关联关系的图像块对应的特征，得到样本上下文图像特征；

特征拼接单元，用于基于上述待训练特征拼接网络，对上述样本上下文文本特征以及上述样本上下文图像特征进行拼接，得到上述样本上下文特征。

在一些实施例中，上述答案文本生成模块可以包括：

目标上下文特征确定单元，用于将上述目标信息拼接结果输入上述答案预测模型的多模态编码器进行编码处理，得到目标上下文特征；上述目标上下文特征包括目标上下文文本特征以及目标上下文图像特征；上述目标上下文文本特征为上述目标识别文本中与上述目标问题文本存在关联关系的文本对应的特征，上述目标上下文图像特征为上述目标图像块序列中与上述目标问题文本存在关联关系的图像块对应的特征；

目标序列起始单词确定单元，用于获取上述目标上下文特征中的序列起始单词，得到目标序列起始单词；

目标掩码特征确定单元，用于将上述目标序列起始单词输入上述答案预测模型中解码器的第一多头注意力层，进行掩码处理，得到目标掩码特征；

目标答案文本生成单元，用于将上述目标上下文特征以及上述目标掩码特征输入上述解码器的第二多头注意力层，进行交叉注意力学习，生成上述目标问题文本对应的目标答案文本。

上述的装置实施例中的装置与方法实施例基于同样地发明构思。

本说明书实施例提供了一种电子设备，该设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的答案生成方法。

本申请的实施例还提供了一种计算机存储介质，所述存储介质可设置于终端之中以保存用于实现方法实施例中一种答案生成方法相关的至少一条指令或至少一段程序，该至少一条指令或至少一段程序由该处理器加载并执行以实现上述方法实施例提供的答案生成方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行以实现上述方法实施例提供的答案生成方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例所述存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本说明书实施例所提供的答案生成方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图13是本说明书实施例提供的一种答案生成方法的服务器的硬件结构框图。如图13所示，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central ProcessingUnits，CPU)1310(中央处理器1310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1330，一个或一个以上存储应用程序1323或数据1322的存储介质1320(例如一个或一个以上海量存储设备)。其中，存储器1330和存储介质1320可以是短暂存储或持久存储。存储在存储介质1320的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1310可以设置为与存储介质1320通信，在服务器1300上执行存储介质1320中的一系列指令操作。服务器1300还可以包括一个或一个以上电源1360，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1340，和/或，一个或一个以上操作***1321，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口1340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1300的通信供应商提供的无线网络。在一个实例中，输入输出接口1340包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1340可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图13所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1300还可包括比图13中所示更多或者更少的组件，或者具有与图13所示不同的配置。

由上述本申请提供的答案生成方法、装置、设备或存储介质的实施例可见，本申请基于目标文本图像以及与目标文本图像存在关联关系的目标问题文本，确定目标信息拼接结果；将目标信息拼接结果输入答案预测模型，生成目标问题文本对应的目标答案文本；其中，答案预测模型的训练方法包括：基于样本文本图像以及与样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果；将样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征；将样本序列起始单词以及样本问题文本对应的样本答案文本，输入待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征；样本序列起始单词为样本上下文特征中的序列起始单词；将样本上下文特征以及样本掩码特征，输入待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果；基于样本答案预测结果与样本答案文本之间的差异，对待训练模型进行训练，得到答案预测模型。本申请将多模态编码器与解码器进行拼接后，联合训练得到答案预测模型，由于将答案预测任务建模为生成范式，所以，模型不需要在输入文本中抽取片段作为答案，从而降低了模型在生成答案时对文本识别模块的依赖，减轻了模型对文本识别模块识别的噪声文本的敏感度，同时能够弥补多模态编码器无法给出多跨度答案的缺陷，且解码器的加入提高了答案预测模型的理解能力，提高了模型预测答***率。

需要说明的是：上述本说明书实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种答案生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将样本序列起始单词以及所述样本问题文本对应的样本答案文本，输入所述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本掩码特征，包括：

将所述样本序列起始单词，输入所述待训练模型中待训练解码器的第一预设注意力层，进行掩码处理，得到样本初始结果；

将所述样本答案文本，输入所述待训练模型中待训练解码器的第一预设注意力层，进行单词解析，得到样本答案单词序列；

基于所述样本初始结果，确定所述样本答案单词序列中各个样本答案单词对应的样本词特征；

基于所述样本答案单词序列中各个样本答案单词对应的样本词特征，确定所述样本掩码特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述样本初始结果，确定所述样本答案单词序列中各个样本答案单词对应的样本词特征，包括：

将所述样本答案单词序列中排序首位的样本答案单词作为当前样本单词；

对所述样本答案单词序列中位于所述当前样本单词之后的单词进行掩码处理，得到当前掩码后的样本答案单词序列；

根据所述样本初始结果以及所述当前掩码后的样本答案单词序列，确定所述当前样本单词对应的当前样本词特征；

将所述样本答案单词序列中位于所述当前样本单词后一位的样本答案单词重新作为当前样本单词；

重复所述对所述样本答案单词序列中位于所述当前样本单词之后的单词进行掩码处理，得到当前掩码后的样本答案单词序列至所述将所述样本答案单词序列中位于所述当前样本单词后一位的样本答案单词重新作为当前样本单词的步骤，直至所述样本答案单词序列中不存在位于所述当前样本单词后一位的样本答案单词；

将所述样本答案单词序列中各个当前样本单词各自对应的当前样本词特征，确定为所述样本答案单词序列中各个样本答案单词对应的样本词特征。

4.根据权利要求1所述的方法，其特征在于，所述将所述样本上下文特征以及所述样本掩码特征，输入所述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本答案预测结果，包括：

将所述样本上下文特征以及所述样本掩码特征，输入所述待训练解码器的第二预设注意力层，进行交叉注意力学习，得到样本预测单词集；

将所述预测单词集中每个样本预测单词按照每个样本预测单词所对应的位置信息进行拼接，生成所述样本答案预测结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述样本答案预测结果与所述样本答案文本之间的差异，对所述待训练模型进行训练，得到所述答案预测模型，包括：

根据所述样本答案预测结果中每个样本预测单词的位置信息以及所述样本答案文本中每个样本答案单词的位置信息，构建各个样本预测单词与各个样本答案单词之间的映射关系；

根据所述映射关系，确定每个样本预测单词与每个样本预测单词对应的样本答案单词之间的交叉熵损失数据；

根据每个样本预测单词对应的交叉熵损失数据，对所述待训练模型的模型参数进行调整，直至满足训练结束条件；

将训练结束时的待训练模型，确定为所述答案预测模型。

6.根据权利要求1所述的方法，其特征在于，所述基于样本文本图像以及与所述样本文本图像存在关联关系的样本问题文本，确定样本信息拼接结果，包括：

对所述样本文本图像进行解析，得到所述样本识别文本序列以及所述样本图像块序列；

将所述样本问题文本、所述样本识别文本序列以及所述样本图像块序列进行拼接，得到样本拼接信息；

在所述样本拼接信息中嵌入所述样本问题文本、所述样本识别文本序列以及所述样本图像块序列各自对应的样本位置信息，得到所述样本信息拼接结果。

7.根据权利要求6所述的方法，其特征在于，所述在所述样本拼接信息中嵌入所述样本问题文本、所述样本识别文本序列以及所述样本图像块序列各自对应的样本位置信息，得到所述样本信息拼接结果，包括：

获取所述样本识别文本序列中各个样本识别文本对应的一维位置信息、所述样本问题文本对应的一维位置信息以及所述样本图像块序列中各个样本图像块对应的一维位置信息；

在所述样本识别文本序列的每个样本识别文本中嵌入每个样本识别文本对应的一维位置信息，得到每个样本识别文本对应的第一样本嵌入文本；

在所述样本图像块序列的每个样本图像块中嵌入每个样本图像块对应的一维位置信息，得到每个样本图像块对应的样本嵌入图像块；

基于每个所述第一样本嵌入文本以及每个所述样本嵌入图像块，确定所述样本信息拼接结果。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述样本识别文本序列对应的边界框坐标，确定所述样本识别文本序列中各个样本识别文本在所述样本文本图像中的二维位置信息；

在所述样本识别文本序列的每个样本识别文本中，嵌入每个样本识别文本对应的二维位置信息，得到每个样本识别文本对应的第二样本嵌入文本；

所述基于每个所述第一样本嵌入文本以及每个所述样本嵌入图像块，确定所述样本信息拼接结果，包括：

将每个所述第一样本嵌入文本以及每个第二样本嵌入文本进行拼接，得到样本嵌入拼接文本；

将所述样本嵌入拼接文本以及每个所述样本嵌入图像块进行拼接，得到所述样本信息拼接结果。

9.根据权利要求6所述的方法，其特征在于，所述待训练多模态编码器包括待训练文本提取网络、待训练图像提取网络以及待训练特征拼接网络，所述将所述样本信息拼接结果输入待训练模型的待训练多模态编码器进行编码处理，得到样本上下文特征，包括：

将所述样本信息拼接结果输入待训练模型的待训练多模态编码器，基于所述待训练文本提取网络，提取所述样本识别文本序列中与所述样本问题文本存在关联关系的文本对应的特征，得到样本上下文文本特征；

基于所述待训练图像提取网络，提取所述样本图像块序列中与所述样本问题文本存在关联关系的图像块对应的特征，得到样本上下文图像特征；

基于所述待训练特征拼接网络，对所述样本上下文文本特征以及所述样本上下文图像特征进行拼接，得到所述样本上下文特征。

10.根据权利要求1-9中任意一项所述的方法，其特征在于，所述将所述目标信息拼接结果输入答案预测模型，生成所述目标问题文本对应的目标答案文本，包括：

将所述目标信息拼接结果输入所述答案预测模型的多模态编码器进行编码处理，得到目标上下文特征；所述目标上下文特征包括目标上下文文本特征以及目标上下文图像特征；所述目标上下文文本特征为所述目标识别文本中与所述目标问题文本存在关联关系的文本对应的特征，所述目标上下文图像特征为所述目标图像块序列中与所述目标问题文本存在关联关系的图像块对应的特征；

获取所述目标上下文特征中的序列起始单词，得到目标序列起始单词；

将所述目标序列起始单词输入所述答案预测模型中解码器的第一多头注意力层，进行掩码处理，得到目标掩码特征；

将所述目标上下文特征以及所述目标掩码特征输入所述解码器的第二多头注意力层，进行交叉注意力学习，生成所述目标问题文本对应的目标答案文本。

11.一种答案生成装置，其特征在于，所述装置包括：

模型训练模块，用于训练得到所述答案预测模型；

其中，所述模型训练模块包括：

12.一种电子设备，其特征在于，所述设备包括：处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-10任一所述的答案生成方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-10任一所述的答案生成方法。

14.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1-10任一所述的答案生成方法。