CN112148836A

CN112148836A - 多模态信息处理方法、装置、设备及存储介质

Info

Publication number: CN112148836A
Application number: CN202010928220.6A
Authority: CN
Inventors: 柴琛林; 李航
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-29

Abstract

本申请实施例提供一种多模态信息处理方法、装置、设备及存储介质。该方法包括：获取至少一种第一模态信息；根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息；输出多模态信息。从而可以满足用户需求，也可以提高该多模态信息处理方法的适用性。

Description

多模态信息处理方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，并且更具体地，涉及一种多模态信息处理方法、装置、设备及存储介质。

背景技术

目前许多信息查询技术都综合运用了自然语言处理、信息检索、人工智能等技术。例如：智能问答技术是综合运用了自然语言处理、信息检索、人工智能等技术的一种新型的信息服务技术。与传统的搜索引擎不同，自动问答***以自然语音句子提问，***分析并理解用户的问题，返回用户想要的答案。

发明内容

本申请实施例提供了一种多模态信息处理方法、装置、设备及存储介质。

第一方面，本申请实施例提供一种多模态信息处理方法，包括：获取至少一种第一模态信息；根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息；输出多模态信息。

第二方面，本申请实施例提供一种多模态信息处理方法，包括：获取第一训练数据，第一训练数据包括：至少一种第二模态信息；通过第一训练数据训练预训练语言模型；其中，预训练语言模型用于根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息。

第三方面，本申请实施例提供一种多模态信息处理装置，包括：第一获取模块、确定模块、输出模块，其中，第一获取模块用于获取至少一种第一模态信息；确定模块用于根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息；输出模块用于输出多模态信息。

第四方面，本申请实施例提供一种多模态信息处理装置，包括：第一获取模块和第一训练模块，其中第一获取模块用于获取第一训练数据，第一训练数据包括：至少一种第二模态信息；第一训练模块用于通过第一训练数据训练预训练语言模型；其中，预训练语言模型用于根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息。

第五方面，提供了一种电子设备，包括：

处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行本申请任意实施例的方法。

第六方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行本申请任意实施例的方法。

在本申请实施例中，可以根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息，即在本申请实施例中，实现了单模态或者多模态信息输入，和，多模态信息输出，相对于单模态信息输入输出的方式，这种单模态或者多模态信息输入，和，多模态信息输出可以满足用户对信息多样性呈现的需求，也可以提高该多模态信息处理方法的适用性。

进一步地，本申请实施例通过预训练语言模型实现端到端的输入和输出，即该预训练语言模型是基于神经网络的模型，只需要将至少一种模态信息输入至该模型，即可输出多模态信息。这种端到端的输入和输出方式可以提高信息处理效率。

更进一步地，本申请实施例基于神经网络的模型进行信息处理，而不是基于传统的机器学习模型或者是人工规则进行信息处理，相对于基于传统的机器学习模型或者是人工规则的信息处理方式，本申请基于神经网络模型的信息处理方式可以提高信息处理效率。

附图说明

图1A是本申请一实施例提供的智能问答场景示意图；

图1B是本申请一实施例提供的智能问答场景示意图；

图2为本申请一实施例提供的多模态信息处理过程的示意图；

图3为本申请一实施例提供的图像模态的问题示意图；

图4为本申请一实施例提供的一种多模态信息处理方法的流程图；

图5为本申请一实施例提供的确定多模态信息的方法流程图；

图6为本申请一实施例提供的预训练语言模型的示意图；

图7为本申请另一实施例提供的预训练语言模型的示意图；

图8为本申请另一实施例提供的确定多模态信息的方法流程图；

图9为本申请再一实施例提供的预训练语言模型的示意图；

图10为本申请又一实施例提供的预训练语言模型的示意图；

图11为本申请另一实施例提供的一种多模态信息处理方法的流程图；

图12为本申请再一实施例提供的一种多模态信息处理方法的流程图；

图13为本申请一实施例提供的对至少一种第三参考信息的处理方法流程图；

图14为本申请另一实施例提供的对至少一种第三参考信息的处理方法流程图；

图15为本申请一实施例提供的一种多模态信息处理装置1500的示意图；

图16为本申请一实施例提供的一种多模态信息处理装置1600的示意图；

图17是本申请实施例提供的电子设备1700的示意性框图。

具体实施方式

目前智能问答***的输入是单一的文本问题，输出也是单一的文本答案，显然，目前的信息查询技术，如基于目前智能问答***的单一模态的信息处理方式，无法满足用户的需求，存在适用性较低的问题。

为了解决上述技术问题，本申请的发明构思是：将对输入的单模态信息或者多模态信息进行向量表征以及信息融合，以输出多模态信息。

本申请实施例的技术方案可适用于如下场景，但不限于此：

场景一：智能问答场景，例如：用户可以进入如图1A所示的智能问答界面，用户在该智能问答界面上的交互即为一种智能问答场景。图1A目前所示的是图像模态问题，用户还可以在该界面上输入语音、视频、文本等模态的问题。可选地，用户可以点击终端上的某插件、图标或者虚拟按钮，以进入该智能问答界面。其中，智能问答界面的呈现方式多种多样，图1A所示的是一种智能问答界面，图1B是用户点击某应用(Application，APP)上的“客服”图标，进入的另一种智能问答界面。

场景二：其他预测场景，例如：预测当前句子的下一个句子，或者预测句子间的连贯性。

应理解的是，在本申请实施例中，终端设备可以是蜂窝电话、无绳电话、会话启动协议(Session Initiation Protocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备等，本申请实施例对此不作限制。

下面将对本申请实施例技术方案进行详细阐述：

在本申请实施例中：通过预训练语言模型对输入的单模态信息或者多模态信息进行向量表征以及信息融合，以输出多模态信息。因此，下面将重点介绍如何通过预训练语言模型对输入的单模态信息或者多模态信息进行向量表征以及信息融合，以输出多模态信息和预训练语言模型的训练过程。其中，对预训练语言模型的训练可以分为无监督训练和有监督训练。

示例性地，以应用于智能问答场景为例，图2为本申请一实施例提供的多模态信息处理过程的示意图，如图2所示，有监督训练中需要对数据进行标注，即输入模型的数据包括如下两元组<至少一种模态问题，多模态答案>，或者，输入模型的数据包括如下三元组<至少一种模态问题，至少一个参考信息，多模态答案>，该参考信息是模态问题的参考信息，也被描述为参考资料。进一步地，可以通过标注的数据对预训练语言模型进行训练。

更进一步地，可以向训练后的预训练语言模型输入至少一种模态问题，或者输入二元组<至少一种模态问题，至少一个参考信息>，通过预训练语言模型可以对输入的数据进行处理，如向量表征和信息融合，最后输出多模态答案。

需要说明的是，在本申请实施例中，一种模态可以是文本模态、语音模态、图像模态或者视频模态。即至少一种模态问题可以包括：文本模态的问题、语音模态的问题、图像模态的问题、视频模态的问题中的至少一种。多模态***括：文本模态的答案、语音模态的答案、图像模态的答案、视频模态的答案中的至少两种。至少一种参考信息也被称为至少一种模态的参考信息，其可以包括：文本模态的参考信息、语音模态的参考信息、图像模态的参考信息、视频模态的参考信息中的至少一种。

针对至少一种模态问题，进行示例性说明：假设针对“将进酒是哪个朝代哪个人写的”问题，文本模态的问题，即“将进酒是哪个朝代哪个人写的”文本。语音模态的问题，即“将进酒是哪个朝代哪个人写的”语音。图像模态的问题，如图3所示。视频模态的问题，可以是关于“将进酒是哪个朝代哪个人写的”的一段视频。

针对多种模态答案，进行示例性说明：假设针对“将进酒是哪个朝代哪个人写的”问题，文本模态答案可以是“将进酒是唐代诗人李白写的”文本。语音模态答案，即“将进酒是唐代诗人李白写的”语音。图像模态答案，如图像中显示“将进酒是唐代诗人李白写的”。视频模态答案，可以是关于“将进酒是唐代诗人李白写的”的一段视频。

针对至少一种模态的参考信息，进行示例性说明：假设针对“将进酒是哪个朝代哪个人写的”问题，文本参考信息可以是将进酒的内容。文本参考信息还可以是关于李白的简介。语音参考信息可以是将进酒的朗诵。图像参考信息可以是包括将进酒内容的图像。视频参考信息可以是关于将进酒的诗词解析视频。

应理解的是，在本申请实施例中，一种模态问题对应的参考信息的模态可以和该模态问题的模态相同，也可以不同，本申请实施例对此不作限制。例如：文本模态问题可以对应文本模态的参考信息，有可以对应语音、图像或者视频等模态的参考信息。

应理解的是，上述一种模态可以是本申请实施例中的至少一种第一模态信息的一种模态，也可以是至少一种第一模态信息对应的多模态信息的一种模态，还可以是至少一种第一模态信息对应的第一参考信息的一种模态，可以是本申请实施例中的至少一种第二模态信息的一种模态，也可以是至少一种第二模态信息对应的第二参考信息的一种模态，可以是本申请实施例中的至少一种第三模态信息的一种模态，也可以是至少一种第三模态信息对应的至少一种模态信息的一种模态，还可以是至少一种第三模态信息对应的第三参考信息的一种模态。

应理解的是，至少一种模态信息的参考信息是与至少一种模态信息相关的参考信息，该至少一种模态信息的参考信息可以用于辅助获取预训练模型最终输出的模态信息。例如：至少一种第一模态信息的至少一种第一参考信息用于辅助获取至少一种第一模态信息对应的多模态信息。至少一种第二模态信息的至少一种第二参考信息用于辅助获取至少一种第二模态信息对应的多模态信息。至少一种参考信息也可以用于辅助获取有监督训练过程中的模态信息，例如：至少一种第三模态信息对应的至少一种第三参考信息可以用于辅助获取有监督训练过程中至少一种第三模态信息对应的至少一种模态信息。

可选地，上述参考信息可以是通过搜索引擎获取到的关于模态信息的参考信息。

图4为本申请一实施例提供的一种多模态信息处理方法的流程图，该方法的执行主体可以是终端设备的部分或者全部，其中终端设备的部分可以是终端设备的处理器，该方法的执行主体还可以是终端设备和服务器，即图4中一部分步骤由终端设备执行，另一部分步骤由服务器执行，本申请对此不做限制。如图4所示，该方法包括：

步骤S410：获取至少一种第一模态信息。

步骤S420：根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息。

步骤S430：输出多模态信息。

其中，针对至少一种第一模态信息的各个模态如上文所述，本申请实施例对此不再赘述。

下面针对步骤S420进行详细说明：

可选方式一：根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息。

可选方式二：根据至少一种第一模态信息和至少一种第一参考信息，确定至少一种第一模态信息对应的多模态信息。

针对可选方式一进行说明：

可选地，图5为本申请一实施例提供的确定多模态信息的方法流程图，如图5所示，该方法包括：

步骤S510：针对至少一种第一模态信息中每一种第一模态信息，将第一模态信息映射为多个第一表征向量。

步骤S520：针对至少一种第一参考信息中每一种第一参考信息，将第一参考信息映射为多个第二表征向量。

步骤S530：对至少一种第一模态信息对应的多个第一表征向量和至少一种第一参考信息对应的多个第二表征向量进行融合，得到融合后的向量。

步骤S540：根据融合后的向量确定至少一种第一模态信息对应的多模态信息。

可选地，任一个第一表征向量用于表征第一模态信息中任一个元素的时空信息、内容或者类型。

示例性地，假设第一模态信息为文本模态问题：“将进酒是哪个朝代哪个人写的”，文本中的每个字即为第一模态信息的一个元素，针对每个元素都对应多个第一表征向量，例如元素“将”可以对应时空信息、内容和类型。该时空信息包括：时间和/或空间信息，例如：“将”的时间信息可以是它的输入时间，通过该时间信息可以确定每句话之间，以及每句话内部的各个字之间的时间先后顺序。“将”的空间信息可以是它在文本中的空间坐标。“将”的内容也可以通过坐标来表示，例如：(1,1)表示的是“将”这个字。“将”的类型也就是它所在的第一模态信息的类型，比如：该第一模态信息的类型是问题类型。

需要说明的是，对于图像、语音、视频等其他模态信息，其对应的第一表征向量与文本模态信息对应的第一表征向量类似，本申请实施例对此不再赘述。

可选地，任一个第二表征向量用于表征第一参考信息中任一元素的时空信息、内容或者类型。

示例性地，假设参考信息为文本模态参考信息，其内容是李白的简介，文本中的每个字即为参考信息的一个元素，针对每个元素都对应多个第二表征向量，例如元素“李”可以对应时空信息、内容和类型。该时空信息包括：时间和/或空间信息，例如：“李”的时间信息可以是它的获取时间，通过该时间信息可以确定每句话之间，以及每句话内部的各个字之间的时间先后顺序。“李”的空间信息可以是它在文本中的空间坐标。“李”的内容也可以通过坐标来表示，例如：(1,2)表示的是“李”这个字。“李”的类型也就是它所在的参考信息的类型，比如：该参考信息的类型是参考信息类型。

需要说明的是，对于图像、语音、视频等其他模态的参考信息，其对应的第二表征向量与文本模态信息对应的第二表征向量类似，本申请实施例对此不再赘述。

可选地，终端设备在获取到至少一种第一模态信息对应的多个第一表征向量和至少一种第一参考信息对应的多个第二表征向量之后，可以通过对这些第一表征向量和第二表征向量进行求和，或者求内积等，以得到融合后的向量。如图6所示，预训练语言模型包括：输入层、处理层和输出层，其中该处理层包括：表示子层和融合子层。输入层用于获取至少一种第一模态信息，可选的，还可以获取至少一种第一参考信息。表示子层可以用于将每一种第一模态信息映射为多个第一表征向量，将每一种第一参考信息映射为多个第二表征向量。融合子层用于可以通过对这些第一表征向量和第二表征向量进行求和，或者求内积等，以得到融合后的向量。输出层用于根据该预训练语言模型和融合后的向量，得到多模态信息。

可选地，针对每个元素对应的第一表征向量或者第二表征向量，与该元素之后和/或之前的元素的第一表征向量或者第二表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。如图7所示，预训练语言模型包括：输入层、处理层和输出层，其中该处理层包括：表示子层和融合子层。输入层用于获取至少一种第一模态信息，可选的，还可以获取至少一种第一参考信息。表示子层可以用于将每种第一模态信息映射为多个第一表征向量，将每种第一参考信息映射为多个第二表征向量。融合子层用于针对每个元素对应的第一表征向量或者第二表征向量，与该元素之后和/或之前的元素的第一表征向量或者第二表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。输出层用于根据该预训练语言模型和融合后的向量，得到多模态信息。

可选地，针对每个元素对应的第一表征向量或者第二表征向量的特征信息，与该元素之后和/或之前的元素的第一表征向量或者第二表征向量的特征信息进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。

针对可选方式二进行说明：

可选地，图8为本申请另一实施例提供的确定多模态信息的方法流程图，如图8所示，该方法包括：

步骤S810：针对至少一种第一模态信息中每一种第一模态信息，将第一模态信息映射为多个第一表征向量。

步骤S820：对至少一种第一模态信息对应的多个第一表征向量进行融合，得到融合后的向量。

步骤S830：根据融合后的向量确定至少一种第一模态信息对应的多模态信息。

需要说明的是，关于第一表征向量的解释说明可参考上文中的第一表征向量的解释说明，本申请实施例对此不再赘述。

可选地，终端设备在获取到至少一种第一模态信息对应的多个第一表征向量之后，可以通过对这些第一表征向量进行求和，或者求内积等，以得到融合后的向量。如图9所示，预训练语言模型包括：输入层、处理层和输出层，其中该处理层包括：表示子层和融合子层。输入层用于获取至少一种第一模态信息。表示子层可以用于将每种第一模态信息映射为多个第一表征向量。融合子层用于可以通过对这些第一表征向量进行求和，或者求内积等，以得到融合后的向量。输出层用于根据该预训练语言模型和融合后的向量，得到多模态信息。

可选地，针对每个元素对应的第一表征向量，与该元素之后和/或之前的元素的第一表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。如图10所示，预训练语言模型包括：输入层、处理层和输出层，其中该处理层包括：表示子层和融合子层。输入层用于获取至少一种第一模态信息。表示子层可以用于将每种第一模态信息映射为多个第一表征向量。融合子层用于针对每个元素对应的第一表征向量，与该元素之后和/或之前的元素的第一表征向量进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。输出层用于根据该预训练语言模型和融合后的向量，得到多模态信息。

可选地，针对每个元素对应的第一表征向量的特征信息，与该元素之后和/或之前的元素的第一表征向量的特征信息进行求和，或者求内积等，以得到该元素对应的中间向量，并针对该元素的中间向量，与该元素之后和/或之前的元素的中间向量进行求和，或者求内积等，以此类推，直到得到每个元素融合后的向量。

综上，在本申请实施例中，可以根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息，即在本申请实施例中，实现了单模态或者多模态信息输入，和，多模态信息输出，相对于单模态信息输入输出的方式，这种单模态或者多模态信息输入，和，多模态信息输出可以满足用户对信息多样性呈现的需求，也可以提高该多模态信息处理方法的适用性。进一步地，本申请实施例通过预训练语言模型实现端到端的输入和输出，即该预训练语言模型是基于神经网络的模型，只需要将至少一种模态信息输入至该模型，即可输出多模态信息。这种端到端的输入和输出方式可以提高信息处理效率。此外，本申请实施例基于神经网络的模型进行信息处理，而不是基于传统的机器学习模型或者是人工规则进行信息处理，相对于基于传统的机器学习模型或者是人工规则的信息处理方式，本申请基于神经网络模型的信息处理方式可以提高信息处理效率。

下面将对预训练语言模型的训练过程进行阐述：

图11为本申请另一实施例提供的一种多模态信息处理方法的流程图，该方法的执行主体可以是终端设备的部分或者全部，其中终端设备的部分可以是终端设备的处理器，该方法的执行主体还可以是终端设备和服务器，即图11中一部分步骤由终端设备执行，另一部分步骤由服务器执行，本申请对此不做限制。如图11所示，该方法包括：

步骤S1110：获取第一训练数据，第一训练数据包括：至少一种第二模态信息。

步骤S1120：通过第一训练数据训练预训练语言模型。

可选地，第一训练数据还包括：至少一种第二模态信息对应的至少一种第二参考信息。

应理解的是，本实施例是对预训练语言模型的无监督训练过程。

可选地，通过第一训练数据训练预训练语言模型时，即第一训练数据需要输入预训练语言模型，通过该预训练语言模型对第一训练数据进行向量表征以及信息融合，以得到融合后的向量，并根据融合后的向量得到第一训练数据对应的多模态信息，通过该多模态信息对预训练语言模型中的参数进行调整。

应理解的是，通过该预训练语言模型对第一训练数据进行向量表征以及信息融合，以得到融合后的向量可参考通过该预训练语言模型对至少一种第一模态信息的处理过程，或者参考通过该预训练语言模型对至少一种第一模态信息和至少一种第一参考信息的处理过程，本申请实施例对此不再赘述。

综上，在本申请实施例中，终端设备可以采用无监督训练方式训练预训练语言模型，以提高预训练语言模型的精度，从而得到更加准确的多模态信息。

图12为本申请再一实施例提供的一种多模态信息处理方法的流程图，该方法的执行主体可以是终端设备的部分或者全部，其中终端设备的部分可以是终端设备的处理器，该方法的执行主体还可以是终端设备和服务器，即图12中一部分步骤由终端设备执行，另一部分步骤由服务器执行，本申请对此不做限制。如图12所示，该方法包括：

步骤S1210：获取第二训练数据，第二训练数据包括：至少一种第三模态信息和至少一种第三模态信息对应的至少一种模态信息。

步骤S1220：通过第二训练数据训练预训练语言模型。

以应用于智能问答场景为例，第三模态信息可以是第三模态问题，其对应的至少一种模态信息可以是至少一种模态答案。

可选地，第二训练数据还包括：至少一种第三模态信息对应的至少一种第三参考信息。

应理解的是，本实施例是对预训练语言模型的有监督训练过程。

可选地，通过第二训练数据训练预训练语言模型时，即第二训练数据需要输入预训练语言模型，通过该预训练语言模型对第二训练数据进行向量表征以及信息融合，以得到融合后的向量，并根据融合后的向量得到第二训练数据对应的多模态信息，通过该多模态信息对预训练语言模型中的参数进行调整。

应理解的是，通过该预训练语言模型对第二训练数据进行向量表征以及信息融合，以得到融合后的向量可参考通过该预训练语言模型对至少一种第一模态信息的处理过程，或者参考通过该预训练语言模型对至少一种第一模态信息和至少一种参考信息的处理过程，本申请实施例对此不再赘述。

需要说明的是，图12对应的有监督训练过程与图11对应的无监督训练过程可以结合执行，也可以独立执行，本申请实施例对此不作限制。

综上，在本申请实施例中，终端设备可以采用有监督训练方式训练预训练语言模型，以提高预训练语言模型的精度，从而得到更加准确的多模态信息。

可选地，终端设备还可以根据至少一种第三模态信息，对至少一种第三参考信息进行处理，得到至少一种第三模态信息对应的至少一种模态信息。

可选地，该处理包括：提取、改写、组合中的至少一项。

需要说明的是，本申请实施例对提取、改写、组合的顺序和次数不作限制，例如：先对至少一种第三参考信息进行提取，再执行改写、组合。也可以先对第三参考信息进行改写，再执行组合、提取。下面通过具体示例进行说明：

示例一：图13为本申请一实施例提供的对至少一种第三参考信息的处理方法流程图，如图13所示，该方法包括如下步骤：

步骤S1310：在至少一种第三参考信息中提取至少一种第三模态信息的相关内容。

步骤S1320：根据相关内容，得到至少一种第三模态信息对应的至少一种模态信息。

示例性地，假设第三模态信息是“将进酒是哪个朝代哪个人写的”，在至少一种第三参考信息中提取的相关内容可以是将进酒的全部内容或者片段。也可以是李白的简介等。

可选地，可以将相关内容确定为至少一种第三模态信息对应的至少一种模态信息。或者，根据至少一种第三模态信息，对相关内容进行改写，以得到至少一种第三模态信息对应的至少一种模态信息。或者，根据至少一种第三模态信息，对相关内容进行改写，并对改写后的内容进行组合，以得到至少一种第三模态信息对应的至少一种模态信息。

示例性地，假设第三模态信息是“将进酒是哪个朝代哪个人写的”，将将进酒的全部内容或者片段作为至少一种第三模态信息对应的至少一种模态信息。

示例性地，假设第三模态信息是“将进酒是哪个朝代哪个人写的”，终端设备对李白的简介进行改写，如李白的简介是：李白(701-762)，字太白，盛唐最杰出的诗人，也是我国文学史上继屈原之后又一伟大的浪漫主义诗人，素有“诗仙”之称。经过局部改写，得到如下内容：李白字太白，号青莲居士，又号“谪仙人”，是盛唐最杰出的浪漫主义诗人，被后人誉为“诗仙”，该内容作为至少一种第三模态信息对应的至少一种模态信息。

示例性地，假设第三模态信息是“将进酒是哪个朝代哪个人写的”，将将进酒的全部内容或者片段和经过改写后的内容：白字太白，号青莲居士，又号“谪仙人”，是盛唐最杰出的浪漫主义诗人，被后人誉为“诗仙”，进行组合，作为至少一种第三模态信息对应的至少一种模态信息。

需要说明的是，本申请实施例中的组合可以是对信息的合并，比如对A信息和B信息的组合，得到的结果是<A信息，B信息>。

示例二：图14为本申请另一实施例提供的对至少一种第三参考信息的处理方法流程图，如图14所示，该方法包括如下步骤：

步骤S1401：对至少一种第三参考信息进行改写，得到改写内容。

步骤S1402：根据改写内容，得到至少一种第三模态信息对应的至少一种模态信息。

可选地，可以将改写内容确定为至少一种第三模态信息对应的至少一种模态信息。或者，根据至少一种第三模态信息，对改写内容进行组合，以得到至少一种第三模态信息对应的至少一种模态信息。

示例性地，假设第三模态信息是“将进酒是哪个朝代哪个人写的”，至少一种第三参考信息经过改写后的改写内容可以是：李白字太白，号青莲居士，又号“谪仙人”，是盛唐最杰出的浪漫主义诗人，被后人誉为“诗仙”。可以将改写内容作为至少一种第三模态信息对应的至少一种模态信息。

示例性地，假设一改写内容为李白字太白，号青莲居士，又号“谪仙人”，是盛唐最杰出的浪漫主义诗人，被后人誉为“诗仙”。另一改写内容是：李白与杜甫并称为“李杜”，可以将这两个改写内容进行组合，并得到至少一种第三模态信息对应的至少一种模态信息。

综上，在本申请实施例的有监督训练过程中，可以对至少一种第三参考信息进行提取、改写、组合等处理，得到至少一种第三模态信息对应的至少一种模态信息，即上述至少一种模态信息无需通过人工或者机器学习模型获取，而是通过提取、改写、组合等处理得到的，从而可以提高信息获取效率以及信息精度。

图15为本申请一实施例提供的一种多模态信息处理装置1500的示意图，如图15所示，该装置包括：第一获取模块1510、确定模块1520和输出模块1530。其中，第一获取模块1510用于获取至少一种第一模态信息。确定模块1520用于根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息。输出模块1530用于输出多模态信息。

可选地，该装置还包括：第二获取模块1540，用于获取至少一种第一模态信息对应的至少一种第一参考信息。相应的，确定模块1520具体用于：根据至少一种第一模态信息和至少一种第一参考信息，确定至少一种第一模态信息对应的多模态信息。

可选地，确定模块1520具体用于：针对至少一种第一模态信息中每一种第一模态信息，将第一模态信息映射为多个第一表征向量，任一个第一表征向量用于表征第一模态信息中任一个元素的时空信息、内容或者类型。针对至少一种第一参考信息中每一种第一参考信息，将第一参考信息映射为多个第二表征向量，任一个第二表征向量用于表征第一参考信息中任一元素的时空信息、内容或者类型。对至少一种第一模态信息对应的多个第一表征向量和至少一种第一参考信息对应的多个第二表征向量进行融合，得到融合后的向量。根据融合后的向量确定至少一种第一模态信息对应的多模态信息。

可选地，确定模块1520具体用于：针对至少一种第一模态信息中每一种第一模态信息，将第一模态信息映射为多个第一表征向量，任一个第一表征向量用于表征第一模态信息中任一个元素的时空信息、内容或者类型。对至少一种第一模态信息对应的多个第一表征向量进行融合，得到融合后的向量。根据融合后的向量确定至少一种第一模态信息对应的多模态信息。

可选地，一种模态是文本模态、语音模态、图像模态或者视频模态。

可选地，第一模态信息为第一模态问题，多模态信息为多模态答案。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图15所示的装置1500可以执行图4、图5和图8对应的方法实施例，并且装置1500中的各个模块的前述和其它操作和/或功能分别为了实现图4、图5和图8中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置1500。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图16为本申请一实施例提供的一种多模态信息处理装置1600的示意图，如图16所示，该装置包括：第一获取模块1610和第一训练模块1620，其中第一获取模块1610用于获取第一训练数据，第一训练数据包括：至少一种第二模态信息。第一训练模块1620用于通过第一训练数据训练预训练语言模型。其中，预训练语言模型用于根据至少一种第一模态信息，确定至少一种第一模态信息对应的多模态信息。

可选地，该装置还包括：第二获取模块1630和第二训练模块1640，第二获取模块1630用于获取第二训练数据，第二训练数据包括：至少一种第三模态信息和至少一种第三模态信息对应的至少一种模态信息。第二训练模块1640用于通过第二训练数据训练预训练语言模型。

可选地，该装置还包括：处理模块1650，用于根据至少一种第三模态信息，对至少一种第三参考信息进行处理，得到至少一种第三模态信息对应的至少一种模态信息。

可选地，处理模块1650具体用于：在至少一种第三参考信息中提取至少一种第三模态信息的相关内容。根据相关内容，得到至少一种第三模态信息对应的至少一种模态信息。

可选地，处理模块1650具体用于：将相关内容确定为至少一种第三模态信息对应的至少一种模态信息。或者，根据至少一种第三模态信息，对相关内容进行改写，以得到至少一种第三模态信息对应的至少一种模态信息。或者，根据至少一种第三模态信息，对相关内容进行改写，并对改写后的内容进行组合，以得到至少一种第三模态信息对应的至少一种模态信息。

可选地，处理模块1650具体用于：对至少一种第三参考信息进行改写，得到改写内容。根据改写内容，得到至少一种第三模态信息对应的至少一种模态信息。

可选地，处理模块1650具体用于：将改写内容确定为至少一种第三模态信息对应的至少一种模态信息。或者，根据至少一种第三模态信息，对改写内容进行组合，以得到至少一种第三模态信息对应的至少一种模态信息。

可选地，处理模块1650具体用于：至少一种第二模态信息的一种模态是文本模态、语音模态、图像模态或者视频模态。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图16所示的装置1600可以执行图11至图14对应的方法实施例，并且装置1600中的各个模块的前述和其它操作和/或功能分别为了实现图11至图14中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置1600。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图17是本申请实施例提供的电子设备1700的示意性框图。

如图17所示，该电子设备1700可包括：

存储器1710和处理器1720，该存储器1710用于存储计算机程序，并将该程序代码传输给该处理器1720。换言之，该处理器1720可以从存储器1710中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器1720可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器1720可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器1710包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器1710中，并由该处理器1720执行，以完成本申请实施例提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备1700中的执行过程。

如图17所示，该电子设备1700还可包括：

收发器1730，该收发器1730可连接至该处理器1720或存储器1710。

其中，处理器1720可以控制该收发器1730与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器1730可以包括发射机和接收机。收发器1730还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备1700中的各个组件通过总线***相连，其中，总线***除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种多模态信息处理方法，其特征在于，包括：

获取至少一种第一模态信息；

根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息；

输出所述多模态信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息之前，还包括：

获取所述至少一种第一模态信息对应的至少一种第一参考信息；

相应的，所述根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息，包括：

根据所述至少一种第一模态信息和所述至少一种第一参考信息，确定所述至少一种第一模态信息对应的多模态信息。

3.根据权利要求2所述的方法，其特征在于，根据所述至少一种第一模态信息和所述至少一种第一参考信息，确定所述至少一种第一模态信息对应的多模态信息，包括：

针对所述至少一种第一模态信息中每一种第一模态信息，将所述第一模态信息映射为多个第一表征向量，任一个所述第一表征向量用于表征所述第一模态信息中任一个元素的时空信息、内容或者类型；

针对所述至少一种第一参考信息中每一种第一参考信息，将所述第一参考信息映射为多个第二表征向量，任一个所述第二表征向量用于表征所述第一参考信息中任一元素的时空信息、内容或者类型；

对所述至少一种第一模态信息对应的多个第一表征向量和所述至少一种第一参考信息对应的多个第二表征向量进行融合，得到融合后的向量；

根据所述融合后的向量确定所述至少一种第一模态信息对应的多模态信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息，包括：

对所述至少一种第一模态信息对应的多个第一表征向量进行融合，得到融合后的向量；

5.根据权利要求1-4任一项所述的方法，其特征在于，一种模态是文本模态、语音模态、图像模态或者视频模态。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述第一模态信息为第一模态问题，所述多模态信息为多模态答案。

7.一种多模态信息处理方法，其特征在于，包括：

获取第一训练数据，所述第一训练数据包括：至少一种第二模态信息；

通过所述第一训练数据训练预训练语言模型；

其中，所述预训练语言模型用于根据至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息。

8.根据权利要求7所述的方法，其特征在于，所述第一训练数据还包括：所述至少一种第二模态信息对应的至少一种第二参考信息。

9.根据权利要求7所述的方法，其特征在于，还包括：

获取第二训练数据，所述第二训练数据包括：至少一种第三模态信息和所述至少一种第三模态信息对应的至少一种模态信息；

通过所述第二训练数据训练所述预训练语言模型。

10.根据权利要求9所述的方法，其特征在于，所述第二训练数据还包括：所述至少一种第三模态信息对应的至少一种第三参考信息。

11.根据权利要求10所述的方法，其特征在于，还包括：

根据所述至少一种第三模态信息，对所述至少一种第三参考信息进行处理，得到所述至少一种第三模态信息对应的至少一种模态信息。

12.根据权利要求11所述的方法，其特征在于，所述对所述至少一种第三参考信息进行处理，得到所述至少一种第三模态信息对应的至少一种模态信息，包括：

在所述至少一种第三参考信息中提取所述至少一种第三模态信息的相关内容；

根据所述相关内容，得到所述至少一种第三模态信息对应的至少一种模态信息。

13.根据权利要求12所述的方法，其特征在于，所述根据所述相关内容，得到所述至少一种第三模态信息对应的至少一种模态信息，包括：

将所述相关内容确定为所述至少一种第三模态信息对应的至少一种模态信息；或者，

根据所述至少一种第三模态信息，对所述相关内容进行改写，以得到所述至少一种第三模态信息对应的至少一种模态信息；或者，

根据所述至少一种第三模态信息，对所述相关内容进行改写，并对改写后的内容进行组合，以得到所述至少一种第三模态信息对应的至少一种模态信息。

14.根据权利要求11所述的方法，其特征在于，所述对所述至少一种第三参考信息进行处理，得到所述至少一种第三模态信息对应的至少一种模态信息，包括：

对所述至少一种第三参考信息进行改写，得到改写内容；

根据所述改写内容，得到所述至少一种第三模态信息对应的至少一种模态信息。

15.根据权利要求14所述的方法，其特征在于，所述根据所述改写内容，得到所述至少一种第三模态信息对应的至少一种模态信息，包括：

将所述改写内容确定为所述至少一种第三模态信息对应的至少一种模态信息；或者，

根据所述至少一种第三模态信息，对所述改写内容进行组合，以得到所述至少一种第三模态信息对应的至少一种模态信息。

16.根据权利要求7-15任一项所述的方法，其特征在于，所述至少一种第二模态信息的一种模态是文本模态、语音模态、图像模态或者视频模态。

17.一种多模态信息处理装置，其特征在于，包括：

第一获取模块，用于获取至少一种第一模态信息；

确定模块，用于根据所述至少一种第一模态信息，确定所述至少一种第一模态信息对应的多模态信息；

输出模块，用于输出所述多模态信息。

18.一种多模态信息处理装置，其特征在于，包括：

第一获取模块，用于获取第一训练数据，所述第一训练数据包括：至少一种第二模态信息；

第一训练模块，用于通过所述第一训练数据训练预训练语言模型；

19.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至16中任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至16中任一项所述的方法。