CN117094419B

CN117094419B - 面向多模态内容输出的大语言模型训练方法、装置及介质

Info

Publication number: CN117094419B
Application number: CN202311333184.9A
Authority: CN
Inventors: 谭明奎; 孙鑫宇; 邓泽帅; 杜卿; 陈健
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-30
Anticipated expiration: 2043-10-16
Also published as: CN117094419A

Abstract

本发明公开了一种面向多模态内容输出的大语言模型训练方法、装置及介质，属于人工智能技术领域。其中方法包括：构建用于训练大语言模型的图片‑声音‑文本三元组数据集；构建多模态大语言模型，在所述大语言模型的输出层嵌入多个并行的LoRA插件，并初始化LoRA插件和门控选择器；基于文本描述重构图片和声音，根据重构后的数据训练多模态大语言模型；微调多模态大语言模型。本发明从输出端对大模型进行多模态对齐，通过在模型的输出层加入多个LoRA插件和门控选择器的组合实现端到端预训练和微调，使大语言模型具有原生的多模态生成能力；最终将推理结果通过多模态输出进行呈现，提高大语言模型在与人类进行交互时的效率。

Description

面向多模态内容输出的大语言模型训练方法、装置及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种面向多模态内容输出的大语言模型训练方法、装置及介质。

背景技术

近年来，大语言模型在各个领域上取得了巨大的成功。大语言模型通常通过从互联网上爬取的大规模语料库来训练其文本理解能力，其将语料库中的文本进行随机比例的遮盖，通过预测每一个token向量属于哪一个单词的概率来得到输出文本，这种训练方式使得大语言模型难以处理和生成文本以外的模态数据。一些现有的研究将不同模态的大模型视为互相独立的函数功能，大语言模型可以通过生成调用函数的方式来使用不同的模型完成多模态数据处理、分析、生成等任务。然而，由于这些不同的模型之间只能以文本或调用函数接口进行交互，极大地提高了多模态数据流通和处理的成本，也使得对不同模态信息的联合推理无法实现。

为了解决上述问题，多模态大模型尝试将多模态数据内容嵌入到大语言模型的理解过程中，使其具有跨模态感知推理能力。现有方法通常将其他模态的数据（如图片模态）利用额外的。然而，这些多模态大模型只具备在输入端进行多模态理解和推理的能力，其在输出端并不具备多模态输出能力。大语言模型仍然受限于其文本输出能力，难以通过低维度数据（如图片或声音）与人类进行更加丰富和生动的交互。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种面向多模态内容输出的大语言模型训练方法、装置及介质。

本发明所采用的技术方案是：

一种面向多模态内容输出的大语言模型训练方法，包括以下步骤：

构建用于训练大语言模型的图片-声音-文本三元组数据集；

构建多模态大语言模型，所述多模态大语言模型包括经过预训练的大语言模型、交叉注意力模型、视觉模型和声音模型；在所述大语言模型的输出层嵌入多个并行的LoRA插件，并初始化LoRA插件和门控选择器；

基于文本描述重构图片和声音，根据重构后的数据训练多模态大语言模型，以使多模态大语言模型具有图片模态和声音模态数据的生成能力；

微调多模态大语言模型，以使多模态大语言模型根据指令生成符合上下文语境描述的多模态内容。

进一步地，所述构建用于训练大语言模型的图片-声音-文本三元组数据集，包括：

获取图片-文本数据对，通过基于视觉引导的声音合成工具，对图片-文本数据对中的图片生成对应的声音，获得图片-声音-文本三元组；和/或，

从预设的视频数据集中抽取多个图片-声音-文本三元组；从视频数据集中的每一个视频中随机抽取关键帧和该关键帧所对应的音频作为图片-声音配对，再利用视觉描述模型对图片内容进行文本描述，获得图片-声音-文本三元组；

根据获得的图片-声音-文本三元组构建图片-声音-文本三元组数据集。

进一步地，所述根据获得的图片-声音-文本三元组构建图片-声音-文本三元组数据集，包括：

利用自然语言处理模型，根据预设的指令模板将对图片-声音-文本三元组中的文本描述基于场景转换为指令对话形式；

其中，预设的指令模板包括图文声聊天机器人模板和基于语言指令的多模态内容编辑模板。

进一步地，在多模态大语言模型的训练过程中，固定所述大语言模型、交叉注意力模型、视觉模型和声音模型的参数，以避免模型的灾难性遗忘问题以及昂贵的训练开销。

进一步地，所述在所述大语言模型的输出层嵌入多个并行的LoRA插件，并初始化LoRA插件和门控选择器，包括：

在大语言模型的输出层嵌入多个并行的LoRA插件，通过矩阵低秩分解将大语言模型的参数分为固定权重和可学习参数/>和/>；每个LoRA插件/>具有对应的参数/>和/>，将参数/>初始化为随机高斯分布，将参数/>初始化为全0；

随机初始化门控选择器；

初始化输出解码器，其中输出解码器包括图片解码器和音频解码器/>。

进一步地，在大语言模型的第层中，门控选择器/>建模为一个单层MLP模型，其输入为/>层的输出，门控选择器/>用于预测LoRA插件的权重/>，表达式如下：

式中，表示大语言模型第n-1层的输出；

在训练过程中，LoRA插件的更新方式如下所示：

式中，表示冻结的大语言模型参数，/>表示待更新的LoRA插件参数，/>表示门控选择器对第/>个LoRA插件预测的权重。

进一步地，所述基于文本描述重构图片和声音，根据重构后的数据训练多模态大语言模型，包括：

在多模态大语言模型的预训练阶段，模型的输入为图片-声音-文本三元组的提示；其中，文本包括图片和声音的描述，以及对多模态大语言模型的指令，文本经过标记器处理为词块/>；图片和声音经过交叉注意力机制编码为多模态词块/>和/>；

在训练过程中，多模态大语言模型的输出将被期望同时包含图片、声音模态内容的标签对和相应的离散编码；其中，在离散编码维度上监督大模型的预测结果，而非图片和声谱图的像素维度。

进一步地，训练过程中的损失函数的表达式为：

式中，为第/>个词块，/>为上下文窗口长度；

概率写为：

式中，为词编码矩阵，/>为位置编码矩阵；/>为图片-声音-文本三元组的提示；表示大语言模型的自注意力机制模块，/>为归一化指数函数。

本发明所采用的另一技术方案是：

一种面向多模态内容输出的大语言模型训练装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明从输出端对大模型进行多模态对齐，通过在模型的输出层加入多个LoRA插件和门控选择器的组合实现端到端预训练和微调，使大语言模型具有原生的多模态生成能力；最终将推理结果通过多模态输出进行呈现，提高大语言模型在与人类进行交互时的效率。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种面向多模态内容输出的大语言模型训练方法的步骤流程图；

图2是本发明实施例中多模态大语言模型的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

术语解释：

GPT4：为OpenAI公司发布的大语言模型；

如图1所示，本实施例提供一种面向多模态内容输出的大语言模型训练方法，包括以下步骤：

A1、构建用于训练大语言模型的图片-声音-文本三元组数据集；

A2、构建多模态大语言模型，所述多模态大语言模型包括经过预训练的大语言模型、交叉注意力模型、视觉模型和声音模型；在所述大语言模型的输出层嵌入多个并行的LoRA插件，并初始化LoRA插件和门控选择器；

A3、基于文本描述重构图片和声音，根据重构后的数据训练多模态大语言模型，以使多模态大语言模型具有图片模态和声音模态数据的生成能力；

A4、微调多模态大语言模型，以使多模态大语言模型根据指令生成符合上下文语境描述的多模态内容。

在本实施例中，第一步需要构建用于训练大语言模型的图片-声音-文本三元组数据集。作为一种可选的实施方式，我们使用公开数据集CC3M作为图片-文本数据对，通过基于视觉引导的声音合成工具来对这些图片生成对应的声音，从而获得图片-声音-文本三元组。作为另一种可选的实施方式，从视频数据集Kinetics-600中抽取的约1M个图片-声音-文本三元组；由于视频中的视觉和声音模态是自然对齐的，我们从数据集中的每一个视频中随机抽取了关键帧和其所对应的音频作为图片-声音配对，再利用视觉描述模型BLIP-2对图片内容进行文本描述，最终得到能用于训练的图片-声音-文本三元组。

由于人类对话可以很容易地根据字幕通过现有的音频生成工具来生成，在本实施例中，声音模态的生成内容只包含自然环境中的声音。随后，为了在训练初始阶段维持模型原始的文本模态输出能力，我们对待训练模型中输出层不同模态的LoRA插件以及门控选择器进行初始化。此后，对模型进行两阶段训练。在第一个阶段，通过对输入的图片以及对应的音频根据文本描述进行重建，模型能够初步具有图片和音频模态数据的生成能力。在第二个阶段，我们利用自然语言处理模型（如GPT4）对第一阶段的预训练数据进行进一步的整理，生成大约5k条指令对大语言模型进行微调，使其具有根据文本指令和上下文语境生成特定的多模态内容的能力。

以下结合附图及具体实施例对上述方法进行详细说明。

本实施例提供一种面向多模态内容输出的大语言模型训练方法，包括以下步骤：

S1：收集用于训练大语言模型的图片-声音-文本三元组数据集。

S1-1：基于开源图片-文本数据集CC3M，我们将图片经过视觉引导的音频生成模型SpecVQGAN生成符合图片内容的自然音频，得到图片-声音-三元组数据集。

S1-2：作为补充，我们额外加入了从视频数据集Kinetics-600中抽取的约1M个图片-声音-文本三元组。由于视频中的视觉和声音模态是自然对齐的，我们从数据集中的每一个视频中随机抽取了关键帧和其所对应的音频作为图片-声音配对，再利用视觉描述模型BLIP-2对图片内容进行文本描述，最终得到能用于训练的图片-声音-文本三元组。这些三元组将用于后续预训练大语言模型。

S1-3：在步骤S1-1和步骤S1-2所得到三元组数据集的基础上，我们利用GPT4进行进一步的处理，根据指令模板将对三元组中的文本描述根据场景转换为指令对话形式。

具体地，我们设计了两种不同的指令模板，包括“图文声聊天机器人”和“基于语言指令的多模态内容编辑”；其中“图文声聊天机器人”模板根据原始三元组数据中的文本提取出具体场景，使用GPT4基于场景和具体的画面和声音内容生成一段对话；“基于语言指令的多模态内容编辑”模板定义了裁剪、贴图、替换背景、修改颜色4种图片编辑工具和裁剪、混合、变调、变速4种声音编辑工具，由GPT4选择特定工具对三元组种的图片和声音进行内容编辑，从而生成相应的指令数据。这两种不同的指令数据将用于后续微调大语言模型。

S2：初始化输出层不同模态的LoRA插件以及门控选择器。

S2-1：如图2所示，多模态大语言模型包括：具有60B参数量且在大规模语料库上经过预训练的大语言模型Vicuna，在图片-文本数据集LAION 115M和CC3M、CC12M、SBU上预训练的交叉注意力模型Q-Former，以及分别在图片和声音数据上经过训练的视觉模型和声音模型。在后续的训练过程中，这些模型的参数均保持完全固定，从而避免模型的灾难性遗忘问题以及昂贵的训练开销。

S2-2：在大语言模型Vicuna的输出层嵌入多个并行的LoRA插件，通过矩阵低秩分解将大语言模型的参数分为固定权重和可学习参数/>和/>。其中，可学习参数/>和/>作为固定权重/>的旁路，有/>且/>。每个LoRA插件/>均具有对应的参数和/>。训练过程权重的更新过程可以写为：

其中为门控选择器对第/>个LoRA插件预测的权重。为了在训练初始阶段保持大语言模型的文本生成能力，将参数/>初始化为随机高斯分布，/>初始化为全0。

S2-3：随机初始化门控选择器，其根据上下文语境为不同模态的LoRA插件预测合适的权重。在大语言模型的第/>层中，门控选择器/>建模为一个单层MLP模型，其输入为层的输出，预测不同LoRA插件的权重/>。该过程可以写为：

S2-4：初始化输出解码器，输出解码器包括图片解码器和音频解码器/>。

图片解码器初始化为预训练的图片变分离散自动编码器（VQ-GAN）的解码器，其将大语言模型输出的256个离散编码向量解码为一张/>大小的3通道图片，每个离散编码/>。音频解码器初始化为声谱图密码本模型（Spectrogram Codebook）的密码本解码器，其将大语言模型输出的212个离散编码向量解码为/>大小的梅尔对数声谱图，随后由MelGAN模型将声谱图转换为音频信号，每个离散编码/>。只有在大语言模型的输出包含<image></image>或<audio></audio>的标签对时，标签对中的词块将会通过简单的线性映射为离散编码，并由相应的输出解码器解码。

S3：基于文本描述重构图片和声音输入，对多模态大语言模型进行训练。

S3-1：在多模态大语言模型的预训练阶段，模型的输入为包含数据集中图片-声音-文本三元组的提示（Prompt），其中文本包括图片和声音的详细描述，以及对大语言模型的指令，在该预训练任务上具体为“请根据详细的文本描述重新绘制输入图片和音频”。文本经过标记器（Tokenizer）处理为词块；图片和声音经过交叉注意力机制编码为多模态词块/>和/>。输入到多模态大语言模型的提示可记为：/>，其中/>表示拼接操作。

S3-2：在训练过程中，大语言模型的输出将被期望同时包含图片、声音模态内容的标签对和相应的离散编码。为了减少运算，我们在离散编码维度上监督大模型的预测结果，而非图片和声谱图的像素维度。

训练的损失函数可以写为：

其中为第i个词块，k为上下文窗口长度。概率/>可以写为：

其中为词编码矩阵，/>为位置编码矩阵。

经过本阶段预训练，大语言模型将具有根据文本描述生成图片、声音模态数据的能力。

S4：微调大语言模型使其基于指令生成符合上下文语境描述的多模态内容。

在上述步骤S1-3中，我们生成了两种指令数据集“图文声聊天机器人”和“基于语言指令的多模态内容编辑”。在微调阶段，我们在上述两种指令数据集上进行微调，让大语言模型预测指令的输出。经过裁剪、贴图等操作的图片和声谱图将通过编码器得到真值离散编码嵌入到指令数据集中。经过本阶段的微调，大语言模型将具有根据文本指令和上下文语境生成符合描述的图片、声音模态数据的能力。

综上所述可知，现有的多模态大语言模型通常在输入端对多模态内容进行对齐，其对不同模态的输入内容利用不同的编码器进行编码，基于交叉自注意力机制进行跨模态推理，最后将所有模态数据对齐到与文本模态相同的编码空间，视为一种特殊的文本编码输入到大语言模型中，并不具备多模态输出能力。此外，基于语言链条（LangChain）的方法将不同模态的生成模型视为可通过语言指令调用的工具，这类方法会由于文本描述的歧义性、不同模型对文本内容的理解能力的不同导致生成内容往往脱离上下文语境。与现有方法不同，本发明从输出端对大模型进行多模态对齐，通过在模型的输出层加入多个LoRA插件和切换器的组合实现端到端预训练和微调，使大语言模型具有原生的多模态生成能力。最终将推理结果通过多模态输出进行呈现，提高大语言模型在与人类进行交互时的效率。

本实施例还提供一种面向多模态内容输出的大语言模型训练装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如图1所示方法。

本实施例的一种面向多模态内容输出的大语言模型训练装置，可执行本发明方法实施例所提供的一种面向多模态内容输出的大语言模型训练方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种面向多模态内容输出的大语言模型训练方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种面向多模态内容输出的大语言模型训练方法，其特征在于，包括以下步骤：

构建用于训练大语言模型的图片-声音-文本三元组数据集；

微调多模态大语言模型，以使多模态大语言模型根据指令生成符合上下文语境描述的多模态内容；

所述在所述大语言模型的输出层嵌入多个并行的LoRA插件，并初始化LoRA插件和门控选择器，包括：

在大语言模型的输出层嵌入多个并行的LoRA插件，通过矩阵低秩分解将大语言模型的参数分为固定权重和可学习参数/>和/>；每个LoRA插件/>具有对应的参数/>和/>，将参数初始化为随机高斯分布，将参数/>初始化为全0；

随机初始化门控选择器；

初始化输出解码器，其中输出解码器包括图片解码器和音频解码器/>；

在大语言模型的第层中，门控选择器/>建模为一个单层MLP模型，其输入为/>层的输出，门控选择器/>用于预测LoRA插件的权重/>，表达式如下：

；

式中，表示大语言模型第n-1层的输出；

在训练过程中，LoRA插件的更新方式如下所示：

；

2.根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法，其特征在于，所述构建用于训练大语言模型的图片-声音-文本三元组数据集，包括：

3.根据权利要求2所述的一种面向多模态内容输出的大语言模型训练方法，其特征在于，所述根据获得的图片-声音-文本三元组构建图片-声音-文本三元组数据集，包括：

4.根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法，其特征在于，在多模态大语言模型的训练过程中，固定所述大语言模型、交叉注意力模型、视觉模型和声音模型的参数。

5.根据权利要求1所述的一种面向多模态内容输出的大语言模型训练方法，其特征在于，所述基于文本描述重构图片和声音，根据重构后的数据训练多模态大语言模型，包括：

在训练过程中，多模态大语言模型的输出将被期望同时包含图片、声音模态内容的标签对和相应的离散编码；其中，在离散编码维度上监督大模型的预测结果。

6.根据权利要求1或5所述的一种面向多模态内容输出的大语言模型训练方法，其特征在于，训练过程中的损失函数的表达式为：

；

式中，为第/>个词块，/>为上下文窗口长度；

概率写为：

；

式中，为词编码矩阵，/>为位置编码矩阵；/>为图片-声音-文本三元组的提示；/>表示大语言模型的自注意力机制模块，/>为归一化指数函数。

7.一种面向多模态内容输出的大语言模型训练装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-6任一项所述方法。

8.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-6任一项所述方法。