CN116705058A

CN116705058A - 多模语音任务的处理方法、电子设备及可读存储介质

Info

Publication number: CN116705058A
Application number: CN202310977700.5A
Authority: CN
Inventors: 孙建伟; 文成; 赵帅江; 邹伟; 韩阳; 李先刚
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-09-05
Anticipated expiration: 2043-08-04
Also published as: CN116705058B

Abstract

本公开提供了一种多模语音任务的处理方法，包括：对多模语音任务中语音部分的各个语音分帧进行处理，以获得对应于多个语音分帧的音节向量序列；基于多模语音任务的语序，对多模语音任务中文本部分的字符向量序列和音节向量序列进行拼接，获得拼接向量序列，其中字符向量序列中各个字符向量和音节向量序列中各个音节向量具有相同维度；以及调用多模语言模型对拼接向量序列进行分析，生成用于回应多模语音任务的交互文本。本公开还提供一种电子设备及可读存储介质。

Description

多模语音任务的处理方法、电子设备及可读存储介质

技术领域

本公开涉及深度学习技术领域，本公开特别涉及一种多模语音任务的处理方法、电子设备及可读存储介质。

背景技术

传统的语音任务的处理，例如语音识别和语音合成，通常依赖于手工设计的特征表示或者监督学习的标注样本，但是大量的标注数据和人工特征工程限制了语音任务处理的应用范围，以及执行语音处理任务的模型的性能。

相关技术中，也提出了一些语音无监督预训练的方法，通过无监督学习的方式构建语音模型，减少了模型训练过程对大批量标注样本的依赖。但是，这些无监督学习的方式所构建的语音模型仅关注语音特征的维度，以致仅能够实现对语音数据的下一帧内容的预测，难以满足对多种模式语音任务的处理需求，例如对语音和文本拼接内容的处理等。

发明内容

为了解决前述提出问题中的至少一个，本公开提供了一种多模语音任务的处理方法、电子设备及可读存储介质。

根据本公开的一个方面提供了这样一种多模语音任务的处理方法，包括：对多模语音任务中语音部分的各个语音分帧进行处理，以获得对应于多个所述语音分帧的音节向量序列；基于所述多模语音任务的语序，对所述多模语音任务中文本部分的字符向量序列和所述音节向量序列进行拼接，获得拼接向量序列，其中所述字符向量序列中各个字符向量和所述音节向量序列中各个音节向量具有相同维度；以及调用多模语言模型对所述拼接向量序列进行分析，生成用于回应所述多模语音任务的交互文本。

在一些实施方式中，所述对多模语音任务中语音部分的各个语音分帧进行处理，以获得对应于多个所述语音分帧的音节向量序列，包括：提取各个所述语音分帧的语音特征，其中所述语音特征至少用于表征所述语音分帧的语义信息和表达风格；基于所述语音特征，将所述语音分帧映射至相应的聚类中心，并以所述聚类中心的编码作为所述语音分帧的聚类标签；根据所述聚类标签，将各个所述语音分帧进行降维处理，以获得多个音节向量；以及按照所述语音部分的语序，对各个所述音节向量进行排列，形成所述音节向量序列。

在一些实施方式中，所述调用多模语言模型对所述拼接向量序列进行分析，生成用于回应所述多模语音任务的交互文本，包括：调用所述多模语言模型对所述拼接向量序列进行分析，预测回应所述拼接向量序列所需的交互字符向量序列；以及按照所述多模语音任务的表达风格，对所述交互字符向量序列进行字符还原，生成用于回应所述多模语音任务的所述交互文本。

在一些实施方式中，还包括：对所述文本部分的各个字符进行处理，获得对应于各个所述字符的多个字符向量；以及按照所述文本部分的语序，对各个所述字符向量进行排列，形成所述字符向量序列。

在一些实施方式中，还包括：利用多种样本向量序列对语言模型进行训练，以构建用于处理多种语言形式的所述多模语言模型，其中所述样本向量序列至少包括音节样本向量序列、字符样本向量序列和拼接样本向量序列，所述语言形式至少包括语音形式、文本形式和语音文本拼接形式。

在一些实施方式中，所述利用多种样本向量序列对语言模型进行训练，以构建用于处理多种语言形式的所述多模语言模型，包括：利用音节样本向量序列和字符样本向量序列分别对所述语言模型进行无监督训练，以获得单模语言模型，其中所述单模语言模型具备处理所述音节向量序列和所述字符向量序列的能力；将所述音节样本向量序列和所述字符样本向量序列按照目标语序进行拼接，获得拼接样本向量序列；调用所述单模语言模型对所述拼接样本向量序列进行处理，获得处理结果；以及根据所述处理结果和期望结果之间的偏差值，对所述单模语言模型的权重进行调整，直至所述处理结果对应的所述偏差值小于或等于预设阈值，以权重调整之后的所述单模语言模型作为所述多模语言模型，其中所述多模语言模型具备处理所述音节向量序列、所述字符向量序列和所述拼接向量序列的能力。

在一些实施方式中，还包括：响应于所述多模语音任务为语音形式，调用多模语言模型对所述多模语音任务对应的音节向量序列进行分析，生成用于回应所多模语音任务据的交互文本；或者响应于所述多模语音任务为文本形式，调用多模语言模型对所述多模语音任务对应的字符向量序列进行分析，生成用于回应多模语音任务的交互文本。

根据本公开的另一个方面提供了这样一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如上述任一实施方式所述的多模语音任务的处理方法。

根据本公开的又一个方面提供了这样一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上述任一实施方式所述的多模语音任务的处理方法。

根据本公开的再一个方面提供了这样一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现上述任一实施方式所述的多模语音任务的处理方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1为本公开示例性实施方式的多模语音任务的处理方法流程图。

图2为本公开示例性实施方式的多模语音任务的处理架构示意图。

图3为本公开示例性实施方式的多模语音任务的处理装置框图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

本文使用的术语是为了描述具体实施例的目的，而不是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1为本公开示例性实施方式的多模语音任务的处理方法流程图。下面将结合图1对本公开的多模语音任务的处理方法S100进行详细说明。

步骤S102，对多模语音任务中语音部分的各个语音分帧进行处理，以获得对应于多个语音分帧的音节向量序列。

多模语音任务是用户输入的待处理的数据，具有多种语言形式，例如语音形式、文本形式、语音文本拼接形式等。相关技术中的任务处理方法仅适用于对文本形式输入数据的预测、扩展，但是并不适用于对语音形式、语音文本拼接形式等多种表达形式的输入数据的处理。而本公开所提出的方法支持更丰富的输入数据的表达形式，因此用户可输入多模语音任务，提升了用户的人机交互体验，并扩展了人机交互过程的可应用场景。更具体地，多模语音任务根据其语言表达形式，可仅具有文本部分或者语音部分，也可具有语音部分和文本部分。

语音部分是多模语音任务中通过声波传递信息的部分，具有多个语音分帧，每个语音分帧具有所表达的语义信息，并根据用户的个性化特征呈现一定的表达风格。换言之，每个语音分帧对应有语音特征，这些语音特征至少体现在所表达的语义信息和所呈现的表达风格上。在本公开中，我们以语音分帧作为语音部分的离散单位，便于对语音部分进行数据化处理。

为了弱化多模语音任务的语言形式对后续任务处理的影响，需要将多模语音任务中的数据进行统一化处理，包括统一维度和表达形式等处理。基于此，本公开将各个语音分帧转换为对应的音节向量，并且按照语音部分的语序，依序排列各个音节向量，以形成音节向量序列。

音节向量具有相比于语音分帧更低的维度信息，便于分析和计算，有利于提升任务处理效率。同样地，多模语音任务中文本部分的字符也被处理为相应的字符向量，并且字符向量的维度与音节向量的维度相同，便于二者的拼接。当语音部分和文本部分都转换为相同维度和形式的向量时，在后续处理多模语音任务时，就不会过度关注其输入的语言形式，那么也就能支持更丰富的语言形式的输入。当然，其余语言形式若可转换为具有相同维度和形式的向量，那么均落入本公开的保护范围。

步骤S104，基于多模语音任务的语序，对多模语音任务中文本部分的字符向量序列和音节向量序列进行拼接，获得拼接向量序列。

语序是用于表征多模语音任务所呈现的表达顺序，通常符合用户的语言表达习惯以及人类日常用语习惯。具有语序的语音分帧或者字符能够表达出用户想要说明的交互需求，使得多模语音任务并不是多个语音分帧或者字符的简单堆叠。

拼接向量序列就是按照语序，将字符向量序列和音节向量序列进行拼接的结果。拼接所获得的拼接向量序列可以用向量的形式完整地表达多模语音任务的所表达的语义。

当然，字符向量序列中各个字符向量和音节向量序列中各个音节向量具有相同维度，以保证二者具备拼接的条件。

步骤S106，调用多模语言模型对拼接向量序列进行分析，生成用于回应多模语音任务的交互文本。

多模语言模型是用于执行对拼接向量序列的分析任务的神经网络模型，具有自学习的能力，能够通过训练了解人类的表达习惯，实现对输入数据的分析、预测、扩展等任务，进而输出反馈结果，达成人机交互目的。多模语言模型区别于相关技术的语言模型，能够对多种语言形式的数据所对应的向量序列进行无差别的分析；而相关技术中现有的语言模型仅能够实现对单一形式的输入数据的分析，例如文本形式或者语音形式等。

交互文本是多模语言模型的最终输出结果，是基于多模语音任务所包含的个性化表达特征而生成的符合人类交流习惯的内容。并且，交互文本所呈现的内容能够实现对多模语音任务的反馈需求，解答多模语音任务所需求的问题，包括撰写文章、答疑解惑、日常交流等。

图2为本公开示例性实施方式的多模语音任务的处理架构示意图。下面将结合图2对多模语音任务的处理方法进行更具体的介绍。

在一些实施方式中，步骤S102的具体执行过程为：提取各个语音分帧的语音特征；基于语音特征，将语音分帧映射至相应的聚类中心，并以聚类中心的编码作为语音分帧的聚类标签；根据聚类标签，将各个语音分帧进行降维处理，以获得多个音节向量；以及按照语音部分的语序，对各个音节向量进行排列，形成音节向量序列。

语音特征可例如梅尔谱特征等，包含语音分帧的语义信息和用户的表达风格，具体表示为频率信息、音色信息、音调信息、语义内容等。

聚类中心是根据语音部分的特征而划分的多个语音类别，每个聚类中心可对应多个语音分帧。例如语音部分具有100个语音分帧，并设定10个聚类中心，那么根据这些语音分帧的语音特征，可以各个语音分帧映射到对应的聚类中心，使得属于同一聚类中心的语音分帧呈现相同或者相似的语音特征。另外，每个聚类中心被设定有一个类别编码，不同聚类中心的类别编码不同，以示区别。

聚类标签是用于表征语音分帧所属类别的标识，映射至同一聚类中心的语音分帧具有相同的聚类标签。例如，以语音分帧所映射的聚类中心的类别编码作为其聚类标签，当然聚类标签还可为设置为其他内容，不一一列举。

将各个语音分帧映射至相应聚类中心时，可以采用k-means（k均值）算法实现，使得处于同一聚类中心的语音分帧具有相同或相似的语音特征。

对各个语音分帧的聚类标签进行降维处理时，可采用embedding（嵌入）方法，将各个语音分帧对应的聚类标签转换为与文本向量的维度相同的离散化token（即音节向量）。音节向量是对语音分帧对应的语音特征的数字化表示，便于模型的训练和分析，也便于不同语言形式的输入内容的拼接。

当然，语音分帧对应的token和字符对应的token仅具有相同的表达形式和维度，但是其输出节点是相互独立的，所表征的特征也是相互独立的。例如语音部分具有1至10的十个聚类中心，文本部分可具有11至15的五个聚类中心，每个聚类中心表征的特征不同，不同语言形式对应的聚类中心的数量也不同，二者相互独立。

在一些实施方式中，步骤S106的具体实现方式为：调用多模语言模型对拼接向量序列进行分析，预测回应拼接向量序列所需的交互字符向量序列；以及按照多模语音任务的表达风格，对交互字符向量序列进行字符还原，生成用于回应多模语音任务的交互文本。

交互字符向量序列是多模语言模型对拼接向量序列的分析结果，其所对应的语义内容为交互文本的内容，但是在输出时，以向量序列的形式输出。这样，多模语言模型的输入和输出均为向量序列的形式，提升了多模语言模型的分析效率，降低其计算量。

在一些实施方式中，多模语音任务的处理方法还包括：对文本部分的各个字符进行处理，获得对应于各个字符的多个字符向量；以及按照所述文本部分的语序，对各个字符向量进行排列，形成字符向量序列。

在一些实施方式中，多模语音任务的处理方法还包括：利用多种样本向量序列对语言模型进行训练，以构建用于处理多种语言形式的多模语言模型。

样本向量序列至少包括音节样本向量序列、字符样本向量序列和拼接样本向量序列，通过多种形式的样本对语言模型进行训练，使得其能够适应于对具有多种语言形式的多模语音任务的处理。参考前述，语言形式至少包括语音形式、文本形式和语音文本拼接形式。

具体地，构建多模语言模型的过程主要体现为：利用音节样本向量序列和字符样本向量序列分别对语言模型进行无监督训练，以获得单模语言模型，其中单模语言模型具备处理音节向量序列和字符向量序列的能力；将音节样本向量序列和字符样本向量序列按照目标语序进行拼接，获得拼接样本向量序列；调用单模语言模型对拼接样本向量序列进行处理，获得处理结果；以及根据处理结果和期望结果之间的偏差值，对单模语言模型的权重进行调整，直至处理结果对应的偏差值小于或等于预设阈值，以权重调整之后的单模语言模型作为多模语言模型，其中多模语言模型具备处理音节向量序列、字符向量序列和拼接向量序列的能力。

换言之，在构建多模语言模型时，首先对其进行无监督预训练，构建单模语言模型；进而，在利用拼接样本向量序列和人工提示的方式对单模语言模型进行权重调优，使其具备处理多种语言形式的输入数据的能力，进而形成多模语言模型。

通过无监督预训练的方式，克服了需要大量标注样本数据训练语言模型的弊端，减少了多模语言模型生成过程对人工提示的依赖。

更具体地，在训练单模语言模型时，可采用预训练语言方法WavLM和hubert来实现，主要是基于语音特征和无监督的聚类标签来进行的无监督训练，训练所获得的单模语言模型可以实现语音特征和聚类标签的映射。

首先，将得到的字符样本向量序列输入到语音模型中，以获得具有分析字符向量序列能力的语音模型。进一步地，通过具备分析字符向量序列能力的语音模型的权重对语音模型进行初始化；将得到的音节样本向量序列输入到该语音模型中，语音模型通过自回归的方式学习聚类标签之间的关系，并基于当前输入的标签预测下一个聚类标签；进而，将预测出的下一个聚类标签和音节样本向量序列中对应位置的聚类标签进行比对，并反馈给语音模型，进行权重的调整；直至预测的聚类标签与音节样本向量序列对应位置的聚类标签一致，则证明该模型具备分析音节向量序列的能力，即可获得单模语言模型。

由于不同语言形式的向量所表征的特征是不同的，因此单模语言模型中输出音节向量序列的预测标签的节点和输出字符向量序列的预测标签的节点不同。

进一步地，以拼接样本向量序列作为输入，对单模语言模型进行预测训练，即可获得多模语言模型。例如，样本任务为“预测语音‘北京今日发布高温预警’中的内容”，其中“预测语音‘……’中的内容”为文本部分，‘北京今日发布高温预警’则为语音部分。那么，将样本任务中的语音部分转换为音节样本向量序列，将文本部分转换为字符样本向量序列；进而将二者按照样本任务的语序进行拼接，并将拼接获得的拼接样本向量序列输入至单模语言模型中，该单模语言模型即可输出一个关于语音部分内容的交互字符向量序列；更进一步地，将交互字符向量序列还原为人类语言的交互文本，若该交互文本的内容与期望输出结果“北京今日发布高温预警”相同或相似，则证明该模型可作为多模语言模型进行拼接向量序列的预测，反之则需要对模型权重进行不断地调优。需要说明的是，期望输出结果可由人工提示，在此不做限制。

在一些实施方式中，多模语音任务的处理方法还可包括：响应于多模语音任务为语音形式，调用多模语言模型对多模语音任务对应的音节向量序列进行分析，生成用于回应多模语音任务的交互文本；或者响应于多模语音任务为文本形式，调用多模语言模型对多模语音任务对应的字符向量序列进行分析，生成用于回应多模语音任务的交互文本。

本公开提出的多模语音任务的处理方法，通过将输入的多模语音任务中的内容进行向量化降维处理，使得不同语言形式的部分统一为向量序列的表达，弱化了输入数据中语言形式对分析结果的影响，扩展了处理语音任务的适用场景。另外，通过无监督方式构建单模语言模型，并在单模语言模型的基础上进行多模语言模型的生成，克服了对大量人工标注数据的需求，保证了多模语言任务的可实现性。

图3为本公开示例性实施方式的多模语音任务的处理装置框图。如图3所示，本公开提出了一种多模语音任务的处理模型1000，包括：音节向量序列提取模块1002，用于对多模语音任务中语音部分的各个语音分帧进行处理，以获得对应于多个语音分帧的音节向量序列；拼接模块1004，用于基于多模语音任务的语序，对多模语音任务中文本部分的字符向量序列和音节向量序列进行拼接，获得拼接向量序列，其中字符向量序列中各个字符向量和音节向量序列中各个音节向量具有相同维度；以及交互文本生成模块1006，用于调用多模语言模型对拼接向量序列进行分析，生成用于回应多模语音任务的交互文本。

多模语音任务的处理模型1000中的各个模块是为了实现多模语音任务的处理方法的各个步骤而提出的，因此其实现原理和执行过程可参考前述，不再赘述。

该装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。因此，可以由相应模块执行上述流程图中的每个步骤或几个步骤，并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如***设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本公开中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。

就本说明书而言，“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在存储器中。

应当理解，本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种可读存储介质中，该程序在执行时，包括方法实施方式的步骤之一或其组合。

此外，在本公开各个实施方式中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种多模语音任务的处理方法，其特征在于，包括：

对多模语音任务中语音部分的各个语音分帧进行处理，以获得对应于多个所述语音分帧的音节向量序列；

基于所述多模语音任务的语序，对所述多模语音任务中文本部分的字符向量序列和所述音节向量序列进行拼接，获得拼接向量序列，其中所述字符向量序列中各个字符向量和所述音节向量序列中各个音节向量具有相同维度；以及

调用多模语言模型对所述拼接向量序列进行分析，生成用于回应所述多模语音任务的交互文本。

2.根据权利要求1所述的多模语音任务的处理方法，其特征在于，所述对多模语音任务中语音部分的各个语音分帧进行处理，以获得对应于多个所述语音分帧的音节向量序列，包括：

提取各个所述语音分帧的语音特征，其中所述语音特征至少用于表征所述语音分帧的语义信息和表达风格；

基于所述语音特征，将所述语音分帧映射至相应的聚类中心，并以所述聚类中心的编码作为所述语音分帧的聚类标签；

根据所述聚类标签，将各个所述语音分帧进行降维处理，以获得多个音节向量；以及

按照所述语音部分的语序，对各个所述音节向量进行排列，形成所述音节向量序列。

3. 根据权利要求1所述的多模语音任务的处理方法，其特征在于，所述调用多模语言模型对所述拼接向量序列进行分析，生成用于回应所述多模语音任务的交互文本，包括：

调用所述多模语言模型对所述拼接向量序列进行分析，预测回应所述拼接向量序列所需的交互字符向量序列；以及

按照所述多模语音任务的表达风格，对所述交互字符向量序列进行字符还原，生成用于回应所述多模语音任务的所述交互文本。

4. 根据权利要求1所述的多模语音任务的处理方法，其特征在于，还包括：

对所述文本部分的各个字符进行处理，获得对应于各个所述字符的多个字符向量；以及

按照所述文本部分的语序，对各个所述字符向量进行排列，形成所述字符向量序列。

5.根据权利要求1所述的多模语音任务的处理方法，其特征在于，还包括：利用多种样本向量序列对语言模型进行训练，以构建用于处理多种语言形式的所述多模语言模型，其中所述样本向量序列至少包括音节样本向量序列、字符样本向量序列和拼接样本向量序列，所述语言形式至少包括语音形式、文本形式和语音文本拼接形式。

6.根据权利要求5所述的多模语音任务的处理方法，其特征在于，所述利用多种样本向量序列对语言模型进行训练，以构建用于处理多种语言形式的所述多模语言模型，包括：

利用音节样本向量序列和字符样本向量序列分别对所述语言模型进行无监督训练，以获得单模语言模型，其中所述单模语言模型具备处理所述音节向量序列和所述字符向量序列的能力；

将所述音节样本向量序列和所述字符样本向量序列按照目标语序进行拼接，获得拼接样本向量序列；

调用所述单模语言模型对所述拼接样本向量序列进行处理，获得处理结果；以及

根据所述处理结果和期望结果之间的偏差值，对所述单模语言模型的权重进行调整，直至所述处理结果对应的所述偏差值小于或等于预设阈值，以权重调整之后的所述单模语言模型作为所述多模语言模型，其中所述多模语言模型具备处理所述音节向量序列、所述字符向量序列和所述拼接向量序列的能力。

7.根据权利要求1至6中任一项所述的多模语音任务的处理方法，其特征在于，还包括：

响应于所述多模语音任务为语音形式，调用多模语言模型对所述多模语音任务对应的音节向量序列进行分析，生成用于回应所述多模语音任务的交互文本。

8.根据权利要求1至6中任一项所述的多模语音任务的处理方法，其特征在于，还包括：

响应于所述多模语音任务为文本形式，调用多模语言模型对所述多模语音任务对应的字符向量序列进行分析，生成用于回应所述多模语音任务的交互文本。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如权利要求1至8中任一项所述的多模语音任务的处理方法。

10.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1至8中任一项所述的多模语音任务的处理方法。