CN114329041A

CN114329041A - 一种多媒体数据处理方法、装置以及可读存储介质

Info

Publication number: CN114329041A
Application number: CN202111361702.9A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-04-12

Abstract

本申请公开了一种多媒体数据处理方法、装置以及可读存储介质，该方法包括：在获取到多媒体文件中的原始音频数据时，获取原始音频数据相关联的目标音频识别模型；将原始音频数据输入至目标声乐分离模型，由目标声乐分离模型对原始音频数据进行声乐分离，得到与第一对象相关联的第一类音轨以及与第二对象相关联的第二类音轨；从第一类音轨中获取第一对象的语音数据，将第一对象的语音数据输入至目标语音识别模型，由目标语音识别模型对第一对象的语音数据进行文本识别，得到第一对象的文本识别结果；基于文本识别结果确定原始音频数据的音频类型，对第二类音轨中与第二对象相关联的音频数据进行存储。采用本申请，可以提升音频数据识别的准确性。

Description

一种多媒体数据处理方法、装置以及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种多媒体数据处理方法、装置以及可读存储介质。

背景技术

目前，在一些业务场景(例如，音频数据识别场景)下，若需要对某个音频数据(例如，音频数据A)进行分类，则可以先识别出该音频数据的音频类型，以便在进行分类存储或者使用该音频数据A的时候提供该音频数据A的音频类型。

比如，在现有的音频分类方案中，可以直接将完整的音频数据A输入到一个音频分类模型中，进而通过该音频分类模型对该音频数据A进行整体识别，从而得到音频数据A的音频类型。然而，在对音频数据A进行整体识别时，往往会存在一些噪声(例如，音频数据A中的和声)的干扰，很容易导致音频分类模型出现误识别的可能，从而会降低音频数据识别的准确性。

发明内容

本申请实施例提供了一种多媒体数据处理方法、装置以及可读存储介质，可以提升音频数据识别的准确性。

本申请实施例一方面提供了一种多媒体数据处理方法，包括：

在获取到多媒体文件中的原始音频数据时，获取用于对原始音频数据进行音频处理的目标音频识别模型；目标音频识别模型包括目标声乐分离模型和目标语音识别模型；

将原始音频数据输入至目标声乐分离模型，由目标声乐分离模型对原始音频数据进行声乐分离，得到与原始音频数据中的第一对象相关联的第一类音轨以及与原始音频数据中的第二对象相关联的第二类音轨；

从第一类音轨中获取第一对象的语音数据，将第一对象的语音数据输入至目标语音识别模型，由目标语音识别模型对第一对象的语音数据进行文本识别，得到第一对象的文本识别结果；

基于文本识别结果确定原始音频数据的音频类型，对第二类音轨中与第二对象相关联的音频数据进行存储。

获取用于训练初始音频识别模型的样本音频数据，且将样本音频数据对应的标注音频类型作为样本音频数据的样本类型标签；样本音频数据是从样本多媒体文件中获取到的；初始音频识别模型包括初始声乐分离模型和初始语音识别模型；

将样本音频数据输入至初始声乐分离模型，由初始声乐分离模型对样本音频数据进行声乐分离，得到与样本音频数据中的第一样本对象相关联的第一类样本音轨以及与样本音频数据中的第二样本对象相关联的第二类样本音轨；

从第一类样本音轨中获取第一样本对象的语音数据，将第一样本对象的语音数据输入至初始语音识别模型，由初始语音识别模型对第一样本对象的语音数据进行文本识别，基于得到的第一样本对象的文本识别结果确定样本音频数据的预测音频类型，将预测音频类型作为预测类型标签；

基于预测类型标签和样本类型标签对初始音频识别模型进行迭代训练，得到用于对多媒体文件中的原始音频数据进行音频处理的目标音频识别模型。

本申请实施例一方面提供了一种多媒体数据处理装置，包括：

获取模块，用于在获取到多媒体文件中的原始音频数据时，获取用于对原始音频数据进行音频处理的目标音频识别模型；目标音频识别模型包括目标声乐分离模型和目标语音识别模型；

分离模块，用于将原始音频数据输入至目标声乐分离模型，由目标声乐分离模型对原始音频数据进行声乐分离，得到与原始音频数据中的第一对象相关联的第一类音轨以及与原始音频数据中的第二对象相关联的第二类音轨；

识别模块，用于从第一类音轨中获取第一对象的语音数据，将第一对象的语音数据输入至目标语音识别模型，由目标语音识别模型对第一对象的语音数据进行文本识别，得到第一对象的文本识别结果；

第一确定模块，用于基于文本识别结果确定原始音频数据的音频类型，对第二类音轨中与第二对象相关联的音频数据进行存储。

其中，上述目标声乐分离模型包含用于提取原始音频数据对应的语音特征的第一分割网络以及用于提取原始音频数据对应的音频特征的第二分割网络；

上述分离模块包括：

频谱获取单元，用于获取原始音频数据对应的原始音轨幅度谱；

第一特征提取单元，用于将原始音轨幅度谱输入至第一分割网络，由第一分割网络输出原始音轨幅度谱相关联的语音特征；

第二特征提取单元，用于将原始音轨幅度谱输入至第二分割网络，由第二分割网络输出原始音轨幅度谱相关联的音频特征；

音轨分离单元，用于基于语音特征、音频特征以及原始音轨幅度谱，得到与原始音频数据中的第一对象相关联的第一类音轨以及与原始音频数据中的第二对象相关联的第二类音轨。

其中，上述第一分割网络和第二分割网络为具有相同网络结构的对称网络；对称网络包含U个卷积层和U个上采样层；U个卷积层中的第p个卷积层用于获取与原始音轨幅度谱相关联的卷积特征；p为小于或者等于U的正整数；U个上采样层中的第q个上采样层用于在获取到第p个卷积层的卷积特征和第q-1个上采样层的上采样特征时，将第p个卷积层的卷积特征和第q-1个上采样层的上采样特征进行特征拼接；第q-1个上采样层为第q个上采样层的上一采样层；q为小于或者等于U的正整数，且q＝U-p+1。

其中，上述音轨分离单元包括：

特征融合子单元，用于将语音特征和音频特征进行特征融合，得到目标融合特征；

第一音轨获取子单元，用于基于目标融合特征和语音特征，生成语音特征相关联的第一掩码，基于第一掩码和原始音轨幅度谱，生成第一音轨幅度谱，对第一音轨幅度谱进行频谱反变换，得到与原始音频数据中的第一对象相关联的第一类音轨；

第二音轨获取子单元，用于基于目标融合特征和音频特征，生成音频特征相关联的第二掩码，基于第二掩码和原始音轨幅度谱，生成第二音轨幅度谱，对第二音轨幅度谱进行频谱反变换，得到与原始音频数据中的第二对象相关联的第二类音轨。

其中，若多媒体文件为视频类文件，则第一对象包含视频类文件中的角色对象和第一配乐对象；

上述第一音轨获取子单元，具体用于对第一音轨幅度谱进行频谱反变换，得到与第一对象相关联的第一混合语音音轨；第一混合语音音轨中携带与角色对象相关联的对象语音数据和与第一配乐对象相关联的第一配乐语音数据；对第一混合语音音轨中所携带的对象语音数据和第一配乐语音数据进行声纹特征识别，将识别到的角色对象的声纹特征作为第一声纹特征，且将识别到的第一配乐对象的声纹特征作为第二声纹特征；基于第一声纹特征和第二声纹特征，对第一混合语音音轨中的对象语音数据和第一配乐语音数据进行语音分割，得到第一声纹特征对应的对象语音数据和第二声纹特征对应的第一配乐语音数据；将第一声纹特征对应的对象语音数据和第二声纹特征对应的第一配乐语音数据作为第一对象相关联的第一类音轨。

其中，若多媒体文件为音频类文件，则第一对象包含音频类文件中的第二配乐对象；

上述第一音轨获取子单元，具体用于对第一音轨幅度谱进行频谱反变换，得到与第一对象相关联的第二混合语音音轨；第二混合语音音轨中携带与第二配乐对象相关联的第二配乐语音数据；将在第二混合语音音轨中获取到的第二配乐语音数据作为第一对象相关联的第一类音轨。

其中，若多媒体文件为视频类文件，则第一类音轨包含与视频类文件中的角色对象相关联的对象语音数据，第二类音轨包含与视频类文件中的背景对象相关联的音频数据；背景对象包含第三配乐对象和伴奏对象；

上述装置还包括：

分离更新模块，用于将第二类音轨中与背景对象相关联的音频数据输入至目标声乐分离模型，通过目标声乐分离模型对背景对象相关联的音频数据进行声乐分离，得到与第三配乐对象相关联的第三配乐语音数据以及与伴奏对象相关联的伴奏音频数据；将分离出的第三配乐语音数据添加至包含对象语音数据的第一类音轨，得到第一类更新音轨，且将分离出的伴奏音频数据作为第二类更新音轨。

其中，上述识别模块包括：

第三特征提取单元，用于获取第一类音轨包含的第一对象的语音数据所对应的待处理语音序列，将待处理语音序列输入至目标语音识别模型中的编码网络，由编码网络提取待处理语音序列的语音序列特征，将提取到的语音序列特征作为第一对象对应的目标语音序列特征；

向量转换单元，用于获取目标语音识别模型中的解码网络在第i时刻所输出的第一译码结果，将第一译码结果输入至目标语音识别模型中的向量转换网络，由向量转换网络将第一译码结果转换为目标词向量；i为正整数；

译码输出单元，用于基于目标语音序列特征、目标词向量以及目标语音识别模型中的解码网络，得到解码网络在第i+1时刻所输出的第二译码结果；

结果确定单元，用于基于第一译码结果和第二译码结果，确定第一对象的文本识别结果。

其中，目标语音识别模型包含编码网络，且目标语音识别模型中的编码网络为双向长短期记忆网络；双向长短期记忆网络包含正向长短时记忆网络和反向长短时记忆网络；正向长短时记忆网络包含记忆网络B_j和记忆网络B_j+1，记忆网络B_j+1为记忆网络B_j的下一记忆网络；反向长短时记忆网络包含记忆网络C_j+1和记忆网络C_j；记忆网络C_j+1为记忆网络C_j的上一记忆网络；j为小于或者等于M的正整数；正向长短时记忆网络和反向长短时记忆网络中的记忆网络的数量均为M；

上述第三特征提取单元，包括：

正向特征提取子单元，用于获取与正向长短时记忆网络中的记忆网络B_j相关联的正向历史隐藏特征h_j-1，将待处理语音序列和正向历史隐藏特征h_j-1输入记忆网络B_j，由记忆网络B_j在第j时刻提取得到正向目标隐藏特征h_j，将正向目标隐藏特征h_j和待处理语音序列输入记忆网络B_j+1，由记忆网络B_j+1在第j+1时刻提取得到正向目标隐藏特征h_j+1；

反向特征提取子单元，用于获取与反向长短时记忆网络中的记忆网络C_j+1相关联的反向历史隐藏特征k_j+1，将待处理语音序列和反向历史隐藏特征k_j+1输入记忆网络C_j+1，由记忆网络C_j+1在第j+1时刻提取得到反向目标隐藏特征k_j，将反向目标隐藏特征k_j和待处理语音序列输入记忆网络C_j，由记忆网络C_j在第j时刻提取得到反向目标隐藏特征k_j-1；

特征拼接子单元，用于将记忆网络B_j在第j时刻提取得到的正向目标隐藏特征h_j与记忆网络C_j在第j时刻提取得到的反向目标隐藏特征k_j-1进行特征拼接，得到第一拼接特征，将记忆网络B_j+1在第j+1时刻提取得到的正向目标隐藏特征h_j+1与记忆网络C_j+1在第j+1时刻提取得到的反向目标隐藏特征k_j进行特征拼接，得到第二拼接特征；

特征确定子单元，用于基于第一拼接特征和第二拼接特征，确定从待处理语音序列中提取得到第一对象对应的目标语音序列特征。

其中，上述译码输出单元包括：

权重获取子单元，用于基于目标语音序列特征和目标词向量生成初始权重系数，对初始权重系数进行归一化处理，得到目标权重系数；

向量生成子单元，用于基于目标权重系数和目标语音序列特征，生成语义编码向量；

向量拼接子单元，用于将目标词向量和语义编码向量进行向量拼接，得到目标拼接向量；

译码输出子单元，用于将目标拼接向量输入至目标语音识别模型中的解码网络，由解码网络在第i+1时刻输出第二译码结果。

其中，目标语音识别模型中的解码网络为单向长短期记忆网络；单向长短期记忆网络包含记忆网络D_i和记忆网络D_i+1，记忆网络D_i+1为记忆网络D_i的下一记忆网络；i为小于或者等于N的正整数；单向长短期记忆网络中的记忆网络的数量为N；

上述译码输出子单元，具体用于获取由单向长短期记忆网络中的记忆网络D_i在第i时刻提取得到的单向目标隐藏特征s_i；单向目标隐藏特征s_i是基于记忆网络D_i相关联的单向历史隐藏特征s_i-1得到的；将单向目标隐藏特征s_i和目标拼接向量输入记忆网络D_i+1，由记忆网络D_i+1在第i+1时刻提取得到单向目标隐藏特征s_i+1，基于目标拼接向量和单向目标隐藏特征s_i+1，得到在第i+1时刻的第二译码结果。

其中，第一对象包含配乐对象，文本识别结果包含配乐对象的目标识别结果；第二对象包含伴奏对象；

上述第一确定模块，具体用于若文本识别结果中的目标识别结果为空值，则确定原始音频数据的音频类型为纯音乐类型；对第二类音轨中与伴奏对象相关联的伴奏音频数据进行存储。

其中，上述装置还包括：

第二确定模块，用于若文本识别结果中的目标识别结果为非空值，则确定原始音频数据的音频类型为非纯音乐类型；将文本识别结果相关联的译码结果，作为第一对象相关联的文本信息；对第一类音轨中与第一对象相关联的语音数据和文本信息进行关联存储。

样本获取模块，用于获取用于训练初始音频识别模型的样本音频数据，且将样本音频数据对应的标注音频类型作为样本音频数据的样本类型标签；样本音频数据是从样本多媒体文件中获取到的；初始音频识别模型包括初始声乐分离模型和初始语音识别模型；

音轨分离模块，用于将样本音频数据输入至初始声乐分离模型，由初始声乐分离模型对样本音频数据进行声乐分离，得到与样本音频数据中的第一样本对象相关联的第一类样本音轨以及与样本音频数据中的第二样本对象相关联的第二类样本音轨；

文本识别模块，用于从第一类样本音轨中获取第一样本对象的语音数据，将第一样本对象的语音数据输入至初始语音识别模型，由初始语音识别模型对第一样本对象的语音数据进行文本识别，基于得到的第一样本对象的文本识别结果确定样本音频数据的预测音频类型，将预测音频类型作为预测类型标签；

模型训练模块，用于基于预测类型标签和样本类型标签对初始音频识别模型进行迭代训练，得到用于对多媒体文件中的原始音频数据进行音频处理的目标音频识别模型。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例中所涉及的计算机设备在获取到多媒体文件中的原始音频数据时，通过引入目标音频识别模型，可以由目标音频识别模型中的目标声乐分离模型对该原始音频数据进行声乐分离，从而得到与该原始音频数据中的第一对象相关联的第一类音轨以及与该原始音频数据中的第二对象相关联的第二类音轨。进一步的，从第一类音轨中获取到第一对象的语音数据后，可以由目标音频识别模型中的目标语音识别模型对该第一对象的语音数据进行文本识别，从而得到第一对象的文本识别结果，进而可以基于该文本识别结果确定原始音频数据的音频类型，并对第二类音轨中与第二对象相关联的音频数据进行存储。由此可见，本申请实施例可以在智能识别原始音频数据的音频类型的过程中，先从原始音频数据中分离出单独的第一类音轨和第二类音轨，然后再对分离出的第一类音轨进行文本识别，从而可以减少第二类音轨中的音频数据(例如，伴奏音频数据)对目标语音识别模型产生的干扰，进而可以提升音频数据识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种***架构示意图；

图2是本申请实施例提供的一种音频数据识别的场景示意图；

图3是本申请实施例提供的一种多媒体数据处理方法的流程示意图；

图4是本申请实施例提供的一种对称网络的结构示意图；

图5是本申请实施例提供的一种进行声乐分离的场景示意图；

图6是本申请实施例提供的一种目标语音识别模型的场景示意图；

图7是本申请实施例提供的一种音频分类的场景示意图；

图8是本申请实施例提供的一种多媒体数据处理方法的流程示意图；

图9是本申请实施例提供的一种多媒体数据处理装置的结构示意图；

图10是本申请实施例提供的一种多媒体数据处理装置的结构示意图；

图11是本申请实施例提供的一种多媒体数据处理装置的结构示意图；

图12是本申请实施例提供的一种计算机设备的结构示意图；

图13是本申请实施例提供的一种多媒体数据处理***的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音处理技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)、语音合成技术以及声纹识别技术。其中，自动语音识别技术也称为语音识别技术，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。在本申请实施例中，自动语音识别技术可以用于对语音数据进行文本识别。

本申请实施例提供的方案属于人工智能领域下的机器学习((Machine Learning，ML)。可以理解的是，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，目标音频识别模型(包括目标声乐分离模型和目标语音识别模型)是基于机器学习技术的AI模型，可用于对原始音频数据进行音频处理。

请参见图1，图1是本申请实施例提供的一种***架构示意图。如图1所示，该***架构可以包括业务服务器100以及用户终端集群，其中，用户终端集群可以包括一个或多个用户终端，这里将不对用户终端集群中的用户终端的数量进行限定。如图1所示，用户终端集群中的多个用户终端具体可以包括：用户终端200a、用户终端200b、用户终端200c、…、用户终端200n，其中，用户终端集群之间可以存在通信连接，例如用户终端200a与用户终端200b之间存在通信连接，用户终端200a与用户终端200c之间存在通信连接。同时，用户终端集群中的任一用户终端可以与业务服务器100存在通信连接，以便于用户终端集群中的每个用户终端可以通过该通信连接与业务服务器100进行数据交互，例如用户终端200a与业务服务器100之间存在通信连接。其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。

应该理解，如图1所示的用户终端集群中的每个用户终端均可以安装有应用客户端，当该应用客户端运行于各用户终端中时，可以分别与上述图1所示的业务服务器100之间进行数据交互。其中，该应用客户端可以为短视频应用、视频应用、直播应用、音乐应用、社交应用、即时通信应用、游戏应用、购物应用、小说应用、支付应用、浏览器等具有显示文字、图像、音频以及视频等数据信息功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如社交客户端、视频客户端等)中的嵌入式子客户端，在此不做限定。以短视频应用为例，业务服务器100可以为包括短视频应用对应的后台服务器、数据处理服务器等多个服务器的集合，因此，每个用户终端均可以通过该短视频应用对应的应用客户端与业务服务器100进行数据传输，如每个用户终端均可以通过短视频应用的应用客户端将其生产的短视频上传至业务服务器100，进而业务服务器100可以将这些短视频下发给其它用户终端。其中，短视频具有时长短、传播快、制作门槛低、参与性强等特点，是内容创业和社交媒体平台的重要传播方式之一。此外，在制作短视频的过程中，业务服务器100也可以为每个用户终端推荐合适的音频数据(例如配乐)以丰富短视频的内容，例如，可以推荐纯音乐类型的音频数据或者非纯音乐类型的音频数据。

应当理解，为了获取某个待处理音频数据的类型信息(即音频类型)，本申请实施例提供了一种针对音频数据的识别方法，即通过训练好的音频识别模型对待处理音频数据进行智能音频处理。为了便于后续的理解和说明，本申请实施例可以将待处理音频数据统称为原始音频数据，将用于对原始音频数据进行音频处理的音频识别模型称为目标音频识别模型。其中，原始音频数据可以为从多媒体文件中获取到的音频数据，可能会包含说话声、歌声、乐器声、噪声等等。这里的多媒体文件是指携带有音频数据的文件，包括同时携带图像数据和音频数据的视频类文件(例如短视频、电视剧集、电影、音乐短片(Music Video，MV)、动画等)，以及主要由音频数据组成的音频类文件(例如歌曲/音乐、有声读物、广播剧、电台节目等)，这些多媒体文件可以是来源于网络中的业务平台(例如，视频平台、音乐平台等)的文件，也可以是本地生产的文件(例如，通过摄像头采集到的音视频数据所组成的文件，如通过短视频应用录制的短视频)，还可以是某个用户(例如，用户X)所上传或分享的文件。

需要说明的是，不同的多媒体文件可以封装为不同的文件格式，例如，视频类文件可封装为MKV(Matroska Video File)、AVI(Audio Video Interleaved)、MP4(MPEG-4(Moving Picture Experts Group 4)的一个缩写)等文件格式，音频类文件可封装为MP3(Moving Picture Experts Group Audio Layer III)、OGG(OGGVobis(oggVorbis))、AAC(Moving Picture Experts Group 4)等文件格式。本申请实施例对封装采用的具体文件格式不进行限定。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于用户终端(例如，图1所示的用户终端集群中的任意一个用户终端)或业务服务器(例如，图1所示的业务服务器100)。其中，业务服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等可以运行上述应用的智能终端。其中，用户终端和业务服务器可以通过有线或无线方式进行直接或间接地连接，本申请实施例对此不做限制。

以业务服务器100为例，应当理解的是，业务服务器100在获取到某个多媒体文件(例如，多媒体文件A)时，可以先获取该多媒体文件中的原始音频数据(例如，音频数据B)。例如，用户终端集群中的某个用户终端(例如，用户终端200a)可以先将多媒体文件A上传至业务服务器100，再由业务服务器100对该多媒体文件A进行音频提取处理(包括解封装处理、解码处理等)，从而得到该多媒体文件A中的音频数据B。或者，也可以由用户终端(例如，用户终端200a)先获取该多媒体文件中的原始音频数据，再将该原始音频数据上传至业务服务器100。

进一步，在获取到原始音频数据后，业务服务器100可以获取集成有目标声乐分离模型和目标语音识别模型的目标音频识别模型，进而可以将得到的原始音频数据(例如，音频数据B)输入至目标声乐分离模型，通过目标声乐分离模型对该原始音频数据进行声乐分离，从而可以从该原始音频数据中提取出与第一对象相关联的第一类音轨(例如，音轨C1)以及与第二对象相关联的第二类音轨(例如，音轨C2)。其中，这里的第一对象和第二对象均属于原始音频数据(或者多媒体文件)中具有发声能力的对象，也就是说，原始音频数据可以由原始音频数据中的所有具有发声能力的对象相关联的音频数据组成。在本申请实施例中，按照对象类型可以将具有发声能力的对象划分为角色对象、配乐对象、伴奏对象等，其中，角色对象是指多媒体文件中讲话(例如，说台词，包括对白、独白、旁白等形式)的角色；配乐对象是指多媒体文件中进行歌词歌唱的演唱者；而伴奏对象则是指多媒体文件中产生伴奏的对象，通常来说可以是原始音频数据中除了人声之外的其他音频数据，其包括但不限于进行无歌词哼唱的对象、演奏音乐的乐器(例如钢琴、小提琴、笛子等)，在一些业务场景中还可以包括真实环境/虚拟环境中的发声物体(例如雷电、雨水、风、溪流，甚至发出噪声的干扰物等)。在本申请实施例中，角色对象和配乐对象均属于第一对象，而伴奏对象属于第二对象。此外，配乐对象和伴奏对象还可以统称为背景对象。

基于此，上述第一类音轨可以包括角色对象/配乐对象相关联的语音数据，例如，角色之间的对白、歌唱的人声等；第二类音轨可以包括与伴奏对象相关联的音频数据，例如，钢琴演奏出的琴声。为便于区分，本申请实施例可以将角色对象相关联的语音数据统称为对象语音数据，将配乐对象相关联的语音数据统称为配乐语音数据，将伴奏对象相关联的音频数据统称为伴奏音频数据。此外，后续还可以通过目标语音识别模型对对象语音数据和配乐语音数据进行文本识别，得到相应的文本信息，为便于区分，本申请实施例可以将对象语音数据对应的文本信息称为配乐文本信息(例如，歌词)，将配乐语音数据对应的文本信息称为对象文本信息(例如，台词)。

进一步，业务服务器100可以从上述第一类音轨(例如，音轨C1)中获取到第一对象的语音数据(例如，语音数据D)，并将该第一对象的语音数据输入至目标语音识别模型，进而可以由目标语音识别模型对该第一对象的语音数据进行文本识别，从而得到第一对象的文本识别结果，最终，可以基于该文本识别结果确定该原始音频数据的音频类型，此外，可以对上述第二类音轨(例如，音轨C2)中与第二对象相关联的音频数据(例如，音频数据E)进行存储。

可以理解，在本申请实施例中，音频类型可以包括纯音乐类型和非纯音乐类型，其中，纯音乐类型用于表征原始音频数据所包含的音乐(或歌曲)为纯音乐，即原始音频数据中不存在配乐文本信息(如歌词)，而非纯音乐类型用于表征原始音频数据所包含的音乐为非纯音乐，即原始音频数据中存在配乐文本信息。

可选的，可以理解的是，图1所示的***架构中可以包括多个业务服务器，一个用户终端可以与一个业务服务器相连接，每个业务服务器均可以获取到与之相连接的用户终端所上传的多媒体文件，从而可以加载目标音频识别模型对多媒体文件中的原始音频数据进行音频处理。

可选的，可以理解的是，用户终端也可以通过加载训练好的目标音频识别模型，对从多媒体文件中获取到的原始音频数据进行音频处理。

其中，可以理解的是，上述***架构所适用的业务场景具体可以包括：音频分类场景、音频推荐场景、音频搜索场景、音频提取场景、音频制作场景、视频制作场景等，这里将不对具体的业务场景进行一一列举。

比如，在音频分类场景下，计算机设备(例如，上述业务服务器100)可以对某个用户(例如，用户X)通过用户终端(例如，上述用户终端200a)上的应用客户端所上传的音频数据(例如，音乐F1)进行识别，从而可以得到该音乐F1的音频类型，并可以将得到的音频类型作为该音乐F1的类型标签，随后可以将添加类型标签后的音乐F1存储至音乐数据库，即对音乐F1进行分类、标记和存储，以便推进音乐数据库的标签建设。例如，若该音乐F1的音频类型为纯音乐类型，则该音乐F1的类型标签可以为“纯音乐”；反之，若该音乐F1的音频类型为非纯音乐类型，则该音乐F1的类型标签可以为“非纯音乐”。可以理解，该音乐F1的类型标签可以和该音乐F1的风格标签(例如，舒缓、欢快、清新、治愈等)共同作为该音乐F1的音乐标签。

又比如，在音频推荐场景下，计算机设备(例如，上述业务服务器100)可以基于用户X的用户画像，为该用户X推荐至少一首关联音乐，其中，这里的至少一首关联音乐可以与用户X所喜爱的(或者收听过的)音乐具有相同的音乐标签(包括类型标签)。例如，通过对用户X的用户画像进行分析，可以确定该用户X所喜爱的(或者收听过的)音乐标签为“纯音乐”，则计算机设备可以获取音乐标签为“纯音乐”的一首或多首关联音乐(例如，音乐F2和音乐F3)，进而计算机设备可以将音乐F2和音乐F3推送至该用户X对应的应用客户端。应当理解，用户X所喜爱的音乐标签的数量还可以为多个(例如，2个)，本申请实施例不对这里的音乐标签的数量进行限定。

又比如，在音频搜索场景下，类似于音频推荐场景，计算机设备(例如，上述业务服务器100)可以在用户X进行搜索时，识别用户X搜索的内容所对应的音乐标签，为用户X推荐至少一首关联音乐。其中，这里的至少一首关联音乐可以与用户X所搜索的内容具有相同的音乐标签(包括类型标签)。

又比如，在音频提取场景下，计算机设备(例如，上述业务服务器100)可以获取用户X上传的某个多媒体文件(例如，视频F4)，并从该多媒体文件的音频数据中分离出第一类音轨(例如，音轨F41)和第二类音轨(例如，音轨F42)，进而可以选择需要的音轨(例如，音轨F42)进行存储。例如，用户X希望从视频F4中提取出该视频F4所包含的伴奏，则计算机设备可以通过目标音频识别模型中的目标声乐分离模型得到相应的伴奏(即音轨F42)，得到的伴奏可以存储在本地，也可以分享给其他用户，或者用于扩充音乐数据库，还可以使用在其它多媒体文件中。又例如，用户X希望从视频F4中提取出该视频F4所包含的角色对话(即音轨F41中与角色对象相关联的语音数据)，则计算机设备可以通过目标声乐分离模型得到相应的语音数据，提取出的语音数据可以用于其它多媒体文件，也可以继续通过目标音频识别模型中的目标语音识别模型自动生成该语音数据对应的文本信息(即对象文本信息)。

又比如，在音频制作场景下，计算机设备(例如，上述业务服务器100)可以获取用户X上传的某个待处理音频数据(例如，音乐F5)，并从该待处理音频数据中分离出第一类音轨(例如，音轨F51)和第二类音轨(例如，音轨F52)，进而可以选择相应的音轨进行音轨更新，从而得到更新音频数据。例如，用户X可以删除某个音轨(例如，音轨F51)；或者，用户X可以新增某个音轨(例如，音轨F53)；又或者，用户X可以调整某个音轨(例如，音轨F52)，例如，对音轨F52中钢琴部分的音轨(即钢琴琴声)进行调整，例如，调整钢琴琴声的速度，如可以由原来的快速调整为慢速。

又比如，在视频制作场景下，计算机设备(例如，上述业务服务器100)可以获取用户X上传的某个视频(例如，视频F6)，并从该视频包含的音频数据中分离出第一类音轨(例如，音轨F61)和第二类音轨(例如，音轨F62)，同时，结合上述描述的音频推荐场景，计算机设备也可以基于用户X的用户画像，为该用户X推荐至少一首关联音乐(例如，音乐F7)，进而用户X可以在至少一首关联音乐中进行选择，选择的关联音乐可用于替换视频F6中的音轨F62，从而得到更新伴奏的视频。

可以理解的是，在本申请的具体实施方式中，涉及到用户画像相关的数据，当本申请中的实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

为便于理解，请一并参见图2，图2是本申请实施例提供的一种音频数据识别的场景示意图。其中，如图2所示的计算机设备20A可以为上述图1所对应实施例中的业务服务器100或者用户终端集群中的任意一个用户终端(例如，用户终端200a)，如图2所示的用户终端20B可以为上述图1所对应实施例中的用户终端集群中的任意一个用户终端(例如，用户终端200b)，用户A与用户终端20B具有绑定关系。

如图2所示，多媒体文件201A为待处理的多媒体文件，计算机设备20A在获取到多媒体文件201A后，可以对多媒体文件201A进行解封装处理、解码处理等，从而在多媒体文件201A中获取原始音频数据(例如，音频数据202A)。其中，多媒体文件201A可以为视频类文件，也可以为音频类文件，这里不进行限定。该多媒体文件201A可以是存储在计算机设备20A的本地缓存中的文件，也可以是从某个业务平台(例如，业务平台B)获取到的文件，还可以是某个用户所上传的文件(例如，用户A通过用户终端20B上传的文件)，本申请实施例对多媒体文件201A的来源不进行限定。

进一步，计算机设备20A可以获取预先训练好的音频识别模型203A(即目标音频识别模型)，如图2所示，该音频识别模型203A可以包含声乐分离模型M1(即目标声乐分离模型)和语音识别模型M2(即目标语音识别模型)，进而可以将上述音频数据202A输入至声乐分离模型M1，通过声乐分离模型M1对该音频数据202A进行声乐分离，可以得到音轨204A和音轨205A，其中，音轨204A为与第一对象相关联的第一类音轨，音轨205A为与第二对象相关联的第二类音轨。进而可以将音轨204A输入至语音识别模型M2，通过语音识别模型M2对该音轨204A中携带的第一对象的语音数据进行文本识别，从而可以得到相应的文本识别结果。最终，基于该文本识别结果可以确定上述音频数据202A的音频类型。

可以理解，上述文本识别结果可以包含两类识别结果，即针对于配乐对象的识别结果(也可称为目标识别结果)和针对于角色对象的识别结果(也可称为角色识别结果)。

可选的，若在图2所示的文本识别结果中，针对于配乐对象的识别结果为空值，则表示音频数据202A中不存在配乐文本信息(即与配乐对象相关联的文本信息)，因此可以确定音频数据202A的音频类型为纯音乐类型；反之，可选的，若在图2所示的文本识别结果中，针对于配乐对象的识别结果为非空值，则表示音频数据202A中存在配乐文本信息，因此可以确定音频数据202A的音频类型为非纯音乐类型。

同理，可选的，若在图2所示的文本识别结果中，针对于角色对象的识别结果为空值，则表示音频数据202A中不存在对象文本信息(即与角色对象相关联的文本信息，例如角色对象的台词)，因此可以确定音频数据202A中不存在角色对象；反之，可选的，若在图2所示的文本识别结果中，针对于角色对象的识别结果为非空值，则表示音频数据202A中存在对象文本信息，因此可以确定音频数据202A中存在角色对象。

应当理解，当音频数据202A中不存在第一对象(包括配乐对象和角色对象)时，音轨204A为空音轨，即该音轨204A中不存在第一对象的语音数据，因此最终得到的文本识别结果(包括目标识别结果和角色识别结果)为空值。同理，当音频数据202A中不存在第二对象(包括伴奏对象)时，音轨205A为空音轨，即该音轨205A中不存在第二对象的音频数据。

可以理解的是，若上述文本识别结果为非空值，即目标识别结果和角色识别结果中的至少一个识别结果为非空值时，可以获取语音识别模型M2输出的与该文本识别结果相关联的文本信息(例如，图2所示的文本信息206A)，应当理解，这里的文本信息206A可以包括配乐文本信息和对象文本信息中的至少一种。

其中，计算机设备20A可以利用具有海量多媒体数据(可包括视频数据和音频数据)的多媒体数据库，训练深度神经网络得到上述音频识别模型203A，具体训练过程可以参见后续图8所对应的实施例。需要说明的是，声乐分离模型M1和语音识别模型M2可以单独进行搭建和训练，或者，也可以联合进行搭建和训练，本申请实施例对此不进行限定。

可以理解的是，上述得到的音轨205A中可以包含与伴奏对象相关联的音频数据(即伴奏音频数据)，因此，计算机设备20A可以对音轨205A中的伴奏音频数据进行存储，例如，可以存储至与计算机设备20A相关联的音乐数据库207A，或者，也可以存储至计算机设备20A的本地缓存。其中，上述得到的伴奏音频数据还可以应用于很多业务场景，例如，作为关联音乐推送给相应的用户(例如，用户A)，用户A可以通过用户终端20B对该关联音乐进行播放；又例如，用户A可以通过用户终端20B将该关联音乐作为某个正在编辑的多媒体文件(例如视频、音乐、幻灯片、文档、游戏等)的配乐。

可以理解的是，计算机设备20A还可以对上述自动生成的文本信息206A和音轨204A进行关联存储，其中，可选的，该文本信息206A中的对象文本信息可以作为台词添加至多媒体文件201A中，该文本信息206A中的配乐文本信息可以作为歌词添加至多媒体文件201A中。可选的，计算机设备20A可以将添加文本信息后的多媒体文件发送至用户终端20B进行播放。

其中，计算机设备20A通过训练初始音频识别模型得到目标音频识别模型，并通过目标音频识别模型对多媒体文件中的原始音频数据进行音频处理，得到原始音频数据的音频类型以及对相关数据进行存储和使用的具体实现方式，可以参见下述图3-图8所对应实施例中的描述。

请参见图3，图3是本申请实施例提供的一种多媒体数据处理方法的流程示意图。其中，可以理解的是，本申请实施例提供的方法可以由计算机设备执行，这里的计算机设备包括但不限于运行有目标音频识别模型的用户终端或业务服务器。为便于理解，本申请实施例以该计算机设备为用户终端为例，以阐述在该用户终端中对通过训练好的目标音频识别模型进行音频处理的具体过程。如图3所示，该方法至少可以包括下述步骤S101-步骤S104：

步骤S101，在获取到多媒体文件中的原始音频数据时，获取用于对原始音频数据进行音频处理的目标音频识别模型；目标音频识别模型包括目标声乐分离模型和目标语音识别模型；

具体的，计算机设备在获取到多媒体文件后，可以对该多媒体文件进行音频提取处理，从而得到该多媒体文件中携带的原始音频数据，例如，计算机设备可以基于该多媒体文件在封装时所采用的文件格式进行解封装处理，得到解封装后的多媒体数据，进而可以对解封装后的多媒体数据进行解码处理，从而得到解码后的多媒体数据，进而可以将解码后的多媒体数据中所携带的音频数据作为原始音频数据。可以理解，原始音频数据可以包括一种或多种音频数据，例如说话声、歌声、乐器声、噪声等，这里将不对原始音频数据的具体内容进行限定。

进一步，计算机设备可以获取目标音频识别模型，以便对上述原始音频数据进行音频处理，这里的目标音频识别模型可以为由目标声乐分离模型和目标语音识别模型所组成的音频处理***，也就是说，目标声乐分离模型和目标语音识别模型可以作为该音频处理***中的两个功能模块。在本申请实施例中，目标声乐分离模型用于对原始音频数据进行声乐分离，目标语音识别模型用于对输入的语音数据(如第一对象的语音数据)进行文本识别。其中，目标音频识别模型是由计算机设备对初始音频识别模型进行训练得到的，具体训练过程可以参见后续图8所对应的实施例。

步骤S102，将原始音频数据输入至目标声乐分离模型，由目标声乐分离模型对原始音频数据进行声乐分离，得到与原始音频数据中的第一对象相关联的第一类音轨以及与原始音频数据中的第二对象相关联的第二类音轨；

应当理解，可选的，本申请实施例中的目标声乐分离模型可以包含一个或多个(例如，2个)分割网络，以便通过分割网络从原始音频数据中提取相应的特征。其中，多个分割网络具体可以包括第一分割网络和第二分割网络，该第一分割网络可以用于提取原始音频数据对应的语音特征，该第二分割网络可以用于提取原始音频数据对应的音频特征。

具体的，计算机设备可以先获取原始音频数据对应的原始音轨幅度谱，进而可以将原始音轨幅度谱输入至第一分割网络，由第一分割网络输出原始音轨幅度谱相关联的语音特征；同时，可以将原始音轨幅度谱输入至第二分割网络，由第二分割网络输出原始音轨幅度谱相关联的音频特征。进一步，可以基于提取到的语音特征、音频特征以及上述原始音轨幅度谱，得到与原始音频数据中的第一对象相关联的第一类音轨以及与原始音频数据中的第二对象相关联的第二类音轨。

应当理解，本申请实施例中的第一类音轨也可以称为人声音轨(Vocals)，是对整条混合音频信号(即原始音频数据)进行信源分离后得到的第一对象的语音数据，该第一类音轨可以单独写入wav文件(即波形声音文件，WaveForm，是一种标准数字音频文件)，例如，当该原始音频数据包含歌曲时，该wav文件中存储的数据为该歌曲中的人声部分，包括歌唱、说唱以及其他人声。

应当理解，本申请实施例中的第二类音轨也可以称为伴奏音轨(Bgm)，即背景音部分的音轨，是对整条混合音频信号进行信源分离之后得到的第二对象的音频数据，该第二类音轨可以单独写入wav文件，该wav文件中存储的数据是除了人声音轨之外的其他音轨，例如，当原始音频数据为一首歌曲时，通过信源分离得到的第二类音轨就包含有该歌曲中的伴奏音频数据。

其中，原始音频数据是时域中的音频信号，为便于分析，计算机设备可以通过频谱变换(例如，傅里叶变换)将该原始音频数据变换为原始音轨频谱，即在频域中进行观察和分析。进一步，可以对该原始音轨频谱进行相位消除，从而得到消除相位特征后的频谱幅度谱，即原始音轨幅度谱。

其中，本申请实施例中的目标声乐分离模型可以为信源分离模型。应当理解，在一整条音频数据(例如原始音频数据)中，可能会掺杂着多种音频信号，所以整条音频数据可能由多种音频信号混合生成，而信源分离就是通过信号处理或者其他算法将这种混合音频信号进行分离，从混合音频信号中提取出指定种类的音频信号序列，最终生成单独的音频文件(如用于存储音轨的文件)。在本申请实施例中，信源分离也可以称为声乐分离。

可选的，上述第一分割网络和第二分割网络可以为具有相同网络结构的对称网络，该对称网络可以包含U个卷积层和U个上采样层，其中，U个卷积层中的第p个卷积层可用于获取与原始音轨幅度谱相关联的卷积特征，这里的p为小于或者等于U的正整数。其中，U个上采样层中的第q个上采样层可用于在获取到第p个卷积层的卷积特征和第q-1个上采样层的上采样特征时，将第p个卷积层的卷积特征和第q-1个上采样层的上采样特征进行特征拼接，最终可以输出相应的语音特征或音频特征。其中，第q-1个上采样层为第q个上采样层的上一采样层，这里的q为小于或者等于U的正整数，且q＝U-p+1。

可以理解的是，上述对称网络是指具有对称结构的网络，例如，U-Net(U形网络)。这里的U-Net是使用全卷积网络((Fully Convolution Network，FCN)进行语义分割的算法之一，其使用了包含压缩路径和扩展路径的U形对称结构，在一定程度上影响了后面若干个分割网络的设计。其中，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络可以由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，同时也可以包括关联权重和池化层(pooling layer)。

为便于理解，请一并参见图4，图4是本申请实施例提供的一种对称网络的结构示意图。如图4所示的对称网络为基于U-Net的对称网络，其采用了U形对称结构，其中，该对称网络包含U个(例如，4个)卷积层(convolutional layer)和U个(例如，4个)上采样层(upsampling layer)。以U＝4为例进行说明，如图4所示，该对称网络采用编码-解码结构，其左侧属于编码部分，由4个卷积层组成；右侧属于解码部分，由4个上采样层组成。其中，上述4个卷积层中的第1个卷积层-第4个卷积层依次为：卷积层401a、卷积层402a、卷积层403a、卷积层404a。上述4个上采样层中的第1个上采样层-第4个上采样层依次为：上采样层401c、上采样层402c、上采样层403c、上采样层404c。此外，编码部分和解码部分还采用了卷积连接层40b进行连接。

如图4所示，卷积层401a、卷积层402a、卷积层403a以及卷积层404a均可以包括两个3*3的卷积网络，并且每个卷积网络后面均可以采用ReLU函数(Rectified Linear Unit，线性整流函数，又称修正线性单元)或其他函数作为激活函数，此外，每个卷积层后面均可以连接一个2*2的最大池化层(Maxpooling layer)进行下采样。类似的，上采样层401c、上采样层402c、上采样层403c均可以包括两个3*3的卷积网络，每个卷积网络后面均可以采用ReLU函数或其他函数作为激活函数，此外，这三个上采样层后面均可以连接一个2*2的上卷积层(up-conv)进行上采样。而上采样层404c则可以包括两个3*3的卷积网络和一个1*1的卷积网络。如图4所示，卷积连接层40b也可以包括两个3*3的卷积网络，且每个卷积网络后面均可以采用ReLU函数或其他函数作为激活函数，此外，卷积连接层40b后面还可以连接一个2*2的上卷积层。

应当理解，图4所示的每一个上采样层均可以获取上一层网络输出的特征以及对应卷积层所输出的卷积特征进行特征拼接，得到的目标拼接特征再作为输入特征输入至该上采样层。其中，进行特征拼接时，为了保持两侧特征尺寸一致，可以进行特征裁剪(crop)，本申请实施例对每个网络所输出的特征的尺寸(维度)不进行限定。例如，对于上采样层401c，在获取到卷积连接层40b的卷积特征时，可以将该卷积连接层40b的卷积特征和卷积层404a的卷积特征进行特征拼接，得到目标拼接特征Y1，进而可以通过上采样层401c和连接的上卷积层对目标拼接特征Y1进行计算，从而得到上采样层401c的上采样特征；对于上采样层402c，在获取到上采样层401c的上采样特征时，可以将该上采样层401c的上采样特征和卷积层403a的卷积特征进行特征拼接，得到目标拼接特征Y2，进而可以通过上采样层402c和连接的上卷积层对目标拼接特征Y2进行计算，从而得到上采样层402c的上采样特征；对于上采样层403c，可以将上采样层402c的上采样特征和卷积层402a的卷积特征进行特征拼接，得到目标拼接特征Y3，进而可以通过上采样层403c和连接的上卷积层对目标拼接特征Y3进行计算，从而得到上采样层403c的上采样特征；对于上采样层404c，可以将上采样层403c的上采样特征和卷积层401a的卷积特征进行特征拼接，得到目标拼接特征Y4，进而可以通过上采样层404c对目标拼接特征Y4进行计算，从而得到最终输出的特征(即语音特征或音频特征)。

可以理解，为了保留前面下采样过程中一些重要的特征信息，Unet中的每个卷积层的特征图(feature map，如卷积特征)都会拼接(即concatenate)到对应位置的上采样层，因此可以实现对每层特征图都有效使用到后续计算中，也就是实现了跳跃连接(skip-connection)。这样，同其他的一些网络结构(比如FCN)比较，Unet避免了直接在高级特征图中进行监督和损失计算，而是结合了低级特征图中的特征，从而可以使得最终所得到的特征图中既包含了高维度(high-level)的特征，又包含了很多低维度(low-level)的特征，因此实现了不同维度下的特征融合，且可以提高网络各层中的特征信息的利用率，进而可以提高目标声乐分离模型的分离精确度。

可以理解，在实现上述对称网络的时候，既可以从头实现该对称网络并进行权重的初始化，然后进行模型的训练；也可以借用现有一些网络的卷积层结构(比如resnet(即残差神经网络)中的vgg(一种卷积网络)等)和对应的已训练好的权重文件，再加上后面的上采样层来进行模型的训练。可以理解，在深度学习的模型训练中，如果能够使用已有的权重文件，可以大大加快训练的速度。本申请实施例对实现对称网络的具体方式不进行限定。

其中，上述基于语音特征、音频特征以及原始音轨幅度谱，得到第一类音轨和第二类音轨的具体过程可以为：计算机设备先将语音特征和音频特征进行特征融合，得到目标融合特征，进而可以基于目标融合特征和语音特征，生成语音特征相关联的第一掩码，进一步，可以基于第一掩码和原始音轨幅度谱，生成第一音轨幅度谱，随后可以对第一音轨幅度谱进行频谱反变换，从而得到与原始音频数据中的第一对象相关联的第一类音轨。同理，计算机设备可以基于目标融合特征和音频特征，生成音频特征相关联的第二掩码，进一步，可以基于第二掩码和原始音轨幅度谱，生成第二音轨幅度谱，随后可以对第二音轨幅度谱进行频谱反变换，得到与原始音频数据中的第二对象相关联的第二类音轨。

为便于理解，请一并参见图5，图5是本申请实施例提供的一种进行声乐分离的场景示意图。图5所示的声乐分离场景可以在上述目标声乐分离模型中实现。如图5所示，计算机设备可以对音频数据51a(即原始音频数据)进行频谱变换，得到对应的音轨频谱52a(即原始音轨频谱)，进而可以由该音轨频谱52a计算得到音轨幅度谱53a(即原始音轨幅度谱)。进一步，可以将音轨幅度谱53a分别输入至分割网络54a(即第一分割网络)和分割网络55a(即第二分割网络)，其中，分割网络54a用于处理第一对象相关联的特征，分割网络55a用于处理第二对象相关联的特征，因此，通过分割网络54a可以提取得到音轨幅度谱53a对应的语音特征56a，通过分割网络55a可以提取得到音轨幅度谱53a对应的音频特征57a。进一步，可以将这两个分割网络提取到的语音特征56a和音频特征57a进行特征融合，例如，将语音特征56a和音频特征57a对应位置上的元素进行线性相加，从而得到相应的融合特征(即目标融合特征)。

进一步，可以基于目标融合特征、语音特征56a以及音频特征57a进行掩码计算，分别计算得到语音特征56a相关联的掩码和音频特征57a相关联的掩码，例如，可以将目标融合特征与语音特征56a对应位置上的元素进行比例计算(如相乘)，计算出的加权矩阵即可作为语音特征56a相关联的掩码(即第一掩码)，同理，将目标融合特征与音频特征57a对应位置上的元素进行比例计算(如相乘)，计算出的加权矩阵即可作为音频特征57a相关联的掩码(即第二掩码)。进一步，可以将计算出的第一掩码与音轨幅度谱53a对应位置上的元素进行比例计算(如相乘)，从而可以得到音轨幅度谱58a(即第一音轨幅度谱，例如，音轨幅度谱5A)，随后，可以对音轨幅度谱58a进行频谱反变换，得到音轨59a(即第一类音轨，例如，音轨5B)。同理，可以将计算出的第二掩码与音轨幅度谱53a对应位置上的元素进行比例计算(如相乘)，从而得到音轨幅度谱510a(即第二音轨幅度谱，例如，音轨幅度谱5C)，随后，可以对音轨幅度谱510a进行频谱反变换，得到音轨511a(即第二类音轨，例如，音轨5D)。

例如，当图5所示的音频数据51a为一首歌曲时，通过上述描述的声乐分离过程，可以得到音轨幅度谱5A和该音轨幅度谱5A对应的音轨5B，以及音轨幅度谱5C和该音轨幅度谱5C对应的音轨5D。其中，音轨5B为从该歌曲中分离出的人声歌唱部分的音轨，音轨5D为从该歌曲中分离出的伴奏部分的音轨。为便于观察和分析，这里的音轨幅度谱5A和音轨幅度谱5C均可以采用频谱图的形式进行展示，可以理解，频谱图的横轴(即x轴)表示时间，纵轴(即y轴)表示频率，深度(即z轴)表示幅度。音轨5B和音轨5D均可以采用音频图(或波形图)的形式进行展示，可以理解，音频图的横轴(即x轴)表示时间，纵轴(即y轴)表示幅度。还可以采用其他形式进行展示，本申请实施例对此不进行限定。

可以理解的是，对于不同类型的多媒体文件，其包含的第一对象的对象类型可能不相同，因此分离出的第一类音轨所包含的数据类型也可能会不相同。

可选的，若多媒体文件为视频类文件，则第一对象可以包含该视频类文件中的角色对象(为便于后续区分，该场景下的角色对象可以称为第一角色对象)和第一配乐对象，此时获取该视频类文件中的第一类音轨的具体过程可以为：计算机设备对第一音轨幅度谱进行频谱反变换，得到与第一对象相关联的第一混合语音音轨，其中，第一混合语音音轨中携带与角色对象相关联的对象语音数据(为便于后续区分，该场景下的对象语音数据可以称为第一对象语音数据，例如，角色对话)和与第一配乐对象相关联的第一配乐语音数据(例如，歌声)。进一步，对第一混合语音音轨中所携带的对象语音数据和第一配乐语音数据进行声纹特征识别，从而可以将识别到的角色对象的声纹特征作为第一声纹特征，且将识别到的第一配乐对象的声纹特征作为第二声纹特征。进一步，可以基于第一声纹特征和第二声纹特征，对第一混合语音音轨中的对象语音数据和第一配乐语音数据进行语音分割，得到第一声纹特征对应的对象语音数据和第二声纹特征对应的第一配乐语音数据，最终，可以将第一声纹特征对应的对象语音数据和第二声纹特征对应的第一配乐语音数据作为第一对象相关联的第一类音轨。

可选的，若多媒体文件为音频类文件(例如，歌曲)，则第一对象可以包含该音频类文件中的第二配乐对象，此时获取该音频类文件中的第一类音轨的具体过程可以为：计算机设备对第一音轨幅度谱进行频谱反变换，得到与第一对象相关联的第二混合语音音轨，其中，第二混合语音音轨中携带与第二配乐对象相关联的第二配乐语音数据(例如，歌声)，进而可以将在第二混合语音音轨中获取到的第二配乐语音数据作为第一对象相关联的第一类音轨。可选的，也可以采用声纹特征识别的方式得到第一类音轨，例如，可以对第二混合语音音轨中所携带的第二配乐语音数据进行声纹特征识别，将识别得到的第二配乐对象的声纹特征作为第三声纹特征，进而可以基于第三声纹特征，从第二混合语音音轨中提取得到该第三声纹特征对应的第二配乐语音数据，最终可以将该第三声纹特征对应的第二配乐语音数据作为第一对象相关联的第一类音轨。

可以理解，可选的，当上述音频类文件(例如，电台节目)中同时存在第二配乐对象和第二角色对象(例如，电台节目的主播)时，与视频类文件类似，此时同样可以采用声纹特征识别的方式得到该音频类文件中的第一类音轨，具体过程可以为：计算机设备对第一音轨幅度谱进行频谱反变换，得到与第一对象相关联的第三混合语音音轨，其中，第三混合语音音轨中携带与第二角色对象相关联的第二对象语音数据(例如，电台主播的说话声)和与第二配乐对象相关联的第二配乐语音数据(例如，歌声)。进一步，对第三混合语音音轨中所携带的第二对象语音数据和第二配乐语音数据进行声纹特征识别，从而可以将识别到的第二角色对象的声纹特征作为第四声纹特征，且将识别到的第二配乐对象的声纹特征作为第五声纹特征。进一步，可以基于第四声纹特征和第五声纹特征，对第三混合语音音轨中的第二对象语音数据和第二配乐语音数据进行语音分割，得到第四声纹特征对应的第二对象语音数据和第五声纹特征对应的第二配乐语音数据，最终，可以将第四声纹特征对应的第二对象语音数据和第五声纹特征对应的第二配乐语音数据作为第一对象相关联的第一类音轨。

可以理解，在一些可选的实施方式中，通过目标声乐分离模型进行第一次声乐分离所得到的第一类音轨和第二类音轨可能并不够纯净，这样势必会影响后续进行文本识别的精度。例如，若多媒体文件为包含有角色对象的视频类文件(或者，也可以为包含有角色对象的音频类文件，例如电台节目)，则分离出的第一类音轨可能包含与该视频类文件中的角色对象相关联的对象语音数据，第二类音轨可能包含与该视频类文件中的背景对象相关联的音频数据，也就是说，通过目标声乐分离模型进行第一次声乐分离可能只分离出了角色对象说话的人声和背景音乐/歌曲，显然不符合预期。其中，这里的背景对象包含第三配乐对象和伴奏对象。在该场景下，由于此时得到的第二类音轨还包含有歌声(即第三配乐对象相关联的对象语音数据)，因此可以通过再次对第二类音轨进行声乐分离以便分割出其中的歌声和伴奏，从而提升后续进行文本识别的精确度。具体过程可以为：计算机设备将该第二类音轨中与背景对象相关联的音频数据输入至目标声乐分离模型，通过目标声乐分离模型对背景对象相关联的音频数据进行声乐分离，可以得到与第三配乐对象相关联的第三配乐语音数据以及与伴奏对象相关联的伴奏音频数据，这里的声乐分离过程与上述分离出第一类音轨和第二类音轨的过程类似，这里不再进行赘述。进一步，可以将分离出的第三配乐语音数据添加至包含对象语音数据的第一类音轨，从而得到第一类更新音轨，且将分离出的伴奏音频数据作为第二类更新音轨，因此，后续第一类更新音轨可以替换原来的第一类音轨输入至目标语音识别模型进行文本识别，还可以对第二类更新音轨中与伴奏对象相关联的音频数据(即伴奏音频数据)进行存储。可选的，上述第二次声乐分离时也可以采用声纹特征识别的方式，得到第一类更新音轨和第二类更新音轨，这里不再进行赘述。

步骤S103，从第一类音轨中获取第一对象的语音数据，将第一对象的语音数据输入至目标语音识别模型，由目标语音识别模型对第一对象的语音数据进行文本识别，得到第一对象的文本识别结果；

具体的，计算机设备可以获取第一类音轨包含的第一对象的语音数据所对应的待处理语音序列，例如，可以对第一类音轨进行分帧处理，即按照时间顺序将第一类音轨划分为多帧语音数据，从而得到由多帧语音数据所组成的待处理语音序列，本申请实施例将不对多帧语音数据的具体数量进行限定。可选的，这里的待处理语音序列可以采用梅尔频谱(log-melspectrogram)的形式进行表示。

为便于理解，请一并参见图6，图6是本申请实施例提供的一种目标语音识别模型的场景示意图。如图6所示，对音轨601a(即第一类音轨)进行分帧处理，可以得到语音序列602a(即待处理语音序列)，该语音序列602a可以包括M(M为正整数)帧语音数据，M帧语音数据具体可以包括语音数据x₁、语音数据x₂、语音数据x₃、语音数据x₄、语音数据x₅、…、语音数据x_M。

进一步，计算机设备可以将上述待处理语音序列输入至目标语音识别模型文本识别。可选的，在本申请实施例中，目标语音识别模型可以为基于注意力机制(attention)的ASR模型，其中，注意力机制是模仿人类注意力而提出的一种解决问题的办法，简单地说就是从大量信息中快速筛选出高价值信息。主要用于解决LSTM(Long-Short Term Memorry)/RNN(Recurrent Neural Network)模型输入序列较长的时候很难获得最终合理的向量表示的问题，其做法是保留LSTM的中间结果，用新的模型对其进行学习，并将其与输出进行关联，从而达到信息筛选的目的。

该目标语音识别模型可以包括3个部分，分别为编码网络(encoder)、解码网络(decoder)和向量转换网络(embedding)。文本识别的具体过程可以为：计算机设备将待处理语音序列输入至目标语音识别模型中的编码网络，由编码网络提取待处理语音序列的语音序列特征，将提取到的语音序列特征作为第一对象对应的目标语音序列特征。进一步，获取目标语音识别模型中的解码网络在第i时刻所输出的第一译码结果，并将第一译码结果输入至目标语音识别模型中的向量转换网络，由向量转换网络将第一译码结果转换为目标词向量，其中，i为正整数。进一步，可以基于目标语音序列特征、目标词向量以及目标语音识别模型中的解码网络，得到解码网络在第i+1时刻所输出的第二译码结果，最终可以基于第一译码结果和第二译码结果，确定第一对象的文本识别结果。

其中，可选的，目标语音识别模型所包含的编码网络具体可以为双向长短期记忆网络(例如，Bi-directional Long Short Term Memory network，简称Bi-LSTM网络)，该双向长短期记忆网络具体可以包含正向长短时记忆网络和反向长短时记忆网络。其中，如图6所示，该正向长短时记忆网络可以用于沿着自左往右的第一特征计算方向，计算得到语音序列602a在每个时刻上的正向目标隐藏特征；例如，计算机设备在任意两个相邻时刻(例如，第j时刻和第j+1时刻)所提取到的正向隐藏特征可以包括：第j时刻上的正向目标隐藏特征h_j和第j+1时刻上的正向目标隐藏特征h_j+1。其中，应当理解，由于该正向长短时记忆网络本质为递归神经网络，所以，计算机设备在第j时刻所提取到的正向隐藏特征(例如，正向目标隐藏特征h_j)本质上可以作为下一时刻(即第j+1时刻)的输入特征。所以，计算机设备在第j时刻所提取到的正向隐藏特征(例如，正向目标隐藏特征h_j)本质上是由正向历史隐藏特征h_j-1和待处理语音序列(例如，语音序列602a)所共同确定的。同理，计算机设备在第j+1时刻所提取到的正向隐藏特征(例如，正向目标隐藏特征h_j+1)本质上是由第j+1时刻的上一时刻(即第j时刻)所提取到的正向目标隐藏特征h_j和语音序列602a所共同确定的。其中，应当理解，该正向长短时记忆网络可以包含M个记忆网络，该M个记忆网络中任意两个相邻的两个记忆网络可以包含记忆网络B_j和记忆网络B_j+1，且在上述第一特征计算方向上，记忆网络B_j+1为记忆网络B_j的下一记忆网络。计算机设备在第j时刻所使用的记忆网络可以为记忆网络B_j，同理，计算机设备在第j+1时刻所使用的记忆网络可以为记忆网络B_j+1。其中，j为小于或者等于M的正整数。

同理，如图6所示，该反向长短时记忆网络可以用于沿着自右往左的第二特征计算方向，计算得到该语音序列602a在每个时刻上的反向目标隐藏特征，例如，计算机设备在任意两个相邻时刻(例如，第j时刻和第j+1时刻)所提取到的反向隐藏特征可以包括：第j+1时刻上的反向目标隐藏特征k_j和第j时刻上的反向目标隐藏特征k_j-1。其中，应当理解，由于该反向长短时记忆网络本质为递归神经网络，所以，计算机设备在第j时刻所提取到的反向隐藏特征(例如，反向目标隐藏特征k_j-1)本质上是由第j时刻的下一时刻(即第j+1时刻)所提取到的反向目标隐藏特征k_j和语音序列602a所共同确定的。同理，计算机设备在第j+1时刻所提取到的反向隐藏特征(例如，反向目标隐藏特征k_j)本质上是由第j+1时刻的下一时刻(即第j+2时刻)所提取到的反向历史隐藏特征k_j+1和语音序列602a所共同确定的。其中，应当理解，该反向长短时记忆网络也可以包含M个记忆网络，在该反向长短时记忆网络中，M个记忆网络中任意两个相邻的两个记忆网络可以包含记忆网络C_j和记忆网络C_j+1，且在上述第二特征计算方向上，记忆网络C_j+1为记忆网络C_j的上一记忆网络。计算机设备在第j时刻所使用的记忆网络可以为记忆网络C_j，同理，计算机设备在第j+1时刻所使用的记忆网络可以为记忆网络C_j+1。

由此可见，计算机设备在获取到与正向长短时记忆网络中的记忆网络B_j相关联的正向历史隐藏特征h_j-1时，可以将待处理语音序列(例如，图6所示的语音序列602a)和正向历史隐藏特征h_j-1输入记忆网络B_j，由记忆网络B_j在第j时刻提取得到正向目标隐藏特征h_j，进一步，可以将正向目标隐藏特征h_j和待处理语音序列输入记忆网络B_j+1(即记忆网络B_j的下一记忆网络)，并由记忆网络B_j+1在第j+1时刻提取得到正向目标隐藏特征h_j+1。

同理，计算机设备可以在获取到与反向长短时记忆网络中的记忆网络C_j+1相关联的反向历史隐藏特征k_j+1时，将待处理语音序列(例如，图6所示的语音序列602a)和反向历史隐藏特征k_j+1输入记忆网络C_j+1，由记忆网络C_j+1在第j+1时刻提取得到反向目标隐藏特征k_j，进一步，可以将反向目标隐藏特征k_j和待处理语音序列输入记忆网络C_j，由记忆网络C_j在第j时刻提取得到反向目标隐藏特征k_j-1。

进一步，如图6所示，计算机设备可以将记忆网络B_j在第j时刻提取得到的正向隐藏特征(例如，上述正向目标隐藏特征h_j)和记忆网络C_j在第j时刻提取得到的反向隐藏特征(例如，上述反向目标隐藏特征k_j-1)进行特征拼接，以拼接得到第j时刻的拼接特征，应当理解，本申请实施例可以将该在第j时刻所拼接得到的拼接特征统称为第一拼接特征。同理，计算机设备可以将记忆网络B_j+1在第j+1时刻提取得到的正向隐藏特征(例如，上述正向目标隐藏特征h_j+1)和记忆网络C_j+1在第j+1时刻提取得到的反向隐藏特征(例如，上述反向目标隐藏特征k_j)进行特征拼接，以拼接得到第j+1时刻的拼接特征，应当理解，本申请实施例可以将该在第j+1时刻所拼接得到的拼接特征统称为第二拼接特征。

如图6所示，计算机设备可以基于第一拼接特征和第二拼接特征，确定从待处理语音序列中提取得到第一对象对应的目标语音序列特征，可以理解，此时该目标语音序列特征携带有第一对象的语音数据所对应的某些物理信息。例如，如图6所示，计算机设备可以将语音序列602a输入至编码网络603a，通过编码网络603a可以从语音序列602a中提取得到语音序列特征604a，该语音序列特征604a具体可以包括特征R₁、特征R₂、特征R₃、特征R₄、特征R₅、…、特征R_M。

如图6所示，计算机设备可以将解码网络在第i时刻所输出的译码结果y_i(例如，译码结果605a)统称为第一译码结果，将解码网络在第i+1时刻所输出的译码结果y_i+1(例如，译码结果613a)统称为第二译码结果。这里的译码结果即为解码网络输出的文本。可以理解，解码网络可以使用编码网络输出的目标语音序列特征以及编码网络在上一时刻输出的译码结果(例如，第一译码结果)来共同生成当前时刻的译码结果(例如，第二译码结果)。

其中，向量转换网络(例如，图6所示的向量转换网络606a)可以将输入的数据转换为词向量(embedding vector)，以为解码网络提供第i时刻的嵌入(embedding)信息。该向量转换网络可以包含嵌入矩阵(embedding matrix)，计算机设备可以预先使用词库(transcript)来对嵌入矩阵进行训练，例如，可以使用word2vec开源模型，可以将词库中所有的embedding在空间上的距离加大，将嵌入矩阵的散度加大。如图6所示，将译码结果605a输入向量转换网络606a，可以将译码结果605a转换为相应的词向量607a(即目标词向量)。可以理解，在初始时刻(即i＝1时)，可以假定一个上一时刻(即第0时刻)的译码结果作为此时的第一译码结果。

进一步，计算机设备可以基于目标语音序列特征(例如，图6所示的语音序列特征604a)和目标词向量(例如，图6所示的词向量607a)生成初始权重系数，进而可以对初始权重系数进行归一化处理(例如，可以采用归一化指数函数(softmax))，得到的目标权重系数(例如，图6所示的权重系数608a)。随后可以基于该目标权重系数和目标语音序列特征，例如，对目标权重系数和目标语音序列特征进行加权求和，得到语义编码向量(即context向量，例如，图6所示的向量609a)。这里所描述的过程即为注意力机制。

进一步，计算机设备可以将目标词向量和语义编码向量进行向量拼接(concat)，得到当前的目标拼接向量，随后可以将该目标拼接向量输入至目标语音识别模型中的解码网络，由解码网络在第i+1时刻输出第二译码结果。

其中，本申请实施例中的解码网络可以采用单向长短期记忆网络(例如，LSTM)，因为在对语音数据进行文本识别的过程中，相关联的语音和文本是严格遵循时间顺序的。该单向长短期记忆网络可以N个记忆网络，N个记忆网络具体可以包含记忆网络D_i和记忆网络D_i+1，且记忆网络D_i+1为记忆网络D_i的下一记忆网络，可以理解，该单向长短期记忆网络的网络结构与图6所示的编码网络603a中的正向长短时记忆网络的网络结构类似，因此，该单向长短期记忆网络也可以用于沿着自左往右的第一特征计算方向，计算得到上述目标拼接向量在每个时刻上的单向隐藏特征，例如，计算机设备在任意两个相邻时刻(例如，第i时刻和第i+1时刻)所提取到的单向隐藏特征可以包括：第i时刻上的单向目标隐藏特征s_i和第i+1时刻上的单向目标隐藏特征s_i+1，因此，计算机设备在第i时刻所提取到的单向隐藏特征(例如，单向目标隐藏特征s_i)本质上是由单向历史隐藏特征s_i-1和上一时刻的拼接向量所共同确定的。同理，计算机设备在第i+1时刻所提取到的单向隐藏特征(例如，单向目标隐藏特征s_i+1)本质上是由单向目标隐藏特征s_i和目标拼接向量所共同确定的。

由此可见，计算机设备在获取到单向长短期记忆网络中的记忆网络D_i在第i时刻提取到的单向目标隐藏特征s_i时，可以将该单向目标隐藏特征s_i和目标拼接向量输入记忆网络D_i+1，由记忆网络D_i+1在第i+1时刻提取得到单向目标隐藏特征s_i+1，并可以基于目标拼接向量和单向目标隐藏特征s_i+1，得到在第i+1时刻的第二译码结果。

如图6所示，单向隐藏特征612a可以基于单向隐藏特征611a得到，将向量609a和词向量607a合并输入到解码网络610a后，可以由解码网络610a输出第i+1时刻的译码结果613a。最终，可以基于译码结果613a和译码结果605a确定文本识别结果。可以理解，解码网络在所有时刻输出的译码结果可以作为第一对象相关联的文本信息。

步骤S104，基于文本识别结果确定原始音频数据的音频类型，对第二类音轨中与第二对象相关联的音频数据进行存储。

应当理解，本申请实施例中的文本识别结果可以包含配乐对象的目标识别结果以及角色对象的角色识别结果。

可选的，若文本识别结果中的目标识别结果为空值，则可以确定原始音频数据的音频类型为纯音乐类型；反之，可选的，若文本识别结果中的目标识别结果为非空值，则可以确定原始音频数据的音频类型为非纯音乐类型。

可选的，若文本识别结果中的角色识别结果为空值，则可以确定原始音频数据中不存在对象语音数据；反之，可选的，若文本识别结果中的角色识别结果为非空值，则可以确定原始音频数据中存在对象语音数据。

可以理解，计算机设备可以对第二类音轨中与第二对象相关联的音频数据进行存储，例如，对第二类音轨中与伴奏对象相关联的伴奏音频数据进行存储，也就是存储原始音频数据中分离出的伴奏。

此外，计算机设备还可以将与文本识别结果相关联的译码结果，作为第一对象相关联的文本信息，并且可以对第一类音轨中与第一对象相关联的语音数据和该文本信息进行关联存储。例如，当目标识别结果为非空值时，可以将该目标识别结果相关联的译码结果作为配乐文本信息(例如，歌词)；又例如，当角色识别结果为非空值时，可以将角色识别结果相关联的译码结果作为对象文本信息(例如，台词)。因此，本申请实施例提供的方法还可以应用于智能生成台词/歌词的业务场景。

请一并参见图7，图7是本申请实施例提供的一种音频分类的场景示意图。如图7所示，假设对于一首歌曲7A，其最终得到的文本识别结果为文本识别结果701a，假设该文本识别结果701a为非空值，则可以得到相应的文本信息702a(例如，“你好吗”)，同时可以确定该歌曲7A为非纯音乐；假设该文本识别结果701a为空值，则可以看到相应的文本信息703a也为空值，因此可以确定该歌曲7A为纯音乐。

可以理解，上述目标声乐分离模型和目标语音识别模型都是完全适用于其他落地业务场景的模型方案，具有一定的商业落地通用性。应当理解，除了上述实施例描述的网络，目标声乐分离模型和目标语音识别模型还可以采用其他网络进行搭建，本申请实施例对模型采用的网络不进行限定，例如，可以使用基于transformer搭建的ASR模型来替代上述基于attention的ASR模型。

上述可知，本申请提出了一种基于目标声乐分离模型和目标语音识别模型的音频数据识别方法，可以自动化、高效率地识别所有音频数据，从而可以摆脱现有技术中采用人工标注和人工识别导致速度慢、效率低的问题。在本申请实施例中，可以使用目标声乐分离模型将原始音频数据中的人声与伴奏两类音轨分离，然后使用目标语音识别模型对分离出来的人声音轨(即第一类音轨)进行语音识别，根据语音识别得到的信息从而判断该原始音频数据的音频类型(即该原始音频数据中的歌曲是否为纯音乐)。同时，本申请实施例可以减少第二类音轨中的音频数据(例如，伴奏音频数据)对目标语音识别模型产生的干扰，并且由于目标语音识别模型具有一定的抗噪性，可以减少分离不纯净的干扰，也可以减小偶尔出现的人声尖叫等的影响，因此可以提升音频数据识别的准确性。此外，该目标音频识别模型还可以得到该歌曲的伴奏音轨(即第二类音轨)和相应的文本信息，例如，配乐文本信息(非纯音乐的情况下)，在原始音频数据包含对象语音数据时，还可以得到该对象语音数据对应的对象文本信息，也就是说，该目标音频识别模型属于多任务的***。

进一步，请参见图8，图8是本申请实施例提供的一种多媒体数据处理方法的流程示意图，该方法可以由上述计算机设备执行，其中，该方法至少可以包含以下步骤：

步骤S201，获取用于训练初始音频识别模型的样本音频数据，且将样本音频数据对应的标注音频类型作为样本音频数据的样本类型标签；样本音频数据是从样本多媒体文件中获取到的；初始音频识别模型包括初始声乐分离模型和初始语音识别模型；

具体的，计算机设备在获取到样本多媒体文件后，可以获取初始音频识别模型，同时对样本多媒体文件进行音频提取处理，从而得到样本音频数据，具体过程可以参见上述图3所对应实施例中的步骤S101，这里不再进行赘述。此外，为了后续计算损失函数，计算机设备还可以获取样本音频数据对应的标注音频类型，并将该标注音频类型作为样本音频数据的样本类型标签。

步骤S202，将样本音频数据输入至初始声乐分离模型，由初始声乐分离模型对样本音频数据进行声乐分离，得到与样本音频数据中的第一样本对象相关联的第一类样本音轨以及与样本音频数据中的第二样本对象相关联的第二类样本音轨；

应当理解，初始声乐分离模型可以包括第一初始分割网络和第二初始分割网络，计算机设备可以先获取样本音频数据对应的样本音轨幅度谱，然后分别将样本音轨幅度谱输入至第一初始分割网络和第二初始分割网络，从而得到样本音轨幅度谱相关联的样本语音特征和样本音频特征，进而可以基于样本语音特征、样本音频特征和样本音轨幅度谱，得到与样本音频数据中的第一样本对象相关联的第一类样本音轨以及与样本音频数据中的第二样本对象相关联的第二类样本音轨。该步骤的具体实现方式可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

步骤S203，从第一类样本音轨中获取第一样本对象的语音数据，将第一样本对象的语音数据输入至初始语音识别模型，由初始语音识别模型对第一样本对象的语音数据进行文本识别，基于得到的第一样本对象的文本识别结果确定样本音频数据的预测音频类型，将预测音频类型作为预测类型标签；

具体的，计算机设备可以获取第一类样本音轨包含的第一样本对象的语音数据所对应的样本语音序列，进而可以将样本语音序列输入至初始语音识别模型，由初始语音识别模型得到第一样本对象的文本识别结果，并可以基于第一样本对象的文本识别结果确定样本音频数据的预测音频类型，随后可以将预测音频类型作为预测类型标签。该步骤的具体实现方式可以参见上述图3所对应实施例中的步骤S103-步骤S104，这里不再进行赘述。

步骤S204，基于预测类型标签和样本类型标签对初始音频识别模型进行迭代训练，得到用于对多媒体文件中的原始音频数据进行音频处理的目标音频识别模型。

具体的，计算机设备可以基于预测类型标签和样本类型标签生成目标损失函数，进而可以基于目标损失函数对初始音频识别模型中的模型参数进行修正，通过多次的迭代训练，最终可以得到用于对多媒体文件中的原始音频数据进行音频处理的目标音频识别模型。

应当理解，本申请实施例采用的训练方式是对初始声乐分离模型和初始语音识别模型进行联合训练，可选的，还可以分别对初始声乐分离模型和初始语音识别模型进行单独训练，本申请实施例对采用的训练方式不进行限定。

上述可知，本申请实施例通过对初始声乐分离模型和初始语音识别模型进行训练，可以得到由目标声乐分离模型和目标语音识别模型共同组成的音频处理***，即目标音频识别模型。本申请实施例中的目标声乐分离模型和目标语音识别模型可以单独进行搭建和训练，且这两个模型均完全适用于其他落地业务场景，如目标声乐分离模型可用于需要声乐分离的业务场景(例如，从音频类文件中提取人声部分的语音数据)，目标语音识别模型则可用于需要对语音数据进行文本识别的业务场景(例如，智能识别视频类文件中的语音数据或者某些用户所录入的语音数据，并自动生成相应的文本信息)。此外，本申请实施例提供的目标音频识别模型适用于所有音频数据，即可以自动化、高效率地识别所有音频数据，例如对纯人声哼唱的纯音乐也可以进行识别，从而可以摆脱现有技术中采用人工标注和人工识别导致速度慢、效率低的问题，因此该目标音频识别模型更具有通用性。

请参见图9，是本申请实施例提供的一种多媒体数据处理装置的结构示意图。该多媒体数据处理装置1可以是运行于计算机设备的一个计算机程序(包括程序代码)，例如该多媒体数据处理装置1为一个应用软件；该装置可以用于执行本申请实施例提供的多媒体数据处理方法中的相应步骤。如图9所示，该多媒体数据处理1可以包括：获取模块11、分离模块12、识别模块13、第一确定模块14；

获取模块11，用于在获取到多媒体文件中的原始音频数据时，获取用于对原始音频数据进行音频处理的目标音频识别模型；目标音频识别模型包括目标声乐分离模型和目标语音识别模型；

分离模块12，用于将原始音频数据输入至目标声乐分离模型，由目标声乐分离模型对原始音频数据进行声乐分离，得到与原始音频数据中的第一对象相关联的第一类音轨以及与原始音频数据中的第二对象相关联的第二类音轨；

识别模块13，用于从第一类音轨中获取第一对象的语音数据，将第一对象的语音数据输入至目标语音识别模型，由目标语音识别模型对第一对象的语音数据进行文本识别，得到第一对象的文本识别结果；

第一确定模块14，用于基于文本识别结果确定原始音频数据的音频类型，对第二类音轨中与第二对象相关联的音频数据进行存储。

其中，获取模块11、分离模块12、识别模块13、第一确定模块14的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S104，这里不再进行赘述。

请参见图10，是本申请实施例提供的一种多媒体数据处理装置的结构示意图。该多媒体数据处理装置2可以是运行于计算机设备的一个计算机程序(包括程序代码)，例如该多媒体数据处理装置2为一个应用软件；该装置可以用于执行本申请实施例提供的多媒体数据处理方法中的相应步骤。如图10所示，该多媒体数据处理2可以包括：获取模块21、分离模块22、识别模块23、第一确定模块24、分离更新模块25、第二确定模块26；

获取模块21，用于在获取到多媒体文件中的原始音频数据时，获取用于对原始音频数据进行音频处理的目标音频识别模型；目标音频识别模型包括目标声乐分离模型和目标语音识别模型；

分离模块22，用于将原始音频数据输入至目标声乐分离模型，由目标声乐分离模型对原始音频数据进行声乐分离，得到与原始音频数据中的第一对象相关联的第一类音轨以及与原始音频数据中的第二对象相关联的第二类音轨；

该分离模块22可以包括：频谱获取单元221、第一特征提取单元222、第二特征提取单元223、音轨分离单元224；

频谱获取单元221，用于获取原始音频数据对应的原始音轨幅度谱；

第一特征提取单元222，用于将原始音轨幅度谱输入至第一分割网络，由第一分割网络输出原始音轨幅度谱相关联的语音特征；

第二特征提取单元223，用于将原始音轨幅度谱输入至第二分割网络，由第二分割网络输出原始音轨幅度谱相关联的音频特征；

其中，上述第一分割网络和第二分割网络为具有相同网络结构的对称网络；对称网络包含U个卷积层和U个上采样层；U个卷积层中的第p个卷积层用于获取与原始音轨幅度谱相关联的卷积特征；p为小于或者等于U的正整数；U个上采样层中的第q个上采样层用于在获取到第p个卷积层的卷积特征和第q-1个上采样层的上采样特征时，将第p个卷积层的卷积特征和第q-1个上采样层的上采样特征进行特征拼接；第q-1个上采样层为第q个上采样层的上一采样层；q为小于或者等于U的正整数，且q＝U-p+1；

音轨分离单元224，用于基于语音特征、音频特征以及原始音轨幅度谱，得到与原始音频数据中的第一对象相关联的第一类音轨以及与原始音频数据中的第二对象相关联的第二类音轨；

其中，该音轨分离单元224可以包括：特征融合子单元2241、第一音轨获取子单元2242、第二音轨获取子单元2243；

特征融合子单元2241，用于将语音特征和音频特征进行特征融合，得到目标融合特征；

第一音轨获取子单元2242，用于基于目标融合特征和语音特征，生成语音特征相关联的第一掩码，基于第一掩码和原始音轨幅度谱，生成第一音轨幅度谱，对第一音轨幅度谱进行频谱反变换，得到与原始音频数据中的第一对象相关联的第一类音轨；

该第一音轨获取子单元2242，具体用于对第一音轨幅度谱进行频谱反变换，得到与第一对象相关联的第一混合语音音轨；第一混合语音音轨中携带与角色对象相关联的对象语音数据和与第一配乐对象相关联的第一配乐语音数据；对第一混合语音音轨中所携带的对象语音数据和第一配乐语音数据进行声纹特征识别，将识别到的角色对象的声纹特征作为第一声纹特征，且将识别到的第一配乐对象的声纹特征作为第二声纹特征；基于第一声纹特征和第二声纹特征，对第一混合语音音轨中的对象语音数据和第一配乐语音数据进行语音分割，得到第一声纹特征对应的对象语音数据和第二声纹特征对应的第一配乐语音数据；将第一声纹特征对应的对象语音数据和第二声纹特征对应的第一配乐语音数据作为第一对象相关联的第一类音轨；

该第一音轨获取子单元2242，具体用于对第一音轨幅度谱进行频谱反变换，得到与第一对象相关联的第二混合语音音轨；第二混合语音音轨中携带与第二配乐对象相关联的第二配乐语音数据；将在第二混合语音音轨中获取到的第二配乐语音数据作为第一对象相关联的第一类音轨；

第二音轨获取子单元2243，用于基于目标融合特征和音频特征，生成音频特征相关联的第二掩码，基于第二掩码和原始音轨幅度谱，生成第二音轨幅度谱，对第二音轨幅度谱进行频谱反变换，得到与原始音频数据中的第二对象相关联的第二类音轨；

其中，特征融合子单元2241、第一音轨获取子单元2242、第二音轨获取子单元2243的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再继续进行赘述。

其中，频谱获取单元221、第一特征提取单元222、第二特征提取单元223、音轨分离单元224的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再继续进行赘述。

识别模块23，用于从第一类音轨中获取第一对象的语音数据，将第一对象的语音数据输入至目标语音识别模型，由目标语音识别模型对第一对象的语音数据进行文本识别，得到第一对象的文本识别结果；

其中，该识别模块23可以包括：第三特征提取单元231、向量转换单元232、译码输出单元233、结果确定单元234；

第三特征提取单元231，用于获取第一类音轨包含的第一对象的语音数据所对应的待处理语音序列，将待处理语音序列输入至目标语音识别模型中的编码网络，由编码网络提取待处理语音序列的语音序列特征，将提取到的语音序列特征作为第一对象对应的目标语音序列特征；

该第三特征提取单元231可以包括：正向特征提取子单元2311、反向特征提取子单元2312、特征拼接子单元2313、特征确定子单元2314；

正向特征提取子单元2311，用于获取与正向长短时记忆网络中的记忆网络B_j相关联的正向历史隐藏特征h_j-1，将待处理语音序列和正向历史隐藏特征h_j-1输入记忆网络B_j，由记忆网络B_j在第j时刻提取得到正向目标隐藏特征h_j，将正向目标隐藏特征h_j和待处理语音序列输入记忆网络B_j+1，由记忆网络B_j+1在第j+1时刻提取得到正向目标隐藏特征h_j+1；

反向特征提取子单元2312，用于获取与反向长短时记忆网络中的记忆网络C_j+1相关联的反向历史隐藏特征k_j+1，将待处理语音序列和反向历史隐藏特征k_j+1输入记忆网络C_j+1，由记忆网络C_j+1在第j+1时刻提取得到反向目标隐藏特征k_j，将反向目标隐藏特征k_j和待处理语音序列输入记忆网络C_j，由记忆网络C_j在第j时刻提取得到反向目标隐藏特征k_j-1；

特征拼接子单元2313，用于将记忆网络B_j在第j时刻提取得到的正向目标隐藏特征h_j与记忆网络C_j在第j时刻提取得到的反向目标隐藏特征k_j-1进行特征拼接，得到第一拼接特征，将记忆网络B_j+1在第j+1时刻提取得到的正向目标隐藏特征h_j+1与记忆网络C_j+1在第j+1时刻提取得到的反向目标隐藏特征k_j进行特征拼接，得到第二拼接特征；

特征确定子单元2314，用于基于第一拼接特征和第二拼接特征，确定从待处理语音序列中提取得到第一对象对应的目标语音序列特征。

其中，正向特征提取子单元2311、反向特征提取子单元2312、特征拼接子单元2313、特征确定子单元2314的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再继续进行赘述。

向量转换单元232，用于获取目标语音识别模型中的解码网络在第i时刻所输出的第一译码结果，将第一译码结果输入至目标语音识别模型中的向量转换网络，由向量转换网络将第一译码结果转换为目标词向量；i为正整数；

译码输出单元233，用于基于目标语音序列特征、目标词向量以及目标语音识别模型中的解码网络，得到解码网络在第i+1时刻所输出的第二译码结果；

其中，该译码输出单元233可以包括：权重获取子单元2331、向量生成子单元2332、向量拼接子单元2333、译码输出子单元2334；

权重获取子单元2331，用于基于目标语音序列特征和目标词向量生成初始权重系数，对初始权重系数进行归一化处理，得到目标权重系数；

向量生成子单元2332，用于基于目标权重系数和目标语音序列特征，生成语义编码向量；

向量拼接子单元2333，用于将目标词向量和语义编码向量进行向量拼接，得到目标拼接向量；

译码输出子单元2334，用于将目标拼接向量输入至目标语音识别模型中的解码网络，由解码网络在第i+1时刻输出第二译码结果；

该译码输出子单元2334，具体用于获取由单向长短期记忆网络中的记忆网络D_i在第i时刻提取得到的单向目标隐藏特征s_i；单向目标隐藏特征s_i是基于记忆网络D_i相关联的单向历史隐藏特征s_i-1得到的；将单向目标隐藏特征s_i和目标拼接向量输入记忆网络D_i+1，由记忆网络D_i+1在第i+1时刻提取得到单向目标隐藏特征s_i+1，基于目标拼接向量和单向目标隐藏特征s_i+1，得到在第i+1时刻的第二译码结果；

其中，权重获取子单元2331、向量生成子单元2332、向量拼接子单元2333、译码输出子单元2334的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再继续进行赘述。

结果确定单元234，用于基于第一译码结果和第二译码结果，确定第一对象的文本识别结果；

其中，第三特征提取单元231、向量转换单元232、译码输出单元233、结果确定单元234的具体实现方式可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再继续进行赘述。

第一确定模块24，用于基于文本识别结果确定原始音频数据的音频类型，对第二类音轨中与第二对象相关联的音频数据进行存储；

该第一确定模块24，具体用于若文本识别结果中的目标识别结果为空值，则确定原始音频数据的音频类型为纯音乐类型；对第二类音轨中与伴奏对象相关联的伴奏音频数据进行存储。

分离更新模块25，用于将第二类音轨中与背景对象相关联的音频数据输入至目标声乐分离模型，通过目标声乐分离模型对背景对象相关联的音频数据进行声乐分离，得到与第三配乐对象相关联的第三配乐语音数据以及与伴奏对象相关联的伴奏音频数据；将分离出的第三配乐语音数据添加至包含对象语音数据的第一类音轨，得到第一类更新音轨，且将分离出的伴奏音频数据作为第二类更新音轨；

第二确定模块26，用于若文本识别结果中的目标识别结果为非空值，则确定原始音频数据的音频类型为非纯音乐类型；将文本识别结果相关联的译码结果，作为第一对象相关联的文本信息；对第一类音轨中与第一对象相关联的语音数据和文本信息进行关联存储。

其中，获取模块21、分离模块22、识别模块23、第一确定模块24、分离更新模块25、第二确定模块26的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图11，是本申请实施例提供的一种多媒体数据处理装置的结构示意图。该多媒体数据处理装置3可以是运行于计算机设备的一个计算机程序(包括程序代码)，例如该多媒体数据处理装置3为一个应用软件；该装置可以用于执行本申请实施例提供的多媒体数据处理方法中的相应步骤。如图11所示，该多媒体数据处理3可以包括：样本获取模块31、音轨分离模块32、文本识别模块33、模型训练模块34；

样本获取模块31，用于获取用于训练初始音频识别模型的样本音频数据，且将样本音频数据对应的标注音频类型作为样本音频数据的样本类型标签；样本音频数据是从样本多媒体文件中获取到的；初始音频识别模型包括初始声乐分离模型和初始语音识别模型；

音轨分离模块32，用于将样本音频数据输入至初始声乐分离模型，由初始声乐分离模型对样本音频数据进行声乐分离，得到与样本音频数据中的第一样本对象相关联的第一类样本音轨以及与样本音频数据中的第二样本对象相关联的第二类样本音轨；

文本识别模块33，用于从第一类样本音轨中获取第一样本对象的语音数据，将第一样本对象的语音数据输入至初始语音识别模型，由初始语音识别模型对第一样本对象的语音数据进行文本识别，基于得到的第一样本对象的文本识别结果确定样本音频数据的预测音频类型，将预测音频类型作为预测类型标签；

模型训练模块34，用于基于预测类型标签和样本类型标签对初始音频识别模型进行迭代训练，得到用于对多媒体文件中的原始音频数据进行音频处理的目标音频识别模型。

其中，样本获取模块31、音轨分离模块32、文本识别模块33、模型训练模块34的具体实现方式可以参见上述图8所对应实施例中对步骤S201-步骤S204的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图12，是本申请实施例提供的一种计算机设备的结构示意图。如图12所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在如图12所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以执行前文图3、图8任一个所对应实施例中对该多媒体数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的多媒体数据处理装置1、多媒体数据处理装置2或多媒体数据处理装置3所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3、图9任一个所对应实施例中对多媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的多媒体数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

此外，这里需要指出的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图3、图8任一个所对应实施例提供的方法。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

请参见图13，图13是本申请实施例提供的一种多媒体数据处理***的结构示意图。该多媒体数据处理***4可以包含多媒体数据处理装置1a和多媒体数据处理装置2a。其中，多媒体数据处理装置1a可以为上述图9所对应实施例中的多媒体数据处理装置1，或者可以为上述图10所对应实施例中的多媒体数据处理装置2，可以理解的是，该多媒体数据处理装置1a可以集成在上述图2所对应实施例中的音频识别模型203A，因此，这里将不再进行赘述。其中，多媒体数据处理装置2a可以为上述图11所对应实施例中的多媒体数据处理装置3，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的多媒体数据处理***实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种多媒体数据处理方法，其特征在于，包括：

在获取到多媒体文件中的原始音频数据时，获取用于对所述原始音频数据进行音频处理的目标音频识别模型；所述目标音频识别模型包括目标声乐分离模型和目标语音识别模型；

将所述原始音频数据输入至所述目标声乐分离模型，由所述目标声乐分离模型对所述原始音频数据进行声乐分离，得到与所述原始音频数据中的第一对象相关联的第一类音轨以及与所述原始音频数据中的第二对象相关联的第二类音轨；

从所述第一类音轨中获取所述第一对象的语音数据，将所述第一对象的语音数据输入至所述目标语音识别模型，由所述目标语音识别模型对所述第一对象的语音数据进行文本识别，得到所述第一对象的文本识别结果；

基于所述文本识别结果确定所述原始音频数据的音频类型，对所述第二类音轨中与所述第二对象相关联的音频数据进行存储。

2.根据权利要求1所述的方法，其特征在于，所述目标声乐分离模型包含用于提取所述原始音频数据对应的语音特征的第一分割网络以及用于提取所述原始音频数据对应的音频特征的第二分割网络；

所述将所述原始音频数据输入至所述目标声乐分离模型，由所述目标声乐分离模型对所述原始音频数据进行声乐分离，得到与所述原始音频数据中的第一对象相关联的第一类音轨以及与所述原始音频数据中的第二对象相关联的第二类音轨，包括：

获取所述原始音频数据对应的原始音轨幅度谱；

将所述原始音轨幅度谱输入至所述第一分割网络，由所述第一分割网络输出所述原始音轨幅度谱相关联的语音特征；

将所述原始音轨幅度谱输入至所述第二分割网络，由所述第二分割网络输出所述原始音轨幅度谱相关联的音频特征；

基于所述语音特征、所述音频特征以及所述原始音轨幅度谱，得到与所述原始音频数据中的第一对象相关联的第一类音轨以及与所述原始音频数据中的第二对象相关联的第二类音轨。

3.根据权利要求2所述的方法，其特征在于，所述第一分割网络和所述第二分割网络为具有相同网络结构的对称网络；所述对称网络包含U个卷积层和U个上采样层；所述U个卷积层中的第p个卷积层用于获取与所述原始音轨幅度谱相关联的卷积特征；p为小于或者等于U的正整数；所述U个上采样层中的第q个上采样层用于在获取到所述第p个卷积层的卷积特征和第q-1个上采样层的上采样特征时，将所述第p个卷积层的卷积特征和所述第q-1个上采样层的上采样特征进行特征拼接；所述第q-1个上采样层为所述第q个上采样层的上一采样层；q为小于或者等于U的正整数，且q＝U-p+1。

4.根据权利要求2所述的方法，其特征在于，所述基于所述语音特征、所述音频特征以及所述原始音轨幅度谱，得到与所述原始音频数据中的第一对象相关联的第一类音轨以及与所述原始音频数据中的第二对象相关联的第二类音轨，包括：

将所述语音特征和所述音频特征进行特征融合，得到目标融合特征；

基于所述目标融合特征和所述语音特征，生成所述语音特征相关联的第一掩码，基于所述第一掩码和所述原始音轨幅度谱，生成第一音轨幅度谱，对所述第一音轨幅度谱进行频谱反变换，得到与所述原始音频数据中的第一对象相关联的第一类音轨；

基于所述目标融合特征和所述音频特征，生成所述音频特征相关联的第二掩码，基于所述第二掩码和所述原始音轨幅度谱，生成第二音轨幅度谱，对所述第二音轨幅度谱进行频谱反变换，得到与所述原始音频数据中的第二对象相关联的第二类音轨。

5.根据权利要求4所述的方法，其特征在于，若所述多媒体文件为视频类文件，则所述第一对象包含所述视频类文件中的角色对象和第一配乐对象；

所述对所述第一音轨幅度谱进行频谱反变换，得到与所述原始音频数据中的第一对象相关联的第一类音轨，包括：

对所述第一音轨幅度谱进行频谱反变换，得到与所述第一对象相关联的第一混合语音音轨；所述第一混合语音音轨中携带与所述角色对象相关联的对象语音数据和与所述第一配乐对象相关联的第一配乐语音数据；

对所述第一混合语音音轨中所携带的所述对象语音数据和所述第一配乐语音数据进行声纹特征识别，将识别到的所述角色对象的声纹特征作为第一声纹特征，且将识别到的所述第一配乐对象的声纹特征作为第二声纹特征；

基于所述第一声纹特征和所述第二声纹特征，对所述第一混合语音音轨中的所述对象语音数据和所述第一配乐语音数据进行语音分割，得到所述第一声纹特征对应的所述对象语音数据和所述第二声纹特征对应的所述第一配乐语音数据；

将所述第一声纹特征对应的所述对象语音数据和所述第二声纹特征对应的所述第一配乐语音数据作为所述第一对象相关联的第一类音轨。

6.根据权利要求4所述的方法，其特征在于，若所述多媒体文件为音频类文件，则所述第一对象包含所述音频类文件中的第二配乐对象；

对所述第一音轨幅度谱进行频谱反变换，得到与所述第一对象相关联的第二混合语音音轨；所述第二混合语音音轨中携带与所述第二配乐对象相关联的第二配乐语音数据；

将在所述第二混合语音音轨中获取到的所述第二配乐语音数据作为所述第一对象相关联的第一类音轨。

7.根据权利要求1所述的方法，其特征在于，若所述多媒体文件为视频类文件，则所述第一类音轨包含与所述视频类文件中的角色对象相关联的对象语音数据，所述第二类音轨包含与所述视频类文件中的背景对象相关联的音频数据；所述背景对象包含第三配乐对象和伴奏对象；

所述方法还包括：

将所述第二类音轨中与所述背景对象相关联的音频数据输入至所述目标声乐分离模型，通过所述目标声乐分离模型对所述背景对象相关联的音频数据进行声乐分离，得到与所述第三配乐对象相关联的第三配乐语音数据以及与所述伴奏对象相关联的伴奏音频数据；

将分离出的所述第三配乐语音数据添加至包含所述对象语音数据的所述第一类音轨，得到第一类更新音轨，且将分离出的所述伴奏音频数据作为第二类更新音轨。

8.根据权利要求1所述的方法，其特征在于，所述从所述第一类音轨中获取所述第一对象的语音数据，将所述第一对象的语音数据输入至所述目标语音识别模型，由所述目标语音识别模型对所述第一对象的语音数据进行文本识别，得到所述第一对象的文本识别结果，包括：

获取所述第一类音轨包含的所述第一对象的语音数据所对应的待处理语音序列，将所述待处理语音序列输入至所述目标语音识别模型中的编码网络，由所述编码网络提取所述待处理语音序列的语音序列特征，将提取到的语音序列特征作为所述第一对象对应的目标语音序列特征；

获取所述目标语音识别模型中的解码网络在第i时刻所输出的第一译码结果，将所述第一译码结果输入至所述目标语音识别模型中的向量转换网络，由所述向量转换网络将所述第一译码结果转换为目标词向量；所述i为正整数；

基于所述目标语音序列特征、所述目标词向量以及所述目标语音识别模型中的解码网络，得到所述解码网络在第i+1时刻所输出的第二译码结果；

基于所述第一译码结果和所述第二译码结果，确定所述第一对象的文本识别结果。

9.根据权利要求8所述的方法，其特征在于，所述目标语音识别模型包含编码网络，且所述目标语音识别模型中的编码网络为双向长短期记忆网络；所述双向长短期记忆网络包含正向长短时记忆网络和反向长短时记忆网络；所述正向长短时记忆网络包含记忆网络B_j和记忆网络B_j+1，所述记忆网络B_j+1为所述记忆网络B_j的下一记忆网络；所述反向长短时记忆网络包含记忆网络C_j+1和记忆网络C_j；所述记忆网络C_j+1为所述记忆网络C_j的上一记忆网络；所述j为小于或者等于M的正整数；所述正向长短时记忆网络和所述反向长短时记忆网络中的记忆网络的数量均为所述M；

所述将所述待处理语音序列输入至所述目标语音识别模型中的编码网络，由所述编码网络提取所述待处理语音序列的语音序列特征，将提取到的语音序列特征作为所述第一对象对应的目标语音序列特征，包括：

获取与所述正向长短时记忆网络中的所述记忆网络B_j相关联的正向历史隐藏特征h_j-1，将所述待处理语音序列和所述正向历史隐藏特征h_j-1输入所述记忆网络B_j，由所述记忆网络B_j在第j时刻提取得到正向目标隐藏特征h_j，将所述正向目标隐藏特征h_j和所述待处理语音序列输入所述记忆网络B_j+1，由所述记忆网络B_j+1在第j+1时刻提取得到正向目标隐藏特征h_j+1；

获取与所述反向长短时记忆网络中的所述记忆网络C_j+1相关联的反向历史隐藏特征k_j+1，将所述待处理语音序列和所述反向历史隐藏特征k_j+1输入所述记忆网络C_j+1，由所述记忆网络C_j+1在第j+1时刻提取得到反向目标隐藏特征k_j，将所述反向目标隐藏特征k_j和所述待处理语音序列输入所述记忆网络C_j，由所述记忆网络C_j在第j时刻提取得到反向目标隐藏特征k_j-1；

将所述记忆网络B_j在第j时刻提取得到的所述正向目标隐藏特征h_j与所述记忆网络C_j在第j时刻提取得到的所述反向目标隐藏特征k_j-1进行特征拼接，得到第一拼接特征，将所述记忆网络B_j+1在第j+1时刻提取得到的所述正向目标隐藏特征h_j+1与所述记忆网络C_j+1在第j+1时刻提取得到的所述反向目标隐藏特征k_j进行特征拼接，得到第二拼接特征；

基于所述第一拼接特征和所述第二拼接特征，确定从所述待处理语音序列中提取得到所述第一对象对应的目标语音序列特征。

10.根据权利要求8所述的方法，其特征在于，所述基于所述目标语音序列特征、所述目标词向量以及所述目标语音识别模型中的解码网络，得到所述解码网络在第i+1时刻所输出的第二译码结果，包括：

基于所述目标语音序列特征和所述目标词向量生成初始权重系数，对所述初始权重系数进行归一化处理，得到目标权重系数；

基于所述目标权重系数和所述目标语音序列特征，生成语义编码向量；

将所述目标词向量和所述语义编码向量进行向量拼接，得到目标拼接向量；

将所述目标拼接向量输入至所述目标语音识别模型中的解码网络，由所述解码网络在第i+1时刻输出第二译码结果。

11.根据权利要求10所述的方法，其特征在于，所述目标语音识别模型中的解码网络为单向长短期记忆网络；所述单向长短期记忆网络包含记忆网络D_i和记忆网络D_i+1，所述记忆网络D_i+1为所述记忆网络D_i的下一记忆网络；所述i为小于或者等于N的正整数；所述单向长短期记忆网络中的记忆网络的数量为所述N；

所述将所述目标拼接向量输入至所述目标语音识别模型中的解码网络，由所述解码网络在第i+1时刻输出第二译码结果，包括：

获取由所述单向长短期记忆网络中的所述记忆网络D_i在第i时刻提取得到的单向目标隐藏特征s_i；所述单向目标隐藏特征s_i是基于所述记忆网络D_i相关联的单向历史隐藏特征s_i-1得到的；

将所述单向目标隐藏特征s_i和所述目标拼接向量输入所述记忆网络D_i+1，由所述记忆网络D_i+1在第i+1时刻提取得到单向目标隐藏特征s_i+1，基于所述目标拼接向量和所述单向目标隐藏特征s_i+1，得到在第i+1时刻的第二译码结果。

12.根据权利要求1所述的方法，其特征在于，所述第一对象包含配乐对象，所述文本识别结果包含所述配乐对象的目标识别结果；所述第二对象包含伴奏对象；

所述基于所述文本识别结果确定所述原始音频数据的音频类型，对所述第二类音轨中与所述第二对象相关联的音频数据进行存储，包括：

若所述文本识别结果中的所述目标识别结果为空值，则确定所述原始音频数据的音频类型为纯音乐类型；

对所述第二类音轨中与所述伴奏对象相关联的伴奏音频数据进行存储。

13.根据权利要求12所述的方法，其特征在于，还包括：

若所述文本识别结果中的所述目标识别结果为非空值，则确定所述原始音频数据的音频类型为非纯音乐类型；

将所述文本识别结果相关联的译码结果，作为所述第一对象相关联的文本信息；

对所述第一类音轨中与所述第一对象相关联的语音数据和所述文本信息进行关联存储。

14.一种多媒体数据处理方法，其特征在于，包括：

获取用于训练初始音频识别模型的样本音频数据，且将所述样本音频数据对应的标注音频类型作为所述样本音频数据的样本类型标签；所述样本音频数据是从样本多媒体文件中获取到的；所述初始音频识别模型包括初始声乐分离模型和初始语音识别模型；

将所述样本音频数据输入至所述初始声乐分离模型，由所述初始声乐分离模型对所述样本音频数据进行声乐分离，得到与所述样本音频数据中的第一样本对象相关联的第一类样本音轨以及与所述样本音频数据中的第二样本对象相关联的第二类样本音轨；

从所述第一类样本音轨中获取所述第一样本对象的语音数据，将所述第一样本对象的语音数据输入至所述初始语音识别模型，由所述初始语音识别模型对所述第一样本对象的语音数据进行文本识别，基于得到的所述第一样本对象的文本识别结果确定所述样本音频数据的预测音频类型，将所述预测音频类型作为预测类型标签；

基于所述预测类型标签和所述样本类型标签对所述初始音频识别模型进行迭代训练，得到用于对多媒体文件中的原始音频数据进行音频处理的目标音频识别模型。

15.一种多媒体数据处理装置，其特征在于，包括：

获取模块，用于在获取到多媒体文件中的原始音频数据时，获取用于对所述原始音频数据进行音频处理的目标音频识别模型；所述目标音频识别模型包括目标声乐分离模型和目标语音识别模型；

分离模块，用于将所述原始音频数据输入至所述目标声乐分离模型，由所述目标声乐分离模型对所述原始音频数据进行声乐分离，得到与所述原始音频数据中的第一对象相关联的第一类音轨以及与所述原始音频数据中的第二对象相关联的第二类音轨；

识别模块，用于从所述第一类音轨中获取所述第一对象的语音数据，将所述第一对象的语音数据输入至所述目标语音识别模型，由所述目标语音识别模型对所述第一对象的语音数据进行文本识别，得到所述第一对象的文本识别结果；

第一确定模块，用于基于所述文本识别结果确定所述原始音频数据的音频类型，对所述第二类音轨中与所述第二对象相关联的音频数据进行存储。

16.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使所述计算机设备执行权利要求1-14任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。

18.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，该计算机指令适于由处理器读取并执行，以使具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。