CN115129902B

CN115129902B - 媒体数据处理方法、装置、设备及存储介质

Info

Publication number: CN115129902B
Application number: CN202210765470.1A
Authority: CN
Inventors: 祁雷; 岑杰鹏; 杨伟东; 胡益珲; 何俊烽; 马锴; 陈宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2024-03-29
Anticipated expiration: 2042-06-30
Also published as: CN115129902A

Abstract

本申请实施例公开了一种媒体数据处理方法、装置、设备及存储介质，方法包括：利用初始媒体识别模型基于M个样本多媒体数据分别对应的媒体特征信息处理得到M个样本多媒体数据分别对应的第一预测媒体标签和预测媒体类别；根据M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定初始媒体识别模型的媒体预测误差；根据M个样本多媒体数据分别对应的媒体特征信息，确定初始媒体识别模型的特征提取误差；根据初始媒体识别模型的媒体预测误差和初始媒体识别模型的特征提取误差，对初始媒体识别模型进行第一调整，得到目标媒体识别模型，使得媒体识别模型针对多媒体数据的预测准确度得到提升。

Description

媒体数据处理方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种媒体数据处理方法、装置、设备及存储介质。

背景技术

随着多媒体平台技术的发展，多媒体数据的质量越来越高，随之而来的是越来越多的用户参与到了多媒体数据的制作和浏览等过程中。为了方便对多媒体平台中的多媒体数据进行管理或者对用户上传的多媒体数据进行管理，可以为所述的各个多媒体数据生成对应的媒体标签等信息。通常来讲，可以采用媒体识别模型来生成多媒体数据对应的标签等信息。而目前使用的媒体识别模型，通常是利用包括样本多媒体数据以及样本多媒体数据对应的媒体标签对初始媒体识别模型进行训练得到。然而，发明人发现，通过这种方式获得的媒体识别模型针对多媒体数据的预测准确度有限。

发明内容

本申请实施例提供一种媒体数据处理方法、装置、设备及存储介质，提升媒体识别模型针对多媒体数据的预测准确度。

本申请实施例一方面提供一种媒体数据处理方法，包括：

获取第一样本集，所述第一样本集包括M个样本多媒体数据，以及所述M个样本多媒体数据分别对应的第一标注媒体标签以及标注媒体类别；所述M为正整数；

利用初始媒体识别模型提取所述M个样本多媒体数据分别对应的媒体特征信息；

利用所述初始媒体识别模型基于所述M个样本多媒体数据分别对应的媒体特征信息对所述M个样本多媒体数据分别进行标签预测，得到所述M个样本多媒体数据分别对应的第一预测媒体标签，利用所述初始媒体识别模型对所述M个样本多媒体数据进行类别预测，得到所述M个样本多媒体数据分别对应的预测媒体类别；

根据所述M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定所述初始媒体识别模型的媒体预测误差；

根据所述M个样本多媒体数据分别对应的媒体特征信息，确定所述初始媒体识别模型的特征提取误差；

根据所述初始媒体识别模型的媒体预测误差和所述初始媒体识别模型的特征提取误差，对所述初始媒体识别模型进行第一调整，得到目标媒体识别模型；所述目标媒体识别模型用于识别目标多媒体数据的媒体标签和媒体类别中的至少一种。

本申请实施例再一方面提供一种媒体数据处理装置，包括：

获取模块，用于获取第一样本集，所述第一样本集包括M个样本多媒体数据，以及所述M个样本多媒体数据分别对应的第一标注媒体标签以及标注媒体类别；所述M为正整数；

特征提取模块，用于利用初始媒体识别模型提取所述M个样本多媒体数据分别对应的媒体特征信息；

预测模块，用于利用所述初始媒体识别模型基于所述M个样本多媒体数据分别对应的媒体特征信息对所述M个样本多媒体数据分别进行标签预测，得到所述M个样本多媒体数据分别对应的第一预测媒体标签，利用所述初始媒体识别模型对所述M个样本多媒体数据进行类别预测，得到所述M个样本多媒体数据分别对应的预测媒体类别；

确定模块，用于根据所述M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定所述初始媒体识别模型的媒体预测误差；

所述确定模块，还用于根据所述M个样本多媒体数据分别对应的媒体特征信息，确定所述初始媒体识别模型的特征提取误差；

调整模块，用于根据所述初始媒体识别模型的媒体预测误差和所述初始媒体识别模型的特征提取误差，对所述初始媒体识别模型进行第一调整，得到目标媒体识别模型；所述目标媒体识别模型用于识别目标多媒体数据的媒体标签和媒体类别中的至少一种。

本申请实施例再一方面提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的方法的步骤。

本申请实施例再一方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法的步骤。

本申请实施例再一方面提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现所述的方法的步骤。

综上所述，计算机设备可以获取第一样本集，第一样本集包括M个样本多媒体数据，以及M个样本多媒体数据分别对应的第一标注媒体标签以及标注媒体类别；计算机设备可以利用初始媒体识别模型预测得到M个样本多媒体数据分别对应的第一预测媒体标签，利用初始媒体识别模型预测得到M个样本多媒体数据分别对应的预测媒体类别；进而，计算机设备可以根据M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定初始媒体识别模型的媒体预测误差；此外，计算机设备还可以根据M个样本多媒体数据分别对应的媒体特征信息，确定初始媒体识别模型的特征提取误差；进而，计算机设备可以根据初始媒体识别模型的媒体预测误差和初始媒体识别模型的特征提取误差，对初始媒体识别模型进行第一调整，得到目标媒体识别模型，上述过程通过多任务学习的方式以利用第一样本集训练初始媒体识别模型，在提升模型的特征表达能力的同时，也提升了模型的泛化能力，能够使得媒体识别模型针对多媒体数据的预测准确度得到有效地提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的一种媒体数据处理***的结构示意图；

图1B是本申请实施例提供的一种媒体数据处理过程的示意图；

图2是本申请实施例提供的一种媒体数据处理方法的流程示意图；

图3是本申请实施例提供的一种确定目标媒体识别模型的流程示意图；

图4是本申请实施例提供的一种媒体数据处理装置的结构示意图；

图5是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本申请实施例中的技术方案进行描述。

本申请涉及人工智能，例如，本申请主要涉及人工智能中的机器学习技术，利用机器学习技术对初始媒体识别模型进行训练，得到目标媒体识别模型，提高目标媒体识别模型的媒体标签或媒体类别的识别准确度。此处的机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请涉及云技术中的人工智能云服务，所谓人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。例如，本申请中对初始媒体识别模型进行训练后，可以得到目标媒体识别模型，将该目标媒体识别模型添加至人工智能平台中，多个用户或多个机构可以共享该目标媒体识别模型。

为了便于更清楚理解本申请，首先介绍实现本申请的媒体数据处理方法的媒体数据处理***，如图1A所示，该媒体数据处理***中包括服务器10和终端集群，终端集群可以包括一个或者多个终端，这里不对终端的数量进行限制。如图1A所示，终端集群具体可以包括终端1、终端2、…、终端n；可以理解的是，终端1、终端2、终端3、…、终端n均可以与服务器10进行网络连接，以便于每个终端均可以通过网络连接与服务器10之间进行数据交互。

其中，终端可以安装有为用户提供多媒体数据的多媒体平台，该多媒体平台可以包括但不限于：游戏应用下载平台、短视频平台、音视频播放平台、购物平台、资讯浏览平台，等等。在一个实施例中，终端可以通过目标媒体识别模型识别多媒体数据的媒体标签或媒体类别。

其中，该多媒体数据在不同多媒体平台中所指的具体内容可以不同，例如，在游戏应用下载平台中，该多媒体数据可以是指游戏直播视频；在短视频平台中，多媒体数据可以是指一个短视频。在音视频播放平台中，多媒体数据可以是指影视作品、电视剧、音频数据等等；在购物平台中，该多媒体数据可以是指购物直播视频；在资讯浏览平台中，该多媒体数据可以是指包括图文和/或视频的资讯。

其中，服务器10可以是指用于为多媒体平台提供后端服务的设备。在一个实施例中，服务器10可以用于对初始媒体识别模型进行训练，得到目标媒体识别模型。在一个实施例中，服务器10可以通过目标媒体识别模型识别多媒体数据的媒体标签或媒体类别。

其中，服务器可以是独立的一个物理服务器，也可以是至少两个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、中容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端具体可以是指车载终端、智能手机、平板电脑、笔记本电脑、桌上型电脑、智能音箱、有屏音箱、智能手表等等，但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，同时，终端以及服务器的数量可以为一个或至少两个，本申请在此不做限制。

本申请实施例提供了一种媒体数据处理方案，该媒体数据处理方案可以应用于图1A所示的媒体数据处理***中。该媒体数据处理方案具体为获取第一样本集，所述第一样本集包括M个样本多媒体数据，以及所述M个样本多媒体数据分别对应的第一标注媒体标签以及标注媒体类别；利用初始媒体识别模型提取所述M个样本多媒体数据分别对应的媒体特征信息；利用所述初始媒体识别模型基于所述M个样本多媒体数据分别对应的媒体特征信息对所述M个样本多媒体数据分别进行标签预测，得到所述M个样本多媒体数据分别对应的第一预测媒体标签，利用所述初始媒体识别模型对所述M个样本多媒体数据进行类别预测，得到所述M个样本多媒体数据分别对应的预测媒体类别；根据所述M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定所述初始媒体识别模型的媒体预测误差；根据所述M个样本多媒体数据分别对应的媒体特征信息，确定所述初始媒体识别模型的特征提取误差；根据所述初始媒体识别模型的媒体预测误差和所述初始媒体识别模型的特征提取误差，对所述初始媒体识别模型进行第一调整，得到目标媒体识别模型；所述目标媒体识别模型用于识别目标多媒体数据的媒体标签和媒体类别中的至少一种。

在一个实施例中，所述的媒体数据处理方案的其中一个应用过程可以参见图1B。在图1B中，一方面，可以获取小样本标签集合(对应于P个第二标注媒体标签)包括的小样本标签(对应于第二标注媒体标签)，基于小样本标签集合，采用主动检索的技术，或在此基础上结合人工审核的方式，使得小样本标签对应的训练数据得以扩充，不再缺乏训练数据。其中，小样本标签指获取到的原本缺乏训练数据的标签，这类标签也可以是多媒体数据的媒体标签。针对这类标签虽然在对其训练数据进行数据扩充后，其不再缺乏训练数据，但是在后续使用过程中为了区分其与普通的标签，针对这类标签仍然可以称之为小样本标签。上述过程可以在给定一批小样本标签的情况下，利用主动检索或进一步结合人审的数据扩充技术得到小样本标签的训练数据。一方面，可以获取基底视频(对应于M个样本多媒体数据)后，将基底视频作为初始媒体识别模型的输入数据以利用多任务学习的方式对初始视频识别模型(对应于初始媒体识别模型)进行预训练。之后，便可基于小样本标签扩充后的训练数据，利用基于元学习的模型优化方法，对基于基底视频训练得到的视频识别模型进行优化，从而得到小样本标签预测模型(对应于目标视频识别模型)，以用于对视频等多媒体数据进行标签预测。

其中，所述的媒体数据方案分别从数据层面和模型层面对媒体数据处理过程进行了改进。在数据层面，本申请实施例引入了主动检索的数据扩充链路。在一些实施方式中，本申请实施例可以将数据扩充链路与人工审核结合以对样本多媒体数据进行扩充，尤其可以针对缺乏样本多媒体数据的标注媒体标签进行样本多媒体数据的扩充。相比基于主动学习的数据扩充方法，主动检索与人工审核结合能够兼顾样本扩充的数量与质量，在对初始的媒体识别模型进行训练前就能快速的扩充高质量的标注样本。该技术从样本层面缓解了原本的标签识别任务中由于标签的训练样本少而引起的判别信息不足，模型容易过拟合的问题。在模型层面，本申请实施例提出了基于多任务学习的预训练技术和基于元学习的模型优化方法。其中，基于多任务学习的预训练技术一方面通过基于多媒体数据的标签、类别等标注信息的有监督训练来提升模型针对媒体标签的特征表达能力，另一方面可以通过多媒体数据多种模态信息之间的自监督训练提高模型的泛化性。相比以往基于单任务对初始媒体识别模型进行预训练的方法，本申请基于多任务学习对初始媒体识别模型进行预训练的方法可以同时在多种监督信息(模型进行多任务学习所需的信息，包括标签、类别等标注信息，等等)的约束下中学习模型参数，从而获得更高的模型泛化性。具体地说，本发明采取了多媒体数据打标签(对应于标签预测任务)、多媒体数据分类(对应于类别预测任务)以及多模态对比学习(对应于不同模态信息间的对比学习任务)三个任务联合训练。其中，多媒体数据打标签任务(该任务用到了第一标注媒体标签及其对应的样本多媒体数据，如普通的视频标签及其对应的样本视频)和多媒体数据分类任务(该任务用到了标注媒体类别及其对应的样本多媒体数据，如视频类别及其对应的样本视频)，由于与多媒体数据的标签识别任务(该任务用到第二标注媒体标签及其对应的样本多媒体数据，如其他的视频标签)相似，可以为模型优化提供先验知识。多模态对比学习通过拉近同一个多媒体数据内不同模态信息之间的距离来优化模型。由于不受限于多媒体数据的标注信息，因此可以使用大量未标记数据来训练模型，以此增强模型的泛化能力。可见，本申请所采用的多任务学习方式，能够同时兼顾模型的专一性和泛化性。其中，基于元学习的模型优化方法用于对预训练模型的微调，相比基于随机批采样的优化方式容易导致模型过拟合，基于元学习方法通过构造多个样本学习子任务来对模型进行优化。本申请实施例提出的基于元学习的模型优化方式，将标签识别任务由单个整体优化任务转化为多个样本学习的子任务，以确保在少量训练样本的前提下，也能得到模型的较优解。该技术点包括两个关键点。(1)基于标签划分的训练样本采样方式。不同于常用的随机批采样中每次迭代随机抽取一部分多媒体数据作为训练数据的方式，基于标签划分的训练样本采样在每次迭代时，只使用部分第二标注媒体标签作为优化目标，利用不同第二标注媒体标签之间的差异性，增加优化方向的多样性。(2)基于距离度量的损失设计。与常规使用全连接网络作为分类层不同，本申请实施例依托于设计的距离度量方式计算标签在对应查询集中的各个样本上的损失，由于未引入更多的分类层，减少了模型的参数量，避免过拟合。

在一个实施方式中，本申请实施例提供的媒体数据预测方案，可以用于以下场景：

1)对发布或上传的视频，通过识别视频的标签来对视频进行审核。

2)对于视频推荐的***，通过识别视频的标签来以做召回队列和排序特征。

3)对于发布资讯的***，可以通过识别视频或图文等多媒体数据来对多媒体数据打标签。

本申请通过1)显著地节省了人工审核量，同时也加快了整个审核流程。通过2)和3)将视频标签应用在推荐***的各个环节，包括对视频进行召回排序、对内容进行策略打散等；将视频标签用作在前端的页面进行外显展示。

请参阅图2，为本申请实施例提供的一种数据处理方法的流程示意图。方法可以应用于计算机设备，计算机设备可以为前述提及的终端或服务器。具体的，该方法可以包括以下步骤：

S201、获取第一样本集，所述第一样本集包括M个样本多媒体数据，以及所述M个样本多媒体数据分别对应的第一标注媒体标签以及标注媒体类别。

本申请实施例中，计算机设备可以获取第一样本集，以利用第一样本集对初始媒体识别模型进行训练。此处的第一样本集可以是从目标样本集中随机抽取的，具体可以是在每次迭代初始媒体识别模型时从目标样本集中随机抽取的。

本申请实施例中，计算机设备在利用第一样本集对初始媒体识别模型进行训练的过程中，具体可以采用多任务学习的方式以利用第一样本集对初始媒体识别模型进行训练。此处的多任务包括标签预测任务、类别预测任务和不同模态信息间的对比学习任务。

可理解的是，本文提及的样本多媒体数据可以是指用于训练初始媒体识别模型的多媒体数据，多媒体数据可以是指视频、音频、图文等。在一个实施方式中，第一标注媒体标签可以是指非小样本标签，非小样本标签可以是指具有此类标注媒体标签的样本多媒体数据的数量大于数量阈值，非小样本标签可以是指样本多媒体数据的标注媒体标签的一个子集。第一标注媒体标签、标注媒体类别可以是指多个用户对样本多媒体数据进行标注并审核后得到的，第一标注媒体标签用于反映样本多媒体数据的细节描述信息，标注媒体类别用于反映样本多媒体数据的粗略描述信息，即第一标注媒体标签属于标注媒体类别的子类别。例如，该样本多媒体数据为样本视频数据，该样本视频的标注媒体类别包括电视剧、电影、动漫、纪录片等中的一种；当样本视频数据的标注媒体类别为电视剧时，该样本视频的标注媒体标签包括电视剧的子类别，如短剧、古装历史、都市生活等等。在一个实施方式中，本文提及的第二标注媒体标签可以是指小样本标签，小样本标签可以是指具有此类标注媒体标签的样本多媒体数据的数量小于或等于数量阈值，小样本标签可以是指样本多媒体数据的标注媒体标签的一个子集。

S202、利用初始媒体识别模型提取所述M个样本多媒体数据分别对应的媒体特征信息。

本申请实施例中，计算机设备在利用第一样本集训练初始媒体识别模型的过程中，可以将第一样本集输入初始媒体识别模型，并通过初始媒体识别模型提取M个样本多媒体数据分别对应的媒体特征信息。此处的媒体特征信息指能够反映对应多媒体数据的媒体信息的特征信息。

在一些实施方式中，计算机设备可以首先通过初始媒体识别模型获取M个样本多媒体数据分别对应的媒体信息，然后对M个样本多媒体数据分别对应的媒体信息进行特征提取，得到M个样本多媒体数据分别对应的媒体特征信息。

在一些实施方式中，所述媒体信息可以为目标模态信息，相应地，所述媒体特征信息可以为目标模态特征。计算机设备可以在获取M个样本多媒体数据分别对应的目标模态信息后，对M个样本多媒体数据分别对应的目标模态信息进行特征提取，得到M个样本多媒体数据分别对应的目标模态特征。

在一些实施方式中，所述目标模态信息可以包括多种模态信息，如可以包括第一模态信息和第二模态信息，相应地，所述目标模态特征可以包括多种模态特征(根据多种模态信息分别获取的模态特征)，如可以包括第一模态特征和第二模态特征。计算机设备可以在获取M个样本多媒体数据分别对应的第一模态信息后，可以对M个样本多媒体数据分别对应的第一模态信息进行特征提取，得到M个样本多媒体数据分别对应的第一模态特征，并可以在获取M个样本多媒体数据分别对应的第二模态信息后，对M个样本多媒体数据分别对应的第二模态信息进行特征提取，得到M个样本多媒体数据分别对应的第二模态特征。举例来说，在样本多媒体数据为样本视频时，计算机设备可以在获取M个样本多媒体数据分别对应的视频帧集合后，对M个样本多媒体数据分别对应的视频帧集合进行特征提取，得到M个样本多媒体数据分别对应的图像特征，并可以在获取M个样本多媒体数据分别对应的文本集合后，对M个样本多媒体数据分别对应的文本集合进行特征提取，得到M个样本多媒体数据分别对应的文本特征。

在一些实施方式中，在目标模态信息包括第一模态信息和第二模态信息时，媒体特征信息包括目标模态特征、目标模态特征包括第一模态特征和第二模态特征时，计算机设备可以在获取M个样本多媒体数据分别对应的多个第一模态信息后，可以对M个样本多媒体数据分别对应的多个第一模态信息进行特征提取，得到M个样本多媒体数据分别对应的多个第一模态信息中的每个第一模态信息对应的模态特征，计算机设备可以根据M个样本多媒体数据分别对应的多个第一模态信息中的每个第一模态信息对应的模态特征，确定M个样本多媒体数据分别对应的平均模态特征，以作为M个样本多媒体数据分别对应的第一模态特征；计算机设备还可以在获取M个样本多媒体数据分别对应的第二模态信息后，对M个样本多媒体数据分别对应的第二模态信息进行特征提取，得到M个样本多媒体数据分别对应的第二模态特征。举例来说，在样本多媒体数据为样本视频时，计算机设备可以在获取M个样本视频分别对应的多个第一模态信息后，可以对M个样本视频分别对应的多个第一模态信息进行特征提取，得到M个样本视频分别对应的视频帧集合中每个视频帧对应的图像特征，计算机设备可以M个样本视频分别对应的视频帧集合中每个视频帧对应的图像特征，确定M个样本视频分别对应的平均图像特征；计算机设备还可以在获取M个样本视频分别对应的文本信息集合后，对M个样本视频分别对应的第二模态信息进行特征提取，得到M个样本视频分别对应的文本特征。此处，计算机设备可以对样本视频对应的图像特征集合中的各图像特征进行加法运算，得到样本视频对应的加法运算后的图像特征，并利用样本视频对应的加法运算后的图像特征除以样本视频中的视频帧的个数，得到样本视频对应的平均图像特征。

在一些实施方式中，所述特征提取的过程可以通过特征提取模型实现。计算机设备可以利用特征提取模型对样本多媒体数据对应的媒体信息进行特征提取，得到该样本多媒体数据对应的媒体特征信息，此处的特征提取模型可以为媒体特征识别模型所包括的子模型。换句话说，计算机设备首先可以将样本多媒体数据对应的媒体信息输入特征提取模型，然后通过特征提取模型输出该样本多媒体数据对应的媒体特征信息。在一些实施方式中，在媒体信息包括目标模态信息且目标模态信息包括多种模态信息时，计算机设备首先可以将样本多媒体数据对应的多种模态信息分别输入多种特征提取模型，然后通过多种特征提取模型分别处理得到与各自输入的一种模态信息相对应的一种模态特征，从而得到样本多媒体数据的多种模态特征。举例来说，在样本多媒体数据为样本视频时，计算机设备可以通过图像特征提取模型对M个样本多媒体数据分别对应的视频帧集合进行特征提取，得到M个样本多媒体数据分别对应的图像特征集合，并通过文本特征提取模型对M个样本多媒体数据分别对应的文本集合进行特征提取，得到M个样本多媒体数据分别对应的文本特征，此处图像特征提取模型和文本特征提取模型可以为视频识别模型所包括的子模型。

在一个实施例中，本申请实施例提及的文本可以包括标题、字幕、弹幕、基于多媒体数据的图片提取出的文字中的至少一种。在其它实施例中，所述的文本也可以为多媒体数据的其它文本，本申请实施例对此不作限制。

S203、利用所述初始媒体识别模型基于所述M个样本多媒体数据分别对应的媒体特征信息对所述M个样本多媒体数据分别进行标签预测，得到所述M个样本多媒体数据分别对应的第一预测媒体标签，利用所述初始媒体识别模型对所述M个样本多媒体数据进行类别预测，得到所述M个样本多媒体数据分别对应的预测媒体类别。

在一些实施例中，在媒体特征信息包括目标模态特征且目标模态特征包括多种模态特征时，计算机设备可以利用初始媒体识别模型对M个样本多媒体数据分别对应的多种模态特征进行特征融合，得到M个样本多媒体数据分别对应的融合后的特征；计算机设备可以利用初始媒体识别模型以根据M个样本多媒体数据分别对应的融合后的特征进行标签预测，得到M个样本多媒体数据分别对应的第一预测媒体标签；计算机设备还可以利用初始媒体识别模型以根据M个样本多媒体数据分别对应的融合后的特征进行类别预测，得到M个样本多媒体数据分别对应的预测媒体类别。举例来说，在样本视频为样本视频时，计算机设备可以在获取M个样本视频分别对应的平均图像特征和文本特征后，利用初始视频识别模型对M个样本视频分别对应的平均图像特征和文本特征进行特征融合，得到M个样本视频分别对应的融合后的特征；计算机设备可以利用初始视频识别模型以根据M个样本视频分别对应的融合后的特征进行标签预测，得到M个样本视频分别对应的第一预测视频标签；计算机设备可以利用初始视频识别模型以根据M个样本视频分别对应的融合后的特征进行类别预测，得到M个样本视频分别对应的视频类别。

需要说明的是，在媒体特征信息包括目标模态特征、目标模态特征包括多种模态信息，且多种模态信息中存在一种以上的模态信息分别为多个时，计算机设备可以采用与上述方式类似的方式，得到M个样本视频分别对应的第一预测媒体标签和媒体预测类别。示例性的，在媒体特征信息包括目标模态特征、目标模态特征包括多种模态特征、多种模态特征包括第一模态特征和第二模态特征和第三模态特征、第一模态特征为多个时，计算机设备可以利用初始媒体识别模型以根据M个样本多媒体数据分别对应的多个第一模态特征，确定M个样本多媒体数据分别对应的第一平均模态特征，利用初始媒体识别模型以根据M个样本多媒体数据分别对应的多个第三模态特征，确定M个样本多媒体数据分别对应的第二平均模态特征；计算机设备可以利用初始媒体识别模型对M个样本多媒体数据分别对应的第一平均模态特征、第二平均模态特征和第二模态特征进行特征融合，得到M个样本多媒体数据分别对应的融合后的特征；计算机设备可以利用初始媒体识别模型以根据M个样本多媒体数据分别对应的融合后的特征进行标签预测，得到M个样本多媒体数据分别对应的第一预测媒体标签，根据M个样本多媒体数据分别对应的融合后的特征进行类别预测，得到M个样本多媒体数据分别对应的预测媒体类别。

在一些实施方式中，前述提及的特征融合的过程可以通过特征融合模型实现，特征融合模型可以为多媒体识别模型的子模型。前述提及的标签预测的过程可以通过标签分类模型实现，标签分类模型可以为多媒体识别模型的子模型，前述提及的类别预测的过程可以通过类别分类模型实现，类别分类模型可以为多媒体识别模型的子模型。

S204、根据所述M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定所述初始媒体识别模型的媒体预测误差。

本申请实施例中，假设M个样本多媒体数据包括样本多媒体数据M_a(a为小于或等于M的正整数)，计算机设备可以计算样本多媒体数据M_a对应的第一标注媒体标签和第一预测媒体标签之间的误差以作为样本多媒体数据M_a对应的媒体标签预测误差，并可以计算样本多媒体数据M_a对应的标注媒体类别和预测媒体类别之间的误差以作为样本多媒体数据M_a对应的媒体类别预测误差，从而将样本多媒体数据M_a对应的媒体标签预测误差和媒体类别预测误差，确定为样本多媒体数据M_a对应的媒体预测误差。此处的样本多媒体数据M_a对应的媒体预测误差可以理解为初始媒体识别模型针对样本多媒体数据M_a的预测误差。采用上述方式，计算机设备可以获得M个样本媒体数据分别对应的媒体预测误差，并将M个样本媒体数据分别对应的媒体预测误差确定为初始媒体识别模型的媒体预测误差。

在一些实施方式中，样本多媒体数据对应的媒体标签预测误差，如样本多媒体数据M_a对应的媒体标签预测误差，可以用Loss_tag表示，Loss_tag的计算公式如下：

Loss_tag＝BCE(I,T,Y_tag) 公式1.1；

其中，I和T均为样本多媒体数据如样本多媒体数据M_a的媒体信息。Y_tag为样本多媒体数据如样本多媒体数据M_a对应的第一标注媒体标签。在一些实施方式中，I和T可以分别表示样本多媒体数据Ma的两种模态信息。举例来说，若样本多媒体数据为样本视频，则此处的I和T可以分别表示为样本视频M_a的视频帧集合和文本信息集合。其中，BCE为二进制交叉熵计算函数。在一些实施方式中，计算样本多媒体数据对应的媒体标签预测误差也可以采用除BCE以外的其它损失函数，本申请实施例对此不作限制。

在一些实施方式中，样本多媒体数据对应的媒体类别预测误差，如样本多媒体数据M_a对应的媒体类别预测误差，可以用Loss_cls表示，Loss_cls的计算公式如下：

Loss_cls＝CE(I,T,Y_cls) 公式1.2；

其中，CE为交叉熵计算函数。在一些实施方式中，计算样本多媒体数据对应的媒体类别预测误差也可以采用除CE以外的其它损失函数，本申请实施例对此不作限制。

S205、根据所述M个样本多媒体数据分别对应的媒体特征信息，确定所述初始媒体识别模型的特征提取误差。

本申请实施例中，假设M个样本多媒体数据包括样本多媒体数据M_a，计算机设备可以根据样本多媒体数据M_a对应的媒体特征信息，确定初始媒体识别模型关于样本多媒体数据M_a的特征提取误差。具体来讲，假设M个样本多媒体数据还包括样本多媒体数据M_b(b为小于或等于M的正整数，a与b不相同)，计算机设备可以根据样本多媒体数据M_a对应的媒体特征信息以及样本多媒体数据M_b的媒体特征信息，确定初始媒体识别模型关于样本多媒体数据M_a的特征提取误差。其中，样本多媒体数据M_b可以为M个样本多媒体数据中除样本多媒体数据M_a以外的任一样本多媒体数据。示例性的，样本多媒体数据M_b可以是从M个样本多媒体数据包括的除样本多媒体数据M_a以外的剩余样本多媒体数据中随机抽取的一个样本多媒体数据。采用上述方式，计算机设备可以获得初始媒体识别模型分别关于M个样本多媒体数据的特征提取误差，并将初始媒体识别模型分别关于M个样本多媒体数据的特征提取误差确定为初始媒体识别模型的特征提取误差。

在一些实施方式中，假设媒体特征信息包括目标模态特征、目标模态特征包括第一模态特征和第二模态特征，计算机设备根据M个样本多媒体数据分别对应的媒体特征信息，确定初始媒体识别模型的特征提取误差的过程，可以如下：

首先，计算机设备可以获取样本多媒体数据M_a的第一模态特征与样本多媒体数据M_a的第二模态特征之间的第一距离。其中，第一距离指样本多媒体数据M_a的第一模态特征与样本多媒体数据M_a的第二模态特征之间的距离。通过该过程，计算机设备可以获得样本多媒体数据M_a包括的不同种模态信息之间的距离。此处，样本多媒体数据M_a包括的不同种模态信息之间的距离，可以反映样本多媒体数据M_a包括的不同种模态信息之间的匹配度。

在一些实施方式中，同一样本多媒体数据的不同种类模态特征间的距离，如第一距离，可以用D_p表示。D_p的计算公式可以如下：

其中，F_I为样本多媒体数据M_a的第一模态特征，F_T为样本多媒体数据M_a的第二模态特征。例如，在样本多媒体数据为样本视频时，F_I可以是样本视频M_a的图像特征(例如具体可以是样本视频M_a的平均图像特征)，F_T可以是样本视频M_a的文本特征。

同时，计算机设备可以获取样本多媒体数据M_a的第一模态特征与样本多媒体数据M_b的第二模态特征之间的第二距离，并确定样本多媒体数据M_a的第二模态特征与样本多媒体数据M_b的第一模态特征之间的第三距离。其中，第二距离指样本多媒体数据M_a的第一模态特征与样本多媒体数据M_b的第二模态特征之间的距离，第三距离指样本多媒体数据M_a的第二模态特征与样本多媒体数据M_b的第一模态特征之间的第三距离。通过该过程，计算机设备可以获得样本多媒体数据M_a与样本多媒体数据M_b之间的不同种模态信息之间的距离。

然后，计算机设备可以根据第一距离、第二距离和第三距离，确定初始媒体识别模型关于样本多媒体数据M_a的特征提取误差。

在一些实施方式中，计算机设备可以首先计算得到第二距离和第三距离之间的平均距离，然后根据第一距离和平均距离，确定初始媒体识别模型关于样本多媒体数据M_a的特征提取误差。其中，平均距离可以理解为不同样本多媒体数据间的不同模态特征间的距离。此处，平均距离可以反映不同样本多媒体数据间的不同模态特征间的匹配度。

在一些实施方式中，不同样本多媒体数据间的不同种类模态特征间的距离，如所述的平均距离，可以用D_n表示。D_n的计算公式可以如下：

其中，F＇_I为样本多媒体数据M_b的第一模态特征，F＇_T为样本多媒体数据M_b的第二模态特征。例如，在样本多媒体数据为样本视频时，F＇_I可以是样本视频M_b的图像特征(例如具体可以是样本视频M_b的平均图像特征)，F′_T可以是样本视频M_b的文本特征。

在一些实施方式中，初始媒体模型关于样本多媒体数据M_a的特征提取误差可以用Loss_self表示。Loss_self的计算公式可以如下：

Loss_self＝||D_p-D_n|| 公式1.5；

或，

Loss_self＝max(m,||D_p-D_n||) 公式1.6；

其中，m为设定的值，如可以为设定的经验值。对应于Loss_self进行理解，所述初始媒体识别模型关于样本多媒体数据M_a的特征提取误差，可以反映同一样本多媒体数据间的不同模态特征间的匹配度与不同样本多媒体数据间的不同模态特征间的匹配度，这两种匹配度的对比损失。与基于标签和分类的损失不同，基于模态自监督的损失只考虑多媒体数据本身的信息，使得基于初始媒体识别模型经对应第一样本集训练后提取的信息丰富度和多样性更高，具有更好的泛化性。

之后，计算机设备若初始媒体识别模型分别关于M个样本多媒体数据的特征提取误差均确定完成，则将初始媒体识别模型分别关于M个样本多媒体数据的特征提取误差，确定为初始媒体识别模型的特征提取误差。

S206、根据所述初始媒体识别模型的媒体预测误差和所述初始媒体识别模型的特征提取误差，对所述初始媒体识别模型进行第一调整，得到目标媒体识别模型。

具体来讲，计算机设备可以根据初始媒体识别模型的媒体预测误差和初始媒体识别模型的特征提取误差，对初始媒体识别模型进行第一调整，得到调整后的媒体识别模型，根据调整后的媒体识别模型确定目标媒体识别模型，目标媒体识别模型用于识别目标多媒体数据的媒体标签和媒体类别中的至少一种。

更具体来讲，计算机设备首先可以根据初始媒体识别模型的媒体预测误差和初始媒体识别模型的特征提取误差，确定初始媒体识别模型的媒体识别总误差。然后，计算机设备可以在初始媒体识别模型未满足训练停止条件时，利用媒体识别总误差对初始媒体识别模型进行第一调整，直到初始媒体识别模型满足训练停止条件，得到调整后的媒体识别模型。其中，训练停止条件可以为迭代次数达到迭代次数上限，初始媒体识别模型收敛，初始媒体识别模型的媒体识别总误差达到最小值，等等。第一调整可以是利用媒体识别总误差更新初始媒体识别模型的模型参数，优化所述初始媒体识别模型的总的损失函数，等等。此处的总的损失函数可以根据用于计算媒体标签预测误差的损失函数以及用于计算媒体特征提取误差的损失函数构建。进一步地，总的损失函数可以根据用于计算媒体标签预测误差的损失函数、用于计算媒体类别预测误差的损失函数以及用于计算特征提取误差的损失函数构建，例如此处的总的损失函数可以为Loss_total。在得到调整后的媒体识别模型后，计算机设备根据调整后的媒体识别模型确定目标媒体识别模型。

在一些实施方式中，假设初始媒体识别模型的媒体预测误差包括M个样本多媒体数据分别对应的媒体标签预测误差和媒体类别预测误差，以及初始媒体识别模型的特征提取误差包括初始媒体识别模型分别关于M个样本多媒体数据的特征提取误差，计算机设备根据初始媒体识别模型的媒体预测误差和初始媒体识别模型的特征提取误差，确定初始媒体识别模型的媒体识别总误差的方式可以如下：计算机设备对样本多媒体数据M_a对应的媒体标签预测误差、媒体类别预测误差以及特征提取误差进行加权处理，得到样本多媒体数据M_a的媒体识别误差。采用上述方式，计算机设备可以获得M个样本多媒体数据分别对应的媒体识别误差。在获得M个样本多媒体数据分别对应的媒体识别误差后，计算机设备可以对M个样本多媒体数据分别对应的媒体识别误差进行叠加处理，得到初始媒体识别模型的媒体识别总误差。

在一些实施方式中，样本多媒体数据的媒体识别误差，如样本多媒体数据M_a的媒体识别误差，可以用Loss_total表示。Loss_total的计算公式可以如下：

Loss_total＝A*Loss_tag+B*Loss_cls+(1-A-B)*Loss_self 公式1.7；

其中，A为Loss_tag的权重，B为Loss_cls的权重，(1-A-B)为Loss_self的权重。

在一些实施方式中，计算机设备根据调整后的媒体识别模型确定目标媒体识别模型的方式，可以如下：计算机设备将调整后的媒体识别模型确定为目标媒体识别模型。

在一些实施方式中，计算机设备根据所述调整后的媒体识别模型确定目标媒体识别模型的方式，可以为计算机设备利用第二样本集对调整后的媒体识别模型进行训练，得到目标媒体识别模型。此处的第二样本集可以包括K个样本多媒体数据，以及K个样本多媒体数据分别对应的第二标注媒体标签。第二标注媒体标签与前述提及的第一标注媒体标签不相同。具体地，计算机设备根据所述调整后的媒体识别模型确定目标媒体识别模型的方式，即计算机设备利用第二样本集对调整后的媒体识别模型进行训练，得到目标媒体识别模型的过程，可以参见图3的步骤S301-S305，具体地：

S301、获取第二样本集，所述第二样本集包括K个样本多媒体数据，以及所述K个样本多媒体数据分别对应的第二标注媒体标签。

在一些实施方式中，第二样本集可以是根据P个第二标注媒体标签分别对应的参考多媒体数据进行样本挖掘后得到的，P个第二标注媒体标签包括K个样本多媒体数据分别对应的第二标注媒体标签，K为正整数。通过样本挖掘，可以在第二标注媒体标签对应的样本多媒体数据的数量较少的情况下，有效地扩充第二标注媒体标签对应的样本多媒体数据，从而丰富第二标注媒体标签对应的样本多媒体数据。举例来说，假设第二标注媒体标签原本对应的样本多媒体数据只有x个，通过样本挖掘，可以使得第二标注媒体标签对应的样本多媒体数据的标签由x个增长至x+y个，其中y为大于或等于1的正整数，且y小于多媒体数据集合中的多媒体数据的个数。

在一些实施方式中，计算机设备根据P个第二标注媒体标签分别对应的参考多媒体数据进行样本挖掘，得到第二样本集的方式，具体如下：计算机设备获取P个第二标注媒体标签分别对应的参考多媒体数据。计算机设备可以根据第二标注媒体标签P_c对应的参考多媒体数据的媒体特征信息，从多媒体数据集合中检索出与第二标注媒体标签P_c匹配的多媒体数据，以作为第二标注媒体标签P_c对应的候选多媒体数据。采用上述方式，计算机设备可以从多媒体数据集合中检索出P个第二标注媒体标签分别对应的多媒体数据。在获得P个第二标注媒体标签分别对应的候选多媒体数据后，计算机设备可以根据P个第二标注媒体标签分别对应的候选多媒体数据，构建第二样本集。采用上述过程，计算机设备可以实现基于P个第二标注媒体标签的样本挖掘过程。

在一些实施方式中，计算机设备根据所述第二标注媒体标签P_c对应的参考多媒体数据的媒体特征信息，从多媒体数据集合中检索出与所述第二标注媒体标签P_c匹配的多媒体数据的方式可以为：计算机设备获取所述多媒体数据集合中的各多媒体数据的媒体特征信息，并确定所述第二标注媒体标签P_c对应的参考多媒体数据的媒体特征信息分别与所述多媒体数据集合中的各多媒体数据的媒体特征信息之间的媒体距离，根据确定出的媒体距离，从多媒体数据集合中检索出与所述第二标注媒体标签P_c匹配的多媒体数据，作为所述第二标注媒体标签P_c匹配的候选多媒体数据。采用上述过程，计算机设备可以实现基于第二标注媒体标签P_c的样本挖掘过程。

在一些实施方式中，所述的P个第二标注媒体标签分别对应的参考多媒体数据的媒体特征信息以及多媒体数据集合中的各多媒体数据的媒体特征信息可以在利用特征提取模型进行特征提取后得到的。举例来说，计算机设备则可以通过图像特征提取模型提取P个第二标注媒体标签分别对应的参考多视频的图像特征以及视频集合中的各视频的图像特征。此处的图像特征提取模型可以为CLIP模型。计算机设备还可以通过文本特征提取模型提取P个第二标注媒体标签分别对应的参考多视频的文本特征以及视频集合中的各视频的文本特征。此处的文本特征提取模型可以为BERT模型。在一个实施例中，此处用于提取P个第二标注媒体标签分别对应的参考多媒体数据的媒体特征信息以及多媒体数据集合中的各多媒体数据的媒体特征信息的特征提取模型，可以是在初始媒体识别模型还未被第一样本集训练时，该未被训练的初始媒体识别模型所包括的特征提取模型。

在一些实施方式中，CLIP模型的处理过程、平均模态特征的确定过程(如平均图像特征)、BERT模型的处理过程，如下：

可以表示多个第一模态信息中的一个模态信息对应的模态特征，/>可以表示视频，如参考视频中的任一个视频帧对应的图像特征。I_d表示视频的视频帧集合中的第d个视频帧，d为小于或等于1的正整数。F_I则表示参考视频I的平均图像特征。本申请实施例可以将平均图像特征作为视频的整体图像特征的一种。

在一些实施例中，所述的P个第二标注媒体标签分别对应的参考多媒体数据的媒体特征信息以及多媒体数据集合中的各多媒体数据的媒体特征信息，可以是在对初始媒体识别模型进行训练前，利用训练前的初始媒体识别模型包括的特征提取模型进行特征提取后得到的。

在一些实施方式中，假设所述媒体特征信息包括第一模态特征和第二模态特征，计算机设备确定所述第二标注媒体标签P_c对应的参考多媒体数据的媒体特征信息分别与所述多媒体数据集合中的各多媒体数据的媒体特征信息之间的媒体距离，根据确定出的媒体距离，从所述多媒体数据集合中检索出与所述第二标注媒体标签P_c匹配的多媒体数据，作为所述第二标注媒体标签P_c匹配的候选多媒体数据，具体如下：

①确定所述第二标注媒体标签P_c对应的参考多媒体数据的第一模态特征分别与所述多媒体数据集合中的各多媒体数据的第一模态特征之间的距离，作为第一媒体距离。

也就是说，计算机设备可以确定所述第二标注媒体标签P_c对应的参考多媒体数据的第一模态特征分别与所述多媒体数据集合中的各多媒体数据的第一模态特征之间的第一媒体距离。在一些实施方式中，所述的第一媒体距离可以为余弦距离。此处第二标注媒体标签P_c对应的参考多媒体数据的第一模态特征分别与所述多媒体数据集合中的各多媒体数据的第一模态特征之间的第一媒体距离，即为所述的第二标注媒体标签P_c对应的参考多媒体数据的第一模态特征分别与所述多媒体数据集合中的各多媒体数据的第一模态特征之间的距离。

在一些实施方式中，计算机设备可以对第二标注媒体标签P_c对应的参考多媒体数据的第一模态特征进行归一化处理，得到第二标注媒体标签P_c对应的参考多媒体数据所对应的第一归一化特征(指第二标注媒体标签P_c对应的参考多媒体数据所对应的归一化特征)，并可以分别对所述多媒体数据集合中的各多媒体数据的第一模态特征进行归一化处理，得到多媒体数据集合中的各多媒体数据所对应的第二归一化特征(指多媒体数据对应的归一化特征)，从而确定第二标注媒体标签P_c对应的参考多媒体数据的第一归一化特征分别与所述多媒体数据集合中的各多媒体数据的第二归一化特征之间的距离。通过对参考多媒体数据对应的各个模态特征以及对多媒体数据集合中的各多媒体数据对应的各个模态特征进行归一化处理，能够得到获得更准确规范的媒体距离。

在一些实施方式中，第二标注媒体标签对应的参考多媒体数据的第一模态特征分别与多媒体数据集合中的任一多媒体数据的第一模态特征之间的距离，如第二标注媒体标签P_c对应的参考多媒体数据的第一模态特征分别与多媒体数据集合中的任一多媒体数据的第一模态特征之间的距离，可以通过d表示。d可以通过如下公式计算得到：

其中，F_Itag指第二标注媒体标签tag的参考多媒体数据对应的第一模态特征，如为第二标注媒体标签P_c对应的参考多媒体数据的第一模态特征。此处的F_I指多媒体数据集合中的任一多媒体数据的第一模态特征。举例来说，在多媒体数据为视频时，此处的F_Itag可以指第二标注视频标签tag的参考视频对应的图像特征(例如具体可以为参考视频的平均图像特征)。此处的F_I可以指视频集合中的任一视频的图像特征(例如具体可以为所述的任一视频的平均图像特征)。其中，l2norm函数的功能是将特征向量规范化。

②确定所述第二标注媒体标签P_c对应的参考多媒体数据的第二模态特征分别与所述多媒体数据集合中的各多媒体数据的第二模态特征之间的距离，作为第二媒体距离。

也就是说，计算机设备可以确定所述第二标注媒体标签P_c对应的参考多媒体数据的第二模态特征分别与所述多媒体数据集合中的各多媒体数据的第二模态特征之间的第二媒体距离。在一些实施方式中，所述的第二媒体距离可以为余弦距离。此处第二标注媒体标签P_c对应的参考多媒体数据的第二模态特征分别与所述多媒体数据集合中的各多媒体数据的第二模态特征之间的第二媒体距离，即为所述的第二标注媒体标签P_c对应的参考多媒体数据的第二模态特征分别与所述多媒体数据集合中的各多媒体数据的第二模态特征之间的距离。

其中，计算机设备确定所述第二标注媒体标签P_c对应的参考多媒体数据的第二模态特征分别与所述多媒体数据集合中的各多媒体数据的第二模态特征之间的距离的方式，可以参见确定所述第二标注媒体标签P_c对应的参考多媒体数据的第一模态特征分别与所述多媒体数据集合中的各多媒体数据的第一模态特征之间的距离的方式，在此不做赘述。

③从所述多媒体数据集合中检索出第一媒体距离小于第一距离阈值的多媒体数据，作为第一多媒体数据子集合，并从所述多媒体数据集合中检索出第二媒体距离小于第二距离阈值的多媒体数据，作为第二多媒体数据子集合。

在一些实施方式中，计算机设备还可以按照第一媒体距离对多媒体数据集合中的各多媒体数据进行排序，得到第一排序结果，并根据第一排序结果从多媒体数据集合中确定出第一多媒体数据子集合。例如，在排序方式为第一媒体距离越小的多媒体数据排序越靠前时，计算机设备可以从多媒体数据集合中确定出排在前Q₁位的多媒体数据，以构建第一多媒体数据子集合。在一些实施方式中，Q₁可以为超参，其中超参又称超参数，超参数在本申请实施例中可以指在对初始媒体识别模型进行训练前设置的参数。计算机设备还可以按照第二媒体距离对多媒体数据集合中的各多媒体数据进行排序，得到第二排序结果，并根据第二排序结果从多媒体数据集合中确定出第二多媒体数据子集合。例如，在排序方式为第二媒体距离越小的多媒体数据排序越靠前时，计算机设备可以从多媒体数据集合中确定出排在前Q₂位的多媒体数据，以构建第一多媒体数据子集合。在一些实施方式中，Q₂可以为超参。Q₁和Q₂，可根据实际业务需求调整。

举例来说，假设多媒体数据为视频，媒体特征信息包括图像特征和文本特征，计算机设备可以确定第二标注媒体标签P_c对应的参考视频的图像特征分别与视频集合中的各视频的图像特征之间的距离，并从视频集合中筛选出距离第二标注媒体标签P_c对应的参考视频的图像特征距离最近的Q₁个视频。计算机设备还可以确定所述第二标注媒体标签P_c对应的参考视频的文本特征分别与视频集合中的各视频的文本特征之间的距离，并从视频集合中筛选出距离第二标注媒体标签P_c对应的参考视频的文本特征最近的Q₂个样本。通过上述过程，计算机设备可以从视频集合中检索出第二标注媒体标签P_c对应的Q₁+Q₂个视频。

④从所述第一多媒体数据子集合和所述第二多媒体数据子集合中，确定出所述匹配的多媒体数据。本申请实施例中，计算机设备可以将第一多媒体数据子集合和第二多媒体数据子集合，确定为所述第二标注媒体标签P_c匹配的多媒体数据。

在一些实施方式中，为了提升匹配出的多媒体数据的准确度，计算机可以将第二标注媒体标签P_c、第一多媒体数据子集合和第二多媒体数据子集合发送至指定用户终端，指定用户终端可以显示第二标注媒体标签P_c、第一多媒体数据子集合和第二多媒体数据子集合。指定用户终端对应的用户可以人工判断第一多媒体数据子集合中各个多媒体数据是否与第二标注媒体标签P_c匹配，并判断第二多媒体数据子集合中各个多媒体数据是否与第二标注媒体标签P_c匹配，以从第一多媒体数据子集合和第二多媒体数据子集合中筛选出第二标注媒体标签P_c匹配的多媒体数据。用户可以通过指定用户终端告知计算机设备第二标注媒体标签P_c匹配的多媒体数据，至此计算机设备可以得到第二媒体P_c匹配的多媒体数据。

S302、从所述K个样本多媒体数据，获取S个样本多媒体数据，作为目标支撑集，从所述K个样本多媒体数据，获取T个样本多媒体数据，作为目标查询集。

在一些实施方式中，S可以为N个第二标注媒体标签分别对应的支撑集中的样本多媒体数据的个数之和。其中，S为小于K的正整数。N为正整数。所述S个样本多媒体数据可以包括N个第二标注媒体标签分别对应的支撑集中的各样本多媒体数据。目标支撑集可以为N个第二标注媒体标签分别对应的支撑集。

例如，在N为3时，第1个第二标注媒体标签对应的支撑集中包括6个样本多媒体数据，第2个第二标注媒体标签对应的支撑集中包括6个样本多媒体数据，第3个第二标注媒体标签对应的支撑集中包括6个样本多媒体数据，则S为18。S个样本多媒体数据可以包括上面3个第二标注媒体标签分别对应的支撑集中的6个样本多媒体数据，共计18个样本多媒体数据。目标支撑集可以为3个第二标注媒体标签分别对应的支撑集。

在一些实施方式中，T为N个第二标注媒体标签分别对应的查询集中的样本多媒体数据的个数之和。其中，T为小于K的正整数。所述T个样本多媒体数据可以包括N个第二标注媒体标签分别对应的查询集中的各样本多媒体数据。目标查询集可以为N个第二标注媒体标签分别对应的查询集。目标支撑集与目标查询集不同，目标支撑集于目标查询集不同，具体指N个第二标注媒体标签中的目标第二标注媒体标签对应的支撑集与目标第二标注媒体标签对应的查询集不同，目标第二标注媒体标签为N个第二标注媒体标签中的任一第二标注媒体标签。

例如，在N为3时，第1个第二标注媒体标签对应的查询集中包括6个样本多媒体数据，第2个第二标注媒体标签对应的查询集中包括6个样本多媒体数据，第3个第二标注媒体标签对应的查询集中包括6个样本多媒体数据，则T为18。T个样本多媒体数据可以包括上面3个第二标注媒体标签分别对应的查询集中的6个样本多媒体数据，共计18个样本多媒体数据。目标查询集可以为3个第二标注媒体标签分别对应的查询集。

在一些实施方式中，计算机设备获取目标支撑集和目标查询集的具体如下：

①从所述K个样本多媒体数据分别对应的第二标注媒体标签中，抽取N个第二标注媒体标签。

②从所述K个样本多媒体数据中，抽取第二标注媒体标签N_r对应的E个样本多媒体数据；

其中，所述第二标注媒体标签Nr属于N个第二标注媒体标签；所述r为小于或等于N的正整数，所述E为小于K的正整数。

③若从所述K个样本多媒体数据中抽取到所述N个第二标注媒体标签分别对应的E个样本多媒体数据，则对所述N个第二标注媒体标签分别对应的E个样本多媒体数据进行划分，得到所述N个第二标注媒体标签分别对应的支撑集和查询集，将所述N个第二标注媒体标签分别对应的支撑集，确定为目标支撑集，并将所述N个第二标注媒体标签分别对应的查询集，确定为目标查询集。

在一些实施方式中，计算机设备在抽取出第二标注媒体标签N_r对应的E个样本多媒体数据后，可以将第二标注媒体标签N_r对应的E个样本多媒体数据划分为两部分，一部分样本多媒体数据用于构建第二标注媒体标签N_r对应的支撑集，另一部分样本多媒体数据用于构建第二标注媒体标签N_r对应的查询集。采用上述方式，计算机设备可以得到N个第二标注媒体标签分别对应的支撑集和查询集，并将N个第二标注媒体标签分别对应的支撑集确定为目标支撑集，并将N个第二标注媒体标签分别对应的查询集确定为目标查询集。

在一些实施方式中，计算机设备可以在抽取出第二标注媒体标签N_r对应的E个样本多媒体数据后，可以将第二标注媒体标签N_r对应的E个样本多媒体数据平均分为两部分，其中一部分的E/2个样本多媒体数据用于构建第二标注媒体标签N_r对应的支撑集，另一部分的E/2个样本多媒体数据用于构建第二标注媒体标签N_r对应的查询集。在上面这种方式中，支撑集包括的样本多媒体数据的个数可以与查询集包括的样本多媒体数据的个数相等。采用上述方式，计算机设备可以得到N个第二标注媒体标签分别对应的支撑集和查询集，并将N个第二标注媒体标签分别对应的支撑集确定为目标支撑集，并将N个第二标注媒体标签分别对应的查询集确定为目标查询集。

S303、根据所述目标支撑集对所述调整后的媒体识别模型进行训练，得到候选媒体识别模型。

S304、根据所述目标查询集确定所述候选媒体识别模型的媒体标签识别误差。

具体地，在目标查询集包括N个第二标注媒体标签分别对应的查询集，计算机设备根据所述目标查询集确定所述候选媒体识别模型的媒体标签识别误差的方式可以如下：

①利用所述候选媒体识别模型基于第二标注媒体标签N_r对应的查询集中的样本多媒体数据F_t进行标签识别，得到关于所述样本多媒体数据F_t的标签预测信息。

本申请实施例中，计算机设备可以将第二标注媒体标签N_r对应的查询集中的样本多媒体数据F_t输入候选媒体识别模型，通过候选媒体识别模型处理得到关于样本多媒体数据F_t的标签预测信息。其中，第二标注媒体标签N_r属于N个第二标注媒体标签。r为小于或等于N的正整数。标签预测信息可以包括样本多媒体数据F_t的第二预测媒体标签为第二标注媒体标签N_r的第一概率以及样本多媒体数据F_t的第二预测媒体标签为第二标注媒体标签N_u的第二概率；第二标注媒体标签N_u为N个第二标注媒体标签中除第二标注媒体标签N_r以外的任一标注媒体标签，u为小于或等于N的整数，r与u不相同。

在一些实施方式中，计算机设备通过候选媒体识别模型处理得到关于样本多媒体数据F_t的标签预测信息的方式具体可以为：计算机设备确定第二标注媒体标签N_r对应的标签平均特征；调用候选媒体识别模型提取样本多媒体数据F_t对应的媒体特征信息；根据第二标注媒体标签N_r对应的标签平均特征以及样本多媒体数据F_t对应的媒体特征信息，计算样本多媒体数据F_t对应的第二预测媒体标签为第二标注媒体标签N_r的第一概率；确定第二标注媒体标签N_u对应的标签平均特征；调用候选媒体识别模型根据第二标注媒体标签N_u对应的标签平均特征以及样本多媒体数据F_t对应的媒体特征信息，计算样本多媒体数据F_t对应的第二预测媒体标签为第二标注媒体标签N_u的第二概率。

在一些实施方式中，计算机设备确定第二标注媒体标签N_r对应的标签平均特征的方式可以为：计算机设备获取第二标注媒体标签N_r对应的支撑集中各样本多媒体数据的媒体特征信息，并根据第二标注媒体标签N_r对应的支撑集中各样本多媒体数据的媒体特征信息，确定第二标注媒体标签N_r对应的标签平均特征。

在一些实施方式中，第二标注媒体标签的平均标签特征，可以用f_i表示，其中f_i可以通过如下公式计算得到：

其中，i表示第i个第二标注媒体标签。f_ij可以表示第i个第二标注媒体标签在支撑集中对应的第j个样本多媒体数据的目标媒体特征。目标媒体特征例如可以为对第j个样本多媒体数据的多种模态特征进行特征融合后，得到融合后的特征。k表示第i个第二标注媒体标签对应的支撑集中的样本多媒体数据的个数。其中，i为小于或等于N的正整数。J为小于或等于k的正整数。此处的第i个第二标注媒体标签可以为第二标注媒体标签N_r，此处的第j个样本多媒体数据可以为样本多媒体数据F_t。

在一些实施方式中，若第二标注媒体标签N_r对应的支撑集中包括k个样本多媒体数据，则第二标注媒体标签N_r对应的查询集可以包括(E-k)个样本多媒体数据。在媒体特征信息包括目标模态特征、目标模态特征包括第一模态特征和第二模态特征时，计算机设备可以利用候选媒体识别模型以根据第二标注媒体标签N_r的k个样本多媒体数据分别对应的第一模态特征；计算机设备可以利用候选媒体识别模型对第二标注媒体标签N_r的k个样本多媒体数据分别对应的第一模态特征和第二模态特征进行特征融合，得到第二标注媒体标签N_r的k个样本多媒体数据分别对应的融合后的特征；计算机设备可以利用候选媒体识别模型以根据第二标注媒体标签N_r的k个样本多媒体数据分别对应的融合后的特征，确定第二标注媒体标签N_r对应的标签平均特征。其中，获取样本多媒体数据对应的第一模态特征和第二模态特征的方式可参见前文提到的方式，在此不做赘述。

举例来说，在样本多媒体数据为样本视频时，计算机设备可以在获取第二标注视频标签N_r的k个样本视频分别对应的图像特征集合后，确定第二标注视频标签N_r的k个样本视频分别对应的平均图像特征。并且，计算机设备还可以获取N_r的k个样本视频分别对应的文本特征。之后，计算机设备可以利用初始视频识别模型对第二标注视频标签N_r的k个样本视频分别对应的平均图像特征和文本特征进行特征融合，得到第二标注视频标签N_r的k个样本视频分别对应的融合后的特征，从而根据确定第二标注视频标签N_r的k个样本视频分别对应的融合后的特征，确定第二标注视频标签N_r对应的标签平均特征。此处，计算机设备可以对样本视频对应的图像特征集合中的各图像特征进行加法运算，得到样本视频对应的加法运算后的图像特征，并利用样本视频对应的加法运算后的图像特征除以样本视频中的视频帧的个数，得到样本视频对应的平均图像特征。

在一个实施例中，计算机设备可以通过候选媒体识别模型包括的特征提取模型提取样本多媒体数据对应的媒体特征信息，如调用候选媒体识别模型包括的特征提取模型提取样本多媒体数据F_t对应的媒体特征信息。

通过执行上述操作，计算机设备可以分别获取到第二标注媒体标签N_r对应的标签平均特征以及第二标注媒体标签N_u对应的标签平均特征。

在执行上述操作后，计算机设备可以根据第二标注媒体标签N_r对应的标签平均特征以及样本多媒体数据F_t对应的媒体特征信息，计算样本多媒体数据F_t对应的第二预测媒体标签为第二标注媒体标签N_r的第一概率。并且，计算机设备还可以调用候选媒体识别模型根据第二标注媒体标签N_u对应的标签平均特征以及样本多媒体数据F_t对应的媒体特征信息，计算样本多媒体数据F_t对应的第二预测媒体标签为第二标注媒体标签N_u的第二概率。

采用上述方式，计算机设备可以获得样本多媒体数据F_t对应的第二预测媒体标签分别为N个第二标注媒体标签的概率。在一些实施方式中，计算机设备具体可以通过如下方式计算样本多媒体数据对应的第二预测媒体标签分别为多个第二标注媒体标签的概率。

P(j,i)＝Sigmoid(β*l2norm(f_i)^T×l2norm(f＇_ij)) 公式2.1；

其中，f＇_ij表示第i个第二标注媒体标签在对应的查询集中的第j个样本多媒体数的目标媒体特征，此处的目标媒体特征例如可以是根据第j个样本多媒体数据的多种模态特征进行特征融合后得到的。其中，l2norm函数的功能是将特征向量规范化。其中，Sigmoid函数的表达式可以如下：

结合上述公式来看，计算机设备可以通过令第i个第二标注媒体标签为第二标注媒体标签N_r，第j个样本多媒体数据分别为F_t，便可以计算得到样本多媒体数据F_t对应的第二预测媒体标签为第二标注媒体标签N_r的第一概率。同样地，令第i个第二标注媒体标签为第二标注媒体标签N_u，第j个样本多媒体数据分别为F_t，便可以计算得到样本多媒体数据F_t对应的第二预测媒体标签为第二标注媒体标签N_u的第二概率。

②根据所述第一概率和所述第二概率，确定所述第二标注媒体标签N_r在所述样本多媒体数据F_t上的样本预测误差。其中，第二标注媒体标签N_r在所述样本多媒体数据F_t上的样本预测误差，可以通过如下公式计算得到：

loss_ij＝-log(p(j,i))+∑_i′log(1-p(j,i′)) 公式2.3；

其中，i′表示除第i个第二标注媒体标签以外的任一第二标注媒体标签。

计算机设备在获得样本多媒体数据对应的第二预测媒体标签分别为多个第二标注媒体标签的概率后，可以通过上述公式计算得到第二标注媒体标签在对应查询集中的样本多媒体数据上的样本预测误差。

具体来讲，计算机设备在获得样本多媒体数据对应的第二预测媒体标签N_r分别为多个第二标注媒体标签的概率后，可以通过上述公式计算得到第二标注媒体标签N_r在对应查询集中的样本多媒体数据F_t上的样本预测误差。

计算机设备可以通过令第i个第二标注媒体标签为第二标注媒体标签N_r，第i′个第二标注媒体标签为剩余的各第二标注媒体标签，第j个样本多媒体数据分别为F_t，得到第二标注媒体标签N_r在对应查询集中的各个多媒体数据上的样本预测误差。

③根据所述第二标注媒体标签N_r在所述样本多媒体数据F_t上的样本预测误差，确定所述第二标注媒体标签Nr在对应的查询集上的样本预测总误差，若获取到所述N个第二标注媒体标签在分别对应查询集上的样本预测总误差，则根据N个样本预测总误差，确定所述候选媒体识别模型的媒体标签识别误差。

计算机设备可以在获得第二标注媒体标签N_r在对应查询集中各样本多媒体数据上的样本预测误差后，对第二标注媒体标签N_r在对应查询集中各样本多媒体数据上的样本预测误差进行叠加处理，得到第二标注媒体标签Nr在对应的查询集上的样本预测总误差。采用上述方式，计算机设备可以分别获得N个第二标注媒体标签在对应查询集上的样本预测总误差，以作为N个样本预测总误差。计算机设备可以将N个样本预测总误差进行叠加处理，得到候选媒体识别模型的媒体标签识别误差。

在一些实施方式中，候选媒体识别模型的媒体标签识别误差可以用Loss_all表示，Loss_all可以通过如下方式计算得到：

Loss_all＝∑_i∑_jloss_ij 公式2.4；

S305、利用所述候选媒体识别模型的媒体标签识别误差对所述候选媒体识别模型进行第二调整，得到目标媒体识别模型。

本申请实施例中，计算机设备可以在候选媒体识别模型未满足训练停止条件时，利用候选媒体识别模型的媒体标签识别误差对候选媒体识别模型进行第二调整，得到目标媒体识别模型。其中，训练停止条件可以为迭代次数达到迭代次数上限，初始媒体识别模型收敛，初始媒体识别模型的媒体标签识别误差达到最小值，等等。第二调整可以是利用候选媒体识别模型的媒体标签识别误差更新候选媒体识别模型的模型参数，优化候选媒体识别模型的损失函数如Loss_all，等等。在一个实施例中，计算机设备可以在每次迭代候选媒体识别模型时执行步骤S302-步骤S305。步骤S301-S305，使用了基于元学习的模型优化方法，可以在每次迭代时，只使用部分第二标注媒体标签作为优化目标，利用不同第二标注媒体标签之间的差异性，增加训练方向的多样性，避免过拟合。

可见，计算机设备可以获取第一样本集，第一样本集包括M个样本多媒体数据，以及M个样本多媒体数据分别对应的第一标注媒体标签以及标注媒体类别；计算机设备可以利用初始媒体识别模型预测得到M个样本多媒体数据分别对应的第一预测媒体标签，利用初始媒体识别模型预测得到M个样本多媒体数据分别对应的预测媒体类别；进而，计算机设备可以根据M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定初始媒体识别模型的媒体预测误差；此外，计算机设备还可以根据M个样本多媒体数据分别对应的媒体特征信息，确定初始媒体识别模型的特征提取误差；进而，计算机设备可以根据初始媒体识别模型的媒体预测误差和初始媒体识别模型的特征提取误差，对初始媒体识别模型进行第一调整，得到目标媒体识别模型，上述过程通过多任务学习的方式以利用第一样本集训练初始媒体识别模型，在提升模型的特征表达能力的同时，也提升了模型的泛化能力，能够使得媒体识别模型针对多媒体数据的预测准确度得到有效地提升。

请参见图4，是本申请实施例提供的一种媒体数据处理装置的结构示意图。上述多媒体数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如，媒体数据处理装置为一个应用软件，该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图4所示，该装置可以包括：获取模块401、特征提取模块402、预测模块403、确定模块404、调整模块405。可选的，该装置还可以进一步包括构建模块406。

获取模块，用于获取第一样本集，所述第一样本集包括M个样本多媒体数据，以及所述M个样本多媒体数据分别对应的第一标注媒体标签以及标注媒体类别；所述M为正整数。

可选的，确定模块根据所述M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定所述初始媒体识别模型的媒体预测误差，包括：

根据多媒体数据M_a对应的第一标注媒体标签以及所述第一预测媒体标签，确定所述多媒体数据M_a对应的媒体标签预测误差；所述多媒体数据M_a属于所述M个样本多媒体数据，a为小于或等于M的正整数；

根据所述多媒体数据M_a对应的标注媒体类别以及所述预测媒体类别，确定所述多媒体数据M_a对应的媒体类别预测误差；

若所述M个样本多媒体数据分别对应的媒体类别预测误差和媒体标签预测误差均获取完成，则将所述M个样本多媒体数据分别对应的媒体类别预测误差和媒体标签预测误差，确定为所述初始媒体识别模型的媒体预测误差。

可选的，所述媒体特征信息包括第一模态特征和第二模态特征，确定模块根据所述M个样本多媒体数据分别对应的媒体特征信息，确定所述初始媒体识别模型的特征提取误差，包括：

获取样本多媒体数据M_a的第一模态特征与所述样本多媒体数据M_a的第二模态特征之间的第一距离；

获取所述样本多媒体数据M_a的第一模态特征与样本多媒体数据M_b的第二模态特征之间的第二距离，并确定所述样本多媒体数据M_a的第二模态特征与所述样本多媒体数据M_b的第一模态特征之间的第三距离；所述样本多媒体数据M_b为所述M个样本多媒体数据中除所述样本多媒体数据M_a以外的任一样本多媒体数据，b为小于或等于M的正整数，a与b不相同；

根据所述第一距离、所述第二距离和所述第三距离，确定所述初始媒体识别模型关于所述样本多媒体数据M_a的特征提取误差；

若所述初始媒体识别模型分别关于所述M个样本多媒体数据的特征提取误差均确定完成，则将所述初始媒体识别模型分别关于所述M个样本多媒体数据的特征提取误差，确定为所述初始媒体识别模型的特征提取误差。

可选的，调整模块根据所述初始媒体识别模型的媒体预测误差和所述初始媒体识别模型的特征提取误差，对所述初始媒体识别模型进行第一调整，得到目标媒体识别模型，包括：

根据所述初始媒体识别模型的媒体预测误差和所述初始媒体识别模型的特征提取误差，确定所述初始媒体识别模型的媒体识别总误差；

若所述初始媒体识别模型未满足训练停止条件，则利用所述媒体识别总误差对所述初始媒体识别模型进行第一调整，直到所述初始媒体识别模型满足所述训练停止条件，得到调整后的媒体识别模型；

根据所述调整后的媒体识别模型确定目标媒体识别模型。

可选的，所述初始媒体识别模型的媒体预测误差包括所述M个样本多媒体数据分别对应的媒体标签预测误差和媒体类别预测误差；所述初始媒体识别模型的特征提取误差包括所述初始媒体识别模型分别关于所述M个样本多媒体数据的特征提取误差；调整模块根据所述初始媒体识别模型的媒体预测误差和所述初始媒体识别模型的特征提取误差，确定所述初始媒体识别模型的媒体识别总误差，包括：

对样本多媒体数据M_a对应的媒体标签预测误差、媒体类别预测误差以及特征提取误差进行加权处理，得到所述样本多媒体数据M_a的媒体识别误差；所述多媒体数据M_a属于所述M个样本多媒体数据，a为小于或等于M的正整数；

若所述M个样本多媒体数据分别对应的媒体识别误差均获取完成，则对所述M个样本多媒体数据分别对应的媒体识别误差进行叠加处理，得到所述初始媒体识别模型的媒体识别总误差。

可选的，调整模块根据所述调整后的媒体识别模型确定目标媒体识别模型，包括：

获取第二样本集，所述第二样本集包括K个样本多媒体数据，以及所述K个样本多媒体数据分别对应的第二标注媒体标签；K为正整数；

从所述K个样本多媒体数据，获取S个样本多媒体数据，作为目标支撑集，从所述K个样本多媒体数据，获取T个样本多媒体数据，作为目标查询集；S和T均为小于K的正整数，所述目标支撑集与所述目标查询集不同；

根据所述目标支撑集对所述调整后的媒体识别模型进行训练，得到候选媒体识别模型；

根据所述目标查询集确定所述候选媒体识别模型的媒体标签识别误差；利用所述候选媒体识别模型的媒体标签识别误差对所述候选媒体识别模型进行第二调整，得到目标媒体识别模型。

可选的，调整模块从所述K个样本多媒体数据，获取S个样本多媒体数据，作为目标支撑集，从所述K个样本多媒体数据，获取T个样本多媒体数据，作为目标查询集，包括：

从所述K个样本多媒体数据分别对应的第二标注媒体标签中，抽取N个第二标注媒体标签；N为正整数；

从所述K个样本多媒体数据中，抽取第二标注媒体标签N_r对应的E个样本多媒体数据；所述第二标注媒体标签Nr属于N个第二标注媒体标签；所述r为小于或等于N的正整数，所述E为小于K的正整数；

若从所述K个样本多媒体数据中抽取到所述N个第二标注媒体标签分别对应的E个样本多媒体数据，则对所述N个第二标注媒体标签分别对应的E个样本多媒体数据进行划分，得到所述N个第二标注媒体标签分别对应的支撑集和查询集；

将所述N个第二标注媒体标签分别对应的支撑集，确定为目标支撑集；所述N个第二标注媒体标签分别对应的支撑集中的样本多媒体数据的个数之和为S；

将所述N个第二标注媒体标签分别对应的查询集，确定为目标查询集；所述N个第二标注媒体标签分别对应的查询集中的样本多媒体数据的个数之和为T。

可选的，所述目标查询集包括N个第二标注媒体标签分别对应的查询集，调整模块根据所述目标查询集确定所述候选媒体识别模型的媒体标签识别误差，包括：

利用所述候选媒体识别模型基于第二标注媒体标签N_r对应的查询集中的样本多媒体数据F_t进行标签识别，得到关于所述样本多媒体数据F_t的标签预测信息；所述第二标注媒体标签N_r属于N个第二标注媒体标签；r为小于或等于N的正整数；所述标签预测信息包括所述样本多媒体数据F_t的第二预测媒体标签为所述第二标注媒体标签N_r的第一概率以及所述样本多媒体数据F_t的第二预测媒体标签为第二标注媒体标签N_u的第二概率；所述第二标注媒体标签N_u为所述N个第二标注媒体标签中除所述第二标注媒体标签N_r以外的任一标注媒体标签，u为小于或等于N的整数，r与u不相同；

根据所述第一概率和所述第二概率，确定所述第二标注媒体标签N_r在所述样本多媒体数据F_t上的样本预测误差；

根据所述第二标注媒体标签N_r在所述样本多媒体数据F_t上的样本预测误差，确定所述第二标注媒体标签Nr在对应的查询集上的样本预测总误差；

若获取到所述N个第二标注媒体标签在分别对应查询集上的样本预测总误差，则根据N个样本预测总误差，确定所述候选媒体识别模型的媒体标签识别误差。

可选的，调整模块利用所述候选媒体识别模型基于第二标注媒体标签N_r对应的查询集中的样本多媒体数据F_t进行标签识别，得到关于所述样本多媒体数据F_t的标签预测信息，包括：

确定所述第二标注媒体标签N_r对应的标签平均特征；

调用所述候选媒体识别模型提取所述样本多媒体数据F_t对应的媒体特征信息；

根据所述第二标注媒体标签N_r对应的标签平均特征以及所述样本多媒体数据F_t对应的媒体特征信息，计算所述样本多媒体数据F_t对应的第二预测媒体标签为所述第二标注媒体标签N_r的第一概率；

确定所述第二标注媒体标签N_u对应的标签平均特征；

调用所述候选媒体识别模型根据所述第二标注媒体标签N_u对应的标签平均特征以及所述样本多媒体数据F_t对应的媒体特征信息，计算所述样本多媒体数据F_t对应的第二预测媒体标签为所述第二标注媒体标签N_u的第二概率。

可选的，所述装置还包括构建模块。

所述P个第二标注媒体标签包括所述K个样本多媒体数据分别对应的第二标注媒体标签；

根据所述第二标注媒体标签P_c对应的参考多媒体数据的媒体特征信息，从多媒体数据集合中检索出与所述第二标注媒体标签P_c匹配的多媒体数据，作为所述第二标注媒体标签P_c对应的候选多媒体数据；

若所述P个第二标注媒体标签分别对应的候选多媒体数据均获取完成，则根据所述P个第二标注媒体标签分别对应的候选多媒体数据构建所述第二样本集。

可选的，构建模块根据所述第二标注媒体标签P_c对应的参考多媒体数据的媒体特征信息，从多媒体数据集合中检索出与所述第二标注媒体标签P_c匹配的多媒体数据，包括：

获取所述多媒体数据集合中的各多媒体数据的媒体特征信息；

确定所述第二标注媒体标签P_c对应的参考多媒体数据的媒体特征信息分别与所述多媒体数据集合中的各多媒体数据的媒体特征信息之间的媒体距离，根据确定出的媒体距离，从多媒体数据集合中检索出与所述第二标注媒体标签P_c匹配的多媒体数据，作为所述第二标注媒体标签P_c匹配的多媒体数据。

可选的，所述媒体特征信息包括第一模态特征和第二模态特征；构建模块确定所述第二标注媒体标签P_c对应的参考多媒体数据的媒体特征信息分别与所述多媒体数据集合中的各多媒体数据的媒体特征信息之间的媒体距离，根据确定出的媒体距离，从所述多媒体数据集合中检索出与所述第二标注媒体标签P_c匹配的多媒体数据包括：

确定所述第二标注媒体标签P_c对应的参考多媒体数据的第一模态特征分别与所述多媒体数据集合中的各多媒体数据的第一模态特征之间的距离，作为第一媒体距离；

确定所述第二标注媒体标签P_c对应的参考多媒体数据的第二模态特征分别与所述多媒体数据集合中的各多媒体数据的第二模态特征之间的距离，作为第二媒体距离；

从所述多媒体数据集合中检索出第一媒体距离小于第一距离阈值的多媒体数据，作为第一多媒体数据子集合；

从所述多媒体数据集合中检索出第二媒体距离小于第二距离阈值的多媒体数据，作为第二多媒体数据子集合；

从所述第一多媒体数据子集合和所述第二多媒体数据子集合中确定出所述第二标注媒体标签P_c匹配的多媒体数据。

可见，媒体数据处理装置可以获取第一样本集，第一样本集包括M个样本多媒体数据，以及M个样本多媒体数据分别对应的第一标注媒体标签以及标注媒体类别；媒体数据处理装置可以利用初始媒体识别模型预测得到M个样本多媒体数据分别对应的第一预测媒体标签，利用初始媒体识别模型预测得到M个样本多媒体数据分别对应的预测媒体类别；进而，媒体数据处理装置可以根据M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定初始媒体识别模型的媒体预测误差；此外，媒体数据处理装置还可以根据M个样本多媒体数据分别对应的媒体特征信息，确定初始媒体识别模型的特征提取误差；进而，媒体数据处理装置可以根据初始媒体识别模型的媒体预测误差和初始媒体识别模型的特征提取误差，对初始媒体识别模型进行第一调整，得到目标媒体识别模型，上述过程通过多任务学习的方式以利用第一样本集训练初始媒体识别模型，在提升模型的特征表达能力的同时，也提升了模型的泛化能力，能够使得媒体识别模型针对多媒体数据的预测准确度得到有效地提升。

请参见图5，是本申请实施例提供的一种计算机设备的结构示意图。如图5所示，上述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个在远离前述处理器1001的存储装置。如图5所示，作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图5所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

本申请中，计算机设备可以获取第一样本集，第一样本集包括M个样本多媒体数据，以及M个样本多媒体数据分别对应的第一标注媒体标签以及标注媒体类别；计算机设备可以利用初始媒体识别模型预测得到M个样本多媒体数据分别对应的第一预测媒体标签，利用初始媒体识别模型预测得到M个样本多媒体数据分别对应的预测媒体类别；进而，计算机设备可以根据M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定初始媒体识别模型的媒体预测误差；此外，计算机设备还可以根据M个样本多媒体数据分别对应的媒体特征信息，确定初始媒体识别模型的特征提取误差；进而，计算机设备可以根据初始媒体识别模型的媒体预测误差和初始媒体识别模型的特征提取误差，对初始媒体识别模型进行第一调整，得到目标媒体识别模型，上述过程通过多任务学习的方式以利用第一样本集训练初始媒体识别模型，在提升模型的特征表达能力的同时，也提升了模型的泛化能力，能够使得媒体识别模型针对多媒体数据的预测准确度得到有效地提升。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2实施例中对媒体数据处理方法的描述，也可执行前文图4所对应实施例中对多媒体数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的媒体数据处理装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图2实施例中对上述媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署在一个地点的至少两个计算机设备上执行，又或者，在分布在至少两个地点且通过通信网络互连的至少两个计算机设备上执行，分布在至少两个地点且通过通信网络互连的至少两个计算机设备可以组成区块链网络。

上述计算机可读存储介质可以是前述任一实施例提供的媒体数据处理装置或者上述计算机设备的中部存储单元，例如计算机设备的硬盘或中存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的中部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同媒体中容，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现前文图2对应实施例中对上述媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品的实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器，使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种媒体数据处理方法，其特征在于，包括：

利用初始媒体识别模型提取所述M个样本多媒体数据分别对应的媒体特征信息；所述媒体特征信息包括第一模态特征和第二模态特征；

获取样本多媒体数据M_a的第一模态特征与所述样本多媒体数据M_a的第二模态特征之间的第一距离；所述多媒体数据M_a属于所述M个样本多媒体数据，a为小于或等于M的正整数；

若所述初始媒体识别模型分别关于所述M个样本多媒体数据的特征提取误差均确定完成，则将所述初始媒体识别模型分别关于所述M个样本多媒体数据的特征提取误差，确定为所述初始媒体识别模型的特征提取误差；

2.根据权利要求1所述的方法，其特征在于，所述根据所述M个样本多媒体数据分别对应的第一标注媒体标签、标注媒体类别、第一预测媒体标签以及预测媒体类别，确定所述初始媒体识别模型的媒体预测误差，包括：

根据多媒体数据M_a对应的第一标注媒体标签以及所述第一预测媒体标签，确定所述多媒体数据M_a对应的媒体标签预测误差；

3.根据权利要求1所述的方法，其特征在于，所述根据所述初始媒体识别模型的媒体预测误差和所述初始媒体识别模型的特征提取误差，对所述初始媒体识别模型进行第一调整，得到目标媒体识别模型，包括：

根据所述调整后的媒体识别模型确定目标媒体识别模型。

4.根据权利要求3所述的方法，其特征在于，所述初始媒体识别模型的媒体预测误差包括所述M个样本多媒体数据分别对应的媒体标签预测误差和媒体类别预测误差；所述初始媒体识别模型的特征提取误差包括所述初始媒体识别模型分别关于所述M个样本多媒体数据的特征提取误差；

所述根据所述初始媒体识别模型的媒体预测误差和所述初始媒体识别模型的特征提取误差，确定所述初始媒体识别模型的媒体识别总误差，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述调整后的媒体识别模型确定目标媒体识别模型，包括：

根据所述目标查询集确定所述候选媒体识别模型的媒体标签识别误差；

利用所述候选媒体识别模型的媒体标签识别误差对所述候选媒体识别模型进行第二调整，得到目标媒体识别模型。

6.根据权利要求5所述的方法，其特征在于，所述从所述K个样本多媒体数据，获取S个样本多媒体数据，作为目标支撑集，从所述K个样本多媒体数据，获取T个样本多媒体数据，作为目标查询集，包括：

7.根据权利要求5所述的方法，其特征在于，所述目标查询集包括N个第二标注媒体标签分别对应的查询集，所述根据所述目标查询集确定所述候选媒体识别模型的媒体标签识别误差，包括：

8.根据权利要求7所述的方法，其特征在于，所述利用所述候选媒体识别模型基于第二标注媒体标签N_r对应的查询集中的样本多媒体数据F_t进行标签识别，得到关于所述样本多媒体数据F_t的标签预测信息，包括：

确定所述第二标注媒体标签N_r对应的标签平均特征；

确定所述第二标注媒体标签N_u对应的标签平均特征；

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取P个第二标注媒体标签分别对应的参考多媒体数据；所述P个第二标注媒体标签包括所述K个样本多媒体数据分别对应的第二标注媒体标签；

10.根据权利要求9所述的方法，其特征在于，所述根据所述第二标注媒体标签P_c对应的参考多媒体数据的媒体特征信息，从多媒体数据集合中检索出与所述第二标注媒体标签P_c匹配的多媒体数据，包括：

11.一种媒体数据处理装置，其特征在于，包括：

所述确定模块，还用于获取样本多媒体数据M_a的第一模态特征与所述样本多媒体数据M_a的第二模态特征之间的第一距离；所述多媒体数据M_a属于所述M个样本多媒体数据，a为小于或等于M的正整数；获取所述样本多媒体数据M_a的第一模态特征与样本多媒体数据M_b的第二模态特征之间的第二距离，并确定所述样本多媒体数据M_a的第二模态特征与所述样本多媒体数据M_b的第一模态特征之间的第三距离；所述样本多媒体数据M_b为所述M个样本多媒体数据中除所述样本多媒体数据M_a以外的任一样本多媒体数据，b为小于或等于M的正整数，a与b不相同；根据所述第一距离、所述第二距离和所述第三距离，确定所述初始媒体识别模型关于所述样本多媒体数据M_a的特征提取误差；若所述初始媒体识别模型分别关于所述M个样本多媒体数据的特征提取误差均确定完成，则将所述初始媒体识别模型分别关于所述M个样本多媒体数据的特征提取误差，确定为所述初始媒体识别模型的特征提取误差；

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。