CN113392236A

CN113392236A - 一种数据分类方法、计算机设备及可读存储介质

Info

Publication number: CN113392236A
Application number: CN202110011574.9A
Authority: CN
Inventors: 诸加丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-09-14

Abstract

本申请实施例公开了一种数据分类方法、计算机设备及可读存储介质，其中，方法包括：获取多媒体数据中的图像数据和文本数据；获取多媒体数据的图像特征，获取多媒体数据的文本特征，将图像特征及文本特征进行特征融合得到融合特征；基于数据分类模型对图像特征进行预测，得到对象标签，获取对象标签所关联的至少两个预测标签及每个预测标签的第一概率值，基于数据分类模型对融合特征进行预测，得到每个预测标签的第二概率值；对预测标签p的第一概率值与预测标签p的第二概率值进行融合，直至得到每个预测标签的第三概率值，基于每个预测标签的第三概率值及对象标签，确定媒体数据类别。采用本申请实施例，可以提高数据分类的准确性。

Description

一种数据分类方法、计算机设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据分类方法、计算机设备及可读存储介质。

背景技术

多媒体数据已广泛应用于多个行业，在某些应用场景中，例如对多媒体数据进行分类的场景中，现有技术一般是根据多媒体数据中的图像对多媒体数据进行分类，以得到该多媒体数据中所包括的客观物体，基于该客观物体确定多媒体数据的类别。然而，只依靠多媒体数据中图像本身的信息去获取多媒体数据的主观分类结果时，由于针对同一客观物体进行主观判断，会出现判断结果不同的情况，从而导致数据分类的准确性较低。

发明内容

本申请实施例提供一种数据分类方法、计算机设备及可读存储介质，可以提高数据分类的准确性。

本申请实施例一方面提供一种数据分类方法，包括：

获取多媒体数据中的图像数据和文本数据；

根据该图像数据获取该多媒体数据的图像特征，根据该文本数据获取该多媒体数据的文本特征，将该图像特征及该文本特征进行特征融合，得到融合特征；

基于数据分类模型对该图像特征进行预测，得到对象标签，获取该对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，基于该数据分类模型对该融合特征进行预测，得到该每个预测标签分别对应的第二概率值；该至少两个预测标签包括预测标签p，该p为正整数；

对该预测标签p的第一概率值与该预测标签p的第二概率值进行融合，得到该预测标签p的第三概率值，直至得到该每个预测标签分别对应的第三概率值，基于该每个预测标签分别对应的第三概率值及该对象标签，确定该多媒体数据对应的媒体数据类别。

本申请实施例一方面提供一种数据分类方法，包括：

获取样本多媒体数据中的样本图像数据和样本文本数据，获取该样本多媒体数据的样本标签；

根据该样本图像数据获取该样本多媒体数据的样本图像特征，根据该样本文本数据获取该样本多媒体数据的样本文本特征，将该样本图像特征及该样本文本特征进行特征融合，得到样本融合特征；

基于初始数据分类模型对该样本图像特征进行预测，得到样本对象标签，获取该样本对象标签所关联的至少两个样本预测标签及每个样本预测标签对应的第一样本概率值，基于该初始数据分类模型对该样本融合特征进行预测，得到该每个样本预测标签分别对应的第二样本概率值；该至少两个样本预测标签包括样本预测标签j，该j为正整数；

对该样本预测标签j的第一样本概率值与该样本预测标签j的第二样本概率值进行融合，得到该样本预测标签j的第三样本概率值，直至得到该每个样本预测标签分别对应的第三样本概率值，根据该每个样本预测标签分别对应的第三样本概率值及该样本对象标签，确定该样本多媒体数据对应的模型输出标签；根据该样本标签及该模型输出标签所组成的损失函数，对该初始数据分类模型进行训练，得到数据分类模型。

本申请实施例一方面提供一种数据分类装置，包括：

数据获取模块，用于获取多媒体数据中的图像数据和文本数据；

特征获取模块，用于根据该图像数据获取该多媒体数据的图像特征，根据该文本数据获取该多媒体数据的文本特征，将该图像特征及该文本特征进行特征融合，得到融合特征；

概率预测模块，用于基于数据分类模型对该图像特征进行预测，得到对象标签，获取该对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，基于该数据分类模型对该融合特征进行预测，得到该每个预测标签分别对应的第二概率值；该至少两个预测标签包括预测标签p，该p为正整数；

类别确定模块，用于对该预测标签p的第一概率值与该预测标签p的第二概率值进行融合，得到该预测标签p的第三概率值，直至得到该每个预测标签分别对应的第三概率值，基于该每个预测标签分别对应的第三概率值及该对象标签，确定该多媒体数据对应的媒体数据类别。

可选的，该数据获取模块，用于若该多媒体数据为视频数据，则获取组成该视频数据的至少两个视频帧图像；基于图像获取周期从该至少两个视频帧图像中获取该图像数据；查找该多媒体数据相关联的第一文本内容，若查找到该第一文本内容，则将该第一文本内容确定为该文本数据；若未查找到该第一文本内容，则获取该图像数据在该视频数据中对应的语音数据，对该语音数据进行语音转换，得到该语音数据对应的第二文本内容，将该第二文本内容确定为该文本数据。

可选的，该特征获取模块，包括：权重获取单元、第一特征确定单元、第二特征确定单元及特征融合单元；该权重获取单元，用于获取该图像特征对应的第一权重矩阵及该文本特征对应的第二权重矩阵；该第一特征确定单元，用于基于该第一权重矩阵对该图像特征进行加权运算，得到图像加权特征；该第二特征确定单元，用于基于该第二权重矩阵对该文本特征进行加权运算，得到文本加权特征；该特征融合单元，用于对该图像加权特征和该文本加权特征进行特征拼接，得到该融合特征。

可选的，该类别确定模块，包括：最大概率确定单元及标签拼接单元；该最大概率确定单元，用于将该至少两个预测标签中，具有最大的第三概率值的预测标签确定为目标预测标签；该标签拼接单元，用于对该目标预测标签及该对象标签进行拼接，得到媒体数据标签，将该媒体数据标签所对应的数据类别，确定为该多媒体数据的媒体数据类别。

可选的，该装置还包括：数据发送模块，用于响应针对该多媒体数据的获取请求，获取发送该获取请求的目标用户的媒体数据获取标签；若该媒体数据类别与该媒体数据获取标签相匹配，则将该多媒体数据发送至该目标用户；若该媒体数据类别与该媒体数据获取标签不匹配，则向该目标用户发送媒体数据异常消息。

可选的，该装置还包括：数据处理模块，用于获取该媒体数据类别所属的标签集群，若该标签集群为第一标签集群，则在该多媒体数据所在的应用程序的首页中显示该多媒体数据；若该标签集群为第二标签集群，则删除该多媒体数据；该第二标签集群包括不属于该第一标签集群的标签。

本申请实施例一方面提供一种数据分类装置，包括：

样本数据获取模块，用于获取样本多媒体数据中的样本图像数据和样本文本数据，获取该样本多媒体数据的样本标签；

样本特征获取模块，用于根据该样本图像数据获取该样本多媒体数据的样本图像特征，根据该样本文本数据获取该样本多媒体数据的样本文本特征，将该样本图像特征及该样本文本特征进行特征融合，得到样本融合特征；

样本标签确定模块，用于基于初始数据分类模型对该样本图像特征进行预测，得到样本对象标签，获取该样本对象标签所关联的至少两个样本预测标签及每个样本预测标签对应的第一样本概率值，基于该初始数据分类模型对该样本融合特征进行预测，得到该每个样本预测标签分别对应的第二样本概率值；该至少两个样本预测标签包括样本预测标签j，该j为正整数；

标签输出模块，用于对该样本预测标签j的第一样本概率值与该样本预测标签j的第二样本概率值进行融合，得到该样本预测标签j的第三样本概率值，直至得到该每个样本预测标签分别对应的第三样本概率值，根据该每个样本预测标签分别对应的第三样本概率值及该样本对象标签，确定该样本多媒体数据对应的模型输出标签；

模型训练模块，用于根据该样本标签及该模型输出标签所组成的损失函数，对该初始数据分类模型进行训练，得到数据分类模型。

可选的，该样本标签包括参考样本标签及参考样本预测标签，该损失函数包括第一损失函数及第二损失函数；该模型训练模块包括：第一训练单元、第二训练单元及模型生成单元；该第一训练单元，用于根据该参考样本标签与该样本对象标签生成该第一损失函数；该第二训练单元，用于将该参考样本预测标签与该样本对象标签进行拼接，生成目标样本标签，基于该目标样本标签与该模型输出标签生成该第二损失函数；该模型生成单元，用于根据该第一损失函数及该第二损失函数对该初始数据分类模型进行训练，得到该数据分类模型。

本申请一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以执行本申请实施例中上述一方面中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面的一种数据分类方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。

本申请实施例中，通过获取多媒体数据中的图像数据和文本数据；根据图像数据获取多媒体数据的图像特征，根据文本数据获取多媒体数据的文本特征，将图像特征及文本特征进行特征融合，得到融合特征；基于数据分类模型对图像特征进行预测，得到对象标签和对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，基于数据分类模型对融合特征进行预测，得到每个预测标签分别对应的第二概率值。由于图像特征可以反映多媒体数据中的图像信息，融合特征融合了图像特征和文本特征，而文本特征是对该图像特征的描述，因此融合特征可以反映用户对该多媒体数据的主观情感。并且，通过使用图像特征对应的对象标签辅助融合特征对应的预测标签来判断多媒体数据的类别，可以避免由于文本特征与多媒体数据的类别差异太大(例如多媒体数据的标题较夸张与视频内容不相符)导致的预测结果不准确。也就是说，通过结合图像特征和融合特征，可以在得到融合特征对应的预测标签的情况下，再使用图像特征对应的对象标签进行再次判断。即本申请可以通过文本特征与图像特征的融合特征，在对多媒体数据进行分类时加入人为情感(这是由于文本特征一般是由人工添加的)，又通过图像特征预测主观情感，对融合特征对应的主观情感进行修正，使得对多媒体数据的数据分类中，既可以考虑到人为情感，又不会脱离多媒体数据的内容本身(即图像特征)，从而实现更准确及全面的反映多媒体数据的类别，进而提高数据分类的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据分类***的架构示意图；

图2是本申请实施例提供的一种数据分类方法的应用场景示意图；

图3是本申请实施例提供的一种数据分类方法的流程示意图；

图4是本申请实施例提供的一种获取图像特征及文本特征的示意图；

图5是本申请实施例提供的一种数据分类方法的流程示意图；

图6是本申请实施例提供的一种数据分类方法的流程示意图；

图7是本申请实施例提供的一种数据分类装置的组成结构示意图；

图8是本申请实施例提供的一种数据分类装置的组成结构示意图；

图9是本申请实施例提供的一种计算机设备的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请技术方案适用于对多媒体数据进行分类的场景中。例如对多媒体数据进行审核，从而确定是否将该多媒体数据推送给用户的场景中。通过获取多媒体数据中的图像数据和文本数据；根据图像数据获取多媒体数据的图像特征，根据文本数据获取多媒体数据的文本特征，将图像特征及文本特征进行特征融合，得到融合特征；基于数据分类模型对图像特征进行预测，得到第一预测标签，获取对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，基于数据分类模型对融合特征进行预测，得到每个预测标签分别对应的第二概率值，其中，至少两个预测标签包括预测标签p，p为正整数，对预测标签p的第一概率值与预测标签p的第二概率值进行融合，得到预测标签p的第三概率值，直至得到每个预测标签分别对应的第三概率值，基于每个预测标签分别对应的第三概率值及所述对象标签，确定多媒体数据对应的媒体数据类别。由于图像特征可以反映多媒体数据中的图像信息，而文本特征可以反映用户对该多媒体数据的主观情感。因此，通过使用图像特征对应的对象标签辅助融合特征对应的预测标签来判断多媒体数据的类别，可以避免由于文本特征与多媒体数据的类别差异太大，实现更准确及全面的反映多媒体数据的类别，进而提高数据分类的准确性。

请参见图1，图1是本申请实施例提供的一种数据分类***的架构示意图。如图1所示，计算机设备可以与用户终端进行数据交互，用户终端的数量可以为一个或者多个，当用户终端的数量为多个时，用户终端可以包括图1中的102a、102b以及102c，计算机设备可以是图1中的101。其中，计算机设备可以响应用户终端的多媒体数据识别请求，基于该多媒体数据识别请求对多媒体数据进行识别，得到多媒体数据对应的媒体数据类别，将该多媒体数据对应的媒体数据类别发送至用户终端。或者，计算机设备可以对计算机设备中的多媒体数据进行识别，得到该多媒体数据对应的媒体数据类别，并根据该媒体数据类别对多媒体数据进行分类，基于分类结果确定需要接收该多媒体数据的用户终端。总的来说，计算机设备可以基于多媒体数据对应的媒体数据类别对多媒体数据进行分类，并可以基于分类结果将该多媒体数据发送至对应的用户终端。

请参见图2，图2是本申请实施例提供的一种数据分类方法的应用场景示意图。如图2所示，计算机设备获取多媒体数据中的图像数据和文本数据后，首先，将图像数据输入图像特征提取网络，得到图像特征；以及将文本数据输入文本特征提取网络，得到文本特征。其次，计算机设备将提取得到的图像特征输入数据分类模型中的第一图像分类器进行预测得到对象标签，将图像特征输入数据分类模型中的第二图像分类器进行预测，得到对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，其中，第一图像分类器和第二图像分类器也可以属于同一个图像分类器，此处不做限制。进一步地，计算机设备可以通过对图像特征和文本特征进行特征融合，得到融合特征，将融合特征输入数据分类模型中的融合分类器，通过融合分类器对融合特征进行预测，得到每个预测标签分别对应的第二概率值，至少两个预测标签包括预测标签p；接着，计算机设备对预测标签p的第一概率值与预测标签p的第二概率值进行融合，得到预测标签p的第三概率值，直至得到每个预测标签分别对应的第三概率值。最后，计算机设备基于每个预测标签分别对应的第三概率值及对象标签，确定多媒体数据对应的媒体数据类别。例如，计算机设备可以将至少两个预测标签中具有最大的第三概率值的预测标签确定为目标预测标签，再根据目标预测标签和对象标签得到媒体数据标签，将媒体数据标签所对应的数据类别确定为多媒体数据的媒体数据类别。可以理解的是，上述对图像数据进行处理的过程和对文本数据进行处理的过程可以同时进行，也可以先对图像数据进行处理后，再对文本数据进行处理，此处不做限制。

可以理解的是，本申请实施例中所提及的计算机设备包括但不限于终端设备或服务器。换句话说，计算机设备或用户终端可以是服务器或终端设备，也可以是服务器和终端设备组成的***。其中，以上所提及的终端设备可以是一种电子设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、增强现实/虚拟现实(Augmented Reality/Virtual Reality，AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device，MID)等，其中，客户端具备显示功能。其中，以上所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

请参见图3，图3是本申请实施例提供的一种数据分类方法的流程示意图，该方法可以应用于计算机设备，如图3所示，该方法包括：

S101，获取多媒体数据中的图像数据和文本数据。

在本申请实施例中，多媒体数据可以是视频数据，也可以是单帧图片等，在此不做限制。其中，若多媒体数据是视频数据，则该视频数据包括至少两个视频帧图像，每个视频帧图像中的图像画面即为该视频帧图像对应的图像数据；若多媒体数据是指单帧图片，则单帧图片中的图像画面即为该单帧图片对应的图像数据。文本数据可以是指多媒体数据的标题或多媒体数据的内容简介信息，等等，可选的，该文本数据也可以是视频帧图像中所显示的文本信息。例如，多媒体数据为视频数据时，文本数据可以为该视频数据对应的标题，例如“人与自然之恐龙的起源”；或者，文本数据可以为多媒体数据对应的内容简介信息；或者，文本数据可以为该多媒体数据中的每个视频帧图像中的文本信息；又或者，多媒体数据可以为与多媒体数据中的语音数据对应的文本数据。对应的，多媒体数据为单帧图片时，文本数据可以为该单帧图片对应的标题、图片中包含的文字信息，等等。

本申请实施例中，计算机设备获取多媒体数据中的图像数据和文本数据的方式可以为：若多媒体数据为视频数据，则获取组成视频数据的至少两个视频帧图像；基于图像获取周期从至少两个视频帧图像中获取图像数据；查找多媒体数据相关联的第一文本内容，若查找到第一文本内容，则将第一文本内容确定为文本数据；若未查找到第一文本内容，则获取图像数据在视频数据中对应的语音数据，对语音数据进行语音转换，得到语音数据对应的第二文本内容，将第二文本内容确定为文本数据。

具体的，计算机设备可以获取图像数据的文本显示区域，识别该文本显示区域，得到该图像数据对应的文本信息，将该文本信息作为多媒体数据中的文本数据。

其中，图像获取周期可以是时间获取周期，也可以是帧数获取周期等，在此不做限制。举例来说，当图像获取周期为时间获取周期时，该图像获取周期可以为0.1秒、1秒或2秒，等等；当图像获取周期为帧数获取周期时，该图像获取周期可以为“每n帧获取一个视频帧图像”，n为正整数，n小于或等于至少两个视频帧图像所包括的视频帧图像数量，本申请实施例不对此进行限定。具体的，以图像获取周期为1秒为例，计算机设备可以每隔1秒从视频数据的至少两个视频帧图像中获取图像数据，假定视频数据的总时长为3秒，则获取到3个图像数据。n可以是根据视频帧图像数量所确定的，例如视频帧图像数量为15，需要获取5个视频帧图像，则n等于3，即计算机设备从每3帧视频帧图像中获取一个视频帧图像。

计算机设备查找多媒体数据相关联的第一文本内容，第一文本内容可以为多媒体数据的标题、对多媒体数据的内容简介、或者多媒体数据中视频帧图像中包含的文字信息，等等。若查找到第一文本内容，则将第一文本内容确定为文本数据；例如查找到多媒体数据的标题或者对多媒体数据的内容简介等，则将该多媒体数据的标题或者对多媒体数据的内容简介等确定为文本数据。若未查找到第一文本内容，例如多媒体数据中不包含标题或者标题为数字编号，以及多媒体数据不包含内容简介等等，则获取图像数据在视频数据中对应的语音数据，这里的语音数据可以是指用户对该图像数据的语音描述，或者用户对多媒体数据的语音描述。对语音数据进行语音转换，具体可以使用语音转换技术对语音数据进行语音转换，得到语音数据对应的第二文本内容，将第二文本内容确定为文本数据。通过上述方式可以获取到多媒体数据中的每个图像数据关联的文本数据，同理，若获取到多个图像数据，则根据上述文本数据的获取方式，确定与每个图像数据关联的文本数据。

具体从多媒体数据中获取图像特征和文本特征的方法可参见图4，图4是本申请实施例提供的一种获取图像特征及文本特征的示意图。其中，多媒体数据为30，多媒体数据可以是指视频数据，视频数据中包括标题3a，计算机设备可以从视频数据中获取视频帧图像，作为图像数据。具体的，计算机设备从多媒体数据中获取得到的视频帧图像可以如301所示，则将视频帧图像301中的图像画面作为该视频帧对应的图像数据。计算机设备可以获取该多媒体数据中的标题3a，作为文本数据，如图4中的方式①；或者，计算机设备可以获取视频帧图像中显示的文本信息3b，作为文本数据；或者，计算机设备可以获取视频帧图像中的内容简介，作为文本数据，如图4中的方式②；或者，计算机设备可以获取与该视频帧图像关联的语音数据3c，对语音数据3c进行语音转换，得到文本内容，将该文本内容确定为文本数据，如图4中的方式③。在获取到图像数据后，计算机设备通过将图像数据输入图像特征提取网络进行特征提取，得到图像特征；并通过将文本数据输入文本特征提取网络进行特征提取，得到文本特征。其中，方式①②③为三种不同的获取文本数据的方式，具体实现中，可以采用其中的一种方式得到图像数据关联的文本数据，或者，也可以结合三种方式中的至少两种得到图像数据关联的文本数据。本申请实施例中以从视频数据中获取一个视频帧图像得到图像数据，并根据该一个图像数据获取图像特征以及该图像特征对应的文本特征进行举例，获取多个视频帧图像以及多个视频帧图像得到图像数据，并根据多个图像数据获取多个图像特征和每个图像特征关联的文本特征的方法可参考获取该一个图像数据的方法，此处不做过多描述。

本申请实施例中，例如对多媒体数据进行审核的过程中，计算机设备通过获取多媒体数据中的图像数据(如多媒体数据对应的每帧图像中的图像信息)，以及获取多媒体数据中的文本数据(如多媒体数据对应的标题、内容简介或者语音数据对应的文本数据)，结合该图像数据和文本数据对视频数据进行分类，从而确定是否将审核后的多媒体数据推送给用户。

S102，根据图像数据获取多媒体数据的图像特征，根据文本数据获取多媒体数据的文本特征，将图像特征及文本特征进行特征融合，得到融合特征。

这里，计算机设备可以提取图像数据中的特征作为图像特征，如图像特征用于反映图像数据中的图像信息，例如图像数据中所包括的目标对象，则图像特征可以包括目标对象的特征。计算机设备可以提取文本数据中的特征作为文本特征，如文本特征用于反映文本数据的文本信息，例如计算机设备可以提取文本数据中的关键词信息，关键词信息例如可以包括表示人类的主观情感的词语，例如“恐怖”、“恶心”、“密集”、“可爱”、“喜欢”，等等，将提取得到的关键词信息确定为文本特征。进一步地，特征融合是指计算机设备将图像特征和文本特征进行特征融合，得到的融合特征。

具体实现中，计算机设备可以通过图像特征提取网络对图像数据进行特征提取，得到图像特征。图像特征提取网络可以包括但不限于卷积神经网络(ConvolutionalNeural Networks，CNN)、超分辨率测试序列(Visual Geometry Group，VGG)或残差网络(ResNet)，等等。可以通过文本特征提取网络对文本数据进行特征提取，得到文本特征。文本特征提取网络可以是指双向编码器模型(Bidirectional Encoder Representationsfrom Transformers，Bert)或者其他文本特征提取网络。计算机设备将图像特征及文本特征进行特征融合，得到融合特征的方式例如可以为对图像特征及文本特征进行特征融合，得到融合特征。其中，该特征融合可以是将图像特征与文本特征进行直接拼接，例如，当图像特征为1*1024的矩阵构成，文本特征为1*2048的矩阵构成，则对特征进行拼接得到的融合特征为1*(1024+2048)的矩阵。或者，该特征融合可以是将图像特征与文本特征进行加权拼接，等等。

具体的，计算机设备将图像特征与文本特征进行加权拼接的方式可以为：计算机设备获取图像特征对应的第一权重矩阵及文本特征对应的第二权重矩阵；基于第一权重矩阵对图像特征进行加权运算，得到图像加权特征；基于第二权重矩阵对文本特征进行加权运算，得到文本加权特征；对图像加权特征和文本加权特征进行特征拼接，得到融合特征。

其中，第一权重矩阵及第二权重矩阵可以相等，也可以不相等，具体可以根据需求设置，例如，在对多媒体数据进行分类时，若认为图像特征可以更准确的反映多媒体数据的类别信息时，则第一权重矩阵可以大于第二权重矩阵。若认为文本特征可以更准确的反映多媒体数据的类别信息时，则第一权重矩阵可以小于第二权重矩阵。若认为图像特征和文本特征均能准确反映多媒体数据的类别信息时，则第一权重矩阵可以等于第二权重矩阵。例如第一权重矩阵为A1，第二权重矩阵为A2，图像特征为B1，文本特征为B2，则加权运算得到的图像加权特征为A1*B1，加权运算得到的文本加权特征为A2*B2，对图像加权特征和文本加权特征进行特征拼接，得到融合特征为A1*B1+A2*B2，其中，*为矩阵点乘算法，也就是说，A1*B1是指两个矩阵相乘，得到的结果为矩阵。例如，A1为2*2的矩阵，B1为2*2的矩阵，加权运算得到的图像加权特征A1*B1为2*2的矩阵。

计算机设备通过获取图像特征对应的第一权重矩阵对图像特征进行加权运算，以及获取文本特征对应的第二权重矩阵对文本特征进行加权运算，并根据图像特征加权运算结果和文本特征加权运算结果进行拼接得到融合特征，由于权重矩阵可以反映多媒体数据的分类结果，因此使用权重矩阵对图像特征及文本特征进行加权运算，可以提高多媒体数据分类的准确性。

S103，基于数据分类模型对图像特征进行预测，得到对象标签，获取对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，基于数据分类模型对融合特征进行预测，得到每个预测标签分别对应的第二概率值。

这里，对象标签是指通过数据分类模型对图像特征进行预测得到的标签，对象标签可以用于指示图像特征表示的图像中的目标对象所属的类别，例如可以指示图像中的目标对象为恐龙、蜥蜴、青蛙或者其他物种类别，或者，对象标签也可以用于指示图像中是否包含恐龙、蜥蜴、青蛙或者其他物种类别，从而确定图像特征对应的物种类别。对象标签所关联的至少两个预测标签是指通过数据分类模型对图像特征进行预测得到的标签，或者，通过数据分类模型对融合特征进行预测得到的标签，预测标签可以用于指示对多媒体数据的主观情感类别，例如可以为包括惊悚、害怕、密集、可爱、呆萌、喜欢等类别。

具体的，计算机设备可以通过数据分类模型对图像特征进行对象识别，得到对象标签，对该对象标签进行预测，得到图像特征为该数据分类模型所包括的各个预测标签的概率，将该概率记作第一概率值，即得到至少两个预测标签分别对应的第一概率值；或者，计算机设备可以直接对图像特征进行分类处理，得到该图像特征为各个预测标签的第一概率值。进一步地，计算机设备还可以通过数据分类模型对融合特征进行分类处理，得到融合特征为数据分类模型中的各个预测标签的概率，即得到每个预测标签分别对应的第二概率值。例如，至少两个预测标签包括惊悚、害怕、密集、可爱、呆萌、喜欢等，基于上述过程，可以获取到每个预测标签分别对应的第一概率值及第二概率值，如惊悚对应的第一概率值及第二概率值等。其中，至少两个预测标签包括预测标签p，p为正整数，即预测标签p可以是指至少两个预测标签中的任意一个预测标签。

可选的，数据分类模型包括第一图像分类器、第二图像分类器和融合分类器，第一图像分类器用于对图像特征进行预测得到对象标签，即得到图像中的对象为恐龙、蜥蜴、青蛙或者其他物种类别中的哪一种或者哪几种；第二图像分类器用于对图像特征进行预测得到对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，即得到图像特征为惊悚、害怕、密集、可爱等主观情感类别中每个类别的概率。例如，预测标签“惊悚”对应的第一概率值为0.4、预测标签“害怕”对应的第一概率值为0.3、预测标签“密集”对应的第一概率值为0.2、预测标签“可爱”对应的第一概率值为0.1，等等。融合分类器用于对融合特征进行预测得到每个预测标签分别对应的第二概率值，即得到融合特征为惊悚、害怕、密集、可爱等主观情感类别中每个类别的概率，例如，预测标签“惊悚”的第二概率值为0.2、预测标签“害怕”的第二概率值为0.3、预测标签“密集”的第二概率值为0.4、预测标签“可爱”的第二概率值为0.1，等等。可以理解的是，每个预测标签分别对应第一概率值和第二概率值。

具体实现中，计算机设备可以通过将图像特征输入数据分类模型，通过数据分类模型中的第一图像分类器对图像特征进行预测，可以输出该图像特征为数据分类模型中的各种对象标签的概率。其中，该对象标签可以是物种类别，如，恐龙、蜥蜴、壁虎，等等，例如得到图像特征对应对象标签“恐龙”的概率为0.5、图像特征对应对象标签“蜥蜴”的概率为0.35、图像特征对应对象标签“壁虎”的概率为0.15，等等，可以将概率大于图像阈值的标签确定为图像特征对应的对象标签，例如图像阈值为0.5，则将恐龙确定为对象标签。若图像阈值为0.3，则对象标签可以包括恐龙和蜥蜴，即图像数据中包括多个对象。计算机设备可以通过将图像特征输入数据分类模型，通过数据分类模型中的第二图像分类器对融合特征进行分类，可以输出该图像特征为各个主观情感类别的概率，得到对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值。例如，对象标签所关联的至少两个预测标签包括惊悚、密集及可爱，计算机设备通过第一图像分类器对图像特征进行预测，得到预测标签为惊悚的第一概率值为0.4、预测标签为密集的第一概率值为0.5、预测标签为可爱的第一概率值为0.1。计算机设备可以通过将融合特征输入数据分类模型，通过数据分类模型中的融合分类器对融合特征进行分类，可以输出该融合特征为各个主观情感类别的概率，得到每个预测标签分别对应的第二概率值。例如，计算机设备通过融合分类器对融合特征进行预测，得到预测标签为惊悚的第二概率值为0.6、预测标签为密集的第二概率值为0.35、预测标签为可爱的第二概率值为0.05。由此，计算机设备可以获取到对象标签、对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值、以及每个预测标签分别对应的第二概率值。例如，预测标签p为密集，则密集对应的第一概率值为0.5，密集对应的第二概率值为0.35。

S104，对预测标签p的第一概率值与预测标签p的第二概率值进行融合，得到预测标签p的第三概率值，直至得到每个预测标签分别对应的第三概率值，基于每个预测标签分别对应的第三概率值及对象标签，确定多媒体数据对应的媒体数据类别。

计算机设备在获取预测标签p的第一概率值与预测标签p的第二概率值后，通过对预测标签p的第一概率值与预测标签p的第二概率值进行融合，得到预测标签p的第三概率值，直至得到每个预测标签分别对应的第三概率值；计算机设备再基于每个预测标签分别对应的第三概率值及对象标签，确定多媒体数据对应的媒体数据类别。其中，对预测标签p的第一概率值与预测标签p的第二概率值进行融合可以是指将预测标签p的第一概率值与预测标签p的第二概率值相乘，得到预测标签p的第三概率值。例如，预测标签p为密集，密集对应的第一概率值为0.5，密集对应的第二概率值为0.35，则预测标签p的第三概率值为0.5*0.35＝0.175。由于预测标签p为至少两个预测标签中的任意一个标签，通过对至少两个预测标签中每个预测标签的第一概率值和每个预测标签的第二概率值进行拼接，可以得到至少两个预测标签中每个预测标签的第三概率值。

可以理解的是，对于至少两个预测标签中每个预测标签，计算机设备针对每个预测标签的第一概率值和第二概率值进行按位相乘，得到至少两个预测标签中每个预测标签的第三概率值。按位相乘是指对每个预测标签的第一概率值与第二概率值相乘。例如，至少两个预测标签包括惊悚、密集、可爱三个标签，惊悚的第一概率值和第二概率值分别为0.4和0.6，密集的第一概率值和第二概率值分别为0.5和0.35，可爱的第一概率值和第二概率值分别为0.1和0.05，则计算得到的惊悚的第三概率值为0.4*0.6＝0.24，密集的第三概率值为0.5*0.35＝0.175，可爱的第三概率值为0.1*0.05＝0.005。

可选的，计算机设备确定多媒体数据对应的媒体数据类别的方法可以为：将至少两个预测标签中，具有最大的第三概率值的预测标签确定为目标预测标签；对目标预测标签及对象标签进行拼接，得到媒体数据标签，将媒体数据标签所对应的数据类别，确定为多媒体数据的媒体数据类别。

例如，对象标签为恐龙，至少两个预测标签包括惊悚、密集和可爱，计算机设备通过对预测标签“惊悚”的第一概率值和预测标签“惊悚”的第二概率值进行拼接得到预测标签“惊悚”的第三概率值为0.24、通过对预测标签“密集”的第一概率值和预测标签“密集”的第二概率值进行拼接得到预测标签“密集”的第三概率值为0.175、通过对预测标签“可爱”的第一概率值和预测标签“可爱”的第二概率值进行拼接得到预测标签“可爱”的第三概率值为0.005。计算机设备将最大的第三概率值的预测标签，即将预测标签“惊悚”确定为目标预测标签；对目标预测标签及对象标签进行拼接，得到媒体数据标签，即“恐龙+恐怖”，则计算机设备将恐龙+恐怖所对应的数据类别，确定为多媒体数据的媒体数据类别，得到的多媒体数据的媒体数据类别为“恐龙+恐怖”。

可选的，计算机设备也可以将第三概率值大于类别阈值的预测标签确定为目标预测标签，对目标预测标签及对象标签进行拼接，得到媒体数据标签，将媒体数据标签所对应的数据类别，确定为多媒体数据的媒体数据类别。例如，类别阈值为0.15，则预测标签“惊悚”和预测标签“密集”的第三概率值均大于类别阈值，则将预测标签“惊悚”和预测标签“密集”确定为目标预测标签，则对目标预测标签及对象标签进行拼接后得到媒体数据标签为“恐龙+恐怖+密集”，则确定出的多媒体数据的媒体数据类别为“恐龙+恐怖+密集”。

可选的，以多媒体数据中只包括一个图像数据和一个文本数据为例，则计算机设备预测得到的对象标签的数量为一个，预测标签的数量可以根据标签库中的主观情感类别的数量确定，例如为n个，n为正整数，通过从n个预测标签中确定出第三概率值最大的目标预测标签，则将该对象标签及目标预测标签确定为多媒体数据对应的媒体数据类别。若多媒体数据中包含m个图像数据和m个文本数据，其中，m为正整数，一个图像数据对应一个文本数据，则确定出m个对象标签中每个对象标签对应的目标预测标签，将m个对象标签及m个对象标签中每个对象标签对应的目标预测标签确定为多媒体数据对应的媒体数据类别。或者，可以将m个预测标签与关键标签库进行匹配，若关键标签库包含与m个预测标签中的任意一个标签匹配的参考标签，则将该任意一个标签对应的预测标签及该参考标签确定为多媒体数据对应的媒体数据类别。其中，关键标签库可以包括用于表示使人处于较压抑、忧虑等较沉重的氛围对应的标签。例如，关键标签库可以包括惊悚、害怕、密集、恐惧、沮丧等标签。

需要说明的是，计算机设备可以预先对数据分类模型进行训练，即分别对数据分类模型中的第一图像分类器、第二图像分类器和融合分类器进行训练，可以理解的是，可以同时对三个分类器进行训练，也可以先对第一图像分类器、第二图像分类器进行训练后再对融合分类器进行训练，等等，得到训练后的数据分类模型，通过使用训练后的数据分类模型对图像特征和融合特征进行预测，得到的对象标签、至少两个预测标签及每个预测标签分别对应的第一概率值和第二概率值可以更准确的反映多媒体数据的类别，具体地对数据分类模型中的第一图像分类器、第二图像分类器和融合分类器进行训练的过程可参考图5对应的实施例中的描述，此处不做过多描述。

可选的，为了提高数据分类模型对图像特征和融合特征进行预测，得到对象标签、至少两个预测标签及每个预测标签分别对应的第一概率值和第二概率值的准确性，从而提高对多媒体数据分类的准确性，在使用数据分类模型对图像特征和文本特征进行预测之前，可以使用大量样本图像特征和融合特征对数据分类模型进行训练并调整数据分类模型，使得训练完成的数据分类模型可以更准确的对图像特征和融合特征进行预测，从而提高数据分类的准确性。具体数据分类模型训练的方法请参见图5，图5是本申请实施例提供的一种数据分类方法的流程示意图，该方法可以应用于计算机设备，如图5所示，该方法包括：

S201，获取样本多媒体数据中的样本图像数据和样本文本数据，获取样本多媒体数据的样本标签。

这里，样本多媒体数据为用于训练数据分类模型所准备的多媒体数据。样本多媒体数据可以是视频数据，也可以是单帧图片等，也就是说，样本多媒体数据与多媒体数据的类型相同，若多媒体数据为视频数据，则样本多媒体数据也为视频数据；若多媒体数据为单帧图片，则样本多媒体数据也为单帧图片。具体获取样本多媒体数据中的样本图像数据和样本文本数据的方法可参考步骤S101中获取多媒体数据中的图像数据和文本数据的方法，此处不再赘述。样本多媒体数据的样本标签是指预先设定的标签，训练数据分类模型的目的在于使得使用模型预测得到的预测标签和预先设定的标签之间尽可能的相同，则对应的模型的准确度越高。

S202，根据样本图像数据获取样本多媒体数据的样本图像特征，根据样本文本数据获取样本多媒体数据的样本文本特征，将样本图像特征及样本文本特征进行特征融合，得到样本融合特征。

这里，具体获取样本多媒体数据的样本图像特征和样本文本特征、以及对样本图像特征和样本文本特征进行特征融合得到样本融合特征的方法可参考步骤S102中获取多媒体数据的图像特征和文本特征，以及对图像特征和文本特征进行特征融合得到融合特征的方法，此处不再赘述。计算机设备将样本图像特征及样本文本特征进行特征融合，得到融合特征的方式例如可以为对样本图像特征及样本文本特征进行特征融合，得到样本融合特征。其中，该样本特征融合可以是将样本图像特征与样本文本特征进行直接拼接，例如，样本图像特征为1*1024的矩阵构成，样本文本特征为1*2048的矩阵构成，则对特征进行拼接得到的样本融合特征为1*(1024+2048)的矩阵。或者，该特征融合可以是将样本图像特征与样本文本特征进行加权拼接，等等，具体特征融合的方式可参考步骤S102中的描述。

S203，基于初始数据分类模型对样本图像特征进行预测，得到样本对象标签，获取样本对象标签所关联的至少两个样本预测标签及每个样本预测标签对应的第一样本概率值，基于初始数据分类模型对样本融合特征进行预测，得到每个样本预测标签分别对应的第二样本概率值。

这里，样本对象标签是指通过初始数据分类模型对样本图像特征进行预测得到的标签，样本对象标签可以用于指示初始图像特征表示的图像中的目标对象所属的类别，例如可以指示样本图像中的目标对象为恐龙、蜥蜴、青蛙或者其他物种类别，或者，样本对象标签也可以用于指示样本图像中是否包含恐龙、蜥蜴、青蛙或者其他物种类别，从而确定样本图像特征对应的物种类别。样本预测标签是指通过初始数据分类模型对样本融合特征进行预测得到的标签，样本预测标签可以用于指示对样本多媒体数据的主观情感类别，例如可以为包括惊悚、害怕、密集、可爱、呆萌、喜欢等类别。

具体的，计算机设备可以通过初始数据分类模型对样本图像特征进行对象识别，得到样本对象标签，对该样本对象标签进行预测，得到样本图像特征为该初始数据分类模型所包括的各个样本预测标签的概率，将该概率记作第一样本概率值，即得到至少两个样本预测标签分别对应的第一样本概率值；或者，计算机设备可以直接对样本图像特征进行分类处理，得到该样本图像特征为各个样本预测标签的第一样本概率值。进一步地，计算机设备还可以通过初始数据分类模型对样本融合特征进行分类处理，得到样本融合特征为初始数据分类模型中的各个样本预测标签的概率，即得到每个样本预测标签分别对应的第二样本概率值。例如，至少两个样本预测标签包括惊悚、害怕、密集、可爱、呆萌、喜欢等，基于上述过程，可以获取到每个样本预测标签分别对应的第一样本概率值及第二样本概率值，如惊悚对应的第一样本概率值及第二样本概率值等。其中，至少两个样本预测标签包括样本预测标签j，j为正整数，样本预测标签j是指至少两个样本预测标签中的任意一个，样本预测标签j对应第一样本概率值和第二样本概率值。样本预测标签的数量及类型与预测标签的数量及类型相等，即预测标签包括惊悚、害怕、密集、可爱、呆萌、喜欢，则样本预测标签包括惊悚、害怕、密集、可爱、呆萌、喜欢。

可选的，初始数据分类模型包括第一初始图像分类器、第二初始图像分类器和初始融合分类器，第一初始图像分类器用于对样本图像特征进行预测得到样本对象标签，即得到样本图像中的对象为恐龙、蜥蜴、青蛙或者其他物种类别中的哪一种或者哪几种；第二初始图像分类器用于对样本图像特征进行预测得到样本对象标签所关联的至少两个样本预测标签及每个样本预测标签分别对应的第一样本概率值，即得到样本图像特征为惊悚、害怕、密集、可爱等主观情感类别中每个类别的概率。例如，样本预测标签“惊悚”对应的第一样本概率值为0.4、样本预测标签“害怕”对应的第一样本概率值为0.3、样本预测标签“密集”对应的第一样本概率值为0.2、样本预测标签“可爱”对应的第一样本概率值为0.1，等等。初始融合分类器用于对样本融合特征进行预测得到每个样本预测标签分别对应的第二样本概率值，即得到样本融合特征为惊悚、害怕、密集、可爱等主观情感类别中每个类别的概率。例如，样本预测标签“惊悚”的第二样本概率值为0.2、样本预测标签“害怕”的第二样本概率值为0.3、样本预测标签“密集”的第二样本概率值为0.4、样本预测标签“可爱”的第二样本概率值为0.1，等等。可以理解的是，每个样本预测标签分别对应第一样本概率值和第二样本概率值。

具体实现中，计算机设备通过将样本图像特征输入初始数据分类模型，通过初始数据分类模型对样本图像特征进行预测，可以输出该样本图像特征为初始数据分类模型中的各种对象标签的概率。计算机设备可以将所有概率大于图像阈值的标签确定为样本对象预测标签，例如样本图像特征对应样本对象标签“恐龙”的概率为0.5、样本图像特征对应样本对象标签“蜥蜴”的概率为0.35、样本图像特征对应样本对象标签“壁虎”的概率为0.15，等等，图像阈值为0.5，则将恐龙确定为样本对象标签。若图像阈值为0.3，则样本对象标签可以包括恐龙和蜥蜴，即样本图像数据中包括多个样本对象。计算机设备通过将样本图像特征输入初始数据分类模型，通过初始数据分类模型中的第一初始图像分类器对样本融合特征进行分类，可以输出该样本图像特征为各个主观情感类别的概率，得到样本对象标签所关联的至少两个样本预测标签及每个样本预测标签分别对应的第一样本概率值。通过将样本融合特征输入初始数据分类模型，通过初始数据分类模型中的初始融合分类器对样本融合特征进行分类，可以输出该样本融合特征为各种主观情感类别的概率，得到每个样本预测标签分别对应的第二概率值。由此，计算机设备可以获取到样本对象标签、样本对象标签所关联的至少两个样本预测标签及每个样本预测标签分别对应的第一样本概率值、以及每个样本预测标签分别对应的第二样本概率值。例如，预测标签j为密集，则密集对应的第一样本概率值为0.2，密集对应的第二样本概率值为0.4。

S204，对样本预测标签j的第一样本概率值与样本预测标签j的第二样本概率值进行融合，得到样本预测标签j的第三样本概率值，直至得到每个样本预测标签分别对应的第三样本概率值，根据每个样本预测标签分别对应的第三样本概率值及样本对象标签，确定样本多媒体数据对应的模型输出标签。

计算机设备在获取样本预测标签j的第一样本概率值与样本预测标签j的第二样本概率值后，通过对样本预测标签j的第一样本概率值与样本预测标签j的第二样本概率值进行融合，得到样本预测标签j的第三样本概率值，直至得到每个样本预测标签分别对应的第三样本概率值；根据每个样本预测标签分别对应的第三样本概率值及样本对象标签，确定样本多媒体数据对应的模型输出标签。其中，对样本预测标签j的第一样本概率值与样本预测标签j的第二样本概率值进行融合可以是指将样本预测标签j的第一样本概率值与第二样本概率值相乘，得到样本预测标签j的第三样本概率值。由于样本预测标签j为至少两个样本预测标签中的任意一个标签，通过对至少两个样本预测标签中每个样本预测标签的第一样本概率值和每个样本预测标签的第二样本概率值进行拼接，可以得到至少两个样本预测标签中每个样本预测标签的第三样本概率值。计算机设备根据每个样本预测标签分别对应的第三样本概率值及样本对象标签，确定样本多媒体数据对应的模型输出标签。其中，模型输出标签是指至少两个样本预测标签中第三概率值最大的样本预测标签和样本对象标签组成的标签。例如，计算机设备通过将第三样本概率值最大的样本预测标签和样本对象标签进行拼接，得到样本多媒体数据对应的模型输出标签。例如，第三样本概率值最大的样本预测标签为蜥蜴，样本对象标签为密集，则模型输出标签为蜥蜴+密集。

S205，根据样本标签及模型输出标签所组成的损失函数，对初始数据分类模型进行训练，得到数据分类模型。

可选的，样本标签包括参考样本标签及参考样本预测标签，损失函数包括第一损失函数及第二损失函数。具体对初始数据分类模型进行训练，得到数据分类模型的方法可以为：

首先，根据参考样本标签与样本对象标签生成第一损失函数。

具体的，计算机设备根据参考样本标签与样本对象标签生成第一损失函数，根据第一损失函数对第一初始图像分类器进行训练得到第一图像分类器，第一损失函数可以如公式(1-1)所示：

其中，L_images是指第一初始图像分类器对应的损失值，k是指参考样本标签的总类别数，y_i是指组成参考样本标签的第i个元素，σ(L_i)为参考样本预测标签，例如该第一初始图像分类器对应的第i个类别元素为鳄鱼，若参考样本标签为鳄鱼，则对应的y_i＝1，若参考样本标签不是鳄鱼，则y_i＝0。通过该第一损失函数可以计算得到第一初始图像分类器对应的损失值，在第一初始图像分类器对应的损失值大于第一损失阈值的情况下，则对第一初始图像分类器中的参数进行调整，实现对第一初始图像分类器的训练；在第一初始图像分类器对应的损失值小于或者等于第一损失阈值的情况下，将训练的第一初始图像分类器保存下来，得到第一图像分类器。具体实现中，可以基于梯度下降法确定第一初始图像分类器对应的损失值。

其次，将参考样本预测标签与样本对象标签进行拼接，生成目标样本标签，基于目标样本标签与模型输出标签生成第二损失函数。

具体的，计算机设备将参考样本预测标签与样本对象标签进行拼接，生成目标样本标签，基于目标样本标签与模型输出标签生成第二损失函数，根据第二损失函数对初始融合分类器进行训练，得到融合分类器。第二损失函数可以如公式(1-2)所示：

其中，L_fusion是指初始融合分类器对应的损失值，k是指参考样本预测标签的总类别数，y_i是指组成参考样本预测标签的第i个元素，S(L_i)为参考样本预测标签。通过该第二损失函数可以计算得到初始融合分类器对应的损失值，在初始融合分类器对应的损失值大于第二损失阈值的情况下，则对初始融合分类器中的参数进行调整，实现对初始融合分类器的训练；在初始融合分类器对应的损失值小于或者等于第二损失阈值的情况下，将训练的初始融合分类器保存下来，得到融合分类器。具体实现中，可以基于梯度下降法确定初始融合分类器对应的损失值。

最后，根据第一损失函数及第二损失函数对初始数据分类模型进行训练，得到数据分类模型。

这里，数据分类模型可以包括第一图像分类器及融合分类器，也就是说，将训练得到的第一图像分类器和融合分类器保存下来后，即得到数据分类模型。可选的，还可以对第二初始图像分类器进行训练，并在第二初始图像分类器对应的损失值小于第三损失阈值的情况下，将训练的第二初始图像分类器保存下来，得到第二图像分类器，从而根据第一图像分类器、第二初图像分类器和融合分类器得到数据分类模型。

本申请实施例中，通过使用大量的样本图像数据和样本文本数据对初始数据分类模型中的初始图像分类器和初始融合分类器进行训练，得到初始图像分类器对应的损失值和初始融合分类器对应的损失值，并根据初始图像分类器对应的损失值对初始图像分类器进行训练，以及根据初始融合分类器对应的损失值对初始融合分类器进行训练。在损失值较大的情况下对初始图像分类器和初始融合分类器进行调整，并在初始图像分类器对应的损失值和初始融合分类器对应的损失值较小的情况下得到数据分类模型，使得训练完成的数据分类模型可以更准确的对图像特征和融合特征进行预测，从而提高数据分类的准确性。

可选的，在确定多媒体数据对应的媒体数据类别的情况下，还可以对该多媒体数据进行具体应用，具体方法请参见图6，图6是本申请实施例提供的一种数据分类方法的流程示意图，该方法可以应用于计算机设备，如图6所示，该方法包括：

S301，获取多媒体数据中的图像数据和文本数据。

S302，根据图像数据获取多媒体数据的图像特征，根据文本数据获取多媒体数据的文本特征，将图像特征及文本特征进行特征融合，得到融合特征。

S303，基于数据分类模型对图像特征进行预测，得到对象标签，获取对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，基于数据分类模型对融合特征进行预测，得到每个预测标签分别对应的第二概率值。

S304，对预测标签p的第一概率值与预测标签p的第二概率值进行融合，得到预测标签p的第三概率值，直至得到每个预测标签分别对应的第三概率值，基于每个预测标签分别对应的第三概率值及对象标签，确定多媒体数据对应的媒体数据类别。

本发明实施例中，步骤S301～S304的具体实现方式可参考步骤S101～S104的描述，此处不再赘述。

S305，响应针对多媒体数据的获取请求，获取发送获取请求的目标用户的媒体数据获取标签。

这里，获取请求是指获取多媒体数据的请求，目标用户是指需要获取多媒体数据的用户，目标用户的媒体数据获取标签可以是指目标用户在登录多媒体数据所在的应用程序时，设置的用户标签，媒体数据获取标签可以反映目标用户对不同类型的多媒体数据的喜好，例如，媒体数据获取标签包括惊悚、刺激等等，则表示该目标用户对于惊悚、刺激类的多媒体数据具有偏好，则可以多推送具有该类别的多媒体数据给目标用户，提升用户体验。

具体的，目标用户的媒体数据获取标签可以是多媒体数据的获取请求中携带的，也可以是计算机设备根据该多媒体数据的获取请求从媒体库中为目标用户匹配的媒体数据获取标签。例如，计算机设备可以获取目标用户在历史时间段内针对多媒体数据的获取记录，根据该获取记录中的多媒体数据的媒体数据类别为用户匹配媒体数据获取标签。目标用户可以通过目标用户所在的用户终端向计算机设备发送针对多媒体数据的获取请求，计算机设备接收到该针对多媒体数据的获取请求后，响应该多媒体数据的获取请求，获取用户终端中关于该目标用户的媒体数据获取标签。

S306，若媒体数据类别与媒体数据获取标签相匹配，则将多媒体数据发送至目标用户。

这里，媒体数据类别与媒体数据获取标签相匹配可以是指媒体数据类别与媒体数据获取标签相同或者相似，例如媒体数据类别为恐龙+惊悚，媒体数据获取标签包括恐龙、惊悚、刺激，等等，则可确定媒体数据类别与媒体数据获取标签相匹配，则将多媒体数据发送至目标用户，提升用户体验。

S307，若媒体数据类别与媒体数据获取标签不匹配，则向目标用户发送媒体数据异常消息。

这里，媒体数据类别与媒体数据获取标签不匹配可以是指媒体数据类别与媒体数据获取标签不相同或者不相似，例如媒体数据类别为恐龙+惊悚，媒体数据获取标签包括蜥蜴、可爱、呆萌，等等，则可确定媒体数据类别与媒体数据获取标签不匹配，则向目标用户发送媒体数据异常消息，媒体数据异常消息用于指示当前多媒体数据获取异常，也可以指示数据获取异常原因，例如可以为“当前视频数据与您的喜好类型不符，请确认是否继续查看”。

可选的，计算机设备可以基于多媒体数据的媒体数据类别，将该多媒体数据推送至对应的用户终端。具体的，当计算机设备获取多媒体数据时，通过上述步骤S101～S104的方式确定该多媒体数据的媒体数据类别，以及获取每个用户所关联的媒体数据获取标签，将每个媒体数据获取标签与该媒体数据类别进行匹配，将媒体数据获取标签与媒体数据类别相匹配的用户确定为待接收用户，并将该多媒体数据发送至该待接收用户所在的用户终端。通过获取每个用户所关联的媒体数据获取标签，并与多媒体数据对应的媒体数据类别进行匹配，可以确定与多媒体数据匹配的媒体数据获取标签，从而将多媒体数据推送至用户，提高数据推送的准确性，从而提升用户体验。

本申请实施例中，在确定多媒体数据对应的媒体数据类别后，获取用于表示目标用户的喜好的媒体数据获取标签，通过匹配媒体数据获取标签与媒体数据类别，实现具有针对性的推送多媒体数据至目标用户，进而提升用户体验。

可选的，若多媒体数据为视频数据，则可以获取每帧图片对应的至少两个预测标签中每个预测标签对应的第一概率值和每个预测标签对应的第二概率值，从而确定每个预测标签对应的第三概率值，得到目标预测标签，将目标预测标签和对象标签作为该视频数据的媒体数据类别。例如，该多媒体数据包含20帧图片，对象标签为恐龙，且第1-17帧图片对应的目标预测标签为惊悚，第18-20帧图片对应的目标预测标签为可爱，则可认为该多媒体数据的媒体数据类别为恐龙+惊悚。也就是说，至少两个预测标签可以包括正面标签和负面标签，正面标签用于表示可以使人处于较轻松的氛围对应的标签，负面标签用于表示使人处于较压抑、忧虑等较沉重的氛围对应的标签。例如，正面标签可以包括高兴、喜欢、可爱等等，负面标签可以包括惊悚、害怕、密集、恐惧、沮丧等等。当多媒体数据为视频数据时，若其中的一帧或者多帧图像对应的目标预测标签为负面标签，则表示该多媒体数据对应的目标预测标签为负面标签。在对多媒体数据进行审核的过程中，若确定多媒体数据对应的目标预测标签为负面标签，则可以对该多媒体数据进行删除、不推送给用户等操作。若确定多媒体数据对应的目标预测标签为正面标签，则可对该多媒体数据进行推送给用户，或者展示在应用程序的首页等操作，以便于用户对该多媒体数据进行查看等。

具体的，可以获取媒体数据类别所属的标签集群，若标签集群为第一标签集群，则在多媒体数据所在的应用程序的首页中显示多媒体数据；若标签集群为第二标签集群，则删除多媒体数据；第二标签集群包括不属于第一标签集群的标签。

其中，第一标签集群可以如上述的正面标签，例如可以包括高兴、喜欢、可爱等等，第二标签集群包括不属于第一标签集群的标签，例如第二标签集群可以如上述的负面标签，例如可以包括惊悚、害怕、密集、恐惧、沮丧等等。

本申请实施例中，通过获取媒体数据类别所属的标签集群，从而确定对多媒体数据进行哪种类型的操作，由于第二标签集群是指多媒体数据的内容容易让用户处于压抑、恐惧等负面情绪，因此对于该类多媒体数据可以进行删除，或者不展示在应用程序的首页中，可以提升用户对该应用程序的喜爱程度，从而提升用户体验。

上面介绍了本申请实施例的方法，下面介绍本申请实施例的装置。

参见图7，图7是本申请实施例提供的一种数据分类装置的组成结构示意图，上述一种数据分类装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该一种数据分类装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该装置70包括：

数据获取模块71，用于获取多媒体数据中的图像数据和文本数据；

特征获取模块72，用于根据该图像数据获取该多媒体数据的图像特征，根据该文本数据获取该多媒体数据的文本特征，将该图像特征及该文本特征进行特征融合，得到融合特征；

概率预测模块73，用于基于数据分类模型对该图像特征进行预测，得到对象标签，获取该对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，基于该数据分类模型对该融合特征进行预测，得到该每个预测标签分别对应的第二概率值；该至少两个预测标签包括预测标签p，该p为正整数；

类别确定模块74，用于对该预测标签p的第一概率值与该预测标签p的第二概率值进行融合，得到该预测标签p的第三概率值，直至得到该每个预测标签分别对应的第三概率值，基于该每个预测标签分别对应的第三概率值及该对象标签，确定该多媒体数据对应的媒体数据类别。

可选的，该数据获取模块71，用于：

若该多媒体数据为视频数据，则获取组成该视频数据的至少两个视频帧图像；

基于图像获取周期从该至少两个视频帧图像中获取该图像数据；

查找该多媒体数据相关联的第一文本内容，若查找到该第一文本内容，则将该第一文本内容确定为该文本数据；

若未查找到该第一文本内容，则获取该图像数据在该视频数据中对应的语音数据，对该语音数据进行语音转换，得到该语音数据对应的第二文本内容，将该第二文本内容确定为该文本数据。

可选的，该特征获取模块72，包括：权重获取单元721、第一特征确定单元722、第二特征确定单元723及特征融合单元724；

该权重获取单元721，用于获取该图像特征对应的第一权重矩阵及该文本特征对应的第二权重矩阵；

该第一特征确定单元722，用于基于该第一权重矩阵对该图像特征进行加权运算，得到图像加权特征；

该第二特征确定单元723，用于基于该第二权重矩阵对该文本特征进行加权运算，得到文本加权特征；

该特征融合单元724，用于对该图像加权特征和该文本加权特征进行特征拼接，得到该融合特征。

可选的，该类别确定模块74，包括：最大概率确定单元741及标签拼接单元742；

该最大概率确定单元741，用于将该至少两个预测标签中，具有最大的第三概率值的预测标签确定为目标预测标签；

该标签拼接单元742，用于对该目标预测标签及该对象标签进行拼接，得到媒体数据标签，将该媒体数据标签所对应的数据类别，确定为该多媒体数据的媒体数据类别。

可选的，该装置70还包括：数据发送模块75，用于：

响应针对该多媒体数据的获取请求，获取发送该获取请求的目标用户的媒体数据获取标签；

若该媒体数据类别与该媒体数据获取标签相匹配，则将该多媒体数据发送至该目标用户；

若该媒体数据类别与该媒体数据获取标签不匹配，则向该目标用户发送媒体数据异常消息。

可选的，该装置70还包括：数据处理模块76，用于：

获取该媒体数据类别所属的标签集群，若该标签集群为第一标签集群，则在该多媒体数据所在的应用程序的首页中显示该多媒体数据；

若该标签集群为第二标签集群，则删除该多媒体数据；该第二标签集群包括不属于该第一标签集群的标签。

需要说明的是，图7对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

参见图8，图8是本申请实施例提供的一种数据分类装置的组成结构示意图，上述一种数据分类装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该一种数据分类装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。该装置80包括：

样本数据获取模块81，用于获取样本多媒体数据中的样本图像数据和样本文本数据，获取该样本多媒体数据的样本标签；

样本特征获取模块82，用于根据该样本图像数据获取该样本多媒体数据的样本图像特征，根据该样本文本数据获取该样本多媒体数据的样本文本特征，将该样本图像特征及该样本文本特征进行特征融合，得到样本融合特征；

样本标签确定模块83，用于基于初始数据分类模型对该样本图像特征进行预测，得到样本对象标签，获取该样本对象标签所关联的至少两个样本预测标签及每个样本预测标签对应的第一样本概率值，基于该初始数据分类模型对该样本融合特征进行预测，得到该每个样本预测标签分别对应的第二样本概率值；该至少两个样本预测标签包括样本预测标签j，该j为正整数；

标签输出模块84，用于对该样本预测标签j的第一样本概率值与该样本预测标签j的第二样本概率值进行融合，得到该样本预测标签j的第三样本概率值，直至得到该每个样本预测标签分别对应的第三样本概率值，根据该每个样本预测标签分别对应的第三样本概率值及该样本对象标签，确定该样本多媒体数据对应的模型输出标签；

模型训练模块85，用于根据该样本标签及该模型输出标签所组成的损失函数，对该初始数据分类模型进行训练，得到数据分类模型。

可选的，该样本标签包括参考样本标签及参考样本预测标签，该损失函数包括第一损失函数及第二损失函数；该模型训练模块85包括：第一训练单元851、第二训练单元852及模型生成单元853；

该第一训练单元851，用于根据该参考样本标签与该样本对象标签生成该第一损失函数；

该第二训练单元852，用于将参考样本预测标签与样本对象标签进行拼接，生成目标样本标签，基于目标样本标签与模型输出标签生成第二损失函数；

该模型生成单元853，用于根据该第一损失函数及该第二损失函数对该初始数据分类模型进行训练，得到该数据分类模型。

需要说明的是，图8对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3、5、6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7、8中所示的一种数据分类装置，以及来实现本申请实施例的一种数据分类方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

参见图9，图9是本申请实施例提供的一种计算机设备的组成结构示意图。如图9所示，上述计算机设备90可以包括：处理器901，网络接口904和存储器905，此外，上述计算机设备90还可以包括：用户接口903，和至少一个通信总线902。其中，通信总线902用于实现这些组件之间的连接通信。其中，用户接口903可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口903还可以包括标准的有线接口、无线接口。网络接口904可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器905可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器905可选的还可以是至少一个位于远离前述处理器901的存储装置。如图9所示，作为一种计算机可读存储介质的存储器905中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的计算机设备90中，网络接口904可提供网络通讯功能；而用户接口903主要用于为用户提供输入的接口；而处理器901可以用于调用存储器905中存储的设备控制应用程序，以实现：

获取多媒体数据中的图像数据和文本数据；

对该预测标签p的第一概率值与该预测标签p的第二概率值进行融合，得到该预测标签p的第三概率值，直至得到该每个预测标签分别对应的第三概率值，基于该每个预测标签分别对应的第三概率值及该对象标签，确定该多媒体数据对应的媒体数据类别

应当理解，本申请实施例中所描述的计算机设备90可执行前文图3、5、6所对应实施例中对上述一种数据分类方法的描述，也可执行前文图7、8所对应实施例中对上述一种数据分类装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被计算机执行时使该计算机执行如前述实施例该的方法，该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器901。作为示例，程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据分类方法，其特征在于，包括：

获取多媒体数据中的图像数据和文本数据；

根据所述图像数据获取所述多媒体数据的图像特征，根据所述文本数据获取所述多媒体数据的文本特征，将所述图像特征及所述文本特征进行特征融合，得到融合特征；

基于数据分类模型对所述图像特征进行预测，得到对象标签，获取所述对象标签所关联的至少两个预测标签及每个预测标签分别对应的第一概率值，基于所述数据分类模型对所述融合特征进行预测，得到所述每个预测标签分别对应的第二概率值；所述至少两个预测标签包括预测标签p，所述p为正整数；

对所述预测标签p的第一概率值与所述预测标签p的第二概率值进行融合，得到所述预测标签p的第三概率值，直至得到所述每个预测标签分别对应的第三概率值，基于所述每个预测标签分别对应的第三概率值及所述对象标签，确定所述多媒体数据对应的媒体数据类别。

2.根据权利要求1所述的方法，其特征在于，所述获取多媒体数据中的图像数据和文本数据，包括：

若所述多媒体数据为视频数据，则获取组成所述视频数据的至少两个视频帧图像；

基于图像获取周期从所述至少两个视频帧图像中获取所述图像数据；

查找所述多媒体数据相关联的第一文本内容，若查找到所述第一文本内容，则将所述第一文本内容确定为所述文本数据；

若未查找到所述第一文本内容，则获取所述图像数据在所述视频数据中对应的语音数据，对所述语音数据进行语音转换，得到所述语音数据对应的第二文本内容，将所述第二文本内容确定为所述文本数据。

3.根据权利要求1所述的方法，其特征在于，所述将所述图像特征及所述文本特征进行特征融合，得到融合特征，包括：

获取所述图像特征对应的第一权重矩阵及所述文本特征对应的第二权重矩阵；

基于所述第一权重矩阵对所述图像特征进行加权运算，得到图像加权特征；

基于所述第二权重矩阵对所述文本特征进行加权运算，得到文本加权特征；

对所述图像加权特征和所述文本加权特征进行特征拼接，得到所述融合特征。

4.根据权利要求1所述的方法，其特征在于，所述基于所述每个预测标签分别对应的第三概率值及所述对象标签，确定所述多媒体数据对应的媒体数据类别，包括：

将所述至少两个预测标签中，具有最大的第三概率值的预测标签确定为目标预测标签；

对所述目标预测标签及所述对象标签进行拼接，得到媒体数据标签，将所述媒体数据标签所对应的数据类别，确定为所述多媒体数据的媒体数据类别。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应针对所述多媒体数据的获取请求，获取发送所述获取请求的目标用户的媒体数据获取标签；

若所述媒体数据类别与所述媒体数据获取标签相匹配，则将所述多媒体数据发送至所述目标用户；

若所述媒体数据类别与所述媒体数据获取标签不匹配，则向所述目标用户发送媒体数据异常消息。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述媒体数据类别所属的标签集群，若所述标签集群为第一标签集群，则在所述多媒体数据所在的应用程序的首页中显示所述多媒体数据；

若所述标签集群为第二标签集群，则删除所述多媒体数据；所述第二标签集群包括不属于所述第一标签集群的标签。

7.一种数据分类方法，其特征在于，包括：

获取样本多媒体数据中的样本图像数据和样本文本数据，获取所述样本多媒体数据的样本标签；

根据所述样本图像数据获取所述样本多媒体数据的样本图像特征，根据所述样本文本数据获取所述样本多媒体数据的样本文本特征，将所述样本图像特征及所述样本文本特征进行特征融合，得到样本融合特征；

基于初始数据分类模型对所述样本图像特征进行预测，得到样本对象标签，获取所述样本对象标签所关联的至少两个样本预测标签及每个样本预测标签对应的第一样本概率值，基于所述初始数据分类模型对所述样本融合特征进行预测，得到所述每个样本预测标签分别对应的第二样本概率值；所述至少两个样本预测标签包括样本预测标签j，所述j为正整数；

对所述样本预测标签j的第一样本概率值与所述样本预测标签j的第二样本概率值进行融合，得到所述样本预测标签j的第三样本概率值，直至得到所述每个样本预测标签分别对应的第三样本概率值，根据所述每个样本预测标签分别对应的第三样本概率值及所述样本对象标签，确定所述样本多媒体数据对应的模型输出标签；

根据所述样本标签及所述模型输出标签所组成的损失函数，对所述初始数据分类模型进行训练，得到数据分类模型。

8.根据权利要求7所述的方法，其特征在于，所述样本标签包括参考样本标签及参考样本预测标签，所述损失函数包括第一损失函数及第二损失函数；

所述根据所述样本标签及所述模型输出标签所组成的损失函数，对所述初始数据分类模型进行训练，得到数据分类模型，包括：

根据所述参考样本标签与所述样本对象标签生成所述第一损失函数；

将所述参考样本预测标签与所述样本对象标签进行拼接，生成目标样本标签，基于所述目标样本标签与所述模型输出标签生成所述第二损失函数；

根据所述第一损失函数及所述第二损失函数对所述初始数据分类模型进行训练，得到所述数据分类模型。

9.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-6任一项所述的方法，或者执行权利要求7-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行权利要求1-6任一项所述的方法，或者执行权利要求7-8任一项所述的方法。