CN109299315A

CN109299315A - 多媒体资源分类方法、装置、计算机设备及存储介质

Info

Publication number: CN109299315A
Application number: CN201811022608.9A
Authority: CN
Inventors: 唐永毅; 马林; 刘威; 周连强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2019-02-01
Anticipated expiration: 2038-09-03
Also published as: WO2020048308A1; US20210011942A1; EP3848817A1; CN109299315B; EP3848817A4; US11798278B2

Abstract

本发明公开了一种多媒体资源分类方法、装置、计算机设备及存储介质，属于计算机技术领域。所述方法包括：获取多媒体资源，提取多媒体资源的多个特征信息；对多个特征信息进行聚类，得到至少一个聚类集合，确定每个聚类集合的聚类描述信息，每个聚类集合包括至少一个特征信息，每个聚类描述信息用于指示一个聚类集合的特征；基于每个聚类集合的聚类描述信息，确定多媒体资源的至少一个目标特征描述信息，每个目标特征描述信息用于表示一个聚类描述信息与其余聚类描述信息之间的关联；基于多媒体资源的至少一个目标特征描述信息，对多媒体资源进行分类，得到多媒体资源的分类结果。采用本发明，可以提高多媒体资源分类的准确性。

Description

多媒体资源分类方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种多媒体资源分类方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，计算机设备可以对多媒体资源进行自动分类，确定多媒体资源的类型，并根据该多媒体资源的类型为用户提供多媒体服务，例如：可以为用户推荐其感兴趣的类型的多媒体资源，实现个性化推荐，或者，基于多媒体资源的类型进行筛选，筛除不符合规定的多媒体资源。

目前，多媒体资源分类方法基于多媒体资源的特征进行分类，具体的处理可以是：计算机设备通过特征提取模型，对多媒体资源进行特征提取，然后对提取到的特征信息进行特征描述，将得到的特征描述信息输入分类模型，输出得到多媒体资源的分类结果，也即得到多媒体资源的类型。在对特征信息进行特征描述时，一般可以采用聚类分析的方法查找预设数目个聚类中心，聚类中心可以是任一个特征信息。通过聚类中心，可以将多媒体资源的多个特征信息划分为预设数目个聚类集合，聚类集合中包括一个聚类中心和与该聚类中心相似的至少一个特征信息。然后，计算机设备可以对每个聚类集合分别计算特征描述信息，该特征描述信息可以用于表示对应的聚类集合中所有的特征信息。计算机设备将每个聚类集合的特征描述信息进行拼接，得到多媒体资源的特征描述信息。例如，该特征描述信息可以是局部聚集特征描述向量(Vector of Locally Aggregated Descriptors，VLAD)，用于描述多媒体资源的局部特征。

计算机设备基于上述方法确定的特征描述信息进行分类时，由于每个聚类集合的特征描述信息对分类结果分别具有不同的影响，如果多媒体资源中不同的局部差异较大，不同的局部可能会使得分类出不同的类型，导致多媒体资源分类的准确性降低。例如，如果一张图像中呈现了室内的环境，实际上该图像应该被归为家居类，但是图像中墙壁上悬挂着一副风景画，则风景画的部分可能使得该图像被归为风景类。

发明内容

本发明实施例提供了一种多媒体资源分类方法、装置、计算机设备及存储介质，提高多媒体资源分类的准确性。所述技术方案如下：

一方面，提供了一种多媒体资源分类方法，该方法包括：

获取多媒体资源，提取所述多媒体资源的多个特征信息；

对所述多个特征信息进行聚类，得到至少一个聚类集合，确定每个聚类集合的聚类描述信息，所述每个聚类集合包括至少一个特征信息，每个聚类描述信息用于指示一个聚类集合的特征；

基于所述每个聚类集合的聚类描述信息，确定所述多媒体资源的至少一个目标特征描述信息，每个目标特征描述信息用于表示一个聚类描述信息与其余聚类描述信息之间的关联；

基于所述多媒体资源的至少一个目标特征描述信息，对所述多媒体资源进行分类，得到所述多媒体资源的分类结果。

一方面，提供了一种多媒体资源分类装置，该装置包括：

获取模块，用于获取多媒体资源，提取所述多媒体资源的多个特征信息；

聚类模块，用于对所述多个特征信息进行聚类，得到至少一个聚类集合，确定每个聚类集合的聚类描述信息，所述每个聚类集合包括至少一个特征信息，每个聚类描述信息用于指示一个聚类集合的特征；

描述模块，用于基于所述每个聚类集合的聚类描述信息，确定所述多媒体资源的至少一个目标特征描述信息，每个目标特征描述信息用于表示一个聚类描述信息与其余聚类描述信息之间的关联；

分类模块，用于基于所述多媒体资源的至少一个目标特征描述信息，对所述多媒体资源进行分类，得到所述多媒体资源的分类结果。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述多媒体资源分类方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述多媒体资源分类方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，计算机设备在对多媒体资源进行分类时，可以对多媒体资源的多个特征信息进行聚类，在得到至少一个聚类集合之后，利用聚类描述信息对每个聚类集合进行描述，并且基于聚类描述信息之间的关联，进一步对聚类描述信息进行描述，得到目标特征描述信息。该目标特征描述信息除了可以描述多媒体资源中各个聚类集合的特征，还可以表示每个聚类描述信息与其余聚类描述信息之间的关联，因此，该目标特征描述信息对多媒体资源更具有代表性。进而，计算机设备在基于目标特征描述信息对多媒体资源进行分类时，可以得到准确性更高的分类结果，提高多媒体资源分类的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境图；

图2是本发明实施例提供的一种多媒体资源分类方法流程图；

图3是本发明实施例提供的一种多媒体资源分类方法流程图；

图4是本发明实施例提供的一种多媒体资源分类方法流程图；

图5是本发明实施例提供的一种多媒体资源分类装置示意图；

图6是本发明实施例提供的一种终端的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种实施环境图。该实施环境中可以包括至少一个计算机设备101，该计算机设备101可以实现本发明实施例提供的多媒体资源分类方法。当计算机设备101具有采集多媒体资源的功能时，计算机设备101可以对其采集到的多媒体资源进行分类。当然，计算机设备101也可以对已存储的多媒体资源进行分类。

当然，计算机设备101还可以通过无线或者有线网络和计算机设备102连接，为计算机设备102提供多媒体资源分类的服务。计算机设备102可以采集多媒体资源，当具有对多媒体资源进行分类的需求时，计算机设备102可以作为服务请求方，将多媒体资源发送给计算机设备101。

计算机设备101中还可以具有至少一种数据库，用以存储待分类的多媒体资源、多媒体资源的分类结果等等。

具体地，该计算机设备101和计算机设备102均可以被提供为终端，也可以被提供为服务器，本发明实施例对此不作限定。

结合图2所示的多媒体资源分类方法流程图，该方法的处理流程可以包括如下的步骤：

201、计算机设备获取多媒体资源，提取多媒体资源的多个特征信息。

计算机设备可以实时对采集的多媒体资源进行分类处理。当然，计算机设备还可以将采集到的多媒体资源进行存储。

当计算机设备为其它计算机设备提供多媒体资源分类服务时，每当接收到待分类的多媒体资源，计算机设备可以触发多媒体资源分类流程。当然，计算机设备也可以将接收到的多媒体资源进行存储。

当然，计算机设备还可以周期性对已存储的多媒体资源进行获取，并对获取的多媒体资源进行分类。或者，当计算机设备接收到多媒体资源分类的指令时，可以对任一待分类的多媒体资源进行分类，或对指定的多媒体资源进行分类。本发明实施例对如何触发多媒体资源分类流程不作限定。

在对多媒体资源进行分类时，计算机设备可以调用预设的特征提取算法，对待分类的多媒体资源进行特征提取，得到多个特征信息。特征信息可以是特征向量，也可以是特征矩阵等，本发明实施例中以特征信息是特征向量为例。例如，特征提取算法可以是LBP(Local Binary Patterns，局部二值模式)特征提取算法、HOG(Histogram of OrientedGradient，方向梯度直方图)特征提取算法、卷积神经网络、递归神经网络等等，本发明实施例对具体使用何种特征提取算法不做限定。

202、计算机设备对多个特征信息进行聚类，得到至少一个聚类集合，确定每个聚类集合的聚类描述信息。

聚类的处理可以将相似的特征信息归纳为一个聚类集合，聚类集合可以包括至少一个特征信息，一个聚类集合中的任意两个特征信息的相似度高于不同聚类集合之间任意两个特征信息的相似度。聚类描述信息可以用于指示一个聚类集合的特征。当利用聚类描述信息来描述一个聚类集合时，可以减少相似的特征信息带来的信息冗余。上述至少一个聚类集合可以是一个或多个聚类集合。

在一种可能的实施方式中，上述步骤202可以由下述步骤2021-2024实现，具体处理如下：

2021、计算机设备在多个特征信息中确定至少一个聚类中心。

在进行聚类分析时，计算机设备可以随机选取至少一个特征信息作为聚类中心，进而计算每个特征信息与聚类中心的相似度。例如，当特征信息为特征向量时，相似度可以是特征向量之间的距离。聚类集合的数目可以根据需求预先设定。

2022、计算机设备基于至少一个聚类中心确定至少一个初始的聚类集合。

每个聚类集合可以与聚类中心一一对应。

对于每个特征信息，计算机设备可以获取与该特征信息的相似度最小的聚类中心，然后可以将该特征信息添加到该聚类中心的聚类集合之中。对每个特征信息进行上述处理，即可得到至少一个初始的聚类集合。计算机设备得到每个初始的聚类集合之后，可以计算每个聚类集合的特征信息均值，例如，当特征信息为特征向量时，可以计算聚类集合中每个特征向量的模的平均值，将该平均值作为特征信息均值。

2023、计算机设备对每个初始的聚类集合进行调整，调整完成后得到至少一个聚类集合。

对于每个初始的聚类集合，计算机设备可以获取与该聚类集合的特征信息均值最接近的特征向量，将该特征向量设置为该聚类集合的聚类中心，重复上述过程，不断对聚类集合中的特征信息进行调整，直到聚类中心不再变化，或满足其它预设的停止条件，获取当前的聚类集合。

当然，计算机设备还可以基于其它聚类算法实现上述步骤2021-2023，例如，该聚类算法可以是k-means(k-均值)算法、k-medoids(k-中心)算法等，本发明实施例对具体的聚类算法不作限定。

2024、计算机设备对至少一个聚类集合进行描述，获取每个聚类集合的聚类描述信息。

计算机设备获取到聚类集合之后，可以调用预设的聚类描述算法，计算每个聚类集合的聚类描述信息。对聚类集合进行聚类描述后，经过降维可以减少处理量，提高处理效率。

例如，该聚类描述算法可以是NetVLAD(Vector of Network Locally AggregatedDescriptor，网络局部聚集特征向量描述子)方法。

计算机获取到聚类集合和其中的聚类中心之后，可以通过下述公式(1)进行计算：

其中，V_NetVLAD(d,k)为一个D＊K的矩阵V_NetVLAD中第d行第k列的候选取值，该矩阵V_NetVLAD即为聚类集合的聚类描述信息。d的取值范围为[1,D]，k的取值范围为[1,K]，当d、k为任意取值时，V_NetVLAD(d,k)可以表示为矩阵V_NetVLAD中任意位置的候选取值。

公式(1)的输入可以为多媒体资源的多个特征向量和聚类中心。

特征向量为N个D维向量也即步骤201中提取的多个特征信息。xⁿ(d)为向量xⁿ的第d维的取值。

聚类中心为K个D维向量c^k(d)为向量c^k的第d维。相应的，聚类集合的数目也为K，每个聚类集合中包括一个聚类中心c^k，以及至少一个向量xⁿ。一个聚类集合的聚类描述信息可以表示为V_NetVLAD(k)，是一个D维的向量。

为向量xⁿ的的权重，取值范围为[0,1]，定义为为xⁿ与聚类中心c^k之间的距离，将该距离转换为高斯形式，后文称为高斯距离，高斯距离可以避免取值为0而对处理过程造成负面影响。用于计算xⁿ到所有聚类中心的高斯距离之和。表示xⁿ到聚类中心c^k的高斯距离在上述高斯距离之和中所占的比例，也即，可以用于表示聚类中心c^k对xⁿ的重要程度。

由公式(1)可知，矩阵V_NetVLAD中的每个维度的候选取值可以是，通过计算每个特征向量与其对应的聚类中心在该维度上的距离xⁿ(d)-c^k(d)，并计算该维度上的距离加权之和得到。因此，聚类集合的聚类描述信息V_NetVLAD(k)可以用于表示，聚类中心对聚类集合中每个特征向量的吸引程度。

确定每个V_NetVLAD(d,k)的候选取值后，可以将每个V_NetVLAD(d,k)构成的矩阵进行正则化处理，得到矩阵V_NetVLAD，也即得到每个聚类集合的聚类描述信息本发明实施例对正则化的具体处理不作限定。

203、计算机设备获取第一聚类描述信息的至少一个第一子关联信息。

其中，每个第一子关联信息可以用于表示第一聚类描述信息与一个第二聚类描述信息之间的关联，第一聚类描述信息为任一个聚类描述信息，第二聚类描述信息为上述至少一个聚类描述信息中除任一个聚类描述信息以外的任一个信息。

例如，计算设备可以将任意两个聚类描述信息输入下述公式(2)，计算第一子关联信息：

上述过程中得到每个聚类集合的聚类描述信息简化为公式(2)中以中的任两个向量vⁱ、v^j作为输入，vⁱ、v^j可以是两个不同的向量，计算结果即为第一子关联信息。

θ(vⁱ)^T为θ(vⁱ)的转置形式。θ(vⁱ)、均为线性映射函数，定义为θ(vⁱ)＝W_θvⁱ和其中，W_θ和均为线性映射系数，该系数可以是预设值。当然，当本发明实施例提供的非局部特征描述方法应用在机器学习模型中时，该系数还可以为可学习的参数，以便在训练过程中进行调整，提高特征描述的能力，令得到的特征描述信息更具有代表性。

f(vⁱ,v^j)可以称为非局部关系函数，由于可以表示v^j在vⁱ上的映射，则f(vⁱ,v^j)计算得到的第一子关联信息中可以携带有v^j在vⁱ上的映射信息。当然，f(vⁱ,v^j)还可以具有多种不同的形式，例如，高斯形式内积形式等，本发明实施例对此不作限定。

204、计算机设备根据至少一个第一子关联信息和至少一个第二聚类描述信息，获取第一聚类描述信息的第一关联信息。

聚类描述信息的第一关联信息可以用于表示第一聚类描述信息与其余所有第二聚类描述信息之间的关联。

计算机设备可以获取任意两个聚类描述信息之间的关联信息，也即上述第一子关联信息。对于一个聚类描述信息，计算机设备可以根据该聚类描述信息与任意一个聚类描述信息之间的关联信息，确定该聚类描述信息与其余所有聚类描述信息之间的关联信息，也即得到该聚类描述信息的第一关联信息。也即，将上述至少一个聚类描述信息中除该聚类描述信息以外的聚类描述信息作为一个整体，第一关联信息可以用于表示该聚类描述信息与该整体之间的关联。

例如，计算机设备可以将得到的至少一个第一子关联信息和至少一个第二聚类描述信息，输入下述公式(3)，计算聚类描述信息的第一关联信息：

其中，g(v^j)与θ(vⁱ)同理，定义为g(v^j)＝W_gv^j，W_g与同理。

表示对于所有的j，通过对所有的j的运算，消除变量j。用于对vⁱ计算所有v^j的加权之和，权重可以与每个v^j在vⁱ上的映射有关。因此，yⁱ可以用于表示vⁱ与所有v^j之间的关联，也即得到vⁱ的第一关联信息。

205、计算机设备对至少一个聚类描述信息执行上述获取步骤203-204，得到每个聚类描述信息的第一关联信息。

例如，通过上述公式(3)可以对每个vⁱ计算第一关联信息，此处不再一一赘述。

206、计算机设备将第一聚类描述信息的第一关联信息和第一聚类描述信息合并，输出多媒体资源的一个目标特征描述信息；对至少一个聚类描述信息执行上述合并步骤，得到多媒体资源的至少一个目标特征描述信息。

每个目标特征描述信息可以与聚类描述信息一一对应。

在计算第一关联信息时，对聚类描述特征信息的转换可能会丢失原有的信息，因此，计算机设备可以将每个聚类描述信息以及该聚类描述信息的第一关联信息进行合并，得到目标特征描述信息，目标特征描述信息中可以保留聚类描述信息以及第一关联信息所携带的信息。也即，目标特征描述信息除了可以描述多媒体资源中各个聚类集合的特征，还可以表示每个聚类描述信息与其余聚类描述信息之间的关联，提高了目标特征描述信息的代表性。

例如，计算机设备可以将得到的第一聚类描述信息的第一关联信息和第一聚类描述信息，输入下述公式(4)，计算目标特征描述信息：

其中，W为第一关联信息的权重系数，与上述线性映射系数同理，W可以是预设值，也可以是可学习的参数。

通过对每个vⁱ计算可以得到多媒体资源的非局部特征描述子可以是D*K的向量。

当然，根据实际需求，在上述过程中还可以对各个向量进行归一化处理，例如，对每个yⁱ和/或进行归一化处理，以yⁱ为例，归一化函数可以为Z(v)，定义为归一化后，本发明实施例中对归一化处理的向量以及具体的归一化处理不作限定。

上述步骤203-206是确定目标特征描述信息的一种实现方式。由于聚类描述信息的第一关联信息可以用于表示聚类描述信息与其余聚类描述信息之间的关联，该关联可以表现为聚类描述信息与其余聚类描述信息之间的距离关系、其余聚类描述信息在该聚类描述信息上的映射关系等等，本发明实施例对此不作限定。因此，计算机设备确定目标特征描述信息的处理可以是：计算机设备可以对于每个聚类描述信息，确定每个聚类描述信息的第一关联信息；基于每个聚类描述信息的第一关联信息，确定多媒体资源的至少一个目标特征描述信息。

在确定第一关联信息时，计算机设备可以获取计算第一关联信息所需的信息，例如聚类描述信息与其余聚类描述信息之间的距离，或其余聚类描述信息在该聚类描述信息上的映射，进而计算第一关联信息。然后，计算机设备可以通过第一关联信息进行进一步描述，得到至少一个目标特征描述信息。

当然，计算机设备还可以基于其它方法，描述一个聚类描述信息与其余聚类描述信息之间的关联，例如，将除该聚类描述信息之外的其余聚类描述信息进行求和，然后将该聚类描述信息与其余聚类描述信息的和向量进行外积运算，得到目标特征描述信息，也即该目标特征描述信息可以用于描述该聚类描述信息与上述和向量的一个法向量。因此，计算机设备确定目标特征描述信息的处理还可以是：计算机设备基于每个聚类集合的聚类描述信息，确定多媒体资源的至少一个目标特征描述信息。

每个目标特征描述信息可以用于表示一个聚类描述信息与其余聚类描述信息之间的关联。由于目标特征描述信息已经不再局限于描述一个聚类集合，也即不再局限于描述局部特征，本发明实施例中可以将目标特征描述信息称为非局部特征描述子，将基于多个特征信息得到至少一个目标特征描述信息的过程称为非局部特征描述，例如，当上述聚类描述信息是NetVLAD时，目标特征描述信息可以称为NL-NetVLAD(Non-Local Vector ofNetwork Locally Aggregated Descriptor，基于非局部关系改进的网络局部聚集特征向量描述子)。

计算机设备在得到每个聚类集合的聚类描述信息后，可以通过每个聚类描述信息与其余聚类描述信息之间的关联，对聚类描述信息进行进一步描述，得到多媒体资源的目标特征描述信息。通过上述处理可以进一步保留多媒体资源的信息，提高目标特征描述信息的代表性。

207、计算机设备基于多媒体资源的至少一个目标特征描述信息，对多媒体资源进行分类，得到多媒体资源的分类结果。

计算机设备中可以预先设置有多媒体资源分类模型，该多媒体资源分类模型可以基于输入的至少一个目标特征描述信息，输出多媒体资源的分类结果。该多媒体资源分类模型可以是多层非线性网络分类模型、多层非线性网络混合专家分类模型等等，本发明实施例对此不作限定。

计算机设备可以对多媒体资源进行多类别分类，上述步骤204的具体处理可以如下：计算机设备基于多媒体资源的至少一个目标特征描述信息，获取至少一个类型的分类概率，将分类概率大于预设阈值的类型确定为所述多媒体资源的分类结果。

上述至少一个类型可以预先设定，例如，可以预先设定3种类型，分别为风景类、人物类、美食类。

在得到多媒体资源的至少一个目标特征描述信息后，计算机设备可以调用多媒体资源分类模型，将该至少一个目标特征描述信息输入媒体资源分类模型，计算每个类型的分类概率，最后根据每个类型的分类概率，输出多媒体资源的类别，也即得到分类结果。

在一种可能的实施方式中，根据每个类型的分类概率，输出多媒体资源的类别的处理可以有以下两种方式：

方式一，计算机设备可以获取分类概率大于预设阈值(如0.6)的类型，将满足条件的类型输出为分类结果。由于可能存在内容丰富的多媒体资源，使得分类概率大于预设阈值的类型可能不止一个，对应输出的分类结果也不止一个。这种输出多种类型的分类方式可以称为多类别分类，通过这样的实施方式可以提高多媒体资源分类的准确性。例如，上述3种类型的分类概率可以为[0.1,0.9,0.7]，表明多媒体资源为风景类的概率为0.1，人物类的概率为0.9，美食类的概率为0.7，当预设阈值为0.6时，可以输出人物类和美食类。

方式二，计算机设备可以输出分类概率最高的类别，也即得到一个分类结果。这种输出一种类别的分类方式可以称为单类别分类。例如，当上述3种类型的分类概率分别为[0.1,0.3,0.6]时，输出美食类。

上述每个类型的分类概率的范围可以是[0,1]。但是，每个类型的分类概率之和可以是1，也可以是其它数值，本发明实施例对此不作限定。

下面将以多媒体资源为视频资源为例，结合图3所示的多媒体资源分类方法流程图，对视频资源分类方法流程进行介绍。该方法的处理流程可以包括如下的步骤：

301、计算机设备获取视频资源中包括的图像资源和音频资源。

视频资源中可以包括图像资源和音频资源，图像资源中可以包括至少一帧图像，音频资源中也可以包括至少一帧音频信号。例如，时长为1秒的视频资源可以包括25帧图像和音频信号。

当计算机设备触发对视频资源的分类流程时，可以分别获取该视频资源中的图像资源和音频资源。

302、计算机设备分别提取图像资源的多个图像特征和音频资源的多个音频特征。

在本发明实施例中，提取图像特征的方法与提取音频特征的方法可以不同。

例如，计算机设备可以利用Inception-V4深度卷积神经网络模型，提取图像资源的特征。Inception-V4模型的模型参数可以根据ImageNet数据集进行预训练。在提取图像特征时，计算机设备可以将图像资源中的T帧图像输入Inception-V4模型，通过网络中的参数、卷积和非线性激活函数等进行计算，输出每帧图像的图像特征图像特征的维度经过主成分分析算法处理后可以是1028维。

计算机设备可以利用VGGish深度卷积神经网络模型，提取音频资源的特征。VGGish模型的模型参数可以根据AudioSet数据集进行预训练。与图像特征提取同理，对于T帧的音频信号进行特征提取后，可以得到每帧音频信号的音频特征音频特征的维度可以是128维。

在一种可能的实施方式中，视频资源相邻帧之间的图像资源差异较小，特征相似度也比较高，音频资源同理，因此，计算机设备基于采样后的视频资源进行分类流程，相应的，上述步骤302的具体处理可以如下：对多媒体资源进行采样，获取多媒体资源的至少一帧，提取多媒体资源的至少一帧的多个特征信息。

其中，多媒体资源包括视频资源的图像资源和音频资源，也即均可以对图像资源和音频资源进行采样，例如，采样频率可以为1帧/秒。图像资源和音频资源的采样频率可以相同，也可以不同，本发明实施例对具体的采样频率不做限定。通过对视频资源的采样，可以减少冗余的信息量，提高处理效率，节约处理资源。

303、计算机设备分别对图像特征和音频特征进行非局部特征描述，得到至少一个图像特征描述信息和至少一个音频特征描述信息。

对图像特征和音频特征的非局部特征描述，与上述步骤202-203同理，此处不再赘述。非局部特征描述的过程不要求输入的特征信息具有时间顺序，并且在计算过程中也可以不参考时间信息，由于基于非局部特征描述所得到的目标特征描述信息与图像或音频信号处于哪个帧无关，因此，目标特征描述信息可以用于描述视频资源的特征，而不是描述某个帧的特征，也即目标特征描述信息可以是视频级别的特征描述子，相比与对每个帧均获取目标特征描述信息所需的数据量较少，节约了存储空间。

304、计算机设备基于至少一个图像特征描述信息和至少一个音频特征描述信息，对该视频资源进行分类，得到该视频资源的分类结果。

计算机设备可以将图像特征描述信息和音频特征描述信息作为输入，分类过程与上述步骤204同理不再赘述，基于图像特征描述信息和音频特征描述信息共同决定视频资源的分类结果。

当然，计算机设备还可以将图像特征描述信息或音频特征描述信息中的任一个作为输入，本发明实施例对此不作限定。

本发明实施例中，计算机设备可以分别对视频资源的图像资源和音频资源分别进行特征提取以及非局部特征描述，得到视频级别的目标特征描述信息，在提高分类准确性的同时，还可以避免对每个帧均获取目标特征描述信息，降低了视频资源的目标特征描述信息的数据量，节约存储空间，提高处理效率。

下面将以多媒体资源为图像资源为例，结合图4所示的多媒体资源分类方法流程图，对图像资源分类方法流程进行介绍。该方法的处理流程可以包括如下的步骤：

401、计算机设备获取图像资源，基于预设的图像分割规则，将多媒体资源划分为至少一个图像区域，提取至少一个图像区域的多个特征信息。

在一种可能的实施方式中，对像素尺寸较大的图像资源，特征提取的复杂度较高，因此，计算机设备可以对图像资源进行切分后再进行特征提取。

图像分割规则可以是平均切分、金字塔方式切分等，当然，也可以是将多种切分方式相结合得到的规则，例如，对图像资源进行金字塔方式切分后得到多个金字塔图像，在对金字塔图像进行平均切分，本发明实施例对具体的图像分割规则不做限定。

与上述视频资源中图像资源的特征提取过程同理，对于N个图像区域进行特征提取后，可以得到每个图像区域的特征信息

402、计算机设备对至少一个图像区域的多个特征信息进行非局部特征描述，得到至少一个目标特征描述信息。

与上述步骤303同理，非局部特征描述的过程不要求输入的特征信息具有空间顺序，并且在计算过程中也可以不参考空间信息，由于基于非局部特征描述所得到的目标特征描述信息与图像处于哪个区域无关，因此，目标特征描述信息可以用于描述图像资源的特征，而不是描述某个图像区域的特征，也即目标特征描述信息可以是图像级别的特征描述子，相比与对每个图像区域均获取目标特征描述信息所需的数据量较少，节约了存储空间。

403、计算机设备基于至少一个目标特征描述信息，对该图像资源进行分类，得到该图像资源的分类结果。

与上述步骤204同理，此处不再赘述。

本发明实施例中，计算机设备对图像资源进行特征提取以及非局部特征描述后，可以得到图像级别的目标特征描述信息，在提高分类准确性的同时，还可以避免对每个图像区域均获取目标特征描述信息，降低了图像资源的目标特征描述信息的数据量，节约存储空间，提高处理效率。

基于相同的技术构思，本发明实施例还提供了一种多媒体资源分类装置，该装置可以是上述实施例中的计算机设备。如图5所示的多媒体资源分类装置示意图，该装置包括：

获取模块510，用于获取多媒体资源，提取所述多媒体资源的多个特征信息；

聚类模块520用于对所述多个特征信息进行聚类，得到至少一个聚类集合，确定每个聚类集合的聚类描述信息，所述每个聚类集合包括至少一个特征信息，每个聚类描述信息用于指示一个聚类集合的特征；

描述模块530，用于基于所述每个聚类集合的聚类描述信息，确定所述多媒体资源的至少一个目标特征描述信息，每个目标特征描述信息用于表示一个聚类描述信息与其余聚类描述信息之间的关联；

分类模块540，用于基于所述多媒体资源的至少一个目标特征描述信息，对所述多媒体资源进行分类，得到所述多媒体资源的分类结果。

可选的，所述描述模块530，用于：

对于每个聚类描述信息，确定所述每个聚类描述信息的第一关联信息，每个第一关联信息用于表示所述每个聚类描述信息与其余聚类描述信息之间的关联；

基于所述每个聚类描述信息的第一关联信息，确定所述多媒体资源的至少一个目标特征描述信息。

可选的，所述描述模块530，用于：

获取第一聚类描述信息的至少一个第一子关联信息，每个第一子关联信息用于表示所述第一聚类描述信息与一个第二聚类描述信息之间的关联，所述第一聚类描述信息为任一个聚类描述信息，所述第二聚类描述信息为所述至少一个聚类描述信息中除所述任一个聚类描述信息以外的任一个信息；

根据所述至少一个第一子关联信息和至少一个第二聚类描述信息，获取所述第一聚类描述信息的第一关联信息；

对所述至少一个聚类描述信息执行上述获取步骤，得到所述每个聚类描述信息的第一关联信息。

可选的，所述描述模块530，用于：

将所述第一聚类描述信息的第一关联信息和所述第一聚类描述信息合并，输出所述多媒体资源的一个目标特征描述信息；

对所述至少一个聚类描述信息执行上述合并步骤，得到所述多媒体资源的至少一个目标特征描述信息。

可选的，所述多媒体资源为视频资源，所述获取模块510，用于：获取所述多媒体资源中包括的图像资源和音频资源；分别提取所述图像资源的多个图像特征和所述音频资源的多个音频特征。

可选的，所述多媒体资源为视频资源，所述获取模块510，用于：对所述多媒体资源进行采样，获取所述多媒体资源的至少一帧，提取所述多媒体资源的至少一帧的多个特征信息。

可选的，所述多媒体资源为图像资源，所述获取模块510，用于：基于预设的图像分割规则，将所述多媒体资源划分为至少一个图像区域，提取所述至少一个图像区域的多个特征信息。

可选的，所述分类模块540，用于：

基于所述多媒体资源的至少一个目标特征描述信息，计算至少一个类型的分类概率，将分类概率大于预设阈值的类型确定为所述多媒体资源的分类结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例中，计算机设备在对多媒体资源进行分类时，可以对多媒体资源的多个特征信息进行聚类，在得到至少一个目标聚类集合之后，利用聚类描述信息对每个聚类集合进行描述，并且基于聚类描述信息之间的关联，进一步对聚类描述信息进行描述，得到目标特征描述信息。该目标特征描述信息除了可以描述多媒体资源中各个聚类集合的特征，还可以表示每个聚类描述信息与其余聚类描述信息之间的关联，因此，该目标特征描述信息对多媒体资源更具有代表性。进而，计算机设备在基于目标特征描述信息对多媒体资源进行分类时，可以得到准确性更高的分类结果，提高多媒体资源分类的性能。

需要说明的是：上述实施例提供的多媒体资源分类装置在对多媒体资源进行分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体资源分类装置与多媒体资源分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述计算机设备可以被提供为下述图6所示的终端，也可以被提供为下述图7所示的服务器：

图6是本发明实施例提供的一种终端的结构示意图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本发明中方法实施例提供的多媒体资源分类方法。

在一些实施例中，终端600还可选包括有：***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。每个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地，***设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

***设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源609用于为终端600中的每个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本发明实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现多媒体资源分类方法步骤：

获取多媒体资源，提取所述多媒体资源的多个特征信息；

可选的，所述至少一条指令由所述处理器701加载并执行以实现下述方法步骤：

可选的，所述多媒体资源为视频资源，所述至少一条指令由所述处理器701加载并执行以实现下述方法步骤：

获取所述多媒体资源中包括的图像资源和音频资源；分别提取所述图像资源的多个图像特征和所述音频资源的多个音频特征。

对所述多媒体资源进行采样，获取所述多媒体资源的至少一帧，提取所述多媒体资源的至少一帧的多个特征信息。

可选的，所述多媒体资源为图像资源，所述至少一条指令由所述处理器701加载并执行以实现下述方法步骤：

基于预设的图像分割规则，将所述多媒体资源划分为至少一个图像区域，提取所述至少一个图像区域的多个特征信息。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由服务器中的处理器执行以完成上述多媒体资源分类方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体资源分类方法，其特征在于，所述方法包括：

获取多媒体资源，提取所述多媒体资源的多个特征信息；

2.根据权利要求1所述的方法，其特征在于，所述基于至少一个聚类集合的聚类描述信息，确定所述多媒体资源的至少一个目标特征描述信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述对于每个聚类描述信息，确定所述每个聚类描述信息的第一关联信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述每个聚类描述信息的第一关联信息，确定所述多媒体资源的至少一个目标特征描述信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述多媒体资源为视频资源，所述提取所述多媒体资源的多个特征信息，包括：获取所述多媒体资源中包括的图像资源和音频资源；分别提取所述图像资源的多个图像特征和所述音频资源的多个音频特征。

6.根据权利要求1所述的方法，其特征在于，所述多媒体资源为视频资源，所述提取所述多媒体资源的多个特征信息，包括：对所述多媒体资源进行采样，获取所述多媒体资源的至少一帧，提取所述多媒体资源的至少一帧的多个特征信息。

7.根据权利要求1所述的方法，其特征在于，所述多媒体资源为图像资源，所述提取所述多媒体资源的多个特征信息，包括：基于预设的图像分割规则，将所述多媒体资源划分为至少一个图像区域，提取所述至少一个图像区域的多个特征信息。

8.根据权利要求1所述的方法，其特征在于，所述基于所述多媒体资源的至少一个目标特征描述信息，对所述多媒体资源进行分类，得到所述多媒体资源的分类结果，包括：

基于所述多媒体资源的至少一个目标特征描述信息，获取至少一个类型的分类概率，将分类概率大于预设阈值的类型确定为所述多媒体资源的分类结果。

9.一种多媒体资源分类装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述描述模块，用于：

11.根据权利要求10所述的装置，其特征在于，所述描述模块，用于：

对所述多个聚类描述信息执行上述获取步骤，得到所述每个聚类描述信息的第一关联信息。

12.根据权利要求11所述的装置，其特征在于，所述描述模块，用于：

13.根据权利要求9所述的装置，其特征在于，所述多媒体资源为视频资源，所述获取模块，用于：获取所述多媒体资源中包括的图像资源和音频资源；分别提取所述图像资源的多个图像特征和所述音频资源的多个音频特征。

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令、所述至少一段程序由所述处理器加载并执行以实现如权利要求1至8任一所述的多媒体资源分类方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8任一所述的多媒体资源分类方法。