CN114390342A

CN114390342A - 一种视频配乐方法、装置、设备及介质

Info

Publication number: CN114390342A
Application number: CN202111509380.8A
Authority: CN
Inventors: 陈思宇; 康力; 邓俊祺; 王立波; 陈颖
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-04-22
Anticipated expiration: 2041-12-10
Also published as: CN114390342B

Abstract

本公开实施例涉及一种视频配乐方法、装置、设备及介质。本公开的至少一个实施例中，通过预先确定视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息，实现记录单一视频类别与不同音乐类别的相似性与关联性；进而通过确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息，利用概率信息和相关信息，可以确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息；从而基于匹配信息从音乐类别列表中确定多个音乐类别，实现了音乐类别的动态选择，使得选择的音乐类别与目标视频的主体相符，在选择的多个音乐类别中搜索一个目标音乐与目标视频进行视频配乐，避免不合理配乐，提高配乐结果的质量。

Description

一种视频配乐方法、装置、设备及介质

技术领域

本公开实施例涉及计算机技术领域，具体涉及一种视频配乐方法、装置、设备及介质。

背景技术

视频的配乐具有重要的作用，合适的配乐可以提升视频的温馨感、亲切感、趣味感等一种或多种正向情绪。然而，除了少数专业创作者能细致选择音乐外，很多视频因缺少配乐、或配乐不合适、抑或者配乐过于老套重复，而使得用户失去观看兴趣。

可见，对视频合理配乐有助于提升用户的观看兴趣，但是，由于视频具有多样性，对视频进行配乐可能产生与视频主题不符的配乐结果，不仅没有提升用户的观看兴趣，而且可能带来负面的影响。

因此，亟需提供一种视频配乐方案，避免不合理配乐，提高配乐结果的质量。

发明内容

本公开的至少一个实施例提供了一种视频配乐方法、装置、设备及介质。

第一方面，本公开实施例提出一种视频配乐方法，其中，预先确定视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息，该视频配乐方法包括：

确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息；

基于概率信息和相关信息，确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息；

基于匹配信息，从音乐类别列表中确定多个音乐类别；

从多个音乐类别对应的音乐库中搜索一个目标音乐；

将目标音乐与目标视频进行视频配乐。

在一些实施例中，确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息包括：

通过预先训练的视频类别概率确定网络对待配乐的目标视频进行处理，得到目标视频属于视频类别列表中各视频类别的概率向量。

在一些实施例中，视频类别概率确定网络为基于视频样本和视频类别列表训练得到的神经网络；其中，视频样本属于视频类别列表中各视频类别的概率向量为预先标注的概率向量。

在一些实施例中，匹配信息为加权置信度信息；基于概率信息和相关信息，确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息包括：

基于概率信息，确定目标视频属于视频类别列表中各视频类别的概率向量；

基于相关信息，确定视频类别列表与音乐类别列表之间的相关性矩阵；

基于概率向量和相关性矩阵，确定目标视频与音乐类别列表中各音乐类别之间的加权置信度信息。

在一些实施例中，加权置信度信息通过下式计算：

其中，

是目标视频与音乐类别列表中各音乐类别之间的加权置信度信息构成的向量，

是概率向量，S是相关性矩阵，M为音乐类别列表中音乐类别的数量，N为视频类别列表中视频类别的数量。

在一些实施例中，基于匹配信息，从音乐类别列表中确定多个音乐类别包括：

将目标视频与音乐类别列表中各音乐类别之间的加权置信度信息进行排序；

基于排序的结果，按照加权置信度由大到小的顺序确定多个音乐类别。

第二方面，本公开实施例还提出一种视频配乐装置，其中，预先确定视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息，该视频配乐装置包括：

第一确定单元，用于确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息；

第二确定单元，用于基于概率信息和相关信息，确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息；

第三确定单元，用于基于匹配信息，从音乐类别列表中确定多个音乐类别；

搜索单元，用于从基于多个音乐类别对应的音乐库中搜索一个目标音乐；

配乐单元，用于将目标音乐与目标视频进行视频配乐。

在一些实施例中，匹配信息为加权置信度信息；第二确定单元用于：

基于概率信息，确定目标视频属于视频类别列表中各视频类别的概率向量；基于相关信息，确定视频类别列表与音乐类别列表之间的相关性矩阵；基于概率向量和相关性矩阵，确定目标视频与音乐类别列表中各音乐类别之间的加权置信度信息。

在一些实施例中，第三确定单元用于：将目标视频与音乐类别列表中各音乐类别之间的加权置信度信息进行排序；基于排序的结果，按照加权置信度由大到小的顺序确定多个音乐类别。

第三方面，本公开实施例还提出一种电子设备，包括：处理器和存储器；处理器通过调用存储器存储的程序或指令，用于执行如第一方面所述视频配乐方法的步骤。

第四方面，本公开实施例还提出一种计算机可读存储介质，其中，计算机可读存储介质存储程序或指令，程序或指令使计算机执行如第一方面所述视频配乐方法的步骤。

可见，本公开的至少一个实施例中，通过预先确定视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息，实现记录单一视频类别与不同音乐类别的相似性与关联性；进而通过确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息，利用概率信息和相关信息，可以确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息；从而基于匹配信息从音乐类别列表中确定多个音乐类别，实现了音乐类别的动态选择，使得选择的音乐类别与目标视频的主体相符，在选择的多个音乐类别中搜索一个目标音乐与目标视频进行视频配乐，避免了不合理配乐，提高配乐结果的质量(例如准确性和稳定性，稳定性也即不存在错误配乐)，进而可以提升视频的温馨感、亲切感、趣味感等一种或多种正向情绪，有助于提升产品的正确宣传，增加用户观看兴趣，使得匹配需求的购买者更容易决策购买。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种视频配乐方法的示例性流程图；

图2为本公开实施例提供的另一种视频配乐方法的示例性流程图；

图3为本公开实施例提供的一种视频配乐装置的示例性框图；

图4是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。基于所描述的本公开的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

在电子商务领域，随着视频类内容丰富的信息的传播，信息丰富的视频可以帮助用户快速了解正在出售的产品，还可以指导用户选购产品。购买者也更倾向于通过信息丰富的视频讲解来了解产品。

例如，具有感官冲击力的、具有广告精致感的、以及具有娱乐性的视频更能促进产品的全方位展示，并使得匹配需求的购买者更容易决策购买。

视频的配乐具有重要的作用，合适的配乐能快速提升讲解视频的高级感、酷炫感、温馨感、亲切感、趣味感等多种正向情绪，使得匹配需求的购买者更容易决策购买。

然而，除了少数专业创作者能细致选择音乐外，很多视频因缺少配乐、或配乐不合适、抑或者配乐过于老套重复，而使得观看者失去了解产品的兴趣。

因此，对视频合理配乐，有助于提升产品的正确宣传。但是，由于视频具有多样性，对视频进行配乐可能产生与视频主题不符的配乐结果，不仅没有提升产品的正确宣传，而且可能带来负面的影响。

另外，对视频进行配乐是通过视频配乐***(可以是软件***、硬件***或者软硬件相结合的***)自动完成，若视频配乐***产生与视频主题不符的配乐结果，会降低商家对视频配乐***的信任感，降低商家使用视频配乐***进行视频配乐的意愿，进而影响产品视频宣传的效果。

相关技术中，视频配乐***对视频进行配乐的主要流程为：首先获取视频的类别，然后寻找该类别对应的音乐库，进而从音乐库中挑选合适配乐作为结果输出。基于该主要流程，一些具体的实现方式如下：

方式一：视频配乐***仅按视频类别分类实现视频配乐，具体地，视频配乐***对待配乐的视频，抽取数帧，输入到预先训练的分类神经网络(Neural Network，NN)中，分类神经网络则输出视频的类别(例如运动，美食，风景，室内等)，之后，针对每个视频类别，设置一个音乐库(即歌单)，进而从音乐库中挑选合适配乐作为结果输出。

可见，方式一中，针对每个视频类别设置对应的音乐库，需要依赖少数编辑者的主观判断，合理性不足；且音乐库中的音乐数量有限，以视频分类来设置音乐库不够细致，导致视频和音乐的匹配性较低。

方式二：视频配乐***仅按音乐类别对视频进行分类，音乐类别由流派，风格等音乐分类标签进行分类，具体地，视频配乐***将视频输入神经网络(Neural Network，NN)中，神经网络则输出视频可能适配的流派，风格等音乐分类标签，进而直接获取相应流派，风格的音乐。

可见，方式二中，视频直接匹配音乐分类标签，至少存在两个缺点：1、无相关数据训练神经网络，导致神经网络的输出可能存在不稳定结果，即神经网络的输出存在错误的音乐分类标签；2、没有合适的方法直接给视频打音乐分类标签，配乐存在不稳定结果，即存在不合理的配乐。

方式三：视频类别到音乐类别的映射，具体地，视频配乐***首先使用深度学习模型，对视频类别进行判断，得到视频的类别(例如运动，美食，风景，室内等)，再将这些视频类别，映射成音乐类别(例如摇滚，爵士，流行，热烈，舒缓，古典等)，每个视频类别对应一个或多个音乐类别。视频配乐***在筛选音乐时，将视频所对应的音乐类别内所有音乐提取出来，再使用其他算法细致筛选出一部分，作为该视频的音乐歌单。

可见，方式三中，属于相同视频类别的视频，使用相同的音乐歌单，配乐多样性较低，存在配乐重复老套的问题。

因此，本公开的至少一个实施例提供一种视频配乐方法、装置、设备或介质，通过预先确定视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息，实现记录单一视频类别与不同音乐类别的相似性与关联性；进而通过确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息，利用概率信息和相关信息，可以确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息；从而基于匹配信息从音乐类别列表中确定多个音乐类别，实现了音乐类别的动态选择，在选择的多个音乐类别中搜索一个目标音乐与目标视频进行视频配乐。

可见，本公开的至少一个实施例中，由于是基于目标视频与音乐类别列表中任一音乐类别之间的匹配信息动态选择音乐类别，使得选择的音乐类别与目标视频的主体相符，在选择的多个音乐类别中搜索一个目标音乐与目标视频进行视频配乐，避免了不合理配乐，提高配乐结果的质量(例如准确性和稳定性，稳定性也即不存在错误配乐)，进而可以提升视频的温馨感、亲切感、趣味感等一种或多种正向情绪，有助于提升产品的正确宣传，增加用户观看兴趣，使得匹配需求的购买者更容易决策购买。

另外，本公开的至少一个实施例中，即使属于相同视频类别的视频，动态选择的音乐类别也会有差异，避免配乐重复老套的问题。

图1是本公开实施例提供的一种视频配乐方法的示例性流程图，该视频配乐方法应用于视频配乐***，视频配乐***既可以应用于服务端，也可以应用于客户端，其中，视频配乐***可以为软件***，硬件***或者软硬件相结合的***。该视频配乐方法的执行主体为任意类型的电子设备，例如为智能手机、平板电脑、笔记本电脑等便携移动式设备，又例如为台式计算机、智能电视等固定式设备。该视频配乐方法可以包括但不限于以下步骤101至步骤104：

在步骤101中，确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息。

其中，视频类别列表包括多个视频类别，多个视频类别例如包括但不限于：运动，母婴，美食，风景，汽车，机械，室内等。若视频类别的数量为N，N为正整数，N个视频类别构成的视频类别列表记为V，则：

V＝{v₁，v₂，...，v_N}

其中，v₁为视频类别列表中排序第一位的视频类别，v₂为视频类别列表中排序第二位的视频类别，v_N为视频类别列表中排序第N位的视频类别。

相应地，待配乐的目标视频属于视频类别列表中第i个视频类别的概率信息记为p_i，且满足：

在步骤102中，基于概率信息和相关信息，确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息。

其中，相关信息为视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息，且可以预先确定视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息。

音乐类别列表包括多个音乐类别，且音乐类别由流派，风格，情绪等音乐分类标签进行分类得到。多个音乐类别例如包括但不限于：摇滚，爵士，流行，动感，清新，舒缓，古典，中国风等。若音乐类别的数量为M，M为正整数，M个音乐类别构成的音乐类别列表记为A，则：

A＝{a₁，a₂，...，a_M}

其中，a₁为音乐类别列表中排序第一位的音乐类别，a₂为音乐类别列表中排序第二位的音乐类别，a_M为音乐类别列表中排序第M位的音乐类别。

相应地，视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息记为：

f(v，a)∈[0，1]，v∈V，a∈A

其中，f为确定任一视频类别与任一音乐类别之间的相关信息的方法，该方法可采用已有的相关方法，不再赘述。

目标视频与音乐类别列表中任一音乐类别之间的匹配信息可以理解为：目标视频与音乐类别列表中任一音乐类别之间的置信度信息，置信度表示目标视频与音乐类别之间的匹配程度，置信度越高，匹配程度越高。

在步骤103中，基于匹配信息，从音乐类别列表中确定多个音乐类别。

即使属于同一视频类别的不同视频，与音乐类别列表中同一音乐类别之间的匹配信息也不同，因此，基于匹配信息，从音乐类别列表中确定的多个音乐类别也存在差异，实现了音乐类别的动态选择，使得选择的音乐类别与目标视频的主体相符。

在步骤104中，从多个音乐类别对应的音乐库中搜索一个目标音乐。

每个音乐类别对应一个音乐库(即歌单)，从多个音乐类别对应的音乐库中搜索一个目标音乐的方式可以为随机方式，也可以为基于搜索策略的方法，搜索策略可以根据实际需要进行设置，本实施例不限定搜索策略的具体内容。

在步骤105中，将目标音乐与目标视频进行视频配乐。

将目标音乐和目标视频进行视频配乐属于视频处理领域的成熟技术，不再赘述。

可见，由于是基于目标视频与音乐类别列表中任一音乐类别之间的匹配信息动态选择音乐类别，使得选择的音乐类别与目标视频的主体相符，在选择的多个音乐类别中搜索一个目标音乐与目标视频进行视频配乐，避免了不合理配乐，提高配乐结果的质量(例如准确性和稳定性，稳定性也即不存在错误配乐)，进而可以提升视频的温馨感、亲切感、趣味感等一种或多种正向情绪，有助于提升产品的正确宣传，增加用户观看兴趣，使得匹配需求的购买者更容易决策购买。

另外，即使属于相同视频类别的视频，动态选择的音乐类别也会有差异，避免配乐重复老套的问题。

另外，相比相关技术中的方式一中以视频分类来设置音乐库，需要依赖少数编辑者的主观判断，合理性不足的问题，本公开实施例中是基于目标视频与音乐类别列表中任一音乐类别之间的匹配信息动态选择音乐类别，使得选择的音乐类别与目标视频的主体相符，提升合理性。

另外，相比相关技术中的方式二中没有合适的方法直接给视频打音乐分类标签，配乐存在不合理的问题，本公开实施例中是确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息，进而基于概率信息和相关信息，确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息(即置信度信息)；从而基于匹配信息从音乐类别列表中确定多个音乐类别，实现了音乐类别的动态选择，使得选择的音乐类别与目标视频的主体相符，提升合理性。

另外，相比相关技术中的方式三中属于相同视频类别的视频，使用相同的音乐歌单，存在配乐重复老套的问题，本公开实施例中，基于匹配信息(即置信度信息)从音乐类别列表中选择多个音乐类别，实现了音乐类别的动态选择，即使属于相同视频类别的视频，动态选择的音乐类别也会有差异，避免配乐重复老套的问题。

在图1所示的视频配乐方法实施例的基础上，本公开实施例提供一种确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息的方式，具体如下：

其中，视频类别概率确定网络为深度神经网络，视频类别概率确定网络的输入为目标视频，输出为目标视频属于视频类别列表中各视频类别的概率向量。

视频类别概率确定网络为基于视频样本和视频类别列表训练得到的深度神经网络，其中，视频样本属于视频类别列表中各视频类别的概率向量为预先标注的概率向量。在训练过程中，将视频样本输入到深度神经网络中，调整深度神经网络本身的参数，直至深度神经网络输出的概率向量为预先标注的概率向量或收敛于预先标注的概率向量。

在图1所示的视频配乐方法实施例的基础上，针对图1的步骤102中基于概率信息和相关信息，确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息，本公开实施例提供一种实现方式包括如下步骤1021至步骤1023：

1021、基于目标视频属于视频类别列表中各视频类别的概率信息，确定目标视频属于视频类别列表中各视频类别的概率向量。

目标视频属于视频类别列表中第i个视频类别的概率信息记为pi，且满足：

相应地，目标视频属于视频类别列表中各视频类别的概率向量记为：

表示概率向量为实数域上的N维向量。

1022、基于视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息，确定视频类别列表与音乐类别列表之间的相关性矩阵。

视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息记为：

f(v，a)∈[0，1]，v∈V，a∈A

相应地，视频类别列表与音乐类别列表之间的相关性矩阵记为：

其中，

表示相关性矩阵S为实数域上的二维(N×M维)矩阵，且相关性矩阵S中任一元素记为：

1023、基于概率向量和相关性矩阵，确定目标视频与音乐类别列表中各音乐类别之间的加权置信度信息。

本实施例中，目标视频与音乐类别列表中各音乐类别之间的匹配信息为加权置信度信息。

加权置信度信息通过下式计算：

其中，

是所述目标视频与所述音乐类别列表中各音乐类别之间的加权置信度信息构成的向量，

表示实数域上的M维向量，

基于以上实施例公开的视频配乐方法，针对图1的步骤103中基于匹配信息，从音乐类别列表中确定多个音乐类别，本公开实施例提供一种实现方式，具体包括如下步骤1031和步骤1032：

1031、将目标视频与音乐类别列表中各音乐类别之间的加权置信度信息进行排序。

本实施例中，将目标视频与音乐类别列表中各音乐类别之间的加权置信度信息构成的向量记为

是实数域上的M维向量，M为音乐类别列表中音乐类别的数量。

在一些实施例中，将目标视频与音乐类别列表中各音乐类别之间的加权置信度信息进行排序，可以通过下式实现排序：

其中，rank函数为排序函数，rank函数是对向量

中的元素进行排序，rank函数的返回值是向量

中各元素排序后的排名；asc表示升序排序。

例如，若

则

1032、基于排序的结果，按照加权置信度由大到小的顺序确定多个音乐类别。

例如，按照加权置信度由大到小的顺序确定k个音乐类别，k为正整数，且k＜M。k个加权置信度的位序号记为：

其中，d_i表示第i个权置信度位序号。

基于k个加权置信度的位序号确定对应的k个音乐类别，将这k个音乐类别作为目标视频对应的合理的k个音乐类别，每个音乐类别对应一个音乐库(即歌单)。

进而，可以从k个音乐类别对应的k个音乐库中搜索一个目标音乐(即推荐音乐)与目标视频进行视频配乐。其中，搜索方式可以为随机方式，也可以为基于搜索策略的方法，搜索策略可以根据实际需要进行设置，本实施例不限定搜索策略的具体内容。

可见，相比相关技术中的方式三中属于相同视频类别的视频，使用相同的音乐歌单，存在配乐重复老套的问题，本实施例中，采用加权的形式综合考虑了目标视频所符合的音乐类别，即使属于相同视频类别的两个视频，这两个视频所符合的音乐类别仍然可以存在差异，进而产生合理的且具有差异化的推荐音乐，避免了重复推荐的问题。

基于以上各实施例公开的视频配乐方法，图2示出了另一种视频配乐方法流程图，在图2中，可以预先确定视频类别列表V和音乐类别列表A。

视频类别列表V中共有N个视频类别，记为：

V＝{v₁，v₂，...，v_N}

其中，v₁为运动，v₂为母婴，v_N为室内，其他视频类别可以为美食、风景，汽车，机械等。

音乐类别列表A中共有M个音乐类别，记为：

A＝{a₁，a₂，...，a_M}

其中，a₁为摇滚，a₂为爵士，a_M为中国风，其他音乐类别可以为流行，动感，清新，舒缓，古典等。

基于视频类别列表V和音乐类别列表A，可以确定V和A之间的相关性矩阵，记为：

其中，

基于视频类别列表V，可以确定待配乐的目标视频属于V中各视频类别的概率向量，记为：

表示概率向量为实数域上的N维向量。目标视频属于V中第i个视频类别的概率信息记为p_i，且满足：

基于V和A之间的相关性矩阵

和目标视频属于V中各视频类别的概率向量

，可以确定目标视频与A中各音乐类别之间的加权置信度信息构成的向量，记为：

表示实数域上的M维向量。

进而，可以确定数值最高的k个加权置信度位序号，记为：

其中，d_i表示第i个权置信度位序号，rank函数为排序函数，rank函数是对向量

中的元素进行排序，rank函数的返回值是向量

中各元素排序后的排名；asc表示升序排序。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员能够理解，本公开实施例并不受所描述的动作顺序的限制，因为依据本公开实施例，某些步骤可以采用其他顺序或者同时进行。另外，本领域技术人员能够理解，说明书中所描述的实施例均属于可选实施例。

图3为本公开实施例提供的一种视频配乐装置的示例性框图。该视频配乐装置应用于视频配乐***，视频配乐***既可以应用于服务端，也可以应用于客户端，其中，视频配乐***可以为软件***，硬件***或者软硬件相结合的***。该视频配乐装置可以应用于任意类型的电子设备，例如为智能手机、平板电脑、笔记本电脑等便携移动式设备，又例如为台式计算机、智能电视等固定式设备。本实施例中，预先确定视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息。如图3所示，视频配乐装置可以包括但不限于以下单元：第一确定单元31、第二确定单元32、第三确定单元33、搜索单元34和配乐单元35。

第一确定单元31，用于确定待配乐的目标视频属于视频类别列表中各视频类别的概率信息；

第二确定单元32，用于基于概率信息和相关信息，确定目标视频与音乐类别列表中任一音乐类别之间的匹配信息；

第三确定单元33，用于基于匹配信息，从音乐类别列表中确定多个音乐类别；

搜索单元34，用于从多个音乐类别对应的音乐库中搜索一个目标音乐；

配乐单元35，用于将目标音乐与目标视频进行视频配乐。

在一些实施例中，第一确定单元31，用于通过预先训练的视频类别概率确定网络对待配乐的目标视频进行处理，得到目标视频属于视频类别列表中各视频类别的概率向量。

在一些实施例中，匹配信息为加权置信度信息。第二确定单元32用于：基于所述概率信息，确定所述目标视频属于所述视频类别列表中各视频类别的概率向量；基于所述相关信息，确定所述视频类别列表与所述音乐类别列表之间的相关性矩阵；基于所述概率向量和所述相关性矩阵，确定所述目标视频与所述音乐类别列表中各音乐类别之间的加权置信度信息。

在一些实施例中，加权置信度信息通过下式计算：

其中，

在一些实施例中，第三确定单元33用于：将目标视频与音乐类别列表中各音乐类别之间的加权置信度信息进行排序；基于排序的结果，按照加权置信度由大到小的顺序确定多个音乐类别。

以上公开的视频配乐装置各实施例的细节可参考前述的视频配乐方法各实施例的细节，为避免重复不再赘述。

在一些实施例中，以上各装置实施例中各单元的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如视频配乐装置中至少两个单元可以实现为一个单元；视频配乐装置中各单元也可以划分为多个子单元。可以理解的是，各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图4是本公开实施例提供的一种电子设备的结构示意图。电子设备例如为智能手机、平板电脑、笔记本电脑等便携移动式设备，又例如为台式计算机、智能电视等固定式设备。

如图4所示，电子设备包括：至少一个处理器41、至少一个存储器42和至少一个通信接口43。电子设备中的各个组件通过总线***44耦合在一起。通信接口43，用于与外部设备之间的信息传输。可理解地，总线***44用于实现这些组件之间的连接通信。总线***44除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图4中将各种总线都标为总线***44。

可以理解，本实施例中的存储器42可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器42存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作***和应用程序。

其中，操作***，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础任务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用任务。实现本公开实施例提供的视频配乐方法的程序可以包含在应用程序中。

在本公开实施例中，处理器41通过调用存储器42存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器41用于执行本公开实施例提供的视频配乐方法各实施例的步骤。

本公开实施例提供的视频配乐方法可以应用于处理器41中，或者由处理器41实现。处理器41可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的视频配乐方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器42，处理器41读取存储器42中的信息，结合其硬件完成方法的步骤。

本公开实施例还提出一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如视频配乐方法各实施例的步骤，为避免重复描述，在此不再赘述。在一些实施例中，计算机可读存储介质为非暂态计算机可读存储介质。

本公开实施例还提出一种计算机程序产品，其中，该计算机程序产品包括计算机程序，该计算机程序存储在非暂态计算机可读存储介质中，计算机的至少一个处理器从存储介质读取并执行该计算机程序，使得计算机执行如视频配乐方法各实施例的步骤，为避免重复描述，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种视频配乐方法，其中，预先确定视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息，所述方法包括：

确定待配乐的目标视频属于所述视频类别列表中各视频类别的概率信息；

基于所述概率信息和所述相关信息，确定所述目标视频与所述音乐类别列表中任一音乐类别之间的匹配信息；

基于所述匹配信息，从所述音乐类别列表中确定多个音乐类别；

从所述多个音乐类别对应的音乐库中搜索一个目标音乐；

将所述目标音乐与所述目标视频进行视频配乐。

2.根据权利要求1所述的方法，其中，所述确定待配乐的目标视频属于所述视频类别列表中各视频类别的概率信息包括：

通过预先训练的视频类别概率确定网络对所述待配乐的目标视频进行处理，得到所述目标视频属于所述视频类别列表中各视频类别的概率向量。

3.根据权利要求1所述的方法，其中，所述视频类别概率确定网络为基于视频样本和所述视频类别列表训练得到的神经网络；

其中，所述视频样本属于所述视频类别列表中各视频类别的概率向量为预先标注的概率向量。

4.根据权利要求1所述的方法，其中，所述匹配信息为加权置信度信息；所述基于所述概率信息和所述相关信息，确定所述目标视频与所述音乐类别列表中任一音乐类别之间的匹配信息包括：

基于所述概率信息，确定所述目标视频属于所述视频类别列表中各视频类别的概率向量；

基于所述相关信息，确定所述视频类别列表与所述音乐类别列表之间的相关性矩阵；

基于所述概率向量和所述相关性矩阵，确定所述目标视频与所述音乐类别列表中各音乐类别之间的加权置信度信息。

5.根据权利要求4所述的方法，其中，所述基于所述匹配信息，从所述音乐类别列表中确定多个音乐类别包括：

将所述目标视频与所述音乐类别列表中各音乐类别之间的加权置信度信息进行排序；

基于所述排序的结果，按照加权置信度由大到小的顺序确定多个音乐类别。

6.一种视频配乐装置，其中，预先确定视频类别列表中任一视频类别与音乐类别列表中任一音乐类别之间的相关信息，所述装置包括：

第一确定单元，用于确定待配乐的目标视频属于所述视频类别列表中各视频类别的概率信息；

第二确定单元，用于基于所述概率信息和所述相关信息，确定所述目标视频与所述音乐类别列表中任一音乐类别之间的匹配信息；

第三确定单元，用于基于所述匹配信息，从所述音乐类别列表中确定多个音乐类别；

搜索单元，用于从所述多个音乐类别对应的音乐库中搜索一个目标音乐；

配乐单元，用于将所述目标音乐与所述目标视频进行视频配乐。

7.根据权利要求6所述的装置，其中，所述匹配信息为加权置信度信息；所述第二确定单元用于：

基于所述概率信息，确定所述目标视频属于所述视频类别列表中各视频类别的概率向量；基于所述相关信息，确定所述视频类别列表与所述音乐类别列表之间的相关性矩阵；基于所述概率向量和所述相关性矩阵，确定所述目标视频与所述音乐类别列表中各音乐类别之间的加权置信度信息。

8.根据权利要求7所述的装置，其中，所述第三确定单元用于：

9.一种电子设备，其中，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至5任一项所述视频配乐方法的步骤。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至5任一项所述视频配乐方法的步骤。