CN109862393A

CN109862393A - 视频文件的配乐方法、***、设备及存储介质

Info

Publication number: CN109862393A
Application number: CN201910216297.8A
Authority: CN
Inventors: 裴勇; 郑文琛; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-06-07
Anticipated expiration: 2039-03-20
Also published as: CN109862393B

Abstract

本发明公开了一种视频文件的配乐方法、***、设备及存储介质，该方法包括：从待配乐的初始视频文件中提取出所述初始视频文件的各项视频特征，并结合各项所述视频特征生成所述初始视频文件的配乐音频文件；基于所述初始视频文件和配乐音频文件，生成测试视频文件；根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。本发明降低了视频配乐的整体成本，并结合视频内容特征和用户反馈，进行视频配乐，使用户在收看视频时能够获得更好的体验。

Description

视频文件的配乐方法、***、设备及存储介质

技术领域

本发明涉及视频配乐技术领域，尤其涉及一种视频文件的配乐方法、***、设备及存储介质。

背景技术

在制作面向受众群体的视频文件时，通常是先制作出视频内容，然后根据视频内容进行后期配乐，最终形成向广大用户播放的视频，这一点在时下的广告视频制作过程中体现的尤其明显。在现有的广告视频制作过程中，广告商设计人员会优先根据委托人的要求设计出视频内容，然后挑选已有的音频文件对视频进行后期配乐，如此，广告视频不仅整体成本高，且没有考虑到受众群体对于视频配乐的偏好要求。现有的也存在自动的音乐生成算法，但是，现有的音乐自动生成算法无法将音乐与视频内容特征结合起来，视频配乐效果一般。

发明内容

本发明的主要目的在于提供一种视频文件的配乐方法、***、设备及存储介质，旨在提高创作广告视频新配乐的质量，降低配乐成本，并结合广告视频内容特征和用户反馈，对广告视频配乐进行优化调整，从而使用户在收看广告视频时获得更好的收看体验。

为实现上述目的，本发明提供一种视频文件的配乐方法，所述视频文件的配乐方法包括以下步骤：

从待配乐的初始视频文件中提取出所述初始视频文件的各项视频特征，并结合各项所述视频特征生成所述初始视频文件的配乐音频文件；

基于所述初始视频文件和配乐音频文件，生成测试视频文件；

根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。

可选地，所述视频特征包括：光流强度特征、色度直方图特征、shot边界特征，

所述从待配乐的初始视频文件中提取出所述视频文件的各项视频特征的步骤包括：

提取所述初始视频文件中各视频图像对应的各光流图，和所述视频图像的色度直方图；

将各所述光流图的平均光流强度作为所述初始视频文件的光流强度特征；

将所述色度直方图进行归一化处理之后，作为所述初始视频文件的色度直方图特征；

检测所述视频图像的shot边界，将所述shot边界所述初始视频文件的shot边界特征。

可选地，所述视频特征还包括：视频情感分数特征，

所述从待配乐的初始视频文件中提取出所述视频文件的各项视频特征的步骤还包括：

读取所述初始视频文件的视频内容，检测并统计所述视频内容中标识视频情感的情感数据；

将所述情感数据输入至预设情感分析模型，以供所述预设情感分析模型对所述情感数据进行预测得到所述视频内容的情感分数；

将所述情感分数作为所述初始视频文件的视频情感分数特征。

可选地，结合各项所述视频特征生成所述初始视频文件的配乐音频文件的步骤包括：

将各项所述视频特征输入至预设配乐模型，所述预设配置模型通过添加的预设训练样本进行学习训练，所述预设训练样本包括：音视频数据和纯音频数据；

在所述预设配乐模型中，结合各项所述视频特征生成所述初始视频文件的配乐音频文件。

可选地，在所述将各项所述视频特征输入至预设配乐模型的步骤之前，所述方法还包括：

检测所述初始视频文件的lookback特征，并将所述lookback特征输入至所述预设配乐模型。

可选地，所述预设配乐模型为基于序列神经网络生成音频文件的配乐模型，

在所述预设配乐模型中，结合各项所述视频特征生成所述初始视频文件的配乐音频文件的步骤包括：

根据所述初始视频文件的各项所述视频特征和所述lookback特征，生成音符序列；

将所述音符序列输入音符时长序列神经网络，以供所述音符时长神经网络根据所述音符序列和所述lookback特征输出音符时长序列；

将所述音符序列输入鼓点序列神经网络，以供所述鼓点序列神经网络根据所述音符序列输出鼓点组合；

根据所述音符序列、音符时长序列和所述鼓点组合，生成所述初始视频文件的配乐音频文件。

可选地，基于所述初始视频文件和配乐音频文件，生成测试视频文件的步骤包括：

读取所述初始视频文件和所述配乐音频文件的播放时间序列；

基于所述播放时间序列，将所述初始视频文件和所述配乐音频文件合成为测试视频文件。

可选地，所述根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件的步骤包括：

检测所述测试视频文件的投放平台，从所述投放平台上获取所述测试视频文件收看对象的用户画像模型和评价参数；

读取相同用户画像模型的各用户在预设周期内收看所述测试视频文件的评价参数，并根据所述评价参数构建用户行为特征序列；

根据所述用户行为特征序列计算用户收看所述测试视频文件时，对所述配乐音频文件的偏好概率分布数据；

以所述偏好概率分布数据指导生成所述配乐音频文件的预设配乐模型，以对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。

此外，本发明还提供一种视频文件的配乐***，所述视频文件的配乐***基于序列神经网络生成视频文件的配乐音频，所述视频文件的配乐***包括：

配乐音频生成模块，用于从待配乐的初始视频文件中提取出所述初始视频文件的各项视频特征，并结合各项所述视频特征生成所述初始视频文件的配乐音频文件；

待测视频生成模块，用于基于所述初始视频文件和配乐音频文件，生成测试视频文件；

配乐音频修正模块，用于根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。

可选地，所述视频文件的配乐***还包括：

学习训练模块，用于添加预设训练样本对生成所述配乐音频文件的预设配乐模型进行学习训练，所述预设训练样本包括：音视频数据和纯音频数据。

此外，本发明还提供一种视频文件的配乐设备，所述视频文件的配乐设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频文件的配乐程序，所述视频文件的配乐程序被所述处理器执行时实现如上所述的视频文件的配乐方法的步骤。

此外，本发明还提供一种存储介质，应用于计算机，所述存储介质上存储有视频文件的配乐程序，所述视频文件的配乐程序被处理器执行时实现如上所述的视频文件的配乐方法的步骤。

本发明通过从待配乐的初始视频文件中提取出所述初始视频文件的各项视频特征，并结合各项所述视频特征生成所述初始视频文件的配乐音频文件；基于所述初始视频文件和配乐音频文件，生成测试视频文件；根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件；由此，结合从初始视频文件的视频内容中提取出的各项视频特征，由经过添加音视频数据和纯音频数据进行迁移学习训练，并由采集的收看该广告视频文件受众群体的用户特征数据进行指导优化的配音模型，生成当前初始视频文件经过配音后的待用视频文件。不仅通过自动配音算法实现自动配乐降低了视频文件配乐的高昂成本，并结合视频内容特征进行配乐进一步提升了配乐的整体质量，而且，还基于该视频文件受众群体的反馈评价对配乐音频文件进行优化调整，满足了用户对于配乐内容的偏好要求，提升了用户对于该视频文件的收看体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明视频文件的配乐方法第一实施例的流程示意图；

图3为图2中步骤S100的细化步骤示意图；

图4为本发明视频文件的配乐方法第二实施例的流程示意图；

图5为本发明视频文件的配乐方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为视频文件的配乐设备的硬件运行环境的结构示意图。本发明实施例视频文件的配乐设备可以是PC，便携计算机等终端设备。

如图1所示，该视频文件的配乐设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的视频文件的配乐设备结构并不构成对视频文件的配乐设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及视频文件的配乐程序。其中，操作***是管理和控制样本视频文件的配乐设备硬件和软件资源的程序，支持视频文件的配乐程序以及其它软件或程序的运行。

在图1所示的视频文件的配乐设备中，用户接口1003主要用于与各个终端进行数据通信；网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频文件的配乐程序，并执行以下操作：

进一步地，处理器1001还可以用于调用存储器1005中存储的视频文件的配乐程序，并执行以下步骤：

所述视频特征还包括：视频情感分数特征，

进一步地，处理器1001还可以用于调用存储器1005中存储的视频文件的配乐程序，在所述将各项所述视频特征输入至预设配乐模型的步骤之前，执行以下步骤：

基于上述的结构，提出本发明视频文件的配乐方法的各个实施例。

请参照图2，图2为本发明视频文件的配乐方法第一实施例的流程示意图。

本发明实施例提供了视频文件的配乐方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例视频文件的配乐方法应用于视频文件的配乐设备，本发明实施例视频文件的配乐设备可以是PC，便携计算机等终端设备，在此不做具体限制。

本实施例视频文件的配乐方法包括：

步骤S100，从待配乐的初始视频文件中提取出所述初始视频文件的各项视频特征，并结合各项所述视频特征生成所述初始视频文件的配乐音频文件。

当检测到开始播放初始视频文件时，调用预设算法以及预设序列神经网络模型，从当前播放的初始视频文件中提取出各项视频特征，并将提取出的各项视频特征发送至基于序列神经网络进行自动配乐的预设配乐模型，由预设配乐模型结合当前各项视频特征，按照当前初始视频文件的播放时序，依次生成该初始视频文件的配乐音频文件。

在本实施例中，视频文件具体可以为广告商设计人员根据客户需求已经将视频内容制作完毕的广告视频；各预设算法以及预设序列神经网络模型具体可以为GunnarFarneback光流算法、色度直方图算法、shot边界检测模型以及视频分类训练预测模型；预设配乐模型具体可以为基于序列神经网络的自动配乐模型。

具体地，例如，在本实施例中，通过调用上述各预设算法以及预设序列神经网络模型，提取出当前正在播放的广告视频内容中的各项视频特征之后，将各项视频特征传入至基于序列神经网络的预设配乐模型当中，以供预设配乐模型结合该广告视频的各项视频特征进行自动配乐。

进一步地，请参照图3，图3为图2中步骤S100的细化步骤示意图，待配乐的初始视频文件的各项视频特征包括：光流强度特征、色度直方图特征、shot边界特征，在步骤S100中，从待配乐的初始视频文件中提取出所述视频文件的各项视频特征的步骤包括：

步骤S101，提取所述初始视频文件中各视频图像对应的各光流图，和所述视频图像的色度直方图。

调用预设算法，分析提取出当前播放的初始视频文件每一帧视频图像所对应的光流图，以及每一帧视频图像所对应的色度直方图。

具体地，例如，在本实施例中，在从开始播放当前广告视频直到结束播放该广告视频的整个过程中，分别调用或者同时调用Gunnar Farneback光流算法和色度直方图算法，逐一分析并提取出当前广告视频的视频图像所对应的光流图，以及每一帧视频图像中的色度直方图。

在本实施例中，调用Gunnar Farneback光流算法，提取出当前广告视频每一帧视频图像的稠密光流，并形成视频图像所对应的光流图。

步骤S102，将各所述光流图的平均光流强度作为所述初始视频文件的光流强度特征。

具体地，例如，在本实施例中，通过调用Gunnar Farneback光流算法，计算已经形成的当前广告视频每一帧视频图像所对应光流图的平均光流强度，将该平均光流强度作为当前广告视频文件的光流强度特征。

步骤S103，将所述色度直方图进行归一化处理之后，作为所述初始视频文件的色度直方图特征。

具体地，例如，在本实施例中，通过调用色度直方图算法，进一步将提取出的当前广告视频每一帧视频图像的色度直方图进行归一化处理，并将进行归一化处理之后的色度直方图向量作为当前广告视频文件的色度直方图特征。

步骤S104，检测所述视频图像的shot边界，将所述shot边界所述初始视频文件的shot边界特征。

调用预设shot边界检测模型，检测当前初始视频文件中，视频内容的各段落变化情况，并将shot边界检测结果作为当前初始视频文件的shot边界特征。

具体地，例如，在本实施例中，在从开始播放当前广告视频直到结束播放该广告视频的整个过程中，调用预设shot边界检测模型，检测当前播放的广告视频的分段变化情况，并将shot边界检测模型的检测结果作为当前播放的广告视频文件的shot边界特征。

进一步地，待配乐的初始视频文件的视频特征还包括：视频情感分数特征，步骤S100中，从待配乐的初始视频文件中提取出所述视频文件的各项视频特征的步骤，还包括：

步骤S105，读取所述初始视频文件的视频内容，检测并统计所述视频内容中标识视频情感的情感数据。

读取并检测当前播放的初始视频文件的视频内容，对该视频内容中用于标识视频情感的情感数据进行统计。

具体地，例如，在本实施例中，读取当前播放的广告视频的视频内容，并对该视频内容中的视频数据进行标记，以根据该标记对当前广告视频的视频内容的情感分数按照1至10分进行分析统计得出分数结果(分数越高代表当前广告视频的视频内容越有激情或者更加喜悦，分数越低代表当前广告视频的视频内容越平静)。

步骤S106，将所述情感数据输入至预设情感分析模型，以供所述预设情感分析模型对所述情感数据进行预测得到所述视频内容的情感分数。

具体地，例如，在本实施例中，在获得标记数据后，将该标记数据输入至预设视频分类训练预测模型，通过调用基于序列神经网络的视频分类训练预测模型，进一步对当前广告视频下一时刻的情感度分数进行预测。

在本实施例中，所用预设视频分类训练预测模型具体可以为TSN(TemporalSegment Network)基于行为识别的视频分类模型，或者可以为趋势预测(Stream)视频分类模型。

步骤S107，将所述情感分数作为所述初始视频文件的视频情感分数特征。

具体地，例如，在本实施例中，将视频分类训练预测模型预测出的当前广告视频内容的情感分数，作为当前广告视频文件的情感分数特征。

进一步地，步骤S100中，结合各项所述视频特征生成所述初始视频文件的配乐音频文件的步骤包括：

步骤S108，将各项所述视频特征输入至预设配乐模型。

具体地，例如，在本实施例中，将基于Gunnar Farneback光流算法、色度直方图算法、shot边界检测模型以及视频分类训练预测模型提取出的当前广告视频的光流强度特征、色度直方图特征、shot边界特征和情感分数特征等视频特征，传入至基于序列神经网络的预设配乐模型。

在本实施例中，所用预设配乐模型具体可以为基于时间递归序列神经网络(LSTM序列神经网络)的自动配乐模型，在该预设配乐模型结合各项所述视频特征生成所述视频文件的配乐音频文件之前，该预设配乐模型通过添加预设训练样本对所述预设配乐模型进行学习训练，预设训练样本包括：音视频数据和纯音频数据，通过添加训练样本对基于序列神经网络的自动配乐模型进行学习训练，自动配乐模型在对视频文件进行自动配乐时，能够获得更好的效果。

具体地，例如，使用迁移学习的方法来利用音视频数据(MTV)和各种纯音频数据两类不同的样本对基于序列神经网络的自动配乐模型进行模型训练。根据迁移学习的一般化定义问题，在源任务使用第二类样本(纯音频数据)进行训练，采用编码器-解码器的模型结构,编码器模型将输入的音乐样本映射到特征空间，解码器再对特征空间中的嵌入特征(embedding feature)进行解码，实现从特征空间到音乐的映射，通过编码器和解码器的训练，源任务模型获得了从特征空间到音乐的模型权重；目标任务使用第一类样本(音视频数据)进行训练，首先使用特征提取模块将音视频数据映射到源任务中的特征空间，再通过源任务中的解码器模型将embedding feature映射到音乐，实现端到端的学习和模型的同步更新。

进一步地，在步骤S108，将各项所述视频特征输入至预设配乐模型的步骤之前，本发明视频文件的配乐方法还包括：

在本实施例中，为了使上述基于序列神经网络的预设配乐模型能够更好的对广告视频文件的配乐音频进行学习训练，对生成的中lookback特征(即1-2个小节之前的输出，上一个输出是否和1-2个小节之前的输出相同，当前输出在当前小节的位置)进行检测，并将该lookback特征连同当前视频文件的其他各项视频特征一起，输入至基序列神经网络的预设配乐模型，以供配乐模型更好的识别学习当前视频文件的配音中重复和相似的旋律。

步骤S109，在所述预设配乐模型中，结合各项所述视频特征生成所述初始视频文件的配乐音频文件。

当基于序列神经网络的预设配乐模型，接收到当前播放的初始视频文件的各项视频特征以及当前初始视频文件的lookback特征之后，结合当前各项视频特征，按照当前初始视频文件的播放时序，依次生成该初始视频文件的配乐音频文件。

具体地，例如，在本实施中，当基于序列神经网络的预设配乐模型，接收到基于Gunnar Farneback光流算法、色度直方图算法、shot边界检测模型以及视频分类训练预测模型提取出的当前广告视频的光流强度特征、色度直方图特征、shot边界特征和情感分数特征等视频特征，以及当前视频文件的lookback特征之后，结合该广告视频当前播放时刻的各项视频特征以及lookback特征，以及当前播放时刻前一时刻，已经生成的该广告视频的配乐音频，根据序列神经网络的计算预测自动生成当前广告视频下一播放时刻的配乐音频，并按照当前广告视频的播放时序，重复以上配乐操作依次生成配乐音频文件，直到当前广告视频播放完毕。

步骤S200，基于所述初始视频文件和配乐音频文件，生成测试视频文件。

按照当前初始视频文件，和根据该初始视频文件的各项视频特征以及lookback特征生成的配乐音频文件的播放时间序列，将该初始视频文件和配乐音频文件进行组合，以生成当前初始视频文件含有音频内容的测试视频文件。

进一步地，步骤S200包括：

步骤S201，读取所述初始视频文件和所述配乐音频文件的播放时间序列。

具体地，例如，在本实施例中，分别读取当前播放的广告视频文件的播放时间序列，以及由基于序列神经网络的预设配乐模型根据当前广告视频文件的光流强度特征、色度直方图特征、shot边界特征和情感分数特征等视频特征，以及当前视频文件的lookback特征生成的配乐音频文件的播放时间序列。

步骤S202，基于所述播放时间序列，将所述初始视频文件和所述配乐音频文件合成为测试视频文件。

具体地，例如，在本实施例中，按照读取的当前播放的广告视频文件的播放时间序列，和与该播放时间序列所对应的配乐音频文件的播放时间序列，将当前配乐音频文件组合至当前广告视频文件中，以生成当前广告视频文件含有音频内容的测试视频文件。

步骤S300，根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。

在当前初始视频文件的投放平台上，检测收看当前初始视频文件的受众用户，并从该平台上获取受众用户的画像模型以及收看当前测试视频文件时，对该测试视频文件的评价参数，调用预设推荐模型，将获取的各项用户画像模型和评价参数输入至该推荐模型，对受众用户收看当前视频文件时的偏好进行预测，并根据该预测结果对预设配乐模型进行优化，以指导该预设配乐模型对生成的配乐音频文件进行修正，并最终生成当前测试视频文件的待用视频文件。

进一步地，提出本发明基于机器学习模型的特征分析方法第二实施例。

请参照图4，图4为本发明视频文件的配乐方法第二实施例的流程示意图，基于上述视频文件的配乐方法第一实施例，本实施例中，上述步骤S109，在所述预设配乐模型中，结合各项所述视频特征生成所述初始视频文件的配乐音频文件的步骤包括：

步骤S1091，根据所述初始视频文件的各项所述视频特征和所述lookback特征，生成音符序列。

在将调用预设算法以及预设序列神经网络模型，从当前播放的初始视频文件中提取出各项视频特征，和检测的当前初始视频文件的lookback特征输入至基于序列神经网络的预设配乐模型中之后，预设配乐模型结合该各项视频特征以及lookback特征，首先生成配乐音符序列。

具体地，例如，在本实施例中，基于序列神经网络的预设配乐模型在接收到到当前广告视频的光流强度特征、色度直方图特征、shot边界特征和情感分数特征，以及当前广告视频的lookback特征之后，基于LSTM序列神经网络在每一播放时刻t，输入时间点t的各项视频特征和Lookback特征，即光流强度特征、色度直方图特征、shot边界特征和情感分数特征，以及时间点t-1(即当前播放时刻前一时刻)输出的音符，并输出LSTM序列神经网络在每一时间点为音符选择的输出音符概率分布，取概率最大的一个音符为当前音符。

在本实施例中，为简化自动配乐模型和优化效果，将输出音符的范围限定在C3-C6之间的3个八度，即36个音符，最终，模型的输出为37维的概率分布，代表了36个音符+1个空白位(即此时刻没有音符)。

步骤S202，将所述音符序列输入音符时长序列神经网络，以供所述音符时长神经网络根据所述音符序列和所述lookback特征输出音符时长序列。

在本实施例中，将预设配乐模型结合当前视频文件的各项视频特征和lookback特征生成的音符序列作为输入，输入至当前预设配乐模型中的音符时长序列神经网络，由音符时长神经网络结合该音符序列和各视频文件播放时刻所对应的lookback特征，输出当前音符序列的音符时长序列。

步骤S203，将所述音符序列输入鼓点序列神经网络，以供所述鼓点序列神经网络根据所述音符序列输出鼓点组合。

在本实施例中，将预设配乐模型结合当前视频文件的各项视频特征和音符序列作为输入，输入至当前预设配乐模型中的鼓点序列神经网络，由鼓点序列神经网络根据输入的音符序列，在音符序列的每一小节，根据当前小节的音符序列和当前小节前一小节的鼓点组合，从已有当前鼓点序列神经网络的鼓点组合模式(pattern)中选择并输出当前小节的鼓点组合。

步骤S204，根据所述音符序列、音符时长序列和所述鼓点组合，生成所述初始视频文件的配乐音频文件。

按照当前所述初始视频文件的播放时间序列，将基于序列神经网络的预设配乐模型基于当前视频文件的各项视频特征以及lookback特征生成的音符序列、各音符序列的音符时长序列，以及各音符序列的鼓点组合，合成当前所述初始视频文件的配乐音频文件。

本发明将所述音符序列输入音符时长序列神经网络，以供所述音符时长神经网络根据所述音符序列和所述lookback特征输出音符时长序列；将所述音符序列输入鼓点序列神经网络，以供所述鼓点序列神经网络根据所述音符序列输出鼓点组合；根据所述音符序列、音符时长序列和所述鼓点组合，生成所述初始视频文件的配乐音频文件；由此，以视频文件的视频内容为基础，调用成熟的序列神经网络结合视频文件的各项视频特征，逐层、依序自动生成当前视频文件的配乐音频文件，降低了以往广告视频配乐制作的整体成本，并且提高了广告视频配乐的整体质量，使配乐音频具有与视频特征有机结合的良好效果，从而使广告视频的受众群体具有了更好的收看体验。

进一步地，提出本发明视频文件的配乐方法第三实施例。

请参照图5，图5为本发明视频文件的配乐方法第三实施例的流程示意图，基于上述视频文件的配乐方法第一实施例和第二实施例，本实施例中，步骤S300，根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件的步骤包括：

步骤S301，检测所述测试视频文件的投放平台，从所述投放平台上获取所述测试视频文件收看对象的用户画像模型和评价参数。

具体地，例如，在本实施例中，检测当前广告视频的投放平台—DSP(需求方平台)，检测在该DSP上收看当前广告视频的受众用户，并提取该部分受众用户的用户画像模型以及收看当前广告的测试视频文件时，受众用户对该测试视频文件的评价参数。

在本实施例中，用户画像模型包括：年龄、性别、地域以及客户端机型等等，受众用户对该测试视频文件的评价参数包括：点击、播放视频的时长、时间、鼓点类型和配乐风格等。

步骤S302，读取相同用户画像模型的各用户在预设周期内收看所述测试视频文件的评价参数，并根据所述评价参数构建用户行为特征序列。

在本实施例中，调用预设推荐模型，将各项用户画像模型输入至该推荐模型，以对受众用户收看当前测试视频文件时的偏好进行预测，并根据该预测结果对预设配乐模型进行优化，以指导该预设配乐模型对生成的配乐音频文件进行修正，并最终生成当前测试视频文件的待用视频文件。

具体地，例如，在本实施例中，预设推荐模型具体可以为session-based(以服务周期为基础的)推荐模型，在session-based推荐模型中，读取具有相同年龄、性别、地域或者客户端机型等等画像模型的一类受众用户，在一定预设时间周期内，如1至2个星期以内，收看当前广告视频时的各项评价参数，如点击、播放视频的时长、时间、鼓点类型以及配乐风格等，将各行为数据按照该1至2个星期的时间先后顺序，构建当前一类相同画像模型受众用户的用户行为特征序列。

步骤S303，根据所述用户行为特征序列计算用户收看所述测试视频文件时，对所述配乐音频文件的偏好概率分布数据。

具体地，例如，在本实施例中，将构建的用户行为特征序列作为输入，输入至当前session-based推荐模型的序列神经网络中，并将该序列神经网络状态层的输出结果传入至全连层，在该序列神经网络全连层对当前一类相同属性数据的受众用户，在当前收看当前广告的测试视频下一时刻，对配乐音频风格的偏好概率分布数据进行预测，并最终输出该偏好概率分布数据。

步骤S304，以所述偏好概率分布数据指导生成所述配乐音频文件的预设配乐模型，以对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件。

根据当前session-based推荐模型的序列神经网络全连层输出的偏好概率分布数据预测结果，对当前基于序列神经网络的预设配乐模型进行指导优化，以便该预设配乐模型，对当前播放的测试视频文件的配乐音频文件进行修正，最终生成该测试视频文件的待用视频文件。

具体地，例如，在本实施例中，在播放当前广告视频的过程中，当基于LSTM序列神经网络的自动配乐模型中的鼓点序列神经网络，根据音符序列选择当前广告视频配乐的鼓点组合模式时，将鼓点序列神经网络预测的当前小节的鼓点组合预测结果和session-based推荐模型的序列神经网络全连层输出的偏好概率分布数据预测结果进行加权，以选择出更加符合收看当前广告视频的受众用户偏好的鼓点组合，并最终根据该更加符合收看当前广告视频的受众用户偏好的鼓点组合，生成当前广告视频更加符合受众用户的配乐音频文件，进而与初始广告视频文件组合形成该广告最终的待用视频文件。

本发明检测所述测试视频文件的投放平台，从所述投放平台上获取所述测试视频文件收看对象的用户画像模型和评价参数；读取相同用户画像模型的各用户在预设周期内收看所述测试视频文件的评价参数，并根据所述评价参数构建用户行为特征序列；根据所述用户行为特征序列计算用户收看所述测试视频文件时，对所述配乐音频文件的偏好概率分布数据；以所述偏好概率分布数据指导所述预设配乐模型，以对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件；由此，基于该广告视频受众群体的反馈对配乐进行优化调整，满足了用户对于配乐内容的偏好要求，进一步提升了用户对于该广告视频的收看体验。

此外，本发明实施例还提出一种视频文件的配乐***，所述视频文件的配乐***包括：

优选地，所述视频文件的配乐***还包括：

本实施例提出的视频文件的配乐***各个模块运行时实现如上所述的视频文件的配乐方法的步骤，在此不再赘述。

此外，本发明实施例还提出一种存储介质，应用于计算机，即所述存储介质为计算机可读存储介质，所述介质上存储有视频文件的配乐程序，所述视频文件的配乐程序被处理器执行时实现如上所述的视频文件的配乐方法的步骤。

其中，在所述处理器上运行的视频文件的配乐程序被执行时所实现的方法可参照本发明基于视频文件的配乐方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频文件的配乐方法，其特征在于，所述视频文件的配乐方法包括以下步骤：

2.如权利要求1所述的视频文件的配乐方法，其特征在于，所述视频特征包括：光流强度特征、色度直方图特征、shot边界特征，

3.如权利要求1所述的视频文件的配乐方法，其特征在于，所述视频特征还包括：视频情感分数特征，

4.如权利要求1至3任一项所述的视频文件的配乐方法，其特征在于，结合各项所述视频特征生成所述初始视频文件的配乐音频文件的步骤包括：

5.如权利要求4所述的视频文件的配乐方法，其特征在于，在所述将各项所述视频特征输入至预设配乐模型的步骤之前，所述方法还包括：

6.如权利要求4所述的视频文件的配乐方法，其特征在于，所述预设配乐模型为基于序列神经网络生成音频文件的配乐模型，

7.如权利要求1所述的视频文件的配乐方法，其特征在于，基于所述初始视频文件和配乐音频文件，生成测试视频文件的步骤包括：

8.如权利要求1所述的视频文件的配乐方法，其特征在于，所述根据所述测试视频文件收看对象的用户画像模型和评价参数，对所述测试视频文件中配乐音频文件进行修正，生成待用视频文件的步骤包括：

9.一种视频文件的配乐***，其特征在于，所述视频文件的配乐***基于序列神经网络生成视频文件的配乐音频，所述视频文件的配乐***包括：

10.如权利要求9所述的视频文件的配乐***，其特征在于，所述视频文件的配乐***还包括：

11.一种视频文件的配乐设备，其特征在于，所述视频文件的配乐设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频文件的配乐程序，所述视频文件的配乐程序被所述处理器执行时实现如权利要求1至8中任一项所述的视频文件的配乐方法的步骤。

12.一种存储介质，其特征在于，应用于计算机，所述存储介质上存储有视频文件的配乐程序，所述视频文件的配乐程序被处理器执行时实现如权利要求1至8中任一项所述的视频文件的配乐方法的步骤。