CN113569088B

CN113569088B - 一种音乐推荐方法、装置以及可读存储介质

Info

Publication number: CN113569088B
Application number: CN202111137216.9A
Authority: CN
Inventors: 陈姿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-21
Anticipated expiration: 2041-09-27
Also published as: CN113569088A

Abstract

本申请公开了一种音乐推荐方法、装置以及可读存储介质，该方法包括：获取与目标对象相关联的目标视频中的视频片段，对视频片段进行音视频分析，得到视频片段对应的音视频特征，基于音视频特征确定视频片段的视频属性标签；获取对象数据，从对象数据中获取与目标对象相关联的视频信息以及音乐信息，基于视频信息以及音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签；基于视频属性标签以及对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与目标综合特征标签相匹配的目标音乐，将目标音乐作为视频片段的第一匹配音乐推送给目标对象。采用本申请，可以提高视频配乐的精准度。

Description

一种音乐推荐方法、装置以及可读存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种音乐推荐方法、装置以及可读存储介质。

背景技术

随着互联网技术的快速发展，视频已成为人们在日常生活中获取信息与享受娱乐的主要载体。其中，短视频具有适应移动社交媒体碎片化传播的特点，因此越来越多的用户参与到短视频制作中。这里的短视频是指在各种视频媒体平台上播放的、适合在移动状态和短时休闲状态下观看的视频内容。

目前，在短视频的制作过程中，为了提升短视频的质量和丰富性，用户可以为当前编辑的短视频添加合适的背景音乐，现有的方案一般按照背景音乐的热度排行来为用户推荐相应的背景音乐，换言之，现有的推荐方式通常会依赖于热度排行来做一些简单的、粗粒度的筛选，以至于对于短视频平台上的各个用户而言，往往会存在这些用户无差别地接收到相同背景音乐的现象。由此可见，现有的针对短视频的音乐推荐方案，其音乐推荐的准确度低，一旦将这些具有较低准确度的背景音乐用于进行短视频的配乐，则势必会降低视频配乐的精准度。

发明内容

本申请实施例提供了一种音乐推荐方法、装置以及可读存储介质，可以提高视频配乐的精准度。

本申请实施例一方面提供了一种音乐推荐方法，包括：

获取与目标对象相关联的目标视频中的视频片段，对视频片段进行音视频分析，得到视频片段对应的音视频特征，基于音视频特征确定视频片段的视频属性标签；

获取目标对象的历史对象数据，从历史对象数据中获取与目标对象相关联的历史视频信息以及历史音乐信息，基于历史视频信息以及历史音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签；历史视频信息是基于目标对象编辑过的历史视频所确定的，历史音乐信息是基于目标对象为历史视频所选择的历史音乐所确定的；

基于视频属性标签以及对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与目标综合特征标签相匹配的目标音乐，将目标音乐作为视频片段的第一匹配音乐推送给目标对象。

本申请实施例一方面提供了一种音乐推荐装置，包括：

第一标签确定模块，用于获取与目标对象相关联的目标视频中的视频片段，对视频片段进行音视频分析，得到视频片段对应的音视频特征，基于音视频特征确定视频片段的视频属性标签；

第二标签确定模块，用于获取目标对象的历史对象数据，从历史对象数据中获取与目标对象相关联的历史视频信息以及历史音乐信息，基于历史视频信息以及历史音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签；历史视频信息是基于目标对象编辑过的历史视频所确定的，历史音乐信息是基于目标对象为历史视频所选择的历史音乐所确定的；

第一音乐推送模块，用于基于视频属性标签以及对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与目标综合特征标签相匹配的目标音乐，将目标音乐作为视频片段的第一匹配音乐推送给目标对象。

其中，上述第一标签确定模块，包括：

模型获取单元，用于获取与目标对象相关联的目标视频，从目标视频中获取由目标对象所选取的视频片段，加载与视频片段相关联的目标网络模型；目标网络模型包括用于进行图像分析的第一网络模型、用于进行文本分析的第二网络模型以及用于进行音频分析的第三网络模型；

图像分析单元，用于对视频片段进行抽帧处理，得到视频帧序列，将视频帧序列输入第一网络模型，通过第一网络模型对视频帧序列进行图像分析，得到视频帧序列对应的图像特征；

文本分析单元，用于获取视频片段的目标文本数据，将目标文本数据输入第二网络模型，通过第二网络模型对目标文本数据进行文本分析，得到目标文本数据对应的文本特征；

音频分析单元，用于获取视频片段的背景音频数据，将背景音频数据输入第三网络模型，通过第三网络模型对背景音频数据进行音频分析，得到背景音频数据对应的背景音频特征；

特征确定单元，用于基于图像特征、文本特征以及背景音频特征确定视频片段对应的音视频特征。

其中，上述图像特征中包含用于表征视频片段的画风属性的第一调性特征；背景音频特征中包含用于表征背景音频数据的音乐属性的第二调性特征；

上述特征确定单元，包括：

特征融合子单元，用于对图像特征中的第一调性特征和背景音频特征中的第二调性特征进行特征融合，得到视频片段对应的融合调性特征；

特征确定子单元，用于将图像特征、文本特征以及融合调性特征作为视频片段对应的音视频特征。

其中，上述第一网络模型包括对象属性分析网络、场景分析网络、动作分析网络、物品分析网络；

上述图像分析单元，包括：

对象属性分析子单元，用于将视频帧序列输入对象属性分析网络，通过对象属性分析网络对视频帧序列进行对象属性分析，得到视频帧序列对应的对象属性特征；

场景分析子单元，用于将视频帧序列输入场景分析网络，通过场景分析网络对视频帧序列进行场景分析，得到视频帧序列对应的场景特征；

动作分析子单元，用于将视频帧序列输入动作分析网络，通过动作分析网络对视频帧序列进行动作分析，得到视频帧序列对应的动作特征；

物品分析子单元，用于将视频帧序列输入物品分析网络，通过物品分析网络对视频帧序列进行物品分析，得到视频帧序列对应的物品特征；

图像特征确定子单元，用于将对象属性特征、场景特征、动作特征以及物品特征作为视频帧序列对应的图像特征。

其中，上述对象属性分析子单元，具体用于将视频帧序列输入对象属性分析网络，在对象属性分析网络中，对视频帧序列进行人脸检测，获取视频帧序列中的关键对象的原始人脸图像；对原始人脸图像进行预处理，得到目标人脸图像；对目标人脸图像进行对象属性特征提取，得到视频帧序列对应的对象属性特征。

其中，上述文本分析单元，具体用于获取视频片段的片段文本数据以及对象音频数据，对对象音频数据进行语音转换，得到转换文本数据，将片段文本数据和转换文本数据作为目标文本数据；对目标文本数据进行分词处理，得到目标文本数据的文本分词，对文本分词进行向量转换，得到文本分词对应的文本分词向量；将文本分词向量输入第二网络模型，通过第二网络模型对文本分词向量进行文本特征提取，得到目标文本数据对应的文本特征。

其中，上述目标网络模型还包括用于进行图像分类的第一分类器、用于进行文本分类的第二分类器以及用于进行调性分类的第三分类器；

上述第一标签确定模块，包括：

图像分类单元，用于基于图像特征以及第一分类器，对视频片段进行图像分类，得到视频片段的目标图像标签；

文本分类单元，用于基于文本特征以及第二分类器，对视频片段进行文本分类，得到视频片段的目标文本标签；

调性分类单元，用于基于融合调性特征以及第三分类器，对视频片段进行调性分类，得到视频片段的目标调性标签；

标签确定单元，用于将目标图像标签、目标文本标签以及目标调性标签作为视频片段的视频属性标签。

其中，上述视频属性标签包括K个视频属性子标签，K为正整数；对象属性标签包括L个对象属性子标签，L为正整数；

上述第一音乐推送模块，包括：

第一重合检测单元，用于对K个视频属性子标签以及L个对象属性子标签中的任意两个子标签进行重合度检测，得到任意两个子标签之间的第一重合度，基于第一重合度对K个视频属性子标签以及L个对象属性子标签进行标签整合，得到目标综合特征标签；

第一音乐匹配单元，用于从音乐推荐数据库中获取与目标综合特征标签相关联的背景音乐集合，在背景音乐集合中基于每个背景音乐的音乐标签与目标综合特征标签之间的标签匹配度，对每个背景音乐进行排序，从排序后的背景音乐集合中获取目标音乐，将目标音乐作为视频片段的第一匹配音乐推送给目标对象。

其中，上述第一音乐匹配单元，具体用于在排序后的背景音乐集合中获取标签匹配度在匹配区间内的背景音乐作为目标音乐，将目标音乐作为视频片段的第一匹配音乐推送给目标对象。

其中，目标文本数据包括评论文本信息；该装置还包括：

转场检测模块，用于在评论文本信息中检测用于表征转场属性的目标关键词，当在评论文本信息中检测到目标关键词时，确定视频片段存在目标关键字所表征的转场属性；从视频片段中获取目标关键词对应的目标视频帧，将目标视频帧作为视频片段中的转场位置；

第二音乐推送模块，用于获取目标关键词对应的转场属性标签，基于转场属性标签以及对象属性标签，生成综合转场特征标签，从音乐推荐数据库中获取与综合转场特征标签相匹配的目标转场音乐，将目标转场音乐作为视频片段的第二匹配音乐推送给目标对象；目标转场音乐用于添加至转场位置。

其中，上述转场属性标签包括M个转场属性子标签，M为正整数；对象属性标签包括N个对象属性子标签，N为正整数；

上述第二音乐推送模块，包括：

第二重合检测单元，用于对M个转场属性子标签以及N个对象属性子标签中的任意两个子标签进行重合度检测，得到任意两个子标签之间的第二重合度，基于第二重合度对M个转场属性子标签以及N个对象属性子标签进行标签整合，得到综合转场特征标签；

第二音乐匹配单元，用于从音乐推荐数据库中获取与综合转场特征标签相关联的转场音乐集合，在转场音乐集合中基于每个转场音乐的音乐标签与综合转场特征标签之间的标签匹配度，对每个转场音乐进行排序，从排序后的转场音乐集合中获取目标转场音乐，将目标转场音乐作为视频片段的第二匹配音乐推送给目标对象。

其中，上述第二音乐匹配单元，具体用于在排序后的转场音乐集合中将具有最高标签匹配度的转场音乐作为目标转场音乐，将目标转场音乐作为视频片段的第二匹配音乐推送给目标对象。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

在本申请实施例中，计算机设备可以先获取与目标对象相关联的目标视频中的视频片段，进而可以对视频片段进行音视频分析，从而得到该视频片段对应的音视频特征，并可以基于音视频特征确定该视频片段的视频属性标签，其中，这里的视频属性标签可用于表征更深层次、高维度的视频分类属性。进一步，可以从历史对象数据中获取与目标对象相关联的历史视频信息以及历史音乐信息，并可以基于历史视频信息以及历史音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签，其中，历史视频信息是基于目标对象编辑过的历史视频所确定的，历史音乐信息是基于目标对象为历史视频所选择的历史音乐所确定的，可以理解，这里的对象属性标签可用于描述目标对象的画像。随后，可以基于上述视频属性标签以及对象属性标签生成目标综合特征标签，进而可以从音乐推荐数据库中获取与目标综合特征标签相匹配的目标音乐作为视频片段的第一匹配音乐推送给目标对象。由此可见，本申请实施例可以通过基于视频属性标签以及对象属性标签所得到的目标综合特征标签来进行音乐推荐，也就是说，可以通过对视频片段的深层次理解以及对目标对象的画像描绘来共同推荐适合于视频片段的目标音乐，这样可以在确保音乐推荐的准确度的同时，提升视频配乐的精准度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种***架构示意图；

图2是本申请实施例提供的一种音乐推荐的场景示意图；

图3是本申请实施例提供的一种音乐推荐方法的流程示意图；

图4是本申请实施例提供的一种音视频分析的场景示意图；

图5是本申请实施例提供的一种音乐推荐方法的流程示意图；

图6是本申请实施例提供的一种视频配乐的场景示意图；

图7是本申请实施例提供的一种音乐推荐方法的流程示意图；

图8是本申请实施例提供的一种音乐推荐方法的流程示意图；

图9是本申请实施例提供的一种音乐推荐方法的交互示意图；

图10是本申请实施例提供的一种音乐推荐装置的结构示意图；

图11是本申请实施例提供的一种音乐推荐装置的结构示意图；

图12是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括数据处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。在本申请实施例中，计算机视觉技术可以用于识别视频片段中的每个视频帧的图像内容（例如场景、物品等）。

自然语言处理（Nature Language processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱、信息检索、对话***等技术。在本申请实施例中，自然语言处理技术可以用于识别视频片段的文本内容（例如目标文本数据）。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，目标网络模型是基于机器学习技术的AI模型，可用于对视频片段进行音视频分析。

请参见图1，是本申请实施例提供的一种***架构示意图。如图1所示，该***架构可以包括业务服务器100以及终端集群，终端集群可以包括：终端设备200a、终端设备200b、终端设备200c、…、终端设备200n，其中，终端集群之间可以存在通信连接，例如终端设备200a与终端设备200b之间存在通信连接，终端设备200a与终端设备200c之间存在通信连接。同时，终端集群中的任一终端设备可以与业务服务器100存在通信连接，例如终端设备200a与业务服务器100之间存在通信连接，其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。

应该理解，如图1所示的终端集群中的每个终端设备均可以安装有应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的业务服务器100之间进行数据交互。其中，该应用客户端可以为短视频应用、视频应用、直播应用、社交应用、即时通信应用、游戏应用、音乐应用、购物应用、小说应用、支付应用、浏览器等具有显示文字、图像、音频以及视频等数据信息功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端（例如即时通信客户端、社交客户端、视频客户端等）中的嵌入式子客户端，在此不做限定。以短视频应用为例，业务服务器100可以为包括短视频应用对应的后台服务器、数据处理服务器等多个服务器的集合，因此，每个终端设备均可以通过该短视频应用对应的应用客户端与业务服务器100进行数据传输，如每个终端设备均可以通过短视频应用的应用客户端将其生产的短视频上传至业务服务器100，进而业务服务器100可以将这些短视频下发给其它终端设备，此外，在制作短视频的过程中，业务服务器100可以为每个终端设备推荐合适的配乐。其中，短视频具有时长短、传播快、制作门槛低、参与性强等特点，是内容创业和社交媒体平台的重要传播方式之一。

为便于后续理解和说明，本申请实施例可以在图1所示的终端集群中选择一个终端设备作为目标终端设备（例如，终端设备200a），将与某个用户（例如，用户A）相关联的的视频（比如，短视频集锦）统称为目标视频，该用户可以通过应用客户端对目标视频进行编辑（例如，配乐），可以将该用户称为目标对象。

以选择终端设备200a作为目标终端设备为例，终端设备200a可以先通过安装好的应用客户端（例如，短视频应用）获取与目标对象相关联的目标视频，这里的目标对象是指对目标视频进行编辑的用户。进而可以将目标视频中需要添加配乐的视频片段上传至业务服务器100。其中，视频片段可以是由目标对象在目标视频中选取的，也可以是终端设备200a自动选取的（例如，通过视频理解分析选取出精彩片段），本申请实施例对此不做限定。进一步，业务服务器100接收到该视频片段后，可以对该视频片段进行音视频分析，得到该视频片段对应的音视频特征，进而可以基于提取到的音视频特征确定该视频片段的视频属性标签。此外，业务服务器100可以获取目标对象的历史对象数据，并可以从历史对象数据中获取与目标对象相关联的历史视频信息以及历史音乐信息，进而可以基于历史视频信息和历史音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签。其中，在本申请实施例中，历史对象数据可用于记录目标对象访问应用客户端（例如，短视频客户端）时，产生的历史对象行为。历史对象数据可以包括历史视频信息和历史音乐信息，历史视频信息是基于目标对象编辑过的历史视频所确定的，而历史音乐信息是基于目标对象为这些历史视频所选择的历史音乐所确定的，因此，基于历史视频信息和历史音乐信息所最终确定的对象属性标签，可以用于描述目标对象的用户画像，如可以描述目标对象所感兴趣的视频类型和相关的音乐类型。需要说明的是，历史对象数据是在获取到目标对象授予的权限之后才能取得的。进一步，业务服务器100可以根据视频属性标签和对象属性标签生成目标综合特征标签，并可以从音乐推荐数据库中获取与目标综合特征标签相匹配的目标音乐，进而可以将目标音乐作为视频片段的第一匹配音乐返回至终端设备200a，并在终端设备200a上的应用客户端进行展示。因此，后续目标对象可以在推送过来的目标音乐中进行选择，最终应用客户端可以将目标对象所选择的音乐添加至视频片段中，并可以将添加音乐后的视频片段播放给目标对象进行配乐效果的展示。其中，本申请中的目标视频既可以是目标对象通过目标终端设备上的音视频采集装置所采集得到的音视频数据，应当理解，目标视频中可以存在显示有目标对象的视频帧，也可以不存在显示有目标对象的视频帧，此外，目标视频也可以是目标终端设备从其它地方（例如，短视频平台）获取并预先存储在其内存中的音视频数据，本申请对此不做限定。

可选的，可以理解的是，***架构中可以包括多个业务服务器，一个终端设备可以与一个业务服务器相连接，每个业务服务器可以获取到与之相连接的终端设备所上传的视频片段，从而可以识别该视频片段并获取与该视频片段相匹配的目标音乐，并将目标音乐返回给与之相连接的终端设备。

可选的，可以理解的是，终端设备也可以识别视频片段并获取与该视频片段相匹配的目标音乐。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于终端设备或业务服务器。其中，业务服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备（mobile internet device，MID）、可穿戴设备（例如智能手表、智能手环等）、智能电脑、智能车载等可以运行上述应用的智能终端。其中，终端设备和业务服务器可以通过有线或无线方式进行直接或间接地连接，本申请实施例在此不做限制。

其中，可以理解的是，上述***架构可适用于针对视频的音乐推荐场景、音乐分发场景、音乐搜索场景等业务场景，这里将不对具体的业务场景进行一一列举。

请一并参见图2，是本申请实施例提供的一种音乐推荐的场景示意图。其中，该音乐推荐场景的实现过程可以在业务服务器中进行，也可以在终端设备中进行，还可以在终端设备和业务服务器中交互进行，此处不做限制。其中，如图2所示的终端设备30A（即目标终端设备）可以为上述图1所对应实施例的终端集群中的任意一个终端设备，例如，终端设备200a。为便于理解，下面以终端设备30A为例来阐述该音乐推荐场景的实现过程。

如图2所示，用户A（即目标对象）与终端设备30A具有绑定关系，则用户A可以将某个待编辑的视频（即目标视频，例如，视频301b）上传到终端设备30A上的某个具有视频编辑功能的应用客户端（例如，短视频客户端）。可选的，该应用客户端还可以集成有摄像功能，因此目标视频也可以是通过该应用客户端上的摄像功能采集到的视频，例如，对用户A进行拍摄得到视频301b。可选的，目标视频也可以是目标对象对其他人/物/景等进行拍摄得到的视频，或者可以是目标对象从其它平台获取的视频，本申请实施例对目标视频的具体内容和来源不进行限定。进一步，终端设备30A可以响应上传操作，显示视频编辑界面300a，在视频编辑界面300a的区域301a中可以显示视频301b，如图2所示，假设视频301b是对用户A进行拍摄所得的，则视频301b可以显示用户A对应的画面，还有可能出现与用户A共同进行拍摄的其他用户的画面。其中，用户A可以通过触发相关控件来控制视频301b的播放或暂停。此外，为了便于用户对目标视频进行编辑，还可以在视频编辑界面300a的区域303a中显示视频301b包含的视频帧，可以理解，由于区域303a的显示区域有限，因此，可选的，当视频301b包含的视频帧数量较多时（例如，100个视频帧），在某一个时刻只显示视频301b的部分视频帧（例如，10个视频帧），且终端设备30A可以响应用户A针对区域303a的触发操作（例如，滑动操作），在区域303a中显示相应的视频帧（例如，视频301b中的第10个视频帧-第20个视频帧），同时，可以在区域301a中显示辅助指针所指向的视频帧（例如，第12个视频帧），其中，辅助指针可用于辅助视频编辑。

进一步，终端设备30A可以在视频301b中获取需要添加配乐的视频片段。可选的，用户A可以根据自身需要在视频301b中选取需要添加配乐的视频片段，例如，如图2所示，终端设备30A可以响应用户A针对区域303a的触发操作（例如，点击操作），在区域303a的两端分别显示用于选取视频片段的选取控件，具体包括第一片头选取控件304a以及第一片尾选取控件305a。可选的，第一片头选取控件304a可默认显示在视频301b的开始位置（即第一个视频帧），第一片尾选取控件305a可默认显示在视频301b的结束位置（即最后一个视频帧）。进而终端设备30A可以响应用户A针对第一片头选取控件304a的触发操作（例如，拖动操作），在视频301b中选取片头视频帧，同理，终端设备30A可以响应用户A针对第一片尾选取控件305a的触发操作（例如，拖动操作），在视频301b中选取片尾视频帧，进而可以将视频301b中的片头视频帧与片尾视频帧之间的所有视频帧作为用户A选取的视频片段。可选的，用户A可以选取完整的视频301b作为需要添加配乐的视频片段，即将视频301b中的第一个视频帧作为片头视频帧，将视频301b中的最后一个视频帧作为片尾视频帧。可选的，终端设备30A可以通过对视频301b的理解分析，自动选取视频301b中的精彩片段或高能片段作为需要添加配乐的视频片段，例如视频301b中用户A唱歌的片段。其中，视频片段的数量可以为一个或多个，本申请实施例对视频片段的具体数量不做限定。

为了满足用户的个性化需求，使得推荐***更智能化，本申请实施例可以通过视频理解、文字理解、用户画像分析等综合因素来进行音乐推荐，其中，用户画像是在获取到用户A授予的权限之后才能取得的。如图2所示，视频301b包括视频帧2A、视频帧2B、…、视频帧2C、视频帧2D以及视频帧2E，假设经过上述视频片段的选取过程，最终选取的视频片段为视频片段302b，具体包括视频帧2B-视频帧2C，则终端设备30A进而可以将该视频片段302b上传至业务服务器30B进行音视频分析，以获取适合于该视频片段302b的配乐，其中，业务服务器30B可以为上述图1所对应实施例的中的业务服务器100。可选的，终端设备30A也可以对视频片段302b进行音视频分析以获取适合于视频片段302b的配乐。

这里以业务服务器30B为例进行说明，在一种实施方式中，视频编辑界面300a上可以显示“智能添加配乐”控件302a（即智能配乐控件），用于触发应用客户端推送相关配乐（如第一匹配音乐）的功能，具体的，当用户A触发（例如，点击）该控件时，终端设备30A可以响应针对“智能添加配乐”控件302a的触发操作，向业务服务器30B发送音乐获取请求，同时会将视频片段302b上传到业务服务器30B。可选的，终端设备30A也可以将完整的视频301b一起上传至业务服务器30B，则后续若需要对除了视频片段302b之外的其它视频片段进行音视频分析时，可以直接通过获取终端设备30A发送的片段信息（如片头视频帧和片尾视频帧所在的具***置）来进行视频片段的选取，而不需要终端设备30A重新上传相应的视频片段，从而可以减少数据传输的压力。

如图2所示，业务服务器30B获取视频片段302b后，可以响应该音乐获取请求，对视频片段302b进行音视频分析，从而可以得到视频片段302b对应的音视频特征，进一步，业务服务器30B可以基于该音视频特征确定视频片段302b的视频属性标签。其中，这里的音视频分析是指针对视频片段的一种综合分析方式，包括但不限于图像分析、文本分析、音频分析，相应的，音视频特征可以包括但不限于图像特征、文本特征、背景音频特征，以及基于这三种特征进行特征融合得到的其它特征（如融合调性特征），则对应的视频属性标签可以包括但不限于目标图像标签、目标文本标签、目标调性标签等。可以理解，在一种可选的实施方式中，业务服务器30B可以训练基于深度学习技术的目标网络模型来进行音视频分析，最终可以通过目标网络模型输出视频片段对应的视频属性标签，具体过程可以参见后续图3所对应实施例中的步骤S101。

此外，如图2所示，业务服务器30B还可以获取用户A在过去编辑视频（例如，视频剪辑、添加配乐、添加特效、添加文字、添加滤镜、添加贴纸等）过程中所产生的历史对象数据C，并从历史对象数据C中获取历史视频信息C1以及历史音乐信息C2，进一步，可以获取历史视频信息C1以及历史音乐信息C2所关联的历史综合特征标签，从而可以基于历史综合特征标签确定用户A的对象属性标签，即用户A的用户画像。其中，历史视频信息C1是基于用户A所编辑过的历史视频确定的，历史音乐信息C2是基于用户A为历史视频所选择的历史音乐确定的。进一步，业务服务器30B可以基于上述视频属性标签以及对象属性标签，生成目标综合特征标签，进而可以从音乐推荐数据库中获取与该目标综合特征标签相匹配的目标音乐B，其中，目标音乐B的数量可以为一个或多个，例如，当目标音乐B的数量为T个时，目标音乐B具体可以包括音乐B1、音乐B2、音乐B3、…、音乐BT，进而可以将目标音乐B作为视频片段302b的第一匹配音乐发送至终端设备30A上的应用客户端以推送给用户A。其中，第一匹配音乐是指背景音乐类型的配乐。

应当理解，由终端设备30A对视频片段302b进行音视频分析并最终获取第一匹配音乐的过程与上述业务服务器30B的处理过程类似，这里不再进行赘述。

可选的，为了提高用户对目标音乐的选取效率，可以对在音乐推荐数据库中匹配到的多个音乐进行排序，例如，可以基于标签匹配度对匹配到的所有音乐（例如，音乐B1、音乐B2、音乐B3、…、音乐BT）进行排序和选取，从而得到目标音乐B。进一步，如图2所示，终端设备30A获取目标音乐B后，可以生成音乐列表，在该音乐列表中可以展示目标音乐B，则用户A可以通过音乐列表进行目标音乐的浏览和选取。例如，假设用户A选择了音乐B2作为视频片段302b的背景音乐，则终端设备30A可以响应在音乐列表中针对音乐B2的选择操作，将音乐B2添加至视频片段302b中，并返回至视频编辑界面300a进行播放预览。进一步，当用户A认为添加某个音乐后的效果满足自己的预期时，可以触发视频编辑界面300a上的“完成”控件306a来结束本次添加配乐的过程，否则，用户A可以继续通过音乐列表选取其它音乐，直到最终找到合适的配乐。可选的，音乐列表还可以包括搜索框，当用户A在搜索框中输入搜索关键词时，终端设备30A可以基于搜索关键词在目标音乐B中进行查找，并将查找到的与该搜索关键词相匹配的音乐显示在音乐列表中，随后用户A可以对显示在音乐列表上的音乐进行选取。其中，音乐列表可以浮窗形式或蒙层形式或半透明形式展现在视频编辑界面300a的任一区域中（例如中间区域），也可以是用能通过拖拽操作改变显示尺寸且可收缩的界面进行显示，该界面的尺寸小于视频编辑界面300a，本申请实施例对此不做限制。可选的，业务服务器30B还可以默认直接将具有最高标签匹配度的音乐（例如，音乐B1）添加至视频片段302b中，若用户A认为添加该音乐后的效果不满足自己的预期，则可以更换成其它音乐，例如可以通过前面描述的过程在音乐列表中重新进行选取。

需要说明的是，除了视频片段302b，用户A还可以选择为视频301b中的其它视频片段添加配乐，其具体过程与为视频片段302b进行配乐的过程一致，这里不再进行赘述。

可选的，当用户A上传目标视频至应用客户端或通过应用客户端对目标视频进行编辑时，终端设备30A可以直接将目标视频发送至业务服务器30B，进而业务服务器30B可以主动对整个目标视频进行音视频分析，经过与上述基于视频片段进行配乐推荐类似的过程，最终业务服务器30B可以将针对于目标视频的目标音乐推送给用户A，也就是说，此时用户A可以不需要触发智能配乐控件，而是由业务服务器30B主动进行音乐推荐，因此可以提升视频配乐的效率。可选的，也可以由终端设备30A主动进行音乐推荐。可以理解，当用户A仅希望为目标视频中的一个或多个视频片段进行配乐时，则仍可以通过上述描述的基于视频片段进行配乐推荐的过程来进行处理。

需要说明的是，图2中所展示的界面以及控件仅仅是一些可供参考的表现形式，在实际业务场景中，开发人员可以根据产品需求来进行相关设计，本申请实施例对涉及到的界面和控件的具体形式不做限制。

需要说明的是，在本申请实施例中，音乐推荐数据库可以包括丰富的背景音乐以及转场音乐，也就是说，业务服务器30B或终端设备30A既可以为视频片段推荐背景音乐，也可以为视频片段推荐转场音乐，具体实现过程可以参见后续图5所对应的实施例。

上述可知，在本申请实施例中，基于对视频片段的深层次理解（如对图像、文本、音频的理解）以及对目标对象的用户画像的理解来为视频片段推荐目标音乐，这个过程综合考虑了多种因素，既可以满足目标对象的个性化需求，也可以提升音乐推荐的准确度，同时，从目标音乐中获取该视频片段的配乐，可以提升视频配乐的精准度。

请参见图3，图3是本申请实施例提供的一种音乐推荐方法的流程示意图。该音乐推荐方法可以由计算机设备执行，计算机设备可以为业务服务器（例如，上述图1所示的业务服务器100），也可以为终端设备（例如，上述图1所示的终端设备200a）。为便于理解，本申请实施例以该方法由业务服务器执行为例进行说明。如图3所示，该音乐推荐方法至少可以包括以下步骤S101-步骤S103：

步骤S101，获取与目标对象相关联的目标视频中的视频片段，对视频片段进行音视频分析，得到视频片段对应的音视频特征，基于音视频特征确定视频片段的视频属性标签；

具体的，业务服务器可以先获取与目标对象相关联的目标视频，进而可以从目标视频中获取视频片段，其中，视频片段可以是由目标对象选取的，也可以由业务服务器基于对视频片段的分析所选取的，该视频片段可以包含目标视频中的一部分连续的视频帧，也可以包含目标视频中的全部视频帧，本申请实施例对此不进行限定。进一步，业务服务器可以对该视频片段进行音视频分析，从而得到该视频片段对应的音视频特征，这里的音视频分析是指针对视频片段的综合分析，可以实现对视频片段的更深层理解，例如，对视频片段中的特征元素（例如关键物品、场景、色彩等）的分析、对视频片段的调性的分析、对视频片段中的文字的分析等等。在一种可选的实施方式中，按照数据类型的划分，音视频分析可以包括图像分析、文本分析以及音频分析，也就是说，业务服务器可以对视频片段进行图像分析，得到视频片段对应的图像特征；对视频片段进行文本分析，得到视频片段对应的文本特征；对视频片段进行音频分析，得到视频片段对应的背景音频特征，进而可以基于图像特征、文本特征以及背景音频特征确定该视频片段对应的音视频特征。

其中，目标视频与目标对象相关联，可选的，目标视频可以是对目标对象进行拍摄得到的视频，则目标视频中可以显示目标对象对应的画面；可选的，目标视频也可以是目标对象对其他人/物/景等进行拍摄得到的视频；可选的，目标视频还可以是目标对象从其它平台获取的视频，例如从视频网站下载的视频，本申请实施例对目标视频的具体内容和来源不进行限定。

可选的，在本申请实施例中，业务服务器可以加载与视频片段相关联的目标网络模型，该目标网络模型是基于机器学习技术的AI模型，业务服务器可以预先利用具有海量视频数据的视频数据库，训练深度神经网络以得到该目标网络模型。请一并参见图4，图4是本申请实施例提供的一种音视频分析的场景示意图。如图4所示，在一种可选的实施方式中，目标网络模型可以包括多个具有不同功能的网络模型，例如，具体可以包括：用于进行图像分析的网络模型，称为第一网络模型，用于进行文本分析的网络模型，称为第二网络模型，以及用于进行音频分析的网络模型，称为第三网络模型，因此业务服务器可以利用这三个网络模型共同对视频片段进行音视频分析，具体过程可如下：

如图4所示，针对图像分析，业务服务器可以对视频片段进行抽帧处理，得到多个视频帧，这多个视频帧可以组成视频帧序列，随后可以将视频帧序列输入第一网络模型，通过第一网络模型对视频帧序列进行图像分析，可以得到视频帧序列对应的图像特征。其中，图像分析是指对视频内容的分析，包括但不限于对视频帧序列中的人、物、景、色等特征元素的分析，因此，得到的图像特征是一个综合的特征。其中，抽帧处理的具体方式可以包括随机抽取视频帧、抽取视频关键帧、按照预设的抽帧时间间隔均匀抽帧等，本申请对此不做限定。应当理解，从一个视频片段中抽取的视频帧数量（即视频帧序列包含的视频帧的数量）小于或等于该视频片段对应的视频帧总数。应当理解，从视频片段中抽取得到的视频帧可以为连续的视频帧，也可以为不连续的视频帧，本申请对此不做限定。

如图4所示，针对文本分析，业务服务器可以获取视频片段的目标文本数据，进而可以将目标文本数据输入第二网络模型，通过第二网络模型对目标文本数据进行文本分析，可以得到目标文本数据对应的文本特征。其中，目标文本数据可以包括视频片段的片段文本数据以及转换文本数据，片段文本数据是指视频片段本身携带的数据，例如，视频片段中的对象文本信息（如字幕、提示信息等）、与视频片段相关的评论文本信息（如弹幕、评论等）、目标视频携带的视频主题信息、视频分类信息以及视频标签信息等，而转换文本数据则是指对视频片段的对象音频数据进行语音转换所得到的数据，其中，对象音频数据是指在视频片段中由主要人物（可以是显示在画面中的人物或未显示在画面中的人物）产生的音频数据，例如对话、旁白、报幕等。

如图4所示，针对音频分析，业务服务器可以获取视频片段的背景音频数据，进而可以将背景音频数据输入第三网络模型，通过第三网络模型对背景音频数据进行音频分析，可以得到背景音频数据对应的背景音频特征。其中，背景音频特征可用于表征背景音频数据的音乐属性，这里的音乐属性可以指背景音频数据的音乐风格或音乐类型。其中，背景音频数据是指视频片段的原始背景音乐或原始背景音效。

进一步，业务服务器可以基于上述图像特征、文本特征以及背景音频特征确定视频片段对应的音视频特征。可选的，若图像特征中包含用于表征视频片段的画风属性的第一调性特征，背景音频特征中包含用于表征背景音频数据的音乐属性的第二调性特征，则业务服务器可以对图像特征中的第一调性特征和背景音频特征中的第二调性特征进行特征融合，得到视频片段对应的融合调性特征，进而可以将图像特征、文本特征以及融合调性特征作为视频片段对应的音视频特征。可选的，若图像特征中包含用于表征视频片段的画风属性的第一调性特征，背景音频特征中包含用于表征背景音频数据的音乐属性的第二调性特征，且文本特征中包含用于表征目标文本数据的文本属性的第三调性特征，则业务服务器可以对图像特征中的第一调性特征、背景音频特征中的第二调性特征以及文本特征中的第三调性特征进行特征融合，得到视频片段对应的融合调性特征，进而可以将图像特征、文本特征以及融合调性特征作为视频片段对应的音视频特征。其中，融合调性特征可用于表征对视频片段的整体调性划分，如喜庆搞笑类、设计风格类、小清新等。

应当理解，画风属性可以表征视频片段的画风，例如，可以包括视频片段的色彩风格、色调风格、光线风格、画面风格（例如，空间感、层次感）等，在一种实施方式中，可以将画风属性划分为三种类型，具体可以包括高调性、中调性以及低调性。其中，这里的高调性具体可以包括：优美场景、时尚、养眼（例如，帅哥美女）、超酷画风（例如，极限运动、创意特效、创意手工、创意实验、炫技、炫豪车）等；这里的中调性具体可以包括：校园画风（例如，校园段子、校园生活）、创业励志风（例如，创业加盟、厨师）、治愈画风（例如，萌宠、萌娃、二次元、情感）、中老年画风（例如，广场舞、赶集、书法）等；这里的低调性具体可以包括：三农（例如，农业相关、农村美食、农村生活、制造修理）、重口味（例如，恐怖、恶心）等。

应当理解，音乐属性可以表征原始背景音乐（或原始背景音效）的音乐风格，例如清新、慵懒、唯美、舒缓、欢乐、励志、轻松、兴奋、孤独等。

应当理解，文本属性可以表征目标文本数据包含的情感类型，例如开心、难过、厌恶、惊讶等。

进一步，业务服务器可以基于音视频特征确定视频片段的视频属性标签，可选的，对于图4所示的目标网络模型，该目标网络模型还可以包括用于进行图像分类的第一分类器、用于进行文本分类的第二分类器以及用于进行调性分类的第三分类器。其中，业务服务器可以基于图像特征以及第一分类器，对视频片段进行图像分类，从而得到视频片段的目标图像标签，具体过程可以为：将图像特征输入第一分类器，通过第一分类器对视频片段进行图像分类，得到图像特征对应的第一概率向量，其中，第一概率向量可以包括视频片段在至少两个样本图像标签上的分类概率，进而可以将第一概率向量中的最大分类概率所对应的样本图像标签作为视频片段的目标图像标签。

同理，业务服务器可以基于文本特征以及第二分类器，对视频片段进行文本分类，从而得到视频片段的目标文本标签，具体过程可以为：将文本特征输入第二分类器，通过第二分类器对视频片段进行文本分类，得到文本特征对应的第二概率向量，其中，第二概率向量可以包括视频片段在至少两个样本文本标签上的分类概率，进而可以将第二概率向量中的最大分类概率所对应的样本文本标签作为视频片段的目标文本标签。

同理，业务服务器可以基于融合调性特征以及第三分类器，对视频片段进行调性分类，从而得到视频片段的目标调性标签，具体过程可以为：将融合调性特征输入第三分类器，通过第三分类器对视频片段进行调性分类，得到融合调性特征对应的第三概率向量，其中，第三概率向量可以包括视频片段在至少两个样本调性标签上的分类概率，进而可以将第三概率向量中的最大分类概率所对应的样本调性标签作为视频片段的目标调性标签。

最终，可以将目标图像标签、目标文本标签以及目标调性标签作为该视频片段的视频属性标签。应当理解，这里的视频属性标签可以表示视频片段的整体风格和调性（即综合视频属性），例如，综合视频属性可以包括画风属性、音乐属性、文本属性等。综合视频属性是一种对于视频片段的整体视觉和听觉的感受，同样风格和调性的内容具有一定的共性，可以引起一类消费者的共鸣，对于不相同的意境，可以使用不同的风格和调性表现出来，以给人不同的感受。这样，通过综合视频属性这种高层维度的定义和区分，可以对视频片段（如短视频）进行高层维度的划分。例如，某个短视频中有人在乡村田野上骑着自行车，则可以确定该视频属于乡村慵懒调性。又例如，某个视频中人物居多并且都是欢乐的表情，并伴随有烟花，则通过这些特征可以确定该视频属于节日喜庆调性。

可以理解，第一网络模型、第二网络模型以及第三网络模型可以是目标网络模型中独立的网络模型，第一分类器、第二分类器以及第三分类器可以是目标网络模型中独立的分类器，开发人员可以根据实际业务需求设计对应的目标网络模型，本申请对目标网络模型的具体结构不进行限定。

可以理解，视频片段的数量可以为一个或多个，本申请对此不进行限定。其中，针对每个视频片段的音乐推荐过程是一致的，即业务服务器可以基于对每个视频片段的理解，分别为每个视频片段推送相应的目标音乐。例如，从目标视频D中选取出两个视频片段，分别为视频片段D1、视频片段D2，则业务服务器可以分别对视频片段D1和视频片段D2进行音视频分析，从而可以得到视频片段D1的音视频特征E1，视频片段D2的音视频特征E2，进而可以基于音视频特征E1确定视频片段D1的视频属性标签F1，基于音视频特征E2确定视频片段D2的视频属性标签F2，通过后续的标签匹配，最终可以获取视频片段D1对应的目标音乐G1，以及视频片段D2对应的目标音乐G2。因此，后续目标对象可以分别从每个视频片段对应的目标音乐中选取合适的配乐，并添加至对应的视频片段中。

步骤S102，获取目标对象的历史对象数据，从历史对象数据中获取与目标对象相关联的历史视频信息以及历史音乐信息，基于历史视频信息以及历史音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签；

具体的，业务服务器可以获取目标对象的历史对象数据，进而可以从历史对象数据中获取与目标对象相关联的历史视频信息以及历史音乐信息。其中，历史对象数据用于记录目标对象访问应用客户端（例如，短视频客户端）时，产生的历史对象行为（编辑、访问，浏览，搜索，点击、分享等），这里的历史对象行为可以包括主要针对视频的行为，例如目标对象上传视频的类型、访问视频的类型、浏览视频的时间、浏览视频的次数、编辑视频的记录、搜索视频的记录、点击视频的次数，以及目标对象发布的视频、保存的视频、收藏的视频、推荐的视频、点赞的视频、购买的视频、投币的视频、转发的视频、评论的视频等。历史对象行为还可以包括主要针对音乐的行为，例如目标对象上传音乐的类型、访问音乐的类型、播放音乐的次数、剪辑音乐的记录、使用音乐的记录、搜索音乐的记录、点击音乐的次数，以及目标对象选择作为配乐的音乐、收藏的音乐、推荐的音乐、点赞的音乐、购买的音乐、转发的音乐、评论的音乐等。应当理解，一般情况下历史对象行为中针对视频的行为与针对音乐的行为是有密切关联，例如目标对象在编辑某种类型的视频时，往往会搭配某种风格的音乐。需要说明的是，历史对象数据是在获取到目标对象授予的权限之后才能获取的。在本申请实施例中，历史视频信息是基于目标对象编辑过的历史视频所确定的，也就是说，历史视频信息用于记录目标对象编辑历史视频时产生的行为，包括但不限于历史视频的类型、历史视频的时长、历史视频的编辑次数、针对历史视频的编辑操作（例如，视频剪辑、添加配乐、添加特效、添加文字、添加滤镜、添加贴纸、添加标题、话题或分类等）。而历史音乐信息则是基于目标对象为历史视频所选择的历史音乐所确定的，也就是说，历史音乐信息用于记录目标对象为历史视频进行配乐时产生的行为，包括但不限于历史音乐的类型、历史音乐的时长、剪辑历史音乐的记录、使用历史音乐的次数、搜索历史音乐的记录、历史音乐的热度排行，以及目标对象收藏的历史音乐、保存的历史音乐、转发的历史音乐等。

进一步，业务服务器可以基于历史视频信息以及历史音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签（即用户画像），也就是说，目标对象的用户画像可以沉淀在历史视频信息以及历史音乐信息所关联的历史综合特征标签上，可以表征目标对象的喜好，这里的历史综合特征标签可以表征历史视频以及历史音乐的综合特征。在一种实施方式中，历史综合特征标签可以包括多个子标签，其中，这些子标签可能仅与历史视频信息相关联，也可能仅与历史音乐信息相关联，还可能与历史视频信息和历史音乐信息均有关联，即子标签中可能存在重合的情况。对于这类重合的子标签，业务服务器可以加大其在所有子标签中的权重，从而得到对象属性标签，也就是说，可以认为目标对象更偏好这类子标签所表征的类型或风格，因此，后续基于对象属性标签进行音乐推荐时可以相应提升这种类型或风格的音乐的推荐权重，例如，若用户A的对象属性标签中“喜庆搞笑”的标签权重较大，表明用户A更喜欢喜庆搞笑类的视频以及音乐，因此可以为用户A推送更多喜庆搞笑的音乐。

步骤S103，基于视频属性标签以及对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与目标综合特征标签相匹配的目标音乐，将目标音乐作为视频片段的第一匹配音乐推送给目标对象。

具体的，业务服务器可以基于视频属性标签以及对象属性标签，生成目标综合特征标签，结合上述步骤可知，这里的目标综合特征标签可以综合对图像的理解、对文本的理解、对背景音频的理解以及对用户画像的理解，是一种深层次、高维度且综合立体的划分，因此，基于目标综合特征标签获取到的目标音乐具有更高的准确度。可选的，业务服务器可以直接将视频属性标签以及对象属性标签直接进行组合，得到目标综合特征标签。可选的，由于视频属性标签以及对象属性标签均可以包括一个或多个子标签，因此还可以考虑任意两个子标签之间的重合问题，具体来说，假设视频属性标签包括K个视频属性子标签，K为正整数，对象属性标签包括L个对象属性子标签，L为正整数，则业务服务器可以对K个视频属性子标签以及L个对象属性子标签（即K+L个子标签）中的任意两个子标签进行重合度检测，从而可以得到任意两个子标签之间的第一重合度，进而可以基于任意两个子标签之间的第一重合度，对K个视频属性子标签以及L个对象属性子标签进行标签整合，得到目标综合特征标签，其中，对于不相同的两个子标签，两者之间的第一重合度为低重合度（例如，第一重合度为0），而对于相同的两个子标签，两者之间的第一重合度为高重合度（例如，第一重合度为100%或其它大于0的数值），因此，在一种实施方式中，对于具有高重合度的子标签，可以相应的增加其在所有子标签中的权重，从而得到可用的目标综合特征标签。例如，假设K=3，L=2，即视频属性标签包括子标签F1、子标签F2以及子标签F3，对象属性标签包括子标签H1以及子标签H2，则业务服务器需要计算出子标签F1与子标签F2之间的第一重合度，子标签F1与子标签F3之间的第一重合度，子标签F1与子标签H1之间的第一重合度，子标签F1与子标签H2之间的第一重合度，子标签F2与子标签F3之间的第一重合度，子标签F2与子标签H1之间的第一重合度，子标签F2与子标签H2之间的第一重合度，子标签F3与子标签H1之间的第一重合度，子标签F3与子标签H2之间的第一重合度，子标签H1与子标签H2之间的第一重合度，若发现子标签F2与子标签H1之间的第一重合度为高重合度，则可以增加子标签F2和子标签H1的权重，随后可将子标签F1、子标签F2（或子标签H1）、子标签F3以及子标签H2作为目标综合特征标签。

进一步，业务服务器可以从音乐推荐数据库中获取与目标综合特征标签相关联的背景音乐集合，进而可以获取背景音乐集合中每个背景音乐的音乐标签与目标综合特征标签之间的标签匹配度，并可以基于每个背景音乐的音乐标签与目标综合特征标签之间的标签匹配度，对背景音乐集合中的每个背景音乐进行排序，进一步，可以从排序后的背景音乐集合中获取目标音乐，最终可以将目标音乐作为视频片段的第一匹配音乐推送给目标对象。其中，第一匹配音乐是指背景音乐类型的配乐。可选的，可以在排序后的背景音乐集合中获取标签匹配度在匹配区间内的背景音乐作为目标音乐，进而可以将目标音乐作为视频片段的第一匹配音乐推送给目标对象，其中，匹配区间可以根据实际需要进行设置，匹配区间可以用具体的第一匹配度阈值表示，例如，可以在排序后的背景音乐集合中将标签匹配度大于第一匹配度阈值的背景音乐作为目标音乐，本申请对第一匹配度阈值的具体大小不做限定；或者，匹配区间还可以用背景音乐对应的排行序号表示，其中，排行序号用于表征每个背景音乐的音乐标签与目标综合特征标签之间的标签匹配度在所有标签匹配度中的排名，例如，排序后的背景音乐集合中每个背景音乐对应唯一的排行序号，可将排行序号在W1和W2之间的背景音乐作为目标音乐，W1和W2均为正整数，例如，可以将排行序号在1-50之间的背景音乐作为目标音乐，即选取排名在前50的背景音乐。可选的，可以在排序后的背景音乐集合中获取具有最高标签匹配度的背景音乐作为目标音乐，进而可以将目标音乐作为视频片段的第一匹配音乐推送给目标对象，此时可以直接将该目标音乐添加至视频片段中。可选的，还可以考虑热度的因素，例如，可以从排序后的背景音乐集合中获取位于某个热度区间的背景音乐作为目标音乐。可选的，还可以从排序后的背景音乐集合中随机选择一个或多个背景音乐作为目标音乐，也可以选择全部背景音乐作为目标音乐。本申请实施例对从排序后的背景音乐集合中获取目标音乐的具体方式不做限定。

应该理解，后续目标对象可以通过终端设备从第一匹配音乐中选择目标背景音乐添加至视频片段中，可选的，一个视频片段可以添加一个或多个目标背景音乐，例如，对于某个视频时长为40秒的视频片段，可以在前20秒添加目标背景音乐1，在后20秒添加目标背景音乐2。

需要说明的是，本申请还可以为视频片段推荐合适的转场音乐类型的配乐（即第二匹配音乐），具体实现过程可以参见后续图5所对应的实施例中的步骤S213。

上述可知，本申请实施例可以通过基于视频属性标签以及对象属性标签所得到的目标综合特征标签来进行音乐推荐，也就是说，可以通过对视频片段的深层次理解以及对目标对象的画像描绘来共同推荐适合于视频片段的目标音乐，这样得到的目标音乐更加准确，因此可以提升音乐推荐的准确度，而将目标音乐作为视频片段的第一匹配音乐，即从目标音乐中获取该视频片段的配乐，可以提升视频配乐的精准度，且可以快速地从目标音乐中选取配乐添加至视频片段中，从而可以提升视频配乐的效率。

请参见图5，图5是本申请实施例提供的一种音乐推荐方法的流程示意图。该方法可以由业务服务器（例如，上述图1所示的业务服务器100）执行，也可以由终端设备（例如，上述图1所示的终端设备200a）执行，还可以由业务服务器和终端设备交互执行。为便于理解，本申请实施例以该方法由业务服务器执行为例进行说明。如图5所示，该方法至少可以包括以下步骤：

步骤S201，获取与目标对象相关联的目标视频中的视频片段，加载与视频片段相关联的目标网络模型；

具体的，业务服务器可以获取与目标对象相关联的目标视频中的视频片段，并加载与该视频片段相关联的目标网络模型，其中，目标网络模型可以包括用于进行图像分析的第一网络模型，用于进行文本分析的第二网络模型，以及用于进行音频分析的第三网络模型，需要说明的是，由于图像分析涉及多种不同的分析处理方式，因此，本申请实施例提供的第一网络模型可以包括对象属性分析网络、场景分析网络、动作分析网络、物品分析网络。

步骤S202，对视频片段进行抽帧处理，得到视频帧序列；

本步骤的具体实现方式可以参见上述图3所对应实施例中的步骤S101，这里不再进行赘述。

步骤S203，将视频帧序列输入对象属性分析网络，通过对象属性分析网络对视频帧序列进行对象属性分析，得到视频帧序列对应的对象属性特征；

具体的，业务服务器可以将视频帧序列输入对象属性分析网络，在对象属性分析网络中，对视频帧序列进行人脸检测，可以获取视频帧序列中的关键对象的原始人脸图像。进一步，可以对原始人脸图像进行预处理，得到目标人脸图像，进而可以对目标人脸图像进行对象属性特征提取，得到视频帧序列对应的对象属性特征，随后可以将视频片段、关键对象以及对象属性特征对应的对象属性标签共同作为存储的关键字，存储到业务服务器。其中，对象属性特征可用于表征关键对象的情绪，关键对象可以为视频片段中的主要人物，例如，在视频片段X1中，主角A处在人群中，若检测到人群中主要的人脸就是主角A的脸，其他人物的画面比例占比很小，则主角A为视频片段X1中的主要人物，对其进行情绪识别（或称为表情识别，即对象属性分析），可以得到主角A的情绪特征（即对象属性特征），例如开心、难过、冷漠等。可选的，业务服务器还可以调用相应的接口来进行情绪识别。

其中，预处理可以包括人脸扶正、原始人脸图像的增强以及归一化处理等，人脸扶正是为了得到人脸位置端正的人脸图像；图像增强是为了改善原始人脸图像的质量，最终得到的目标人脸图像不仅在视觉上更加清晰，而且使得目标人脸图像更利于业务服务器的处理与识别；归一化处理的目标是取得尺寸一致、灰度取值范围相同的标准化人脸图像。常用的预处理方法可以包括直方图均衡、中值滤波、几何归一化、灰度归一化等。

步骤S204，将视频帧序列输入场景分析网络，通过场景分析网络对视频帧序列进行场景分析，得到视频帧序列对应的场景特征；

具体的，业务服务器可以将视频帧序列输入场景分析网络，在场景分析网络中，对视频帧序列进行场景检测，可以获取视频帧序列中的关键场景的原始场景图像，进而可以对原始场景图像进行预处理，得到目标场景图像，进而可以对目标场景图像进行场景特征提取，得到视频帧序列对应的场景特征，随后可以将场景特征存储到业务服务器。其中，场景特征可用于表征视频帧序列的场景划分，例如，滑雪地、海滩、海洋、乡村田野等。常用的场景分析方法可以包括基于对象的场景分析、基于区域的场景分析、基于上下文的场景分析等，本申请实施例对采用的具体场景分析方法不做限定。可选的，业务服务器还可以调用相应的接口来进行场景识别。

步骤S205，将视频帧序列输入动作分析网络，通过动作分析网络对视频帧序列进行动作分析，得到视频帧序列对应的动作特征；

具体的，业务服务器可以将视频帧序列输入动作分析网络，在动作分析网络中，对视频帧序列进行人体检测，可以获取视频帧序列中的关键动作对象的原始人体图像，进一步，可以对原始人体图像进行预处理，得到目标人体图像，进而可以对目标人体图像进行动作特征提取，得到视频帧序列对应的动作特征，随后可以将动作特征存储到业务服务器。其中，动作特征可用于表征关键动作对象的动作类型，例如，跳街舞、跳伞、比心等，这里的关键动作对象可以为视频片段中执行动作的主要人物。可选的，业务服务器还可以调用相应的接口来进行动作识别。

其中，动作分析网络具体可以为时空网络、多流网络、深层生成网络或时间相干网络等神经网络，本申请实施例对动作分析网络的具体类型不做限定。

步骤S206，将视频帧序列输入物品分析网络，通过物品分析网络对视频帧序列进行物品分析，得到视频帧序列对应的物品特征；

具体的，业务服务器可以将视频帧序列输入物品分析网络，在物品分析网络中，对视频帧序列进行物品检测，可以获取视频帧序列中的关键物品的原始物品图像。进一步，可以对原始物品图像进行预处理，得到目标物品图像，进而可以对目标物品图像进行物品特征提取，得到视频帧序列对应的物品特征，随后可以将物品特征存储到业务服务器。其中，关键物品可以为视频片段中的主要物品，物品特征可用于表征关键物品的物品属性，例如，当检测到关键物品为蛋糕、烟花时，相应的物品属性为生日庆祝属性，当检测到关键物品为玫瑰花、红酒时，相应的物品属性为浪漫属性。可选的，业务服务器还可以调用相应的接口来进行物品识别。

其中，物品分析网络具体可以为卷积神经网络、残差网络、残差收缩网络等，本申请实施例对物品分析网络的具体类型不做限定。

应当理解，上述步骤S203-步骤S206是通过第一网络模型对视频帧序列进行图像分析的一种可选的实施方式，对于其它可行的相似实施方式这里不再一一列举。此外，本申请实施例对步骤S203、步骤S204、步骤S205以及步骤S206被执行的先后顺序不进行限定，业务服务器还可以并行执行这四个步骤。

步骤S207，将对象属性特征、场景特征、动作特征以及物品特征作为视频帧序列对应的图像特征；

步骤S208，获取视频片段的目标文本数据，将目标文本数据输入第二网络模型，通过第二网络模型对目标文本数据进行文本分析，得到目标文本数据对应的文本特征；

具体的，业务服务器可以获取视频片段的片段文本数据以及对象音频数据，进而可以对对象音频数据进行语音转换，得到转换文本数据，随后可以将片段文本数据和转换文本数据作为目标文本数据。进一步，业务服务器可以对目标文本数据进行分词处理，得到目标文本数据的文本分词，进而对文本分词进行向量转换，得到文本分词对应的文本分词向量。进一步，业务服务器可以将文本分词向量输入第二网络模型，通过第二网络模型对文本分词向量进行文本特征提取，得到文本分词向量的向量特征，进而可以确定文本分词在目标文本数据中的文本位置，基于文本位置以及向量特征，可以确定目标文本数据对应的文本特征。

应当理解，分词处理就是将连续的字序列按照一定的规范重新组合成词序列的过程。例如，若视频主题信息为：“我和我的两个小伙伴”，则在对视频主题信息进行分词处理后，可以得到视频主题信息的文本分词为：“我”、“和”、“我的”、“两个”、“小伙伴”。

其中，可以理解的是，业务服务器可以通过词嵌入算法（例如，Word2Vec、Glove等算法）将文本分词进行向量转换，得到文本分词对应的文本分词向量。应当理解，本申请实施例对将文本分词进行向量转换的具体实现方式不做限定。

可选的，第二网络模型可以为Transformer模型，这里的Transformer模型是一种NLP（即自然语言处理）经典模型。Transformer模型使用了自注意力机制（即Self-Attention机制），不采用RNN（Recurrent Neural Network，简称循环神经网络）的顺序结构，使得模型可以并行化训练，且拥有全局信息。其中，RNN（Recurrent Neural Network）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion），且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）。应当理解，本申请实施例不对第二网络模型的具体类型进行限定。

步骤S209，获取视频片段的背景音频数据，将背景音频数据输入第三网络模型，通过第三网络模型对背景音频数据进行音频分析，得到背景音频数据对应的背景音频特征；

该步骤的具体过程可以参见上述图3所对应实施例中的步骤S101，这里不再进行赘述。得到背景音频特征后，可以将背景音频特征存储到业务服务器。可选的，业务服务器可以调用相应的接口来进行背景音频数据的识别。

步骤S210，基于图像特征、文本特征以及背景音频特征确定视频片段对应的音视频特征，基于音视频特征确定视频片段的视频属性标签；

该步骤的具体过程可以参见上述图3所对应实施例中的步骤S101，这里不再进行赘述。

此外，本申请实施例对上述图像分析、文本分析以及音频分析被执行的先后顺序不进行限定，业务服务器还可以并行执行这三种分析对应的步骤。

步骤S211，获取目标对象的历史对象数据，从历史对象数据中获取与目标对象相关联的历史视频信息以及历史音乐信息，基于历史视频信息以及历史音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签；

该步骤的具体过程可以参见上述图3所对应实施例中的步骤S102，这里不再进行赘述。

步骤S212，基于视频属性标签以及对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与目标综合特征标签相匹配的目标音乐，将目标音乐作为视频片段的第一匹配音乐推送给目标对象；

该步骤的具体过程可以参见上述图3所对应实施例中的步骤S103，这里不再进行赘述。

需要说明的是，步骤201-步骤S212是上述图3所对应实施例中步骤S101-步骤S103的一个具体实施例，还可以有其它类似的实施例，这里不再进行赘述。

步骤S213，对视频片段进行转场检测，当视频片段存在转场属性时，获取视频片段中的转场位置；获取用于表征转场属性的转场属性标签，基于转场属性标签以及对象属性标签，生成综合转场特征标签，从音乐推荐数据库中获取与综合转场特征标签相匹配的目标转场音乐，将目标转场音乐作为视频片段的第二匹配音乐推送给目标对象。

在本申请实施例中，业务服务器可以通过对文字的理解或对图像的理解等方式为视频片段推荐转场音乐，可以理解，转场音乐主要用于转场切换时的过渡，例如，从欢乐氛围切换到悲伤氛围，从室内逼仄的场景切换到室外辽阔的场景等不同对象属性/氛围/场景/风格/调性之间的切换。需要说明的是，与背景音乐相比，转场音乐在一个视频片段中的持续时长通常较短，也就是说，背景音乐一般是添加到整个视频片段中，而转场音乐一般会添加到视频片段中转场位置所指示的位置（例如转场位置所在的视频帧或转场位置前后的一些视频帧）。

可选的，业务服务器可以对视频片段的目标文本数据（例如，评论文本信息、对象文本信息、转换文本数据等）进行转场检测，为便于理解，这里以评论文本信息为例进行说明。业务服务器可以在评论文本信息（例如，弹幕）中检测用于表征转场属性的目标关键词，当在评论文本信息中检测到目标关键词时，可以确定视频片段存在目标关键字所表征的转场属性，进而可以从视频片段中获取目标关键词对应的目标视频帧，并将目标视频帧作为视频片段中的转场位置，且可以获取目标关键词对应的转场属性标签。其中，转场属性可用于表征视频片段中不同对象属性/氛围/场景/风格/调性之间进行切换的特性。应该理解，视频片段中可能存在目标关键词对应的多个视频帧，则业务服务器可以将目标关键词首次出现的视频帧作为目标视频帧，或者，按照其它的选取方式在多个视频帧中选取一个作为目标视频帧，例如，可以进行随机选取，或者，也可以将多个视频帧均作为目标视频帧，本申请实施例对此不做限定。应该理解，目标关键词的具体内容可以根据实际需要进行设置，可选的，可以将网络流行用语或者出现频率较高的弹幕、评论等作为目标关键词，例如，假设将“高能预警”添加为目标关键词，则当业务服务器检测到视频片段X2的弹幕中出现“高能预警”时，可以为目标对象推荐“高能预警”相关的转场音乐，例如可以是悬疑类型的转场音乐。

可选的，业务服务器可以对从视频片段得到的视频帧序列进行转场检测。例如，针对场景转换，业务服务器可以先在视频帧序列中选取关键视频帧（例如，第一个视频帧），随后，可以按照时间上的先后顺序，依次将非关键视频帧（即视频帧序列中除了关键视频帧之外的其它视频帧）与该关键视频帧进行场景匹配，当检测到非关键视频帧中存在与该关键视频帧的场景匹配度小于场景匹配阈值（即场景变化较大）的视频帧时，可以确定视频片段存在该视频帧与关键视频帧所表征的转场属性，进而可以将该视频帧确定为目标视频帧，并将目标视频帧作为视频片段中的转场位置，且可以获取目标视频帧以及关键视频帧共同对应的转场属性标签。其中，目标视频帧可以是与关键视频帧的场景匹配度小于场景匹配阈值的多个视频帧中的首个视频帧。例如，假设对视频片段X3进行抽帧处理后得到视频帧序列X4，且视频帧序列X4中包括视频帧X41、视频帧X42、…、视频帧X410，则可以将视频帧X41作为关键视频帧，进而可以依次将视频帧X42-视频帧X410分别与视频帧X41进行场景匹配，直到检测到视频帧X45与视频帧X41之间的场景匹配度小于场景匹配阈值时，可以将视频帧X45作为目标视频帧，即视频片段X3中的一个转场位置。可以理解，还可以将目标视频帧作为新的关键视频帧继续上述场景转换的检测过程，因此，一个视频片段中可能存在一个或多个针对场景转换的转场位置。其中，场景匹配度可以根据实际需要进行设置，本申请实施例对此不做限定。

又例如，同理，针对对象属性（即情绪）转换，业务服务器可以先在视频帧序列中选取关键视频帧（例如，第一个视频帧），随后，可以按照时间上的先后顺序，依次将非关键视频帧（即视频帧序列中除了关键视频帧之外的其它视频帧）与该关键视频帧进行对象属性匹配，当检测到非关键视频帧中存在与该关键视频帧的对象属性匹配度小于对象属性匹配阈值（即对象属性变化较大）的视频帧时，可以确定视频片段存在该视频帧与关键视频帧所表征的转场属性，进而可以将该视频帧确定为目标视频帧，并将目标视频帧作为视频片段中的转场位置，且可以获取目标视频帧以及关键视频帧共同对应的转场属性标签。其中，目标视频帧可以是与关键视频帧的对象属性匹配度小于对象属性匹配阈值的多个视频帧中的首个视频帧。例如，同样对于上述举例的视频帧序列X4，当检测到视频帧X47与视频帧X41之间的对象属性匹配度小于对象属性匹配阈值时，可以将视频帧X47作为目标视频帧，即视频片段X3中的一个转场位置。应当理解，针对风格/调性转换的检测过程类似，此外，还可以综合不同类型的转场属性来共同确定转场位置以及转场属性标签，这里不再一一列举。

进一步，获取到转场属性标签后，业务服务器可以基于转场属性标签以及上述步骤S211中的对象属性标签，生成综合转场特征标签，可以理解，这里的综合转场特征标签也是一种深层次、高维度且综合立体的划分，因此，后续基于综合转场特征标签获取到的目标转场音乐同样具有更高的准确度。可选的，业务服务器可以直接将转场属性标签以及对象属性标签进行组合，得到综合转场特征标签。可选的，由于转场属性标签以及对象属性标签均可以包括一个或多个子标签，因此还可以考虑任意两个子标签之间的重合问题，具体来说，假设转场属性标签包括M个转场属性子标签，M为正整数，对象属性标签包括N个对象属性子标签，N为正整数，则业务服务器可以对M个转场属性子标签以及N个对象属性子标签（即M+N个子标签）中的任意两个子标签进行重合度检测，从而可以得到任意两个子标签之间的第二重合度，进而可以基于任意两个子标签之间的第二重合度，对M个转场属性子标签以及N个对象属性子标签进行标签整合，得到综合转场特征标签，其中，对于不相同的两个子标签，两者之间的第二重合度为低重合度（例如，第二重合度为0），而对于相同的两个子标签，两者之间的第二重合度为高重合度（例如，第二重合度为100%或其它大于0的数值），因此，在一种实施方式中，对于具有高重合度的子标签，可以相应的增加其在所有子标签中的权重，从而得到可用的综合转场特征标签。

进一步，业务服务器可以从音乐推荐数据库中获取与综合转场特征标签相匹配的目标转场音乐，并可以将目标转场音乐作为视频片段的第二匹配音乐推送给目标对象，具体的，业务服务器可以从音乐推荐数据库中获取与综合转场特征标签相关联的转场音乐集合，进而可以在转场音乐集合中基于每个转场音乐的音乐标签与综合转场特征标签之间的标签匹配度，对转场音乐集合中的每个转场音乐进行排序，进一步，可以从排序后的转场音乐集合中获取目标转场音乐，最终可以将目标转场音乐作为视频片段的第二匹配音乐推送给目标对象。其中，第二匹配音乐是指转场音乐类型的配乐。

可选的，可以在排序后的转场音乐集合中将具有最高标签匹配度的转场音乐作为目标转场音乐，然后将目标转场音乐作为视频片段的第二匹配音乐推送给目标对象，此时可以直接将该目标转场音乐添加至转场位置。可选的，可以在排序后的转场音乐集合中获取标签匹配度在匹配区间内的转场音乐作为目标转场音乐，其中，匹配区间可以根据实际需要进行设置，匹配区间可以用具体的第二匹配度阈值表示，例如，可以在排序后的转场音乐集合中将标签匹配度大于第二匹配度阈值的转场音乐作为目标转场音乐，本申请对第二匹配度阈值的具体大小不做限定；或者，匹配区间还可以用转场音乐对应的排行序号表示，其中，排行序号用于表征每个转场音乐的音乐标签与综合转场特征标签之间的标签匹配度在所有标签匹配度中的排名，例如，可以排序后的转场音乐集合中每个转场音乐对应唯一的排行序号，可将排行序号在W3和W4之间的转场音乐作为目标转场音乐，W3和W4均为正整数，例如，可以将排行序号在1-20之间的转场音乐作为目标转场音乐，即选取排名在前20的转场音乐。可选的，还可以考虑热度的因素，例如，可以从排序后的转场音乐集合中获取位于某个热度区间的转场音乐作为目标转场音乐。可选的，还可以从排序后的转场音乐集合中随机选择一个或多个转场音乐作为目标转场音乐，也可以选择全部转场音乐作为目标转场音乐。本申请实施例对从排序后的转场音乐集合中获取目标转场音乐的具体方式不做限定。

应该理解，后续目标对象可以通过终端设备在目标转场音乐中选择添加至转场位置的转场音乐，可选的，一个视频片段可以添加一个或多个转场音乐。

请一并参见图6，图6是本申请实施例提供的一种视频配乐的场景示意图。如图6所示，结合上述图2所对应的实施例，选择视频301b（即目标视频）中的视频片段302b作为待添加配乐的视频片段，进而业务服务器30B可以基于对视频片段302b的音视频分析，最终得到目标音乐B。同时，还可以基于对视频片段302b的转场检测，最终得到目标转场音乐Y，其中，目标转场音乐Y可以包括音乐Y1、音乐Y2、音乐Y3、…、音乐YS，随后可以将目标音乐B以及目标转场音乐Y返回至终端设备30A。进一步，终端设备30A接收到目标音乐B以及目标转场音乐Y，可以生成音乐列表400b，在音乐列表400b中可以按照标签匹配度的优先级展示目标音乐B以及目标转场音乐Y。进一步，用户A可以通过音乐列表400b进行浏览和配乐（包括背景音乐和转场音乐）的选取，具体过程可以参见上述图2所对应的实施例，这里不再进行赘述。其中，音乐列表400b还可以包括筛选控件401b，终端设备30A可以响应针对筛选控件401b的触发操作，显示音乐列表400b中所有音乐对应的音乐标签（例如，轻松、唯美、舒缓、流行、古典、嘻哈等），进而可以响应用户A对这些音乐标签的选择操作，对音乐列表400b进行更新显示，即只显示用户A所选取的音乐标签相关联的音乐，也就是说，用户A可以选择需要的音乐特性来对推送的音乐进行二次筛选过滤，从而可以提升选取配乐的效率，降低视频制作成本。

进一步，如图6所示，选取相应的配乐后，在视频编辑界面400a中，可以显示配乐功能表401a，配乐功能表401a可以显示选取的配乐，例如，用户A当前选取的背景音乐，即音乐B2，此外，还可以包括多个功能控件，例如第一切换控件402a，播放/暂停控件403a，第二切换控件404a，列表显示/隐藏控件405a以及全片应用控件406a，其中，第一切换控件402a用于将当前的配乐切换到该配乐在音乐列表400b中的上一曲（例如，音乐B1），而第二切换控件404a则用于将当前的配乐切换到该配乐在音乐列表400b中的下一曲（例如，音乐B3），播放/暂停控件403a用于控制配乐的播放或暂停，列表显示/隐藏控件405a用于控制音乐列表400b的显示或隐藏，全片应用控件406a则用于将选中的配乐添加到完整的目标视频中。此外，视频编辑界面400a还可以包括配乐添加控件407a以及原声添加控件408a，配乐添加控件407a用于控制是否将配乐添加至视频片段，原声添加控件408a则用于控制是否将视频原声（包括背景音频数据和对象音频数据）添加至视频片段。

进一步，假设用户A选择了音乐B2作为视频片段302b的背景音乐，同时选择了音乐Y1作为视频片段302b的转场音乐，如图6所示，在视频编辑界面400a中，可以显示音乐B2中添加至视频片段302b的音乐片段409a（即背景音乐片段），其中，自适应选取的音乐片段409a的时长与视频片段302b的时长相等。可选的，音乐片段409a可以默认为音乐B2中的高潮片段，或者，也可以是基于用户A的历史音乐信息所选取出来的某个片段，或者，还可以是用户A自己选取的片段，例如，终端设备30A可以响应针对音乐片段409a的触发操作（例如，点击操作），在音乐片段409a的两端分别显示用于选取音乐片段的选取控件，具体包括第二片头选取控件410a以及第二片尾选取控件411a，终端设备30A可以响应用户A针对音乐片段409a的滑动操作，调整第二片头选取控件410a与第二片尾选取控件411a之间的片段，进而终端设备30A可以响应用户A针对第二片头选取控件410a的触发操作（例如，拖动操作），在音乐B2中选取背景音乐起点，同理，终端设备30A可以响应用户A针对第二片尾选取控件411a的触发操作，在音乐B2中选取背景音乐终点，进而可以将背景音乐起点与背景音乐终点之间的音乐片段作为用户A选取的背景音乐片段。可选的，当需要添加背景音乐的视频片段（例如，视频301b）的时长大于完整背景音乐（例如，音乐B2）的时长时，终端设备20A可以对该背景音乐进行重复拼接，直到拼接后的背景音乐的时长等于该视频片段的时长。

同理，如图6所示，在视频编辑界面400a中，可以显示音乐Y1中添加至视频片段302b的转场位置的音乐片段413a（即转场音乐片段），其中，为便于用户观察，可在视频片段302b中显示转场位置标识412a，用于指示对应的转场位置，当然，用户A也可以拖动转场位置标识412a来调整转场位置。可以理解，音乐片段413a可以从转场位置开始添加，其时长可以为1秒-3秒，具体时长还可以由用户自行调整，本申请实施例对此不做限定。可选的，音乐片段413a可以默认为音乐Y1中的高潮片段，或者，也可以是基于用户A的历史音乐信息所选取出来的某个片段，或者，还可以是用户A自己选取的片段。例如，与选取背景音乐片段类似，终端设备30A可以响应用户A针对音乐片段413a的滑动操作，调整第三片头选取控件414a与第三片尾选取控件415a之间的片段，此外，终端设备30A可以响应用户A针对第三片头选取控件414a的触发操作（例如，拖动操作），在音乐Y1中选取转场音乐起点，同理，终端设备30A可以响应用户A针对第三片尾选取控件415a的触发操作，在音乐Y1中选取转场音乐终点，进而可以将转场音乐起点与转场音乐终点之间的音乐片段作为用户A选取的转场音乐片段。应当理解，当同一个视频片段中同时添加背景音乐和转场音乐时，选取的背景音乐片段和转场音乐片段可以进行拼接，例如，转场音乐片段所添加的位置只播放该转场音乐片段，该视频片段中的其它位置则按顺序播放背景音乐片段。最终，终端设备30A可以响应用户A针对“完成”控件306a的触发操作，完成本次添加配乐的过程。

进一步地，请参见图7，图7是本申请实施例提供的一种音乐推荐方法的流程示意图。该方法可以由业务服务器和终端设备共同执行。如图7所示，该方法至少可以包括以下步骤：

步骤S301，终端设备响应针对目标视频的上传操作（或拍摄操作），获取与用户（即目标对象）相关联的目标视频，并显示视频编辑界面，进而可以响应视频编辑界面中针对目标视频的选取操作，获取用户所选择的视频片段。其中，视频编辑界面还包括智能配乐控件。

步骤S302，终端设备响应视频编辑界面中针对“添加智能配乐”控件（即智能配乐控件）的触发操作，将视频片段发送至业务服务器。

步骤S303，业务服务器通过视频理解（即图像分析）获取视频片段对应的特征元素标签（即目标图像标签）。

步骤S304，业务服务器通过对视频色彩以及视频内容等元素的分析获取视频片段的调性标签（即目标调性标签）。

步骤S305，业务服务器通过用户历史视频剪辑得到的历史视频信息以及历史音乐选取得到的历史音乐信息提取出用户兴趣标签（即对象属性标签）。

步骤S306，业务服务器根据特征元素标签、调性标签以及用户兴趣标签搜索相关联的音乐进行匹配，按照匹配度优先级进行音乐推荐，并将推荐结果返回至终端设备。

其中，本申请实施例对上述步骤S303、步骤S304、步骤S305执行的先后顺序不进行限定。可选的，步骤S303、步骤S304、步骤S305、步骤S306也可由终端设备执行。

进一步地，请参见图8，图8是本申请实施例提供的一种音乐推荐方法的流程示意图。该方法可以由业务服务器和终端设备共同执行。如图8所示，该方法至少可以包括以下步骤：

步骤S401，结果展示部分，终端设备向目标对象展示最终排序结果的推荐音乐（包括目标音乐和目标转场音乐）。

步骤S402，行为日志部分，业务服务器可以存储目标对象过往选择音乐的历史数据（即历史音乐信息）以及过往视频理解的数据（即历史视频信息），供迭代生成新模型进行音乐推荐。

应当理解，当目标对象重新为一段新的视频片段选取配乐时，业务服务器可以根据目标对象当前选择音乐的数据生成目标音乐信息，且根据对该视频片段进行视频理解、文本理解、音频理解所得的数据生成目标视频信息，进而可以基于目标音乐信息以及目标视频信息，对历史对象数据进行更新，得到更新对象行为数据。

步骤S403，特征工程部分，业务服务器可以对视频特征（即图像特征）、调性特征（即融合调性特征）、用户画像特征等进行标签提取，并将这些特征作为输入，为后续各类推荐算法提供数据。

步骤S404，召回部分，有了上面的特征，业务服务器可以采用数据工程和算法的方式，从音乐库（即音乐推荐数据库）中锁定特定的候选集合（包括背景音乐集合、转场音乐集合），完成对推荐列表的初步筛选，其在一定程度上决定了排序阶段的效率和推荐结果的优劣。

步骤S405，排序部分，针对步骤S404中的候选集合，业务服务器会进行更精细化地打分、排序，以获得一份最终的推荐音乐。

进一步地，请参见图9，图9是本申请实施例提供的一种音乐推荐方法的交互示意图。如图9所示，该方法至少可以包括以下步骤：

步骤S501，开发人员对应的终端设备提前上传训练素材至业务服务器（即服务器端）；

步骤S502，业务服务器使用训练素材进行模型训练；

具体的，业务服务器可以使用训练素材来训练初始网络模型，从而得到目标网络模型，可选的，由于初始网络模型中的第一初始网络模型、第二初始网络模型以及第三初始网络模型均各自独立，且第一初始网络模型中的初始对象属性分析网络、初始场景分析网络、初始动作分析网络、初始物品分析网络也各自独立，因此，业务服务器可以单独训练这些模型和网络。

以初始对象属性分析网络为例，在一种实施方式中，可以提供用于对象属性分析的表情识别***，该***主要包括数据库、特征训练模块与表情识别模块，其中，数据库可采用JAFFE表情数据库（The Japanese Female Facial Expression Database，即日本女性面部表情数据库），该数据库是一个开放的人脸表情图像数据库，包括KA、KL、KM、KR、MK、NA、NM、TM、UY、YM共10个不同的日本女性（即样本对象），每个人有AN、DI、FE、HA、NE、SA、SU共7种不同表情的人脸图像，分别为愤怒、厌恶、害怕、快乐、无表情、悲哀、惊讶，每种表情有3张或4张样本图像，总数是213张表情图像，原始图像为256×256像素。其中，每一种表情都可以建立一个标准的表情模板，待测的人脸表情与各种标准的表情模板进行匹配，哪种匹配度高就与哪种表情越接近。数据库中这些表情（愤怒、厌恶、害怕、悲哀、惊讶、快乐）大多比较夸张，所以当匹配度较高时说明该待测的人脸表情也比较夸张。其中，人脸表情识别是在数据库上进行检测与匹配的。对于特征训练模块，可以采用JAFFE表情数据库中的图片作为样本图片输入初始对象属性分析网络进行训练，进而可以对样本图片进行人脸检测，获取样本图片中的样本对象的样本人脸图像，进一步，对样本人脸图像进行预处理，可以得到处理人脸图像，随后对处理人脸图像进行对象属性特征提取，可以得到样本图像对应的预测对象属性特征，进而可以根据预测对象属性特征得到预测对象属性标签，基于预测对象属性标签以及样本图像对应的样本对象属性标签生成损失函数，根据损失函数对初始对象属性分析网络的网络参数进行调整，最终可以得到对象属性分析网络，并集成到表情识别模块，后续目标对象上传视频片段时可以将视频片段加载到表情识别***进行对象属性分析。

应当理解，其它网络或模型的训练过程与对象属性分析网络的训练过程类似，只是训练的图片集不一样，这里不再进行赘述。

步骤S503，用户（目标对象）对应的终端设备上的应用客户端（也可简称为客户端）获取用户提交的目标视频以及选择需要添加音乐的视频片段；

步骤S504，应用客户端将视频片段上传至业务服务器；

步骤S505，业务服务器通过目标网络模型对视频片段进行特征识别（即音视频分析），并将特征识别结果（即音视频特征）进行存储；

步骤S506，业务服务器将提取到的特征上传到音乐推荐***；

步骤S507，音乐推荐***经过推荐算法匹配，找到符合特征的推荐音乐列表；

步骤S508，音乐推荐***将符合特征的推荐音乐列表返回至业务服务器，再由业务服务器将推荐音乐列表返回给应用客户端；

步骤S509，应用客户端向用户展示推荐音乐列表。

上述可知，本申请实施例可以通过基于视频属性标签以及对象属性标签所得到的目标综合特征标签来进行背景音乐推荐，还可以通过基于转场属性标签以及对象属性标签得到的综合转场特征标签来进行转场音乐推荐，也就是说，可以通过对视频片段的深层次理解以及对目标对象的画像描绘来共同推荐适合于视频片段的背景音乐以及转场音乐，这样得到的音乐更加准确，因此可以提升音乐推荐的准确度，同时可以提升视频配乐的精准度，后续也可以快速地从推送的音乐中选取配乐添加至视频片段中，从而可以提升视频配乐的效率。

进一步，请参见图10，是本申请实施例提供的一种音乐推荐装置的结构示意图。如图10所示，音乐推荐装置2可以运行于业务服务器，该业务服务器可以为上述图1所对应实施例中的业务服务器100，或者，该音乐推荐装置2可以运行于终端设备，该终端设备可以为上述图1所对应实施例的终端集群中的任意一个终端设备，例如，终端设备200a。该音乐推荐装置1可以包括：第一标签确定模块1a、第二标签确定模块2a、第一音乐推送模块3a；

第一标签确定模块1a，用于获取目标对象上传的目标视频，对目标视频中目标对象选取的视频片段进行音视频分析，得到视频片段对应的音视频特征，基于音视频特征确定视频片段的视频属性标签；

第二标签确定模块2a，用于获取目标对象的历史对象数据，从历史对象数据中获取与目标对象相关联的历史视频信息以及历史音乐信息，基于历史视频信息以及历史音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签；历史视频信息是基于目标对象编辑过的历史视频所确定的，历史音乐信息是基于目标对象为历史视频所选择的历史音乐所确定的；

第一音乐推送模块3a，用于基于视频属性标签以及对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与目标综合特征标签相匹配的目标音乐，将目标音乐推送给目标对象。

其中，第一标签确定模块1a、第二标签确定模块2a、第一音乐推送模块3a的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S103，这里不再进行赘述。

请参见图11，是本申请实施例提供的一种音乐推荐装置的结构示意图。该音乐推荐装置可以是运行于计算机设备的一个计算机程序（包括程序代码），例如该音乐推荐装置为一个应用软件；该装置可以用于执行本申请实施例提供的音乐推荐方法中的相应步骤。如图11所示，音乐推荐装置2可以运行于业务服务器，该业务服务器可以为上述图1所对应实施例中的业务服务器100，或者，该音乐推荐装置2可以运行于终端设备，该终端设备可以为上述图1所对应实施例的终端集群中的任意一个终端设备，例如，终端设备200a。该音乐推荐装置2可以包括：第一标签确定模块11、第二标签确定模块12、第一音乐推送模块13；

第一标签确定模块11，用于获取目标对象上传的目标视频，对目标视频中目标对象选取的视频片段进行音视频分析，得到视频片段对应的音视频特征，基于音视频特征确定视频片段的视频属性标签；

第二标签确定模块12，用于获取目标对象的历史对象数据，从历史对象数据中获取与目标对象相关联的历史视频信息以及历史音乐信息，基于历史视频信息以及历史音乐信息所关联的历史综合特征标签，确定目标对象的对象属性标签；历史视频信息是基于目标对象编辑过的历史视频所确定的，历史音乐信息是基于目标对象为历史视频所选择的历史音乐所确定的；

第一音乐推送模块13，用于基于视频属性标签以及对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与目标综合特征标签相匹配的目标音乐，将目标音乐推送给目标对象。

其中，第一标签确定模块11、第二标签确定模块12、第一音乐推送模块13的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S103，这里不再进行赘述。

在一种实施方式中，目标文本数据包括评论文本信息；该装置还可以包括：转场检测模块14、第二音乐推送模块15；

转场检测模块14，用于在评论文本信息中检测用于表征转场属性的目标关键词，当在评论文本信息中检测到目标关键词时，确定视频片段存在目标关键字所表征的转场属性；从视频片段中获取目标关键词对应的目标视频帧，将目标视频帧作为视频片段中的转场位置；

第二音乐推送模块15，用于获取目标关键词对应的转场属性标签，基于转场属性标签以及对象属性标签，生成综合转场特征标签，从音乐推荐数据库中获取与综合转场特征标签相匹配的目标转场音乐，将目标转场音乐推送给目标对象；目标转场音乐用于添加至转场位置。

其中，转场检测模块14、第二音乐推送模块15的具体功能实现方式可以参见上述图5所对应实施例中的步骤S213，这里不再进行赘述。

上述第一标签确定模块11可以包括：模型获取单元111、图像分析单元112、文本分析单元113、音频分析单元114、特征确定单元115；

模型获取单元111，用于获取目标视频中目标对象选取的视频片段所对应的目标网络模型；目标网络模型包括用于进行图像分析的第一网络模型、用于进行文本分析的第二网络模型以及用于进行音频分析的第三网络模型；

图像分析单元112，用于对视频片段进行抽帧处理，得到视频帧序列，将视频帧序列输入第一网络模型，通过第一网络模型对视频帧序列进行图像分析，得到视频帧序列对应的图像特征；

文本分析单元113，用于获取视频片段的目标文本数据，将目标文本数据输入第二网络模型，通过第二网络模型对目标文本数据进行文本分析，得到目标文本数据对应的文本特征；

上述文本分析单元113，具体用于获取视频片段的片段文本数据以及对象音频数据，对对象音频数据进行语音转换，得到转换文本数据，将片段文本数据和转换文本数据作为目标文本数据；对目标文本数据进行分词处理，得到目标文本数据的文本分词，对文本分词进行向量转换，得到文本分词对应的文本分词向量；将文本分词向量输入第二网络模型，通过第二网络模型对文本分词向量进行文本特征提取，得到目标文本数据对应的文本特征；

音频分析单元114，用于获取视频片段的背景音频数据，将背景音频数据输入第三网络模型，通过第三网络模型对背景音频数据进行音频分析，得到背景音频数据对应的背景音频特征；

特征确定单元115，用于基于图像特征、文本特征以及背景音频特征确定视频片段对应的音视频特征。

其中，模型获取单元111、图像分析单元112、文本分析单元113、音频分析单元114、特征确定单元115的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101，这里不再进行赘述。

在一种实施方式中，上述目标网络模型还包括用于进行图像分类的第一分类器、用于进行文本分类的第二分类器以及用于进行调性分类的第三分类器；

上述第一标签确定模块11可以包括：图像分类单元116、文本分类单元117、调性分类单元118、标签确定单元119；

图像分类单元116，用于基于图像特征以及第一分类器，对视频片段进行图像分类，得到视频片段的目标图像标签；

文本分类单元117，用于基于文本特征以及第二分类器，对视频片段进行文本分类，得到视频片段的目标文本标签；

调性分类单元118，用于基于融合调性特征以及第三分类器，对视频片段进行调性分类，得到视频片段的目标调性标签；

标签确定单元119，用于将目标图像标签、目标文本标签以及目标调性标签作为视频片段的视频属性标签。

其中，图像分类单元116、文本分类单元117、调性分类单元118、标签确定单元119的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101，这里不再进行赘述。

在一种实施方式中，上述视频属性标签包括K个视频属性子标签，K为正整数；对象属性标签包括L个对象属性子标签，L为正整数；

上述第一音乐推送模块13可以包括：第一重合检测单元131、第一音乐匹配单元132；

第一重合检测单元131，用于对K个视频属性子标签以及L个对象属性子标签中的任意两个子标签进行重合度检测，得到任意两个子标签之间的第一重合度，基于第一重合度对K个视频属性子标签以及L个对象属性子标签进行标签整合，得到目标综合特征标签；

第一音乐匹配单元132，用于从音乐推荐数据库中获取与目标综合特征标签相关联的背景音乐集合，在背景音乐集合中基于每个背景音乐的音乐标签与目标综合特征标签之间的标签匹配度，对每个背景音乐进行排序，从排序后的背景音乐集合中获取目标音乐，将目标音乐推送给目标对象；

上述第一音乐匹配单元132，具体用于在排序后的背景音乐集合中获取标签匹配度在匹配区间内的背景音乐作为目标音乐，将目标音乐推送给目标对象。

其中，第一重合检测单元131、第一音乐匹配单元132的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103，这里不再进行赘述。

在一种实施方式中，上述转场属性标签包括M个转场属性子标签，M为正整数；对象属性标签包括N个对象属性子标签，N为正整数；

上述第二音乐推送模块15可以包括：第二重合检测单元151、第二音乐匹配单元152；

第二重合检测单元151，用于对M个转场属性子标签以及N个对象属性子标签中的任意两个子标签进行重合度检测，得到任意两个子标签之间的第二重合度，基于第二重合度对M个转场属性子标签以及N个对象属性子标签进行标签整合，得到综合转场特征标签；

第二音乐匹配单元152，用于从音乐推荐数据库中获取与综合转场特征标签相关联的转场音乐集合，在转场音乐集合中基于每个转场音乐的音乐标签与综合转场特征标签之间的标签匹配度，对每个转场音乐进行排序，从排序后的转场音乐集合中获取目标转场音乐，将目标转场音乐推送给目标对象；

上述第二音乐匹配单元152，具体用于在排序后的转场音乐集合中将具有最高标签匹配度的转场音乐作为目标转场音乐，将目标转场音乐推送给目标对象。

其中，第二重合检测单元151、第二音乐匹配单元152的具体功能实现方式可以参见上述图5所对应实施例中的步骤S213，这里不再进行赘述。

在一种实施方式中，上述图像特征中包含用于表征视频片段的画风属性的第一调性特征；背景音频特征中包含用于表征背景音频数据的音乐属性的第二调性特征；

上述特征确定单元115可以包括：特征融合子单元1151、特征确定子单元1152；

特征融合子单元1151，用于对图像特征中的第一调性特征和背景音频特征中的第二调性特征进行特征融合，得到视频片段对应的融合调性特征；

特征确定子单元1152，用于将图像特征、文本特征以及融合调性特征作为视频片段对应的音视频特征。

其中，特征融合子单元1151、特征确定子单元1152的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101，这里不再进行赘述。

在一种实施方式中，上述第一网络模型包括对象属性分析网络、场景分析网络、动作分析网络、物品分析网络；

上述图像分析单元112可以包括：对象属性分析子单元1121、场景分析子单元1122、动作分析子单元1123、物品分析子单元1124、图像特征确定子单元1125；

对象属性分析子单元1121，用于将视频帧序列输入对象属性分析网络，通过对象属性分析网络对视频帧序列进行对象属性分析，得到视频帧序列对应的对象属性特征；

上述对象属性分析子单元1121，具体用于将视频帧序列输入对象属性分析网络，在对象属性分析网络中，对视频帧序列进行人脸检测，获取视频帧序列中的关键对象的原始人脸图像；对原始人脸图像进行预处理，得到目标人脸图像；对目标人脸图像进行对象属性特征提取，得到视频帧序列对应的对象属性特征；

场景分析子单元1122，用于将视频帧序列输入场景分析网络，通过场景分析网络对视频帧序列进行场景分析，得到视频帧序列对应的场景特征；

动作分析子单元1123，用于将视频帧序列输入动作分析网络，通过动作分析网络对视频帧序列进行动作分析，得到视频帧序列对应的动作特征；

物品分析子单元1124，用于将视频帧序列输入物品分析网络，通过物品分析网络对视频帧序列进行物品分析，得到视频帧序列对应的物品特征；

图像特征确定子单元1125，用于将对象属性特征、场景特征、动作特征以及物品特征作为视频帧序列对应的图像特征。

其中，对象属性分析子单元1121、场景分析子单元1122、动作分析子单元1123、物品分析子单元1124、图像特征确定子单元1125的具体功能实现方式可以参见上述图5所对应实施例中的步骤S203-步骤S207，这里不再进行赘述。

请参见图12，是本申请实施例提供的一种计算机设备的结构示意图。如图12所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在如图12所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以执行前文图3、图5任一个所对应实施例中对该音乐推荐方法的描述，也可执行前文图10所对应实施例中对音乐推荐装置1以及前文图11所对应实施例中对音乐推荐装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的音乐推荐装置1或音乐推荐装置2所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3、图5任一个所对应实施例中对上述音乐推荐方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的音乐推荐装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（smart media card，SMC），安全数字（secure digital，SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

此外，这里需要指出的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图3、图5任一个所对应实施例提供的方法。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音乐推荐方法，其特征在于，包括：

获取与目标对象相关联的目标视频中的视频片段，对所述视频片段进行音视频分析，得到所述视频片段对应的音视频特征，基于所述音视频特征确定所述视频片段的视频属性标签；所述音视频特征是由所述视频片段的视频帧序列对应的图像特征、所述视频片段的目标文本数据对应的文本特征以及所述视频片段的背景音频数据对应的背景音频特征所确定的；

获取所述目标对象的历史对象数据，从所述历史对象数据中获取与所述目标对象相关联的历史视频信息以及历史音乐信息，基于所述历史视频信息以及所述历史音乐信息所关联的历史综合特征标签，确定所述目标对象的对象属性标签；所述历史视频信息是基于所述目标对象编辑过的历史视频所确定的，所述历史音乐信息是基于所述目标对象为所述历史视频所选择的历史音乐所确定的；

基于所述视频属性标签以及所述对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与所述目标综合特征标签相匹配的目标音乐，将所述目标音乐作为所述视频片段的第一匹配音乐推送给所述目标对象；

其中，所述目标文本数据包括评论文本信息；所述方法还包括：

在所述评论文本信息中检测用于表征转场属性的目标关键词，当在所述评论文本信息中检测到所述目标关键词时，确定所述视频片段存在所述目标关键字所表征的所述转场属性；

从所述视频片段中获取所述目标关键词对应的目标视频帧，将所述目标视频帧作为所述视频片段中的转场位置；

获取所述目标关键词对应的转场属性标签，基于所述转场属性标签以及所述对象属性标签，生成综合转场特征标签，从所述音乐推荐数据库中获取与所述综合转场特征标签相匹配的目标转场音乐，将所述目标转场音乐作为所述视频片段的第二匹配音乐推送给所述目标对象；所述目标转场音乐用于添加至所述转场位置。

2.根据权利要求1所述的方法，其特征在于，所述获取与目标对象相关联的目标视频中的视频片段，对所述视频片段进行音视频分析，得到所述视频片段对应的音视频特征，包括：

获取与目标对象相关联的目标视频，从所述目标视频中获取由所述目标对象所选取的视频片段，加载与所述视频片段相关联的目标网络模型；所述目标网络模型包括用于进行图像分析的第一网络模型、用于进行文本分析的第二网络模型以及用于进行音频分析的第三网络模型；

对所述视频片段进行抽帧处理，得到视频帧序列，将所述视频帧序列输入所述第一网络模型，通过所述第一网络模型对所述视频帧序列进行图像分析，得到所述视频帧序列对应的图像特征；

获取所述视频片段的目标文本数据，将所述目标文本数据输入所述第二网络模型，通过所述第二网络模型对所述目标文本数据进行文本分析，得到所述目标文本数据对应的文本特征；

获取所述视频片段的背景音频数据，将所述背景音频数据输入所述第三网络模型，通过所述第三网络模型对所述背景音频数据进行音频分析，得到所述背景音频数据对应的背景音频特征；

基于所述图像特征、所述文本特征以及所述背景音频特征确定所述视频片段对应的音视频特征。

3.根据权利要求2所述的方法，其特征在于，所述图像特征中包含用于表征所述视频片段的画风属性的第一调性特征；所述背景音频特征中包含用于表征所述背景音频数据的音乐属性的第二调性特征；

所述基于所述图像特征、所述文本特征以及所述背景音频特征确定所述视频片段对应的音视频特征，包括：

对所述图像特征中的所述第一调性特征和所述背景音频特征中的第二调性特征进行特征融合，得到所述视频片段对应的融合调性特征；

将所述图像特征、所述文本特征以及所述融合调性特征作为所述视频片段对应的音视频特征。

4.根据权利要求2所述的方法，其特征在于，所述第一网络模型包括对象属性分析网络、场景分析网络、动作分析网络、物品分析网络；

所述将所述视频帧序列输入所述第一网络模型，通过所述第一网络模型对所述视频帧序列进行图像分析，得到所述视频帧序列对应的图像特征，包括：

将所述视频帧序列输入所述对象属性分析网络，通过所述对象属性分析网络对所述视频帧序列进行对象属性分析，得到所述视频帧序列对应的对象属性特征；

将所述视频帧序列输入所述场景分析网络，通过所述场景分析网络对所述视频帧序列进行场景分析，得到所述视频帧序列对应的场景特征；

将所述视频帧序列输入所述动作分析网络，通过所述动作分析网络对所述视频帧序列进行动作分析，得到所述视频帧序列对应的动作特征；

将所述视频帧序列输入所述物品分析网络，通过所述物品分析网络对所述视频帧序列进行物品分析，得到所述视频帧序列对应的物品特征；

将所述对象属性特征、所述场景特征、所述动作特征以及所述物品特征作为所述视频帧序列对应的图像特征。

5.根据权利要求4所述的方法，其特征在于，所述将所述视频帧序列输入所述对象属性分析网络，通过所述对象属性分析网络对所述视频帧序列进行对象属性分析，得到所述视频帧序列对应的对象属性特征，包括：

将所述视频帧序列输入所述对象属性分析网络，在所述对象属性分析网络中，对所述视频帧序列进行人脸检测，获取所述视频帧序列中的关键对象的原始人脸图像；

对所述原始人脸图像进行预处理，得到目标人脸图像；

对所述目标人脸图像进行对象属性特征提取，得到所述视频帧序列对应的对象属性特征。

6.根据权利要求2所述的方法，其特征在于，所述获取所述视频片段的目标文本数据，将所述目标文本数据输入所述第二网络模型，通过所述第二网络模型对所述目标文本数据进行文本分析，得到所述目标文本数据对应的文本特征，包括：

获取所述视频片段的片段文本数据以及对象音频数据，对所述对象音频数据进行语音转换，得到转换文本数据，将所述片段文本数据和所述转换文本数据作为目标文本数据；

对所述目标文本数据进行分词处理，得到所述目标文本数据的文本分词，对所述文本分词进行向量转换，得到所述文本分词对应的文本分词向量；

将所述文本分词向量输入所述第二网络模型，通过所述第二网络模型对所述文本分词向量进行文本特征提取，得到所述目标文本数据对应的文本特征。

7.根据权利要求3所述的方法，其特征在于，所述目标网络模型还包括用于进行图像分类的第一分类器、用于进行文本分类的第二分类器以及用于进行调性分类的第三分类器；

所述基于所述音视频特征确定所述视频片段的视频属性标签，包括：

基于所述图像特征以及所述第一分类器，对所述视频片段进行图像分类，得到所述视频片段的目标图像标签；

基于所述文本特征以及所述第二分类器，对所述视频片段进行文本分类，得到所述视频片段的目标文本标签；

基于所述融合调性特征以及所述第三分类器，对所述视频片段进行调性分类，得到所述视频片段的目标调性标签；

将所述目标图像标签、所述目标文本标签以及所述目标调性标签作为所述视频片段的视频属性标签。

8.根据权利要求1所述的方法，其特征在于，所述视频属性标签包括K个视频属性子标签，K为正整数；所述对象属性标签包括L个对象属性子标签，L为正整数；

所述基于所述视频属性标签以及所述对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与所述目标综合特征标签相匹配的目标音乐，将所述目标音乐作为所述视频片段的第一匹配音乐推送给所述目标对象，包括：

对所述K个视频属性子标签以及所述L个对象属性子标签中的任意两个子标签进行重合度检测，得到任意两个子标签之间的第一重合度，基于所述第一重合度对所述K个视频属性子标签以及所述L个对象属性子标签进行标签整合，得到目标综合特征标签；

从音乐推荐数据库中获取与所述目标综合特征标签相关联的背景音乐集合，在所述背景音乐集合中基于每个背景音乐的音乐标签与所述目标综合特征标签之间的标签匹配度，对所述每个背景音乐进行排序，从排序后的背景音乐集合中获取目标音乐，将所述目标音乐作为所述视频片段的第一匹配音乐推送给所述目标对象。

9.根据权利要求8所述的方法，其特征在于，所述从排序后的背景音乐集合中获取目标音乐，将所述目标音乐作为所述视频片段的第一匹配音乐推送给所述目标对象，包括：

在排序后的背景音乐集合中获取标签匹配度在匹配区间内的背景音乐作为目标音乐，将所述目标音乐作为所述视频片段的第一匹配音乐推送给所述目标对象。

10.根据权利要求1所述的方法，其特征在于，所述转场属性标签包括M个转场属性子标签，M为正整数；所述对象属性标签包括N个对象属性子标签，N为正整数；

所述基于所述转场属性标签以及所述对象属性标签，生成综合转场特征标签，从所述音乐推荐数据库中获取与所述综合转场特征标签相匹配的目标转场音乐，将所述目标转场音乐作为所述视频片段的第二匹配音乐推送给所述目标对象，包括：

对所述M个转场属性子标签以及所述N个对象属性子标签中的任意两个子标签进行重合度检测，得到任意两个子标签之间的第二重合度，基于所述第二重合度对所述M个转场属性子标签以及所述N个对象属性子标签进行标签整合，得到综合转场特征标签；

从所述音乐推荐数据库中获取与所述综合转场特征标签相关联的转场音乐集合，在所述转场音乐集合中基于每个转场音乐的音乐标签与所述综合转场特征标签之间的标签匹配度，对所述每个转场音乐进行排序，从排序后的转场音乐集合中获取目标转场音乐，将所述目标转场音乐作为所述视频片段的第二匹配音乐推送给所述目标对象。

11.根据权利要求10所述的方法，其特征在于，所述从排序后的转场音乐集合中获取目标转场音乐，将所述目标转场音乐作为所述视频片段的第二匹配音乐推送给所述目标对象，包括：

在排序后的转场音乐集合中将具有最高标签匹配度的转场音乐作为目标转场音乐，将所述目标转场音乐作为所述视频片段的第二匹配音乐推送给所述目标对象。

12.一种音乐推荐装置，其特征在于，包括：

第一标签确定模块，用于获取与目标对象相关联的目标视频中的视频片段，对所述视频片段进行音视频分析，得到所述视频片段对应的音视频特征，基于所述音视频特征确定所述视频片段的视频属性标签；所述音视频特征是由所述视频片段的视频帧序列对应的图像特征、所述视频片段的目标文本数据对应的文本特征以及所述视频片段的背景音频数据对应的背景音频特征所确定的；

第二标签确定模块，用于获取所述目标对象的历史对象数据，从所述历史对象数据中获取与所述目标对象相关联的历史视频信息以及历史音乐信息，基于所述历史视频信息以及所述历史音乐信息所关联的历史综合特征标签，确定所述目标对象的对象属性标签；所述历史视频信息是基于所述目标对象编辑过的历史视频所确定的，所述历史音乐信息是基于所述目标对象为所述历史视频所选择的历史音乐所确定的；

第一音乐推送模块，用于基于所述视频属性标签以及所述对象属性标签，生成目标综合特征标签，从音乐推荐数据库中获取与所述目标综合特征标签相匹配的目标音乐，将所述目标音乐作为所述视频片段的第一匹配音乐推送给所述目标对象；

其中，所述目标文本数据包括评论文本信息；所述装置还包括：

转场检测模块，用于在所述评论文本信息中检测用于表征转场属性的目标关键词，当在所述评论文本信息中检测到所述目标关键词时，确定所述视频片段存在所述目标关键字所表征的所述转场属性；

所述转场检测模块，用于从所述视频片段中获取所述目标关键词对应的目标视频帧，将所述目标视频帧作为所述视频片段中的转场位置；

第二音乐推送模块，用于获取所述目标关键词对应的转场属性标签，基于所述转场属性标签以及所述对象属性标签，生成综合转场特征标签，从所述音乐推荐数据库中获取与所述综合转场特征标签相匹配的目标转场音乐，将所述目标转场音乐作为所述视频片段的第二匹配音乐推送给所述目标对象；所述目标转场音乐用于添加至所述转场位置。

13.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-11任一项所述的方法。