CN111800650A

CN111800650A - 视频配乐方法、装置、电子设备及计算机可读介质

Info

Publication number: CN111800650A
Application number: CN202010506355.3A
Authority: CN
Inventors: 刘恩雨; 李松南; 尚焱; 刘杉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-10-20
Anticipated expiration: 2040-06-05
Also published as: CN111800650B

Abstract

本公开的实施例提供了一种视频配乐方法、装置、电子设备及计算机可读介质，属于计算机技术领域。该方法包括：获取目标视频；对所述目标视频进行内容提取，获得所述目标视频的内容描述文本；根据所述内容描述文本确定所述目标视频的目标音频；合成所述目标音频与所述目标视频。本公开实施例提供的技术方案能够根据内容描述文本中多个维度的信息准确定位目标视频的重要信息，以保证获得的目标音频与目标视频的高适配度。

Description

视频配乐方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种视频配乐方法、装置、电子设备及计算机可读介质。

背景技术

视频智能匹配音乐也叫做视频音频跨模态检索，也即为视频智能检索相匹配的音乐。相关技术中，从视频中的图像提取具体的特征信息(例如人脸信息、背景信息等)，再根据特征信息确定视频风格，以根据视频风格在音频数据库获得适配的音频。但这一方法在通过具体的特征信息作为配乐的依据时，常常由于具体的特征信息无法全面描述视频的所有信息而忽略视频的重点，导致降低视频所配音乐与视频的适配度，降低用户体验。

因此，需要一种新的视频配乐方法、装置、电子设备及计算机可读介质。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例提供一种视频配乐方法、装置、电子设备及计算机可读介质，进而至少在一定程度上为视频匹配适配度较高的音频，提高用户体验。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提出一种视频配乐方法，包括：获取目标视频；对所述目标视频进行内容提取，获得所述目标视频的内容描述文本；根据所述内容描述文本确定所述目标视频的目标音频；合成所述目标音频与所述目标视频。

本公开实施例提出一种视频配乐装置，包括：视频获取模块，配置为获取目标视频；内容提取模块，配置为对所述目标视频进行内容提取，获得所述目标视频的内容描述文本；音频匹配模块，配置为根据所述内容描述文本确定所述目标视频的目标音频；音视频合成模块，配置为合成所述目标音频与所述目标视频。

在本公开的一种示例性实施例中，音频匹配模块包括情感信息单元和音频匹配单元。其中，情感信息单元配置为根据所述内容描述文本确定所述目标视频的情感信息。音频匹配单元配置为根据所述情感信息和所述内容描述文本确定所述目标视频的目标音频。

在本公开的一种示例性实施例中，情感信息单元包括第一模型子单元和情感信息子单元。其中，第一模型子单元配置为通过第一深度学习模型对所述内容描述文本进行处理，获得所述目标视频的情感信息向量。情感信息子单元配置为将所述情感信息向量中分值大于预设分数阈值的标签确定为所述目标视频的所述情感信息。

在本公开的一种示例性实施例中，音频匹配单元包括情感类别子单元、第一音频集合子单元和第一音频匹配子单元。其中，情感类别子单元配置为确定所述情感信息的情感类别，所述情感类别包括第一情感类别与第二情感类别。第一音频集合子单元配置为若所述情感类别为所述第一情感类别，则获取旋律音调标签与所述情感信息匹配的第一音乐集合。第一音频匹配子单元配置为在所述第一音乐集合中确定所述目标视频的目标音频。

在本公开的一种示例性实施例中，音频匹配单元还包括主体信息子单元、主体类别子单元、第二音频集合子单元和第二音频匹配子单元。其中，主体信息子单元配置为若所述情感类别为所述第二情感类别，根据所述内容描述文本获得所述目标视频的主体信息。主体类别子单元配置为确定所述主体信息的主体类别，所述主体类别包括第一主体类别与第二主体类别。第二音频集合子单元配置为若所述主体信息为所述第一主体类别，则获得歌词标签与所述主体信息匹配的第二音乐集合。第二音频匹配子单元配置为在所述第二音乐集合中确定所述目标视频的目标音频。

在本公开的一种示例性实施例中，音频匹配单元还包括行为信息子单元、第三音频集合子单元和第三音频匹配子单元。其中，行为信息子单元配置为若所述主体信息为第二主体类别，则根据所述内容描述文本获得所述目标视频的行为信息。第三音频集合子单元配置为获得节奏标签与所述行为信息匹配的第三音乐集合。第三音频匹配子单元配置为在所述第三音乐集合中确定所述目标视频的目标音频。

在本公开的一种示例性实施例中，内容提取模块配置为通过第二深度学习模型对所述目标视频进行处理，获得所述目标视频的内容描述文本。

在本公开的一种示例性实施例中，音视频合成模块包括音频时长单元和音视频合成单元。其中，音频时长单元配置为按照所述目标视频的视频时长对所述目标音频进行截取或拼接。音视频合成单元配置为合成所述目标视频与截取或拼接后的所述目标音频。

本公开实施例提出一种电子设备，包括：至少一个处理器；存储装置，用于存储至少一个程序，当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现如上述实施例中所述的视频配乐方法。

本公开实施例提出一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如上述实施例中所述的视频配乐方法。

在本公开的一些实施例所提供的技术方案中，由于生成的内容描述文本能够从多个维度全面描述目标视频的视频内容，在根据内容描述文本确定目标视频的目标音频时，能够根据内容描述文本中多个维度的信息准确定位目标视频的重要信息，以保证获得的目标音频与目标视频的高适配度，提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的视频配乐方法或装置的示例性***架构100的示意图；

图2示意性示出了根据本公开的一个实施例的视频配乐方法的流程图；

图3是基于图2的步骤S230在一个示例性实施例中的流程图；

图4是基于图3的步骤S231在一个示例性实施例中的流程图；

图5是基于图3的步骤S232在一个示例性实施例中的流程图；

图6是基于图3的步骤S232在一个示例性实施例中的流程图；

图7是基于图3的步骤S232在一个示例性实施例中的流程图；

图8是基于图2的步骤S240在一个示例性实施例中的流程图；

图9示意性示出了根据本公开的一个实施例的视频配乐方法的流程图；

图10是基于图9的步骤S940在一个示例性实施例中的流程图；

图11示意性示出了根据本公开的一目标视频的截图画面；

图12示意性示出了根据本公开的一实施例的视频配乐装置的框图；

图13示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在至少一个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维(three dimensional3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在为视频配乐的相关技术中，已有技术通过提取人脸信息和背景信息，再通过人脸信息提取情绪，通过背景信息提取地点，根据情形与地点为视频配乐。但该方法太过单一，只能覆盖部分场景。例如，当视频中没有明显人脸可提取，但也表达强烈情绪时，例如视频的画面为“消防队员灭火逆行的身影”，上述方法则不可行。同时，这种方案仅考虑了人脸和背景，有可能会忽略视频中通过其他维度所表达的信息。例如，当视频画面为“美女在泳池边自拍”时，当人脸被遮挡无法提取人脸信息时，由于提取到的背景为泳池，则配乐依据泳池进行匹配，但实际上该视频更应关注“自拍”这一行为，上述方法将造成配乐与视频不匹配。

目前涉及的已有的为视频配乐的相关技术中，还存在根据其他具体的特征信息为视频配乐的方法。但通过具体的特征信息为视频配乐时，必然存在忽略视频中其他维度的信息而导致的视频配乐与视频不匹配的问题。

图1示出了可以应用本公开实施例的视频配乐方法或装置的示例性***架构100的示意图。

如图1所示，***架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。

服务器105可以是提供各种服务的服务器。例如终端设备103(也可以是终端设备101或102)向服务器105上传目标视频。服务器105可以获取目标视频；对目标视频进行内容提取，获得目标视频的内容描述文本；根据内容描述文本确定目标视频的目标音频；合成目标音频与目标视频。并将合成后的目标视频反馈给终端设备103，进而终端设备103可以向用户展示合成后的目标视频，以便该用户进行观看和操作。

图2示意性示出了根据本公开的一个实施例的视频配乐方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理，例如上述图1实施例中的服务器105和/或终端设备102、103，在下面的实施例中，以服务器105为执行主体为例进行举例说明，但本公开并不限定于此。

如图2所示，本公开实施例提供的视频配乐方法可以包括以下步骤。

在步骤S210中，获取目标视频。

本公开实施例中，目标视频可为终端设备101(也可以是102、103)发送的。目标视频可例如为用户实时拍摄的视频素材，还可例如为根据用户操作处理后的视频素材。

在步骤S220中，对目标视频进行内容提取，获得目标视频的内容描述文本。

本公开实施例中，内容描述文本用于描述目标视频的视频内容，能够从多个维度全面描述视频内容。内容描述文本为人类可读的文本描述。例如，内容描述文本可包括以下的至少一个：主语、谓语、宾语、定语、状语、补语。包括主语、谓语、宾语、定语、状语、补语中的至少一个的内容描述文本能够从多个维度对视频内容进行描述，避免视频内容的遗漏。

在示例性实施例中，可以通过第二深度学习模型对目标视频进行处理，获得目标视频的内容描述文本。其中，第二深度学习模型可为经过训练的深度学习模型。第二深度学习模型的训练样本可包括视频素材和视频素材的内容描述文本标注信息。

图11示意性示出了根据本公开的一目标视频的截图画面。如图11所示，该目标视频进行内容提取后获得的目标视频的内容描述文本可为：两个人在森林中行走。其中，在上述举例的内容描述文本中，主语为“两个人”，谓语为“行走”，状语为“在森林中”。

在步骤S230中，根据内容描述文本确定目标视频的目标音频。

本公开实施例中，由于内容描述文本从多个维度对目标视频的视频内容进行了描述，在根据内容描述文本确定目标音频时，由于可根据内容描述文本的多个维度确定目标音频，能够准确定位目标视频的重要信息，提高目标音频与目标视频的适配度，提高用户体验。

在步骤S240中，合成目标音频与目标视频。

本公开实施方式提供的视频配乐方法，由于生成的内容描述文本能够从多个维度全面描述目标视频的视频内容，在根据内容描述文本确定目标视频的目标音频时，能够根据内容描述文本中多个维度的信息准确定位目标视频的重要信息，以保证获得的目标音频与目标视频的高适配度，提高用户体验。

图3是基于图2的步骤S230在一个示例性实施例中的流程图。

如图3所示，上述图2实施例中的步骤S230可以进一步包括以下步骤。

在步骤S231中，根据内容描述文本确定目标视频的情感信息。

本公开实施例中，可通过深度学***静、激动等。以图11所示的视频截图为例，当其内容描述文本为“两个人在森林中行走”时，确定的情感信息可例如为：平静。

在示例性实施例中，当目标视频为图像集合时，由于图像集合形式的视频所能够表达的信息相比于视频流形式的视频会减少，可能导致根据目标视频获得的内容描述文本并不丰富。在这一情况下，若根据内容描述文本确定目标视频的情感信息失败时，可根据目标视频的内容描述文本确定目标视频的目标音频。

在步骤S232中，根据情感信息确定目标视频的目标音频。

本公开实施例中，可将情感信息与音频的标签进行匹配，以确定目标视频的目标音频。音频的标签可例如为预设的旋律音调的标签。例如，较为低沉的旋律音调可对应悲伤或担忧的情感信息，但此处仅为示例，旋律音调的类别可根据实际情况进行设定。

根据本公开实施例的视频配乐方法，根据内容描述文本确定情感信息，并根据情感信息确定目标视频的目标音频，能够以内容描述文本所能表达的多维信息为依据，生成较为准确的情感信息，提高确定的目标音频与目标视频的适配度，提高用户体验。

图4是基于图3的步骤S231在一个示例性实施例中的流程图。

如图4所示，上述图3实施例中的步骤S231可以进一步包括以下步骤。

在步骤S2311中，通过第一深度学习模型对内容描述文本进行处理，获得目标视频的情感信息向量。

本公开实施例中，第一深度学习模型可为经过训练的深度学习模型。第一深度学习模型的训练样本可包括内容描述文本和内容描述文本的情感信息标注。情感信息向量中每个维度对应一个具体的情感标签。情感信息向量中某一维度的具体数值表示当前内容描述文本属于该维度对应情感信息的分值。

在步骤S2312中，将情感信息向量中分值大于预设分数阈值的标签确定为目标视频的情感信息。

本公开实施例中，可选择情感信息向量中分值大于预设分数阈值的至少一个标签确定为目标视频的情感信息。优选地，可选择情感信息向量中分值大于预设分数阈值且分值最大的标签确定为目标视频的情感信息。又例如，当情感信息向量中分值均小于或等于预设分数阈值时，可将情感信息向量中分值最大的标签确定为目标视频的情感信息。

本公开实施例的视频配乐方法，通过第一深度学习模型对内容描述文本进行处理，能够基于内容描述文本中多个维度的信息准确挖掘获得目标视频的情感信息，并根据对情感信息向量中分值的判断以获得的准确率较高的情感信息。

图5是基于图3的步骤S232在一个示例性实施例中的流程图。

如图5所示，上述图3实施例中的步骤S232可以进一步包括以下步骤。

在步骤S2321中，确定情感信息的情感类别，情感类别包括第一情感类别与第二情感类别。

本公开实施例中，第一情感类别的情感信息的集合与第二情感类别的情感信息的集合可互为补集。某一目标视频的情感信息只能属于第一情感类别或第二情感类别，而不能同时属于第一情感类别和第二情感类别。其中，当目标视频的情感信息属于第一情感类别时，该目标视频的情感信息为目标视频中需要重点关注的信息。当目标视频的情感信息属于第二情感类别时，该目标视频的情感信息为目标视频中可不重点关注的信息。例如，第一情感类别中的情感信息可为负面情绪，第二情感类别中的情感信息可为正面情绪。当目标视频的情感信息为负面情绪时，该目标视频的情感信息为需要重点关注的信息。第一情感类别中的情感信息可例如包括：悲伤、担忧、紧张、着急。第二情感类别中的情感信息可例如包括：开心、激动、搞笑、平静。

在步骤S2322中，若情感类别为第一情感类别，则获取旋律音调标签与情感信息匹配的第一音乐集合。

本公开实施例中，可预先设置音频的旋律音调标签与情感信息的映射表。优选地，可预先设置音频的旋律音调标签与第一情感类别的情感信息的映射表。还可预先确定每个音频的旋律音调标签。例如，旋律音调标签为低沉时映射的情感信息可例如为“悲伤”(或“担忧”)。旋律音调标签为急促响亮时映射的情感信息可例如为“紧张”(或“着急”)。但此处仅为示例，旋律音调标签的具体类别可根据实际应用场景进行确定。

其中，在获取旋律音调标签与情感信息匹配的第一音乐集合时，接上述举例，当目标视频的情感信息为“悲伤”时，匹配到“低沉”的旋律音调标签时，可将具有“低沉”的旋律音调标签的音频整合为第一音乐集合。还可获得预先设置的“低沉”标签所对应的目录下的音频集合作为第一音乐集合。

在步骤S2323中，在第一音乐集合中确定目标视频的目标音频。

本公开实施例中，可按照随机算法在第一音乐集合中确定目标视频的目标音频。

本公开实施例的视频配乐方法，在确定情感信息属于目标视频中需要重点关注的信息的第一情感类别时，通过将情感信息与旋律音调标签进行匹配，以根据获得的第一音乐集合确定目标音频。能够基于目标视频需要重点关注的信息为目标视频匹配合适的目标音频，进而提高目标音频与目标视频的适配度，提高用户体验。

图6是基于图3的步骤S232在一个示例性实施例中的流程图。

如图6所示，上述图3实施例中的步骤S232还可以进一步包括以下步骤。

在步骤S2324中，若情感类别为第二情感类别，根据内容描述文本获得目标视频的主体信息。

本公开实施例中，由于第二情感类别的情感信息为目标视频中不需要重点关注的信息，可进一步根据内容描述文本获得目标视频的主体信息。其中，在内容描述文本中，主体信息可例如为主语信息。以图11为例，当内容描述文本为“两个人在森林里行走”时，主体信息可为内容描述文本中的主语信息：两个人。在一个实施例中，可根据第二深度学习模型输出的内容描述文本的输出格式确定主体信息。优选地，还可根据对内容描述文本进行语义分析，获得该内容描述文本的主体信息。

在步骤S2325中，确定主体信息的主体类别，主体类别包括第一主体类别与第二主体类别。

本公开实施例中，第一主体类别的主体信息的集合与第二主体类别的主体信息的集合可互为补集。某一目标视频的主体信息只能属于第一主体类别或第二主体类别，而不能同时属于第一主体类别和第二主体类别。其中，当目标视频的主体信息属于第一主体类别时，该目标视频的主体信息为目标视频中需要重点关注的信息。当目标视频的主体信息属于第二主体类别时，该目标视频的主体信息为目标视频中可不重点关注的信息。例如，第一主体类别中的主体信息可为特殊行为主体：猫、狗等动物类、以及老人、宝宝等，第二主体类别中的主体信息可为一般行为主体：人。当目标视频的主体信息为特殊行为主体时，该目标视频的主体信息为需要重点关注的信息。

在步骤S2326中，若主体信息为第一主体类别，则获得歌词标签与主体信息匹配的第二音乐集合。

本公开实施例中，可预先设置音频的歌词标签与主体信息的映射表。优选地，可预先设置音频的歌词标签与第一主体类别的主体信息的映射表。还可预先确定每个音频的歌词标签。例如，歌词中包括“我的好宝宝”的音频的歌词标签可设置为“宝宝”，歌词标签“宝宝”映射的主体信息可例如为“悲伤”(或“担忧”)。歌词标签为急促向量时映射的主体信息可例如为“宝宝”。但此处仅为示例，歌词标签的具体类别可根据实际应用场景进行确定。

其中，在获取歌词标签与主体信息匹配的第二音乐集合时，接上述举例，当目标视频的主体信息为“宝宝”时，匹配到“宝宝”的歌词标签时，可将具有“宝宝”的歌词标签的音频整合为第二音乐集合。还可获得预先设置的“宝宝”标签所对应的目录下的音频集合作为第二音乐集合。

在步骤S2327中，在第二音乐集合中确定目标视频的目标音频。

本公开实施例中，可按照随机算法在第二音乐集合中确定目标视频的目标音频。

本公开实施例的视频配乐方法，在确定主体信息属于目标视频中需要重点关注的信息的第一主体类别时，通过将主体信息与歌词标签进行匹配，以根据获得的第二音乐集合确定目标音频。能够基于目标视频需要重点关注的信息为目标视频匹配合适的目标音频，进而提高目标音频与目标视频的适配度，提高用户体验。

图7是基于图3的步骤S232在一个示例性实施例中的流程图。

如图7所示，上述图3实施例中的步骤S232还可以进一步包括以下步骤。

在步骤S2328中，若主体信息为第二主体类别，则根据内容描述文本获得目标视频的行为信息。

本公开实施例中，由于第二主体类别的主体信息为目标视频中不需要重点关注的信息，可进一步根据内容描述文本获得目标视频的行为信息。其中，在内容描述文本中，行为信息可例如为谓语信息。以图11为例，当内容描述文本为“两个人在森林里行走”时，行为信息可为内容描述文本中的谓语信息：行走。在一个实施例中，可根据第二深度学习模型输出的内容描述文本的输出格式确定行为信息。优选地，还可根据对内容描述文本进行语义分析，获得该内容描述文本的行为信息。

在步骤S2329中，获得节奏标签与行为信息匹配的第三音乐集合。

本公开实施例中，可预先设置音频的节奏标签与主体信息的映射表。优选地，可预先设置音频的节奏标签与行为信息的映射表。还可预先确定每个音频的节奏标签。可根据音频的节奏信息确定音频的节奏标签，节奏标签可例如但不限于包括：快节奏和慢节奏。例如，节奏标签“快节奏”映射的行为信息可为较为剧烈的行为动作，例如“打篮球”、“跑酷”等。节奏标签为“慢节奏”时映射的行为信息可为较为缓慢、舒缓的行为动作，例如“看电视”、“行走”、“刺绣”等。但此处仅为示例，节奏标签的具体类别以及相映射的行为信息可根据实际应用场景进行确定。

其中，在获取节奏标签与行为信息匹配的第三音乐集合时，以图11为例，当目标视频的行为信息为“行走”时，匹配到“慢节奏”的节奏标签时，可将具有“慢节奏”的节奏标签的音频整合为第三音乐集合。还可获得预先设置的“慢节奏”标签所对应的目录下的音频集合作为第三音乐集合。

在步骤S2330中，在第三音乐集合中确定目标视频的目标音频。

本公开实施例中，可按照随机算法在第三音乐集合中确定目标视频的目标音频。

本公开实施例的视频配乐方法，在确定主体信息属于目标视频中不需要重点关注的信息的第二主体类别时，通过获得行为信息，并将行为信息与节奏标签进行匹配，以根据获得的第三音乐集合确定目标音频。能够基于目标视频需要重点关注的信息为目标视频匹配合适的目标音频，进而提高目标音频与目标视频的适配度，提高用户体验。

图8是基于图2的步骤S240在一个示例性实施例中的流程图。

如图8所示，上述图2实施例中的步骤S240还可以进一步包括以下步骤。

在步骤S241中，按照目标视频的视频时长对目标音频进行截取或拼接。

在步骤S242中，合成目标视频与截取或拼接后的目标音频。

图9示意性示出了根据本公开的一个实施例的视频配乐方法的流程图。

如图9所示，本实施例提供的视频配乐方法包括以下步骤。

在步骤S910中，根据目标视频获得内容描述文本。

本公开实施例中，可通过第二深度学习模型对目标视频进行处理，获得目标视频的内容描述文本。

在步骤S920中，根据内容描述文本确定目标视频的主体信息和行为信息。

在步骤S930中，根据内容描述文本确定目标视频的情感信息。

本公开实施例中，可通过第一深度学习模型对内容描述文本进行处理，获得目标视频的情感信息向量；将情感信息向量中分值大于预设分数阈值的标签确定为目标视频的情感信息。

在步骤S940中，对主体信息、行为信息和情感信息进行逻辑判断，获得与目标视频匹配的目标音乐标签。

在步骤S950中，根据目标音乐标签确定目标音乐集合，在目标音乐集合中确定目标视频的目标音频。

本公开实施例中，可预先在每个音乐标签下预先添加对应的多个音频。在确定目标音乐标签后，可将该目标音乐标签对应的音频集合确定为目标音频集合，并基于随机算法在目标音频集合中确定目标音频。

图10是基于图9的步骤S940在一个示例性实施例中的流程图。

如图10所示，上述图9所示实施例中的步骤S940还可以进一步包括以下步骤。

在步骤S941中，确定情感信息的情感类别，情感类别包括第一情感类别与第二情感类别。

在步骤S942中，若情感类别为第一情感类别，则获取与情感信息匹配的旋律音调标签作为目标音乐标签。

在步骤S943中，若情感类别为第二情感类别，确定主体信息的主体类别，主体类别包括第一主体类别与第二主体类别。

在步骤S944中，若主体信息为第一主体类别，则获得与主体信息匹配的歌词标签为目标音乐标签。

在步骤S945中，若主体信息为第二主体类别，获得与行为信息匹配的节奏标签为目标音乐标签。

本公开实施例的视频配乐方法，由于生成的内容描述文本能够从多个维度全面描述目标视频的视频内容，能够对内容描述文本中多个维度的主体信息、行为信息和情感信息进行逻辑判断，准确定位目标视频的重要信息，以保证获得的目标音频与目标视频的高适配度，提高用户体验。在根据内容描述文本确定目标视频的目标音频时，基于多层逻辑判断，能够确定目标视频中需要重点关注的信息为情感信息或主体信息或行为信息，进而根据目标视频中需要重点关注的信息为目标视频匹配合适的目标音频，进而提高目标音频与目标视频的适配度，提高用户体验。

以下介绍本公开的装置实施例，可以用于执行本公开上述的视频配乐方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的视频配乐方法的实施例。

图12示意性示出了根据本公开的一实施例的视频配乐装置的框图。

参照图12所示，根据本公开的一个实施例的视频配乐装置1200，可以包括：视频获取模块1210、内容提取模块1220、音频匹配模块1230以及音视频合成模块1240。

在视频配乐装置中，视频获取模块1210可以配置为获取目标视频。

内容提取模块1220可以配置为对目标视频进行内容提取，获得目标视频的内容描述文本。

音频匹配模块1230可以配置为根据内容描述文本确定目标视频的目标音频。

音视频合成模块1240可以配置为合成目标音频与目标视频。

在示例性实施例中，音频匹配模块1230可以包括情感信息单元和音频匹配单元。其中，情感信息单元可以配置为根据内容描述文本确定目标视频的情感信息。音频匹配单元可以配置为根据情感信息和内容描述文本确定目标视频的目标音频。

在示例性实施例中，情感信息单元可以包括第一模型子单元和情感信息子单元。其中，第一模型子单元可以配置为通过第一深度学习模型对内容描述文本进行处理，获得目标视频的情感信息向量。情感信息子单元可以配置为将情感信息向量中分值大于预设分数阈值的标签确定为目标视频的情感信息。

在示例性实施例中，音频匹配单元可以包括情感类别子单元、第一音频集合子单元和第一音频匹配子单元。其中，情感类别子单元可以配置为确定情感信息的情感类别，情感类别包括第一情感类别与第二情感类别。第一音频集合子单元可以配置为若情感类别为第一情感类别，则获取旋律音调标签与情感信息匹配的第一音乐集合。第一音频匹配子单元可以配置为在第一音乐集合中确定目标视频的目标音频。

在示例性实施例中，音频匹配单元还可以包括主体信息子单元、主体类别子单元、第二音频集合子单元和第二音频匹配子单元。其中，主体信息子单元可以配置为若情感类别为第二情感类别，根据内容描述文本获得目标视频的主体信息。主体类别子单元可以配置为确定主体信息的主体类别，主体类别包括第一主体类别与第二主体类别。第二音频集合子单元可以配置为若主体信息为第一主体类别，则获得歌词标签与主体信息匹配的第二音乐集合。第二音频匹配子单元可以配置为在第二音乐集合中确定目标视频的目标音频。

在示例性实施例中，音频匹配单元还可以包括行为信息子单元、第三音频集合子单元和第三音频匹配子单元。其中，行为信息子单元可以配置为若主体信息为第二主体类别，则根据内容描述文本获得目标视频的行为信息。第三音频集合子单元可以配置为获得节奏标签与行为信息匹配的第三音乐集合。第三音频匹配子单元可以配置为在第三音乐集合中确定目标视频的目标音频。

在示例性实施例中，内容提取模块1220可以配置为通过第二深度学习模型对目标视频进行处理，获得目标视频的内容描述文本。

在示例性实施例中，音视频合成模块1240可以包括音频时长单元和音视频合成单元。其中，音频时长单元可以配置为按照目标视频的视频时长对目标音频进行截取或拼接。音视频合成单元可以配置为合成目标视频与截取或拼接后的目标音频。

本公开实施方式提供的视频配乐装置，由于生成的内容描述文本能够从多个维度全面描述目标视频的视频内容，在根据内容描述文本确定目标视频的目标音频时，能够根据内容描述文本中多个维度的信息准确定位目标视频的重要信息，以保证获得的目标音频与目标视频的高适配度，提高用户体验。

图13示出了适于用来实现本公开实施例的电子设备的计算机***的结构示意图。需要说明的是，图13示出的电子设备1300仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图13所示，电子设备1300包括中央处理单元(CPU)1301，其可以根据存储在只读存储器(ROM)1302中的程序或者从储存部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。在RAM 1303中，还存储有***操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307；包括硬盘等的储存部分1308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入储存部分1308。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时，执行本申请的***中限定的各种功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有至少一个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中，这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图2或图3或图4或图5或图6或图7或图8或图9或图10所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元或者子单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元或者子单元的特征和功能可以在一个模块或者单元或者子单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元或者子单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频配乐方法，其特征在于，包括：

获取目标视频；

对所述目标视频进行内容提取，获得所述目标视频的内容描述文本；

根据所述内容描述文本确定所述目标视频的目标音频；

合成所述目标音频与所述目标视频。

2.如权利要求1所述的方法，其特征在于，根据所述内容描述文本确定所述目标视频的目标音频包括：

根据所述内容描述文本确定所述目标视频的情感信息；

根据所述情感信息确定所述目标视频的目标音频。

3.如权利要求2所述的方法，其特征在于，根据所述内容描述文本确定所述目标视频的情感信息包括：

通过第一深度学习模型对所述内容描述文本进行处理，获得所述目标视频的情感信息向量；

将所述情感信息向量中分值大于预设分数阈值的标签确定为所述目标视频的所述情感信息。

4.如权利要求2所述的方法，其特征在于，根据所述情感信息和所述内容描述文本确定所述目标视频的目标音频包括：

确定所述情感信息的情感类别，所述情感类别包括第一情感类别与第二情感类别；

若所述情感类别为所述第一情感类别，则获取旋律音调标签与所述情感信息匹配的第一音乐集合；

在所述第一音乐集合中确定所述目标视频的目标音频。

5.如权利要求4所述的方法，其特征在于，根据所述情感信息确定所述目标视频的目标音频还包括：

若所述情感类别为所述第二情感类别，根据所述内容描述文本获得所述目标视频的主体信息；

确定所述主体信息的主体类别，所述主体类别包括第一主体类别与第二主体类别；

若所述主体信息为所述第一主体类别，则获得歌词标签与所述主体信息匹配的第二音乐集合；

在所述第二音乐集合中确定所述目标视频的目标音频。

6.如权利要求5所述的方法，其特征在于，根据所述情感信息确定所述目标视频的目标音频还包括：

若所述主体信息为第二主体类别，则根据所述内容描述文本获得所述目标视频的行为信息；

获得节奏标签与所述行为信息匹配的第三音乐集合；

在所述第三音乐集合中确定所述目标视频的目标音频。

7.如权利要求1所述的方法，其特征在于，对所述目标视频进行内容提取，获得所述目标视频的内容描述文本包括：

通过第二深度学习模型对所述目标视频进行处理，获得所述目标视频的内容描述文本。

8.如权利要求1所述的方法，其特征在于，合成所述目标音频与所述目标视频包括：

按照所述目标视频的视频时长对所述目标音频进行截取或拼接；

合成所述目标视频与截取或拼接后的所述目标音频。

9.一种视频配乐装置，其特征在于，包括：

视频获取模块，配置为获取目标视频；

内容提取模块，配置为对所述目标视频进行内容提取，获得所述目标视频的内容描述文本；

音频匹配模块，配置为根据所述内容描述文本确定所述目标视频的目标音频；

音视频合成模块，配置为合成所述目标音频与所述目标视频。

10.如权利要求9所述的装置，其特征在于，所述音频匹配模块包括：

情感信息单元，配置为根据所述内容描述文本确定所述目标视频的情感信息；

音频匹配单元，配置为根据所述情感信息和所述内容描述文本确定所述目标视频的目标音频。

11.一种电子设备，其特征在于，包括：

至少一个处理器；

存储装置，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-8中任一项所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。