CN112182281B

CN112182281B - 一种音频推荐方法、装置及存储介质

Info

Publication number: CN112182281B
Application number: CN201910604904.8A
Authority: CN
Inventors: 刘龙坡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2023-09-19
Anticipated expiration: 2039-07-05
Also published as: CN112182281A

Abstract

本申请公开了一种音频推荐方法、装置及存储介质，涉及计算机技术领域，用以提高音频推荐的准确度。该方法中，在确定能够描述待配乐图像信息的语义内容的图像特征信息后，将图像特征信息与同样能够描述音频的语义特征的文本特征信息进行特征相似度的计算，并根据计算的特征相似度，推荐可作为待配乐图像信息的背景音乐的音频。这样，通过匹配待配乐图像信息与音频的语义，将语义相同或相似的音频推荐给用户，使得音频推荐更为准确；同时，也能够减少用户在众多与待配乐图像信息无关的音频中选择配乐时的操作复杂度，节省了用户在配乐时的时间。

Description

一种音频推荐方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频推荐方法、装置及存储介质。

背景技术

随着各类即时通信应用、信息共享平台应用的兴起，用户可以在上述平台分享图片、视频等图像信息。而用户在分享图像信息时，通常会对所分享的图像信息进行配乐。

然而在现有技术中，用户在为分享的图像信息进行配乐时，需要在音频库中选择音频。然而，在音频库中自动为用户推荐的音频多为当前的热门音乐，不能很好的符合用户的当前要求，因此导致推荐的音频准确度有待提高。

发明内容

申请实施例提供一种音频推荐方法、装置及存储介质，用以提高音频推荐的准确度。

第一方面，提供一种音频推荐的方法，包括：

获取待配乐图像信息；其中，所述待配乐图像信息中包括至少一帧图像；

对所述待配乐图像信息进行特征提取，得到能够描述所述待配乐图像信息的语义内容的图像特征信息；

确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度；其中，所述文本特征信息与音频具有对应关系，所述文本特征信息用于描述音频的语义特征；

根据所述特征相似度，从所述多个音频中选择指定数量的音频作为所述待配乐图像信息的推荐音频。

在一个实施例中，若所述待配乐图像信息中包括多帧图像，所述对所述待配乐图像信息进行特征提取，得到能够描述所述待配乐图像信息的语义内容的图像特征信息，包括：

基于残差网络模型对所述待配乐图像信息中每一帧图像进行特征提取，得到每一帧图像的特征向量；

根据所述每一帧图像的特征向量，确定所述待配乐图像信息的平均特征向量；

将所述平均特征向量与预设数量的第一卷积核分别进行卷积计算并添加相应的偏置参数，得到指定维度的特征向量作为所述图像特征信息；其中，不同第一卷积核的卷积参数不完全相同。

在一个实施例中，预先存储有每个音频对应的文本，所述方法还包括：

根据以下方法获取各音频的文本特征信息：

对音频对应的文本进行分词处理后，再进行去停用词处理，得到所述音频对应的文本中的各分词；

将所述各分词按照在所述音频对应的文本中的顺序进行拼接，得到分词序列；

将所述分词序列中各分词通过词嵌入，得到各分词关于上下文连接关系的词向量作为所述音频的文本向量；

将所述文本向量与预设数量的第二卷积核进行卷积计算并添加相应的偏置参数，得到所述音频的指定维度的特征向量作为文本特征信息；其中，不同第二卷积核的卷积参数不完全相同，且所述第一卷积核的数量与所述第二卷积核的数量相同。

在一个实施例中，所述确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度，包括：

确定所述图像特征信息与每个文本特征信息的余弦相似度。

在一个实施例中，所述第一卷积核和所述第二卷积核的各卷积参数以及偏置参数通过以下方法训练获得：

获取训练样本；其中，每一个训练样本包括样本图像信息的图像特征信息以及样本文本的文本特征信息，且所述训练样本的标签为该训练样本中的图像特征信息与文本特征信息之间的主观相似度；

确定各训练样本中的图像特征信息和文本特征信息的特征相似度；

确定所述各训练样本对应的特征相似度与相应的主观相似度之间的误差；

通过反向传播算法将所述误差传播给所述第一卷积核和所述第二卷积核，以更新所述第一卷积核和所述第二卷积核中的卷积参数以及相应的偏置参数，得到符合指定条件的卷积参数和偏置参数。

第二方面，提供一种音频推荐的装置，包括：

第一获取模块，用于获取待配乐图像信息；其中，所述待配乐图像信息中包括至少一帧图像；

特征提取模块，用于对所述待配乐图像信息进行特征提取，得到能够描述所述待配乐图像信息的语义内容的图像特征信息；

第一确定相似度模块，用于确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度；其中，所述文本特征信息与音频具有对应关系；

推荐模块，用于根据所述特征相似度，从所述多个音频中选择指定数量的音频作为所述待配乐图像信息的推荐音频。

在一个实施例中，若所述待配乐图像信息中包括多帧图像，特征提取模块包括：

特征提取单元，用于基于残差网络模型对所述待配乐图像信息中每一帧图像进行特征提取，得到每一帧图像的特征向量；

特征平均单元，用于根据所述每一帧图像的特征向量，确定所述待配乐图像信息的平均特征向量；

计算单元，用于将所述平均特征向量与预设数量的第一卷积核分别进行卷积计算并添加相应的偏置参数，得到指定维度的特征向量作为所述图像特征信息；其中，不同第一卷积核的卷积参数不完全相同。

在一个实施例中，预先存储有每个音频对应的文本，所述装置还包括：

根据以下装置获取各音频的文本特征信息：

处理模块，用于对音频对应的文本进行分词处理后，再进行去停用词处理，得到所述音频对应的文本中的各分词；

拼接模块，用于将所述各分词按照在所述音频对应的文本中的顺序进行拼接，得到分词序列；

词嵌入模块，用于将所述分词序列中各分词通过词嵌入，得到各分词关于上下文连接关系的词向量作为所述音频的文本向量；

计算模块，用于将所述文本向量与预设数量的第二卷积核进行卷积计算并添加相应的偏置参数，得到所述音频的指定维度的特征向量作为文本特征信息；其中，不同第二卷积核的卷积参数不完全相同，且所述第一卷积核的数量与所述第二卷积核的数量相同。

在一个实施例中，第一确定相似度模块具体用于确定所述图像特征信息与每个文本特征信息的余弦相似度。

在一个实施例中，所述第一卷积核和所述第二卷积核的各卷积参数以及偏置参数通过以下装置训练获得：

第二获取模块，用于获取训练样本；其中，每一个训练样本包括样本图像信息的图像特征信息以及样本文本的文本特征信息，且所述训练样本的标签为该训练样本中的图像特征信息与文本特征信息之间的主观相似度；

第二确定相似度模块，用于确定各训练样本中的图像特征信息和文本特征信息的特征相似度；

确定误差模块，用于确定所述各训练样本对应的特征相似度与相应的主观相似度之间的误差；

更新参数模块，用于通过反向传播算法将所述误差传播给所述第一卷积核和所述第二卷积核，以更新所述第一卷积核和所述第二卷积核中的卷积参数以及相应的偏置参数，得到符合指定条件的卷积参数和偏置参数。

第三方面，提供一种计算装置，包括至少一个处理单元、以及至少一个存储单元，其中，存储单元存储有计算机程序，当程序被处理单元执行时，使得处理单元执行上述任意一种音频推荐的方法的步骤。

在一个实施例中，计算装置可以使服务器，也可以是终端设备。

第四方面，提供一种计算机可读介质，其存储有可由终端设备执行的计算机程序，当程序在终端设备上运行时，使得终端设备执行上述任意一种音频推荐的方法的步骤。

本申请实施例提供的一种音频推荐方法、装置及存储介质，在确定能够描述待配乐图像信息的语义内容的图像特征信息后，将图像特征信息与同样能够描述音频的语义特征的文本特征信息进行特征相似度的计算，并根据计算的特征相似度，推荐可作为待配乐图像信息的背景音乐的音频。这样，通过匹配待配乐图像信息与音频的语义，将语义相同或相似的音频推荐给用户，使得音频推荐更为准确；同时，推荐给用户的都是用户要发布的待配乐图像信息相关的音频，用户无需手动过滤无关的音频，故此能够减少用户在配乐时的操作成本，节省了用户在配乐时的时间。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种音频推荐方法的应用场景示意图；

图2为本申请实施例中预测模型的训练流程图；

图3为本申请实施例中获取图像特征信息的流程示意图；

图4为本申请实施例中获取文本特征信息的流程示意图；

图5为本申请实施例中预测模型训练的流程示意图；

图6为本申请实施例中一种音频推荐的流程示意图；

图7为本申请实施例中一种音频推荐的装置的结构示意图；

图8为根据本申请实施方式中终端设备结构示意图。

具体实施方式

为了解决现有技术中，用户在为图像信息配乐时，由于手动选择音频导致用户的操作成本较高，且由于选择的音频类型范围较小，导致选择的音频类型单一的问题，本申请实施例中提供一种音频推荐方法、装置及存储介质。为了更好的理解本申请实施例提供的技术方案，下面对该方案的基本原理做一下简单说明：

以为短视频选择背景音乐为例，目前推送的音乐都是热门的音乐，与用户要发布的短视频毫无关系，而且音频库中的音乐需要用户从音乐列表中逐一试听。由于音乐列表中音频的排序与用户要发布的短视频没有关系，故此，用户通常试听多首音频后也未必能够找到合适的背景音乐。有鉴于此，本申请实施例提供了一种音频推荐方法、装置及存储介质。该方法中，在确定能够描述待配乐图像信息的语义内容的图像特征信息后，将图像特征信息与同样能够描述音频的语义特征的文本特征信息进行特征相似度的计算，并根据计算的特征相似度，推荐可作为待配乐图像信息的背景音乐的音频。这样，通过匹配待配乐图像信息与音频的语义，将语义相同或相似的音频推荐给用户，使得音频推荐更为准确；同时，也能够减少用户在配乐时的操作复杂度，也即用户无需从夹杂着和待配乐图像信息无关的音频中，手动过滤无关的音频，故此能够节省用户在配乐时的操作时间，并降低对无关音频的用户操作指令进行处理而耗费的处理资源。

为便于理解，下面结合附图对本申请提供的技术方案做进一步说明。

如图1所示，为本申请实施例中一种音频推荐方法的应用场景示意图。该场景中包括用户100的终端设备101和服务器102。

用户100想要给终端设备101上的一个短视频进行配乐，可将需要配乐的短视频通过终端设备101上的即时通信工具、信息共享工具等应用发送给用于发布短视频的服务器102。

服务器102对接收到的短视频进行特征提取，得到该短视频的图像特征信息；并将得到的图像特征信息与预先存储在数据库中的文本特征信息进行特征相似度计算；根据计算的特征相似度，选择指定数量的音频，并将音频标识发送给终端设备101上的即时通信工具、信息共享工具等应用。

终端设备101上的即时通信工具、信息共享工具等应用根据音频标识确定推荐的音频，并将推荐的音频在终端设备101的操作界面上显示。

在一个实施例中，终端设备101可以是手机、平板电脑、个人计算机、虚拟机或模拟器模拟的终端设备等。

在一个实施例中，终端设备101与服务器102之间的通信为无线通信或者以太网通信等。

在一个实施例中，上述操作也可由终端设备101上的即时通信工具、信息共享工具等应用完成，即：终端设备101上的即时通信工具、信息共享工具等应用的处理装置对短视频进行特征提取，得到该短视频的图像特征信息；并向服务器102发送获取文本特征信息的请求。服务器102根据接收到的请求，向终端设备101上的即时通信工具、信息共享工具等应用发送文本特征信息。

根据接收到的文本特征信息，终端设备101上的即时通信工具、信息共享工具等应用的处理装置计算图像特征信息与文本特征信息进行特征相似度，并根据计算的特征相似度，选择指定数量的音频作为推荐的音频，并将推荐的音频在终端设备101的操作界面上显示。

在一个实施例中，为了提高音频推荐的效率，还可以在终端设备101上的即时通信工具、信息共享工具等应用上完成对短视频的特征提取，并将提取得到的图像特征信息发送给服务器102，由服务器进行特征相似度的计算。

因此，在本申请实施例中，该方案既可以应用在终端设备101上，也可以应用在服务器102上，还可以在终端设备101与服务器102结合的基础上使用，本申请对此不做限定。

在本申请实施例中，向用户自动推荐音频的方法可分为两部分，包括训练部分和预测部分；训练部分用于训练提取图像特征信息或文本特征信息，预测部分用于预测哪些音频和待配乐图像信息相关的预测部分，下面对训练部分以及预测部分分别进行说明。

一、训练部分：

在本申请实施例中，为了实现向用户自动推荐音频的操作，首先需要建立一个预测模型，并通过训练样本对该预测模型进行训练，得到可以预测与图像信息相关的音频，如图2所示，具体可包括以下步骤：

步骤201：获取训练样本；其中，每一个训练样本包括样本图像信息的图像特征信息以及样本文本的文本特征信息，且所述训练样本的标签为该训练样本中的图像特征信息与文本特征信息之间的主观相似度。

步骤202：确定各训练样本中的图像特征信息和文本特征信息的特征相似度。

其中，图像特征信息用于描述图像信息的语义内容，例如：若图像信息的显示内容为下雪的场景，则该图像信息所提取的图像特征信息用于表示下雪。

其中，样本文本为样本音频对应的文本，若音频为有歌词的音频，则将该音频的歌词作为该音频对应的文本；若音频没有歌词，则将描述该音频所要传达的语义内容的描述信息作为该音频对应的文本。描述信息可通过人工经验及音乐知识进行确定。例如：若某一音频为无歌词的音频，该音频所表达的内容为思乡之情，则该音频的描述信息为与思乡有关的语句。

而文本特征信息用于描述音频的语义内容，且音频的语义内容是根据音频的歌词得到的；若是无歌词的音频，则是根据描述该音频的描述信息得到的。例如：若音频的歌词与雪有关(如歌词为我爱你，塞北的雪)，则文本特征信息用于表示下雪。

在本申请实施例中，主观相似度可通过人工经验及知识进行确定。例如：若样本图像信息的图像特征信息所描述的语义内容为下雪的场景，样本文本的文本特征信息所描述的语义内容与雪相关(如打雪仗，看雪等)，则将主观相似度确定为1；若样本图像信息的图像特征信息所描述的语义内容为下雪的场景，样本文本的文本特征信息所描述的语义内容与雪无关(如下雨、打雷等)，则将主观相似度确定为0。也即，主观相似度的取值范围可在0-1之间，取值越大表示主观相似度越高，也即文本和图像信息越相关。当然为了简化，主观相似度也可以有0和1两个取值，0表示不相关，1表示相关。

当然，在本申请实施例中，除了将主观相似度分为两类(1或0)之外，还可以对主观相似度进行更为详细的分类，例如，将主观相似度分为3类，分别为不相关(主观相似度确定为0)、相关(主观相似度确定为0.5)、非常相关(主观相似度确定为1)。这样，通过更为细致化的分类，可以获取图像信息与音频之间的相关程度，从而向用户推荐更符合图像信息的音频，提高音频推荐的准确度。

在本申请实例中，可计算图像特征信息和文本特征信息之间的夹角余弦值，从而确定图像特征信息与文本特征信息的余弦相似度。

步骤203：确定所述各训练样本对应的特征相似度与相应的主观相似度之间的误差。

步骤204：通过反向传播算法将所述误差传播给所述第一卷积核和所述第二卷积核，以更新所述第一卷积核和所述第二卷积核中的卷积参数以及相应的偏置参数，得到符合指定条件的卷积参数和偏置参数。

其中，第一卷积核为获得图像特征信息所用到的卷积核，第二卷积核为获得文本特征信息所用到的卷积核。

其中，反向传播算法(Backpropagation algorithm)也被称作为BP算法，其作用是减少误差；即通过更新第一卷积核和第二卷积核中的卷积参数以及相应的偏置参数，使得到的误差更小，从而符合模型和要求。

这样，通过对预测模型进行训练，可以使预测模型更好的对图像信息进行预测，找到更合适于该图像信息的音频，并推荐给用户，使得音频推荐更为准确；同时，也能够减少用户在配乐时的操作成本，节省了用户在配乐时的时间；此外，由于通过预测模型选择的音频是在音频库中全部音频中选择的，因此所选择的音频的类型比自动推荐的音频类型更加多样化，从而增加了选择的音频的类型。

如上所述，在本申请实施例中，训练样本中包括图像特征信息以及文本特征信息，下面对如何获取图像特征信息以及文本特征信息进行详细的说明。

(1)图像特征信息：

在本申请实施例中，若要获取图像特征信息，首先需要获取图像信息；其中，图像信息可以是视频信息，也可以是图片信息，或者由多张图片组合在一起组成的图像信息。在获取图像信息后，对图像信息进行特征提取，得到图像特征信息，具体可实施为步骤A1-A3：

步骤A1：基于残差网络模型对所述样本图像信息中每一帧图像进行特征提取，得到每一帧图像的特征向量。

其中，该样本图像信息中包括多帧图像。

在本申请实施例中，使用残差网络(ResNet)模型对图像进行特征提取。其中，残差网络模型是一种卷积神经网络模型(ConvolutionalNeural Networks，CNN)，残差网络容易优化，并且能够通过增加相当多的深度来提高提取的图像特征信息的准确率。其核心是解决了在现有的卷积神经网络模型中，增加深度带来的副作用(退化问题)，这样能够通过单纯地增加网络深度，来提高网络性能。

除此之外，本申请实施例中同样可以通过其他卷积神经网络模型对图像信息进行特征提取，也可以通过循环神经网络(RNN,Recurrent Neural Networks)以及长短期记忆网络(LSTM，Long Short-Term Memory)等网络模型对图像信息进行特征提取。只要能够提取图像信息的语义特征，均适用于本申请实施例。

步骤A2：根据所述每一帧图像的特征向量，确定所述样本图像信息的平均特征向量。

其中，若样本图像信息只有一张图片，则直接对该图片进行特征提取，即可得到样本图像信息的平均特征向量。

在一个实施例中，可以将每一帧图像的特征向量相加，并求平均值来得到该样本图像信息的平均特征向量。

在一个实施例中，还可以对每一帧图像的特征向量加权求和，再求平均值来得到该样本图像信息的平均特征向量。

步骤A3：将所述平均特征向量与预设数量的第一卷积核分别进行卷积计算并添加相应的偏置参数，得到指定维度的特征向量作为所述图像特征信息；其中，不同第一卷积核的卷积参数不完全相同。

其中，第一卷积核的卷积参数和偏置参数可通过在步骤203中获得的误差进行修正，以使所获得的图像特征信息更加符合样本图像所描述的语义内容。

其中，第一卷积核的数量可以根据实际情况进行设置，如512个、1000个等。若第一卷积核的数量为512个，则得到一个512维的特征向量。

这样，通过神经网络模型对图像信息进行特征提取，可以使得到的图像特征信息描述所述图像信息的语义内容更加准确，从而可以为图像信息推荐更为符合要求的音频。

如图3所示，其为获取图像特征信息的流程示意图。其中，获取图像信息的每一帧图像(图像帧表示图像信息中每一帧的图像)后，通过残差网络模型301对每一帧图像进行特征提取，得到每一帧图像的特征向量；对每一帧图像的特征向量进行平均处理，得到图像信息的平均特征向量；将平均特征向量输入到全连接层302中进行计算(其中，全连接层表示的是步骤A3所述的内容，即，在全连接层中，图像信息的平均特征向量与全连接层的第一卷积核分别进行卷积计算并添加相应的偏置参数)，得到图像信息的图像特征信息。

(2)文本特征信息：

在本申请实施例中，若要获取文本特征信息，则需要获取音频对应的文本。在获取了音频对应的文本后，对文本进行特征提取，得到该音频的文本特征信息，具体可实施为步骤B1-B4：

步骤B1：对音频对应的文本进行分词处理后，再进行去停用词处理，得到所述音频对应的文本中的各分词。

例如，若文本为“我宁愿做一个平凡的人”，进行分词处理后，得到的结果为“我/宁愿/做/一个/平凡的/人”；其中，“宁愿”和“一个”为停用词，则对分词处理结果再进行去停用词处理，得到的各分词为“我/做/平凡的/人”。

步骤B2：将所述各分词按照在所述音频对应的文本中的顺序进行拼接，得到分词序列。

其中，按照文本中的顺序进行拼接的目的是为了获取文本中的上下文连接关系。如上所述，按照文本顺序进行拼接，则得到的分词序列为“我做平凡的人”。

步骤B3：将所述分词序列中各分词通过词嵌入，得到各分词关于上下文连接关系的词向量作为所述音频的文本向量。

其中，词嵌入可为自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言，它可为把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量；可通过word2vec(词向量)来进行词嵌入。

在本申请实施例中，在将各分词进行词嵌入后，得到各分词的词向量，再将各分词的词向量进行特征提取，得到文本的文本向量。

步骤B4：将所述文本向量与预设数量的第二卷积核进行卷积计算并添加相应的偏置参数，得到所述音频的指定维度的特征向量作为文本特征信息；其中，不同第二卷积核的卷积参数不完全相同，且所述第一卷积核的数量与所述第二卷积核的数量相同。

其中，第二卷积核的卷积参数和偏置参数可通过在步骤203中获得的误差进行修正，以使所获得的文本特征信息更加符合音频的文本的语义内容。第二卷积核的数量同样可以根据实际情况进行设置，且得到的特征向量的维度的数量与第二卷积核的数量相同。

其中，文本特征信息与音频具有对应关系，所述文本特征信息用于描述音频的语义特征。且文本特征信息与音频可以是一对一的对应关系，也可以是一对多的对应关系。例如：若有两首无歌词的音频，所表达的均为思乡之情，则对应的文本则有可能是相同的文本，因此，所对应的文本特征信息也相同。

这样，通过词向量模型对音频对应的文本进行特征提取，可以使得到的文本特征信息描述文本的语义内容更加准确，从而可以为图像信息推荐更为符合要求的音频。

在一个实施例中，具有歌词的音频的文本相对无歌词的音频的文本涵盖更为丰富的内容，故此，基于具有歌词所提取的文本特征信息更加准确，更能全面的描述音频所表达的信息，为了向用户推荐音频的准确度更高，在向用户推荐音频时，可以优先推荐具有歌词的音频，这样，根据音频的歌词来确定文本特征信息，可以更加准确的用户推荐音频。

如图4所示，其为获取文本特征信息的流程示意图。其中，在获取音频文本后，对音频文本进行分词处理以及去停用词处理，得到音频文本中的每一个分词；将音频文本的每一个分词输出到词向量模型401中计算(其中，词向量模型表示的是步骤B3所述的内容，即，对音频文本中的每一个分词进行词嵌入操作)，得到每一个分词的词向量；对各分词的词向量进行特征提取，进行降维，得到音频文本的特征向量；将音频文本的特征向量输入到全连接层402中(其中，全连接层表示的是步骤B4所述的内容，即，在全连接层中，文本的特征向量与全连接层的第二卷积核分别进行卷积计算并添加相应的偏置参数)，得到音频文本的文本特征信息。

需要说明的是，图3中的全连接层302与图4中的全连接层402是两个全连接层。

在获取了图像特征信息以及文本特征信息后，将训练样本中的图像特征信息和文本特征信息输入到预测模型中进行训练，以得到符合要求的预测模型。如图5所示，其为预测模型训练的流程示意图。其中，图像信息通过图3所示的流程，得到图像特征信息；音频对应的文本通过图4所示的流程，得到文本特征信息；将得到的图像特征信息以及文本特征信息进行相似度计算，得到特征相似度；计算特征相似度与该训练样本的主观相似度的差值，确定特征相似度与主观相似度之间的误差；在确定误差后，判断误差是否小于预设误差；若不小于预设误差，则通过反向传播算法将误差输入到两个全连接层(即全连接层302和全连接层402)中，以更新两个全连接层中的参数，以得到新的图像特征信息以及新的文本特征信息；若小于预设误差，则确定预测模型训练完成，停止训练。

二、预测部分：

在本申请实施例中，训练好预测模型后，便可以通过预测模型对待配乐的图像信息进行音频推荐了，如图6所示，具体可包括以下步骤：

步骤601：获取待配乐图像信息；其中，所述待配乐图像信息中包括至少一帧图像。

步骤602：对所述待配乐图像信息进行特征提取，得到能够描述所述待配乐图像信息的语义内容的图像特征信息。

步骤603：确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度；其中，所述文本特征信息与音频具有对应关系，所述文本特征信息用于描述音频的语义特征。

其中，文本特征信息可以在对待配乐图像信息推荐音频时，对音频库中的音频的文本进行特征提取得到。也可以预先对音频库中的音频所对应的文本进行特征提取，并存储在数据库中；这样，在使用文本特征信息时，可直接在数据库中获取。

步骤604：根据所述特征相似度，从所述多个音频中选择指定数量的音频作为所述待配乐图像信息的推荐音频。

其中，可根据特征相似度的大小，按照从高到低的顺序选择指定数量的音频作为所述待配乐图像信息的推荐音频，也可以在符合要求的音频中，随机选择指定数量的音频作为所述待配乐图像信息的推荐音频。其中，符合要求的音频为特征相似度大于预设相似度所对应的音频。

这样，通过待配乐图像信息的图像特征信息与音频的语义特征的文本特征信息的智能匹配，可以减少用户在配乐时的操作成本，还可以增加选择的音频类型。

在本申请实施例中，在进行实际操作时，可以不使用预测模型中的获取文本特征信息的部分，而是提前将音频的文本进行特征提取，得到文本特征信息并存储。在预测模型需要使用文本特征信息时，可直接从存储的文本特征信息中获取。

基于相同的发明构思，本申请实施例还提供一种音频推荐装置。如图7所示，该装置包括：

第一获取模块701，用于获取待配乐图像信息；其中，所述待配乐图像信息中包括至少一帧图像；

特征提取模块702，用于对所述待配乐图像信息进行特征提取，得到能够描述所述待配乐图像信息的语义内容的图像特征信息；

第一确定相似度模块703，用于确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度；其中，所述文本特征信息与音频具有对应关系；

推荐模块704，用于根据所述特征相似度，从所述多个音频中选择指定数量的音频作为所述待配乐图像信息的推荐音频。

进一步的，若所述待配乐图像信息中包括多帧图像，特征提取模块702包括：

进一步的，预先存储有每个音频对应的文本，所述装置还包括：

根据以下装置获取各音频的文本特征信息：

进一步的，第一确定相似度模块703具体用于确定所述图像特征信息与每个文本特征信息的余弦相似度。

进一步的，所述第一卷积核和所述第二卷积核的各卷积参数以及偏置参数通过以下装置训练获得：

基于同一技术构思，本申请实施例还提供了一种终端设备800，参照图8所示，终端设备800用于实施上述各个方法实施例记载的方法，例如实施图6所示的实施例，终端设备800可以包括存储器801、处理器802、输入单元4503和显示面板804。

存储器801，用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据终端设备800的使用所创建的数据等。处理器802，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。输入单元803，可以用于获取用户输入的用户指令。显示面板804，用于显示由用户输入的信息或提供给用户的信息，本申请实施例中，显示面板804主要用于显示终端设备中各应用程序的显示界面以及各显示界面中显示的控件实体。可选的，显示面板804可以采用液晶显示器(liquid crystaldisplay，LCD)或OLED(organic light-emitting diode，有机发光二极管)等形式来配置显示面板804。

本申请实施例中不限定上述存储器801、处理器802、输入单元803和显示面板804之间的具体连接介质。本申请实施例在图8中以存储器801、处理器802、输入单元803、显示面板804之间通过总线805连接，总线805在图8中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线805可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器801可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器801也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器801可以是上述存储器的组合。

处理器802，用于实现如图6所示的实施例，包括：

处理器802，用于调用存储器801中存储的计算机程序执行如实施图6所示的实施例。

本申请实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本申请提供的一种音频推荐的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种音频推荐的方法中的步骤。例如，终端设备可以执行如实施图6所示的实施例。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于一种音频推荐的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向实体的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频推荐方法，其特征在于，所述方法包括：

若所述待配乐图像信息中包括多帧图像，基于残差网络模型对所述待配乐图像信息中每一帧图像进行特征提取，得到每一帧图像的特征向量；根据所述每一帧图像的特征向量，确定所述待配乐图像信息的平均特征向量；将所述平均特征向量与预设数量的第一卷积核分别进行卷积计算并添加相应的偏置参数，得到指定维度的特征向量作为图像特征信息；其中，不同第一卷积核的卷积参数不完全相同；

确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度；其中，所述文本特征信息与音频具有对应关系；

根据以下方法获取各音频的文本特征信息：对音频对应的文本进行分词处理后，再进行去停用词处理，得到所述音频对应的文本中的各分词；将所述各分词按照在所述音频对应的文本中的顺序进行拼接，得到分词序列；将所述分词序列中各分词通过词嵌入，得到各分词关于上下文连接关系的词向量作为所述音频的文本向量；将所述文本向量与预设数量的第二卷积核进行卷积计算并添加相应的偏置参数，得到所述音频的指定维度的特征向量作为文本特征信息；其中，不同第二卷积核的卷积参数不完全相同，且所述第一卷积核的数量与所述第二卷积核的数量相同；

2.如权利要求1所述的方法，其特征在于，所述确定所述图像特征信息与多个文本特征信息中的每个文本特征信息的特征相似度，包括：

确定所述图像特征信息与每个文本特征信息的余弦相似度。

3.如权利要求1所述的方法，其特征在于，所述第一卷积核和所述第二卷积核的各卷积参数以及偏置参数通过以下方法训练获得：

4.一种音频推荐装置，其特征在于，所述装置包括：

若所述待配乐图像信息中包括多帧图像，特征提取模块包括：

计算单元，用于将所述平均特征向量与预设数量的第一卷积核分别进行卷积计算并添加相应的偏置参数，得到指定维度的特征向量作为图像特征信息；其中，不同第一卷积核的卷积参数不完全相同；

根据以下装置获取各音频的文本特征信息：

计算模块，用于将所述文本向量与预设数量的第二卷积核进行卷积计算并添加相应的偏置参数，得到所述音频的指定维度的特征向量作为文本特征信息；其中，不同第二卷积核的卷积参数不完全相同，且所述第一卷积核的数量与所述第二卷积核的数量相同；

5.如权利要求4所述的装置，其特征在于，第一确定相似度模块具体用于确定所述图像特征信息与每个文本特征信息的余弦相似度。

6.如权利要求4所述的装置，其特征在于，所述第一卷积核和所述第二卷积核的各卷积参数以及偏置参数通过以下装置训练获得：

7.一种计算装置，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～3任一权利要求所述方法的步骤。

8.一种计算机可读介质，其特征在于，其存储有可由终端设备执行的计算机程序，当所述程序在终端设备上运行时，使得所述终端设备执行权利要求1～3任一所述方法的步骤。