CN113157965B

CN113157965B - 音频可视化模型训练及音频可视化方法、装置及设备

Info

Publication number: CN113157965B
Application number: CN202110493845.9A
Authority: CN
Inventors: 展丽霞; 肖强; 孔昭阳; 董家骥; 李勇
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2022-05-20
Anticipated expiration: 2041-05-07
Also published as: CN113157965A

Abstract

本发明提供一种提供音频可视化模型训练及音频可视化方法、装置及设备，包括：获取包括用户信息、用户历史播放视频、目标音频、目标视频、目标音频是否关联的关系标签的训练样本；将训练样本输入音频可视化模型，对目标音频进行特征提取，得到目标音频的第一特征表示；对用户信息、用户历史播放视频进行特征提取得到用户特征、用户兴趣表达特征，对目标视频进行特征提取得到第二特征表示，将用户特征、用户兴趣表达特征和第二特征表示联合处理得到第三特征表示；确定第一特征表示和第三特征表示之间的相似度；根据相似度及训练样本中的关系标签，更新音频可视化模型的参数。本发明可以对同一音频进行个性化视频搭配，满足多样化的用户需求。

Description

音频可视化模型训练及音频可视化方法、装置及设备

技术领域

本发明涉及音视频技术领域，尤其涉及一种音频可视化模型训练及音频可视化方法、装置及设备。

背景技术

在音频播放过程中，用户通过音响感知、情绪感受、形象联想与理性感悟，完成对音频作品由感性到理性的审美体验过程。音频具有形象思维的特点，在情感的伴随下，通过想象联想，获得音频形象、生活情景以及意境等形象，音频可视化因此而衍生出来。音频可视化主要实现以视频动画诠释音乐情绪，将音频素材和视频融为一体。

相关技术中推出的一种音频播放场景为，根据用户当前播放的音频，自动为播放的音频搭配动态视频，不仅从听觉模式打动用户内心，而且通过视觉模式为用户带来冲击力。

相关技术中自动为播放的音频搭配动态视频，主要通过建立视频类型标签与单曲风格映射规则，在音频播放过程中，根据音频的单曲风格，根据映射规则搭配对应的视频类型标签中的视频。在确定映射规则时，主要研究音频内容理解、情感检测，图形图像平移、缩放、旋转、切变复杂处理，最终呈现音频表现力，给用户带来极大的视觉刺激。但这种技术脱离了用户兴趣偏好，没有以用户个性化偏好为驱动进行视频搭配，难以满足多样化的用户需求。

发明内容

本发明实施例提供一种音频可视化方法、装置、设备及介质，可以根据用户的兴趣偏好，实现对同一音频进行的个性化视频搭配，满足多样化的用户需求。

第一方面，本发明实施例提供一种音频可视化模型训练方法，该方法包括：

获取训练样本，所述训练样本包括用户信息、用户历史播放视频、目标音频、目标视频、表征所述目标音频和目标视频是否相关联的关系标签；

将所述训练样本输入音频可视化模型，对所述目标音频进行特征提取，得到所述目标音频的第一特征表示；

对所述用户信息、用户历史播放视频与目标视频的关系进行特征提取得到用户特征、用户兴趣表达特征，对所述目标视频进行特征提取得到第二特征表示，将所述用户特征、所述用户兴趣表达特征和所述第二特征表示联合处理得到第三特征表示；

确定所述第一特征表示和所述第三特征表示之间的相似度；

根据所述相似度及所述训练样本中的关系标签，更新所述音频可视化模型的参数。

作为一种可选的实施方式，所述训练样本还包括知识图谱；对目标音频/目标视频进行特征提取，包括：

确定所述目标音频/目标视频在所述知识图谱中对应的目标节点，及确定通过边与所述目标节点建立关联关系的邻居节点；

对所述邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征；

所述目标节点在所述知识图谱中与邻居节点的关系表达特征，包括所述目标音频在所述知识图谱中与邻居节点关系表达的所述第一特征表示或所述目标视频在所述知识图谱中与邻居节点关系表达的所述第二特征表示；

所述知识图谱为将实体定义为节点，将存在关联关系的节点通过边连接，并根据所述关联关系的类型确定边的类型，根据节点的相关信息对所述节点进行属性信息填充所构建得到的图谱，所述实体包括音频和视频。

通过构建融合音频、视频等丰富内容信息的复杂知识图谱，充分考虑了视频、单曲在更丰富属性的关联性，增强了音频和视频的关系特征表达。

作为一种可选的实施方式，采用如下方式构建所述知识图谱：

定义实体类型、实体属性信息、与不同类型关联关系对应的边及判定各类型的关联关系的规则，所述实体类型包括视频类型和音频类型；

根据定义的所述实体类型、所述实体属性信息，从源数据库中抽取不同实体类型的实体作为节点，从所述节点的相关信息中抽取所述节点的属性信息；

根据判定各类型的关联关系的规则，确定不同节点之间是否存在关联关系，并确定存在关联关系时，根据关联关系的类型利用对应类型的边连接所述不同节点。

通过上述方式可以构建丰富在音频视频关联性的知识图谱，可以根据具体的需求定义相应的实体、边类型和抽取规则，自动构建融合音频、视频等丰富内容信息的复杂知识图谱。

作为一种可选的实施方式，该方法还包括：

利用不同的表格分别存储所抽取的节点、抽取的节点的属性信息、确定的是否存在关联关系的结果、边的连接信息；

将所述抽取的节点作为索引项，对所述不同的表格进行融合得到该节点的表项内容，所述表项内容包括所述抽取的节点的属性信息、所述抽取的节点所关联的邻居节点、所述抽取的节点所关联的邻居节点与所述抽取的节点的关联关系的类型。

通过上述融合方式，可以针对各个节点，将与该节点有关系的所有信息整合在一起，实现以该节点为索引时，可以获取到各种各样的关系。

作为一种可选的实施方式，对所述邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征，包括：

确定与所述目标节点属于同一实体类型的同构邻居节点，利用第一特征提取层对所述同构邻居节点的属性信息、所述同构邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与同构邻居节点的第一关系表达特征；

确定与所述目标节点属于不同实体类型的异构邻居节点，利用第一特征提取层对所述异构邻居节点的属性信息、所述异构邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与异构邻居接的第二关系表达特征；

利用第二特征提取层，将所述第一关系表达特征和第二关系表达特征转换到同一向量空间，得到所述目标节点在所述知识图谱中与所述邻居节点的关系表达特征。

通过上述特征提取过程，对于每个目标节点，不仅可以提取同类型的节点与该目标节点的关系表达，还可以提取不同类型的节点与该目标节点的关系表达，由于不同类型的节点在特征层面和网络拓扑结构上存在很大的差异性，因此在利用第一特征提取层提取关系表达特征后，进一步利用第二特征提取层对上述关系表达特征进一步特征提取，从而转换到同一向量空间。

作为一种可选的实施方式，确定所述第一特征表示和所述第三特征表示之间的相似度，包括：

将所述第一特征表示输入单曲双塔层，利用单曲双塔层对所述第一特征表示进行正则化处理；

将所述第三特征表示输入视频双塔层，利用视频双塔层对所述第三特征表示进行正则化处理；

确定正则化处理后的第一特征表示和所述第三特征表示之间的相似度。

通过上述正则化处理，可以保证上述第一特征表示和第三特征表示在同一个数量级。

利用单曲双塔层中的三层LeakyReLU，对所述第一特征表示进行正则化处理；

利用视频双塔层中的三层LeakyReLU，对所述第三特征表示进行正则化处理；

通过连接单曲双塔层和视频双塔层的sigmoid函数，确定正则化处理后的所述第一特征表示和所述第三特征表示之间的相似度。

利用三层LeakyReLU对第一特征表示/第三特征表示进行正则化处理，可以防止梯度消失和梯度保证，保证满足网络收敛的要求。

作为一种可选的实施方式，根据所述相似度及训练样本中的关系标签，更新所述音频可视化模型的参数，包括：

根据所述相似度及所述训练样本中的关系标签确定第一损失函数；

根据所述相似度及根据知识图谱拟合的第一特征表示和第三特征表示之间的相似度，确定第二损失函数，其中，所述目标音频对应的目标节点和目标视频对应的目标节点的共享邻居节点的数量越多，拟合的相似度越大；

根据所述第一损失函数和所述第二损失函数，更新所述音频可视化模型的参数。

通过采用两个损失函数对音频可视化模型的参数进行调整，可以同时兼顾单曲和视频的匹配度和用户对单曲、视频联合分发接受度两个目标。

作为一种可选的实施方式，确定通过边与所述目标节点建立关联关系的邻居节点，包括：

确定所述知识图谱中在设定的跳数内，通过边与所述目标节点建立关联关系的邻居节点；

所述跳数为从邻居节点出发连接到所述目标节点需要的边的数量。

上述跳数可以根据需要进行设定，从而可以不仅获得与目标节点关联关系较强的节点的关系表达，也可以获得与目标节点关联相对较弱的节点的关系表达，丰富与目标节点的关系表达特征。

作为一种可选的实施方式，获取训练样本中的关系标签，包括：

获取将目标音频搭配目标视频播放的过程中，用户的播放行为反馈；

根据所述播放行为反馈，确定表征所述目标音频和目标视频是否相关联的关系标签。

不同的播放行为反馈表征了音视频的关联性，本发明通过用户的实际行为反馈，可以确定在线推荐的音视频搭配是否相关联，从而获得对应的训练样本中的关系标签。

作为一种可选的实施方式，将所述训练样本输入音频可视化模型之前，还包括：

利用视频内容理解模型对所述目标视频的文本数据进行语义理解，得到对应的视频文本内容向量；

对所述目标视频进行图像帧抽取，利用图像内容理解模型对所述目标视频进行内容理解，得到对应的图像内容向量；

对所述目标音频进行音频帧抽取，利用音频帧内容预测模型对所述目标音频进行内容理解，得到对应的音频内容向量。

通过上述处理过程，可以将音频和视频转换为对应的向量，从而模型的输入可以根据相应的向量理解对应的音频和视频的内容。

第二方面，本发明实施例提供一种音频可视化方法，所述方法包括：

响应于音视频搭配请求，获取用户信息、候选音频和候选视频；

将所述用户信息、候选音频和候选视频输入上述第一方面提供的所述方法训练得到的音频可视化模型；

利用所述音频可视化模型对所述候选音频进行特征提取，得到所述候选音频的第一特征表示；

利用所述音频可视化模型对所述用户信息进行特征提取得到用户特征，对所述候选视频进行特征提取得到第二特征表示，将所述用户特征和第二特征表示联合得到第三特征表示；

确定所述第一特征表示和所述第三特征表示之间的相似度，并根据所述相似度预测各候选音频与各候选视频是否相关联的概率；

根据确定的各候选音频与各候选视频是否相关联的概率，选择概率值大于预设值对应的候选音频和候选视频进行联合播放。

第三方面，本发明实施例提供一种音频可视化模型训练装置，该装置包括：

样本获取模块，用于获取训练样本，所述训练样本包括用户信息、用户历史播放视频、目标音频、目标视频、表征所述目标音频和目标视频是否相关联的关系标签；

第一特征提取模块，用于将所述训练样本输入音频可视化模型，对所述目标音频进行特征提取，得到所述目标音频的第一特征表示；

第三特征提取模块，用于对所述用户信息、用户历史播放视频与目标视频的关系进行特征提取得到用户特征、用户兴趣表达特征，对所述目标视频进行特征提取得到第二特征表示，将所述用户特征、所述用户兴趣表达特征和所述第二特征表示联合处理得到第三特征表示；

相似度确定模块，用于确定所述第一特征表示和所述第三特征表示之间的相似度；

参数更新模块，用于根据所述相似度及所述训练样本中的关系标签，更新所述音频可视化模型的参数。

作为一种可选的实施方式，所述训练样本还包括知识图谱；第一特征提取模块对目标音频进行特征提取/第三特征提取模块对目标视频进行特征提取，包括：

作为一种可选的实施方式，该装置还包括：

知识图谱构建模块，用于采用如下方式构建所述知识图谱：

作为一种可选的实施方式，该装置还包括：

存储模块，用于利用不同的表格分别存储所抽取的节点、抽取的节点的属性信息、确定的是否存在关联关系的结果、边的连接信息；

融合模块，用于将所述抽取的节点作为索引项，对所述不同的表格进行融合得到该节点的表项内容，所述表项内容包括所述抽取的节点的属性信息、所述抽取的节点所关联的邻居节点、所述抽取的节点所关联的邻居节点与所述抽取的节点的关联关系的类型。

作为一种可选的实施方式，所述第一特征提取模块/第三特征提取模块对所述邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征，包括：

作为一种可选的实施方式，所述相似度确定模块确定所述第一特征表示和所述第三特征表示之间的相似度，包括：

作为一种可选的实施方式，所述参数更新模块根据所述相似度及训练样本中的关系标签，更新所述音频可视化模型的参数，包括：

作为一种可选的实施方式，所述第一特征提取模块/第三特征提取模块确定通过边与所述目标节点建立关联关系的邻居节点，包括：

作为一种可选的实施方式，所述样本获取模块获取训练样本中的关系标签，包括：

作为一种可选的实施方式，该装置还包括：

向量转换模块，用于在将所述训练样本输入音频可视化模型之前执行：

第四方面，本发明实施例提供一种音频可视化装置，所述装置包括：

信息获取模块，用于响应于音视频搭配请求，获取用户信息、候选音频和候选视频；

模型输入模块，用于将所述用户信息、候选音频和候选视频输入上述第一方面提供的所述方法训练得到的音频可视化模型；

第一特征提取模块，用于利用所述音频可视化模型对所述候选音频进行特征提取，得到所述候选音频的第一特征表示；

第三特征提取模块，用于利用所述音频可视化模型对所述用户信息进行特征提取得到用户特征，对所述候选视频进行特征提取得到第二特征表示，将所述用户特征和第二特征表示联合得到第三特征表示；

概率确定模块，用于确定所述第一特征表示和所述第三特征表示之间的相似度，并根据所述相似度预测各候选音频与各候选视频是否相关联的概率；

音视频搭配模块，用于根据确定的各候选音频与各候选视频是否相关联的概率，选择概率值大于预设值对应的候选音频和候选视频进行联合播放。

第五方面，本发明实施例提供一种音频可视化模型训练设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面提供的音频可视化模型训练方法。

第六方面，本发明实施例提供一种音频可视化设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第二方面提供的音频可视化方法。

第七方面，本发明实施例提供一种存储介质，当所述存储介质中的指令由库存供应链管理设备的处理器执行时，使得库存供应链管理设备能够执行上述第一方面提供的音频可视化训练方法，或者执行上述第二方面提供的音频可视化方法。

利用本发明实施例提供的音频可视化模型训练及音频可视化方法、装置及设备，在音频可视化模型训练时所输入的特征中，加入了用户特征和用户兴趣表达特征，不仅满足了用户和可视化音乐的情感互动需求，而且以用户个性化偏好为驱动进行视频搭配，可以满足多样化的用户需求，实现了亿万级别用户个性化匹配。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理，并不构成对本发明的不当限定。

图1是本发明实施例提供的应用场景示意图；

图2是根据一示例性实施例示出的一种音频可视化模型训练方法的流程图；

图3是根据一示例性实施例示出的将目标视频的文本数据转换为视频文本内容向量的流程图；

图4是根据一示例性实施例示出的将目标视频的图像帧转换为图像内容向量的流程图；

图5是根据一示例性实施例示出的将目标视频的文本数据转换为音频内容向量的流程图；

图6是根据一示例性实施例示出的实现本发明实施例方法采用的软件架构示意图；

图7是根据一示例性实施例示出的音频可视化模型采用的图神经网络结构示意图；

图8是根据一示例性实施例示出的图神经网络中GAT模块的结构示意图；

图9是根据一示例性实施例示出的音频可视化模型训练的详细流程图；

图10是根据一示例性实施例示出的音频可视化方法流程图；

图11是根据一示例性实施例示出的音频可视化模型训练装置结构示意图；

图12是根据一示例性实施例示出的音频可视化装置的结构示意图；

图13是根据一例性实施例示出的音频可视化模型训练设备的结构示意图；

图14是根据一示例性实施例示出的音频可视化设备的结构示意图；

图15是本发明实施例提供的一种程序产品示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种方法、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

发明概述

本发明人发现，相关技术中的音乐可视化技术主要研究音频内容理解，图形图像平移、缩放、旋转、切变复杂处理，最终呈现音乐表现力，给人带来极大的视觉刺激。但这种技术脱离了用户兴趣偏好，难以满足多样化的用户需求。

有鉴于此，本发明实施例提供了一种音频可视化模型训练及音频可视化方法、装置及设备，在音频可视化模型训练过程中所输入的特征中加入用户特征和用户兴趣表达特征，不仅满足了用户和可视化音频的情感互动需求，而且实现了亿万级别用户个性化匹配。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，其为本发明实施例的应用场景示意图。用户10通过用户设备11中安装的客户端登录网络服务器12，其中，客户端可以为网页的浏览器，也可以为安装于移动用户设备，如手机，平板电脑等中的应用客户端。

用户设备11与网络服务器12之间通过网络进行通信连接，该网络可以为局域网、广域网等。用户设备11可以为便捷设备(例如：手机、平板、笔记本电脑等)，也可以为个人电脑(PC，Personal Computer)，网络服务器12可以为任何能够提供互联网服务的设备。

其中，网络服务器12可以根据客户端的请求，将请求的音频数据发送到客户端进行播放，在将音频数据发送到客户端，为音频数据搭配对应的视频数据，实现音频可视化。网络服务器12可以利用训练样本训练音频可视化模型，利用音频可视化模型实现音频数据和视频数据的搭配。

本发明实施例中，网络服务器12在模型训练阶段，获取训练样本，所述训练样本包括用户信息、用户历史播放视频、目标音频、目标视频、表征所述目标音频和目标视频是否相关联的关系标签；将所述训练样本输入音频可视化模型，对所述目标音频进行特征提取，得到所述目标音频的第一特征表示；对所述用户信息、用户历史播放视频与目标视频的关系进行特征提取得到用户特征、用户兴趣表达特征，对所述目标视频进行特征提取得到第二特征表示，将所述用户特征、所述用户兴趣表达特征和所述第二特征表示联合处理得到第三特征表示；确定所述第一特征表示和所述第三特征表示之间的相似度；根据所述相似度及所述训练样本中的关系标签，更新所述音频可视化模型的参数。

本发明实施例中，网络服务器12在音频/视频推荐阶段，响应于音视频搭配请求，获取用户信息、候选音频和候选视频；将所述用户信息、候选音频和候选视频输入训练得到的音频可视化模型；利用所述音频可视化模型对所述候选音频进行特征提取，得到所述候选音频的第一特征表示；利用所述音频可视化模型对所述用户信息进行特征提取得到用户特征，对所述候选视频进行特征提取得到第二特征表示，将所述用户特征和第二特征表示联合得到第三特征表示；确定所述第一特征表示和所述第三特征表示之间的相似度，并根据所述相似度预测各候选音频与各候选视频是否相关联的概率；根据确定的各候选音频与各候选视频是否相关联的概率，选择概率值大于预设值对应的候选音频和候选视频进行联合播放。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的音频可视化模型训练方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出的，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于使用的任何场景。

如图2所示，本发明实施例提供的一种音频可视化模型训练方法，包括：

步骤201，获取训练样本，所述训练样本包括用户信息、用户历史播放视频、目标音频、目标视频、表征所述目标音频和目标视频是否相关联的关系标签；

本发明实施例中训练样本从源数据库获取，源数据库中的数据主要有三种类型：音频数据类型、视频数据类型及与用户业务操作相关的业务数据类型。

上述与用户业务操作相关的业务数据类型包括用户信息和用户历史播放视频。用户信息可以但不限于包括用户年龄、性别等用户基础信息；用户历史播放视频为用户历史一段时间被播放的视频信息，可以包括视频的ID、视频的内容等信息。

上述音频数据和视频数据通过人工标注或算法规则，会积累一些基础的内容特征。例如，视频数据本身带有人工标注的语义标签和类别标签。

作为一种可选的实施方式，本发明实施例将所述训练样本输入音频可视化模型之前，将输入到模型中的数据首先转换为对应的向量，具体可以执行如下步骤得到对应的向量：

1)利用视频内容理解模型对所述目标视频的文本数据进行语义理解，得到对应的视频文本内容向量；

视频数据的内容理解包含视频文本内容理解和视频图像内容理解两方面。

本实施例中对视频文本内容理解的过程具体参见图3，主要包括如下过程：

确定训练样本中的各个目标视频；

从源数据视频库采集各目标视频的视频标题、人工标注的视频标签、视频描述等基础文本数据，利用OCR识别技术获取目标视频的字幕文本信息，得到目标视频的文本数据；

对每个目标视频，将上述文本数据合并成综合描述信息，利用分词工具对综合描述信息进行文本分词，生成视频文本词典；

对视频文本词典中的单词进行独热oneHot编码，实现视频文本字典的数据预处理，各个单词用编码后用对比的多个比特表示；

根据各个目标视频对应的单词的编码值，基于滑动窗口的机制，窗口内单词两两构建正样本，构建与目标视频内容近似的正样本和与目标视频内容不近似的负样本，训练三层神经网络语言模型，具体的样本构建过程及模型训练过程为现有技术，这里不再详述。

完成模型训练后，将各个目标视频的文本数据对应的单词编码值输入到神经网络语言模型，得到对应的视频文本内容向量，具体为将神经网络语言模型学习好的隐层权重矩阵作为目标视频的视频文本内容向量。

2)对所述目标视频进行图像帧抽取，利用图像内容理解模型对所述目标视频进行内容理解，得到对应的图像内容向量；

本实施例中对视频图像内容理解的过程具体参见图4，主要包括如下过程：

确定训练样本中的各个目标视频；

对各个目标视频进行图像帧抽取，具体可以根据目标视频总时长平均划分为几段，每段时长内抽取关键的图像帧；

以人工标注的视频语义类型标签为目标，将抽取的图片帧信息输入图像内容理解模型，对模型参数微调整，该模型可以但不限于采用EfficientNet网络结构模型。为了验证图像帧内容特征的有效性和准确性，本发明实施例在模型参数调整中，根据视频的语义标签，将语义近似的两个视频进行内容特征聚类为簇，簇内两个视频的图像帧对应的向量进行相似度计算。当同一簇内图像帧的向量相似度较高，则视频的内容特征具有很高的置信度。

完成模型参数调整后，将图像帧输入到图像内容理解模型，得到模型预测的图像内容向量。

3)对所述目标音频进行音频帧抽取，利用音频帧内容预测模型对所述目标音频进行内容理解，得到对应的音频内容向量。

本实施例中对视频图像内容理解的过程具体参见图5，主要包括如下过程：

确定训练样本中的各个目标音频；

对各个目标音频进行音频帧抽取，具体可以根据目标音频总时长平均划分为几段，每段时长内抽取关键的音频帧；

以人工标注的音频语义类型标签为目标，将抽取的音频帧信息输入音频帧内容预测模型，对模型参数微调整，该模型可以但不限于采用YamNet网络结构模型。为了验证音频帧内容特征的有效性和准确性，本发明实施例在模型参数调整中，根据音频的语义标签，将语义近似的两个音频进行内容特征聚类为簇，簇内两个音频的音频帧对应的向量进行相似度计算。当同一簇内音频帧的向量相似度较高，则音频的内容特征具有很高的置信度。

完成模型参数调整后，将音频帧输入到图像内容理解模型，得到模型预测的音频内容向量。

步骤202，将所述训练样本输入音频可视化模型，对所述目标音频进行特征提取，得到所述目标音频的第一特征表示；

实施中，可以将训练样本中目标音频对应的音频内容向量输入音频可视化模型，利用音频可视化模型的特征提取层对音频内容向量进行特征提取，得到目标音频的第一特征表示。

步骤203，对所述用户信息、用户历史播放视频与目标视频的关系进行特征提取得到用户特征、用户兴趣表达特征，对所述目标视频进行特征提取得到第二特征表示，将所述用户特征、所述用户兴趣表达特征和所述第二特征表示联合处理得到第三特征表示；

实施中，可以将训练样本中的上述用户信息、用户历史播放视频、目标视频转换为对应的向量输入到音频可视化模型，利用音频可视化模型的特征提取层对用户信息对应的向量进行特征提取得到用户特征，对用户历史播放视频与目标视频的关系进行特征提取得到用户兴趣表达特征，对视频内容向量进行特征提取，得到目标音频的第二特征表示。

将所述用户特征、所述用户兴趣表达特征和所述第二特征表示联合处理得到第三特征表示，则可以根据当前用户的用户兴趣表达，得到用户对目标视频的兴趣程度及目标视频的内容表达特征。

步骤204，确定所述第一特征表示和所述第三特征表示之间的相似度；

步骤205，根据所述相似度及所述训练样本中的关系标签，更新所述音频可视化模型的参数。

本发明实施例提供的音频可视化模型训练方法，在模型训练时，对目标音频和目标视频分别进行特征提取，同时还对用户信息、用户历史播放视频与目标视频的关系进行特征提取得到用户特征、用户兴趣表达特征，通过将用户特征、用户兴趣表达特征和第二特征表示联合处理得到的第三特征表示，联合处理后的特征反应了用户对目标视频的兴趣程度，则训练得到的音频可视化模型具有根据用户兴趣计算音视频关联概率的能力，不仅满足了用户和可视化音乐的情感互动需求，而且以用户个性化偏好为驱动进行视频搭配，可以满足多样化的用户需求，实现了亿万级别用户个性化匹配。

作为一种可选的实施方式，本发明实施例中的训练样本还包括知识图谱；知识图谱为将实体定义为节点，将存在关联关系的节点通过边连接，并根据所述关联关系的类型确定边的类型，根据节点的相关信息对所述节点进行属性信息填充所构建得到的图谱，所述实体包括音频和视频。

本发明实施例对目标音频/目标视频进行特征提取，包括：

确定所述目标音频在所述知识图谱中对应的目标节点，及确定通过边与所述目标节点建立关联关系的邻居节点；确定目标视频在所述知识图谱中对应的目标节点，及确定通过边与所述目标节点建立关联关系的邻居节点；

针对目标音频，对所述目标音频的邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征，即所述目标音频在所述知识图谱中与邻居节点关系表达的所述第一特征表示；

针对目标视频，对所述目标视频的邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征，即所述目标视频在所述知识图谱中与邻居节点关系表达的所述第二特征表示。

如图6所示，为了实现音频可视化模型训练方法，基于上述源数据库，在软件架构上可以划分为内容理解模块、知识图谱构建模块及模型训练模块。

源数据库上包括上述音频数据、视频数据、业务数据。

内容理解模块主要用于将源数据库中的音频数据转换为对应的音频内容向量，及将源数据库中的视频数据转换为对应的视频内容向量。

知识图谱构建模块用于基于源数据库及内容理解模块得到的向量，进行知识图谱构建，利用复杂网络能够融合各类知识，并通过链接对知识进行关联的天然优势，构建复杂的异构图网络。

模型训练模块主要用于构建训练样本、搭建音频可视化模型采用的图神经网络，并利用训练样本训练搭建的图神经网络。

内容理解模块得到音频内容向量及视频内容向量的方式参见上述实施方式描述，这里再重述，下面给出上述知识图谱构建模块及模型训练模块的详细实施例。

知识图谱的构建：

本发明实施例中基于内容理解模块得到的各音频的音频内容向量、视频内容向量，主要通过以下几个步骤进行知识图谱构建：

1)本体设计

本体是用于描述一个领域的术语集合，其组织结构是层次结构化的，可以作为知识库的骨架和基础。本体主要获取、描述和表示相关领域的知识，提供对该领域知识的共同理解，确定领域内共同认可的词汇。

本体包含实体、关系及属性的基础要素，应用到本发明实施例，定义了本体中包含的基础要素：实体类型、实体属性信息、与不同类型关联关系对应的边及判定各类型的关联关系的规则，所述实体类型包括视频类型和音频类型。

进一步地，实体类型还可以包括与视频类型或音频类型相关联的其他类型，例如实体主要包含单曲、视频、艺人等客观存在的实物。不同类型的关联关系主要描述单曲和视频的关联性，例如可以包含单曲-内容相似单曲、视频-内容相似视频、单曲-艺人、视频-艺人等多种关联关系，且多种关联关系中可以是异质节点的关联关系。实体属性信息可以为多方面的信息，例如可以包括视频发生地区、视频语义标签、视频文本表征、采用上述实施方式获得的视频内容向量。

2)知识抽取

知识抽取的目的主要从不同源、不同结构的数据中进行实体抽取和关系抽取，应用到本发明实施例，实体抽取主要完成音频、视频的抽取和基础属性的填充，得到对应的节点。关系抽取主要分析业务数据，利用分布式计算技术，对本体定义中的关系进行计算，分别生成多种关联类型的边。

实施例中，根据定义的所述实体类型、所述实体属性信息，从源数据库中抽取不同实体类型的实体作为节点，从所述节点的相关信息中抽取所述节点的属性信息。根据判定各类型的关联关系的规则，确定不同节点之间是否存在关联关系，并确定存在关联关系时，根据关联关系的类型利用对应类型的边连接所述不同节点。

本发明实施例中源数据库中数据的数据类型比较丰富，包含音视频数据、文本数据、数值型数据。本发明实施例在进行知识抽取之前，可以利用深度学习技术将其统一转化为数值型数据。

3)知识融合

经过知识抽取步骤，分别形成了知识图谱的带属性的节点数据和多种类型的边数据。经过知识融合将多个数据来源的实体、关系进行消歧融合，最终构建一张能够完全描述音乐-视频关系的知识图谱。

作为一种可选的实施方式，本发明实施例利用不同的表格分别存储所抽取的节点、抽取的节点的属性信息、确定的是否存在关联关系的结果、边的连接信息；将所述抽取的节点作为索引项，对所述不同的表格进行融合得到该节点的表项内容，所述表项内容包括所述抽取的节点的属性信息、所述抽取的节点所关联的邻居节点、所述抽取的节点所关联的邻居节点与所述抽取的节点的关联关系的类型。

模型训练模块：

模型训练模块的目的在于，基于上述深度表达单曲-视频关系的知识图谱，给定一个用户u的视频观看行为序列：S(u)＝{v1,v2,……,vn}，学习一个函数F用于预测用户u在单曲s-视频v匹配下，能够完整播放视频v的概率。

1)构建训练样本

本发明实施例基于用户历史音视频联合播放行为，构建训练样本，将用户一次历史播放行为中播放的音频作为目标音频，将联合播放的视频作为目标视频，获取将目标音频搭配目标视频播放的过程中，用户的播放行为反馈；根据所述播放行为反馈，确定表征所述目标音频和目标视频是否相关联的关系标签，并获取用户信息及用户在历史一段时间内播放的视频(视频观看行为序列)，从而得到一个训练样本。实施中，可以在视频播放时长超过设定时长时关系标签为1，否则为0。

本实施例的一个示例中，基于用户的音视频联合播放行为得到一个训练样本可以表示为<u,v,s,Useq,Yuvs>，其中u表示用户，v表示目标视频，s表示目标音频。Yuvs表示用户u在背景音乐s下播放视频v的真实标签，当视频播放时长超过60s时Yuvs＝1，否则Yuvs＝0。Useq为用户u的视频观看行为序列，例如可以为用户历史30天观看视频的序列id信息。

训练样本的数量越多，学习用于预测用户u在单曲s-视频v匹配下能够完整播放视频v的函数F的置信度越高，可以根据要求确定训练样本的数量。

2)搭建图神经网络

如图7所示，本发明实施例搭建的图神经网络主要包括数据层、转换层、双塔层和输出层，下面对各个神经网络层进行详细说明。

2.1)数据层

数据层用于接收输入到图神经网络的向量，具体包括目标音频、目标视频、构建的知识图谱及视频观看行为序列，知识图谱为包含音频、视频的复杂网络，网络中蕴含了丰富的视频、单曲内容理解信息，视频、单曲基于业务、内容建立的链接关系。

用户个性化推荐模式使得获取用户意图行为显得至关重要。如果仅关注音频和视频的匹配性，容易造成播放同一单曲的所有用户观看到视频也一样。与用户相关的特征主要包含两方面，用户信息对应的用户特征和视频观看行为序列对应的用户兴趣表达特征。与用户相关的特征的加入，指导模型在音频和视频内容强关联的约束下，优先推荐用户偏好度较高的一类视频，在一定程度上体现音乐可视化以用户为中心进行驱动。用户特征主要包含了年龄、地域、用户对视频风格的偏好、用户对视频语种的偏好等特征。用户兴趣表达特征蕴含了可以刻画用户兴趣的丰富信息。

2.2)转换层

转换层用于对输入到图神经网络的向量进行特征提取，为特征提取层。

本发明实施例中在转换层对用户信息进行特征提取得到用户特征，对用户历史播放视频与目标视频的关系(视频观看行为序列)进行特征提取得到用户兴趣表达特征，基于知识图谱，对音频目标节点的邻居节点的属性信息、所述邻居节点连接音频目标节点的边对应的关联关系进行特征提取，得到音频目标节点在所述知识图谱中与邻居节点关系表达的第一特征表示，对视频目标节点的邻居节点的属性信息、所述邻居节点连接视频目标节点的边对应的关联关系进行特征提取，得到视频目标节点在所述知识图谱中与邻居节点关系表达的第二特征表示。将用户特征、用户兴趣表达特征及第二特征表示联合处理得到第三特征表示。

上述转换层具体可以包括Transformer模块、GAT(Graph Attention Networks，图注意力网络)模块(包括单曲GAT模块和视频GAT模块)，下面对各个模块进行详细说明。

2.2.1)Transformer模块

Transformer模块具体用于对用户历史播放视频与目标视频的关系(视频观看行为序列)进行特征提取得到用户兴趣表达特征。

Transformer模块采用注意力机制，抛弃了传统的CNN和RNN，整个网络结构完全是基于注意力Attention机制而组成。如图7所示，Transformer模块核心组件由多头自注意力机制Multi-head Self-Attention部分(以下简称Self-Attention)和前馈Feed Forward神经网络构成，另外还包括残差连接和归一化部分(Add&Norm)，其中Self-Attention是最核心的部分。Self-Attention可以捕获同一个序列中视频间的语义特征，是一种通过自身和自身相关联的注意力机制，从而达到一个更好的特征表示来表达自身。Self-Attention无视视频之间的距离，直接计算依赖关系，更容易捕获到序列中长距离的互相依赖的特征，从而学习到序列的内部结构。本发明实施例Transformer模块通过应用Self-Attention来学习视频观看行为序列中各个视频item的序列信息。捕获用户历史播放视频与目标视频之间的相互关系得到用户行为兴趣表达。

Self-Attention采用的QKV模型，Q是Question，V是Answer，K是新来的Question，计算历史记忆中Q和哪个K更相似，根据相似K对应的V，合成当前问题的答案。Self-Attention进化是通过h个不同的线性变换对Q，K，V进行投影。

应用到本发明实施例，以用户视频行为序列信息表征为例进行Self-Attention详细阐述。视频观看行为序列定义为Fv＝{v1,v2,......,vn}，Q、K、V定义如下：

Q＝W^QF_υ，K＝W^KF_υ，V＝W^VF_υ

其中，W^Q、W^k、W^v为视频id嵌入embedding特征转换矩阵。Self-Attention的计算采用scaleddot-product，公式如下：

最后，MultiHead(Q,K,V)输出结果为Transformer层最终表达，得到用户兴趣表达特征。

2.2.1)GAT模块

转换层针对音频或视频对应的目标节点，确定与所述目标节点属于同一实体类型的同构邻居节点，利用第一特征提取层对所述同构邻居节点的属性信息、所述同构邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与同构邻居节点的第一关系表达特征；

转换层针对音频或视频对应的目标节点，确定与所述目标节点属于不同实体类型的异构邻居节点，利用第一特征提取层对所述异构邻居节点的属性信息、所述异构邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与异构邻居接的第二关系表达特征；

利用第二特征提取层，将所述第一关系表达特征和第二关系表达特征转换到同一向量空间，得到所述目标节点在所述知识图谱中与所述邻居节点的关系表达特征，具体为得到音频目标节点在知识图谱中与邻居节点关系表达的第一特征表示即视频目标节点在知识图谱中与邻居节点关系表达的第二特征表示。

由于不同类型的节点在特征层面和网络拓扑结构上存在很大的差异性，本发明实施例中采用GAT模块得到上述第一特征表示和第二特征表示，主要包括单曲GAT模块及视频GAT模块，单曲GAT模块和视频GAT模块的主要目标基于上述知识图谱丰富单曲、视频的内容表达，并通过Transformer图卷积函数学习到音频内容和视频内容的关联性。单曲GAT模块基于知识图谱，对目标音频节点抽取同构邻居、异构邻居，应用Transformer图卷积核函数进行信息汇聚，得到目标音频节点的在知识图谱中与邻居节点关系的第一关系表达特征和第二关系表达特征，视频GAT模块对目标视频节点抽取同构邻居、异构邻居，应用Transformer构图卷积核函数进行信息汇聚，得到目标视频节点在知识图谱中与邻居节点关系的第一关系表达特征和第二关系表达特征。

单曲GAT模块作为上述第一特征提取层，为了将所述第一关系表达特征和第二关系表达特征转换到同一向量空间，需要进一步利用第二特征提取层(图中未示出，具体参见图8)进行特征，得到音频/视频目标节点在所述知识图谱中与所述邻居节点的关系表达特征。

如图8所示为本发明实施例中的GAT模块结构示意图，GAT模块采用2层Transformer模块分别对同构邻居和异构邻居进行信息汇聚(对应属性信息、同构邻居节点连接所述目标节点的边对应的关联关系进行特征)，Transformer层的具体结构参见上述描述，这里不再重述。第一层Transformer分为两个部分，分别用于完成目标节点与同构一阶邻居节点的信息聚合，得到第一关系表达特征，及目标节点与异构邻居节点的信息聚合，得到第二关系表达特征。上述单曲GAT包括两个部分的Transformer，上述视频GAT为包括两个部分的Transformer，所述两个部分Transformer连接到第二层Transformer。第二层Transformer主要对同构聚合信息和异构聚合信息进一步进行特征提取，获取最终目标音频节点或目标视频节点在所述知识图谱中与所述邻居节点的关系表达特征。

作为一种可选的实施方式，对于单曲GAT模块，基于目标音频和知识图谱，将目标音频节点、目标音频节点的同构邻居、目标音频节点异构邻居作为单曲GAT的输入，对于视频GAT模块，基于目标音频和知识图谱，将目标视频节点、目标视频节点的同构邻居、目标视频节点的异构邻居作为视频GAT的输入。

上述同构邻居或异构邻居可以是设定调数内的邻居，作为一种可选的实施例，本实施例确定通过边与所述目标节点建立关联关系的邻居节点，包括：

确定所述知识图谱中在设定的跳数内，通过边与所述目标节点建立关联关系的邻居节点，所述跳数为从邻居节点出发连接到所述目标节点需要的边的数量。对于音频目标节点，具体确定设定跳数内的同构邻居节点和异构邻居节点，对于视频目标节点，确定设定跳数内的同构邻居节点和异构邻居节点。

2.3)正则化处理层

双层Transformer也可以理解为双层Self-Attention，利用上述转换层的双层Self-Attention得到音频目标节点的第一特征表示及视频目标节点的第二特征表示后，将第二特征表示和用户特征、用户兴趣表达特征联合处理得到第三特征表示，具体可以是对第二特征表示和用户特征、用户兴趣表达特征进行向量拼接。

本发明实施例在正则化处理层对第一特征表示和第三特征表示进行正则化处理，并确定第一特征表示和所述第三特征表示之间的相似度，正则化处理层采用双塔层结构，包括单曲双塔层和视频双塔层，及连接单曲双塔层和视频双塔层的激活函数(图中未示出)，将第一特征表示输入单曲双塔层，利用单曲双塔层对所述第一特征表示进行正则化处理；将第三特征表示输入视频双塔层，利用视频双塔层对所述第三特征表示进行正则化处理；确定正则化处理后的第一特征表示和所述第三特征表示之间的相似度。

利用sigmoid函数确定正则化处理后的所述第一特征表示和所述第三特征表示之间的相似度时，期望正样本(关系标签为1的训练样本)的第一特征表示和第三特征表示的距离更近，负样本反之，算法最终拟合函数定义为：

其中，nn定义为Sigmoid激活函数，Luv为第三特征表示，Ls为第一特征表示。

三层LeakyReLU在神经网络内部进行数据转换，可以防止梯度消失和梯度***，保证网络收敛的要求。

本发明实施例应用双层Self-Attention在图网络上卷积，获取目标音频、目标视频同一向量空间的表达，应用向量相似度计算视频-单曲关联性，加入用户行为序列特征，捕获用户行为意图，最终实现用户-单曲-视频的联合推荐。

2.4)输出层

为了同时兼顾音频和视频的匹配度和用户对音频、视频联合分发接受度两个目标，本发明实施例中输出层损失函数loss定义为有监督的CTRLoss和无监督的图节点表达相似性。

根据所述相似度及所述训练样本中的关系标签确定第一损失函数，即有监督的CTRLoss；

根据所述相似度及根据知识图谱拟合的第一特征表示和第三特征表示之间的相似度，确定第二损失函数即图节点表达相似性，其中，所述目标音频对应的目标节点和目标视频对应的目标节点的共享邻居节点的数量越多，拟合的相似度越大。图节点表达相似性可以理解为越临近节点表达越相似，例如目标节点与视频节点在知识图谱中越临近时，拟合的节点表达越相似，反正越远。

有监督的CTRLoss定义为：

其中，Yuvs为训练样本中的关系标签，

为模型预测标签。

图节点表达相似性定义为越临近节点表达越相似，具体Loss定义为：

其中H_i定义为训练样本三元组(u,v,s)的视频或音频，H_i为单曲/视频GAT模块输出目标节点对应的关系表达特征，Hj为目标节点与一阶同构邻居的关系表达特征，Hk为目标节点与知识图谱中对应的负采样节点的关系表达特征，负采样节点可以定义为与目标节点超过设定跳数的节点。

最终图神经网络的Loss为：

L＝Lctr+αL_{node_simlarity}+βW²

3)模型训练

基于上述方式搭建的图神经网络，在GPU环境进行模型训练，学习到最终的模型参数。如图9所示为具体的模型训练过程，具体过程如下：

获取训练样本集及构建的知识图谱，训练样本集中包括多个训练样本，训练样本包括用户信息、用户历史播放视频、目标音频、目标视频、表征所述目标音频和目标视频是否相关联的关系标签；

对基于上述方式搭建的图神经网络进行模型参数初始化；

判断是否满足训练结束条件，具体可以通过判断第一损失函数和第二损失函数的损失值是否满足要求或训练的样本数达到设定数量，确定是否满足训练结束条件；

若训练未结束时，将训练样本中的多个未参加训练的训练样本及知识图谱输入到图神经网络，具体可以采用从训练样本集中顺序截取设定数量个样本的方式输入到图神经网络；

从知识图谱中采用每个样本中目标音频/视频对应的目标节点的同构邻居节点及异构邻居节点输入到图神经网络，经图神经网络层的转换层、双塔层作上述处理后，到达输出层；

在输出层利用前向传播算法，计算样本中目标视频和目标音频的关联概率，然后利用反向传播算法计算第一损失函数和第二损失函数，再根据第一损失函数和第二损失函数的损失值，计算图神经网络参数的梯度并更新参数。

满足训练结束条件后得到音频可视化模型，结束训练。

为保证及时捕获用户兴趣偏好，知识图谱可以按照设定时间间隔进行更新，则可以触发离线训练模型也进行更新。

音频可视化模型离线训练完成后，可进入音频/视频推荐阶段进行在线推荐。如图6所示，推荐模块的主要功能用于模型预测和推荐分发，实现在线环境完成用户偏好视频-视频匹配关系的计算与分发。本发明实施例提供一种音频可视化方法，如图10所示，该方法包括：

步骤1001，响应于音视频搭配请求，获取用户信息、候选音频和候选视频；

针对每个单曲音频，可以抽取一定数量如60个视频作为该用户在该单曲音频下的视频侯选集。

步骤1002，将所述用户信息、候选音频和候选视频输入训练得到的音频可视化模型；

步骤1003，利用所述音频可视化模型对所述候选音频进行特征提取，得到所述候选音频的第一特征表示；

步骤1004，利用所述音频可视化模型对所述用户信息进行特征提取得到用户特征，对所述候选视频进行特征提取得到第二特征表示，将所述用户特征和第二特征表示联合得到第三特征表示；

步骤1005，确定所述第一特征表示和所述第三特征表示之间的相似度，并根据所述相似度预测各候选音频与各候选视频是否相关联的概率；

可以针对一个单曲视频，根据该单曲视频与各候选视频是否相关联的概率，对候选视频进行打分并排序，其中关联的概率值越高，打分越高。

步骤1006，根据确定的各候选音频与各候选视频是否相关联的概率，选择概率值大于预设值对应的候选音频和候选视频进行联合播放。

具体可以选择打分最高的候选视频作为单曲音频的并挑选排在最前面的单曲作为最终的背景音乐。由于用户听歌偏好不一样，不同的用户对同一视频进行个性化的背景音乐。

音乐可视化是一种复杂的跨模态交互，相关技术主要通过建立视频类型标签与单曲风格映射规则，挑选背景音乐，忽略了视频、单曲在更丰富属性的关联性。本发明实施例提供的音频可视化方法相比现有技术更加复杂，构建了融合音频、视频等丰富内容信息的复杂知识图谱，充分考虑了视频、单曲在更丰富属性的关联性，并利用深度学习技术解决单曲-视频背景音乐匹配问题，技术中加入用户基础特征和用户序列特征，综合考虑用户听歌喜好，结合多媒体领域的音频特征识别、语音处理等技术完成音乐特征的提取，对现有无BGM(Background music，背景音乐)视频进行内容理解，根据音乐、视频表达的内容、情绪、节奏，构建用户、视频、单曲多介质跨领域学习模型，实现了多模态资源的高效个性化分发，不仅满足了用户和可视化音乐的情感互动需求，而且实现了亿万级别用户个性化匹配。

相关技术对视频背景音乐的自动搭配主要通过学习其他带背景音乐的相同类型视频的匹配模式，对于新类型的视频则束手无策，无法进行有效的迁移学习。本发明实施例主要学习单曲和视频在风格、节奏、主题、心情等多维属性的复杂匹配函数，对任意新单曲、新视频都可以进行很好的自动搭配，大大节省了人力成本，降低视频背景音乐的制作门槛，并大幅提升了工作效率。

示例性设备

在介绍了本发明示例性实施方式的方式之后，接下来，参考图11对本发明示例性实施方式的库存供应链管理装置。

如图11所示，基于相同的发明构思，本发明实施例还提供了一种音频可视化模型训练装置，该装置包括：

样本获取模块1101，用于获取训练样本，所述训练样本包括用户信息、用户历史播放视频、目标音频、目标视频、表征所述目标音频和目标视频是否相关联的关系标签；

第一特征提取模块1102，用于将所述训练样本输入音频可视化模型，对所述目标音频进行特征提取，得到所述目标音频的第一特征表示；

第三特征提取模块1103，用于对所述用户信息、用户历史播放视频与目标视频的关系进行特征提取得到用户特征、用户兴趣表达特征，对所述目标视频进行特征提取得到第二特征表示，将所述用户特征、所述用户兴趣表达特征和所述第二特征表示联合处理得到第三特征表示；

相似度确定模块1104，用于确定所述第一特征表示和所述第三特征表示之间的相似度；

参数更新模块1105，用于根据所述相似度及所述训练样本中的关系标签，更新所述音频可视化模型的参数。

作为一种可选的实施方式，该装置还包括：

知识图谱构建模块，用于采用如下方式构建所述知识图谱：

作为一种可选的实施方式，该装置还包括：

如图12所示，基于相同的发明构思，本发明实施例还提供了一种音频可视化装置，该装置包括：

信息获取模块1201，用于响应于音视频搭配请求，获取用户信息、候选音频和候选视频；

模型输入模块1202，用于将所述用户信息、候选音频和候选视频输入上述实施例1所述方法训练得到的音频可视化模型；

第一特征提取模块1203，用于利用所述音频可视化模型对所述候选音频进行特征提取，得到所述候选音频的第一特征表示；

第三特征提取模块1204，用于利用所述音频可视化模型对所述用户信息进行特征提取得到用户特征，对所述候选视频进行特征提取得到第二特征表示，将所述用户特征和第二特征表示联合得到第三特征表示；

概率确定模块1205，用于确定所述第一特征表示和所述第三特征表示之间的相似度，并根据所述相似度预测各候选音频与各候选视频是否相关联的概率；

音视频搭配模块1206，用于根据确定的各候选音频与各候选视频是否相关联的概率，选择概率值大于预设值对应的候选音频和候选视频进行联合播放。

下面参照图13来描述根据本发明的这种实施方式的音频可视化模型训练设备130。图13显示的音频可视化模型训练设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示，音频可视化模型训练设备130可以以通用计算设备的形式表现，例如其可以为终端设备。音频可视化模型训练设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同***组件(包括存储器132和处理器131)的总线133。处理器被配置为执行所述指令，以实现上述示例性方法所述的音频可视化方法。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。存储器用于存储处理器可执行指令，处理器被配置为执行所述指令，以实现上述实施例中的音频可视化模型训练方法。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

音频可视化模型训练设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与音频可视化模型训练设备130交互的设备通信，和/或与使得音频可视化模型训练设备130能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，音频可视化模型训练设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图13所示，网络适配器136通过总线133与音频可视化模型训练设备130的其它模块通信。应当明白，尽管图中未示出，可以结合音频可视化模型训练设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

下面参照图14来描述根据本发明的这种实施方式的音频可视化设备150。图14显示的音频可视化设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，音频可视化设备140可以以通用计算设备的形式表现，例如其可以为终端设备。音频可视化设备140的组件可以包括但不限于：上述至少一个处理器141、上述至少一个存储器142、连接不同***组件(包括存储器142和处理器141)的总线143。存储器用于存储处理器可执行指令，处理器被配置为执行所述指令，以实现上述实施例中的音频可视化方法。

总线143表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器142可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1421和/或高速缓存存储器1422，还可以进一步包括只读存储器(ROM)1423。

存储器142还可以包括具有一组(至少一个)程序模块1424的程序/实用工具1425，这样的程序模块1424包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

音频可视化设备140也可以与一个或多个外部设备144(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与音频可视化设备140交互的设备通信，和/或与使得音频可视化设备140能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口145进行。并且，音频可视化模型训练设备140还可以通过网络适配器146与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图14所示，网络适配器146通过总线143与音频可视化设备140的其它模块通信。应当明白，尽管图中未示出，可以结合音频可视化设备140使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

示例性程序产品

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的音频可视化模型训练方法的步骤，或者，执行本发明各种示例性实施方式的音频可视化方法的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图15所示，描述了根据本发明的实施方式的用于音频可视化模型训练或音频可视化的程序产品150，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了***的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明***各模块的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些操作，将多个操作合并为一个操作执行，和/或将一个操作分解为多个操作执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音频可视化模型训练方法，其特征在于，该方法包括：

确定所述第一特征表示和所述第三特征表示之间的相似度；

2.根据权利要求1所述的方法，其特征在于，所述训练样本还包括知识图谱；对目标音频/目标视频进行特征提取，包括：

3.根据权利要求2所述的方法，其特征在于，采用如下方式构建所述知识图谱：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求2所述的方法，其特征在于，对所述邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征，包括：

6.根据权利要求1或2所述的方法，其特征在于，确定所述第一特征表示和所述第三特征表示之间的相似度，包括：

将所述第三特征表示输入视频双塔层，利用视频双塔层对所述第三特征表示进行正则处理；

7.根据权利要求6所述的方法，其特征在于，确定所述第一特征表示和所述第三特征表示之间的相似度，包括：

8.根据权利要求1或2所述的方法，其特征在于，根据所述相似度及训练样本中的关系标签，更新所述音频可视化模型的参数，包括：

9.根据权利要求2所述的方法，其特征在于，确定通过边与所述目标节点建立关联关系的邻居节点，包括：

10.根据权利要求1或2所述的方法，其特征在于，获取训练样本中的关系标签，包括：

11.根据权利要求1或2所述的方法，其特征在于，将所述训练样本输入音频可视化模型之前，还包括：

12.一种音频可视化方法，其特征在于，所述方法包括：

将所述用户信息、候选音频和候选视频输入权利要求1至11中任一项所述方法训练得到的音频可视化模型；

13.一种音频可视化模型训练装置，其特征在于，该装置包括：

14.根据权利要求13所述的装置，其特征在于，所述训练样本还包括知识图谱；第一特征提取模块对目标音频进行特征提取/第三特征提取模块对目标视频进行特征提取，包括：

15.根据权利要求14所述的装置，其特征在于，还包括：

知识图谱构建模块，用于采用如下方式构建所述知识图谱：

16.根据权利要求15所述的装置，其特征在于，还包括：

17.根据权利要求14所述的装置，其特征在于，所述第一特征提取模块/第三特征提取模块对所述邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取，得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征，包括：

18.根据权利要求13或14所述的装置，其特征在于，所述相似度确定模块确定所述第一特征表示和所述第三特征表示之间的相似度，包括：

19.根据权利要求18所述的装置，其特征在于，所述相似度确定模块确定所述第一特征表示和所述第三特征表示之间的相似度，包括：

20.根据权利要求13或14所述的装置，其特征在于，所述参数更新模块根据所述相似度及训练样本中的关系标签，更新所述音频可视化模型的参数，包括：

21.根据权利要求14所述的装置，其特征在于，所述第一特征提取模块/第三特征提取模块确定通过边与所述目标节点建立关联关系的邻居节点，包括：

22.根据权利要求13或14所述的装置，其特征在于，所述样本获取模块获取训练样本中的关系标签，包括：

23.根据权利要求13或14所述的装置，其特征在于，还包括：

24.一种音频可视化装置，其特征在于，所述装置包括：

模型输入模块，用于将所述用户信息、候选音频和候选视频输入权利要求1至11中任一项所述方法训练得到的音频可视化模型；

25.一种音频可视化模型训练设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至11中任一项所述的音频可视化模型训练方法。

26.一种音频可视化设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求12所述的音频可视化方法。

27.一种存储介质，其特征在于，当所述存储介质中的指令由库存供应链管理设备的处理器执行时，使得库存供应链管理设备能够执行如权利要求1至11中任一项所述的音频可视化模型训练方法，或者执行如权利要求12所述的音频可视化方法。