CN111382309A

CN111382309A - 一种基于图模型的短视频推荐方法、和智能终端和存储介质

Info

Publication number: CN111382309A
Application number: CN202010161605.4A
Authority: CN
Inventors: 王娜; 刘兑
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-07
Anticipated expiration: 2040-03-10
Also published as: CN111382309B; WO2021179640A1

Abstract

本发明公开了一种基于图模型的短视频推荐方法、和智能终端和存储介质，所述方法包括：根据用户对短视频的交互行为，构造用户和短视频对应关系的二部图；聚合层通过聚合目标顶点的邻域信息输出目标顶点自身的高阶表示向量；整合层将目标节点信息与邻域信息进行整合；融合层对目标顶点多个模态信息进行融合；输出层计算用户向量与短视频向量之间的相似程度，预测用户对短视频产生交互行为的概率，并为用户进行短视频推荐。本发明通过对短视频的不同模态分别构建二部图以及相应的图卷积网络，学习用户和短视频顶点在不同模态下的向量表征，达到对用户进行细粒度个性化推荐的目的。

Description

一种基于图模型的短视频推荐方法、和智能终端和存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于图模型的短视频推荐方法、智能终端及存储介质。

背景技术

在信息时代背景下，面对日渐增多的互联网信息，个性化推荐作为连接服务提供商和用户之间的桥梁，让企业有效地从海量信息中挖掘出有用信息并加以利用，能发掘用户的兴趣偏好，改善用户体验，增加用户粘性，进而提升收益；而对于用户，能让他们在平台海量的信息库中快速找到自己感兴趣的目标物。个性化推荐已经成为许多在线内容分享服务的核心组件，如图片、博客和音乐推荐。例如最近兴起的短视频分享平台快手和抖音，使得短视频推荐方法更加引人关注。与图像，音乐等单一模态的媒体内容不同的是，短视频包含了丰富的多媒体信息-视频封面图片、视频背景音乐以及视频的文字描述，组成了视觉、听觉和文本多个模态的内容，将这些多模态信息融入到用户与短视频的历史交互行为中，为更深一步捕捉用户偏好提供了帮助。

传统的用于短视频的推荐算法一般有基于协同过滤方法(CollaborativeFiltering，CF)和基于图卷积网络方法(Graph Convolutional Network，GCN)方法。

其中，基于协同过滤方法的思想大概可分为两种，均利用“用户—视频”的历史交互行为，构建“用户—视频”的交互矩阵，为目标用户推荐其相似用户喜欢的物品(基于用户的协同过滤)或者为目标用户推荐其偏好物品的相似物品(基于物品的协同过滤)。基于协同过滤的模型可以充分利用用户的显式反馈信息(点赞、关注、评论等)和隐式反馈信息(用户浏览记录、停留时长等)来预测用户与物品之间的交互，但容易受制于数据的稀疏性，导致推荐结果存在一定的局限性。如对于数据显式反馈不足，用户反馈较少的情况，推荐算法难以学习到有意义的用户偏好信息；使用隐式反馈也容易给推荐***带来“短视”的问题，即给用户推荐列表大多为头部的热门物品，牺牲了推荐的个性化与多样性。基于协同过滤的方法虽然简单快速，但只能利用用户与短视频的交互行为，而无法利用短视频丰富的多模态信息。

基于图卷积网络方法用于推荐一般根据用户对物品的交互行为构造“用户-视频”二部图(bipartite graph)，在二部图中聚合目标节点邻域集合的属性信息作为节点自身的高阶表示，进行节点之间的信息传递，最终完成对用户节点和视频节点的表示向量的学习，通过计算用户向量与视频向量的相似性，预测用户对短视频产生交互行为的概率。基于图卷积网络的方法相比协同过滤方法，将用户交互序列这种非欧式结构的行为数据转化成二部图结构加以利用，并通过节点邻域聚合的方法，实现短视频的属性信息在图中节点之间的传递。但目前提出的基于图卷积网络的方法一般将短视频节点的多模态属性信息拼接作为整体进行计算传递，缺乏考虑不同模态信息之间的语义鸿沟(semantic gap)，即模态之间包含信息的差异性，存在对用户和短视频的表示学习不够细粒化的问题

基于协同过滤方法和基于图卷积网络方法都利用了用户与视频(物品)的历史交互行为，不过形式不同：前者将其用于构造“用户-视频”交互矩阵；后者将其转化为“用户-视频”二部图。协同过滤构造的交互矩阵只能利用交互行为信息(如只能理解“用户A点击了视频1”)，无法利用视频的属性信息(如视频的视觉、文本、听觉等多模态信息)；而图卷积网络相当于是协同过滤的改进，能利用视频的属性信息学习用户和视频的表示向量，但一般将视频的多模态信息当作整体输入到模型进行学习，没有将其按模态不同分开建模。

现有的基于协同过滤方法和基于图卷积网络方法存在的共同问题是：都没有从模态层面进行用户与短视频的表示学习，无法衡量模态差异对用户偏好的影响。

因此，现有技术还有待于改进和发展。

发明内容

本发明针对现有技术中没有从模态层面进行用户与短视频的表示学习，无法衡量模态差异对用户偏好的影响，本发明提供一种基于图模型的短视频推荐方法、智能终端及存储介质。

本发明解决技术问题所采用的技术方案如下：

一种基于图模型的短视频推荐方法，其中，所述基于图模型的短视频推荐方法包括：

根据用户对短视频的交互行为，构造用户和短视频对应关系的二部图；

聚合层通过聚合目标顶点的邻域信息输出目标顶点自身的高阶表示向量；

整合层将目标节点信息与邻域信息进行整合；

融合层对目标顶点多个模态信息进行融合；

输出层计算用户向量与短视频向量之间的相似程度，预测用户对短视频产生交互行为的概率，并为用户进行短视频推荐。

所述的基于图模型的短视频推荐方法，其中，所述交互行为定义为用户完整观看一部短视频或者对所观看的短视频进行点赞操作。

所述的基于图模型的短视频推荐方法，其中，所述根据用户对短视频的交互行为，构造用户和短视频对应关系的二部图，还包括：

构造模态层级的用户与短视频对应关系的二部图。

所述的基于图模型的短视频推荐方法，其中，所述短视频包括视觉模态信息、文本模态信息和听觉模态信息；

所述视觉模态信息以视频封面图片经过卷积神经网络输出为128维的向量作为表征；

所述文本模态信息以视频标题文字经过分词和自然语言处理模型向量化输出为128维的向量作为表征；

所述听觉模态信息以背景音乐和人物讲话声经过截断并经过卷积神经网络后输出为128维的向量作为表征。

所述的基于图模型的短视频推荐方法，其中，所述聚合层用于对目标顶点的邻域信息进行聚合，得到表征目标邻域的向量，每次聚合操作由邻域聚合和非线性处理组成。

所述的基于图模型的短视频推荐方法，其中，所述邻域聚合为：对目标顶点的邻域通过聚合函数进行聚合操作；

所述非线性处理为：由邻域聚合操作得到目标顶点的一阶和二阶邻域信息，通过将目标顶点原始信息与其邻域信息进行拼接，输入到单层神经网络中获取目标顶点的高阶特征。

所述的基于图模型的短视频推荐方法，其中，所述聚合函数的构造方式包括：平均聚合、最大池化聚合和注意力机制聚合。

所述的基于图模型的短视频推荐方法，其中，所述整合层用于对同一模态下不同来源的输入信息进行整合，以及将特定模态下目标顶点的低阶信息和高阶信息进行整合，得到用户顶点和短视频顶点在不同模态下的表示向量；

所述融合层用于将用户顶点和短视频顶点的多个模态表示向量进行融合。

一种智能终端，其中，所述智能终端包括如上所述的基于图模型的短视频推荐***，还包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于图模型的短视频推荐程序，所述基于图模型的短视频推荐程序被所述处理器执行时实现如上所述的基于图模型的短视频推荐方法的步骤。

一种存储介质，其中，所述存储介质存储有基于图模型的短视频推荐程序，所述基于图模型的短视频推荐程序被处理器执行时实现如上所述基于图模型的短视频推荐方法的步骤。

本发明根据用户对短视频的交互行为，构造用户和短视频对应关系的二部图；聚合层通过聚合目标顶点的邻域信息输出目标顶点自身的高阶表示向量；整合层将目标节点信息与邻域信息进行整合；融合层对目标顶点多个模态信息进行融合；输出层计算用户向量与短视频向量之间的相似程度，预测用户对短视频产生交互行为的概率，并为用户进行短视频推荐。本发明通过对短视频的不同模态分别构建二部图以及相应的图卷积网络，学习用户和短视频顶点在不同模态下的向量表征，达到对用户进行细粒度个性化推荐的目的。

附图说明

图1是本发明基于图模型的短视频推荐方法的较佳实施例的流程图；

图2是本发明基于图模型的短视频推荐方法的较佳实施例中整体框架原理示意图；

图3是本发明基于图模型的短视频推荐方法的较佳实施例中二部图模型的示意图；

图4是本发明基于图模型的短视频推荐方法的较佳实施例中根据用户交互行为构建“用户-短视频”交互二部图的示意图；

图5是本发明基于图模型的短视频推荐方法的较佳实施例中模态层级“用户-短视频”二部图的示意图；

图6是本发明基于图模型的短视频推荐方法的较佳实施例中聚合层的示意图；

图7为本发明智能终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明较佳实施例所述的基于图模型的短视频推荐方法，如图1所示，一种基于图模型的短视频推荐方法，其中，所述基于图模型的短视频推荐方法包括以下步骤：

步骤S10、根据用户对短视频的交互行为，构造用户和短视频对应关系的二部图；

步骤S20、聚合层通过聚合目标顶点的邻域信息输出目标顶点自身的高阶表示向量；

步骤S30、整合层将目标节点信息与邻域信息进行整合；

步骤S40、融合层对目标顶点多个模态信息进行融合；

步骤S50、输出层计算用户向量与短视频向量之间的相似程度，预测用户对短视频产生交互行为的概率，并为用户进行短视频推荐。

如图2所示，本发明中基于图模型的短视频推荐方法的框架由二部图(用户-短视频)、聚合层、整合层、融合层和输出层构成。

其中，二部图是图论中的一种特殊模型，如图3所示，假设图G＝(V，E)是由顶点集合V和边集合E构成，顶点集合V可以分割为两个互不相交的子集{A，B}，并且图中的任意一条边e_ij所连接的两个顶点i和j分别属于这两个不同的顶点集(i∈A，j∈B)，则图G为一个二部图，顶点i和j互为一阶邻居。

根据用户的历史交互行为能体现用户的兴趣偏好，构造“用户-短视频”二部图，在“用户-短视频”二部图中，顶点分为用户顶点集合和短视频顶点集合两个子集，如果用户对某个短视频有过交互行为(如完整观看视频、点赞)，则在“用户-短视频”二部图中用户顶点与该短视频顶点存在直接相连的边。用户的交互历史短视频顶点集合为该用户顶点的一阶邻域集合，其中每个短视频顶点都包含了短视频的属性信息。为了衡量短视频不同模态的属性信息(如视频封面图片、标题和背景音乐)对用户偏好的影响程度，本发明针对短视频的不同模态(如视觉、文本和听觉)构造相应的“用户-短视频”二部图，不同的模态二部图拓扑结构相同，顶点包含对应模态下的属性信息。

其中，邻域是邻居顶点的集合，某顶点的邻居简单说就是与其直接相连的顶点，邻域就是与其直接相连的所有顶点的集合，一阶邻域指的是一阶邻居顶点的集合；因为池化聚合是在某一个邻域中，对每一个邻居顶点进行计算，所以是衡量不同邻居对目标顶点的影响程度。

遵循图卷积网络“聚合/整合/读出”的结构思想，本发明设计的聚合层作用为聚合目标顶点的邻域信息输出目标顶点自身的高阶表示向量；整合层进行目标节点信息与邻域信息的整合，融合层实现对目标顶点多个模态信息的融合，学习包含不同聚合层级信息的用户和短视频向量表征，体现短视频不同模态包含信息的差异性；输出层计算用户向量与短视频向量之间的相似程度，预测用户对短视频产生交互行为的概率，为用户产生推荐。

具体地，根据用户对短视频的交互行为构建“用户-短视频”二部图，交互行为定义为用户完整观看一部短视频或者对该短视频进行点赞，用户交互过的短视频序列，形如用户1[视频1，视频2，...，视频n]，如图4所示，将用户与短视频对应为图顶点，用户与交互过的短视频顶点之间存在直连边，构建“用户-短视频”交互二部图。

继续构造模态层级的“用户-短视频”二部图，每一种信息的来源或者形式，都可以称为一种模态，人可以通过视觉、听觉、嗅觉和触觉接收信息，信息可以通过图像、文字、语音等形式传递。短视频包括视觉模态信息、文本模态信息和听觉模态信息三种模态信息，每种模态包含的信息以固定维度的向量表示：如所述视觉模态信息以视频封面图片经过卷积神经网络输出为128维的向量作为表征；所述文本模态信息以视频标题文字经过分词和自然语言处理模型向量化输出为128维的向量作为表征；所述听觉模态信息以背景音乐和人物讲话声经过截断并经过卷积神经网络后输出为128维的向量作为表征。如图5所示，将顶点按照

不同模态种类进行区分，其中

为模态种类的集合，V为视觉模态，T为文本模态，A为听觉模态。构造模态层级的“用户-短视频”二部图

二部图中的短视频顶点属性信息为短视频对应模态信息，不同模态图中顶点之间距离远近代表顶点模态之间信息的差异。

进一步地，如图6所示，根据推荐***中“用户的历史交互行为能体现用户的兴趣偏好”的思想，本发明采用在每个模态的二部图上构造两层结构的GCN(GraphConvolutional Network，图卷积网络)，对顶点进行两级(一阶、二阶邻域聚合)聚合操作(Bi-level Aggregation)；图6为聚合操作不同展示角度的示意图。聚合层的作用在于对目标顶点的邻域信息进行聚合，得到表征目标邻域的向量，每次聚合操作由邻域聚合和非线性处理两部分组成。

其中，邻域聚合：对于模态m下目标顶点v的k阶邻域

通过聚合函数f_agg(·)进行聚合操作：

其中，l为GCN的层数，顶点u为目标顶点v的k阶邻域

中的顶点，

为顶点u在模态m下处于第l层的表示向量，当l＝0时，其表示为顶点在特定模态下的原始属性特征x_m，v，

为目标顶点v的k阶邻域聚合信息。

其中，非线性处理：由邻域聚合操作得到目标顶点的一阶和二阶邻域信息，通过将目标顶点原始信息与其邻域信息进行拼接，输入到单层神经网络中获取目标顶点的高阶特征：

其中，W^l为神经网络参数矩阵，

为顶点v在模态m下处于第l层的表示向量，

和

分别为目标顶点v的一阶和二阶邻域表示向量，[·，·]为向量拼接操作，σ(·)＝max(0，·)为ReLU函数，起到对向量进行非线性转换的作用，

为顶点v模态m下在GCN第l层的聚合层输出向量，代表顶点v在模态m下的高阶表示信息。

由于在“用户-短视频”二部图中，顶点的邻居是无序的，不存在实际意义的先后顺序。因此希望构造出的聚合函数f_agg(·)是具有置换不变性(permutation invariant)的，即聚合函数的输出结果不受输入顶点的邻居顺序的改变而改变，且能有效捕捉邻居顶点信息。本发明通过以下三种方式构造聚合函数：

(1)平均聚合：聚合邻居信息最简单直观的方法是选取模态m下目标顶点v的k阶邻域

中的顶点u，并将其处于GCN第l层的表示向量

按元素(element-wise)进行平均操作：

为顶点v在模态m下的k阶邻域表示向量，其中

表示顶点v的k阶邻域邻居数量。

在目标顶点邻接矩阵中引入自连接，保留目标顶点信息的思想后，对聚合函数进行改造：

改造之后的聚合函数相当于将目标顶点自身特征融入到邻域特征中，在后续的非线性处理中直接以邻域特征作为单层网络的输入，可以避免由于拼接操作引入的噪声，同时降低计算复杂度。对应的聚合层输出为：

(2)最大池化聚合：池化操作通常是用于深度神经网络中，对网络层传入信息进行抽取和压缩的作用。本发明在GCN的单层网络结构中引入最大池化的聚合操作：

其中，W_pool为池化参数矩阵，b为偏置。

由于深度神经网络能提取输入信息的高阶特征，信息在网络中传输相当于被编码成多个通道的特征。为了能直观地衡量不同邻居对目标顶点地影响程度，本发明对目标顶点邻居集合的特征按元素进行最大池化操作，在特定特征维度下表现最为显著的邻居顶点对目标顶点该维度下的影响程度最大。相比于平均聚合，最大池化聚合能在特征维度下更有效地区分不同邻居对输出的贡献程度。

(3)注意力机制聚合：为了更加简洁有效地对顶点邻域信息进行聚合，本发明通过逐顶点(node-wise)的方式在图顶点之间引入注意力分数，衡量目标顶点与邻居顶点的相似程度。假设顶点i为顶点v的邻居，两者之间相似度sim_v，i定义为：

其中，W作为前向神经网络中的参数矩阵，W_v和W_i分别为顶点v和i在前向传播神经网络中对应的参数矩阵，与顶点的表示向量相乘用于扩充顶点的特征维度，函数a(·，·)将拼接后的高维向量特征映射到实数域中，

和

分别为顶点v的一阶邻域和二阶邻域。

将顶点v和i之间的相似度sim_v，i作为LeakyReLU函数(激活函数)：

的输入进行非线性转换，x表示输入项，并将得到的向量(x)输入到softmax公式：

中进行归一化，将结果的值约束到区间

[0，1]，得到顶点v和i之间的注意力分数α_v，i：

对目标顶点v进行逐邻居聚合：

其中，W与计算相似度公式中的W是相同的。

为了使聚合结果更加合理(健壮)，本发明将多头注意力机制引入到聚合操作，设置注意力多头个数为P：

其中，

为在第p个注意力空间中目标顶点v与其k阶邻域中的邻居顶点u之间的注意力分数，

为多头注意力平均操作。

对聚合层的优化：在聚合层中，如果不对目标顶点的邻居数量作出限制，其最坏情况下对应的复杂度为：

其中，

为“用户-短视频”二部图中所有顶点的集合，

为所有顶点的数量，

和

分别为顶点v的一阶和二阶邻居数量。当使用注意力聚合时，需要进行P次邻域聚合，所以计算复杂度需要乘以P。由于不同目标顶点对应的邻居数目不一致，无法输入到模型中，为了均衡计算复杂度和准确性，在本发明中根据实践结果，设置目标顶点的一阶邻居取值

二阶邻居取值

多头注意力数量P＝3。对于目标顶点邻居数少于设定值的，通过重复采样补齐数目；邻居数量多于设定值的，如果聚合方法为平均或最大池化，则随机选择设定值数量的邻居，如聚合方法为注意力机制，则优先选择注意力分数较大的邻居顶点。

进一步地，在聚合层中，顶点自身包含的信息通过GCN在两个层级的邻居顶点之间传播进行高阶交互。然而之前用于推荐的GCN类模型将推荐物品的属性信息和对应图顶点的结构信息作为同质化信息，以整体输入模型中，忽视了物品不同来源信息对表示学习过程的影响。对此，本发明设计整合层对同一模态下不同来源的输入信息进行整合：

其中，f_merge(·)为整合函数，整合层的输出H_m，v顶点v在模态m下的表示向量，其中

(

代表是在实数域R，维度为dm)为模态m下顶点v经过聚合层的输出，代表顶点的高阶聚合信息，X_m，v为顶点在模态m包含的原始信息，可视为第零阶信息，h_υ，id为在“用户-短视频”二部图通过图嵌入方法得到的顶点v的嵌入向量，可以等效为顶点结构信息的表示向量。整合层在模型中的功能是将特定模态下目标顶点的低阶信息(自身属性信息)和高阶信息(邻域信息)进行整合，本发明通过设计两种整合函数用于顶点信息的整合：

(1)阶层整合：将顶点的原始信息和ID嵌入信息定义为顶点的低阶信息，将两者按元素拼接再通过一层前馈神经网络生成的向量定义为包含顶点结构与内容信息的低阶表示：

h_m，v，low＝LeakyReLU(W_merge[x_m，v，h_id]+b)；

其中，W_merge为整合层单层神经网络的参数矩阵，b为偏置，顶点的低阶表示h_m，v，low与顶点的高阶信息h_m，v进行拼接作为整合层的输出：

H_m，v＝[h_m，u，low，h_m，v]。

(2)外积整合：本发明将顶点在特定模态下信息分为内容信息(contentinformation)和结构信息(structural information)两类，并通过外积的方法对两类信息的向量进行交叉，最后经过一层前馈神经网络输出：

其中，

为内容信息，

为结构信息，

为整合层学习的参数矩阵，

为偏置。

进一步地，通过整合层对顶点在特定模态下的不同来源数据进行整合，得到用户顶点和短视频顶点在不同模态下的表示向量。将顶点(用户顶点和短视频顶点)的多个模态表示向量进行融合：

其中，

和

分别代表“用户-短视频”二部图中用户顶点的集合和短视频顶点的集合。对于用户顶点u，其在融合层的输出z_u由处在视觉、文本和听觉，也即V，T，A三种模态下的整合层输出向量H_V，u，H_T，u和H_A，u进行拼接得到；同理对于短视频顶点i，它在融合层的输出z_i由三种模态下的整合层输出向量H_V，i，H_T，i和H_A，i拼接得到。

为了进行更细化的用户向量建模，使在“用户-短视频”二部图中相近的顶点的表示更为相似，互相分离的顶点表示更具有区分性。在本发明融合层中使用负采样(negativesampling)的方法进行无监督优化。定义“用户-短视频”二部图中与用户顶点u有直接相连边的短视频顶点i_p为正样本；负样本定义为“用户-短视频”二部图中度数较高，且目标用户顶点没有直连边的短视频顶点i_n。原因是短视频顶点的度数高代表被交互次数多，可视为热门物品，一般认为热门物品而用户没有行为更加代表用户对该物品不感兴趣。经过实验，为了保持正负样本的数量平衡，设置正样本与负样本数量均为Q＝20个，数量比为1∶1，负样本从顶点度数数量的前15％中随机选取，并设计损失函数进行优化：

其中，

为sigmoid函数，

表示与用户u存在交互行为的短视频顶点i_p构成的“用户-短视频”对，

表示短视频顶点i_n未与用户顶点u发生交互行为，被选定为负样本。

进一步地，将优化后的用户向量z_u与待推断的短视频向量z_i进行内积，输出得到用户对短视频产生交互行为的概率p(Interact)：

其中，

代表短视频i未被用户u交互过。

技术效果：

(1)通过构建模态层级的“用户-短视频”二部图进行顶点的表示学习。由于在多模态数据中模态之间存在“语义鸿沟”的问题，现有的图卷积网络应用于推荐的方法均难以区分不同模态包含信息的差异性，对其分别建模。本发明通过对短视频的不同模态分别构建二部图以及相应的图卷积网络，学习用户和短视频顶点在不同模态下的向量表征，达到对用户进行细粒度个性化推荐的目的。

(2)在聚合层中对顶点(用户顶点和短视频顶点)进行两级聚合操作(Bi-levelaggregation)量化顶点邻居的影响力，建模顶点的高阶表示。随着GCN层数增加，高阶邻居的信息传递效率会逐步递减，高阶邻居顶点信息在传递过程中容易出现梯度消失的问题，难以作用于目标顶点的表示学习中。由卷积神经网络中使用跳接(skip-connect)增加信息传递通路，抑制梯度消失做法的启发。本发明在图中目标顶点与其二阶邻居之间进行第二层级的聚合操作，增强目标顶点的二阶邻居信息在目标顶点表示学习中的作用，保持高阶邻居信息传递的完整性。

(3)在聚合层中引入多头注意力机制的思想构造聚合函数。相比于现有图卷积网络常用的平均聚合(Mean aggregation)和最大池化聚合(Maxpool aggregation)方法，本发明基于注意力机制的方法在聚合的过程中以顶点之间的注意力分数作为度量，考虑顶点特征之间的相关性约束，起到筛选去除无关邻居信息，增强相关邻居对目标顶点影响的作用；引入多头注意力机制，相当于对多个注意力聚合操作进行集成学习(ensemble)，使学习得到的顶点表达向量更加健壮。

(4)在整合层对顶点的内容向量和结构向量进行外积操作。在本发明中，将图嵌入方法应用于二部图学***面空间，并通过一层前馈神经网络转化成包含两者信息的一维向量输出H_m，v∈R^d，达到整合目标顶点不同来源信息的目的。

本发明通过构建模态层级的“用户-短视频”二部图进行顶点的表示学习，其他可替代的变形方案可通过构建模态层级的单一类型顶点图如“用户-用户”、“短视频-短视频”等形式，使用图卷积网络对用户或者短视频顶点进行表示学习。本发明在聚合层中对顶点(用户顶点和短视频顶点)进行两级(一阶和二阶)聚合操作量化顶点邻居的影响力，建模顶点的高阶表示；变形方案可通过对顶点(用户顶点和短视频顶点)的高阶(三阶或以上)聚合进行表示学习。

进一步地，如图7所示，基于上述基于图模型的短视频推荐方法，本发明还相应提供了一种智能终端，所述智能终端包括处理器10、存储器20及显示器30。图7仅示出了智能终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能终端的内部存储单元，例如智能终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述智能终端的外部存储设备，例如所述智能终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述智能终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能终端的应用软件及各类数据，例如所述安装智能终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有基于图模型的短视频推荐程序40，该基于图模型的短视频推荐程序40可被处理器10所执行，从而实现本申请中基于图模型的短视频推荐方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于图模型的短视频推荐方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述智能终端的信息以及用于显示可视化的用户界面。所述智能终端的部件10-30通过***总线相互通信。

在一实施例中，当处理器10执行所述存储器20中基于图模型的短视频推荐程序40时实现以下步骤：

整合层将目标节点信息与邻域信息进行整合；

融合层对目标顶点多个模态信息进行融合；

所述交互行为定义为用户完整观看一部短视频或者对所观看的短视频进行点赞操作。

所述根据用户对短视频的交互行为，构造用户和短视频对应关系的二部图，还包括：

构造模态层级的用户与短视频对应关系的二部图。

所述短视频包括视觉模态信息、文本模态信息和听觉模态信息；

所述聚合层用于对目标顶点的邻域信息进行聚合，得到表征目标邻域的向量，每次聚合操作由邻域聚合和非线性处理组成。

所述邻域聚合为：对目标顶点的邻域通过聚合函数进行聚合操作；

所述聚合函数的构造方式包括：平均聚合、最大池化聚合和注意力机制聚合。

所述整合层用于对同一模态下不同来源的输入信息进行整合，以及将特定模态下目标顶点的低阶信息和高阶信息进行整合，得到用户顶点和短视频顶点在不同模态下的表示向量；

本发明还提供一种存储介质，其中，所述存储介质存储有基于图模型的短视频推荐程序，所述基于图模型的短视频推荐程序被处理器执行时实现所述基于图模型的短视频推荐方法的步骤；具体如上所述。

综上所述，本发明提供了一种基于图模型的短视频推荐方法、和智能终端和存储介质，所述方法包括：使用数据集训练深度神经网络；将三维点云输入至所述深度神经网络；所述深度神经网络输出所述三维点云的第一部分和第二部分，将所述第一部分作为运动子单元，所述第二部分作为运动单元的参考部分；根据所述三维点云的输出完成网络预测，输出运动信息，所述运动信息包括运动性分割、运动轴和运动类型。本发明实现了在非结构化并且可能是部分扫描的各种铰链式物体在静止状态下同时运动和部件的预测结果，能够十分准确地预测物体部件的运动。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于图模型的短视频推荐方法，其特征在于，所述基于图模型的短视频推荐方法包括：

整合层将目标节点信息与邻域信息进行整合；

融合层对目标顶点多个模态信息进行融合；

2.根据权利要求1所述的基于图模型的短视频推荐方法，其特征在于，所述交互行为定义为用户完整观看一部短视频或者对所观看的短视频进行点赞操作。

3.根据权利要求1所述的基于图模型的短视频推荐方法，其特征在于，所述根据用户对短视频的交互行为，构造用户和短视频对应关系的二部图，还包括：

构造模态层级的用户与短视频对应关系的二部图。

4.根据权利要求3所述的基于图模型的短视频推荐方法，其特征在于，所述短视频包括视觉模态信息、文本模态信息和听觉模态信息；

5.根据权利要求1所述的基于图模型的短视频推荐方法，其特征在于，所述聚合层用于对目标顶点的邻域信息进行聚合，得到表征目标邻域的向量，每次聚合操作由邻域聚合和非线性处理组成。

6.根据权利要求5所述的基于图模型的短视频推荐方法，其特征在于，所述邻域聚合为：对目标顶点的邻域通过聚合函数进行聚合操作；

7.根据权利要求6所述的基于图模型的短视频推荐方法，其特征在于，所述聚合函数的构造方式包括：平均聚合、最大池化聚合和注意力机制聚合。

8.根据权利要求1所述的基于图模型的短视频推荐方法，其特征在于，所述整合层用于对同一模态下不同来源的输入信息进行整合，以及将特定模态下目标顶点的低阶信息和高阶信息进行整合，得到用户顶点和短视频顶点在不同模态下的表示向量；

9.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于图模型的短视频推荐程序，所述基于图模型的短视频推荐程序被所述处理器执行时实现如权利要求1-8任一项所述的基于图模型的短视频推荐方法的步骤。

10.一种存储介质，其特征在于，所述存储介质存储有基于图模型的短视频推荐程序，所述基于图模型的短视频推荐程序被处理器执行时实现如权利要求1-8任一项所述基于图模型的短视频推荐方法的步骤。