CN112492396A

CN112492396A - 一种基于细粒度的多方面分析的短视频点击率预测方法

Info

Publication number: CN112492396A
Application number: CN202011443387.XA
Authority: CN
Inventors: 顾盼
Original assignee: China Jiliang University
Current assignee: Zhejiang Zhiduo Network Technology Co ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-12
Anticipated expiration: 2040-12-08
Also published as: CN112492396B

Abstract

本发明公开了一种基于细粒度的多方面分析的短视频点击率预测方法。该方法根据用户对短视频的点击和未点击序列，预测用户对目标短视频的点击率。本方法主要由五个部分组成：第一部分是将用户行为序列分割成块(block)序列，并在块内采用自注意力机制得到块向量表征。第二部分是采用长短期记忆网络从块向量表征抽取用户动态兴趣表征。第三部分是利用门机制从用户兴趣表征和目标短视频中抽取多方面(multi‑aspect)特征。第四部分是利用交互注意力机制(interactive attention)，得到多方面的重要性，并更新多方面特征。第五部分是利用基于目标短视频的注意力机制，从多方面特征中抽取和目标短视频相关的兴趣向量表征，并预测用户对目标短视频的点击率。

Description

一种基于细粒度的多方面分析的短视频点击率预测方法

技术领域

本发明属于互联网服务技术领域，尤其是涉及一种基于细粒度的多方面分析的短视频点击率预测方法。

背景技术

短视频是一种新型的且时间较短的视频。短视频的拍摄不需要使用专业设备，也不需要专业技巧。用户直接通过手机就可以很方便地进行拍摄和上传到短视频平台，因此短视频平台的短视频数量增长得非常快。这使得对有效短视频推荐***的需求非常迫切，有效的短视频推荐***可以提升用户体验和用户黏性，从而给平台带来巨大的商业价值。

近些年，很多研究者提出了基于视频的个性化推荐方法。这些方法可以分为三类：协同过滤、基于内容的推荐和混合推荐方法。但是相比于视频，短视频有着不同的特点：描述文本质量较低、时长较短且用户在一段时间内的交互序列较长。因此，短视频推荐是一个更具有挑战性的任务，并且有研究者提出了一些方法。例如，Chen等人利用分层的注意力机制去计算物品和类目这两种级别的重要性，得到更准确的预测结果。Li等人结合正负反馈数据，并使用基于图的循环神经网络去建模，最后得到用户的偏好。

Chen等人的方法只采用了用户的正反馈信息，没有考虑用户的负反馈信息对推荐的影响。Li等人的方法没有更细粒度地分析用户的正反馈信息和负反馈信息之间的相同点和差异点，采用相同的模型结构来处理正反馈和负反馈信息。通常来讲，结合用户的正反馈和负反馈信息来预测用户对目标短视频的点击率，需要判断正反馈和负反馈的相同特征和不同特征。如果是正反馈和负反馈信息中都普遍出现的特征，那么代表用户不看重该特征，也就是特征的重要性较低。如果是正反馈和负反馈信息中的不同特征，那么代表这个特征比较重要，决定了用户是否点击该短视频。本方法利用门机制从正反馈和负反馈信息中抽取多方面(multi-aspect)特征，并利用交互注意力机制(interactive attention)细粒度地对用户的正负反馈信息的多方面特征进行分析，来提高推荐的准确性。

发明内容

本发明所要解决的技术问题是根据用户对短视频的点击和未点击序列，预测用户对目标短视频的点击率。本方法分析正反馈和负反馈的相同特征和不同特征。如果是正反馈和负反馈信息中都普遍出现的特征，那么代表用户不看重该特征，也就是特征的重要性较低。如果是正反馈和负反馈信息中的不同特征，那么代表这个特征比较重要，决定了用户是否点击该短视频。为此，本发明采用以下技术方案：

一种基于细粒度的多方面分析的短视频点击率预测方法，包括以下步骤：

将用户正负反馈信息分块(block)，块内采用自注意力机制得到块向量表征。对于一个用户的点击行为序列

可以表示为

其中

是短视频的封面图特征向量，d是特征向量长度。未点击序列可以表示为

因为短视频时长较短，造成用户的行为序列比较长。所以，本方法用一个长度为w的窗口将序列X⁺以及X^-分割成m个块，用户在一个块里的交互的短视频往往比较相似。每个块特征表征s_j的计算方式如下：

attn_ji＝W₀σ(W₁x_ji+W₂m_j+b_a)

s_j＝ranh(W₄m_j+b_s)

其中，用户的正负反馈序列计算方法一致且参数不共享，为了表达简单，以上所有的公式略去表示正负反馈的上标+和-。x_ji代表序列中第j个块中的第i个短视频向量表征，s_j表示第j个块向量表征，且S＝{s₁,s₂,…,s_m}表示块序列。attn_ji代表x_ji的重要程度。s_j＝tanh(W₄m_j+b_s)表示在自注意力机制上再加一层MLP，增强模型的非线性。

和

是模型需要训练的参数。σ为sigmoid函数，tanh代表tanh激活函数。

采用长短期记忆网络从块(block)向量表征抽取用户动态兴趣表征h_j。同样，用户的正负反馈序列计算方法一致且参数不共享，为了表达简单，以下所有的公式略去上标+和-：

h_j＝LSTM(s_j)

其中，s_j表示第j个块向量表征。LSTM(s_j)表示长短时记忆网络(LSTM)对序列S＝{s₁，s₂，...，s_m}进行建模，如下：

i_j＝σ(W_is_j+u_ih_j-1+b_i)

f_j＝σ(W_fs_j+u_fh_j-1+b_f)

o_j＝σ(W_os_j+u_oh_j-1+b_o)

c_j＝i_ktanh(W_cs_j+u_ch_j-1+b_c)+f_jc_j-1

h_j＝o_jc_j

其中，长短期记忆网络每一层的隐藏状态h_j的输出就是用户兴趣表征。s_j是当前层的节点输入，

和

分别是控制输入门i_j、遗忘门f_j和输出门o_j的参数。σ为sigmoid函数。所有这些参数和输入：隐层状态h_j-1、当前输入s_j共同参与计算，来输出结果h_j。

利用门机制从从用户兴趣表征和目标短视频中抽取多方面(multi-aspect)特征。短视频由更细粒度的方面(比如，视频场景、视频主题、视频情绪)组成。本方法采用门机制抽取方面特征，下面公式是抽取第j个用户兴趣表征的第k个方面。用户的正负反馈序列计算方法一致且参数共享，为了表达简单，以下所有的公式略去上标+和-：

p_k，j＝h_j⊙σ(W_k，1h_j+W_k，2q_k+b_k)

其中，

和

是第k个方面的转移矩阵，

是第k个方面的偏置向量。σ是sigmoid激活函数，⊙是元素级别的乘法。h_j是从块(block)向量表征抽取的第j个用户兴趣表征，q_k是第k个方面表征且q_k为所有用户共享。短视频的方面个数M是超参数。得到每个块的每个方面向量表征之后，本方法采用平均池(average pooling)将所有用户兴趣中同一个方面信息聚合：

其中，m是用户兴趣的个数。最后我们可以从正反馈和负反馈序列中得到M个方面特征

和

采用相同的办法，可以从目标短视频中得到M个方面特征

利用交互注意力机制(interactive attention)，得到多方面(multi-aspect)的重要性，并更新多方面特征。分析正反馈和负反馈的相同特征和不同特征。如果是正反馈和负反馈信息中都普遍出现的特征，那么代表用户不看重该特征，也就是特征的重要性较低。如果是正反馈和负反馈信息中的不同特征，那么代表这个特征比较重要，决定了用户是否点击该短视频。多方面(multi-aspect)的重要性计算公式如下：

attn_k＝softmax(attn_k)

p_k＝attn_kp_k

其中，

和

分别是从正反馈和负反馈序列中抽取的方面特征。cos三角函数是计算向量相似度的基本公式。且-cos表示正负反馈相同方面的特征越接近，attn_k越小，也就是该方面的重要性越低。反之，正负反馈相同方面的特征差异越大，attn_k越大，也就是该方面的重要性越高。softmax是一种正则化方式。

利用基于目标短视频的注意力机制，从多方面(multi-aspect)特征中抽取和目标短视频相关的兴趣向量表征。用户的正负反馈序列计算方法一致且参数不共享，为了表达简单，以下所有的公式略去上标+和-：

其中，p_k为序列第k个方面特征，

为目标短视频第k个方面特征。参数

和参数

控制每个方面特征的权重，参数b是偏置参数。σ是sigmoid激活函数。

根据用户兴趣表征，预测用户对目标短视频的点击率：

其中，v⁺和v^-分别为用户在正反馈序列和负反馈序列下的兴趣表征，

为向量拼接操作。

和

是转移矩阵，

是偏置向量，b₂是偏置标量。σ是sigmoid激活函数。

根据模型特性，设计损失函数。通过用户对目标短视频的点击率预测值

计算预测值

和真实值y之间的误差，进而使用误差来更新模型参数。我们采用交叉熵损失函数来指导模型参数的更新过程：

其中，y∈{0，1}是真实值，代表用户是否点击了目标短视频。σ是sigmoid函数。最后采用Adam优化器更新模型参数。

本发明的有益技术效果如下：

(1)本发明提出了一种基于细粒度的多方面分析的短视频点击率预测方法。采用基于方面(aspect)的门机制将用户的正反馈和负反馈序列转换到相同的方面(aspect)空间下，并一一对应进行比较和分析。

(2)本发明提出了一种基于细粒度的多方面分析的短视频点击率预测方法。采用交互注意力机制(interactive attention)计算不同方面的重要性。方面的重要性取决于正反馈和负反馈信息中一一对应的方面(aspect)特征的相似度。

(3)本发明将用户行为序列分割成块(block)序列，且因块内的短视频间隔时间太短，而不考虑块内的序列性，只考虑块间的序列性。所以，在块内采用自注意力(self-attention)机制得到块向量表征，再采用长短期记忆网络从块(block)向量表征抽取用户动态兴趣表征。

附图说明

图1为本发明一种基于细粒度的多方面分析的短视频点击率预测方法的流程示意图；

图2为本发明一种基于细粒度的多方面分析的短视频点击率预测方法的模型框架图。

具体实施方式

为了进一步理解本发明，下面结合具体实施方式对本发明提供的一种基于细粒度的多方面分析的短视频点击率预测方法进行具体描述，但本发明并不限于此，该领域技术人员在本发明核心指导思想下做出的非本质改进和调整，仍然属于本发明的保护范围。

短视频点击率预测任务是建立一个模型去预测用户点击短视频的概率。用户的历史序列表示为

其中p∈{+，-}分别代表点击和未点击行为，x_j代表第j个短视频，l是序列的长度。整个序列可以进一步细分为点击序列

和未点击序列

也就是正反馈和负反馈信息。因此，短视频点击率预测问题可以表示成：输入用户点击序列

未点击的序列

以及目标短视频x_new，来预测用户对目标短视频x_new的点击率。

为此，本发明提出了一种基于细粒度的多方面分析的短视频点击率预测方法。它根据用户对短视频的点击和未点击序列，预测用户对目标短视频的点击率。这里的用户短视频序列输入的是短视频的封面图向量表征。通常来讲，结合用户的正反馈和负反馈信息来预测用户对目标短视频的点击率，需要判断正反馈和负反馈的相同特征和不同特征。如果是正反馈和负反馈信息中都普遍出现的特征，那么代表用户不看重该特征，也就是特征的重要性较低。如果是正反馈和负反馈信息中的不同特征，那么代表这个特征比较重要，决定了用户是否点击该短视频。本方法细粒度地对用户的正负反馈信息的多方面进行分析，来提高推荐的准确性。

本方法主要由五个部分组成，如图2所示。第一部分是将用户行为序列分割成块(block)序列，并在块内采用自注意力机制得到块(block)向量表征。短视频平台中，短视频时间较短且用户的短视频观看行为非常频繁，可以认为序列中连续的短视频具有相近的特征。第二部分是采用长短期记忆网络从块(block)向量表征抽取用户动态兴趣表征。第三部分是利用门机制从用户兴趣表征和目标短视频中抽取多方面(multi-aspect)特征。第四部分是利用交互注意力机制(interactive attention)，得到多方面(multi-aspect)的重要性，并更新多方面特征。第五部分是利用基于目标短视频的注意力机制，从多方面(multi-aspect)特征中抽取和目标短视频相关的兴趣向量表征，并预测用户对目标短视频的点击率。

如图1所示，按照本发明的一个实施例，本方法包括如下步骤：

S100，将用户正负反馈信息分块(block)，块内采用自注意力机制得到块向量表征。对于一个用户的点击行为序列

可以表示为

其中

attn_ji＝W₀σ(W₁x_ji+W₂m_j+b_a)

s_j＝tanh(W₄m_j+b_s)

其中，用户的正负反馈序列计算方法一致且参数不共享，为了表达简单，以上所有的公式略去表示正负反馈的上标+和-。x_ji代表序列中第j个块中的第i个短视频向量表征，s_j表示第j个块向量表征，且S＝{s₁，s₂，...，s_m}表示块序列。attn_ji代表x_ji的重要程度。s_j＝tanh(W₄m_j+b_s)表示在自注意力机制上再加一层MLP，增强模型的非线性。

和

S200，采用长短期记忆网络从块(block)向量表征抽取用户动态兴趣表征h_j。同样，用户的正负反馈序列计算方法一致且参数不共享，为了表达简单，以下所有的公式略去上标+和-：

h_j＝LSTM(s_j)

其中，s_j表示第j个块向量表征。LSTM(s_j)表示长短时记忆网络(LSTM)对序列S＝(s₁，s₂，...，s_m}进行建模，如下：

i_j＝σ(W_is_j+u_ih_j-1+b_i)

f_j＝σ(W_fs_j+u_fh_j-1+b_f)

o_j＝σ(W_os_j+u_oh_j-1+b_o)

c_j＝i_ktanh(W_cs_j+u_ch_j-1+b_c)+f_jc_j-1

h_j＝o_jc_j

和

S300，利用门机制从从用户兴趣表征和目标短视频中抽取多方面(multi-aspect)特征。短视频由更细粒度的方面(比如，视频场景、视频主题、视频情绪)组成。本方法采用门机制抽取方面特征，下面公式是抽取第j个用户兴趣表征的第k个方面。用户的正负反馈序列计算方法一致且参数共享，为了表达简单，以下所有的公式略去上标+和-：

p_k，j＝h_j⊙σ(W_k，1h_j+W_k，2q_k+b_k)

其中，

和

是第k个方面的转移矩阵，

是第k个方面的偏置向量。σ是sigmoid激活函数，⊙是元素级别的乘法。h_j是从块(block)向量表征抽取的第j个用户兴趣表征，q_k是第k个方面表征且q_k为所有用户共享。短视频的方面个数M是超参数，本方法中通过实验验证设置为5。得到用户兴趣的每个方面向量表征之后，本方法采用平均池(average pooling)将所有用户兴趣中同一个方面信息聚合：

和

采用相同的办法，可以从目标短视频中得到M个方面特征

S400，利用交互注意力机制(interactive attention)，得到多方面(multi-aspect)的重要性，并更新多方面特征。分析正反馈和负反馈的相同特征和不同特征。如果是正反馈和负反馈信息中都普遍出现的特征，那么代表用户不看重该特征，也就是特征的重要性较低。如果是正反馈和负反馈信息中的不同特征，那么代表这个特征比较重要，决定了用户是否点击该短视频。多方面(multi-aspect)的重要性计算公式如下：

attn_k＝softmax(attn_k)

p_k＝attn_kp_k

其中，

和

S500，利用基于目标短视频的注意力机制，从多方面(multi-aspect)特征中抽取和目标短视频相关的兴趣向量表征。用户的正负反馈序列计算方法一致且参数不共享，为了表达简单，以下所有的公式略去上标+和-：

其中，p_k为序列第k个方面特征，

为目标短视频第k个方面特征。参数

和参数

S600，根据用户兴趣表征，预测用户对目标短视频的点击率：

为向量拼接操作。

和

是转移矩阵，

是偏置向量，b₂是偏置标量。σ是sigmoid激活函数。

S700，根据模型特性，设计损失函数。通过用户对目标短视频的点击率预测值

计算预测值

其中，y∈{0，1}是真实值，代表用户是否点击了目标短视频。σ是sigmoid函数。我们采用Adam优化器更新模型参数。

上述对实施例的描述是为方便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于细粒度的多方面分析的短视频点击率预测方法，其特征在于：

将用户正负反馈信息分块(block)，块内采用自注意力机制得到块向量表征；对于一个用户的点击行为序列

可以表示为

其中

是短视频的封面图特征向量，d是特征向量长度；未点击序列可以表示为

本方法用一个长度为w的窗口将序列X⁺以及X^-分割成m个块；每个块特征表征s_j的计算方式如下：

attn_ji＝W₀σ(W₁x_ji+W₂m_j+b_a)

s_j＝tanh(W₄m_j+b_s)

其中，用户的正负反馈序列分块计算方法一致且参数不共享，为了表达简单，以上所有的公式略去表示正负反馈的上标+和-；x_ji代表序列中第j个块中的第i个短视频向量表征，s_j表示第j个块向量表征，且S＝{s₁,s₂,…,s_m}表示块序列；attn_ji代表x_ji的重要程度；s_j＝tanh(W₄m_j+b_s)表示在自注意力机制上再加一层MLP，增强模型的非线性；

和

是模型需要训练的参数；σ为sigmoid函数，tanh代表tanh激活函数；

采用长短期记忆网络从块(block)向量表征抽取用户动态兴趣表征h_j；同样，用户的正负反馈序列计算方法一致且参数不共享，为了表达简单，以下所有的公式略去上标+和-：

h_j＝LSTM(s_j)

其中，s_j表示第j个块向量表征；LSTM(s_j)表示长短时记忆网络(LSTM)对序列S＝{s₁,s₂,…,s_m}进行建模；

利用门机制从从用户兴趣表征和目标短视频中抽取多方面(multi-aspect)特征；短视频由更细粒度的方面(比如，视频场景、视频主题、视频情绪)组成；本方法采用门机制抽取方面特征，下面公式是抽取第j个用户兴趣表征的第k个方面；用户的正负反馈序列计算方法一致且参数共享，为了表达简单，以下所有的公式略去上标+和-：

p_k,j＝h_j⊙σ(W_k,1h_j+W_k,2q_k+b_k)

其中，

和

是第k个方面的转移矩阵，

是第k个方面的偏置向量；σ是sigmoid激活函数，⊙是元素级别的乘法；h_j是从块(block)向量表征抽取的第j个用户兴趣表征，q_k是第k个方面表征且q_k为所有用户共享；短视频的方面个数M是超参数；得到用户兴趣的每个方面向量表征之后，本方法采用平均池(average pooling)将所有用户兴趣中同一个方面信息聚合：