CN113268633B - 一种短视频推荐方法 - Google Patents

一种短视频推荐方法 Download PDF

Info

Publication number
CN113268633B
CN113268633B CN202110710623.8A CN202110710623A CN113268633B CN 113268633 B CN113268633 B CN 113268633B CN 202110710623 A CN202110710623 A CN 202110710623A CN 113268633 B CN113268633 B CN 113268633B
Authority
CN
China
Prior art keywords
short video
user
historical
sequence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110710623.8A
Other languages
English (en)
Other versions
CN113268633A (zh
Inventor
徐童
王纯
李炜
王玉龙
刘端阳
刘同存
王晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110710623.8A priority Critical patent/CN113268633B/zh
Publication of CN113268633A publication Critical patent/CN113268633A/zh
Application granted granted Critical
Publication of CN113268633B publication Critical patent/CN113268633B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种短视频推荐方法,包括:获取用户对短视频的历史行为数据;选取样本用户,构建每位样本用户的短视频点击序列,并选定目标短视频和历史点击序列,计算每位样本用户对目标短视频的观看深度,然后由样本用户的目标短视频、历史点击序列、用户属性特征、观看深度构成样本用户数据,并写入样本数据集中;构建短视频推荐模型,以样本数据集进行训练;获取待推荐用户的历史点击序列,并将待推荐短视频作为其目标短视频,然后将待推荐用户的目标短视频、历史点击序列、用户属性特征输入短视频推荐模型,并依据输出来确定是否向用户推荐短视频。本发明属于信息技术领域,能充分利用短视频图像、声音等知识特征,选取符合用户兴趣的短视频向用户推荐。

Description

一种短视频推荐方法
技术领域
本发明涉及一种短视频推荐方法,属于信息技术领域。
背景技术
当前短视频应用程序,例如抖音、火山小视频、快手和微视等,作为一种新的视频观看平台,短视频及作者较多,如何从海量的短视频中向用户推荐用户感兴趣的短视频,已成为技术人员所重点关注的技术问题。
专利申请CN 201810837633.6(申请名称:一种短视频推荐方法、装置和可读介质,申请日:2018.07.26,申请人:腾讯科技(深圳)有限公司)公开了一种短视频推荐方法、装置和可读介质,属于视频推荐技术领域,该技术方案提供的方法及装置中,在接收到短视频拉取请求后,获取用户历史观看的短视频列表和未观看的短视频列表构成的短视频序列,所述短视频序列中包含各个短视频的标识信息;根据短视频序列和训练得到的用于表征所有短视频特征的短视频特征矩阵,确定用于表征所述短视频序列中的短视频特征的序列向量;根据序列向量和训练得到的短视频推荐模型,确定未观看的短视频列表中各个短视频的概率;并根据各个短视频的概率,向用户推荐感兴趣的短视频。该技术方案主要基于短视频的标识信息来获取短视频特征,而短视频中丰富的图像、声音也包含有大量的知识,这些知识能够帮助模型进行学习,而该技术方案却并未涉及到利用短视频的图像、声音等知识,因而推荐准确率不高。
因此,如何充分利用短视频的图像、声音等知识特征,从海量的短视频中选取符合用户兴趣的短视频向用户推荐,从而提高推荐准确率,已成为现有技术中亟待解决的技术问题之一。
发明内容
有鉴于此,本发明的目的是提供一种短视频推荐方法,能充分利用短视频的图像、声音等知识特征,从海量的短视频中选取符合用户兴趣的短视频向用户推荐,从而有效提高推荐准确率。
为了达到上述目的,本发明提供了一种短视频推荐方法,包括有:
步骤一、获取用户对短视频的历史行为数据,所述用户历史行为数据包括有:用户历史点击短视频的id、类别id、作者id、封面图片、音乐、原时长、播放时长、点击时间戳、用户属性特征;
步骤二、选取若干位样本用户,根据样本用户对短视频的历史点击行为,构建每位样本用户的短视频点击序列,并从中选定样本用户的目标短视频和历史点击序列,计算每位样本用户对其目标短视频的观看深度,所述观看深度即用户对短视频的播放时长和短视频原时长的比值,然后由样本用户的目标短视频、历史点击序列、用户属性特征、对目标短视频的观看深度构成每条样本用户数据,并写入样本数据集中,所述历史点击序列进一步包括有:历史点击短视频id序列、历史点击短视频类别id序列、历史点击短视频作者id序列、历史点击短视频封面图片序列、历史点击短视频音乐序列;
步骤三、构建短视频推荐模型,并以样本数据集中的每条样本用户数据进行训练,短视频推荐模型对每条样本用户数据的处理过程如下:构建用于表征所有短视频id、短视频类别id和短视频作者id特征的嵌入式向量映射表,然后基于短视频的id、类别id、作者id的嵌入式向量和其封面图片对应的封面特征向量、音乐对应的音频特征向量,为用户的目标短视频和历史点击序列中的每条历史点击短视频构建相应的嵌入式向量,并根据每个历史点击短视频的嵌入式向量计算用户历史兴趣向量,再根据所有历史点击短视频的用户历史兴趣向量和目标短视频的嵌入式向量计算用户兴趣向量,最后根据目标短视频的嵌入式向量和用户兴趣向量计算输出用户对目标短视频的点击率;
步骤四、获取待推荐用户的历史点击序列,并将待推荐短视频作为待推荐用户的目标短视频,然后将待推荐用户的目标短视频、历史点击序列、用户属性特征输入至训练好的短视频推荐模型,并依据模型计算输出的用户对目标短视频的点击率以确定是否向用户推荐短视频,
步骤三中,短视频推荐模型对每条样本用户数据的处理过程进一步包括有:
步骤31、采用VGGNet网络,将样本用户数据中的目标短视频的封面图片和历史点击短视频封面图片序列中的所有历史点击短视频的封面图片分别转化成封面特征向量,然后由历史点击短视频封面图片序列中的所有封面图片转化后的封面特征向量构成历史点击短视频封面特征向量序列;
步骤32、将样本用户数据的目标短视频的音乐和历史点击短视频音乐序列中的所有历史点击短视频的音乐分别转化成音频特征向量,然后由历史点击短视频音乐序列中的所有音乐转化后的音频特征向量构成历史点击短视频音频特征向量序列,其中,将目标短视频的音乐或者历史点击短视频音乐序列中的任一历史点击短视频的音乐转化成音频特征向量的过程具体如下:先对短视频音乐的音频采样若干帧,利用MFCC技术提取每帧采样音频的音频特征向量,然后通过一个自注意力网络对所有采样音频的音频特征向量进行重新映射以获得每个采样音频对应的中间向量,最后将所有采样音频的中间向量通过一个全连接层,并对全连接层的输出进行平均池化,池化后的输出向量即是短视频音乐转化后的音频特征向量;
步骤33、为短视频id、短视频类别id、短视频作者id分别构建嵌入式向量映射表,然后从嵌入式向量映射表中查询获得样本用户的目标短视频和历史点击序列中每个历史点击短视频的id、类别id、作者id的嵌入式向量,最后通过concat操作,构建目标短视频和每个历史点击短视频的嵌入式向量,即将短视频的id的嵌入式向量、类别id的嵌入式向量、作者id的嵌入式向量、封面特征向量、音频特征向量合并成一个嵌入式向量,并由所有历史点击短视频的嵌入式向量构成历史点击短视频嵌入式向量序列;
步骤34、将历史点击短视频嵌入式向量序列中的所有历史点击短视频的嵌入式向量输入一个自注意力网络和一个全连接层,从而输出获得每个历史点击短视频的用户历史兴趣向量,并由所有历史点击短视频的用户历史兴趣向量构成用户历史兴趣向量序列;
步骤35、依次将用户历史兴趣向量序列中的每个历史点击短视频的用户历史兴趣向量和目标短视频的嵌入式向量的和、差、积拼接成一个输入向量,然后将输入向量输入至一个多层感知机MLP,MLP的输出即是每个历史点击短视频的兴趣权重,最后将MLP输出的所有历史点击短视频的兴趣权重通过softmax函数进行归一化计算,并根据归一化后的所有历史点击短视频的兴趣权重,计算获得用户兴趣向量:
Figure GDA0003867528830000031
其中,iT是用户兴趣向量,it是第t个短视频的用户历史兴趣向量,wt是归一化后的第t个短视频的兴趣权重,T是用户历史兴趣向量序列中的所有历史点击短视频数;
步骤36、通过concat操作,将用户兴趣向量iT和目标短视频的嵌入式向量eT拼接成一个向量Z,然后通过一个多层感知机,计算样本用户对目标短视频的点击率O:O=sigmoid(MLP(Z)),其中,MLP(Z)表示将向量Z输入多层感知机MLP后的输出值。
与现有技术相比,本发明的有益效果是:在现有的序列推荐模型里,多采用各种id类特征,如历史点击物品id、物品类别id等作为序列特征,特征种类较为单一,而本发明将短视频的id、类别id、作者id、封面图片、音乐这些特征都引入到短视频推荐模型中,从而能充分利用短视频的图像、声音所包含的大量知识特征,帮助模型进行学习,有效提高推荐准确率;现有短视频推荐方法一般都是直接将用户历史点击序列作为用户兴趣进行建模,但由于存在用户误点击或观看时才发现对短视频不感兴趣的情况,所以推荐准确性无法得到有效保证,本发明进一步将用户对短视频的观看深度引入模型中,用于辅助短视频推荐模型的训练,从而对模型参数起到正则化校正的作用,有效提高了模型结果的准确性;深度学习模型对高维稀疏特征具有较高的学习能力,但对连续密集特征的学习能力却不强,考虑到用户属性部分特征为连续型特征,因此本发明进一步采用线性模型学习连续特征,非线性模型学习序列id类特征,可以使模型同时具备训练稀疏特征和稠密特征的良好能力,从而达到更好的推荐效果。
附图说明
图1是本发明一种短视频推荐方法的流程图。
图2是图1步骤三中短视频推荐模型对每条样本用户数据的具体处理过程的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种短视频推荐方法,包括有:
步骤一、获取用户对短视频的历史行为数据,所述用户历史行为数据可以包括有:用户历史点击短视频的id、类别id、作者id、封面图片、音乐、原时长、播放时长、点击时间戳、用户属性特征,用户属性特征可以是年龄、性别、地理位置、喜欢的类别id等特征;
步骤二、选取若干位样本用户,根据样本用户对短视频的历史点击行为,构建每位样本用户的短视频点击序列,并从中选定样本用户的目标短视频和历史点击序列,计算每位样本用户对其目标短视频的观看深度,所述观看深度即用户对短视频的播放时长和短视频原时长的比值,然后由样本用户的目标短视频、历史点击序列、用户属性特征、对目标短视频的观看深度构成每条样本用户数据,并写入样本数据集中,所述历史点击序列可以进一步包括有:历史点击短视频id序列、历史点击短视频类别id序列、历史点击短视频作者id序列、历史点击短视频封面图片序列、历史点击短视频音乐序列;
步骤三、构建短视频推荐模型,并以样本数据集中的每条样本用户数据进行训练,短视频推荐模型对每条样本用户数据的处理过程如下:构建用于表征所有短视频id、短视频类别id和短视频作者id特征的嵌入式向量映射表,然后基于短视频的id、类别id、作者id的嵌入式向量和其封面图片对应的封面特征向量、音乐对应的音频特征向量,为用户的目标短视频和历史点击序列中的每条历史点击短视频构建相应的嵌入式向量,并根据每个历史点击短视频的嵌入式向量计算用户历史兴趣向量,再根据所有历史点击短视频的用户历史兴趣向量和目标短视频的嵌入式向量计算用户兴趣向量,最后根据目标短视频的嵌入式向量和用户兴趣向量计算输出用户对目标短视频的点击率;
步骤四、获取待推荐用户的历史点击序列,并将待推荐短视频作为待推荐用户的目标短视频,然后将待推荐用户的目标短视频、历史点击序列、用户属性特征输入至训练好的短视频推荐模型,并依据模型计算输出的用户对目标短视频的点击率以确定是否向用户推荐短视频。
对于每位样本用户,图1步骤二可以进一步包括有:
根据样本用户的短视频点击行为,按样本用户点击短视频的时间戳由大到小的顺序进行排序,即由最近一次点击到最远一次点击进行排序,从而构成样本用户的短视频点击序列,短视频点击序列中的最近一次点击短视频是样本用户的目标短视频,最近一次点击短视频之前的所有短视频构成样本用户的历史点击序列,然后获取目标短视频和历史点击序列中的所有历史点击短视频的id、类别id、作者id、封面图片和音乐信息,并由所有历史点击短视频的id、类别id、作者id、封面图片和音乐分别构成历史点击短视频id序列、历史点击短视频类别id序列、历史点击短视频作者id序列、历史点击短视频封面图片序列、历史点击短视频音乐序列,同时计算样本用户对目标短视频的观看深度,最后由样本用户的目标短视频id、目标短视频的类别id、目标短视频的作者id、目标短视频的封面图片、目标短视频的音乐、历史点击短视频id序列、历史点击短视频类别id序列、历史点击短视频作者id序列、历史点击短视频封面图片序列、历史点击短视频音乐序列、对目标短视频的观看深度组成一条样本用户数据,并写入样本数据集中。
同时,本发明还可以构建若干负样本用于短视频推荐模型的训练,步骤二还可以包括有:
从样本数据集中读取一条样本用户数据,然后从该样本用户未点击的短视频集合中随机选取一个短视频,从而为样本用户生成一条新的样本用户数据:将所读取样本用户数据中的目标短视频的id、类别id、作者id、封面图片和音乐替换成随机选取的短视频的id、类别id、作者id、封面图片和音乐,并将样本用户对目标短视频的观看深度修改成0,其他数据保持不变。
如图2所示,图1步骤三中,短视频推荐模型对每条样本用户数据的处理过程可以进一步包括有:
步骤31、采用VGGNet网络,将样本用户数据中的目标短视频的封面图片和历史点击短视频封面图片序列中的所有历史点击短视频的封面图片分别转化成封面特征向量,然后由历史点击短视频封面图片序列中的所有封面图片转化后的封面特征向量构成历史点击短视频封面特征向量序列;
VGGNet是由牛津大学的视觉几何组(Visual Geometry Group)和GoogleDeepMind公司的研究员一起研发的深度卷积神经网络,经常被用来提取图像特征。本发明中VGGNet网络的参数会和短视频推荐模型一起训练得到;
步骤32、将样本用户数据的目标短视频的音乐和历史点击短视频音乐序列中的所有历史点击短视频的音乐分别转化成音频特征向量,然后由历史点击短视频音乐序列中的所有音乐转化后的音频特征向量构成历史点击短视频音频特征向量序列,其中,将目标短视频的音乐或者历史点击短视频音乐序列中的任一历史点击短视频的音乐转化成音频特征向量的过程具体如下:先对短视频音乐的音频采样若干帧(例如1000帧),利用MFCC(即梅尔频率倒谱系数)技术提取每帧采样音频的音频特征向量,然后通过一个自注意力网络对所有采样音频的音频特征向量进行重新映射以获得每个采样音频对应的中间向量,最后将所有采样音频的中间向量通过一个全连接层,并对全连接层的输出进行平均池化,池化后的输出向量即是短视频音乐转化后的音频特征向量;
步骤32中,每个采样音频对应的中间向量的计算公式如下:
Figure GDA0003867528830000061
Figure GDA0003867528830000062
其中,vi是第i帧采样音频的音频特征向量,vj是第j帧采样音频的音频特征向量,
Figure GDA0003867528830000063
是第i帧采样音频和第j帧采样音频之间的相关关系,
Figure GDA0003867528830000064
是第i帧采样音频对应的中间向量,d4是每帧采样音频的音频特征向量的维度,d5是中间向量
Figure GDA0003867528830000065
的维度,
Figure GDA0003867528830000066
Figure GDA0003867528830000067
分别是用于计算音频特征向量的自注意力网络Q、K、V的参数矩阵;将所有采样音频的中间向量通过一个全连接层的计算公式如下:
Figure GDA0003867528830000068
其中,σ表示一层全连接网络,w5、b5是用于计算音频特征向量的全连接层的网络参数,
Figure GDA0003867528830000069
是中间向量
Figure GDA00038675288300000610
通过全连接层后的输出向量,通过一个全连接层对得到的中间向量进行新的空间映射,可以有效提高模型的泛化能力;对全连接层的输出进行平均池化的计算公式如下:
Figure GDA00038675288300000611
其中,NC是短视频音乐的音频采样总帧数,h(5)是池化后的输出向量,即短视频音乐转化后的音频特征向量。
步骤33、为短视频id、短视频类别id、短视频作者id分别构建嵌入式向量映射表,然后从嵌入式向量映射表中查询获得样本用户的目标短视频和历史点击序列中每个历史点击短视频的id、类别id、作者id的嵌入式向量,最后通过concat操作,构建目标短视频和每个历史点击短视频的嵌入式向量,即将短视频的id的嵌入式向量、类别id的嵌入式向量、作者id的嵌入式向量、封面特征向量、音频特征向量合并成一个嵌入式向量,并由所有历史点击短视频的嵌入式向量构成历史点击短视频嵌入式向量序列;
步骤33中,可以首先为每个id的索引初始化对应的嵌入式向量,从而得到每个id的初始嵌入式向量映射表,嵌入式向量映射表会随着模型训练不断更新,在训练结束时得到最终的嵌入式向量映射表;将短视频的id的嵌入式向量、类别id的嵌入式向量、作者id的嵌入式向量、封面特征向量、音频特征向量通过concat操作合成一个嵌入式向量的计算公式如下:e=concat(e(1),e(2),e(3),h(4),h(5)),其中,e是目标短视频或历史点击短视频的嵌入式向量,e(1)是目标短视频或历史点击短视频的id的嵌入式向量,e(2)是目标短视频或历史点击短视频的类别id的嵌入式向量,e(3)是目标短视频或历史点击短视频的作者id的嵌入式向量,h(4)是目标短视频或历史点击短视频的封面特征向量,h(5)是目标短视频或历史点击短视频的音频特征向量;
步骤34、将历史点击短视频嵌入式向量序列中的所有历史点击短视频的嵌入式向量输入一个自注意力网络和一个全连接层,从而输出获得每个历史点击短视频的用户历史兴趣向量,并由所有历史点击短视频的用户历史兴趣向量构成用户历史兴趣向量序列;
步骤34中,将历史点击短视频嵌入式向量序列中的所有历史点击短视频的嵌入式向量输入一个自注意力网络,其计算公式如下:
Figure GDA0003867528830000071
其中,ctm是历史点击短视频嵌入式向量序列中的第t个短视频和第m个短视频之间的相关关系,rt是自注意力网络输出的第t个短视频的中间向量,et、em分别是第t个短视频和第m个短视频的嵌入式向量,dr是rt的维度,de是历史点击短视频的嵌入式向量的维度,
Figure GDA0003867528830000072
Figure GDA0003867528830000073
分别是用于计算用户历史兴趣向量的自注意力网络Q、K、V的参数矩阵;通过全连接层的计算公式如下:
Figure GDA0003867528830000074
其中,it是全连接层的输出向量,即第t个短视频的用户历史兴趣向量,σ表示一层全连接网络,w1、b1是用于计算用户历史兴趣向量的全连接层的网络参数;
步骤35、依次将用户历史兴趣向量序列中的每个历史点击短视频的用户历史兴趣向量和目标短视频的嵌入式向量的和、差、积拼接成一个输入向量,然后将输入向量输入至一个多层感知机(MLP),MLP的输出即是每个历史点击短视频的兴趣权重,最后将MLP输出的所有历史点击短视频的兴趣权重通过softmax函数进行归一化计算,并根据归一化后的所有历史点击短视频的兴趣权重,计算获得用户兴趣向量:
Figure GDA0003867528830000081
其中,iT是用户兴趣向量,wt是归一化后的第t个短视频的兴趣权重,T是用户历史兴趣向量序列中的所有历史点击短视频数;
步骤36、通过concat操作,将用户兴趣向量iT和目标短视频的嵌入式向量eT拼接成一个向量Z,然后通过一个多层感知机,计算样本用户对目标短视频的点击率O:O=sigmoid(MLP(Z)),其中,MLP(Z)表示将向量Z输入多层感知机MLP后的输出值;
深度学习模型对高维稀疏特征具有较高的学习能力,但对连续密集特征的学习能力却不强,考虑到用户属性部分特征为连续型特征,因此本申请还可以同时用线性模型学习连续特征,非线性模型学习序列id类特征,从而使得模型同时具备训练稀疏特征和稠密特征的良好能力,以达到更好的推荐效果。因此,步骤36之后,还可以包括有:
步骤37、采用GBDT2NN模型,输入数据是样本用户数据中的用户属性特征,并输出获得样本用户对目标短视频的第二点击率O2
GBDT2NN模型是利用神经网络去拟合梯度提升决策树的网络模型,使网络模型可较好的处理密集数值特征,能够将GBDT学到的特征重要性和数据结构提炼到神经网络的建模过程中,GBDT2NN模型的具体内容已在全球数据挖掘顶级会议KDD 2019上的发表论文:《DeepGBM:A Deep Learning Framework Distilled by GBDT for Online Pred ictionTasks》中有详细记载,就不在此赘述。本发明中,GBDT2NN模型通过神经网络拟合树生成的结果,输入数据为样本用户数据中的用户属性特征Fu,假设第k棵树的输出叶子节点的索引为Lk,将GBDT的叶子节点索引映射成值:pk=Lk×qk,则GBDT2NN单棵树的输出结果为:
Figure GDA0003867528830000082
其中,qk是第k棵树的叶子节点索引到连续值的映射,pk是第k棵树的叶子节点索引转化成的数值,
Figure GDA0003867528830000083
是第k棵树的输出结果,采用多层感知机来拟合一棵决策树,MLP(Fu)是将用户属性特征输入一个多层感知机后的输出值,即用户属性特征通过一棵树之后输出的叶子节点索引,然后通过embedding(即嵌入式)技术对叶子节点进行降维,使训练变得更加高效:
Figure GDA0003867528830000091
Figure GDA0003867528830000092
是降维后的第k棵树的输出结果,
Figure GDA0003867528830000093
表示查嵌入式向量表获得
Figure GDA0003867528830000094
的嵌入式向量,最后将所有树的输出结果相加即为GBDT2NN模型的最终输出结果:
Figure GDA0003867528830000095
O2是样本用户对目标短视频的第二点击率;
步骤38、根据样本用户对目标短视频的第二点击率,调整样本用户对目标短视频的点击率:Y=w1O+w2O2,其中,Y是调整后的样本用户对目标短视频的点击率,w1、w2分别是O、O2这两个点击率的权重系数,其值可以根据实际业务需要而设置。
需要强调的是,本发明还可以采用一个附加结构来预估用户对每个历史点击短视频的观看深度,并在训练过程中将点击率损失和附加损失相加成短视频推荐模型训练的损失函数,这样,将用户对视频的观看深度引入模型,辅助短视频推荐模型的训练,可以对模型参数起到正则化校正的作用,从而获得更加准确的结果。步骤三还可以包括有:
采用一个附加网络,根据每个历史点击短视频的用户历史兴趣向量,预估用户对每个历史点击短视频的观看深度,具体计算公式如下:
Figure GDA0003867528830000096
其中,dt是用户对第t个短视频的观看深度,σ表示一层全连接网络,w2、b2是附加结构的全连接层的网络参数,
在短视频推荐模型的训练过程中,可以对点击率预估部分采用交叉熵损失函数:
Figure GDA0003867528830000097
其中,N为样本数据集中的样本数据个数,xu表示一条样本用户数据,y′u是该训练样本的标签,并且y′u∈{0,1},yu是模型输出的用户对目标短视频的点击率,即该样本标签的预测值,yu∈(0,1),
对观看深度的附加损失采用均方差损失函数:
Figure GDA0003867528830000098
其中,T是样本用户的所有历史点击短视频数,Dut为样本xu中用户点击的第t个短视频的观看深度,dut是附加网络输出的样本xu中用户对第t个短视频的观看深度的预估值,两者均为连续数值,
将点击率损失和附加损失相加,即为短视频推荐模型训练最终的损失函数:L=Lp+αLD,其中,α是损失权重系数,可以根据实际业务需要而设定。
步骤四中计算用户对目标短视频的点击率的过程与步骤三的训练过程基本一致,就不在此赘述,其区别在于步骤四不需要计算用户对目标短视频的观看深度,而是将候选集中的所有待推荐的短视频逐一作为待推荐用户的目标短视频,根据短视频推荐模型计算输出的用户对目标短视频的点击率,按照从大到小的次序将候选集中的所有待推荐的短视频进行排序,从而获得最终的短视频推荐列表。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种短视频推荐方法,其特征在于,包括有:
步骤一、获取用户对短视频的历史行为数据,所述用户历史行为数据包括有:用户历史点击短视频的id、类别id、作者id、封面图片、音乐、原时长、播放时长、点击时间戳、用户属性特征;
步骤二、选取若干位样本用户,根据样本用户对短视频的历史点击行为,构建每位样本用户的短视频点击序列,并从中选定样本用户的目标短视频和历史点击序列,计算每位样本用户对其目标短视频的观看深度,所述观看深度即用户对短视频的播放时长和短视频原时长的比值,然后由样本用户的目标短视频、历史点击序列、用户属性特征、对目标短视频的观看深度构成每条样本用户数据,并写入样本数据集中,所述历史点击序列进一步包括有:历史点击短视频id序列、历史点击短视频类别id序列、历史点击短视频作者id序列、历史点击短视频封面图片序列、历史点击短视频音乐序列;
步骤三、构建短视频推荐模型,并以样本数据集中的每条样本用户数据进行训练,短视频推荐模型对每条样本用户数据的处理过程如下:构建用于表征所有短视频id、短视频类别id和短视频作者id特征的嵌入式向量映射表,然后基于短视频的id、类别id、作者id的嵌入式向量和其封面图片对应的封面特征向量、音乐对应的音频特征向量,为用户的目标短视频和历史点击序列中的每条历史点击短视频构建相应的嵌入式向量,并根据每个历史点击短视频的嵌入式向量计算用户历史兴趣向量,再根据所有历史点击短视频的用户历史兴趣向量和目标短视频的嵌入式向量计算用户兴趣向量,最后根据目标短视频的嵌入式向量和用户兴趣向量计算输出用户对目标短视频的点击率;
步骤四、获取待推荐用户的历史点击序列,并将待推荐短视频作为待推荐用户的目标短视频,然后将待推荐用户的目标短视频、历史点击序列、用户属性特征输入至训练好的短视频推荐模型,并依据模型计算输出的用户对目标短视频的点击率以确定是否向用户推荐短视频,
步骤三中,短视频推荐模型对每条样本用户数据的处理过程进一步包括有:
步骤31、采用VGGNet网络,将样本用户数据中的目标短视频的封面图片和历史点击短视频封面图片序列中的所有历史点击短视频的封面图片分别转化成封面特征向量,然后由历史点击短视频封面图片序列中的所有封面图片转化后的封面特征向量构成历史点击短视频封面特征向量序列;
步骤32、将样本用户数据的目标短视频的音乐和历史点击短视频音乐序列中的所有历史点击短视频的音乐分别转化成音频特征向量,然后由历史点击短视频音乐序列中的所有音乐转化后的音频特征向量构成历史点击短视频音频特征向量序列,其中,将目标短视频的音乐或者历史点击短视频音乐序列中的任一历史点击短视频的音乐转化成音频特征向量的过程具体如下:先对短视频音乐的音频采样若干帧,利用MFCC技术提取每帧采样音频的音频特征向量,然后通过一个自注意力网络对所有采样音频的音频特征向量进行重新映射以获得每个采样音频对应的中间向量,最后将所有采样音频的中间向量通过一个全连接层,并对全连接层的输出进行平均池化,池化后的输出向量即是短视频音乐转化后的音频特征向量;
步骤33、为短视频id、短视频类别id、短视频作者id分别构建嵌入式向量映射表,然后从嵌入式向量映射表中查询获得样本用户的目标短视频和历史点击序列中每个历史点击短视频的id、类别id、作者id的嵌入式向量,最后通过concat操作,构建目标短视频和每个历史点击短视频的嵌入式向量,即将短视频的id的嵌入式向量、类别id的嵌入式向量、作者id的嵌入式向量、封面特征向量、音频特征向量合并成一个嵌入式向量,并由所有历史点击短视频的嵌入式向量构成历史点击短视频嵌入式向量序列;
步骤34、将历史点击短视频嵌入式向量序列中的所有历史点击短视频的嵌入式向量输入一个自注意力网络和一个全连接层,从而输出获得每个历史点击短视频的用户历史兴趣向量,并由所有历史点击短视频的用户历史兴趣向量构成用户历史兴趣向量序列;
步骤35、依次将用户历史兴趣向量序列中的每个历史点击短视频的用户历史兴趣向量和目标短视频的嵌入式向量的和、差、积拼接成一个输入向量,然后将输入向量输入至一个多层感知机MLP,MLP的输出即是每个历史点击短视频的兴趣权重,最后将MLP输出的所有历史点击短视频的兴趣权重通过softmax函数进行归一化计算,并根据归一化后的所有历史点击短视频的兴趣权重,计算获得用户兴趣向量:
Figure FDA0003867528820000021
其中,iT是用户兴趣向量,it是第t个短视频的用户历史兴趣向量,wt是归一化后的第t个短视频的兴趣权重,T是用户历史兴趣向量序列中的所有历史点击短视频数;
步骤36、通过concat操作,将用户兴趣向量iT和目标短视频的嵌入式向量eT拼接成一个向量Z,然后通过一个多层感知机,计算样本用户对目标短视频的点击率O:O=sigmoid(MLP(Z)),其中,MLP(Z)表示将向量Z输入多层感知机MLP后的输出值。
2.根据权利要求1所述的方法,其特征在于,对于每位样本用户,步骤二进一步包括有:根据样本用户的短视频点击行为,按样本用户点击短视频的时间戳由大到小的顺序进行排序,即由最近一次点击到最远一次点击进行排序,从而构成样本用户的短视频点击序列,短视频点击序列中的最近一次点击短视频是样本用户的目标短视频,最近一次点击短视频之前的所有短视频构成样本用户的历史点击序列,然后获取目标短视频和历史点击序列中的所有历史点击短视频的id、类别id、作者id、封面图片和音乐信息,并由所有历史点击短视频的id、类别id、作者id、封面图片和音乐分别构成历史点击短视频id序列、历史点击短视频类别id序列、历史点击短视频作者id序列、历史点击短视频封面图片序列、历史点击短视频音乐序列,同时计算样本用户对目标短视频的观看深度,最后由样本用户的目标短视频id、目标短视频的类别id、目标短视频的作者id、目标短视频的封面图片、目标短视频的音乐、历史点击短视频id序列、历史点击短视频类别id序列、历史点击短视频作者id序列、历史点击短视频封面图片序列、历史点击短视频音乐序列、对目标短视频的观看深度组成一条样本用户数据,并写入样本数据集中。
3.根据权利要求2所述的方法,其特征在于,步骤二还包括有:
从样本数据集中读取一条样本用户数据,然后从该样本用户未点击的短视频集合中随机选取一个短视频,从而为样本用户生成一条新的样本用户数据:将所读取样本用户数据中的目标短视频的id、类别id、作者id、封面图片和音乐替换成随机选取的短视频的id、类别id、作者id、封面图片和音乐,并将样本用户对目标短视频的观看深度修改成0,其他数据保持不变。
4.根据权利要求1所述的方法,其特征在于,步骤32中,每个采样音频对应的中间向量的计算公式如下:
Figure FDA0003867528820000031
其中,vi是第i帧采样音频的音频特征向量,vj是第j帧采样音频的音频特征向量,
Figure FDA0003867528820000032
是第i帧采样音频和第j帧采样音频之间的相关关系,
Figure FDA0003867528820000033
是第i帧采样音频对应的中间向量,d4是每帧采样音频的音频特征向量的维度,d5是中间向量
Figure FDA0003867528820000034
的维度,
Figure FDA0003867528820000035
分别是用于计算音频特征向量的自注意力网络Q、K、V的参数矩阵;
将所有采样音频的中间向量通过一个全连接层的计算公式如下:
Figure FDA0003867528820000036
其中,σ表示一层全连接网络,w5、b5是用于计算音频特征向量的全连接层的网络参数,
Figure FDA0003867528820000037
是中间向量
Figure FDA0003867528820000038
通过全连接层后的输出向量;
对全连接层的输出进行平均池化的计算公式如下:
Figure FDA0003867528820000039
其中,NC是短视频音乐的音频采样总帧数,h(5)是池化后的输出向量,即短视频音乐转化后的音频特征向量。
5.根据权利要求1所述的方法,其特征在于,步骤33中,首先为每个id的索引初始化对应的嵌入式向量,从而得到每个id的初始嵌入式向量映射表,嵌入式向量映射表会随着模型训练不断更新,在训练结束时得到最终的嵌入式向量映射表;
将短视频的id的嵌入式向量、类别id的嵌入式向量、作者id的嵌入式向量、封面特征向量、音频特征向量通过concat操作合成一个嵌入式向量的计算公式如下:e=concat(e(1),e(2),e(3),h(4),h(5)),其中,e是目标短视频或历史点击短视频的嵌入式向量,e(1)是目标短视频或历史点击短视频的id的嵌入式向量,e(2)是目标短视频或历史点击短视频的类别id的嵌入式向量,e(3)是目标短视频或历史点击短视频的作者id的嵌入式向量,h(4)是目标短视频或历史点击短视频的封面特征向量,h(5)是目标短视频或历史点击短视频的音频特征向量。
6.根据权利要求1所述的方法,其特征在于,步骤34中,将历史点击短视频嵌入式向量序列中的所有历史点击短视频的嵌入式向量输入一个自注意力网络,其计算公式如下:
Figure FDA0003867528820000041
其中,ctm是历史点击短视频嵌入式向量序列中的第t个短视频和第m个短视频之间的相关关系,rt是自注意力网络输出的第t个短视频的中间向量,et、em分别是第t个短视频和第m个短视频的嵌入式向量,dr是rt的维度,de是历史点击短视频的嵌入式向量的维度,
Figure FDA0003867528820000042
分别是用于计算用户历史兴趣向量的自注意力网络Q、K、V的参数矩阵;
通过全连接层的计算公式如下:
Figure FDA0003867528820000043
其中,it是全连接层的输出向量,即第t个短视频的用户历史兴趣向量,σ表示一层全连接网络,w1、b1是用于计算用户历史兴趣向量的全连接层的网络参数。
7.根据权利要求1所述的方法,其特征在于,步骤36之后还包括有:
步骤37、采用GBDT2NN模型,输入数据是样本用户数据中的用户属性特征,并输出获得样本用户对目标短视频的第二点击率O2
步骤38、根据样本用户对目标短视频的第二点击率,调整样本用户对目标短视频的点击率:Y=w1O+w2O2,其中,Y是调整后的样本用户对目标短视频的点击率,w1、w2分别是O、O2这两个点击率的权重系数。
8.根据权利要求1所述的方法,其特征在于,步骤三还包括有:
采用一个附加网络,根据每个历史点击短视频的用户历史兴趣向量,预估用户对每个历史点击短视频的观看深度,具体计算公式如下:
Figure FDA0003867528820000044
其中,dt是用户对第t个短视频的观看深度,it是第t个短视频的用户历史兴趣向量,σ表示一层全连接网络,w2、b2是附加结构的全连接层的网络参数,
在短视频推荐模型的训练过程中,对点击率预估部分采用交叉熵损失函数:
Figure FDA0003867528820000045
Figure FDA0003867528820000051
其中,N为样本数据集中的样本数据个数,xu表示一条样本用户数据,y′u是该训练样本的标签,并且y′u∈{0,1},yu是模型输出的用户对目标短视频的点击率,即该样本标签的预测值,yu∈(0,1),
对观看深度的附加损失采用均方差损失函数:
Figure FDA0003867528820000052
其中,T是样本用户的所有历史点击短视频数,Dut为样本xu中用户点击的第t个短视频的观看深度,dut是附加网络输出的样本xu中用户对第t个短视频的观看深度的预估值,两者均为连续数值,
将点击率损失和附加损失相加,即为短视频推荐模型训练最终的损失函数:L=Lp+αLD,其中,α是损失权重系数。
9.根据权利要求1所述的方法,其特征在于,步骤四中进一步包括有:
将候选集中的所有待推荐的短视频逐一作为待推荐用户的目标短视频,根据短视频推荐模型计算输出的用户对目标短视频的点击率,按照从大到小的次序将候选集中的所有待推荐的短视频进行排序,从而获得最终的短视频推荐列表。
CN202110710623.8A 2021-06-25 2021-06-25 一种短视频推荐方法 Expired - Fee Related CN113268633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110710623.8A CN113268633B (zh) 2021-06-25 2021-06-25 一种短视频推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110710623.8A CN113268633B (zh) 2021-06-25 2021-06-25 一种短视频推荐方法

Publications (2)

Publication Number Publication Date
CN113268633A CN113268633A (zh) 2021-08-17
CN113268633B true CN113268633B (zh) 2022-11-11

Family

ID=77235894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110710623.8A Expired - Fee Related CN113268633B (zh) 2021-06-25 2021-06-25 一种短视频推荐方法

Country Status (1)

Country Link
CN (1) CN113268633B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395504B (zh) * 2020-12-01 2021-11-23 中国计量大学 一种基于序列胶囊网络的短视频点击率预测方法
CN113822742B (zh) * 2021-09-18 2023-05-12 电子科技大学 一种基于自注意力机制的推荐方法
CN114339417B (zh) * 2021-12-30 2024-05-10 未来电视有限公司 一种视频推荐的方法、终端设备和可读存储介质
CN114449328A (zh) * 2022-01-26 2022-05-06 北京百度网讯科技有限公司 视频封面的展示方法、装置、电子设备及可读存储介质
CN114647785A (zh) * 2022-03-28 2022-06-21 北京工业大学 基于情感分析的短视频获赞数量预测方法
CN117150075B (zh) * 2023-10-30 2024-02-13 轻岚(厦门)网络科技有限公司 一种基于数据分析的短视频智能推荐***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109874053A (zh) * 2019-02-21 2019-06-11 南京航空航天大学 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN112822526A (zh) * 2020-12-30 2021-05-18 咪咕文化科技有限公司 视频推荐方法、服务器和可读存储介质
CN112905876A (zh) * 2020-03-16 2021-06-04 腾讯科技(深圳)有限公司 基于深度学习的信息推送方法、装置和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9535897B2 (en) * 2013-12-20 2017-01-03 Google Inc. Content recommendation system using a neural network language model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109874053A (zh) * 2019-02-21 2019-06-11 南京航空航天大学 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN112905876A (zh) * 2020-03-16 2021-06-04 腾讯科技(深圳)有限公司 基于深度学习的信息推送方法、装置和计算机设备
CN112822526A (zh) * 2020-12-30 2021-05-18 咪咕文化科技有限公司 视频推荐方法、服务器和可读存储介质

Also Published As

Publication number Publication date
CN113268633A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN113268633B (zh) 一种短视频推荐方法
CN111246256B (zh) 基于多模态视频内容和多任务学习的视频推荐方法
Cao et al. Deep neural networks for learning graph representations
US11928957B2 (en) Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration
WO2021139415A1 (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN111782833B (zh) 基于多模型网络的细粒度跨媒体检索方法
CN112100440B (zh) 视频推送方法、设备及介质
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
WO2023272748A1 (zh) 一种面向学术精准推荐的异质科研信息集成方法及***
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN105701516B (zh) 一种基于属性判别的自动图像标注方法
CN114048351A (zh) 一种基于时空关系增强的跨模态文本-视频检索方法
CN114020999A (zh) 一种电影社交网络的社区结构检测方法及***
CN113590965B (zh) 一种融合知识图谱与情感分析的视频推荐方法
CN115964560A (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN116680363A (zh) 一种基于多模态评论数据的情感分析方法
Zhu et al. Learning spatiotemporal interactions for user-generated video quality assessment
CN117556142A (zh) 一种基于注意力网络的会话感知推荐方法、装置和介质
CN115640418B (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN116403608A (zh) 基于多标签纠正和时空协同融合的语音情感识别方法
CN115758159A (zh) 基于混合对比学习和生成式数据增强的零样本文本立场检测方法
CN115545147A (zh) 一种动态认知诊断联合深度学习模型的认知干预***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221111