WO2020215962A1

WO2020215962A1 - 视频推荐方法、装置、计算机设备及存储介质

Info

Publication number: WO2020215962A1
Application number: PCT/CN2020/081052
Authority: WO
Inventors: 苏舟; 刘书凯; 孙振龙; 饶君; 丘志杰; 刘毅; 刘祺; 王良栋; 商甜甜; 梁铭霏; 陈磊; 张博
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-04-23
Filing date: 2020-03-25
Publication date: 2020-10-29
Also published as: US20210281918A1; CN110149541A; US11540019B2; CN110149541B

Abstract

一种视频推荐方法，包括：将视频输入第一特征提取网络，对该视频中的至少一个连续视频帧进行特征提取，输出该视频的视频特征；将用户的用户数据输入第二特征提取网络，对离散的该用户数据进行特征提取，输出该用户的用户特征；基于该视频特征和该用户特征进行特征融合，得到对该用户推荐该视频的推荐概率；及根据该推荐概率，确定是否对该用户推荐该视频。

Description

视频推荐方法、装置、计算机设备及存储介质

本申请要求于2019年04月23日提交中国专利局，申请号为201910330212.9、发明名称为“视频推荐方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及机器学习领域，特别涉及一种视频推荐方法、装置、计算机设备及存储介质。

背景技术

随着网络技术的发展，越来越多的用户能够通过终端随时地观看视频，服务器可以从海量的视频数据库中为用户推荐一些用户可能感兴趣的视频，从而能够更好的满足用户的视频观看需求。

在推荐过程中，服务器可以基于注意力协同(attentive collaborative filtering，ACT)模型提取视频库中任一视频与用户之间的联合特征，对视频库中的每个视频重复执行上述步骤，获取到与多个视频对应的多个联合特征，进一步根据多个联合特征在两两之间的欧几里得距离，得到所有联合特征的排序，从而将排序靠前的联合特征所对应的视频推荐给用户。

然而，由于用户特征通常种类多、维度低，而视频特征通常种类少、维度高，可见用户特征与视频特征的性质差别巨大，而在上述ACT模型中，由于用户特征与视频特征的性质差别，会容易丢失用户特征和视频特征中的信息，还容易引发ACT模型的梯度弥散，影响了视频推荐的准确度。

发明内容

本发明实施例提供了一种视频推荐方法、装置、计算机设备及存储介质,一种推荐视频展示方法、装置、电子设备和存储介质。

一种视频推荐方法，由计算机设备执行，该方法包括：

将视频输入第一特征提取网络，通过该第一特征提取网络对该视频中的至少一个连续视频帧进行特征提取，输出该视频的视频特征；

将用户的用户数据输入第二特征提取网络，通过该第二特征提取网络对离散的该用户数据进行特征提取，输出该用户的用户特征；

基于该视频特征和该用户特征进行特征融合，得到对该用户推荐该视频的推荐概率；及

根据该推荐概率，确定是否对该用户推荐该视频。

一种推荐视频展示方法，由电子设备执行，该方法包括：

显示视频展示界面，该视频展示界面中包括至少一个第一推荐视频；

当检测到对任一第一推荐视频的点击操作时，响应于该点击操作，将该第一推荐视频的观看记录发送至服务器，该观看记录用于指示该服务器基于该观看记录对视频推荐模型进行优化训练，并实时返回至少一个第二推荐视频的视频信息；及

当接收到该至少一个第二推荐视频的视频信息时，基于该至少一个第二推荐视频的视频信息，在该视频展示界面中展示该至少一个第二推荐视频。

一种视频推荐装置，该装置包括：

第一输出模块，用于将视频输入第一特征提取网络，通过该第一特征提取网络对该视频中的至少一个连续视频帧进行特征提取，输出该视频的视频特征；

第二输出模块，用于将用户的用户数据输入第二特征提取网络，通过该第二特征提取网络对离散的该用户数据进行特征提取，输出该用户的用户特征；

融合得到模块，用于基于该视频特征和该用户特征进行特征融合，得到对该用户推荐该视频的推荐概率；及

确定推荐模块，用于根据该推荐概率，确定是否对该用户推荐该视频。

在其中一个实施例中，该第一输出模块包括：

卷积提取单元，用于将视频中的至少一个连续视频帧分别输入第一特征提取网络中的时间卷积网络和卷积神经网络，通过该时间卷积网络和该卷积神经网络对该至少一个连续视频帧进行卷积处理，提取该视频的视频特征。

在其中一个实施例中，该卷积提取单元包括：

因果卷积子单元，用于将视频中的至少一个连续视频帧所包括的至少一个图像帧输入第一特征提取网络中的时间卷积网络，通过该时间卷积网络对该至少一个图像帧进行因果卷积，得到该视频的图像特征；

卷积处理子单元，用于将该至少一个连续视频帧所包括的至少一个音频帧输入第一特征提取网络中的卷积神经网络，通过该卷积神经网络对该至少一个音频帧进行卷积处理，得到该视频的音频特征；及

融合子单元，用于将该视频的图像特征与该视频的音频特征进行特征融合，得到该视频的视频特征。

在其中一个实施例中，该融合子单元用于：

将该视频的图像特征与该视频的音频特征进行双线性汇合处理，得到该视频的视频特征。

在其中一个实施例中，该第二输出模块包括：

第一输入单元，用于将该用户的用户数据输入第二特征提取网络；

第一线性组合单元，用于通过该第二特征提取网络中的宽度部分，对离散的该用户数据进行广义线性组合，得到该用户的宽度特征；

第一嵌入卷积单元，用于通过该第二特征提取网络中的深度部分，对离散的该用户数据进行嵌入处理和卷积处理，得到该用户的深度特征；及

第一融合单元，用于对该用户的宽度特征和该用户的深度特征进行特征融合，得到该用户的用户特征。

在其中一个实施例中，该第一融合单元用于：

通过全连接层对该用户的宽度特征和该用户的深度特征进行级联，得到该用户的用户特征。

在其中一个实施例中，该融合得到模块用于：

对该视频特征和该用户特征进行点乘处理，得到对该用户推荐该视频的推荐概率。

在其中一个实施例中，该装置还包括：

第三输入模块，用于将与该视频对应的文本输入第三特征提取网络，通过该第三特征提取网络对离散的该文本进行特征提取，输出与该视频对应的文本特征。

在其中一个实施例中，该第三输入模块包括：

第二输入单元，用于将该文本输入第三特征提取网络；

第二线性组合单元，用于通过该第三特征提取网络中的宽度部分，对离散的该文本进行广义线性组合，得到该文本的宽度特征；

第二嵌入卷积单元，用于通过该第三特征提取网络中的深度部分，对离散的该文本进行嵌入处理和卷积处理，得到该文本的深度特征；及

第二融合单元，用于对该文本的宽度特征和该文本的深度特征进行特征融合，得到与该视频对应的文本特征。

在其中一个实施例中，该第二融合单元用于：

通过全连接层对该文本的宽度特征和该文本的深度特征进行级联，得到该与该视频对应的文本特征。

在其中一个实施例中，该第二融合单元还用于通过全连接层对该文本的宽度特征和该文本的深度特征进行级联，得到与该视频对应的文本特征。

在其中一个实施例中，该融合得到模块包括：

第三融合单元，用于对该视频特征和该用户特征进行特征融合，得到该视频与该用户之间的第一关联特征；

该第三融合单元，还用于对该文本特征和该用户特征进行特征融合，得到该文本与该用户之间的第二关联特征；及

点乘单元，用于对该第一关联特征和该第二关联特征进行点乘处理，得到对该用户推荐该视频的推荐概率。

在其中一个实施例中，该第三融合单元用于：

将该视频特征与该用户特征进行双线性汇合处理，得到该视频与该用户之间的第一关联特征；

该第三融合单元还用于：

将该文本特征与该用户特征进行双线性汇合处理，得到该文本与该用户之间的第二关联特征。

在其中一个实施例中，该确定推荐模块用于：

当该推荐概率大于概率阈值时，确定为该用户推荐该视频；及

当该推荐概率小于或等于该概率阈值时，确定不为该用户推荐该视频。

在其中一个实施例中，该确定推荐模块用于：

对多于一个视频中的每个视频，重复执行生成推荐概率的操作，得到多于一个推荐概率；

获取每个推荐概率分别在该多于一个推荐概率中从大到小的概率排序，当该概率排序小于或等于目标阈值时，确定为该用户推荐相应概率排序所对应的该视频；及

当该概率排序大于该目标阈值时，确定不为该用户推荐相应概率排序所对应的该视频。

一种推荐视频展示装置，该装置包括：

显示模块，用于显示视频展示界面，该视频展示界面中包括至少一个第一推荐视频；

发送模块，用于当检测到对任一第一推荐视频的点击操作时，响应于该点击操作，将该第一推荐视频的观看记录发送至服务器，该观看记录用于指示该服务器基于该观看记录对视频推荐模型进行优化训练，并实时返回至少一个第二推荐视频的视频信息；及

展示模块，用于当接收到该至少一个第二推荐视频的视频信息时，基于该至少一个第二推荐视频的视频信息，在该视频展示界面中展示该至少一个第二推荐视频。

一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有计算机可读指令，该计算机可读指令被该处理器执行时，使得该处理器执行如上所述的视频推荐方法的步骤。

一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有计算机可读指令，该计算机可读指令被该处理器执行时，使得该处理器执行如上所述的推荐视频展示方法的步骤。

一种非易失性的计算机可读存储介质，存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，使得该一个或多个处理器执行如上所述的视频推荐方法的步骤，或，如上所述的推荐视频展示方法的步骤。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频推荐方法的实施环境示意图；

图2是本发明实施例提供的一种视频推荐方法的交互流程图；

图3是本发明实施例提供的一种视频展示界面的示意图；

图4是本发明实施例提供的一种视频推荐方法的流程图；

图5是本发明实施例提供的一种时间卷积网络的示意图；

图6是本发明实施例提供的一种时间卷积网络的示意图；

图7是本发明实施例提供的一种第二特征提取网络的示意图；

图8是本发明实施例提供的一种视频推荐方法的示意图；

图9是本发明实施例提供的一种视频推荐方法的流程图；

图10是本发明实施例提供的一种视频推荐装置的结构示意图；

图11是本发明实施例提供的一种推荐视频展示装置的结构示意图；

图12是本发明实施例提供的计算机设备的结构示意图；

图13是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种视频推荐方法的实施环境示意图。参见图1，在该实施环境中可以包括至少一个终端101和服务器102，各终端101和服务器102分别通过网络连接进行通信。

其中，该至少一个终端101用于浏览视频，该服务器102用于向该至少一个终端101所对应的至少一个用户推荐视频。

在一些实施例中，该至少一个终端101中每个终端上都可以安装有应用客户端，该应用客户端可以是任一能够提供视频浏览服务的客户端，使得服务器102可以基于用户在该应用客户端上的行为日志，收集样本用户数据和样本视频，从而根据该样本用户数据和样本视频，训练得到第一特征提取网络、第二特征提取网络以及第三特征提取网络。

在上述基础上，服务器102能够基于第一特征提取网络、第二特征提取网络以及第三特征提取网络，对任一用户确定是否推荐任一视频，从而在一些实施例中，服务器102能够从多个视频中为每个用户筛选出至少一个视频，从而可以实现对用户进行视频推荐，服务器102将确定推荐的至少一个视频发送至该至少一个终端101之后，该至少一个终端101可以基于视频展示界面来展示至少一个推荐视频，其中，该至少一个推荐视频也即是服务器为该终端所对应的用户推荐的至少一个视频。

图2是本发明实施例提供的一种视频推荐方法的交互流程图，参见图2，该实施例应用于计算机设备和电子设备的交互过程中，本发明仅以该计算机设备为服务器，该电子设备为终端为例进行说明，该实施例包括：

S201、服务器将视频输入第一特征提取网络，通过该第一特征提取网络对该视频中的至少一个连续视频帧进行特征提取，输出该视频的视频特征。

其中，该视频可以是本地视频库中的任一视频，该视频也可以是从云端下载的任一视频，该视频可以包括至少一个连续视频帧。

S202、服务器将用户的用户数据输入第二特征提取网络，通过该第二特征提取网络对离散的该用户数据进行特征提取，输出该用户的用户特征。

其中，该用户可以是任一终端所对应的用户，该用户数据可以包括用户个人信息和视频偏好，该个人信息可以包括用户性别、用户年龄、用户所在地域或者用户职业中的至少一项，该个人信息可以是用户向服务器授权的信息。该视频偏好可以由服务器对用户的视频观看行为日志进行数据分析来得到。

在一些实施例中，由于用户数据中的个人信息、及视频偏好等通常是一个或多个孤立的词向量，因此用户数据是离散的，此时将离散的用户数据输入第二特征提取网络之后，通过第二特征提取网络的作用，能够将离散的用户数据转换为一个连续的特征向量，该特征向量能够体现出离散的各个用户数据的联合特征。

S203、服务器基于该视频特征和该用户特征进行特征融合，得到对该用户推荐该视频的推荐概率。

在一些实施例中，服务器可以对视频特征和用户特征进行点乘处理，也即是对该视频特征和该用户特征求内积，将该视频特征和该用户特征中对应位置的数值相乘后进行求和所得到的数值获取为推荐概率。

S204、服务器根据该推荐概率，确定是否对该用户推荐该视频。

在步骤S204中，服务器根据该推荐概率，确定是否对该用户推荐该视频，而对于不同的用户以及不同的视频，服务器均可以执行上述步骤S201-S204中的视频推荐流程，从而能够确定是否对任一用户推荐任一视频。在本发明实施例中，执行下述步骤S205，是以对同一个用户确定至少一个第一推荐视频为例进行说明，而对于不同的用户，是类似的过程，这里不再赘述。

S205、服务器重复执行上述步骤S201-S204，确定对该用户推荐的至少一个第一推荐视频，将该至少一个第一推荐视频的视频信息发送至该用户所对应的终端。

在步骤S205中，服务器可以为第一推荐视频设置推荐数量阈值，该推荐数量阈值可以是任一大于或等于1的数值，对于不同的用户，该推荐数量阈值可以相同也可以不同。

在一些实施例中，服务器可以对用户观看视频的行为日志进行分析，使得与该用户对应的推荐数量阈值与该用户的日均视频观看时长成正相关，也即是当用户日均视频观看时长越长时，与该用户对应的第一推荐视频的数量越多。例如，如果用户日均视频观看时长为1小时，可以为用户的终端发送2个第一推荐视频，而如果用户日均视频观看时长为3小时，可以为用户的终端发送6个第一推荐视频。

S206、终端接收该至少一个第一推荐视频的视频信息。

其中，该视频信息可以是该至少一个第一推荐视频的缩略图、网页链接或者文本中的至少一项。例如，对某一个第一推荐视频而言，该视频信息可以包括该第一推荐视频的缩略图、网页链接、标题、作者信息和摘要，本发明实施例不对该视频信息的内容进行具体限定。当然，该视频信息也可以就是该至少一个第一推荐视频本身，从而避免了终端在后续交互过程中频繁地向服务器发送访问请求。

S207、当终端检测到用户对视频功能入口的点击操作时，显示视频展示界面，该视频展示界面中包括至少一个第一推荐视频。

其中，该视频功能入口可以是终端上任一支持视频展示的应用客户端所提供的，该视频展示界面上可以包括至少一个用户交互(user interface，UI)卡片，每个用户交互卡片用于展示一个第一推荐视频。当然，该视频展示界面上也可以包括至少一个窗口，每个窗口用于展示一个第一推荐视频，本发明实施例不对在视频展示界面中展示第一推荐视频的形式进行具体限定。

在一些实施例中，该视频功能入口可以是应用客户端的主界面上的一个功能选项，从而当终端检测到用户对该功能选项的点击操作时，从该应用客户端的主界面切换显示该视频展示界面。图3是本发明实施例提供的一种视频展示界面的示意图，参见图3，终端可以在该视频展示界面上展示多个第一推荐视频。

当然，在一些实施例中，该视频功能入口也可以是该应用客户端的图标，使得当终端检测到对该应用客户端的图标的点击操作时，终端直接启动该应用客户端，显示该视频展示界面，这种情况也即是该应用客户端的主界面为该视频展示界面。

其中，该至少一个第一推荐视频基于多个推荐概率确定，一个推荐概率可以是基于第一特征提取网络输出的当前用户的用户特征、第二特征提取网络输出的待推荐视频的视频特征或者第三特征提取网络输出的文本特征中的至少一项进行融合所得到的概率。

在上述步骤S207中，终端可以仅在视频展示界面中展示该至少一个第一推荐视频的视频信息，当检测到用户对任一第一推荐视频的点击操作时，向该第一推荐视频所对应的网页链接发送访问请求，从而在本地缓存该第一推荐视频，基于视频展示控件播放该第一推荐视频，能够节约终端的存储空间，提升终端的处理效率。

在一些实施例中，终端还可以在显示视频展示界面的同时，对该至少一个第一推荐视频中每个第一推荐视频所对应的网页链接均发送访问请求，在本地缓存该至少一个第一推荐视频，当检测到用户对任一第一推荐视频的点击操作时，直接基于视频展示控件播放该第一推荐视频，从而能够在显示视频展示界面的时候就完成界面上每个第一推荐视频的加载过程，当用户点击时能够及时播放第一推荐视频，从而缩短用户等待视频加载的时长，优化了视频推荐的效果。

当然，如果服务器直接将该至少一个第一推荐视频发送至终端，那么终端还可以在显示该视频展示界面后，直接自动播放推荐概率最高的视频，从而可以简化视频播放的流程。

S208、当终端检测到对任一第一推荐视频的点击操作时，响应于该点击操作，将该第一推荐视频的观看记录发送至服务器，该观看记录用于指示该服务器基于该观看记录对视频推荐模型进行优化训练，并实时返回至少一个第二推荐视频的视频信息。

在上述过程中，终端响应于用户对任一第一推荐视频的点击操作，将该第一推荐视频的观看记录发送至服务器，该观看记录可以包括该第一推荐视频的曝光时长、累计观看次数等。

S209、当服务器接收到该观看记录，基于该观看记录对视频推荐模型进行优化训练，根据优化训练后的视频推荐模型确定至少一个第二推荐视频，将该至少一个第二推荐视频的视频信息发送至终端。

其中，该视频推荐模型包括第一特征提取网络、第二特征提取网络或者第三特征提取网络中的至少一项。

在上述训练过程中，服务器能够收集各个用户对各个第一推荐视频的观看记录，基于该观看记录，将曝光时长大于预设时长的第一推荐视频标记为优化训练过程中的正例(也即是标记为真)，将曝光时长小于或等于该预设时长的第一推荐视频标记为优化训练过程中的负例(也即是标记为假)，具体训练过程与下述实施例中的视频推荐方法类似，只是需要将视频替换为经过标记后的第一推荐视频，这里不做赘述，通过上述步骤S209能够实现对视频推荐模型的动态优化训练。

上述确定第二推荐视频以及发送第二推荐视频的视频信息的过程与上述步骤S201-S205类似，这里不做赘述。

S210、当终端接收到该至少一个第二推荐视频的视频信息时，基于该至少一个第二推荐视频的视频信息，在该视频展示界面中展示至少一个第二推荐视频。

上述步骤S210与步骤S206-S207类似，这里不做赘述。

在上述过程中，当终端检测到用户对任一第一推荐视频的点击操作时，终端响应于点击操作向服务器发送观看记录，而服务器即刻对视频推荐模型中的各个特征提取网络进行优化训练，然后确定至少一个第二推荐视频，从而由终端对各个第二推荐视频进行展示，使得在用户点击某一第一推荐视频之前和点击该第一推荐视频之后，在视频展示界面中会显示不同的推荐结果。

例如，服务器原本预测某一用户喜欢猫的视频的概率和喜欢狗的视频的概率一样大，因此确定的10个第一推荐视频中包括5个猫的视频和5个狗的视频，而当用户点击了终端上推送的猫的视频并且曝光时间大于预设时长时，终端向服务器发送观看记录，服务器将猫的视频标记为正例后，对视频推荐模型中的各个特征提取网络进行优化训练，由于猫的视频正例数量增加了1个，从而可能会使得服务器预测该用户喜欢猫的视频的概率大于喜欢狗的视频的概率，从而在新一轮预测过程中，确定的10个第二推荐视频中包括7个猫的视频和3个狗的视频。

在一些实施例中，服务器还可以在接收到观看记录之后，不即刻执行优化训练的过程，而是定时对视频推荐模型中的各个特征提取网络进行优化训练，例如，服务器在每天的零点根据前一天的一个或多个观看记录进行优化训练，向终端发送第二推荐视频，使得终端对视频展示界面中展示的推荐视频进行更新，从而避免了每增加一个观看记录就对视频推荐模型中的各个特征提取网络训练一次，改善了特征提取网络的性能颠簸问题，增加了特征提取网络的稳定性。

本发明实施例提供的方法，通过将视频输入第一特征提取网络，通过该第一特征提取网络对该视频中的至少一个连续视频帧进行特征提取，输出该视频的视频特征，由于视频特征种类少、维度高，从而在不增加太大的计算压力的情况下，有针对性地提取高维度的视频特征，将用户的用户数据输入第二特征提取网络，通过该第二特征提取网络对离散的用户数据进行特征提取，输出该用户的用户特征，由于用户特征种类多、维度低，从而可以基于第二特征提取网络，有针对性地提取低维度的用户特征，减小了提取用户特征的计算压力，基于该视频特征和该用户特征进行特征融合，得到对该用户推荐该视频的推荐概率，根据该推荐概率，确定是否对该用户推荐该视频，从而对于性质差别较大的用户特征和视频特征，分别采用不同的网络进行特征提取，避免了丢失用户特征和视频特征中的信息，改善了梯度弥散的问题，提高了视频推荐的准确度。

另一方面，在终端侧显示视频展示界面，在该视频展示界面上展示至少一个第一推荐视频，当检测到用户对任一第一推荐视频的点击操作时，响应于该点击操作，将该推荐视频的观看记录发送至服务器，从而能够及时向用户反馈本次第一推荐视频的质量优劣，使得服务器能够基于该观看记录对该第一推荐视频进行真假样本的区分标记，将该第一推荐视频作为新一轮优化训练中的样本视频，实现了对视频推荐模型的动态优化训练，并且服务器还可以根据优化训练后的视频推荐模型向终端返回至少一个第二推荐视频的视频信息，当终端接收到至少一个第二推荐视频的视频信息时，基于该至少一个第二推荐视频的视频信息，在该视频展示界面中展示该至少一个第二推荐视频，使得随着用户的点击操作，能够在视频展示界面上实时更新展示推荐准确率更高的推荐视频。

上述实施例提供了一种终端与服务器进行交互的视频推荐过程，服务器在确定任一推荐视频后，向终端推送该推荐视频，使得终端基于视频展示界面对该推荐视频进行展示，当用户点击推荐视频后，还能够对视频展示界面中的推荐视频进行更新，在本发明实施例中将从服务器侧如何确定推荐视频进行详述，当确定了推荐视频后仍然可以执行与上述实施例中步骤S206-S210类似的终端侧显示过程，在本发明实施例中不作赘述。

图4是本发明实施例提供的一种视频推荐方法的流程图，参见图4，该实施例应用于计算机设备，本发明实施例仅以该计算机设备为服务器为例进行说明，该方法包括：

S401、服务器将视频的至少一个连续视频帧所包括的至少一个图像帧输入第一特征提取网络中的时间卷积网络，通过该时间卷积网络对该至少一个图像帧进行因果卷积，得到该视频的图像特征。

其中，该视频可以是本地视频库中的任一视频，该视频也可以是从云端下载的任一视频，该视频可以包括至少一个连续视频帧，而该至少一个连续视频帧中可以包括至少一个图像帧和至少一个音频帧，也即是每个连续视频帧包括一个图像帧和一个音频帧。可以理解，该至少一个图像帧可以表现为序列、数组或者链表等形式，本发明实施例不对图像帧的表现形式进行具体限定。

其中，该视频的图像特征可以包括与该至少一个图像帧所对应的至少一个图像帧特征，一个图像帧特征用于表示一个图像帧的图像特征以及该图像帧和该图像帧之前的图像帧之间的关联关系。

在一些实施例中，在该第一特征提取网络内，可以包括一个时间卷积网络(temporal convolutional networks，TCN)和一个卷积神经网络(convolutional neural networks,CNN)，其中，该TCN可以用于提取图像特征，该CNN可以用于提取音频特征，在下述步骤402中将对CNN进行详述，这里不再赘述。

基于上述情况，当服务器将视频的至少一个连续视频帧输入该第一特征提取网络时，对该至少一个连续视频帧中的至少一个图像帧和至少一个音频帧进行分离，分别将该至少一个图像帧输入TCN，TCN独立地提取该视频的图像特征，将该至少一个音频帧输入CNN，CNN独立地提取该视频的音频特征，进一步地，对TCN输出的图像特征和CNN输出的音频特征进行特征融合，从而可以得到该视频的视频特征。

可选地，在TCN中可以包括输入层、至少一个隐藏层和输出层，该输入层用于对输入的图像帧进行解码处理，该至少一个隐藏层用于对经过解码后的图像帧进行因果卷积(causal convolutions)，该输出层用于对经过因果卷积后的图像帧进行非线性处理和归一化处理。

在上述TCN中，该输入层、该至少一个隐藏层和该输出层串行连接，在特征提取的过程中上述串行连接也即是：服务器向输入层输入该视频的至少一个图像帧，将输入层解码后的至少一个图像帧输入第一个隐藏层，将第一个隐藏层输出的至少一个特征图(feature map)输入第二个隐藏层，依此类推，直到将最后一个隐藏层输出的至少一个特征图输入至输出层，输出层所输出的至少一个图像帧特征即为TCN提取到的该视频的图像特征。

在上述架构中，每个隐藏层内可以包括至少一个卷积核(filter)，对于任一个隐藏层，在对上一个隐藏层输出的至少一个特征图进行因果卷积时，在传统的CNN框架中，一个卷积核用于对一个特征图进行卷积，而在本发明实施例所提供的TCN中，一个卷积核用于对多个特征图进行卷积，这种卷积即称为“因果卷积”，其中，上述多个特征图可以是当前时刻的特征图，以及与当前时刻之前至少一个时刻所对应的至少一个特征图。

基于上述架构，在步骤S401中，服务器将该至少一个图像帧输入TCN，通过TCN的至少一个隐藏层对该至少一个图像帧进行因果卷积，输出与该至少一个图像帧对应的至少一个图像帧特征，从而将该至少一个图像帧特征确定为该视频的图像特征。

在一些实施例中，进行因果卷积时在任一个隐藏层中，对上一隐藏层输出的至少一个特征图中任一时刻的特征图，根据该隐藏层内与该时刻所对应的卷积核，分别对该时刻的特征图以及该时刻之前的至少一个时刻所对应的至少一个特征图进行卷积，将得到的多个特征图进行叠加后，得到当前隐藏层输出的该时刻的特征图。需要说明的是，这里所说的“叠加”是指将该多个特征图中对应位置的数值直接相加。

例如，图5是本发明实施例提供的一种时间卷积网络的示意图，参见图5，在第一个隐藏层中，当对输入层T时刻的图像帧进行因果卷积时，根据第一个隐藏层中的第T个卷积核，对输入层的T时刻、T-1时刻和T-2时刻这三个时刻的三个图像帧进行卷积，得到第一个隐藏层中T时刻的特征图，其中，T为大于或等于0的任一数值。需要说明的是，在图5所示的TCN框架中，一个卷积核用于对三个特征图进行卷积，但在一些实施例中，TCN中一个卷积核可以对任一大于或等于2的数量的特征图进行卷积，图5不应构成对TCN中每次因果卷积所包含的特征图数量的具体限定。

通过引入因果卷积操作，相较于传统的CNN框架，TCN的层与层之间具有因果关系，并且可以在当前层考虑到上一层中具有时序关联的图像帧之间的相关性信息，也就使得输出层中的每个图像帧特征既可以表示一个图像帧的图像特征，又可以表示该图像帧与该图像帧之前的图像帧之间的关联关系。进一步地，相较于通常具有较好记忆能力的长短期记忆网络(long short-term memory，LSTM)框架，由于LSTM中包含有遗忘门，在处理过程中无法避免地会遗漏一些历史信息，然而由于TCN中不需要设置遗忘门，也就避免了造成历史信息的遗漏，并且随着TCN深度的增加，因果卷积后得到的特征图可以包括输入层内图像数据的每一个图像帧的信息。

在一些实施例中，在进行因果卷积时，可以对上一隐藏层所输出的至少一个特征图进行补零(zero padding)处理，在每个特征图的外周添加至少一个零填充层，该零填充层的个数可以根据卷积核的尺寸以及因果卷积的步长来确定，从而能够保证每个隐藏层所输出的特征图与输入的特征图的尺寸是一致的。

在一些实施例中，上述每个隐藏层中的任一卷积核还可以是空洞卷积(dilated convolutions，又称扩张卷积)核，该空洞卷积核是指在原卷积核中相邻的元素之间***至少一个零元素所构成的新卷积核，由于空洞卷积核在空洞处一律填充为0，没有获取新的卷积核参数，从而可以在不额外增加卷积核参数的情况下，有效地扩大了卷积核的尺寸，增大了感受野(receptive field)的尺寸，能够得到更好的拟合效果，进一步地能够减少TCN中隐藏层的层数，减少TCN训练过程的计算量，缩短TCN的训练时长。

需要说明的是，在上述情况中，当卷积核为空洞卷积核时，也同样进行因果卷积操作，也即是一个空洞卷积核也用于对多个特征图进行卷积，可选地，该多个特征图可以是在时序上相邻的特征图，也可以是在时序上不相邻的特征图，当该多个特征图在时序上不相邻时，该多个特征图中相邻的特征图之间所具有的时序间隔可以相同，也可以不同，本发明实施例不对相邻的特征图之间所具有的时序间隔是否相同进行具体限定。

在一些实施例中，当该多个特征图在时序上不相邻，且具有相同的时序间隔时，可以通过为每个隐藏层设置一个大于或等于1的扩张系数d，且d为正整数，将该时序间隔确定为d-1，使得该时序间隔为大于或等于0的正整数，从而能够将时序上相邻(也即是时序间隔d-1＝0)的情况视为扩张系数d＝1的一种特殊情况。需要说明的是，在不同隐藏层的扩张系数可以相同也可以不同，本发明实施例不对该扩张系数的取值进行具体限定，当然，服务器也可以将时序间隔作为一种超参数直接进行设置，本发明实施例也不对是否设置扩张系数进行具体限定。

基于上述示例，参见图5，在第一个隐藏层中进行因果卷积时，采用了扩张系数d＝1的空洞卷积核，对T时刻、T-1时刻和T-2时刻的图像帧进行因果卷积，能够完整的提取输入层中各个图像帧的特征以及关联关系，而在第二个隐藏层中进行因果卷积时，采用了扩张系数d＝2的空洞卷积核，每次因果卷积时选择的相邻特征图之间间隔了1个特征图，对T时刻、T-2时刻和T-4时刻的图像帧所对应的特征图进行因果卷积，而在第三个隐藏层中，采用了扩张系数d＝4的空洞卷积核，每次因果卷积时选择的相邻特征图之间间隔了3个特征图，对T时刻、T-4时刻和T-8时刻的图像帧所对应的特征图进行因果卷积，从而可以减少TCN中隐藏层的层数，减少TCN训练过程的计算量，缩短TCN的训练时长，另一方面，在每次进行因果卷积时采用空洞卷积核，有效地扩大了卷积核的尺寸，增大了感受野的尺寸，能够得到更好的拟合效果。

在一些实施例中，该至少一个隐藏层之间可以采用残差连接，该残差连接也即是：对于每个隐藏层来说，可以将上一隐藏层所输出的任一特征图与当前隐藏层所输出的对应的特征图叠加后得到残差块(residual block)，将该残差块作为输入下一隐藏层的一个特征图，从而可以解决TCN的退化问题，使得TCN的深度越深，对图像特征提取的准确度越好。

在一些实施例中，当采用残差连接时，在对特征图进行叠加之前，如果上一隐藏层输出的特征图维度与当前隐藏层输出的特征图维度不同，可以通过一个尺寸为1×1的卷积核对上一隐藏层输出的特征图进行卷积操作，从而对上一隐藏层输出的特征图进行升维或者降维，进而能够保证叠加过程中涉及到的两个特征图维度相同。

例如，图6是本发明实施例提供的一种时间卷积网络的示意图，参见图6，以每个隐藏层的扩张系数d＝1为例进行说明，在第一个隐藏层对输入层中T时刻、T-1时刻和T-2时刻的图像帧进行因果卷积，而当在第二个隐藏层对T时刻、T-1时刻和T-2时刻的特征图进行因果卷积之前，将T时刻的图像帧与T时刻的特征图进行叠加，T-1时刻的图像帧与T-1时刻的特征图进行叠加，T-2时刻的图像帧与T-2时刻的特征图进行叠加，需要说明的是，这里所说的“叠加”是指将任意两个特征图中对应位置的数值直接相加。可选地，如果任一个图像帧与对应的特征图维度不同，可以通过一个尺寸为1×1的卷积核对该图像帧进行卷积操作，使得该图像帧与该特征图维度相同。

在一些实施例中，各个隐藏层之间还可以引入至少一个非线性层，该非线性层用于对隐藏层输出的特征图进行非线性处理，该非线性层可以采用任一能够添加非线性因素的激活函数，例如该激活函数可以是sigmoid函数、tanh函数或者ReLU函数等。

在一些实施例中，各个隐藏层之间还可以引入至少一个权重归一化层，从而能够将各个卷积核的权重进行归一化，使得每个隐藏层输出的特征图具有类似的分布，从而能够加快TCN的训练速度，改善TCN的梯度弥散问题。需要说明的是，当TCN中同时具有非线性层和权重归一化层时，在任一隐藏层后先串接一个权重归一化层，进而在该权重归一化层后再串接一个非线性层。

在一些实施例中，该输出层可以是指数归一化(softmax)层，在该输出层中基于softmax函数对最后一个隐藏层所输出的各个特征图进行指数归一化，得到该视频的图像特征。

S402、服务器将该至少一个连续视频帧所包括的至少一个音频帧输入该第一特征提取网络中的卷积神经网络，通过该卷积神经网络对该至少一个音频帧进行卷积处理，得到该视频的音频特征。

其中，该至少一个音频帧可以表现为序列、数组或者链表等形式，本发明实施例不对音频帧的表现形式进行具体限定。其中，该视频的音频特征可以包括该至少一个音频帧中每个音频帧的音频特征。

在一些实施例中，第一特征提取网络中的CNN用于提取音频特征，在CNN中可以包括输入层、至少一个隐藏层和输出层，该输入层用于对输入的音频帧进行解码处理，该至少一个隐藏层用于对经过解码后的音频帧进行卷积处理，该输出层用于对经过卷积处理后的音频帧进行非线性处理和归一化处理。可选地，该输入层、该至少一个隐藏层和该输出层串行连接，与上述步骤S401中TCN的连接方式类似，这里不再赘述。

在一些实施例中，各个隐藏层之间还可以引入至少一个池化层，该池化层用于压缩上一隐藏层输出的特征图，从而减小该特征图的尺寸。在一些实施例中，该CNN中也可以采用残差连接，与上述步骤S401中TCN的残差连接类似，这里不再赘述。

在一些实施例中，该CNN可以是一个VGG(visual geometry group，视觉几何组)网络，在该VGG网络中，每个隐藏层均使用3*3的小型卷积核，以及2*2的最大池化核，并且各个隐藏层之间采用残差连接，从而随着VGG网络的加深，每次池化后图像的尺寸缩小一半，深度增加一倍，从而简化了CNN的结构，便于获取至少一个音频帧的频谱图，便于提取高层次的音频特征。例如，该CNN可以是VGG-16或VGG-19等，本发明实施例不对该VGG网络的架构层级进行具体限定。

基于上述架构，在上述步骤S402中，服务器可以将视频的至少一个音频帧输入CNN，通过CNN的至少一个隐藏层对该至少一个音频帧进行卷积处理，输出与该至少一个音频帧对应的至少一个音频帧特征，从而将该至少一个音频帧特征确定为该视频的音频特征。可选地，在任一个隐藏层中，对上一隐藏层输出的至少一个特征图中任一时刻的特征图，根据该隐藏层内与该时刻所对应的卷积核，对该时刻的特征图进行卷积处理。

S403、服务器将该视频的图像特征与该视频的音频特征进行双线性汇合处理，得到该视频的视频特征。

在上述过程中，服务器可以对该图像特征与该音频特征进行多模态紧密双线性池化(multi-modal compact bilinear pooling，MCB)处理，MCB处理也即是：服务器获取该图像特征与该音频特征的张量积(outer product)，通过二次项对该张量积进行多项式展开，得到该视频特征，当然服务器也可以通过泰勒展开、幂级数展开等方法对张量积进行展开，得到该视频特征。可选地，服务器可以将图像特征与音频特征之间的投影向量来近似表示该张量积，从而能够减少双线性汇合处理过程中的计算量，缩短视频推荐过程所用的时长。

在一些实施例中，服务器还可以对该图像特征与该音频特征进行多模态低阶双线性池化(multi-modal low-rank bilinear pooling，MLB)处理，MLB处理也即是：服务器获取图像特征的投影矩阵，获取音频特征的投影矩阵，获取该图像特征的投影矩阵与该音频特征的投影矩阵之间的哈达玛积(Hadamard product)，将该哈达玛积确定为该视频特征，从而能够改善MCB中受图形处理器(graphics processing unit，GPU)性能限制的缺陷，降低了对GPU的需求，节约了双线性汇合处理的成本。

在一些实施例中，服务器还可以对该图像特征与该音频特征进行多模态因式分解双线性池化(multi-modal factorized bilinear pooling，MFB) 处理，MFB处理也即是：服务器获取图像特征的低阶投影矩阵，获取音频特征的低阶投影矩阵，获取该图像特征的低阶投影矩阵与该音频特征的低阶投影矩阵之间的池化和(sum pooling)，将该池化和确定为该视频特征，从而能够改善MLB中收敛速度的缺陷，降低了双线性汇合处理的时长，提升了双线性汇合处理的效率。

由于上述步骤S401-S402中，服务器基于TCN获取视频的图像特征，基于CNN获取视频的音频特征，从而在上述步骤S403中，服务器可以将该视频的图像特征与该视频的音频特征进行特征融合，得到该视频的视频特征，通过不同的网络结构，分别对图像特征和音频特征进行特征提取，在提取图像特征时考虑到图像帧之间的关联关系，提升了图像特征的表达能力，在提取音频特征时采用简化的网络结构，从而有利于提取到更深层次的音频特征，再对两个特征进行融合得到视频特征，提升了视频推荐过程的准确度。另一方面，由于图像特征和音频特征的维度往往比较大，通过双线性汇合处理能够在提升特征融合的效率的基础上，保证了图像特征与音频特征之间的充分交互，还能高效地对融合特征进行降维。

在一些实施例中，服务器还可以不对图像特征和音频特征进行双线性汇合处理，而是可以通过获取点积、获取平均值或者级联等方式进行特征融合，从而进一步缩短特征融合的时长，减少特征融合过程的计算量。

在上述步骤S401-S403中，服务器将该视频中的该至少一个连续视频帧分别输入该第一特征提取网络中的时间卷积网络和卷积神经网络，通过该时间卷积网络和该卷积神经网络对该至少一个连续视频帧进行卷积处理，提取该视频的视频特征，该第一特征提取网络中包括TCN和CNN，在一些实施例中，服务器可以直接将该视频的至少一个图像帧以及至少一个音频帧输入同一个TCN或者CNN，输出该视频的视频特征，也即是服务器通过该同一个TCN或者CNN既提取图像特征，又提取音频特征，也就无需对图像特征和音频特征进行特征融合，从而能够只基于一个卷积神经网络完成对视频特征的提取，减少了获取视频时的计算量，加快了获取视频特征的速度。当然，服务器也可以仅提取视频的图像特征，或者仅提取视频的音频特征，同样无需进行特征融合，减少了获取视频时的计算量，加快了获取视频特征的速度。

S404、服务器将用户的用户数据输入第二特征提取网络。

其中，该用户可以是任一终端所对应的用户，该用户数据可以包括用户个人信息和视频偏好，该个人信息可以包括用户性别、用户年龄、用户所在地域或者用户职业中的至少一项，该个人信息可以是用户向服务器授权的信息，该视频偏好可以由服务器对用户的视频观看行为日志进行数据分析来得到。在本申请中，下文将用户数据中各项个人信息以及各项视频偏好中任一项称为一个用户组分信息，因此该用户数据包括至少一个用户组分信息。

在上述过程中，由于用户数据中各个用户组分信息通常是一个或多个孤立的词向量，因此用户数据是离散的，此时将离散的用户数据输入第二特征提取网络之后，通过第二特征提取网络的作用，能够将离散的用户数据转换为一个连续的特征向量，该特征向量能够体现出离散的各个用户组分信息的联合特征。

在上述过程中，该第二特征提取网络可以包括宽度部分和深度部分，例如，该第二特征提取网络可以是一个宽度与深度联合网络(wide and deep models)，其中，该宽度部分用于对用户数据进行广义线性处理，例如，该宽度部分可以是一个广义线性模型，将在下述步骤S405中进行详述，此外该深度部分用于对用户数据进行嵌入处理和卷积处理，例如，该深度部分可以是一个DNN(deep neural network，深度神经网络)，将在下述步骤S406中进行详述。

S405、服务器通过该第二特征提取网络中的宽度部分，对离散的该用户数据进行广义线性组合，得到该用户的宽度特征。

其中，该宽度部分(wide component)可以为一个广义线性模型。

基于上述情况，服务器可以该用户数据中的至少一个用户组分信息进行独热(one-hot)编码，从而得到该用户数据的至少一个原始特征，将该至少一个原始特征输入该第二特征提取网络中的宽度部分，方便了在该宽度部分进行线性组合，加快了获取用户的宽度特征的速度。

在一些实施例中，在该广义线性模型中可以包括第一权重矩阵和偏置项(bias)，从而在上述步骤S405中，服务器能够基于该第一权重矩阵，对该至少一个原始特征进行加权处理，对加权处理后的各个原始特征以及偏置项进行求和，得到用户的宽度特征，其中，该第一权重矩阵的权项个数大于或等于原始特征的个数。

在一些实施例中，该广义线性模型中可以包括第二权重矩阵和偏置项，从而服务器可以获取该至少一个原始特征在两两之间的至少一个交叉特征，从而基于该第二权重矩阵，对该至少一个原始特征和该至少一个交叉特征进行加权处理，对加权处理后的各个原始特征、各个交叉特征以及偏置项进行求和，得到用户的宽度特征。

其中，一个交叉特征用于表示任一个原始特征与另一个原始特征之间的乘积，该第二权重矩阵的权项个数大于或等于原始特征的个数与交叉特征的个数相加后所得到的数值。

S406、服务器通过该第二特征提取网络中的深度部分，对离散的该用户数据进行嵌入处理和卷积处理，得到该用户的深度特征。

其中，该宽度部分(wide component)可以是一个DNN。

在一些实施例中，DNN中可以包括输入层、嵌入(embedding)层、至少一个隐藏层和输出层，层与层之间采用串行连接的方式，其中，该嵌入层用于将用户数据中的至少一个用户组分信息转换为嵌入向量的形式。

在上述步骤S406中，将至少一个用户组分信息输入嵌入层，通过嵌入层对该至少一个用户组分信息进行嵌入处理，能够将较为稀疏(也即是离散)的用户数据映射到低维空间，得到至少一个嵌入向量，一个嵌入向量对应于一个用户组分信息，从而将该至少一个嵌入向量输入该至少一个隐藏层，通过该至少一个隐藏层对该至少一个嵌入向量进行卷积处理，输出该用户的深度特征。

S407、服务器通过全连接层对该用户的宽度特征和该用户的深度特征进行级联，得到该用户的用户特征。

在上述过程中，服务器可以通过一个全连接(full connected，FC)层对该用户的宽度特征和该用户的深度特征进行级联，在该全连接层中，输出的用户特征与用户的宽度特征和用户的深度特征中的每一个分量都相连。

在上述步骤S407中，服务器对该用户的宽度特征和该用户的深度特征进行特征融合，得到该用户的用户特征，在一些实施例中，服务器还可以不对用户的宽度特征和用户的深度特征进行级联，而是可以通过获取点积或者获取平均值等方式进行特征融合，从而缩短了特征融合的时长，减少特征融合过程的计算量，当然服务器也可以通过双线性汇合进行用户的宽度特征和用户的深度特征之间的特征融合，从而能够保证特征之间的充分交互。

在上述步骤S404-S407中，服务器将用户的用户数据输入第二特征提取网络，通过该第二特征提取网络对离散的用户数据进行特征提取，输出该用户的用户特征，既通过宽度部分考虑到了第二特征提取网络的记忆能力，也通过深度部分兼顾了第二特征提取网络的泛化能力，使得第二特征提取网络能够更加准确地表达用户的用户特征。图7是本发明实施例提供的一种第二特征提取网络的示意图，参见图7，左侧部分为宽度部分，右侧部分为深度部分，这里不再赘述。

S408、服务器将与该视频对应的文本输入第三特征提取网络。

其中，该文本可以是视频的文本类元数据，例如该文本可以是视频的标题、视频的标签、视频的评论、视频的作者或者视频的摘要中的至少一项，该第三特征提取网络与上述步骤S404中的网络架构类似，但网络的参数可以相同，也可以不同。

在上述过程中，由于文本类元数据、视频的标题、视频的标签、视频的评论、视频的作者或者视频的摘要等信息通常是一个或多个孤立的词向量，因此该文本是离散的，此时将离散的文本输入第三特征提取网络之后，通过第三特征提取网络的作用，能够将离散的文本转换为一个连续的特征向量，该特征向量能够体现出离散的文本的联合特征。

上述步骤S408与上述步骤S404类似，这里不再赘述。

S409、服务器通过该第三特征提取网络中的宽度部分，对离散的该文本进行广义线性组合，得到该文本的宽度特征。

上述步骤S409与上述步骤S405类似，这里不再赘述。

S410、服务器通过该第三特征提取网络中的深度部分，对离散的该文本进行嵌入处理和卷积处理，得到该文本的深度特征。

上述步骤S410与上述步骤S406类似，这里不再赘述。

S411、服务器通过全连接层对该文本的宽度特征和该文本的深度特征进行级联，得到与该视频对应的文本特征。

上述步骤S411与上述步骤S407类似，这里不再赘述。

在上述步骤S411中，服务器对该文本的宽度特征和该文本的深度特征进行特征融合，得到与该视频对应的文本特征。在一些实施例中，服务器还可以不对文本的宽度特征和文本的深度特征进行级联，而是可以通过获取点积或者获取平均值等方式进行特征融合，从而缩短了特征融合的时长，减少特征融合过程的计算量，当然服务器也可以通过双线性汇合进行文本的宽度特征和文本的深度特征之间的特征融合，从而能够保证特征之间的充分交互。

在上述步骤S408-S411中，服务器将与该视频对应的文本输入第三特征提取网络，通过该第三特征提取网络对离散的该文本进行特征提取，输出与该视频对应的文本特征，从而不仅能够考虑到视频的图像特征、视频的音频特征、用户的用户特征，而且没有忽视视频的文本类元数据所带来的作用，对文本进行特征提取后得到视频的文本特征，从而增加了视频推荐过程的特征种类的多元性，进一步地提升了视频推荐过程的准确度。

S412、服务器将该视频特征与该用户特征进行双线性汇合处理，得到第一关联特征。

其中，该第一关联特征用于表示视频与用户之间特征关联关系。

上述步骤S412与上述步骤S403类似，服务器可以基于MCB、MLB或者MFB等方式进行双线性汇合处理，在提升特征融合的效率的基础上，又保证了视频特征与用户特征之间的充分交互，这里不再赘述。

在上述步骤S412中，服务器对该视频特征和该用户特征进行特征融合，得到该视频与该用户之间的第一关联特征，在一些实施例中，服务器还可以不对视频特征和用户特征进行双线性汇合处理，而是可以通过获取点积、获取平均值或者级联等方式进行特征融合，从而进一步缩短特征融合的时长，减少特征融合过程的计算量。

S413、服务器将该文本特征与该用户特征进行双线性汇合处理，得到第二关联特征。

其中，该第二关联特征用于表示文本与用户之间特征关联关系。

上述步骤S413与上述步骤S403类似，服务器可以基于MCB、MLB或者MFB等方式进行双线性汇合处理，在提升特征融合的效率的基础上，又保证了视频特征与用户特征之间的充分交互，这里不再赘述。

在上述步骤S413中，服务器对该文本特征和该用户特征进行特征融合，得到该文本与该用户之间的第二关联特征，在一些实施例中，服务器还可以不对文本特征和用户特征进行双线性汇合处理，而是可以通过获取点积、获取平均值或者级联等方式进行特征融合，从而进一步缩短特征融合的时长，减少特征融合过程的计算量。

S414、服务器对该第一关联特征和该第二关联特征进行点乘处理，得到对该用户推荐该视频的推荐概率。

在上述过程中，服务器可以对第一关联特征和第二关联特征进行点乘处理的过程，也即是对该第一关联特征和该第二关联特征求内积的过程，将该第一关联特征和该第二关联特征中对应位置的数值相乘后进行求和所得到的数值即为该视频的推荐概率。

在上述步骤S412-S414中，服务器基于该视频特征和该用户特征进行特征融合，得到对该用户推荐该视频的推荐概率，从而能够基于该推荐概率，对用户进行视频推荐，详见下述步骤S415。

在一些实施例中，服务器还可以不执行上述步骤S408-S414，也就是不获取文本特征，而是在执行上述步骤S407后，直接对该视频特征和该用户特征进行点乘处理，得到对该用户推荐该视频的推荐概率，从而避免了获取文本特征以及后续特征融合的繁琐计算流程，减少了推荐视频的时长。

S415、当该推荐概率大于概率阈值时，服务器确定为该用户推荐该视频。

其中，该概率阈值可以是大于或等于0且小于或等于1的任一数值。

上述过程中，服务器将该推荐概率与概率阈值进行数值比较，当该推荐概率大于概率阈值时，确定为用户推荐该视频，当该推荐概率小于或等于该概率阈值时，服务器可以确定不为该用户推荐该视频。

在上述步骤S415中，服务器根据该推荐概率，确定是否对该用户推荐该视频，而对于不同的用户以及不同的视频，服务器均可以执行上述步骤S401-S415中的视频推荐流程，从而能够确定是否对任一用户推荐任一视频。

在一些实施例中，服务器还可以不根据概率阈值判断是否推荐，而是执行下述步骤：对多个视频中的每个视频，服务器重复执行生成推荐概率的操作，得到多个推荐概率；获取该推荐概率在该多个推荐概率中从大到小的概率排序，当该概率排序小于或等于目标阈值时，确定为该用户推荐该视频；当该概率排序大于该目标阈值时，确定不为该用户推荐该视频。其中，该目标阈值可以是大于或等于1且小于或等于该多个视频的个数的数值。

在上述过程中，服务器通过获取概率排序，从而能够控制选出的推荐视频的个数，避免了当概率阈值较小时，为用户推荐太多的视频，从而优化了视频推荐的效果。

当然，在执行上述步骤S415之后，服务器可以重复执行上述步骤S401-S415所执行的操作，从而能够确定对用户进行推荐的至少一个推荐视频，向终端发送该至少一个推荐视频的视频信息，从而执行与上述实施例中步骤S206-S210类似的终端侧显示过程，在此不作赘述。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

进一步地，通过TCN提取视频的图像特征，引入因果卷积操作，由于相较于传统的CNN框架，TCN的层与层之间具有因果关系，因此可以在当前层考虑到上一层中具有时序关联的图像帧之间的相关性信息，也就使得TCN输出层中的每个图像帧特征既可以表示一个图像帧的图像特征，又可以表示该图像帧与该图像帧之前的图像帧之间的关联关系。进一步地，相较于通常具有较好记忆能力的长短期记忆网络(long short-term memory，LSTM)框架，由于LSTM中包含有遗忘门，在处理过程中无法避免地会遗漏一些历史信息，然而由于TCN中不需要设置遗忘门，也就避免了造成历史信息的遗漏，并且随着TCN深度的增加，因果卷积后得到的特征图可以包括输入层内图像数据的每一个图像帧的信息。

进一步地，通过CNN提取视频的音频特征，当CNN网络是VGG网络时，随着VGG网络的加深，每次池化后图像的尺寸缩小一半，深度增加一倍，简化了CNN的结构，便于提取高层次的音频特征。

进一步地，由于图像特征和音频特征的维度往往比较大，通过对图像特征和音频特征进行双线性汇合处理，能够在提升特征融合的效率的基础上，保证了图像特征与音频特征之间的充分交互。

进一步地，通过第二特征提取网络提取用户特征，既通过宽度部分考虑到了第二特征提取网络的记忆能力，也通过深度部分兼顾了第二特征提取网络的泛化能力，使得第二特征提取网络能够更加准确地表达用户的用户特征。

进一步地，通过对文本进行特征提取后得到视频的文本特征，从而不仅能够考虑到视频的图像特征、视频的音频特征、用户的用户特征，而且没有忽视视频的文本类元数据所带来的作用，从而增加了视频推荐过程的特征种类的多元性，进一步地提升了视频推荐过程的准确度。

进一步地，通过第三特征提取网络提取文本特征，既通过宽度部分考虑到了第三特征提取网络的记忆能力，也通过深度部分兼顾了第三特征提取网络的泛化能力，使得第三特征提取网络能够更加准确地表达与视频对应的文本特征。

在上述实施例中，图8是本发明实施例提供的一种视频推荐方法的示意图，参见图8，服务器对于不同性质的特征采用不同架构的网络进行提取，也即是对不同模态的视频、用户数据以及与视频对应的文本，分别通过第一特征提取网络、第二特征提取网络以及第三特征提取网络进行特征提取，可以降低多模态融合信息损失，避免高维度特征挤压低维度特征的表达能力，减少了无效的融合所造成的维度***。另一方面，通过新引入文本特征，可以从视频特征和文本特征这两个维度上分别刻画用户的视频观看偏好与文本阅读偏好，增强了服务器对多模态数据的描述能力与可解释性。

另一方面，服务器在第一特征提取网络内，分别采用TCN提取视频的图像特征，采用CNN提取视频的音频特征，在第二特征提取网络内，分别采用宽度部分提取用户的宽度特征，采用深度部分提取用户的深度特征，在第三特征提取网络内，分别采用宽度部分提取文本的宽度特征，采用深度部分提取文本的深度特征，进一步地，对于相似结构的特征先进行类内特征融合，也即是对视频的图像特征和音频特征进行融合得到视频特征，对用户的宽度特征和用户深度特征进行融合得到用户特征，对文本的宽度特征和文本的深度特征进行融合得到文本特征，从而能够降低特征维度，提高融合效率，然后对不相似结构的特征进行类间融合，例如获取第一联合特征和第二联合特征，从而能够基于多模态的视频推荐方法，对两个联合特征进行点乘得到推荐概率，充分利用了视频特征与文本特征，能够从更多维度的角度上刻画视频，也就能够更加准确地表达视频，从而提升了视频推荐的准确率。

在一些实施例中，服务器在进行视频推荐之前，可以基于反向传播算法训练得到该第一特征提取网络，基于宽度与深度联合训练方法分别得到第二特征提取网络和第三特征提取网络进行训练，训练过程与上述实施例相类似，只不过使用的是样本视频、样本用户数据以及样本文本，这里不再赘述。

上述实施例提供了一种根据视频、用户数据和文本进行视频推荐的方法，可选地，以计算机设备为服务器为例进行说明，服务器还可以不引入文本，而是直接根据视频和用户数据进行视频推荐，图9是本发明实施例提供的一种视频推荐方法的流程图，参见图9，下面进行详述：

S901、服务器将视频的至少一个连续视频帧所包括的至少一个图像帧输入第一特征提取网络中的时间卷积网络，通过该时间卷积网络对该至少一个图像帧进行因果卷积，得到该视频的图像特征。

上述步骤S901与上述实施例中的步骤S401类似，在此不作赘述。

S902、服务器将该至少一个连续视频帧所包括的至少一个音频帧输入该第一特征提取网络中的卷积神经网络，通过该卷积神经网络对该至少一个音频帧进行卷积处理，得到该视频的音频特征。

上述步骤S902与上述实施例中的步骤S402类似，在此不作赘述。

S903、服务器将该视频的图像特征与该视频的音频特征进行双线性汇合处理，得到该视频的视频特征。

上述步骤S903与上述实施例中的步骤S403类似，在此不作赘述。

S904、服务器将用户的用户数据输入第二特征提取网络。

上述步骤S904与上述实施例中的步骤S404类似，在此不作赘述。

S905、服务器通过该第二特征提取网络中的宽度部分，对离散的该用户数据进行广义线性组合，得到该用户的宽度特征。

上述步骤S905与上述实施例中的步骤S405类似，在此不作赘述。

S906、服务器通过该第二特征提取网络中的深度部分，对离散的该用户数据进行嵌入处理和卷积处理，得到该用户的深度特征。

上述步骤S906与上述实施例中的步骤S406类似，在此不作赘述。

S907、服务器通过全连接层对该用户的宽度特征和该用户的深度特征进行级联，得到该用户的用户特征。

上述步骤S907与上述实施例中的步骤S407类似，在此不作赘述。

S908、服务器对该视频特征和该用户特征进行点乘处理，得到对该用户推荐该视频的推荐概率。

上述步骤S908点乘处理的方式与上述实施例中的步骤S414类似，在此不作赘述。

S909、当该推荐概率大于概率阈值时，服务器确定为该用户推荐该视频。

上述步骤S909与上述实施例中的步骤S415类似，在此不作赘述。

当然，在执行上述步骤S909之后，服务器可以重复执行上述步骤S901-S909所执行的操作，从而能够确定对用户进行推荐的至少一个推荐视频，向终端发送该至少一个推荐视频的视频信息，从而执行与上述实施例中步骤S206-S210类似的终端侧显示过程，在此不作赘述。

图10是本发明实施例提供的一种视频推荐装置的结构示意图，参见图10，该装置包括第一输出模块1001、第二输出模块1002、融合得到模块1003和确定推荐模块1004，下面进行详述：

第一输出模块1001，用于将视频输入第一特征提取网络，通过该第一特征提取网络对该视频中的至少一个连续视频帧进行特征提取，输出该视频的视频特征。

第二输出模块1002，用于将用户的用户数据输入第二特征提取网络，通过该第二特征提取网络对离散的该用户数据进行特征提取，输出该用户的用户特征。

融合得到模块1003，用于基于该视频特征和该用户特征进行特征融合，得到对该用户推荐该视频的推荐概率。

确定推荐模块1004，用于根据该推荐概率，确定是否对该用户推荐该视频。

本发明实施例提供的装置，通过将视频输入第一特征提取网络，通过该第一特征提取网络对该视频中的至少一个连续视频帧进行特征提取，输出该视频的视频特征，由于视频特征种类少、维度高，从而在不增加太大的计算压力的情况下，有针对性地提取高维度的视频特征，将用户的用户数据输入第二特征提取网络，通过该第二特征提取网络对离散的用户数据进行特征提取，输出该用户的用户特征，由于用户特征种类多、维度低，从而可以基于第二特征提取网络，有针对性地提取低维度的用户特征，减小了提取用户特征的计算压力，基于该视频特征和该用户特征进行特征融合，得到对该用户推荐该视频的推荐概率，根据该推荐概率，确定是否对该用户推荐该视频，从而对于性质差别较大的用户特征和视频特征，分别采用不同的网络进行特征提取，避免了丢失用户特征和视频特征中的信息，改善了梯度弥散的问题，提高了视频推荐的准确度。

在一些实施例中，基于图10的装置组成，该第一输出模块1001包括：

在一些实施例中，基于图10的装置组成，该卷积提取单元包括：

因果卷积子单元，用于将视频中的至少一个连续视频帧所包括的至少一个图像帧输入第一特征提取网络中的时间卷积网络，通过该时间卷积网络对该至少一个图像帧进行因果卷积，得到该视频的图像特征。

卷积处理子单元，用于将该至少一个连续视频帧所包括的至少一个音频帧输入第一特征提取网络中的卷积神经网络，通过该卷积神经网络对该至少一个音频帧进行卷积处理，得到该视频的音频特征。

在一些实施例中，该融合子单元用于，将该视频的图像特征与该视频的音频特征进行双线性汇合处理，得到该视频的视频特征。

在一些实施例中，基于图10的装置组成，该第二输出模块1002包括：

第一输入单元，用于将该用户的用户数据输入该第二特征提取网络。

第一线性组合单元，用于通过该第二特征提取网络中的宽度部分，对离散的该用户数据进行广义线性组合，得到该用户的宽度特征。

第一嵌入卷积单元，用于通过该第二特征提取网络中的深度部分，对离散的该用户数据进行嵌入处理和卷积处理，得到该用户的深度特征。

在一些实施例中，该第一融合单元具体用于，通过全连接层对该用户的宽度特征和该用户的深度特征进行级联，得到该用户的用户特征。

在一些实施例中，该融合得到模块1003用于，对该视频特征和该用户特征进行点乘处理，得到对该用户推荐该视频的推荐概率。

在一些实施例中，基于图10的装置组成，该装置还包括：

在一些实施例中，基于图10的装置组成，该第三输入模块包括：

第二输入单元，用于将该文本输入该第三特征提取网络。

第二线性组合单元，用于通过该第三特征提取网络中的宽度部分，对离散的该文本进行广义线性组合，得到该文本的宽度特征。

第二嵌入卷积单元，用于通过该第三特征提取网络中的深度部分，对离散的该文本进行嵌入处理和卷积处理，得到该文本的深度特征。

在一些实施例中，该第二融合单元具体用于，通过全连接层对该文本的宽度特征和该文本的深度特征进行级联，得到该与该视频对应的文本特征。

在一些实施例中，基于图10的装置组成，该融合得到模块1003包括：

第三融合单元，用于对该视频特征和该用户特征进行特征融合，得到该视频与该用户之间的第一关联特征。

该第三融合单元，还用于对该文本特征和该用户特征进行特征融合，得到该文本与该用户之间的第二关联特征。

在一些实施例中，该第三融合单元具体用于，将该视频特征与该用户特征进行双线性汇合处理，得到该第一关联特征。

该第三融合单元还用于，将该文本特征与该用户特征进行双线性汇合处理，得到该第二关联特征。

在一些实施例中，该确定推荐模块1004用于，当该推荐概率大于概率阈值时，确定为该用户推荐该视频；及当该推荐概率小于或等于该概率阈值时，确定不为该用户推荐该视频。

在一些实施例中，该确定推荐模块1004用于，对多于一个视频中的每个视频，重复执行生成推荐概率的操作，得到多于一个推荐概率；获取每个推荐概率在该多于一个推荐概率中从大到小的概率排序，当该概率排序小于或等于目标阈值时，确定为该用户推荐相应概率排序所对应的该视频；及当该概率排序大于该目标阈值时，确定不为该用户推荐相应概率排序所对应该视频。

需要说明的是：上述实施例提供的视频推荐装置在推荐视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频推荐装置与视频推荐方法实施例属于同一构思，其具体实现过程详见视频推荐方法实施例，这里不再赘述。

图11是本发明实施例提供的一种推荐视频展示装置的结构示意图，参见图11，该装置包括显示模块1101、发送模块1102和展示模块1103，下面进行详述：

显示模块1101，用于显示视频展示界面，该视频展示界面中包括至少一个第一推荐视频。

发送模块1102，用于当检测到对任一第一推荐视频的点击操作时，响应于该点击操作，将该第一推荐视频的观看记录发送至服务器，该观看记录用于指示该服务器基于该观看记录对视频推荐模型进行优化训练，并实时返回至少一个第二推荐视频的视频信息。

展示模块1103，用于当接收到该至少一个第二推荐视频的视频信息时，基于该至少一个第二推荐视频的视频信息，在该视频展示界面中展示该至少一个第二推荐视频。

本发明实施例提供的装置，通过在该视频展示界面上展示至少一个第一推荐视频，当检测到用户对任一第一推荐视频的点击操作时，响应于该点击操作，将该推荐视频的观看记录发送至服务器，从而能够及时向用户反馈本次第一推荐视频的质量优劣，使得服务器能够基于该观看记录对该第一推荐视频进行真假样本的区分标记，将该第一推荐视频作为新一轮优化训练中的样本视频，实现了对视频推荐模型的动态优化训练，并且服务器还可以根据优化训练后的视频推荐模型向终端返回至少一个第二推荐视频的视频信息，当终端接收到至少一个第二推荐视频的视频信息时，基于该至少一个第二推荐视频的视频信息，在该视频展示界面中展示该至少一个第二推荐视频，使得随着用户的点击操作，能够在视频展示界面上实时更新展示推荐准确率更高的推荐视频。

需要说明的是：上述实施例提供的推荐视频展示装置在展示推荐视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的推荐视频展示装置与视频推荐方法的交互实施例属于同一构思，其具体实现过程详见视频推荐方法实施例，这里不再赘述。

图12是本发明实施例提供的计算机设备的结构示意图，该计算机设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)1201和一个或一个以上的存储器1202，其中，该存储器1202中存储有至少一条计算机可读指令，该至少一条计算机可读指令由该处理器1201加载并执行以实现上述各个视频推荐方法实施例提供的视频推荐方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

图13是本发明实施例提供的电子设备的结构示意图。该电子设备1300可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1300还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个计算机可读指令，该至少一个计算机可读指令用于被处理器1301所执行以实现本申请中方法实施例提供的推荐视频展示方法。

在一些实施例中，电子设备1300还可选包括有：***设备接口1303和至少一个***设备。处理器1301、存储器1302和***设备接口1303之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1303相连。具体地，***设备包括：射频电路1304、触摸显示屏1305、摄像头1306、音频电路1307、定位组件1308和电源1309中的至少一种。

***设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和***设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和***设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置电子设备1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在电子设备1300的不同表面或呈折叠设计；在再一些实施例中，显示屏1305可以是柔性显示屏，设置在电子设备1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地，摄像头组件1306包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

定位组件1308用于定位电子设备1300的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1308可以是基于美国的GPS(Global Positioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源1309用于为电子设备1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以电子设备1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号，控制触摸显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测电子设备1300的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1311协同采集用户对电子设备1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在电子设备1300的侧边框和/或触摸显示屏1305的下层。当压力传感器1313设置在电子设备1300的侧边框时，可以检测用户对电子设备1300的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在触摸显示屏1305的下层时，由处理器1301根据用户对触摸显示屏1305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置电子设备1300的正面、背面或侧面。当电子设备1300上设置有物理按键或厂商Logo时，指纹传感器1314可以与物理按键或厂商Logo集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1315采集的环境光强度，控制触摸显示屏1305的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1305的显示亮度；当环境光强度较低时，调低触摸显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，通常设置在电子设备1300的前面板。接近传感器1316用于采集用户与电子设备1300的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变小时，由处理器1301控制触摸显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与电子设备1300的正面之间的距离逐渐变大时，由处理器1301控制触摸显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对电子设备1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种非易失性的计算机可读存储介质，存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述的视频推荐方法的步骤，或，上述的推荐视频展示方法的步骤。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种视频推荐方法，由计算机设备执行，所述方法包括：

将视频输入第一特征提取网络，通过所述第一特征提取网络对所述视频中的至少一个连续视频帧进行特征提取，输出所述视频的视频特征；

将用户的用户数据输入第二特征提取网络，通过所述第二特征提取网络对离散的所述用户数据进行特征提取，输出所述用户的用户特征；

基于所述视频特征和所述用户特征进行特征融合，得到对所述用户推荐所述视频的推荐概率；及

根据所述推荐概率，确定是否对所述用户推荐所述视频。
根据权利要求1所述的方法，其特征在于，所述将视频输入第一特征提取网络，通过所述第一特征提取网络对所述视频中的至少一个连续视频帧进行特征提取，输出所述视频的视频特征包括：

将视频中的至少一个连续视频帧分别输入第一特征提取网络中的时间卷积网络和卷积神经网络，通过所述时间卷积网络和所述卷积神经网络对所述至少一个连续视频帧进行卷积处理，提取所述视频的视频特征。
根据权利要求2所述的方法，其特征在于，所述将视频中的至少一个连续视频帧分别输入第一特征提取网络中的时间卷积网络和卷积神经网络，通过所述时间卷积网络和所述卷积神经网络对所述至少一个连续视频帧进行卷积处理，提取所述视频的视频特征包括：

将视频中的至少一个连续视频帧所包括的至少一个图像帧输入第一特征提取网络中的时间卷积网络，通过所述时间卷积网络对所述至少一个图像帧进行因果卷积，得到所述视频的图像特征；

将所述至少一个连续视频帧所包括的至少一个音频帧输入第一特征提取网络中的卷积神经网络，通过所述卷积神经网络对所述至少一个音频帧进行卷积处理，得到所述视频的音频特征；及

将所述视频的图像特征与所述视频的音频特征进行特征融合，得到所述视频的视频特征。
根据权利要求3所述的方法，其特征在于，所述将所述视频的图像特征与所述视频的音频特征进行特征融合，得到所述视频的视频特征包括：

将所述视频的图像特征与所述视频的音频特征进行双线性汇合处理，得到所述视频的视频特征。
根据权利要求1所述的方法，其特征在于，所述将用户的用户数据输入第二特征提取网络，通过所述第二特征提取网络对离散的所述用户数据进行特征提取，输出所述用户的用户特征包括：

将所述用户的用户数据输入第二特征提取网络；

通过所述第二特征提取网络中的宽度部分，对离散的所述用户数据进行广义线性组合，得到所述用户的宽度特征；

通过所述第二特征提取网络中的深度部分，对离散的所述用户数据进行嵌入处理和卷积处理，得到所述用户的深度特征；及

对所述用户的宽度特征和所述用户的深度特征进行特征融合，得到所述用户的用户特征。
根据权利要求5所述的方法，其特征在于，所述对所述用户的宽度特征和所述用户的深度特征进行特征融合，得到所述用户的用户特征包括：

通过全连接层对所述用户的宽度特征和所述用户的深度特征进行级联，得到所述用户的用户特征。
根据权利要求1所述的方法，其特征在于，所述基于所述视频特征和所述用户特征进行特征融合，得到对所述用户推荐所述视频的推荐概率包括：

对所述视频特征和所述用户特征进行点乘处理，得到对所述用户推荐所述视频的推荐概率。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

将与所述视频对应的文本输入第三特征提取网络，通过所述第三特征提取网络对离散的所述文本进行特征提取，输出与所述视频对应的文本特征。
根据权利要求8所述的方法，其特征在于，所述将与所述视频对应的文本输入第三特征提取网络，通过所述第三特征提取网络对离散的所述文本进行特征提取，输出与所述视频对应的文本特征包括：

将所述文本输入第三特征提取网络；

通过所述第三特征提取网络中的宽度部分，对离散的所述文本进行广义线性组合，得到所述文本的宽度特征；

通过所述第三特征提取网络中的深度部分，对离散的所述文本进行嵌入处理和卷积处理，得到所述文本的深度特征；及

对所述文本的宽度特征和所述文本的深度特征进行特征融合，得到与所述视频对应的文本特征。
根据权利要求9所述的方法，其特征在于，所述对所述文本的宽度特征和所述文本的深度特征进行特征融合，得到与所述视频对应的文本特征，包括：

通过全连接层对所述文本的宽度特征和所述文本的深度特征进行级联，得到与所述视频对应的文本特征。
根据权利要求8所述的方法，其特征在于，所述基于所述视频特征和所述用户特征进行特征融合，得到对所述用户推荐所述视频的推荐概率包括：

对所述视频特征和所述用户特征进行特征融合，得到所述视频与所述用户之间的第一关联特征；

对所述文本特征和所述用户特征进行特征融合，得到所述文本与所述用户之间的第二关联特征；及

对所述第一关联特征和所述第二关联特征进行点乘处理，得到对所述用户推荐所述视频的推荐概率。
根据权利要求11所述的方法，其特征在于，所述对所述视频特征和所述用户特征进行特征融合，得到所述视频与所述用户之间的第一关联特征包括：

将所述视频特征与所述用户特征进行双线性汇合处理，得到所述视频与所述用户之间的第一关联特征；

所述对所述文本特征和所述用户特征进行特征融合，得到所述文本与所述用户之间的第二关联特征包括：

将所述文本特征与所述用户特征进行双线性汇合处理，得到所述文本与所述用户之间的第二关联特征。
根据权利要求1至12中任一项所述的方法，其特征在于，所述根据所述推荐概率，确定是否对所述用户推荐所述视频包括：

当所述推荐概率大于概率阈值时，确定为所述用户推荐所述视频；及

当所述推荐概率小于或等于所述概率阈值时，确定不为所述用户推荐所述视频。
根据权利要求1至12中任一项所述的方法，其特征在于，所述根据所述推荐概率，确定是否对所述用户推荐所述视频包括：

对多于一个视频中的每个视频，重复执行生成推荐概率的操作，得到多于一个的推荐概率；

获取每个推荐概率分别在所述多于一个推荐概率中从大到小的概率排序，当所述概率排序小于或等于目标阈值时，确定为所述用户推荐相应概率排序所对应的所述视频；及

当所述概率排序大于所述目标阈值时，确定不为所述用户推荐相应概率排序所对应的所述视频。
一种推荐视频展示方法，由电子设备执行，所述方法包括：

显示视频展示界面，所述视频展示界面中包括至少一个第一推荐视频；

当检测到对任一第一推荐视频的点击操作时，响应于所述点击操作，将所述第一推荐视频的观看记录发送至服务器，所述观看记录用于指示所述服务器基于所述观看记录对视频推荐模型进行优化训练，并实时返回至少一个第二推荐视频的视频信息；及

当接收到所述至少一个第二推荐视频的视频信息时，基于所述至少一个第二推荐视频的视频信息，在所述视频展示界面中展示所述至少一个第二推荐视频。
一种视频推荐装置，其特征在于，所述装置包括：

第一输出模块，用于将视频输入第一特征提取网络，通过所述第一特征提取网络对所述视频中的至少一个连续视频帧进行特征提取，输出所述视频的视频特征；

第二输出模块，用于将用户的用户数据输入第二特征提取网络，通过所述第二特征提取网络对离散的所述用户数据进行特征提取，输出所述用户的用户特征；

融合得到模块，用于基于所述视频特征和所述用户特征进行特征融合，得到对所述用户推荐所述视频的推荐概率；及

确定推荐模块，用于根据所述推荐概率，确定是否对所述用户推荐所述视频。
一种推荐视频展示装置，其特征在于，所述装置包括：

显示模块，用于显示视频展示界面，所述视频展示界面中包括至少一个第一推荐视频；

发送模块，用于当检测到对任一第一推荐视频的点击操作时，响应于所述点击操作，将所述第一推荐视频的观看记录发送至服务器，所述观看记录用于指示所述服务器基于所述观看记录对视频推荐模型进行优化训练，并实时返回至少一个第二推荐视频的视频信息；及

展示模块，用于当接收到所述至少一个第二推荐视频的视频信息时，基于所述至少一个第二推荐视频的视频信息，在所述视频展示界面中展示所述至少一个第二推荐视频。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至14任一所述的视频推荐方法的步骤。
一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求15所述的推荐视频展示方法的步骤。
一种非易失性的计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至14任一所述的视频推荐方法的步骤，或，如权利要求15所述的推荐视频展示方法的步骤。