CN112818251A

CN112818251A - 视频推荐方法、装置、电子设备以及存储介质

Info

Publication number: CN112818251A
Application number: CN202110394131.2A
Authority: CN
Inventors: 徐程程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-05-18
Anticipated expiration: 2041-04-13
Also published as: CN112818251B

Abstract

本申请实施例公开了一种视频推荐方法、装置、电子设备以及存储介质，包括：采集待推荐视频数据以及历史浏览视频数据；从所述视频属性信息中获取所述待推荐视频的视频类型和视频描述内容，所述视频描述内容包括视频描述文本以及视频关键词；对所述视频类型和视频描述内容进行特征提取，得到所述视频类型对应的第一向量以及视频描述内容对应的第二向量；构建所述视频描述文本的语义文本向量，并融合所述第一向量、第二向量以及语义文本向量，得到所述待推荐视频的视频向量；基于所述历史浏览视频以及所述待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对所述目标视频进行推荐，该方案可以提高视频推荐的准确性。

Description

视频推荐方法、装置、电子设备以及存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种视频推荐方法、装置、电子设备以及存储介质。

背景技术

短视频是当前互联网中十分重要的内容传播形式，短视频主生产内容，发布到平台，然后平台将内容推荐给用户。

目前，短视频应用一般是利用推荐算法，为用户推荐其可能感兴趣的短视频，常用的推荐方法有基于协同过滤算法的推荐方法，然而，该推荐方法主要将单一数据作为推荐依据，进行相似计算从而实现推荐，协同过滤方法仅仅考虑行为相关性，没有考虑内容的相关性，无法扩充到用户没有点击或者曝光的短视频上，故，基于目前的推荐方案为用户推荐的视频并不准确。

发明内容

本发明实施例提供一种视频推荐方法、装置、电子设备以及存储介质，可以提高视频推荐的准确性。

本发明实施例提供了一种视频推荐方法，包括：

采集待推荐视频数据以及历史浏览视频数据，所述待推荐视频数据包括多个待推荐视频以及每个待推荐视频的视频属性信息，所述历史浏览视频数据包括至少一个历史浏览视频，所述历史浏览视频为用户在历史时段内浏览过的视频；

从所述视频属性信息中获取所述待推荐视频的视频类型和视频描述内容，所述视频描述内容包括视频描述文本以及视频关键词；

对所述视频类型和视频描述内容进行特征提取，得到所述视频类型对应的第一向量以及视频描述内容对应的第二向量；

构建所述视频描述文本的语义文本向量，并融合所述第一向量、第二向量以及语义文本向量，得到所述待推荐视频的视频向量；

基于所述历史浏览视频以及所述待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对所述目标视频进行推荐。

相应的，本申请实施例还提供了一种视频推荐装置，包括：

采集模块，用于采集待推荐视频数据以及历史浏览视频数据，所述待推荐视频数据包括多个待推荐视频以及每个待推荐视频的视频属性信息，所述历史浏览视频数据包括至少一个历史浏览视频，所述历史浏览视频为用户在历史时段内浏览过的视频；

获取模块，用于从所述视频属性信息中获取所述待推荐视频的视频类型和视频描述内容，所述视频描述内容包括视频描述文本以及视频关键词；

提取模块，用于对所述视频类型和视频描述内容进行特征提取，得到所述视频类型对应的第一向量以及视频描述内容对应的第二向量；

构建模块，用于基于所述视频关键词构建所述视频描述文本的语义文本向量；

融合模块，用于融合所述第一向量、第二向量以及语义文本向量，得到所述待推荐视频的视频向量；

推荐模块，用于基于所述历史浏览视频以及所述待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对所述目标视频进行推荐。

可选的，在本申请的一些实施例中，所述提取模块包括：

第一获取单元，用于获取预设特征提取模型，所述特征提取模型包括第一子网络、第二子网络以及第三子网络；

第一提取单元，用于基于所述第一子网络对所述视频类型进行特征提取，得到所述视频类型对应的第一向量；

第二提取单元，用于基于所述第二子网络对所述视频关键词以及视频描述文本中文本关键词进行特征提取，得到关键词向量；

第三提取单元，用于基于所述第三子网络对所述视频描述文本进行特征提取，得到所述视频描述文本对应的文本向量。

可选的，在本申请的一些实施例中，所述第一提取单元包括：

第一获取子单元，用于获取所述视频类型对应的类型标识；

提取子单元，用于在所述第一子网络对应的权重矩阵中提取所述类型标识的权重值，得到所述类型标识对应的第一权重值；

第一构建子单元，用于根据提取的第一权重值，构建所述视频类型对应的第一向量。

可选的，在本申请的一些实施例中，所述第一子构建单元具体用于：

构建每个第一权重值对应的视频类型向量；

对构建的视频类型向量进行平均处理，得到所述视频类型对应的第一向量。

可选的，在本申请的一些实施例中，所述第二提取单元包括：

第二获取子单元，用于获取所述视频关键词对应的关键词标识；

第二构建子单元，用于基于所述第二子网络以及关键词标识，构建所述视频关键词对应的视频关键词向量；

处理子单元，用于采用所述第二子网络对所述视频描述文本中文本关键词进行卷积处理，得到所述文本关键词对应的文本关键词向量；

融合子单元，用于融合所述视频关键词向量和文本关键词向量，得到关键词向量。

可选的，在本申请的一些实施例中，所述第二构建子单元具体用于：

在所述第二子网络对应的权重矩阵中提取所述关键词标识的权重值，得到所述关键词标识对应的第二权重值；

根据提取的第二权重值，构建所述视频关键词对应的视频关键词向量。

可选的，在本申请的一些实施例中，所述融合子单元具体用于：

对构建的第二权重向量进行平均处理，得到所述视频关键词对应的视频关键词向量；

拼接所述文本关键词向量和视频关键词向量，得到关键词向量。

可选的，在本申请的一些实施例中，所述构建模块包括：

第二获取单元，用于获取预设语义文本构建模型；

分词单元，用于对所述视频描述文本进行分词，得到分词后描述文本；

构建单元，用于基于分词描述文本以及视频关键词，采用所述语义文本构建模型构建所述视频描述文本的语义文本向量。

可选的，在本申请的一些实施例中，所述构建单元具体用于：

提取所述分词描述文本中文本词的词嵌入向量，所述词嵌入向量携带有所述文本词上下文的语义信息；

提取所述视频关键词的词向量；

拼接提取到的词嵌入向量和词向量，得到拼接后向量；

将所述拼接后向量输入至所述语义文本构建模型中，得到所述视频描述文本的语义文本向量。

本申请实施例在采集待推荐视频数据以及历史浏览视频数据后，所述待推荐视频数据包括多个待推荐视频以及每个待推荐视频的视频属性信息，所述历史浏览视频数据包括至少一个历史浏览视频，所述历史浏览视频为用户在历史时段内浏览过的视频，从所述视频属性信息中获取所述待推荐视频的视频类型和视频描述内容，所述视频描述内容包括视频描述文本以及视频关键词，然后，对所述视频类型和视频描述内容进行特征提取，得到所述视频类型对应的第一向量以及视频描述内容对应的第二向量，接着，构建所述视频描述文本的语义文本向量，并融合所述第一向量、第二向量以及语义文本向量，得到所述待推荐视频的视频向量，最后，基于所述历史浏览视频以及所述待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对所述目标视频进行推荐。因此，该方案可以提高视频推荐的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的视频推荐方法的场景示意图；

图1b是本申请实施例提供的视频推荐方法的流程示意图；

图1c是本申请提供的特征提取模型的结构示意图；

图1d是本申请提供的第二子网络的网络参数矩阵示意图；

图1e是本申请提供的双向编码器的示意图；

图1f是本申请提供的视频推荐方法中生成视频向量的示意图；

图2是本申请实施例提供的视频推荐方法的另一流程示意图；

图3是本申请实施例提供的视频推荐装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

深度学习是机器学习的核心部分，其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中，深度学习是机器学习领域中一个新的研究方向。即，深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理和深度学习等技术，现通过如下实施例进行说明。

本申请实施例提供一种视频推荐方法、装置、电子设备和存储介质。

其中，该视频推荐装置具体可以集成在终端或服务器中。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，本申请在此不做限制。

例如，请参阅图1a，本申请提供一种视频推荐***，包括服务器10、观众终端集合20以及视频主终端30，其中，视频推荐装置集成在服务器10中，观众终端集合20包括多个观众终端20a，具体的，视频主通过视频主终端30上传由视频主制作的短视频后，即服务器10采集待推荐视频（视频主制作的短视频）以及历史浏览视频数据（观众终端20a所播放过的短视频集合），其中，推荐视频数据包括多个待推荐视频以及每个待推荐视频的视频属性信息，历史浏览视频数据包括至少一个历史浏览视频，然后，服务器10从视频属性信息中获取待推荐视频的视频类型和视频描述内容，视频描述内容包括视频描述文本以及视频关键词，接着，服务器10对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量，再然后，服务器10构建视频描述文本的语义文本向量，并融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，最后，服务器10基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并将目标视频推荐至相应的观众终端20a中，以便该观众终端20a播放目标视频，从而实现将目标视频推荐至用户。

本申请提供的视频推荐方案，提取视频类型对应的第一向量以及视频描述内容对应的第二向量，并利用视频关键词构建视频描述文本的语义文本向量，最后，融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，可见，该视频向量携带有待推荐视频丰富的语义信息，即，在本申请中，将视频推荐任务转换为文本匹配任务，并利用携带有丰富的语义信息的视频向量进行视频推荐，可以提高视频推荐的准确性。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

一种视频推荐方法，包括：采集待推荐视频数据以及历史浏览视频数据，从视频属性信息中获取待推荐视频的视频类型和视频描述内容，对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量，构建视频描述文本的语义文本向量，并融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对目标视频进行推荐。

请参阅图1b，图1b为本申请实施例提供的视频推荐方法的流程示意图。该视频推荐方法的具体流程可以如下：

101、采集待推荐视频数据以及历史浏览视频数据。

视频泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。网络技术的发达也促使视频的纪录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放。视频数据是随时间变化的图像流，含有更为丰富的其他媒体所无法表达的信息和内容。以视频的形式来传递信息，能够直观、生动、真实、高效地表达所要传递的内容。

其中，待推荐视频数据包括多个待推荐视频以及每个待推荐视频的视频属性信息，历史浏览视频数据包括至少一个历史浏览视频，待推荐视频可以是视频网站播放的视频，或者网页中***的视频等。例如可以是各种影视视频、直播视频、节目视频以及短视频等等，并且，待推荐视频可以是从视频网站获取的，也可以是从视频数据库中获取的。

历史浏览视频为用户在历史时段内浏览过的视频，比如，用户A在历史时间段内浏览过视频a，则记录用户A浏览视频a的时间（如5月2日）、浏览时长（如5秒）以及浏览次数（如1次）。

102、从视频属性信息中获取待推荐视频的视频类型和视频描述内容。

其中，视频属性信息可以携带有视频占用的内存大小、视频播放时长、待推荐视频的视频类型和视频描述内容，视频描述内容包括视频描述文本以及视频关键词。

具体的，视频描述文本为用于描述视频内容的文本，比如，视频A的视频标题为“挑战吃100个包子”，内容简介为“大胃王主播今天超越自我，挑战速吃100个包子”，那么视频A的视频标题和内容简介均为视频A的视频描述文本；又比如，针对短视频B，其标题则为视频描述文本，需要说明的是，短视频，即短片视频，属于视频的一种形式，短视频是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在5分钟以内的视频传播内容。

而视频关键词可以为视频描述文本中关键词，也可以是从视频内容中抽取得到的关键词，如从弹幕中抽取得到的关键词、或者从视频字幕中抽取得到的关键词，还可以是视频标签对应的关键词，如视频A的视频标签为搞笑、视频B的视频标签为热血以及视频C的视频标签为校园等等，具体根据实际情况进行选择，在此不再赘述。

103、对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量。

例如，具体的，可以利用预先训练好的特征提取模型提取视频类型对应的第一向量以及视频描述内容对应的第二向量，其中，该特征提取模型可以包括第一子网络、第二子网络以及第三子网络，进一步的，利用第一子网络提取视频类型对应的第一向量、利用第二子网络对视频关键词以及视频描述文本中文本关键词进行特征提取，得到关键词向量以及利用第三子网络提取视频描述文本对应的文本向量，即，可选的，在一些实施例中，步骤“对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量”，具体可以包括：

（11）获取预设特征提取模型；

（12）基于第一子网络对视频类型进行特征提取，得到视频类型对应的第一向量；

（13）基于第二子网络对视频关键词以及视频描述文本中文本关键词进行特征提取，得到关键词向量；

（14）基于第三子网络对视频描述文本进行特征提取，得到视频描述文本对应的文本向量。

请参阅图1c，如图所示为本申请提供的特征提取模型，该特征提取模型包括三个部分，分别为第一子网络S1、第二子网络S2以及第三子网络S3，其中，第一子网络S1用于提取视频类型对应的第一向量，在训练时，可以预先构建每个视频类型与类型标识之间的关联关系，然后，建立类型标识与第一子网络S1的网络参数之间的映射关系，比如，请参阅图1d，第一子网络S1对应的网络参数为一个3x3的矩阵，类型标识c对应该矩阵中权重值c，视频类型对应的第一向量为参数值m所在行所构成的向量，即，权重值c对应的向量为<a，b，c>，在使用时，利用第一子网络识别视频类型对应的类型标识，并基于识别的类型标识构建视频类型对应的第一向量，即，可选的，在一些实施例中，步骤“基于第一子网络对视频类型进行特征提取，得到视频类型对应的第一向量”，具体可以包括：

（21）获取视频类型对应的类型标识；

（22）在第一子网络对应的权重矩阵中提取类型标识的权重值，得到类型标识对应的第一权重值；

（23）根据提取的第一权重值，构建视频类型对应的第一向量。

进一步的，针对待推荐视频的视频类型仅为一种的情况时，将权重值对应的视频类型向量确定为视频类型对应的第一向量；而针对待推荐视频的视频类型为至少两种的情况时，将每个权重值对应的视频类型向量进行平均处理，得到视频类型对应的第一向量，即，可选的，在一些实施例中，步骤“根据提取的第一权重值，构建视频类型对应的第一向量”，具体可以包括：

（31）构建每个第一权重值对应的视频类型向量；

（32）对构建的视频类型向量进行平均处理，得到视频类型对应的第一向量。

可以理解的是，在该实施例中，实际上是计算所有视频类型向量的平均值，以向量a<1，2，3>和向量b<3，1，2>为例进行具体说明，假设目标向量为c，c=（a+b）/2，可知c=[（3，2，4.5），（4，1，2）]。

进一步的，在第二子网络S2中，本申请中对视频描述内容的关键词采用两种方式进行编码，也可以理解为采用两种方式提取视频描述内容中关键词的特征，具体的，对视频描述文本中文本关键词进行卷积处理，需要说明的，第二子网络可以包含卷积神经网络（Convolutional Neural Networks, CNN），CNN是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学***移不变分类（shift-invariant classification），因此也被称为“平移不变人工神经网络（Shift-Invariant Artificial Neural Networks, SIANN）。卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。其中，卷积神经网络的一般可以包括输入层、隐含层以及输出层，卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑，卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量（bias vector），类似于一个前馈神经网络的神经元（neuron）。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连，区域的大小取决于卷积核的大小，在文献中被称为“感受野”，其含义可类比视觉皮层细胞的感受野。卷积核在工作时，会有规律地扫过输入特征，在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量，在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制。卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。特征图在全连接层中会失去空间拓扑结构，被展开为向量并通过激励函数，卷积神经网络中输出层的上游通常是全连接层，因此其结构和工作原理与传统前馈神经网络中的输出层相同，在第二子网络S2的卷积神经网络中，其全连接层输出的是视频描述文本中每个文本关键词的词向量，该词向量携带有该词的含义。

需要说明的是，获取视频关键词对应的关键词标识，并基于第二子网络S2以及关键词标识，构建视频关键词对应的视频关键词向量，其中，构建视频关键词对应的视频关键词向量的方式与前面构建视频类型对应的第一向量的方式类似，具体请参阅前面实施例，在此不再赘述。

在得到视频关键词向量和文本关键词向量后，融合视频关键词向量和文本关键词向量，得到关键词向量，即，步骤“基于第二子网络对视频关键词以及视频描述文本中文本关键词进行特征提取，得到关键词向量”，具体可以包括：

（41）获取视频关键词对应的关键词标识；

（42）基于所述第二子网络以及关键词标识，构建视频关键词对应的视频关键词向量；

（43）采用所述第二子网络对视频描述文本中文本关键词进行卷积处理，得到文本关键词对应的文本关键词向量；

（44）融合视频关键词向量和文本关键词向量，得到关键词向量。

可选的，在一些实施例中，步骤“基于第二子网络以及关键词标识，构建视频关键词对应的视频关键词向量”，具体可以包括：

（51）在第二子网络对应的权重矩阵中提取关键词标识的权重值，得到关键词标识对应的第二权重值；

（52）根据提取的第二权重值，构建视频关键词对应的视频关键词向量。

进一步的，融合视频关键词向量和文本关键词向量的方式可以采用向量拼接的方式，当待推荐视频的视频关键词只有一种时，则将关键词标识对应的向量与文本关键词向量进行拼接，得到关键词向量；当待推荐视频的视频关键词为至少两种时，则对构建的第二权重向量进行平均处理，得到视频关键词对应的视频关键词向量，然后，再拼接文本关键词向量和视频关键词向量，得到关键词向量。

另外，第三子网络S3可以为卷积神经网络，具体的，可以利用该卷积神经网络对视频描述文本进行特征提取，该卷积神经网络与第二子网络S2中的卷积神经网络可以相同，以此提高网络的训练效率；也可以不相同，比如，两个卷积神经网络中隐含层的数量不同，使得不同子网络抽取的特征的维度不同，进而后续视频向量的语义丰富程度。

104、基于视频关键词构建视频描述文本的语义文本向量，并融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量。

为了提高后续视频向量的语义丰富程度，在本申请中，可以采用基于变换器的双向编码器（BiDirectional Encoder Rpresentation From Transformers，BERT）构建视频描述文本的语义文本向量，为便于描述，以下简称BERT模型，请参阅图1e，该BERT模型的输入为视频关键词以及视频描述文本中文本词，故，在构建视频向量之前，需要对视频描述文本进行分词，即，可选的，在一些实施例中，步骤“基于视频关键词构建视频描述文本的语义文本向量”，具体可以包括：

（61）获取预设语义文本构建模型；

（62）对视频描述文本进行分词，得到分词后描述文本；

（63）基于分词描述文本以及视频关键词，采用语义文本构建模型构建视频描述文本的语义文本向量。

其中，采用BERT模型作为文本的编码器，将分词后描述文本输入至BERT模型之后，CLS位置对应的向量是整个句子的向量，需要说明的是，在本申请中，BERT模型的输入为文本词的词嵌入向量与词向量的拼接结果，经过BERT模型处理后，输出视频描述文本的语义文本向量，该语义文本向量相对于单一的输入而言，语义文本向量具有更加丰富的语义信息，便于后续进行视频推荐。

需要说明的是，词嵌入向量又称Embedding特征，本实施例中的Embedding特征的对象为视频，即用于描述一个视频。词嵌入向量的描述思想是通过将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式，词嵌入向量的提取可以通过深度学习模型进行提取，例如可以采用卷积神经网络(Convolutional Neural Networks，CNN)模型、长短期记忆网络(Long Short-Term Memory，LSTM)模型、循环神经网络(Recurrent NeuralNetwork，RNN)或者Gated CNN(G-CNN)模型等进行提取，当然，也可以采用其他可能的深度学习模型进行提取，对此不做限制。

在得到第一向量、第二向量以及语义文本向量，可以拼接第一向量、第二向量以及语义文本向量，以得到待推荐视频的视频向量，比如，拼接第一向量、第二向量以及语义文本向量，然后，将拼接结果输入至一个前馈网络中，最终输出待推荐视频的视频向量，如图1f所示。

105、基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对目标视频进行推荐。

具体的，历史浏览视频可以包括用户已观看视频和/或已标记视频，已观看视频为用户在历史时间段内观看过的视频，已标记视频集合为用户在历史时间段内标记过的视频，其中，标记过的视频可以为用户收藏的视频或者用户点赞的视频等等。基于此，为每个历史浏览视频分配对应的权重，比如，可以为已标记视频分配较高的权重，具体根据实际情况进行选择。

进一步的，可以采用上述方法构建待推荐视频对应的视频向量，然后，计算两个视频向量（待推荐视频和历史浏览视频）之间的余弦相似度，将余弦相似度大于预设值的待推荐视频确定为目标视频，并将目标视频推荐至用户；当然，还可以将大于预设值的待推荐视频确定为候选视频，基于余弦相似度对候选视频进行排序，然后，再将位于排序后候选视频队列首位的候选视频确定为目标视频，并将目标视频推荐至用户，具体根据实际情况进行选择，在此不再赘述。

本申请实施例在采集待推荐视频数据以及用户的历史浏览视频数据后，从视频属性信息中获取待推荐视频的视频类型和视频描述内容，然后，对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量，接着，基于视频关键词构建视频描述文本的语义文本向量，并融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，最后，基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对目标视频进行推荐。本申请提供的视频推荐方案，提取视频类型对应的第一向量以及视频描述内容对应的第二向量，并利用视频关键词构建视频描述文本的语义文本向量，最后，融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，可见，该视频向量携带有待推荐视频丰富的语义信息，即，在本申请中，将视频推荐任务转换为文本匹配任务，并利用携带有丰富的语义信息的视频向量进行视频推荐，可以提高视频推荐的准确性。

根据实施例所述的方法，以下将举例进一步详细说明。

在本实施例中将以该视频推荐装置具体集成在服务器中为例进行说明。

请参阅图2，一种视频推荐方法，具体流程可以如下：

201、服务器采集待推荐视频数据以及历史浏览视频数据。

其中，待推荐视频数据包括多个待推荐视频以及每个待推荐视频的视频属性信息，历史浏览视频数据包括至少一个历史浏览视频，历史浏览视频为用户在历史时段内浏览过的视频，待推荐视频可以是视频网站播放的视频，或者网页中***的视频等。例如可以是各种影视视频、直播视频、节目视频以及短视频等等，并且，服务器可以是从视频网站获取待推荐视频数据以及用户的历史浏览视频数据，也可以是从视频数据库中获取待推荐视频数据以及用户的历史浏览视频数据，如本申请所公开的视频推荐方法，其中待推荐视频数据以及历史浏览视频数据可保存于区块链上。

202、服务器从视频属性信息中获取待推荐视频的视频类型和视频描述内容。

203、服务器对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量。

例如，具体的，服务器可以利用预先训练好的特征提取模型提取视频类型对应的第一向量以及视频描述内容对应的第二向量，其中，该特征提取模型可以包括第一子网络、第二子网络以及第三子网络，进一步的，服务器利用第一子网络提取视频类型对应的第一向量、利用第二子网络对视频关键词以及视频描述文本中文本关键词进行特征提取，得到关键词向量以及利用第三子网络提取视频描述文本对应的文本向量。

204、服务器基于视频关键词构建视频描述文本的语义文本向量，并融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量。

其中，服务器在得到第一向量、第二向量以及语义文本向量，可以拼接第一向量、第二向量以及语义文本向量，以得到待推荐视频的视频向量，比如，拼接第一向量、第二向量以及语义文本向量，然后，将拼接结果输入至一个前馈网络中，最终输出待推荐视频的视频向量。

205、服务器基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对目标视频进行推荐。

例如，具体的，服务器可以采用上述方法构建待推荐视频对应的视频向量，然后，计算两个视频向量（待推荐视频和历史浏览视频）之间的余弦相似度，将余弦相似度大于预设值的待推荐视频确定为目标视频，并将目标视频推荐至用户。

本申请实施例的服务器在采集待推荐视频数据以及历史浏览视频数据后，服务器从视频属性信息中获取待推荐视频的视频类型和视频描述内容，然后，服务器对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量，接着，服务器基于视频关键词构建视频描述文本的语义文本向量，并融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，最后，服务器基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对目标视频进行推荐。本申请提供的视频推荐方案，提取视频类型对应的第一向量以及视频描述内容对应的第二向量，并利用视频关键词构建视频描述文本的语义文本向量，最后，融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，可见，该视频向量携带有待推荐视频丰富的语义信息，即，在本申请中，将视频推荐任务转换为文本匹配任务，并利用携带有丰富的语义信息的视频向量进行视频推荐，可以提高视频推荐的准确性。

为便于更好的实施本申请实施例的视频推荐方法，本申请实施例还提供一种基于上述视频推荐装置（简称推荐装置）。其中名词的含义与上述视频推荐方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本申请实施例提供的视频推荐装置的结构示意图，其中该互动装置可以包括采集模块301、获取模块302、提取模块303、构建模块304、融合模块305以及推荐模块306，具体可以如下：

采集模块301，用于采集待推荐视频数据以及历史浏览视频数据。

其中，待推荐视频数据包括多个待推荐视频以及每个待推荐视频的视频属性信息，历史浏览视频数据包括至少一个历史浏览视频，历史浏览视频为用户在历史时段内浏览过的视频，待推荐视频可以是视频网站播放的视频，或者网页中***的视频等。例如可以是各种影视视频、直播视频、节目视频以及短视频等等，并且，采集模块301可以是从视频网站获取待推荐视频数据以及历史浏览视频数据，也可以是从视频数据库中获取待推荐视频数据以及历史浏览视频数据。

获取模块302，用于从视频属性信息中获取待推荐视频的视频类型和视频描述内容。

提取模块303，用于对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量。

例如，具体的，提取模块303可以利用预先训练好的特征提取模型提取视频类型对应的第一向量以及视频描述内容对应的第二向量，其中，该特征提取模型可以包括第一子网络、第二子网络以及第三子网络，进一步的，服务器利用第一子网络提取视频类型对应的第一向量、利用第二子网络对视频关键词以及视频描述文本中文本关键词进行特征提取，得到关键词向量以及利用第三子网络提取视频描述文本对应的文本向量。

可选的，在一些实施例中，提取模块303具体可以包括：

第一获取单元，用于获取预设特征提取模型；

第一提取单元，用于基于第一子网络对所述视频类型进行特征提取，得到视频类型对应的第一向量；

第二提取单元，用于基于第二子网络对视频关键词以及视频描述文本中文本关键词进行特征提取，得到关键词向量；

第三提取单元，用于基于第三子网络对视频描述文本进行特征提取，得到视频描述文本对应的文本向量。

可选的，在一些实施例中，第一提取单元具体可以包括：

第一获取子单元，用于获取视频类型对应的类型标识；

提取子单元，用于在第一子网络对应的权重矩阵中提取类型标识的权重值，得到类型标识对应的第一权重值；

第一构建子单元，用于根据提取的第一权重值，构建视频类型对应的第一向量。

可选的，在一些实施例中，第一子构建单元具体可以用于：构建每个第一权重值对应的视频类型向量；对构建的视频类型向量进行平均处理，得到视频类型对应的第一向量。

可选的，在一些实施例中，第二提取单元具体可以包括：

第二获取子单元，用于获取视频关键词对应的关键词标识；

第二构建子单元，用于基于第二子网络以及关键词标识，构建视频关键词对应的视频关键词向量；

处理子单元，用于采用第二子网络对视频描述文本中文本关键词进行卷积处理，得到文本关键词对应的文本关键词向量；

融合子单元，用于融合视频关键词向量和文本关键词向量，得到关键词向量。

可选的，在一些实施例中，第二构建子单元具体可以用于：在第二子网络对应的权重矩阵中提取关键词标识的权重值，得到关键词标识对应的第二权重值；根据提取的第二权重值，构建视频关键词对应的视频关键词向量。

可选的，在一些实施例中，融合子单元具体可以用于：对构建的第二权重向量进行平均处理，得到视频关键词对应的视频关键词向量；拼接文本关键词向量和视频关键词向量，得到关键词向量。

构建模块304，用于基于视频关键词构建视频描述文本的语义文本向量。

在本申请中，构建模块304可以采用基于变换器的双向编码器（BiDirectionalEncoder Rpresentation From Transformers，BERT）构建视频描述文本的语义文本向量。

可选的，在一些实施例中，构建模块304具体可以包括：

第二获取单元，用于获取预设语义文本构建模型；

分词单元，用于对视频描述文本进行分词，得到分词后描述文本；

构建单元，用于基于分词描述文本以及视频关键词，采用语义文本构建模型构建视频描述文本的语义文本向量。

可选的，在一些实施例中，构建单元具体可以用于：提取分词描述文本中文本词的词嵌入向量，词嵌入向量携带有文本词上下文的语义信息；提取视频关键词的词向量；拼接提取到的词嵌入向量和词向量，得到拼接后向量；将拼接后向量输入至所述语义文本构建模型中，得到视频描述文本的语义文本向量。

融合模块305，用于融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量。

推荐模块306，用于基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对目标视频进行推荐。

本申请实施例的采集模块301在采集待推荐视频数据以及用户的历史浏览视频数据后，获取模块302从视频属性信息中获取待推荐视频的视频类型和视频描述内容，然后，提取模块303对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量，接着，构建模块304基于视频关键词构建视频描述文本的语义文本向量，融合模块305融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，最后，推荐模块306基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对目标视频进行推荐。本申请提供的视频推荐方案，提取视频类型对应的第一向量以及视频描述内容对应的第二向量，并利用视频关键词构建视频描述文本的语义文本向量，最后，融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，可见，该视频向量携带有待推荐视频丰富的语义信息，即，在本申请中，将视频推荐任务转换为文本匹配任务，并利用携带有丰富的语义信息的视频向量进行视频推荐，可以提高视频推荐的准确性。

此外，本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

采集待推荐视频数据以及用户的历史浏览视频数据，从视频属性信息中获取待推荐视频的视频类型和视频描述内容，对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量，构建视频描述文本的语义文本向量，并融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并将目标视频推荐至用户。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本申请实施例在采集待推荐视频数据以及历史浏览视频数据后，从视频属性信息中获取待推荐视频的视频类型和视频描述内容，然后，对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量，接着，基于视频关键词构建视频描述文本的语义文本向量，并融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，最后，基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对目标视频进行推荐。本申请提供的视频推荐方案，提取视频类型对应的第一向量以及视频描述内容对应的第二向量，并利用视频关键词构建视频描述文本的语义文本向量，最后，融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，可见，该视频向量携带有待推荐视频丰富的语义信息，即，在本申请中，将视频推荐任务转换为文本匹配任务，并利用携带有丰富的语义信息的视频向量进行视频推荐，可以提高视频推荐的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频推荐方法中的步骤。例如，该指令可以执行如下步骤：

采集待推荐视频数据以及历史浏览视频数据，从视频属性信息中获取待推荐视频的视频类型和视频描述内容，对视频类型和视频描述内容进行特征提取，得到视频类型对应的第一向量以及视频描述内容对应的第二向量，构建视频描述文本的语义文本向量，并融合第一向量、第二向量以及语义文本向量，得到待推荐视频的视频向量，基于历史浏览视频以及待推荐视频的视频向量在多个待推荐视频中确定目标视频，并对目标视频进行推荐。

其中，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频推荐方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频推荐方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频推荐方法、装置、电子设备以及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频推荐方法，其特征在于，包括：

基于所述视频关键词构建所述视频描述文本的语义文本向量，并融合所述第一向量、第二向量以及语义文本向量，得到所述待推荐视频的视频向量；

2.根据权利要求1所述的方法，其特征在于，所述对所述视频类型和视频描述内容进行特征提取，得到所述视频类型对应的第一向量以及视频描述内容对应的第二向量，包括：

获取预设特征提取模型，所述特征提取模型包括第一子网络、第二子网络以及第三子网络；

基于所述第一子网络对所述视频类型进行特征提取，得到所述视频类型对应的第一向量；

基于所述第二子网络对所述视频关键词以及视频描述文本中文本关键词进行特征提取，得到关键词向量；

基于所述第三子网络对所述视频描述文本进行特征提取，得到所述视频描述文本对应的文本向量。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一子网络对所述视频类型进行特征提取，得到所述视频类型对应的第一向量，包括：

获取所述视频类型对应的类型标识；

在所述第一子网络对应的权重矩阵中提取所述类型标识的权重值，得到所述类型标识对应的第一权重值；

根据提取的第一权重值，构建所述视频类型对应的第一向量。

4.根据权利要求3所述的方法，其特征在于，所述根据提取的第一权重值，构建所述视频类型对应的第一向量，包括：

构建每个第一权重值对应的视频类型向量；

5.根据权利要求2所述的方法，其特征在于，所述基于所述第二子网络对所述视频关键词以及视频描述文本中文本关键词进行特征提取，得到关键词向量，包括：

获取所述视频关键词对应的关键词标识；

基于所述第二子网络以及关键词标识，构建所述视频关键词对应的视频关键词向量；

采用所述第二子网络对所述视频描述文本中文本关键词进行卷积处理，得到所述文本关键词对应的文本关键词向量；

融合所述视频关键词向量和文本关键词向量，得到关键词向量。

6.根据权利要求5所述的方法，其特征在于，所述基于所述第二子网络以及关键词标识，构建所述视频关键词对应的视频关键词向量，包括：

7.根据权利要求5所述的方法，其特征在于，所述融合所述视频关键词向量和文本关键词向量，得到关键词向量，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述基于所述视频关键词构建所述视频描述文本的语义文本向量，包括：

获取预设语义文本构建模型；

对所述视频描述文本进行分词，得到分词后描述文本；

基于分词描述文本以及视频关键词，采用所述语义文本构建模型构建所述视频描述文本的语义文本向量。

9.根据权利要求8所述的方法，其特征在于，所述基于分词描述文本以及视频关键词，采用所述语义文本构建模型构建所述视频描述文本的语义文本向量，包括：

提取所述视频关键词的词向量；

拼接提取到的词嵌入向量和词向量，得到拼接后向量；

10.一种视频推荐装置，其特征在于，包括：

构建模块，用于构建所述视频描述文本的语义文本向量；

11.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-9任一项所述视频推荐方法的步骤。

12.一种存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-9任一项所述视频推荐方法的步骤。