CN111400601A

CN111400601A - 一种视频推荐的方法及相关设备

Info

Publication number: CN111400601A
Application number: CN202010193915.4A
Authority: CN
Inventors: 屈冰欣; 郑茂
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2020-07-10
Anticipated expiration: 2039-09-16
Also published as: CN110609955A; CN110609955B; CN111400601B

Abstract

本申请实施例提供了一种视频推荐的方法及相关设备，可以提高视频的语义表征，从而为用户推荐更加贴合用户兴趣的视频。该方法包括:确定目标图像特征向量；确定目标文本特征向量；确定目标音频特征向量；基于所述目标图像特征向量、所述目标文本特征向量以及所述目标音频特征向量，通过目标语义转换模型得到所述目标视频的语义表征，所述目标语义转换模型与所述目标图像特征、所述目标文本特征以及所述目标音频特征相对应；当所述目标视频的语义表征与所述目标对象的兴趣画像相匹配时，向所述目标对象推送所述目标视频。

Description

一种视频推荐的方法及相关设备

本申请要求于2019年09月16日提交的、申请号为201910872376.4、发明名称为“一种视频推荐的方法及相关设备”的专利申请的分案申请。

技术领域

本申请涉及信息处理领域，尤其涉及一种视频推荐的方法及相关设备。

背景技术

互联网时代催生了视频的产生及迅速膨胀，随着视频信息量的大幅增长，使得用户在面对大量视频是无法从中获得自己真正感兴趣的内容。

现有的技术方案，通过对视频在图像、音频、文本等各个单模态进行单独的训练，得到各个单模态的视频表征，最后进行基本的拼接得到最终视频表征，之后根据视频表征为用户推荐视频。

然而通过单模态进行单独训练，并未考虑到模态之间的信息交互和交流，最终的视频表征效果不能很好的贴合视频所要表达的内容，进而使得推荐给用户的视频并不贴合用户的兴趣。

发明内容

本申请提供了一种视频推荐的方法及相关设备，可以提高视频的语义表征，从而为用户推荐更加贴合用户兴趣的视频。

本申请实施例第一方面提供一种视频推荐的方法，所述方法包括：

确定目标图像特征向量，所述目标图像特征向量为目标视频对应的图像特征向量，所述目标视频为待向目标对象推荐的视频，所述目标图像特征向量包括所述目标视频对应的视频图像帧的通道信息以及光流信息；

确定目标文本特征向量，所述目标文本特征向量为所述目标视频对应的文本特征向量，所述目标文本特征向量包括所述目标视频的标题信息以及所述目标视频关联音频的属性信息；

确定目标音频特征向量，所述目标音频特征向量为所述目标视频对应的音频特征向量；

基于所述目标图像特征向量、所述目标文本特征向量以及所述目标音频特征向量，通过目标语义转换模型得到所述目标视频的语义表征，所述目标语义转换模型与所述目标图像特征、所述目标文本特征以及所述目标音频特征相对应；

当所述目标视频的语义表征与所述目标对象的兴趣画像相匹配时，向所述目标对象推送所述目标视频。

可选地，所述方法还包括：

步骤1)确定多个视频中每个视频的图像特征向量、文本特征向量以及音频特征向量；

步骤2)初始化语义转换模型；

步骤3)基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征，所述第一视频为所述多个视频中的任意一个视频；

步骤4)更新所述语义转换模型的损失函数；

迭代执行步骤3)至步骤4)，直至达到预置的迭代终止条件，且将达到所述预置的迭代终止条件的语义转换模型确定为所述目标语义转换模型。

可选地，所述基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征之前，所述方法还包括：

确定所述第一图像特征向量的概率分布、所述第一文本特征向量的概率分布以及所述第一音频特征向量的概率分布；

更改第一特征向量的概率分布，以使得更改后的所述第一特征向量的概率分布与其他特征向量的概率分布的相对熵最小，所述第一特征向量为所述第一图像特征向量、所述第一文本特征向量以及所述第一音频特征向量中的任意一个特征向量，所述其他特征向量为所述第一图像特征向量、所述第一文本特征向量以及所述第一音频特征向量中除所述第一特征向量之外的特征向量；

所述基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征包括：

基于更改概率分布后的所述第一特征向量，通过初始化后的所述语义转换模型得到所述第一视频的语义表征。

确定第二特征向量以及第三特征向量之间的向量距离，所述第二特征向量以及所述第三特征向量为所述第一图像特征向量、所述第一文本特征向量以及所述第一音频特征向量中的任意两个特征向量；

将所述第二征向量向所述第三特征向量的向量空间进行迁移，以使得所述第二特征向量以及所述第三特征向量之间的向量距离最小；

基于迁移后的所述第二特征向量以及所述第三特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征。

建立目标语义空间；

将第四特征向量以及第五特征向量迁移至所述目标语义空间，所述第四特征向量以及所述第五特征向量为所述第一图像特征向量、第一文本特征向量以及第一音频特征向量中的任意两个特征向量；

基于迁移后的所述第四特征向量以及所述第五特征向量确定目标特征向量，所述目标特征向量为所述目标语义空间中与所述第四特征向量以及所述第五特征向量之间的向量距离均小于预设值的特征向量；

基于所述目标特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征。

可选地，所述方法还包括：

步骤1)确定所述多个视频中的每个视频的图像特征向量、文本特征向量以及音频特征向量；

步骤2)基于第二图像特征，通过第一转换模型得到第二视频的分类结果，所述第一转换模型为所述第二视频的图像特征对应的模型，所述第二图像特征为所述第二视频的视频图像帧对应的图像特征向量，所述第二视频为所述多个视频中的任意一个视频；

步骤3)基于所述第二视频的分类结果、所述第二图像特征向量、第二文本特征向量以及第二音频特征向量，通过第二转换模型得到所述第二视频的语义表征，所述第二文本特征向量为所述第二视频对应的文本特征向量，所述第二音频特征向量为所述第二视频对应的音频特征向量；

步骤4)更新第二转换模型的损失函数的权重；

迭代执行步骤2)至步骤4)直至达到所述预置的迭代终止条件，将达到所述预置迭代终止条件的所述第二转换模型确定为所述目标语义转换模型。

可选地，所述更新所述语义转换模型的损失函数包括：

通过反向传播算法更新所述损失函数中第四特征向量对应的权重，所述第四特征向量为所述第一图像特征向量、第一文本特征向量以及第一音频特征向量中的任意一个特征向量；

通过所述反向传播算法更新所述损失函数中所述第一图像特征向量对应的权重、第一文本特征向量对应的权重以及第一音频特征向量对应的权重。

可选地，所述方法还包括：

判断迭代次数是否达到预设数值，若是，则确定达到所述预置的迭代终止条件；

或，

判断所述语义转换模型的损失函数是否收敛，若是，则确定达到所述预置的迭代终止条件。

本申请实施例第二方面提供了一种视频推荐的装置，包括：

第一确定单元，用于确定目标图像特征向量，所述目标图像特征向量为目标视频对应的图像特征向量，所述目标视频为待向目标对象推荐的视频，所述目标图像特征向量包括所述目标视频对应的视频图像帧的通道信息以及光流信息；

所述第一确定单元，还用于确定目标文本特征向量，所述目标文本特征向量为所述目标视频对应的文本特征向量，所述目标文本特征向量包括所述目标视频的标题信息以及所述目标视频关联音频的属性信息；

所述第一确定单元，还确定目标音频特征向量，所述目标音频特征向量为所述目标视频对应的音频特征向量；

处理单元，用于基于所述目标图像特征向量、所述目标文本特征向量以及所述目标音频特征向量，通过目标语义转换模型得到所述目标视频的语义表征，所述目标语义转换模型与所述目标图像特征、所述目标文本特征以及所述目标音频特征相对应；

推送单元，用于当所述目标视频的语义表征与所述目标对象的兴趣画像相匹配时，向所述目标对象推送所述目标视频。

可选地，所述视频推荐的装置还包括：

模型训练单元，具体用于：

步骤2)初始化语义转换模型；

步骤4)更新所述语义转换模型的损失函数；

可选地，所述视频推荐的装置还包括：

第二确定单元，用于确定所述第一图像特征向量的概率分布、所述第一文本特征向量的概率分布以及所述第一音频特征向量的概率分布；

特征转换单元，用于更改第一特征向量的概率分布，以使得更改后的所述第一特征向量的概率分布与其他特征向量的概率分布的相对熵最小，所述第一特征向量为所述第一图像特征向量、所述第一文本特征向量以及所述第一音频特征向量中的任意一个特征向量，所述其他特征向量为所述第一图像特征向量、所述第一文本特征向量以及所述第一音频特征向量中除所述第一特征向量之外的特征向量；

所述模型训练单元基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征包括：

可选地，所述第二确定单元，还用于确定第二特征向量以及第三特征向量之间的向量距离，所述第二特征向量以及所述第三特征向量为所述第一图像特征向量、所述第一文本特征向量以及所述第一音频特征向量中的任意两个特征向量；

所述特征转换单元，还用于将所述第二征向量向所述第三特征向量的向量空间进行迁移，以使得所述第二特征向量以及所述第三特征向量之间的向量距离最小；

可选地，所述视频推荐的装置还包括：

建立单元，建立目标语义空间；

所述特征转换单元，还用于将第四特征向量以及第五特征向量迁移至所述目标语义空间，所述第四特征向量以及所述第五特征向量为所述第一图像特征向量、第一文本特征向量以及第一音频特征向量中的任意两个特征向量；

第三确定单元，用于基于迁移后的所述第四特征向量以及所述第五特征向量确定目标特征向量，所述目标特征向量为所述目标语义空间中与所述第四特征向量以及所述第五特征向量之间的向量距离均小于预设值的特征向量；

可选地，所述模型训练单元还用于：

步骤4)更新第二转换模型的损失函数的权重；

可选地，所述模型训练单元更新所述语义转换模型的损失函数包括：

可选地，所述模型训练单元还用于：

或，

本申请实施例第三方面提供了一种计算机装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的视频推荐的方法的步骤。

本申请实施例第四方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述各方面所述的视频推荐的方法的步骤。

综上所述，可以看出，在向用户推荐目标视频时，可以根据该目标视频的语义表征与用户画像是否匹配来向用户推送，而该目标视频的语义表征是基于目标视频的图像特征向量、文本特征向量以及音频特征向量，通过目标语义转换模型得到的。可以看出，本申请中，综合了视频各个单模态的特征信息，提升最终视频语义表征的丰富程度，使得得到的视频语义表征更加贴合目标视频的主题，进而为用户推荐更加符合兴趣的视频。

附图说明

图1为本申请实施例提供的一种网络架构示意图：

图2为本申请实施例提供的多模态联合学习的算法示意图；

图3为本申请实施例提供的视频推荐的方法的流程示意图；

图4为本申请实施例提供的目标视频的特征提取示意图；

图5为本申请实施例提供的目标语义转换模型的训练流程的一个示意图；

图6为本申请实施例提供的特征迁移的一个流程示意图；

图7为本申请实施例提供的特征迁移的另一流程示意图；

图8为本申请实施例提供的基于KD思想的模型训练的算法示意图；

图9为本申请实施例提供的目标语义转换模型的训练流程的另一示意图；

图10为本申请实施例提供的视频推荐的装置的虚拟结构示意图；

图11为本申请实施例提供的服务器的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个***中，或一些特征向量可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

本申请涉及人工智能领域，首先对人工智能的一些概念进行说明，具体如下：

人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

下面结合图1对本申请实施例提供的视频推荐的方法的网络结构图进行说明：

如图1所示，其中，本申请中的服务器103可以是一台服务器，也可以是多台服务器，服务器103通过网络102与服务器101建立通信连接，服务器103通过网络获取服务器101的数据。具体的，服务器103可以通过网络102获取服务器101上的目标视频的视频信息，之后根据视频信息确定目标图像特征向量，目标文本特征向量、目标音频特征向量；并基于目标图像特征向量、目标文本特征向量以及目标音频特征向量，通过目标语义转换模型得到目标视频的语义表征；当目标视频的语义表征与目标对象的兴趣画像相匹配时，向目标对象推送目标视频。

请参阅图2，本申请中提取视频的各个模态的特征向量，音频特征向量、图像特征向量以及文本特征向量，之后通过多模态联合学习实现各个模态之间的信息交互，调整模型的损失函数，使得训练的模型可以输出更加丰富的语义表征，进而在通过视频的语义表征以及用户的兴趣画像来向用户推荐视频，向用户推荐的视频更加贴合用户的兴趣爱好。本申请中的多模态联合学习不仅综合了视频各单模态的特征信息，同时也使得单模态之间进行信息的交互，提升最终视频语义表征的丰富程度，另外，视频的各单模态特征有互补作用，进行多模态联合学习后，单模态特征表征也包含了其他模态的优势信息，从而最终提高视频的语义表征。

下面将从视频推荐的装置的角度，对本发明中视频推荐的方法进行详细说明，该视频推荐的装置可以是服务器，也可以是服务器中的服务单元，具体不做限定。

请参阅图3，图3为本申请实施例提供的视频推荐的方法的流程示意图，包括：

301、确定目标图像特征向量。

本实施例中，视频推荐装置可以首先确定目标视频，该目标视频为待向目标对象推荐的视频，之后，可以确定该目标视频对应的目标图像特征向量，其中，该目标图像特征向量为目标视频对应的图像特征向量，该目标图像特征向量包括目标视频对应的视频图像帧的通道信息以及光流信息。具体的，该目标视频对应的视频图像帧可以是目标视频中任意选择的多帧视频图像，也可以是在目标视频中的每一秒对应的视频图像帧中随机挑选一帧，之后对挑选的视频图像帧进行Inception-resnet-v2模型的特征抽取，输出目标图像特征，该目标图像特征向量包括通道特征向量和光流特征向量。

需要说明的是，上述在通过视频图像帧进行图像特征抽取时，可以通过Inception-resnet-v2模型进行抽取，也可以通过其他深度学习网络结构的模型进行抽取，具体不做限定。

302、确定目标文本特征向量。

本实施例中，视频推荐的装置可以确定目标文本特征向量，该目标文本特征向量为目标视频对应的文本特征向量，该目标文本特征向量包括目标视频的标题信息以及目标视频的关联音频的属性信息。具体的，视频的推荐装置可以对目标视频的标题名称、目标视频的关联音频(如背景音乐)等文本数据进行预处理操作，例如对目标视频对应的文本数据进行分词、去停用词，之后将分词以及去停用词后的文本数据输入双向长短期记忆网络(Bi-LSTM，Bi Long Short-Term Memory)，并经过注意力机制(self-attention)部分，输出目标视频对应的目标文本特征向量。

需要说明的是，上述通过Bi-LSTM模型提取文本数据的文本特征向量，当然也可以替换为其他的深度学习模型，如卷积神经网络(Convolutional Neural Networks，CNN)，具体不做限定，只要能对目标视频对应的文本数据进行处理得到目标文本特征向量即可。

303、确定目标音频特征向量。

本实施例中，视频推荐的装置可以确定目标音频特征向量，该目标音频特征向量为目标视频对应的音频特征向量。具体的，视频推荐的装置可以提取目标视频的音频对应的梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)特征，并基于该MFCC特征通过vggish模型计算音频特征。可以理解的是，视频推荐的装置可以提前根据音频数据的分布特性训练普适性模型和特定模型用于提取音频特征，其中，该普适性模型适用于所有类型的视频的音频特征的提取，而特定模型只适用于某一类视频的音频特征的提取，例如曲艺或者相声类的视频可以通过训练特定的模型来识别音频特征。

需要说明的是，上述通过vggish模型提取视频对应的音频特征，当然也还可以通过其他的网络结构提取视频的音频特征，具体不做限定。

需要说明的是，通过步骤301可以确定目标图像特征向量，通过步骤302可以确定目标文本特征向量，通过步骤303可以确定目标音频特征向量，然而，这三个步骤之间并没有先后执行顺序的限制，可以先执行步骤301，也可以先执行步骤302，也可以先执行步骤303，或者同时执行，具体不做限定。

下面结合图4对目标视频中的特征提取进行说明，请参阅图4，图4为本申请实施例提供的视频的各个模态的特征提取示意图。

视频推荐的装置可以获取到目标视频的图像数据、音频数据以及文本数据，其中图像数据包括通道数据以及光流数据，之后通过每种数据对应的特征提取模型进行特征提取，得到通道特征向量401、光流特征向量402、音频特征向量403以及文本特征向量404。

304、基于目标图像特征向量、目标文本特征向量以及目标音频特征向量，通过目标语义转换模型得到目标视频的语义表征。

本实施例中，视频推荐的装置在得到目标图像特征向量、目标文本特向向量以及目标音频特征向量之后，可以将该目标图像特征向量、目标文本特征向量以及目标音频特征向量输入提前训练好的目标语义转换模型，输出目标视频的语义表征，其中，该目标语义转换模型与目标图像特征、目标文本特征以及目标音频特征相对应。也就是说，可以提前对多个视频中的每个视频的图像特征向量、文本特征向量以及音频特征向量进行训练得到目标语义转换模型，之后，在需要对目标视频进行语义表征识别时，只需要将目标视频对应的图像特征向量、文本特征向量以及音频特征向量输入目标语义转换模型即可以输出目标视频的语义表征。

305、当目标视频的语义表征与目标对象的兴趣画像相匹配时，向目标对象推送目标视频。

本实施例中，在得到目标视频的语义表征之后，视频推荐的装置可以判断该目标视频的语义表征与目标对象的兴趣画像是否匹配，若目标视频的语义表征与目标对象的兴趣画像相匹配，则向目标对象推送目标视频。

综上所述，可以看出，在向用户推荐目标视频时，可以根据该目标视频的语义表征与用户画像是否匹配来向用户推送，而该目标视频的语义表征是基于目标视频的图像特征向量、文本特征向量以及音频特征向量，通过目标语义转换模型得到的。可以看出，本申请中，综合了视频各个单模态的特征信息，提升最终视频语义表征的丰富程度，使得得到的视频语义表征更加贴合目标视频的主题，进而为用户推荐更加符合用户兴趣的视频。

上面对本申请实施例提供的视频推荐的方法进行说明，下面对本申请实施例提供的目标语义转换模型的训练流程进行说明。

请参阅图5，图5为本申请实施例提供的目标语义转换模型的训练流程的一个示意图，包括：

501、确定多个视频中每个视频的图像特征向量、文本特征向量以及音频特征向量。

本实施例中，在对目标语义转换模型的训练过程中，可以将训练语料中多个视频进行预处理，得到多个视频中每个视频的图像特征向量、文本特征向量以及音频特征向量，具体的预处理主要包括：特征提取，特征降维、特征空值处理、特征归一化；目标值空值处理，目标值转换(one-hot)等等。

需要说明的是，此处确定多个视频中每个视频的图像特征向量、文本特征向量以及音频特征向量的方式与上述图3中步骤301、步骤302以及步骤303类似，上述已经进行了具体说明，具体此处不再赘述。

需要说明的是，在得到多个视频中每个视频的图像特征向量、文本特征向量以及音频特征向量之后，可以将所有的特征向量划分为两部分，比例可以是75％和25％，将其中75％的数据作为训练数据用于训练模型，将其他25％的数据作为测试数据用于测试模型，具体不做限定，当然也还可以是其他的划分方式。

502、初始化语义转换模块。

本实施例中，初始化语义转换模型，也即对语义转换模型中的参数进行初始化。

需要说明的是，通过步骤501可以确定多个视频中每个视频的图像特征向量、文本特征向量以及音频特征向量，通过步骤502可以初始化语义转换模型，然而这两个步骤之间没有先后执行顺序的限制，可以先执行步骤501，也可以先执行步骤502，或者同时执行，具体不做限定。

503、基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后语义转换模型得到第一视频的语义表征。

本实施例中，视频推荐的装置可以从多个视频中随机挑选一个第一视频，并将该第一视频对应的第一图像特征向量、第二文本特征向量以及第一音频特征向量，输入值初始化后的语义转换模型，得到该第一视频的语义表征。

504、更新语义转换模型的损失函数。

本实施例中，在可以在得到第一视频的语义表征之后，更新语义转换模块的损失函数。此处具体不限定更新的方式。

505、迭代执行步骤503至步骤504，直至达到预置的迭代终止条件，且将达到预置的迭代终止条件的语义转换模型确定为目标语义转换模型。

本实施例中，在迭代计算的过程中，会判断当前是否已经满足迭代终止条件，若是，则停止迭代，将停止迭代时的语义转换模型确定为目标语义转换模型，若否，则重复执行步骤503至步骤504。也就是说，可以判断迭代次数是否达到预置数值，若是，则确定满足预置的迭代终止条件。

或者，

可以判断语义转换模型的损失函数是否收敛，即多次迭代后损失函数的值不再发生大的变化，若是，则确定满足预置的迭代终止条件。

在实际应用中，还可以以其他的条件作为迭代终止条件，具体此处不做限定，另外，损失函数可以是交叉熵(Cross Entropy Loss)函数，也可以是softmax函数，具体不做限定。

需要说明的是，在将目标语义转换模型训练完整会后，可以通过测试数据对该目标语义转换模型进行测试，具体的可以通过目标语义转换模型输出的得分(也即模型的输出结果中对的结果的比例)、查准率、查全率、F1(F score)指数来确定目标语义转换模型是否达到预期要求。

综上所述，可以看出，本申请实施例中，在对目标语义模型的训练过程中，综合了视频的各单模态的特征信息，同时也使得单模态之间进行信息的交互，提升最终视频语义表征的丰富程度，从而使得训练出来的目标语义转换模型，在使用时可以提高视频的语义表征。

在图5对目标语义转换模型的训练流程中，还可以加入对目标语义模型的优化操作，可以分别从训练语料以及反向传播两个方面进行优化，而训练语料的优化又包括各个模态的特征向量之间的特征迁移以及特征转换，下面分别进行说明：

1、训练语料中的特征向量之间的特征转换：

在一个实施例中，基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后语义转换模型得到第一视频的语义表征之前，还包括：

确定第一图像特征向量的概率分布、第一文本特征向量的概率分布以及第一音频特征向量的概率分布；

更改第一特征向量的概率分布，以使得更改后的第一特征向量的概率分布与其他特征向量的概率分布的相对熵最小，第一特征向量为第一图像特征向量、第一文本特征向量以及第一音频特征向量中的任意一个特征向量，其他特征向量为所述第一图像特征向量、第一文本特征向量以及第一音频特征向量中除第一特征向量之外的特征向量；

基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后语义转换模型得到所述第一视频的语义表征包括：

基于更改概率分布后的第一特征向量，通过初始化后的语义转换模型得到第一视频的语义表征。

本实施例中，可以通过特征转换的方式对训练语料进行优化，具体的，在将第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量通过语义转换模型进行训练之前，可以更改第一特征向量的概率分布，以使得更改后的第一特征向量的概率分布与其他特征向量的概率分布的相对熵最小，也即更改第一视频中某一个模态的特征向量的概率分布，使得该模态的特征向量与其他两个模态的特征向量的概率分布之间的相对熵最小，之后可以将更改概率分布之后的特征向量输入至初始化后的语义转换模块得到第一视频的语义表征。

需要说明的是，可以对第一视频中的三个模态的特征向量均执行特征转换，也可以只对三个模态中的某一个或两个模态的特征向量进行特征转换，具体不做限定。

2、训练语料中的特征向量之间的一种特征迁移方式：

在一个实施例中，在基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后语义转换模型得到第一视频的语义表征之前，还包括：

确定第二特征向量以及第三特征向量之间的向量距离，第二特征向量以及第三特征向量为第一图像特征向量、第一文本特征向量以及第一音频特征向量中的任意两个特征向量；

将所述第二征向量向所述第三特征向量的向量空间进行迁移，以使得第二特征向量以及第三特征向量之间的向量距离最小；

基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后语义转换模型得到第一视频的语义表征包括：

基于迁移后的第二特征向量以及第三特征向量，通过初始化后语义转换模型得到第一视频的语义表征。

本实施例中，在特征级别进行模态之间的特征transfer(迁移)的学习，互相交换各单模态间的信息，以达到互补的作用。具体的，可以首先确定图像特征向量、文本特征向量以及音频特征向量之间任意两个特征向量之间的向量距离，并将其他的某一个向量向另外一个特征向量的向量空间进行迁移，在迁移后，两个特征向量之间的向量距离最小。由此可以提升第一视频的各个单模态之间进行信息的交互，提升最终输出的第一视频的语义表征的丰富程度。

请参阅图6，图6本申请实施例提供的特征迁移的流程示意图：在通过特征提取模型提取得到第一视频的各个模态的特征之后，可以将其中的任意两个模态之间的特征进行迁移，此处以通道特征以及光流特征的迁移为例进行说明，将通道特征向光流特征所在的向量空间进行特征迁移，直至通道特征与光流特征之间的向量距离最小为止。

可以理解的是，上述仅为通道特征以及光流特征为例进行说明，当然也还可以是其他的两个特征之间进行特征迁移，例如音频特征与文本特征之间的特征迁移；另外，可以只迁移图像特征、文本特征以及音频特征中的某两个，也可以是任意两个之间的特征均进行特征迁移的操作，具体不做限定。

3、训练语料中的特征向量之间的另一种特征迁移方式：

建立目标语义空间；

将第四特征向量以及第五特征向量迁移至目标语义空间，第四特征向量以及第五特征向量为第一图像特征向量、第一文本特征向量以及第一音频特征向量中的任意两个特征向量；

基于迁移后的第四特征向量以及第五特征向量确定目标特征向量，目标特征向量为目标语义空间中与第四特征向量以及第五特征向量之间的向量距离均小于预设值的特征向量；

基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征包括：

基于目标特征向量，通过初始化后语义转换模型得到第一视频的语义表征。

本实施例中，在特征级别进行模态之间的特征transfer(迁移)的学习时，互相交换各单模态间的信息，以达到各个单模态的特征之间互补的作用。结合图7进行说明，在通过各个特征提取模型提取到各个模态的特征之后，可以建立目标语义空间，之后从图像特征向量、文本特征向量以及音频特征向量之间任意选取两个特征向量，其中图像特征向量包括通道特征向量以及光流特征向量，此处以两个特征向量为通道特征向量以及光流特征向量为例进行说明，将通道特征以及光流特征向目标语义空间进行迁移，在迁移完成后，从目标语义空间中确定出第五特征向量，且在目标语义空间中，该第五特征向量与通道特征向量以及光流特征向量之间的距离均小于预设值，之后，可以将第五特征向量输出至语义转换模型，得到第一视频的语义表征。

需要说明的是，上述仅以通道特征向量以及光流特征向量迁移至新的语义空间为例进行说明，当然也还可以是其他的两个特征，例如通道特征向量与音频特征向量、音频特征向量与文本特征向量；另外，在进行模型训练时，可以只对视频的图像特征向量、文本特征向量以及音频特征向量中的某两个模态之间的特征向量进行特征迁移，当然也可以是任意两个模态之间的特征均进行特征迁移的操作，具体不做限定。

还需要说明的是，特征空间转换可替换为其他特征空间转换方式，比如通过线性整流函数(Rectified Linear Unit,ReLU)、Softmax等函数转换、增加隐含层、增加卷积层等操作，具体不做限定。

4、优化反向传播的方式：

在一个实施例中，更新语义转换模型的损失函数包括：

通过反向传播算法更新损失函数中第四特征向量对应的权重，第四特征向量为第一图像特征向量、第一文本特征向量以及第一音频特征向量中的任意一个特征向量；

通过反向传播算法更新损失函数中第一图像特征向量对应的权重、第一文本特征向量对应的权重以及第一音频特征向量对应的权重。

本实施例中，可以通过反向传播算法进行4次反向传播来更新语义转换模块的损失函数，其中，前3次为分别固定其中2个模态的特征对应的权重不变，只修改剩余1个模态的特征对应的权重，第4次为同时修改3个模态的特征对应的权重。例如，第一次反向传播过程中，只修改图像特征向量对应的权重，文本特征向量对应的权重以及音频特征向量对应的权重保持不变，第二次反向传播的过程中，只修改文本特征向量对应的权重，图像特征向量对应的权重以及音频特征对应的权重保持不变，第三次反向传播的过程中，只修改音频特征向量对应的权重，图像特征向量对应的权重以及文本特征对应的权重保持不变，第四次反向传播的过程中，对图像特征向量对应的权重、文本特征向量对应的权重以及音频特征对应的向量均进行修改。

上面通过图5对目标语义模型的训练流程进行说明，还可以基于知识蒸馏(knowledge distillation，KD)的自适应学习来训练目标语义模型，借鉴KD的思想，在优化增加soft target(软目标)进而得到更加优化的目标语义模型。

结合图8对基于KD的自适应学习的算法思想进行说明，请参阅图8，801中为效果较好的复杂模型(也即第一转换模型)，软目标为复杂模型的输出(输出的为分类结果)，802为简单模型，该简单模型包括两个损失函数，一个是801输出的软目标的交叉熵损失函数，另一个为硬目标的交叉熵损失函数(该硬目标可以为模型的输出)，802中的简单模型通过对软目标的交叉熵损失函数的权重(也即802中的λ)以及硬目标的交叉熵损失函数的权重(也即802中的1-λ)进行调整，得到总的损失函数。训练好的模型如图8中的803所示的简单模型，将特征向量输入803的简单模型，输出预测结果。

请参阅图9，图9为本申请实施例提供的目标语义模型的训练流程的另一示意图，包括：

901、确定多个视频中每个视频的图像特征向量、文本特征向量以及音频特征向量。

需要说明的是，步骤901确定多个视频中每个视频的图像特征向量、文本特征向量以及音频特征向量与图3中步骤301、步骤302以及步骤303中确定特征向量的方式类似，上述已经进行了详细说明，具体此处不再赘述。

902、基于第二图像特征，通过第一转换模型得到第二视频的分类结果。

本实施例中，可以选择图像特征对应的模型作为第一转换模型，该第一转换模型为第二视频的图像特征对应的模型，第二图像特征为第二视频的视频图像帧对应的图像特征向量，第二视频为多个视频中的任意一个视频，该第一转换模型的具体训练流程可以参阅上述图5中所示的训练流程，具体此处不再赘述。在得到第一转换模型之后，可以将第二图像特征输入第一转换模型，之后输出第二视频的分类结果。

903、基于第二视频的分类结果、第二图像特征向量、第二文本特征向量以及第二音频特征向量，通过第二转换模型得到第二视频的语义表征。

本实施例中，可以在第二转换模型的基础上再加一个额外的soft target(软目标)的损失函数，通过lambda表达式来调节第二转换模型的原有的损失函数以及softtarget的权重。

904、更新第二转换模型的损失函数的权重。

本实施例中，可以更新第二转换模型的损失函数的权重，具体的，由于本申请中在模型的训练过程中，是在hard target的基础上再增加一个额外的soft target计算，可以通过如下公式实现模型总的损失函数：

L＝λL^soft+(1-λ)L^hard

其中，L为最终的损失函数，λ为soft target的损失函数的权重，L^soft为softtarget的损失函数，L^hard为hard target的损失函数。

通过调整soft target的损失函数的权重以及hard target的损失函数得到最终的L损失函数。

905、迭代执行步骤902至步骤904直至达到预置的迭代终止条件，将达到预置迭代终止条件的第二转换模型确定为标语义转换模型。

本实施例中，在迭代计算的过程中，会判断当前是否已经满足迭代终止条件，若是，则停止迭代，将停止迭代时的第二转换模型确定为目标语义转换模型，若否，则重复执行步骤902至步骤904。也就是说，可以判断迭代次数是否达到预置数值，若是，则确定满足预置的迭代终止条件。

或者，

可以判断第二转换模型的损失函数是否收敛，即多次迭代后损失函数的值不再发生大的变化，若是，则确定满足预置的迭代终止条件。

需要说明的是，上述对图5中的目标语义转换模型的优化方式，也可以适用于图9中所示的模型的优化，上述已经进行了具体说明，具体此处不再赘述。

综上所述，本实施例中，在训练目标语义模型的过程中，在损失函数中增加了softtarget，综合了视频的各单模态的特征信息，同时也使得单模态之间进行信息的交互，提升最终视频语义表征的丰富程度，从而使得训练出来的目标语义转换模型，在使用时可以提高视频的语义表征的效果。

上面从一种视频推荐的方法的角度对本申请实施例进行描述，下面从视频推荐的装置的角度看对本申请实施例进行描述。

请参阅图10，图10为本申请实施例中视频推荐的装置的一个虚拟结构示意图，包括：

第一确定单元1001，用于确定目标图像特征向量，所述目标图像特征向量为目标视频对应的图像特征向量，所述目标视频为待向目标对象推荐的视频，所述目标图像特征向量包括所述目标视频对应的视频图像帧的通道信息以及光流信息；

所述第一确定单元1001，还用于确定目标文本特征向量，所述目标文本特征向量为所述目标视频对应的文本特征向量，所述目标文本特征向量包括所述目标视频的标题信息以及所述目标视频关联音频的属性信息；

所述第一确定单元1001，还确定目标音频特征向量，所述目标音频特征向量为所述目标视频对应的音频特征向量；

处理单元1002，用于基于所述目标图像特征向量、所述目标文本特征向量以及所述目标音频特征向量，通过目标语义转换模型得到所述目标视频的语义表征，所述目标语义转换模型与所述目标图像特征、所述目标文本特征以及所述目标音频特征相对应；

推送单元1003，用于当所述目标视频的语义表征与所述目标对象的兴趣画像相匹配时，向所述目标对象推送所述目标视频。

可选地，所述视频推荐的装置还包括：

模型训练单元1004，具体用于：

步骤2)初始化语义转换模型；

步骤4)更新所述语义转换模型的损失函数；

可选地，所述视频推荐的装置还包括：

第二确定单元1005，用于确定所述第一图像特征向量的概率分布、所述第一文本特征向量的概率分布以及所述第一音频特征向量的概率分布；

特征转换单元1006，用于更改第一特征向量的概率分布，以使得更改后的所述第一特征向量的概率分布与其他特征向量的概率分布的相对熵最小，所述第一特征向量为所述第一图像特征向量、所述第一文本特征向量以及所述第一音频特征向量中的任意一个特征向量，所述其他特征向量为所述第一图像特征向量、所述第一文本特征向量以及所述第一音频特征向量中除所述第一特征向量之外的特征向量；

所述模型训练单元1004基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征包括：

可选地，所述第二确定单元1005，还用于确定第二特征向量以及第三特征向量之间的向量距离，所述第二特征向量以及所述第三特征向量为所述第一图像特征向量、所述第一文本特征向量以及所述第一音频特征向量中的任意两个特征向量；

所述特征转换单元1006，还用于将所述第二征向量向所述第三特征向量的向量空间进行迁移，以使得所述第二特征向量以及所述第三特征向量之间的向量距离最小；

可选地，所述视频推荐的装置还包括：

建立单元1007，建立目标语义空间；

所述特征转换单元1006，还用于将第四特征向量以及第五特征向量迁移至所述目标语义空间，所述第四特征向量以及所述第五特征向量为所述第一图像特征向量、第一文本特征向量以及第一音频特征向量中的任意两个特征向量；

第三确定单元1008，用于基于迁移后的所述第四特征向量以及所述第五特征向量确定目标特征向量，所述目标特征向量为所述目标语义空间中与所述第四特征向量以及所述第五特征向量之间的向量距离均小于预设值的特征向量；

可选地，所述模型训练单元1004还用于：

步骤4)更新第二转换模型的损失函数的权重；

可选地，所述模型训练单元1004更新所述语义转换模型的损失函数包括：

可选地，所述模型训练单元1004还用于：

或，

请参阅图11，图11是本发明实施例提供的一种服务器的硬件结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作***1141，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由视频处理装置所执行的步骤可以基于该图11所示的服务器结构。

本申请实施例还提供了一种计算机存储介质，其上存储有程序，该程序被处理器执行时实现上述所述视频推荐的方法的步骤。

本申请实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述视频推荐的方法的步骤。

本申请实施例还提供了一种终端设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现上述所述视频推荐的方法的步骤。

本申请还提供了一种计算机程序产品，当在视频推荐的设备上执行时，适于执行上述所述视频推荐的方法的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程视频推荐的设备的处理器以产生一个机器，使得通过计算机或其他可编程视频推荐的设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程视频推荐的设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程视频推荐的设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频推荐的方法，其特征在于，包括：

确定多个视频中每个视频的图像特征向量、文本特征向量以及音频特征向量；

初始化语义转换模型；

基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征，所述第一视频为所述多个视频中的任意一个视频；

更新所述语义转换模型的损失函数；

当达到预置的迭代终止条件时，将达到所述预置的迭代终止条件的语义转换模型确定为所述目标语义转换模型；

根据所述目标语义转换模型确定目标视频的语义特征，所述目标视频为待向目标对象推荐的视频；

2.根据权利要求1所述的方法，其特征在于，所述基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于第一视频的第一图像特征向量、第一文本特征向量以及第一音频特征向量，通过初始化后所述语义转换模型得到所述第一视频的语义表征之前，所述方法还包括：

建立目标语义空间；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

步骤4)更新第二转换模型的损失函数的权重；

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述更新所述语义转换模型的损失函数包括：

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

或，

8.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述目标语义转换模型确定目标视频的语义特征包括：

确定目标图像特征向量，所述目标图像特征向量为所述目标视频对应的图像特征向量，所述目标图像特征向量包括所述目标视频对应的视频图像帧的通道信息以及光流信息；

基于所述目标图像特征向量、所述目标文本特征向量以及所述目标音频特征向量，通过目标语义转换模型得到所述目标视频的语义表征，所述目标语义转换模型与所述目标图像特征、所述目标文本特征以及所述目标音频特征相对应。

9.一种视频推荐的装置，其特征在于，包括：

模型训练单元，所述模型训练单元用于：

初始化语义转换模型；

更新所述语义转换模型的损失函数；

处理单元，用于根据所述目标语义转换模型确定目标视频的语义特征，所述目标视频为待向目标对象推荐的视频；

推荐单元，用于当所述目标视频的语义表征与所述目标对象的兴趣画像相匹配时，向所述目标对象推送所述目标视频。

10.一种计算机存储介质，其特征向量在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-8中任一所述的方法。