CN112256917B

CN112256917B - 用户兴趣识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112256917B
Application number: CN202011283074.2A
Authority: CN
Inventors: 梁涛; 张晗; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2024-03-26
Anticipated expiration: 2040-11-17
Also published as: CN112256917A

Abstract

本申请提供了一种针对视频的用户兴趣识别方法、装置、设备及计算机可读存储介质；该方法包括：接收针对目标对象的视频识别指令，响应于视频识别指令，获取待识别视频，以及待识别视频对应的待识别文字信息；对待识别视频进行图像特征抽取，得到图像特征，并对待识别文字信息进行文字特征抽取，得到文字特征；从图像特征和所述文字特征中，挖掘出交互特征；交互特征表征了待识别视频的图像内容和待识别文字信息之间的联系；基于图像特征、文字特征和交互特征，确定出目标对象对待识别视频的兴趣信息。通过本申请，能够通过人工智能技术提高针对视频的用户兴趣识别的准确度。

Description

用户兴趣识别方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种用户兴趣识别方法、装置、设备及计算机可读存储介质。

背景技术

用户对于不同类型的视频，感兴趣的情况也是不同的，利用用户对视频的兴趣情况，可以更精准地为用户推荐视频。对视频进行兴趣识别，就是为了识别出用户是否喜欢视频，是否对视频感兴趣。

相关技术中，大多是借助于人工智能技术，利用视频的标题、字幕等文本信息，或者是视频的封面等图像信息，来进行视频的兴趣识别，也即，视频的兴趣识别是依据视频的单模态信息判断出的，从而使得视频的兴趣识别的判断模态单一，最终使得针对视频的用户兴趣识别的准确度较低。

发明内容

本申请实施例提供一种针对视频的用户兴趣识别方法、装置、设备及计算机可读存储介质，能够提高针对视频的用户兴趣识别的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种针对视频的用户兴趣识别方法，包括：

接收针对目标对象的视频识别指令，响应于所述视频识别指令，获取待识别视频，以及所述待识别视频对应的待识别文字信息；

对所述待识别视频进行图像特征抽取，得到图像特征，并对所述待识别文字信息进行文字特征抽取，得到文字特征；

从所述图像特征和所述文字特征中，挖掘出交互特征；所述交互特征表征了所述待识别视频的图像内容和所述待识别文字信息之间的联系；

基于所述图像特征、所述文字特征和所述交互特征，确定出所述目标对象对所述待识别视频的兴趣信息。

在本申请的一些实施例中，所述对所述拼接后的特征进行兴趣预测，得到所述目标对象对所述待识别视频的所述兴趣信息，包括：

对所述拼接后的特征进行非线性变换，得到非线性变换结果；

对所述非线性变换结果进行预测，得到所述目标对象对所述待识别视频的所述兴趣信息。

本申请实施例提供一种用户兴趣识别装置，包括：

信息获取模块，用于接收针对目标对象的视频识别指令，响应于所述视频识别指令，获取待识别视频，以及所述待识别视频对应的待识别文字信息；

特征抽取模块，用于对所述待识别视频进行图像特征抽取，得到图像特征，并对所述待识别文字信息进行文字特征抽取，得到文字特征；

交互挖掘模块，用于从所述图像特征和所述文字特征中，挖掘出交互特征；所述交互特征表征了所述待识别视频的图像内容和所述待识别文字信息之间的联系；

兴趣确定模块，用于基于所述图像特征、所述文字特征和所述交互特征，确定出所述目标对象对所述待识别视频的兴趣信息。

在本申请的一些实施例中，所述图像特征包括至少一个图像子特征，所述文字特征包括至少一个文字子特征；

所述交互挖掘模块，还用于利用所述至少一个图像子特征构造出图像矩阵图，以及利用所述至少一个文字子特征构造出文字矩阵图；将所述图像矩阵图和所述文字矩阵图进行融合，得到交互矩阵图；利用交互挖掘模型，对所述交互矩阵图进行特征提取，得到所述交互特征。

在本申请的一些实施例中，所述交互挖掘模块，还用于将所述至少一个图像子特征中的每个图像子特征进行向量化，得到所述每个图像子特征对应的第一矩阵行向量；按照所述至少一个图像子特征中的各个图像子特征的顺序，将所述每个图像子特征对应的第一矩阵行向量进行排列，得到所述图像矩阵图。

在本申请的一些实施例中，所述交互挖掘模块，还用于对所述至少一个文字子特征中的每个文字子特征进行向量化，得到所述每个文字子特征对应的第二矩阵行向量；依据所述至少一个文字子特征中的各个文字子特征的顺序，将所述每个文字子特征对应的第二矩阵行向量进行排列，得到所述文字矩阵图。

所述交互挖掘模块，还用于利用所述至少一个图像子特征构造出图像向量，以及利用所述至少一个文字子特征构造出文字向量；将所述图像向量和所述文字向量进行融合，得到交互特征向量；利用交互挖掘模型，对所述交互特征向量进行特征提取，得到所述交互特征。

在本申请的一些实施例中，所述兴趣确定模块，还用于将所述交互特征、所述图像特征和所述文字特征进行拼接，得到拼接后的特征；其中，所述图像特征描述了所述待识别视频的场景和对象；所述文字特征描述了所述待识别视频的主题；对所述拼接后的特征进行兴趣预测，得到所述目标对象对所述待识别视频的所述兴趣信息。

所述兴趣确定模块，还用于将所述至少一个图像子特征中的各个图像子特征进行拼接，得到拼接图像特征；将所述至少一个文字子特征中的各个文字子特征进行拼接，得到拼接文字特征；对所述拼接图像特征、所述拼接文字特征和所述交互特征进行拼接，得到所述拼接后的特征。

在本申请的一些实施例中，所述特征抽取模块，还用于对所述待识别视频进行关键帧抽取，得到至少一个关键视频帧；利用图像特征挖掘模型，对所述至少一个关键视频帧中的每个关键视频帧进行特征挖掘，得到所述至少一个关键视频帧对应的至少一个图像子特征；利用所述至少一个图像子特征，构成所述图像特征。

在本申请的一些实施例中，所述特征抽取模块，还用于将所述待识别文字信息进行分词，得到至少一个分词结果；针对所述至少一个分词结果中的每个分词结果构造词向量，得到所述至少一个分词结果对应的至少一个词向量；利用文字特征挖掘模型，对所述至少一个词向量中的每个词向量进行特征挖掘，得到所述至少一个文字子特征；利用所述至少一个文字子特征，构成所述文字特征。

在本申请的一些实施例中，所述特征抽取模块，还用于按照预设好的时间间隔，对所述待识别视频进行视频帧抽取，得到所述至少一个关键视频帧；或者，对所述待识别视频的每个视频帧进行识别，得到所述每个视频帧对应的识别结果，并依据所述识别结果从所述待识别视频的所有视频帧中挑选出至少一个关键视频帧；所述识别结果表征所述每个视频帧中是否包含关键内容。

在本申请的一些实施例中，所述特征抽取模块，还用于将所述待识别文字信息进行分词，得到至少一个初始切分结果；对所述至少一个初始切分结果进行实体词语的筛选，得到所述至少一个分词结果。

在本申请的一些实施例中，所述用户兴趣识别装置，还包括：视频推送模块；

所述视频推送模块，用于当所述兴趣信息大于等于兴趣阈值时，将所述待识别视频和所述待识别文字信息推送给所述目标对象对应的终端。

在本申请的一些实施例中，所述兴趣确定模块，还用于对所述拼接后的特征进行非线性变换，得到非线性变换结果；对所述非线性变换结果进行预测，得到所述目标对象对所述待识别视频的所述兴趣信息。

本申请实施例提供一种用户兴趣识别设备，包括：

存储器，用于存储可执行用户兴趣识别指令；

处理器，用于执行所述存储器中存储的可执行视频用户识别指令时，实现本申请实施例提供的针对视频的用户兴趣识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行用户兴趣识别指令，用于引起处理器执行时，实现本申请实施例提供的针对视频的用户兴趣识别的方法。

本申请实施例具有以下有益效果：

在针对视频的用户兴趣识别过程中，用户兴趣识别设备从待识别视频中提取出了图像特征，从待识别文字信息中提取出了文字特征，得到了待识别视频的图像模态的特征，以及文字模态的特征，并从图像特征和文字特征中进一步挖掘出了交互特征，从而得到明确了视频的图像内容和文字内容之间的深层次联系，用户兴趣识别设备结合图像模态上的特征，文字模态上的特征，以及图像内容和文字内容的内容组合来共同分析出目标对象对待识别视频的兴趣情况，比起单模态特征，增加了针对视频进行用户兴趣识别时的信息量，并且充分考虑了待识别视频和待识别文字信息之间的深度联系，即待识别视频的图文联系，从而更准确地分析出目标对象对待识别视频的兴趣情况，最终提高了针对视频的用户兴趣识别的准确度。

附图说明

图1是本申请实施例提供的针对视频的用户兴趣识别***100的一个可选的架构示意图；

图2是本申请实施例提供的图1中的用户兴趣识别设备的结构示意图；

图3是本申请实施例提供的针对视频的用户兴趣识别方法的可选的流程示意图一；

图4是本申请实施例提供的针对视频的用户兴趣识别方法的可选的流程示意图二；

图5是本申请实施例提供的构造交互矩阵图的过程示例图；

图6本申请实施例提供的构造图像矩阵图的过程示例图；

图7是本申请实施例提供的针对视频的用户兴趣识别方法的可选的流程示意图三；

图8是本申请实施例提供的待识别视频进行图像特征抽取的示例图；

图9是本申请实施例提供的对待识别文字信息进行文字特征抽取的过程示例图；

图10是本申请实施例提供的针对视频的用户兴趣识别方法的可选的流程示意图四；

图11是本申请实施例提供的变换模型的示例图；

图12是本申请实施例提供的训练视频样本集合中的数据结构的示例图；

图13是本申请实施例提供的后台服务器预测特定用户群体的兴趣的整体过程示例图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展的人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，是机器具有感知、推理和决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语音处理技术以及机器学习/深度学习等几大方向。

2)计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的可选，更进一步说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，视图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

3)自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

4)机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

5)针对视频的用户兴趣识别，是指利用视频的各类信息，判断用户是否喜欢视频，是否对视频具有兴趣等，也即，针对视频的用户兴趣识别是判断用户播放视频的倾向。针对视频的用户兴趣识别可以借助人工智能技术实现，例如，通过计算机视觉技术来分析视频的场景、人物等画面，判断出用户对视频感兴趣的情况，或者是通过自然语言处理技术来分析视频的标题、台词等，从而判断出用户对视频的感兴趣的情况等。

6)视频场景帧(Key Frames，KF)，一般是指视频中代表各个场景的视频帧。视频场景帧中可以包括人物对象、场景等。

7)卷积神经网络(Convolution Neural Networks，CNN)是深度学习的代表算法之一，被应用于多个领域，语音识别、图像分类、图像分割等，均可以通过CNN来实现。

CNN主要包括卷积层、激活层和池化层三种结构。其中，卷积层最主要的操作就是用滑动滤波器来进行卷积，值得注意的是，在一个卷积层中，可以具有多个不同的滑动滤波器，这样，能够提取到多个特征空间的特征。激活层引入了非线性因素，从而增加CNN模型的表达能力。池化层将卷积层的特征进行降维，去除冗余特征，保留最重要的特征。

8)双向长短期记忆网络(Bi-directional Long Short Term Memory，Bi-LSTM)由一个正序的长短期记忆网络(Long Short Term Memory，LSTM)，和一个逆序的LSTM组成，可以将某个时刻过去的信息和未来的信息都得以利用，使预测准确率更高。Bi-LSTM通常应用在自然语言处理、视频理解等领域中。

9)全连接层(Full Connected Layer，FC)中的每一个神经元都与前一层的所有神经元相连，从而将前一层所提取到的特征综合起来。在CNN中，FC一般出现在最后几层，用于对前面的卷积层和池化层提取出的特征进行加权。

10)用户的画像，是建立在一系列真实数据之上的模型，是根据用户的实体属性、特征、历史操作等信息抽取出的一个标签化的模型。

11)云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、存储、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源，如视频网络、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后端支撑，只能通过云计算实现。

随着互联网和智能终端的普及，越来越多的用户可以成为视频制作者，将自己录制的各类视频上传至互联网，从而使得互联网上的视频资源不断增长。在实际生活中，用户对于不同类型的视频会具有不同的喜好情况，例如，有些用户喜欢动漫类的视频，有些用户喜欢综艺类的视频。在明确用户对于不同类型的视频的兴趣情况之后，能够依据用户对不同类型的视频的兴趣情况，来选择给用户推荐哪些视频，从而可以实现对用户的精准视频推荐。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。针对视频的用户兴趣识别是人工智能中的一个重要应用方向，借助于人工智能技术对视频进行用户兴趣识别，就是为了识别出用户是否喜欢视频，是否对视频感兴趣，如此，就可能明确用户是否可能会打开视频。

相关技术中，大多是利用计算机视觉技术，从视频的标题、字幕等文本信息中提取出兴趣信息特征，或者是利用自然语言处理技术，从视频的封面、视频帧等图像信息中提取出兴趣信息特征，然后基于所提取到的兴趣信息特征来判断出用户对视频的兴趣情况。也就是说，相关技术中，大多是借助于人工智能技术，利用视频的文本信息，或者是视频的图像信息，来对视频进行用户兴趣识别。视频的文本信息、图像信息均是单模态信息，而选择某种单一模态信息，势必会在进行视频的用户兴趣识别中忽略另一些模态的信息，从而对视频的信息的利用不够充分，进而使得针对视频的用户兴趣识别的准确度较低。

本申请实施例提供一种针对视频的用户兴趣识别方法、装置、设备和计算机可读存储介质，能够提高针对视频的用户兴趣识别的准确度。下面说明本申请实施例提供的用户兴趣识别设备的示例性应用，本申请实施例提供的用户兴趣识别设备可以实施为终端，也可以实施为服务器。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN，以及大数据和人工智能平台等基础云计算的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不作限制。下面，将说明用户兴趣识别设备的示例性应用。

参见图1，图1是本申请实施例提供的针对视频的用户兴趣识别***100的一个可选的架构示意图，为实现支撑一个针对视频的用户兴趣识别应用，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接用户兴趣识别设备200，网络300可以是广域网或者局域网，又或者是二者的组合。用户兴趣识别设备200还配置有数据库500，数据库500用于为用户兴趣识别设备200提供数据服务。

终端400-1用于录制并上传视频，以及上传视频对应的文字信息。当用户通过终端400-1的摄像器录制了视频，并为录制的视频编辑了匹配的标题或字幕，即录制的视频对应的文字信息之后，会点击终端400-1的图形界面400-11所示出的上传按键，终端400-1通过网络300将录制的视频，以及录制的视频对应的文字信息发送给用户兴趣识别设备200，用户兴趣识别设备200将录制的视频作为待识别视频，将录制的视频对应的文字信息，作为待识别视频对应的待识别文字信息存储于数据库500。

用户兴趣识别设备200接收针对目标对象的视频识别指令时，会响应于视频识别指令，从数据库500中获取待识别视频，以及待识别视频对应的待识别文字信息。接着，用户兴趣识别设备200对待识别视频进行图像特征抽取，得到图像特征，并对待识别文字信息进行文字特征抽取，得到文字特征。之后，用户兴趣识别设备200从图像特征和文字特征中，挖掘出交互特征，其中，交互特征表征了待识别视频的图像内容和待识别文字信息之间的联系。用户兴趣识别设备200基于图像特征、文字特征和交互特征，确定出目标对象对待识别视频的兴趣信息。当兴趣信息表明目标对象具有观看待识别视频的兴趣时，用户兴趣识别设备200将待识别视频和待识别文字信息推送给目标对象对应的终端400-2。

终端400-2在图像界面400-21上显示待识别视频和待识别文字信息，从而使得目标对象可以获取待识别视频。

参见图2，图2是本申请实施例提供的图1中的用户兴趣识别设备的结构示意图，图2所示的用户兴趣识别设备200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。用户兴趣识别设备200中的各个组件通过总线***240耦合在一起。可理解，总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***251，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的用户兴趣识别装置可以采用软件方式实现，图2示出了存储在存储器250中的用户兴趣识别装置255，其可以是程序和插件等形式的软件，包括以下软件模块：信息获取模块2551、特征抽取模块2552、交互挖掘模块2553、兴趣确定模块2554和视频推送模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的用户兴趣识别装置可以采用硬件方式实现，作为示例，本申请实施例提供的用户兴趣识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的针对视频的用户兴趣识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPL D，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

示例性的，本申请实施例提供了一种用户兴趣识别设备，包括：

存储器，用于存储可执行用户兴趣识别指令；

处理器，用于执行所述存储器中存储的可执行用户兴趣识别指令时，实现本申请实施例提供的针对视频的用户兴趣识别方法。

下面，将结合本申请实施例提供的用户兴趣识别设备的示例性应用和实施，说明本申请实施例提供的针对视频的用户兴趣识别方法。需要说明的是，本申请可以借助于云技术实现。

参见图3，图3是本申请实施例提供的针对视频的用户兴趣识别方法的可选的流程示意图一，将结合图3示出的步骤进行说明。

S101、接收针对目标对象的视频识别指令，响应于视频识别指令，获取待识别视频，以及待识别视频对应的待识别文字信息。

本申请是在判断目标对象是否对视频具有观看兴趣的场景下实现的，例如，判断某个用户群体是否喜欢新上传的视频，或是判断某个用户是否喜欢视频库中的某个视频等。在此场景下，用户兴趣识别设备要实时确认其是否接收到了针对目标对象的视频识别指令，当用户兴趣识别设备接收到针对目标对象的视频识别指令之后，就会明确当前需要对目标对象进行视频的用户兴趣识别，从而从数据库中获取由视频识别指令所指定的视频，并将获取到的视频识别指令所指定的视频，作为待识别视频。同时，用户兴趣识别设备还会获取视频识别指令所指定的视频所对应的文字信息，将获取到的文字信息作为待识别文字信息。

需要说明的是，目标对象可以是特定的用户的画像所对应的用户群体，即目标对象为目标用户的画像所对应的用户群体。而用户的画像是将某一类人的共有特征进行标签化之后得到的，因此，目标对象可以是特定的人群，例如，年龄为18-25岁的女性群体，或者是生活在某二线城市的男性群体。此时，用户兴趣识别设备就是判断某个特定的人群是否对视频识别指令所指定的视频具有兴趣。

目标对象还可以是某个特定的用户，例如，ID为h123456789的用户，或者是昵称为XXX的用户等。此时，用户兴趣识别设备就是判断某个特定用户是否对视频识别指令所指定的视频具有兴趣。

可以理解的是，本申请实施例中，待识别视频可以是任意用户通过自己的智能终端录制并上传的短视频(即视频时长在5分钟之内的视频)，也可以是由专业制作团队所制作的长视频(即视频时长大于5分钟的视频)。待识别视频可以是最新上传的视频，也可以是数据库中原本就存储着的视频。

视频识别指令可以是在进行视频推广时触发的，例如，管理人员在对原本就存储在数据库，并且播放量低于一定程度的视频进行推广时触发的，或者是在对指定的视频进行推广时触发的。此时，需要进行推广的视频，就是待识别视频。视频识别指令还可以是在新视频上传时触发的，例如，当用户兴趣识别设备接收到了用户上传的短视频时，立即触发视频识别指令，或者是接收到专业制作团队发送的长视频时，立即触发视频识别指令。此时，新上传的视频就是待识别视频。

本申请实施例中，待识别文字信息是对待识别视频的主题进行说明的文字信息，例如，待识别视频的标题等。待识别文字信息还可以是对待识别视频的具体情节相对应的文字，例如，待识别视频的字幕等。当然，待识别文字信息还可以为待识别视频的其他文字信息，例如，待识别视频的标签、待识别视频的评论等，本申请在此不作限定。

S102、对待识别视频进行图像特征抽取，得到图像特征，并对待识别文字信息进行文字特征抽取，得到文字特征。

用户兴趣识别设备在获取到待识别视频和待识别文字信息之后，就可以从待识别视频和待识别文字信息中抽取出对视频进行用户兴趣识别时所需要的特征了。此时，用户兴趣识别设备会先从待识别视频中提取出视频帧，然后再对提取出的视频帧进行图像特征抽取，得到从视频帧中抽取的图像特征。同时，用户兴趣识别设备还会待识别文字信息分解为一个个的分词，然后对这些分析进行文字特征抽取，得到待识别视频的文字特征。

可以理解的是，目标对象判断自身是否对某个视频的是否感兴趣时，就是根据待识别视频的图像是否包含了其所喜欢的内容，以及待识别视频所对应的待识别文字信息是否包含了描述了其所喜欢的内容来确定的。而图像特征正是从待识别视频的图像抽取出的，能够表达待识别视频的图像所包含的内容，因此，通过图像特征能够判断出目标对象对待识别视频的兴趣情况。同理的，文字特征是从待识别文字信息中抽取出来的，能够表达待识别文字信息所要描述的内容，因此，通过文字特征也能够判断出目标对象对待识别视频的兴趣情况。

在本申请的一些实施例中，用户兴趣识别设备可以利用计算机视觉技术，来对待识别视频的视频帧进行图像特征抽取，例如，通过CNN从待识别视频的视频帧中抽取出图像特征，或者是通过方向梯度直方图(Histogram of Orie nted Gradient，HOG)算法、尺度不变特征变换(Scale-invariant Feature Trans form，SIFT)算法，来从待识别视频的视频帧中抽取图像特征。

用户兴趣识别设备可以借助于自然语言处理技术与深度学习技术，来对待识别文字信息进行文字特征抽取，例如，通过自然语音处理技术中的文本分割来对待识别文字信息进行分词，利用Bi-LSTM从分词中抽取出文字特征，或者是利用独热(one-hot)编码对分词进行特征提取，然后再利用RNN对one-hot所提取的特征再进一步进行提取特征，得到文字特征。

可以理解的是，用户兴趣识别设备抽取出的图像特征，可以是特征向量，也可以是特征图，本申请在此不作限定。用户兴趣识别设备抽取出的文字特征，可以是特征向量，也可以是特征值，本申请在此不作限定。

进一步的，在本申请的一些实施例中，用户兴趣识别设备是对待识别视频的多个视频帧分别进行特征抽取，得到多个视频帧中的每个视频帧所对应的图像特征，用户兴趣识别设备可以将每个视频帧对应的图像特征，均作为图像子特征，得到多个图像子特征，然后再用多个图像子特征组成待识别视频的图像特征。在另一些实施例中，用户兴趣识别设备还可以是从待识别视频中抽取出一个或多个关键帧，然后用一个或多个关键帧各自的图像子特征，整合成图像特征。

同理的，在本申请的一些实施例中，用户兴趣识别设备可以是对待识别文字信息的各个分词中的而每个分词分别进行特征抽取，从而得到与各个分词一一对应的文字子特征，然后再利用这些文字子特征，组成文字特征。在另一些实施例中，用户兴趣识别设备还可以从待识别文字信息的各个分词中的一个或多个实体词语提取出来，然后再将一个或多个实体词语各自的文字子特征，整合文字特征。

S103、从图像特征和文字特征中，挖掘出交互特征；交互特征表征了待识别视频的图像内容和待识别文字信息之间的联系。

用户兴趣识别设备得到待识别视频的图像特征和文字特征之后，会将图像特征和文字特征进行融合，然后对融合所得到的特征进行特征挖掘，将挖掘到的特征作为交互特征，以便于后续结合交互特征，来判断出目标对象对待识别特征的兴趣情况。

需要说明的是，虽然通过图像特征，或者通过文字特征能够判断出目标对象对待识别视频的兴趣，但是，图像特征和文字特征都只是待识别视频的部分特征，而利用部分特征来判断目标对象对视频的兴趣情况，难免会出现判断不准确的现象，即用户兴趣识别设备利用部分特征判断出的目标对象对某视频的兴趣情况，可能并不是目标对象对某视频实际的兴趣情况。并且，在实际中，一些视频的图像内容和文字内容之间可能是割裂的，即图像内容和文字内容并不具有联系，而用户实际喜欢的是图像内容与文字内容所组成的内容组合。此时，只依据图像特征或文字特征来判断目标对象对视频的兴趣，很可能会造成误判，使得针对视频的用户兴趣识别的准确度降低。例如，18-25岁的女性实际上喜欢的是某个明星的街舞视频，这些视频可能以“街舞”作为标题，当具有与该明星不相关的街舞视频，如街舞教学视频时，用户兴趣识别设备也会判定18-25岁的女性对街舞教学视频具有兴趣，从而发生误判。又或是当具有画面内容包含该明星的综艺视频时，用户兴趣识别设备也会判定18-25岁的女性对该视频具有兴趣。

为了提高针对视频的用户兴趣识别的准确度，本申请实施例中，用户兴趣识别设备在图像特征和文字特征的基础上，继续挖掘待识别视频的图像内容和待识别文字信息之间的深度联系，从而得到明确待识别视频的图像内容所包含的内容，和待识别文字信息所表达的内容所构成的内容组合，也就得到了交互特征。

可以理解的是，当图像特征和文字特征的形式不同时，例如，图像特征为特征图，文字特征为特征向量，这时，用户兴趣识别设备可以先将图像特征和文字特征转换为相同形式，然后再将图像特征和文字特征进行融合，从而开始交互特征的挖掘过程。当图像特征和文字特征的形式相同时，用户兴趣识别设备可以直接将图像特征和文字特征进行融合，进而开始交互特征的挖掘过程。

在本申请中，用户兴趣识别设备可以通过CNN，来对由图像特征和文字特征融合所得到的特征进行特征挖掘，也可以利用RNN，来对由图像特征和文字特征融合所得到的特征进行特征挖掘，本申请再次不作限定。

S104、基于图像特征、文字特征和交互特征，确定出目标对象对待识别视频的兴趣信息。

由于交互特征表明了待识别视频的图像内容所包含的内容，和待识别文字信息所表达的内容所构成的内容组合，用户兴趣识别设备在得到交互特征之后，可以对交互特征、图像特征和文字特征联合进行分析，明确待识别视频中是否具有目标对象喜欢的图像内容、待识别文字信息中是否表达了目标对象喜欢的文字内容，以及判断出待识别视频的图像内容和待识别视频对应的文字内容所组合出的内容组合，是否是目标对象喜欢、感兴趣的，从而判断出目标对象对待识别视频的感兴趣程度，最终得到了目标对象对待识别视频的兴趣信息。也即，兴趣信息表征了目标对象对待识别视频的感兴趣程度。如此，用户兴趣识别设备能够同时结合多个模态的特征，即图像上的特征、文字上的特征，以及图像内容和文字内容的内容组合，来共同判断目标对象对待识别视频的兴趣情况，不仅增加了分析目标对象对待识别视频的兴趣信息时所使用的特征的信息量，还充分考虑了挖掘出的深度联系是否是目标对象所感兴趣的，从而更准确地分析出目标对象观看待识别视频的兴趣。

可以理解的是，在本申请的一些实施例中，用户兴趣识别设备可以将图像特征、文字特征和交互特征进行融合，然后对融合后的特征进行识别，从而得到目标对象对待识别视频的兴趣信息。在本申请的另一些实施例中，用户兴趣识别设备还可以分别对图像特征、文字特征和交互特征进行识别，分别得到图像兴趣概率、文字兴趣概率和交互兴趣概率，然后再对图像兴趣概率、文字兴趣概率和交互兴趣概率进行加权，得到目标对象对待识别视频的兴趣信息。

需要说明的是，兴趣信息可以目标对象播放待识别视频的概率，例如，目标对象有0.75的概率播放待识别视频；也可以是目标对象是否要播放待识别视频(即二元结果，只有会播放和不会播放两个结果)，例如，目标对象不会播放待识别视频。

本申请实施例中，用户兴趣识别设备从待识别视频中提取出了图像特征，从待识别文字信息中提取出了文字特征，得到了待识别视频的图像模态的特征，以及文字模态的特征，并从图像特征和文字特征中进一步挖掘出了交互特征，从而得到明确了视频的图像内容和文字内容之间的深层次联系，用户兴趣识别设备结合图像模态上的特征，文字模态上的特征，以及图像内容和文字内容的内容组合来共同分析出目标对象对待识别视频的兴趣情况，比起单模态特征，增加了针对视频的进行用户兴趣识别时的信息量，并且充分考虑了待识别视频和待识别文字信息之间的深度联系，即待识别视频的图文联系，从而更准确地分析出目标对象对待识别视频的兴趣情况，最终提高了针对视频的用户兴趣识别的准确度。

参见图4，图4是本申请实施例提供的针对视频的用户兴趣识别方法的可选的流程示意图二。在本申请的一些实施例中，图像特征是由从待识别视频的多个视频帧中所抽取出的多个图像子特征组成，或者是由从待识别视频的一个或多个关键帧中所抽取出的图像子特征整合成的，可见，本申请中，图像特征包括至少一个图像子特征；文字特征是从待识别文字信息的各个分词中所抽取的文字子特征组合的，或者是从各个分词中的一个或多个实体词语所抽取的文字子特征整合成的，因此，本申请中，文字特征包括至少一个文字子特征。在此情形下，从图像特征和文字特征中，挖掘出交互特征，即S103的具体实现过程，可以包括：S1031-S1033，如下：

S1031、利用至少一个图像子特征构造出图像矩阵图，以及利用至少一个文字子特征构造出文字矩阵图。

用户兴趣识别设备会先对图像特征进行处理，即利用图像特征所包括的至少一个图像子特征进行矩阵图的构造，得到图像特征所对应的图像矩阵图。与此同时，用户兴趣识别设备还会对文字特征进行处理，即利用文字特征所包含的至少一个文字子特征进行矩阵图的构造，得到文字特征所对应的文字矩阵图。

在本申请中，当至少一个图像子特征中的各个图像子特征均为向量形式时，用户兴趣识别设备可以将至少一个图像子特征中的各个图像子特征按行进行排列，得到图像矩阵图。当至少一个图像子特征中的各个图像子特征均为特征图形式时，用户兴趣识别设备可以将这些特征图进行加权融合，得到图像矩阵图。

类似的，在本申请中，当至少一个文字子特征中的各个文字子特征均为向量形式时，用户兴趣识别设备可以将至少一个文字子特征中的各个文字特征按行进行排列，从而得到文字矩阵图。当至少一个文字子特征中的各个文字子特征为特征值时，用户兴趣识别设备将每个文字子特征构造为向量，然后再利用构造好的向量按行排列，得到文字矩阵图。在一些实施例中，用户兴趣识别设备可以通过对某个特征值进行开方、平方等操作，构造出该特征值对应的辅助元素，然后利用该特征值和对应的辅助元素，构造出该特征值对应的向量。

S1032、将图像矩阵图和文字矩阵图进行融合，得到交互矩阵图。

用户兴趣识别设备在得到图像矩阵图和文字矩阵图之后，就可以将图像矩阵图和文字矩阵图进行融合，得到融合后的矩阵图，然后将融合后的矩阵图，作为交互矩阵图。

可以理解的是，在本申请的一些实施例中，用户兴趣识别设备可以通过加权的方式来进行矩阵图的融合，即用户兴趣识别设备对图像矩阵图和文字矩阵图进行加权，加权所得到的矩阵图即为融合后的矩阵图，也就是交互矩阵图。在本申请的另一些实施例中，用户兴趣识别设备还可以通过乘法的方式来进行矩阵图的融合，即将图像矩阵图和文字矩阵图进行相乘，所得到的乘积矩阵图即为融合后的矩阵图，也就是交互矩阵图。

示例性的，本申请实施例提供了构造交互矩阵图的过程示例图，参见图5，图像特征5-1中包括了图像子特征5-11、图像子特征5-12，图像子特征5-13和图像子特征5-14，并且，这些图像子特征均为向量形式的。这时，用户兴趣识别设备将图像子特征5-11、图像子特征5-12，图像子特征5-13和图像子特征5-14按行进行排列，即按照一行一个向量形式的特征进行排列，就得到了图像矩阵图5-2。文字特征中5-3包括了文字子特征5-31、文字子特征5-32，文字子特征5-33和文字子特征5-34，这些文字子特征也均为向量形式的。此时，用户兴趣识别设备将文字子特征5-31、文字子特征5-32，文字子特征5-33和文字子特征5-34按照与构造图像矩阵图相同的方式，构造出文字矩阵图5-4。之后，用户兴趣识别设备再将图像矩阵图5-2和文字矩阵图5-4相乘，就得到了交互矩阵图5-5。

S1033、利用交互挖掘模型，对交互矩阵图进行特征提取，得到交互特征。

用户兴趣识别设备先获取训练好的交互挖掘模型，然后将交互矩阵图输入至训练好的交互挖掘模型中，利用已经训练好的交互挖掘模型，来对交互矩阵图中进行特征抽取，将抽取出的特征作为交互特征。

可以理解的是，本申请实施例中，交互挖掘模型可以是CNN模型，此时，用户兴趣识别设备可以直接将交互矩阵图输入至交互挖掘模型中，将交互挖掘模型所抽取出的特征图，作为交互特征，或者是将交互挖掘模型所抽取的特征图进行向量化，将向量化所得到的特征向量，作为交互特征。

在本申请的另一些实施例中，交互矩阵模型还可以是RNN、LSTM等模型，此时，用户兴趣识别设备可以将交互矩阵图转换为向量形式，然后再输入至交互挖掘模型中，此时，得到的交互特征就是向量形式的。

本申请实施例中，用户兴趣识别设备可以利用至少一个图像子特征构造出图像矩阵图，利用至少一个文字子特征构造出文字矩阵图，然后再将图像矩阵图和文字矩阵图进行融合，即将待识别视频的图像内容和文字内容初步联系起来，得到交互矩阵图，最后再对交互矩阵图进行特征提取，得到能够描述待识别视频和待识别文字信息的深度联系的交互特征，以便于后续利用交互特征判断目标对象对待识别视频的兴趣，提高针对视频的用户兴趣识别的准确度。

在本申请的一些实施例中，利用至少一个图像子特征构造出图像矩阵图，即S1031的具体实现过程，可以包括：S1031a-S1031b，如下：

S1031a、将至少一个图像子特征中的每个图像子特征进行向量化，得到每个图像子特征对应的第一矩阵行向量。

用户兴趣识别设备在构造图像矩阵时，是先对至少一个图像子特征中的每个图像子特征都转换为向量，从而得到每个图像子特征所对应的向量，之后，用户兴趣识别设备会将每个图像子特征所对应的向量，作为每个图像子特征对应的第一矩阵行向量。当对至少一个图像子特征均完成向量化之后，用户兴趣识别设备就能够得到与至少一个图像子特征一一对应的至少一个第一矩阵行向量。

S1031b、按照至少一个图像子特征中各个图像子特征的顺序，将每个图像子特征对应的第一矩阵行向量进行排列，得到图像矩阵图。

用户兴趣识别设备在得到至少一个第一矩阵行向量之后，就会直接将每个图像子特征在至少一个图像子特征中的位次，直接作为每个图像子特征所对应的第一矩阵行向量的位次，然后依据该位次，将至少一个矩阵行向量按行进行排列，这样，用户兴趣识别设备就得到了图像矩阵图。

示例性的，本申请实施例提供了构造图像矩阵图的过程示例图，如图6所示，图像特征6-1中包括了图像子特征6-11、图像子特征6-12，图像子特征6-13和图像子特征6-14，之后，用户兴趣识别设备会将这些图像子特征分别进行向量化6-2，得到至少一个第一矩阵行向量，即得到第一矩阵行向量6-21、第一矩阵行向量6-22、第一矩阵行向量6-23以及第一矩阵行向量6-24。接着，用户兴趣识别设备将第一矩阵行向量6-21、第一矩阵行向量6-22、第一矩阵行向量6-23以及第一矩阵行向量6-24按照该次序进行排列，按照一行一个矩阵行向量的方式，组成图像矩阵图6-3。

本申请实施例中，用户兴趣识别设备能够将每个图像子特征转换为第一矩阵行向量，然后按照各个图像子特征的顺序，将至少一个第一矩阵行向量按行排列，如此，用户兴趣识别设备就能够得到图像矩阵图，以便于后续利用图像矩阵图构造交互矩阵图。

在本申请的一些实施例中，利用至少一个文字子特征构造出文字矩阵图，即S1031的具体实现过程，可以包括：S1031c-S1031d，如下：

S1031c、对至少一个文字子特征中的每个文字子特征进行向量化，得到每个文字子特征对应的第二矩阵行向量。

S1031d、依据至少一个文字子特征中的各个文字子特征的顺序，将每个文字子特征对应的第二矩阵行向量进行排列，得到文字矩阵图。

可以理解的是，与利用至少一个图像子特征构造图像矩阵图的过程类似，用户兴趣识别设备在构造文字矩阵图时，也是先对每个文字子特征进行向量化，得到每个文字子特征对应的第二矩阵行向量，然后再将每个文字子特征在至少一个文字子特征中的位次，直接作为每个文字子特征对应的第二矩阵行向量的次序，并按照该位次，将至少一个文字子特征按行进行排列，得到文字矩阵图。

本申请实施例中，用户兴趣识别设备能够将每个文字子特征转换为第二矩阵行向量，然后按照各个文字子特征的顺序，将各个第二矩阵行向量按行排列，如此，用户兴趣识别设备就能够得到文字矩阵图，以便于后续利用文字矩阵图构造交互矩阵图。

在本申请的一些实施例中，图像特征包括至少一个图像子特征，文字特征包括至少一个文字子特征，此时，从图像特征和文字特征中，挖掘出交互特征，即S103的具体实现过程，还可以包括：S1034-S1036，如下：

S1034、利用至少一个图像子特征构造出图像向量，以及利用至少一个文字子特征构造出文字向量。

在本申请实施例中，用户兴趣识别设备可以用至少一个图像子特征构造出一个向量，将构造出的向量作为图像向量，同时利用至少一个文字子特征构造出另一个向量，将构造出的另一个向量，作为文字向量。如此，用户兴趣识别设备能够基于向量形式的特征，来挖掘出交互特征。

可以理解的是，当至少一个图像子特征中的各个图像子特征均为向量形式时，用户兴趣识别设备可以将至少一个图像子特征中的各个图像子特征进行拼接，得到图像向量。当至少一个图像子特征中的各个图像子特征均为特征图形式时，用户兴趣识别设备可以将这些特征图先转化为向量，然后再进行拼接，得到图像向量。

类似的，在本申请中，当至少一个文字子特征中的各个文字子特征均为向量形式时，用户兴趣识别设备可以将至少一个文字子特征中的各个文字特征进行拼接，得到文字向量。当至少一个文字子特征中的各个文字子特征为特征值时，将每个文字子特征构造为向量，然后再利用构造好的向量按行进行，得到文字向量。

S1035、将图像向量和文字向量进行融合，得到交互特征向量。

用户兴趣识别设备在得到图像向量和文字向量之后，就可以将图像向量和文字向量融合为一个向量，融合得到的向量，即为交互特征向量。用户兴趣识别设备可以通过将图像向量和文字向量进行拼接，来实现向量的融合，得到交互特征向量，还可以通过将图像向量和文字向量加权，来实现向量的融合，得到交互特征向量。

S1036、利用交互挖掘模型，对交互特征向量进行特征提取，得到交互特征。

用户兴趣识别设备在得到交互特征向量之后，就可以将交互特征向量输入至交互挖掘模型中，以利用交互挖掘模型来从交互特征向量中抽取出特征，从而得到交互特征。在本申请中，交互挖掘模型可以为Bi-LSTM模型，也可以为RNN模型，还可以为其他模型，本申请在此不作限定。

本申请实施例中，用户兴趣识别设备能够构造出图像向量和文字向量，然后基于向量融合，得到交互特征向量，再利用交互挖掘模型从交互特征向量中提取出交互特征，如此，用户兴趣识别设备得到能够描述待识别视频和待识别文字信息的深度联系的交互特征，以便于后续利用交互特征判断目标对象对待识别视频的兴趣，提高针对视频的用户兴趣识别的准确度。

在本申请的一些实施例中，基于图像特征、文字特征和交互特征，确定出目标对象对待识别视频的兴趣信息，即S104的具体实现过程，可以包括：S1041-S1042，如下：

S1041、将交互特征、图像特征和文字特征进行拼接，得到拼接后的特征。

本申请实施例中，用户兴趣识别设备在得到交互特征、图像特征和文字特征之后，会先判断交互特征、图像特征以及文字特征是否均为向量。在用户兴趣识别设备判断出交互特征、图像特征和文字特征的形式均为向量时，用户兴趣识别设备可以直接将交互特征、图像特征和文字特征首尾拼接，得到拼接后的特征。当交互特征、图像特征和文字特征的形式不全为向量时，用户兴趣识别设备可以将形式不为向量的特征转换为向量形式的特征，然后再将转换后的向量形式的特征，与其他原本就为向量形式的特征首尾相接，得到拼接后的特征。

需要说明的是，用户兴趣识别设备可以按照任意顺序，来将交互特征、图像特征和文字特征首尾相接，本申请在此不作限定。例如，用户兴趣识别设备可以按照图像特征、文字特征、交互特征的顺序，来进行特征的首尾相接，还可以按照交互特征、文字特征、图像特征的顺序，来进行特征的首尾相接。

可以理解的是，在本申请实施例中，图像特征描述了待识别视频的场景和对象(场景中的人物、动物等)，文字特征描述了待识别视频的主题，也即描述了待识别视频的核心主旨，描述了待识别视频具体是关于什么的视频，从而用户兴趣识别设备在后续根据待识别视频中所出现的场景、对象，来判断目标对象对待识别视频的兴趣，根据待识别视频的核心主旨，来判断目标对象对待识别视频的兴趣，以及根据待识别视频中出现的场景、任务和待识别视频的核心主旨，来确定待识别视频的图像和待识别文字信息之间的深度联系，以便于根据该深度联系，来判断目标对象对待识别视频的兴趣。

S1042、对拼接后的特征进行兴趣预测，得到目标对象对待识别视频的兴趣信息。

用户兴趣识别设备在得到拼接后的特征之后，就可以依据拼接后的特征，来预测目标对象播放待识别视频的兴趣，从而将预测所得到的结果，作为是目标对象对待识别视频的兴趣信息。

可以理解的是，在本申请的一些实施例中，用户兴趣识别设备可以将拼接后的特征输入到二元分类器中进行分类，从而明确目标对象是否会播放待识别视频，从而得到兴趣信息。在另一些实施例中，用户兴趣识别设备还可以将拼接后的特征输入到概率预测模型中，判断出目标对象播放待识别视频的概率，从而得到兴趣信息。

进一步的，二元分类器可以浅层的机器学习分类模型，例如，逻辑回归(LogisticRegression，LR)分类器，或者是支持向量机(Support Vector Machine，SVM)等，本申请在此不作限定。概率预测模型可以为深度学习模型，例如，人工神经网络模型，或CNN等，本申请在此不作限定。

本申请实施例中，用户兴趣识别设备能够先将交互特征、图像特征和文字特征进行拼接，然后再对拼接后的特征进行兴趣预测，得到兴趣信息，从而实现了同时结合图像模态的特征、文字模型的特征以及待识别视频和待识别文字信息的深度联系，来判断目标对象播放待识别视频的兴趣，提高了针对视频的用户兴趣识别的准确度。

参见图7，图7是本申请实施例提供的针对视频的用户兴趣识别方法的可选的流程示意图三。在本申请的一些实施例中，图像特征包括至少一个图像子特征，文字特征包括至少一个文字子特征，此时，将交互特征、图像特征和文字特征进行拼接，得到拼接后的特征，即S1041的具体实现过程，可以包括：S1041a-S1041c，如下：

S1041a、将至少一个图像子特征中的各个图像子特征进行拼接，得到拼接图像特征。

S1041b、将至少一个文字子特征中的各个文字子特征进行拼接，得到拼接文字特征。

由于在本申请实施例中，图像特征中包括了至少一个图像子特征，文字特征中包括了至少一个文字子特征，用户兴趣识别设备在将图像特征、文字特征和交互特征进行拼接时，是先将至少一个图像子特征中的所有图像子特征拼接成一个特征，这个拼接得到的特征，就是拼接图像特征。同时，用户兴趣识别设备也会将至少一个文字子特征中的所有文字子特征进行拼接，得到拼接文字特征。

需要说明的是，当至少一个图像子特征中的各个图像子特征均为特征图的形式时，用户兴趣识别设备就是将这些特征图拼接在一起，得到一个整体的特征图，这个整体的特征图，就是拼接图像特征。当至少一个图像子特征中的各个图像子特征均为向量的形式时，用户兴趣识别设备就是将这些向量首尾相接，得到一个向量，这个拼接而成的向量，就是拼接图像特征。

类似的，当至少一个文字子特征中的各个文字子特征均为向量的形式时，用户兴趣识别设备就是将这些向量首尾相接，这个拼接而成的向量，就是拼接图像特征。值得注意的是，当至少一个文字子特征中的各个文字子特征均为特征值的形式时，用户兴趣识别设备可以将利用这些特征值构造出一个向量，这个构造出的向量，就是拼接文字特征。

需要说明的是，在实际情况中，先对各个图像子特征拼接，还是先对各个文字子特征进行拼接，并不会对拼接图像特征和拼接文字特征造成影响，因此，在一些实施例中，用户兴趣识别设备还可以先对各个文字子特征进行拼接，再对各个图像子特征进行拼接，即先执行S1041b，再S1041a，本申请在此不作限制。

S1041c、对拼接图像特征、拼接文字特征和交互特征进行拼接，得到拼接后的特征。

当拼接图像特征、拼接文字特征和交互特征中存在不是向量形式的特征时，用户兴趣识别设备会先将拼接图像特征、拼接文字特征和交互特征中不是向量形式的特征提取出来，对这个被提取出的特征进行向量化，例如，将特征图形式的拼接图像特征转化为一维向量，得到向量化的特征。之后，用户兴趣识别设备将向量化的特征，和拼接图像特征、拼接文字特征以及交互特征中原本就是向量形式的特征进行首尾相接，所得到的向量就是拼接后的特征。当拼接图像特征、拼接文字特征和交互特征全部为向量形式时，用户兴趣识别设备就会直接将拼接图像特征、拼接文字特征和交互特征首尾相接，所得到的向量即为拼接后的特征。

本申请实施例中，用户兴趣识别设备对至少一个图像子特征进行拼接，得到拼接图像特征，同时对至少一个文字子特征进行拼接，得到拼接文字特征，最后将向量形式的拼接图像特征、拼接文字特征和交互特征首尾相接，这样，用户兴趣识别设备就可以得到拼接后的特征，从而便于后续利用拼接后的特征预测出兴趣信息。

在本申请的一些实施例中，对待识别视频进行图像特征抽取，得到图像特征，即S102的具体实现过程，可以包括：S1021-S1023，如下：

S1021、对待识别视频进行关键帧抽取，得到至少一个关键视频帧。

在实际应用中，当待识别视频的时长较长时，对待识别视频的所有视频帧都进行图像特征抽取，势必会花费较多的时间，从而会拖慢整个视频的兴趣识别过程的效率。为了在保证对视频的用户兴趣识别的准确度的情况下，尽可能的提高对视频的用户兴趣识别的效率，用户兴趣识别设备在对待识别视频进行图像特征抽取时，可以先对待识别视频进行关键帧抽取，得到至少一个包括了待识别视频的画面内容的关键视频帧，以便于在后续只对至少一个关键视频帧进行特征抽取，减少特征抽取所消耗的时间。

S1022、利用图像特征挖掘模型，对至少一个关键视频帧中的每个关键视频帧进行特征挖掘，得到至少一个关键视频帧对应的至少一个图像子特征。

用户兴趣识别设备在得到至少一个关键视频帧之后，就会立即获取已经训练好的图像特征挖掘模型，然后将至少一个关键视频帧输入进图像特征挖掘模型中，从而通过图像特征挖掘模型，对每个关键视频帧进行特征挖掘，得到每个关键视频帧对应的图像子特征。当用户兴趣识别设备对至少一个关键视频帧均完成特征挖掘时，就会得到与至少一个视频帧相对应的至少一个图像子特征。

需要说明的是，在本申请的一些实施例中，图像特征挖掘模型可以是一个CNN模型，此时，用户兴趣识别设备会将至少一个关键视频帧依次输入进这个CNN模型中，从而得到至少一个图像子特征。在本申请的另一些实施例中，图像特征挖掘模型还可以是指多个相同、或者是不同的CNN模型，具体的，CN N模型的数量与关键视频帧的数量相同，这时，用户兴趣识别设备给每个CNN模型都会输入一个关键视频帧，即一个CNN模型只对一个关键视频帧进行特征挖掘，从而得到至少一个图像子特征。

S1023、利用至少一个图像子特征，构成图像特征。

用户兴趣识别设备挖掘出至少一个图像子特征之后，就会将至少一个图像子特征集合在一起，所得到的集合即为图像特征。

示例性的，本申请实施例提供了待识别视频进行图像特征抽取的示例图，参见图8，用户兴趣识别设备从待识别视频8-1中先抽取出关键视频帧8-11、关键视频帧8-12，……，关键视频帧8-1m，然后将这些关键视频帧依次输入CNN模型中，进行特征挖掘8-2，从而得到关键视频帧8-11对应的图像子特征8-31、关键视频帧8-12对应的图像子特征8-32，……，关键视频帧8-1m对应的图像子特征8-3m，最后将图像子特征8-31、图像子特征8-32，直至图像子特征8-3m集中在一起，就得到了图像特征8-3。

本申请实施例中，用户兴趣识别设备能够从待识别视频中抽取至少一个关键视频帧，然后仅对至少一个关键视频帧进行特征挖掘，将至少一个关键视频帧对应的至少一个图像子特征组成图像特征。如此，能够减少对待识别视频进行图像特征抽取的时间，从而提高针对视频的用户兴趣识别的效率。

在本申请的一些实施例中，对待识别文字信息进行文字特征抽取，得到文字特征，即S102的具体实现过程，可以包括：S1024-S1027，如下：

S1024、将待识别文字信息进行分词，得到至少一个分词结果。

用户兴趣识别设备在从待识别文字信息中抽取文字特征时，会先对待识别文字信息进行分词，即将待识别文字信息切分成为一个个的词语，每个词语都是待识别文字信息的分词结果，因而，用户兴趣识别设备可以得到至少一个分词结果。

可以理解的是，本申请实施例中，用户兴趣识别设备可以通过常用的分词器来对待识别文字信息进行分词，还可以通过自行编写的代码来实现对待识别信息的分词，本申请在此不作具体限定。

S1025、针对至少一个分词结果中的每个分词结果构造词向量，得到至少一个分词结果对应的至少一个词向量。

用户兴趣识别设备在得到至少一个分词结果之后，就会对每个分词结果进行词向量的构造，得到每个分词结果所对应的词向量。当用户兴趣识别设备对至少一个分词结果中的所有分词结果均完成了词向量的构造之后，就会得到至少一个词向量。

可以理解的是，用户兴趣识别设备可以通过常用的词向量构造模型，来实现词向量的构造，例如，可以使用word2vec模型、词频-逆文档频率模型等来构造每个分词结果对应的词向量。用户兴趣识别设备还可以通过自定义代码段，来实现词向量的构造，本申请在此不作限定。

S1026、利用文字特征挖掘模型，对至少一个词向量中的每个词向量进行特征挖掘，得到至少一个文字子特征。

用户兴趣识别设备获取经过训练的文字特征挖掘模型，然后将每个词向量都输入进文字特征挖掘模型中，通过文字特征挖掘模型挖掘出每个词向量所对应的文字特征。当用户兴趣识别设备对所有的词向量都完成特征挖掘时，就可以得到至少一个文字子特征了。

可以理解的是，文字特征挖掘模型可以通过NLP中的常用模型来实现，例如，将经过训练的Bi-LSTM作为文字特征挖掘模型，此时，每个分词结果对应的词向量，就是每个分词结果输入进Bi-LSTM之后所得到的隐藏状态。在另一些实施例中，文字特征挖掘模型还可以为经过训练的自定义模型，此时，每个分词结果所对应的词向量，就是这个自定义模型的输出。

S1027、利用至少一个文字子特征，构成文字特征。

用户兴趣识别设备在得到至少一个文字子特征之后，就会将至少一个文字子特征集合在一起，所得到的集合即为文字特征。

示例性的，参见图9，本申请实施例提供了对待识别文字信息进行文字特征抽取的过程示例图。如图9所示，待识别文字信息9-1先要经过分词，得到至少一个分词结果，即分词结果9-11、分词结果9-12，……，分词结果9-1n，接着，用户兴趣识别设备分别对这些分词结果进行向量化，得到与分词结果9-11对应的词向量9-21、分词结果9-12对应的词向量9-22，直至分词结果9-1n对应的词向量9-2n，这些词向量组成了至少一个词向量9-2。之后，用户兴趣识别设备将词向量9-21、词向量9-22，直至词向量9-2n全部输入进文字特征挖掘模型，也即Bi-LSTM 9-3中，然后将Bi-LSTM 9-3的与各个词向量所对应的隐藏状态，作为各个词向量所对应的文字子特征，即得到词向量9-21对应的文字子特征9-41、词向量9-22对应的文字子特征9-42，直至词向量9-2n对应的文字子特征9-4n，最后将文字子特征9-41、文字子特征9-42，……，文字子特征9-4n所组成的集合，就是文字特征9-4。

本申请实施例中，用户兴趣识别设备能够对待识别文字信息进行分词、向量化，得到至少一个词向量，然后将至少一个词向量输入进行文字特征挖掘模型中进行特征挖掘，用挖掘出的至少一个文字子特征，组成文字特征。如此，用户兴趣识别设备就能够得到文字特征，以便于在后续利用文字特征进行针对视频的用户兴趣识别。

在本申请的一些实施例中，对待识别视频进行关键帧抽取，得到至少一个关键视频帧，即S1021的具体实现过程，可以包括：S1021a或者S1021b，如下：

S1021a、按照预设好的时间间隔，对待识别视频进行视频帧抽取，得到至少一个关键视频帧。

用户兴趣识别设备可以每隔预设好的时间间隔，就从待识别视频中抽取一帧，将抽取出来的视频帧作为关键视频帧，直至结束抽帧，得到待识别视频的至少一个关键视频帧，以便于后续对至少一个关键视频帧进行图像特征挖掘。由于用户兴趣识别设备是按照预设好的时间间隔进行抽帧，无需考虑视频帧的具体内容，能够快速地完成抽帧过程，进一步减少图像特征挖掘时所需要的时间。

可以理解的是，预设好的时间间隔可以是根据实际需求进行设定的，例如，将预设好的时间间隔设置为1s，或者是设置为2s等，本申请在此不作具体限制。

S1021b、对待识别视频的每个视频帧进行识别，得到每个视频帧对应的识别结果，并依据识别结果从待识别视频的所有视频帧中挑选出至少一个关键视频帧。

其中，识别结果表征每个视频帧中是否包含关键内容。

除了按照预设好的时间间隔进行抽帧之外，用户兴趣识别设备还能够对待识别视频帧的每个视频帧进行识别，识别每个视频帧中是否包含了能够用于进行用户兴趣识别的关键内容，从而得到每个视频帧所对应的识别结果。之后，用户兴趣识别设备可以依据每个视频帧的识别结果，即每个视频帧对关键内容的包含情况，从待识别视频的所有视频帧中，将包含关键内容的视频帧提取出来，这些提取出的视频帧，就是关键视频帧。由于包含关键内容的视频帧极有可能并不只有一个，因此，用户兴趣识别设备可以得到至少一个关键视频帧。如此，用户兴趣识别设备可以在后续处理过程中，只对包含关键内容的关键视频帧进行图像特征挖掘，不仅减少了图像特征挖掘的视频帧的数量，还保证了图像子特征描述的是待识别视频的关键内容，提高了图像特征挖掘的效率。

需要说明的是，本申请实施例中的关键内容，可以是待识别视频中出现的特定人物，也可以是待识别视频中出现的特定场景，还可以其他所指定的内容，本申请在此不作限定。

本申请实施例中，用户兴趣识别设备可以通过按照预设好的时间间隔抽取关键视频帧，或者是按照视频帧中关键内容的包含情况来抽取关键视频帧，无论选用哪种方式，都势必会减少需要进行图像特征挖掘的视频帧的数量，从而减少图像特征挖掘所需要的时间，提高了特征挖掘的效率，也就提高了针对视频的用户兴趣识别的效率。

在本申请的一些实施例中，将待识别文字信息进行分词，得到至少一个分词结果，即S1024的具体实现过程，可以包括：S1024a-S1024b，如下：

S1024a、将待识别文字信息进行分词，得到至少一个初始切分结果。

S1024b、对至少一个初始切分结果进行实体词语的筛选，得到至少一个分词结果。

本申请实施例中，用户兴趣识别设备可以先利用分词器，对待识别文字信息进行切分，将得到的分词都作为初始切分结果，从而得到至少一个初始切分结果。之后，用户兴趣识别设备会判断每个初始切分结果是否为实体词语，将至少一个初始切分结果中的实体词语筛选出来，然后将这些被筛选出来的实体词语，作为分词结果。由于用户兴趣识别设备筛选出来的实体词语很有可能不止一个，因此，用户兴趣识别设备可以得到至少一个分词结果。

本申请实施例中，用户兴趣识别设备可以先对待识别文字信息进行分词，得到至少一个初始切分结果，然后将至少一个初始切分结果中的实体词语筛选出来，得到至少一个分词结果，这样，用户兴趣识别设备可以在只对待识别文字信息中的实体词语进行文字特征挖掘，减少了需要进行文字特征挖掘的分词结果的数量，提高了文字特征挖掘的效率，从而提高针对视频的用户兴趣识别的效率。

基于图3，参见图10，图10是本申请实施例提供的针对视频的用户兴趣识别方法的可选的流程示意图四。在本申请的一些实施例中，在基于图像特征、文字特征和交互特征，确定出目标对象对待识别视频的兴趣信息之后，即在S104之后，该方法还可以包括：S105，如下：

S105、当兴趣信息大于等于兴趣阈值时，将待识别视频和待识别文字信息推送给目标对象对应的终端。

在本申请实施例中，兴趣信息为目标对象播放待识别视频的概率，也即兴趣信息说明了目标对象是否倾向于观看待识别视频。用户兴趣识别设备在得到目标对象对待识别视频的兴趣信息之后，会获取设置好的兴趣阈值，然后将兴趣信息，即将目标对象播放待识别视频的概率，与兴趣阈值进行比较。当目标对象播放待识别视频的概率大于等于兴趣阈值时，说明目标对象有极大的可能性会播放待识别视频，此时，用户兴趣识别设备会将待识别视频，以及待识别文字信息发送给目标对象所对应的终端，以使得目标对象能够通过其所对应的终端观看到待识别视频。在另一实施例中，当目标对象播放待识别视频的概率小于兴趣阈值时，说明目标对象几乎不会播放待识别视频，此时，用户兴趣识别设备不会将待识别视频和待识别文字信息推送给目标对象对应的终端。通过这种方式，用户兴趣识别设备能够依据兴趣信息来实现待识别视频的推送，从而能够将待识别视频准确地推送给对其感兴趣的用户，提高了对待识别视频的推送的准确度。

可以理解的是，兴趣阈值可以根据实际情况进行设定，例如，将兴趣阈值设置为0.6，或者设置为0.75等，本申请在此不作限定。

本申请实施例中，用户兴趣识别设备还会在兴趣信息大于等于兴趣阈值时，将待识别视频推送给目标对象对应的终端，从而能够依据兴趣信息来实现对待识别视频的推送。

在本申请的一些实施例中，对拼接后的特征进行兴趣预测，得到目标对象对待识别视频的兴趣信息，即S1042的具体实现过程，可以包括：S1042a-S1042b，如下：

S1042a、对拼接后的特征进行非线性变换，得到非线性变换结果。

用户兴趣识别设备在对拼接后的特征进行兴趣预测时，可以先获取训练好的变换模型，然后将拼接后的特征输入到变换模型中，以通过变换模型来对拼接后的特征进行非线性变换，变换模型的输出，即是拼接后的特征的非线性变化结果。

可以理解的是，本申请中的变换模型可以是全连接层，还可以是多项式变换模型，本申请在此不作限定。

示例性的，本申请实施例提供了变换模型的示例图，参见图11，变换模型可以为由k个节点f所构成的全连接层，拼接后的特征从输入层11-1输入，非线性变换结果从输出层11-2输出。进一步的，每个节点f先将拼接后的特征与权重矩阵相乘，得到乘积结果，然后在乘积结果上加上偏置常量，得到求和结果，最后再对求和结果进行非线性变换，得到非线性变换结果。

示例性的，本申请实施例提供了非线性变换的公式，参见式(1)：

Y＝f(WX+b) (1)

其中，X是输入层11-1输入的拼接后的特征，Y是输出层11-2输出的非线性变换结果，W为权重矩阵，b为偏置常量。

S1042b、对非线性变换结果进行预测，得到目标对象对待识别视频的兴趣信息。

用户兴趣识别设备在得到非线性变换结果之后，就会对非线性变换结果转换进行预测，此时，所得到的预测结果，就是目标对象对待识别视频的兴趣信息。在本申请的一些实施例中，用户兴趣识别设备会先将非线性变换结果直接输入进分类器中进行预测，例如，将非线性变换结果输入至SVM分类器中，得到兴趣信息(直接得到会播放或不会播放的二元结果)。在另一些实施例中，用户兴趣识别设备还可以先将非线性变换结果，与训练好的分类权重相乘，得到乘积结果，然后将乘积结果与训练好的分类偏置参数进行求和，得到求和结果。然后再将求和结果输入到K(K为分类类别的个数，可以为倾向于播放待识别视频和倾向于不播放待识别视频2个类别)个神经元中进行运算。其中，每个神经元都是将求和结果作为指数，将自然数e作为底数，计算出指数结果，之后，将所有的神经元的指数结果相加，得到指数和，然后再将指数结果作为分子，指数和作为分母，计算出每个分类类别的概率，然后将倾向于播放待识别视频的概率，作为兴趣信息。

示例性的，本申请实施例提供一种计算倾向于播放待识别视频的概率的公式，参见式(2)：

其中，z_j＝Wx_j+b，x_j为非线性变换结果，W为训练好的分类权重，b为训练好的偏置参数，K为分类类别的个数，σ_j为第j个分类类别。

本申请实施例中，用户兴趣识别设备能够对拼接后的特征进行非线性变换，然后再对非线性变换进行预测，这样，就能够得到兴趣信息了。

需要说明的是，本申请的一些实施例中，为了能够在视频的兴趣识别时直接使用交互挖掘模型、图像特征挖掘模型，文字特征挖掘模型和分类器，用户兴趣识别设备需要在对视频进行用户兴趣识别之前，需要先得到训练好的交互挖掘模型、图像特征挖掘模型，文字特征挖掘模型和分类器。此时，用户兴趣识别设备可以针对目标对象构建训练视频样本集合，在训练视频样本集合中，具有训练视频、训练视频对应的训练文字信息，以及训练视频所对应的兴趣标签，即喜欢和不喜欢。为了便于训练，用户兴趣识别设备还可以先从训练视频中抽取训练关键帧，利用抽取出的训练关键帧来进行模型训练。

示例性的，本申请实施例提供了训练视频样本集合中的数据结构的示例图，参见图12，某个训练视频12-1所对应的训练数据由下列组成：关键帧序列12-11，训练文字信息，即训练视频的标题：太可爱了！说谎被识破的小可爱在审问下瑟瑟发抖12-12；以及该视频的兴趣标签：喜欢12-2。

在训练时，用户兴趣识别设备先利用初始图像特征挖掘模型分别从关键帧序列中的各个训练关键帧中抽取出训练图像子特征，然后再用这些抽取出的训练图像子特征组成训练图像特征；利用初始文字特征挖掘模型从训练视频的标题中抽取出训练文字特征，然后再利用初始交互挖掘模型，从训练图像特征和训练文字特征中，挖掘得到训练交互特征，接着用户兴趣识别设备再将训练交互特征、训练图像特征和训练文字特征进行拼接，得到训练拼接特征。之后，用户兴趣识别设备将训练拼接特征变换为训练非线性结果，然后再用分类器对训练非线性结果进行预测，得到训练兴趣信息。最后，用户兴趣识别设备根据训练兴趣信息和兴趣标签之间的差异，来持续调整分类器、初始图像特征挖掘模型、初始文字特征挖掘模型和初始交互挖掘模型，直至训练结束，得到训练好的图像特征挖掘模型、文字特征挖掘模型、交互挖掘模型和分类器，以便于在针对视频的用户兴趣识别中直接使用这些模型。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例是预测特定用户群体对新上传的视频的兴趣的场景下实现的，更具体的，就是预测特定用户群体对新上传的视频喜欢与否。

在预测之前，需要先训练好用于提取特征的模型，这时，后台服务器(用户兴趣识别设备)会先以单个视频为单位，以每个视频(训练视频)的标题(训练文字信息)和视频的关键帧(训练关键帧)作为模型的输入，将特定用户群体(目标对象)对每个视频的倾向性(兴趣标签)作为标签，来训练模型。在训练好之后，只需要输入新上传的视频(待识别视频)，以及新上传的视频的标题(待识别文字信息)，即可预测出特定的用户群体的倾向性的输出。

图13是本申请实施例提供的后台服务器预测特定用户群体的兴趣的整体过程示例图，如图13所示，后台服务器将预测特定用户群体的倾向性过程为了两个部分，第一部分13-1是基于视频的标题的文本模态来挖掘用户的文本模态倾向性信息(文字特征)，以及基于视频关键帧(至少一个关键视频帧)的视觉模态来挖掘用户视觉模态倾向性信息(图像特征)，第二部分13-2是基于所挖掘的文本模态倾向性信息和视觉模态倾向性信息来构建深层倾向***互关系图(交互矩阵图)，并基于交互关系图挖掘深层倾向***互关系(交互特征)，从而提高用户倾向性识别的精度。

由图13可见，在第一部分13-1中，先是将视频的标题13-11拆解为一个个的分词，即得到w_1、w_2,、……、w_n(至少一个分词结果)，并对这些分词构造出对应的词向量，得到wv_1、wv_2,、……、wv_n(至少一个词向量)，然后将得到词向量全部输入到Bi-LSTM(文字特征挖掘模型)中，得到每个词向量所对应的隐藏状态，即得到h_1、h_2、……、h_n(至少一个文字子特征)，从而将这些隐藏状态集合在一起，得到h＝[h_1，h_2，……，h_n](文字特征)。同时，在第一部分13-1中，还要将新上传的视频进行关键帧的提取13-12，得到至少一个关键帧(至少一个关键视频帧)，即得到KF1、KF2、……、KFm，然后将这些关键帧输入进m个相同的CNN13-a模型中(图像特征挖掘模型)，得到这些关键帧的特征kfv_1，kfv_2，……，kfv_m(至少一个图像子特征)，从而得到kfv＝[kfv_1，kfv_2，……，kfv_m](图像特征)。可见，后台服务器为了尽可能的挖掘用户群体的倾向性信息，同时从视频的标题和视频的关键帧两个内容进行倾向性信息的挖掘。这是因为，视频标题属于文本模态，以文本的形式涵盖了视频内容的主旨大意(待识别视频的主题)，视频的关键帧属于视觉模态，以图像的形式描述了视频内容的各个主要场景和主要人物(待识别视频出现的场景和对象)，这两种模态均包含了丰富的倾向性信息，从而增加了进行倾向性判断的信息量。

第二部分13-2是为了挖掘深层倾向***互关系(交互特征)，继续参见图13，后台服务器首先将Bi-LSTM输出的隐藏状态h_i(每个文字子特征)来构建视频标题倾向性矩阵图T(文字矩阵图)，接着基于视频关键帧中CNN输出的kfv_i(每个图像子特征)来构建视频关键帧倾向性矩阵图I(图像矩阵图)。接着，后台服务器将标题倾向性矩阵图T和关键帧倾向性矩阵图I相乘，得到倾向***互关系特征图I(交互矩阵图)，接着将倾向***互关系特征图I传入CNN13-b(交互挖掘模型)中进行深层倾向***互关系挖掘，得到深层倾向***互关系it_vec。之后，后台服务器将h_1、h_2、……、h_n拼接起来，得到视频标题倾向信息tvec(拼接文字特征)，将kfv_1，kfv_2，……，kfv_m向量化，然后拼接，得到视频关键帧倾向性信息ivec(拼接图像特征)，接着，后台服务器视频标题倾向信息tvec、视频关键帧倾向性信息ivec以及深层倾向***互关系it_vec进行拼接，得到一个长向量(拼接后的特征)。之后，后台服务器将这个长向量传入FC层，以进行非线性变化，并得到非线性输出(非线性变换结果)，然后将FC的非线性输出传入Softmax分类器中，进行倾向性识别，得到最后的倾向性信息(兴趣信息)，从而实现同时结合视频标题倾向性信息、视频关键帧倾向信息以及倾向性深层交互关系来进行用户群体的视频倾向性识别。

通过上述方式，后台服务器能挖掘出视频的图像内容和标题中的深层次联系，并同时结合图像模态的倾向信息、文字模态的倾向信息，以及所得到的深层次联系来进行兴趣识别，不仅能够增加了针对视频进行用户兴趣识别判断的信息量，还充分考虑了新上传的视频的图文联系，从而提高了针对视频的用户兴趣识别的准确度。

下面继续说明本申请实施例提供的用户兴趣识别装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的用户兴趣识别装置255中的软件模块可以包括：

信息获取模块2551，用于接收针对目标对象的视频识别指令，响应于所述视频识别指令，获取待识别视频，以及所述待识别视频对应的待识别文字信息；

特征抽取模块2552，用于对所述待识别视频进行图像特征抽取，得到图像特征，并对所述待识别文字信息进行文字特征抽取，得到文字特征；

交互挖掘模块2553，用于从所述图像特征和所述文字特征中，挖掘出交互特征；所述交互特征表征了所述待识别视频的图像内容和所述待识别文字信息之间的联系；

兴趣确定模块2554，用于基于所述图像特征、所述文字特征和所述交互特征，确定出所述目标对象对所述待识别视频的兴趣信息。

所述交互挖掘模块2553，还用于利用所述至少一个图像子特征构造出图像矩阵图，以及利用所述至少一个文字子特征构造出文字矩阵图；将所述图像矩阵图和所述文字矩阵图进行融合，得到交互矩阵图；利用交互挖掘模型，对所述交互矩阵图进行特征提取，得到所述交互特征。

在本申请的一些实施例中，所述交互挖掘模块2553，还用于将所述至少一个图像子特征中的每个图像子特征进行向量化，得到所述每个图像子特征对应的第一矩阵行向量；按照所述至少一个图像子特征中的各个图像子特征的顺序，将所述每个图像子特征对应的第一矩阵行向量进行排列，得到所述图像矩阵图。

在本申请的一些实施例中，所述交互挖掘模块2553，还用于对所述至少一个文字子特征中的每个文字子特征进行向量化，得到所述每个文字子特征对应的第二矩阵行向量；依据所述至少一个文字子特征中的各个文字子特征的顺序，将所述每个文字子特征对应的第二矩阵行向量进行排列，得到所述文字矩阵图。

所述交互挖掘模块2553，还用于利用所述至少一个图像子特征构造出图像向量，以及利用所述至少一个文字子特征构造出文字向量；将所述图像向量和所述文字向量进行融合，得到交互特征向量；利用交互挖掘模型，对所述交互特征向量进行特征提取，得到所述交互特征。

在本申请的一些实施例中，所述兴趣确定模块2554，还用于将所述交互特征、所述图像特征和所述文字特征进行拼接，得到拼接后的特征；其中，所述图像特征描述了所述待识别视频的场景和对象；所述文字特征描述了所述待识别视频的主题；对所述拼接后的特征进行兴趣预测，得到所述目标对象对所述待识别视频的所述兴趣信息。

所述兴趣确定模块2554，还用于将所述至少一个图像子特征中的各个图像子特征进行拼接，得到拼接图像特征；将所述至少一个文字子特征中的各个文字子特征进行拼接，得到拼接文字特征；对所述拼接图像特征、所述拼接文字特征和所述交互特征进行拼接，得到所述拼接后的特征。

在本申请的一些实施例中，所述特征抽取模块2552，还用于对所述待识别视频进行关键帧抽取，得到至少一个关键视频帧；利用图像特征挖掘模型，对所述至少一个关键视频帧中的每个关键视频帧进行特征挖掘，得到所述至少一个关键视频帧对应的至少一个图像子特征；利用所述至少一个图像子特征，构成所述图像特征。

在本申请的一些实施例中，所述特征抽取模块2552，还用于将所述待识别文字信息进行分词，得到至少一个分词结果；针对所述至少一个分词结果中的每个分词结果构造词向量，得到所述至少一个分词结果对应的至少一个词向量；利用文字特征挖掘模型，对所述至少一个词向量中的每个词向量进行特征挖掘，得到所述至少一个文字子特征；利用所述至少一个文字子特征，构成所述文字特征。

在本申请的一些实施例中，所述特征抽取模块2552，还用于按照预设好的时间间隔，对所述待识别视频进行视频帧抽取，得到所述至少一个关键视频帧；或者，对所述待识别视频的每个视频帧进行识别，得到所述每个视频帧对应的识别结果，并依据所述识别结果从所述待识别视频的所有视频帧中挑选出至少一个关键视频帧；所述识别结果表征所述每个视频帧中是否包含关键内容。

在本申请的一些实施例中，所述特征抽取模块2552，还用于将所述待识别文字信息进行分词，得到至少一个初始切分结果；对所述至少一个初始切分结果进行实体词语的筛选，得到所述至少一个分词结果。

在本申请的一些实施例中，所述用户兴趣识别装置，还包括：视频推送模块2555；

所述视频推送模块2555，用于当所述兴趣信息大于等于兴趣阈值时，将所述待识别视频和所述待识别文字信息推送给所述目标对象对应的终端。

在本申请的一些实施例中，所述兴趣确定模块2554，还用于对所述拼接后的特征进行非线性变换，得到非线性变换结果；对所述非线性变换结果进行兴趣预测，得到所述目标对象对所述待识别视频的所述兴趣信息。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的针对视频的用户兴趣识别方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行用户兴趣识别指令，当可执行用户兴趣识别指令被处理器执行时，将引起处理器执行本申请实施例提供的针对视频的用户兴趣识别方法，例如，如图3、图4、图7或图10示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行用户兴趣识别指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行用户兴趣识别指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行用户兴趣识别指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种针对视频的用户兴趣识别方法，其特征在于，包括：

接收针对目标对象的视频识别指令，响应于所述视频识别指令，获取待识别视频，以及所述待识别视频对应的待识别文字信息，其中，所述视频识别指令的触发时机包括以下之一：进行视频推广、上传新视频、接收到专业制作团队发送的长视频；

对所述待识别视频进行关键帧抽取，得到至少一个关键视频帧；

利用图像特征挖掘模型，对所述至少一个关键视频帧中的每个关键视频帧进行特征挖掘，得到所述至少一个关键视频帧对应的至少一个图像子特征；

对所述待识别文字信息进行文字特征抽取，得到文字特征，其中，所述文字特征包括至少一个文字子特征；

利用所述至少一个图像子特征构造出图像矩阵图或者图像向量，以及利用所述至少一个文字子特征构造出文字矩阵图或者文字向量；

将所述图像矩阵图和所述文字矩阵图进行融合，得到交互矩阵图；

将所述图像向量和所述文字向量进行融合，得到交互特征向量；

利用交互挖掘模型，对所述交互矩阵图或所述交互特征向量进行特征提取，得到交互特征，其中，所述交互特征表征了所述待识别视频的图像内容和所述待识别文字信息之间的联系；

基于所述至少一个图像子特征、所述文字特征和所述交互特征，确定出所述目标对象对所述待识别视频的兴趣信息；

当所述兴趣信息大于或等于兴趣阈值时，将所述待识别视频和所述待识别文字信息推送给所述目标对象对应的终端。

2.根据权利要求1所述的方法，其特征在于，所述利用所述至少一个图像子特征构造出图像矩阵图，包括：

将所述至少一个图像子特征中的每个图像子特征进行向量化，得到所述每个图像子特征对应的第一矩阵行向量；

按照所述至少一个图像子特征中的各个图像子特征的顺序，将所述每个图像子特征对应的第一矩阵行向量进行排列，得到所述图像矩阵图。

3.根据权利要求1所述的方法，其特征在于，所述利用所述至少一个文字子特征构造出文字矩阵图，包括：

对所述至少一个文字子特征中的每个文字子特征进行向量化，得到所述每个文字子特征对应的第二矩阵行向量；

依据所述至少一个文字子特征中的各个文字子特征的顺序，将所述每个文字子特征对应的第二矩阵行向量进行排列，得到所述文字矩阵图。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于所述至少一个图像子特征、所述文字特征和所述交互特征，确定出所述目标对象对所述待识别视频的兴趣信息，包括：

将所述交互特征、所述至少一个图像子特征和所述文字特征进行拼接，得到拼接后的特征；

其中，所述至少一个图像子特征描述了所述待识别视频的场景和对象；所述文字特征描述了所述待识别视频的主题；

对所述拼接后的特征进行兴趣预测，得到所述目标对象对所述待识别视频的所述兴趣信息。

5.根据权利要求4所述的方法，其特征在于，所述将所述交互特征、所述至少一个图像子特征和所述文字特征进行拼接，得到拼接后的特征，包括：

将所述至少一个图像子特征中的各个图像子特征进行拼接，得到拼接图像特征；

将所述至少一个文字子特征中的各个文字子特征进行拼接，得到拼接文字特征；

对所述拼接图像特征、所述拼接文字特征和所述交互特征进行拼接，得到所述拼接后的特征。

6.根据权利要求1至3、5任一项所述的方法，其特征在于，所述对所述待识别文字信息进行文字特征抽取，得到文字特征，包括：

将所述待识别文字信息进行分词，得到至少一个分词结果；

针对所述至少一个分词结果中的每个分词结果构造词向量，得到所述至少一个分词结果对应的至少一个词向量；

利用文字特征挖掘模型，对所述至少一个词向量中的每个词向量进行特征挖掘，得到所述至少一个文字子特征；

利用所述至少一个文字子特征，构成所述文字特征。

7.根据权利要求1所述的方法，其特征在于，所述对所述待识别视频进行关键帧抽取，得到至少一个关键视频帧，包括：

按照预设好的时间间隔，对所述待识别视频进行视频帧抽取，得到所述至少一个关键视频帧；或者，

对所述待识别视频的每个视频帧进行识别，得到所述每个视频帧对应的识别结果，并依据所述识别结果从所述待识别视频的所有视频帧中挑选出至少一个关键视频帧，其中，所述识别结果表征所述每个视频帧中是否包含关键内容。

8.根据权利要求6所述的方法，其特征在于，所述将所述待识别文字信息进行分词，得到至少一个分词结果，包括：

将所述待识别文字信息进行分词，得到至少一个初始切分结果；

对所述至少一个初始切分结果进行实体词语的筛选，得到所述至少一个分词结果。

9.一种用户兴趣识别装置，其特征在于，包括：

信息获取模块，用于接收针对目标对象的视频识别指令，响应于所述视频识别指令，获取待识别视频，以及所述待识别视频对应的待识别文字信息，其中，所述视频识别指令的触发时机包括以下之一：进行视频推广、上传新视频、接收到专业制作团队发送的长视频；

特征抽取模块，用于对所述待识别视频进行关键帧抽取，得到至少一个关键视频帧；以及利用图像特征挖掘模型，对所述至少一个关键视频帧中的每个关键视频帧进行特征挖掘，得到所述至少一个关键视频帧对应的至少一个图像子特征；

所述特征抽取模块，还用于对所述待识别文字信息进行文字特征抽取，得到文字特征，其中，所述文字特征包括至少一个文字子特征；

交互挖掘模块，用于利用所述至少一个图像子特征构造出图像矩阵图或者图像向量，以及利用所述至少一个文字子特征构造出文字矩阵图或者文字向量；将所述图像矩阵图和所述文字矩阵图进行融合，得到交互矩阵图；将所述图像向量和所述文字向量进行融合，得到交互特征向量；利用交互挖掘模型，对所述交互矩阵图或所述交互特征向量进行特征提取，得到交互特征，其中，所述交互特征表征了所述待识别视频的图像内容和所述待识别文字信息之间的联系；

兴趣确定模块，用于基于所述至少一个图像子特征、所述文字特征和所述交互特征，确定出所述目标对象对所述待识别视频的兴趣信息；

视频推送模块，用于当所述兴趣信息大于或等于兴趣阈值时，将所述待识别视频和所述待识别文字信息推送给所述目标对象对应的终端。

10.一种用户兴趣识别设备，其特征在于，包括：

存储器，用于存储可执行用户兴趣识别指令；

处理器，用于执行所述存储器中存储的可执行用户兴趣识别指令时，实现权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，存储有可执行用户兴趣识别指令，用于被处理器执行时，实现权利要求1至8任一项所述的方法。