CN106294783A - 一种视频推荐方法及装置 - Google Patents

一种视频推荐方法及装置 Download PDF

Info

Publication number
CN106294783A
CN106294783A CN201610663987.4A CN201610663987A CN106294783A CN 106294783 A CN106294783 A CN 106294783A CN 201610663987 A CN201610663987 A CN 201610663987A CN 106294783 A CN106294783 A CN 106294783A
Authority
CN
China
Prior art keywords
video
classification
user
generic
operation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610663987.4A
Other languages
English (en)
Inventor
何星维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Information Technology Beijing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610663987.4A priority Critical patent/CN106294783A/zh
Publication of CN106294783A publication Critical patent/CN106294783A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及内容推荐技术领域,公开了一种视频推荐方法及装置。该方法包括:基于预设的分类模型对视频进行分类,得到多个类别的视频集合;根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别;根据所述用户所属类别,向所述用户进行视频推荐。本发明实施例公开的视频推荐方法及装置,丰富了视频推荐方法的内容,使视频推荐的结果更准确。

Description

一种视频推荐方法及装置
技术领域
本发明实施例涉及内容推荐技术领域,特别是涉及一种视频推荐方法及装置。
背景技术
随着互联网宽带传输的数据的快速增长,压缩存储技术的不断进步,近年来互联网视频的数量呈现了***性的增长。为了对视频数据进行有效的组织和管理,方便用户查找和观看,向用户进行视频推荐应运而生。
发明人在实现本发明的过程中,发现相关技术存在以下问题:一般的视频推荐方法是通过分析用户历史观看的视频,获取与用户历史观看的视频相似的视频,从而进行视频推荐,该方法能够有效的实现视频推荐,但是用户历史观看的视频并不代表就是用户喜好的视频,所以该视频推荐方法的推荐结果并不一定准确。
发明内容
本发明实施例主要解决的技术问题是提供一种视频推荐方法及装置,解决视频推荐结果准确度不高的问题。
第一方面,本发明实施例提供一种视频推荐方法,包括:基于预设的分类模型对视频进行分类,得到多个类别的视频集合;根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别;根据所述用户所属类别,向所述用户进行视频推荐。
在一些实施例中,所述基于预设的分类模型对视频进行分类,得到多个类别的视频集合包括:
基于分词处理技术分别对所述视频的描述文本进行特征提取;
针对所述特征提取的数据构造所述视频的特征向量;
基于所述视频的特征向量划分训练集和测试集;
利用所述训练集训练得到SVM分类器;
根据所述SVM分类器对所述测试集进行分类,获取预设类别数目的视频集合。
在一些实施例中,所述根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别包括:
获取所述用户的历史操作信息对应的视频;
分别统计所述用户对每个所述视频的历史操作信息的类别和操作次数;
根据所述视频的历史操作信息的类别和操作次数,确定目标视频;
将所述目标视频与所述多个类别的视频集合分别进行匹配,判断所述目标视频所属类别;
根据所述目标视频所属类别确定所述用户所属类别。
在一些实施例中,所述根据所述用户所属类别,向所述用户进行视频推荐包括:
对所述用户所属类别对应视频的描述文本分别进行主题抽取,得到至少一个主题;
基于所述主题进行关键词抽取;
分别计算所述关键词在对应的主题中出现的概率,确定所述概率大于或等于预设阈值的关键词,根据所述关键词进行视频推荐。
第二方面,本发明实施例提供一种视频推荐装置,包括:
视频分类模块,用于基于预设的分类模型对视频进行分类,得到多个类别的视频集合;
用户类别判断模块,用于根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别;
视频推荐模块,用于根据所述用户所属类别,向所述用户进行视频推荐。
在一些实施例中,所述视频分类模块包括:
提取单元,用于基于分词处理技术分别对所述视频的描述文本进行特征提取;
生成单元,用于针对所述特征提取的数据构造所述视频的特征向量;
划分单元,用于基于所述视频的特征向量划分训练集和测试集;
训练单元,用于利用所述训练集训练得到SVM分类器;
分类单元,用于根据所述SVM分类器对所述测试集进行分类,获取预设类别数目的视频集合。
在一些实施例中,所述用户类别判断模块包括:
获取单元,用于获取所述用户的历史操作信息对应的视频;
统计单元,用于分别统计所述用户对每个所述视频的历史操作信息的类别和操作次数;
确定单元,用于根据所述视频的历史操作信息的类别和操作次数,确定目标视频;
第一判断单元,用于将所述目标视频与所述多个类别的视频集合分别进行匹配,判断所述目标视频所属类别;
第二判断单元,用于根据所述目标视频所属类别确定所述用户所属类别。
在一些实施例中,所述视频推荐模块包括:
第一处理单元,用于对所述用户所属类别对应视频的描述文本分别进行主题抽取,得到至少一个主题;
第二处理单元,用于基于所述主题进行关键词抽取;
推荐单元,用于分别计算所述关键词在对应的主题中出现的概率,确定所述概率大于或等于预设阈值的关键词,根据所述关键词进行视频推荐。
本发明实施例提供了一种视频推荐方法及装置,通过对视频分类,根据分类结果确定用户所属类别,再根据用户类别向用户进行视频推荐,相比较现有技术,本发明实施例提供的视频推荐方法及装置,丰富了视频推荐方法的内容,使视频推荐的结果更准确。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种视频推荐方法的流程图;
图2是本发明实施例提供的一种视频推荐方法中基于SVM对视频数据集进行分类的方法的流程图;
图3是本发明实施例提供的一种视频推荐方法中确定用户所属类别的方法的流程图;
图4是本发明实施例提供的一种视频推荐方法中使用LDA方法向用户进行视频推荐的方法的流程图;
图5是本发明实施例提供的一种视频推荐装置的结构框图;
图6是本发明实施例提供的另一种视频推荐装置的结构框图;
图7是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
支持向量机(Support Vector Machine,SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。一般来说,SVM是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即SVM的学习策略便是间隔最大化,最终转化成一个凸二次规划问题的求解。使用SVM进行分类的问题一般都是非线性的,建立非线性学习器包括两步:首先使用一个非线性映射将数据变换到一个特征空间;然后在特征空间使用线性学习器进行分类。SVM处理非线性问题的核心是核函数,常用核函数包括高斯核函数、多项式核函数等。现有技术已表明SVM在解决线性或非线性的分类问题上占有明显的优势。
主题模型算法(Latent Dirichlet Allocation,LDA)也叫隐含狄利克雷分布,是一种非监督机器学习方法,可用来识别大规模文档集或语料库中潜藏的主题信息,该算法采用词袋的方法,即一篇文档是由一组词语构成,词与词之间没有顺序以及先后的关系,一篇文档可以包含多个主题,文档中每个词都由其中的一个主题生成。LDA将每一篇文档视为一个词频向量,从而将文本信息转化成易于建模的数字信息。LDA生成过程中,每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词构成的一个概率分布。
本发明实施例的第一个方面提出了一种视频推荐方法。如图1所示,所述视频推荐方法,包括:
步骤101:基于预设的分类模型对视频进行分类,得到多个类别的视频集合。
在本发明实施例中,所述预设的分类模型是指通过预设的分类算法建立的分类模型,其中,所述预设的分类算法包括:决策树、贝叶斯、支持向量机以及人工神经网络等机器学习方法。可采用其中任意一种分类算法来建立该算法的分类模型,基于该分类模型对视频进行分类,根据分类结果,分别将每一类别的视频汇聚一起建立一个视频集合,从而得到多个类别的视频集合。
步骤102:根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别。
在本发明实施例中,所述历史操作信息包括点击信息、下载信息、收藏信息、评论信息、点赞信息、转发信息以及购买信息中的一种或几种。所述历史操作信息为用户对视频的历史操作信息,例如用户点击视频、用户下载视频、用户收藏视频以及用户对视频进行评论等。用户对视频的历史操作信息的获取方式包括:根据用户账号从后台数据库中查找该用户账号,该用户账号对应的历史操作信息即为该用户对视频的历史操作信息,所述用户账号为与所述视频预相关联的账号,例如,用户登录某视频网站的登录账号等。本实施例中用户对视频的历史操作信息还可以通过其他方式来获取。
在本发明实施例中,所述目标视频为通过分析用户对视频的历史操作信息并结合预设规则而获取到的视频集合,该预设规则可以根据人的喜好预先设定,也可以通过其他方式来设定。例如,选择所述历史操作信息中的点赞信息,点赞信息对应的视频作为目标视频。
在本发明实施例中,可以基于视频的内容将所述目标视频与所述多个类别的视频集合分别进行匹配,可选地,将所述目标视频的内容进行特征提取,根据提取的特征与所述多个类别的视频集合中的视频的特征分别进行匹配,若特征匹配一致,则将所述目标视频归入匹配上的视频集合中,该视频集合对应的类别即为所述用户的所属类别。
步骤103:根据所述用户所属类别,向所述用户进行视频推荐。
在本发明实施例中,可以分析所述用户所属类别的特征,根据该特征向所述用户进行视频推荐,其中,所述特征包括:与所述用户所属类别相同的用户的特征,或者所述用户所属类别对应的视频的特征等。
本发明实施例提供了一种视频推荐方法,通过对视频分类,根据分类结果确定用户所属类别,再根据用户类别向用户进行视频推荐,相比较现有技术,本发明实施例提供的视频推荐方法,丰富了视频推荐方法的内容,使视频推荐的结果更准确。
本发明实施例的第二个方面提出了另一种视频推荐方法,本实施例的视频推荐方法用于对上述实施例的视频推荐方法进行详细说明。同样请参阅图1,所述方法包括:
步骤101:基于预设的分类模型对视频进行分类,得到多个类别的视频集合。
在本发明实施例中,利用机器学习的SVM分类方法对某一全部的视频数据集进行了分类,该分类的过程是一个多分类的过程,主要是根据视频的内容进行类别划分。
可选地,如图2所示,基于SVM对视频数据集进行分类包括:
步骤1011:基于分词处理技术分别对所述视频的描述文本进行特征提取;
在本发明实施例中,所述描述文本为所述视频的文字标签,该文字标签包括所述视频的内容简介、视频时长、语言等文字介绍。每个视频都有其对应的文字标签,通过分词处理技术分别对每一个文字标签进行处理,得到一些有代表性的字、词或词组,所述字、词或词组作为所述每个视频的描述文本的特征项,从而完成特征提取过程。
步骤1012:针对所述特征提取的数据构造所述视频的特征向量;
在本发明实施例中,将上述步骤提取的特征项表示成向量形式从而构造每个视频的特征向量。所述将特征项表示成向量,即是将所述视频的描述文本转化成计算机能够识别的格式,具体是SVM分类器能够识别的格式。在中文信息处理方向上,一般文本的表示主要采用向量空间模型,向量空间模型的基本思想是以向量来表示文档,例如,Di=(W1,W2,W3,…,Wn),其中D表示文档,Wi为第i个特征项的权重。
步骤1013:基于所述视频的特征向量划分训练集和测试集;
在本发明实施例中,所述训练集用于训练分类器得到SVM分类模型,建立所述SVM分类模型的关键是求取最优分类函数。所述测试集用于根据所述SVM分类模型进行测试得到分类结果,一般采用分类准确率对分类模型的分类性进行评价。划分所述训练集和所述测试集的数据量大小直接影响到分类结果的准确率,常用的划分数据集的方法包括:随机划分数据集(一般是按照3:1的比例分配训练集和测试集,即3/4的数据集用于模型的建立,1/4的数据集用于测试所建立的模型的性能);交叉验证法(包括二折交叉、十折交叉以及留一法等)等。
步骤1014:利用所述训练集训练得到SVM分类器;
在本发明实施例中,所述利用所述训练集训练得到SVM分类器的一般过程是在选取核函数后,将训练样本映射到高维特征空间,利用SVM在样本特征空间中找出各类别特征样本与其他特征样本的最优分类超平面,得到代表各样本特征的支持向量集及其相应的可信度,最终形成判断各特征类别的最优分类函数,该最优分类函数即是训练得到的SVM分类器。
步骤1015:根据所述SVM分类器对所述测试集进行分类,获取预设类别数目的视频集合。
在本发明实施例中,所述测试集作为待分类对象,通过核函数作用映射到特征空间中,作为最优分类函数的输入,最终输出二类可分的结果,当该二类不满足预设的类别数目时,可以分别基于该二类可分结果再次进行SVM分类,从而得到四个类别的视频分类结果,可重复该二分类的过程,直到最终的类别数目满足预设的类别数目。
例如,利用二叉树来构造基于SVM的视频分类,该二叉树的顶结点表示所述视频数据集,通过SVM二分类得到所述第一视频分类结果和所述第二视频分类结果,基于所述第一视频分类结果再次进行SVM二分类得到两个类别的视频分类结果,基于所述第二视频分类结果再次进行SVM二分类也得到两个类别的视频分类结果,基于所述四个类别的视频分类结果再次分别对每一个进行SVM分类,重复该二分类的过程,一直到分类的结果达到预设的类别数目(例如类别数目是4,则从顶结点开始往下到第三层即完成视频的分类)。
所述最后一次进行SVM分类的结果即是对所述视频数据集进行分类的最终结果,该结果包括了多个类别,每个类别对应了大量的视频,每个类别对应的视频的总和分别构成每个类别的视频集合。
步骤102:根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别。
基于上述步骤101的分类结果以及用户对视频的历史操作信息来进行用户分类。可选地,如图3所示,确定用户所属类别包括:
步骤1021:获取所述用户的历史操作信息对应的视频;
在本发明实施例中,所述历史操作信息包括点击信息、下载信息、收藏信息、评论信息、点赞信息、转发信息以及购买信息中的一种或几种。则,所述用户的历史操作信息对应的视频包括用户点击过的视频、用户下载过的视频、用户收藏过的视频、用户评论过的视频、用户点赞过的视频、用户转发过的视频以及用户购买过的视频中的一种或几种。
步骤1022:分别统计所述用户对每个所述视频的历史操作信息的类别和操作次数;
可以理解的是,所述历史操作信息为用户对视频进行的行为,不同的行为产生不同的历史操作信息类别,例如播放视频对应的播放信息和下载视频对应的下载信息即为不同类别的历史操作信息。需要分别统计出每个视频包含的历史操作信息,并统计每类历史操作信息的操作次数。
例如,某一用户对视频进行的行为包括:对视频进行了观看、收藏、点赞等操作,统计该视频的权重可以包括:首先对所述操作行为(观看、收藏、点赞等)分别赋予预设的权值,每一项操作行为对应的权值可以相同也可以不相同,然后分别统计每一操作行为的操作次数,将每一项操作行为的操作次数和权值进行计算获取到每一项操作行为的权重,最后将所有操作行为对应的权重进行累加,累加值作为该视频的权重。
步骤1023:根据所述视频的历史操作信息的类别和操作次数,确定目标视频;
在本发明实施例中,根据所述视频的历史操作信息的类别和操作次数确定目标视频包括:
针对视频的某一类别历史操作信息,按照操作次数的大小排序,选择超过预设阈值的操作次数对应的视频作为目标视频,例如,针对视频的下载信息,将每个视频对应的下载量按照大小排序,选取下载量超过预设阈值的视频作为目标视频;或者,
将所述视频的历史操作信息根据其类别分别赋予权重,该权重可以是相同的权重也可以是不同的权重,基于每类历史操作信息的权重及每类历史操作信息对应的操作次数按照自定义的公式计算出该类历史操作信息对应视频的操作次数,选取操作次数超过预设阈值的视频作为目标视频。
需要说明的是,确定目标视频的方法并不仅限于上述方法,还可以通过其他方法来获取。
步骤1024:将所述目标视频与所述多个类别的视频集合分别进行匹配,判断所述目标视频所属类别;
在本发明实施例中,将所述目标视频与所述多个类别的视频集合分别进行匹配,一般是基于视频的内容来进行匹配,例如,目标视频为一个足球比赛的视频,可以对该足球比赛视频的文字介绍部分进行关键词提取,比如足球、关键人物名字、参加比赛的队名等,通过该关键词与SVM分类结果中的每一类视频的关键内容分别进行匹配,最终匹配的结果是该足球比赛视频属于体育类,甚至是属于体育类的足球类,从而确定了所述目标视频的类别。
步骤1025:根据所述目标视频所属类别确定所述用户所属类别。
例如,已确定所述目标视频属于体育足球类别,那么可以确定用户为足球爱好类,因此,可向该用户推荐与足球相关的视频。
步骤103:根据所述用户所属类别,向所述用户进行视频推荐;
在本发明实施例中,可以选择基于内容推荐、协同过滤推荐、基于关联规则推荐等方法来进行视频推荐。
可选地,如图4所示,本实施例使用LDA方法向所述用户进行视频推荐,该视频推荐方法包括:
步骤1031:对所述用户所属类别对应视频的描述文本分别进行主题抽取,得到至少一个主题;
所述描述文本为对所述视频进行介绍的文字,例如电影简介等。所述描述文本进行主题抽取的过程是对所述描述文本的中心句进行提取的过程,是该描述文本进行中心思想总结的过程。
步骤1032:基于所述主题进行关键词抽取;
可以理解的是,基于所述主题进行关键词抽取即是对主题文本(句子)进行分词的过程,通过分词处理技术得到该主题文本的词语集合。
步骤1033:分别计算所述关键词在对应的主题中出现的概率,确定所述概率大于或等于预设阈值的关键词,根据所述关键词进行视频推荐。
在本发明实施例中,统计所述关键词在对应的主题中出现的概率,根据概率大小对所述关键词进行排序,选取所述关键词的概率大于或等于预设阈值的关键词,从而获取所述概率大于或等于预设阈值的关键词所对应的视频,该视频用于向用户进行推荐。
本发明实施例提供了一种视频推荐方法,该方法首先用SVM分类器对视频进行分类,然后将用户对视频的历史操作信息与SVM分类的结果进行匹配从而确定用户类别,最后根据用户类别向用户进行视频推荐,本发明实施例提供的视频推荐方法更具有针对性,不仅丰富了视频推荐的内容,而且推荐的结果更准确,视频推荐效率更高,推荐的内容更合理,使用户有较好的体验。
本发明实施例的第三个方面提出了一种视频推荐装置3,所述装置对应上述实施例中的视频推荐方法,如图5所示,所述视频推荐装置3,包括:视频分类模块31、用户类别判断模块32以及视频推荐模块33。
在本发明实施例中,所述视频分类模块31,用于基于预设的分类模型对视频进行分类,得到多个类别的视频集合;所述用户类别判断模块32,用于根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别;所述视频推荐模块33,用于根据所述用户所属类别,向所述用户进行视频推荐。
在本发明实施例中,通过所述视频分类模块来得到视频数据集的分类结果,所述用户类别判断模块基于所述分类结果以及用户对视频的历史操作信息来确定用户的类别,所述视频推荐模块根据所述用户类别判断模块产生的用户类别,从而有针对性的对分类后的用户进行视频推荐。
需要说明的是,本发明实施例提出的视频推荐装置与本发明实施例的第一个方面提出的一种视频推荐方法基于相同的发明构思,方法实施例与装置实施例中的相应技术内容可相互适用,此处不再详述。
本发明实施例提供了一种视频推荐装置,通过对视频分类,根据分类结果确定用户所属类别,再根据用户类别向用户进行视频推荐,相比较现有技术,本发明实施例提供的视频推荐装置,丰富了视频推荐方法的内容,使视频推荐的结果更准确。
本发明实施例的第四个方面提出了另一种视频推荐装置,所述装置是对上述第三个方面提出的视频推荐装置的详细说明。如图6所示,所述视频推荐装置4,包括:视频分类模块41、用户类别判断模块42以及视频推荐模块43。
在本发明实施例中,所述视频分类模块41,用于基于预设的分类模型对视频进行分类,得到多个类别的视频集合。其中,所述视频分类模块41包括:提取单元411、生成单元412、划分单元413、训练单元414以及分类单元415。
所述提取单元411用于基于分词处理技术分别对所述视频的描述文本进行特征提取;所述生成单元412用于针对所述特征提取的数据构造所述视频的特征向量;所述划分单元413用于基于所述视频的特征向量划分训练集和测试集;所述训练单元414用于利用所述训练集训练得到SVM分类器;所述分类单元415用于根据所述SVM分类器对所述测试集进行分类,获取预设类别数目的视频集合。
在本发明实施例中,所述用户类别判断模块42,用于根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别。其中,所述用户类别判断模块42包括:获取单元421、统计单元422、确定单元423、第一判断单元424以及第二判断单元425。
所述获取单元421用于获取所述用户的历史操作信息对应的视频;所述统计单元422用于分别统计所述用户对每个所述视频的历史操作信息的类别和操作次数;所述确定单元423用于根据所述视频的历史操作信息的类别和操作次数,确定目标视频;所述第一判断单元424用于将所述目标视频与所述多个类别的视频集合分别进行匹配,判断所述目标视频所属类别;所述第二判断单元425用于根据所述目标视频所属类别确定所述用户所属类别。
在本发明实施例中,所述视频推荐模块43,用于根据所述用户所属类别,向所述用户进行视频推荐。其中,所述视频推荐模块43包括:第一处理单元431、第二处理单元432以及推荐单元433。
所述第一处理单元431用于对所述用户所属类别对应视频的描述文本分别进行主题抽取,得到至少一个主题;所述第二处理单元432用于基于所述主题进行关键词抽取;所述推荐单元433用于分别计算所述关键词在对应的主题中出现的概率,确定所述概率大于或等于预设阈值的关键词,根据所述关键词进行视频推荐。
在本发明实施例中,通过所述视频分类模块来得到视频数据集的分类结果,所述用户类别判断模块基于所述分类结果以及用户对视频的历史操作信息来确定用户的类别,所述视频推荐模块根据所述用户类别判断模块产生的用户类别,从而有针对性的对分类后的用户进行视频推荐。
需要说明的是,本发明实施例提出的视频推荐装置与本发明实施例的第二个方面提出的一种视频推荐方法基于相同的发明构思,方法实施例与装置实施例中的相应技术内容可相互适用,此处不再详述。
本发明实施例提供了一种视频推荐装置,该装置首先用SVM分类器对视频进行分类,然后将用户对视频的历史操作信息与SVM分类的结果进行匹配从而确定用户类别,最后根据用户类别向用户进行视频推荐,本发明实施例提供的视频推荐装置更具有针对性,不仅丰富了视频推荐的内容,而且推荐的结果更准确,视频推荐效率更高,推荐的内容更合理,使用户有较好的体验。
本发明实施例的第五个方面提出了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的视频推荐方法。
本发明实施例的第六个方面提出了一种电子设备5,如图7所示,该电子设备5包括:
一个或多个处理器51以及存储器52,图7中以一个处理器51为例。
执行视频推荐方法的设备还可以包括:输入装置53和输出装置54。
处理器51、存储器52、输入装置53和输出装置54可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器52作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的视频推荐方法对应的程序指令/模块(例如,附图5所示的视频分类模块31、用户类别判断模块32和视频推荐模块33)。处理器51通过运行存储在存储器52中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例视频推荐方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据视频推荐装置的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至视频推荐装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置53可接收输入的数字或字符信息,以及产生与视频推荐装置的用户设置以及功能控制有关的键信号输入。输出装置54可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器52中,当被所述一个或者多个处理器51执行时,执行上述任意方法实施例中的视频推荐方法,例如,执行以上描述的图1中的方法步骤101至步骤103,图2中的方法步骤1011至步骤1015,图3中的方法步骤1021至步骤1025,图4中的方法步骤1031至步骤1033。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(2)其他具有数据交互功能的电子装置。
本发明实施例提供了一种电子设备,通过对视频分类,根据分类结果确定用户所属类别,再根据用户类别向用户进行视频推荐,本发明实施例提供的电子设备,使视频推荐的结果更准确。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (8)

1.一种视频推荐方法,其特征在于,包括:
基于预设的分类模型对视频进行分类,得到多个类别的视频集合;
根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别;
根据所述用户所属类别,向所述用户进行视频推荐。
2.根据权利要求1所述的方法,其特征在于,所述基于预设的分类模型对视频进行分类,得到多个类别的视频集合包括:
基于分词处理技术分别对所述视频的描述文本进行特征提取;
针对所述特征提取的数据构造所述视频的特征向量;
基于所述视频的特征向量划分训练集和测试集;
利用所述训练集训练得到SVM分类器;
根据所述SVM分类器对所述测试集进行分类,获取预设类别数目的视频集合。
3.根据权利要求1所述的方法,其特征在于,所述根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别包括:
获取所述用户的历史操作信息对应的视频;
分别统计所述用户对每个所述视频的历史操作信息的类别和操作次数;
根据所述视频的历史操作信息的类别和操作次数,确定目标视频;
将所述目标视频与所述多个类别的视频集合分别进行匹配,判断所述目标视频所属类别;
根据所述目标视频所属类别确定所述用户所属类别。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述用户所属类别,向所述用户进行视频推荐包括:
对所述用户所属类别对应视频的描述文本分别进行主题抽取,得到至少一个主题;
基于所述主题进行关键词抽取;
分别计算所述关键词在对应的主题中出现的概率,确定所述概率大于或等于预设阈值的关键词,根据所述关键词进行视频推荐。
5.一种视频推荐装置,其特征在于,包括:
视频分类模块,用于基于预设的分类模型对视频进行分类,得到多个类别的视频集合;
用户类别判断模块,用于根据用户对视频的历史操作信息获取目标视频,将所述目标视频与所述多个类别的视频集合分别进行匹配,确定所述用户所属类别;
视频推荐模块,用于根据所述用户所属类别,向所述用户进行视频推荐。
6.根据权利要求5所述的装置,其特征在于,所述视频分类模块包括:
提取单元,用于基于分词处理技术分别对所述视频的描述文本进行特征提取;
生成单元,用于针对所述特征提取的数据构造所述视频的特征向量;
划分单元,用于基于所述视频的特征向量划分训练集和测试集;
训练单元,用于利用所述训练集训练得到SVM分类器;
分类单元,用于根据所述SVM分类器对所述测试集进行分类,获取预设类别数目的视频集合。
7.根据权利要求5所述的装置,其特征在于,所述用户类别判断模块包括:
获取单元,用于获取所述用户的历史操作信息对应的视频;
统计单元,用于分别统计所述用户对每个所述视频的历史操作信息的类别和操作次数;
确定单元,用于根据所述视频的历史操作信息的类别和操作次数,确定目标视频;
第一判断单元,用于将所述目标视频与所述多个类别的视频集合分别进行匹配,判断所述目标视频所属类别;
第二判断单元,用于根据所述目标视频所属类别确定所述用户所属类别。
8.根据权利要求5-7一项所述的装置,其特征在于,所述视频推荐模块包括:
第一处理单元,用于对所述用户所属类别对应视频的描述文本分别进行主题抽取,得到至少一个主题;
第二处理单元,用于基于所述主题进行关键词抽取;
推荐单元,用于分别计算所述关键词在对应的主题中出现的概率,确定所述概率大于或等于预设阈值的关键词,根据所述关键词进行视频推荐。
CN201610663987.4A 2016-08-12 2016-08-12 一种视频推荐方法及装置 Pending CN106294783A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610663987.4A CN106294783A (zh) 2016-08-12 2016-08-12 一种视频推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610663987.4A CN106294783A (zh) 2016-08-12 2016-08-12 一种视频推荐方法及装置

Publications (1)

Publication Number Publication Date
CN106294783A true CN106294783A (zh) 2017-01-04

Family

ID=57669935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610663987.4A Pending CN106294783A (zh) 2016-08-12 2016-08-12 一种视频推荐方法及装置

Country Status (1)

Country Link
CN (1) CN106294783A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194419A (zh) * 2017-05-10 2017-09-22 百度在线网络技术(北京)有限公司 视频分类方法及装置、计算机设备与可读介质
CN107818183A (zh) * 2017-12-05 2018-03-20 云南大学 一种基于三阶段组合推荐技术的党建视频推送方法
CN107948754A (zh) * 2017-11-29 2018-04-20 成都视达科信息技术有限公司 一种视频推荐方法和***
CN108810573A (zh) * 2018-06-14 2018-11-13 广东互通宽带网络服务有限公司 一种支持向量机进行智能流量缓存预测的方法及***
CN108833933A (zh) * 2018-06-14 2018-11-16 广东互通宽带网络服务有限公司 一种使用支持向量机推荐视频流量的方法及***
CN108921673A (zh) * 2018-07-16 2018-11-30 广州友米科技有限公司 基于大数据的商品推荐方法
CN108959323A (zh) * 2017-05-25 2018-12-07 腾讯科技(深圳)有限公司 视频分类方法和装置
CN109120949A (zh) * 2018-09-30 2019-01-01 武汉斗鱼网络科技有限公司 视频集合的视频消息推送方法、装置、设备及存储介质
CN109658129A (zh) * 2018-11-22 2019-04-19 北京奇虎科技有限公司 一种用户画像的生成方法及装置
CN109711931A (zh) * 2018-12-14 2019-05-03 深圳壹账通智能科技有限公司 基于用户画像的商品推荐方法、装置、设备及存储介质
CN109726726A (zh) * 2017-10-27 2019-05-07 北京邮电大学 视频中的事件检测方法及装置
CN109740621A (zh) * 2018-11-20 2019-05-10 北京奇艺世纪科技有限公司 一种视频分类方法、装置及设备
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置
CN110175264A (zh) * 2019-04-23 2019-08-27 深圳市傲天科技股份有限公司 视频用户画像的构建方法、服务器及计算机可读存储介质
CN110609955A (zh) * 2019-09-16 2019-12-24 腾讯科技(深圳)有限公司 一种视频推荐的方法及相关设备
CN110991476A (zh) * 2019-10-18 2020-04-10 北京奇艺世纪科技有限公司 决策分类器的训练、音视频的推荐方法、装置及存储介质
CN111354013A (zh) * 2020-03-13 2020-06-30 北京字节跳动网络技术有限公司 目标检测方法及装置、设备和存储介质
CN111385659A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种视频推荐方法、装置、设备及存储介质
CN112579822A (zh) * 2020-12-25 2021-03-30 百果园技术(新加坡)有限公司 一种视频数据的推送方法、装置、计算机设备和存储介质
CN113486212A (zh) * 2021-07-02 2021-10-08 北京字节跳动网络技术有限公司 搜索推荐信息的生成和展示方法、装置、设备及存储介质
CN113852867A (zh) * 2021-05-27 2021-12-28 天翼智慧家庭科技有限公司 一种基于核密度估计的节目推荐方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838835A (zh) * 2014-02-25 2014-06-04 中国科学院自动化研究所 一种网络敏感视频检测方法
CN104168510A (zh) * 2014-05-14 2014-11-26 录可***公司 偏好频道节目动态推荐方法及***
CN104778224A (zh) * 2015-03-26 2015-07-15 南京邮电大学 一种基于视频语义的目标对象社交关系识别方法
CN104991899A (zh) * 2015-06-02 2015-10-21 广州酷狗计算机科技有限公司 用户属性的识别方法及装置
CN105069041A (zh) * 2015-07-23 2015-11-18 合一信息技术(北京)有限公司 基于视频用户性别分类的广告投放方法
CN105677715A (zh) * 2015-12-29 2016-06-15 海信集团有限公司 一种基于多用户的视频推荐方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838835A (zh) * 2014-02-25 2014-06-04 中国科学院自动化研究所 一种网络敏感视频检测方法
CN104168510A (zh) * 2014-05-14 2014-11-26 录可***公司 偏好频道节目动态推荐方法及***
CN104778224A (zh) * 2015-03-26 2015-07-15 南京邮电大学 一种基于视频语义的目标对象社交关系识别方法
CN104991899A (zh) * 2015-06-02 2015-10-21 广州酷狗计算机科技有限公司 用户属性的识别方法及装置
CN105069041A (zh) * 2015-07-23 2015-11-18 合一信息技术(北京)有限公司 基于视频用户性别分类的广告投放方法
CN105677715A (zh) * 2015-12-29 2016-06-15 海信集团有限公司 一种基于多用户的视频推荐方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194419A (zh) * 2017-05-10 2017-09-22 百度在线网络技术(北京)有限公司 视频分类方法及装置、计算机设备与可读介质
CN108959323A (zh) * 2017-05-25 2018-12-07 腾讯科技(深圳)有限公司 视频分类方法和装置
CN108959323B (zh) * 2017-05-25 2021-12-07 腾讯科技(深圳)有限公司 视频分类方法和装置
CN109726726B (zh) * 2017-10-27 2023-06-20 北京邮电大学 视频中的事件检测方法及装置
CN109726726A (zh) * 2017-10-27 2019-05-07 北京邮电大学 视频中的事件检测方法及装置
CN107948754A (zh) * 2017-11-29 2018-04-20 成都视达科信息技术有限公司 一种视频推荐方法和***
CN107818183A (zh) * 2017-12-05 2018-03-20 云南大学 一种基于三阶段组合推荐技术的党建视频推送方法
CN107818183B (zh) * 2017-12-05 2021-07-13 云南大学 一种基于特征相似性度量的三阶段组合党建视频推荐方法
CN108810573A (zh) * 2018-06-14 2018-11-13 广东互通宽带网络服务有限公司 一种支持向量机进行智能流量缓存预测的方法及***
CN108833933A (zh) * 2018-06-14 2018-11-16 广东互通宽带网络服务有限公司 一种使用支持向量机推荐视频流量的方法及***
CN108921673B (zh) * 2018-07-16 2021-06-01 广州天高软件科技有限公司 基于大数据的商品推荐方法
CN108921673A (zh) * 2018-07-16 2018-11-30 广州友米科技有限公司 基于大数据的商品推荐方法
CN109120949A (zh) * 2018-09-30 2019-01-01 武汉斗鱼网络科技有限公司 视频集合的视频消息推送方法、装置、设备及存储介质
CN109740621B (zh) * 2018-11-20 2021-02-05 北京奇艺世纪科技有限公司 一种视频分类方法、装置及设备
CN109740621A (zh) * 2018-11-20 2019-05-10 北京奇艺世纪科技有限公司 一种视频分类方法、装置及设备
CN109658129A (zh) * 2018-11-22 2019-04-19 北京奇虎科技有限公司 一种用户画像的生成方法及装置
CN109711931A (zh) * 2018-12-14 2019-05-03 深圳壹账通智能科技有限公司 基于用户画像的商品推荐方法、装置、设备及存储介质
CN111385659A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种视频推荐方法、装置、设备及存储介质
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置
CN110110143B (zh) * 2019-04-15 2021-08-03 厦门网宿有限公司 一种视频分类方法及装置
CN110175264A (zh) * 2019-04-23 2019-08-27 深圳市傲天科技股份有限公司 视频用户画像的构建方法、服务器及计算机可读存储介质
CN110609955A (zh) * 2019-09-16 2019-12-24 腾讯科技(深圳)有限公司 一种视频推荐的方法及相关设备
CN110609955B (zh) * 2019-09-16 2022-04-05 腾讯科技(深圳)有限公司 一种视频推荐的方法及相关设备
CN110991476A (zh) * 2019-10-18 2020-04-10 北京奇艺世纪科技有限公司 决策分类器的训练、音视频的推荐方法、装置及存储介质
CN111354013A (zh) * 2020-03-13 2020-06-30 北京字节跳动网络技术有限公司 目标检测方法及装置、设备和存储介质
CN112579822A (zh) * 2020-12-25 2021-03-30 百果园技术(新加坡)有限公司 一种视频数据的推送方法、装置、计算机设备和存储介质
CN113852867A (zh) * 2021-05-27 2021-12-28 天翼智慧家庭科技有限公司 一种基于核密度估计的节目推荐方法和装置
CN113486212A (zh) * 2021-07-02 2021-10-08 北京字节跳动网络技术有限公司 搜索推荐信息的生成和展示方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106294783A (zh) 一种视频推荐方法及装置
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
Bruni et al. Distributional semantics from text and images
CN108073568A (zh) 关键词提取方法和装置
CN105335491B (zh) 基于用户点击行为来向用户推荐图书的方法和***
CN106844530A (zh) 一种问答对分类模型的训练方法和装置
CN106339507B (zh) 流媒体消息推送方法和装置
CN107357889A (zh) 一种基于内容或情感相似性的跨社交平台图片推荐算法
CN107563429A (zh) 一种网络用户群体的分类方法及装置
CN110704674A (zh) 一种视频播放完整度预测方法及装置
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN110019794A (zh) 文本资源的分类方法、装置、存储介质及电子装置
CN110737859A (zh) 一种up主匹配方法及装置
CN113392331A (zh) 文本处理方法及设备
CN112153426A (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
Layton Learning data mining with python
CN107943792A (zh) 一种语句分析方法、装置及终端设备、存储介质
CN110175264A (zh) 视频用户画像的构建方法、服务器及计算机可读存储介质
CN106919588A (zh) 一种应用程序搜索***及方法
CN112749330A (zh) 信息推送方法、装置、计算机设备和存储介质
CN110019827A (zh) 一种语料库生成方法、装置、设备和计算机存储介质
CN109561162A (zh) 挖掘用户访问喜好的方法及装置
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
Tripathi et al. Prediction of movie success based on machine learning and twitter sentiment analysis using internet movie database data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170104