CN105681910A - 一种基于多用户的视频推荐方法及装置 - Google Patents
一种基于多用户的视频推荐方法及装置 Download PDFInfo
- Publication number
- CN105681910A CN105681910A CN201511008230.3A CN201511008230A CN105681910A CN 105681910 A CN105681910 A CN 105681910A CN 201511008230 A CN201511008230 A CN 201511008230A CN 105681910 A CN105681910 A CN 105681910A
- Authority
- CN
- China
- Prior art keywords
- video
- user
- interest
- point
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4661—Deriving a combined profile for a plurality of end-users of the same client, e.g. for family members within a home
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4665—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例提供一种基于多用户的视频推荐方法及装置,能够针对多用户中每个用户需求和兴趣,为其推荐喜欢的视频,提高推荐的准确性。该方法包括:根据视频信息,计算任意两视频之间的相似度;根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点;根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点;根据所述兴趣点分布,为每个用户生成推荐列表。
Description
技术领域
本发明涉及推荐技术领域,尤其涉及一种基于多用户的视频推荐方法及装置。
背景技术
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代,推荐***应运而生。推荐***或基于视频内容,或基于用户历史行为记录,向用户找到其已知范围之外的感兴趣的视频,拓展其观影体验。
现有的推荐***通常都是针对单设备单用户来进行推荐,而在单设备中还可能会涉及多用户。以电视为例,在一个家庭中,通常会有多个用户观看电视,在每个时间段的观看兴趣点是不同的,每个成员会按照自己的兴趣主动选择相关视频进行观看,从而导致在电视上获取的历史记录是多个隐含用户的兴趣叠加。例如:一个家庭由四口人组成,分别为父亲、母亲、奶奶和孩子。父亲喜欢动作片,母亲喜欢爱情片,奶奶喜欢京剧戏曲,孩子喜欢动画片。同一家庭的四个成员共享一台电视,在推荐***的历史记录中标记为同一个用户,那么,推荐***会同时推荐动作片、爱情片、京剧戏曲、动画片等相似视频,这样就会导致对每个家庭成员推荐的结果都掺杂了大量的无用视频,造成不能针对每个家庭成员的兴趣和爱好进行推荐,推荐准确度不高,用户体验差。
发明内容
本发明的实施例提供一种基于多用户的视频推荐方法,能够针对多用户中每个用户需求和兴趣,为其推荐喜欢的视频,提高推荐的准确性。
为达到上述目的,本发明的实施例采用如下技术方案:
本发明实施例提供一种基于多用户的视频推荐方法,包括以下步骤:
根据视频信息,计算任意两视频之间的相似度,所述视频信息包括视频属性信息和用户对视频历史操作信息;
根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点;
根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点;
根据所述兴趣点分布,为每个用户生成推荐列表。
本发明实施例还提供了一种基于多用户的视频推荐装置,包括:
相似度计算模块,用于根据视频信息,计算任意两视频之间的相似度,所述视频信息包括视频属性信息和用户对视频历史操作信息;
聚类模块,用于根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点;
统计模块,用于根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点;
推荐模块,用于根据所述兴趣点分布,为每个用户生成推荐列表。
本发明实施例所提供的基于多用户的视频推荐方法及装置,根据视频信息,计算任意两视频之间的相似度,再根据任意两视频之间的相似度,对所述视频进行聚类,可以获得多个兴趣点,每个兴趣点代表一个聚类簇,相似度高的视频可以被聚类在一起,形成一个聚类簇,表征用户的喜好,根据每个用户的历史操作信息,可以对每个用户的历史操作信息中操作视频的时间点和视频所属划分时间段和兴趣点进行统计,这样就了解了每个用户在各个时间段的兴趣点分布,即每个用户在划分时间段的喜好,那么就可以根据每个用户各个时间段的兴趣点分布情况进行兴趣点中视频的选取,进而根据选取的视频为每个用户生成推荐列表。因为该方法可以针对每个用户的历史操作记录对每个用户在各个时间段的喜好情况进行了解,进而针对每个用户在各个不同时间段的兴趣和爱好生成其喜欢的视频的推荐列表进行推荐,所以满足了多用户对于推荐的需求,提高了对于多用户推荐的准确性,对于多用户来说用户体验更好。另一方面,根据任意两视频之间的相似度,对所述视频进行聚类,在对每个用户在每个时间段的操作视频情况进行统计的时候,范围限定到聚类后生成的兴趣点中的视频,大大减少了计算量,提高了推荐效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多用户的视频推荐方法的方法流程图;
图2为本发明实施例提供的一种基于多用户的视频推荐装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于多用户的视频推荐方法,如图1所示,该方法包括:
101、基于多用户的视频推荐装置根据视频信息,计算任意两视频之间的相似度,所述视频信息包括视频属性信息和用户对视频历史操作信息。
本发明实施例中的基于多用户的视频推荐装置可以为管理所有终端设备的服务器,也可以为某一终端设备,该终端设备可以是智能电视或便携式、袖珍式或手持式的电子设备,例如,智能手机、平板电脑以及个人数字助理等。
本发明实施例中的视频信息包括视频属性信息和用户对视频历史操作信息。每个视频包括以下属性信息:视频ID、名称、类型、国家、导演、演员、简介等。对简介进行文本分词处理,并去除停用词(介词、连接词、语气词等虚词),将剩下的实词和名称、类型、国家、导演、演员等信息,作为视频的标签特征,构成标签库。每个视频对应一个标签库,可以用视频ID表示下标,即视频0001v0001对应标签库tag0001,所有视频标签库构成总标签库T={tag0001,tag0002,…}。
示例性的,基于多用户的视频推荐装置会获取预定时间范围内所有用户对视频的操作数据,然后,对所有用户的操作数据进行预处理,提取出每个用户对视频的历史操作信息。每个用户对视频的历史操作信息包括用户标识、每个用户操作视频标识及操作视频的时间。其中,操作包括对视频的点击、收藏、购买等操作。
优选的,在步骤101中,可以设置一个更新周期,更新周期的长短可以根据视频数据的数据库更新情况进行设定,例如,可以设为一个月,一周或一天,本发明对此不进行限制,在每个更新周期内获取所述每个更新周期内的视频数据的属性信息并进行更新。本实施例下述各步骤均以当前周期为例进行说明。
具体地,根据所述视频属性信息,获得每个视频的词频和逆文档频率因子,根据所述每个视频的词频和逆文档频率因子,获得每个视频的特征向量,根据相似度计算公式计算任意两视频之间的相似度。
其中,相似度计算公式为: pv1为视频v1的特征向量,pv2为视频v2的特征向量。
具体地,根据词频计算公式,计算每个视频标签库中的标签特征的词频,词频计算公式为:其中,wi为标签特征,i∈1,2,…,n,n为标签特征总数,为视频vj的视频标签库,j∈1,2,…,m,m为视频总数,若中,标签特征wi与视频标签库中视频v的第j个标签特征相同,那么为1,否则为0,T为总视频标签库,|W|表示每个视频标签库中的标签特征集合在一起去重后的总数。示例性的,对每一个视频标签库中的每一个标签特征,统计其在所有视频标签库中出现的次数,可以用每个标签特征在所有视频标签库中出现的次数除以每个视频标签库中的标签特征集合在一起去重后的总数获得。
具体地,根据逆文档频率因子的计算公式,计算每个标签特征的逆文档频率因子,逆文档频率因子计算公式为:其中,W为每个视频标签库中的标签特征集合在一起去重后的总数,tagv为视频v的视频标签库,I(wi∈tagv)为指示函数,若标签特征wi属于视频v对应的视频标签库,则I(wi∈tagv)为1,否则为0,|V|表示所有视频的总数。
示例性的,可以对视频标签库中的所有标签特征,查找包含该标签特征的所有视频,并构建文档倒排表。计算每个标签特征在文档倒排表中对应的行的长度,然后用视频总数除以每个标签特征在文档倒排表中对应的行的长度加上1的值,对相除后的结果取其log值即为每个标签特征的逆文档频率因子。
具体地,将每个视频的标签特征的词频和逆文档频率因子相乘,获得每个视频的特征向量。
即:TFIDF(wi)=TF(wi)*IDF(wi)。
对于W中的每一个标签特征都分别计算TF(wi),得到TF(W)向量;对于W中的每一个标签特征都分别计算IDF(wi),得到IDF(W)向量;将TF(W)向量和IDF(W)向量中的每一项分别相乘,得到TFIDF(W)向量,通过这种方式可以得到每个视频的特征向量。
优选地,在将词频向量和逆文档频率因子向量相乘时,再乘以预设影响因子,得到最终的每个视频的特征向量。
设置影响因子是因为对于视频属性信息,视频的名称、类型、国家、导演、演员等标签特征为视频的专有名词,相比于简介占用的权重应该大一些,所以权重应该设置高于简介的权重。
示例性的,可以将视频的名称、类型、国家、导演、演员的权重设置为2,简介的权重设置为1。
具体地,在获得每个视频的特征向量后,根据相似度计算公式计算任意两个视频之间的相似度,相似度计算公式为:pv1为视频v1的特征向量,pv2为视频v2的特征向量。
以下通过具体实例进行说明:
示例性的,如视频v0001,视频ID为0001,名称为港囧,类型为喜剧,国家为中国,导演为徐峥,演员为徐峥/赵薇/包贝尔,简介经过分词后留下实词和上述标签特征共同构成视频0001v0001的视频标签库tag0001,即{港囧*,喜剧*,中国*,徐峥*,徐峥*,赵薇*,包贝尔*,港囧,北京,光线,传媒,香港,旅程,人在囧途…}。
视频v0011,视频ID为0011,名称为寂静岭,类型为恐怖,国家为美国,导演为克里斯多夫·甘斯,演员为拉妲·米契尔/肖恩·宾/祖蒂·弗兰/劳瑞·侯登/黛博拉·卡拉·安格/罗伯托·坎帕内利亚,简介经过分词后留下实词和上述标签特征共同构成视频0011v0011的视频标签库tag0011,即{寂静岭*,恐怖*,美国*,克里斯多夫·甘斯*,拉妲·米契尔*,肖恩·宾*,祖蒂·弗兰,*劳瑞·侯登,*黛博拉·卡拉·安格,*罗伯托·坎帕内利亚,寂静岭,悬疑,恶魔,致命疾病,美国…}。
其中,加*的标签特征为专有名词,未加星标为简介分词后得到的标签特征。
分别统计两个视频中每个标签特征在所有视频标签库中出现的次数,分别将每个标签特征在所有视频标签库中出现的次数除以所有视频标签库去重后的总标签特征数,得到两个视频中每个标签特征的词频TF(wi)。
计算IDF(wi)步骤如下:
首先建立文档倒排表,扫描所有视频标签库,每扫描一个视频特征wi,将当前视频标签库ID置入对应的集合中,即将包含有每个视频特征wi的视频标签库并入一个集合中,格式如下:
w1:{tag0001,tag0002,tag0019,…},
w2:{tag0001,tag0008,tag0022,…},
w3:{tag0002,tag0042,tag0712,…},
……
针对视频《港囧》,文档倒排表为:
徐峥:{tag0001,tag0677,tag1281,…},
喜剧:{tag0001,tag0002,tag0007,…},
中国:{tag0001,tag0002,tag0003,…},
……
针对视频《寂静岭》,文档倒排表为:
寂静岭:{tag0001,tag0326,tag0579,…},
恐怖:{tag0001,tag0004,tag0066,…},
美国:{tag0001,tag0012,tag0023,…},
……
对W中的每一个标签特征wi,计算文档倒排表中包含该标签特征的视频标签库总数,然后根据IDF计算公式得到IDF(wi)。
对于W中的每一个标签特征,都分别计算IDF(wi),根据每个标签特征的IDF(wi),得到整个视频的逆文档频率因子向量,即IDF(W)向量。
将TF(W)向量与IDF(W)向量,每一项分别相乘得到TFIDF(W)向量。
视频0001《港囧》的特征向量如表1所示:
W | 喜剧 | 中国 | 港囧 | 徐峥 | 赵薇 | 故事 | … |
TFIDF(W) | 0.8 | 0.1 | 12.01 | 11.2 | 10.8 | 0.02 | … |
表1
视频0011《寂静岭》的特征向量如表2所示:
表2
根据预设影响因子,生成最终的视频特征向量。其中,名称、类型、国家、导演、演员专有名词标签特征权重为2,简介标签特征权重为1。
具体如表3所示:
表3
根据表2及表3中结果分别得到两个视频的特征向量,如下:
《港囧》0001的特征向量为:p(0001)=(1.6,0.2,24.02,22.4,0.02,0,0,0,…);
《寂静岭》0011的特征向量为:p(0011)=(0,0,0,0,0.02,0,1.8,15.4,…);
根据相似度计算公式,计算两个视频之间的相似度为:
通过这种方式可以获得任意两视频之间的相似度。
通过视频本身特性来计算两个视频之间的相似度,从而为用户推荐相似度高的视频,是因为通常用户会喜欢同种类型的视频,如喜欢综艺片中的《快乐大本营》的话,也会喜欢《天天向上》,喜欢《中国好声音》的话,通常也会喜欢《我是歌手》。基于这样的假设,通过计算视频本身之间的相似度来为用户推荐视频。
102、基于多用户的视频推荐装置根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点。
具体地,可以用K-means聚类方法根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点。
需要说明的是:本发明并不局限于K-means聚类方法这一种聚类方法根据所述任意两视频之间的相似度,对所述视频进行聚类,还可以采用其他现有技术中涉及的聚类方法。
根据任意两视频之间的相似度,对所述视频进行聚类,这样就可以对数据库中的视频进行处理,将范围从数据库中的所有视频限定到聚类后生成的兴趣点中的视频范围,在后续进行兴趣点分布统计的时候,就大大减少了计算量,提高了推荐效率。
优选地,根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点可以为:根据所述任意两视频之间的相似度生成基于内容的相似度矩阵,根据所述基于内容的相似度矩阵,对所述视频进行聚类,获取多个兴趣点。
由K-means算法根据基于内容的相似度矩阵,对所述视频进行聚类,得到多个兴趣点,此处的兴趣点对应聚类后得到的聚类簇。
聚类后,相似度比较高的视频被划归为一个聚类簇,即一个兴趣点,这样形成多个兴趣点。
需要说明的是:本发明实施例中对于任意两视频之间的相似度数据的排布采用基于内容的相似度矩阵的方式进行后续聚类处理,但是本发明不限于使用矩阵的方式,还可以采用哈希表的方式,或者其他已有便于后续聚类的数据排布方式,均在本发明的保护范围之内。
所述基于内容的相似度矩阵的行和列分别用视频ID表示,并且因为所获得的数据使对称分布的,所以只需要构建上对角线或下对角线的数据即可,两个相同视频之间的相似度值默认为1。
这里以表4来说明对基于内容的相似度矩阵的含义,表4仅仅是对基于内容的相似度矩阵的含义进行说明,仅仅是一种示例。
v0001 | v0002 | … | v0011 | …6 --> | |
v0001 | 1 | sim(p0001,p0002) | … | sim(p0001,p0011) | … |
v0002 | - | 1 | … | sim(p0002,p0011) | … |
… | - | - | 1 | … | … |
v0011 | - | - | - | 1 | … |
… | - | - | - | - | 1 |
表4
K-means算法,也被称为K-平均或K-均值,是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。
在计算数据样本之间的距离时,可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量,其中最常用的是欧式距离。
具体地,在本发明实施例中,用1减去两个视频之间的相似度的值来表示两个视频之间的距离。
下面举例说明:
基于内容的相似度矩阵如表5所示,作为一个聚类分析的二维样本,要求的簇的数量k=2。
需要说明的是:真实的基于内容的相似度矩阵具有百万级的维度,下述的表5仅仅是对基于内容的相似度矩阵的含义进行说明,仅仅是一种示例。
v0001 | v0002 | v0003 | v0004 | v0005 | |
v0001 | 1 | 0.88 | 0.75 | 0.31 | 0.37 |
v0002 | - | 1 | 0.28 | 0.63 | 0.59 |
v0003 | - | - | 1 | 0.49 | 0.61 |
v0004 | - | - | - | 1 | 0.77 |
v0005 | - | - | - | - | 1 |
表5
(1)、随机选择视频v0001及视频v0002作为聚类簇中心;
(2)、分别计算其余视频与视频v0001及视频v0002的距离,如果该视频与视频v0001的距离近于与视频v0002的距离,则将该视频置入到视频v0001的簇中。具体地,通过计算1与两个视频之间的相似度的差值作为两个视频之间的距离。参照表5,视频v0003与视频v0001之间的距离为1-0.75=0.25,视频v0003与视频v0002之间的距离为1-0.28=0.72,因为0.25<0.72,所以,视频v0003到视频v0001的距离近于视频v0003到视频v0002的距离,则把视频v0003置入到视频v0001的簇中。同理,视频v0004到视频v0001的距离为1-0.31=0.69,视频v0004到视频v0002的距离为1-0.63=0.37,因为0.37<0.69,所以,视频v0004到视频v0002的距离近于视频v0004到视频v0001的距离,则把视频v0004置入到视频v0002的簇中。视频v0005到视频v0001的距离为1-0.37=0.63,视频v0005到视频v0002的距离为1-0.59=0.41,因为0.41<0.63,所以,视频v0005到视频v0002的距离近于视频v0005到视频v0001的距离,则把视频v0005置入到视频v0002的簇中。自此,更新后的聚类簇为{v0001,v0003}和{v0002,v0004,v0005}。
(3)、计算新的聚类中心:视频v0001到视频v0003的距离为1-0.75=0.25,随机选择视频v0001作为聚类簇中心;视频v0002到视频v0004视频v0005的距离为((1-0.63)+(1-0.59))/2=0.39,视频v0004到视频v0002视频v0005的距离为((1-0.63)+(1-0.77))/2=0.3,v5到v2v4距离为((1-0.59)+(1-0.77))/2=0.32,因为视频v0004到其余两个视频之间的距离最近,所以选择视频v0004作为聚类簇中心。
(4)、重复步骤(2),分别计算其余视频与新的聚类簇中心视频v0001及视频v0004的距离,如果该视频与视频v0001的距离近于与视频v0004的距离,则将该视频置入到视频v0001的簇中。参照表5,视频v0002与视频v0001之间的距离为1-0.88=0.12,视频v0002与视频v0004之间的距离为1-0.63=0.37,因为0.12<0.37,所以,视频v0002到视频v0001的距离近于视频v0002到视频v0004的距离,则把视频v0002置入到视频v0001的簇中。同理,视频v0003到视频v0001的距离为1-0.75=0.25,视频v0003到视频v0004的距离为1-0.49=0.51,因为0.25<0.51,所以,视频v0003到视频v0001的距离近于视频v0003到视频v0004的距离,则把视频v0003置入到视频v0001的簇中。视频v0005到视频v0001的距离为1-0.37=0.63,视频v0005到视频v0004的距离为1-0.77=0.23,因为0.23<0.63,所以,视频v0005到视频v0004的距离近于视频v0005到视频v0001的距离,则把视频v0005置入到视频v0004的簇中。自此,更新后的聚类簇为{v0001,,v0002,v0003}和{v0004,v0005}。
(5)重复执行步骤(3)和步骤(4),直到迭代次数达到预设值,或重新计算的各聚类簇中心不再改变,则结束。其中,预设值可以设为100次。
按照上述的聚类方式,可以根据所有获得的两视频之间的相似度,将所有视频聚类为多个兴趣点,将相似度高的视频聚类为一个兴趣点。
步骤103、基于多用户的视频推荐装置根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点。
具体地,根据每个用户操作历史视频的时间,统计每个用户的历史操作视频在划分时间段所属的兴趣点,对该时间段的兴趣点次数进行累计,生成时间段-兴趣点列表。。
示例性的,将时间段划分为24个时间段,从0点到24点,每一小时为一个时间段,如0点-1点,8-9点,20-21点。聚类后生成的多个兴趣点作为兴趣点和划分的时间段一起生成时间段-兴趣点列表。
本发明实施例以聚类生成12个兴趣点为例进行说明。
示例性的,查看其中一用户的历史操作信息,如该用户于2015年10月1日晚20时点击观看影片v0030,而影片v0030属于第7个兴趣点(聚类簇),则在建立的列表中,对应时间段20-21点,第7个兴趣点的位置数值加一,按照这种方式,统计该用户的所有历史操作信息,得到每个兴趣点在各个时间段上的频率分布即统计次数。
这里以表6来说明时间段-兴趣点列表的含义,需要说明的是:表6仅仅是一种示例。
表6
通过这种方式,可以得到每个用户在每个时间段的兴趣点分布,继而可以了解每个用户在每个时间段的喜好。
步骤105、基于多用户的视频推荐装置根据所述兴趣点分布,为每个用户生成推荐列表。
具体地,根据所述兴趣点分布,确定推荐的兴趣点,计算所述推荐的兴趣点中未观看视频与已操作视频的相似度,对所述相似度进行排序,根据预先确定的推荐个数生成推荐列表。
具体地,对所述兴趣点进行排序,根据预先确定的推荐个数确定推荐的兴趣点。
具体地,可以根据预先确定的推荐个数从确定推荐的兴趣点中按照比例选取视频,生成推荐列表进行推荐。
具体地,所述未观看视频与已操作视频的相似度为:未观看视频与已操作视频之间的平均相似度。所述已操作视频包括每个用户点击过的视频或点击收藏过的视频或点击购买过的视频。
示例性的,假如需要提供某一用户19时的推荐列表,那么首先根据统计的兴趣点分布情况,查看该用户在19时兴趣点分布情况,对兴趣点进行排序,按照数值大小的顺序,根据需要推荐的视频个数来确定兴趣点。以表6为例,该用户在19时的兴趣点分布,对12个兴趣点按照数值大小进行排序,其中兴趣点10、兴趣点11、兴趣点8、兴趣点6、兴趣点1排在前5位。若需要给该用户推荐20个视频,可以从排名前两位的兴趣点10、兴趣点11中选取,根据兴趣点10和兴趣点11比例确定分别从中选取的视频个数,比如排名第一的兴趣点10数值为144,排名第二的兴趣点11数值为96,将统计的19时两个兴趣点数值分别相除所得比例为从两个兴趣点中选取视频比例,来选取视频,比如144/96=3:2,则按照3:2的比例,从兴趣点10中选取12个平均相似度排在前12位的视频,从兴趣点11中选取8个平均相似度排在前8位的视频,一起生成推荐列表,为该用户进行推荐。
按照此种方法,可以根据每个用户在各个时间段的兴趣点分布,为每个用户生成每个时间段的推荐列表。
这样,确定当前观看视频的用户后,可以选择该用户在该时间段的推荐列表为他进行推荐,使得推荐更加准确,更加符合该用户的需求和兴趣。
其中,确定当前观看视频的用户的方式可以依据现有技术中确定观看用户的方式进行,如采用人脸识别的技术,如采用账户登录的方式根据登录账户进行用户确定,也可采用其他的方式,此处不再详细赘述。需要说明的是:这种按照统计的兴趣点数值比例从确定推荐的兴趣点中选取视频的方式只是一种实施例而已,本发明实施例不限于这种方式,也可以采用其他的方式进行视频的选取,比如根据推荐视频的个数从排名最高的兴趣点中选取平均相似度最高的推荐视频个数的视频来作为最终推荐视频生成推荐列表。凡是本领域技术人员不需要进行创造性劳动可想到的变形均在本发明的保护范围之内。
示例性的,未观看视频与已操作视频之间的平均相似度的计算方式为:根据每个用户的历史操作信息,获取到每个用户的操作视频的集合,再根据之前所获取的任意两视频之间的相似度,从兴趣点中每个用户未观看视频中计算每个未观看视频与每个用户已操作视频之间的平均相似度。
参考表5,如某一用户未观看视频集合有{v0002,v0004,v0005},已操作视频集合为{v0001,v0003},根据表5中计算的任意两视频之间的相似度,得到v0002与已操作视频的平均相似度为:(0.88+0.28)/2=0.58,v0004与已操作视频的平均相似度为:(0.31+0.49)/2=0.4,v0005与已操作视频的平均相似度为:(0.37+0.61)/2=0.49,则平均相似度排序为v0002与已操作视频的平均相似度>v0005与已操作视频的平均相似度>v0004与已操作视频的平均相似度。
本发明实施例所提供的基于多用户的视频推荐方法及装置,根据视频信息,计算任意两视频之间的相似度,再根据任意两视频之间的相似度,对所述视频进行聚类,可以获得多个兴趣点,每个兴趣点代表一个聚类簇,相似度高的视频可以被聚类在一起,形成一个聚类簇,表征用户的喜好,根据每个用户的历史操作信息,可以对每个用户的历史操作信息中操作视频的时间点和视频所属划分时间段和兴趣点进行统计,这样就了解了每个用户在各个时间段的兴趣点分布,即每个用户在划分时间段的喜好,那么就可以根据每个用户各个时间段的兴趣点分布情况进行兴趣点中视频的选取,进而根据选取的视频为每个用户生成推荐列表。因为该方法可以针对每个用户的历史操作记录对每个用户在各个时间段的喜好情况进行了解,进而针对每个用户在各个不同时间段的兴趣和爱好生成其喜欢的视频的推荐列表进行推荐,所以满足了多用户对于推荐的需求,提高了对于多用户推荐的准确性,对于多用户来说用户体验更好。另一方面,根据任意两视频之间的相似度,对所述视频进行聚类,在对每个用户在每个时间段的操作视频情况进行统计的时候,范围限定到聚类后生成的兴趣点中的视频,大大减少了计算量,提高了推荐效率。
另一方面,本发明实施例还提供了一种基于多用户的视频推荐装置,该装置用于实现上述的基于多用户的视频推荐方法,如图2所示,该装置包括:相似度计算模块,聚类模块,统计模块,推荐模块,其中:
相似度计算模块,用于根据视频信息,计算任意两视频之间的相似度,所述视频信息包括视频属性信息和用户对视频历史操作信息;
聚类模块,用于根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点;
统计模块,用于根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点;
推荐模块,用于根据所述兴趣点分布,为每个用户生成推荐列表。
优选地,该基于多用户的视频推荐装置中的推荐模块中根据所述兴趣点分布,为每个用户生成推荐列表具体为:根据所述兴趣点分布,确定推荐的兴趣点,计算所述推荐的兴趣点中未观看视频与已操作视频的相似度,对所述相似度进行排序,根据预先确定的推荐个数生成推荐列表。
优选地,所述推荐的兴趣点中未观看视频与已操作视频之间的相似度为未观看视频与已操作视频之间的平均相似度。
优选地,该基于多用户的视频推荐装置中的统计模块中所述根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点具体为:根据每个用户操作历史视频的时间,统计每个用户的历史操作视频在划分时间段所属的兴趣点,对该时间段的兴趣点次数进行累计,生成时间段-兴趣点列表。。
优选地,该基于多用户的视频推荐装置中的推荐模块中所述根据所述兴趣点分布,确定推荐的兴趣点具体为:对所述兴趣点进行排序,根据预先确定的推荐个数确定推荐的兴趣点。
本发明实施例所提供的基于多用户的视频推荐方法及装置,根据视频信息,计算任意两视频之间的相似度,再根据任意两视频之间的相似度,对所述视频进行聚类,可以获得多个兴趣点,每个兴趣点代表一个聚类簇,相似度高的视频可以被聚类在一起,形成一个聚类簇,表征用户的喜好,根据每个用户的历史操作信息,可以对每个用户的历史操作信息中操作视频的时间点和视频所属划分时间段和兴趣点进行统计,这样就了解了每个用户在各个时间段的兴趣点分布,即每个用户在划分时间段的喜好,那么就可以根据每个用户各个时间段的兴趣点分布情况进行兴趣点中视频的选取,进而根据选取的视频为每个用户生成推荐列表。因为该方法可以针对每个用户的历史操作记录对每个用户在各个时间段的喜好情况进行了解,进而针对每个用户在各个不同时间段的兴趣和爱好生成其喜欢的视频的推荐列表进行推荐,所以满足了多用户对于推荐的需求,提高了对于多用户推荐的准确性,对于多用户来说用户体验更好。另一方面,根据任意两视频之间的相似度,对所述视频进行聚类,在对每个用户在每个时间段的操作视频情况进行统计的时候,范围限定到聚类后生成的兴趣点中的视频,大大减少了计算量,提高了推荐效率。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccessMemory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于多用户的视频推荐方法,其特征在于,包括以下步骤:
根据视频信息,计算任意两视频之间的相似度,所述视频信息包括视频属性信息和用户对视频历史操作信息;
根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点;
根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点;
根据所述兴趣点分布,为每个用户生成推荐列表。
2.根据权利要求1所述的基于多用户的视频推荐方法,其特征在于,所述根据所述兴趣点分布,为每个用户生成推荐列表具体为:根据所述兴趣点分布,确定推荐的兴趣点,计算所述推荐的兴趣点中未观看视频与已操作视频的相似度,对所述相似度进行排序,根据预先确定的推荐个数生成推荐列表。
3.根据权利要求2所述的基于多用户的视频推荐方法,其特征在于,所述根据所述兴趣点分布,确定推荐的兴趣点具体为:对所述兴趣点进行排序,根据预先确定的推荐个数确定推荐的兴趣点。
4.根据权利要求2所述的基于多用户的视频推荐方法,其特征在于,所述未观看视频与已操作视频的相似度具体为:未观看视频与已操作视频之间的平均相似度。
5.根据权利要求1所述的基于多用户的视频推荐方法,其特征在于,所述根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点具体为:
根据每个用户操作历史视频的时间,统计每个用户的历史操作视频在划分时间段所属的兴趣点,对该时间段的兴趣点次数进行累计,生成时间段-兴趣点列表。
6.根据权利要求1所述的基于多用户的视频推荐方法,其特征在于,所述根据视频信息,计算任意两视频之间的相似度具体为:根据所述视频属性信息,获得每个视频的词频和逆文档频率因子,根据所述每个视频的词频和逆文档频率因子,获得每个视频的特征向量,根据相似度计算公式获得任意两视频之间的相似度,其中,相似度计算公式为:,为视频的特征向量,为视频的特征向量。
7.根据权利要求1所述的基于多用户的视频推荐方法,其特征在于,所述根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点具体为:根据K-means聚类方法对所述视频进行聚类,得到多个兴趣点。
8.一种基于多用户的视频推荐装置,其特征在于,包括:
相似度计算模块,用于根据视频信息,计算任意两视频之间的相似度,所述视频信息包括视频属性信息和用户对视频历史操作信息;
聚类模块,用于根据所述任意两视频之间的相似度,对所述视频进行聚类,得到多个兴趣点;
统计模块,用于根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点;
推荐模块,用于根据所述兴趣点分布,为每个用户生成推荐列表。
9.根据权利要求8所述的基于多用户的视频推荐装置,其特征在于,所述推荐模块中根据所述兴趣点分布,为每个用户生成推荐列表具体为:根据所述兴趣点分布,确定推荐的兴趣点,计算所述推荐的兴趣点中未观看视频与已操作视频的相似度,对所述相似度进行排序,根据预先确定的推荐个数生成推荐列表。
10.根据权利要求8所述的基于多用户的视频推荐装置,其特征在于,所述统计模块中根据所述用户对视频历史操作信息,统计每个用户的历史操作视频在划分时间段所属的兴趣点具体为:根据每个用户操作历史视频的时间,统计每个用户的历史操作视频在划分时间段所属的兴趣点,对该时间段的兴趣点次数进行累计,生成时间段-兴趣点列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511008230.3A CN105681910A (zh) | 2015-12-29 | 2015-12-29 | 一种基于多用户的视频推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511008230.3A CN105681910A (zh) | 2015-12-29 | 2015-12-29 | 一种基于多用户的视频推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105681910A true CN105681910A (zh) | 2016-06-15 |
Family
ID=56297686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511008230.3A Pending CN105681910A (zh) | 2015-12-29 | 2015-12-29 | 一种基于多用户的视频推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105681910A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106658074A (zh) * | 2016-11-21 | 2017-05-10 | 武汉斗鱼网络科技有限公司 | 一种直播间推荐策略的评估方法、用户设备和服务器*** |
CN107870990A (zh) * | 2017-10-17 | 2018-04-03 | 北京德塔精要信息技术有限公司 | 一种汽车推荐方法及装置 |
CN109783687A (zh) * | 2018-11-22 | 2019-05-21 | 广州市易杰数码科技有限公司 | 一种基于图结构的推荐方法、装置、设备及存储介质 |
CN110737799A (zh) * | 2018-07-03 | 2020-01-31 | 阿里巴巴集团控股有限公司 | 视频搜索的方法、装置、设备和介质 |
CN114422841A (zh) * | 2021-12-17 | 2022-04-29 | 北京达佳互联信息技术有限公司 | 字幕生成方法、装置、电子设备及存储介质 |
CN117648462A (zh) * | 2024-01-29 | 2024-03-05 | 深圳感臻智能股份有限公司 | 一种视频的推荐方法及*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102263999A (zh) * | 2011-08-03 | 2011-11-30 | Tcl集团股份有限公司 | 基于人脸识别对电视节目自动分类的方法及其*** |
EP2656178A1 (en) * | 2010-12-22 | 2013-10-30 | Thomson Licensing | My channel recommendaton feature |
CN103533393A (zh) * | 2013-09-17 | 2014-01-22 | 上海交通大学 | 基于家庭收视纪录的家庭分析及节目推荐方法 |
CN103744966A (zh) * | 2014-01-07 | 2014-04-23 | Tcl集团股份有限公司 | 一种物品推荐方法、装置 |
CN104333773A (zh) * | 2013-12-18 | 2015-02-04 | 乐视网信息技术(北京)股份有限公司 | 一种视频推荐方法及服务器 |
CN104661055A (zh) * | 2013-11-21 | 2015-05-27 | 中兴通讯股份有限公司 | 一种业务推荐方法及装置 |
CN104935970A (zh) * | 2015-07-09 | 2015-09-23 | 三星电子(中国)研发中心 | 进行电视内容推荐的方法及电视客户端 |
-
2015
- 2015-12-29 CN CN201511008230.3A patent/CN105681910A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2656178A1 (en) * | 2010-12-22 | 2013-10-30 | Thomson Licensing | My channel recommendaton feature |
CN102263999A (zh) * | 2011-08-03 | 2011-11-30 | Tcl集团股份有限公司 | 基于人脸识别对电视节目自动分类的方法及其*** |
CN103533393A (zh) * | 2013-09-17 | 2014-01-22 | 上海交通大学 | 基于家庭收视纪录的家庭分析及节目推荐方法 |
CN104661055A (zh) * | 2013-11-21 | 2015-05-27 | 中兴通讯股份有限公司 | 一种业务推荐方法及装置 |
CN104333773A (zh) * | 2013-12-18 | 2015-02-04 | 乐视网信息技术(北京)股份有限公司 | 一种视频推荐方法及服务器 |
CN103744966A (zh) * | 2014-01-07 | 2014-04-23 | Tcl集团股份有限公司 | 一种物品推荐方法、装置 |
CN104935970A (zh) * | 2015-07-09 | 2015-09-23 | 三星电子(中国)研发中心 | 进行电视内容推荐的方法及电视客户端 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106658074A (zh) * | 2016-11-21 | 2017-05-10 | 武汉斗鱼网络科技有限公司 | 一种直播间推荐策略的评估方法、用户设备和服务器*** |
CN107870990A (zh) * | 2017-10-17 | 2018-04-03 | 北京德塔精要信息技术有限公司 | 一种汽车推荐方法及装置 |
CN110737799A (zh) * | 2018-07-03 | 2020-01-31 | 阿里巴巴集团控股有限公司 | 视频搜索的方法、装置、设备和介质 |
CN110737799B (zh) * | 2018-07-03 | 2023-06-27 | 阿里巴巴集团控股有限公司 | 视频搜索的方法、装置、设备和介质 |
CN109783687A (zh) * | 2018-11-22 | 2019-05-21 | 广州市易杰数码科技有限公司 | 一种基于图结构的推荐方法、装置、设备及存储介质 |
CN109783687B (zh) * | 2018-11-22 | 2023-05-30 | 广州市易杰数码科技有限公司 | 一种基于图结构的推荐方法、装置、设备及存储介质 |
CN114422841A (zh) * | 2021-12-17 | 2022-04-29 | 北京达佳互联信息技术有限公司 | 字幕生成方法、装置、电子设备及存储介质 |
CN114422841B (zh) * | 2021-12-17 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 字幕生成方法、装置、电子设备及存储介质 |
CN117648462A (zh) * | 2024-01-29 | 2024-03-05 | 深圳感臻智能股份有限公司 | 一种视频的推荐方法及*** |
CN117648462B (zh) * | 2024-01-29 | 2024-06-18 | 深圳感臻智能股份有限公司 | 一种视频的推荐方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677715A (zh) | 一种基于多用户的视频推荐方法及装置 | |
CN105681910A (zh) | 一种基于多用户的视频推荐方法及装置 | |
US9552555B1 (en) | Methods, systems, and media for recommending content items based on topics | |
Li et al. | Scene: a scalable two-stage personalized news recommendation system | |
CN105426548A (zh) | 一种基于多用户的视频推荐方法及装置 | |
US8301624B2 (en) | Determining user preference of items based on user ratings and user features | |
US8566256B2 (en) | Universal system and method for representing and predicting human behavior | |
US7711735B2 (en) | User segment suggestion for online advertising | |
Agarwal et al. | Statistical methods for recommender systems | |
US20090006368A1 (en) | Automatic Video Recommendation | |
US8869211B2 (en) | Zoomable content recommendation system | |
CN105512331A (zh) | 一种视频推荐方法及装置 | |
US20150242750A1 (en) | Asymmetric Rankers for Vector-Based Recommendation | |
US20120185481A1 (en) | Method and Apparatus for Executing a Recommendation | |
US20130218905A1 (en) | Content recommendation for groups | |
WO2018040069A1 (zh) | 信息推荐***及方法 | |
US8838589B1 (en) | Technique for building a user profile based on content consumption or production | |
De Pessemier et al. | Context aware recommendations for user-generated content on a social network site | |
CN102163211A (zh) | 信息处理设备、重要度计算方法和程序 | |
CN106294500B (zh) | 内容项目的推送方法、装置及*** | |
CN103164804A (zh) | 一种个性化的信息推送方法及装置 | |
CN104199896A (zh) | 基于特征分类的视频相似度确定及视频推荐方法 | |
CN105718510A (zh) | 一种多媒体数据推荐方法及装置 | |
Duan et al. | A probabilistic mixture model for mining and analyzing product search log | |
CN106354867A (zh) | 多媒体资源的推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160615 |