CN103116588A - 一种个性化推荐方法及*** - Google Patents

一种个性化推荐方法及*** Download PDF

Info

Publication number
CN103116588A
CN103116588A CN2011103650309A CN201110365030A CN103116588A CN 103116588 A CN103116588 A CN 103116588A CN 2011103650309 A CN2011103650309 A CN 2011103650309A CN 201110365030 A CN201110365030 A CN 201110365030A CN 103116588 A CN103116588 A CN 103116588A
Authority
CN
China
Prior art keywords
content recommendation
tag tree
user data
user
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103650309A
Other languages
English (en)
Other versions
CN103116588B (zh
Inventor
刘怀军
刘玉璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110365030.9A priority Critical patent/CN103116588B/zh
Publication of CN103116588A publication Critical patent/CN103116588A/zh
Application granted granted Critical
Publication of CN103116588B publication Critical patent/CN103116588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于互联网技术领域,提供了一种个性化推荐方法及***,所述方法包括下述步骤:分别提取用户数据和推荐内容的特征词;根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。本发明对领域分类体系的每一级均生成不同的分类模型,来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树以进行相关性匹配,提高了标签描述的准确性和覆盖率。

Description

一种个性化推荐方法及***
技术领域
本发明属于互联网技术领域,尤其涉及一种个性化推荐方法及***。
背景技术
随着互联网搜索引擎技术的迅猛发展以及社会性网络服务(socialnetworking service,SNS)的迅速普及,个性化推荐已成为了人们网络生活中不可或缺的网络服务之一,也成为了互联网产品未来发展的一个重点。
现有的个性化推荐方案如下:1、用户根据自身兴趣自行设定喜好的兴趣标签,***根据推荐内容与用户兴趣标签的匹配程度为用户进行个性化推荐。例如,在新浪微博中,用户自行设定自己的兴趣标签,***根据推荐微博与用户兴趣标签的匹配程度,为用户进行微博的个性化推荐;2、用户根据自身兴趣,在已经设定好的分类中选择感兴趣的类别标签,***根据推荐内容与用户类别标签的匹配程度为用户进行个性化推荐。例如,在百度知道中,用户自行选择自己擅长领域的类别标签,***根据待解答问题与用户类别标签的匹配程度,为用户进行待解答问题的个性化推荐。
然而,由于用户自行选择标签的时间及精力有限,或者鉴于个人隐私不愿意去配置相应的标签,导致标签描述不准确且覆盖率低,使得现有技术无法将标签与推荐内容进行精确匹配。
发明内容
本发明实施例提供一种个性化推荐方法,旨在解决现有的个性化推荐必须由用户自行设定标签,导致推荐内容与标签匹配的准确度和覆盖率均不高的问题。
本发明实施例是这样实现的,一种个性化推荐方法,所述方法包括下述步骤:
分别提取用户数据和推荐内容的特征词,所述特征词用于表征其所处数据的领域;
根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;
根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
本发明实施例的另一目的在于提供一种个性化推荐***,所述***包括:
特征词提取模块,用于分别提取用户数据和推荐内容的特征词;
分类概率获取模块,用于根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;
推荐模块,用于根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
在本发明实施例中,基于从用户数据和推荐内容中提取出的特征词,对领域分类体系的每一级均生成不同的分类模型,来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树,以进一步通过相关性匹配来实现对用户的个性化推荐,提高了标签描述的准确性和覆盖率,也由此提高了用户数据与推荐内容匹配的精确性。
附图说明
图1是本发明第一实施例提供的个性化推荐方法的实现流程图;
图2A是词汇“JUMPSQ”的类间分布和类先验分布的对比情况图;
图2B是词汇“招股”的类间分布和类先验分布的对比情况图;
图2C是词汇“始端”的类间分布和类先验分布的对比情况图;
图3是本发明实施例提供的领域分类体系示例图;
图4是本发明第二实施例提供的个性化推荐方法自动分类的具体实现流程图;
图5是本发明第三实施例提供的个性化推荐方法相关性计算的具体实现流程图;
图6A是本发明实现示例提供的用户兴趣标签树示例图;
图6B是本发明实现示例提供的推荐内容标签树示例图;
图7是本发明第四实施例提供的个性化推荐***的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,基于从用户数据和推荐内容中提取出的特征词,并根据改进的贝叶斯(Bayes)分类算法来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树,以进一步通过相关性匹配来实现对用户的个性化推荐,提高了标签描述的准确性和覆盖率,也由此提高了用户数据与推荐内容匹配的精确性。
图1示出了本发明第一实施例提供的个性化推荐方法的实现流程,详述如下:
在步骤S101中,分别提取用户数据和推荐内容的特征词。
在本实施例中,用户数据可以由用户的网络行为中获取,例如通过用户在互联网上的浏览新闻、关键词搜索等网络行为,从上述网络行为中获取到携带有用户兴趣倾向的用户数据。而推荐内容则可以为新闻、博客等能够为用户提供信息的互联网内容。
对用户数据和推荐内容进行自动分类,十分重要的一个环节就是要准确地提取相应数据的特征词,该特征词用于表征其所处数据的领域,因此需要具备鲜明的领域性,以能够准确地对领域进行表征。
传统的词频-逆向文档频率(term frequency-inverse document frequency,TF-IDF)方法对于特征词的提取只考虑了词汇的频次,且认为频次很高及很低的词汇都不能够作为特征词,因此常常会出现诸如“JUMPSQ”为动漫领域的特征词,但在考察数据中的出现频次很低,以及“招股”为股票、财经领域的特征词,但在考察数据中的出现频次很高的情况,若使用传统方法,“JUMPSQ”和“财经”均无法入选特征词。同时,诸如“始端”这样领域性不强的噪音词,却其频次适中而入选了特征词,导致特征词提取不准确。
而在本实施例中,对于特征词的提取不但基于词汇的频次,同时还结合了信息增益(information gain,IG)和χ2统计(CHI),具体地,对于数据中词汇特征强度的度量公式如下:
F(w)=log(DF(w))*(λlog(χ2(w)+(1-λ)IG(w))),
其中,w为当前进行特征强度度量的词汇,F(w)为w的特征强度,IG(w)、χ2(w)和DF(w)分别为w的信息增益、χ2统计量和文档频率,且χ2(w)和IG(w)均是描述词汇w在分类体系中的类间分布与类先验分布的差异度,而DF(w)则是词汇w的频次。
关于信息增益的度量公式为
IG ( w ) = - Σ i P ( c i ) log P ( c i ) + P ( w ) Σ i P ( c i | w ) log P ( c i | w ) P ( c i ) + P ( w ‾ ) Σ i log P ( c i | w ‾ ) P ( c i )
其中,ci为类别,上式分为三个部分,第一部分是整个类的信息熵的负值,第二部分是包含词汇w的信息熵和词汇w出现概率的乘积,第三部分是不包含词汇w的信息熵和不包含词汇w的概率的乘积。在本实施例中,先采用对数梯度将所有候选词按词频划分,如果词汇Wi的词频为DFi,则词汇Wi映射到区间
Figure BDA0000109414940000051
其中step是梯度,一般取整数。
Figure BDA0000109414940000052
表示对x下取整,即不大于x的最大的整数。这样,每个区间内都是词频在一定范围的词汇,因此词汇的{在类中出现,不在类中出现}这两个属性分布就会比较均衡。然后,用上面公式计算词汇的信息增益。最后将每个区间内词汇的信息增益值都归一到一个统一的区间[low,up]。由此,能够避免传统信息增益算法中对于超高频和超低频词的{在类中出现,不在类中出现}这两种属性分布严重失衡的问题。
关于χ2统计量的度量公式为
&chi; 2 ( w ) = &Sigma; ( A - T ) 2 T , T &GreaterEqual; &theta; &Sigma; ( | A - T | - &lambda; ) 2 T , 1 &le; T < &theta; , 0 < &lambda; < 1
其中,A是实际分布值,T是理论分布值,θ是理论值的阈值,λ是一个校正因子。通过引入校正因子,可以避免出现传统χ2统计量针对高频词的统计量基本偏高,针对低频词的统计量基本偏低且统计量不准确,导致高频词和低频词的χ2统计量可比性不强的问题。
在本实施例中,在对词汇的特征强度进行度量的过程中,结合考虑了词汇的信息增益、χ2统计量,能够避免传统的TF-IDF方法所带来的上述问题。图2A至图2C分别示出了“JUMPSQ”、“招股”和“始端”这三个词汇的类间分布和类先验分布的对比情况,可以看出,“JUMPSQ”和“招股”的类间分布与类先验分布的基本吻合点很少,差异化很大,分别在动漫(comic)领域和财经(finance)领域成为领域性强的词,因此其所处数据分别为动漫领域数据和财经领域数据,而“始端”的类间分布与类先验分布吻合度高,相似性强,因此成为噪音词。由此能够看出,本实施例结合了信息增益、χ2统计量和文档频率的方法能够更准确地对数据中的词汇特征强度进行描述,以使提取出的特征词具有很强的领域性。
在本实施例中,当对数据中词汇的特征强度均进行了度量之后,将特征强度大于第二预设阈值的若干个词汇提取为用户数据和推荐内容的特征词,而第二预设阈值的大小可以根据实际情况而确定,在此不作限定。
在步骤S102中,根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率。
在本实施例中,预设的领域分类体系为事先建立的多级领域分类体系,其可以为如图3所示的多级分类体系,该分类体系对用户数据和推荐内容能够涉及到的领域进行了精细的分类,该分类体系的分类级和类别越精细,则所带来的用户数据与最终的推荐内容的匹配度越高。
在分别提取出了用户数据和推荐内容的特征词后,需要一个快速且精准的分类算法来对上述两种数据在领域分类体系中进行自动分类,同时,还必须使得设定出来的标签满足多级分类和多类兼类的要求,以建立多维度、多级别的用户兴趣标签树以及推荐内容标签树。例如,用户的爱好涉及到“娱乐->明星->港台明星”以及“科技->数码”这样一个多维度、多级别的用户兴趣标签树。
在本实施例中,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,以达到多级分类的分类效果,且每次分类模型的生成,只在该级别相同的父类范围内进行,以达到多类兼类的分类效果,具体的分类模型生成步骤及相应的分类概率获取步骤将在后续实施例中进行详细说明,在此不赘述。
在步骤S103中,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
通过步骤S102生成的分类模型,能够为用户数据以及推荐内容在领域分类体系中的每一级每一类中均计算出其相应的分类概率,而通过取分类概率最大的前预设个类别,则能够组成多维多级的分类结果,这些分类结果即组成了携带了概率倾向的用户兴趣标签树和推荐内容标签树,该标签树由多个不同的子树构成,用于实现对用户兴趣或者推荐内容的多维度多级别的倾向性覆盖。
在本实施例中,对生成的用户兴趣标签树和推荐内容标签树进行相关性计算,当其相关性大于第一预设阈值时,则代表用户兴趣可能与该推荐内容相符,则为用户进行推荐,其具体的实现流程将在后续实施例进行详细说明,在此不赘述。
在本实施例中,通过上述步骤,即可根据用户行为自动地生成准确度高、覆盖率大的用户兴趣标签树,并将该标签树与推荐内容标签树进行相关性匹配,从而精确地对用户进行个性化推荐。
图4示出了本发明第二实施例提供的个性化推荐方法自动分类的具体实现流程,详述如下:
在步骤S401中,在领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值。
具体地,通过每一个特征词为每个类别生成投票值的公式如下:
Val(cj/wi)=log(tf(wi))*P(cj/wi),
其中,wi为特征词,cj为类别,tf(wi)为wi的频次,
Figure BDA0000109414940000071
且P(w/ci)为特征词wi属于类别cj的先验概率。
在步骤S402中,分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值。
具体地,生成累计投票值的公式为:
Val ( c j ) = &Sigma; i Val ( c j / w i ) .
在步骤S403中,归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。
具体地,生成用户数据和推荐内容归属于领域分类体系中某类别的分类概率的公式为:
P ( c j ) = Val ( c j ) &Sigma; i Val ( c i ) .
需要说明的是,在对用户数据或者推荐内容进行每一级的自动分类时,对该级的分类只限在相同的父类范围内进行,例如,第一级分在“娱乐”类别,则在对第二级进行自动分类时,只在“娱乐”的子类“明星”、“电影”、“音乐”内进行分类,依次类推,第三级、第四级也按相同的父类范围来进行分类约束,由此,能够形成多类兼类的标签覆盖效果。
图5示出了本发明第三实施例提供的个性化推荐方法相关性计算的具体实现流程,详述如下:
在步骤S501中,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树。
作为本实施例的实现示例,图6A和图6B分别示出了通过相应的分类概率生成的具体的用户兴趣标签树和推荐内容标签树,能够看出,如上所述,对一级的分类只限在相同的父类范围内进行,例如,在用户兴趣标签树中,位于相同层级的“明星”、“电影”和“足球”类别,“明星”和“电影”在相同的父类“娱乐”类别下进行分类,其分类概率和为1,而“足球”则在“体育”类别下进行分类。
在步骤S502中,将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重,相应的传递公式为:
P new ( c j / c 0 - > c 1 - > . . . - > c j ) = &Pi; i = 0 i = j P ( c i )
其中,c0->c1->...->cj表示从标签树的顶部标签c0到当前标签cj的传递路径,例如传递路径“娱乐->明星->港台”,通过将分类概率进行逐层连乘,从而使唤标签树中的每个标签都获得到一个相应的权重。
在步骤S503中,在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量。
在本实施例中,在提取标签及权重以组成相应的用户兴趣特征向量和推荐内容特征向量的过程中,采用了公共节点终止的方法,即将标签的提取位置置于用户兴趣标签树和推荐内容标签树具备公共节点的层次的最底一层。例如,用户兴趣标签树中“娱乐”的传递路径是“娱乐->明星->港台”,但推荐内容标签树中“娱乐”的传递路径是“娱乐->明星”,则在提取标签时,提取“明星”这一层的标签,以实现更准确、更全面的匹配。
在对标签及其权重进行提取之后,分别针对用户数据和推荐内容生成一维的用户兴趣特征向量和推荐内容特征向量F={fc1,fc2,...,fcn}。以图6A和图6B所示的标签树为例,则生成的用户兴趣特征向量为Fusr={明星,电影,足球},Fdata={明星,电影,足球,篮球}。
在步骤S504中,计算用户兴趣特征向量和推荐内容特征向量的相关性。
具体地,可以通过余弦夹角来计算用户兴趣特征向量和推荐内容特征向量的相关性。
由此,根据计算出的相关性,通过判断相关性的大小,当相关性大于第一预设阈值时,则代表用户兴趣可能与该推荐内容相符,则为用户进行推荐,以实现对用户的多兴趣及不同兴趣倾向的个性化推荐。
图7示出了本发明第四实施例提供的个性化推荐***的结构,为了便于说明,仅示出了与本实施例相关的部分。
具体地,该个性化推荐***包括了:
特征词提取模块71,分别提取用户数据和推荐内容的特征词。
特征强度度量单元711,度量用户数据和推荐内容中词汇的特征强度,所述特征强度的度量公式为:F(w)=log(DF(w))*(λlog(χ2(w)+(1-λ)IG(w))),其中,w为进行特征强度度量的词汇,F(w)为w的特征强度,IG(w)、χ2(w)和DF(w)分别为w的信息增益、χ2统计量和文档频率。
提取单元712,将特征强度大于第二预设阈值的词汇分别提取为用户数据和推荐内容的特征词。
分类概率获取模块72,根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率。
投票值生成单元721,在所述领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值,所述投票值生成公式为:Val(cj/wi)=log(tf(wi))*P(cj/wi),其中,wi为特征词,cj为类别,tf(wi)为wi的频次,
Figure BDA0000109414940000101
且P(w/ci)为wi属于cj的先验概率。
投票值累加单元722,分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值。
投票值归一化单元723,归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。
推荐模块73,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
标签树生成单元731,根据相应的分类概率生成用户兴趣标签树和推荐内容标签树。
标签权重获取单元732,将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重。
特征向量生成单元733,在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量。
相关性计算单元734,计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性。
推荐单元735,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
分类体系建立模块74,建立多级的领域分类体系。
本发明第四实施例提供的个性化推荐***可以使用在前述对应的个性化推荐方法实施例一、二和三中,详情参见上述本发明第一、二、三实施例的相关描述,在此不再赘述。
在本实施例中,基于从用户数据和推荐内容中提取出的特征词,对领域分类体系的每一级均生成不同的分类模型,来分别对用户数据及推荐内容进行自动分类,从而生成相应的标签树,以进一步通过相关性匹配来实现对用户的个性化推荐,提高了标签描述的准确性和覆盖率,也由此提高了用户数据与推荐内容匹配的精确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种个性化推荐方法,其特征在于,所述方法包括下述步骤:
分别提取用户数据和推荐内容的特征词,所述特征词用于表征其所处数据的领域;
根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;
根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
2.如权利要求1所述的方法,其特征在于,在所述分别提取用户数据和推荐内容的特征词的步骤之前,所述方法包括下述步骤:
建立多级的领域分类体系。
3.如权利要求1所述的方法,其特征在于,所述分别提取用户数据和推荐内容的特征词的步骤包括:
度量用户数据和推荐内容中词汇的特征强度;将特征强度大于第二预设阈值的词汇分别提取为用户数据和推荐内容的特征词。
4.如权利要求1所述的方法,其特征在于,所述获取用户数据和推荐内容归属于每个类别的分类概率的步骤包括:
在所述领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值;
分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值;
归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。
5.如权利要求1所述的方法,其特征在于,所述计算所述用户兴趣标签树和所述推荐内容标签树的相关性的步骤包括:
根据相应的分类概率生成用户兴趣标签树和推荐内容标签树;
将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重;
在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量;
计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性。
6.如权利要求5所述的方法,其特征在于,在所述计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性的步骤中,通过余弦夹角来进行相关性计算。
7.一种个性化推荐***,其特征在于,所述***包括:
特征词提取模块,用于分别提取用户数据和推荐内容的特征词;
分类概率获取模块,用于根据提取出的特征词,通过在预设的领域分类体系中分别针对用户数据和推荐内容为每个级别生成相应的分类模型,获取用户数据和推荐内容归属于每个类别的分类概率;
推荐模块,用于根据相应的分类概率生成用户兴趣标签树和推荐内容标签树,计算所述用户兴趣标签树和所述推荐内容标签树的相关性,当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
8.如权利要求7所述的***,其特征在于,所述***还包括:
分类体系建立模块,用于建立多级的领域分类体系。
9.如权利要求7所述的***,其特征在于,所述特征词提取模块包括:
特征强度度量单元,用于度量用户数据和推荐内容中词汇的特征强度;
提取单元,用于将特征强度大于第二预设阈值的词汇分别提取为用户数据和推荐内容的特征词。
10.如权利要求7所述的***,其特征在于,所述分类概率获取模块包括:
投票值生成单元,用于在所述领域分类体系的每个级别中,通过每个特征词为每个类别生成一个投票值;
投票值累加单元,用于分别针对用户数据和推荐内容,将每个类别的投票值进行累加,生成该类别的累计投票值;
投票值归一化单元,用于归一化所述累计投票值,分别生成用户数据和推荐内容归属于该类别的分类概率。
11.如权利要求7所述的***,其特征在于,所述推荐模块包括:
标签树生成单元,用于根据相应的分类概率生成用户兴趣标签树和推荐内容标签树;
标签权重获取单元,用于将分类概率由标签树的顶部至底部逐层连乘,得到每个标签的权重;
特征向量生成单元,用于在所述用户兴趣标签树和所述推荐内容标签树具备公共节点的最底层,分别提取相应的标签及权重,生成用户兴趣特征向量和推荐内容特征向量;
相关性计算单元,用于计算所述用户兴趣特征向量和所述推荐内容特征向量的相关性;
推荐单元,用于当所述相关性大于第一预设阈值时,为用户推荐相应的推荐内容。
CN201110365030.9A 2011-11-17 2011-11-17 一种个性化推荐方法及*** Active CN103116588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110365030.9A CN103116588B (zh) 2011-11-17 2011-11-17 一种个性化推荐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110365030.9A CN103116588B (zh) 2011-11-17 2011-11-17 一种个性化推荐方法及***

Publications (2)

Publication Number Publication Date
CN103116588A true CN103116588A (zh) 2013-05-22
CN103116588B CN103116588B (zh) 2017-07-04

Family

ID=48414965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110365030.9A Active CN103116588B (zh) 2011-11-17 2011-11-17 一种个性化推荐方法及***

Country Status (1)

Country Link
CN (1) CN103116588B (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473283A (zh) * 2013-08-29 2013-12-25 中国测绘科学研究院 一种文本案例匹配方法
CN104156390A (zh) * 2014-07-07 2014-11-19 乐视网信息技术(北京)股份有限公司 一种评论推荐方法和***
WO2014194657A1 (zh) * 2013-06-05 2014-12-11 北京京东尚科信息技术有限公司 产品信息推荐方法、装置和***
CN104580385A (zh) * 2014-12-16 2015-04-29 腾讯科技(深圳)有限公司 一种拓展用户关系链的方法及装置
CN104580234A (zh) * 2015-01-19 2015-04-29 合肥工业大学 一种社交网络中行为特征的保护方法
CN104899195A (zh) * 2014-01-26 2015-09-09 武汉联影医疗科技有限公司 一种个性化教育资源的推荐方法和装置
CN105022808A (zh) * 2015-06-29 2015-11-04 程文举 一种二进制定值区间匹配方法
CN105095219A (zh) * 2014-04-23 2015-11-25 华为技术有限公司 微博推荐方法和终端
CN105447193A (zh) * 2015-12-22 2016-03-30 中山大学深圳研究院 一种基于机器学习和协同过滤的音乐推荐***
CN105893436A (zh) * 2015-12-14 2016-08-24 乐视网信息技术(北京)股份有限公司 视频网站单账号多喜好推荐方法和装置
CN105893380A (zh) * 2014-12-11 2016-08-24 成都网安科技发展有限公司 一种改良的文本分类特征选择方法
WO2016179755A1 (en) * 2015-05-08 2016-11-17 Microsoft Technology Licensing, Llc. Mixed proposal based model training system
CN106339469A (zh) * 2016-08-29 2017-01-18 乐视控股(北京)有限公司 数据推荐方法及装置
CN106354708A (zh) * 2015-07-13 2017-01-25 中国电力科学研究院 一种基于用电信息采集***的客户互动信息搜索引擎***
CN106445969A (zh) * 2015-08-11 2017-02-22 北京字节跳动科技有限公司 一种全局兴趣探索推荐方法和装置
CN106611008A (zh) * 2015-10-26 2017-05-03 ***通信集团公司 一种互联网内容标签的管理方法及装置
CN106649714A (zh) * 2016-12-21 2017-05-10 重庆邮电大学 针对数据不均匀及数据稀疏的topN推荐***及方法
CN106953887A (zh) * 2017-01-05 2017-07-14 北京中瑞鸿程科技开发有限公司 一种细粒度电台音频内容个性化组织推荐方法
CN107038184A (zh) * 2016-10-14 2017-08-11 厦门大学 一种基于分层隐变量模型的新闻推荐方法
CN107038213A (zh) * 2017-02-28 2017-08-11 华为技术有限公司 一种视频推荐的方法及装置
CN107193814A (zh) * 2016-03-14 2017-09-22 北京京东尚科信息技术有限公司 数字阅读中实现书籍自动分类整理的方法和装置
CN107430624A (zh) * 2015-05-26 2017-12-01 谷歌公司 针对特定场境预测用户需求
CN107451216A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 标签的粒度属性识别方法及装置
CN108062410A (zh) * 2017-12-29 2018-05-22 北京奇元科技有限公司 一种确定对象兴趣点的方法及装置
CN108255999A (zh) * 2017-12-29 2018-07-06 北京奇虎科技有限公司 内容推荐方法及装置
US20190087884A1 (en) 2016-05-24 2019-03-21 Huawei Technologies Co., Ltd. Theme recommendation method and apparatus
CN109582675A (zh) * 2018-11-29 2019-04-05 北京达佳互联信息技术有限公司 标签匹配方法、装置、服务器及存储介质
CN109874032A (zh) * 2019-03-07 2019-06-11 四川长虹电器股份有限公司 智能电视的节目专题个性化推荐***与方法
CN109933731A (zh) * 2019-03-18 2019-06-25 苏州亿歌网络科技有限公司 一种好友推荐方法、装置、设备及存储介质
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN110196948A (zh) * 2019-06-10 2019-09-03 北京金山安全软件有限公司 内容推荐方法、装置、计算机设备及存储介质
CN110297966A (zh) * 2019-04-24 2019-10-01 上海易点时空网络有限公司 用于社区类应用程序的内容推荐方法及装置
CN110738267A (zh) * 2019-10-18 2020-01-31 北京达佳互联信息技术有限公司 图像分类方法、装置、电子设备及存储介质
WO2020034626A1 (zh) * 2018-08-15 2020-02-20 深圳壹账通智能科技有限公司 服务推荐方法、装置、电子设备及存储介质
US10607133B2 (en) 2014-03-17 2020-03-31 Huawei Technologies Co., Ltd. Digital human generation method and system
CN111324724A (zh) * 2020-02-13 2020-06-23 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111753199A (zh) * 2020-06-22 2020-10-09 北京百度网讯科技有限公司 用户画像构建方法及设备、电子设备和介质
CN111949866A (zh) * 2020-08-10 2020-11-17 广州汽车集团股份有限公司 应用推荐处理方法和装置
CN111984689A (zh) * 2020-08-21 2020-11-24 北京百度网讯科技有限公司 信息检索的方法、装置、设备以及存储介质
CN114780842A (zh) * 2022-04-20 2022-07-22 北京字跳网络技术有限公司 一种数据处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254548A1 (en) * 2008-04-08 2009-10-08 Kae Nagano Information processing apparatus and method, program, recording medium, recomendation apparatus and method, and information processing system
CN101609457A (zh) * 2009-04-01 2009-12-23 北京搜狗科技发展有限公司 一种提供起始页推荐配置的方法及装置
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
CN101819572A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种用户兴趣模型的建立方法
CN102054004A (zh) * 2009-11-04 2011-05-11 清华大学 一种网页推荐方法和装置
US20110173198A1 (en) * 2010-01-12 2011-07-14 Yahoo! Inc. Recommendations based on relevant friend behaviors

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254548A1 (en) * 2008-04-08 2009-10-08 Kae Nagano Information processing apparatus and method, program, recording medium, recomendation apparatus and method, and information processing system
CN101609457A (zh) * 2009-04-01 2009-12-23 北京搜狗科技发展有限公司 一种提供起始页推荐配置的方法及装置
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
CN101819572A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种用户兴趣模型的建立方法
CN102054004A (zh) * 2009-11-04 2011-05-11 清华大学 一种网页推荐方法和装置
US20110173198A1 (en) * 2010-01-12 2011-07-14 Yahoo! Inc. Recommendations based on relevant friend behaviors

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014194657A1 (zh) * 2013-06-05 2014-12-11 北京京东尚科信息技术有限公司 产品信息推荐方法、装置和***
CN103473283A (zh) * 2013-08-29 2013-12-25 中国测绘科学研究院 一种文本案例匹配方法
CN104899195B (zh) * 2014-01-26 2020-06-30 武汉联影医疗科技有限公司 一种个性化教育资源的推荐方法和装置
CN104899195A (zh) * 2014-01-26 2015-09-09 武汉联影医疗科技有限公司 一种个性化教育资源的推荐方法和装置
US10607133B2 (en) 2014-03-17 2020-03-31 Huawei Technologies Co., Ltd. Digital human generation method and system
CN105095219A (zh) * 2014-04-23 2015-11-25 华为技术有限公司 微博推荐方法和终端
CN104156390A (zh) * 2014-07-07 2014-11-19 乐视网信息技术(北京)股份有限公司 一种评论推荐方法和***
CN105893380B (zh) * 2014-12-11 2019-08-23 成都网安科技发展有限公司 一种改良的文本分类特征选择方法
CN105893380A (zh) * 2014-12-11 2016-08-24 成都网安科技发展有限公司 一种改良的文本分类特征选择方法
CN104580385A (zh) * 2014-12-16 2015-04-29 腾讯科技(深圳)有限公司 一种拓展用户关系链的方法及装置
CN104580234A (zh) * 2015-01-19 2015-04-29 合肥工业大学 一种社交网络中行为特征的保护方法
CN104580234B (zh) * 2015-01-19 2017-08-11 合肥工业大学 一种社交网络中行为特征的保护方法
US10510013B2 (en) 2015-05-08 2019-12-17 Microsoft Technology Licensing, Llc Mixed proposal based model training system
WO2016179755A1 (en) * 2015-05-08 2016-11-17 Microsoft Technology Licensing, Llc. Mixed proposal based model training system
CN112948672A (zh) * 2015-05-26 2021-06-11 谷歌有限责任公司 针对特定场境预测用户需求
CN107430624B (zh) * 2015-05-26 2021-03-09 谷歌有限责任公司 针对特定场境预测用户需求
CN107430624A (zh) * 2015-05-26 2017-12-01 谷歌公司 针对特定场境预测用户需求
CN105022808A (zh) * 2015-06-29 2015-11-04 程文举 一种二进制定值区间匹配方法
CN106354708A (zh) * 2015-07-13 2017-01-25 中国电力科学研究院 一种基于用电信息采集***的客户互动信息搜索引擎***
CN106445969A (zh) * 2015-08-11 2017-02-22 北京字节跳动科技有限公司 一种全局兴趣探索推荐方法和装置
CN106445969B (zh) * 2015-08-11 2019-03-05 北京字节跳动科技有限公司 一种全局兴趣探索推荐方法和装置
CN106611008A (zh) * 2015-10-26 2017-05-03 ***通信集团公司 一种互联网内容标签的管理方法及装置
CN106611008B (zh) * 2015-10-26 2020-06-12 ***通信集团公司 一种互联网内容标签的管理方法及装置
CN105893436A (zh) * 2015-12-14 2016-08-24 乐视网信息技术(北京)股份有限公司 视频网站单账号多喜好推荐方法和装置
CN105447193A (zh) * 2015-12-22 2016-03-30 中山大学深圳研究院 一种基于机器学习和协同过滤的音乐推荐***
CN107193814B (zh) * 2016-03-14 2020-07-31 北京京东尚科信息技术有限公司 数字阅读中实现书籍自动分类整理的方法和装置
CN107193814A (zh) * 2016-03-14 2017-09-22 北京京东尚科信息技术有限公司 数字阅读中实现书籍自动分类整理的方法和装置
US20190087884A1 (en) 2016-05-24 2019-03-21 Huawei Technologies Co., Ltd. Theme recommendation method and apparatus
US11830033B2 (en) 2016-05-24 2023-11-28 Huawei Technologies Co., Ltd. Theme recommendation method and apparatus
CN106339469A (zh) * 2016-08-29 2017-01-18 乐视控股(北京)有限公司 数据推荐方法及装置
CN107038184B (zh) * 2016-10-14 2019-11-08 厦门大学 一种基于分层隐变量模型的新闻推荐方法
CN107038184A (zh) * 2016-10-14 2017-08-11 厦门大学 一种基于分层隐变量模型的新闻推荐方法
CN106649714A (zh) * 2016-12-21 2017-05-10 重庆邮电大学 针对数据不均匀及数据稀疏的topN推荐***及方法
CN106953887A (zh) * 2017-01-05 2017-07-14 北京中瑞鸿程科技开发有限公司 一种细粒度电台音频内容个性化组织推荐方法
CN107038213A (zh) * 2017-02-28 2017-08-11 华为技术有限公司 一种视频推荐的方法及装置
CN107451216A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 标签的粒度属性识别方法及装置
CN108062410A (zh) * 2017-12-29 2018-05-22 北京奇元科技有限公司 一种确定对象兴趣点的方法及装置
CN108255999A (zh) * 2017-12-29 2018-07-06 北京奇虎科技有限公司 内容推荐方法及装置
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
WO2020034626A1 (zh) * 2018-08-15 2020-02-20 深圳壹账通智能科技有限公司 服务推荐方法、装置、电子设备及存储介质
CN109582675A (zh) * 2018-11-29 2019-04-05 北京达佳互联信息技术有限公司 标签匹配方法、装置、服务器及存储介质
CN109874032B (zh) * 2019-03-07 2021-06-22 四川长虹电器股份有限公司 智能电视的节目专题个性化推荐***与方法
CN109874032A (zh) * 2019-03-07 2019-06-11 四川长虹电器股份有限公司 智能电视的节目专题个性化推荐***与方法
CN109933731A (zh) * 2019-03-18 2019-06-25 苏州亿歌网络科技有限公司 一种好友推荐方法、装置、设备及存储介质
CN110297966A (zh) * 2019-04-24 2019-10-01 上海易点时空网络有限公司 用于社区类应用程序的内容推荐方法及装置
CN110196948A (zh) * 2019-06-10 2019-09-03 北京金山安全软件有限公司 内容推荐方法、装置、计算机设备及存储介质
CN110738267A (zh) * 2019-10-18 2020-01-31 北京达佳互联信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN110738267B (zh) * 2019-10-18 2023-08-22 北京达佳互联信息技术有限公司 图像分类方法、装置、电子设备及存储介质
CN111324724A (zh) * 2020-02-13 2020-06-23 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111324724B (zh) * 2020-02-13 2023-04-11 腾讯科技(深圳)有限公司 数据处理方法及装置、电子设备和计算机可读存储介质
CN111753199A (zh) * 2020-06-22 2020-10-09 北京百度网讯科技有限公司 用户画像构建方法及设备、电子设备和介质
CN111753199B (zh) * 2020-06-22 2024-05-10 北京百度网讯科技有限公司 用户画像构建方法及设备、电子设备和介质
CN111949866A (zh) * 2020-08-10 2020-11-17 广州汽车集团股份有限公司 应用推荐处理方法和装置
CN111949866B (zh) * 2020-08-10 2024-02-02 广州汽车集团股份有限公司 应用推荐处理方法和装置
CN111984689B (zh) * 2020-08-21 2023-07-25 北京百度网讯科技有限公司 信息检索的方法、装置、设备以及存储介质
CN111984689A (zh) * 2020-08-21 2020-11-24 北京百度网讯科技有限公司 信息检索的方法、装置、设备以及存储介质
CN114780842A (zh) * 2022-04-20 2022-07-22 北京字跳网络技术有限公司 一种数据处理方法、装置、设备及存储介质
CN114780842B (zh) * 2022-04-20 2022-12-13 北京字跳网络技术有限公司 一种数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN103116588B (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
CN103116588A (zh) 一种个性化推荐方法及***
US11995702B2 (en) Item recommendations using convolutions on weighted graphs
Ganu et al. Improving the quality of predictions using textual information in online user reviews
US20090265290A1 (en) Optimizing ranking functions using click data
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN102663022B (zh) 一种基于url的分类识别方法
Selke et al. Pushing the boundaries of crowd-enabled databases with query-driven schema expansion
CN105843799B (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
KR20160057475A (ko) 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법
US11676194B2 (en) Faceted item recommendation system
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN103092975A (zh) 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
US20160170993A1 (en) System and method for ranking news feeds
CN103313248A (zh) 一种识别垃圾信息的方法和装置
Zhou et al. Relevance feature mapping for content-based multimedia information retrieval
CN104731958A (zh) 一种面向用户需求倾向的云制造服务推荐方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
Duan et al. A hybrid intelligent service recommendation by latent semantics and explicit ratings
Yao et al. Online deception detection refueled by real world data collection
CN113342994B (zh) 一种基于无采样协作知识图网络的推荐***
CN108470035B (zh) 一种基于判别混合模型的实体-引文相关性分类方法
CN114254615A (zh) 组卷方法、装置、电子设备和存储介质
CN117252186A (zh) 基于xai的信息处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131018

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131018

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant