CN104899273B - 一种基于话题和相对熵的网页个性化推荐方法 - Google Patents
一种基于话题和相对熵的网页个性化推荐方法 Download PDFInfo
- Publication number
- CN104899273B CN104899273B CN201510279762.4A CN201510279762A CN104899273B CN 104899273 B CN104899273 B CN 104899273B CN 201510279762 A CN201510279762 A CN 201510279762A CN 104899273 B CN104899273 B CN 104899273B
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- mover
- topic
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于话题和相对熵的网页个性化推荐方法。该方法先采用LDA(Latent Dirichlet Allocation)模型对网页内容和用户阅读行为进行话题(topic)挖掘,并计算基于“话题”的网页语义特征向量和用户兴趣特征向量,再利用基于相对熵概念的相似性度量公式,计算待推荐网页语义特征向量和用户兴趣特征向量之间的相似度,并以此作为网页个性化推荐的决策依据。基于话题的网页个性化推荐方法避免了基于协同过滤方法的大量计算开销,同时由于它采用话题而不是关键词来表征网页内容,所以能够使推荐过程及其结果更加全面和精确地反映网页内容的隐含信息和深层次语义特征。
Description
技术领域
本发明涉及一种基于话题和相对熵的网页个性化推荐方法,该方法可用于用户兴趣识别、网页个性化推荐、新闻按需推送等网络应用,属于互联网技术领域。
背景技术
随着互联网的飞速发展和网上信息资源的不断丰富,万维网(简称Web)已经成为人们获取信息资讯、了解新闻时事、追索感兴趣内容的最重要场所。然而,Web中海量的网页信息资源往往体现出动态性、非结构性和无序性等特征,公共网站又多是按大众化需求汇集大量网页,不同的用户看到相同的内容组织,致使用户体验较差。同时,由于在传统互联网中用户必须通过主动搜索、主观筛选来寻找自己感兴趣的内容,这种方式不但费时和低效,而且当用户难以表述自己的主观需求或者自己的主观需求较为模糊时,往往难以找到自己真正感兴趣的内容。在此背景之下,迫切需要借助合适的个性化推荐方法,来发现用户兴趣和进行网页的个性化推荐,使互联网从被动接受用户的搜索请求转化为主动感知用户个性化需求,实现“信息找人、按需服务”的主动兴趣匹配与个性化推荐。
网页个性化推荐过程通常包括三个主要环节。首先,建立可使用户兴趣特征显著化的兴趣模型,并根据用户对网页的历史行为生成反映其兴趣的特征向量。然后,计算用户对待推荐网页内容的可能评分,或者用户兴趣特征向量与待推荐网页内容间的相似度。最后,根据评分或相似度的取值,判别网页内容是否符合用户兴趣特征,以决定是否向用户进行推荐。针对网页个性化推荐,当前采用较多的是基于协同过滤的个性化推荐方法和基于内容的个性化推荐方法。但是,基于协同过滤的个性化推荐方法存在稀疏性和可扩展性等问题,并且它需要较大的计算开销,所以常常难以适应设备计算能力有限和用户群频繁变化的移动场景。而基于内容的个性化推荐方法多采用TF-IDF算法直接抽取网页内容的关键词,但关键词这种浅表性特征往往难以全面反映内容蕴含的深层语义,并且由于缺乏统一的关键词映射标准,常常使相似度计算和推荐决策的难度大大增加。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供了一种基于话题和相对熵的网页个性化推荐方法。该方法先采用LDA(Latent Dirichlet Allocation)模型对网页内容和用户阅读行为进行话题(topic)挖掘,并计算基于“话题”的网页语义特征向量和用户兴趣特征向量,再利用基于相对熵概念的相似性度量公式,计算待推荐网页语义特征向量和用户兴趣特征向量之间的相似度,并以此作为网页个性化推荐的决策依据。基于话题的网页个性化推荐方法避免了基于协同过滤方法的大量计算开销,同时由于它采用话题而不是关键词来表征网页内容,所以能够使推荐过程及其结果更加全面和精确地反映网页内容的隐含信息和深层次语义特征。
技术方案:一种基于话题和相对熵的网页个性化推荐方法,包括:
(1)本发明中的“话题”是指从给定网页集合的内容中提取出的、经过规范化处理的、可反映网页内容的主旨和要义等深层语义特征的主题词或短语的集合。假定共有n(≥1)个网页构成网页资源集合C={c1,c2,…,cn},其中m个网页已被用户浏览阅读,它们构成用户历史阅览网页集合H={h1,h2,…,hm},并且满足而Y={y1,y2,…,yn-m}=(C-H)为待推荐网页的集合。
本发明将借助于话题来决定是否向用户推荐集合Y中的某个(或某些)网页。基于话题的网页个性化推荐方法主要涉及3个计算过程,包括话题挖掘与网页语义特征向量计算、用户兴趣特征向量计算、基于相对熵的相似度计算等。
(2)话题挖掘与网页语义特征向量计算。采用概率语言模型LDA对网页资源集合C进行话题挖掘,而LDA模型的求解过程则采用如图2所示的吉布斯采样(Gibbs Sampling)通过多次迭代来完成。此过程结束时得到由k(≥1)个话题构成的话题集合Z={z1,z2,…,zk},并且每个网页ci(1≤i≤n)通过吉布斯采样计算得到一个对应于话题集合Z的语义特征向量其中pi,s(1≤s≤k)为网页ci属于话题zs的概率。
因为用户历史浏览网页集合H和待推荐网页集合Y均是C的子集,所以H和Y中的网页也都有对应的语义特征向量。为了从集合C中区分出集合H和集合Y,记H中任一网页hj(1≤j≤m)对应的语义特征向量为hpj,s),其中hpj,s(1≤s≤k)为网页hj属于话题zs的概率;记Y中任一网页yx(1≤x≤n-m)对应的语义特征向量为
(3)用户兴趣特征向量计算。经话题挖掘与网页语义特征向量计算之后,用户历史阅览网页集合H中任一网页hj(1≤j≤m)均有对应的语义特征向量为了更精确地反映用户的兴趣特征,考虑用户针对已阅览网页的不同行为特征(如快速浏览、仔细阅读、反馈评分、评论和转发等),对H中任一网页hj的语义特征向量赋予初始权重weight(hj,tj),其中tj是网页hj被用户阅览的时刻。同时,考虑已被阅览网页的语义特征向量在反映用户当前兴趣特征时的时间衰减因素,即用户离当前时间越久阅览的网页内容越不能反映其当前兴趣,因此引入时间衰减函数来刻画网页hj的语义特征向量在当前时刻t的权重:
其中λ为衰减常数。则用户在当前时刻t的兴趣特征向量计算公式如下:
其中d0是用来保证各分量之和为1的归一化常量。
(4)基于相对熵的相似度计算。经话题挖掘与网页语义特征向量计算之后,待推荐网页集合Y中的每个网页yx(1≤x≤n-m)均有对应的语义特征向量(为简便起见,将它记为即)。同时,经用户兴趣特征向量计算之后,得到用户当前时刻的兴趣特征向量在此基础上,采用相对熵(也即KL散度)计算特征向量和特征向量之间的距离公式如下:
其中是从特征向量到特征向量的KL散度,而是从特征向量到特征向量的KL散度,它们通常不等,故在此取平均。
则待推荐网页yx的语义特征向量与用户当前兴趣特征向量之间的相似度(简称相对熵相似度)的计算公式如下:
其中分别表示特征向量和的第s个分量(1≤s≤k),也即是对于它们对于第s个话题的隶属度。
最后再根据所求得的相对熵相似度值,按网页个性化推荐服务所采取的具体策略(如基于相似度阈值或相似度排序)向用户进行网页个性化推荐。在实际应用中,待推荐网页集合也可以是网页集合Y=(C-H)的任意非空子集。
有益效果:基于话题和相对熵的网页个性化推荐方法可以从原理上避免协同过滤个性化推荐方法所存在的稀疏性和可扩展性等问题,并且它简化了网页个性化推荐的计算过程,提升了计算效率和对于实时、在线个性化推荐需求的适应能力,因而更加适用于用户群频繁变化的移动场景。同时,该方法利用“话题”而不是关键词来对网页内容语义特征和用户阅读兴趣进行建模,相比于传统的基于内容的个性化推荐方法,更有利于发掘多个看似不同的网页内容所蕴含的共性语义信息,并将其映射为具有统一标准的话题特征向量,再借助于基于相对熵概念的相似性度量方法,从而使个性化推荐结果能够更精准地反映网页内容与用户兴趣间的深层语义关联特征。
附图说明
图1是概率语言模型LDA的概率图模型,描述了LDA模型如何生成语料库中所有文档的对应词集。其中是Dirichlet分布的超参数,为网页ci(1≤i≤n)的话题分布,表示第s(1≤s≤k)个话题的词语分布,tni,r表示网页ci的第r个词所分配到的话题编号,wi,r表示网页ci的第r个词。
图2是本发明对基于LDA模型的话题挖掘进行求解的吉布斯采样过程。其中W是C中所有网页内容的不同词语所构成的集合,它的元素记为wj,而Z(0)是话题集合Z的初始值。n(wj|zs)表示词语wj(1≤j≤|W|)出现在话题zs(1≤s≤k)中的次数,n(zs|ci)表示话题zs(1≤s≤k)出现在网页ci(1≤i≤n)出现在中的次数。概率表示在排除网页ci的第r个词当前所分配的话题编号的前提下,利用网页集合C和词语集合W的信息,计算网页ci的第r个词对其余各个话题的概率分布。Θ表示由网页ci(1≤i≤n)的语义特征向量作为行向量所组成的矩阵。Φ表示由k个话题对W中所有词语的概率分布作为行向量所组成的矩阵。
图3是基于话题和相对熵的网页个性化推荐方法的实现框架。提供网页个性化推荐服务的应用(如门户网站、新闻推送等),可以向一个或多个用户进行网页推荐。它先对网页资源数据库中的网页进行话题挖据和语义特征向量计算,再根据所记录的某个用户已阅览网页及其阅览行为,计算该用户的兴趣特征向量,进而计算待推荐网页的语义特征向量和该用户的兴趣特征向量之间的相对熵相似度,并根据计算结果进行网页个性化推荐。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于话题和相对熵的网页个性化推荐方法,包括:
(1)首先,根据实际情况确定问题域中的n个网页(它们构成网页资源集合C),对C中网页内容进行话题挖掘和网页语义特征向量计算。具体实施时,先针对C中的n个网页,通过分词(word segmentation)和去停用词操作,求得C中所有网页内容的不同词语,它们构成词语集合W={w1、w2、…、wv}。再根据实际应用所需产生的话题总数,设定LDA模型中参数k的具体值。进而设定LDA模型中超参数和的值,其中k维超参数v维超参数在此基础上,按照发明内容中发明方案第(2)条所述方法,对C进行话题挖掘和网页语义特征向量计算,得到k个话题z1、z2、…、zk,以及与n个网页对应的n个语义特征向量(其中1≤i≤n)。
例如,应用本发明对由100个真实网页构成的网页集合C进行话题挖掘和网页语义特征向量计算,设定所需产生的话题总数为4,每个话题由5个词语表示。本步骤结束时,实际总共产生4个话题和100个网页语义特征向量(考虑篇幅,以下关于本实例的描述,只简化选取了其中少数网页)。所产生的4个话题为:z1={“中国”,“市场”,“经济”,“企业”,“公司”},z2={“革命”,“苏维埃”,“政权”,“中国”,“农民”},z3={“军事”,“美国”,“导弹”,“训练”,“作战”},z4={“联赛”,“欧洲”,“球队”,“比赛”,“球员”}。并且,C中有3个未被用户浏览阅读的网页(不妨记为c1、c2、c3),它们对应于这4个话题的语义特征向量为 和其中表示网页c1对于话题z1的隶属度为0.8,对话题z2的隶属度为0.07,对话题z3的隶属度为0.08,对话题z4隶属度为0.05,这表明网页c1的内容很可能与经济、企业有关。
(2)接着,根据用户访问浏览网页的历史记录,计算用户兴趣特征向量。例如,在前述实例中,用户已经浏览阅读过网页集合C中的10个网页,***已经记录了这些网页被阅览的时刻及用户行为特征,并且经步骤(1)之后这些网页均有各自的语义特征向量。按照发明内容中发明方案第(3)条的公式,考虑10个网页的语义特征向量在反映用户兴趣特征方面的时间衰减因素,可以求得用户在当前时刻t的兴趣特征向量它是一个4维向量(每1维对应于1个话题),即用户当前对于话题z1的感兴趣程度为0.1,对话题z2的感兴趣程度为0.1,对话题z3的感兴趣程度为0.5,对话题z4的感兴趣程度为0.3。这表明用户兴趣可能偏向于军事方面的内容。
(3)在获得网页语义特征向量和用户兴趣特征向量之后,对所有待推荐网页,分别计算它们的语义特征向量和用户兴趣特征向量间的相对熵相似度。具体实施时,对于待推荐网页集合Y中的每个网页yx(1≤x≤n-m),它已具有对应的语义特征向量再按照发明内容中发明方案第(4)条的公式,计算与用户兴趣特征向量之间的相对熵相似度,得到n-m个相对熵相似度值Sim1、Sim2、…、Simn-m。在前述实例中,假定仅考虑把网页集合Y=(C-H)的子集{c1,c2,c3}作为待推荐网页集合,可以求得用户兴趣特征向量与3个网页语义特征向量间的相对熵相似度,其中与间的相对熵相似度Sim1的计算过程如下:
因为
而
所以
同理,可以求得Sim2=1.09和Sim3=4.55。
(4)最后,根据(3)所求得的相对熵相似度值,按照推荐策略向用户进行网页个性化推荐。推荐策略的选取与实际应用需求相关,具体的策略包括基于相似度阈值和相似度排序等,前者设定一个阈值S0,凡是(3)中相似度值大于S0的对应网页都向用户推荐;后者先将(3)中的n-m个相似度值按降序进行排序,再将其中排在前面的N个相似度值所对应的网页推荐给用户。在本例中,若采用基于相似度排序的推荐策略,则待推荐网页集合{c1,c2,c3}对应的3个相似度值降序排列为:Sim3≥Sim2≥Sim1,如果把其中2个(即N=2)相似度值最高的网页推荐给用户,就选择推荐c3和c2。
在实际应用中,可以使用本发明同时为多个不同用户提供网页个性化推荐服务。例如,一个提供网页个性化推荐服务的门户网站,假定它以自身的网页数据库作为网页资源集合C,同时为u(≥1)个用户User1、User2、…、Useru提供基于话题的网页个性化推荐服务。则它先按上述(1)对C中网页内容进行话题挖掘和网页语义特征向量计算,之后分别对每个用户Useri(1≤i≤u)实施上述(2)(3)(4),这样就可以根据每个用户不同的兴趣和推荐策略,有针对性地为u个用户提供网页个性化推荐服务。
Claims (3)
1.一种基于话题和相对熵的网页个性化推荐方法,其特征在于,包括话题挖掘与网页语义特征向量计算、用户兴趣特征向量计算、基于相对熵的相似度计算;
话题挖掘与网页语义特征向量计算:采用概率语言模型LDA对网页资源集合C进行话题挖掘,而LDA模型的求解过程采用吉布斯采样通过多次迭代来完成;此过程结束时得到由k(k≥1)个话题构成的话题集合Z={z1、z2、…、zk},并且每个网页ci(1≤i≤n)得到一个对应于话题集合Z的语义特征向量 其中pi,s(1≤s≤k)为网页ci属于话题zs的概率;
记用户历史浏览网页集合H中任一网页hj(1≤j≤m)对应的语义特征向量为其中hpj,s(1≤s≤k)为网页hj属于话题zs的概率;记待推荐网页集合Y中任一网页yx对应的语义特征向量为
用户兴趣特征向量计算:经话题挖掘与网页语义特征向量计算之后,用户历史阅览网页集合H中任一网页hj(1≤j≤m)均有对应的语义特征向量对H中任一网页hj的语义特征向量赋予初始权重weight(hj,tj),其中tj是网页hj被用户阅览的时刻;同时,引入时间衰减函数来刻画网页hj的语义特征向量在当前时刻t的权重:
<mrow>
<mi>w</mi>
<mi>e</mi>
<mi>i</mi>
<mi>g</mi>
<mi>h</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>w</mi>
<mi>e</mi>
<mi>i</mi>
<mi>g</mi>
<mi>h</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>&lambda;</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>-</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>;</mo>
</mrow>
其中λ为衰减常数;则用户在当前时刻t的兴趣特征向量计算公式如下:
<mrow>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>u</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>d</mi>
<mn>0</mn>
</msub>
<mo>&times;</mo>
<mi>w</mi>
<mi>e</mi>
<mi>i</mi>
<mi>g</mi>
<mi>h</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<msub>
<mover>
<mi>&theta;</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>H</mi>
<mo>)</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>d</mi>
<mn>0</mn>
</msub>
<mo>&times;</mo>
<mi>w</mi>
<mi>e</mi>
<mi>i</mi>
<mi>g</mi>
<mi>h</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>h</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>&lambda;</mi>
<mrow>
<mo>(</mo>
<mi>t</mi>
<mo>-</mo>
<msub>
<mi>t</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<mo>&times;</mo>
<msub>
<mover>
<mi>&theta;</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mo>(</mo>
<mi>H</mi>
<mo>)</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>;</mo>
</mrow>
其中d0是用来保证各分量之和为1的归一化常量;
基于相对熵的相似度计算:经话题挖掘与网页语义特征向量计算之后,待推荐网页集合Y中的每个网页yx(1≤x≤n-m)均有对应的语义特征向量同时,经用户兴趣特征向量计算之后,得到用户当前时刻的兴趣特征向量在此基础上,采用相对熵计算特征向量和特征向量之间的距离公式如下:
<mrow>
<mi>D</mi>
<mi>i</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>u</mi>
</msub>
<mo>,</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>x</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>K</mi>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>u</mi>
</msub>
<mo>|</mo>
<mo>|</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>x</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>K</mi>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>x</mi>
</msub>
<mo>|</mo>
<mo>|</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>u</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mn>2</mn>
</mfrac>
<mo>;</mo>
</mrow>
其中是从特征向量到特征向量的KL散度,而是从特征向量到特征向量的KL散度,它们不等,故在此取平均;
则待推荐网页yx的语义特征向量与用户当前兴趣特征向量之间的相似度的计算公式如下:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>u</mi>
</msub>
<mo>,</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>x</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mi>D</mi>
<mi>i</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>u</mi>
</msub>
<mo>,</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>x</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mfrac>
<mn>2</mn>
<mrow>
<mi>K</mi>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>u</mi>
</msub>
<mo>|</mo>
<mo>|</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>x</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>K</mi>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>x</mi>
</msub>
<mo>|</mo>
<mo>|</mo>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mi>u</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mfrac>
<mn>2</mn>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mi>u</mi>
<mo>,</mo>
<mi>s</mi>
</mrow>
</msub>
<mi>log</mi>
<mfrac>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mi>u</mi>
<mo>,</mo>
<mi>s</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>s</mi>
</mrow>
</msub>
</mfrac>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>s</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>s</mi>
</mrow>
</msub>
<mi>log</mi>
<mfrac>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>s</mi>
</mrow>
</msub>
<msub>
<mover>
<mi>p</mi>
<mo>&RightArrow;</mo>
</mover>
<mrow>
<mi>u</mi>
<mo>,</mo>
<mi>s</mi>
</mrow>
</msub>
</mfrac>
</mrow>
</mfrac>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中和分别表示特征向量和的第s个分量,也即是对于它们对于第s个话题的隶属度,1≤s≤k;
最后再根据所求得的相对熵相似度值,按网页个性化推荐服务所采取的具体策略向用户进行网页个性化推荐。
2.如权利要求1所述的基于话题和相对熵的网页个性化推荐方法,其特征在于,所述“话题”是指从给定网页集合的内容中提取出的、经过规范化处理的、可反映网页内容的主旨和要义的深层语义特征的主题词或短语的集合;假定共有n个网页构成网页资源集合C={c1,c2,…,cn},其中m个网页已被用户浏览阅读,它们构成用户历史阅览网页集合H={h1,h2,…,hm},并且满足而Y={y1,y2,…,yn-m}=(C-H)为待推荐网页的集合,n≥1;借助于话题来决定是否向用户推荐集合Y中的某个或某些网页。
3.如权利要求1所述的基于话题和相对熵的网页个性化推荐方法,其特征在于,根据所求得的相对熵相似度值,按网页个性化推荐服务所采取的具体策略向用户进行网页个性化推荐,所述策略指基于相似度阈值或相似度排序;在实际应用中,待推荐网页集合也可以是网页集合Y=(C-H)的任意非空子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510279762.4A CN104899273B (zh) | 2015-05-27 | 2015-05-27 | 一种基于话题和相对熵的网页个性化推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510279762.4A CN104899273B (zh) | 2015-05-27 | 2015-05-27 | 一种基于话题和相对熵的网页个性化推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104899273A CN104899273A (zh) | 2015-09-09 |
CN104899273B true CN104899273B (zh) | 2017-08-25 |
Family
ID=54031936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510279762.4A Active CN104899273B (zh) | 2015-05-27 | 2015-05-27 | 一种基于话题和相对熵的网页个性化推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104899273B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288179A (zh) * | 2018-01-25 | 2018-07-17 | 链家网(北京)科技有限公司 | 一种用户偏好房源计算方法和*** |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677832A (zh) * | 2016-01-04 | 2016-06-15 | 成都陌云科技有限公司 | 基于交互数据的用户特征识别方法 |
CN105677828A (zh) * | 2016-01-04 | 2016-06-15 | 成都陌云科技有限公司 | 基于大数据的用户信息处理方法 |
CN105677825A (zh) * | 2016-01-04 | 2016-06-15 | 成都陌云科技有限公司 | 客户端浏览操作的分析方法 |
CN105975564B (zh) * | 2016-04-29 | 2019-07-02 | 天津大学 | 基于相对熵相似度的知识推荐方法 |
CN105930508A (zh) * | 2016-05-11 | 2016-09-07 | 周肇炎 | 基于用户物品的新闻推荐方法 |
CN107451140B (zh) * | 2016-05-30 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 一种用户偏好程度的确定方法及装置 |
CN106201465B (zh) * | 2016-06-23 | 2020-08-21 | 扬州大学 | 面向开源社区的软件项目个性化推荐方法 |
CN106202394B (zh) | 2016-07-07 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 文本资讯的推荐方法及*** |
CN106294656B (zh) * | 2016-08-04 | 2019-03-19 | 武汉大学 | 一种映射查询关键字到相关问题的方法 |
CN106294863A (zh) * | 2016-08-23 | 2017-01-04 | 电子科技大学 | 一种针对海量文本快速理解的文摘方法 |
CN107977367B (zh) * | 2016-10-21 | 2021-12-17 | 腾讯科技(北京)有限公司 | 一种文本展示方法及服务器 |
CN106407476A (zh) * | 2016-11-16 | 2017-02-15 | 百度在线网络技术(北京)有限公司 | 页面加载方法和装置 |
CN107391637B (zh) * | 2017-07-10 | 2021-01-26 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 针对具备地理社交信息的群组推荐方法 |
CN108763400B (zh) * | 2018-05-22 | 2021-09-14 | 合肥工业大学 | 基于对象行为和主题偏好的对象划分方法及装置 |
CN108898353A (zh) * | 2018-05-29 | 2018-11-27 | 重庆大学 | 一种基于相似性的项目推荐方法 |
CN109190024B (zh) * | 2018-08-20 | 2023-04-07 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN109344252B (zh) * | 2018-09-12 | 2021-12-07 | 东北大学 | 基于优质主题扩展的微博文本分类方法及*** |
CN109190046A (zh) * | 2018-09-18 | 2019-01-11 | 北京点网聚科技有限公司 | 内容推荐方法、装置及内容推荐服务器 |
CN110008408B (zh) * | 2019-04-12 | 2021-04-06 | 山东大学 | 一种会话推荐方法、***、设备及介质 |
CN111400601B (zh) * | 2019-09-16 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种视频推荐的方法及相关设备 |
CN113761364B (zh) * | 2021-08-17 | 2024-02-09 | 武汉卓尔数字传媒科技有限公司 | 多媒体数据推送方法及装置 |
CN116383521B (zh) * | 2023-05-19 | 2023-08-29 | 苏州浪潮智能科技有限公司 | 主题词挖掘方法及装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8078617B1 (en) * | 2009-01-20 | 2011-12-13 | Google Inc. | Model based ad targeting |
CN103425799A (zh) * | 2013-09-04 | 2013-12-04 | 北京邮电大学 | 基于主题的个性化研究方向推荐***和推荐方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐***和推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8214348B2 (en) * | 2010-02-25 | 2012-07-03 | Yahoo! Inc. | Systems and methods for finding keyword relationships using wisdoms from multiple sources |
-
2015
- 2015-05-27 CN CN201510279762.4A patent/CN104899273B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8078617B1 (en) * | 2009-01-20 | 2011-12-13 | Google Inc. | Model based ad targeting |
CN103425799A (zh) * | 2013-09-04 | 2013-12-04 | 北京邮电大学 | 基于主题的个性化研究方向推荐***和推荐方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐***和推荐方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288179A (zh) * | 2018-01-25 | 2018-07-17 | 链家网(北京)科技有限公司 | 一种用户偏好房源计算方法和*** |
CN108288179B (zh) * | 2018-01-25 | 2021-02-02 | 贝壳找房(北京)科技有限公司 | 一种用户偏好房源计算方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN104899273A (zh) | 2015-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN102929928B (zh) | 基于多维相似度的个性化新闻推荐方法 | |
Jäschke et al. | Tag recommendations in social bookmarking systems | |
CN103177090B (zh) | 一种基于大数据的话题检测方法及装置 | |
Zhang et al. | User community discovery from multi-relational networks | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
CN103020302A (zh) | 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和*** | |
CN103577549A (zh) | 一种基于微博标签的人群画像***和方法 | |
CN103425763B (zh) | 基于sns的用户推荐方法及装置 | |
CN102004774A (zh) | 基于统一概率模型的个性化用户标签建模与推荐方法 | |
CN104484431A (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
CN104008203A (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
CN106354844B (zh) | 基于文本挖掘的服务组合包推荐***及方法 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐*** | |
CN103049528A (zh) | 基于用户兴趣向量的个性化网页搜索排序方法 | |
CN114138985B (zh) | 文本数据处理的方法、装置、计算机设备以及存储介质 | |
CN105373546B (zh) | 一种用于知识服务的信息处理方法及*** | |
CN105389329A (zh) | 一种基于群体评论的开源软件推荐方法 | |
CN110069713B (zh) | 一种基于用户上下文感知的个性化推荐方法 | |
Gao et al. | SeCo-LDA: Mining service co-occurrence topics for composition recommendation | |
Yigit et al. | Extended topology based recommendation system for unidirectional social networks | |
Cao et al. | Mashup service recommendation based on usage history and service network | |
Bao et al. | Discovering interesting co-location patterns interactively using ontologies | |
KR101450453B1 (ko) | 컨텐츠 추천 방법 및 장치 | |
An et al. | A heuristic approach on metadata recommendation for search engine optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |