CN101694659B - 基于多主题追踪的个性化网络新闻推送方法 - Google Patents
基于多主题追踪的个性化网络新闻推送方法 Download PDFInfo
- Publication number
- CN101694659B CN101694659B CN2009101535898A CN200910153589A CN101694659B CN 101694659 B CN101694659 B CN 101694659B CN 2009101535898 A CN2009101535898 A CN 2009101535898A CN 200910153589 A CN200910153589 A CN 200910153589A CN 101694659 B CN101694659 B CN 101694659B
- Authority
- CN
- China
- Prior art keywords
- news
- sub
- interest
- user
- interest model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 9
- 238000012163 sequencing technique Methods 0.000 abstract 3
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002459 sustained effect Effects 0.000 description 2
- 238000012067 mathematical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及一种新闻的网络推送方法,特别是一种基于多主题追踪的个性化新闻网络推送方法。
背景技术
随着信息传播技术的迅猛发展,尤其是因特网的不断发展和日益普及,人类社会所面对的信息量正在以惊人的速度增长,人们对于能够方便地获取自己感兴趣的新闻信息的需求越来越迫切。于是,各种各样的新闻推荐***层出不穷。
新闻推荐***是近年来互联网上发展起来的一种新兴软件***,它能够将最新的新闻资讯以主动展现的方式推送给用户。而且,***给出的推荐是实时更新的,即随着时间推移,给出的推荐新闻会自动改变成当前最新的信息。此类的新闻推荐***在即时通讯软件、网络博客和论坛中有广泛的应用。
然而,对于某一个用户而言,他感兴趣的新闻报道只占少数。当用户在为频繁收到无用新闻信息而苦恼,而又不希望错过自己感兴趣的话题时,如何在庞大的新闻信息量中找到感兴趣的新闻,便成为用户迫切需要解决的问题。因此,用户对于新闻推荐***推荐的准确度有了越来越高的要求。这也是用户个性化的新闻推荐***产生的一个原因。
目前,针对用户个性化的新闻推荐***层出不穷,但因为用户所感兴趣的新闻报道不可能是单一的类别或主题,而往往是分布广泛、涉及多个主题。因此,若将表示用户特性的信息都包含在同一个用户模型中的方法,则导致用户模型过于概化,无法很好地体现用户的特征,***的推荐效果差。而若采用多个用户模型,又无法很好的解决模型集合的维护管理问题,降低采用多个用户模型的推荐效果。
发明内容
为克服现有技术采用一个用户模型导致无法体现用户特征,采用多个用户模型又导致数据维护管理困难的缺点,本发明提供了一种能涵盖用户的多种兴趣特征,消除采用多个用户模型带来的数据维护困难,推荐效果好的基于多主题追踪的个性化新闻网络推送方法。
基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:
1、获取用户浏览过的新闻网页,提取各新闻网页的标题和正文;采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类,以每个新闻类作为一个子兴趣模型,所述的子兴趣模型为由模型中所有新闻报道的关键词信息组成的向量其中为子兴趣模型中所有的新闻报道的的第i个关键词的权重信息;若第i个关键词在多篇新闻报道中出现过,则为第i个关键词在各篇新闻报道中的权重信息之和;
所有的子兴趣模型构成用户的多主题兴趣模型;
3、设定所述的子兴趣模型的个数的阈值M,判断子兴趣模型的个数是否超过所述的阈值M,若子兴趣模型的个数超过所述的阈值,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找最偏离用户兴趣的子兴趣模型包括以下步骤:
3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的用户兴趣的精确性的精确度参数precision(P),精确度参数值越大,则精确性越高,其中really(P)为用户实际浏览的由子兴趣模型推荐的新闻的数量,total(P)为子兴趣模型总共推荐的新闻的数量;
3.2)根据经验设定一个表示用户对新闻的兴趣随时间衰退的因子α,引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度的衰减函数e-α·t,其中t表示从当前到该子兴趣模型上一次被点击的时间间隔;
3.3)结合所述的精确度参数和衰减函数获得子兴趣模型与用户兴趣的相关度K,K=precision(P)·e-α·t,K值越小,说明该子兴趣模型与用户兴趣偏离越远;将所有的子兴趣模型根据所述的相关度从大到小排序,保留前M个子兴趣模型。
进一步,所述的步骤(1)中所述的关键词的权重信息为该关键词的的TF-IDF值,所述的TF为第i个关键词在第j篇新闻报道中的词频,其计算公式为:其中dj(i)为在第j篇新闻报道中,关键词i的个数,total(words)为第j篇新闻报道中的单词个数;
进一步,所述的步骤(4)中,相似度的计算方法为:
本发明的技术构思是:采用多个子兴趣模型构成用户多主题兴趣模型,能够涵盖用户的多种兴趣特征。根据持续的用户反馈,不断的更新用户子兴趣模型,保留用户最感兴趣的几个子兴趣模型,将偏离用户兴趣子兴趣模型删除,在不影响用户的个性化需求的同时,减轻了***后续维护的负担消除了多个子兴趣模型的维护问题对推荐效果造成的负面影响,提高个性化推荐的准确率。
本发明采用表示关键词权重的TF-IDF值来表示新闻报道矢量,从而实现利用数学方法对新闻报道之间的相互关系进行量化计算。采用新闻报道和子兴趣模型两向量之间的夹角余弦值来表征它们之间的相似度,可以消除相似向量在幅度变化上的影响,更加精确。
本发明具有能够涵盖用户的多种兴趣特征,推荐准确率高,***后续维护负担较轻的优点。
附图说明
图1为本发明的流程图
图2为寻找最偏离用户兴趣的子兴趣模型的流程图
具体实施方式
参照附图,进一步说明本发明:
基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:
1、获取用户浏览过的新闻网页,提取各新闻网页的标题和正文;采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类,以每个新闻类作为一个子兴趣模型,所述的子兴趣模型为由模型中所有新闻报道的关键词信息组成的向量其中为子兴趣模型中所有的新闻报道的的第i个关键词的权重信息;若第i个关键词在多篇新闻报道中出现过,则为第i个关键词在各篇新闻报道中的权重信息之和;
所有的子兴趣模型构成用户的多主题兴趣模型;
3、设定所述的子兴趣模型的个数的阈值M,判断子兴趣模型的个数是否超过所述的阈值M,若子兴趣模型的个数超过所述的阈值,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找最偏离用户兴趣的子兴趣模型包括以下步骤:
3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的用户兴趣的精确性的精确度参数precision(P),精确度参数值越大,则精确性越高,其中really(P)为用户实际浏览的由子兴趣模型推荐的新闻的数量,total(P)为子兴趣模型总共推荐的新闻的数量;
3.2)根据经验设定一个表示用户对新闻的兴趣随时间衰退的因子α,引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度的衰减函数e-α·t,其中t表示从当前到该子兴趣模型上一次被点击的时间间隔;
3.3)结合所述的精确度参数和衰减函数获得子兴趣模型与用户兴趣的相关度K,K=precision(P)·e-α·t,K值越小,说明该子兴趣模型与用户兴趣偏离越远;将所有的子兴趣模型根据所述的相关度从大到小排序,保留前M个子兴趣模型。
4、计算待推送的新闻与所有子兴趣模型之间的相似度W,找出最高相似度Wmax;所述的相似度W用新闻报道与子兴趣模型之间的夹角来表征,所述的夹角越小,相似度越高;
相似度的计算方法为:
所述的步骤(1)中所述的关键词的权重信息为该关键词的的TF-IDF值,所述的TF为第i个关键词在第j篇新闻报道中的词频,其计算公式为:其中dj(i)为在第j篇新闻报道中,关键词i的个数,total(words)为第j篇新闻报道中的单词个数;
则第i个关键词在第j篇新闻报道中的TF-IDF值为:di,j=TFi,j·IDFi。
(2.1)判断用户是否阅读由子兴趣模型推荐的新闻报道;
本发明的技术构思是:采用由多个子兴趣模型构成的用户多主题兴趣模型来表示用户兴趣,能够涵盖用户的多种兴趣特征。设定子兴趣模型的个数阈值,只保留用户最感兴趣的几个兴趣模型,在不影响用户的个性化需求的同时,减轻了***后续维护的负担。
根据持续的用户反馈,不断的更新用户子兴趣模型,引入子兴趣模型对用户兴趣表征的精确度和对新闻随时间衰退的衰减函数,消除了多个子兴趣模型的维护问题对推荐效果造成的负面影响,提高个性化推荐的准确率。
采用新闻报道和子兴趣模型两向量之间的夹角余弦值来表征它们之间的相似度,可以消除相似向量在幅度变化上的影响,更加精确。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.基于多主题追踪的个性化网络新闻推送方法,包括以下步骤:
1)、获取用户浏览过的新闻网页,提取各新闻网页的标题和正文;采用聚类算法将前述的新闻网页划分成多个用户感兴趣的新闻类,以每个新闻类作为一个子兴趣模型,所述的子兴趣模型为由该子兴趣模型中所有新闻报道的关键词信息组成的向量其中为子兴趣模型中所有的新闻报道的第i个关键词的权重信息,若第i个关键词在多篇新闻报道中出现过,则为第i个关键词在各篇新闻报道中的权重信息之和;
所有的子兴趣模型构成用户的多主题兴趣模型;
3)、设定所述的子兴趣模型的个数的阈值M,判断子兴趣模型的个数是否超过所述的阈值M,若子兴趣模型的个数超过所述的阈值,则寻找偏离用户兴趣最远的子兴趣模型,将其删除;寻找最偏离用户兴趣的子兴趣模型包括以下步骤:
(3.1)为每个子兴趣模型引入一个用于衡量该子兴趣模型所表示的用户兴趣的精确性的精确度参数precision(P),精确度参数值越大,则精确性越高,其中really(P)为用户实际浏览的由子兴趣模型推荐的新闻的数量,total(P)为子兴趣模型总共推荐的新闻的数量;
(3.2)根据经验设定一个表示用户对新闻的兴趣随时间衰退的因子α,引入一个表征在某一时间内、用户对新闻的兴趣的衰减程度的衰减函数e-α·t,其中t表示从当前到该子兴趣模型上一次被点击的时间间隔;
(3.3)结合所述的精确度参数和衰减函数获得子兴趣模型与用户兴趣的相关度K,K=precision(P)·e-α·t,K值越小,说明该子兴趣模型与用户兴趣偏离越远;将所有的子兴趣模型根据所述的相关度从大到小排序,保留前M个子兴趣模型;
所述的步骤1)中所述的关键词的权重信息为该关键词的TF-IDF值,所述的TF为第i个关键词在第j篇新闻报道中的词频,其计算公式为:其中dj(i)为在第j篇新闻报道中,关键词i的个数,total(words)为第j篇新闻报道中的单词个数;
所述的步骤4)中,相似度的计算方法为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101535898A CN101694659B (zh) | 2009-10-20 | 2009-10-20 | 基于多主题追踪的个性化网络新闻推送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101535898A CN101694659B (zh) | 2009-10-20 | 2009-10-20 | 基于多主题追踪的个性化网络新闻推送方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101694659A CN101694659A (zh) | 2010-04-14 |
CN101694659B true CN101694659B (zh) | 2012-03-21 |
Family
ID=42093631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101535898A Active CN101694659B (zh) | 2009-10-20 | 2009-10-20 | 基于多主题追踪的个性化网络新闻推送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101694659B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036038A (zh) * | 2014-06-30 | 2014-09-10 | 北京奇虎科技有限公司 | 新闻推荐方法和*** |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102253937B (zh) * | 2010-05-18 | 2013-03-13 | 阿里巴巴集团控股有限公司 | 获取网页中的感兴趣信息的方法及相关装置 |
US9454763B2 (en) | 2010-08-24 | 2016-09-27 | Adobe Systems Incorporated | Distribution of offer to a social group by sharing based on qualifications |
CN101986297B (zh) * | 2010-10-28 | 2012-02-15 | 浙江大学 | 基于链接聚类的无障碍网页浏览方法 |
CN102542474B (zh) | 2010-12-07 | 2015-10-21 | 阿里巴巴集团控股有限公司 | 查询结果排序方法及装置 |
US9177327B2 (en) | 2011-03-02 | 2015-11-03 | Adobe Systems Incorporated | Sequential engine that computes user and offer matching into micro-segments |
US8630902B2 (en) * | 2011-03-02 | 2014-01-14 | Adobe Systems Incorporated | Automatic classification of consumers into micro-segments |
CN102779136A (zh) * | 2011-05-13 | 2012-11-14 | 北京搜狗科技发展有限公司 | 一种信息搜索的方法和装置 |
CN102956009B (zh) | 2011-08-16 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 一种基于用户行为的电子商务信息推荐方法与装置 |
CN103166930B (zh) * | 2011-12-15 | 2016-04-13 | 腾讯科技(深圳)有限公司 | 推送网络信息的方法和*** |
KR101579024B1 (ko) | 2012-02-06 | 2015-12-18 | 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 | 웹 추적 보호 방법 및 디바이스 |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及*** |
CN102761609B (zh) * | 2012-06-29 | 2016-05-04 | 宇龙计算机通信科技(深圳)有限公司 | 用于服务器的数据推送***及数据推送方法 |
CN108596694B (zh) * | 2012-09-18 | 2021-02-23 | 北京一点网聚科技有限公司 | 用于向用户提供内容的方法、***及相应介质 |
CN103870109B (zh) * | 2012-12-17 | 2017-09-29 | 联想(北京)有限公司 | 一种信息处理的方法及电子设备 |
CN103136345B (zh) * | 2013-02-06 | 2016-01-20 | 福建伊时代信息科技股份有限公司 | 信息过滤方法及信息过滤*** |
CN104252470B (zh) * | 2013-06-26 | 2018-02-09 | 重庆新媒农信科技有限公司 | 一种热词推荐方法及*** |
CN103412870A (zh) * | 2013-07-09 | 2013-11-27 | 北京深思洛克软件技术股份有限公司 | 一种移动终端设备新闻客户端软件的新闻推送方法 |
CN103530316B (zh) * | 2013-09-12 | 2016-06-01 | 浙江大学 | 一种基于多视图学习的科学主题提取方法 |
CN103559315B (zh) * | 2013-11-20 | 2017-01-04 | 上海华勤通讯技术有限公司 | 资讯筛选推送方法及装置 |
CN104166668B (zh) * | 2014-06-09 | 2018-02-23 | 南京邮电大学 | 基于folfm模型的新闻推荐***及方法 |
CN104063318A (zh) * | 2014-06-24 | 2014-09-24 | 湘潭大学 | Android应用相似性快速检测方法 |
CN104090936B (zh) * | 2014-06-27 | 2017-02-22 | 华南理工大学 | 一种基于超图排序的新闻推荐方法 |
CN104268290B (zh) * | 2014-10-22 | 2017-08-08 | 武汉科技大学 | 一种基于用户聚类的推荐方法 |
CN104615715A (zh) * | 2015-02-05 | 2015-05-13 | 北京航空航天大学 | 基于地理位置的社交网络事件分析方法及*** |
CN104899188A (zh) * | 2015-03-11 | 2015-09-09 | 浙江大学 | 一种基于问题主题和焦点的问题相似度计算方法 |
CN104750856B (zh) * | 2015-04-16 | 2018-01-05 | 天天艾米(北京)网络科技有限公司 | 一种多维协同推荐的***与方法 |
CN106570003B (zh) * | 2015-10-08 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 数据推送方法及装置 |
CN105224699B (zh) * | 2015-11-17 | 2020-01-03 | Tcl集团股份有限公司 | 一种新闻推荐方法及装置 |
CN105550317B (zh) * | 2015-12-15 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 一种通过新闻列表展示新闻的方法和装置 |
CN106250550A (zh) * | 2016-08-12 | 2016-12-21 | 智者四海(北京)技术有限公司 | 一种实时关联新闻推荐内容的方法和装置 |
CN106372113B (zh) * | 2016-08-22 | 2018-03-20 | 上海壹账通金融科技有限公司 | 新闻内容的推送方法及*** |
CN109831472B (zh) * | 2017-11-23 | 2021-04-06 | 苏州跃盟信息科技有限公司 | 一种信息推送、信息显示方法和*** |
CN107958042B (zh) * | 2017-11-23 | 2020-09-08 | 维沃移动通信有限公司 | 一种目标专题的推送方法及移动终端 |
CN108509630A (zh) * | 2018-04-09 | 2018-09-07 | 北京搜狐新媒体信息技术有限公司 | 一种新闻推荐方法及装置 |
CN109063209A (zh) * | 2018-09-20 | 2018-12-21 | 新乡学院 | 一种基于概率模型的网页推荐解决方法 |
CN111666467A (zh) * | 2019-03-07 | 2020-09-15 | 上海博泰悦臻网络技术服务有限公司 | 车辆、车机设备及其车机设备新闻追踪报道方法 |
CN115794894A (zh) * | 2022-11-14 | 2023-03-14 | 国网江苏省电力有限公司南京供电分公司 | 一种基于用户兴趣偏好的故障案例推送方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398839A (zh) * | 2008-10-23 | 2009-04-01 | 浙江大学 | 一种有声网页新闻的个性化推送方法 |
-
2009
- 2009-10-20 CN CN2009101535898A patent/CN101694659B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398839A (zh) * | 2008-10-23 | 2009-04-01 | 浙江大学 | 一种有声网页新闻的个性化推送方法 |
Non-Patent Citations (2)
Title |
---|
曲桂英等.基于用户兴趣模型的个性化信息服务***研究.《哈尔滨商业大学学报》.2007,第23卷(第3期),354-358. * |
李广都等.基于Web挖掘的个性化服务研究.《情报理论与实践》.2004,第27卷(第1期),54,72-76. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036038A (zh) * | 2014-06-30 | 2014-09-10 | 北京奇虎科技有限公司 | 新闻推荐方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN101694659A (zh) | 2010-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101694659B (zh) | 基于多主题追踪的个性化网络新闻推送方法 | |
Efron | Information search and retrieval in microblogs | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和*** | |
CN104598607B (zh) | 推荐搜索短语的方法及*** | |
Shi et al. | Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’ | |
CN104572797A (zh) | 基于主题模型的个性化服务推荐***和方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
Fang et al. | Topic aspect-oriented summarization via group selection | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
CN103970873A (zh) | 一种音乐推荐方法和*** | |
Hettiarachchi et al. | Embed2Detect: temporally clustered embedded words for event detection in social media | |
CN106250550A (zh) | 一种实时关联新闻推荐内容的方法和装置 | |
CN104111925B (zh) | 项目推荐方法和装置 | |
CN103455487A (zh) | 一种搜索词的提取方法及装置 | |
CN112749341A (zh) | 重点舆情推荐方法、可读存储介质及数据处理装置 | |
CN106126605A (zh) | 一种基于用户画像的短文本分类方法 | |
Kacem et al. | Time-sensitive user profile for optimizing search personlization | |
Yang et al. | Modeling user interests for zero-query ranking | |
Chen et al. | Search engine reinforced semi-supervised classification and graph-based summarization of microblogs | |
CN108763349B (zh) | 基于社交媒体数据的城市土地利用混合度测算方法及*** | |
Cai et al. | Session-aware music recommendation via a generative model approach | |
Chen et al. | A mobile application classification method with enhanced topic attention mechanism | |
Das et al. | Opinion based on polarity and clustering for product feature extraction | |
CN104331483B (zh) | 基于短文本数据的区域事件检测方法和设备 | |
Li et al. | Analysis of Weibo comments based on SVM and LDA models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |