CN109165367A - 一种基于rss订阅的新闻推荐方法 - Google Patents

一种基于rss订阅的新闻推荐方法 Download PDF

Info

Publication number
CN109165367A
CN109165367A CN201810707669.2A CN201810707669A CN109165367A CN 109165367 A CN109165367 A CN 109165367A CN 201810707669 A CN201810707669 A CN 201810707669A CN 109165367 A CN109165367 A CN 109165367A
Authority
CN
China
Prior art keywords
user
feed
interest
news
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810707669.2A
Other languages
English (en)
Other versions
CN109165367B (zh
Inventor
龙华
骆孜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810707669.2A priority Critical patent/CN109165367B/zh
Publication of CN109165367A publication Critical patent/CN109165367A/zh
Application granted granted Critical
Publication of CN109165367B publication Critical patent/CN109165367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于RSS订阅的新闻推荐方法,属于数据挖掘技术领域。首先,通过用户的RSS订阅信息,建立用户订阅信息数据库;其次,通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量;然后,结合个人用户的订阅行为和浏览自主订阅的兴趣度分析,建立个人用户的综合兴趣模型;最后,进行基于内容和协同过滤相结合的主动推荐过程。本发明不仅提供了一种精准,多样,新颖的个性化新闻推荐,而且保障了个人兴趣的独立性,同时提高了推荐新闻的精度与准确性。

Description

一种基于RSS订阅的新闻推荐方法
技术领域
本发明涉及一种基于RSS订阅的新闻推荐方法,属于数据挖掘技术领域。
背景技术
随着信息技术和互联网的发展,人们进入了全民网络时代,每天的信息都是呈现***性的增长,人们每天都要接受大量的信息,新闻是信息的重要载体之一,浏览网络上及时发布的新闻是人们获取信息的主要手段之一。面对海量的新闻,用户需要时间与精力才能找到自己感兴趣的新闻,传统的推荐方法不仅推荐效率低,而且不能实时的进行个性化的推荐,体现不了不同用户之间的差别。
发明内容
本发明要解决的技术问题是提供一种基于RSS订阅的新闻推荐方法,用以解决上述问题。
本发明的技术方案是:一种基于RSS(简易信息聚合)订阅的新闻推荐方法,首先,通过用户的RSS订阅信息,建立用户订阅信息数据库;其次,通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量;然后,结合个人用户的订阅行为和浏览自主订阅的兴趣度分析,建立个人用户的综合兴趣模型;最后,进行基于内容和协同过滤相结合的主动推荐过程。
具体步骤为:
步骤1:通过用户的RSS订阅,建立用户订阅信息数据库:根据订阅信息,栏目,栏目网站,内容,标题,URL链接,变更时间,变更类型,正文条目,订阅时间,建立用户订阅信息数据库。
步骤2:通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量:提供订阅机制的网站设置有RSS Feed接口,RSS文件中包括步骤1中数据库的所有内容。当页面更新时,接口模块自动生成RSS Feed文件,定期扫描各网站的RSS Feed文件,并根据解析出来的URL链接网页内容聚合后发送给用户,用户可以通过RSS阅读器进行订阅新闻信息的浏览。首先抽取用户订阅的RSS Feed列表,获取每个RSS Feed的类别信息,构建用户订阅的兴趣偏好特征向量集Uv。取一段时间内所有订阅类(m个)中用户停留时间大于时间阈值t的n个类,则用户对Feed(i)类订阅兴趣度可以表示为:
Feed(i)表示个人用户订阅的其中一种新闻的类别。其中sum(Feed(i))表示Feed(i)类新闻的数量。表示为代表个人用户订阅倾向的所有类的新闻个数。为为用户订阅Feed(i)类中新闻的数量在订阅类(n个)中的比重。
步骤3:阅读兴趣分析
步骤3.1:个人用户阅读行为分析:对于使用RSS信息源的用户web中的服务器保留了用户访问日志等记录,保存了相关用户访问类别,访问时间和次数等信息,订阅RSS的新闻信息说明用户兴趣偏好,抽取用户浏览行为日志,利用聚类,关联分析等方法,获取用户个性化兴趣与喜好。用户对Feed(i)类兴趣由用户对它的访问次数与时长,以及浏览Feed(i)类别所有Feed数量n和没有浏览的数量m比决定,定义用户对Feed(i)类的阅读兴趣度为:
其中TIME(Feed(i))为访问Feed(i)类中所有新闻的次数之和,TFeed(i)(j)为访问Feed(i)类新闻第j次的访问时间。为访问Feed(i)类中所有新闻的时间总和,用户的I(Feed(i))越大,说明用户对Feed(i)类的新闻信息兴趣度越大。
步骤3.2:潜在阅读兴趣分析:用户的订阅行为是动态变化的,对订阅的某些新闻在一个时间段tp内没有阅读,这些新闻就具有潜在的阅读兴趣,定义ω为Feed(i)类中订阅但没有浏览的新闻具有潜在兴趣时间阀值,dnfeed(i)(j)表示从订阅到目前的时间段(订阅了但是没有浏览的Feed(i)类),则Feed(i)类中没有浏览过的新闻的潜在阅读兴趣为:
其中n为满足阀值ω的Feed(i)类中新闻的个数。则用户对Feed(i)类的阅读兴趣度为:
fl(Feed(i))=I(Feed(i))+P(Feed(i))
步骤4:个人用户协同推送的新闻阅读行为分析:利用协同过滤推荐算法构建相似兴趣用户群并聚类得到需要推荐的新闻;然后,反馈到用户兴趣模型的构建,实现正反馈;则定义用户阅读协同推荐新闻的兴趣度为:fm(Feed(i))
协同过滤推荐算法步骤为:
(1)收集用户偏好:建立一个用户-项目评价矩阵描述用户对项目的评价,用户的判断和偏好表示为一个m*n的用户项目评价矩阵R,m是用户数,n是项目数,R=(rij),元素rij表示用户i对j的评价。
(2)生成“邻居”:计算所有用户对之间的相似度形成“邻居”。
(3)计算并推荐:通过目标用户对邻居项目的评价产生推荐。
步骤5:个人用户综合兴趣模型建立:个人用户综合兴趣模型由个人用户的订阅兴趣爱好特征向量集,个人用户订阅兴趣偏好,个人用户对Feed(i)类的阅读兴趣度,个人用户阅读协同推荐新闻的兴趣度四个方面的特征共同组成,其个人用户综合兴趣模型可以表示为:
U={Uv,dl(Feed(i)),fl(Feed(i)),fm(Feed(i))}
步骤6:智能推荐:通过步骤5得到的个人综合兴趣模型,在包含所有用户的兴趣模型数据中,通过相似度计算找出和被推荐个人用户综合兴趣模型相似度最大的TOP—N邻居集合,然后进行排序,进行主动推荐。
本发明的有益效果是:本发明引入RSS技术。将它与同协同推荐算法相结合。通过用户的RSS Feed订阅下的新闻信息构建反映用户兴趣偏好的特征向量。结合用户的订阅行为和浏览自主订阅的兴趣度分析,建立用户的综合兴趣模型。进行基于内容和协同过滤相结合的主动推荐过程。保障了个人兴趣的独立性,同时提高了推荐新闻的精度与准确性。实现了精准,多样,新颖的个性化新闻推荐。
附图说明
图1是本发明步骤流程图;
图2是本发明推荐步骤的流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-2所示,一种基于RSS(简易信息聚合)订阅的新闻推荐方法,首先,通过用户的RSS订阅信息,建立用户订阅信息数据库;其次,通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量;然后,结合个人用户的订阅行为和浏览自主订阅的兴趣度分析,建立个人用户的综合兴趣模型;最后,进行基于内容和协同过滤相结合的主动推荐过程。
具体步骤为:
步骤1:通过用户的RSS订阅,建立用户订阅信息数据库:根据订阅信息,栏目,栏目网站,内容,标题,URL链接,变更时间,变更类型,正文条目,订阅时间,建立用户订阅信息数据库。
步骤2:通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量:提供订阅机制的网站设置有RSS Feed接口,RSS文件中包括步骤1中数据库的所有内容。当页面更新时,接口模块自动生成RSS Feed文件,定期扫描各网站的RSS Feed文件,并根据解析出来的URL链接网页内容聚合后发送给用户,用户可以通过RSS阅读器进行订阅新闻信息的浏览。首先抽取用户订阅的RSS Feed列表,获取每个RSS Feed的类别信息,构建用户订阅的兴趣偏好特征向量集Uv。取一段时间内所有订阅类(m个)中用户停留时间大于时间阈值t的n个类,则用户对Feed(i)类订阅兴趣度可以表示为:
Feed(i)表示个人用户订阅的其中一种新闻的类别。其中sum(Feed(i))表示Feed(i)类新闻的数量。表示为代表个人用户订阅倾向的所有类的新闻个数。为为用户订阅Feed(i)类中新闻的数量在订阅类(n个)中的比重。
步骤3:阅读兴趣分析
步骤3.1:个人用户阅读行为分析:对于使用RSS信息源的用户web中的服务器保留了用户访问日志等记录,保存了相关用户访问类别,访问时间和次数等信息,订阅RSS的新闻信息说明用户兴趣偏好,抽取用户浏览行为日志,利用聚类,关联分析等方法,获取用户个性化兴趣与喜好。用户对Feed(i)类兴趣由用户对它的访问次数与时长,以及浏览Feed(i)类别所有Feed数量n和没有浏览的数量m比决定,定义用户对Feed(i)类的阅读兴趣度为:
其中TIME(Feed(i))为访问Feed(i)类中所有新闻的次数之和,TFeed(i)(j)为访问Feed(i)类新闻第j次的访问时间。为访问Feed(i)类中所有新闻的时间总和,用户的I(Feed(i))越大,说明用户对Feed(i)类的新闻信息兴趣度越大。
步骤3.2:潜在阅读兴趣分析:用户的订阅行为是动态变化的,对订阅的某些新闻在一个时间段tp内没有阅读,这些新闻就具有潜在的阅读兴趣,定义ω为Feed(i)类中订阅但没有浏览的新闻具有潜在兴趣时间阀值,dnfeed(i)(j)表示从订阅到目前的时间段(订阅了但是没有浏览的Feed(i)类),则Feed(i)类中没有浏览过的新闻的潜在阅读兴趣为:
其中n为满足阀值ω的Feed(i)类中新闻的个数。则用户对Feed(i)类的阅读兴趣度为:
fl(Feed(i))=I(Feed(i))+P(Feed(i))
步骤4:个人用户协同推送的新闻阅读行为分析:利用协同过滤推荐算法构建相似兴趣用户群并聚类得到需要推荐的新闻;然后,反馈到用户兴趣模型的构建,实现正反馈;则定义用户阅读协同推荐新闻的兴趣度为:fm(Feed(i))
协同过滤推荐算法步骤为:
(1)收集用户偏好:建立一个用户-项目评价矩阵描述用户对项目的评价,用户的判断和偏好表示为一个m*n的用户项目评价矩阵R,m是用户数,n是项目数,R=(rij),元素rij表示用户i对j的评价。
(2)生成“邻居”:计算所有用户对之间的相似度形成“邻居”。
(3)计算并推荐:通过目标用户对邻居项目的评价产生推荐。
步骤5:个人用户综合兴趣模型建立:个人用户综合兴趣模型由个人用户的订阅兴趣爱好特征向量集,个人用户订阅兴趣偏好,个人用户对Feed(i)类的阅读兴趣度,个人用户阅读协同推荐新闻的兴趣度四个方面的特征共同组成,其个人用户综合兴趣模型可以表示为:
U={Uv,dl(Feed(i)),fl(Feed(i)),fm(Feed(i))}
步骤6:智能推荐:通过步骤5得到的个人综合兴趣模型,在包含所有用户的兴趣模型数据中,通过相似度计算找出和被推荐个人用户综合兴趣模型相似度最大的TOP—N邻居集合,然后进行排序,进行主动推荐。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于RSS订阅的新闻推荐方法,其特征在于:首先,通过用户的RSS订阅信息,建立用户订阅信息数据库;其次,通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量;然后,结合个人用户的订阅行为和浏览自主订阅的兴趣度分析,建立个人用户的综合兴趣模型;最后,进行基于内容和协同过滤相结合的主动推荐过程。
2.根据权利要求1所述的基于RSS订阅的新闻推荐方法,其特征在于具体步骤为:
步骤1:通过用户的RSS订阅,建立用户订阅信息数据库:根据订阅信息,栏目,栏目网站,内容,标题,URL链接,变更时间,变更类型,正文条目,订阅时间,建立用户订阅信息数据库;
步骤2:通过个人用户的RSS Feed订阅下采集的新闻信息构建反映用户兴趣偏好的特征向量:首先抽取用户订阅的RSS Feed列表,获取每个RSS Feed的类别信息,构建用户订阅的兴趣偏好特征向量集Uv,取一段时间内所有订阅类(m个)中用户停留时间大于时间阈值t的n个类,则用户对Feed(i)类订阅兴趣度可以表示为:
式中,Feed(i)表示个人用户订阅的其中一种新闻的类别,其中sum(Feed(i))表示Feed(i)类新闻的数量,表示为代表个人用户订阅倾向的所有类的新闻个数,为用户订阅Feed(i)类中新闻的数量在订阅类(n个)中的比重;
步骤3:阅读兴趣分析:
步骤3.1:个人用户阅读行为分析:用户对Feed(i)类兴趣由用户对它的访问次数与时长,以及浏览Feed(i)类别所有Feed数量n和没有浏览的数量m比决定,定义用户对Feed(i)类的阅读兴趣度为:
其中,TIME(Feed(i))为访问Feed(i)类中所有新闻的次数之和,TFeed(i)(j)为访问Feed(i)类新闻第j次的访问时间,为访问Feed(i)类中所有新闻的时间总和,用户的I(Feed(i))越大,说明用户对Feed(i)类的新闻信息兴趣度越大;
步骤3.2:潜在阅读兴趣分析:定义ω为Feed(i)类中订阅但没有浏览的新闻具有潜在兴趣时间阀值,dnfeed(i)(j)表示从订阅到目前的时间段,则Feed(i)类中没有浏览过的新闻潜在阅读兴趣为:
其中,n为满足阀值ω的Feed(i)类中新闻的个数,则用户对Feed(i)类的阅读兴趣度为:
fl(Feed(i))=I(Feed(i))+P(Feed(i))
步骤4:个人用户协同推送的新闻阅读行为分析:利用协同过滤推荐算法构建相似兴趣用户群并聚类得到需要推荐的新闻;然后,反馈到用户兴趣模型的构建,实现正反馈;则定义用户阅读协同推荐新闻的兴趣度为:fm(Feed(i));
步骤5:个人用户综合兴趣模型建立:个人用户综合兴趣模型由个人用户的订阅兴趣爱好特征向量集,个人用户订阅兴趣偏好,个人用户对Feed(i)类的阅读兴趣度,个人用户阅读协同推荐新闻的兴趣度四个方面的特征共同组成,其个人用户综合兴趣模型可以表示为:
U={Uv,dl(Feed(i)),fl(Feed(i)),fm(Feed(i))}
步骤6:智能推荐:通过步骤5得到的个人综合兴趣模型,在包含所有用户的兴趣模型数据中,通过相似度计算找出和被推荐个人用户综合兴趣模型相似度最大的TOP—N邻居集合,然后进行排序,进行主动推荐。
CN201810707669.2A 2018-07-02 2018-07-02 一种基于rss订阅的新闻推荐方法 Active CN109165367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810707669.2A CN109165367B (zh) 2018-07-02 2018-07-02 一种基于rss订阅的新闻推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810707669.2A CN109165367B (zh) 2018-07-02 2018-07-02 一种基于rss订阅的新闻推荐方法

Publications (2)

Publication Number Publication Date
CN109165367A true CN109165367A (zh) 2019-01-08
CN109165367B CN109165367B (zh) 2021-09-14

Family

ID=64897517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810707669.2A Active CN109165367B (zh) 2018-07-02 2018-07-02 一种基于rss订阅的新闻推荐方法

Country Status (1)

Country Link
CN (1) CN109165367B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889597A (zh) * 2019-03-04 2019-06-14 国网浙江省电力有限公司 一种基于信息共享平台的电网监测资源发布/订阅及推荐的方法
CN109889577A (zh) * 2019-01-21 2019-06-14 广州华泓文化发展有限公司 一种流媒体数据流量分析方法及***
CN110781321A (zh) * 2019-08-28 2020-02-11 腾讯科技(深圳)有限公司 一种多媒体内容推荐方法及装置
CN111222055A (zh) * 2020-01-13 2020-06-02 广州荔支网络技术有限公司 一种音频主播推荐方法
CN111586180A (zh) * 2020-05-10 2020-08-25 计雄昆 一种人工智能信息反馈***
CN111949869A (zh) * 2020-08-11 2020-11-17 杭州鑫通信息技术有限公司 一种基于人工智能的内容信息推荐方法及***
CN113724817A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 基于人工智能的知识推荐方法、装置、计算机设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155698A1 (en) * 2004-12-28 2006-07-13 Vayssiere Julien J System and method for accessing RSS feeds
CN101753573A (zh) * 2009-12-25 2010-06-23 山东大学 一种基于协同过滤的rss信息推荐方法
CN104199938A (zh) * 2014-09-09 2014-12-10 北京师范大学 基于rss的农用土地信息发送方法和***
CN107612966A (zh) * 2017-08-11 2018-01-19 百度在线网络技术(北京)有限公司 Feed信息反馈处理方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155698A1 (en) * 2004-12-28 2006-07-13 Vayssiere Julien J System and method for accessing RSS feeds
CN101753573A (zh) * 2009-12-25 2010-06-23 山东大学 一种基于协同过滤的rss信息推荐方法
CN104199938A (zh) * 2014-09-09 2014-12-10 北京师范大学 基于rss的农用土地信息发送方法和***
CN107612966A (zh) * 2017-08-11 2018-01-19 百度在线网络技术(北京)有限公司 Feed信息反馈处理方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZONGLI JIANG: "A Personalized Search Engine Model based on RSS User"s Interest", 《 2010 2ND INTERNATIONAL CONFERENCE ON FUTURE COMPUTER AND COMMUNICATION》 *
柏桂荣: "基于RSS的用户兴趣模型研究", 《2009通信理论与技术新发展—第十四届全国青年通信学术会议论文集》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889577A (zh) * 2019-01-21 2019-06-14 广州华泓文化发展有限公司 一种流媒体数据流量分析方法及***
CN109889577B (zh) * 2019-01-21 2021-09-10 广州华泓文化发展有限公司 一种流媒体数据流量分析方法及***
CN109889597A (zh) * 2019-03-04 2019-06-14 国网浙江省电力有限公司 一种基于信息共享平台的电网监测资源发布/订阅及推荐的方法
CN110781321A (zh) * 2019-08-28 2020-02-11 腾讯科技(深圳)有限公司 一种多媒体内容推荐方法及装置
CN110781321B (zh) * 2019-08-28 2023-06-20 腾讯科技(深圳)有限公司 一种多媒体内容推荐方法及装置
CN111222055A (zh) * 2020-01-13 2020-06-02 广州荔支网络技术有限公司 一种音频主播推荐方法
CN111586180A (zh) * 2020-05-10 2020-08-25 计雄昆 一种人工智能信息反馈***
CN111949869A (zh) * 2020-08-11 2020-11-17 杭州鑫通信息技术有限公司 一种基于人工智能的内容信息推荐方法及***
CN113724817A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 基于人工智能的知识推荐方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN109165367B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN109165367A (zh) 一种基于rss订阅的新闻推荐方法
CN105589905B (zh) 用户兴趣数据分析和收集***及其方法
CN102929928B (zh) 基于多维相似度的个性化新闻推荐方法
CN108550068B (zh) 一种基于用户行为分析的个性化商品推荐方法及***
CN110162700A (zh) 信息推荐及模型的训练方法、装置、设备以及存储介质
CN101753573B (zh) 一种基于协同过滤的rss信息推荐方法
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN101454771A (zh) 基于使用多媒体调查特征匹配以划分和标记个体的***和方法
CN109918563A (zh) 一种基于公开数据的图书推荐的方法
CN106503015A (zh) 一种构建用户画像的方法
CN107391582B (zh) 基于上下文本体树计算用户偏好相似度的信息推荐方法
CN102591995A (zh) 一种基于云数据中心的用户信息处理方法及装置
CN108595461A (zh) 兴趣探索方法、存储介质、电子设备及***
CN111177559B (zh) 文旅服务推荐方法、装置、电子设备及存储介质
CN108614832A (zh) 一种用户个性化商品搜索实现方法及装置
Niu et al. Product hierarchy-based customer profiles for electronic commerce recommendation
CN110069713A (zh) 一种基于用户上下文感知的个性化推荐方法
CN100446003C (zh) 意向驱动的博客搜索以及浏览***
Yen et al. Personalization of information access for electronic catalogs on the web
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及***
Fan et al. Study of the model of e-commerce personalized recommendation system based on data mining
Mankar et al. Web based book recommendation system using collaborative filtering
KR101985603B1 (ko) 삼분 그래프에 기반한 추천 방법
Chen et al. Location-based hotel recommendation system
KR100996997B1 (ko) 사용자 맞춤 블로거 분석 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant