CN109189887A - 一种面向移动终端的微博信息推荐方法 - Google Patents

一种面向移动终端的微博信息推荐方法 Download PDF

Info

Publication number
CN109189887A
CN109189887A CN201811042150.3A CN201811042150A CN109189887A CN 109189887 A CN109189887 A CN 109189887A CN 201811042150 A CN201811042150 A CN 201811042150A CN 109189887 A CN109189887 A CN 109189887A
Authority
CN
China
Prior art keywords
theme
user
word
model
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811042150.3A
Other languages
English (en)
Inventor
朱兆平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Ruikang Safety Equipment Co Ltd
Original Assignee
Jiangsu Ruikang Safety Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Ruikang Safety Equipment Co Ltd filed Critical Jiangsu Ruikang Safety Equipment Co Ltd
Priority to CN201811042150.3A priority Critical patent/CN109189887A/zh
Publication of CN109189887A publication Critical patent/CN109189887A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向移动终端的微博信息推荐方法,本发明通过用户、主题、词语三维关联矩阵的建立,帮助用户快速了解最近一段时间内的热点主题,并查找与其感兴趣主题相关的其他用户作为备选好友,同时计算主题之间的关联关系,进行主题扩展。在微博代表性网站Friendfeed数据集上进行了试验,显示本发明方法在移动微博信息推荐中具有简洁性和有效性。

Description

一种面向移动终端的微博信息推荐方法
技术领域
本发明涉及一种面向移动终端的微博信息推荐方法。
背景技术
微型博客(简称微博)以其简洁方便的交互方式,受到越来越多手机用户的喜爱。然而,微博数据量大、更新速度快以及手机屏幕小、登录网络服务速度较慢等原因,使得用户很难通过移动终端快速了解到近期内微博流行内容。这就要求面向移动终端的微博应用能够为用户提供一种更为简洁的信息浏览模式。
发明内容
针对现有技术的不足,本发明公开了一种面向移动终端的微博信息推荐方法,包括如下步骤:
步骤1,基于CTM模型,建立用户、主题、词语之间的关联关系;
步骤2,输入user-word矩阵,user-word矩阵表示每个用户帖子中包含的词语及其概率;输入待抽取的主题个数T、EM的收敛阈值X、迭代过程的最大循环次数M;
步骤3,估计CTM模型的参数μ、Σ、β;
步骤4,根据步骤3得到的参数,利用詹森不等式计算得到EM值(参考文献:HansenF,Pedersen GK Jensen’s inequality for operator and Lowner’s theorem [J].Math.Anal,1982,258:229-241);
步骤5,如果EM值小于X,或者达到最大循环次数M,停止迭代;
步骤6,CTM模型最终生成topic-word矩阵,topic-word矩阵表示每个隐含主题的内容,以topic-word矩阵为基础,发现主题之间的关联关系。
步骤1包括:CTM模型为词层、用户层和用户发帖信息集合层组成有向概率图模型,用户发帖信息集合层包含D个用户以及N个不同的词,(μ,Σ,β)是信息集合层的参数,其中μ和Σ用于描述信息集合中隐含主题间的相对强弱,隐含主题自身的概率分布用β表示(参考文献:Blei D M,Lafferty J D.Correlated Topic Models[M]//Weiss Y,Scholkopf B,Platt J,eds.Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2006)。
步骤3中,通过如下公式估计CTM模型的参数μ,Σ,β:
其中,指用户文档d在主题下的均值向量,D为用户个数,表示用户文档d 在所有主题下的方差,zd,i表示用户文档d在主题i下的分布概率,表示用户文档d 所对应的N维特征词向量。
有益效果:本发明通过用户、主题、词语三维关联矩阵的建立,帮助用户快速了解最近一段时间内的热点主题,并查找与其感兴趣主题相关的其他用户作为备选好友,同时计算主题之间的关联关系,进行主题扩展。在微博代表性网站Friendfeed数据集上进行了试验,显示本发明方法在移动微博信息推荐中具有简洁性和有效性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是文档集合与隐含主题之间的包含关系示意图。
图2是本发明方法建立相关关联矩阵示意图。
图3是主题关联性结果示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本发明提供了一种面向移动终端的微博信息推荐方法,
本发明运用CTM(Correlated Topic Model,CTM,基于相关主题模型)模型,从最新一段时间内微博帖子数据里挖掘出其中隐含着的主题及其概率分布,对每个主题下相应的用户进行排序,并发现各个主题之间的相关性。CTM是一种用于从大量文本数据中检测隐含主题的非监督机器学习方法(参考文献:Blei D M,Lafferty J D.Correlated TopicModels[M]//Weiss Y,Scholkopf B,Platt J,eds.Advances in Neural InformationProcessing Systems.Cambridge,MA:MIT Press,2006)。在CTM中,主题服从Logistics正态分布。Logistics正态分布有两组参数,分别是均值向量和协方差矩阵。均值向量用于表示隐含主题的相对强弱,而协方差矩阵描述的是每对隐含主题之间的关联程度。因此,利用CTM不仅可以分析文本集合的隐含主题构成,而且可以考察隐含主题之间的联系。
在微博中,用户发表的帖子内容能够反映其个人兴趣,此内容可表示为Ui={wi1,wi2,…wiN,},其中wij,表示词语wj在用户Ui发表帖子中出现的次数。在一段时间内所有用户发表的帖子信息中存在若干隐含主题,如图1所示。
基于CTM模型,可通过用户、主题、词语之间深层关联关系的获取,自动发现该时间段内的微博热点主题、各主题下用户的影响力排序以及主题之间的关联关系,从而为用户提供有效的信息服务。该模型为词层、用户层和用户发帖信息集合层(简称信息集合层)组成的有向概率图模型,信息集合包含D个用户以及N个不同的词。(μ,Σ,β)是信息集合层的参数,其中μ和Σ用于描述信息集合中隐含主题间的相对强弱,隐含主题自身的概率分布用β表示。随机变量η是用户层参数,其分量代表目标用户帖子中每个隐含主题的权重。(Z,ω)是词层的参数,Z代表目标用户帖子中的隐含主题在每个词上的份额,ω是目标用户的特征词向量。给定信息集合后,CTM模型将用户数据表示成主题t1:T与多元高斯参数{μ,Σ}的组合函数,并通过变化的 expectation-maximization(EM)方法来进行参数估计。在CTM中,隐含主题抽取的数目T需要人工进行指定。
图2是本发明方法的图示。其中,user-word矩阵表示每个用户帖子中包含的词语及其概率,topic-word矩阵表示每个隐含主题的内容,topic-user矩阵表示每个主题下最为活跃的用户排序结果,topic-topic矩阵表示主题之间的关联关系。通过隐含主题的抽取以及topic-word矩阵的建立,能够发现在这一时间段内微博用户所关心的主要内容。以此为基础,进一步建立topic-user矩阵,能够发现在每个隐含主题下的活跃用户,以进行基于主题的好友推荐,并通过topic-topic矩阵来实现主题扩展,帮助用户了解更多兴趣相关的内容。
实施例
本实施例中采用FriendFeed网站的帖子数据集。该数据集包含了从2009-09-01到2009-09-30期间由111284位不同用户所发表的1641531条帖子内容。设定用户查询时间为2009-09-16。在CTM中,隐含主题抽取的数目T需要人工进行指定,本实施例中T 选取为50。EM的收敛阈值设置为10-3,迭代的最大循环次数为1000。
在查找关联主题的部分,需要对主题的关联与否设定一个阈值。通过主题之间的协方差矩阵,能够计算出主题之间的关联程度。在对该关联程度值进行归一化之后,需要设定一个0~1之间的数λ作为判断主题关联与否的阈值,λ取值越小,表示两个主题之间的关联程度越大。最终λ取不同数值时每个主题平均的相关主题的个数,如图3所示。根据经验,通常一个主题有2到3个关联主题是比较适合的,因此可以设定λ为0.35。
与现有技术中的好友推荐与主题推荐方法不同的是,基于相关主题模型得到的微博主题结果,能够反映相应时间段内微博帖子内容的整体概况信息,而不仅仅是某些比较热点的单一话题。用户能够通过此结果,快速了解到微博最近一段时间内帖子中包含的主要内容,根据自己的喜好选择相应内容加以了解,并追随相应的好友。同时,用户可以发现与其感兴趣主题相关联的其他信息,了解更多兴趣范围内的内容。
本发明提供了一种面向移动终端的微博信息推荐方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (3)

1.一种面向移动终端的微博信息推荐方法,其特征在于,包括如下步骤:
步骤1,基于CTM模型,建立用户、主题、词语之间的关联关系;
步骤2,输入待抽取的主题个数T、EM的收敛阈值X、迭代过程的最大循环次数M;
步骤3,估计CTM模型的参数μ、Σ、β;
步骤4,根据步骤3得到的参数,利用詹森不等式计算得到EM值;
步骤5,如果EM值小于X,或者达到最大循环次数M,停止迭代;
步骤6,CTM模型最终生成topic-word矩阵,topic-word矩阵表示每个隐含主题的内容,以topic-word矩阵为基础,发现主题之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:CTM模型为词层、用户层和用户发帖信息集合层组成有向概率图模型,用户发帖信息集合层包含D个用户以及N个不同的词,(μ,Σ,β)是信息集合层的参数,其中μ和Σ用于描述信息集合中隐含主题间的相对强弱,隐含主题自身的概率分布用β表示。
3.根据权利要求2所述的方法,其特征在于,步骤3中,通过如下公式估计CTM模型的参数μ,Σ,β:
其中,指用户文档d在主题下的均值向量,D为用户个数,表示用户文档d在所有主题下的方差,zd,i表示用户文档d在主题i下的分布概率,表示用户文档d所对应的N维特征词向量。
CN201811042150.3A 2018-09-07 2018-09-07 一种面向移动终端的微博信息推荐方法 Pending CN109189887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811042150.3A CN109189887A (zh) 2018-09-07 2018-09-07 一种面向移动终端的微博信息推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811042150.3A CN109189887A (zh) 2018-09-07 2018-09-07 一种面向移动终端的微博信息推荐方法

Publications (1)

Publication Number Publication Date
CN109189887A true CN109189887A (zh) 2019-01-11

Family

ID=64915146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811042150.3A Pending CN109189887A (zh) 2018-09-07 2018-09-07 一种面向移动终端的微博信息推荐方法

Country Status (1)

Country Link
CN (1) CN109189887A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及***
CN105426514A (zh) * 2015-11-30 2016-03-23 扬州大学 个性化的移动应用app推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207899A (zh) * 2013-03-19 2013-07-17 新浪网技术(中国)有限公司 文本文件推荐方法及***
CN105426514A (zh) * 2015-11-30 2016-03-23 扬州大学 个性化的移动应用app推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋双永 等: "面向移动终端的微博信息推荐方法", 《计算机科学》 *

Similar Documents

Publication Publication Date Title
US11710054B2 (en) Information recommendation method, apparatus, and server based on user data in an online forum
TWI539305B (zh) Personalized information push method and device
CN103020845B (zh) 一种移动应用的推送方法及***
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN105335519B (zh) 模型生成方法及装置、推荐方法及装置
CN103207899B (zh) 文本文件推荐方法及***
US20150032492A1 (en) Methods of Identifying Relevant Content and Subject Matter Expertise for Online Communities
CA3116778C (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
US20150032751A1 (en) Methods and Systems for Utilizing Subject Matter Experts in an Online Community
US8413250B1 (en) Systems and methods of classifying sessions
CN103870538B (zh) 针对用户进行个性化推荐的方法、用户建模设备及***
CN104899236B (zh) 一种评论信息显示方法、装置及***
CN108259638B (zh) 个人群组列表智能排序方法、智能终端及存储介质
CN103258025B (zh) 生成共现关键词的方法、提供关联搜索词的方法以及***
US20230205775A1 (en) Offline evaluation of ranking functions
CN103530416B (zh) 项目数据预测评分库的生成、项目数据的推送方法和***
WO2015117560A1 (en) Web page recognizing method and apparatus
CN104636371A (zh) 信息推荐方法及设备
CN103049528A (zh) 基于用户兴趣向量的个性化网页搜索排序方法
US20150149463A1 (en) Method and system for performing topic creation for social data
TW201543394A (zh) 點擊率預估模型建立方法、裝置及資訊提供方法、系統
US9996529B2 (en) Method and system for generating dynamic themes for social data
CN103425650A (zh) 推荐搜索方法和***
CN107798012B (zh) 阅读资源评论推送方法和***
CN103034665A (zh) 信息查询方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190111

WD01 Invention patent application deemed withdrawn after publication