CN105608192A - 一种基于用户双词主题模型的短文本推荐方法 - Google Patents

一种基于用户双词主题模型的短文本推荐方法 Download PDF

Info

Publication number
CN105608192A
CN105608192A CN201510979801.1A CN201510979801A CN105608192A CN 105608192 A CN105608192 A CN 105608192A CN 201510979801 A CN201510979801 A CN 201510979801A CN 105608192 A CN105608192 A CN 105608192A
Authority
CN
China
Prior art keywords
user
theme
word
short text
ubtm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510979801.1A
Other languages
English (en)
Inventor
吕建
徐锋
魏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201510979801.1A priority Critical patent/CN105608192A/zh
Publication of CN105608192A publication Critical patent/CN105608192A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于文本主题分析技术的短文本推荐方法,利用文本主题模型对用户转发或发表过的信息进行主题分析,获取用户的主题偏好,并以此从大量的未阅读信息中推荐满足用户喜好的信息,从而较好地解决此类***的信息过载问题。在双词主题模型(Biterm?Topic?Model,BTM)和基于短文本聚合方法的基础上提出了一个新的面向短文本主题分析的主题模型——基于用户的双词主题模型(User-based?Biterm?Topic?Model,UBTM),在来源于微博的真实数据集上的实验表明,UBTM模型较传统的短文本主题分析方法能获得更高质量的主题。在基于UBTM模型的短文本推荐实验中,也表明本发明所提的短文本推荐方法具有更好的推荐效果。

Description

一种基于用户双词主题模型的短文本推荐方法
技术领域
本发明涉及文本推荐,特别是侧重于短文本的推荐。在主题分析技术的基础上,扩展了双词模型,利用了文本的作者信息,有效增强了其在短文本情景下的主题提取能力,并提高了其在短文本推荐***中的预测精度。
背景技术
近年来,随着互联网与智能移动设备的快速发展,以Twitter,微博等为代表的社交媒体应用变得越来越受欢迎,个人网站,博客,社交网站等应用每天会涌现出大量的信息,使得用户难以获得有效的信息,即导致了严重的信息过载问题,用户很难在大量产生的信息中找到自己感兴趣的内容。文本推荐,可针对不同用户的具体情况给用户推荐满足其喜好的文本信息,成为了解决信息过载问题的有效途径。
文本推荐的核心步骤之一是从文本中抽取有价值的特征,主题分析则是一种常见的特征抽取方法。常见的主题分析技术包括,隐含语义分析(LSA)和隐含狄利克雷分布(LDA)模型,基于LDA模型,又出现了多个扩展模型如sLDA,Labeled-LDA等,这类方法均利用到了词语共现的统计数据来分析文本的主题分布。此类方法均以文本中的单词为基本的处理单位,在文本包含的单词较少的情况下,抽取的主题质量较差,而当前的很多社交媒体如Twitter、微博等文本信息均为短文本信息,上述主题分析技术较难从这些短文本中抽取出高质量的主题分布。
为此,也有研究工作基于LDA提出了一种双词主题模型BTM,试图通过单词间共现关系,扩展单个短文本的单词数量,并将所有文档集合成一个单一的大文档进行处理,此类方法一定程度上提高了短文本的主题分析质量。但此类方法存在一个较为明显的缺陷,没有考虑短文本的作者信息,只依赖文本中两个单词的共现来分析短文本的主题,由于丢失较为重要的信息,导致主题分析的质量难以满足短文本推荐的要求。
发明内容
发明目的:由于传统的以单词为基本处理单位的文本主题分析技术难以高质量地抽取短文本的主题特征,使得其难以应用于短文本推荐场景,而短文本推荐技术则是解决当前社交媒体中信息过载问题的有效手段。为此,本发明基于双词主题模型,进一步利用短文本的作者信息,提出了一种基于用户聚合的双词主题模型,并给出了一种基于此主题抽取模型的短文本推荐方法,有效地解决了上述问题。
技术方案:一种基于用户双词主题模型的短文本推荐方法,为一种新的基于用户文本聚合的双词短文本主题分析技术,并利用该主题分析技术来分析用户的历史文本信息,获取用户的主题偏好,实现了一种个性化的短文本推荐***。此方法的主要内容包括:
1)构建基于用户文本聚合的双词短文本主题模型-UBTM;
2)基于Gibbs采样的UBTM模型求解及短文本主题推断方法;
构建基于用户文本聚合的双词短文本主题模型-UBTM:
将文档中的任意两个单词配成词对,并且把属于同一个用户的文档聚合在一起,给出了一个新的概率图模型UBTM。该模型有效解决了短文档的内容稀疏问题,并能估计出单个用户的主题分布(偏好)。
UBTM模型的用户文档生成过程如下:
依据以上过程,我们可以推断用户u的一个词对b=(wi,wj)的联合概率分布:
P ( b | u ) = Σ z P ( z | u ) P ( w i | z ) P ( w j | z ) = Σ z θ z | u φ i | z φ j | z
其中P(z|u)是用户的主题偏好分布,P(wi|z)与P(wj|z)为一个词对的中的两个词语wi,wj在主题上的分布。
基于Gibbs采样的UBTM模型求解及短文本主题推断方法:
Gibbs采样算法是Markov-ChainMonteCarlo算法的一个特例。该算法的基本思想是每次选取随机向量的一个维度,根据其他维度的当前取值,采样该维度的值,依次遍历全部随机向量。不断迭代,直至收敛,之后间隔采样若干次,根据统计值计算出待估计的参数值。在UBTM的参数推断过程中,我们首先为每个用户下的每个词对随机确定初始主题,然后依据条件概率P(z|Z-b|u,B,α,β)采样出词的新主题。UBTM模型的后验概率(迭代更新规则)计算公式如下,
P ( z | Z - b | u , B , α , β ) ∝ n z | u + α n u + K α · ( n w i | z + β ) ( n w j | z + β ) ( Σ w n w | z + M β ) 2
其中M表示单词的总数,K表示主题的总数,
nz|u表示用户u的所有词对中取样到主题z的总次数,
nw|z表示单个词w取样到主题z的总次数,
nu表示用户u的所有词对取样到的各类主题总次数,
B表示整体的词对集合,
α和β为狄利克雷分布的超参数,
主题的词分布φw|z和用户的主题分布θz|u计算公式如下:
φ w | z = n w | z + β Σ w n w | z + M β
θ z | u = n z | u + α n u + K α
在此基础上还给出了由用户主题分布推断短文本主题分布的方法。
假定短文本的主题分布等同于短文本中所有词对主题分布的期望:
P ( z | d , u ) = Σ b P ( z | b ) P ( b | d , u )
其中d表示短文本,b表示词对,z表示主题,u表示该条短文属于哪个用户。
P(z|b)由上面计算得到的φw|zz|u根据贝叶斯公式推断得到,
P ( z | b ) = P ( z | u ) P ( w i | z ) P ( w j | z ) Σ z P ( z | u ) P ( w i | z ) P ( w j | z )
其中P(z|u)=θz|u,P(wi|z)=φwi|z
P ( b | d , u ) = n b | d , u Σ b n b | d , u ,
其中nb|d,u表示用户u的短文本d中,词对b出现的总次数,可由统计得到。进而带入前文公式推导得到短文的主题分布P(z|d,u)。
目前Twitter,微博等社交媒体应用每天都会产生大量信息,导致严重的信息过载问题,用户难以快速找到自己感兴趣的内容。而且这些信息大多又是以短文本的形式呈现,传统的文本主题模型如LDA很难准确分析此类短文本的主题分布。UBTM主题分析技术通过词对和用户聚合来进行主题挖掘,将用户的历史文本组合成词对聚合在一起,进行主题分析,学习用户的主题偏好,同时推断用户未阅读信息的主题分布,计算用户主题分布和未阅读信息的主题分布之间的相似度,相似度高的文本和用户的兴趣接近,即可将这类信息推荐给用户,从而形成一个短文本推荐***。
通过在微博真实数据集上的实验,表明UBTM模型较传统的短文本主题分析技术能获得更高质量的主题。在基于UBTM模型的微博转发推荐实验中,也证明了本发明所提出的短文本推荐方法具有更好的推荐效果。
附图说明
图1为基于用户文本聚合的双词短文本主题模型-UBTM的图模型;
图2为基于UBTM主题分析技术的微博短文本推荐***架构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于用户双词主题模型的短文本推荐方法,主要内容包括:
1)构建基于用户文本聚合的双词短文本主题模型-UBTM;
2)基于Gibbs采样的UBTM模型求解及短文本主题推断方法;
以微博为例,每条微博都有作者,我们认为同一位作者原创或者转发的微博之间应具有一定相似性,与作者本人的兴趣偏好是相关的。在此假设的基础上,本发明基于经典双词模型,首次提出将同一用户的词对聚合在一起,不同用户分开处理的方法,称之为UBTM。同时,我们基于Gibbs采样算法,给出了UBTM模型的参数估计,并依据UBTM的词语的主题分布,给出单个短文本的主题推断方法。最终,在UBTM的主题分析的基础上,给用户推荐文本,实现了一种基于UBTM主题分析技术的短文本推荐***。
一般认为,一组相互有关联的词语可以代表一个“主题”,而这些词语之间的关联性的大小,是由这些词在同一段文本中共同出现的次数确定的。比如,“故宫”,“天安门”,“客流”,“节假日”经常会在同一个上下文(一条微博,一则短新闻)中出现,我们可以认为他们很可能属于同一个隐式主题(北京景点和人流)。经典的主题分析方法就是利用了这种词语的共现性,用模型模拟这一产生过程。与这类方法不同的是,本发明借鉴的是基于词对的统计,在此基础上利用了用户信息加以分类。
这里给出词对的生成过程:假定下面是作者A和B分别发表的消息以及经处理后的有效词。
作者 文本内容 有效词
A 俄国战机被土耳其击落 俄国 战机 土耳其 击落
B 春运火车票26日发售啦 春运 火车票 26日 发售
A 普京回应:若再击落必复仇! 普京 击落 复仇
B 马云包机派恒大录天天向上 马云 包机 恒大 天天向上
词对就是将每个文本中的有效词两两组合起来扩充短文本,如下所示
经典的双词模型是将所有词对直接聚合成一个大文档进行训练,即上面21个词对,组成一个大的语料库。认为所有的短文本遵从同一个主题分布,这种假设并不适用所有的情况,缺乏对短文本个性化主题分布的考虑,主题分析效果受限。本发明认为一个用户对应的一组文档表达同一组主题,将一个用户的所有词对整合在一起,不同用户的词对服从不同的主题分布。在例子中将用户A的9个词对组合在一起,用户B的12个词对组成在一起,形成2个语料库。
基于用户文本聚合的双词主题方法具体的生成过程如下:
依据以上过程,我们可以计算得到一个用户u下的词对b=(wi,wj)的联合概率分布:
P ( b | u ) = Σ z P ( z | u ) P ( w i | z ) P ( w j | z ) = Σ z θ z | u φ i | z φ j | z
同时用户u的似然为:
P ( u ) = Π ( i . j ) P ( b | u )
因为我们是将一个用户的所有词对整合在一起,认为一个用户的所有文档的主题分布是一致的。这样既缓解了经典主题模型在短文本上的数据稀疏问题,又防止了聚合太多文档导致的主题特性丢失问题。
接下来,我们给出UBTM的参数推断方法。UBTM模型的求解目的主要是估算出合理的{φ,θ}的值,我们采用Gibbs采样来进行近似推断。Gibbs采样法是被广泛认可的确定性随机算法,其采样过程接近模型产生过程,且耗费资源低,易于在大规模数据上进行。本发明的吉布斯采样的基本过程如下所述:
吉布斯采样的基本思想是固定一个参数,根据剩余变量的条件概率分别替换另一个参数,交替进行。具体采样过程的解释如下:
1、首先遍历所有用户的所有词对,为其随机分配一个主题,zb|u~Multi(1/K),其中b表示词对,u表示用户,zb|u表示随机分配的主题,K表示主题总数,Multi(θ)表示以θ为参数的多项式分布。
2、分别将nz|u、nunz加1,其中
nz|u为用户u的文档中主题z出现的次数;
nu为用户u中主题数量的总和;
表示主题z中对应的两个词wi,wj出现的次数;
nz表示主题z出现的总次数;
3、对以下操作进行迭代:
遍历所有用户,遍历用户的所有词对,假设当前用户u的词对b对应的主题为z,则先将nz|u、nunz分别减1,即在当前词语上次的采样结果上,根据主题采样的概率分布P(z|Z-b|u,B,α,β)重新采样出新的主题z,再将对应的nz|u、nunz分别加1,其中Z-b|u代表当前用户u除b这个词对以外其他词对的主题集合,B是所有用户的全部词对集合,
P ( z | Z - b | u , B , α , β ) ∝ n z | u + α n u + K α · ( n w i | z + β ) ( n w j | z + β ) ( Σ w n w | z + M β ) 2 ,
其中M代表单词总数。
迭代完成后就可以推断出主题z上的词分布φw|z和不同用户的主题分布θz|u
φ w | z = n w | z + β Σ w n w | z + M β
θ z | u = n z | u + α n u + K α
为了对短文本列表进行个性化的排序做出推荐,在此基础上本专利还给出了UBTM对单条文本的主题分布的推断方法,我们假定单条短文本的主题分布等同于短文本中每个词对的主题分布的期望,即
P ( z | d , u ) = Σ b P ( z | b ) P ( b | d , u ) ,
其中d表示短文本,b表示词对,z表示主题,u表示该条短文属于哪个用户。P(z|b,u)由上面计算得到的φw|zz|u根据贝叶斯公式推断出来
P ( z | b , u ) = P ( z | u ) P ( w i | z ) P ( w j | z ) Σ z P ( z | u ) P ( w i | z ) P ( w j | z )
其中P(z|u)=θz|u,P(wi|z)=φwi|z
P ( b | d , u ) = n b | d , u Σ b n b | d , u ,
其中nb|d,u表示用户u的短文本d中词对b出现的总次数。
UBTM技术可以有效用于Twitter、微博等社交媒体的内容推荐。目前这类社交媒体每天都会产生大量的短文本信息,导致严重的信息过载问题,用户很难快速定位到自己感兴趣的内容。我们利用UBTM从大量的短文本中学习出用户的主题分布,并且推断出新的短文本的主题分布。在Twitter和微博的消息列表中,用户能看到所有他关注的好友所发布的消息,由上面的方法计算得到所有他好友f发布的消息的文档主题分布P(z|d,f),以及用户u自身的主题分布P(z|u),计算余弦相似度:
P(z|d,f)=(a1,a2,a3…ak)
p(z|u)=(b1,b2,b3…bk)
c o s θ = Σ i = 1 k ( a i × b i ) Σ i = 1 k a i 2 × Σ i = 1 k b i 2
余弦相似度的范围在[-1,1]之间,值越接近1,代表两个向量越接近,当前微博越接近用户u的偏好。我们将与用户u主题分布最邻近的N条微博推荐给用户u,以此实现了基于UBTM主题分析技术的短文本推荐***。
与经典的词对模型相比,本发明利用用户分类,提出了一种有效处理短文本主题的方法,并将其运用在微博推荐中,提高推荐的准确度。
实例一,本发明的UBTM的主题分析能力的量化评测
1、输入输出数据说明
我们把本发明的方法运用于实际微博的匿名化的数据中,输入是一组微博数据,统计情况如表1所示:数据集有101212条短文本,按照不同的用户分为738个组,平均每组有137.14条文档,平均每个文档的词语长度是29。如下所示,列举了数据的几个样例。
短文本数据的几个样例
输出是本发明UBTM主题模型的主题分析质量评测指标。
2、模型学习与参数推断
首先读取所有的微博和该微博对应的用户,同时读取一个中文的停词列表。对于每条微博,用停词列表过滤掉无意义的停词,如“的”,“你”,“什么”,将剩余的部分拆分成单词,然后以一条微博为单位,两两单词组合形成词对,将同一用户的词对聚合在一起,生成词对集合Bu,u∈U。
依据前文所述的模型学习和推断过程,通过Gibbs采样不断迭代,学习得到微博社区中每个用户的主题分布和每个主题下对应的词的分布。
3、输出结果
由于主题本身并不一定有确定的物理含义,也常被称为隐式主题,所以我们使用以下两种方式来验证主题分析的结果好坏。
首先,我们人工对比了传统LDA方法和UBTM的主题分析效果。我们找出了两种方法内各自代表同一个主题的高分词汇和低分词汇,词语的分值是通过P(w|z)计算得到,P(w|z)是这个词语属于某个主题的概率。在理想情况下,高分词汇应该能非常明显地表示出主题含义,而低分词汇应该与高分词汇也存在一定的相关性。实验中我们挑选了高频词“医院”,并找出“医院”在两种方法下分别对应的最相关主题,进而找到这个主题下的高分和低分词汇。如下所示,给出了“医院”各自所在最相关主题的高低分词汇。
UBTM与LDA主题分析模型在主题质量上的比较
我们可以看到,相比于传统的LDA主题分析方法,UBTM的高分词汇之间明显更具关联性,都是与“事故”“救助”“医院”相关的,且低分词汇中也存在类似的相关词汇。相比较而言,LDA的高分词汇有不少与主题不相关的词语,低分词汇中几乎不存在与该主题相接近的词语。由此可以证明,在短文本情境下,UBTM的主题分析比传统LDA方法更有效。
另外,我们选择Coherence得分评价方法来进行更精确的量化主题质量的好坏。主题z和它的前T个高分词汇V(z)=(v1 (z),...,vT (z))(根据P(w|z)排序)的coherence得分定义如下:
C ( z ; V z ) = Σ m = 1 T Σ l = 1 m l o g D ( v m z , v l z ) + 1 D ( v l z )
其中D(v)是各类文档中词语v出现的频度,D(v,v')是词语v和v'共同出现的次数。同一主题的词语在同一个文档中同时出现的概率越大说明主题质量越高。Coherence得分可以认为是衡量主题词汇质量的一种参考。同时,为了减少Gibbs随机性对结果的影响,同时衡量不同模型的稳定性,我们对每种方法下的每个主题都计算了Coherence得分,取平均值作为最终的得分:
1 k Σ k C ( z k ; V ( Z k ) )
最终的结果如表2所示,T是一个主题下选取的高分词语的个数。从实验结果可以发现,我们的方法与预想的一致,要好于经典的LDA主题模型。无论是选取前5、前10或者前20个,Coherence得分均好于LDA。且在T=5和T=10时我们方法的标准差低于LDA,表明了我们方法的稳定性也相对更好。
实例二,在微博推荐场景下的应用评测
1、输入输出数据说明
在这一实例中,我们将本发明的主题分析运用于微博推荐这一实际应用场景中。我们从6个月的微博数据中,选取了7千多条热度相对较高的微博,观察2万多个用户对这7千多条微博的转发或者未转发的38万条纪录。转发可以作为用户喜欢这条微博的事实依据,对转发这一行为做预测便是此次实验的目的:我们依据UBTM推荐微博给用户,并根据用户是否转发来衡量推荐的准确率和召回率。
38万条记录的选取规则如下:首先,我们根据时间划分数据为训练集和测试集,对于每个用户,将该用户转发的微博按时间排列,选取该用户前50%的转发记录作为训练集,剩余的50%的微博作为测试集来做转发预测,即使用历史数据计算用户的主题分布,新的待预测的微博不参与用户主题分布的学习过程。这里需要注明的是,我们按如下规则来判定用户是否阅读过某条微博:如果用户在某天转发或者发送过微博,则认为这是用户的活跃日。该用户关注的人,在活跃日发送或转发的微博,均视为被该用户阅读过。我们通过UBTM计算出用户的主题分布和各个微博的主题分布,在需要预测的活跃日内,将好友发送的微博按照与该用户自身的主题分布的相似度进行排序,排名靠前的微博很可能与用户的偏好接近,便将其推荐给用户,实验中我们用该用户是否转发来验证用户的是否真的喜欢我们推荐的微博。
我们对每个用户分别推荐Top3,5,10的微博,从而计算准确率和召回率,最终对所有用户的准确率和召回率取平均数,将这一结果与LDA的结果相比较。表3具体展示了此实例的数据。
2、微博推荐的过程
2.1UBTM计算用户主题分布
假设同一用户所有发送过的微博的主题分布是一致的,将训练集中属于同一个用户的所有原创和转发的微博聚合到一起,用实例一中相同的方法计算该用户的主题分布和主题上的单词分布。
2.2推算测试集中单条微博的主题分布
对于测试集中的每条微博,通过之前求得的其作者的主题分布以及各主题上单词的分布,推算出单条微博的主题分布。
2.3计算相似度推荐微博
计算用户活跃日内其好友发表的单条微博与用户自身主题偏好分布之间的相似度(主题分布向量间的余弦相似度),按相似度排序,推荐Top3,5,10的微博给用户。图2展现了我们基于UBTM主题分析技术的微博短文本推荐***架构图。
3、输出结果
我们比较了经典LDA模型和本发明UBTM模型推荐的微博的准确率和召回率。需要说明的是,在实际应用中,用户是否转发某条微博可能与很多因素相关,而本次实验只考虑主题相似度对用户知否转发的影响,所以预测结果的数值本身的大小没有直接意义,但LDA和UBTM两者在同等情境下的预测准确度的比较能反映它们在短文本推荐领域上谁更具优势。表4展现了此次实验具体的准确率和召回率数据,可以看到,在给用户推荐Top3,5,10个微博时,UBTM相比传统的LDA方法,准确率召回率均有了一定的提高。证明了本发明准确地提取了短文本的主题分布,有效地预测了用户的微博转发行为。且证明了基于UBTM主题分析技术的微博短文本推荐***在现实中能被合理的应用。
表1.实例一的数据统计情况
微博数 短文本文档个数 101212
用户数 分类个数 738
每个用户平均微博个数 平均分类中文档个数 137.14
微博平均长度 短文本平均长度 29
表2实例一CoherenceScore的对比
表3实例二的数据统计情况
用户数量 微博数量 转发数量 未转发数量 纪录数量
22296 7663 209945 177396 387341
表4LDA与UBTM模型在转发预测上的实验结果

Claims (4)

1.一种基于用户双词主题模型的短文本推荐方法,其特征在于,基于用户文本聚合的双词短文本主题分析技术,并利用该主题分析技术来分析用户的历史文本信息,获取用户的主题偏好,实现了一种个性化的短文本推荐方法,具体包括:
1)构建基于用户文本聚合的双词短文本主题模型-UBTM;
2)基于Gibbs采样的UBTM模型求解及短文本主题推断方法。
2.如权利要求1所述的基于用户双词主题模型的短文本推荐方法,其特征在于,构建基于用户文本聚合的双词短文本主题模型-UBTM:
将文档中的任意两个单词配成词对,并且把属于同一个用户的文档聚合在一起,给出了一个新的概率图模型UBTM;
推断用户u的一个词对b=(wi,wj)的联合概率分布:
P ( b | u ) = Σ z P ( z | u ) P ( w i | z ) P ( w j | z ) = Σ z θ z | u φ i | z φ j | z .
3.如权利要求2所述的基于用户双词主题模型的短文本推荐方法,其特征在于,基于Gibbs采样的UBTM模型求解及短文本主题推断方法:
在UBTM的参数推断过程中,首先为每个用户下的每个词对随机确定初始主题,然后依据条件概率P(z|Z-b|u,B,α,β)采样出词的新主题;UBTM模型的后验概率(迭代更新规则)计算公式如下,
P ( z | Z - b | u , B , α , β ) ∝ n z | u + α n u + K α · ( n w i | z + β ) ( n w j | z + β ) ( Σ w n w | z + M β ) 2
其中M表示单词的总数,K表示主题的总数,
nz|u表示用户u的所有词对中取样到主题z的总次数,
nw|z表示单个词w取样到主题z的总次数,
nu表示用户u的所有词对取样到的各类主题总次数,
主题的词分布φw|z和用户的主题分布θz|u计算公式如下:
φ w | z = n w | z + β Σ w n w | z + M β
θ z | u = n z | u + α n u + K α .
4.如权利要求3所述的基于用户双词主题模型的短文本推荐方法,其特征在于,由用户主题分布推断短文本主题分布的方法为:
假定短文本的主题分布等同于短文本中所有词对主题分布的期望:
P ( z | d , u ) = Σ b P ( z | b ) P ( b | d , u )
其中d表示短文本,b表示词对,z表示主题,u表示该条短文属于哪个用户;
P(z|b)由上面计算得到的φw|zz|u根据贝叶斯公式推断得到,
P ( z | b ) = P ( z | u ) P ( w i | z ) P ( w j | z ) Σ z P ( z | u ) P ( w i | z ) P ( w j | z )
其中P(z|u)=θz|u P ( w i | z ) = φ w i | z ,
P ( b | d , u ) = n b | d , u Σ b n b | d , u ,
其中nb|d,u表示用户u的短文本d中,词对b出现的总次数。
CN201510979801.1A 2015-12-23 2015-12-23 一种基于用户双词主题模型的短文本推荐方法 Pending CN105608192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510979801.1A CN105608192A (zh) 2015-12-23 2015-12-23 一种基于用户双词主题模型的短文本推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510979801.1A CN105608192A (zh) 2015-12-23 2015-12-23 一种基于用户双词主题模型的短文本推荐方法

Publications (1)

Publication Number Publication Date
CN105608192A true CN105608192A (zh) 2016-05-25

Family

ID=55988131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510979801.1A Pending CN105608192A (zh) 2015-12-23 2015-12-23 一种基于用户双词主题模型的短文本推荐方法

Country Status (1)

Country Link
CN (1) CN105608192A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354818A (zh) * 2016-08-30 2017-01-25 电子科技大学 基于社交媒体的动态用户属性提取方法
CN106447387A (zh) * 2016-08-31 2017-02-22 上海交通大学 基于共享账户乘客预测的机票个性化推荐方法
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN106708802A (zh) * 2016-12-20 2017-05-24 西南石油大学 一种信息推荐的方法及***
CN106776579A (zh) * 2017-01-19 2017-05-31 清华大学 Biterm主题模型的采样加速方法
CN106815214A (zh) * 2016-12-30 2017-06-09 东软集团股份有限公司 最优主题数计算方法及装置
CN107357785A (zh) * 2017-07-05 2017-11-17 浙江工商大学 主题特征词抽取方法及***、情感极性判断方法及***
CN107506377A (zh) * 2017-07-20 2017-12-22 南开大学 基于推荐***的互动绘本生成***
CN108182176A (zh) * 2017-12-29 2018-06-19 太原理工大学 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN108536868A (zh) * 2018-04-24 2018-09-14 北京慧闻科技发展有限公司 社交网络上短文本数据的数据处理方法及应用
CN108763484A (zh) * 2018-05-25 2018-11-06 南京大学 一种基于lda主题模型的法条推荐方法
CN109766431A (zh) * 2018-12-24 2019-05-17 同济大学 一种基于词义主题模型的社交网络短文本推荐方法
CN110134958A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于语义词网络的短文本主题挖掘方法
CN111191036A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 短文本主题聚类方法、装置、设备及介质
CN111611380A (zh) * 2020-05-19 2020-09-01 北京邮电大学 语义搜索方法、***及计算机可读存储介质
CN115689089A (zh) * 2022-10-25 2023-02-03 深圳市城市交通规划设计研究中心股份有限公司 城市轨道交通乘客乘车概率推算方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEIZHENG CHEN 等: "User Based Aggregation for Biterm Topic Model", 《ACL2015》 *
XIAOHUI YAN 等: "A Biterm Topic Model for Short Texts", 《INTERNATIONAL WORLD WIDE WEB CONFERENCE COMMITTE 2013》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354818B (zh) * 2016-08-30 2020-01-10 电子科技大学 基于社交媒体的动态用户属性提取方法
CN106354818A (zh) * 2016-08-30 2017-01-25 电子科技大学 基于社交媒体的动态用户属性提取方法
CN106447387A (zh) * 2016-08-31 2017-02-22 上海交通大学 基于共享账户乘客预测的机票个性化推荐方法
CN106484829B (zh) * 2016-09-29 2019-05-17 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN106484829A (zh) * 2016-09-29 2017-03-08 中国国防科技信息中心 一种微博排序模型的建立及微博多样性检索方法
CN106708802A (zh) * 2016-12-20 2017-05-24 西南石油大学 一种信息推荐的方法及***
CN106815214B (zh) * 2016-12-30 2019-11-22 东软集团股份有限公司 最优主题数获取方法及装置
CN106815214A (zh) * 2016-12-30 2017-06-09 东软集团股份有限公司 最优主题数计算方法及装置
CN106776579B (zh) * 2017-01-19 2019-05-31 清华大学 Biterm主题模型的采样加速方法
CN106776579A (zh) * 2017-01-19 2017-05-31 清华大学 Biterm主题模型的采样加速方法
CN107357785A (zh) * 2017-07-05 2017-11-17 浙江工商大学 主题特征词抽取方法及***、情感极性判断方法及***
CN107506377A (zh) * 2017-07-20 2017-12-22 南开大学 基于推荐***的互动绘本生成***
CN108182176A (zh) * 2017-12-29 2018-06-19 太原理工大学 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN108182176B (zh) * 2017-12-29 2021-08-10 太原理工大学 增强btm主题模型主题词语义相关性和主题凝聚度方法
CN108536868A (zh) * 2018-04-24 2018-09-14 北京慧闻科技发展有限公司 社交网络上短文本数据的数据处理方法及应用
CN108536868B (zh) * 2018-04-24 2022-04-15 北京慧闻科技(集团)有限公司 社交网络上短文本数据的数据处理方法及装置
CN108763484A (zh) * 2018-05-25 2018-11-06 南京大学 一种基于lda主题模型的法条推荐方法
CN109766431A (zh) * 2018-12-24 2019-05-17 同济大学 一种基于词义主题模型的社交网络短文本推荐方法
CN110134958A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于语义词网络的短文本主题挖掘方法
CN111191036A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 短文本主题聚类方法、装置、设备及介质
CN111611380A (zh) * 2020-05-19 2020-09-01 北京邮电大学 语义搜索方法、***及计算机可读存储介质
CN111611380B (zh) * 2020-05-19 2021-10-15 北京邮电大学 语义搜索方法、***及计算机可读存储介质
CN115689089A (zh) * 2022-10-25 2023-02-03 深圳市城市交通规划设计研究中心股份有限公司 城市轨道交通乘客乘车概率推算方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105608192A (zh) 一种基于用户双词主题模型的短文本推荐方法
Kosinski et al. Mining big data to extract patterns and predict real-life outcomes.
US20150356571A1 (en) Trending Topics Tracking
CN104077417A (zh) 社交网络中的人物标签推荐方法和***
CN107423335B (zh) 一种针对单类协同过滤问题的负样本选择方法
Liu et al. Mining urban perceptions from social media data
JP5754854B2 (ja) 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法
Jeon et al. Hashtag recommendation based on user tweet and hashtag classification on twitter
Wang et al. A multidimensional nonnegative matrix factorization model for retweeting behavior prediction
Joshi et al. Political issue extraction model: A novel hierarchical topic model that uses tweets by political and non-political authors
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
Wahyudi et al. Aspect based sentiment analysis in E-commerce user reviews using Latent Dirichlet Allocation (LDA) and Sentiment Lexicon
Zong et al. Measuring forecasting skill from text
CN112214661A (zh) 一种面向视频常规评论的情感不稳定用户检测方法
Widiyaningtyas et al. Sentiment Analysis Of Hotel Review Using N-Gram And Naive Bayes Methods
Thrane Modelling tourists’ length of stay: A call for a ‘back-to-basic’approach
JP6699031B2 (ja) モデル学習方法、説明文評価方法、及び装置
Lassen et al. Reviewer Preferences and Gender Disparities in Aesthetic Judgments
Paudel et al. Using personality traits information from social media for music recommendation
Walk et al. Displacement and return in the internet Era: Social media for monitoring migration decisions in Northern Syria
Stankevich et al. Analysis of Big Five Personality Traits by Processing of Social Media Users Activity Features.
Zhao et al. A Retweet Number Prediction Model Based on Followers' Retweet Intention and Influence
CN107590742B (zh) 一种基于行为的社交网络用户属性值反演方法
Alvarez-Carmona et al. A comparative analysis of distributional term representations for author profiling in social media
Liang et al. JST-RR model: joint modeling of ratings and reviews in sentiment-topic prediction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160525