CN103425799B - 基于主题的个性化研究方向推荐***和推荐方法 - Google Patents
基于主题的个性化研究方向推荐***和推荐方法 Download PDFInfo
- Publication number
- CN103425799B CN103425799B CN201310396246.0A CN201310396246A CN103425799B CN 103425799 B CN103425799 B CN 103425799B CN 201310396246 A CN201310396246 A CN 201310396246A CN 103425799 B CN103425799 B CN 103425799B
- Authority
- CN
- China
- Prior art keywords
- paper
- user
- theme
- preference value
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000011160 research Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 230000000007 visual effect Effects 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 11
- 201000007094 prostatitis Diseases 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000000205 computational method Methods 0.000 claims description 2
- 230000004069 differentiation Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000007599 discharging Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 27
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011017 operating method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于主题的个性化研究方向推荐***和推荐方法,该推荐***能够根据用户阅读的全部论文、以及根据主题模型训练模块进行训练而得到的这些论文的主题,获悉用户所阅读的论文主题以及其对相关论文主题的偏好,从而为用户推荐新的研究方向,以拓宽用户视野。其创新关键是利用用户与论文、论文与主题三者关系构建三层图模型,并依据三层图模型计算用户对主题的偏好值,再得到用户-主题偏好权值矩阵;在权值矩阵基础上,计算用户与其他用户间的相似用户集合。并通过该集合中相似用户的相似度值,以及这些相似用户对各个主题的偏好值,预测该用户对其未涉及主题的偏好程度,并根据预测结果为该用户推荐研究方向(即研究主题)。
Description
技术领域
本发明涉及一种个性化研究方向推荐***和推荐方法,确切的说,涉及一种针对用户行为进行基于主题的个性化研究方向推荐***和推荐方法,属于数据挖掘和机器学习的技术领域。
背景技术
目前,随着互联网的快速发展,人们正处于一个信息***的时代。面对现阶段的海量信息,如何实现信息的筛选和过滤成为衡量一个网络***性能好坏的重要指标。每个具有良好用户体验的网络***,都会对海量信息进行筛选与过滤,将用户最关注、最感兴趣的信息展现在用户面前。这样既大大增加了网络***的工作效率和效果,也显著节省了用户自己筛选信息的时间。
搜索引擎的出现,在一定程度上解决了信息筛选问题,但是还远远不够。因为搜索引擎需要用户主动提供关键词,以此作为其对海量信息进行筛选的依据。当用户无法准确描述自己的需求时,搜索引擎的筛选效果就将大打折扣。然而,用户将自己的需求和意图转化成关键词的过程,其本身就是一个并不轻松的处理操作过程。故在此背景下,人们研制了推荐***:其任务就是解决上述将用户和信息进行关联的问题:一方面帮助用户发现对自己有价值的信息,另一方面让信息能展现在对其感兴趣的人群中,从而实现信息提供商与用户的双赢。
在学术领域,每年发表有大量的论文、专利和会议集,根据中国科学技术信息研究所2011年底发布的统计数据,2010年美国发表SCI论文39.01万篇,排在世界第一位,中国发表SCI论文14.84万篇(含港澳地区),排在第二位。面对数量如此之多的学术论文,用户需要花费大量的时间才能找到自己所需要的信息。这种浏览大量无关信息的过程,无疑会使淹没在信息过载问题中的大量用户不断流失。在这种背景下,个性化学术推荐***应运而生。个性化学术推荐***是一个依据用户的行为等信息挖掘用户感兴趣的资源,并推荐给用户的网络***。该***采用用户与学术网站进行交互,学术网站通过分析用户的行为等信息,挖掘出用户感兴趣的学术资源,并自动推荐给用户,实现学术网站与用户的双赢。目前,应用较多的个性化学术推荐方法包括:
第一种是协同过滤的学术资源推荐算法,它又包含下述两种方法:
一是基于用户的协同过滤方法:其基本思想相当简单,基于用户对学术资源的偏好寻找其相似的邻居用户,然后将邻居用户喜欢的内容推荐给当前用户。其操作步骤为:
步骤1、先将一个用户对所有学术资源的偏好作为一个向量,用于计算用户之间的相似度,找到K邻居;
步骤2、根据邻居的相似度权重及其对学术资源的偏好,预测当前用户没有偏好或未涉及的学术资源,计算得到一个排序的学术资源列表作为推荐。
二是基于项目的协同过滤方法:其工作原理和基于用户的协同过滤方法类似,只是在计算其邻居时,采用学术资源本身,而不是从用户的角度,即基于用户对学术资源的偏好找到相似的学术资源,然后根据用户的历史偏好,向其推荐相似的学术资源。其操作步骤为:
步骤1,先将所有用户对某个学术资源的偏好作为一个向量,计算各个学术资源之间的相似度,得到每个学术资源的相似学术资源;
步骤2,根据用户的历史偏好,预测当前用户还没有表示偏好的学术资源,计算得到一个排序的学术资源列表作为推荐。
协同过滤的优点是:能够过滤难以进行内容分析的信息,如艺术品,音乐等。可以共享其他人的经验,还避免了内容分析的不完全和不精确,并且能够基于一些复杂的、难以描述的抽象概念(如信息质量、个人品味)进行过滤。具有推荐新信息的功能,可以发现内容上完全不相似的信息,且用户对推荐的内容也是其事先所没有预料到的。
虽然协同过滤作为一种典型的推荐技术有着很好的应用,但是,其也仍然存在许多问题有待解决。最典型的是:稀疏问题(Sparsity)和可扩展问题(Scalability)。
第二种是基于内容的学术用户推荐算法,其核心思想是根据学术资源内容的元数据,发现学术资源内容的相关性,然后基于用户以往的喜好记录,向用户推荐相似的学术资源。其操作步骤为:
步骤1、根据学术资源的内容,并结合用户的行为数据对用户进行建模;
步骤2、通过计算学术资源与目标用户之间的相似度,将相似度排名较高的学术资源推荐给目标用户。
基于内容的推荐方法能够很好地对用户的喜好进行建模,以便提供更精准的推荐。同时,由于推荐是根据学术资源的内容进行计算的,因此,不存在数据稀疏和冷启动问题,并且具有很好的可解释性。
综上所述,现在的学术推荐***与推荐方法依然存在下述两个主要问题:
数据稀疏问题:现在的学术资源推荐***规模越来越大,因论文数量动辄以数百、千、万计,两个用户之间选择的重叠论文数量非常少。导致用户-论文的评分矩阵数据非常稀疏,使得绝大部分基于关联分析的算法(譬如协同过滤)效果都不好。而且,这个问题的本质是无法完全克服的。为了解决这个问题,人们设想了许多办法。譬如,可以通过扩散的算法,从原来的一阶关联(两个用户有多少相似评分或共同浏览的论文)到二阶、甚至更高阶的关联(假设关联性或相似性的本身是可以传播的),也可以添加一些缺省的打分,从而提高相似性的分辨率。因为数据的规模越大,通常其分布就越加稀疏,现在能够处理稀疏数据的算法被认为是更有前途的。
推荐信息量较少的问题:现有的学术论文推荐***通常是依据用户有操作行为记录的论文内容,再计算待推荐的论文与用户浏览过的论文的相似度,并依据该相似度数值的高低顺序对其进行推荐。这样的推荐列表中的论文,大部分是与用户浏览过的论文很相似。从用户角度而言,这样的推荐***确实比较准确,但是,这样很可能导致用户得到一些信息量为0的“精准推荐”,并且,使得用户视野变得越来越狭窄。这样的学术论文推荐***没有任何实际应用价值的。
发明内容
有鉴于此,本发明的目的是提供一种基于主题的个性化研究方向推荐***和推荐方法,本发明充分利用用户与论文、以及论文与主题三者之间的关系,构建出三层图模型,并依据该三层图模型计算用户对主题的偏好值,进而得到用户-主题偏好权值矩阵;再在该权值矩阵基础上,计算用户与其他用户之间的相似用户集合。然后,再通过该集合中用户的相似度值,以及这些用户对各个主题的偏好值,预测该用户对其未涉及主题的偏好程度,并根据预测结果为该用户推荐研究方向(该研究方向也就是研究主题)。
为了达到上述目的,本发明提供了一种基于主题的个性化研究方向推荐***,其特征在于:所述推荐***能够根据用户阅读的全部论文、以及根据主题模型训练模块进行训练而得到的这些论文的主题,获悉用户所阅读的论文主题以及其对相关论文主题的偏好,从而为用户推荐新的研究方向,以拓宽用户视野;该推荐***设有:论文抓取模块、文本预处理模块、主题模型训练模块、三层图模型构建模块、用户-主题偏好权值矩阵计算模块、研究方向推荐模块和数据库;其中:
论文抓取模块,负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述信息:包括标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间,并将每篇论文使用该论文的链接地址用作其标识加以区分后,将抓取的论文全部信息都存储于数据库;
文本预处理模块,负责从数据库中读取每篇论文摘要,并由其分词、词性标注与过滤三个单元依序分别对其进行下述处理:分词单元依据空格、标点符号对论文摘要进行分词;词性标注单元对分词后的论文摘要进行词性标注后,过滤单元提取其中的名词词语,并过滤和删除其中对该论文没有实际意义的停用词,就得到该论文摘要的分词序列,以便提高后续训练和搜索的效率;
主题模型训练模块,负责读取文本预处理模块处理后的论文摘要分词序列,并将其作为论文文本执行下述主题模型训练:根据设定的主题个数,利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合,以使每篇论文文本都具有其对应每个主题的特征向量,并以每篇论文文本的唯一标识进行区分;
三层图模型构建模块,负责根据从数据库中获取用户全部操作行为记录,以及源自主题模型训练模块的训练结果:每篇论文归属于每个主题的主题特征向量,构建分别由所有的用户节点、所有的论文节点和所有的主题节点构成的用户层、论文层和主题层的三层图模型;其中,用户层指向论文层的每条有向边表示用户ui对论文pj有包括阅读、收藏、分享、下载和评分的操作行为,而论文层指向主题层的每条有向边则表示论文pj归属于主题tk;再根据三层图模型中对应边的两种权值计算公式计算各层之间的边的权值;该模块设有:论文偏好值计算单元和三层图模型构建单元;其中的论文偏好值计算单元用于依据用户操作行为记录计算每个用户对其操作过的论文集合中各篇论文的偏好值;三层图模型构建单元用于依据用户对论文的偏好值以及所有论文的主题特征向量构建三层图模型;
用户-主题偏好权值矩阵计算模块,负责依据三层图模型和下述公式计算用户ui对所有论文所涉及的某个主题tk的偏好值:式中,Aij为用户ui对论文pj的偏好值,Tjk为论文pj属于主题tk的权值;自然数i、j和k分别为用户、论文和主题的序号,且其最大值分别为:I、J和K;
研究方向推荐模块,设有顺序连接的相似度计算、主题偏好值计算和研究方向排序三个单元,其中相似度计算单元负责以用户ui对所有论文所涉及的各个主题tk的偏好值作为向量,计算用户ui与其他用户之间的相似度,再根据相似度数值大小对其他用户进行递减排序,并选择位于前列的多个用户作为用户ui的相似用户集合;主题偏好值计算单元依据相似用户集合中的用户相似度值和该集合中的用户us对所有论文所涉及的各个主题tk的偏好值计算用户ui对其未涉及主题的偏好值;研究方向排序单元再依据用户ui对其未涉及主题的偏好值大小对各个主题进行递减排序,形成初始研究方向推荐列表;再从初始研究方向推荐列表中选择位于前列的若干个研究方向作为用户ui的研究方向推荐列表,并存储于数据库中;
数据库,用于存储论文抓取模块抓取的所有论文的全部信息,以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录,每项操作行为记录包括:用户标识、论文标识、具体操作行为和起止时间。
为了达到上述目的,本发明还提供了一种基于主题的个性化研究方向推荐***的推荐方法,其特征在于,包括下述七个操作步骤:
(1)抓取论文:论文抓取模块使用网络爬虫在网络上抓取相关学科技术领域中每篇论文的标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间的论文信息,并使用该论文的链接地址作为其标识区分后;将抓取的该论文全部信息存储于数据库;
(2)对论文摘要进行预处理:使用斯坦福词性标注器StanfordPOSTagger(StanfordLog-LinearPart-Of-SpeechTagger)对论文摘要进行分词、词性标注的预处理操作,并保存词性标记为单数形式名词或物质名词NN(Noun,singularormass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Propernoun,singular)、复数形式名词NPS(Propernoun,plural)的各种名词词语,再过滤并删除没有实际意义的停用词后,同时删除论文摘要分词序列中剩余词语数少于5的论文;
(3)对论文摘要分词序列进行主题模型训练:按照设定的主题个数,使用潜在狄利克雷分布LDA(LatentDirichletAllocation)主题模型对论文摘要分词序列进行主题模型训练,得到该论文的主题特征向量:TSj=(Tj1,Tj2,...,Tjk,...,TjK),且式中,Tjk是第j篇论文在第k个主题下的权值,自然数下标k为是主题序号,其最大值为K;
(4)构建三层图模型:先从数据库中读取所有用户的全部操作行为记录,并从每个用户对论文的所有操作行为记录中,获取该用户有过操作行为的论文标识,并根据下述公式和用户ui对某篇论文pj的操作行为,计算该用户ui对某篇论文pj的偏好值:再读取主题模型训练模块的训练结果:每篇论文归属于每个主题的主题特征向量,并判断每篇论文的主题特征向量中的每个权值是否大于设定阈值;若是,则认为该论文属于对应主题;否则,认为该论文不属于对应主题;
(5)计算用户-主题偏好权值矩阵:依据三层图模型中每个用户对各篇论文的偏好值,以及每篇对应论文属于相应主题的权值,即依据公式计算每个用户ui对所有论文所涉及的每个主题tk的偏好值;
(6)预测用户ui对其未涉及主题的偏好值:将步骤(5)中得到的用户ui对所有论文所涉及的每个主题tk的偏好值矩阵、也就是用户ui的主题特征向量作为向量,其中,表示用户ui对第k个主题tk的偏好值,K为主题的总个数;
接着,依据余弦相似度计算公式 计算用户ui与其他用户之间的相似度;式中,vui和vus分别为两个不同用户、即第i个和第s个用户ui和us的主题特征向量,K为主题总个数,vuik为用户ui对第k个主题的偏好值;再依据用户ui与其他用户之间相似度值大小,对其他用户进行递减排序,选出位于前列的Q个用户作为用户ui的相似用户集合,Q为自然数;
然后,依据上述集合中各个用户的相似度值、每个用户对各个主题的偏好值和公式:预测用户ui对其未涉及主题的偏好;其中,和分别为两个用户ui和us对第k个主题的两个偏好值,和分别为用户ui和us对其所涉及的论文所归属的所有主题偏好值的平均值,v(i,Q)为用户ui位于前列的Q个相似用户组成的集合;
(7)形成研究方向推荐列表:依据步骤(6)预测的用户对其未涉及主题的偏好值,对其未涉及的主题进行排序,选择出位于前列的多个主题作为该用户的研究方向推荐列表,并存储于数据库中,从而实现研究方向的推荐。
由于至今尚未发现有比较理想的为用户推荐学术研究方向的推荐***,因此,本发明基于主题的个性化研究方向推荐***是首创的、为用户推荐新的研究主题或学术研究方向的推荐***,其创新特点和技术是:
本发明推荐***是基于主题推荐新的研究方向,也就是根据用户在该推荐***上有过浏览、下载、分享等操作行为的相关论文,计算该用户所关心的学术主题。然后依据用户对各个主题的偏好值,计算该用户的相似用户集合。再基于该集合中用户的相似度值和其余各用户对其他各个主题的偏好,预测该用户对其未涉及主题的偏好值。最后依据预测的偏好值向其推荐新的研究主题或方向。因此,本发明充分利用用户对相关学术论文的偏好或兴趣,再依据论文主题模型进行训练,得到每篇论文对应各个主题的主题特征向量、即每篇论文归属于每个主题的主题分布权值矩阵,从而能够更准确地体现每个用户对各个主题的偏好。
由于本发明推荐***是为用户推荐新的研究方向、即其未涉及的主题,能够开阔用户视野,从而克服了现有学术论文推荐***导致用户视野越来越窄的缺陷。而且,尽管本发明***采用了基于用户的协同过滤思路,但是,因为其推荐是基于主题进行训练、计算得到的,因此能够克服数据稀疏问题。
本发明推荐***的创新关键是基于用户、论文和主题的三层图模型计算得到用户-主题的偏好权值矩阵。而且,在该三层图模型中,不仅考虑论文与其主题的关系,还考虑用户对各篇论文的偏好值以及时间因素。这样,计算得到的用户对主题的偏好权值矩阵更加准确、实用。
另外,本发明推荐***和推荐方法都是针对主题进行推荐,而且,设置的主题个数通常为100~150个,因此,本发明在一定程度上解决了数据稀疏性问题。总之,本发明基于主题的个性化研究方向推荐***和推荐方法具有很好的推广应用前景。
附图说明
图1是本发明基于主题的个性化研究方向推荐***的结构组成示意图。
图2是本发明推荐***中的用户层、论文层和主题层的三层图结构示意图。
图3是本发明基于主题的个性化研究方向推荐***的推荐方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
本发明基于主题的研究方向推荐***是根据用户对其执行过操作行为的该***内的全部论文、以及根据主题模型训练模块进行训练而得到的这些论文的主题,获悉用户所阅读的论文主题以及其对相关论文主题的偏好,从而为该用户推荐新的研究方向,以拓宽用户视野;该推荐***设有:论文抓取模块、文本预处理模块、主题模型训练模块、三层图模型构建模块、用户-主题偏好矩阵计算模块、研究方向推荐模块和数据库。
参见图1,介绍本发明基于主题的研究方向推荐***结构组成中的七个组成部件的功能:
(一)论文抓取模块:负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述内容:包括标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间,并将每篇论文使用该论文的链接地址用作标识加以区分后,将抓取的论文全部信息都存储于数据库。
(二)文本预处理模块:负责从数据库中读取每篇论文摘要,并由其分词、词性标注与过滤三个单元依序分别对其进行处理后,得到该论文摘要的分词序列,以便提高后续训练和搜索的效率。其中,分词单元依据空格、标点符号对论文摘要进行分词;词性标注单元对分词后的论文摘要进行词性标注后,过滤单元提取其中的名词词语,并过滤和删除其中对该论文没有实际意义的停用词。
(三)主题模型训练模块:负责读取来自文本预处理模块的论文摘要的分词序列,并将其作为论文文本执行下述主题模型训练:根据设定的主题个数(本发明实施例的主题个数为100~150个),利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的主题分布权值集合,以使每篇论文文本都具有其对应每个主题的特征向量,然后以每篇论文文本的标识进行区分。
(四)三层图模型构建模块:作为该***的关键模块,负责根据从数据库中获取用户全部操作行为记录,以及源自主题模型训练模块的训练结果:每篇论文归属于每个主题的主题特征向量,构建分别由所有的用户节点、所有的论文节点和所有的主题节点构成的用户层、论文层和主题层的三层图模型(参见图2)。该三层图模型的结构组成是:由分别位于用户层、论文层和主题层三层中的各个节点,以及用户层与论文层之间的各个边和论文层与主题层之间的各个边所组成。其中,用户层指向论文层的每条有向边表示用户ui对论文pj有包括阅读、收藏、分享、下载和评分的操作行为,而论文层指向主题层的每条有向边则表示论文pj归属于主题tk。再根据三层图模型中对应边的权值计算公式计算各层之间的边的权值;该模块设有:论文偏好值计算单元和三层图模型构建单元。其中的论文偏好值计算单元用于依据用户操作行为计算每个用户对其操作过的论文集合中各篇论文的偏好值;三层图模型构建单元用于依据用户对论文的偏好值以及论文-主题分布权值矩阵构建三层图模型。
参见图2,再具体介绍本发明推荐***中的关键技术—三层图模型:
定义该三层图模型的数学表达式为:G={V,E},其中,
节点集合V={U,P,T}中的三类节点的集合:
U={u1,u2,...,ui,...,uI}为用户层中表示所有用户的全部用户节点的集合,
P={p1,p2,...,pj,...,pJ}为论文层中表示所有论文的全部论文节点的集合,
T={t1,t2,...,tk,...,tK}为主题层中表示所有主题的全部主题节点的集合。
自然数i、j和k分别为用户、论文和主题的序号,且其最大值分别为:I、J和K。
边的集合E={S,L}为下述两类边的集合:
S={S11,S12,...,Sij,...,SIJ}为所有用户节点与所有论文节点之间的边的集合,边Sij表示用户ui对该论文pj有操作行为,并以Aij作为边Sij的权值,表示该用户ui对某篇论文pj的偏好值;
L={L11,L12,...,Ljk,...,LJK}为所有论文节点与所有主题节点之间的边的集合,边Ljk表示论文pj属于主题tk的权值大于设定阈值,也以Tjk作为边Ljk的权值,表示该论文pj归属于主题tk的程度。
三层图模型中,用户ui与论文pj之间的边的权值,即用户ui对论文pj的偏好值Aij的计算公式为:用户ui对某篇论文pj的偏好值Aij的涵义是用户ui对该论文pj有包括阅读、收藏、分享和下载的点击操作行为;式中,为时间衰减系数,表示随着时间推移,用户对该论文的偏好程度会降低,μ为衰减因子,时间因子(t-tij)中的t为当前时间,tij为用户ui对该论文pj的操作时刻;fij为用户ui在tij时刻对该论文pj的评分、即此时用户ui对论文pj的偏好值,fij的计算方法有下述两种:
(a)若用户ui对该论文pj有评分时,fij的数值是用户ui对论文pj的评分值;
(b)若用户ui对该论文pj没有评分时,则根据用户的不同操作行为或阅读该论文pj的时长计算fij的数值:其中,ti,j为用户ui阅读论文pj的时长,α和β分别为用户ui浏览论文pj的时长下限值和上限值。
三层图模型中,论文pj与主题tk之间的边的权值Tjk是论文pj归属于设定主题tk的程度,也被称为该论文pj归属于每个主题的主题分布权值、即主题特征向量TSj=(Tj1,Tj2,...,Tjk,...,TjK)中的一个元素,且该主题特征向量TSj是由主题模型训练模块将论文文本进行主题模型训练计算得到的。
(五)用户-主题偏好权值矩阵计算模块:负责依据三层图模型和下述公式计算用户ui对所有论文所涉及的某个主题tk的偏好值:式中,Aij为用户ui对论文pj的偏好值,Tjk为论文pj属于主题tk的权值;自然数i、j和k分别为用户、论文和主题的序号,且其最大值分别为:I、J和K。
(六)研究方向推荐模块:负责以用户对各个主题的偏好值作为向量,计算用户与其他用户之间的相似度,再根据相似度数值大小对用户进行排序,选出位于前列的多个用户作为该用户的相似用户集合。再依据该集合中用户的相似度值和用户对各个主题的偏好,计算该用户对其未涉及主题的偏好值。接着,依据该用户对其未涉及主题的偏好值,对这些主题进行排序并形成初始研究方向推荐列表。最后,从初始研究方向推荐列表中选择位于前列的多个(例如8~15个)研究方向作为该用户的研究方向推荐列表,并保存于数据库中。
研究方向推荐模块设有顺序连接的相似度计算、主题偏好值计算和研究方向排序三个单元,其中相似度计算单元负责以用户ui对所有论文所涉及的各个主题tk的偏好值作为向量,计算用户ui与其他用户之间的相似度,再根据相似度数值大小对其他用户进行递减排序,并选择位于前列的多个用户作为用户ui的相似用户集合;主题偏好值计算单元依据相似用户集合中的用户相似度值和该集合中的用户us对所有论文所涉及的各个主题tk的偏好值计算用户ui对其未涉及主题的偏好值;研究方向排序单元再依据用户ui对其未涉及主题的偏好值大小对各个主题进行递减排序,形成初始研究方向推荐列表;再从初始研究方向推荐列表中选择位于前列的若干个研究方向作为用户ui的研究方向推荐列表,并存储于数据库中。
(七)数据库:用于存储论文抓取模块抓取的所有论文的全部信息,以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录,每项操作行为记录包括:用户标识、论文标识、具体操作行为和起止时间。
参见图3,结合本发明实施例的具体情况,介绍本发明基于主题的个性化研究方向推荐***的推荐方法的下述七个具体操作步骤:
步骤1,抓取论文:论文抓取模块使用网络爬虫在网络上抓取相关科学技术领域中每篇论文的标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间的论文信息,并使用该论文的链接地址作为标识区分后;将抓取的该论文全部信息存储于数据库。
步骤2,对论文摘要进行预处理:使用斯坦福词性标注器StanfordPOSTagger(StanfordLog-LinearPart-Of-SpeechTagger)对论文摘要进行分词、词性标注的预处理操作,并保存词性标记为单数形式名词或物质名词NN(Noun,singularormass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Propernoun,singular)、复数形式名词NPS(Propernoun,plural)的各种名词词语,再过滤并删除没有实际意义的停用词后,还删除剩余词语数少于5的论文摘要,最后,得到预处理后符合条件的论文摘要分词序列。
步骤3,对论文摘要分词序列进行主题模型训练:按照设定的主题个数(实施例为100),使用潜在狄利克雷分布LDA(LatentDirichletAllocation)主题模型对论文摘要分词序列进行主题模型训练,得到该论文的主题特征向量:TSj=(Tj1,Tj2,...,Tjk,...,TjK),且式中,Tjk是第j篇论文在第k个主题下的权值,自然数下标k为是主题序号,其最大值为K;然后以每篇论文文本的标识进行区分。
步骤4,构建三层图模型:先从数据库中获取所有用户的全部操作行为记录,再从每个用户对论文的所有操作行为记录中,获取该用户有过操作行为的论文标识,并根据下述公式和用户ui对某篇论文pj的操作行为,计算该用户ui对某篇论文pj的偏好值:再读取主题模型训练模块的训练结果:每篇论文归属于每个主题的主题特征向量,并判断每篇论文的主题特征向量中的每个权值是否大于设定阈值;若是,则认为该论文属于对应主题;否则,认为该论文不属于对应主题;根据上述计算得到的用户对论文的偏好值和论文归属于主题的主题特征向量,构建分别由所有的用户节点、所有的论文节点和所有的主题节点构成的用户层、论文层和主题层的三层图模型。
步骤5,计算用户-主题偏好权值矩阵:依据三层图模型中每个用户对各篇论文的偏好值,以及每篇对应论文属于相应主题的权值,即依据公式计算每个用户ui对所有论文所涉及的每个主题tk的偏好值。
步骤6,预测用户ui对其未涉及主题的偏好值:将步骤5中得到的用户ui对所有论文所涉及的每个主题tk的偏好值矩阵、也就是用户ui的主题特征向量作为向量,其中,表示用户ui对第k个主题tk的偏好值,K为主题的总个数。
再依据余弦相似度计算公式 计算用户ui与其他用户之间的相似度;式中,vui和vus分别为两个不同用户、即第i个和第s个用户ui和us的主题特征向量,K为主题总个数,vuik为用户ui对第k个主题的偏好值;再依据用户ui与其他用户之间相似度值大小,对其他用户进行递减排序,选出位于前列的Q个(实施例为8个)用户作为用户ui的相似用户集合,Q为自然数。
然后,依据上述集合中各个用户的相似度值、每个用户对各个主题的偏好值和公式:预测该用户ui对其未涉及主题的偏好;其中,和分别为两个用户ui和us对第k个主题的两个偏好值,和分别为用户ui和us对其所涉及的论文所归属的所有主题偏好值的平均值,v(i,Q)为用户ui位于前列的Q个相似用户组成的集合。
步骤7,形成研究方向推荐列表:依据步骤(6)预测的用户对其未涉及主题的偏好值,对其未涉及的主题进行排序,再选择出位于前列的多个主题作为用户的研究方向推荐列表,并存储于数据库中,从而实现研究方向的推荐。
本发明已经进行了多次实施试验,试验的结果是成功的,实现了发明目的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (5)
1.一种基于主题的个性化研究方向推荐***,其特征在于:所述推荐***能够根据用户阅读的全部论文、以及根据主题模型训练模块进行训练而得到的这些论文的主题,获悉用户所阅读的论文主题以及其对相关论文主题的偏好,从而为用户推荐新的研究方向,以拓宽用户视野;该推荐***设有:论文抓取模块、文本预处理模块、主题模型训练模块、三层图模型构建模块、用户-主题偏好权值矩阵计算模块、研究方向推荐模块和数据库;其中:
论文抓取模块,负责采用网络爬虫抓取相关学科技术领域中每篇论文的下述信息:包括标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间,并将每篇论文使用该论文的链接地址用作其标识加以区分后,将抓取的论文全部信息都存储于数据库;
文本预处理模块,负责从数据库中读取每篇论文摘要,并由其分词、词性标注与过滤三个单元依序分别对其进行下述处理:分词单元依据空格、标点符号对论文摘要进行分词,词性标注单元对分词后的论文摘要进行词性标注后,过滤单元提取其中的名词词语,并过滤和删除其中对该论文没有实际意义的停用词,就得到该论文摘要的分词序列,以便提高后续训练和搜索的效率;
主题模型训练模块,负责读取文本预处理模块处理后的论文摘要分词序列,并将其作为论文文本执行下述主题模型训练:根据设定的主题个数,利用主题模型对每篇论文文本生成其对应每个主题的主题特征向量、即每篇论文归属于每个主题的分布权值集合,以使每篇论文文本都具有其对应每个主题的特征向量,并以每篇论文文本的标识进行区分;
三层图模型构建模块,负责根据从数据库中获取用户全部操作行为记录,以及源自主题模型训练模块的每篇论文归属于每个主题的主题特征向量,构建分别由所有的用户节点、所有的论文节点和所有的主题节点构成的用户层、论文层和主题层的三层图模型;其中,用户层指向论文层的每条有向边表示用户ui对论文pj有包括阅读、收藏、分享、下载和评分的操作行为,而论文层指向主题层的每条有向边则表示论文pj归属于主题tk;再根据三层图模型中对应边的两种权值计算公式计算各层之间的边的权值;该模块设有:论文偏好值计算单元和三层图模型构建单元;其中的论文偏好值计算单元用于依据用户操作行为记录计算每个用户对其操作过的论文集合中各篇论文的偏好值;三层图模型构建单元用于依据用户对论文的偏好值以及所有论文的主题特征向量构建三层图模型;
用户-主题偏好权值矩阵计算模块,负责依据三层图模型和下述公式计算用户ui对所有论文所涉及的某个主题tk的偏好值:式中,Aij为用户ui对论文pj的偏好值,Tjk为论文pj属于主题tk的权值;自然数i、j和k分别为用户、论文和主题的序号,且其最大值分别为:I、J和K;
研究方向推荐模块,设有顺序连接的相似度计算、主题偏好值计算和研究方向排序三个单元,其中相似度计算单元负责以用户ui对所有论文所涉及的各个主题tk的偏好值作为向量,计算用户ui与其他用户之间的相似度,再根据相似度数值大小对其他用户进行递减排序,并选择位于前列的多个用户作为用户ui的相似用户集合;主题偏好值计算单元依据相似用户集合中的用户相似度值和该集合中的用户us对所有论文所涉及的各个主题tk的偏好值计算用户ui对其未涉及主题的偏好值;研究方向排序单元再依据用户ui对其未涉及主题的偏好值大小对各个主题进行递减排序,形成初始研究方向推荐列表;再从初始研究方向推荐列表中选择位于前列的若干个研究方向作为用户ui的研究方向推荐列表,并存储于数据库中;
数据库,用于存储论文抓取模块抓取的所有论文的全部信息,以及所有用户对存储的论文执行的包括阅读、收藏、分享、下载和评分的全部操作行为记录,每项操作行为记录包括:用户标识、论文标识、具体操作行为和起止时间。
2.根据权利要求1所述的推荐***,其特征在于:所述三层图模型构建模块构建的三层图模型是由分别位于用户层、论文层和主题层三层中的各个节点,以及用户层与论文层之间的边和论文层与主题层之间的边所组成,并定义该三层图模型的数学表达式为:G={V,E},式中,节点集合V={U,P,T}为下述三类节点的集合:U={u1,u2,...,ui,...,uI}为用户层中的所有用户节点的集合,P={p1,p2,...,pj,...,pJ}为论文层中的所有论文节点的集合,T={t1,t2,...,tk,...,tK}为主题层中的所有主题节点的集合;边的集合E={S,L}为下述两类边的集合:S={S11,S12,...,Sij,...,SIJ}为所有用户节点与所有论文节点之间的边的集合,边Sij表示用户ui对该论文pj有操作行为,并以Aij作为边Sij的权值,表示该用户ui对某篇论文pj的偏好值;L={L11,L12,...,Ljk,...,LJK}为所有论文节点与所有主题节点之间的边的集合,边Ljk表示论文pj属于主题tk的权值大于设定阈值,也以Tjk作为边Ljk的权值,表示该论文pj归属于主题tk的程度。
3.根据权利要求2所述的推荐***,其特征在于:所述三层图模型中,用户ui与论文pj之间的边的权值,即用户ui对论文pj的偏好值Aij的计算公式为:式中,为时间衰减系数,表示随着时间的推移,用户对该论文的偏好值会降低,其中,μ为衰减因子,时间因子(t-tij)中的t为当前时间,tij为用户ui对该论文pj的操作时刻;fij为用户ui在tij时刻对该论文pj的评分、即此时用户ui对论文pj的偏好值,fij的计算方法有下述两种:
(a)若用户ui对该论文pj有评分时,fij的数值是用户ui对论文pj的评分值;
(b)若用户ui对该论文pj没有评分时,则根据用户的不同操作行为或阅读该论文pj的时长计算fij的数值:其中,t’ij为用户ui阅读论文pj的时长,α和β分别为用户ui阅读论文pj的时长下限值和上限值。
4.根据权利要求2所述的推荐***,其特征在于:所述三层图模型中,论文pj与主题tk之间的边的权值Tjk是论文pj归属于设定主题tk的程度,也被称为该论文pj归属于每个主题的主题分布权值,即主题特征向量TSj=(Tj1,Tj2,...,Tjk,...,TjK)中的一个元素,且该主题特征向量TSj是由主题模型训练模块将论文文本进行主题模型训练计算得到的。
5.一种基于主题的个性化研究方向推荐***的推荐方法,其特征在于,包括下述七个操作步骤:
(1)抓取论文:论文抓取模块使用网络爬虫在网络上抓取相关学科技术领域中每篇论文的标题、摘要、关键词、链接地址、作者、所登载的期刊/会议名称、引用数量和发表时间的论文信息,并使用论文的链接地址作为其标识区分后;将抓取的论文全部信息存储于数据库;
(2)对论文摘要进行预处理:使用斯坦福词性标注器StanfordPOSTagger(StanfordLog-LinearPart-Of-SpeechTagger)对论文摘要进行分词、词性标注的预处理操作,并保存词性标记为单数形式名词或物质名词NN(Noun,singularormass)、复数形式名词NNS(Noun,plural)、单数形式专有名词NP(Propernoun,singular)、复数形式名词NPS(Propernoun,plural)的各种名词词语,再过滤并删除没有实际意义的停用词后,同时删除论文摘要分词序列中剩余词语数少于5的论文;
(3)对论文摘要分词序列进行主题模型训练:按照设定的主题个数,使用潜在狄利克雷分布LDA(LatentDirichletAllocation)主题模型对论文摘要分词序列进行主题模型训练,得到该论文的主题特征向量:TSj=(Tj1,Tj2,...,Tjk,...,TjK),且式中,Tjk是第j篇论文在第k个主题下的权值,自然数下标k为是主题序号,其最大值为K;
(4)构建三层图模型:先从数据库中读取所有用户的全部操作行为记录,再从每个用户对论文的所有操作行为记录中,获取该用户有过操作行为的论文标识,并根据下述公式和用户ui对某篇论文pj的操作行为,计算该用户ui对某篇论文pj的偏好值:再读取主题模型训练模块的训练结果:每篇论文归属于每个主题的主题特征向量,并判断每篇论文的主题特征向量中的每个权值是否大于设定阈值;若是,则认为该论文属于对应主题;否则,认为该论文不属于对应主题;
(5)计算用户-主题偏好权值矩阵:依据三层图模型中每个用户对各篇论文的偏好值,以及每篇对应论文属于相应主题的权值,即依据公式计算每个用户ui对所有论文所涉及的每个主题tk的偏好值;
(6)预测用户ui对其未涉及主题的偏好值:将步骤(5)中得到的用户ui对所有论文所涉及的每个主题tk的偏好值、也就是用户ui的主题特征向量作为向量,其中,表示用户ui对第k个主题tk的偏好值,K为主题的总个数;
接着,依据余弦相似度计算公式计算用户ui与其他用户之间的相似度;式中,vui和vus分别为两个不同用户、即第i个和第s个用户ui和us的主题特征向量,K为主题总个数,vuik为用户ui对第k个主题的偏好值;再依据用户ui与其他用户之间相似度值大小,对其他用户进行递减排序,选出位于前列的Q个用户作为用户ui的相似用户集合,Q为自然数;
然后,依据上述相似用户集合中各个用户的相似度值、每个用户对各个主题的偏好值和公式:预测用户ui对其未涉及主题的偏好;其中,和分别为两个用户ui和us对第k个主题的两个偏好值,和分别为用户ui和us对其所涉及的论文所归属的所有主题偏好值的平均值,v(i,Q)为用户ui位于前列的Q个相似用户组成的集合;
(7)形成研究方向推荐列表:依据步骤(6)预测的用户对其未涉及主题的偏好值,对其未涉及的主题进行排序,选择出位于前列的多个主题作为该用户的研究方向推荐列表,并存储于数据库中,从而实现研究方向的推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310396246.0A CN103425799B (zh) | 2013-09-04 | 2013-09-04 | 基于主题的个性化研究方向推荐***和推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310396246.0A CN103425799B (zh) | 2013-09-04 | 2013-09-04 | 基于主题的个性化研究方向推荐***和推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103425799A CN103425799A (zh) | 2013-12-04 |
CN103425799B true CN103425799B (zh) | 2016-06-15 |
Family
ID=49650536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310396246.0A Expired - Fee Related CN103425799B (zh) | 2013-09-04 | 2013-09-04 | 基于主题的个性化研究方向推荐***和推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103425799B (zh) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699625B (zh) * | 2013-12-20 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于关键词进行检索的方法及装置 |
CN103886067B (zh) * | 2014-03-20 | 2017-01-18 | 浙江大学 | 使用标签隐含主题进行图书推荐的方法 |
CN103995856B (zh) * | 2014-05-14 | 2017-04-19 | 北京奇虎科技有限公司 | 一种提供图像搜索的方法和装置 |
CN105574003B (zh) * | 2014-10-10 | 2019-03-01 | 华东师范大学 | 一种基于评论文本和评分分析的信息推荐方法 |
CN104281718B (zh) * | 2014-11-04 | 2018-03-02 | 深圳市英威诺科技有限公司 | 一种基于用户群体行为数据挖掘智能推荐的方法 |
CN104298776B (zh) * | 2014-11-04 | 2017-12-22 | 苏州大学 | 基于lda模型的搜索引擎结果优化*** |
CN104850578B (zh) * | 2015-03-19 | 2018-04-20 | 浙江工商大学 | 一种基于lda算法的社会化网络交互活动用户兴趣挖掘方法 |
CN104899273B (zh) * | 2015-05-27 | 2017-08-25 | 东南大学 | 一种基于话题和相对熵的网页个性化推荐方法 |
CN104915426B (zh) * | 2015-06-12 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 信息排序方法、用于生成信息排序模型的方法及装置 |
CN106326217A (zh) * | 2015-06-15 | 2017-01-11 | 华东师范大学 | 一种基于随机算法的分布式实体匹配方法 |
CN104991891B (zh) * | 2015-07-28 | 2018-03-30 | 北京大学 | 一种短文本特征提取方法 |
US9880627B2 (en) * | 2015-12-15 | 2018-01-30 | Immersion Corporation | Automated haptic setting generation |
CN105787055B (zh) * | 2016-02-26 | 2020-04-21 | 合一网络技术(北京)有限公司 | 信息推荐方法及装置 |
CN106202299B (zh) * | 2016-07-01 | 2020-05-12 | 复旦大学 | 一种基于残疾人特征的残疾人权威用户推荐方法 |
CN106202391A (zh) * | 2016-07-08 | 2016-12-07 | 深圳市中北明夷科技有限公司 | 一种用户社群的自动分类方法及装置 |
CN106651519B (zh) * | 2016-12-23 | 2019-11-12 | 广州赛宝认证中心服务有限公司 | 基于标签信息的个性化推荐方法和*** |
CN106960025B (zh) * | 2017-03-19 | 2019-09-27 | 北京工业大学 | 一种基于领域知识图谱的个性化文献推荐方法 |
CN107038226B (zh) * | 2017-03-31 | 2019-10-15 | 努比亚技术有限公司 | 一种信息推荐方法及网络设备 |
CN107731285B (zh) * | 2017-05-10 | 2022-08-19 | 上海明品医学数据科技有限公司 | 一种分级教育***教育贡献度计算方法 |
CN107122495A (zh) * | 2017-05-24 | 2017-09-01 | 苏州唯亚信息科技股份有限公司 | 适用于专利公开科技数据库的信息抓取方法 |
CN107463645A (zh) * | 2017-07-21 | 2017-12-12 | 雷锤智能科技南京有限公司 | 基于用户属性评分导向的个性化推荐***及其推荐方法 |
CN107729416B (zh) * | 2017-09-27 | 2021-11-19 | 杭州泰酷科技有限公司 | 一种书籍的推荐方法及*** |
CN108052520A (zh) * | 2017-11-01 | 2018-05-18 | 平安科技(深圳)有限公司 | 基于主题模型的关联词分析方法、电子装置及存储介质 |
CN108038133A (zh) * | 2017-11-20 | 2018-05-15 | 青岛鹏海软件有限公司 | 个性化推荐方法 |
CN108231200B (zh) * | 2018-01-11 | 2020-06-30 | 浙江大学 | 一种基于主题模型和ilp的看病攻略生成方法 |
CN108108497A (zh) * | 2018-01-29 | 2018-06-01 | 上海名轩软件科技有限公司 | 关键词推荐方法及设备 |
CN108630290B (zh) * | 2018-05-04 | 2020-07-03 | 浙江大学 | 一种面向慢病患者的健康知识个性化推荐方法和*** |
CN109040164B (zh) * | 2018-05-21 | 2021-11-26 | 阿里巴巴(中国)有限公司 | 应用推荐方法、装置、存储介质及计算机设备 |
CN109299257B (zh) * | 2018-09-18 | 2020-09-15 | 杭州科以才成科技有限公司 | 一种基于lstm和知识图谱的英文期刊推荐方法 |
CN109857935B (zh) * | 2019-01-24 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
CN110688474B (zh) * | 2019-09-03 | 2023-03-14 | 西北工业大学 | 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 |
CN111563177B (zh) * | 2020-05-15 | 2023-05-23 | 深圳掌酷软件有限公司 | 一种基于余弦算法的主题壁纸推荐方法及*** |
CN111666401B (zh) * | 2020-05-29 | 2023-06-30 | 平安科技(深圳)有限公司 | 基于图结构的公文推荐方法、装置、计算机设备及介质 |
CN111723578B (zh) * | 2020-06-09 | 2023-11-17 | 平安科技(深圳)有限公司 | 基于随机游走模型的热点预测方法、装置和计算机设备 |
CN112182153B (zh) * | 2020-09-24 | 2024-03-08 | 武汉大学 | 一种阅读内容主题重组框架生成方法及装置 |
CN116089712B (zh) * | 2022-12-29 | 2024-03-29 | 无锡东方健康科技有限公司 | 基于数据挖掘与分析的热门会议推荐方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8161052B2 (en) * | 2008-01-30 | 2012-04-17 | Hewlett-Packard Development Company, L.P. | Information module recommendation |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN103049575A (zh) * | 2013-01-05 | 2013-04-17 | 华中科技大学 | 一种主题自适应的学术会议搜索*** |
-
2013
- 2013-09-04 CN CN201310396246.0A patent/CN103425799B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8161052B2 (en) * | 2008-01-30 | 2012-04-17 | Hewlett-Packard Development Company, L.P. | Information module recommendation |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN103049575A (zh) * | 2013-01-05 | 2013-04-17 | 华中科技大学 | 一种主题自适应的学术会议搜索*** |
Non-Patent Citations (3)
Title |
---|
Collaborative topic modeling for recommending scientific articles;Chong Wang等;《KDD "11 Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining》;20111231;448-456 * |
Combining social network and semantic concept analysis for personalized academic researcher commendation;Yunhong Xu 等;《Decision Support Systems》;20121231;第54卷(第1期);564-573 * |
Related paper recommendation to support online-browsing of research papers;Ohta, M 等;《Applications of Digital Information and Web Technologies (ICADIWT), 2011 Fourth International Conference on the》;20110806;130-136 * |
Also Published As
Publication number | Publication date |
---|---|
CN103425799A (zh) | 2013-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103425799B (zh) | 基于主题的个性化研究方向推荐***和推荐方法 | |
Song et al. | Environmental performance evaluation with big data: Theories and methods | |
Weismayer et al. | Identifying emerging research fields: a longitudinal latent semantic keyword analysis | |
CN104794212B (zh) | 基于用户评论文本的上下文情感分类方法及分类*** | |
CN103177090B (zh) | 一种基于大数据的话题检测方法及装置 | |
CN104268292B (zh) | 画像***的标签词库更新方法 | |
CN107944986A (zh) | 一种o2o商品推荐方法、***及设备 | |
CN107577759A (zh) | 用户评论自动推荐方法 | |
CN106339502A (zh) | 一种基于用户行为数据分片聚类的建模推荐方法 | |
CN103914478A (zh) | 网页训练方法及***、网页预测方法及*** | |
Li et al. | A fuzzy comprehensive evaluation algorithm for analyzing electronic word-of-mouth | |
Zhang et al. | An approach of service discovery based on service goal clustering | |
Wang et al. | Sentiment-aware multi-modal recommendation on tourist attractions | |
He et al. | Word embedding based document similarity for the inferring of penalty | |
Sharafat et al. | Legal data mining from civil judgments | |
Jishag et al. | Automated review analyzing system using sentiment analysis | |
Wilson et al. | Fuzzy logic ranking for personalized geographic information retrieval | |
Tomar et al. | Mining public opinion on plastic ban in India | |
Elbaghazaoui et al. | Optimized influencers profiling from social media based on Machine Learning | |
Hardita et al. | Mandalika Modeling Topic on Social Media Using Latent Dirichlet Allocation | |
Amira et al. | Opinion Analysis of Traveler Based on Tourism Site Review Using Sentiment Analysis | |
Suresh | Restaurant Review System based on Sentimental Analysis using R Language | |
Unnikrishnan et al. | A Literature Review of Sentiment Evolution | |
Kohli | Exploring Topic Modeling in The Domain of Integrated Water Resource Management | |
Jiang et al. | The analysis of china’s integrity situation based on big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160615 |