CN103530402A - 一种基于改进的PageRank的微博关键用户识别方法 - Google Patents

一种基于改进的PageRank的微博关键用户识别方法 Download PDF

Info

Publication number
CN103530402A
CN103530402A CN201310502924.7A CN201310502924A CN103530402A CN 103530402 A CN103530402 A CN 103530402A CN 201310502924 A CN201310502924 A CN 201310502924A CN 103530402 A CN103530402 A CN 103530402A
Authority
CN
China
Prior art keywords
microblogging
network
pagerank
key
microblog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310502924.7A
Other languages
English (en)
Inventor
程工
刘春阳
张旭
庞琳
吴俊杰
韩洋
刘洪甫
韩小汀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201310502924.7A priority Critical patent/CN103530402A/zh
Publication of CN103530402A publication Critical patent/CN103530402A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于改进的PageRank的微博关键用户识别方法,包括输入微博信息数据,其中包括n条微博;对n条微博文本进行分词处理;根据分词结果建立倒排索引结构,便于根据指定关键词检索;根据检索到的相关微博提取其转发层级信息,构建加权有向图即转发网络G;将转发网络G划分为若干个极大连通子图Gi;利用并行化计算技术在每个子网络Gi应用PageRank算法;将各个子网络的计算结果融合生成整个网络生成整个网络G的排序结果;将排序结果选择前m条作为关键用户输出。本发明采用并行计算技术,在大数据环境下针对微博平台的动态转发网络进行排序计算,从而识别信息传播过程中的关键用户,应用于网络舆情分析等领域。

Description

一种基于改进的PageRank的微博关键用户识别方法
技术领域
本发明涉及微博关键用户识别方法,特别是一种基于改进的PageRank的微博关键用户识别方法,属于复杂网络和数据挖掘领域,特别针对海量的微博数据分析。
背景技术
微博平台关键用户是对信息的传播与扩散起到重要作用的用户。关键用户在大众传播效果的形成过程中起着重要的中介或过滤的作用,他们将信息扩散给受众,形成信息的级联传播。因此,关键用户的识别在信息的发现以及传播分析方面起到重要的作用,对于网络舆情分析等工作具有重大指导意义。然而,基于内容的关键用户识别,由于微博短文本的特点往往不够准确;基于结构的关键用户识别,即认为由用户构成的网络结构中关键用户均是重要节点,并且只考虑静态的关注粉丝关系网络,但由于相关度、用户活跃度等原因导致很多重要节点并不具备关键用户的特征。有鉴于此,本发明结合内容和网络结构两方面特点,利用微博平台中的转发信息构建主题相关的动态网络,将关键用户的识别转化为有向图上基于PageRank的排序问题。另外,考虑到微博平台具有海量数据的特点,动态生成的网络往往规模巨大,并且需要即时计算结果,因此传统的幂迭代算法在计算时间与空间上的消耗都难以满足需求。采用并行计算技术可以将大规模的计算分解到若干可扩展的计算节点上,降低了算法的时空复杂度以及对于单节点的计算能力的要求,特别适合在云计算平台上部署与应用。所以本发明采用MapReduce实现PageRank并行计算,在大数据环境下针对微博短文本信息进行挖掘,从而识别信息传播过程中的关键用户。
发明内容
本发明提出一种基于改进的PageRank的微博平台关键用户识别方法。该方法以PageRank为核心,从微博文本结构提取转发信息构建由转发关系形成的网络,进而利用PageRank最终获得具有高鲁棒性和高质量的关键用户识别结果。利用转发关系可以得到查询相关的质量较高的动态转发网络,从一定程度上克服由短文本、相关性、静态网络结构导致的劣解;多个动态转发网络通过PageRank分别计算后进行组合提高计算效率和算法鲁棒性。一种基于改进的PageRank的微博关键用户识别方法,包括如下步骤:
步骤1:利用网络爬虫和微博API收集互联网上的微博客数据,主要包括微博的作者信息、文本信息、原创作者信息以及时间信息。
步骤2:将微博数据中的文本数据进行分词处理。
步骤3:停用词移除、词干提取。
步骤4:构建倒排索引结构,便于快速从关键词检索微博。
步骤5:动态转发网络的构建,针对每一条转发的微博提取其转发层级信息,如图2所示,包括从原创作者到发表作者以及之间传播经过的用户,由此构建有向网络,节点为用户,边为转发的关系,这里是将信息流相反的方向作为边的方向,边的权重为转发出现的次数,方向为作者指向其转发的作者,最终形成的数据结构为加权有向图。
步骤6:转发网络的分解,将转发网络G划分为若干个极大连通子图,对于每一个子网络Gi,赋予其权重,即Wi=V(Gi)/V(G),其中V(G)代表图G中的节点数。
步骤7:并行迭代,求解子网络中每个节点的PageRank(pr)值。
(1)初始阶段,对于每个子网络Gi的每一个节点v赋予初始PageRank值pri0(v)=1/V(Gi)。
(2)迭代阶段,利用MapReduce并行技术计算子网中各节点PageRank值,其计算公式为prik=((1-d)E/n+dAi T)prik-1,其中k为当前迭代阶段;d为阻尼系数,一般设为0.85;n为网络中的节点数;E为全1向量;Ai为子网络Gi的邻接矩阵。迭代的终止条件可以为k达到指定的阈值或两次迭代产生的结果差值小于指定的阈值,即|prik-prik-1|<ε。
步骤8:排序结果的融合,将每个子网络Gi的排序结果pri,乘以其权重Wi,再将每个子网络的结果合并最后得到G的排序结果pr。
步骤9:结果排序输出,将pr按照值排序,输出用户重要度排序列表,前m个用户即为关键用户。
本发明利用动态转发关系构建用户网络,并将多个动态转发网络排序结果进行融合,大大提高大数据环境下微博平台关键用户识别的效率和质量,还具有很强的鲁棒性。本发明的方法能够克服短文本以及静态网络结构的缺点,能有效提高网络舆情分析的效率。
附图说明
图1为本发明的整体框架图。
图2为转发信息示例图。
图3为动态网络图。
图4为MapReduce示意图。
具体实施方式
下面将结合附图和具体实施实例对本发明做出进一步的说明。
本发明提出一种基于改进的PageRank的微博平台关键用户识别方法。该方法以PageRank为核心,采用MapReduce并行计算技术克服微博大数据的计算效率低的问题,从微博文本结构提取转发信息构建由转发关系形成的网络,进而利用PageRank最终获得具有高鲁棒性和高质量的关键用户识别结果。利用转发关系可以得到查询相关的质量较高的动态转发网络,从一定程度上克服由短文本、相关性、静态网络结构导致的劣解;多个动态转发网络通过PageRank分别计算后进行组合提高结果的鲁棒性。
一种基于改进的PageRank的微博平台关键用户识别方法,分为三个模块:数据收集与预处理模块,动态转发网络构建模块和PageRank计算与融合模块,其中数据收集与预处理模块包括数据收集、处理、停用词移除、提取词干和生成倒排索引等过程,动态转发网络构建模块利用微博信息提取转发关系构建转发网络,PageRank计算与融合模块包括转发网络划分、PageRank计算、计算结果融合以及最后的排序和输出,具体实施过程如下:
1.利用网络爬虫和微博API收集互联网上的微博客数据,主要包括微博的作者信息、文本信息、原创作者信息以及时间信息。以新浪微博为例,本发明在通过API获取数据阶段可能需要的字段包括:
其中一条转发微博的部分数据结构(JSON格式)如下:
Figure BDA0000400155970000042
此外需要注意的是对于这里的retweeted_staus项,不一定是用户直接转发的微博,但肯定是溯源微博,即是信息传播的发起点,即图2转发信息中的用户E。
2.将微博数据中的文本数据进行分词处理。
3.停用词移除、词干提取。
4.构建倒排索引结构,便于快速从关键词检索微博。
5.动态转发网络的构建,针对每一条转发的微博提取其转发的层级信息,包括从原创作者到发表作者以及之间传播经过的用户,由此构建有向网络,节点为用户,边为转发的关系,需要注意的是将信息流相反的方向作为边的方向,边的权重为转发出现的次数,方向为作者指向其转发的作者,最终形成的数据结构为加权有向图。下面以图3为例具体说明转发网络的构建过程。
该图中共有2条转发信息,共涉及A、B、C、D和E共5个用户,图中每一条边代表转发关系,如A->B表明A转发了B的信息,该条边上的权重为A转发了B的信息的次数,在该图中为2次。
6.转发网络的分解,将转发网络G划分为若干个极大连通子图,对于每一个子网络Gi,赋予其权重,即Wi=V(Gi)/V(G),其中V(G)代表图G中的顶点数。
7.子网络并行计算。
(1)初始阶段,对于每个子网络Gi的每一个节点v赋予初始值pri0(v)=1/V(Gi)。
(2)迭代阶段,PageRank原始公式为prik=((1-d)E/n+dAi T)prik-1,其中k为当前迭代阶段;d为阻尼系数,一般设为0.85;n为网络中的节点数;E为全1向量;Ai为子网络Gi的邻接矩阵。迭代的终止条件可以为k达到指定的阈值或两次迭代产生的结果差值小于指定的阈值即|prik-prik-1|<ε。
普通的PageRank算法收敛速度很慢,当数据规模非常大时,会大大降低算法的执行效率。本发明通过MapReduce计算模型,将算法求解的问题转化为若干个小问题,用于在不同的计算节点做分布式并行计算,最后再做归并汇总。下面结合图3介绍MapReduce并行计算PageRank的原理。
MapReduce的核心数据结构为“键值对”结构,这里用<Key,Value>表示。其中Key代表键,Value代表值。
在本发明中,将网络中的节点看作是键,即
Figure BDA0000400155970000062
将每一个节点的pr值及其出度节点作为值,即Valuei=(pri,outlinks(vi,G)),其中outlinks(v,G)示节点v在图G中的出度节点,如图4中的输入阶段所示。最后将整个动态转发网络结构转化为行的集合,其中每一行为一个键值对。即
RowData = < Key 1 , Value 1 > < Key i , Value i > . . . . . . < Key n , Value n >
MapReduce的核心计算过程可以理解为下面两个步骤:
(a)映射(Map):将一对键值对通过转发关系与另一个或几个键值对应,如下所示:
< Key 0 , Value 0 > < Key 1 , Value 1 > , < Key 2 , Value 2 > , &DoubleRightArrow; M < Key 3 , Value 3 > . . .
其中M是映射函数。
(b)化简(Reduce):将若干个具有相同键的键值对合并将它们的值化简,如下所示:
<Key1,Value1
< Key 1 , Value 2 > &DoubleRightArrow; < Key 1 , R ( Value 1 , Value 2 , Value 3 ) >
<Key1,Value3>,
其中R是化简函数
值得注意的是,其中化简(Reduce)过程中生成的结果也是键值对的集合,可以继续用于做映射(Map)过程的输入,这为实现一些迭代算法提供了可能。
在本应用中,映射过程将网络中的节点的出度节点作为新的键,将节点的PageRank值除以出度节点的总数量作为新的值,生出新的键值对,即
< Key i , Value i > &DoubleRightArrow; < Key j , pr i / count ( outlinks ( v i , G ) ) > , &ForAll; v j &Element; outlinks ( v i , G ) .
在化简过程中,对于每一个键,其值为指向该键所对应的节点的所有链接的PageRank值之和,即
< Key i , Value 1 > < Key i , Value 2 > &DoubleRightArrow; < Key i , ( 1 - d ) / N + d * &Sigma; j Value j > < Key i , Value 3 >
其中d为PageRank算法的阻尼系数,一般设置为0.85,N为网络中节点的总数目。
最后化简结果又可以作为下一次映射的输入,由此可以不断进行迭代,直到达到终止条件。需要注意的是,在上述过程中没有将节点的出度节点信息在映射-化简中传递,实际是需要在映射中不光生成节点的新pr值,也要保存其原始的结构关系。
(3)融合阶段,将每个子网络Gi的排序结果pri,乘以其权重Wi,再将每个子网络的结果合并最后得到G的排序结果pr。
8.结果排序输出,将pr按照值排序,得到节点即关键用户的排序列表,pr值越大,表明该用户越重要。
本发明提出了一种基于改进的PageRank的微博平台关键用户识别方法,该方法结合了内容和动态网络的结构信息,对用户进行排序,并采用MapReduce并行技术加快运行速度。该方法从一定程度上克服由短文本、相关性、静态网络结构导致的劣解;多个动态转发网络通过PageRank分别计算后进行组合提高结果的鲁棒性。
尽管本发明的实施方案公开如上,但其不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于本领域的人员而言,可容易地实施另外的修改,因此,在不背离权力要求及等同范围所限定的一般概念下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (9)

1.基于改进的PageRank的微博关键用户识别方法,其特征在于,包括以下步骤:
步骤一,输入微博信息数据,其中包括n条微博的用户、文本、时间信息等;
步骤二,根据含有m个词汇的预设词库,对n条微博的文本进行分词处理;
步骤三,根据分词后的结果建立倒排索引结构,便于根据指定关键词检索;
步骤四,根据检索到的相关微博提取其转发层级信息,构建加权有向转发网络G;
步骤五,将转发网络G划分为若干个极大连通子图Gi
步骤六,在各个子网络上分别采用并行计算技术,应用PageRank算法得出各个子网络的排序结果后再融合;
步骤七,排序结果输出。
2.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法,其特征在于,所述步骤一中的微博信息数据来源于在互联网、微博平台API上抓取一预设时间段内的微博信息数据。
3.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法,其特征在于,对每条微博的文本进行分词处理都包括以下步骤:
1)去掉文本中的停止词;
2)根据预设词库中的词汇,按照文本文字从前到后的顺序,对文本中的文字进行分词拆分。
4.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法,其特征在于,在权利要求1所述步骤三中建立微博分词结果到微博之间的倒排索引,方便根据关键词检索指定微博。
5.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法,其特征在于,在权利要求1所述步骤四中,根据微博文本的信息提取其转发层级信息,构建加权有向图。
6.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法,其特征在于,在权利要求1所述步骤五中,将转发网络分解为若干个极大连通子图,并为每个子网络赋予权值。
7.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法,其特征在于,在权利要求1所述步骤六中,在各个子网络采用PageRank算法。
8.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法,其特征在于,在权利要求1所述步骤六中,在各个子网络采用基于MapReduce计算模型的并行计算技术来实现PageRank算法。
9.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法,其特征在于,在权利要求1所述步骤六中,在各个子网络的计算结果融合后形成整个转发网络的排序计算结果。
CN201310502924.7A 2013-10-23 2013-10-23 一种基于改进的PageRank的微博关键用户识别方法 Pending CN103530402A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310502924.7A CN103530402A (zh) 2013-10-23 2013-10-23 一种基于改进的PageRank的微博关键用户识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310502924.7A CN103530402A (zh) 2013-10-23 2013-10-23 一种基于改进的PageRank的微博关键用户识别方法

Publications (1)

Publication Number Publication Date
CN103530402A true CN103530402A (zh) 2014-01-22

Family

ID=49932411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310502924.7A Pending CN103530402A (zh) 2013-10-23 2013-10-23 一种基于改进的PageRank的微博关键用户识别方法

Country Status (1)

Country Link
CN (1) CN103530402A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793525A (zh) * 2014-02-21 2014-05-14 江苏唯实科技有限公司 基于局部迭代的MapReduce模型的图结点的权威值计算方法
CN104504251A (zh) * 2014-12-10 2015-04-08 沈阳航空航天大学 一种基于PageRank算法的社区划分方法
CN105245380A (zh) * 2015-10-21 2016-01-13 腾讯科技(深圳)有限公司 一种消息的传播方式识别方法及装置
CN105260358A (zh) * 2015-10-14 2016-01-20 上海大学 一种面向短文本的突发事件发展过程表示方法
CN106202487A (zh) * 2016-07-19 2016-12-07 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法
CN106972952A (zh) * 2017-02-28 2017-07-21 浙江工业大学 一种基于网络度相关性的信息传播领袖节点提取方法
CN107092651A (zh) * 2017-03-14 2017-08-25 中国科学院计算技术研究所 一种基于通信网络数据分析的关键人物挖掘方法及***
CN108334953A (zh) * 2018-01-09 2018-07-27 浙江工业大学 一种基于权重更新的社交网络信任度学习方法
CN108509551A (zh) * 2018-03-19 2018-09-07 西北大学 一种基于Spark环境下的微博网络关键用户挖掘***及方法
CN108763206A (zh) * 2018-05-22 2018-11-06 南京邮电大学 一种对单文本关键字进行快速排序的方法
CN110334270A (zh) * 2018-03-21 2019-10-15 腾讯科技(深圳)有限公司 一种新闻排序方法、服务器及计算机可读存储介质
CN111681120A (zh) * 2020-05-20 2020-09-18 卓尔智联(武汉)研究院有限公司 核心用户确定方法、装置及存储介质
CN112052404A (zh) * 2020-09-23 2020-12-08 西安交通大学 多源异构关系网络的群体发现方法、***、设备及介质
CN112632361A (zh) * 2020-12-29 2021-04-09 中科院计算技术研究所大数据研究院 迭代式数据获取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388025A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于Pagerank的语义网对象排序方法
CN101976245A (zh) * 2010-10-09 2011-02-16 吕琳媛 网络中节点重要性的排序方法
CN102708285A (zh) * 2012-04-24 2012-10-03 河海大学 基于复杂网络模型并行化PageRank算法的核心药物挖掘方法
CN102799671A (zh) * 2012-07-17 2012-11-28 西安电子科技大学 基于PageRank算法的网络个性化推荐方法
CN102819576A (zh) * 2012-07-23 2012-12-12 无锡雅座在线科技发展有限公司 一种基于微博的数据挖掘方法及***
US20120330864A1 (en) * 2011-06-21 2012-12-27 Microsoft Corporation Fast personalized page rank on map reduce
CN102982157A (zh) * 2012-12-03 2013-03-20 北京奇虎科技有限公司 用于挖掘微博热点话题的装置及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388025A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于Pagerank的语义网对象排序方法
CN101976245A (zh) * 2010-10-09 2011-02-16 吕琳媛 网络中节点重要性的排序方法
US20120330864A1 (en) * 2011-06-21 2012-12-27 Microsoft Corporation Fast personalized page rank on map reduce
CN102708285A (zh) * 2012-04-24 2012-10-03 河海大学 基于复杂网络模型并行化PageRank算法的核心药物挖掘方法
CN102799671A (zh) * 2012-07-17 2012-11-28 西安电子科技大学 基于PageRank算法的网络个性化推荐方法
CN102819576A (zh) * 2012-07-23 2012-12-12 无锡雅座在线科技发展有限公司 一种基于微博的数据挖掘方法及***
CN102982157A (zh) * 2012-12-03 2013-03-20 北京奇虎科技有限公司 用于挖掘微博热点话题的装置及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YONG ZHANG 等: "User Influence Analysis On Micro Blog", 《2012 IEEE 2ND INTERNATIONAL CONFERENCE》, vol. 3, 1 November 2012 (2012-11-01) *
廖松博 等: "GCPR:一种在MapReduce平台上基于图划分的PageRank加速方法", 《小型微型计算机***》, vol. 33, no. 6, 30 June 2012 (2012-06-30) *
方超 等: "一种基于MapReduce架构的微博用户影响力评价算法的设计与实现", 《通信市场》, 30 June 2013 (2013-06-30) *
舒琰 等: "基于PageRank的微博排名MapReduce算法研究", 《计算机技术与发展》, vol. 23, no. 2, 28 February 2013 (2013-02-28) *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793525A (zh) * 2014-02-21 2014-05-14 江苏唯实科技有限公司 基于局部迭代的MapReduce模型的图结点的权威值计算方法
CN104504251A (zh) * 2014-12-10 2015-04-08 沈阳航空航天大学 一种基于PageRank算法的社区划分方法
CN104504251B (zh) * 2014-12-10 2017-12-15 沈阳航空航天大学 一种基于PageRank算法的社区划分方法
CN105260358A (zh) * 2015-10-14 2016-01-20 上海大学 一种面向短文本的突发事件发展过程表示方法
CN105245380A (zh) * 2015-10-21 2016-01-13 腾讯科技(深圳)有限公司 一种消息的传播方式识别方法及装置
CN106202487B (zh) * 2016-07-19 2019-06-21 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法
CN106202487A (zh) * 2016-07-19 2016-12-07 西北工业大学 基于用户发帖行为模式的多线索社会事件总结方法
CN106972952A (zh) * 2017-02-28 2017-07-21 浙江工业大学 一种基于网络度相关性的信息传播领袖节点提取方法
CN106972952B (zh) * 2017-02-28 2020-02-21 浙江工业大学 一种基于网络度相关性的信息传播领袖节点提取方法
CN107092651A (zh) * 2017-03-14 2017-08-25 中国科学院计算技术研究所 一种基于通信网络数据分析的关键人物挖掘方法及***
CN107092651B (zh) * 2017-03-14 2020-07-24 中国科学院计算技术研究所 一种基于通信网络数据分析的关键人物挖掘方法及***
CN108334953A (zh) * 2018-01-09 2018-07-27 浙江工业大学 一种基于权重更新的社交网络信任度学习方法
CN108334953B (zh) * 2018-01-09 2021-08-03 浙江工业大学 一种基于权重更新的社交网络信任度学习方法
CN108509551A (zh) * 2018-03-19 2018-09-07 西北大学 一种基于Spark环境下的微博网络关键用户挖掘***及方法
CN108509551B (zh) * 2018-03-19 2022-03-01 西北大学 一种基于Spark环境下的微博网络关键用户挖掘***及方法
CN110334270A (zh) * 2018-03-21 2019-10-15 腾讯科技(深圳)有限公司 一种新闻排序方法、服务器及计算机可读存储介质
CN110334270B (zh) * 2018-03-21 2023-07-11 深圳市雅阅科技有限公司 一种新闻排序方法、服务器及计算机可读存储介质
CN108763206A (zh) * 2018-05-22 2018-11-06 南京邮电大学 一种对单文本关键字进行快速排序的方法
CN108763206B (zh) * 2018-05-22 2022-04-05 南京邮电大学 一种对单文本关键字进行快速排序的方法
CN111681120A (zh) * 2020-05-20 2020-09-18 卓尔智联(武汉)研究院有限公司 核心用户确定方法、装置及存储介质
CN112052404A (zh) * 2020-09-23 2020-12-08 西安交通大学 多源异构关系网络的群体发现方法、***、设备及介质
CN112052404B (zh) * 2020-09-23 2023-08-15 西安交通大学 多源异构关系网络的群体发现方法、***、设备及介质
CN112632361A (zh) * 2020-12-29 2021-04-09 中科院计算技术研究所大数据研究院 迭代式数据获取方法

Similar Documents

Publication Publication Date Title
CN103530402A (zh) 一种基于改进的PageRank的微博关键用户识别方法
CN108509551B (zh) 一种基于Spark环境下的微博网络关键用户挖掘***及方法
CN106021457B (zh) 基于关键词的rdf分布式语义搜索方法
CN105512245A (zh) 一种基于回归模型建立企业画像的方法
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN105095419A (zh) 一种面向微博特定类型用户的信息影响力最大化方法
CN102163226A (zh) 基于映射-化简和分词及邻接排序去重方法
CN103150663A (zh) 一种网络投放数据投放的方法和装置
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
Wang et al. Discover community leader in social network with PageRank
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及***
Setayesh et al. Presentation of an Extended Version of the PageRank Algorithm to Rank Web Pages Inspired by Ant Colony Algorithm
Wang et al. Link prediction based on weighted synthetical influence of degree and H-index on complex networks
CN107316246A (zh) 一种社交网络关键用户的挖掘方法
Sangeetha et al. Page ranking algorithms used in Web Mining
Liu et al. Community discovery in weighted networks based on the similarity of common neighbors
Asha et al. A survey on efficient incremental algorithm for mining high utility itemsets in distributed and dynamic database
Wu et al. Link prediction based on random forest in signed social networks
Zhubing et al. An overview on overlapping community detection
He et al. Tree-based mining for discovering patterns of reposting behavior in microblog
Lambhate et al. Hybrid algorithm on semantic web crawler for search engine to improve memory space and time
Qing et al. AMSC: adaptive multi-channel graph convolutional network-enhanced web services classification
Yuan et al. OPO: Online public opinion analysis system over text streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140122