CN102982381A - 一种微博传播影响面的管理***及方法 - Google Patents
一种微博传播影响面的管理***及方法 Download PDFInfo
- Publication number
- CN102982381A CN102982381A CN2012105165533A CN201210516553A CN102982381A CN 102982381 A CN102982381 A CN 102982381A CN 2012105165533 A CN2012105165533 A CN 2012105165533A CN 201210516553 A CN201210516553 A CN 201210516553A CN 102982381 A CN102982381 A CN 102982381A
- Authority
- CN
- China
- Prior art keywords
- data
- fin
- microblogging
- target
- monitoring module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种微博传播影响面的管理***及方法,其管理***包括分析模块、监控模块及中央处理模块。分析模块包括数据采集单元及数据处理单元,数据采集单元将目标数据采集汇总后输送给数据处理单元,数据处理单元对单个转发者i的粉丝数求和后对第i个转发者的第j个粉丝的关注人进行全集函数分析,再进行粉丝抽样,在基于概率和统计学原理的基础上结合抽样方式,计算出目标微博传播影响面数据,再将此数据输送给中央处理模块;中央处理模块接收到数据后将其与预设的阈值比较,并将比较结果输送给监控模块;若小于阈值,则监控模块无动作;若大于等于阈值,则监控模块在后台管理桌面告警,并将其设为热点博文。本发明统计结果精确率高,且无须去重。
Description
技术领域
本发明涉及一种舆情监控数据***,特别涉及一种微博传播影响面的管理***及方法。
背景技术
随着Web2.0技术及相关互联网应用的不断普及,微博等新媒体已经成为网络舆情的重要舆论场。微博具有用户基数大、传播速度快、信息上载方便等特点,已经成为我国舆情爆发的主要策源地和传播媒介,如病毒般蔓延至互联网、企业、个人生活的每个角落。如何针对微博所具有的海量非结构化文本数据、大用户数和实时性强的特点,研究有效的微博舆情监管软件平台,成了当务之急。
在微博社区内,如果博主B关注A,称B是A的粉丝,A所发每一篇微博都会出现B的主页,即能影响到B。如果C是B的粉丝,而B又转发了A的微博,则A的这篇微博也能影响到C。每篇微博能影响到的总人数我们称之为“微博传播影响面”。
普通的微博传播影响面计算公式为:
X=fin1+fin2+...+finn
其中X为目标微博传播影响面,fini(1≤i≤n)为第i个转发者的粉丝数,目标微博博主也计为转发者之一。
上述算法存在两个问题:
1.同一博主多次转发导致转发者重复计算
2.不同博主拥有相同粉丝导致粉丝数重复计算
第一个问题较易解决,只需对转发者进行去重即可。
但第二个问题基本无解。首先因为很多微博达人的粉丝动辄上百万、千万,去重工作消耗极大;其次各微博平台只提供最多5000粉丝信息查询接口,从而使得去重工作无法彻底实施。
发明内容
针对现有技术存在的问题,本发明旨在基于概率和统计学原理,结合抽样方式,提供一种无须人工去重的用于舆情监控***的微博传播影响面的统计方法。
本发明第一方面提供一种微博传播影响面的管理***,包括分析模块、监控模块及中央处理模块。
所述分析模块包括数据采集单元及数据处理单元,所述数据采集单元将目标数据采集汇总后输送给所述数据处理单元,数据处理单元根据预设的算法计算得出目标微博的传播影响面并将此数据输送给中央处理模块;
中央处理模块接收到目标微博的传播影响面数据后将其与预设的阈值比较,并将比较结果输送给监控模块;
若小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
进一步地,所述数据处理单元采用以下算法计算出目标微博的传播影响面:
其中,X为目标微博传播影响面;k为非重复转发者的数量;fini为第i个转发者的粉丝数,1≤i≤k,Fi由下述计算公式得出:
其中,R表示包含目标微博博主的非重复转发者的集合,fout(i,j)表示第i个转发者的第j个粉丝的关注人全集函数,1≤j≤m,m为粉丝抽样数。
本发明第二方面提供一种微博传播影响面的管理方法,包括上述管理***,所述管理方法具体包括以下步骤:
S1:数据采集单元统计包含目标微博博主的目标微博的转发者,过滤掉重复的转发者,得出非重复转发者集合R和总转发数k后将数据输送给数据分析单元;
S2:所述数据分析单元获取k个转发者的粉丝数后求得fin1+fin2+...+fink;
S3:再设定一个抽样数m,获取k个转发者的前m个粉丝的关注人集,得出fou(i,j)(1≤j≤m);
S5:根据步骤S1、S4的结果,求得F1+F2+...+Fk;
S6:根据步骤S2、S5的结果,求得目标微博传播影响面
S7:将X与预设的阈值的比较,若X小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
本发明提供的所述用于舆情监控***的微博传播影响面的统计方法通过分别对单个转发者i的粉丝数求和,及对第i个转发者的第j个粉丝的关注人进行全集函数分析,再进行粉丝抽样,在基于概率和统计学原理的基础上,结合抽样方式,使得统计结果精确率高,且无须去重。
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案:
本发明提供一种微博传播影响面的管理***及方法,所述管理***包括分析模块、监控模块及中央处理模块。
所述分析模块包括数据采集单元及数据处理单元,所述数据采集单元将目标数据采集汇总后输送给所述数据处理单元,数据处理单元根据预设的算法计算得出目标微博的传播影响面并将此数据输送给中央处理模块;
中央处理模块接收到目标微博的传播影响面数据后将其与预设的阈值比较,并将比较结果输送给监控模块;
若小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
进一步地,所述数据处理单元采用以下算法计算出目标微博的传播影响面:
其中,X为目标微博传播影响面;k为非重复转发者的数量;fini为第i个转发者的粉丝数,1≤i≤k,Fi由下述计算公式得出:
其中,R表示包含目标微博博主的非重复转发者的集合,fout(i,j)表示第i个转发者的第j个粉丝的关注人全集函数,1≤j≤m,m为粉丝抽样数。
所述微博传播影响面的管理方法具体包括以下步骤:
S1:数据采集单元统计包含目标微博博主的目标微博的转发者,过滤掉重复的转发者,得出非重复转发者集合R和总转发数k后将数据输送给数据分析单元;
S2:所述数据分析单元获取k个转发者的粉丝数后求得fin1+fin2+...+fink;
S3:再设定一个抽样数m,获取k个转发者的前m个粉丝的关注人集,得出fou(i,j)(1≤j≤m);
S5:根据步骤S1、S4的结果,求得F1+F2+...+Fk;
S6:根据步骤S2、S5的结果,求得目标微博传播影响面
S7:将X与预设的阈值的比较,若X小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
所述用于舆情监控***的微博传播影响面的统计方法通过分别对单个转发者i的粉丝数求和,及对第i个转发者的第j个粉丝的关注人进行全集函数分析,再进行粉丝抽样,在基于概率和统计学原理的基础上,结合抽样方式,使得统计结果精确率高,且无须去重。
上面对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。
Claims (3)
1.一种微博传播影响面的管理***,其特征在于,包括分析模块、监控模块及中央处理模块,其中,
所述分析模块包括数据采集单元及数据处理单元,所述数据采集单元将目标数据采集汇总后输送给所述数据处理单元,数据处理单元根据预设的算法计算得出目标微博的传播影响面并将此数据输送给中央处理模块;
中央处理模块接收到目标微博的传播影响面数据后将其与预设的阈值比较,并将比较结果输送给监控模块;
若小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
2.根据权利要求1所述的微博传播影响面的管理***,其特征在于,所述数据处理单元采用以下算法计算出目标微博的传播影响面:
其中,X为目标微博传播影响面;k为非重复转发者的数量;fini为第i个转发者的粉丝数,1≤i≤k,Ei由下述计算公式得出:
其中,R表示包含目标微博博主的非重复转发者的集合,fout(i,j)表示第i个转发者的第j个粉丝的关注人全集函数,1≤j≤m,m为粉丝抽样数。
3.一种微博传播影响面的管理方法,包括如权利要求1及权利要求2所述的管理***,其特征在于,具体包括以下步骤:
S1:数据采集单元统计包含目标微博博主的目标微博的转发者,过滤掉重复的转发者,得出非重复转发者集合R和总转发数k后将数据输送给数据分析单元;
S2:所述数据分析单元获取k个转发者的粉丝数后求得fin1+fin2+...+fink;
S3:再设定一个抽样数m,获取k个转发者的前m个粉丝的关注人集,得出fou(i,j)(1≤j≤m);
S5:根据步骤S1、S4的结果,求得F1+F2+...+Fk;
S6:根据步骤S2、S5的结果,求得目标微博传播影响面
S7:将X与预设的阈值的比较,若X小于所述阈值,则所述监控模块无动作;若大于等于所述阈值,则所述监控模块在后台管理桌面告警,并将其设为热点博文。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210516553.3A CN102982381B (zh) | 2012-12-06 | 2012-12-06 | 一种微博传播影响面的管理***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210516553.3A CN102982381B (zh) | 2012-12-06 | 2012-12-06 | 一种微博传播影响面的管理***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102982381A true CN102982381A (zh) | 2013-03-20 |
CN102982381B CN102982381B (zh) | 2015-09-09 |
Family
ID=47856355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210516553.3A Active CN102982381B (zh) | 2012-12-06 | 2012-12-06 | 一种微博传播影响面的管理***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102982381B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345524A (zh) * | 2013-07-19 | 2013-10-09 | 中国地质大学(武汉) | 微博热点话题检测方法及*** |
CN103631901A (zh) * | 2013-11-20 | 2014-03-12 | 清华大学 | 一种基于用户信任网络最大生成树的谣言控制方法 |
CN103761292A (zh) * | 2014-01-16 | 2014-04-30 | 北京理工大学 | 基于用户转发行为的微博阅读概率计算方法 |
CN104268187A (zh) * | 2014-09-17 | 2015-01-07 | 合一网络技术(北京)有限公司 | 基于用户反馈的支持多场景的在线内容优选*** |
CN105468768A (zh) * | 2015-12-07 | 2016-04-06 | 临沂大学 | 一种微信舆情的***监测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
US20120117034A1 (en) * | 2010-11-04 | 2012-05-10 | Electronics And Telecommunications Research Institute | Context-aware apparatus and method |
-
2012
- 2012-12-06 CN CN201210516553.3A patent/CN102982381B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401A (zh) * | 2009-12-30 | 2010-06-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
US20120117034A1 (en) * | 2010-11-04 | 2012-05-10 | Electronics And Telecommunications Research Institute | Context-aware apparatus and method |
Non-Patent Citations (1)
Title |
---|
李伟钢: "微博的转发哲学", 《科学网》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345524A (zh) * | 2013-07-19 | 2013-10-09 | 中国地质大学(武汉) | 微博热点话题检测方法及*** |
CN103345524B (zh) * | 2013-07-19 | 2017-03-22 | 中国地质大学(武汉) | 微博热点话题检测方法及*** |
CN103631901A (zh) * | 2013-11-20 | 2014-03-12 | 清华大学 | 一种基于用户信任网络最大生成树的谣言控制方法 |
CN103631901B (zh) * | 2013-11-20 | 2017-01-18 | 清华大学 | 一种基于用户信任网络最大生成树的谣言控制方法 |
CN103761292A (zh) * | 2014-01-16 | 2014-04-30 | 北京理工大学 | 基于用户转发行为的微博阅读概率计算方法 |
CN103761292B (zh) * | 2014-01-16 | 2017-01-18 | 北京理工大学 | 基于用户转发行为的微博阅读概率计算方法 |
CN104268187A (zh) * | 2014-09-17 | 2015-01-07 | 合一网络技术(北京)有限公司 | 基于用户反馈的支持多场景的在线内容优选*** |
CN105468768A (zh) * | 2015-12-07 | 2016-04-06 | 临沂大学 | 一种微信舆情的***监测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102982381B (zh) | 2015-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Morstatter et al. | Is the sample good enough? comparing data from twitter's streaming api with twitter's firehose | |
CN103116605B (zh) | 一种基于监测子网的微博热点事件实时检测方法及*** | |
CN105357054B (zh) | 网站流量分析方法、装置和电子设备 | |
CN102982381A (zh) | 一种微博传播影响面的管理***及方法 | |
US20180234447A1 (en) | System and methods for detecting bots real-time | |
Shao et al. | An efficient approach to event detection and forecasting in dynamic multivariate social media networks | |
CN103345524B (zh) | 微博热点话题检测方法及*** | |
CN104239539A (zh) | 一种基于多种信息融合的微博信息过滤方法 | |
CN106168953B (zh) | 面向弱关系社交网络的博文推荐方法 | |
CN103458042A (zh) | 一种微博广告用户检测方法 | |
Paul et al. | Worldwide influenza surveillance through twitter | |
Wu et al. | Research issues in mining multiple data streams | |
Rekatsinas et al. | Sourceseer: Forecasting rare disease outbreaks using multiple data sources | |
CN107943905A (zh) | 一种热点话题分析方法及*** | |
Zaldumbide et al. | Identification and validation of real-time health events through social media | |
CN107018129A (zh) | 一种基于多维Renyi交叉熵的DDoS攻击检测*** | |
CN104346443B (zh) | 网络文本处理方法及装置 | |
Jabeur et al. | Uprising microblogs: A Bayesian network retrieval model for tweet search | |
CN104216889A (zh) | 基于云服务的数据传播性分析预测方法及*** | |
CN105677757B (zh) | 一种基于双缀过滤的大数据相似性连接方法 | |
CN104376405A (zh) | 基于云计算和智能分析的餐饮管理***及用于该***的预警方法 | |
CN110533488A (zh) | 一种商业大数据分析*** | |
CN104063456B (zh) | 基于向量查询的自媒体传播图谱分析方法和装置 | |
饶君 et al. | Parallel link prediction in complex network using MapReduce | |
CN102360394B (zh) | 一种基于本体词法信息和语义信息的本体匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP03 | Change of name, title or address |
Address after: 410013 Hunan high tech Zone Changsha Wenxuan Road No. 27 enterprises in the Park Plaza A4 building 603 room Patentee after: Hunan ant software Limited by Share Ltd Address before: 410000 Hunan city high tech Development Zone Changsha Lulong Road No. 199 sign Lugu No. A-1109 coordinates Patentee before: Hunan Yi Fang softcom limited |