CN102708176A - 基于活跃用户的微博数据挖掘方法 - Google Patents
基于活跃用户的微博数据挖掘方法 Download PDFInfo
- Publication number
- CN102708176A CN102708176A CN2012101405311A CN201210140531A CN102708176A CN 102708176 A CN102708176 A CN 102708176A CN 2012101405311 A CN2012101405311 A CN 2012101405311A CN 201210140531 A CN201210140531 A CN 201210140531A CN 102708176 A CN102708176 A CN 102708176A
- Authority
- CN
- China
- Prior art keywords
- user
- microblogging
- topic
- real
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于活跃用户的微博数据挖掘方法,属于网络微博中的数据挖掘技术领域,本发明方法首先定时随机选取一批新的***,经过选择筛选进入有效挖掘用户群,这样不断更新产生新的活跃用户,从而保证了数据的全面性;然后,传统数据挖掘过程产生的实时话题模型再次过滤有效用户群,将此领域中不再活跃的用户排除,这样始终保证有效群用户的时效性。本发明方法通过预先用户的选择更新机制,保证挖掘数据的全面性和有效性,实时维护更新每个话题的挖掘用户群体。同时,已有实时的话题模型再次更新有效用户群体,保证挖掘用户的时效性。
Description
技术领域
本发明属于网络微博中的数据挖掘技术领域,特别是一种基于活跃用户的微博数据挖掘方法。
背景技术
微博作为Web 2.0时代崭新网络应用形式,不仅更加适应现代快节奏生活,而且实现随时随地的信息共享。通过一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。
由于实时性强、易接入性等特点,微博成为一种突发新闻消息传播迅速的新媒体。与传统媒体形式不同,在这个微博平台中,每个人都是一个信息发布者(“自媒体”的概念),随时随地实现信息共享。微博用户在新闻事件发生的第一时间参与评论转发,往往先于传统媒体作出反应和表达观点。因此基于微博实时数据的分析已经成为一个值得关注的研究方向。
从数据角度来看,微博是一个信息量极大的平台,具有数据格式混乱、噪声繁杂、有效价值难于提取等特点。传统的话题检测方法无法适应这种新形式,而且很难有效地从海量数据信息中提炼和检测突发热门事件。
目前微博信息的挖掘处于较为初级的阶段,大多停留在用户关系和社区结构分析上,很少直接对微博实时内容进行分析。主要是通过两种方式来获取微博原始数据:采用微博对外API的应用和基于网虫的微博用户页面解析。参考廉捷等新浪微博数据挖掘方案的分析,两者均存在较为明显的缺陷:微博对外的API的方式由于API服务商对API接口调用频率与查询范围的限制,加之本身API开发并不十分完善,因此不能实现微博数据的全面获取;而基于网虫的单用户微博页面方式由于缺少一定预先选择机制,存在一定用户选择的盲目性,同样也难免会造成错检漏检的现象。清华大学学报(自然科学版)2011年10期发表的“新浪微博数据挖掘方案”一文(作者:廉捷,周欣,曹伟,刘云)即属于此列。
发明内容
为克服现有技术的缺陷和不足,本发明提供了一种基于活跃用户的微博数据挖掘方法。以达到定时随机选取一批新的***、经过选择筛选进入有效挖掘用户群之目的,使传统数据挖掘过程产生的实时话题模型再次过滤有效用户群,将此领域中不再活跃的用户排除,这样始终保证有效群用户的时效性。
为实现上述目的,本发明采用如下技术方案:
一种基于活跃用户的微博数据挖掘方法,步骤如下:
1)随机数产生器每10-30分钟产生一批随机的用户ID,作为候选挖掘的微博用户群;以新浪微博为例,用户ID从6位到9位,随机数产生器对应地分为6位随机数、7位随机数、8位随机数、9位随机数四种类型;
随机数产生器产生6-9位随机数的规则如下:
由RAND()%10产生一位数字,从高位向低位依次产生,重复6-9次;
2)对候选集合中的用户进行个人信息采集工作,个人信息出自于个人微博页面的url,如http://weibo.com/ID;
3)对采集的个人信息采用预定指标进行筛选,这些预定指标包括是否达人、用户的兴趣、用户所在的地区、使用频繁程度、每日微博数量、每日转发评论条数、平均微博影响范围,更新候选用户群;
4)使用基于网虫的微博用户页面解析方法动态抓取经过筛选的候选用户群的个人微博页面,作为用户预选择的原始数据;
5)采用近期实时的热门微博话题模型,将微博进行聚类分析,对于大于预设阈值的则聚类收录微博;
6)按照候选用户群中的单个用户作为分析对象,统计该用户在各个话题领域聚类的微博数量,若该用户在某个领域的聚类微博数量超过阈值则认为该用户为这个话题领域的有效用户,进入该类话题挖掘的用户群体;
7)至此,这批随机产生的用户群处理筛选完毕,加入到各个话题领域的有效挖掘用户集合中;
8)采用基于网虫的页面解析方法,以10-30分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;
9)经过预处理步骤,这些预处理步骤包括微博特殊含义符号和#的处理、字数限制过滤、转发评论数量阈值过滤、切词分词、主题词聚类,然后将实时微博进行聚类分析挖掘产生实时话题;
10)动态更新实时话题模型,并以此来选择新的用户群体;
11)评定已有的有效用户群体,若某用户连续三天没有产生对热门事件的评论和转发事件,则从有效挖掘用户群中移除该用户。
上述的rand()%10表示将生成的随机数对10取余即获得了范围0~9的一个随机数。
上述的URL是英语Uniform/Universal Resource Locator的缩写,意思为统一资源定位符,也被称为网页地址,是因特网上标准的资源的地址(Address)。
本发明方法通过预先用户的选择更新机制,保证挖掘数据的全面性和有效性,实时维护更新每个话题的挖掘用户群体。同时,已有实时的话题模型再次更新有效用户群体,保证挖掘用户的时效性。
附图说明
图1为本发明方法的流程示意框图,其中1)-11)为其方法的各个步骤。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,但不限于此。
实施例1:
一种基于活跃用户的微博数据挖掘方法,如图1所示,步骤如下:
1)随机数产生器每20分钟产生一批随机的用户ID,作为候选挖掘的微博用户群;以新浪微博为例,用户ID从6位到9位,随机数产生器对应地分为6位随机数、7位随机数、8位随机数、9位随机数四种类型;
随机数产生器产生6-9位随机数的规则如下:
由RAND()%10产生一位数字,从高位向低位依次产生,重复6-9次;
2)对候选集合中的用户进行个人信息采集工作,个人信息出自于个人微博页面的url,如http://weibo.com/ID;
3)对采集的个人信息采用预定指标进行筛选,这些预定指标包括是否达人、用户的兴趣、用户所在的地区、使用频繁程度、每日微博数量、每日转发评论条数、平均微博影响范围,更新候选用户群;
4)使用基于网虫的微博用户页面解析方法动态抓取经过筛选的候选用户群的个人微博页面,作为用户预选择的原始数据;
5)采用近期实时的热门微博话题模型,将微博进行聚类分析,对于大于预设阈值的则聚类收录微博;
6)按照候选用户群中的单个用户作为分析对象,统计该用户在各个话题领域聚类的微博数量,若该用户在某个领域的聚类微博数量超过阈值则认为该用户为这个话题领域的有效用户,进入该类话题挖掘的用户群体;
7)至此,这批随机产生的用户群处理筛选完毕,加入到各个话题领域的有效挖掘用户集合中;
8)采用基于网虫的页面解析方法,以20分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;
9)经过预处理步骤,这些预处理步骤包括微博特殊含义符号和#的处理、字数限制过滤、转发评论数量阈值过滤、切词分词、主题词聚类,然后将实时微博进行聚类分析挖掘产生实时话题;
10)动态更新实时话题模型,并以此来选择新的用户群体;
11)评定已有的有效用户群体,若某用户连续三天没有产生对热门事件的评论和转发事件,则从有效挖掘用户群中移除该用户。
实施例2:
同实施例1一样,只是步骤1)中的“随机数产生器每20分钟产生一批随机的用户ID”;步骤8)中的“采用基于网虫的页面解析方法,以20分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;”。
实施例3:
同实施例1一样,只是步骤1)中的“随机数产生器每30分钟产生一批随机的用户ID”;步骤8)中的“采用基于网虫的页面解析方法,以30分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;”。
Claims (1)
1.一种基于活跃用户的微博数据挖掘方法,步骤如下:
1)随机数产生器每10-30分钟产生一批随机的用户ID,作为候选挖掘的微博用户群;以新浪微博为例,用户ID从6位到9位,随机数产生器对应地分为6位随机数、7位随机数、8位随机数、9位随机数四种类型;
随机数产生器产生6-9位随机数的规则如下:
由RAND()%10产生一位数字,从高位向低位依次产生,重复6-9次;
2)对候选集合中的用户进行个人信息采集工作,个人信息出自于个人微博页面的url,如http://weibo.com/ID;
3)对采集的个人信息采用预定指标进行筛选,这些预定指标包括是否达人、用户的兴趣、用户所在的地区、使用频繁程度、每日微博数量、每日转发评论条数、平均微博影响范围,更新候选用户群;
4)使用基于网虫的微博用户页面解析方法动态抓取经过筛选的候选用户群的个人微博页面,作为用户预选择的原始数据;
5)采用近期实时的热门微博话题模型,将微博进行聚类分析,对于大于预设阈值的则聚类收录微博;
6)按照候选用户群中的单个用户作为分析对象,统计该用户在各个话题领域聚类的微博数量,若该用户在某个领域的聚类微博数量超过阈值则认为该用户为这个话题领域的有效用户,进入该类话题挖掘的用户群体;
7)至此,这批随机产生的用户群处理筛选完毕,加入到各个话题领域的有效挖掘用户集合中;
8)采用基于网虫的页面解析方法,以10-30分钟为间隔挖掘有效用户的最新微博页面,进入传统数据挖掘流程;
9)经过预处理步骤,这些预处理步骤包括微博特殊含义符号和#的处理、字数限制过滤、转发评论数量阈值过滤、切词分词、主题词聚类,然后将实时微博进行聚类分析挖掘产生实时话题;
10)动态更新实时话题模型,并以此来选择新的用户群体;
11)评定已有的有效用户群体,若某用户连续三天没有产生对热门事件的评论和转发事件,则从有效挖掘用户群中移除该用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210140531.1A CN102708176B (zh) | 2012-05-08 | 2012-05-08 | 基于活跃用户的微博数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210140531.1A CN102708176B (zh) | 2012-05-08 | 2012-05-08 | 基于活跃用户的微博数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102708176A true CN102708176A (zh) | 2012-10-03 |
CN102708176B CN102708176B (zh) | 2013-12-04 |
Family
ID=46900942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210140531.1A Expired - Fee Related CN102708176B (zh) | 2012-05-08 | 2012-05-08 | 基于活跃用户的微博数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102708176B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930029A (zh) * | 2012-11-07 | 2013-02-13 | 北京网智天元科技有限公司 | 一种社会化的搜索引擎方法和*** |
CN103116605A (zh) * | 2013-01-17 | 2013-05-22 | 上海交通大学 | 一种基于监测子网的微博热点事件实时检测方法及*** |
CN103345535A (zh) * | 2013-07-26 | 2013-10-09 | 人民搜索网络股份公司 | 一种微博用户挖掘方法及装置 |
CN103366018A (zh) * | 2013-08-02 | 2013-10-23 | 人民搜索网络股份公司 | 一种微博信息抓取方法及装置 |
CN103399968A (zh) * | 2013-07-16 | 2013-11-20 | 中国科学院计算技术研究所 | 一种微博信息采集方法及*** |
CN103488683A (zh) * | 2013-08-21 | 2014-01-01 | 北京航空航天大学 | 一种微博数据管理***及其实现方法 |
CN103593398A (zh) * | 2013-10-12 | 2014-02-19 | 北京奇虎科技有限公司 | 一种更新微博用户库的方法及设备 |
CN103593397A (zh) * | 2013-10-12 | 2014-02-19 | 北京奇虎科技有限公司 | 一种采集微博内容的方法及设备 |
CN103593399A (zh) * | 2013-10-12 | 2014-02-19 | 北京奇虎科技有限公司 | 一种根据微博用户库采集微博内容的方法及设备 |
CN103810169A (zh) * | 2012-11-06 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 一种挖掘社区领域专家的方法和装置 |
CN103902566A (zh) * | 2012-12-26 | 2014-07-02 | 中国科学院心理研究所 | 一种基于微博用户行为的人格预测方法 |
CN103914491A (zh) * | 2013-01-09 | 2014-07-09 | 腾讯科技(北京)有限公司 | 对优质用户生成内容的数据挖掘方法和*** |
CN104102675A (zh) * | 2013-04-15 | 2014-10-15 | 中国人民大学 | 基于用户关系的博主兴趣社区发现方法 |
CN104252461A (zh) * | 2013-06-26 | 2014-12-31 | 国际商业机器公司 | 监测感兴趣主题的方法和*** |
CN104618216A (zh) * | 2013-11-05 | 2015-05-13 | 腾讯科技(北京)有限公司 | 消息管理方法、设备和*** |
CN104699679A (zh) * | 2013-12-04 | 2015-06-10 | 腾讯科技(北京)有限公司 | 一种确定社交网络平台中用户属性的方法和*** |
CN106095839A (zh) * | 2016-06-03 | 2016-11-09 | 北京网智天元科技股份有限公司 | 特定观影群体数据的提取及其处理方法 |
WO2018054352A1 (zh) * | 2016-09-23 | 2018-03-29 | 腾讯科技(深圳)有限公司 | 项集确定方法、装置、处理设备及存储介质 |
CN108898428A (zh) * | 2018-06-19 | 2018-11-27 | 努比亚技术有限公司 | 一种终端用户活跃指标的确定方法、服务器和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006012505A1 (en) * | 2004-07-23 | 2006-02-02 | Specialty Minerals (Michigan) Inc. | Method for improved melt flow rate of filled polymeric resin |
CN102289447A (zh) * | 2011-06-16 | 2011-12-21 | 北京亿赞普网络技术有限公司 | 一种基于通讯网络报文的网站网页评价*** |
-
2012
- 2012-05-08 CN CN201210140531.1A patent/CN102708176B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006012505A1 (en) * | 2004-07-23 | 2006-02-02 | Specialty Minerals (Michigan) Inc. | Method for improved melt flow rate of filled polymeric resin |
CN102289447A (zh) * | 2011-06-16 | 2011-12-21 | 北京亿赞普网络技术有限公司 | 一种基于通讯网络报文的网站网页评价*** |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810169A (zh) * | 2012-11-06 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 一种挖掘社区领域专家的方法和装置 |
CN103810169B (zh) * | 2012-11-06 | 2018-01-09 | 腾讯科技(深圳)有限公司 | 一种挖掘社区领域专家的方法和装置 |
CN102930029A (zh) * | 2012-11-07 | 2013-02-13 | 北京网智天元科技有限公司 | 一种社会化的搜索引擎方法和*** |
CN103902566A (zh) * | 2012-12-26 | 2014-07-02 | 中国科学院心理研究所 | 一种基于微博用户行为的人格预测方法 |
CN103914491B (zh) * | 2013-01-09 | 2017-11-17 | 腾讯科技(北京)有限公司 | 对优质用户生成内容的数据挖掘方法和*** |
CN103914491A (zh) * | 2013-01-09 | 2014-07-09 | 腾讯科技(北京)有限公司 | 对优质用户生成内容的数据挖掘方法和*** |
US10198480B2 (en) | 2013-01-09 | 2019-02-05 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for determining hot user generated contents |
CN103116605A (zh) * | 2013-01-17 | 2013-05-22 | 上海交通大学 | 一种基于监测子网的微博热点事件实时检测方法及*** |
CN104102675A (zh) * | 2013-04-15 | 2014-10-15 | 中国人民大学 | 基于用户关系的博主兴趣社区发现方法 |
US9912769B2 (en) | 2013-06-26 | 2018-03-06 | International Business Machines Corporation | Monitoring interesting subjects |
CN104252461A (zh) * | 2013-06-26 | 2014-12-31 | 国际商业机器公司 | 监测感兴趣主题的方法和*** |
CN104252461B (zh) * | 2013-06-26 | 2017-12-05 | 国际商业机器公司 | 监测感兴趣主题的方法和*** |
CN103399968A (zh) * | 2013-07-16 | 2013-11-20 | 中国科学院计算技术研究所 | 一种微博信息采集方法及*** |
CN103399968B (zh) * | 2013-07-16 | 2016-08-10 | 中国科学院计算技术研究所 | 一种微博信息采集方法及*** |
CN103345535A (zh) * | 2013-07-26 | 2013-10-09 | 人民搜索网络股份公司 | 一种微博用户挖掘方法及装置 |
CN103345535B (zh) * | 2013-07-26 | 2017-03-29 | 人民搜索网络股份公司 | 一种微博用户挖掘方法及装置 |
CN103366018A (zh) * | 2013-08-02 | 2013-10-23 | 人民搜索网络股份公司 | 一种微博信息抓取方法及装置 |
CN103488683B (zh) * | 2013-08-21 | 2017-05-10 | 北京航空航天大学 | 一种微博数据管理***及其实现方法 |
CN103488683A (zh) * | 2013-08-21 | 2014-01-01 | 北京航空航天大学 | 一种微博数据管理***及其实现方法 |
CN103593397A (zh) * | 2013-10-12 | 2014-02-19 | 北京奇虎科技有限公司 | 一种采集微博内容的方法及设备 |
CN103593399A (zh) * | 2013-10-12 | 2014-02-19 | 北京奇虎科技有限公司 | 一种根据微博用户库采集微博内容的方法及设备 |
CN103593397B (zh) * | 2013-10-12 | 2018-10-09 | 北京奇虎科技有限公司 | 一种采集微博内容的方法及设备 |
CN103593398A (zh) * | 2013-10-12 | 2014-02-19 | 北京奇虎科技有限公司 | 一种更新微博用户库的方法及设备 |
CN104618216A (zh) * | 2013-11-05 | 2015-05-13 | 腾讯科技(北京)有限公司 | 消息管理方法、设备和*** |
CN104618216B (zh) * | 2013-11-05 | 2019-05-17 | 腾讯科技(北京)有限公司 | 消息管理方法、设备和*** |
CN104699679A (zh) * | 2013-12-04 | 2015-06-10 | 腾讯科技(北京)有限公司 | 一种确定社交网络平台中用户属性的方法和*** |
CN104699679B (zh) * | 2013-12-04 | 2019-03-26 | 腾讯科技(北京)有限公司 | 一种确定社交网络平台中用户属性的方法和*** |
CN106095839A (zh) * | 2016-06-03 | 2016-11-09 | 北京网智天元科技股份有限公司 | 特定观影群体数据的提取及其处理方法 |
WO2018054352A1 (zh) * | 2016-09-23 | 2018-03-29 | 腾讯科技(深圳)有限公司 | 项集确定方法、装置、处理设备及存储介质 |
CN108898428A (zh) * | 2018-06-19 | 2018-11-27 | 努比亚技术有限公司 | 一种终端用户活跃指标的确定方法、服务器和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102708176B (zh) | 2013-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102708176B (zh) | 基于活跃用户的微博数据挖掘方法 | |
Cao et al. | Detecting spam urls in social media via behavioral analysis | |
Maggi et al. | Two years of short urls internet measurement: security threats and countermeasures | |
Chhabra et al. | Phi. sh/$ ocial: the phishing landscape through short urls | |
Tonkin et al. | Twitter, information sharing and the London riots? | |
CN103116605B (zh) | 一种基于监测子网的微博热点事件实时检测方法及*** | |
CN102779174B (zh) | 一种舆情信息展示***及方法 | |
CN103152442B (zh) | 一种僵尸网络域名的检测与处理方法及*** | |
Chowdhury et al. | On Twitter purge: a retrospective analysis of suspended users | |
US8997229B1 (en) | Anomaly detection for online endorsement event | |
CN103617169A (zh) | 一种基于Hadoop的微博热点话题提取方法 | |
CN103177076A (zh) | 一种基于定点网站的舆情监测***及方法 | |
CN106021418A (zh) | 新闻事件的聚类方法及装置 | |
CN104917739A (zh) | 虚假账号的识别方法及装置 | |
Cao et al. | Behavioral detection of spam URL sharing: posting patterns versus click patterns | |
CN103544165A (zh) | 新词挖掘方法和*** | |
Zhou et al. | Feature analysis of spammers in social networks with active honeypots: A case study of chinese microblogging networks | |
Chen et al. | Cost-effective node monitoring for online hot eventdetection in sina weibo microblogging | |
Casino et al. | Unearthing malicious campaigns and actors from the blockchain DNS ecosystem | |
CN108229175B (zh) | 一种多维异构取证信息的关联分析***及方法 | |
CN104199947A (zh) | 一种对重点人员言论监督与关联关系挖掘的方法 | |
CN110110188A (zh) | 一种基于云计算技术的网络舆情监测*** | |
CN106547774B (zh) | 网站内容的检测方法及装置 | |
Jin et al. | An adaptive analysis framework for correlating cyber-security-related data | |
Kergl | Enhancing network security by software vulnerability detection using social media analysis extended abstract |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131204 Termination date: 20160508 |