CN102890702A - 一种面向网络论坛的意见领袖挖掘方法 - Google Patents
一种面向网络论坛的意见领袖挖掘方法 Download PDFInfo
- Publication number
- CN102890702A CN102890702A CN2012102501161A CN201210250116A CN102890702A CN 102890702 A CN102890702 A CN 102890702A CN 2012102501161 A CN2012102501161 A CN 2012102501161A CN 201210250116 A CN201210250116 A CN 201210250116A CN 102890702 A CN102890702 A CN 102890702A
- Authority
- CN
- China
- Prior art keywords
- opinion
- leader
- forum
- comment
- utilize
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向网络论坛的意见领袖挖掘方法,包括意见领袖挖掘***,意见领袖挖掘***包括计算中心和数据库服务器,数据库服务器与计算中心通信,该方法的具体步骤为:利用爬虫抓取论坛数据,并利用消息中间件提高数据处理的实时性;提取网页信息,利用中文分词***进行分词,并利用谱聚类方法对垃圾评论进行过滤;利用情感语料库进行文本倾向性分析;设定意见领袖的选取标准值,确定意见领袖:将结果可视化。本发明的方法能准确地挖掘出论坛中的意见领袖,为相关网络舆情监管部门及时发现热点问题、引导网络舆情健康发展提供了技术支持。
Description
技术领域
本发明涉及互联网信息管理领域,特别是一种面向网络论坛的意见领袖挖掘方法。
背景技术
随着网络技术的迅猛发展和网民规模的快速增长,越来越多的公众通过网络参与社会讨论和表达社会意见。由于互联网具有交流平等、参与广泛的特点,许多国内外热点事件能够迅速形成巨大的网络舆论压力,网络已成为反映社会舆情的主要载体之一。
在网络舆情的形成过程中,意见领袖的助推作用显著。能提出指导性见解、具有广泛社会影响的人叫意见领袖,又称舆论领袖。意见领袖在网络论坛中积累了较高的声望,在舆情事件酝酿和发酵过程中,舆情主体更容易受到意见领袖的影响,意见领袖的言论和意见往往会影响和改变其他人的意见,引导和推动事态进一步发展,他们在网络舆情的发生、发展和消亡过程中的作用可能是积极的,也可能是消极的,因而对意见领袖的挖掘工作具有重要的现实意义。然而在互联网数据***式增长的今天,传统的依靠人工统计数据发现意见领袖的方法显得力不从心。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种面向网络论坛的意见领袖挖掘方法,准确地挖掘出论坛中的意见领袖,为相关网络舆情监管部门及时发现热点问题、引导网络舆情健康发展提供技术支持。
为解决上述技术问题,本发明所采用的技术方案是:一种面向网络论坛的意见领袖挖掘方法,包括意见领袖挖掘***,意见领袖挖掘***包括计算中心和数据库服务器,数据库服务器与计算中心通信,该方法的具体步骤为:
1)利用爬虫抓取论坛数据,并利用消息中间件提高数据处理的实时性;
2)提取网页信息,利用中文分词***进行分词,并利用谱聚类方法对垃圾评论进行过滤;
3)利用情感语料库进行文本倾向性分析;
4)设定意见领袖的选取标准值,利用下列公式确定意见领袖:
PR(A)=(1-d)+d*(PR(T1) * L(A,T1)+…+PR(Tn) *L(A,Tn)),
其中:PR(A)表示给定页面A的得分,d为阻尼因子,PR(Tn)表示一个指向A页的网站其本身的得分,L(A,Tn)表示网页A和网页Tn的链接相关度,L(A,Tn)=(Ua∩Un)/( Ua∪Un),Ua代表网页A的链出、链入和自身的URL 的集合;Un代表网页Tn的链出、链入和自身的URL 的集合;
当PR(A)大于设定的选取标准值时,即确定为意见领袖;
5)将4)中的结果可视化。
作为优选方案,步骤1)中,利用开源爬虫Netcrawler实现网络论坛数据的采集;所述消息中间件为ActiveMQ。
作为优选方案,步骤2)中,利用正则表达式提取网页信息;所述中文分词***为基于多层隐马尔可夫模型的汉语词法分析***ICTCLAS。
步骤2)中,利用谱聚类方法对垃圾评论进行过滤的步骤为:
1)采集文本情报语料,对文本进行预处理,得到评论集;
2)针对得到的评论集,将每条评论利用向量空间模型来进行特征表示,每条评论表示成空间的一个向量;
3)生成相似矩阵G;
4)构造非正则拉普拉斯矩阵作为样本矩阵:利用相似度矩阵G得出邻接矩阵W,然后把邻接矩阵的每一列元素加起来得到N个数,把它们放在对角线上,其他地方都是零,组成一个N*N的矩阵,记为D,令L = D –W,L即为样本矩阵;
5)构建特征向量空间:求出L的前k个特征值以及对应的特征向量,将这k个特征向量组成一个N*k的矩阵,即为特征向量空间,其中前k个特征值按照特征值的大小从小到大排列;
6)把这k个特征列向量排列在一起组成一个N*k的矩阵,将其中每一行看作k维空间中的一个向量,并使用谱聚类算法进行聚类;
7)采用欧氏距离方法,在谱聚类基础上计算每个点到对应类中心距离;
8)计算对象的离群度:将上述距离的平均值E(Xi)和方差E(Xi-E(Xi)) 2 的比值作为离群度的基础数据,然后根据离群度公式Out(i)=E(Xi)/E(Xi-E(Xi)) 2 计算离群度;
9)利用离群度检测垃圾评论:把垃圾评论作为离群点,然后进行离群点探测,只需对离群度进行Top-n排序,离群度最高的对象就是离群点,也就是检测出的垃圾评论;
10)将检测出的垃圾评论从数据库中删除。
作为优选方案,步骤3)中,采用的情感语料库为HowNet201104中的情感分析用词集。
作为优选方案,步骤4)中,选取的标准值为0.001;阻尼因子d设为0.8。
作为优选方案,步骤5)中,利用Vizster实现可视化。
本发明面向国际互联网论坛中的海量评论,设计并实现了网络论坛意见领袖自动挖掘***,能准确地挖掘出论坛中的意见领袖,为相关网络舆情监管部门及时发现热点问题、引导网络舆情健康发展提供了技术支持。
附图说明
图1为本发明一实施例意见领袖自动挖掘***硬件平台结构示意图;
图2为本发明一实施例爬虫配置界面图;
图3为本发明一实施例利用谱聚类方法对垃圾评论进行过滤的步骤流程图;
图4为正则表达式的基本元字符;
图5为HowNet的情感分析词语集。
具体实施方式
如图1所示,本发明一实施例意见领袖自动挖掘***主要由数据中心和计算中心组成,数据中心是一台数据库服务器存储了从互联网论坛爬取的数据,并为计算中心提供数据服务,计算中心则通过一系列算法对数据中心提供的数据进行处理从而挖掘出意见领袖。
本发明一实施例意见领袖自动挖掘方法步骤如下:
1、采集论坛数据
(1)利用开源爬虫抓取论坛数据
网络论坛数据采集是意见领袖挖掘的数据基础,本发明利用开源爬虫Netcrawler实现网络论坛数据的采集,这是一个Web爬行的前端***,能够沿着链接漫游Web文档集合,其基本工作原理与基于种子URL进行广度优先搜索的爬虫相同:通过给定的种子URL,利用HTTP等标准协议读取相应文档,然后以文档中所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。 Netcrawler的主要功能是下载一个域中的所有网页,然后分析和处理所有相关元素,包括图片、文字、音频、视频等,可以在http://freecode.com/projects/netcrawler下载最新的Netcrawler版本。通过给定论坛主页网址或论坛某一频道的网址作为种子URL,获取该论坛频道中包括主题和回帖页面的网页源码,具体回帖元数据解析工作在网页预处理中进行。本发明保留了***内核,对论坛采集的要素(包括标题、正文、发帖人、发帖时间、ip地址、点击数、回复数等)进行了配置,并改变***界面使之操作更加友好。根据用户提供的网络论坛种子URL抓取网页及相关帖子并存储到本地,为***追加和更新数据提供原始数据。
爬虫配置界面如图2,设置了种子URL、线程数、保存位置、抓取深度、抓取类型和关键词表达式。
(2)利用消息中间件提高数据处理的实时性
消息中间件(MOM,Message-Oriented Middleware)是一种特定的中间件。它利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式***集成。消息中间件最重要的功能就是及时提供可靠的消息通信手段。为了能够完成消息的可靠传输,一般使用队列的方式进行消息管理,也就是说,通常在进行数据传输时,将数据按照用户定义的大小,拆分成若干消息单元放入消息队列,中间件可以按照同步或异步的通信方式发送或者接收消息。在实际的操作过程中,为了保障消息可靠传输,经常使用消息优先级、断点续传、可靠消息队列、内存队列等技术,有些还加入了流量控制、预建连接等功能。消息中间件的核心本质是消息传递,消息传递是一种能支持高速、异步、程序到程序可靠通信的技术。
本实施例用到的是消息中间件ActiveMQ。ActiveMQ是一个开放源码基于Apache 2.0 licenced发布并实现了Java消息服务(JMS)开放标准,是一种基于标准的消息传送解决方案,可以在http://activemq.apache.org/download.html下载最新的ActiveMQ。***在抓取网页的同时,将网页URL、网页抓取时间和网页本次存储路径作为消息发送给ActiveMQ的消息队列,通过ActiveMQ中的消息同步传递机制,将队列中的网页信息实时传递给网页预处理过程,实现及时感知获取到的新网页,从而对新网页进行处理。此外,ActiveMQ还提供了***部署所需的互操作性、安全性、可伸缩性、可用性、易管理性以及其他功能。
在抓取完原始网页后,为了获取网页中的评论,还要进行网页信息提取。由于HTML语言作为一种半结构化的描述语言,更多地关注于展现内容的视觉效果(字体、大小、颜色、位置等),而忽略了内容的组织结构。当数据库中的记录被格式化成HTML网页后,在描述上失去了结构信息。出于方便用户浏览的目的,通常在一个内容页面中包含有多个帖子,并且每个帖子在视觉上都呈现为相对独立的信息块。这一特性反映到网页的HTML文档结构层上,就表现为每个信息块都对应于一个相对独立的文档对象模型(Document Object Model,DOM)子树,所有的信息块子树都位于同一父节点下,并且具有相同的内部结构特性。评论网页一般采用表格来容纳数据,表格是综合的HTML结构,主要用到的HTML标签有<TABLE>、<TH>、<TR>、<TD>,利用这些标签可以指定表格的排列布局。
2、提取网页信息,利用中文分词***进行分词,并利用谱聚类方法对垃圾评论进行过滤
(1)提取网页信息
在抓取完原始网页后,为了获取网页中的评论,还要进行网页信息提取。由于HTML语言作为一种半结构化的描述语言,更多地关注于展现内容的视觉效果(字体、大小、颜色、位置等),而忽略了内容的组织结构。当数据库中的记录被格式化成HTML网页后,在描述上失去了结构信息。出于方便用户浏览的目的,通常在一个内容页面中包含有多个帖子,并且每个帖子在视觉上都呈现为相对独立的信息块。这一特性反映到网页的HTML文档结构层上,就表现为每个信息块都对应于一个相对独立的文档对象模型(Document Object Model,DOM)子树,所有的信息块子树都位于同一父节点下,并且具有相同的内部结构特性。评论网页一般采用表格来容纳数据,表格是综合的HTML结构,主要用到的HTML标签有<TABLE>、<TH>、<TR>、<TD>,利用这些标签可以指定表格的排列布局。
从消息队列中取出消息,提取得出的网页元数据将被存储到数据库表中,抽取的评论内容被以文档的形式存储到本地硬盘,并与数据库表中的记录保持一一映射。网页的元数据包含评论的URL、来源网站、本地存储路径、评论标题、发表人ID名、访问数、回复数和发表时间,本地存储路径作为网页的主标识码,用于本地评论文档与数据库表记录的关联。
基于HTML的标记语言特性,可以利用正则表达式(Regular Expression)进行有用信息提取。正则表达式主要用于基于文本的搜索和编辑,可以实现数据验证、文本替换,还可以根据模式匹配从字符串中提取子字符串。图4描述了正则表达式中几个常用的元字符。本发明利用Visual Studio 2008平台中C#语言的正则表达式从网页源码中抽取有用信息。
通过正则表达式匹配提取网页中的正文信息,包括网页标题、作者、发帖内容、回帖者、回帖内容等。将抽取后的正文信息存入oracle数据库,本发明用到的数据库版本为oracle 10g。
(2)中文分词
分词是文本挖掘的关键和基础,本实施例使用了海量分词免费版开发接口,该软件是目前应用较为广泛的一种中文分词***,由中国科学院计算技术研究所研制的基于多层隐马尔可夫模型的汉语词法分析***ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),不仅有较高的分词准确率,分词效率也较好。其主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时支持用户词典、支持繁体中文、支持GBK、UTF-8、UTF-7、UNICODE等多种编码格式。目前海量分词***分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,而且ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作***,支持C/C++、C#、Delphi、Java等主流的开发语言,是当前较好的汉语词法分析器。该开发接口由HLSSplit.dll程序接口和HLSSplit.dll.dat语料库两部分组成,可通过互联网免费获取。
本实施例通过调用海量分词的HLSSplit.dll,基于海量HLSSplit.dll.dat语料库,对正文进行分词,得到中文词汇、词性标注、词汇位置、词频统计等信息,分词后的结果用于垃圾评论过滤。
(3)基于聚类的垃圾评论过滤
在匹配得到的回帖内容中有很多回复是没有意义的,例如小广告、不相关的回复、重复回复等,为了有效挖掘意见领袖,应当分析回帖者对发帖者有意义的回复内容,以此得到回帖者对发帖者的支持度。因而必须对垃圾评论进行过滤。
基于聚类的垃圾评论过滤主要步骤如图3所示:
1)针对得到的评论集,将每条评论利用向量空间模型来进行特征表示,每条评论表示成空间的一个向量。本发明采用向量空间模型对文本进行表示,在向量空间模型中,一个文本d i 被看作是一个由一组特征(t 1 ,t 2 , …,t n )组成的n维向量,这样文本d i 简化为以特征的权重为分量的向量表示(w i1 ,w i2 ,…,w in ),权重w ij 表示特征t j =(j =1,2,… n)对文本d i 分类的重要程度,可将文本d i 表示为d j =(w i1 ,w i2 ,…,w in )。
其中t in 为特征项,它可以是字、词、或是短语;w in 为特征项t in 的权重,表示t in 在评论中的重要程度,此处采取比较常用的计算权重的方法TF-IDF来表示重要程度。
2)相似矩阵的产生。相似度矩阵包含了两两评论的相似性,因此每条评论用向量表示后,需要利用余弦公式对评论进行相似度计算,两条评论d i 和d j 之间的相似度sim (d i , d j )其计算步骤如下:
相似性度量计算方法
输入:两个文本向量d i 和d j
输出:相似度矩阵G
其中,两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档d i和d j的相似度可以表示为:sim(d i , d j )=di*dj/|di|*|dj|
3)构造非正则拉普拉斯矩阵作为样本矩阵。首先利用相似度矩阵G得出邻接矩阵W,然后把邻接矩阵的每一列元素加起来得到N个数,把它们放在对角线上(其他地方都是零),组成一个N*N的矩阵,记为D。令L = D –W,L即为样本矩阵。
4)构建特征向量空间。构建特征向量空间需求出L的前k个特征值(在本文中,除非特殊说明,否则“前k个”指按照特征值的大小从小到大的顺序)以及对应的特征向量,将这k个特征向量组成一个N*k的矩阵即为特征向量空间。
5)把这k个特征(列)向量排列在一起组成一个N*k的矩阵,将其中每一行看作k维空间中的一个向量,并使用谱聚类算法进行聚类。
6)在谱聚类基础上计算每个点到对应类中心距离。本文对每个点到对应类距离计算方法采用欧氏距离的方法。设两个点 A = (a[1],a[2],…,a[n]) 和 B = (b[1],b[2],…,b[n]) 之间的距离 ρ(A,B) 定义为下面的公式:
ρ(A,B) =sqrt [ ∑( a[i] - b[i] )^2 ] (i = 1,2,…,n)
7)计算对象的离群度。先计算上述距离的平均值E(Xi)和方差E(Xi-E(Xi)) 2 的比值作为离群度的基础数据,然后根据离群度公式Out(i)=E(Xi)/E(Xi-E(Xi)) 2 计算离群度。
8)利用离群度检测垃圾评论。基于谱聚类(Spectral Clustering)的检测方法,把垃圾评论作为离群点,然后进行离群点探测,只需对离群度进行Top-n排序,离群度最高的对象就是离群点,也就是检测出的垃圾评论。
确定出某一评论是垃圾评论后,将这条评论对应的记录从数据库中删除。
3、分析文本倾向性
分析用户之间关系时,除基本的连接关系外,一个用户对另一个用户的支持度计算是核心内容,通过对帖子的文本内容进行倾向性分析可提高支持度分析的准确性。文本倾向性分析是指通过挖掘和分析文本中的看法、好恶等主观信息,并对文本的情感倾向做出类别判断。
目前文本倾向性分析的方法较多,本发明在文本预处理环节已经进行了中文分词和垃圾评论过滤,针对意见领袖的特点,对倾向性分析的计算精度要求相对较低,而对算法执行效率具有较高的要求。本发明基于情感语料库进行倾向性分析,采用的情感语料库为HowNet201104中的情感分析用词集,该语料库可在互联网上免费获取,选取其中的中文词语来构建极性词典,汇总后得到的词语集规模如图5所示。
建立的论坛情感语料库,给出了各个情感词语的数值化分值。例如:“好”的分值为1,“很好”的分值为2,“差”分值为-1,“很差”的分值为-2。
建立语料库后便可对每条评论进行倾向性打分,例如一条评论为“楼主分析得很好,但有一点偏激”,在这句话中“很好”和“偏激”都表达了回帖者的情感倾向,“很好”分值为2,“偏激”分值为-1,加权求和后得到这条评论的分值为1。得出打分后将这一分值填入数据库中该条评论对应记录的“倾向性分值”字段中。
4、挖掘意见领袖
传统的Pagerank算法:
Pagerank依靠的是网名对站点的支持率,利用大量的链接结构表明某个单独网页的价值。它就像是一个由互联网上的所有其他页面发起的投票,并以此来决定一个页面的重要性。一个指向某页面的链接代表一张支持票,如果没有链接指向它,那就相当于没有支持票。
Pagerank的值定义如下:假定页面A有T1…Tn这些页面指向它(即T1…Tn引用页面A)。参数d是一个设置于0与1之间的阻尼参数。另外,C(A)定义为从A出发的链接数量。则网页A的Pagerank值由下面的公式得出。
PR(A)=(1-d)+d*(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)),
其中,PR(A)表示给定页面A的得分;d为阻尼因子,通常设为0.8;PR(Tn)表示一个指向A页的网站其本身的得分;C(T1)表示该页面所拥有的链出数量;PR(Tn)/C(Tn)表示指向A页的页面数量和A指向其他页的页面数量的比例。Pagerank值在整个网页群体中的构成概率分布,所以全部网页的Pagerank值之和为1。
A页的外部链接B能够带给A的得分与B的链出数量成反比,即随着B上链出数的增加,带给A的得分随之降低。这同样表明一个网页的得分是该网页对其他网页投票的一个基本的度量形式。一个网页可以投票给一个或多个导出链接,但其总投票权一定,并被平分给所有的导出链接。假设B的得分为5,且B上只有一条指向A的链接,那么A将获得B全部的得分,B没有损失任何东西,而A赢得了B的得分。但如果B上有n个链接,则A只能得到B的得分的n分之一。
改进的Pagerank算法:
从传统Pagerank算法的定义不难看出,它实际上假设链接到网页A的所有网页Ti,从Ti沿着链接跳转到A的概率是Ti网页链接出度的倒数,即假设Ti跳转到任意网页的概率是相同的。这与实际情况是不相符的,在论坛中,一个用户可以有很多链出,可以支持很多人发表的帖子,但这些链接的权重肯定是不一样的,它与回帖者和发帖者的相关度有关。可以使用链接相关度来刻画这个权重,表示如下:
L(A,Ti)=(Ua∩Ui)/( Ua∪Ui),
其中,L(A,Ti)表示网页A和网页Ti的链接相关度;Ua代表网页A的链出、链入和自身的URL 的集合;Ui代表网页Ti的链出、链入和自身的URL 的集合。在网络论坛中,这种方法相当于将原来的有向网看作是无向网,表示的是发帖者和回帖者回复另外一个发帖者的帖子的数目与发帖者和回帖者发表帖子总数的比率,比值越大,两者相关性越大。
从而得到修正后的公式:
PR(A)=(1-d)+d*(PR(T1) * L(A,T1)+…+PR(Tn) *L(A,Tn)),
其中,PR(A)表示给定页面A的得分;d为阻尼因子,设为0.8;PR(Tn)表示一个指向A页的网站其本身的得分;L(A,Tn)表示网页A和网页Tn的链接相关度。
改进的Pagerank算法注意事项:
依照算法进行编程便可算出论坛中用户的得分,得分较高者便可认定为意见领袖。但在具体使用该算法过程中需要注意以下问题:
(1)迭代收敛误差的设定
Pagerank算法是一个迭代收敛算法,所以要确定收敛误差,误差的设定需要一定的技巧,设定得过大,结果的准确性值得怀疑,设定得过小,得出结果所需时间过长,有时在观察时间内甚至得不到结果,经过多次试验,设定数据误差为0.001。
(2)意见领袖的选取标准
这里所说的标准实际上是一个数值,即需要考虑得分大于多少即可视为意见领袖,这个难以得到一个统一的标准。考察的天涯经济论坛中,一共有20000多个用户,而所有用户总分为1,经过多次试验,发现取0.001作为标准数值是比较合理的,选取该值得出的意见领袖经分析都符合对意见领袖的定位。
(3)等级沉没现象的解决
在算法使用中如果遇到几个孤立节点相互投票,即假设用户A和用户B分别支持了对方,而用户A和用户B没有得到论坛中的其他用户的支持,在进行运算时,两者的得分会稳定在一个较高数值甚至会呈增大趋势,这样最终得分会高于选取标准,从而将用户A和B误认为意见领袖,这种现象称为等级沉没。在遭遇等级沉没时需将孤立节点剔除,算法实现时如果读取到一个用户是被认为会引起等级沉没的用户,那么直接将其跳过,该用户不会进入算法矩阵,这样就很好的避免了等级沉没。
改进的Pagarank算法的具体应用:
在执行算法挖掘意见领袖前应该首先构造矩阵,假设论坛有n个用户,那么便构造一个n×n的矩阵,每个n对应着论坛的一个用户,矩阵上的每一个点(i,j)的值为用户j对用户i各次回帖内容倾向性打分的算术和。
此后设定改进算法迭代收敛误差和意见领袖的选取标准,本发明设定该标准值为0.001,通过迭代计算,凡是PR(A)值大于该标准值的,即为论坛中的意见领袖。
验证通过挖掘得到得意见领袖是否是因等级沉没而导致误判,若存在误判则将其删除,重新执行改进的Pagerank算法直至得出正确结果。
5、可视化挖掘结果
可视化展现依靠开放源码的社会网络可视化工具Vizster实现。Vizster是一个在线社交网络的交互式可视化工具,可通过http://hci.stanford.edu/jheer/projects/vizster/download.html下载。用户之间的关系用Xml的形式组织起来,作为Vizster的输入。本实施例对Vizster进行了部分修改,将信息展示区简化成展示用户之间回帖人名字、Pagerank值以及是否为意见领袖。同时,考虑到论坛中用户过多影响展示效果,可以只展示挖掘出的意见领袖和比较活跃的用户信息,这样使得Vizster在不丢失任何有用信息的前提下,达到简明清晰的展示效果。
由于Vizster支持可视化搜索、分析和自动关联节点等功能,通过***能够很容易地观看到整个论坛用户的影响力结构图,并通过颜色区分快速发现意见领袖。
Claims (7)
1.一种面向网络论坛的意见领袖挖掘方法,包括意见领袖挖掘***,意见领袖挖掘***包括计算中心和数据库服务器,数据库服务器与计算中心通信,其特征在于,该方法的具体步骤为:
1)利用爬虫抓取论坛数据,并利用消息中间件提高数据处理的实时性;
2)提取网页信息,利用中文分词***进行分词,并利用谱聚类方法对垃圾评论进行过滤;
3)利用情感语料库进行文本倾向性分析;
4)设定意见领袖的选取标准值,利用下列公式确定意见领袖:
PR(A)=(1-d)+d*(PR(T1) * L(A,T1)+…+PR(Tn) *L(A,Tn)),
其中:PR(A)表示给定页面A的得分,d为阻尼因子,PR(Tn)表示一个指向A页的网站其本身的得分,L(A,Tn)表示网页A和网页Tn的链接相关度,L(A,Tn)=(Ua∩Un)/( Ua∪Un),Ua代表网页A的链出、链入和自身的URL 的集合;Un代表网页Tn的链出、链入和自身的URL 的集合;
当PR(A)大于设定的选取标准值时,即确定为意见领袖;
5)将4)中的结果可视化。
2.根据权利要求1所述的面向网络论坛的意见领袖挖掘方法,其特征在于,所述步骤1)中,利用开源爬虫Netcrawler实现网络论坛数据的采集;所述消息中间件为ActiveMQ。
3.根据权利要求1所述的面向网络论坛的意见领袖挖掘方法,其特征在于,所述步骤2)中,利用正则表达式提取网页信息;所述中文分词***为基于多层隐马尔可夫模型的汉语词法分析***ICTCLAS。
4.根据权利要求1所述的面向网络论坛的意见领袖挖掘方法,其特征在于,所述步骤2)中,利用谱聚类方法对垃圾评论进行过滤的步骤为:
1)采集文本情报语料,对文本进行预处理,得到评论集;
2)针对得到的评论集,将每条评论利用向量空间模型来进行特征表示,每条评论表示成空间的一个向量;
3)生成相似矩阵G;
4)构造非正则拉普拉斯矩阵作为样本矩阵:利用相似度矩阵G得出邻接矩阵W,然后把邻接矩阵的每一列元素加起来得到N个数,把它们放在对角线上,其他地方都是零,组成一个N*N的矩阵,记为D,令L = D –W,L即为样本矩阵;
5)构建特征向量空间:求出L的前k个特征值以及对应的特征向量,将这k个特征向量组成一个N*k的矩阵,即为特征向量空间,其中前k个特征值按照特征值的大小从小到大排列;
6)把这k个特征列向量排列在一起组成一个N*k的矩阵,将其中每一行看作k维空间中的一个向量,并使用谱聚类算法进行聚类;
7)采用欧氏距离方法,在谱聚类基础上计算每个点到对应类中心距离;
8)计算对象的离群度:将上述距离的平均值E(Xi)和方差E(Xi-E(Xi)) 2 的比值作为离群度的基础数据,然后根据离群度公式Out(i)=E(Xi)/E(Xi-E(Xi)) 2 计算离群度;
9)利用离群度检测垃圾评论:把垃圾评论作为离群点,然后进行离群点探测,只需对离群度进行Top-n排序,离群度最高的对象就是离群点,也就是检测出的垃圾评论;
10)将检测出的垃圾评论从数据库中删除。
5.根据权利要求1所述的面向网络论坛的意见领袖挖掘方法,其特征在于,所述步骤3)中,采用的情感语料库为HowNet201104中的情感分析用词集。
6.根据权利要求1所述的面向网络论坛的意见领袖挖掘方法,其特征在于,所述步骤4)中,选取的标准值为0.001;阻尼因子d设为0.8。
7.根据权利要求1所述的面向网络论坛的意见领袖挖掘方法,其特征在于,所述步骤5)中,利用Vizster实现可视化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102501161A CN102890702A (zh) | 2012-07-19 | 2012-07-19 | 一种面向网络论坛的意见领袖挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102501161A CN102890702A (zh) | 2012-07-19 | 2012-07-19 | 一种面向网络论坛的意见领袖挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102890702A true CN102890702A (zh) | 2013-01-23 |
Family
ID=47534204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102501161A Pending CN102890702A (zh) | 2012-07-19 | 2012-07-19 | 一种面向网络论坛的意见领袖挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102890702A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150333A (zh) * | 2013-01-26 | 2013-06-12 | 安徽博约信息科技有限责任公司 | 微博媒体中的意见领袖识别方法 |
CN103279484A (zh) * | 2013-04-23 | 2013-09-04 | 中国科学院计算技术研究所 | 一种面向微博客***中未来意见领袖的创建方法及*** |
CN103646097A (zh) * | 2013-12-18 | 2014-03-19 | 北京理工大学 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
CN104142948A (zh) * | 2013-05-09 | 2014-11-12 | 富士通株式会社 | 挖掘领域观点领袖的方法和设备 |
CN104239373A (zh) * | 2013-06-24 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 为文档添加标签的方法及装置 |
CN104462253A (zh) * | 2014-11-20 | 2015-03-25 | 武汉数为科技有限公司 | 一种面向网络文本大数据的话题检测或跟踪方法 |
CN104750699A (zh) * | 2013-12-25 | 2015-07-01 | 伊姆西公司 | 用于管理意见数据的方法和设备 |
CN104866572A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种网络短文本聚类方法 |
CN105630801A (zh) * | 2014-10-30 | 2016-06-01 | 国际商业机器公司 | 用于检测偏离用户的方法和装置 |
CN106354843A (zh) * | 2016-08-31 | 2017-01-25 | 虎扑(上海)文化传播股份有限公司 | 网络爬虫***以及方法 |
CN107145897A (zh) * | 2017-03-14 | 2017-09-08 | 中国科学院计算技术研究所 | 一种基于通信时空特征的演变网络特殊群体挖掘方法及*** |
CN107391775A (zh) * | 2017-08-28 | 2017-11-24 | 湖北省楚天云有限公司 | 一种通用的网络爬虫模型实现方法及*** |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN108009727A (zh) * | 2017-12-04 | 2018-05-08 | 上海财经大学 | 一种结合用户评论的事物评价方法 |
CN108009726A (zh) * | 2017-12-04 | 2018-05-08 | 上海财经大学 | 一种结合用户评论的事物评价*** |
CN109815395A (zh) * | 2018-12-26 | 2019-05-28 | 北京中科闻歌科技股份有限公司 | 网页垃圾信息过滤方法、装置及存储介质 |
CN110110084A (zh) * | 2019-04-23 | 2019-08-09 | 北京科技大学 | 高质量用户生成内容的识别方法 |
CN110489658A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 基于双图模型的在线社交网络意见领袖挖掘方法 |
CN111460317A (zh) * | 2020-03-30 | 2020-07-28 | 北京百分点信息科技有限公司 | 一种意见领袖的识别方法、装置和设备 |
CN111831881A (zh) * | 2020-07-04 | 2020-10-27 | 西安交通大学 | 一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法 |
CN112116473A (zh) * | 2020-09-18 | 2020-12-22 | 上海计算机软件技术开发中心 | 跨链公证人机制评价***和平台 |
CN114443902A (zh) * | 2022-02-22 | 2022-05-06 | 广州云智达创科技有限公司 | 一种达人分析方法、装置、存储介质及程序产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073476A1 (en) * | 2002-10-10 | 2004-04-15 | Prolink Services Llc | Method and system for identifying key opinion leaders |
-
2012
- 2012-07-19 CN CN2012102501161A patent/CN102890702A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040073476A1 (en) * | 2002-10-10 | 2004-04-15 | Prolink Services Llc | Method and system for identifying key opinion leaders |
Non-Patent Citations (3)
Title |
---|
吴令飞: "寻找"意见领袖":应用Page Rank算法处理社会网络数据的尝试", 《北京大学硕士学位论文》, 31 December 2009 (2009-12-31) * |
葛斌等: "网络论坛意见领袖挖掘***设计与实现", 《电脑知识与技术》, vol. 7, no. 22, 31 August 2011 (2011-08-31), pages 5393 - 5395 * |
钟洵: "谱聚类在离群数据挖掘中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 3, 15 March 2011 (2011-03-15) * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150333B (zh) * | 2013-01-26 | 2016-01-13 | 安徽博约信息科技有限责任公司 | 微博媒体中的意见领袖识别方法 |
CN103150333A (zh) * | 2013-01-26 | 2013-06-12 | 安徽博约信息科技有限责任公司 | 微博媒体中的意见领袖识别方法 |
CN103279484A (zh) * | 2013-04-23 | 2013-09-04 | 中国科学院计算技术研究所 | 一种面向微博客***中未来意见领袖的创建方法及*** |
CN103279484B (zh) * | 2013-04-23 | 2016-03-30 | 中国科学院计算技术研究所 | 一种面向微博客***中未来意见领袖的创建方法及*** |
CN104142948A (zh) * | 2013-05-09 | 2014-11-12 | 富士通株式会社 | 挖掘领域观点领袖的方法和设备 |
CN104239373A (zh) * | 2013-06-24 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 为文档添加标签的方法及装置 |
CN103646097B (zh) * | 2013-12-18 | 2016-09-07 | 北京理工大学 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
CN103646097A (zh) * | 2013-12-18 | 2014-03-19 | 北京理工大学 | 一种基于约束关系的意见目标和情感词联合聚类方法 |
CN104750699A (zh) * | 2013-12-25 | 2015-07-01 | 伊姆西公司 | 用于管理意见数据的方法和设备 |
US10614089B2 (en) | 2013-12-25 | 2020-04-07 | EMC IP Holding Company LLC | Managing opinion data |
CN104750699B (zh) * | 2013-12-25 | 2019-05-03 | 伊姆西公司 | 用于管理意见数据的方法和设备 |
CN105630801A (zh) * | 2014-10-30 | 2016-06-01 | 国际商业机器公司 | 用于检测偏离用户的方法和装置 |
CN104462253A (zh) * | 2014-11-20 | 2015-03-25 | 武汉数为科技有限公司 | 一种面向网络文本大数据的话题检测或跟踪方法 |
CN104462253B (zh) * | 2014-11-20 | 2018-05-18 | 武汉数为科技有限公司 | 一种面向网络文本大数据的话题检测或跟踪方法 |
CN104866572A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种网络短文本聚类方法 |
CN104866572B (zh) * | 2015-05-22 | 2018-05-18 | 齐鲁工业大学 | 一种网络短文本聚类方法 |
CN106354843A (zh) * | 2016-08-31 | 2017-01-25 | 虎扑(上海)文化传播股份有限公司 | 网络爬虫***以及方法 |
CN107145897B (zh) * | 2017-03-14 | 2020-01-07 | 中国科学院计算技术研究所 | 一种基于通信时空特征的演变网络特殊群体挖掘方法及*** |
CN107145897A (zh) * | 2017-03-14 | 2017-09-08 | 中国科学院计算技术研究所 | 一种基于通信时空特征的演变网络特殊群体挖掘方法及*** |
CN107633260B (zh) * | 2017-08-23 | 2020-10-16 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN107633260A (zh) * | 2017-08-23 | 2018-01-26 | 上海师范大学 | 一种基于聚类的社交网络意见领袖挖掘方法 |
CN107391775A (zh) * | 2017-08-28 | 2017-11-24 | 湖北省楚天云有限公司 | 一种通用的网络爬虫模型实现方法及*** |
CN108009727A (zh) * | 2017-12-04 | 2018-05-08 | 上海财经大学 | 一种结合用户评论的事物评价方法 |
CN108009726A (zh) * | 2017-12-04 | 2018-05-08 | 上海财经大学 | 一种结合用户评论的事物评价*** |
CN108009726B (zh) * | 2017-12-04 | 2021-12-28 | 上海财经大学 | 一种结合用户评论的事物评价*** |
CN109815395A (zh) * | 2018-12-26 | 2019-05-28 | 北京中科闻歌科技股份有限公司 | 网页垃圾信息过滤方法、装置及存储介质 |
CN109815395B (zh) * | 2018-12-26 | 2021-06-08 | 北京中科闻歌科技股份有限公司 | 网页垃圾信息过滤方法、装置及存储介质 |
CN110110084A (zh) * | 2019-04-23 | 2019-08-09 | 北京科技大学 | 高质量用户生成内容的识别方法 |
CN110489658A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 基于双图模型的在线社交网络意见领袖挖掘方法 |
CN111460317A (zh) * | 2020-03-30 | 2020-07-28 | 北京百分点信息科技有限公司 | 一种意见领袖的识别方法、装置和设备 |
CN111831881A (zh) * | 2020-07-04 | 2020-10-27 | 西安交通大学 | 一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法 |
CN111831881B (zh) * | 2020-07-04 | 2023-03-21 | 西安交通大学 | 一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法 |
CN112116473A (zh) * | 2020-09-18 | 2020-12-22 | 上海计算机软件技术开发中心 | 跨链公证人机制评价***和平台 |
CN114443902A (zh) * | 2022-02-22 | 2022-05-06 | 广州云智达创科技有限公司 | 一种达人分析方法、装置、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102890702A (zh) | 一种面向网络论坛的意见领袖挖掘方法 | |
Hamborg et al. | Automated identification of media bias in news articles: an interdisciplinary literature review | |
US9990356B2 (en) | Device and method for analyzing reputation for objects by data mining | |
CN103324665B (zh) | 一种基于微博的热点信息提取的方法和装置 | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN109614550A (zh) | 舆情监控方法、装置、计算机设备及存储介质 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
US8812505B2 (en) | Method for recommending best information in real time by appropriately obtaining gist of web page and user's preference | |
CN103023714B (zh) | 基于网络话题的活跃度与集群结构分析***及方法 | |
CN107577759A (zh) | 用户评论自动推荐方法 | |
CN103853824A (zh) | 一种基于深度语义挖掘的内文广告发布方法与*** | |
CN103914478A (zh) | 网页训练方法及***、网页预测方法及*** | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN102119385A (zh) | 用于在内容检索服务***内检索媒体内容的方法和子*** | |
TW200925970A (en) | Customized today module | |
CN111192176B (zh) | 一种支持教育信息化评估的在线数据采集方法及装置 | |
CN102955848A (zh) | 一种基于语义的三维模型检索***和方法 | |
Geçkil et al. | A clickbait detection method on news sites | |
CN110188191A (zh) | 一种用于网络社区文本的实体关系图谱构建方法和*** | |
CN104199938B (zh) | 基于rss的农用土地信息发送方法和*** | |
CN104050243B (zh) | 一种将搜索与社交相结合的网络搜索方法及其*** | |
CN102402566A (zh) | 基于中文网页自动分类技术的Web用户行为分析方法 | |
CN110134845A (zh) | 项目舆情监控方法、装置、计算机设备及存储介质 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN116010552A (zh) | 一种基于关键词词库的工程造价数据解析***及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130123 |