CN103020712A - 一种海量微博数据的分布式分类装置及方法 - Google Patents

一种海量微博数据的分布式分类装置及方法 Download PDF

Info

Publication number
CN103020712A
CN103020712A CN2012105838868A CN201210583886A CN103020712A CN 103020712 A CN103020712 A CN 103020712A CN 2012105838868 A CN2012105838868 A CN 2012105838868A CN 201210583886 A CN201210583886 A CN 201210583886A CN 103020712 A CN103020712 A CN 103020712A
Authority
CN
China
Prior art keywords
controller
microblogging
data
microblogging data
master controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105838868A
Other languages
English (en)
Other versions
CN103020712B (zh
Inventor
王国仁
信俊昌
聂铁铮
赵相国
丁琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201210583886.8A priority Critical patent/CN103020712B/zh
Publication of CN103020712A publication Critical patent/CN103020712A/zh
Application granted granted Critical
Publication of CN103020712B publication Critical patent/CN103020712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种海量微博数据的分布式分类装置及方法,属于数据挖掘技术领域。该装置采用分布式结构,根据ELM的处理方法,每个从控制机将自身处理的用于生成最终微博数据分类器的中间结果发送给主控制机,主控制机接收所有从控制机发送来的中间结果后,根据ELM的原理,得到最终的微博数据分类器,利用产生的微博数据分类器实现对微博数据的分类。克服了以往的利用极限学习机技术仅能应用于集中式环境,无法适应大规模训练样本集的ELM分类的缺陷,使得处理和分析海量微博数据成为可能,令应用中积累的海量微博数据的效用得到充分发挥,起到了更好的为应用服务的效果。

Description

一种海量微博数据的分布式分类装置及方法
技术领域
本发明属于数据挖掘技术领域,涉及一种基于分布式处理技术的极限学习机分类装置及方法,特别涉及一种海量微博数据的分布式分类装置及方法。
背景技术
目前,互联网上每时每刻都会产生大量的信息,这些信息的表现形式多种多样,其中微博平台产生的信息量也在迅速增加。微博即微型博客(Micro-Blogs),是一种允许用户及时更新并可以公开发布简短文本(通常在140字左右)的博客形式。微博的快速发展使得任何人都可以成为微博用户,并且随时在任何支持微博的客户端上发表和读取信息,进行互动交流,表达自己的情感信息。微博已经成为互联网强大的信息载体,并且微博信息量已经达到海量规模,成为目前最受欢迎的信息共享、传播和互动平台。为此,如何采取适当的措施与技术,从海量的微博数据中挖掘有用的信息,对未来事物做出预测性的判断已经成为当前数据挖掘领域研究的热点与难点。
在现有的针对微博数据的相关研究中,所处理的微博数据的数据量往往相对较小,在集中式环境下就能进行处理;然而伴随着互联网中微博数据的飞速增长,微博数据的数据量远远超过单个计算机的处理能力,采用现有的方法很难实现大规模的数据分析。
发明内容
针对现有技术的不足,本发明的目的是提出一种海量微博数据的分布式分类装置及方法,利用极限学习机(Extreme Learning Machine,ELM)技术对微博数据进行分类,进而能够有效的处理和分析海量的微博数据,以达到使应用中积累的海量微博数据的效用得到充分发挥,更好的为应用服务的目的。
本发明的技术方案是这样实现的:一种海量微博数据的分布式分类装置,该装置采用分布式结构,包括一台主控制机和至少一台从控制机,且每个从控制机均与主控制机互联,主控制机和每个从控制机相互通信,所有从控制机间相互独立,独立完成各自的任务;根据ELM的处理方法,每个从控制机将自身处理的用于生成最终微博数据分类器的中间结果发送给主控制机,主控制机接收所有从控制机发送来的中间结果后,根据ELM的原理,得到最终的微博数据分类器。
所述的从控制机包括:
向量器:用于将从控制机中带有分类结果的每条微博训练数据转换成向量表示的形式,其中包括每条微博数据的数据部分的特征向量xi和分类结果部分ti
剥离器:用于剥离向量器处理后的微博数据训练集中的所有微博数据的特征向量矩阵Xi和分类结果矩阵Ti
转换器:利用极限学习机(ELM)的原理,用于将剥离器抽取的特征向量矩阵Xi转换成ELM中的隐层输出矩阵Hi
前项计算器:利用极限学习机(ELM)的原理,用于根据隐层输出矩阵Hi,计算中间结果Hi THi,并提交给主控制机。
后项计算器:利用极限学习机(ELM)的原理,用于根据隐层输出矩阵Hi和微博数据集中分类结果矩阵Ti,计算中间结果Hi TTi,并提交给主控制机。
所述的主控制机包括:
前项累加器:用于合并各个从控制机提交的中间结果Hi THi,得到汇总结果HTH。
后项累加器:用于合并各个从控制机提交的中间结果Hi TTi,得到汇总结果HTT。
参数生成器:利用极限学习机(ELM)的原理,用于根据汇总的前项累加器和后项累加器输出的结果,计算输出节点的权重向量参数β。
分类生成器:根据参数生成器得到的参数β构建微博数据的分类装置,用于对待测试的微博数据进行分类。
一种海量微博数据的分布式分类方法,包括以下步骤:
步骤1:微博训练数据集的准备;
微博训练数据集的准备包括对抓取原始的微博数据和人工对微博数据进行标注两个部分。可以采用如下两种方式:第一种方式是由主控制机抓取所需处理的原始微博数据,并为每一条训练数据进行人工标注,表示这些微博数据的分类结果,然后将这些微博数据分配到相应的从控制机;第二种方式是由主控制机与每个从控制机通信,通知每个从控制机需要抓取的微博数据的信息,每个从控制机自身抓取原始微博数据,并为自身抓取的原始微博数据进行人工标注,表示这些微博数据的分类结果;
步骤2:主控制机将所需参数初始化,并发送给所有的从控制机;
利用极限学习机(ELM)的原理,由主控制机预先随机生成参数,包括:隐层节点个数L、输入节点的权重向量w1,w2,...,wL、隐层节点的偏移量b1,b2,...,bL,并将这些参数发送到所有的从控制机;
步骤3:每个从控制机对各自的局部微博数据集进行处理,并将处理结果发送给主控制机,由主控制机生成微博数据分类器;
步骤3-1:微博数据向量化;
将带有分类结果部分的每条微博训练数据进行向量化,其中包括每条微博数据的数据部分的特征向量xi和分类结果部分ti
步骤3-2:微博数据的剥离;
对于每个从控制机微博数据训练集中的经过特征提取的微博数据集,剥离这些数据的特征向量部分和分类结果部分,形成每个从控制机的微博数据训练集的特征向量矩阵Xi和分类结果矩阵Ti,即使得每个从控制机均生成各自的局部微博数据集(Xi,Ti),其中,Xi为微博数据集的特征矩阵,Ti为微博数据集的分类结果矩阵。
步骤3-3:每个从控制机根据各自的局部微博数据集生成中间结果,并发送给主控制机;
每个从控制机ni根据接收的输入节点的权重向量w1,w2,...,wL和第i个隐层节点的阈值b1,b2,...,bL,以及局部微博训练数据集(Xi,Ti),计算构建分类器所需的中间结果,并将中间结果提交给主控制机;
步骤3-3-1:将局部微博数据集的特征矩阵Xi转化为ELM的隐层输出矩阵Hi
步骤3-3-2:根据隐层输出矩阵Hi,计算中间结果Ui=Hi THi
步骤3-3-3:根据隐层输出矩阵Hi和局部训练数据集的分类结果矩阵Ti,计算中间结果Vi=Hi TTi
步骤3-4:主控制机接收并汇总各个从控制机的中间结果;根据汇总的中间结果按照ELM的计算原理,计算输出节点的权重向量参数β,进而求得微博数据分类器;
步骤3-4-1:合并各个从控制机提交的中间结果Ui,得到汇总结果U=∑Ui=∑Hi THi=HTH;
步骤3-4-2:合并各个从控制机提交的中间结果Vi,得到汇总结果V=∑Vi=∑Hi TTi=HTT;
步骤3-4-3:根据汇总的U和V计算输出节点的权重向量参数β:
β = ( I λ + H T H ) - 1 H T T = ( I λ + U ) - 1 V
其中,I是单位阵,λ是用户指定的参数,(·)-1是矩阵求逆运算;
进而确定微博数据分类器的公式,
f(x)=h(x)β
其中,f(x)表示待分类微博数据的分类结果,h(x)表示待分类微博数据的隐层输出向量;
步骤4:微博数据的自动分类
微博数据的自动分类可以采取两种方式:第一种方式为主控制机继续抓取微博数据,运用步骤3生成的微博数据分类器直接输出待分类的微博数据的分类结果,第二种为主控制机将步骤3生成的微博数据分类器发送给各个从控制机,然后各个从控制机运用分类器对自身的待分类的微博数据进行分类,求得分类结果。
有益效果:本发明是一种海量微博数据的分布式分类装置及方法,克服了以往的利用极限学习机技术仅能应用于集中式环境,无法适应大规模训练样本集的ELM分类的缺陷,使得处理和分析海量微博数据成为可能,令应用中积累的海量微博数据的效用得到充分发挥,起到了更好的为应用服务的效果。
附图说明
图1为本发明一种实施方式的分布式体系结构示意图;
图2为本发明一种实施方式的主控制机与从控制机的连接示意图;
图3为本发明一种实施方式的主控制机及从控制机结构框图;
图4为本发明一种实施方式的分布式微博数据训练集示意图;
图5为本发明一种实施方式的分布式微博数据训练方法流程图;
图6为本发明一种实施方式中产生微博数据分类器的方法流程图;
图7为本发明一种实施方式从控制机转化后的局部中间结果示意图;
图8为本发明一种实施方式从控制机计算中间结果及主控制机汇总示意图。
具体实施方式
下面结合附图对本发明的实施方式作进一步详细说明。
在现今的微博数据中包含了大量的微博用户情感信息,这些信息表明了微博用户对某个事件、商品、人物等的观点和看法,这些情感信息具有很高的研究和应用价值,也就使得针对微博数据的情感分析获得了广泛的关注,具有了广阔的应用前景,例如观点分析、商品评价、民意检测等方面。因此,在本发明的具体实施例中,根据微博数据的情感倾向性来对微博数据进行分类。
本发明是在分布式环境下对海量微博数据进行分析,其中分布式体系结构如图1所示。包括一个主节点n0和多个从节点n1,n2,...,ns,其中,主节点n0分别与多个从节点n1,n2,...,ns互联,能够和所有从节点n1,n2,...,ns进行相互通信。
本发明的一种实施方式采用如图2所示的总体连接示意图,其中包括一个主控制机和多个从控制机(从控制机1,从控制机2,...,从控制机m),每个从控制机均与主控制机互联。根据极限学习机(ELM)的原理,每个从控制机处理自身局部的微博训练数据集,产生各自的用于生成最终分类器的中间结果,并将这些中间结果发送给主控制机,主控制机在接收这些中间结果后,同样根据极限学习机(ELM)的原理,产生最终的微博数据分类器。
其中,从控制机包括向量器、剥离器、转换器、前项计算器和后项计算器。主控制机包括前项累加器、后项累加器、参数生成器和分类生成器。
向量器:用于将从控制机中带有分类结果的每条微博训练数据转换成向量表示的形式,其中包括每条微博数据的数据部分的特征向量xi和分类结果部分ti
剥离器:用于剥离向量器处理后的微博数据训练集中的所有微博数据的特征向量矩阵Xi和分类结果矩阵Ti
转换器:利用极限学习机(ELM)的原理,用于将向剥离器抽取的特征向量矩阵Xi转换成ELM中的隐层输出矩阵Hi
前项计算器:利用极限学习机(ELM)的原理,用于根据隐层输出矩阵Hi,计算中间结果Hi THi,并提交给主控制机。
后项计算器:利用极限学习机(ELM)的原理,用于根据隐层输出矩阵Hi和微博数据集中分类结果矩阵Ti,计算中间结果Hi TTi,并提交给主控制机。
前项累加器:用于合并各个从控制机提交的中间结果Hi THi,得到汇总结果HTH。
后项累加器:用于合并各个从控制机提交的中间结果Hi TTi,得到汇总结果HTT。
参数生成器:利用极限学习机(ELM)的原理,用于根据汇总的前项累加器和后项累加器输出的结果,计算输出节点的权重向量参数β。
分类生成器:根据参数生成器得到的参数β构建微博数据的分类装置,用于对待测试的微博数据进行分类。
本实施方式中,各从控制机和主控制机均采用ELM技术实现对微博数据的分析,其中的ELM技术具体如下:
极限学习机是一种基于单隐层前馈神经网络(Single Hidden-Layer Feedforward NeuralNetworks,SLFNs)的训练方法。ELM在训练前随机设置隐含层到输入层的连接权值和偏置值,在算法的执行过程中不需要调整网路的输入权值以及隐含层单元的偏置值,既能够对输出层权重产生唯一最优解析解,能够提供良好的泛化能力和极快的学习速度。
ELM的基本原理为:在训练过程中,ELM首先随机产生输入权重和隐层节点阈值,然后再根据训练数据计算SLFNs的输出权重。假设给定N个训练样本(xj,tj),其中xj是训练样本的特征向量部分,tj是样本的分类结果部分。隐层节点数为L、激励函数为g(x)的SLFNs可以形式化地表示为:
Σ i = 1 L β i g ( x j ) = Σ i = 1 L β i g ( w i · x j + b i ) = o j , j = 1,2 , . . . , N . - - - ( 1 )
其中,wi是连接第i个隐层节点和输入节点的权重向量;βi是连接第i个隐层节点和输出节点的权重向量;bi是第i个隐层节点的阈值;oj是SLFNs的第j个输出向量。
如果SLFNs可以无误差的近似训练样本,那么就要满足
Figure BDA00002680815000061
即存在wi、βi和bi,使得 Σ i = 1 L β i g ( w i · x j + b i ) = t j , 简记为Hβ=T。其中,
H ( w 1 , w 2 , . . . , w L , b 1 , b 2 , . . . , b L , x 1 , x 2 , . . . , x N ) = g ( w 1 · x 1 + b 1 ) g ( w 2 · x 1 + b 2 ) · · · g ( w L · x 1 + b L ) g ( w 1 · x 2 + b 1 ) g ( w 2 · x 2 + b 2 ) · · · g ( w L · x 2 + b L ) · · · · · · · · · · · · g ( w 1 · x N + b 1 ) g ( w 2 · x N + b 2 ) · · · g ( w L · x N + b L ) - - - ( 2 )
β = [ β 1 T , β 2 T , · · · β L T ] T , T = [ t 1 T , t 2 T , · · · t N T ] T · 其中,矩阵xT为矩阵x的转置矩阵。
矩阵H称为隐层输出矩阵。公式Hβ=T中,只有β是未知数,可得
Figure BDA00002680815000066
Figure BDA00002680815000067
是H的Moore-Penrose广义逆。
在基本的极限学习机的基础上,几位学者进一步提出了基于随机隐层特征映射的ELM,此时
Figure BDA00002680815000068
其中I是单位阵,λ是用户指定的参数;
此外,还有基于核函数的ELM(Kernel based ELM),完全复杂ELM(Fully Complex ELM)、在线连续ELM(Online Sequential ELM)、增量ELM(Incremental ELM)和集成ELM(Ensemble ofELM)等多个ELM的变种,均被广泛地使用在不同的应用领域,达到了很好的实际应用效果。
本实施方式是根据与苹果平板电脑相关的微博数据,对目前微博用户对苹果平板电脑的情感倾向性进行分析,通过这样的情感倾向性分析,帮助有关的产品生产商、供应商、经销商等对于苹果平板电脑未来的发展趋势做出正确的判断,同时也可以帮助苹果平板电脑的已购和预购用户加深对苹果平板电脑的了解,进而做出适宜的选择。
图4所示为由一个主控制机(即主节点n0)、三个从控制机(即从节点n1、n2和n3)共同构成的分布式***。根据上述过程及ELM的基本原理,在图4所示的分布式***中,需要进行如下的处理。
本实施方式采用一种海量微博数据的分布式分类方法对与平板电脑相关的微博数据作情感性分析,流程如图5所示。该流程开始与步骤501。
在步骤502,准备微博训练数据。根据前述内容,微博训练数据的准备包括两种方式,本实施例中采用第一种方式。主控制机抓取与苹果平板电脑相关的原始微博数据,原始的微博数据含有多个字段,例如,发表时间、发表人、类型、访问权限、正文文本内容、图片URL、视频URL等等。本实施例中仅仅获取这些原始数据中的文本内容字段即可,用于情感倾向性分析。同时,需要人工标注增添一个情感倾向维度,即微博数据的分类结果部分,用于表示微博内容的情感倾向,本实施例中将文本的情感倾向分为三个级别,赞成、中立、反对。下面列出的是7条进过人工情感标注的微博数据,主控制机将这7条训练数据分发给三个从控制机,其中语句1-2发给从控制机n1,语句3-5发送给从控制机n2,语句6-7发送给从控制机n3
从控制机n1的微博训练数据集:
语句1:苹果平板电脑品质不错,反应速度够快,手感也很好。(语句1的情感倾向是:赞成)
语句2:苹果平板电脑用了有段时间,功能太少了,没有传说中的那么好,太一般了。(语句2的情感倾向是:反对)
从控制机n2的微博训练数据集:
语句3:苹果平板电脑速度很快,联网稳定,游戏上网都比较完美,赞一个!(语句3的情感倾向是:赞成)
语句4:苹果平板电脑单一的产品路线和高的价格,不知道在三星等其他的对手的竞争下还能持续多久。(语句4的情感倾向是:中立)
语句5:苹果平板电脑操作***不习惯,屏幕比例看宽屏电影很不爽,导出文件麻烦,下载软件很昂贵。(语句5的情感倾向是:反对)
从控制机n3的微博训练数据集:
语句6:苹果平板电脑速度非常快,分辨度也很高,应用程序相当丰富。(语句6的情感倾向是:赞成)
语句7:苹果平板电脑机身太重,拿起不方便,下载需要通过itunes,很麻烦!(语句7的情感倾向是:反对)
在步骤503:主控制机将所需参数初始化,并发送给所有的从控制机;
预先设定的参数均由主控制机预先随机生成,参数包括:输入节点的权重向量w1,w2,w3和隐层节点的阈值b1,b2,b3;并将这些参数下发到从节点n1、n2和n3,并设定隐层节点数L=3。
w1=(-0.9286,0.3575,-0.2155,0.4121,-0.9077,0.3897)
w2=(0.6983,0.5155,0.3110,-0.9363,-0.8057,-0.3658)
w3=(0.8680,0.4863,-0.6576,-0.4462,0.6469,0.9004)
b1=0.0344
b2=0.4387
b3=0.3816
在步骤504:每个从控制机对各自的局部微博数据集进行处理,并将处理结果发送给主控制机,由主控制机产生微博数据的分类器;具体流程如图6所示,该流程开始于步骤601。
在步骤602,将带有分类结果部分的每条微博训练数据进行向量化,其中包括每条微博数据的数据部分的特征向量xi和分类结果部分ti
对数据部分的向量化即对数据部分进行特征提取。特征提取是情感倾向性分析的基础,特征提取的好坏直接影响情感倾向性预测的结果。特征提取是用映射(或变换)的方法把原始特征变换为最有代表性的新特征。本实施方式主要研究文本数据中褒义情感词、贬义情感词、程度副词、否定词作为特征对文本情感倾向性分析的影响。下面具体加以介绍:
情感词:情感词是指具有情感倾向的名词、动词、形容词以及一些成语与习惯用语等。文本的情感倾向性主要通过情感词加以传递,因此,情感词是文本情感倾向性分析与预测的重要特征之一。根据情感分析的需要,本实施例将文本数据中的情感词分为两种,即褒义词和贬义词。褒义词是词性带有赞许,肯定感情的词,如“喜欢”、“认可”、“赞赏”、“嘉许”、“褒扬”、“尊崇”、“美好”等。贬义词:是词义带有贬斥、否定、憎恨、轻蔑感情色彩的词,如“厌恶”、“反对”、“无知”、“郁闷”、“卑鄙”、“欺骗”等。本实施方式将褒义情感词分为三个等级[+3,+2,+1],褒义程度依次降低,贬义情感词也分为三个等级[-1,-2,-3],贬义程度依次升高。
情感词涉及到的特征向量主要有四个,分别是褒义词词频、褒义词平均等级、贬义词词频、贬义词平均等级。词频
Figure BDA00002680815000081
平均等级
Figure BDA00002680815000082
程度副词:程度副词是副词的一种,表示程度。如“很、非常、极、十分、最、顶、太、更、挺、极其、格外、分外、更加、越、越发、有点儿、稍、稍微、略微、几乎、过于、尤其”等,其中本实施方式提取程度副词的词频作为一个特征向量。
否定副词:否定副词是副词的一种,表示肯定、否定。如“不、没、没有、不用(甭)、必、必须、必定、准、的确、未、别、莫、勿、是否、不必、不曾”等,其中本实施方式提取否定副词的词频作为一个特征向量。
综上所述,本实施方式提取的文本特征向量主要有六个,分别是褒义词词频、褒义词平均等级、贬义词词频、贬义词平均等级、程度副词词频和否定副词词频。同时微博数据的分类结果部分中,将文本的情感倾向分为三个级别,赞成、中立、反对,用[+1,+2,+3]表示。这样既可获得每条微博数据的特征向量及部分和分类结果部分,具体形式如下:
Figure BDA00002680815000091
根据上述的特征提取方法,对7条微博数据提取相应的向量化,结果如下:
语句1:苹果平板电脑品质不错,反应速度够快,手感也很好。语句1的情感倾向是:赞成)
语句1分析:语句1中可以划分成8个单词,其中褒义词有“不错”、“快”、“很好”3个,则语句1的褒义词词频为3/8,相应褒义词的级别分别为+1、+2、+2,则语句1的褒义词平均等级为(1+2+2)/3,语句1中不含有贬义词,因此其贬义词词频和平均等级均为0,程度副词为“很”,词频为1/8,否定副词的词频为0,情感倾向为赞成,分类结果为+1,因此语句1经过抽取后可以转换成(0.375,1.667,0,0,0.125,0,1)。
运用相同的方法,可以得到其它语句的特征向量部分。
语句2:苹果平板电脑用了有段时间,功能太少了,没有传说中的那么好,太一般了。(语句2的情感倾向是:反对)
语句2分析:(0.083,2,0.167,-1.5,0.25,0.083,3)。
语句3:苹果平板电脑速度很快,联网稳定,游戏上网都比较完美,赞一个!(语句3的情感倾向是:赞成)
语句3分析:(0.333,2.5,0,0,0.25,0,1)。
语句4:苹果平板电脑单一的产品路线和高的价格,不知道在三星等其他的对手的竞争下还能持续多久。(语句4的情感倾向是:中立)
语句4分析:(0.077,2,0.077,-1,0,0,2)。
语句5:苹果平板电脑操作***不习惯,屏幕比例看宽屏电影很不爽,导出文件麻烦,下载软件要很昂贵。(语句5的情感倾向是:反对)
语句5分析:(0,0,0.188,-2.333,0.125,0.063,3)。
语句6:苹果平板电脑速度非常快,分辨度也很高,应用程序相当丰富。(语句6的情感倾向是:赞成)
语句6分析:(0.273,2.333,0,0,0.273,0,1)。
语句7:苹果平板电脑机身太重,拿起不方便,下载需要通过itunes,很麻烦!(语句7的情感倾向是:反对)
语句7分析:(0,0,0.154,-2.5,0.154,0.077,3)。
在步骤603,每个从控制机对自身局部的向量化后的微博训练数据进行剥离,剥离这些数据的特征向量部分和分类结果部分,即使得每个从控制机均生成各自的局部微博数据集(Xi,Ti),其中,Xi为微博数据集的特征矩阵,Ti为微博数据集的分类结果矩阵。在图4所示的分布式环境中,从控制机n1的训练数据为:
语句1(0.375,1.667,0,0,0.125,0,1)
语句2(0.083,2,0.167,-1.5,0.25,0.083,3)
从控制机n1的微博数据经过剥离后的微博训练数据的特征矩阵X1和分类结果矩阵T1如下所示:
特征矩阵
Figure BDA00002680815000101
分类结果矩阵 T 1 = 1 3
从控制机n2的训练数据为:
语句3(0.333,2.5,0,0,0.25,0,1)
语句4(0.077,2,0.077,-1,0,0,2)
语句5(0,0,0.188,-2.333,0.125,0.063,3)
从控制机n2的微博数据经过剥离后的微博训练数据特征矩阵X2和分类结果矩阵T2如下所示:
特征矩阵
Figure BDA00002680815000103
分类结果矩阵 T 2 = 1 2 3
从控制机n3的训练数据为:
语句6(0.273,2.333,0,0,0.273,0,1)
语句7(0,0,0.154,-2.5,0.154,0.07,3)
从控制机n3的微博数据经过剥离后的微博训练数据特征矩阵X3和分类结果矩阵T3如下所示:
特征矩阵
Figure BDA00002680815000105
分类结果矩阵 T 3 = 1 3
在步骤604:每个从控制机ni根据接收的参数w1,w2,...,wL和b1,b2,...,bL,以及局部微博数据集(Xi,Ti),计算ELM所需的中间结果,并将中间结果提交给主控制机;其中,在(Xi,Ti)中,Xi为微博数据集的特征矩阵,Ti为微博数据集的分类结果矩阵,如图7所示。
此处需要说明的是,在ELM中,对于输入数据的特征矩阵Xi中的每个元素需要进行归一化,使得Xi中所有的元素均在[-1,+1]之间,归一化方法选取的不同会造成输入数据的不同。另外,对于激励函数g(wi·xi+bi),ELM提供了多种激励函数以供用户选择,激励函数的选取的不同,同样会使得中间结果不同,进而造成最终分类结果的不同。在本发明的具体实施方式中,也是先将这些语句的向量进行归一化,然后选择一个激活函数,进而求得ELM所需的中间结果。下面分别对三个从控制机进行说明:
对于从节点n1来说:
在步骤604-1从控制机n1处理的数据为语句1(0.375,1.667,0,0,0.125,0,1)和语句2(0.083,2,0.167,-1.5,0.25,0.083,3),接收的参数为w1,w2,w3,b1,b2,b3,归一化和选取激励函数后可得
隐层输出矩阵 H 1 = g ( w 1 · x 1 + b 1 ) g ( w 2 · x 1 + b 2 ) g ( w 3 · x 1 + b 3 ) g ( w 1 · x 2 + b 1 ) g ( w 2 · x 2 + b 2 ) g ( w 3 · x 2 + b 3 ) = 0.5287 0.7409 0.7524 0.5442 0.7244 0.7404 ,
分类结果矩阵 T 1 = 1 3
在步骤604-2,根据H1,计算中间结果U1,可得 U 1 = H 1 T H 1 = 0.5867 0.7932 0.8081 0.7932 1.0737 1.0938 0.8081 1.0938 1.1143 ;
在步骤604-3,根据H1和T1,计算中间结果V1,可得 V 1 = H 1 T T 1 = 2.1913 2.9141 2.9736 , 并将中间结果U1和V1提交给主控制机。
对于从控制机2来说:
在步骤604-4从控制机n2处理的数据为语句3(0.333,2.5,0,0,0.25,0,1)、语句4(0.077,2,0.077,-1,0,0,2)和语句5(0,0,0.188,-2.333,0.125,0.063,3),接收的参数为w1,w2,w3,b1,b2,b3,归一化和选取激励函数后可得隐层输出矩阵
H 2 = g ( w 1 · x 3 + b 1 ) g ( w 2 · x 3 + b 2 ) g ( w 3 · x 3 + b 3 ) g ( w 1 · x 4 + b 1 ) g ( w 2 · x 4 + b 2 ) g ( w 3 · x 4 + b 3 ) g ( w 1 · x 5 + b 1 ) g ( w 2 · x 5 + b 2 ) g ( w 3 · x 5 + b 3 ) = 0.5441 0.7194 0.7388 0.5467 0.7244 0.7163 0.7398 0.7388 0.8114
分类结果矩阵 T 2 = 1 2 3
步骤604-5,根据H2,计算中间结果U2,可得 U 2 = H 2 T H 2 = 1.1422 1.3340 1.3961 1.3340 1.5881 1.6521 1.3961 1.6521 1.7222 ;
步骤604-6,根据H2和T2,计算中间结果V2,可得 V 2 = H 2 T T 2 = 3.8569 4.3846 4.6146 , 并将中间结果U2和V2提交给主控制机。
对于从控制机3来说:
步骤604-7从控制机n3处理的数据为语句6(0.273,2.333,0,0,0.273,0,1)和语句7(0,0,0.154,-2.5,0.154,0.07,3),接收的参数为w1,w2,w3,b1,b2,b3,归一化和选取激励函数后可得
隐层输出矩阵 H 3 = g ( w 1 · x 6 + b 1 ) g ( w 2 · x 6 + b 2 ) g ( w 3 · x 6 + b 3 ) g ( w 1 · x 7 + b 1 ) g ( w 2 · x 7 + b 2 ) g ( w 3 · x 7 + b 3 ) = 0.3993 0.7005 0.8426 0.2272 0.6769 0.8216
分类结果矩阵 T 3 = 1 3
步骤604-8,根据H3,计算中间结果U3,可得 U 3 = H 3 T H 3 = 0.2111 0.4335 0.5458 0.4335 0.9489 1.2141 0.5458 1.2141 1.5593 ;
步骤604-9,根据H3和T3,计算中间结果V3,可得 V 3 = H 3 T T 3 = 1.0809 2.7312 3.6074 , 并将中间结果U3和V3提交给主控制机。
在步骤605,主控制机n0接收到从控制机n1提交的U1和V1,接收到从控制机n2提交的U2和V2,接收到从控制机n3提交的U3和V3,并计算出最终的结果,如图8所示。
步骤605-1,合并各个从控制机提交的中间结果U1,U2,U3,得到汇总结果
U = U 1 + U 2 + U 3 = 1.9400 2.5607 2.7500 2.5607 3.6107 3.9600 2.7500 3.9600 4.3958 ;
步骤605-2,合并各个从控制机提交的中间结果V1,V2,V3,得到汇总结果
V = V 1 + V 2 + V 3 = 7.1390 11.0317 11.1956 ;
步骤605-3,根据汇总的U和V,计算输出节点的权重向量参数β,
β = ( 1 λ + U ) - 1 V = - 16.8925 9.9534 6.6591 42.3653 - 19.4846 - 23.3897 - 28.1804 10.8984 16.6435
至此,即可求出权重向量参数β。
在步骤605-4,根据参数生成器得到的参数β,构建能够预测微博数据情感倾向性分析的分类器,用于对待测试的微博数据进行情感倾向性分析,公式如下:
f(x)=h(x)β
在步骤505:微博数据的自动分类。
微博数据的自动分类主要有两种方式,本实施例中采用第一种方式,由主控制机继续抓取微博数据,运用已经生成的微博数据分类器直接输出待分类的微博数据的分类结果,如下两句为主控制机继续抓取的待分类的微博数据及运用相同的特征提取方法后得到的结果。
语句8:苹果平板电脑是送给朋友的,朋友很喜欢,非常不错!速度、造型都很好!喜欢!
语句8分析:(0.286,2.25,0,0,0.214,未知分类结果)。
语句9:苹果平板电脑屏幕素质很低,用起来也很费事,续航时间很差。
语句9分析:(0,0,0.25,-2.333,0.25,0,未知分类结果)。
运用同样的归一化方法、选取同样的激励函数后,求得语句8的分类结果如下:
隐层输出矩阵h(x8)=[g(w1·x8+b1)g(w2·x8+b2)g(w3·x8+b3)]=[0.5467 0.7244 0.7388]
带入到分类器的公式中,求得
f(x)=h(x)β=[0.6332-0.6207-1.0061]
对于上述结果,ELM采取一种最大化的方法判断待预测的微博数据的分类结果,基本原理是判断求得结果的向量中的最大的元素所在的维度,则该维度对应的分类标签即为该待预测数据的分类结果,如语句8的分类器输出结果中最大的元素为0.6332,对应的维度为1,那么语句8的分类结果就是标签1表示的分类,即“赞成”。
语句9的预测过程与语句8是相同的,简述如下:求得语句9的分类结果如下:
隐层输出矩阵h(x9)=[g(w1·x9+b1)g(w2·x9+b2)g(w3·x9+b3)]=[0.2222 0.6704 0.9174]
带入到分类器的公式中,求得
f(x)=h(x)β=[-1.2055 -0.8521 1.0684]
语句9的分类器输出结果中最大的元素为1.0684,对应的维度为3,那么语句9的分类结果就是标签3表示的分类,即“反对”。
在测试数据为语句8和语句9时,运用已经生成的微博数据分类器,能够正确的得到语句8和语句9的情感倾向,能够准确的对待分类的微博数据进行分类。
除了分析微博数据的情感倾向之外,本发明也可以用来分析电影票房、歌曲点击率、理财产品推荐、股票分析、仪器效能、新闻热点事件分析、社会舆论分析等众多应用中。
虽然以上描述了本发明的具体实施方式,但是本领域内的熟练的技术人员应当理解,这些仅是举例说明,可以对这些实施方式做出多种变更或者修改,而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims (5)

1.一种海量微博数据的分布式分类装置,采用分布式结构,其特征在于:包括一台主控制机和至少一台从控制机,且每个从控制机均与主控制机互联,主控制机和每个从控制机相互通信,所有从控制机间相互独立;
所述的从控制机包括:
向量器:用于将从控制机中带有分类结果的每条微博训练数据转换成向量表示的形式,其中包括每条微博数据的数据部分的特征向量xi和分类结果部分ti
剥离器:用于剥离向量器处理后的微博数据训练集中的所有微博数据的特征向量矩阵Xi和分类结果矩阵Ti
转换器:利用极限学习机ELM的原理,用于将剥离器抽取的特征向量矩阵Xi转换成ELM中的隐层输出矩阵Hi
前项计算器:利用极限学习机ELM的原理,用于根据隐层输出矩阵Hi,计算中间结果Hi THi,并提交给主控制机;
后项计算器:利用极限学习机ELM的原理,用于根据隐层输出矩阵Hi和微博数据集中分类结果矩阵Ti,计算中间结果Hi TTi,并提交给主控制机;
所述的主控制机包括:
前项累加器:用于合并各个从控制机提交的中间结果Hi THi,得到汇总结果HTH;
后项累加器:用于合并各个从控制机提交的中间结果Hi TTi,得到汇总结果HTT;
参数生成器:利用极限学习机ELM的原理,用于根据汇总的前项累加器和后项累加器输出的结果,计算输出节点的权重向量参数β;
分类生成器:根据参数生成器得到的参数β构建微博数据的分类装置,用于对待测试的微博数据进行分类。
2.如权利要求1所述的海量微博数据的分布式分类装置,其特征在于:所述的每个从控制机是将自身处理的、用于生成最终微博数据分类器的中间结果发送给主控制机,主控制机接收所有从控制机发送来的中间结果后,根据ELM的原理,得到最终的微博数据分类器。
3.一种海量微博数据的分布式分类方法,采用权利要求1所述的海量微博数据的分布式分类装置实现,其特征在于:包括以下步骤:
步骤1:微博训练数据集的准备;
微博训练数据集的准备包括对抓取原始的微博数据和人工对微博数据进行标注两个部分;采用如下两种方式:第一种方式是由主控制机抓取所需处理的原始微博数据,并为每一条训练数据进行人工标注,表示这些微博数据的分类结果,然后将这些微博数据分配到相应的从控制机;第二种方式是由主控制机与每个从控制机通信,通知每个从控制机需要抓取的微博数据的信息,每个从控制机自身抓取原始微博数据,并为自身抓取的原始微博数据进行人工标注,表示这些微博数据的分类结果;
步骤2:主控制机将所需参数初始化,并发送给所有的从控制机;
利用极限学习机ELM的原理,由主控制机预先随机生成参数,包括:隐层节点个数L、输入节点的权重向量w1,w2,...,wL、隐层节点的偏移量b1,b2,...,bL,并将这些参数发送到所有的从控制机;
步骤3:每个从控制机对各自的局部微博数据集进行处理,并将处理结果发送给主控制机,由主控制机生成微博数据分类器;
步骤3-1:微博数据向量化;
将带有分类结果部分的每条微博训练数据进行向量化,其中包括每条微博数据的数据部分的特征向量xi和分类结果部分ti
步骤3-2:微博数据的剥离;
对于每个从控制机微博数据训练集中的经过特征提取的微博数据集,剥离这些数据的特征向量部分和分类结果部分,形成每个从控制机的微博数据训练集的特征向量矩阵Xi和分类结果矩阵Ti,即使得每个从控制机均生成各自的局部微博数据集(Xi,Ti),其中,Xi为微博数据集的特征矩阵,Ti为微博数据集的分类结果矩阵;
步骤3-3:每个从控制机根据各自的局部微博数据集生成中间结果,并发送给主控制机;
步骤3-4:主控制机接收并汇总各个从控制机的中间结果;根据汇总的中间结果按照ELM的计算原理,计算输出节点的权重向量参数β,进而求得微博数据分类器;
步骤4:微博数据的自动分类
微博数据的自动分类可以采取两种方式:第一种方式为主控制机继续抓取微博数据,运用步骤3生成的微博数据分类器直接输出待分类的微博数据的分类结果,第二种为主控制机将步骤3生成的微博数据分类器发送给各个从控制机,然后各个从控制机运用分类器对自身的待分类的微博数据进行分类,求得分类结果。
4.根据权利要求3所述的海量微博数据的分布式分类方法,其特征在于:步骤3-3所述的每个从控制机根据各自的局部微博数据集生成中间结果,并发送给主控制机,具体如下:
每个从控制机ni根据接收的输入节点的权重向量w1,w2,...,wL和第i个隐层节点的阈值b1,b2,...,bL,以及局部微博训练数据集(Xi,Ti),计算构建分类器所需的中间结果,并将中间结果提交给主控制机;
步骤3-3-1:将局部微博数据集的特征矩阵Xi转化为ELM的隐层输出矩阵Hi
步骤3-3-2:根据隐层输出矩阵Hi,计算中间结果Ui=Hi THi
步骤3-3-3:根据隐层输出矩阵Hi和局部训练数据集的分类结果矩阵Ti,计算中间结果Vi=Hi TTi
5.根据权利要求3所述的海量微博数据的分布式分类方法,其特征在于:步骤3-4所述的计算输出节点的权重向量参数β,具体如下:
步骤3-4-1:合并各个从控制机提交的中间结果Ui,得到汇总结果U=∑Ui=∑Hi THi=HTH;
步骤3-4-2:合并各个从控制机提交的中间结果Vi,得到汇总结果V=∑Vi=∑Hi TTi=HTT;
步骤3-4-3:根据汇总的U和V计算输出节点的权重向量参数β:
β = ( I λ + H T H ) - 1 H T T = ( I λ + U ) - 1 V
其中,I是单位阵,λ是用户指定的参数,(·)-1是矩阵求逆运算;
进而确定微博数据分类器的公式如下:
f(x)=h(x)β
式中,f(x)表示待分类微博数据的分类结果,h(x)表示待分类微博数据的隐层输出向量。
CN201210583886.8A 2012-12-28 2012-12-28 一种海量微博数据的分布式分类装置及方法 Active CN103020712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210583886.8A CN103020712B (zh) 2012-12-28 2012-12-28 一种海量微博数据的分布式分类装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210583886.8A CN103020712B (zh) 2012-12-28 2012-12-28 一种海量微博数据的分布式分类装置及方法

Publications (2)

Publication Number Publication Date
CN103020712A true CN103020712A (zh) 2013-04-03
CN103020712B CN103020712B (zh) 2015-10-28

Family

ID=47969298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210583886.8A Active CN103020712B (zh) 2012-12-28 2012-12-28 一种海量微博数据的分布式分类装置及方法

Country Status (1)

Country Link
CN (1) CN103020712B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及***
CN105760899A (zh) * 2016-03-31 2016-07-13 大连楼兰科技股份有限公司 基于分布式计算与检测代价排序的Adboost训练学习方法及装置
WO2017133568A1 (zh) * 2016-02-05 2017-08-10 阿里巴巴集团控股有限公司 一种目标特征数据的挖掘方法和装置
CN107590134A (zh) * 2017-10-26 2018-01-16 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN109034366A (zh) * 2018-07-18 2018-12-18 北京化工大学 基于多激活函数的elm集成模型在化工建模中的应用
CN109657061A (zh) * 2018-12-21 2019-04-19 合肥工业大学 一种针对海量多词短文本的集成分类方法
CN110381456A (zh) * 2019-07-19 2019-10-25 珠海格力电器股份有限公司 流量管理***及流量阈值计算方法、空调***
CN113177163A (zh) * 2021-04-28 2021-07-27 烟台中科网络技术研究所 用于社交动态信息情感分析的方法、***和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185796A (ja) * 1997-09-01 1999-03-30 Canon Inc 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
US20120189194A1 (en) * 2011-01-26 2012-07-26 Microsoft Corporation Mitigating use of machine solvable hips
CN102789498A (zh) * 2012-07-16 2012-11-21 钱钢 基于集成学习的中文评论文本的情感分类方法与***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185796A (ja) * 1997-09-01 1999-03-30 Canon Inc 文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体
US20120189194A1 (en) * 2011-01-26 2012-07-26 Microsoft Corporation Mitigating use of machine solvable hips
CN102789498A (zh) * 2012-07-16 2012-11-21 钱钢 基于集成学习的中文评论文本的情感分类方法与***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUANG GUANGBIN ET AL: "Extreme Learning Machine for Regression and Multiclass Classification", 《IEEE TRANSACTIONS ON SYSTEMS,MAN AND CYBERNETICS-PARTB》 *
王磊等: "基于二叉级联结构的并行极速学习机算法", 《吉林大学学报(信息科学版)》 *
赵相国等: "基于ELM的蛋白质二级结构预测及其后处理", 《东北大学学报(自然科学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593462A (zh) * 2013-11-25 2014-02-19 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及***
CN103593462B (zh) * 2013-11-25 2017-02-15 中国科学院深圳先进技术研究院 面向微博数据的流感疫情监测分析方法及***
WO2017133568A1 (zh) * 2016-02-05 2017-08-10 阿里巴巴集团控股有限公司 一种目标特征数据的挖掘方法和装置
CN105760899A (zh) * 2016-03-31 2016-07-13 大连楼兰科技股份有限公司 基于分布式计算与检测代价排序的Adboost训练学习方法及装置
CN105760899B (zh) * 2016-03-31 2019-04-05 大连楼兰科技股份有限公司 基于分布式计算与检测代价排序的训练学习方法及装置
CN107590134A (zh) * 2017-10-26 2018-01-16 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN109034366A (zh) * 2018-07-18 2018-12-18 北京化工大学 基于多激活函数的elm集成模型在化工建模中的应用
CN109657061A (zh) * 2018-12-21 2019-04-19 合肥工业大学 一种针对海量多词短文本的集成分类方法
CN109657061B (zh) * 2018-12-21 2020-11-27 合肥工业大学 一种针对海量多词短文本的集成分类方法
CN110381456A (zh) * 2019-07-19 2019-10-25 珠海格力电器股份有限公司 流量管理***及流量阈值计算方法、空调***
CN113177163A (zh) * 2021-04-28 2021-07-27 烟台中科网络技术研究所 用于社交动态信息情感分析的方法、***和存储介质

Also Published As

Publication number Publication date
CN103020712B (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN103020712A (zh) 一种海量微博数据的分布式分类装置及方法
Koncel-Kedziorski et al. Text generation from knowledge graphs with graph transformers
Shi et al. WE-LDA: a word embeddings augmented LDA model for web services clustering
CN102495860B (zh) 基于语言模型的专家推荐方法
CN103853824B (zh) 一种基于深度语义挖掘的内文广告发布方法与***
Wu et al. Neural news recommendation with heterogeneous user behavior
Li et al. Knowledge-grounded dialogue generation with a unified knowledge representation
CN101354714B (zh) 一种基于概率潜在语义分析的问题推荐方法
CN102831119B (zh) 短文本聚类设备及方法
CN111222332A (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN106897914A (zh) 一种基于主题模型的商品推荐方法及***
CN109993583A (zh) 信息推送方法和装置、存储介质及电子装置
CN110210933A (zh) 一种基于生成对抗网络的隐语义推荐方法
Yin et al. Ranking products through online reviews considering the mass assignment of features based on BERT and q-rung orthopair fuzzy set theory
CN103729431A (zh) 具有增减量功能的海量微博数据分布式分类装置及方法
Pathan et al. Unsupervised aspect extraction algorithm for opinion mining using topic modeling
Huang et al. Sentiment analysis in e-commerce platforms: A review of current techniques and future directions
CN109902273A (zh) 关键词生成模型的建模方法和装置
Perez-Castro et al. Efficiency of automatic text generators for online review content generation
Zong et al. Double sparse learning model for speech emotion recognition
Zhang et al. Local-global graph pooling via mutual information maximization for video-paragraph retrieval
Chakraborty et al. LSTM-ANN based price hike sentiment analysis from Bangla social media comments
Jangra et al. Semantic extractor-paraphraser based abstractive summarization
Wang et al. The application of factorization machines in user behavior prediction
Tran et al. Sentiment classification for beauty-fashion reviews

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220324

Address after: 100081 No. 5 South Main Street, Haidian District, Beijing, Zhongguancun

Patentee after: BEIJING INSTITUTE OF TECHNOLOGY

Address before: 110819 No. 3 lane, Heping Road, Heping District, Shenyang, Liaoning 11

Patentee before: Northeastern University