CN104573031A - 一种微博突发事件检测方法 - Google Patents

一种微博突发事件检测方法 Download PDF

Info

Publication number
CN104573031A
CN104573031A CN201510018617.0A CN201510018617A CN104573031A CN 104573031 A CN104573031 A CN 104573031A CN 201510018617 A CN201510018617 A CN 201510018617A CN 104573031 A CN104573031 A CN 104573031A
Authority
CN
China
Prior art keywords
equation
data stream
acceleration
event
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510018617.0A
Other languages
English (en)
Other versions
CN104573031B (zh
Inventor
徐睿峰
汪奕丁
黄锦辉
陆勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201510018617.0A priority Critical patent/CN104573031B/zh
Publication of CN104573031A publication Critical patent/CN104573031A/zh
Application granted granted Critical
Publication of CN104573031B publication Critical patent/CN104573031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

一种微博突发事件检测方法,包括步骤:降维处理:基于LSH算法对微博数据流中的词汇进行映射处理;创建B-Sketch模型:创建微博数据流中的B-Sketch数据;推测突发事件:根据B-Sketch数据计算微博数据流中的事件加速率a和事件中词的分布向量p,根据事件加速率a判断事件是否为突发事件。由于通过LSH算法将所有词汇映射到低维空间,降低了计算的复杂度,并基于B-Sketch模型推测隐含的突发事件,使得能够快速有效的实时处理微博数据流,及早地检测出突发事件。

Description

一种微博突发事件检测方法
技术领域
本发明涉及自然语言处理、文本数据挖掘、突发事件检测技术领域,具体涉及一种微博突发事件检测方法。
背景技术
微博,即微博客(MicroBlog),是一种迷你型博客,可供用户写一段简短的文字(中文微博客平台一般为140个汉字)来描述日常生活或发布消息、评论时事并传递这些信息给好友或感兴趣的旁观者,发布方式可以是手机短信、即时通讯工具(IM)、邮件或网络。与即时通讯相比,用户可以指定发布的信息是公开还是只限于一个小网络内;与博客平台相比,用户的时间和精力投入更低,沟通速度更快,还有更高的更新频率。
互联网的发展使得微博的发布和获取变得更方便快捷,这直接导致了如下两个问题:第一,微博的数量规模巨大,通过人工的方式阅读所有信息是不可行的。第二,有价值的话题通常具有突发性,但这些话题被淹没在众多普通话题之中,如何从海量数据中找出具有突发性的事件是需要迫切解决的问题。因此使用计算机来处理微博数据,并自动获得其中的突发事件是很有必要的。
目前,基于微博的突发事件检测研究的很少,一般的研究是检测微博流中频率异常高的突发词,而后对突发词按照出现在同一微博中次数进行聚类来找到新事件,但是该方法还很难达到实用的地步。
目前,针对微博突发事件的检测方法具有以下的局限性:
1)一般都是离线模式,达不到在线实时处理的需求,处理的数据规模十分有限;
2)不能及早地探测到突发事件,表现出突发事件发现的滞后性,往往实用性极低;
3)对特征空间没有采取降维处理,往往会导致运行速度缓慢,耗费大量的内存空间。
发明内容
针对微博突发事件检测的局限性,本申请提供一种微博突发事件检测方法,包括步骤:
降维处理:基于LSH算法对微博数据流中的词汇进行映射处理;
创建B-Sketch模型:创建微博数据流中的B-Sketch数据;
推测突发事件:根据B-Sketch数据,计算微博数据流中的事件加速率a和事件中词的分布向量p,根据事件加速率a判断事件是否为突发事件。
依据上述实施例的微博突发事件检测方法,由于通过LSH算法将所有词汇映射到低维空间,降低了计算的复杂度,并基于B-Sketch模型推测隐含的突发事件,使得能够快速有效的实时处理微博数据流,及早地检测出突发事件。
附图说明
图1为本发明微博突发事件检测方法流程图。
具体实施方式
在本发明实施例中,提出一种微博突发事件检测方法,具体是,通过提出的B-Sketch模型作为突发事件推断的基础,并基于LSH算法降低计算的复杂度,使得本发明可以检测出更多突发事件,并且能够更加精确的定位突发事件真实的发生时间。
本例的微博突发事件检测方法包括如下步骤,其流程图如图1所示。
S1:去噪处理。
微博数据流中具有各种各样的信息,包括很多关于日常生活的描述、感慨以及一些广告信息等,这些信息对突发事件的检测有很大的干扰作用,所以本步骤对微博数据流先进行去噪处理。具体的,通过筛选微博数据流中的停用词,并将该停用词删除。
一般情况下,把一个已做分词处理的微博文本中的名词、形容词、动词称之为实词,而把那些虽然经常在文本中出现,但对文本处理没有多大意义的词称为虚词。本例的停用词表包含所有绝大部分的虚词和一部分经常在微博出现的,比如“转发”、“评论”、“详情”等实词,当然还包括所有的标点符号。对于这些停用词而言,因为它们对突发事件的检测没有太多帮助,甚至会影响探测的准确性,还造成了一定程度上的资源浪费,所以在实际应用***中,将这些停用词都进行删除。
另外,去噪处理还包括将微博文本中的广告以及个人心情描述进行删除。这部分主要考虑的是微博文本中的广告以及个人心情描述对突发事件检测也没有任何帮助,同样也会造成计算资源和存储资源的浪费。本例中,通过正则表达式的匹配将微博文本中的广告以及个人心情描述进行删除,具体的,从样本数据里面筛选出一些广告微博和个人心情的微博,人工提取了这些微博的常规模式生成正则表达式规则,从实际结果来看,这种方法既简单又能有效去除80%以上的噪音数据,效率较高。
S2:降维处理。
由于微博数据流中的词语数量巨大,可以很容易的达到几十万的量级,所以,为了避免词语的高维度灾难的问题发生,本例采用LSH(Locality-sensitivehashing)算法对微博数据流中的词汇进行映射处理,LSH算法是本领域技术人员所熟知的,不作赘述。
针对微博数据流中词语出现高维度的问题,现有的解决方案是:取一段时间内的活跃单词,如最近15分钟,当一个突发词被触发了,就只需考虑最近词汇集中的单词。然而,由于,微博数据流中这样处理之后的词汇量还是很大,依然不能有效的解决这个问题。
基于LSH算法,本例解决上述问题的方案为:将微博数据流中的词汇哈希映射到B(B<<N)个哈希桶中,并且将每一个桶中所有单词看做一个“词”,而不是保存所有的活跃词汇集,并采用COUNT-MIN算法估计概率最高的单词。
因此B-Sketch中的词汇数量就变为O(B2),维度空间的数量级优化为O(B*K)。这个比原问题中的O(N2)和O(N*K)小很多,映射之后,将得到关于哈希桶的分布,而不是原有活跃单词的哈希分布,即通过哈希桶的概率得到单词的概率。为了解决这个问题,通过观察发现,LSH算法只需关心概率最高的单词,因为它能够表示突发事件,因此采用Count-Min算法。它可以维护数据流上的频繁项。然而,对于这两个问题,潜在的逻辑是一样的,如下:如果使用H哈希函数去映射每个单词,可能会发生这种情况,一个话题的两个高频词都落在了相同的哈希桶内,因为所有的哈希函数是非常小的,更重要的是,如果在一个哈希桶中仅有一个单词是显著的高频率,就可以使用这个哈希桶的频率去代替这个高频单词的频率。
具体的工作流程如下:假设有H个哈希函数(H1,H2,...,HH),该H个哈希函数可以统一、独立地将单词映射到哈希桶[1,2,…,B]中。对于一个事件中,词的分布pk和每个哈希函数Hh,1≤h≤H,对于每个哈希函数,就可以估计哈希桶的分布。这时,使用Count-Min算法去估计单词i的概率为返回概率高的单词其中s为概率阈值,比如0.02。LSH算法还维护了活跃单词集,因此估计集合中的单词概率不是此表中所有单词的概率。根据估计哈希桶的分布,这个算法在估计每个单词的概率为的情况下,其估计误差不大于e/B。
S3:创建B-Sketch模型。
本例提出的一种B-Sketch模型的新数据结构,该B-Sketch模型能够及早的发现突发事件的发生。具体的,通过对比微博整体发帖数的规模和加速率,给定一个能尽早发现突发事件的指示器,以此来检测是否发生了突发事件。事件Tk的加速率表示为ak(t),它是λk(t)在时间t上的导数。但是,一个隐含的突发事件是无法直接从ak(t)观测得到的,需要通过观测数据流D(t)的几个特征变量来推测出ak(t)。
一般情况下,所选择的检测加速的特征变量其数学表达式为:为了达到尽早发现以及事件的推断,本例在数据流D(t)构建了一种B-Sketch模型,该B-Sketch数据包括三个特征变量:S"、X"和Y",其中,S"(t)和X"(t)提供了某个事件突然飙升的指示器,Y"(t)维持着可能被探测到的突发事件中词语之间关系的关键信息,且以上的三个特征变量可以很容易计算和更新,本例获取S"、X"和Y"的方式如下。
等式一: S &prime; &prime; ( t ) = &Sigma; k = 1 K a k ( t ) ;
等式二: E [ X &prime; &prime; ( t ) ] = &Sigma; k = 1 K a k ( t ) &CenterDot; p k ;
等式三: E [ Y &prime; &prime; ( t ) ] = &Sigma; k = 1 K a k ( t ) &CenterDot; p k &CenterDot; p k T .
设Q(t)为以上三个特征变量被检测的表示,则:
(1)S"(t):表示在微博数据流D(t)中微博总数的加速率,这样,Q(t)就变成一个标量表示,比如表示成S(t):S(t)=|D(t)|;
(2)X"(t):表示微博数据流中D(t)的每个词的加速率,这样Q(t)就变成一个N维向量,比如表示成X(t):
(3)Y"(t):表示微博数据流中D(t)的每个词对的加速率,这样Q(t)就变成一个N×N的矩阵,比如表示成Y(t): Y i , j ( t ) = &Sigma; d &Element; D ( t ) d ( i ) 2 - d ( i ) | d | ( | d | - 1 ) , i = j &Sigma; d &Element; D ( t ) d ( i ) d ( j ) | d | ( | d | - 1 ) , i &NotEqual; j , (1≤i≤N,1≤j≤N)。
另外,本例的B-Sketch模型处理的是连续的时间微博数据流,比如,微博可以在任何一个时间点到达。将微博的数据流D(t)表示成{d1,d2,...,d|D(t)|},这样就有td1≤td2≤...≤td|D(t)|≤t。假设td0=0,这样,可以用下述公式来估计变化率:
S &prime; &Delta;T ( t ) = &Sigma; i = 1 | D ( t ) | e ( t d i - t ) &Delta;T &Delta;T ;
式中的是一个平滑因子,取较大值时能提高平滑的粒度,但是将缺少反应最近信息变化的趋势。在任何一个时间点t,t∈(tdi-1,tdi],可以通过下述公式来更新当前变化率:
S &prime; &Delta;T ( t ) = S &Delta;T &prime; ( t d i - 1 ) &CenterDot; e ( t d i - 1 - t ) &Delta;T , t &Element; ( t d i - 1 , t d i ) S &Delta;T &prime; ( t d i - 1 ) &CenterDot; e ( t d i - 1 - t ) &Delta;T + 1 &Delta;T , t = t d i .
与上述的类同,式中都是平滑因子,由此可以看出,计算增长率的时间消耗是O(1)。
S4:推测突发事件。
根据B-Sketch数据计算微博数据流中的事件加速率ak(t)和事件上词的分布向量pk,根据事件加速率ak(t)判断事件是否为突发事件,在本步骤之前,还包括***动态生成一阈值的步骤,该阈值为当前活跃事件的前N天的微博总数的平均值,N≥1,本例优选N=3,即本例的阈值为当前活跃事件的前3天的微博总数的平均值,然后比较计算出的事件加速率ak(t)与该阈值的大小,如果该事件加速率ak(t)大于该阈值,则判定该事件为突发事件。
事件加速率ak(t)和分布向量pk具体的推导过程为:设定当前活跃事件的数目Tk的上界为K,并且增长率λk(t)大于0,本例通过B-Sketch数据推测K个活跃事件中的突发事件,具体推测过程如下。
因为整个微博数据流是事件的多个不均匀过程的混合,利用不均匀泊松过程的叠加属性,整个数据流本身也即是一个不均匀泊松过程,其速率函数为可以简化出得到步骤S3中的等式一:然后利用期望的线性组合属性可以得到步骤S3中的等式二和等式三:
等式二: E [ X &prime; &prime; ( t ) ] = &Sigma; k = 1 K a k ( t ) &CenterDot; p k ;
等式三: E [ Y &prime; &prime; ( t ) ] = &Sigma; k = 1 K a k ( t ) &CenterDot; p k &CenterDot; p k T .
通过等式一、等式二和等式三,便可以从B-Sketch中推导出事件{Tk}和其加速率。在时间t,可以从B-Sketch估计参数{pk}和{ak(t)},估计过程是:首先找出适合的参数{pk}和{ak(t)}使其满足等式一,并且使等式二和等式三中观测值和期望值之间的差值最小化,将等式二和等式三相应的权重设为wX>0和wY>0。
本例中,为了估计参数{pk}和{ak(t)},先创建目标函数f,f=wX·eX+wY·eY,其中,eX和eY分别为等式二和等式三的误差的平方和,通过目标函数、等式一、等式二和等式三,将目标函数最小化,计算出{ak(t)}和{pk},计算的过程中还需要满足条件:pk,i≥0,1≤k≤K,1≤i≤N;eX和eY的表达式分别为等式四和等式五,具体如下:
等式四: e X = &Sigma; i = 1 N ( &Sigma; k = 1 K a k ( t ) &CenterDot; p k , i - X i &prime; &prime; ( t ) ) 2 ;
等式五: e Y = &Sigma; i = 1 N &Sigma; j = 1 N ( &Sigma; k = 1 K a k ( t ) &CenterDot; p k , i &CenterDot; p k , j - Y i , j &prime; &prime; ( t ) ) 2 .
通过上述推导过程虽然可以计算出{ak(t)}和{pk},进而推测出突发事件的发生,但上述的计算复杂度较大,不利于实际运用,本例基于上述推导方法,并根据步骤S22中的LSH降维处理,对等式四和等式五做变换,以降低上述的计算复杂度。
通过步骤S22降维之后,B-Sketch数据的S"(t)特征变量没有任何改变,对于不同的哈希函数,一个单词可能落入不同的桶,对X"(t)特征变量设定H向量对Y"(t)特征变量设定矩阵为了估计哈希桶的概率分布对等式四和等式五的变换如下:
等式四: e X = &Sigma; h = 1 H &Sigma; j = 1 B ( &Sigma; k = 1 K a k &CenterDot; p k , i ( h ) - X i &prime; &prime; ( h ) ) 2 ;
等式五: e Y = &Sigma; h = 1 H &Sigma; i = 1 B &Sigma; j = 1 B ( &Sigma; k = 1 K a k &CenterDot; p k , i ( h ) &CenterDot; p k , j ( h ) - Y i , j &prime; &prime; ( h ) ) 2 ;
同时,对需要满足的条件做如下变换:
&Sigma; i = 1 B p k , i ( h ) = 1,1 &le; k &le; K , 1 &le; h &le; H , p k , i ( h ) &GreaterEqual; 0,1 &le; k &le; K , 1 &le; i &le; B , 1 &le; h &le; H .
通过上述变换后,B-Sketch的空间变为O(H*B2),则目标函数f优化问题的维度数目就降为O(H*B*K),因此,大大降低了计算的复杂度。
另外,为了进一步优化目标函数f,本例采用分别更新参数和{ak},其目的是有利于程序的并行化处理,具体采用微分的方法:令为向量a,为向量就可以推断出对应的梯度表达式,以及相应的二次微分:
&PartialD; f &PartialD; a , &PartialD; f &PartialD; p k ( h ) ; &PartialD; 2 f &PartialD; a &PartialD; a T , &PartialD; 2 f &PartialD; p k ( h ) &PartialD; p k ( h ) T .
初始化a和后,利用牛顿-拉普森(Newton-Raphson)方法进行迭代更新,当a是一个固定值时,独立于h,因此在程序的实现过程中可以并行化处理,其最大的迭代次数或者参数是否收敛取决于设置的停止条件是否被满足。
通过上述的推导,计算出{ak}和根据{ak}判断事件是否为突发事件,根据可以进一步得出该突发事件中的关键词汇,进一步,本例还对该突发事件进行突发度的计算,对表示该突发事件的关键词汇综合算出的权重再做一次加权,即可以得到该突发事件的突发度。
本发明通过LSH算法对微博数据流中的文本作降维处理,然后基于B-Sketch模型以及目标函数f,通过求目标函数f最优计算出事件加速率{ak}和事件中词的分布量然后再比较事件加速率{ak}和阈值的大小,进而能够实时有效的检测出微博中的突发事件。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (9)

1.一种微博突发事件检测方法,其特征在于,包括步骤:
降维处理:基于LSH算法对微博数据流中的词汇进行映射处理;
创建B-Sketch模型:创建微博数据流中的B-Sketch数据;
推测突发事件:根据B-Sketch数据,计算微博数据流中的事件加速率a和事件中词的分布向量p,根据所述事件加速率a判断所述事件是否为突发事件。
2.如权利要求1所述的方法,其特征在于,所述创建B-Sketch模型的过程包括获取特征变量:微博数据流中的总微博数的加速率S"、微博数据流中的每个词在总词汇数的加速率X"和微博数据流中的每个词对的加速率Y"。
3.如权利要求2所述的方法,其特征在于,
所述S"的获取方式为:通过等式一:得到;
所述X"的获取方式为:通过等式二:得到;
所述Y"的获取方式为:通过等式三:得到;
所述等式一、等式二和等式三中的K为微博数据流中的当前活跃事件的数目。
4.如权利要求3所述的方法,其特征在于,所述计算事件加速率a和分布向量p的具体步骤包括:
构建目标函数f,f=wX·eX+wY·eY,其中,eX和eY分别为等式二和等式三的误差的平方和,wX和wY分别为等式二和等式三中待调节的权重;
根据所述等式一、等式二和等式三将所述目标函数f最优化,计算出事件加速率a和分布向量p。
5.如权利要求4所述的方法,其特征在于,所述推测突发事件之前,还包括步骤:动态生成一阈值,所述阈值为当前活跃事件的前N天的微博总数的平均值,N≥1。
6.如权利要求5所述的方法,其特征在于,所述根据事件加速率a判断所述事件是否为突发事件的具体步骤包括:
比较所述事件加速率a与所述阈值的大小,如果所述事件加速率a大于所述阈值,则所述事件为突发事件。
7.如权利要求4所述的方法,其特征在于,所述降维处理具体为:将相似词汇映射到同一个哈希桶里,将每个桶里的所有词汇视为一个词,并采用COUNT-MIN算法估计概率最高的单词。
8.如权利要求7所述的方法,其特征在于,根据降维处理变换所述eX和eY,所述eX和eY的表达式分别变换为:
e X = &Sigma; h = 1 H &Sigma; j = 1 B ( &Sigma; k = 1 K a k &CenterDot; p k , i ( h ) - X i &prime; &prime; ( h ) ) 2 , e Y = &Sigma; h = 1 H &Sigma; i = 1 B &Sigma; j = 1 B ( &Sigma; k = 1 K a k &CenterDot; p k , i ( h ) &CenterDot; p k , j ( h ) - Y i , j &prime; &prime; ( h ) ) 2 .
9.如权利要求1至8中任一项所述的方法,其特征在于,所述降维处理之前,还包括去噪处理:筛选微博数据流中的停用词,并删除所述停用词。
CN201510018617.0A 2015-01-14 2015-01-14 一种微博突发事件检测方法 Active CN104573031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510018617.0A CN104573031B (zh) 2015-01-14 2015-01-14 一种微博突发事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510018617.0A CN104573031B (zh) 2015-01-14 2015-01-14 一种微博突发事件检测方法

Publications (2)

Publication Number Publication Date
CN104573031A true CN104573031A (zh) 2015-04-29
CN104573031B CN104573031B (zh) 2018-06-05

Family

ID=53089093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510018617.0A Active CN104573031B (zh) 2015-01-14 2015-01-14 一种微博突发事件检测方法

Country Status (1)

Country Link
CN (1) CN104573031B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119807A (zh) * 2015-07-17 2015-12-02 哈尔滨工程大学 一种面向实时微博消息流的在线突发事件检测方法
CN106547875A (zh) * 2016-11-02 2017-03-29 哈尔滨工程大学 一种基于情感分析和标签的微博在线突发事件检测方法
CN107908616A (zh) * 2017-10-18 2018-04-13 北京京东尚科信息技术有限公司 预测趋势词的方法和装置
CN108345662A (zh) * 2018-02-01 2018-07-31 福建师范大学 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN110738248A (zh) * 2019-09-30 2020-01-31 朔黄铁路发展有限责任公司 状态感知数据特征提取方法及装置、***性能评估方法
CN112257429A (zh) * 2020-10-16 2021-01-22 北京工商大学 基于bert-btm网络的微博突发事件检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783509B1 (en) * 2006-03-10 2010-08-24 Hewlett-Packard Development Company, L.P. Determining that a change has occured in response to detecting a burst of activity
CN102214241A (zh) * 2011-07-05 2011-10-12 清华大学 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN102289487A (zh) * 2011-08-09 2011-12-21 浙江大学 基于主题模型的网络突发热点事件检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783509B1 (en) * 2006-03-10 2010-08-24 Hewlett-Packard Development Company, L.P. Determining that a change has occured in response to detecting a burst of activity
CN102214241A (zh) * 2011-07-05 2011-10-12 清华大学 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN102289487A (zh) * 2011-08-09 2011-12-21 浙江大学 基于主题模型的网络突发热点事件检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王勇等: "中文微博突发事件检测研究", 《情报分析与研究》 *
豆飞飞: "基于Sketch的数据流频繁项集挖掘研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119807A (zh) * 2015-07-17 2015-12-02 哈尔滨工程大学 一种面向实时微博消息流的在线突发事件检测方法
CN105119807B (zh) * 2015-07-17 2019-05-17 哈尔滨工程大学 一种面向实时微博消息流的在线突发事件检测方法
CN106547875A (zh) * 2016-11-02 2017-03-29 哈尔滨工程大学 一种基于情感分析和标签的微博在线突发事件检测方法
CN106547875B (zh) * 2016-11-02 2020-05-15 哈尔滨工程大学 一种基于情感分析和标签的微博在线突发事件检测方法
CN107908616A (zh) * 2017-10-18 2018-04-13 北京京东尚科信息技术有限公司 预测趋势词的方法和装置
CN108345662A (zh) * 2018-02-01 2018-07-31 福建师范大学 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN108345662B (zh) * 2018-02-01 2022-08-12 福建师范大学 一种考虑用户分布区域差异的签到微博数据加权统计方法
CN110738248A (zh) * 2019-09-30 2020-01-31 朔黄铁路发展有限责任公司 状态感知数据特征提取方法及装置、***性能评估方法
CN110738248B (zh) * 2019-09-30 2022-09-27 朔黄铁路发展有限责任公司 状态感知数据特征提取方法及装置、***性能评估方法
CN112257429A (zh) * 2020-10-16 2021-01-22 北京工商大学 基于bert-btm网络的微博突发事件检测方法
CN112257429B (zh) * 2020-10-16 2024-04-16 北京工商大学 基于bert-btm网络的微博突发事件检测方法

Also Published As

Publication number Publication date
CN104573031B (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
CN104573031A (zh) 一种微博突发事件检测方法
Chen et al. Analysis of computational time of simple estimation of distribution algorithms
Zellner et al. Calculation of maximum entropy distributions and approximation of marginalposterior distributions
US11200511B1 (en) Adaptive sampling of training data for machine learning models based on PAC-bayes analysis of risk bounds
Li et al. Time-dependent reliability estimation for dynamic problems using a niching genetic algorithm
Griffiths et al. A Bayesian view of language evolution by iterated learning
CN105488539B (zh) 分类模型的生成方法及装置、***容量的预估方法及装置
CN111475848B (zh) 保障边缘计算数据隐私的全局和局部低噪声训练方法
CN103455842B (zh) 贝叶斯算法和MapReduce相结合的信任度量方法
CN114467095A (zh) 基于强化学习的局部可解释模型
CN112700326A (zh) 一种基于灰狼算法优化bp神经网络的信贷违约预测方法
KR20230031889A (ko) 네트워크 토폴로지에서의 이상 탐지
Kumar Singh et al. Estimation and prediction for Type-I hybrid censored data from generalized Lindley distribution
CN110096630A (zh) 一类基于聚类分析的大数据处理方法
Chu et al. Reliability based optimization with metaheuristic algorithms and Latin hypercube sampling based surrogate models
CN112308341A (zh) 电力数据的处理方法和装置
CN103617146A (zh) 一种基于硬件资源消耗的机器学习方法及装置
CN113298121B (zh) 基于多数据源建模的消息发送方法、装置和电子设备
Almalki et al. Analysis of Type‐II Censored Competing Risks’ Data under Reduced New Modified Weibull Distribution
CN108808657A (zh) 一种电力负荷短期预测方法
Rehman et al. [Retracted] Embedded Estimation Sequential Bayes Parameter Inference for the Ricker Dynamical System
Bordes et al. EM and stochastic EM algorithms for reliability mixture models under random censoring
Meng et al. Classification of customer service tickets in power system based on character and word level semantic understanding
Panchenko et al. Efficient estimation of parameters in marginal in semiparametric multivariate models
Weller et al. Evidential relational-graph convolutional networks for entity classification in knowledge graphs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant