CN101571853A - 网络话题内容演化分析装置及分析方法 - Google Patents

网络话题内容演化分析装置及分析方法 Download PDF

Info

Publication number
CN101571853A
CN101571853A CNA2009100720849A CN200910072084A CN101571853A CN 101571853 A CN101571853 A CN 101571853A CN A2009100720849 A CNA2009100720849 A CN A2009100720849A CN 200910072084 A CN200910072084 A CN 200910072084A CN 101571853 A CN101571853 A CN 101571853A
Authority
CN
China
Prior art keywords
topic
center
report
network
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009100720849A
Other languages
English (en)
Inventor
王巍
杨武
苘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CNA2009100720849A priority Critical patent/CN101571853A/zh
Publication of CN101571853A publication Critical patent/CN101571853A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的是一种网络话题内容演化分析装置及分析方法。网络话题内容演化分析装置由网络事件数据收集装置、网络事件数据预处理装置、话题内容演化分析装置和输出装置构成。本发明的网络话题内容演化分析方法包括网络事件数据收集、网络事件预处理、相似度计算、话题多中心建立、话题中心更新和输出步骤。通过本发明可以发现与话题相关的多个内容侧面,采用多中心结构建立相应的话题模型,更为准确、全面地描述话题;通过话题多中心的建立和更新,可以展现话题内容的动态演化发展过程,即话题的产生、发展、高潮直至消亡的全过程。本发明提出的方法不依赖于报道的处理顺序,能够适用于侧重点不同的新闻报道的交叉出现情况。

Description

网络话题内容演化分析装置及分析方法
(一)技术领域
本发明涉及的是一种利用计算机技术辅助网络信息智能分析或网络舆情管理的技术,其特别涉及利用自然语言处理技术和数据挖掘技术来分析网络话题内容动态演化的***和方法,具体地讲是一种能够准确呈现网络话题内容动态演化过程的***和方法。
(二)背景技术
随着信息技术的发展,特别是互联网技术的突飞猛进,改变了人们获取和交流信息的方式,一种新的舆情表现形式——网络舆情应孕而生。网络舆情是指公众(网民)以网络平台,通过网络语言或其它方式,对某些公共事务或焦点问题所表现出的意见的总和。与传统媒体相比,网络的舆情信息来源丰富,包括新闻评论、BBS、聊天室、博客、聚合新闻(RSS)等,并且网络舆情具有传播速度快、波及范围广、影响程度深等特点,因此对网络舆情的管理要比传统社会舆情管理的难度大得多。根据中国互联网信息中心发布的《中国互联网络发展状况统计报告》,中国的网民数量已经超过美国跃居世界第一。因此,我国的网络舆情管理面临的形势更为严峻,急需新的技术和方法为之提供支持和服务。
网络话题是网络舆情体现的最基本要素,对网络话题的管理是实现网络舆情管理的最基本、也是最重要的环节。网络话题的生命周期通常包括话题出现、话题存活和话题消亡三个阶段。其中话题存活阶段是最为重要的,在该阶段,话题所涉及的相关内容会不断的展开,同时随着事态的发展,相关内容也会不断的变化,直至话题进入消亡阶段。话题相关内容随着其中的关键元素不断变化的现象称为话题演化,话题演化表明了某一话题在存活阶段是如何发展、变化的,是掌握和管理网络舆情工作中最为重要的依据。
网络话题演化分析相关技术是建立在网络话题检测和跟踪技术基础之上的,是后者的延伸和提高。在网络话题演化分析方面,已有如下相关技术方案被相继提出。赵华等[面向动态演化的话题检测研究[J],高技术通讯,2006,16(12):1230-1235]在研究话题检测时提出基于双质心话题模型的话题动态演化分析方法,该方法采用初始质心和当前质心分别表示话题较早关注以及当前关注的内容,分界点的建立标志话题新内容的出现,初始质心和当前质心随着分界点的建立而更新。该方法不仅可以保留话题较早关注的内容,还可以即时捕捉话题中新出现的内容。基于双质心模型的方法能够及时捕捉到话题新侧面的出现,但是当话题各个侧面的相关报道是乱序出现时,该模型则无法正确识别话题内容的演化过程。
吴平博等[基于事件框架的事件相关文档的智能检索研究[J].中文信息学报,2003,17(6):25-30]中提出了基于事件框架思想的话题演化分析方法。该方法通过手工收集与话题相关各个侧面的报道,抽取侧面关键词并建立较完善的事件框架,依据该事件框架分析话题内容的演化,用以提高话题检测和跟踪的准确性。基于事件框架思想的话题内容演化分析方法,需要事先收集话题不同侧面的报道,并提取侧面关键词,人工干预的行为过多,并且各个侧面信息收集是否全面对话题检测和跟踪的性能影响很大。
王会珍等[基于反馈学习自适应的中文话题追踪[J].中文信息学报,2005,20(3),92-98]中针对话题演化对话题追踪的影响,即话题漂移现象,提出了基于反馈学习自适应的话题追踪方法,采用增量方式对话题模型进行修正,并保留每次修正后的话题模型,用这些话题模型的线性组合来追踪后续报道,用以解决话题演化对话题跟踪的影响。
Juha Makkonen[Investigations on event evolution in TDT.In Proceedings ofStudent Workshop of Human Language Technology Conference of the NorthAmerican Chapter of the Association for Computational Linguistics(HLT-NAACL),Edmonton,Canada,2003:43-48]根据新闻事件的四大要素:时间、地点、人物、事件内容,把传统的单一向量按照不同的词义划分为四个子向量,分别计算四个语义向量的相似度,最后统一为一个相似度。通过判断相似度判断事件(或报道)之间的相似度,来分析当前话题中发生演化的部分内容。
话题演化与时间的行进息息相关,因此与话题内容相关的时态数据是分析话题演化的重要依据。Chih-Ping Wei[IEEE Transactions On Systems,Man,AndCybernetics-Part A:Systems And Humans,2007,37(2),273-283]提出了基于文档序列的事件演化模式挖掘方法,这里的文档序列是通过将待分析的文档按照时间顺序进行排列形成的,并且假设每一篇文档只涉及话题的某一个侧面。贾自艳[一种基于动态进化模型的事件探测和追踪算法[J],计算机研究与发展,2004,41(7):1273-1280]认为话题与报道时间差越小,相似度越大。将时间引入话题相似度的计算,提出基于时间距离的相似度计算模型,基于时间距离的相似度计算模型对于区分不同的话题有一定的效果,但不适用于同一个话题不同侧面的区分。
通过对已有方法和技术的分析,带来各种缺点和不足的原因可以总结为如下两点:
1、话题模型表示:对于同一个话题,其内容重点往往随着相关事件的发展而动态变化,即话题内容的多侧面性。目前所提出的话题模型都难以描述话题多侧面性,不能在演化过程中完整地呈现话题。
2、话题模型建立:现有的技术方法只是采用传统的聚类方法处理属于同一话题的新闻报道,不能体现出该话题内部的动态发展过程。
(三)发明内容
本发明的目的在于提供一种能够准确、全面地分析和呈现网络话题内容动态演化过程,为面向网络的智能信息处理与舆情分析技术提供更先进的技术支持的网络话题内容演化分析装置。本发明的目的还在于提供一种网络话题内容演化分析方法。
本发明的目的是这样实现的:
本发明的网络话题动态演化分析装置的构成包括依次连接的网络事件数据收集装置、网络事件数据预处理装置、话题内容演化分析装置和输出装置;网络事件数据收集装置实时、主动地从互联网获取描述网络话题相关事件的原始数据,并进行存储;网络事件数据预处理装置对网络事件数据收集装置存储下来的网络事件描述原始数据,经过解析过滤掉其中的噪音,提取出真正与网络事件相关的核心数据,对核心数据进行特征定义和提取,表示为向量空间模型方式;经过数据预处理后输入话题演化分析装置,将与话题相关的事件进行聚类,并分析在话题内部事件的动态发展及演化过程;输出装置输出***的话题演化分析结果。
本发明的网络话题内容演化分析装置还可以包括:
1、所述的网络事件数据预处理装置由网络事件数据净化单元和网络事件数据表示单元构成,网络事件数据净化单元去除网页中的干扰信息,将新闻内容准确地提取出来,网络事件数据表示单元,对于提取出来的新闻内容进行中文的分词处理,然后表示成向量的形式。
2、所述的话题内容动态演化分析装置由相似度计算单元、话题多中心建立单元和话题中心更新单元构成;相似度计算单元计算收集到的报道与各个话题中心之间的相似度,判断该报道所属的话题类;话题多中心建立单元在判断出当前报道所属话题类的基础上,通过比较当前新闻报道与话题已有中心的相异特征数来决定该报道所属的话题中心;话题中心更新单元在当话题的某一中心加入新的报道时,更新话题该中心的向量表示。
本发明的网络话题内容演化分析方法中所涉及的概念说明如下:
多中心结构:话题的中心代表话题的一个侧面,多中心结构即话题多个侧面的展现,各个侧面之间讨论的重点不相同。
相异特征:当前报道相对于某个话题中心的新特征。与不同的话题中心计算出的相异特征可能不相同。
相异程度:当前报道中出现的新特征占该报道特征总数的百分比。
网络话题内容演化分析方法包括以下步骤:
网络事件数据收集步骤,下载网络上的新闻网页,并以文件的形式保存在服务器端,为后续模块的处理和分析提供原始数据;
网络事件预处理步骤,将原始的新闻网页进行网页净化,去除无用的信息,然后进行中文分词处理,并采用特定的策略计算词的权重,最终表示为采用向量空间模型的基本形式;
相似度计算步骤,采用余弦距离计算当前报道与已有各个话题的相似度,记录产生最大相似度的话题,如果最大相似度大于或等于预先设定的阈值,则认为当前报道属于该话题类;否则,最大相似度小于阈值,则建立新的话题类;
话题多中心建立步骤,在判断出当前报道所属的话题类后,继续判断该报道属于该话题类内的哪个中心,并将其加入到该中心的报道集合中,同时更新话题中心;
话题中心更新步骤,每当有新的报道加入话题中心时,更新相应的话题中心向量;
输出步骤,将话题内容演化分析的结果输出,包括话题内部的所有中心,以及每个中心包含的新闻报道。
本发明的网络话题内容演化分析方法还可以包括:
1、相似度计算步骤中,计算报道与某一话题相似度时,分别计算报道与该话题各个中心的相似度,选取最大值作为报道与该话题的相似度。
2、话题多中心建立步骤中,判断报道所属中心的策略是依据当前报道与话题各个中心的相似度和相异程度:选择相似度最大的中心作为与当前报道最接近的中心;若当前报道与该中心的相异程度大于或等于事先设定的阈值,则以当前报道建立话题的新中心;若相异程度小于阈值,则认为当前报道属于该话题中心。
3、话题中心更新步骤的具体更新方法为将当前报道形成的向量与中心向量做和,形成新的中心向量。
本发明的优点在于,通过本发明可以发现与话题相关的多个内容侧面,采用多中心结构建立相应的话题模型,更为准确、全面地描述话题;通过话题多中心的建立和更新,可以展现话题内容的动态演化发展过程,即话题的产生、发展、高潮直至消亡的全过程。本发明提出的方法不依赖于报道的处理顺序,能够适用于侧重点不同的新闻报道的交叉出现情况。
(四)附图说明
图1是本发明装置的***结构框图;
图2是基于多中心结构的网络话题内容动态演化分析方法流程图。
(五)具体实施方式
下面结合附图举例对本发明做更详细地描述:
图1所示为基于多中心结构的网络话题内容动态演化分析***,包括:
网络事件数据收集装置:用于实时、主动地从互联网获取描述网络话题内容相关事件的原始数据,并进行存储;
网络事件数据预处理装置:对网络事件数据收集装置存储下来的网络事件描述原始数据,遵照预定义的某种格式进行解析,过滤掉其中的噪音,提取出真正与网络事件相关的核心数据;此外,对核心数据进行特征定义和提取,并采用适当的形式进行表达;
话题演化分析装置:经过数据预处理后,将与某事件相关的新闻聚类到一起,并分析在话题内部事件的动态发展及演化过程;
输出装置:用于输出***的话题演化分析结果,具体包括话题中心以及属于各个中心的相关新闻报道。
图2给出了基于多中心结构的网络话题内容动态演化分析方法的详细流程图。
1.网络事件数据收集
网络新闻事件的特点是新闻的多侧面特性,即与某一话题相关的所有新闻报道中存在多个侧重点,每个侧重点论述新闻的一个方面的内容。随着事件的发展,话题论述的重点也在不断转移和变化。
2.网络事件数据预处理
本发明采用向量空间模型作为新闻报道和话题模型的形式化描述,网络事件数据向量化包括如下步骤:
(1)从原始网页中提取出新闻的正文部分;
(2)利用分词词典对新闻的正文进行分词处理,提取其中的实词,去掉虚词和停用词;
(3)采用TF-IDF方法确定分词后的每个词的权重,TF-IDF的计算方法如下式:
W t , d = TF t , d × log ( N / DF t ) Σ t = 1 m [ TF t , d × log ( N / DF t ) ] 2
其中Wt,d为特征t在文档d中的权重,m为特征个数,N为总文档数,TFt,d为特征t的在文档d中词频,DFt为特征t的文档频率。
(4)由每个词,即特征及其权重作为分量,形成该新闻报导的向量表示,具体表示如下:
Vd={(T1,W1,d);(T2,W2,d);...;(Tm,Wm,d)}
其中Vd表示文档d的向量表示,Ti(1≤i≤m)表示文档d中的第i个特征,Wi,d表示文档d中第i个特征的权重。
3、相似度计算
计算报道和话题相似度时应计算报道与话题每个中心的相似度,并将相似度最大值的作为报道与话题的相似度。这里采用夹角余弦公式计算相似度,具体方法如下:
(1)采用夹角余弦方法计算报道与话题各个中心的相似度,具体采用如下公式计算:
Sim ( V d i , V d j ) = Σ t = 1 m W t , d i × W t , d j Σ t = 1 m W t , d i 2 × Σ t = 1 m W t , d j 2
其中
Figure A20091007208400102
分别为文档di和dj的向量表示。
(2)选择计算所得的相似度中的最大值作为报道和话题的相似度。
4、话题多中心建立
话题内容的演化往往体现在新特征的出现。如有些特征在话题开始阶段并未出现,而是持续一段时间后才出现,则这些特征的出现很可能意味话题内容发生了演化。然而依据少数几个新特征的出现还不足以判断话题内容发生了演化,只有当出现的新特征数量达到一定规模时,才可认为其内容发生演化。这里采用向量分解方法建立话题多中心结构模型,并判断话题内容发生的演化。
在本发明提出的话题多中心结构中,仅仅对报道所属的话题类进行判断是不完整的,还需要判断报道讨论的中心是哪个。判断报道讨论的中心时,相异特征数量越少,则报道越可能在讨论该中心;反之,相异特征数量越多,则越有可能在讨论不同的中心。算法如下:
(1)计算报道与该话题所有中心的相似度、相异特征数量;
(2)选择与报道最接近的中心:从话题各个中心中选择相似度最大的作为与报道最接近的中心;
(3)判断报道讨论的话题中心:报道与该中心的相异特征百分比小于阈值,则报道属于该中心;否则,以该报道建立话题新中心。
5、话题中心更新
话题的中心采用V向量空间模型表示。每当有新的报道加入话题中心时,需要更新相应的话题中心向量。具体更新方法将当前报道形成的向量与中心向量做和,形成新的中心向量,方法具体如下:
假设Ti,d(1≤i≤n)和Wi,d分别表示当前报道文档向量d的特征项i及相应权值,则当前文档向量Vd可表示为Vd={(T1,d,W1,d);(T2,d,W2,d);…;(Tm,d,Wm,d)},同理话题当前中心形成的文档向量Vc可以表示为如下形式:Vc={T1,c,W1,c);(T2,c,W2,c);...;(Tm,c,Wm,c)},则它们的和表示为sum(Vd,Vc)=(T1,s,W1,s;T2,s,W2,s;...;Tn,s,Wn,s),对于其中每一个分量(Ti,s,Wi,s),它由如下规则生成:
(1)生成特征项:令Vd的特征项集合为S(Vd),Vc的特征项集合为S(Vc),则Ti,s(1≤i≤n)∈S(Vd)∩S(Vc)。
(2)生成权值:
W i , s = W i , d + W i , c , T i , s ∈ S ( V d ) ∩ S ( V c ) W i , d , T i , s ∈ S ( V d ) - S ( V d ) ∩ S ( V c ) W i , c , T i , s ∈ S ( V c ) - S ( V d ) ∩ S ( V c )
6、实施例场景与结果描述
为了验证本发明的有效性,我们实现了其中提到的具体技术和方法,并且与基于双质心模型的话题检测方法进行了对比,对比标准包括话题检测性能以及话题中心的建立两方面。实验数据是在新浪网站收集的一些新闻网页,共5个话题,181篇新闻报道,分别是西藏当雄地震、杭州地铁工地坍塌、乌鲁木齐商厦大火、三聚氰胺问题鸡蛋、山西黑砖厂***工人事件,分别用编号1-5表示。
在具体实施过程中,相似度阈值设置为0.4,相异程度阈值设置为0.6。
表1为本发明方法与的话题检测性能对比结果。
为了验证本发明的方法与基于双质心模型的方法能否检测到话题的不同侧面,并准确描述一个话题内部的不同侧面,我们进行了如下实验:首先为每篇报道分配编号,从“乌鲁木齐商厦大火”事件选取23篇报道,分为三个方面:1、三名消防员遇难(报道编号1-7)2、火灾事故调查、善后(报道编号8-12)3、分析总结事故原因(报道编号13-23),表2的数据是各个侧面报道依次处理时的结果;表3的结果是不同侧面报道交叉出现的处理结果。
表1基于多中心结构方法与双质心方法性能对比
Figure A20091007208400121
表2顺序处理时分类结果
Figure A20091007208400122
表3各个侧面交叉出现时分类结果
Figure A20091007208400123
其中,评价指标中的召回率R、准确率P以及F1值由如下公式计算得到:
召回率:
Figure A20091007208400124
准确率:
Figure A20091007208400131
F1值: F 1 = 2 PR P + R
从实验结果可以看出,对于话题检测性能,在准确率、召回率、F1值等性能指标方面,基本发明方法与双质心模型的方法相当。而在话题中心的建立方面,本发明方法则要优于基于双质心模型的方法。双质心在分界点的建立方面仅依据新词的出现,并且只适用于话题各个侧面依次出现的情况,对于不同内容交叉出现的情况不能适应。而本发明的方法则能够处理内容交叉出现的情况,不但能发现话题新出现的内容,而且还能对旧的内容进行二次归类,多中心结构保存着话题内部所有的中心,并能够及时对话题的各个中心进行更新,从而准确地掌握话题内容的演化过程,提高了话题检测性能。

Claims (8)

1、一种网络话题内容演化分析装置,其构成包括依次连接的网络事件数据收集装置、网络事件数据预处理装置、话题内容演化分析装置和输出装置;其特征是:网络事件数据收集装置实时、主动地从互联网获取描述网络话题相关事件的原始数据,并进行存储;网络事件数据预处理装置对网络事件数据收集装置存储下来的网络事件描述原始数据,经过解析过滤掉其中的噪音,提取出真正与网络事件相关的核心数据,对核心数据进行特征定义和提取,表示为向量空间模型方式;经过数据预处理后输入话题演化分析装置,将与话题相关的事件进行聚类,并分析在话题内部事件的动态发展及演化过程;输出装置输出***的话题演化分析结果。
2、根据权利要求1所述的网络话题内容演化分析装置,其特征是:所述的网络事件数据预处理装置由网络事件数据净化单元和网络事件数据表示单元构成,网络事件数据净化单元去除网页中的干扰信息,将新闻内容准确地提取出来,网络事件数据表示单元,对于提取出来的新闻内容进行中文的分词处理,然后表示成向量的形式。
3、根据权利要求1或2所述的网络话题内容演化分析装置,其特征是:所述的话题内容动态演化分析装置由相似度计算单元、话题多中心建立单元和话题中心更新单元构成;相似度计算单元计算收集到的报道与各个话题中心之间的相似度,判断该报道所属的话题类;话题多中心建立单元在判断出当前报道所属话题类的基础上,通过比较当前新闻报道与话题已有中心的相异特征数来决定该报道所属的话题中心;话题中心更新单元在当话题的某一中心加入新的报道时,更新话题该中心的向量表示。
4、一种网络话题内容演化分析方法,其特征是包括以下步骤:
网络事件数据收集步骤,下载网络上的新闻网页,并以文件的形式保存在服务器端,为后续模块的处理和分析提供原始数据;
网络事件预处理步骤,将原始的新闻网页进行网页净化,去除无用的信息,然后进行中文分词处理,并采用特定的策略计算词的权重,最终表示为采用向量空间模型的基本形式;
相似度计算步骤,采用余弦距离计算当前报道与已有各个话题的相似度,记录产生最大相似度的话题,如果最大相似度大于或等于预先设定的阈值,则认为当前报道属于该话题类;否则,最大相似度小于阈值,则建立新的话题类;
话题多中心建立步骤,在判断出当前报道所属的话题类后,继续判断该报道属于该话题类内的哪个中心,并将其加入到该中心的报道集合中,同时更新话题中心;
话题中心更新步骤,每当有新的报道加入话题中心时,更新相应的话题中心向量;
输出步骤,将话题内容演化分析的结果输出,包括话题内部的所有中心,以及每个中心包含的新闻报道。
5、根据权利要求4网络话题内容演化分析方法,其特征是:相似度计算步骤中,计算报道与某一话题相似度时,分别计算报道与该话题各个中心的相似度,选取最大值作为报道与该话题的相似度。
6、根据权利要求4或5网络话题内容演化分析方法,其特征是:话题多中心建立步骤中,判断报道所属中心的策略是依据当前报道与话题各个中心的相似度和相异程度:选择相似度最大的中心作为与当前报道最接近的中心;若当前报道与该中心的相异程度大于或等于事先设定的阈值,则以当前报道建立话题的新中心;若相异程度小于阈值,则认为当前报道属于该话题中心。
7、根据权利要求4或5网络话题内容演化分析方法,其特征是:话题中心更新步骤的具体更新方法为将当前报道形成的向量与中心向量做和,形成新的中心向量。
8、根据权利要求6网络话题内容演化分析方法,其特征是:话题中心更新步骤的具体更新方法为将当前报道形成的向量与中心向量做和,形成新的中心向量。
CNA2009100720849A 2009-05-22 2009-05-22 网络话题内容演化分析装置及分析方法 Pending CN101571853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2009100720849A CN101571853A (zh) 2009-05-22 2009-05-22 网络话题内容演化分析装置及分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009100720849A CN101571853A (zh) 2009-05-22 2009-05-22 网络话题内容演化分析装置及分析方法

Publications (1)

Publication Number Publication Date
CN101571853A true CN101571853A (zh) 2009-11-04

Family

ID=41231212

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009100720849A Pending CN101571853A (zh) 2009-05-22 2009-05-22 网络话题内容演化分析装置及分析方法

Country Status (1)

Country Link
CN (1) CN101571853A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法
CN102136975A (zh) * 2011-02-24 2011-07-27 上海大学 一种面向大规模网络环境的相似网络构建方法
CN102419778A (zh) * 2012-01-09 2012-04-18 中国科学院软件研究所 一种挖掘查询语句子话题并聚类的信息搜索方法
CN102915341A (zh) * 2012-09-21 2013-02-06 人民搜索网络股份公司 基于动态话题模型的动态文本聚类装置及其方法
CN102929927A (zh) * 2012-09-20 2013-02-13 北京航空航天大学 一种基于互联网海量信息的随机事件演化即时跟踪方法
CN102999539A (zh) * 2011-09-13 2013-03-27 富士通株式会社 预测给定话题的未来发展趋势的方法和装置
WO2013086931A1 (en) * 2011-12-13 2013-06-20 International Business Machines Corporation Event mining in social networks
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN104715014A (zh) * 2015-01-26 2015-06-17 中山大学 一种新闻在线话题检测方法
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其***
WO2015165230A1 (zh) * 2014-04-28 2015-11-05 华为技术有限公司 一种社交消息的监测方法及装置
CN106294405A (zh) * 2015-05-22 2017-01-04 国家计算机网络与信息安全管理中心 一种微博子话题演化分析方法及装置
CN106682049A (zh) * 2015-11-09 2017-05-17 财团法人资讯工业策进会 议题显示***和议题显示方法
CN106934049A (zh) * 2017-03-16 2017-07-07 天闻数媒科技(北京)有限公司 一种新闻选题分析方法及装置
CN109064347A (zh) * 2017-06-11 2018-12-21 南京理工大学 基于多智能体的信息传播与舆情演化仿真方法
CN109558546A (zh) * 2018-11-06 2019-04-02 广州大学 一种基于行为分析的微博话题表示模型生成方法及装置
CN109635174A (zh) * 2018-10-29 2019-04-16 珠海市君天电子科技有限公司 新闻信息流管理方法、装置、电子设备及存储介质
CN111680205A (zh) * 2020-06-12 2020-09-18 杨鹏 一种基于事理图谱的事件演化分析方法及装置
CN112069246A (zh) * 2020-09-08 2020-12-11 天津大学 物理世界与网络世界中的事件演化过程集成的分析方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012917B (zh) * 2010-11-26 2013-02-20 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法
CN102136975A (zh) * 2011-02-24 2011-07-27 上海大学 一种面向大规模网络环境的相似网络构建方法
CN102136975B (zh) * 2011-02-24 2014-04-02 上海大学 一种面向大规模网络环境的相似网络构建方法
CN102999539B (zh) * 2011-09-13 2015-11-25 富士通株式会社 预测给定话题的未来发展趋势的方法和装置
CN102999539A (zh) * 2011-09-13 2013-03-27 富士通株式会社 预测给定话题的未来发展趋势的方法和装置
CN104054072B (zh) * 2011-12-13 2017-03-29 国际商业机器公司 在社交网络中的事件挖掘
GB2509874A (en) * 2011-12-13 2014-07-16 Ibm Event mining in social networks
CN104054072A (zh) * 2011-12-13 2014-09-17 国际商业机器公司 在社交网络中的事件挖掘
US8914371B2 (en) 2011-12-13 2014-12-16 International Business Machines Corporation Event mining in social networks
WO2013086931A1 (en) * 2011-12-13 2013-06-20 International Business Machines Corporation Event mining in social networks
CN102419778A (zh) * 2012-01-09 2012-04-18 中国科学院软件研究所 一种挖掘查询语句子话题并聚类的信息搜索方法
CN102929927A (zh) * 2012-09-20 2013-02-13 北京航空航天大学 一种基于互联网海量信息的随机事件演化即时跟踪方法
CN102915341A (zh) * 2012-09-21 2013-02-06 人民搜索网络股份公司 基于动态话题模型的动态文本聚类装置及其方法
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN105095228A (zh) * 2014-04-28 2015-11-25 华为技术有限公司 一种社交消息的监测方法及装置
WO2015165230A1 (zh) * 2014-04-28 2015-11-05 华为技术有限公司 一种社交消息的监测方法及装置
US10250550B2 (en) 2014-04-28 2019-04-02 Huawei Technologies Co., Ltd. Social message monitoring method and apparatus
CN104715014B (zh) * 2015-01-26 2017-10-10 中山大学 一种新闻在线话题检测方法
CN104715014A (zh) * 2015-01-26 2015-06-17 中山大学 一种新闻在线话题检测方法
CN106294405A (zh) * 2015-05-22 2017-01-04 国家计算机网络与信息安全管理中心 一种微博子话题演化分析方法及装置
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其***
CN104915446B (zh) * 2015-06-29 2019-01-29 华南理工大学 基于新闻的事件演化关系自动提取方法及其***
CN106682049A (zh) * 2015-11-09 2017-05-17 财团法人资讯工业策进会 议题显示***和议题显示方法
US10459980B2 (en) 2015-11-09 2019-10-29 Institute For Information Industry Display system, method and computer readable recording media for an issue
CN106682049B (zh) * 2015-11-09 2020-04-14 财团法人资讯工业策进会 议题显示***和议题显示方法
CN106934049A (zh) * 2017-03-16 2017-07-07 天闻数媒科技(北京)有限公司 一种新闻选题分析方法及装置
CN106934049B (zh) * 2017-03-16 2020-08-07 天闻数媒科技(北京)有限公司 一种新闻选题分析方法及装置
CN109064347B (zh) * 2017-06-11 2022-05-17 南京理工大学 基于多智能体的信息传播与舆情演化仿真方法
CN109064347A (zh) * 2017-06-11 2018-12-21 南京理工大学 基于多智能体的信息传播与舆情演化仿真方法
CN109635174A (zh) * 2018-10-29 2019-04-16 珠海市君天电子科技有限公司 新闻信息流管理方法、装置、电子设备及存储介质
CN109558546A (zh) * 2018-11-06 2019-04-02 广州大学 一种基于行为分析的微博话题表示模型生成方法及装置
CN111680205A (zh) * 2020-06-12 2020-09-18 杨鹏 一种基于事理图谱的事件演化分析方法及装置
CN112069246A (zh) * 2020-09-08 2020-12-11 天津大学 物理世界与网络世界中的事件演化过程集成的分析方法
CN112069246B (zh) * 2020-09-08 2024-01-09 天津大学 物理世界与网络世界中的事件演化过程集成的分析方法

Similar Documents

Publication Publication Date Title
CN101571853A (zh) 网络话题内容演化分析装置及分析方法
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN105893208A (zh) 基于隐半马尔可夫模型的云计算平台***故障预测方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN113434357A (zh) 基于序列预测的日志异常检测方法及装置
CN106294619A (zh) 舆情智能监管方法
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN107102993B (zh) 一种用户诉求分析方法和装置
CN112307473A (zh) 一种基于Bi-LSTM网络和注意力机制的恶意JavaScript代码检测模型
CN101819585A (zh) 一种论坛事件传播图的构建装置及构建方法
CN105138570A (zh) 网络言论数据疑似犯罪度计算方法
CN105389354A (zh) 面向社交媒体文本的无监督的事件抽取和分类方法
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
CN108363784A (zh) 一种基于文本机器学习的舆情走向预测方法
CN108416034B (zh) 基于金融异构大数据的信息采集***及其控制方法
CN103246644A (zh) 一种网络舆情信息处理方法和装置
CN106682123A (zh) 一种获取热点事件的方法及装置
CN113595998A (zh) 基于Bi-LSTM的电网信息***漏洞攻击检测方法及装置
CN103902619A (zh) 一种网络舆情监控方法及***
Angelpreethi et al. An enhanced architecture for feature based opinion mining from product reviews
CN102567405A (zh) 一种基于改进的文本空间向量表示的热点发现方法
Zhu et al. CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20091104