CN102937960A - 突发事件热点话题的识别与评估装置和方法 - Google Patents

突发事件热点话题的识别与评估装置和方法 Download PDF

Info

Publication number
CN102937960A
CN102937960A CN2012103279794A CN201210327979A CN102937960A CN 102937960 A CN102937960 A CN 102937960A CN 2012103279794 A CN2012103279794 A CN 2012103279794A CN 201210327979 A CN201210327979 A CN 201210327979A CN 102937960 A CN102937960 A CN 102937960A
Authority
CN
China
Prior art keywords
topic
text
report
feature
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103279794A
Other languages
English (en)
Other versions
CN102937960B (zh
Inventor
陈莉萍
杜军平
宋茂强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201210327979.4A priority Critical patent/CN102937960B/zh
Publication of CN102937960A publication Critical patent/CN102937960A/zh
Application granted granted Critical
Publication of CN102937960B publication Critical patent/CN102937960B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种突发事件热点话题的识别与评估装置和方法,该装置设有文本获取、文本表示、话题聚类和话题评估共四个单元组成部件,本发明创新特点是:对新闻报道正文的裁剪只提取标题、导语及相关特征等信息,就将其作为热点话题识别的有效样本集;与现有的全文提取进行对比实验的结果表明,两者的结果相近似,但本发明操作大大简化。还使用改进的特征权值计算模型,与经典模型比较,前者的执行效率更好和文本表示能力适应性更强。对聚类出的话题利用模型评估热度值,所计算出的热点话题符合预期效果,更适应于突发事件新闻报道的特征。总之,本发明装置和方法在处理突发事件新闻报道文本过程中,其计算复杂度、结果准确性和实时性方面都具有良好性能。

Description

突发事件热点话题的识别与评估装置和方法
技术领域
本发明涉及文本数据挖掘领域中的话题检测与跟踪技术,确切的说,涉及一种在突发事件发生后,从互联网相关新闻报道文本中,识别出与突发事件相关联的热点话题,并对识别出的热点话题进行热度评估的装置与方法,用于为后续热点话题的追踪提供识别与评估该热点话题的方法,属于互联网话题检测与跟踪TDT(Topic Detection and Tracking)的技术领域。
背景技术
话题检测与跟踪TDT技术是一种信息处理技术,旨在依据事件对语言文本信息流进行组织与利用的研究,也是为应对信息过载问题而提出的一项应用研究。TDT检测与跟踪的对象包括从特定时间和地点的事件、直到具备更多相关性外延的话题,相关的理论与应用研究也从传统的时间识别,跨越到包含突发事件和后续报告的话题检测与跟踪。与一般信息检索或信息过滤不同,TDT关心的话题不是一个大的领域,而是一件非常具体的事情。为了区别语言上的概念,TDT评测对话题(Topic)、事件(Event)、活动(Activity)、报道(Story)和主题(Subject)都给出了下述定义:
事件(Event):由某些原因和条件所引起、发生在特定时间和特定地点的涉及某些对象并可能伴随某些必然结果的事情。如:“2011年3月11日,日本发生9.0级地震”就是一个具体的事件。
活动(Activity):发生在特定时间和特定地点、且有共同目的和共同关注的相关事件的集合。例如选举。
报道(Story):与话题紧密相关的、包含两个或多个独立陈述某个事件子句的新闻片段。
话题(Topic):由一个种子事件或活动,以及与其直接相关的事件或活动组成。如:2011年3月11日日本地震后引发的核危机话题。
主题(Subject):涵盖或泛指的多个类似具体事件,或根本不涉及任何具体事件,其涉及的概念比话题更广泛。如:“海啸”是个主题,而“日本3.11地震引发海啸”则属于一个话题。
TDT是1996年由美国国防部高级研究计划署DARPA联合相关科研机构提出的,还设立了下述五项基础性研究任务:新闻广播类报道的切分任务,已知话题的跟踪任务,未知话题的检测任务,未知话题首次相关报道的检测任务,报道间的关联检测任务。随着研究的逐步深入和发展,美国国家标准技术研究院NIST为TDT逐步建立了完整的任务评测体系。最新版本的TDT2004确定了该领域的下述六个主要研究任务:
(A)新事件检测NED(New Event Detection):判断一个新闻报道是否描述了一个新的事件;
(B)报道关联检测SLD(Story Link Detection):判断两篇新闻报道是否描述了同一个话题;
(C)话题检测TD(Topic Detection):由新话题的检测和话题追踪两项任务共同完成;
(D)话题跟踪TT(Topic Tracking):对于某个已经发现的话题,判断后续的话题是否属于该话题;
(E)自适应话题跟踪ATT(Adaptive Topic Tracking):相对于话题追踪的任务,具备自学习能力;
(F)层次话题检测HTD(Hierarchical Topic Detection):话题之间有层次关系,即一个报道可以属于多个话题,一个话题也可以包含其它话题。
截止2004年,NIST提供的所有评测任务基本覆盖了TDT技术领域内的大部分研究课题。
下面介绍话题检测技术的发展现状:从1996年DARPA提出对新闻数据流的话题进行自动判断和识别的新技术作为起源,到1997年TDT项目开始启动,***-梅隆大学、马萨诸塞大学、滨州大学等分别发表各自开发的***研究报告,建立了一个针对TDT研究的预研语料库,开始进入初步研究阶段。1998年,NIST开始举办由语言数据联盟LDC提供的TDT评测。目前,已经公布的训练和测试语料包括TDT pilot Corpus、TDT2、TDT3、TDT4,这些语料都事先由人工对若干事件话题进行了标注作为标准答案。TDT技术每年进行一次公开评测,每次评测的侧重点有所不同,1999年进行的第二次TDT评测加入了中文语料。国内的一些研究机构如:中科院计算所、哈工大、东北大学、北大计算语言学研究所、清华等也开始进行TDT相关关键技术的研究。由于中文文本处理比其它语言文本要复杂很多,并且从研究方法到技术实现方案都存在很大差别,因此,目前国内的现有技术主要侧重于对中文文本的研究。
近年来,海内外的研究更多地侧重于话题聚类算法的实现和效率的评估,以及话题跟踪模型的研究。哈工大对热门话题检测技术的研究比较突出,提出了基于内容分析的话题检测算法;也有人分别研究博客和微博客领域中文热门话题检测与跟踪技术,提出了将词性和词频相结合的相似度计算方法,提出了基于语义结构和时序特征的话题检测与跟踪技术和基于多重特征的话题追踪模型等。中科院计算所提出从网络论坛中基于噪音过滤模型的突发话题抽取方法。
在商业***中,TDT技术的应用也越来越多。大多数搜索引擎厂商都提供新闻搜索服务,将新闻作为一个垂直搜索领域来开发应用。如Google中文资讯、有道热闻和百度新闻等都用到了TDT中的相关技术,但都未公开其技术细节。TDT是一个直接面向应用的研究方向,到目前为止,该领域的大部分研究都是借用信息检索的某些方法,通过调整某些参数来对***进行优化。
目前,国内外对于新闻热点话题的检测,主要侧重在新闻事件网络报道信息流中自动检测出新话题,并对其后续报道进行追踪。由于突发事件的发生往往导致互联网信息的骤然超载,使得传统新闻事件的信息获取和分析处理方法效率明显降低。
近年来,对于热点话题的研究逐渐成为国内外关注的重点,但是,大多集中于从各类事件的新闻中发现话题并过滤热点进行跟踪的方法。然而,针对突发事件,尤其是重大突发事件的新闻报道具有特殊的属性,至今还没有提出特殊的、有针对性的处理方法。
发明内容
有鉴于此,本发明的目的是提供一种突发事件热点话题的识别与评估装置和方法,本发明是基于对突发事件本身的产生机理和演化规律进行研究而提出的,它能在突发事件发生后,快速识别和评估网络新闻的热点话题,并对话题进行跟踪和演化分析,用于提高突发事件应急预测预警的效率,改善应急管理的知识模型,并对提高应急预案的针对性和有效性等方面都能给予有力支持。
为了达到上述目的,本发明提供了一种突发事件热点话题的识别与评估装置,其特征在于:该装置设有下述四个组成部件:文本获取单元、文本表示单元、话题聚类单元和话题评估单元,其中:
文本获取单元,用于发生突发事件后,从各大新闻网站采集与该突发事件热点话题相关的新闻报道页面并进行文本处理,形成一组新闻文档集合存储于正文数据库,以供文本表示、话题聚类和话题评估三个单元进行后续处理;设有:页面爬取、正文提取和页面属性提取三个模块,以及爬取信息数据库与正文数据库;
文本表示单元,用于完成文档的向量化处理:利用改进的文本特征权值计算方法建立数学模型并进行计算,以形成文本特征权值矩阵;设有:分词及词性标注、命名实体识别、词性/停用词过滤、特征权值计算和特征选择共五个模块,以及分词词典和停用词表两个数据库;
话题聚类单元,负责对来自前述单元的特征词进行聚类处理:将描述相同话题的文档进行聚合,组成多个被称为簇的子集,使得每个簇中的各个文档之间相似性强,而簇间各文档的相似性弱;再用每个簇中特征权值最高的2~5个词语描述一个话题,得到突发事件发生后设定时间段内人们关注的若干个话题;设有:文档相似性计算模块和文档聚类模块;
话题评估单元,负责对突发事件发生后设定时间内人们关注的若干话题进行热度评估,并按照评估值大小对热点话题进行降序排序,为迅速把握后续的重要事件和研究话题的演化规律提供基础;设有:网络特征计算、热度评估、话题排序三个模块和特征向量数据库。
为了达到上述目的,本发明还提供了一种采用本发明突发事件热点话题的识别与评估装置的工作方法,其特征在于:所述方法包括下列操作步骤:
(1)文本获取单元获取设定事件的新闻报道页面,再从爬取的报道页面中提取标题、报道时间、报道源,以及与后续热点话题关注度计算相关的网络特征作为页面属性,并对该报道页面进行筛选、解析、提取和剪裁新闻正文的操作,形成新闻文档集合;
(2)文本表示单元采用改进的文本特征权值计算方法对每篇新闻文档进行向量化处理,形成文本特征值矩阵;
(3)话题聚类单元对设定特征词对应的文本特征值矩阵进行聚合处理:将话题相同的相似文档聚合,组成多个簇,使得每个簇中的各文档相似性强,而不同簇的各文档相似性弱;再用每个簇中特征权值最高的2~5个特征词描述一个话题,得到突发事件发生后设定时间段内人们关注的若干个话题;
(4)话题评估单元对话题进行热度评估:在已获取了突发事件发生后人们关注的若干个话题基础上,对这些话题进行热度评估和排序,为把握重要事件后续发展和研究话题的演化提供基础。
本发明在TDT的基本检测和追踪方法基础上进行了三处创新与改进:
首先,考虑到突发事件应急***的快速反应机制对前期文本挖掘的实时性要求较高,即在保证信息处理方法满足设定准确度要求的前提下,具有较高的执行效率。现有方法主要基于新闻报道全文或只提取标题作为数据源,开展后续的数据处理,这样处理的后果有可能导致效率降低或提取信息的不准确。本发明在对新闻文本内容及结构进行大量分析的前提下,提出先对整个新闻报道文本进行必要的裁剪,这种对原始数据先删除冗余的做法在保证准确度要求的前提下,大大提高了后续算法的运行效率,从而降低了计算时间和空间的复杂度。
其次,大量话题的发现必须通过一定规范的文本表示才能进行快速分析和处理。在文本表示阶段,本发明通过对传统权值计算方法的改进,建立针对具有时效性、报道源分布性和报道数量海量性等特征的新闻文本的表示模型,相对于传统模型具有更强的文本表示能力,为后续话题发现和热点的过滤提供了准确度更高的数据集。
最后,突发事件发生后,会涌现大量话题,但其是否成为人们的关注热点,为决策者提供更有效的数据支持,还需要对话题进一步过滤。本发明通过对网络新闻报道的时间属性、报道属性、用户关注度等网络特征的提取和分析,提出热点话题的评估方法,可对发现出的话题计算其在设定时间内的热度值,实现热点话题的有效识别。
本发明针对上述三个关键技术的研究所提出的装置和方法,经过以2011年日本大地震突发事件新闻报道作为数据源进行模型评估和相关算法的仿真实施试验。实验结果表明,本发明与现有技术比较,具有以下优点:
通过与现有的全文提取方法进行对比实验,对新闻报道正文的裁剪,只提取标题、导语及相关特征等信息就能够作为热点话题识别的有效样本集;改进的特征权值计算模型与经典模型比较,具有更好的执行效率和适应性更强的文本表示能力;通过对聚类出的话题利用模型进行热度值评估,计算出的热点话题符合预期效果,更适应于突发事件新闻报道的特征。总之,试验的结果证明:本发明装置和方法都是成功的,实现了发明目的。在处理突发事件新闻报道文本过程中,其计算复杂度、结果准确性和实时性方面都具有良好性能。
附图说明
图1是本发明突发事件热点话题的识别与评估装置的结构组成示意图。
图2是本发明突发事件热点话题的识别与评估装置工作方法流程图。
图3是本发明实施例中的步骤1的特征值比较曲线图。
图4是本发明实施例中的步骤3中的话题聚类仿真结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参照图1,介绍突发事件热点话题与评估的装置的结构组成:设有文本获取单元、文本表示单元、话题聚类单元和话题评估单元四个组成部件,本发明的创新主要集中在文本获取、文本表示和话题评估三个单元中。下面分别介绍之:
(A)文本获取单元:用于发生突发事件后,从各大新闻网站采集与该突发事件热点话题相关的新闻报道页面并进行文本处理,形成一组新闻文档集合存储于正文数据库,以供文本表示、话题聚类和话题评估三个单元进行后续处理;设有:页面爬取、正文提取和页面属性提取三个模块,以及爬取信息数据库与正文数据库。这些模块和数据库的功能说明如下:
页面爬取模块,负责从指定网站下载与预设关键词相关的新闻报道页面,并将该新闻报道页面以页面文件形式存储在本地磁盘上。
正文提取模块,负责从本地磁盘读取爬取后的页面文件,并利用该正文提取模块中的正文提取算法对每篇页面文件去除噪声、提取新闻正文,并从新闻正文中分离出导语和其余部分,再对实际文本长度进行剪裁,将剪裁后的新闻文档存储于正文数据库中,然后根据报道源的不同在正文数据库中建立索引,以使逻辑上形成不同数据源所对应的一组正文集。
页面属性提取模块,用于从本地磁盘读取爬取后的页面文件,并提取每篇新闻报道特有的包括标题、报道时间和报道源的属性,以及与后续热点话题关注度计算相关的包括该话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的网络特征属性,再存储于正文数据库中。
爬取信息数据库是用于存储页面爬取模块所需的配置信息。
正文数据库是用于存储新闻报道处理后的正文和页面属性信息。
(B)文本表示单元:用于完成文档的向量化处理:利用改进的文本特征权值计算方法建立数学模型并进行计算,以形成文本特征权值矩阵;设有:分词及词性标注、命名实体识别、词性/停用词过滤、特征权值计算和特征选择共五个模块,以及分词词典和停用词表两个数据库。这些模块和数据库的功能如下:
分词及词性标注模块,负责采用中科院汉语词法分析***ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)中文分词***,对存储在正文数据库中的每篇新闻报道的新闻文档进行分词和词性标注,再将处理结果暂存于话题评估单元中的特征向量数据库中。
命名实体识别模块,用于针对分词后的新闻文档,将其中描述突发事件特征的标识性词语、即包括时间、地点、机构和人物的关键信息提取出来,并保存于特征向量数据库中。
词性/停用词过滤模块,用于对分词及词性标注后的新闻文档中的词语继续进行词性筛选:删除其中包括单字、介词、助词、副词和连词的没有实际语义的词语,再根据停用词表筛选出能够在某种程度与热点话题内容相关的词语,并将其保存于特征向量数据库中。
特征权值计算模块,使用基于向量空间模型改进的特征权值计算模型,对每篇新闻文档中经过上述三个模块处理而形成的词语集合进行向量化表示,形成特征权值矩阵并存储于特征向量数据库中;该特征权值矩阵的行和列分别表示各个新闻文档及其对应的不同文本的特征权值。
特征选择模块,利用现有的特征抽取和属性约简算法对特征词进行筛选:保留其中反映突发事件信息属性的重要特征词,剔除相对无用的特征词;然后,将保留的特征词存储于特征向量数据库中。
分词词典数据库是存储用于分词的中文词语信息的数据库。
停用词表数据库是存储用于词性过滤和停用词过滤的中文词语数据库。
(C)话题聚类单元,负责对来自前述单元的特征词进行聚类处理:将描述相同话题的文档进行聚合,组成多个被称为簇的子集,使得每个簇中的各个文档之间相似性强,而簇间各文档的相似性弱;再用每个簇中特征权值最高的2~5个词语描述一个话题,得到突发事件发生后设定时间段内人们关注的若干个话题;设有:文档相似性计算模块和文档聚类模块,它们的功能介绍如下:
文档相似性计算模块,采用向量夹角的余弦值计算公式计算得到文本表示单元中的特征权值矩阵中各行所表示的各个新闻文档之间的相似度,并将各个新闻文档相似度值存储于特征向量数据库中。
文档聚类模块,采用改进的聚类算法对相似度值高的文档进行分组聚类:将描述相同话题的相似文档进行聚合,组成多个被称为簇的子集,同时根据文本特征权值的大小提取2~5个特征词作为描述该簇的数据,并将提取的特征词存储于特征向量数据库中。
(D)话题评估单元,负责对突发事件发生后设定时间内人们关注的若干话题进行热度评估,并按照评估值大小对热点话题进行降序排序,为迅速把握后续的重要事件和研究话题的演化规律提供基础;设有:网络特征计算、热度评估、话题排序三个模块和特征向量数据库。这三个模块和数据库的功能如下:
网络特征计算模块,用于从正文数据库和来自话题聚类单元的特征向量数据库中提取并计算与热点话题关注度相关的包括该话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的各个网络特征属性。
热度评估模块,用于根据网络特征计算模块计算得到的各个网络特征属性,建立热点话题的热度评估函数,并据此计算突发事件中每个话题在设定时间内的热度值。
话题排序模块,负责依据热度评估模块处理后的热点话题的热度值的大小,对其进行降序排序,以2~5个特征词描述一个热点话题的方式进行展现,同时将排序结果数据存储于特征向量数据库中。
特征向量数据库,用于分别存储文本表示单元中各模块的处理结果、话题聚类单元中各模块的处理结果和话题评估单元中各模块的处理结果。
本发明基于对突发事件新闻报道文本内容、结构特点和报道源分布性等特征的研究,以及新闻报道的时间属性、报道属性、用户关注度等网络特征的分析,提出了突发事件热点话题识别与评估装置。并在该装置中的文本获取单元采用了新闻报道正文裁剪方法,在文本表示单元采用了改进的文本特征权值计算方法,在话题评估单元采用了话题的热度评估方法。下面参照图2,具体说明本发明方法的各个操作步骤:
步骤1,文本获取单元获取设定事件的新闻报道页面,再从爬取的报道页面中提取标题、报道时间、报道源,以及与后续热点话题关注度计算相关的网络特征作为页面属性,并对该报道页面进行筛选、解析、提取和剪裁新闻正文的操作,形成新闻文档集合。该步骤包括下列操作内容:
(11)页面爬取模块根据用户预设的统一资源定位符URL(UniformResource Locator)地址和其它参数,通过页面爬取程序下载设定突发事件的新闻报道页面,并将这些报道页面以页面文件形式自动存储于本地磁盘的文件夹。
(12)页面属性提取模块读取爬取后的页面文件,并从中提取每篇新闻报道包括标题、报道时间和报道源的页面属性,以及与后续热点话题关注度计算相关的网络特征,所述网络特征包括报道频率、报道源数量、报道时间跨度、用户点击率和评论数,然后将提取的页面属性保存在正文数据库中。
(13)正文提取模块利用正文提取算法对爬取后的页面集合逐个进行页面的筛选、解析、提取和剪裁正文的操作,并将处理后的文本存储于正文数据库,与其页面属性共同组成初步过滤后的新闻文档集合。
(14)正文提取模块对于正文数据库中的每篇新闻文档提取标题和导语,所述导语是标题的扩展,它是结合新闻报道的文本长度及内容特征进行裁剪得到的,在长新闻报道正文文本中所选取的导语至多为前两个自然段,由此实现对提取正文后整篇报道的先行裁剪。
步骤2,文本表示单元采用改进的文本特征权值计算方法对每篇新闻文档进行向量化处理,形成文本特征值矩阵。该步骤包括下列操作内容:
(21)分词及词性标注模块执行正文预处理:根据现有的分词词典和停用词词典,进行包括分词、词性标注的操作,以便从每篇新闻文档中初步筛选出相对有效的词语,即特征词,并存储于特征向量数据库中。
(22)命名实体识别模块从分词和词性标注后的文本中,将描述突发事件特征的包括时间、地点、机构和人物的标识性词语,作为特征词提取出来,并保存于特征向量数据库中。
(23)词性/停用词过滤模块继续进行词性筛选:删除其中包括单字、介词、助词、副词和连词的没有实际语义的词语,再根据停用词表筛选出能在某种程度与反映热点话题内容相关的词语,并将其保存于特征向量数据库中。
(24)特征权值计算模块是基于改进的特征权值计算模型,对经过上述三个模块处理而形成的新闻文档集合进行向量化处理,将每篇新闻报道文档对应一个特征向量,最终形成文档特征权值矩阵。
该步骤中的文档特征权值的计算包括下列操作内容:
(24A)先用特征向量空间D={d1,d2,…dj,…d|D|}表示全部新闻文档集合,式中,|D|为该特征向量空间中的元素总数,即文档总数量;每个特征向量dj=(w1j,w2j,…w|I|j)表示序号为j的文档,wij∈[0,1]表示序号为j的文档中第i个特征词的权值,自然数序号i和j的最大值分别为|I|和N,即文档总数为N,全部文档中的特征词集合或特征词总数为I,也就是|I|为该特征词集合的度;tfij=tf(ti,dj)表示特征词ti在文档dj中出现的频率,ni表示全部文档中包含特征ti的文档数。
(24B)采用改进的文本特征权值计算模型中的第一个计算公式:计算得到每个特征词的权值;式中,位置因子Pij=Position(ti,dj)表示特征词ti在文档dj中的出现位置:若ti位于标题,则Pij=a;若ti位于导语,则Pij=b;若ti位于正文,则Pij=0,且a,b∈[0,1];实体因子Eij=Entity(ti,dj)表示由命名实体识别模块识别的包括时间、地点、人物和机构的特征词的附加权值:若ti在dj中是命名实体名词,则Eij=1;否则,即ti在dj中不是命名实体名词,则Eij=0;(1+log2tfij)为词频权值因子、
Figure BDA00002106081200112
为逆文档频率权值因子。
(24C)采用改进的文本特征权值计算模型中的第二个计算公式:
Figure BDA00002106081200113
计算得到每个特征词的整体权值;式中,
Figure BDA00002106081200114
为归一化权值因子,且yi∈[0,1];自然数S和si分别为报道源总数和包含第i个特征词的报道源总数,且si≤S;Wij为特征词的整体权值;因每篇文档的特征词数量不同,故需要对先所有特征词按照其中公式
Figure BDA00002106081200115
项计算该特征词的归一化权值,以获得第j篇文档中的第i个特征词在整个特征词集合中的归一化权值wij;然后再对上述公式进行算,得到所有特征词在所有报道源中的整体权值。
(24D)对文档实现矩阵化:用矩阵中的每一行dj分别表示每篇文档,每一列为各文档中的相同特征词,其中,dj为序列号为j的文档,矩阵中的元素aji为第i列特征词在第j篇文档中的权值,其取值范围在[0,1];最终得到由所有文档总数为行数、每个文档中的特征词总数为列数的向量矩阵;并将该向量矩阵保存在特征向量数据库中。
(25)特征选择模块利用现有的特征抽取和属性约简算法对特征词继续进行筛选,以降低文档特征权值矩阵的复杂度:保留其中反映突发事件信息属性的重要特征词,剔除相对无用的特征词;再将保留的特征词存储于特征向量数据库中。
步骤3,话题聚类单元对设定特征词对应的文本特征值矩阵进行聚合处理:将话题相同的相似文档聚合,组成多个簇,使得每个簇中的各文档相似性强,而不同簇的各文档相似性弱;再用每个簇中特征权值最高的2~5个特征词描述一个话题,得到突发事件发生后设定时间段内人们关注的若干个话题。
该步骤包括下列操作内容:
(31)计算两个文档间的距离:文档相似性计算模块从文档向量空间D={d1,d2,…dj,…d|D|}中随机选择k个文档作为初始的聚类中心C={c1,c2,…ci,…ck},再计算每个文档dj与每个初始聚类中心ci的相似度Sim(dj,ci): Sim ( d j , c i ) = cos ( w k ( d j ) , w k ( c i ) ) = Σ k = 1 n w k ( d j ) × w k ( c i ) Σ k = 1 n w k 2 ( d j ) × Σ k = 1 n w k 2 ( c i ) , 即根据该公式计算文档dj与聚类中心ci这两个向量夹角的余弦值,作为这两个文档之间的相似度值,并以其分别对应的两个特征词权值wk(dj)和wk(ci)表示,然后,将dj赋予最相似的类。
(32)计算新的聚类中心:文档聚类模块采用改进的经典聚类算法,对相似文档进行聚合,即将描述相同话题的相似文档进行聚合,形成多个簇,每个簇为一个聚类,其所包含的中心向量被称为聚类中心,所述中心向量是该簇中的所有新闻文档相应特征词权值的均值。
(33)循环执行步骤(31)和(32):计算其相似度并归类,若均值发生改变,则更新聚类中心。
(34)根据目标函数执行迭代运算,使聚类中心收敛:计算误差平方和准则函数
Figure BDA00002106081200122
再对第p次迭代与第(p-1)次迭代的计算结果进行比较,使目标函数J值呈收敛状态,即逼近聚类中心;此时,先设置其取值范围为[0,1]的相似度阈值ε,当目标函数低于该相似度阈值ε,即:|J(p)-J(p-1)|<ε时,则聚类终止;否则,继续执行第(p+1)次迭代运算。
(35)调整目标函数阈值,直至聚类结构相对稳定:根据实际运算结果调整簇类总数,并通过观察中间运算结果,剔除孤立的样本子集和调整目标函数阈值;然后根据前述多次聚类的特征词,重新选取聚类初始中心;再返回执行步骤(31),直至聚类结果相对稳定为止,再重新使用特征词描述该簇的数据,并存储于特征向量数据库中。
步骤4,话题评估单元对话题进行热度评估:在已获取了突发事件发生后人们关注的若干个话题基础上,对这些话题进行热度评估和排序,为把握重要事件后续发展和研究话题的演化提供基础。该步骤包括下列操作内容:
(41)计算网络特征,建立热点话题的热度评估函数,并据此计算突发事件中每个话题在设定时间内的整体热度值,用于判断***识别出的话题能否成立:热点话题是网络媒体和用户关注度高的话题,因此建立评估模型首先要提取与关注度相关的网络特征值,先定义和量化话题在设定时间段内的热度属性:网络特征计算模块根据步骤1提取的与热点话题关注度相关的包括话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的网络特征,然后根据评估算法计算话题热度值,判断***识别出来的话题是否可能成为热点。为此,需要将话题在设定时间内的热度属性进行定义和量化。也就是用三种算法分别计算话题的时间属性、报道属性和用户关注度属性。这三种评估算法介绍如下:
计算话题的时间属性:每篇新闻报道都有明显的时间特征,对于某个新闻话题的报道时间跨度越大,说明该话题受到媒体和用户的关注度越高。但通常一个新闻话题发布后其关注度会随时间推移而逐渐衰减,因此需要考虑话题热度的时间衰减性。基于话题热度的时间衰减性,每个话题h在设定时间段ui(如u1可表示为第1周)的时间属性包括:时间跨度l(ui)和指数衰减因子
Figure BDA00002106081200131
其中,自然数l(ui)表示所统计的时间段ui中的时间单元数,时间单元为:小时、日、周或月;系数λ(λ>0)是控制时间段衰减的速度因子。
计算话题的报道属性(即话题的报道频率和广度):设话题h的报道时间段为ui时,该话题h的报道频率
Figure BDA00002106081200132
是该话题h的报道数量f(ui)与这段时间全部报道总数F(ui)之比,报道广度
Figure BDA00002106081200133
是该话题h的报道源数量g(ui)与这段时间内总报道源数量G(ui)之比。通常每篇新闻报道只表述一个话题,在设定时间内该话题的报道数量越大,表明该话题越重要,关注程度越高,则话题报道频度也越高。另一方面,这段时间内,该话题在各大门户网站都有相关报道,则该话题的关注度也越高,即话题报道广度大。
计算话题的用户关注度:通常利用用户点击阅读数c(ui)和评论参与数d(ui)反映用户的关注度,且参与评论数对话题成为热点的贡献度更高;即点击率和评论率可统计在时间跨度l(ui)内的比率,用户的点击阅读率
Figure BDA00002106081200141
或评论参与率
Figure BDA00002106081200142
数值越高,说明该新闻报道涉及的话题受到用户的关注度越大。
(42)根据热度评估计算公式计算话题热度值:根据对话题热度属性的分析,得到设定时间段ui内突发事件中话题h的热度评估计算公式Hh(ui)为: H h = &Sigma; i = 1 L H h ( u i ) &times; e - &lambda; &times; l ( u i ) ; 式中,L为时间段的数量,自然数α,β,γ为用于均衡各项的求和因子,其最大值为10;即话题在设定时间内的热度值取决于话题的报道频度、报道广度、用户点击率和用户评论率的各参数加权和;因这些数值大小差异悬殊,故用指数或对数形式进行调整,使各项因素在求和时趋于平衡。
(43)对热点话题进行排序:热点话题排序模块对每个热点话题依据其热度值大小进行降序排列后,采用2~5个特征词描述一个热点话题的方式进行展现;同时将其存储于特征向量数据库。
下面参见图2,介绍本发明实施例的仿真试验:以2011年日本大地震突发事件新闻报道作为数据源进行模型评估和相关算法的试验流程,简要说明本发明的具体实施步骤,并对本发明方法的实验结果进行分析,以及其相对于现有方法进行比较的优点总结。
步骤1,文本获取和正文裁剪:以国内大型新闻网站对重大突发事件报道的专题网站作为数据源,采集2011年“3.11日本大地震”事件发生以后约前三周共4000篇新闻报道进行文本处理。首先执行热点话题识别与评估装置中的文本获取操作,再对原始文本集进行了分词、词性标注、非动词和名词的词性过滤、停用词过滤等文本表示的预处理过程,命名实体名词由人工识别后单独提取出来,并不断对分词和停用词词典进行补充和维护。再在此基础上,对本发明新闻报道的正文裁剪方法进行实验分析和优点总结。
以分别只提取新闻报道标题和导语的文本作为源文本和提取整个报道全文的文本作为源文本,二者使用相同的TF-IDF公式计算特征权值,然后比较两种文本表示结果的差异。根据权值从大到小排序,受篇幅所限,在前30位的高权值词中选择10个特征词比较其权值,如表1所示。
表1全文和裁剪文本的特征值比较
  特征词   特征值(全文)   特征值(标题导语)   距离绝对值
  补偿   0.68201578   0.74311254   0.02109676
  核电厂   0.57057676   0.67454058   0.10396382
  下葬   0.59876145   0.61426364   0.01550219
  遇难   0.54346952   0.60842897   0.06495945
  预警   0.58389072   0.59849240   0.01460168
  溺水   0.52713640   0.56057224   0.03343584
  农产品   0.55915448   0.54939387   0.00976061
  致歉   0.55438111   0.53174906   0.02263205
  震级   0.46583365   0.52902016   0.06318651
  自来水   0.53676946   0.47098983   0.06577963
图3给出了二者的权值比较曲线。从两组计算权值的特征词实验数据显示,高权值的特征词重合比例较高,权值的递减规律基本相同;二者比较曲线各样点间平均距离小于0.02。仿真实验的结果表明,全文本提取特征词和只在标题与导语中提取特征词的方法,两者的实验结果相近似。从而验证了本发明只从标题和导语提取特征词就足以表示每篇新闻报道核心内容的假设。
步骤2,文本表示和特征权值计算:本发明装置采用中科院ICTCLAS分词***进行分词、词性标注;然后根据词语长度、词性和去停词表进行词语过滤,对介词、助词等无意义词和明显不能成为主题词的停用词去掉。
在此基础上对本发明特征权值的改进计算方法进行实验分析和优点总结。
以经过裁剪的文本集作为数据源,就改进的特征权值计算模型和经典TF-IDF公式进行比较,列出排在前10位的特征词比较,实验结果数据如表2所示。其中,改进模型中位置因子的调节值设a=1,b=0.5。
表2TF-IDF与改进型公式的特征权值计算比较
  特征词   TF-IDF   特征词   改进TF-IDF
  升级   0.83947064   补偿   0.83590126
  补偿   0.74311254   核电厂   0.76086483
  富人   0.69962671   遇难   0.74542905
  核电厂   0.67454058   预警   0.71914544
  韩国   0.63955899   损失   0.71837233
  默哀   0.63760413   溺水   0.70749098
  院长   0.61545693   捐款   0.64147896
  争议   0.61541891   道歉   0.62898909
  下葬   0.59426364   下葬   0.59736850
  遇难   0.56842897   原子能   0.59519490
表2结果直观地显示:改进型权值计算方式得到的特征词更接近实际预期。关于特征词权值计算方法的评价,目前还没有直接的评价标准,通常借助使用词语权值的应用***来间接评价算法的有效性,如文本分类性能评价指标、TDT评测指标等,显然这些评估方法在此处具有不确定性。本发明借鉴TDT评测机制的部分指标尝试进行结果评估,希望从特征表示的有效性方面能给出一些定量的说明。计算公式分别如下述公式所示:
单文本的特征漏报率
Figure BDA00002106081200161
单文本的特征误报率
文本集特征平均漏报率
Figure BDA00002106081200163
文本集特征平均误报率
Figure BDA00002106081200164
式中,|D|为文本集总数。
评价结果如下表3所示:
表3评价指标比较
  PMiss   PFA
  经典TF-IDF   0.3874   0.0312
  改进TF-IDF   0.3031   0.0295
实验结果显示,改进的TF-IDF算法其平均漏报率和平均误报率都低于经典公式,即性能有所改善,但并不明显,这与评价方法有关。总之,结合新闻报道的文本特征,综合考虑报道源、特征词的位置和命名实体等因素,TF-IDF改进算法在文本表示的准确率、适应性等方面都获得了比经典模型较好的效果。
步骤3,话题聚类:基于上阶段的文本表示过程,对每篇新闻文档特征词计算词频,利用改进的TF-IDF公式计算特征词权值,形成新闻报道文档的矩阵向量化格式表示。考虑构成向量空间的特征值维度可能非常庞大,既考虑聚类计算的时间和空间复杂度,又不影响聚类效果,实现过程规定文本向量矩阵的最大维度为1000。通过对新闻文档的常规k-means聚类,得到不同时间单元内的话题,为后续话题评估准备数据。该步骤采用传统技术,以下分析实验结果。
由于文档聚类结果与k值的选取有直接关系,并决定了识别出的话题数,因此最终k值(本实验k=5)的确定是经过几轮聚类后,并结合实际新闻的话题数量进行调整后的数值。为了使聚类收敛的目标函数阈值调整为ε=0.3。能够更直观地显示聚类的各个话题簇,将该结果映射到一个二维平面上展示,对于不同的话题簇使用不同记号来区分之。实验过程根据每轮聚类效果调整聚类参数,并删除一些明显无法归类的特征词,直到结果基本稳定。显然该算法的计算量与数据对象的个数、聚类的数目以及迭代的次数是成正比的。对于热点话题的表示法,可能存在多种考虑,不同类型的热点话题也可能会有不同的描述方法。针对本发明突发事件的热点话题,经过实验发现,在一个聚类簇中的话题可采用2~5个关键词来描述比较全面和准确,并且这些词具有最高的权值。图4展示了话题聚类的Matlab仿真结果。
步骤4,热点话题评估:针对聚类出来的话题簇进行热度评估,给出地震事件发生后,前三周的热点话题。关于话题评估模型中的相关网络特征(包括:话题报道的频率、报道源数量、时间跨度、用户点击率、评论数等),都是实验预处理阶段爬取页面和正文提取时,以及计算词频时保留的结果。因此这部分实验主要是进行模型计算和均衡因子的调整。通过对话题簇中每个话题的热度值计算并进行排序,每周选出了热度值超过2.0的前五名话题作为热点话题。
在此基础上,对本发明话题热度评估方法进行实验分析和优点总结。
从实验结果可见:在地震刚发生的第一周,话题主要关注在媒体方面的新闻报道,诸如出现海啸、死亡和失踪人数、国际救援等。第二周的话题出现了核泄露、一些公司倒闭的新闻,即热点话题发生了变化,到第三周时,开始涉及日本经济受挫、灾后重建问题的讨论。显然,热点话题的演化是随着事件的发生、发展而变化的,因此对话题演化的研究也基于热点话题的发现展开的。
通过对网络新闻热点话题时间属性、报道属性、用户关注度等网络特征的分析而建立的热点话题评估模型,经过仿真实施实验表明,对特定突发事件网络新闻计算其在一段时间内的话题热度值的结果是符合预期效果的。本发明为突发事件应急决策者可以提供直观的数据展示,并根据排序的热点话题词汇,为决策提供直接依据。同时***实现成果也为后续热点话题的跟踪和演化研究奠定了基础。

Claims (12)

1.一种突发事件热点话题的识别与评估装置,其特征在于:该装置设有下述四个组成部件:文本获取单元、文本表示单元、话题聚类单元和话题评估单元,其中:
文本获取单元,用于发生突发事件后,从各大新闻网站采集与该突发事件热点话题相关的新闻报道页面并进行文本处理,形成一组新闻文档集合存储于正文数据库,以供文本表示、话题聚类和话题评估三个单元进行后续处理;设有:页面爬取、正文提取和页面属性提取三个模块,以及爬取信息数据库与正文数据库;
文本表示单元,用于完成文档的向量化处理:利用改进的文本特征权值计算方法建立数学模型并进行计算,以形成文本特征权值矩阵;设有:分词及词性标注、命名实体识别、词性/停用词过滤、特征权值计算和特征选择共五个模块,以及分词词典和停用词表两个数据库;
话题聚类单元,负责对来自前述单元的特征词进行聚类处理:将描述相同话题的文档进行聚合,组成多个被称为簇的子集,使得每个簇中的各个文档之间相似性强,而簇间各文档的相似性弱;再用每个簇中特征权值最高的2~5个词语描述一个话题,得到突发事件发生后设定时间段内人们关注的若干个话题;设有:文档相似性计算模块和文档聚类模块;
话题评估单元,负责对突发事件发生后设定时间内人们关注的若干话题进行热度评估,并按照评估值大小对热点话题进行降序排序,为迅速把握后续的重要事件和研究话题的演化规律提供基础;设有:网络特征计算、热度评估、话题排序三个模块和特征向量数据库。
2.根据权利要求1所述的装置,其特征在于,所述文本获取单元中的各个模块和数据库的功能如下:
页面爬取模块,负责从指定网站下载与预设关键词相关的新闻报道页面,并将该新闻报道页面以页面文件形式存储在本地磁盘上;
正文提取模块,负责从本地磁盘读取爬取后的页面文件,并利用该正文提取模块中的正文提取算法对每篇页面文件去除噪声、提取新闻正文,并从新闻正文中分离出导语和其余部分,再对实际文本长度进行剪裁,将剪裁后的新闻文档存储于正文数据库中,然后根据报道源的不同在正文数据库中建立索引,以使逻辑上形成不同数据源所对应的一组正文集;
页面属性提取模块,用于从本地磁盘读取爬取后的页面文件,并提取每篇新闻报道特有的包括标题、报道时间和报道源的属性,以及与后续热点话题关注度计算相关的包括该话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的网络特征属性,再存储于正文数据库中;
爬取信息数据库,用于存储页面爬取模块所需的配置信息;
正文数据库,用于存储新闻报道处理后的正文和页面属性信息。
3.根据权利要求1所述的装置,其特征在于:所述文本表示单元中的各个模块和数据库的功能如下:
分词及词性标注模块,负责采用中科院汉语词法分析***ICTCLAS中文分词***,对存储在正文数据库中的每篇新闻报道的新闻文档进行分词和词性标注,再将处理结果暂存于话题评估单元中的特征向量数据库中;
命名实体识别模块,用于针对分词后的新闻文档,将其中描述突发事件特征的标识性词语、即包括时间、地点、机构和人物的关键信息提取出来,并保存于特征向量数据库中;
词性/停用词过滤模块,用于对分词及词性标注后的新闻文档中的词语继续进行词性筛选:删除其中包括单字、介词、助词、副词和连词的没有实际语义的词语,再根据停用词表筛选出能够在某种程度与热点话题内容相关的词语,并将其保存于特征向量数据库中;
特征权值计算模块,使用基于向量空间模型改进的特征权值计算模型,对每篇新闻文档中经过上述三个模块处理而形成的词语集合进行向量化表示,形成特征权值矩阵并存储于特征向量数据库中;该特征权值矩阵的行和列分别表示各个新闻文档及其对应的不同文本的特征权值;
特征选择模块,利用现有的特征抽取和属性约简算法对特征词进行筛选:保留其中反映突发事件信息属性的重要特征词,剔除相对无用的特征词;然后,将保留的特征词存储于特征向量数据库中;
分词词典数据库,以数据库形式存储用于分词的中文词语信息;
停用词表数据库,以数据库形式存储用于词性过滤和停用词过滤的中文词语。
4.根据权利要求1所述的装置,其特征在于:所述话题聚类单元中的两个模块功能如下:
文档相似性计算模块,采用向量夹角的余弦值计算公式计算得到文本表示单元中的特征权值矩阵中各行所表示的各个新闻文档之间的相似度,并将各个新闻文档相似度值存储于特征向量数据库中;
文档聚类模块,采用改进的聚类算法对相似度值高的文档进行分组聚类:将描述相同话题的相似文档进行聚合,组成多个被称为簇的子集,同时根据文本特征权值的大小提取2~5个特征词作为描述该簇的数据,并将提取的特征词存储于特征向量数据库中。
5.根据权利要求1所述的装置,其特征在于:所述话题评估单元中的各个模块和数据库的功能如下:
网络特征计算模块,用于从正文数据库和来自话题聚类单元的特征向量数据库中提取并计算与热点话题关注度相关的包括该话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的各个网络特征属性;
热度评估模块,用于根据网络特征计算模块计算得到的各个网络特征属性,建立热点话题的热度评估函数,并据此计算突发事件中每个话题在设定时间内的热度值;
话题排序模块,负责依据热度评估模块处理后的热点话题的热度值的大小,对其进行降序排序,以2~5个特征词描述一个热点话题的方式进行展现,同时将排序结果数据存储于特征向量数据库中;
特征向量数据库,用于分别存储文本表示单元中各模块的处理结果、话题聚类单元中各模块的处理结果和话题评估单元中各模块的处理结果。
6.一种采用权利要求1所述的突发事件热点话题的识别与评估装置的工作方法,其特征在于:所述方法包括下列操作步骤:
(1)文本获取单元获取设定事件的新闻报道页面,再从爬取的报道页面中提取标题、报道时间、报道源,以及与后续热点话题关注度计算相关的网络特征作为页面属性,并对该报道页面进行筛选、解析、提取和剪裁新闻正文的操作,形成新闻文档集合;
(2)文本表示单元采用改进的文本特征权值计算方法对每篇新闻文档进行向量化处理,形成文本特征值矩阵;
(3)话题聚类单元对设定特征词对应的文本特征值矩阵进行聚合处理:将话题相同的相似文档聚合,组成多个簇,使得每个簇中的各文档相似性强,而不同簇的各文档相似性弱;再用每个簇中特征权值最高的2~5个特征词描述一个话题,得到突发事件发生后设定时间段内人们关注的若干个话题;
(4)话题评估单元对话题进行热度评估:在已获取了突发事件发生后人们关注的若干个话题基础上,对这些话题进行热度评估和排序,为把握重要事件后续发展和研究话题的演化提供基础。
7.根据权利要求6所述的方法,其特征在于:所述步骤(1)包括下列操作内容:
(11)页面爬取模块根据用户预设的统一资源定位符URL地址和其它参数,通过页面爬取程序下载设定突发事件的新闻报道页面,并将这些报道页面以页面文件形式自动存储于本地磁盘的文件夹;
(12)页面属性提取模块读取爬取后的页面文件,并从中提取每篇新闻报道包括标题、报道时间和报道源的页面属性,以及与后续热点话题关注度计算相关的网络特征,所述网络特征包括报道频率、报道源数量、报道时间跨度、用户点击率和评论数,然后将提取的页面属性保存在正文数据库中;
(13)正文提取模块利用正文提取算法对爬取后的页面集合逐个进行页面的筛选、解析、提取和剪裁正文的操作,并将处理后的文本存储于正文数据库,与其页面属性共同组成初步过滤后的新闻文档集合;
(14)正文提取模块对于正文数据库中的每篇新闻文档提取标题和导语,所述导语是标题的扩展,它是结合新闻报道的文本长度及内容特征进行裁剪得到的,在长新闻报道正文文本中所选取的导语至多为前两个自然段,由此实现对提取正文后整篇报道的先行裁剪。
8.根据权利要求6所述的方法,其特征在于:所述步骤(2)包括下列操作内容:
(21)分词及词性标注模块执行正文预处理:根据现有的分词词典和停用词词典,进行包括分词、词性标注的操作,以便从每篇新闻文档中初步筛选出相对有效的词语,即特征词,并存储于特征向量数据库中;
(22)命名实体识别模块从分词和词性标注后的文本中,将描述突发事件特征的包括时间、地点、机构和人物的标识性词语,作为特征词提取出来,并保存于特征向量数据库中;
(23)词性/停用词过滤模块继续进行词性筛选:删除其中包括单字、介词、助词、副词和连词的没有实际语义的词语,再根据停用词表筛选出能在某种程度与反映热点话题内容相关的词语,并将其保存于特征向量数据库中;
(24)特征权值计算模块是基于改进的特征权值计算模型,对经过上述三个模块处理而形成的新闻文档集合进行向量化处理,将每篇新闻报道文档对应一个特征向量,最终形成文档特征权值矩阵;
(25)特征选择模块利用现有的特征抽取和属性约简算法对特征词继续进行筛选,以降低文档特征权值矩阵的复杂度:保留其中反映突发事件信息属性的重要特征词,剔除相对无用的特征词;再将保留的特征词存储于特征向量数据库中。
9.根据权利要求8所述的方法,其特征在于:所述步骤(24)中的文档特征权值的计算包括下列操作内容:
(24A)先用特征向量空间D={d1,d2,…dj,…d|D|}表示全部新闻文档集合,式中,|D|为该特征向量空间中的元素总数,即文档总数量;每个特征向量dj=(w1j,w2j,…w|I|j)表示序号为j的文档,wij∈[0,1]表示序号为j的文档中第i个特征词的权值,自然数序号i和j的最大值分别为|I|和N,即文档总数为N,全部文档中的特征词集合或特征词总数为I,也就是|I|为该特征词集合的度;tfij=tf(ti,dj)表示特征词ti在文档dj中出现的频率,ni表示全部文档中包含特征ti的文档数;
(24B)采用改进的文本特征权值计算模型中的第一个计算公式:
Figure FDA00002106081100061
计算得到每个特征词的权值;式中,位置因子Pij=Position(ti,dj)表示特征词ti在文档dj中的出现位置:若ti位于标题,则Pij=a;若ti位于导语,则Pij=b;若ti位于正文,则Pij=0,且a,b∈[0,1];实体因子Eij=Entity(ti,dj)表示由命名实体识别模块识别的包括时间、地点、人物和机构的特征词的附加权值:若ti在dj中是命名实体名词,则Eij=1;否则,即ti在dj中不是命名实体名词,则Eij=0;(1+log2tfij)为词频权值因子、
Figure FDA00002106081100062
为逆文档频率权值因子;
(24C)采用改进的文本特征权值计算模型中的第二个计算公式:
Figure FDA00002106081100063
计算得到每个特征词的整体权值;式中,
Figure FDA00002106081100064
为归一化权值因子,且yi∈[0,1];自然数S和si分别为报道源总数和包含第i个特征词的报道源总数,且si≤S;Wij为特征词的整体权值;因每篇文档的特征词数量不同,故要对先所有特征词按照公式
Figure FDA00002106081100065
计算该特征词的归一化权值,以获得第j篇文档中的第i个特征词在整个特征词集合中的归一化权值wij;然后再对上述公式进行算,得到所有特征词在所有报道源中的整体权值;
(24D)对文档实现矩阵化:用矩阵中的每一行dj分别表示每篇文档,每一列为各文档中的相同特征词,其中,dj为序列号为j的文档,矩阵中的元素aji为第i列特征词在第j篇文档中的权值,其取值范围在[0,1];最终得到由所有文档总数为行数、每个文档中的特征词总数为列数的向量矩阵;并将该向量矩阵保存在特征向量数据库中。
10.根据权利要求6所述的方法,其特征在于:所述步骤(3)包括下列操作内容:
(31)计算两个文档间的距离:文档相似性计算模块从文档向量空间D={d1,d2,…dj,…d|D|}中随机选择k个文档作为初始的聚类中心C={c1,c2,…ci,…ck},再计算每个文档dj与每个初始聚类中心ci的相似度Sim(dj,ci): Sim ( d j , c i ) = cos ( w k ( d j ) , w k ( c i ) ) = &Sigma; k = 1 n w k ( d j ) &times; w k ( c i ) &Sigma; k = 1 n w k 2 ( d j ) &times; &Sigma; k = 1 n w k 2 ( c i ) , 即根据该公式计算文档dj与聚类中心ci这两个向量的夹角余弦值,作为这两个文档之间的相似度值,并以其分别对应的两个特征词权值wk(dj)和wk(ci)表示,然后,将dj赋予最相似的类;
(32)计算新的聚类中心:文档聚类模块采用改进的经典聚类算法,对相似文档进行聚合,即将描述相同话题的相似文档进行聚合,形成多个簇,每个簇为一个聚类,其所包含的中心向量被称为聚类中心,所述中心向量是该簇中的所有新闻文档相应特征词权值的均值;
(33)循环执行步骤(31)和(32):计算其相似度并归类,若均值发生改变,则更新聚类中心;
(34)根据目标函数执行迭代运算,使聚类中心收敛:计算误差平方和准则函数
Figure FDA00002106081100072
再对第p次迭代与第(p-1)次迭代的计算结果进行比较,使目标函数J值呈收敛状态,即逼近聚类中心;此时,先设置其取值范围为[0,1]的相似度阈值ε,当目标函数低于该相似度阈值ε,即:|J(p)-J(p-1)|<ε时,则聚类终止;否则,继续执行第(p+1)次迭代运算;
(35)调整目标函数阈值,直至聚类结构相对稳定:根据实际运算结果调整簇类总数,并通过观察中间运算结果,剔除孤立的样本子集和调整目标函数阈值;然后根据前述多次聚类的特征词,重新选取聚类初始中心;再返回执行步骤(31),直至聚类结果相对稳定为止,再重新使用特征词描述该簇的数据,并存储于特征向量数据库中。
11.根据权利要求6所述的方法,其特征在于:所述步骤(4)包括下列操作内容:
(41)计算网络特征,建立热点话题的热度评估函数,并据此计算突发事件中每个话题在设定时间内的整体热度值,用于判断***识别出的话题能否成立:先定义和量化话题在设定时间段内的热度属性:网络特征计算模块根据步骤(1)提取的与热点话题关注度相关的包括话题的报道频率、报道源数量、时间跨度、用户点击率和评论数的网络特征,采用三种评估算法分别计算话题的时间属性、报道属性和用户关注度属性;
(42)根据热度评估计算公式计算话题热度值:根据对话题热度属性的分析,得到设定时间段ui内突发事件中话题h的热度评估计算公式Hh(ui)为: H h ( u i ) = f ( u i ) &times; exp [ f ( u i ) F ( u i ) ] + &gamma; &times; g ( u i ) &times; exp [ g ( u i ) G ( u i ) ] + &alpha; &CenterDot; ln c ( u i ) l ( u i ) + &beta; &times; d ( u i ) l ( u i ) H h = &Sigma; i = 1 L H h ( u i ) &times; e - &lambda; &times; l ( u i ) ; 式中,L为时间段的数量,自然数α,β,γ为用于均衡各项的求和因子,其最大值为10;即话题在设定时间内的热度值取决于话题的报道频度、报道广度、用户点击率和用户评论率的各参数加权和;因这些数值大小差异悬殊,故用指数或对数形式进行调整,使各项因素在求和时趋于平衡;
(43)对热点话题进行排序:热点话题排序模块对每个热点话题依据其热度值大小进行降序排列后,采用2~5个特征词描述一个热点话题的方式进行展现;同时将其存储于特征向量数据库。
12.根据权利要求11所述的方法,其特征在于:所述步骤(41)中,计算话题热度属性值的三种评估算法包括下列操作内容:
(41A)计算话题的时间属性:基于话题热度的时间衰减性,每个话题h在设定时间段ui的时间属性包括:时间跨度l(ui)和指数衰减因子其中,自然数l(ui)表示所统计的时间段ui中的时间单元数,时间单元为:小时、日、周或月;系数λ(λ>0)是控制时间段衰减的速度因子;
(4lB)计算话题的报道属性:设话题h的报道时间段为ui时,该话题h的报道频率
Figure FDA00002106081100084
是该话题h的报道数量f(ui)与这段时间全部报道总数F(ui)之比,报道广度
Figure FDA00002106081100085
是该话题h的报道源数量g(ui)与这段时间内总报道源数量G(ui)之比,在设定时间段内,话题报道数量越多,表明该话题越重要,关注程度及其报道频度越高,同时该话题的报道广度也越大;
(41C)计算话题的用户关注度:利用用户点击阅读数c(ui)和评论参与数d(ui)反映用户的关注度,且参与评论数对话题成为热点的贡献度更高;即用户的点击阅读率或评论参与率
Figure FDA00002106081100087
数值越高,说明该新闻报道涉及的话题受到用户的关注度越大。
CN201210327979.4A 2012-09-06 2012-09-06 突发事件热点话题的识别与评估装置 Expired - Fee Related CN102937960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210327979.4A CN102937960B (zh) 2012-09-06 2012-09-06 突发事件热点话题的识别与评估装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210327979.4A CN102937960B (zh) 2012-09-06 2012-09-06 突发事件热点话题的识别与评估装置

Publications (2)

Publication Number Publication Date
CN102937960A true CN102937960A (zh) 2013-02-20
CN102937960B CN102937960B (zh) 2015-06-17

Family

ID=47696857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210327979.4A Expired - Fee Related CN102937960B (zh) 2012-09-06 2012-09-06 突发事件热点话题的识别与评估装置

Country Status (1)

Country Link
CN (1) CN102937960B (zh)

Cited By (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218432A (zh) * 2013-04-15 2013-07-24 北京邮电大学 一种基于命名实体识别的新闻搜索结果相似度计算方法
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
CN103399884A (zh) * 2013-07-14 2013-11-20 王国栋 一种随机新闻***及其自动刷新方法
CN103530347A (zh) * 2013-10-09 2014-01-22 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及***
CN103955547A (zh) * 2014-05-22 2014-07-30 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和***
CN103984729A (zh) * 2014-05-19 2014-08-13 北京大学 微博信息追踪方法和微博信息追踪装置
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法
CN104035991A (zh) * 2014-06-09 2014-09-10 贝壳网际(北京)安全技术有限公司 一种新闻标题的显示方法及用于提供新闻页面的服务器
CN104077354A (zh) * 2014-05-29 2014-10-01 小米科技有限责任公司 论坛中帖子的热度确定方法及相关装置
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104408642A (zh) * 2014-10-29 2015-03-11 云南大学 一种基于用户体验质量的广告制作方法
CN104424272A (zh) * 2013-08-29 2015-03-18 联想(北京)有限公司 一种信息处理方法、装置和电子设备
CN104598539A (zh) * 2014-12-30 2015-05-06 中国联合网络通信有限公司广东省分公司 一种互联网事件热度计算方法及终端
CN104615685A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向网络话题的热度评价方法
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备
CN104765733A (zh) * 2014-01-02 2015-07-08 华为技术有限公司 一种社交网络事件分析的方法和装置
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法
CN105095277A (zh) * 2014-05-13 2015-11-25 中国科学院自动化研究所 跨领域观点数据的分类方法和装置
CN105138577A (zh) * 2015-07-30 2015-12-09 成都布林特信息技术有限公司 一种基于大数据的事件演化分析方法
CN105335496A (zh) * 2015-10-22 2016-02-17 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN105488193A (zh) * 2015-12-04 2016-04-13 杭州数梦工场科技有限公司 文章热度的预测方法和装置
CN105488599A (zh) * 2015-12-29 2016-04-13 杭州数梦工场科技有限公司 预测文章热度的方法和装置
CN105574184A (zh) * 2015-12-22 2016-05-11 北京奇虎科技有限公司 一种关联新闻的确定方法以及装置
CN105701248A (zh) * 2016-03-03 2016-06-22 北京建筑大学 一种量化确定专业领域词汇集最优维度的方法
CN105718598A (zh) * 2016-03-07 2016-06-29 天津大学 基于at的时间模型构建方法与网络突发事件预警方法
CN106257449A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种信息确定方法和装置
CN106469203A (zh) * 2016-08-31 2017-03-01 北京联创众升科技有限公司 一种突发事件数据的筛选方法及装置
CN106649726A (zh) * 2016-12-23 2017-05-10 中山大学 一种社交网络中社团话题演化挖掘方法
CN106682123A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种获取热点事件的方法及装置
CN107239497A (zh) * 2017-05-02 2017-10-10 广东万丈金数信息技术股份有限公司 热门内容搜索方法和***
CN107368595A (zh) * 2017-07-26 2017-11-21 中国华戎科技集团有限公司 网络热点信息挖掘方法及***
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法
CN107515854A (zh) * 2017-07-27 2017-12-26 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN107526791A (zh) * 2017-08-15 2017-12-29 皑沐(上海)文化传媒有限公司 一种热句识别方法及***
CN107577774A (zh) * 2017-09-08 2018-01-12 北京智诚律法科技有限公司 一种智能选择拟定合同律师的***
CN107622354A (zh) * 2017-09-29 2018-01-23 中国科学技术大学 一种基于区间二元语义的突发事件应急能力评估方法
CN107644089A (zh) * 2017-09-26 2018-01-30 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法
CN107784127A (zh) * 2017-11-30 2018-03-09 杭州数梦工场科技有限公司 一种热点定位方法和装置
CN107784010A (zh) * 2016-08-29 2018-03-09 上海掌门科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN107944037A (zh) * 2017-12-13 2018-04-20 北京数洋智慧科技有限公司 一种热点话题识别追踪方法及***
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108197201A (zh) * 2017-12-28 2018-06-22 南京拓界信息技术有限公司 一种基于公共安全事件的移动云端数据挖掘方法
CN108197259A (zh) * 2017-12-30 2018-06-22 天津科技大学 一种网络在线话题大数据检测方法
CN108197292A (zh) * 2018-01-22 2018-06-22 成都睿码科技有限责任公司 一种新闻传播量的度量方法及***
CN108307230A (zh) * 2018-02-07 2018-07-20 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
CN108345700A (zh) * 2018-03-29 2018-07-31 百度在线网络技术(北京)有限公司 文章代表图片的选取方法、装置和计算机设备
CN108446296A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种信息处理方法及装置
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108595388A (zh) * 2018-04-23 2018-09-28 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN108717637A (zh) * 2018-03-22 2018-10-30 浙江大学 一种电商安全相关实体的自动挖掘方法及***
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN108932311A (zh) * 2018-06-20 2018-12-04 天津大学 突发事件检测与预测的方法
CN109241429A (zh) * 2018-09-05 2019-01-18 食品安全与营养(贵州)信息科技有限公司 一种食品安全舆情监控方法及***
CN109271520A (zh) * 2018-10-25 2019-01-25 北京小度信息科技有限公司 数据提取方法、数据提取装置、存储介质和电子设备
CN109376182A (zh) * 2018-09-26 2019-02-22 上海睿翎法律咨询服务有限公司 基于计算机软件***实现关联公司识别处理的方法
CN109408808A (zh) * 2018-09-12 2019-03-01 中国传媒大学 一种文艺作品的评估方法及评估***
CN109460475A (zh) * 2018-12-13 2019-03-12 北京百分点信息科技有限公司 一种相似线索的归并方法
CN109472415A (zh) * 2018-11-15 2019-03-15 成都智库二八六信息技术有限公司 一种通过动力学特性预测社交媒体中事件规模的方法
CN109615006A (zh) * 2018-12-10 2019-04-12 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN109800413A (zh) * 2018-12-11 2019-05-24 北京百度网讯科技有限公司 新闻事件的识别方法、装置、设备及可读存储介质
CN109857956A (zh) * 2019-01-25 2019-06-07 四川大学 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN109906449A (zh) * 2016-10-27 2019-06-18 华为技术有限公司 一种查找方法及装置
CN109960756A (zh) * 2019-03-19 2019-07-02 国家计算机网络与信息安全管理中心 新闻事件信息归纳方法
CN110209813A (zh) * 2019-05-14 2019-09-06 天津大学 一种基于自动编码器的突发事件检测与预测方法
CN110223038A (zh) * 2019-05-30 2019-09-10 山东科技大学 一种基于流程抽取的应急响应预案文本质量评测***及方法
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN110457594A (zh) * 2019-08-01 2019-11-15 深圳市顶尖传诚科技有限公司 一种基于大数据的舆论热点预测方法
CN110517150A (zh) * 2019-08-29 2019-11-29 中国银行股份有限公司 金融市场产品交易报告的生成方法及装置
CN110555454A (zh) * 2018-06-01 2019-12-10 国际商业机器公司 从上下文数据跟踪主题排名的演变
CN110609938A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
CN110633406A (zh) * 2018-06-06 2019-12-31 北京百度网讯科技有限公司 事件专题的生成方法、装置、存储介质和终端设备
CN110704593A (zh) * 2019-09-27 2020-01-17 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN110765360A (zh) * 2019-11-01 2020-02-07 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN110858217A (zh) * 2018-08-23 2020-03-03 北大方正集团有限公司 微博敏感话题的检测方法、装置及可读存储介质
CN111026997A (zh) * 2019-12-17 2020-04-17 上饶市中科院云计算中心大数据研究院 一种热点事件热度量化方法及装置
CN111382276A (zh) * 2018-12-29 2020-07-07 中国科学院信息工程研究所 一种事件发展脉络图生成方法
CN111382345A (zh) * 2018-12-27 2020-07-07 北京网智天元大数据科技有限公司 话题筛选和发布的方法、装置和服务器
CN111382365A (zh) * 2020-03-19 2020-07-07 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111460153A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质
CN111666765A (zh) * 2020-06-02 2020-09-15 国家计算机网络与信息安全管理中心 一种基于k-means文本聚类的诈骗话题分析方法和***
CN111694949A (zh) * 2019-03-14 2020-09-22 京东数字科技控股有限公司 一种多文本分类方法和装置
CN111966829A (zh) * 2020-06-18 2020-11-20 电子科技大学 一种基于深度生存分析的网络话题爆发时间预测方法
CN112100372A (zh) * 2020-08-20 2020-12-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 头版新闻预测分类方法
CN112328795A (zh) * 2020-11-13 2021-02-05 首都师范大学 一种基于关键词元的话题检测方法、***及计算机存储介质
CN112597269A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 流式数据事件文本专题及检测***
CN112667884A (zh) * 2019-10-16 2021-04-16 财团法人工业技术研究院 企划书产生***及其方法
CN113342979A (zh) * 2021-06-24 2021-09-03 中国平安人寿保险股份有限公司 热点话题识别方法、计算机设备及存储介质
CN113420153A (zh) * 2021-08-23 2021-09-21 人民网科技(北京)有限公司 一种基于话题库和事件库的专题制作方法、装置及设备
CN114036221A (zh) * 2021-09-24 2022-02-11 国务院国有资产监督管理委员会研究中心 一种专题事件分析方法
US11443211B2 (en) 2020-01-08 2022-09-13 International Business Machines Corporation Extracting important sentences from documents to answer hypothesis that include causes and consequences
CN116308960A (zh) * 2023-03-27 2023-06-23 杭州绿城信息技术有限公司 基于数据分析的智慧园区物业防控管理***及其实现方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090073501A1 (en) * 2007-09-13 2009-03-19 Microsoft Corporation Extracting metadata from a digitally scanned document
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090073501A1 (en) * 2007-09-13 2009-03-19 Microsoft Corporation Extracting metadata from a digitally scanned document
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈莉萍等: "突发事件热点话题识别***及关键问题研究", 《计算机工程与应用》 *

Cited By (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
CN103218432A (zh) * 2013-04-15 2013-07-24 北京邮电大学 一种基于命名实体识别的新闻搜索结果相似度计算方法
CN103399884A (zh) * 2013-07-14 2013-11-20 王国栋 一种随机新闻***及其自动刷新方法
CN104424272A (zh) * 2013-08-29 2015-03-18 联想(北京)有限公司 一种信息处理方法、装置和电子设备
CN103530347A (zh) * 2013-10-09 2014-01-22 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及***
CN103530347B (zh) * 2013-10-09 2016-09-14 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及***
CN104765733B (zh) * 2014-01-02 2018-06-15 华为技术有限公司 一种社交网络事件分析的方法和装置
CN104765733A (zh) * 2014-01-02 2015-07-08 华为技术有限公司 一种社交网络事件分析的方法和装置
CN104035960A (zh) * 2014-05-08 2014-09-10 东莞市巨细信息科技有限公司 互联网资讯信息热点预测方法
CN105095277A (zh) * 2014-05-13 2015-11-25 中国科学院自动化研究所 跨领域观点数据的分类方法和装置
CN105095277B (zh) * 2014-05-13 2019-12-03 中国科学院自动化研究所 跨领域观点数据的分类方法和装置
CN103984729A (zh) * 2014-05-19 2014-08-13 北京大学 微博信息追踪方法和微博信息追踪装置
CN103955547B (zh) * 2014-05-22 2017-02-15 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和***
CN103955547A (zh) * 2014-05-22 2014-07-30 厦门市美亚柏科信息股份有限公司 发现论坛热帖的方法和***
CN104077354A (zh) * 2014-05-29 2014-10-01 小米科技有限责任公司 论坛中帖子的热度确定方法及相关装置
CN104077354B (zh) * 2014-05-29 2017-09-29 小米科技有限责任公司 论坛中帖子的热度确定方法及相关装置
CN104035991A (zh) * 2014-06-09 2014-09-10 贝壳网际(北京)安全技术有限公司 一种新闻标题的显示方法及用于提供新闻页面的服务器
CN104035991B (zh) * 2014-06-09 2017-06-16 北京猎豹移动科技有限公司 一种新闻标题的显示方法及用于提供新闻页面的服务器
CN104216954B (zh) * 2014-08-20 2017-07-14 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104408642A (zh) * 2014-10-29 2015-03-11 云南大学 一种基于用户体验质量的广告制作方法
CN104408642B (zh) * 2014-10-29 2017-09-12 云南大学 一种基于用户体验质量的广告制作方法
CN104598539B (zh) * 2014-12-30 2018-06-15 中国联合网络通信有限公司广东省分公司 一种互联网事件热度计算方法及终端
CN104598539A (zh) * 2014-12-30 2015-05-06 中国联合网络通信有限公司广东省分公司 一种互联网事件热度计算方法及终端
CN104615685A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向网络话题的热度评价方法
CN104615685B (zh) * 2015-01-22 2018-01-26 中国科学院计算技术研究所 一种面向网络话题的热度评价方法
CN104657496A (zh) * 2015-03-09 2015-05-27 杭州朗和科技有限公司 一种计算信息热度值的方法和设备
CN104657496B (zh) * 2015-03-09 2018-08-14 杭州朗和科技有限公司 一种计算信息热度值的方法和设备
CN106257449B (zh) * 2015-06-19 2019-11-12 阿里巴巴集团控股有限公司 一种信息确定方法和装置
CN106257449A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种信息确定方法和装置
CN104915447B (zh) * 2015-06-30 2018-04-20 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN105138577A (zh) * 2015-07-30 2015-12-09 成都布林特信息技术有限公司 一种基于大数据的事件演化分析方法
CN104965931A (zh) * 2015-07-30 2015-10-07 成都布林特信息技术有限公司 一种基于大数据的舆情分析方法
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN105389341A (zh) * 2015-10-22 2016-03-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN105335496A (zh) * 2015-10-22 2016-02-17 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN105389341B (zh) * 2015-10-22 2019-04-09 国网山东省电力公司电力科学研究院 一种客服电话重复来电工单的文本聚类与分析方法
CN105335496B (zh) * 2015-10-22 2019-05-21 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN105488193A (zh) * 2015-12-04 2016-04-13 杭州数梦工场科技有限公司 文章热度的预测方法和装置
CN105574184B (zh) * 2015-12-22 2019-09-24 北京奇虎科技有限公司 一种关联新闻的确定方法以及装置
CN105574184A (zh) * 2015-12-22 2016-05-11 北京奇虎科技有限公司 一种关联新闻的确定方法以及装置
CN105488599B (zh) * 2015-12-29 2020-03-06 杭州数梦工场科技有限公司 预测文章热度的方法和装置
CN105488599A (zh) * 2015-12-29 2016-04-13 杭州数梦工场科技有限公司 预测文章热度的方法和装置
CN105701248B (zh) * 2016-03-03 2019-04-09 北京建筑大学 一种量化确定专业领域词汇集最优维度的方法
CN105701248A (zh) * 2016-03-03 2016-06-22 北京建筑大学 一种量化确定专业领域词汇集最优维度的方法
CN105718598A (zh) * 2016-03-07 2016-06-29 天津大学 基于at的时间模型构建方法与网络突发事件预警方法
CN107784010A (zh) * 2016-08-29 2018-03-09 上海掌门科技有限公司 一种用于确定新闻主题的热度信息的方法与设备
CN106469203B (zh) * 2016-08-31 2019-07-23 北京联创众升科技有限公司 一种突发事件数据的筛选方法及装置
CN106469203A (zh) * 2016-08-31 2017-03-01 北京联创众升科技有限公司 一种突发事件数据的筛选方法及装置
CN109906449B (zh) * 2016-10-27 2021-07-20 华为技术有限公司 一种查找方法及装置
US11210292B2 (en) 2016-10-27 2021-12-28 Huawei Technologies Co., Ltd. Search method and apparatus
CN109906449A (zh) * 2016-10-27 2019-06-18 华为技术有限公司 一种查找方法及装置
CN106682123A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种获取热点事件的方法及装置
CN106649726A (zh) * 2016-12-23 2017-05-10 中山大学 一种社交网络中社团话题演化挖掘方法
CN107239497B (zh) * 2017-05-02 2020-11-03 广东万丈金数信息技术股份有限公司 热门内容搜索方法和***
CN107239497A (zh) * 2017-05-02 2017-10-10 广东万丈金数信息技术股份有限公司 热门内容搜索方法和***
CN107368595A (zh) * 2017-07-26 2017-11-21 中国华戎科技集团有限公司 网络热点信息挖掘方法及***
CN107515854A (zh) * 2017-07-27 2017-12-26 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法
CN107526791A (zh) * 2017-08-15 2017-12-29 皑沐(上海)文化传媒有限公司 一种热句识别方法及***
CN107577774A (zh) * 2017-09-08 2018-01-12 北京智诚律法科技有限公司 一种智能选择拟定合同律师的***
CN107644089A (zh) * 2017-09-26 2018-01-30 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法
CN107622354A (zh) * 2017-09-29 2018-01-23 中国科学技术大学 一种基于区间二元语义的突发事件应急能力评估方法
CN107622354B (zh) * 2017-09-29 2020-06-26 中国科学技术大学 一种基于区间二元语义的突发事件应急能力评估方法
CN107784127A (zh) * 2017-11-30 2018-03-09 杭州数梦工场科技有限公司 一种热点定位方法和装置
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN107944037A (zh) * 2017-12-13 2018-04-20 北京数洋智慧科技有限公司 一种热点话题识别追踪方法及***
CN108197201B (zh) * 2017-12-28 2021-10-22 南京拓界信息技术有限公司 一种基于公共安全事件的移动云端数据挖掘方法
CN108197201A (zh) * 2017-12-28 2018-06-22 南京拓界信息技术有限公司 一种基于公共安全事件的移动云端数据挖掘方法
CN108197259B (zh) * 2017-12-30 2024-03-05 天津科技大学 一种网络在线话题大数据检测方法
CN108197259A (zh) * 2017-12-30 2018-06-22 天津科技大学 一种网络在线话题大数据检测方法
CN108197292A (zh) * 2018-01-22 2018-06-22 成都睿码科技有限责任公司 一种新闻传播量的度量方法及***
CN108446296A (zh) * 2018-01-24 2018-08-24 北京奇艺世纪科技有限公司 一种信息处理方法及装置
CN108307230B (zh) * 2018-02-07 2021-01-22 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
CN108307230A (zh) * 2018-02-07 2018-07-20 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
CN108717637A (zh) * 2018-03-22 2018-10-30 浙江大学 一种电商安全相关实体的自动挖掘方法及***
CN108345700A (zh) * 2018-03-29 2018-07-31 百度在线网络技术(北京)有限公司 文章代表图片的选取方法、装置和计算机设备
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108595388A (zh) * 2018-04-23 2018-09-28 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN108763208B (zh) * 2018-05-22 2023-09-05 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN108763208A (zh) * 2018-05-22 2018-11-06 腾讯科技(上海)有限公司 话题信息获取方法、装置、服务器和计算机可读存储介质
CN110555454A (zh) * 2018-06-01 2019-12-10 国际商业机器公司 从上下文数据跟踪主题排名的演变
CN110633406A (zh) * 2018-06-06 2019-12-31 北京百度网讯科技有限公司 事件专题的生成方法、装置、存储介质和终端设备
CN108932311B (zh) * 2018-06-20 2022-06-03 天津大学 突发事件检测与预测的方法
CN108932311A (zh) * 2018-06-20 2018-12-04 天津大学 突发事件检测与预测的方法
CN110858217A (zh) * 2018-08-23 2020-03-03 北大方正集团有限公司 微博敏感话题的检测方法、装置及可读存储介质
CN109241429A (zh) * 2018-09-05 2019-01-18 食品安全与营养(贵州)信息科技有限公司 一种食品安全舆情监控方法及***
CN109408808A (zh) * 2018-09-12 2019-03-01 中国传媒大学 一种文艺作品的评估方法及评估***
CN109408808B (zh) * 2018-09-12 2023-08-22 中国传媒大学 一种文艺作品的评估方法及评估***
CN109376182A (zh) * 2018-09-26 2019-02-22 上海睿翎法律咨询服务有限公司 基于计算机软件***实现关联公司识别处理的方法
CN109271520A (zh) * 2018-10-25 2019-01-25 北京小度信息科技有限公司 数据提取方法、数据提取装置、存储介质和电子设备
CN109271520B (zh) * 2018-10-25 2022-02-08 北京星选科技有限公司 数据提取方法、数据提取装置、存储介质和电子设备
CN109472415A (zh) * 2018-11-15 2019-03-15 成都智库二八六信息技术有限公司 一种通过动力学特性预测社交媒体中事件规模的方法
CN109472415B (zh) * 2018-11-15 2021-11-19 成都智库二八六一信息技术有限公司 一种通过动力学特性预测社交媒体中事件规模的方法
CN109615006A (zh) * 2018-12-10 2019-04-12 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN109800413A (zh) * 2018-12-11 2019-05-24 北京百度网讯科技有限公司 新闻事件的识别方法、装置、设备及可读存储介质
CN109460475A (zh) * 2018-12-13 2019-03-12 北京百分点信息科技有限公司 一种相似线索的归并方法
CN111382345A (zh) * 2018-12-27 2020-07-07 北京网智天元大数据科技有限公司 话题筛选和发布的方法、装置和服务器
CN111382345B (zh) * 2018-12-27 2024-04-19 北京网智天元大数据科技有限公司 话题筛选和发布的方法、装置和服务器
CN111382276B (zh) * 2018-12-29 2023-06-20 中国科学院信息工程研究所 一种事件发展脉络图生成方法
CN111382276A (zh) * 2018-12-29 2020-07-07 中国科学院信息工程研究所 一种事件发展脉络图生成方法
CN109857956B (zh) * 2019-01-25 2019-12-31 四川大学 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN109857956A (zh) * 2019-01-25 2019-06-07 四川大学 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN111694949B (zh) * 2019-03-14 2023-12-05 京东科技控股股份有限公司 一种多文本分类方法和装置
CN111694949A (zh) * 2019-03-14 2020-09-22 京东数字科技控股有限公司 一种多文本分类方法和装置
CN109960756A (zh) * 2019-03-19 2019-07-02 国家计算机网络与信息安全管理中心 新闻事件信息归纳方法
CN110209813A (zh) * 2019-05-14 2019-09-06 天津大学 一种基于自动编码器的突发事件检测与预测方法
CN110223038A (zh) * 2019-05-30 2019-09-10 山东科技大学 一种基于流程抽取的应急响应预案文本质量评测***及方法
CN110297988A (zh) * 2019-07-06 2019-10-01 四川大学 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN110457594A (zh) * 2019-08-01 2019-11-15 深圳市顶尖传诚科技有限公司 一种基于大数据的舆论热点预测方法
CN110457594B (zh) * 2019-08-01 2021-06-01 深圳市顶尖传诚科技有限公司 一种基于大数据的舆论热点预测方法
CN110609938A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
WO2021027116A1 (zh) * 2019-08-15 2021-02-18 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
CN110517150A (zh) * 2019-08-29 2019-11-29 中国银行股份有限公司 金融市场产品交易报告的生成方法及装置
CN110517150B (zh) * 2019-08-29 2023-05-12 中国银行股份有限公司 金融市场产品交易报告的生成方法及装置
CN110704593B (zh) * 2019-09-27 2022-03-04 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN110704593A (zh) * 2019-09-27 2020-01-17 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN112667884B (zh) * 2019-10-16 2023-11-28 财团法人工业技术研究院 企划书产生***及其方法
CN112667884A (zh) * 2019-10-16 2021-04-16 财团法人工业技术研究院 企划书产生***及其方法
CN110765360B (zh) * 2019-11-01 2022-08-02 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN110765360A (zh) * 2019-11-01 2020-02-07 新华网股份有限公司 文本话题处理方法、装置、电子设备及计算机存储介质
CN111026997B (zh) * 2019-12-17 2023-04-25 上饶市中科院云计算中心大数据研究院 一种热点事件热度量化方法及装置
CN111026997A (zh) * 2019-12-17 2020-04-17 上饶市中科院云计算中心大数据研究院 一种热点事件热度量化方法及装置
US11443211B2 (en) 2020-01-08 2022-09-13 International Business Machines Corporation Extracting important sentences from documents to answer hypothesis that include causes and consequences
CN111382365A (zh) * 2020-03-19 2020-07-07 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111382365B (zh) * 2020-03-19 2023-07-28 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111460153A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质
CN111460153B (zh) * 2020-03-27 2023-09-22 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质
CN111666765A (zh) * 2020-06-02 2020-09-15 国家计算机网络与信息安全管理中心 一种基于k-means文本聚类的诈骗话题分析方法和***
CN111966829B (zh) * 2020-06-18 2022-03-15 电子科技大学 一种基于深度生存分析的网络话题爆发时间预测方法
CN111966829A (zh) * 2020-06-18 2020-11-20 电子科技大学 一种基于深度生存分析的网络话题爆发时间预测方法
CN112100372B (zh) * 2020-08-20 2022-08-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 头版新闻预测分类方法
CN112100372A (zh) * 2020-08-20 2020-12-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 头版新闻预测分类方法
CN112328795A (zh) * 2020-11-13 2021-02-05 首都师范大学 一种基于关键词元的话题检测方法、***及计算机存储介质
CN112597269A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 流式数据事件文本专题及检测***
CN113342979B (zh) * 2021-06-24 2023-12-05 中国平安人寿保险股份有限公司 热点话题识别方法、计算机设备及存储介质
CN113342979A (zh) * 2021-06-24 2021-09-03 中国平安人寿保险股份有限公司 热点话题识别方法、计算机设备及存储介质
CN113420153A (zh) * 2021-08-23 2021-09-21 人民网科技(北京)有限公司 一种基于话题库和事件库的专题制作方法、装置及设备
CN114036221A (zh) * 2021-09-24 2022-02-11 国务院国有资产监督管理委员会研究中心 一种专题事件分析方法
CN116308960B (zh) * 2023-03-27 2023-11-21 杭州绿城信息技术有限公司 基于数据分析的智慧园区物业防控管理***及其实现方法
CN116308960A (zh) * 2023-03-27 2023-06-23 杭州绿城信息技术有限公司 基于数据分析的智慧园区物业防控管理***及其实现方法

Also Published As

Publication number Publication date
CN102937960B (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN102937960B (zh) 突发事件热点话题的识别与评估装置
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN104820629B (zh) 一种智能的舆情突发事件应急处理***及方法
CN101685455B (zh) 数据检索的方法和***
US20170308531A1 (en) Method, system and storage medium for implementing intelligent question answering
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
CN104915446A (zh) 基于新闻的事件演化关系自动提取方法及其***
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN104978314B (zh) 媒体内容推荐方法及装置
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及***
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN106021272A (zh) 基于分布式表达词向量计算的关键词自动提取方法
CN103049532A (zh) 基于突发事件应急管理的知识库引擎构建及其查询方法
CN112035658B (zh) 基于深度学习的企业舆情监测方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN104216954A (zh) 突发事件话题状态的预测装置及预测方法
Chung et al. A practical QA system in restricted domains
CN102902806A (zh) 一种利用搜索引擎进行查询扩展的方法及***
CN109388743B (zh) 语言模型的确定方法和装置
CN105068991A (zh) 一种基于大数据的舆情发现方法
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
CN105320646A (zh) 一种基于增量聚类的新闻话题挖掘方法及其装置
EP3086240A1 (en) Complex predicate template gathering device, and computer program therefor
Dayeen et al. A text mining analysis of the climate change literature in industrial ecology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150617

Termination date: 20160906