CN110147439A - 一种基于大数据处理技术的新闻事件检测方法及*** - Google Patents

一种基于大数据处理技术的新闻事件检测方法及*** Download PDF

Info

Publication number
CN110147439A
CN110147439A CN201810792930.3A CN201810792930A CN110147439A CN 110147439 A CN110147439 A CN 110147439A CN 201810792930 A CN201810792930 A CN 201810792930A CN 110147439 A CN110147439 A CN 110147439A
Authority
CN
China
Prior art keywords
news
event
topic
url
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810792930.3A
Other languages
English (en)
Inventor
刘玉葆
吴杰锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810792930.3A priority Critical patent/CN110147439A/zh
Publication of CN110147439A publication Critical patent/CN110147439A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据处理技术的新闻事件检测方法,包括以下步骤:S1.分别使用静态网页爬虫技术和动态网页爬虫技术从各个新闻门户网站爬取新闻数据;S2.过滤新闻数据中的噪音,然后对新闻数据进行文本去重、命名实体识别和文本自动摘要生成这些操作;S3.通过分词、特征提取、特征降维和文本聚类这些步骤从新闻数据中检测出新闻事件,并对事件进行追踪,从而形成新闻话题;S4.通过界面对最终检测到的新闻话题信息进行展示。

Description

一种基于大数据处理技术的新闻事件检测方法及***
技术领域
本发明涉及话题检测与跟踪技术领域,更具体地,涉及一种基于大数据处理技术的新闻事件检测方法及***。
背景技术
近年来,互联网新闻呈现出一片繁荣发展的景象,网络新闻已经成为了人们生活中必不可少的一部分。互联网新闻以其传播速度快、多媒体、全球性和互动性的特点逐渐取代了报纸、广播等传统新闻传播媒介,成为了人们获取最新资讯的一种重要方式。
与此同时,由于互联网信息呈现***式的增长,各个企业网站平台的数据规模越来越庞大,导致难以用常规的软件框架来对这些海量数据进行有效的处理。为了应对互联网中爆发式增长的海量数据,大数据处理技术应运而生,并在近年来得到了快速的发展。其中,Spark是一个支持高速运算的分布式集群计算***,它使用弹性分布式数据集(RDD)来存储对象集合,并提供了一个分布式机器学***台大规模的用户访问和大数据挖掘与分析提供了重要的支持。
此外,随着大数据时代的来临,传统的关系型数据库已经难以应对海量数据的存储以及高并发的数据访问问题,为了解决这些问题,人们提出了NoSQL(非关系型)数据库。其中,Couchbase是一个面向文档的开源的分布式NoSQL数据库,它具有灵活的数据模型、弹性易扩展、高可用性等特点,十分适合用于存储大量的新闻文档数据。
如今,人们在各个门户网站上通常只能浏览当天或者最近几天的新闻资讯,难以获取一段较长时间内讨论相同话题的新闻事件信息,针对某个特定的事件,用户也难以获得该事件的全方面的新闻报道资讯,并且难以理清该事件的历史发展情况。为了解决这一问题,众多学者对进行新闻事件检测的方法和***进行了研究。
专利公开号为CN103198078A的专利文献提出了一种互联网新闻事件报道趋势分析方法及***。该***首先根据新闻事件的特征信息采集并筛选新闻信息,然后通过对新闻数据进行分析得到新闻事件的主题,并根据不同周期内的主题及关联信息量得出转化主题,最后根据主题的相关报道数量对其按时间发展顺序进行展示。但是,该专利并没有说明对新闻信息进行分析从而生成新闻主题的方法和详细过程。
专利公开号为CN107145568A的专利文献提出了一种快速的新闻事件聚类***及方法。该***包括了新闻抓取模块、新闻文本初步处理模块、新闻文本事件聚类模块和数据存储模块,其中,该***在聚类时对分词结果进行排列组合,并将文档映射到第一层聚类,然后计算文档与子聚类的距离,最后根据计算结果判定文档所属的聚类并创建新的子聚类。然而,该专利只是描述了其聚类的详细过程,并没有对***各个模块的设计和具体处理流程进行说明。
上述专利公开的方法及***均没有考虑到在海量新闻数据的环境下如何快速有效地进行事件检测这一问题。在大数据环境下,事件检测***必须具备高效、稳定、易扩展和高可用等特点,***能够从大量新闻数据中高效地检测得到新闻事件和话题信息,并将这些信息通过Web页面友好地展示给用户。
发明内容
针对现有技术中存在的不足,本发明提出了一种基于大数据处理技术的新闻事件检测方法,该方法能够在大数据处理框架Spark和NoSQL数据库Couchbase 下将相关的新闻报道聚集起来,形成新闻事件,并追踪事件的发展情况,让用户能了解到新闻事件的全方面信息,理清事件的发展脉络。
为实现以上发明目的,采用的技术方案是:
一种基于大数据处理技术的新闻事件检测方法,包括以下步骤:
S1.分别使用静态网页爬虫技术和动态网页爬虫技术从各个新闻门户网站爬取新闻数据;
S2.过滤新闻数据中的噪音,然后对新闻数据进行文本去重、命名实体识别和文本自动摘要生成这些操作;
S3.通过分词、特征提取、特征降维和文本聚类这些步骤从新闻数据中检测出新闻事件,并对事件进行追踪,从而形成新闻话题;
S4.通过界面对最终检测到的新闻话题信息进行展示。
优选地,所述步骤S1中,静态网页爬虫技术使用Scrapy来爬取静态网页,其首先定义爬取目标URL的正则表达式规则,然后按照一定的规则生成种子URL,接着从种子URL开始爬取网页,当爬取到的网页URL能正确匹配预先定义的正则表达式规则且该URL未被爬取过时,将该URL加入到URL队列中;动态网页爬虫技术使用HTTP请求和响应技术来爬取动态网页,其首先分析目标网页URL的HTTP请求参数,然后根据分析结果构造HTTP请求报文,并设置报文的请求行、请求头这些参数,将其发送到目标主机,最后对HTTP响应报文中的消息正文进行解析,从中提取出网页URL并将其加入到URL队列中;对于静态网页爬虫技术和动态网页爬虫技术提取的网页URL,使用XPath或者jsoup 来解析网页并从中提取新闻数据,其首先从URL队列中取出URL,并访问其对应的网页,然后解析网页的HTML DOM结构,从中提取出新闻标题、发布时间、类别和正文这些新闻数据。
优选地,所述步骤S2中,首先使用正则表达式规则过滤新闻正文中的噪声,然后从新闻数据中检测出重复文本并将其去除,接着使用FNLP的命名实体识别模块提取新闻正文的命名实体,并使用TextRank4ZH自动生成新闻正文的摘要,最后将过滤后的新闻数据以及新闻正文的命名实体和摘要信息存储到Couchbase 数据库中。
优选地,所述步骤S3中,首先从Couchbase中查询出指定类别和发布时间的新闻数据,并对新闻报道按其发布时间升序排序;然后使用FNLP中的分词模块对新闻正文进行分词,并根据中英文停用词表去掉分词结果中的停用词;接着使用TF-IDF将每一篇新闻文档的正文转化为高维特征向量,并使用PCA主成分分析对特征向量进行降维;最后使用带时间窗口的Single-Pass算法对新闻文档进行聚类分析,得到新闻事件,并使用Single-Pass算法对事件进行追踪,从而形成新闻话题;最终将新闻事件和话题信息存储到Couchbase数据库中。
优选地,所述步骤S4中,在展示话题的概要信息时,首先查询指定算法类型和参数的话题信息,然后获取话题中最晚发生的事件,将其作为话题的代表事件,接着获取最晚发生事件中最早发布的新闻报道,将其作为话题的代表新闻报道,最终将代表新闻报道的标题、发布时间和正文摘要作为话题的概要信息展示在网页上;在展示话题的详细信息时,首先根据话题ID获取话题的事件列表,并从事件列表中获取每一个事件的标题和发布时间,从而形成事件追踪信息;然后获取事件列表中最晚发生事件的新闻报道列表,并从新闻报道列表中获取每篇新闻的标题、发布时间、来源和URL信息,从而形成事件检测信息;接着获取最晚发生事件中最早发生的新闻报道,并获取该新闻报道的标题和正文摘要信息,将其作为话题的标题和摘要;最后将上述信息作为话题的详细信息展示在网页上。
同时,本发明还提供了一种应用以上方法的***,其具体的方案如下:
包括网络爬虫模块、数据预处理模块、事件检测模块和事件展示模块,其中网络爬虫模块用于执行步骤S1,数据预处理模块用于执行步骤S2,事件检测模块用于执行步骤S3,事件展示模块用于执行步骤S4。
优选地,所述网络爬虫模块包括静态网页爬虫子模块、动态网页爬虫子模块和网页解析子模块。
与现有技术相比,本发明的有益效果是:
1、本发明通过数据采集、数据预处理、事件检测和事件展示这一系列完整的流程完成从初始的互联网新闻数据到最终的新闻事件和话题信息这一转换任务,并通过Web界面友好地展现给用户,让用户能了解每个新闻话题的全方面信息,理清新闻事件的发展脉络。
2、本发明在分布式集群计算框架Spark和NoSQL数据库Couchbase下进行事件检测,能有效地支持大量新闻数据的挖掘与分析任务,从而提升事件检测的效率,构建的***具有稳定、易于横向扩展和高可用的特点。
附图说明
图1***整体流程图
图2网络爬虫模块流程图
图3数据预处理模块流程图
图***检测模块流程图
图5事件展示模块流程图
图6带时间窗口的Single-Pass算法流程图
图7事件检测的事件数量
图8事件检测的聚类时间
图9事件追踪的话题数量
图10事件追踪的聚类时间
图11事件检测的效果度量
图12事件检测的总时间
图13话题概要信息Web页面
图14话题详细信息Web页面
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
图1为本发明提供的方法的流程示意图。本发明提供的方法在具体使用的时候构建的***包括有四个模块,分别为网络爬虫模块、数据预处理模块、事件检测模块和事件展示模块。网络爬虫模块分别使用静态和动态网页爬虫技术从互联网的各个新闻门户网站上爬取***所需的新闻数据。数据预处理模块首先过滤初始新闻数据中的噪音,然后对新闻数据进行文本去重、命名实体识别和文本自动摘要操作。事件检测模块通过分词、特征提取、特征降维和文本聚类等步骤从新闻数据集中检测出新闻事件,并对事件进行追踪,从而形成新闻话题。事件展示模块通过Web界面对最终检测到的新闻话题信息进行展示,让用户对新闻话题内容和事件发展情况有直观的了解。
在网络爬虫模块中使用静态网页爬虫技术来爬取凤凰网资讯和中国新闻网的新闻数据,使用动态网页爬虫技术来爬取腾讯新闻和新浪新闻的新闻数据,网络爬虫模块的具体处理流程如图2所示。静态网页爬虫子模块使用Scrapy来爬取静态网页,该模块首先定义爬取目标URL的正则表达式规则,然后按照一定的规则生成种子URL,接着从种子URL开始爬取网页,当爬取到的网页URL 能正确匹配预先定义的正则表达式且该URL未被爬取过时,将该URL加入到 URL队列中。动态网页爬虫子模块使用HTTP请求和响应技术来爬取动态网页,该模块首先分析目标网页URL的HTTP请求参数,然后根据分析结果构造HTTP 请求报文,并设置报文的请求行、请求头等参数,将其发送到目标主机,最后对 HTTP响应报文中的消息正文进行解析,从中提取出网页URL并将其加入到URL 队列中。网页解析子模块使用XPath或者jsoup来解析网页并从中提取新闻数据,该模块首先从URL队列中取出URL,并访问其对应的网页,然后解析网页的 HTML DOM结构,从中提取出新闻标题、发布时间、类别和正文等新闻数据。
在数据预处理模块中对在网络爬虫模块中得到的初始新闻数据进行预处理操作,数据预处理模块的具体处理流程如图3所示。该模块首先使用正则表达式过滤新闻正文中的噪声,然后从新闻数据集中检测出重复文本并将其去除,接着使用FNLP的命名实体识别模块提取新闻正文的命名实体,并使用TextRank4ZH 自动生成新闻正文的摘要,最后将清洗后的新闻数据以及新闻正文的命名实体和摘要信息存储到Couchbase数据库中。
在事件检测模块中使用Single-Pass算法进行事件检测,整个检测流程在 Spark下进行处理,事件检测模块的具体处理流程如图4所示。在Single-Pass事件检测流程中,首先从Couchbase中查询出指定类别和发布时间的新闻数据,并对新闻报道按其发布时间升序排序。然后使用FNLP中的分词模块对新闻正文进行分词,并根据中英文停用词表去掉分词结果中的停用词。接着使用TF-IDF将每一篇新闻文档的正文转化为高维特征向量,并使用PCA主成分分析对特征向量进行降维。最后使用带时间窗口的Single-Pass算法对新闻文档进行聚类分析,得到新闻事件,并使用Single-Pass算法对事件进行追踪,从而形成新闻话题。最终将新闻事件和话题信息存储到Couchbase数据库中。
在事件展示模块中使用Spring框架来搭建一个Web***,展示新闻话题的概要信息和详细信息,事件展示模块的具体处理流程如图5所示。在展示话题的概要信息时,该模块首先查询指定算法类型和参数的话题信息,然后获取话题中最晚发生的事件,将其作为话题的代表事件,接着获取最晚发生事件中最早发布的新闻报道,将其作为话题的代表新闻报道,最终将代表新闻报道的标题、发布时间和正文摘要作为话题的概要信息展示在网页上。在展示话题的详细信息时,该模块首先根据话题ID获取话题的事件列表,并从事件列表中获取每一个事件的标题和发布时间,从而形成事件追踪信息。然后获取事件列表中最晚发生事件的新闻报道列表,并从新闻报道列表中获取每篇新闻的标题、发布时间、来源和URL信息,从而形成事件检测信息。接着获取最晚发生事件中最早发生的新闻报道,并获取该新闻报道的标题和正文摘要信息,将其作为话题的标题和摘要。最后将上述信息作为话题的详细信息展示在网页上。
其中,在第3步事件检测流程中,基于Spark和Couchbase的事件检测流程的具体实现步骤如下所示:
1、根据Spark集群管理器的URL、Spark应用名称和Couchbase的bucket 名称等信息构建SparkConf配置信息,并根据SparkConf构建JavaSparkContext。
2、根据JavaSparkContext构建用于在Spark下与Couchbase数据库进行交互操作的CouchbaseSparkContext。
3、根据服务器主机名创建Couchbase的cluster,并根据指定的bucket名称打开cluster中对应的bucket。
4、在Spark下对清洗后的新闻数据和算法信息构建json文档,并将其转换成RDD,然后使用couchbase-spark-connector的couchbaseDocumentRDD()函数并行地将上述数据存储到Couchbase数据库中。
5、使用CouchbaseSparkContext的couchbaseQuery()函数在Spark下并行地从Couchbase数据库中查询出指定时间区间和类别的新闻数据,并将其按照新闻发布时间从早到晚排序。
6、使用Spark的map函数并行地对新闻正文RDD中的每个元素进行FNLP 分词操作,最终得到分词后词列表构成的RDD。
7、使用Spark MLlib中TF-IDF模块的HashingTF将词列表RDD转换为TF 特征向量RDD,并对其进行缓存,接着使用IDFModel将TF特征向量RDD转换为TF-IDF特征向量RDD。
8、使用Spark MLlib将TF-IDF特征向量RDD转换为RowMatrix矩阵,然后计算RowMatrix矩阵的主成分矩阵,最后将RowMatrix矩阵与主成分矩阵相乘,得到降维后的矩阵,并将其转换为降维后的特征向量RDD。
9、用降维后的特征向量表示新闻报道,并使用带时间窗口的Single-Pass算法对新闻报道进行增量聚类操作,最终检测得出新闻事件,并将事件信息存储到 Couchbase数据库中。图6展示了带时间窗口的Single-Pass算法流程图。
对新闻事件按照起始时间从早到晚进行排序,然后使用Single-Pass算法对事件进行聚类分析,得出新闻话题,并将话题信息存储到Couchbase数据库中。
实施例2
本实施例对本发明提供的方法进行了具体的实验,实验中的***开发和部署软件环境如表1所示:
表1***开发和部署软件环境
该***采用2台服务器来分别搭建Spark分布式计算集群和Couchbase数据库集群,并将Web***部署在服务器1上,开发和部署的硬件配置如表2所示:
表2***开发和部署硬件配置
服务器 CPU 内存
服务器1 Intel(R)Core(TM)i5-4570CPU@ 8GB
服务器2 Intel(R)Core(TM)i5-2450M CPU@ 6GB
实验结果:
本实验使用***通过网络爬虫得到的类别为国内的新闻数据对***进行测试,实验数据的详细信息如表3所示。
表3实验数据的详细信息
本实验对事件检测和事件追踪的结果进行了实验与分析。本实验对以下6项内容进行了测试:
(1)事件检测得到的事件数量
(2)事件检测中聚类花费的时间
(3)事件追踪得到的话题数量
(4)事件追踪中聚类花费的时间
(5)事件检测的效果度量
(6)事件检测的总时间
本实验首先观察事件检测使用的带时间窗口的Single-Pass算法的相似度阈值和时间窗口参数的变化对(1)和(2)所造成的影响,然后观察事件追踪使用的Single-Pass算法的相似度阈值和事件数量的变化对(3)和(4)所造成的影响,接着使用召回率、准确率和F值这3个指标测试事件检测的效果,最后比较使用传统的单机处理技术和分布式集群处理技术在(6)上的实验结果。
图7展示了在事件检测过程中得到的事件数量的实验结果。从图7中可以看到,对于同一个时间窗口,随着Single-Pass相似度阈值的增大,事件检测得到的事件数量也随之增大。其原因是相似度阈值越大,每篇新闻报道与已有事件的相似度就越有可能小于该阈值,自然就越有可能被判定为新事件,因此最终得到的事件数量就越多。对于相同的Single-Pass相似度阈值,随着时间窗口的增大,事件数量逐渐减少。其原因是时间窗口越大,每篇新闻报道需要与更多的事件进行比较,因此就越有可能加入其中的某个事件,导致最终得到的事件数量变少。
图8展示了在事件检测过程中使用带时间窗口的Single-Pass算法进行聚类所花费时间的实验结果。从图8中可以看到,对于同一个时间窗口,随着 Single-Pass相似度阈值的增大,聚类花费的时间也随之增大。其主要原因是相似度阈值越大,被判断为新事件的新闻报道数量越多,时间窗口内的事件数量也越多,因此每篇新闻报道需要与更多的事件进行比较,最终导致聚类花费的时间增大。对于相同的Single-Pass相似度阈值,随着时间窗口的增大,聚类花费的时间也随之增大。其主要原因是时间窗口越大,时间窗口内包含的事件数量也越多,因此每篇新闻报道需要与更多的事件进行比较,最终导致聚类花费的时间也随之增大。
图9展示了在事件追踪过程中得到的话题数量的实验结果。该实验将事件检测的时间窗口设置为24h,事件检测的Single-Pass算法相似度阈值分别设置为 0.5、0.6、0.7和0.8,从而分别形成3495、4441、5236、6062个事件。从图9中可以看到,对于相同的事件数量,随着事件追踪的Single-Pass相似度阈值的增大,事件追踪得到的话题数量也随之增大。其原因是相似度阈值越大,每个事件与已有话题的相似度就越有可能小于该阈值,自然就越有可能被判定为新话题,因此最终得到的话题数量就越多。对于相同的Single-Pass相似度阈值,随着事件数量的增大,事件追踪得到的话题数量也随之增大,但是增大的速度变快。其原因是事件数量越多,事件涉及到的话题数量就越多,因此在事件追踪中得到的话题数量也就越多。但是由于在低相似度阈值时事件追踪形成的话题内容较为宽泛,每个话题包含的事件数量较多,因此事件数量对话题数量的影响并不大;而在高相似度阈值时事件追踪形成的话题内容较为单一,每个话题包含的事件数量较少,因此事件数量对话题数量的影响较大。
图10展示了在事件追踪过程中使用Single-Pass算法进行聚类所花费时间的实验结果。该实验同样将事件检测的时间窗口设置为24h,事件检测的Single-Pass 算法相似度阈值分别设置为0.5、0.6、0.7和0.8,从而分别形成3495、4441、5236、 6062个事件。和图8相比可以看到,在事件追踪的过程中聚类所花费的时间比在事件检测中花费的时间要多,这是因为事件追踪的聚类并没有设置时间窗口,是对全部事件进行聚类的,因此需要花费更多的时间。从图10中可以看到,对于相同的事件数量,随着事件追踪的Single-Pass相似度阈值的增大,事件追踪的聚类所花费的时间也随之增多。其主要原因是相似度阈值越大,事件追踪得到的话题数量就越多,因此每个事件需要与更多的话题进行比较,最终导致在聚类时需要花费更多的时间。对于相同的事件追踪Single-Pass相似度阈值,随着事件数量的增大,事件追踪的聚类所花费的时间也随之增多。其原因是事件数量越多,在聚类时就有更多的事件需要与话题进行比较,因此事件追踪的聚类需要花费更多的时间。
图11展示了事件检测的效果度量的实验结果。该实验选取了表3中时间区间为2017年11月1日至2日的231篇新闻报道来作为实验数据,该实验数据经过人工标注后确定为包含87个事件,其中包含新闻报道最多的事件拥有23篇新闻报道,最少的事件只有1篇新闻报道。该实验将事件检测的时间窗口设置为 48h。该实验采用了度量聚类效果的三个指标召回率(Recall)、准确率(Precision) 和F值(F-Measure)来作为事件检测的度量指标。与传统信息检索领域中的召回率、准确率和F值不一样,该实验采用的这三个指标的定义如下:
其中,n为新闻报道的总数量,ni为第i个真实的簇包含的新闻报道的数量, nj为第j个通过事件检测算法得到的簇包含的新闻报道的数量,nij为第i个真实的簇和第j个通过事件检测算法得到的簇包含的相同新闻报道的数量。k为真实的簇的数量,k’为通过事件检测算法得到的簇的数量。从图11中可以看到,随着事件检测的Single-Pass相似度阈值的增大,召回率呈上升趋势,而准确率呈缓慢的下降趋势,F值几乎不变。其原因是相似度阈值越大,nj和nij都相应增大,而ni不变,且nj增长的速度比nij要快,因此召回率有所增大,而准确率有所降低。从实验结果可以看到,召回率、准确率和F值都在90%以上,实验结果证明了事件检测的有效性。
图12展示了分别使用传统的单机处理技术和分布式集群处理技术进行整个事件检测过程所耗费的时间的实验结果。在该实验中,事件检测的时间窗口设置为24h,事件追踪的Single-Pass相似度阈值设置为0.7,单机处理技术分别使用服务器1和服务器2,分布式集群处理技术使用由服务器1和服务器2搭建而成的集群。从图12中可以看到,对于相同的事件检测Single-Pass相似度阈值,服务器2耗费的时间最长,服务器1次之,分布式集群耗费的时间最少,分布式集群耗费的时间约为服务器2的一半,约为服务器1的2/3。其主要原因是分布式集群采用了分布式处理技术来进行计算,加快了计算的效率,而服务器1和服务器2均采用传统的单机处理技术,因此计算效率受限;而由于服务器1的硬件配置比服务器2要高,因此服务器1耗费的时间比服务器2要少。实验结果表明相对于传统的单机处理技术,本***使用的大数据处理技术在处理速度上有明显的提升,证明了本发明设计的***在事件检测上的高效性。
***Web界面展示:
图13展示了***的话题概要信息页面,该页面处于***的首页,主要展示了热门话题的概要信息,其中包括了话题标题、话题时间和话题的内容摘要。在本次***Web界面展示中,本发明选取了包含事件数量最多的2个话题予以展示,这2个话题分别是鲁班奖、色楞格河。
图14展示了***的话题详细信息页面,本发明选取了西安至成都往返航班这个话题予以展示。话题详细信息页面首先展示该话题的最近一个事件的详细信息,然后展示事件追踪的信息。事件的详细信息主要包括了事件标题、事件的内容摘要和事件包含的相关新闻报道。事件追踪信息主要包括了与该事件内容相关的事件列表,并按照事件的发生时间从晚到早展示事件的发生时间和标题信息。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于大数据处理技术的新闻事件检测方法,其特征在于:包括以下步骤:
S1.分别使用静态网页爬虫技术和动态网页爬虫技术从各个新闻门户网站爬取新闻数据;
S2.过滤新闻数据中的噪音,然后对新闻数据进行文本去重、命名实体识别和文本自动摘要生成这些操作;
S3.通过分词、特征提取、特征降维和文本聚类这些步骤从新闻数据中检测出新闻事件,并对事件进行追踪,从而形成新闻话题;
S4.通过界面对最终检测到的新闻话题信息进行展示。
2.根据权利要求1所述的基于大数据处理技术的新闻事件检测方法,其特征在于:所述步骤S1中,静态网页爬虫技术使用Scrapy来爬取静态网页,其首先定义爬取目标URL的正则表达式规则,然后按照一定的规则生成种子URL,接着从种子URL开始爬取网页,当爬取到的网页URL能正确匹配预先定义的正则表达式规则且该URL未被爬取过时,将该URL加入到URL队列中;动态网页爬虫技术使用HTTP请求和响应技术来爬取动态网页,其首先分析目标网页URL的HTTP请求参数,然后根据分析结果构造HTTP请求报文,并设置报文的请求行、请求头这些参数,将其发送到目标主机,最后对HTTP响应报文中的消息正文进行解析,从中提取出网页URL并将其加入到URL队列中;对于静态网页爬虫技术和动态网页爬虫技术提取的网页URL,使用XPath或者jsoup来解析网页并从中提取新闻数据,其首先从URL队列中取出URL,并访问其对应的网页,然后解析网页的HTML DOM结构,从中提取出新闻标题、发布时间、类别和正文这些新闻数据。
3.根据权利要求2所述的基于大数据处理技术的新闻事件检测方法,其特征在于:所述步骤S2中,首先使用正则表达式规则过滤新闻正文中的噪声,然后从新闻数据中检测出重复文本并将其去除,接着使用FNLP的命名实体识别模块提取新闻正文的命名实体,并使用TextRank4ZH自动生成新闻正文的摘要,最后将过滤后的新闻数据以及新闻正文的命名实体和摘要信息存储到Couchbase数据库中。
4.根据权利要求3所述的基于大数据处理技术的新闻事件检测方法,其特征在于:所述步骤S3中,首先从Couchbase中查询出指定类别和发布时间的新闻数据,并对新闻报道按其发布时间升序排序;然后使用FNLP中的分词模块对新闻正文进行分词,并根据中英文停用词表去掉分词结果中的停用词;接着使用TF-IDF将每一篇新闻文档的正文转化为高维特征向量,并使用PCA主成分分析对特征向量进行降维;最后使用带时间窗口的Single-Pass算法对新闻文档进行聚类分析,得到新闻事件,并使用Single-Pass算法对事件进行追踪,从而形成新闻话题;最终将新闻事件和话题信息存储到Couchbase数据库中。
5.根据权利要求4所述的基于大数据处理技术的新闻事件检测方法,其特征在于:所述步骤S4中,在展示话题的概要信息时,首先查询指定算法类型和参数的话题信息,然后获取话题中最晚发生的事件,将其作为话题的代表事件,接着获取最晚发生事件中最早发布的新闻报道,将其作为话题的代表新闻报道,最终将代表新闻报道的标题、发布时间和正文摘要作为话题的概要信息展示在网页上;在展示话题的详细信息时,首先根据话题ID获取话题的事件列表,并从事件列表中获取每一个事件的标题和发布时间,从而形成事件追踪信息;然后获取事件列表中最晚发生事件的新闻报道列表,并从新闻报道列表中获取每篇新闻的标题、发布时间、来源和URL信息,从而形成事件检测信息;接着获取最晚发生事件中最早发生的新闻报道,并获取该新闻报道的标题和正文摘要信息,将其作为话题的标题和摘要;最后将上述信息作为话题的详细信息展示在网页上。
6.一种根据权利要求1~5任一项所述检测方法的***,其特征在于:包括网络爬虫模块、数据预处理模块、事件检测模块和事件展示模块,其中网络爬虫模块用于执行步骤S1,数据预处理模块用于执行步骤S2,事件检测模块用于执行步骤S3,事件展示模块用于执行步骤S4。
7.根据权利要求6所述的***,其特征在于:所述网络爬虫模块包括静态网页爬虫子模块、动态网页爬虫子模块和网页解析子模块。
CN201810792930.3A 2018-07-18 2018-07-18 一种基于大数据处理技术的新闻事件检测方法及*** Pending CN110147439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810792930.3A CN110147439A (zh) 2018-07-18 2018-07-18 一种基于大数据处理技术的新闻事件检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810792930.3A CN110147439A (zh) 2018-07-18 2018-07-18 一种基于大数据处理技术的新闻事件检测方法及***

Publications (1)

Publication Number Publication Date
CN110147439A true CN110147439A (zh) 2019-08-20

Family

ID=67589149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810792930.3A Pending CN110147439A (zh) 2018-07-18 2018-07-18 一种基于大数据处理技术的新闻事件检测方法及***

Country Status (1)

Country Link
CN (1) CN110147439A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597981A (zh) * 2019-09-16 2019-12-20 西华大学 一种采用多策略自动生成摘要的网络新闻概要***
CN110990705A (zh) * 2019-12-06 2020-04-10 腾讯科技(深圳)有限公司 一种新闻处理方法、装置、设备及介质
CN111291299A (zh) * 2020-01-22 2020-06-16 北京飞漫软件技术有限公司 一种直接获取本地命令执行结果的方法及本地服务器
CN111324753A (zh) * 2020-01-22 2020-06-23 天窗智库文化传播(苏州)有限公司 一种媒体资讯发布管理方法及***
CN111460160A (zh) * 2020-04-02 2020-07-28 复旦大学 一种基于强化学习的流式文本数据的事件聚类方法
CN111581480A (zh) * 2020-05-12 2020-08-25 杭州风远科技有限公司 新闻资讯聚合分析方法及***、终端、存储介质
CN111930936A (zh) * 2020-06-28 2020-11-13 山东师范大学 一种平台留言文本挖掘方法及***
CN112287254A (zh) * 2020-11-23 2021-01-29 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质
CN112597269A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 流式数据事件文本专题及检测***
CN112818200A (zh) * 2021-01-28 2021-05-18 平安普惠企业管理有限公司 基于静态网站的数据爬取及事件分析方法及***
CN113554538A (zh) * 2021-05-28 2021-10-26 四川社智雲科技有限公司 一种用于城乡社区治理的数字信息一体化***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262635A (zh) * 2010-05-25 2011-11-30 北京启明星辰信息技术股份有限公司 一种网页爬虫***及方法
CN102831220A (zh) * 2012-08-23 2012-12-19 江苏物联网研究发展中心 一种面向主题定制的新闻情报提取***
CN103092936A (zh) * 2013-01-08 2013-05-08 华北电力大学(保定) 一种物联网动态页面实时信息采集方法
CN104462253A (zh) * 2014-11-20 2015-03-25 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN107862039A (zh) * 2017-11-06 2018-03-30 工业和信息化部电子第五研究所 网页数据获取方法、***和数据匹配推送方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262635A (zh) * 2010-05-25 2011-11-30 北京启明星辰信息技术股份有限公司 一种网页爬虫***及方法
CN102831220A (zh) * 2012-08-23 2012-12-19 江苏物联网研究发展中心 一种面向主题定制的新闻情报提取***
CN103092936A (zh) * 2013-01-08 2013-05-08 华北电力大学(保定) 一种物联网动态页面实时信息采集方法
CN104462253A (zh) * 2014-11-20 2015-03-25 武汉数为科技有限公司 一种面向网络文本大数据的话题检测或跟踪方法
CN107862039A (zh) * 2017-11-06 2018-03-30 工业和信息化部电子第五研究所 网页数据获取方法、***和数据匹配推送方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597981A (zh) * 2019-09-16 2019-12-20 西华大学 一种采用多策略自动生成摘要的网络新闻概要***
CN110990705A (zh) * 2019-12-06 2020-04-10 腾讯科技(深圳)有限公司 一种新闻处理方法、装置、设备及介质
CN110990705B (zh) * 2019-12-06 2024-04-12 深圳市雅阅科技有限公司 一种新闻处理方法、装置、设备及介质
CN111324753B (zh) * 2020-01-22 2021-09-03 天窗智库文化传播(苏州)有限公司 一种媒体资讯发布管理方法及***
CN111291299A (zh) * 2020-01-22 2020-06-16 北京飞漫软件技术有限公司 一种直接获取本地命令执行结果的方法及本地服务器
CN111324753A (zh) * 2020-01-22 2020-06-23 天窗智库文化传播(苏州)有限公司 一种媒体资讯发布管理方法及***
CN111291299B (zh) * 2020-01-22 2023-08-15 北京飞漫软件技术有限公司 一种直接获取本地命令执行结果的方法及本地服务器
CN111460160A (zh) * 2020-04-02 2020-07-28 复旦大学 一种基于强化学习的流式文本数据的事件聚类方法
CN111460160B (zh) * 2020-04-02 2023-08-18 复旦大学 一种基于强化学习的流式文本数据的事件聚类方法
CN111581480B (zh) * 2020-05-12 2023-09-08 杭州风远科技有限公司 新闻资讯聚合分析方法及***、终端、存储介质
CN111581480A (zh) * 2020-05-12 2020-08-25 杭州风远科技有限公司 新闻资讯聚合分析方法及***、终端、存储介质
CN111930936A (zh) * 2020-06-28 2020-11-13 山东师范大学 一种平台留言文本挖掘方法及***
CN112287254A (zh) * 2020-11-23 2021-01-29 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质
CN112287254B (zh) * 2020-11-23 2023-10-27 武汉虹旭信息技术有限责任公司 网页结构化信息提取方法、装置、电子设备及存储介质
CN112597269A (zh) * 2020-12-25 2021-04-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 流式数据事件文本专题及检测***
CN112818200A (zh) * 2021-01-28 2021-05-18 平安普惠企业管理有限公司 基于静态网站的数据爬取及事件分析方法及***
CN113554538A (zh) * 2021-05-28 2021-10-26 四川社智雲科技有限公司 一种用于城乡社区治理的数字信息一体化***

Similar Documents

Publication Publication Date Title
CN110147439A (zh) 一种基于大数据处理技术的新闻事件检测方法及***
CN105677844B (zh) 一种移动广告大数据的定向推送及用户跨屏识别方法
WO2022117063A1 (zh) 孤立森林的训练方法,网络爬虫的识别方法及装置
Yu et al. Ring: Real-time emerging anomaly monitoring system over text streams
CN103546326B (zh) 一种网站流量统计的方法
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析***
US20110179017A1 (en) Detecting spiking queries
CN104572977B (zh) 一种农产品质量安全事件在线检测方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN100462969C (zh) 利用互联网为公众提供和查询信息的方法
CN102254004A (zh) 一种网络日志挖掘中的Web建模方法及***
CN101814083A (zh) 网页自动分类方法和***
CN104182482B (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
CN103530429B (zh) 一种网页正文抽取的方法
CN105718590A (zh) 面向多租户的SaaS舆情监控***及方法
US10467255B2 (en) Methods and systems for analyzing reading logs and documents thereof
CN106021418A (zh) 新闻事件的聚类方法及装置
CN108804576A (zh) 一种基于链接分析的域名层级结构探测方法
CN102222098A (zh) 一种网页预取方法和***
CN107918644A (zh) 声誉管理框架内的新闻议题分析方法和实施***
Sujatha Improved user navigation pattern prediction technique from web log data
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
Afyouni et al. Spatio-temporal event discovery in the big social data era
Holzmann et al. Delusive PageRank in incomplete graphs
Xue et al. Cross-media topic detection associated with hot search queries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190820

RJ01 Rejection of invention patent application after publication