CN109033200A - 事件抽取的方法、装置、设备及计算机可读介质 - Google Patents
事件抽取的方法、装置、设备及计算机可读介质 Download PDFInfo
- Publication number
- CN109033200A CN109033200A CN201810694341.1A CN201810694341A CN109033200A CN 109033200 A CN109033200 A CN 109033200A CN 201810694341 A CN201810694341 A CN 201810694341A CN 109033200 A CN109033200 A CN 109033200A
- Authority
- CN
- China
- Prior art keywords
- event
- news documents
- training
- mode
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种事件抽取的方法、装置、设备及计算机可读介质,事件抽取的方法包括:采集多个新闻文档;预处理各新闻文档,包括对所述新闻文档进行命名实体的识别和关键词的抽取;根据所述新闻文档的命名实体和关键词,采用事件检测模型对各新闻文档进行事件检测,以筛选出一个或多个事件型新闻文档;以及对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库。本发明的技术方案可以在海量新闻文档中抽取出事件型的新闻文档,进而获得事件信息。
Description
技术领域
本发明涉及信息处理技术,尤其涉及一种事件抽取的方法、装置、设备及计算机可读介质。
背景技术
世界上每天有很多事件发生和被报道。事件是指某日在某地发生了某事,是真实发生的。我们希望从每天海量的资讯新闻中可以实时、自动获取到结构化的事件信息(特别是热门事件),即从海量新闻中筛选出事件型新闻,以得到事件信息。现有技术中,通过LDA(Latent Dirichlet Allocation,一种文档主题生成模型)和设定规则的方式抽取和聚类事件,这种方法会聚类出很多非事件(如话题谈论类或情感类)的新闻簇,并且事件抽取的准确率低,也无法不断提升事件抽取的效果。
发明内容
本发明实施例提供一种事件抽取的方法、装置、设备及计算机可读介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种事件抽取的方法,包括:
采集多个新闻文档;
预处理各新闻文档,包括对所述新闻文档进行命名实体的识别和关键词的抽取;
根据所述新闻文档的命名实体和关键词,采用事件检测模型对各新闻文档进行事件检测,以筛选出一个或多个事件型新闻文档;以及
对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库。
结合第一方面,本发明实施例在第一方面的第一种实施方式中,所述对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库的步骤包括:
根据各事件型新闻文档的关键词,构建连通图,其中,所述连通图包括多个关键词和多个连接线,同一事件型新闻文档中的两个关键词用一个连接线连接;
删除中心度最大的连接线,直至达到终止条件,以获得一个或多个连通子图,其中,一个连通子图用于表示一个事件,所述连通图用于表示所述事件库,以及所述终止条件包括所述连通子图的数量满足阈值;以及
根据各事件型新闻文档的关键词与各连通子图中的关键词之间的相似度,匹配每个连通子图所对应的一个或多个事件型新闻文档。
结合第一方面,本发明实施例在第一方面的第二种实施方式中,所述对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库的步骤包括:
对各事件型新闻文档所描述的事件进行聚合,以合并相同或相近似事件。
结合第一方面或第一方面的第一种或第二种实施方式,本发明实施例在第一方面的第三种实施方式中,所述采集多个新闻文档的步骤包括:
以预设时间间隔采集预设时间范围内的多个新闻文档。
结合第一方面,本发明实施例在第一方面的第四种实施方式中,所述对各新闻文档,根据命名实体和关键词,采用事件检测模型进行事件检测,以筛选出多个事件型新闻文档的步骤之前,还包括:
获取训练语料;
基于正例和未标注样本学习算法处理所述训练语料;
基于处理后的训练语料,采用机器学习模型,构建所述事件检测模型,其中,所述机器学习模型包括支持向量机和深度神经网络中的一种。
结合第一方面的第四种实施方式,本发明实施例在第一方面的第五种实施方式中,所述获取训练语料的步骤包括:
获取多个训练文档;
预处理各训练文档,包括对所述训练文档进行命名实体的识别和关键词的抽取;
根据所述训练文档的命名实体与日期的紧密度,从各训练文档中筛选出事件实体和事件型训练文档集合,其中,所述事件实体是所述紧密度满足预设条件的命名实体,所述事件型训练文档集合包括一个或多个事件型训练文档,所述事件型训练文档是具有所述事件实体的训练文档,并用于描述一个事件;
对所述事件型训练文档进行关键词的词频统计,获得事件关键词;
对各事件进行事件聚合,以获得事件集合;以及
对所述事件集合和所述事件型训练文档集合进行过滤处理,以从所述事件集合中排除不满足预设置信度的事件,以及从所述事件型训练文档集合中排除与不满足预设置信度的事件相对应的训练文档;
其中,所述事件训练语料包括各训练文档、所述事件型训练文档集合和所述事件集合。
第二方面,本发明实施例提供一种事件抽取的装置,包括:
采集模块,用于采集多个新闻文档;
预处理模块,用于预处理各新闻文档,包括对所述新闻文档进行命名实体的识别和关键词的抽取;
事件检测模块,用于根据所述新闻文档的命名实体和关键词,采用事件检测模型对各新闻文档进行事件检测,以筛选出一个或多个事件型新闻文档;以及
聚类模块,用于对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库。
结合第二方面,本发明实施例在第二方面的第一种实施方式中,所述聚类模块包括:
连通图构建单元,用于根据各事件型新闻文档的关键词,构建连通图,其中,所述连通图包括多个关键词和多个连接线,同一事件型新闻文档中的两个关键词用一个连接线连接;
连通子图获得单元,用于删除中心度最大的连接线,直至达到终止条件,以获得一个或多个连通子图,其中,一个连通子图用于表示一个事件,所述连通图用于表示所述事件库,以及所述终止条件包括所述连通子图的数量满足阈值;以及
匹配单元,用于根据各事件型新闻文档的关键词与各连通子图中的关键词之间的相似度,匹配每个连通子图所对应的一个或多个事件型新闻文档。
结合第二方面,本发明实施例在第二方面的第二种实施方式中,所述聚类模块包括:
聚合单元,用于对各事件型新闻文档所描述的事件进行聚合,以合并相同或相近似事件。
结合第二方面或第二方面的第一种或第二种实施方式,本发明实施例在第二方面的第三种实施方式中,,所述装置还包括:
训练语料获取模块,用于获取训练语料;
训练语料处理模块,用于基于正例和未标注样本学习算法处理所述训练语料;
构建模块,用于基于处理后的训练语料,采用机器学习模型,构建所述事件检测模型,其中,所述机器学习模型包括支持向量机和深度神经网络中的一种。
结合第二方面的第三种实施方式,本发明实施例在第二方面的第四种实施方式中,所述训练语料获取模块包括:
训练文档获取单元,用于获取多个训练文档;
预处理单元,用于预处理各训练文档,包括对所述训练文档进行命名实体的识别和关键词的抽取;
事件实体筛选单元,用于根据所述训练文档的命名实体与日期的紧密度,从各训练文档中筛选出事件实体和事件型训练文档集合,其中,所述事件实体是所述紧密度满足预设条件的命名实体,所述事件型训练文档集合包括一个或多个事件型训练文档,所述事件型训练文档是具有所述事件实体的训练文档,并用于描述一个事件;
事件关键词获得单元,用于对所述事件型训练文档进行关键词的词频统计,获得事件关键词;
事件聚合单元,用于对各事件进行事件聚合,以获得事件集合;以及
过滤单元,用于对所述事件集合和所述事件型训练文档集合进行过滤处理,以从所述事件集合中排除不满足预设置信度的事件,以及从所述事件型训练文档集合中排除与不满足预设置信度的事件相对应的训练文档;
其中,所述事件训练语料包括各训练文档、所述事件型训练文档集合和所述事件集合。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,事件抽取的装置的结构中包括处理器和存储器,所述存储器用于存储支持事件抽取的装置执行上述第一方面中事件抽取的方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述事件抽取的装置还可以包括通信接口,用于事件抽取的装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储事件抽取的装置所用的计算机软件指令,其包括用于执行上述第一方面中事件抽取的方法为事件抽取的装置所涉及的程序。
本发明实施例可以在海量新闻文档中抽取出事件型的新闻文档,进而获得事件信息。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的事件抽取的方法的流程图。
图2为本发明实施例的事件抽取的方法的另一种实施方式的流程图。
图3为本发明实施例的事件抽取的方法的获取训练语料的流程图。
图4为本发明实施例的事件抽取的方法的步骤S140的流程图。
图5为本发明实施例的事件抽取的方法的聚类方法可视化图形。
图6为本发明实施例的事件抽取的方法的应用架构图。
图7为本发明实施例的事件抽取的装置的结构图。
图8为本发明实施例的事件抽取的聚类模块的结构图。
图9为本发明实施例的事件抽取的装置的另一种实施方式的结构图。
图10为本发明实施例的事件抽取的装置的训练语料获取模块的结构图。
图11为本发明实施例的事件抽取的设备的组成结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例旨在提供一种事件抽取的方法和装置,以在海量新闻文档中抽取出事件型的新闻文档,进而获得事件信息。其中,事件是指某日在某地发生了某事,是真实发生的。下面进行技术方案的展开描述。
如图1所述,本实施例的事件抽取的方法包括:
S110,采集多个新闻文档。
其中,新闻文档可以通过互联网从门户网站(如百度、新浪等)采集,也可以通过互联网从社交媒体(如公众号、微博)采集,还可以从离线数据库采集,本发明实施例中不做限定。
在一种实施方式中,可以以预设时间间隔采集预设时间范围内的多个新闻文档,预设时间间隔可以是实时,也可以是每小时,还可以是每天;预设时间范围可以是当天,也可以是当月或当年,还可以是某个时间区间。例如,以1小时的时间间隔进行当天的新闻文档采集,以期获得当天的事件信息和与事件信息相对应的新闻文档。
S120,预处理各新闻文档,包括对新闻文档进行命名实体的识别和关键词的抽取。
其中,对新闻文档的预处理可以是针对新闻文档的标题、摘要和正文,分别进行分词、词性标注、命名实体的识别,并提取出正文中的关键词,命名实体的识别包括对时间实体、地点实体、人物实体和机构实体等的抽取。
在一种实施方式中,当时间实体和地点实体有多个时,可以只保留其中一个抽取值,如从多个时间实体中保留概率最大的时间实体,或从多个地点实体中保留概率最大的地点实体。
S130,根据新闻文档的命名实体和关键词,采用事件检测模型对各新闻文档进行事件检测,以筛选出一个或多个事件型新闻文档。
其中,事件型检测模型相当于一个分类器,可以基于输入的新闻文档的命名实体和关键词来检测新闻文档是否是用于描述事件的事件型新闻文档,而非事件型(如情感类或话题谈论类)的新闻文档将会被过滤掉。
如图2所示,在一个实施方式中,本实施例的事件抽取的方法还包括构建事件检测模型,即在步骤S130之前还包括:
S150,获取训练语料;
S160,基于正例和未标注样本学习(positive and unlabeled data learning,PU-Learning)算法处理训练语料;以及
S170,基于处理后的训练语料,采用机器学习模型,构建事件检测模型,其中,所述机器学习模型可以是支持向量机(Support Vector Machine,SVM),也可以是深度神经网络(Deep Neural Networks,DNN)。
如图3所示,在一个实施方式中,S150获取训练语料,包括:
S151,获取多个训练文档。
其中,训练文档可以来自于大数据,比如离线数据库或在线数据库,也可以是步骤S110中的新闻文档,也就是说,随着新闻文档的不断采集,事件监测模型中的训练数据可以不断积累,进而可以提升训练效果,即对新闻文档是否属于事件型新闻文档的检测效果。
S152,预处理各训练文档,包括对训练文档进行命名实体的识别和关键词的抽取。
其中,对训练文档进行预处理的方式可以参见步骤S120中对新闻文档的预处理方式。
S153,根据所述训练文档的命名实体与日期的紧密度,从各训练文档中筛选出事件实体和事件型训练文档库。
其中,可以基于G2检验方法判断命名实体与日期的紧密度G,公式如下:
其中,Oe,d是在日期d发生的包含命名实体e的训练文档的数量;是不在日期d发生的包含命名实体e的训练文档的数量;Ee,d是假设e,d独立的情况下,在日期d发生的包含命名实体e的训练文档的数量的期望值;是假设e,d独立的情况下,不在日期d发生的包含命名实体e的训练文档的数量的期望值。
当被判断的命名实体与日期的紧密度G满足预设条件(如紧密度G大于某一个值或小于某一个值)时,认为该命名实体为事件实体。进一步地,将具有事件实体的训练文档认定为事件型训练文档,即事件型训练文档是用来描述一个事件的文档,进而获得事件型训练文档集合,即一个或多个事件型训练文档的集合。
S154,对事件型训练文档进行关键词的词频统计,获得事件关键词。
即对事件型训练文档中所提取的关键词进行词频统计,将词频高(如大于某一个值)的关键词认定为事件关键词。
S155,对各事件,根据所述事件实体之间的相似度以及所述事件关键词之间的相似度,进行事件聚合,以获得事件集合。
即对于每个事件,根据事件元素之间的相似度进行合并,例如,对于一个待处理事件A,如果与事件集合中的某个事件B的相似度低于某个阈值t,则合并到B;如果在事件集合中没有相似的事件,则A作为一个新事件被添加到事件集合中。其中,事件元素包括事件实体和事件关键词,在计算两个事件之间的相似度时,要同时考量事件实体之间的相似度以及事件关键词之间的相似度。
S156,对事件集合和事件型训练文档集合进行过滤处理,以从所述事件集合中排除不满足预设置信度的事件,以及从所述事件型训练文档集合中排除与不满足预设置信度的事件相对应的训练文档。
在统计学中,置信度展现的是参数的真实值,因此,低置信度(不满足预设置信度)的事件或训练文档应当被过滤。可以根据每个事件被描述的事件型训练文档的文档数量进行排序,然后结合人工规则和/或文档数量进行过滤处理。比如定义具有某一关键词或文档数量相对较少的事件(如事件被描述的文档数量的平均数为10,而低置信度的事件被描述的文档数量为1)为低置信度的事件,进而从事件集合中删除该事件,从事件型训练文档集合中删除与该低置信度的事件相对应的训练文档。
根据步骤S151~S156可以获取步骤S150中的训练语料,其中,训练语料包括上述各训练文档、事件型训练文档集合和事件集合。
经过步骤S110~S130,可以从各新闻文档中筛选出事件型新闻文档以及事件型新闻文档所描述的事件,请继续参阅图1和图2,本实施例的事件抽取的方法,还包括步骤S140,基于各事件型新闻文档,对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库。
其中,事件库包括一个或多个事件,事件型新闻文档库包括一个或多个事件型新闻文档,事件型新闻文档库中的每一个事件与事件型新闻文档库中的一个或多个事件型新闻文档相对应。
事件聚类的方式有很多种,例如,可以以时间级别先进行在线聚类,即将多个事件型新闻文档按照时间归类划分,以得到多个数据块;然后对每个数据块,可以采用离线聚类的方法进行独立聚类。离线聚类方式有多种,可以比较和权衡各种聚类方法在效率和精度上的差异,选择不同的聚类方式。不同的聚类方法可能会导致不同的聚类结果,也有不同的聚类表示手段。比如可以使用基于关键词构图(KeyGraph)的聚类方式。
下面以KeyGraph聚类方式进行示例,如图4所示,步骤S140包括:
S141,根据各事件型新闻文档的关键词,构建连通图10,如图5所示。
其中,连通图10包括多个关键词11(在图5中用小圆圈表示)和多个连接线12,同一事件型新闻文档中的两个关键词用一个连接线连接,如关键词11A和关键词11B出现在同一个事件型新闻文档,用一个连接线12A连接。
S142,删除中心度最大的连接线,直至达到终止条件,以获得一个或多个连通子图,如连通子图100、101和102。
其中,中心度表示连接线距与中心的距离,删除中心度最大的连接线的方式可以在连通图10上进行社区发现,并根据中间中心性(betweenness_centrality)规则进行连接线删除,即在两个关键词11之间保留一个最短路径的连接线12。一个连通子图用于表示一个事件,例如,连通子图100用于表示事件“0”,连通子图101用于表示事件“1”,连通子图102用于表示事件“2”。进而,连通图10用于表示包括事件“0”、事件“1”……等事件的事件库。终止条件可以是连通子图的数量满足阈值,阈值可以是事件(也叫做事件簇)数量或者最小事件簇节点数。
S143,根据各事件型新闻文档的关键词与各连通子图中的关键词之间的相似度,匹配每个连通子图所对应的一个或多个事件型新闻文档。
其中,每个连通子图(如连通子图100)表示一个事件(如事件“0”),即每个事件可以用其中的多个关键词(如11A和11B)来表示,而每个事件型新闻文档也包括关键词,可以用词频-逆文本频率指数(term frequency–inverse document frequency,IF-IDF)的统计方法,进行事件型新闻文档与事件(连通子图)之间的关键词的相似度计算,进而为每个连通子图匹配一个或多个相对应的事件型新闻文档,该一个或多个相对应的事件型新闻文档用于描述同一事件。
优选地,在步骤S143之后,还可以包括:
S144,对各事件型新闻文档所描述的事件进行聚合,以合并相同或相近似事件。
其中,聚合也有多种手段,例如,可以基于事件关键词之间的相似度:以事件关键词为主体,比对两个事件之间的关键词的相似度,高置信的合并两个事件之间的关键词,组成新的事件,并合并对应的事件型新闻文档;低置信度的新建该事件,并添加至事件库。
下面提供基于本实施例的事件抽取方法的应用示例,如图6所示。
在步骤S110中,获取多个新闻文档,例如当日的小时级新闻文档。
在步骤S120中,对新闻文档进行预处理,预处理后的新闻文档可以不断积累,并加入大数据,以从大数据获得训练语料,该训练语料用于构建事件检测模型。
根据步骤S150~步骤S170,构建事件检测模型,用于在步骤S130中对预处理后的新闻文档进行事件检测,以检测预处理后的新闻文档是否是事件型新闻文档。
在步骤S140中,基于在步骤S130中筛选出的事件型新闻文档,进行聚类处理,以获得当日的事件型新闻文档库以及当日的事件库。
本实施例还提供一种事件抽取的装置,如图7所示,包括:
采集模块110,用于采集多个新闻文档;
预处理模块120,用于预处理各新闻文档,包括对所述新闻文档进行命名实体的识别和关键词的抽取;
事件检测模块130,用于根据所述新闻文档的命名实体和关键词,采用事件检测模型对各新闻文档进行事件检测,以筛选出一个或多个事件型新闻文档;以及
聚类模块140,用于对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库。
如图8所示,在一个实施方式中,所述聚类模块140包括:
连通图构建单元141,用于根据各事件型新闻文档的关键词,构建连通图,其中,所述连通图包括多个关键词和多个连接线,同一事件型新闻文档中的两个关键词用一个连接线连接;
连通子图获得单元142,用于删除中心度最大的连接线,直至达到终止条件,以获得一个或多个连通子图,其中,一个连通子图用于表示一个事件,所述连通图用于表示所述事件库,以及所述终止条件包括所述连通子图的数量满足阈值;以及
匹配单元143,用于根据各事件型新闻文档的关键词与各连通子图中的关键词之间的相似度,匹配每个连通子图所对应的一个或多个事件型新闻文档。
聚合单元144,用于对各事件型新闻文档所描述的事件进行聚合,以合并相同或相近似事件。
如图9所示,在一个实施方式中,本实施例的事件抽取的装置还包括:
训练语料获取模块150,用于获取训练语料;
训练语料处理模块160,用于基于正例和未标注样本学习算法处理所述训练语料;
构建模块170,用于基于处理后的训练语料,采用机器学习模型,构建所述事件检测模型,其中,所述机器学习模型包括支持向量机和深度神经网络中的一种。
如图10所示,训练语料获取模块150包括:
训练文档获取单元151,用于获取多个训练文档;
预处理单元152,用于预处理各训练文档,包括对所述训练文档进行命名实体的识别和关键词的抽取;
事件实体筛选单元153,用于根据所述训练文档的命名实体与日期的紧密度,从各训练文档中筛选出事件实体和事件型训练文档集合,其中,所述事件实体是所述紧密度满足预设条件的命名实体,所述事件型训练文档集合包括一个或多个事件型训练文档,所述事件型训练文档是具有所述事件实体的训练文档,并用于描述一个事件;
事件关键词获得单元154,用于对所述事件型训练文档进行关键词的词频统计,获得事件关键词;
事件聚合单元155,用于对各事件进行事件聚合,以获得事件集合;以及
过滤单元156,用于对所述事件集合和所述事件型训练文档集合进行过滤处理,以从所述事件集合中排除不满足预设置信度的事件,以及从所述事件型训练文档集合中排除与不满足预设置信度的事件相对应的训练文档;
其中,所述事件训练语料包括各训练文档、所述事件型训练文档集合和所述事件集合。
本实施例还提供一种事件抽取的设备,如图11所示,该设备包括:存储器210和处理器220,存储器210内存储有可在处理器220上运行的计算机程序。处理器220执行所述计算机程序时实现上述实施例中的事件抽取的方法。所述存储器210和处理器220的数量可以为一个或多个。
该设备还包括:
通信接口230,用于与外界设备进行通信,进行数据交互传输。
存储器210可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器210、处理器220和通信接口230独立实现,则存储器210、处理器220和通信接口230可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器210、处理器220及通信接口230集成在一块芯片上,则存储器210、处理器220及通信接口230可以通过内部接口完成相互间的通信。
综上所示,本实施例的事件抽取的方法和装置可以从海量新闻中进行事件型新闻文档的筛选以及事件信息的筛选,能保证抽取出的事件大都具有事件的属性,准确率高,并且可以不断积累训练数据,以不断提升事件检测模型的检测效果,本实施例的事件抽取的方法和装置所获得的事件信息可以用来帮助和支持舆情分析,用户新闻推荐,以及文章自动写作等应用。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种事件抽取的方法,其特征在于,包括:
采集多个新闻文档;
预处理各新闻文档,包括对所述新闻文档进行命名实体的识别和关键词的抽取;
根据所述新闻文档的命名实体和关键词,采用事件检测模型对各新闻文档进行事件检测,以筛选出一个或多个事件型新闻文档;以及
对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库。
2.根据权利要求1所述的方法,其特征在于,所述对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库的步骤包括:
根据各事件型新闻文档的关键词,构建连通图,其中,所述连通图包括多个关键词和多个连接线,同一事件型新闻文档中的两个关键词用一个连接线连接;
删除中心度最大的连接线,直至达到终止条件,以获得一个或多个连通子图,其中,一个连通子图用于表示一个事件,所述连通图用于表示所述事件库,以及所述终止条件包括所述连通子图的数量满足阈值;以及
根据各事件型新闻文档的关键词与各连通子图中的关键词之间的相似度,匹配每个连通子图所对应的一个或多个事件型新闻文档。
3.根据权利要求1所述的方法,其特征在于,所述对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库的步骤包括:
对各事件型新闻文档所描述的事件进行聚合,以合并相同或相近似事件。
4.根据权利要求1所述的方法,其特征在于,所述采集多个新闻文档的步骤包括:
以预设时间间隔采集预设时间范围内的多个新闻文档。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述对各新闻文档,根据命名实体和关键词,采用事件检测模型进行事件检测,以筛选出多个事件型新闻文档的步骤之前,还包括:
获取训练语料;
基于正例和未标注样本学习算法处理所述训练语料;
基于处理后的训练语料,采用机器学习模型,构建所述事件检测模型,其中,所述机器学习模型包括支持向量机和深度神经网络中的一种。
6.根据权利要求5所述的方法,其特征在于,所述获取训练语料的步骤包括:
获取多个训练文档;
预处理各训练文档,包括对所述训练文档进行命名实体的识别和关键词的抽取;
根据所述训练文档的命名实体与日期的紧密度,从各训练文档中筛选出事件实体和事件型训练文档集合,其中,所述事件实体是所述紧密度满足预设条件的命名实体,所述事件型训练文档集合包括一个或多个事件型训练文档,所述事件型训练文档是具有所述事件实体的训练文档,并用于描述一个事件;
对所述事件型训练文档进行关键词的词频统计,获得事件关键词;
对各事件进行事件聚合,以获得事件集合;以及
对所述事件集合和所述事件型训练文档集合进行过滤处理,以从所述事件集合中排除不满足预设置信度的事件,以及从所述事件型训练文档集合中排除与不满足预设置信度的事件相对应的训练文档;
其中,所述事件训练语料包括各训练文档、所述事件型训练文档集合和所述事件集合。
7.一种事件抽取的装置,其特征在于,包括:
采集模块,用于采集多个新闻文档;
预处理模块,用于预处理各新闻文档,包括对所述新闻文档进行命名实体的识别和关键词的抽取;
事件检测模块,用于根据所述新闻文档的命名实体和关键词,采用事件检测模型对各新闻文档进行事件检测,以筛选出一个或多个事件型新闻文档;以及
聚类模块,用于对各事件型新闻文档所描述的事件进行聚类,以获得事件库和事件型新闻文档库。
8.根据权利要求7所述的装置,其特征在于,所述聚类模块包括:
连通图构建单元,用于根据各事件型新闻文档的关键词,构建连通图,其中,所述连通图包括多个关键词和多个连接线,同一事件型新闻文档中的两个关键词用一个连接线连接;
连通子图获得单元,用于删除中心度最大的连接线,直至达到终止条件,以获得一个或多个连通子图,其中,一个连通子图用于表示一个事件,所述连通图用于表示所述事件库,以及所述终止条件包括所述连通子图的数量满足阈值;以及
匹配单元,用于根据各事件型新闻文档的关键词与各连通子图中的关键词之间的相似度,匹配每个连通子图所对应的一个或多个事件型新闻文档。
9.根据权利要求7所述的装置,其特征在于,所述聚类模块包括:
聚合单元,用于对各事件型新闻文档所描述的事件进行聚合,以合并相同或相近似事件。
10.根据权利要求7至9任一项所述的装置,其特征在于,所述装置还包括:
训练语料获取模块,用于获取训练语料;
训练语料处理模块,用于基于正例和未标注样本学习算法处理所述训练语料;
构建模块,用于基于处理后的训练语料,采用机器学习模型,构建所述事件检测模型,其中,所述机器学习模型包括支持向量机和深度神经网络中的一种。
11.根据权利要求10所述的装置,其特征在于,所述训练语料获取模块包括:
训练文档获取单元,用于获取多个训练文档;
预处理单元,用于预处理各训练文档,包括对所述训练文档进行命名实体的识别和关键词的抽取;
事件实体筛选单元,用于根据所述训练文档的命名实体与日期的紧密度,从各训练文档中筛选出事件实体和事件型训练文档集合,其中,所述事件实体是所述紧密度满足预设条件的命名实体,所述事件型训练文档集合包括一个或多个事件型训练文档,所述事件型训练文档是具有所述事件实体的训练文档,并用于描述一个事件;
事件关键词获得单元,用于对所述事件型训练文档进行关键词的词频统计,获得事件关键词;
事件聚合单元,用于对各事件进行事件聚合,以获得事件集合;以及
过滤单元,用于对所述事件集合和所述事件型训练文档集合进行过滤处理,以从所述事件集合中排除不满足预设置信度的事件,以及从所述事件型训练文档集合中排除与不满足预设置信度的事件相对应的训练文档;
其中,所述事件训练语料包括各训练文档、所述事件型训练文档集合和所述事件集合。
12.一种事件抽取的设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一所述的方法。
13.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810694341.1A CN109033200B (zh) | 2018-06-29 | 2018-06-29 | 事件抽取的方法、装置、设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810694341.1A CN109033200B (zh) | 2018-06-29 | 2018-06-29 | 事件抽取的方法、装置、设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033200A true CN109033200A (zh) | 2018-12-18 |
CN109033200B CN109033200B (zh) | 2021-03-02 |
Family
ID=65520962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810694341.1A Active CN109033200B (zh) | 2018-06-29 | 2018-06-29 | 事件抽取的方法、装置、设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033200B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726289A (zh) * | 2018-12-29 | 2019-05-07 | 北京百度网讯科技有限公司 | 事件检测方法及装置 |
CN109948019A (zh) * | 2019-01-10 | 2019-06-28 | 中央财经大学 | 一种深层网络数据获取方法 |
CN109960756A (zh) * | 2019-03-19 | 2019-07-02 | 国家计算机网络与信息安全管理中心 | 新闻事件信息归纳方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、***及存储介质 |
CN110674292A (zh) * | 2019-08-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置、设备及介质 |
CN111444347A (zh) * | 2019-01-16 | 2020-07-24 | 清华大学 | 事件演化关系分析方法及装置 |
CN112149422A (zh) * | 2020-09-23 | 2020-12-29 | 中冶赛迪工程技术股份有限公司 | 一种基于自然语言的企业新闻动态监测方法 |
CN112328792A (zh) * | 2020-11-09 | 2021-02-05 | 浪潮软件股份有限公司 | 一种基于dbscan聚类算法识别信用事件的优化方法 |
WO2021027086A1 (zh) * | 2019-08-15 | 2021-02-18 | 苏州朗动网络科技有限公司 | 文本聚类的方法、设备和存储介质 |
CN112632040A (zh) * | 2020-12-31 | 2021-04-09 | 国家核安保技术中心 | 核安保事件库生成方法、装置、设备及计算机存储介质 |
CN112861990A (zh) * | 2021-03-05 | 2021-05-28 | 电子科技大学 | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 |
CN113221538A (zh) * | 2021-05-19 | 2021-08-06 | 北京百度网讯科技有限公司 | 事件库构建方法和装置、电子设备、计算机可读介质 |
CN113515624A (zh) * | 2021-04-28 | 2021-10-19 | 乐山师范学院 | 一种针对突发事件新闻的文本分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
CN106445990A (zh) * | 2016-06-25 | 2017-02-22 | 上海大学 | 事件本体构建方法 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及*** |
CN108897871A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 文档推荐方法、装置、设备及计算机可读介质 |
-
2018
- 2018-06-29 CN CN201810694341.1A patent/CN109033200B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598532A (zh) * | 2014-12-29 | 2015-05-06 | 中国联合网络通信有限公司广东省分公司 | 一种信息处理方法及装置 |
CN106445990A (zh) * | 2016-06-25 | 2017-02-22 | 上海大学 | 事件本体构建方法 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN108052576A (zh) * | 2017-12-08 | 2018-05-18 | 国家计算机网络与信息安全管理中心 | 一种事理知识图谱构建方法及*** |
CN108897871A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 文档推荐方法、装置、设备及计算机可读介质 |
Non-Patent Citations (1)
Title |
---|
蒲梅 等: "基于加权TextRank的新闻关键事件主题句提取", 《计算机工程》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726289A (zh) * | 2018-12-29 | 2019-05-07 | 北京百度网讯科技有限公司 | 事件检测方法及装置 |
CN109948019A (zh) * | 2019-01-10 | 2019-06-28 | 中央财经大学 | 一种深层网络数据获取方法 |
CN111444347A (zh) * | 2019-01-16 | 2020-07-24 | 清华大学 | 事件演化关系分析方法及装置 |
CN109960756A (zh) * | 2019-03-19 | 2019-07-02 | 国家计算机网络与信息安全管理中心 | 新闻事件信息归纳方法 |
WO2021027086A1 (zh) * | 2019-08-15 | 2021-02-18 | 苏州朗动网络科技有限公司 | 文本聚类的方法、设备和存储介质 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、***及存储介质 |
CN110516067B (zh) * | 2019-08-23 | 2022-02-11 | 北京工商大学 | 基于话题检测的舆情监控方法、***及存储介质 |
CN110674292A (zh) * | 2019-08-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置、设备及介质 |
CN112149422A (zh) * | 2020-09-23 | 2020-12-29 | 中冶赛迪工程技术股份有限公司 | 一种基于自然语言的企业新闻动态监测方法 |
CN112149422B (zh) * | 2020-09-23 | 2024-04-05 | 中冶赛迪工程技术股份有限公司 | 一种基于自然语言的企业新闻动态监测方法 |
CN112328792A (zh) * | 2020-11-09 | 2021-02-05 | 浪潮软件股份有限公司 | 一种基于dbscan聚类算法识别信用事件的优化方法 |
CN112632040A (zh) * | 2020-12-31 | 2021-04-09 | 国家核安保技术中心 | 核安保事件库生成方法、装置、设备及计算机存储介质 |
CN112861990A (zh) * | 2021-03-05 | 2021-05-28 | 电子科技大学 | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 |
CN112861990B (zh) * | 2021-03-05 | 2022-11-04 | 电子科技大学 | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 |
CN113515624A (zh) * | 2021-04-28 | 2021-10-19 | 乐山师范学院 | 一种针对突发事件新闻的文本分类方法 |
CN113221538A (zh) * | 2021-05-19 | 2021-08-06 | 北京百度网讯科技有限公司 | 事件库构建方法和装置、电子设备、计算机可读介质 |
CN113221538B (zh) * | 2021-05-19 | 2023-09-19 | 北京百度网讯科技有限公司 | 事件库构建方法和装置、电子设备、计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109033200B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033200A (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
Shu et al. | Beyond news contents: The role of social context for fake news detection | |
CN104573054B (zh) | 一种信息推送方法和设备 | |
US8190621B2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
CN109299994B (zh) | 推荐方法、装置、设备及可读存储介质 | |
CN107437038B (zh) | 一种网页篡改的检测方法及装置 | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
Bauman et al. | Discovering Contextual Information from User Reviews for Recommendation Purposes. | |
CN106383887A (zh) | 一种环保新闻数据采集和推荐展示的方法及*** | |
CN108021660B (zh) | 一种基于迁移学习的话题自适应的微博情感分析方法 | |
CN111241389A (zh) | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN109903086A (zh) | 一种相似人群扩展方法、装置及电子设备 | |
Lee et al. | CAST: A context-aware story-teller for streaming social content | |
Hayes | Using tags and clustering to identify topic-relevant blogs | |
CN106202126B (zh) | 一种用于物流监控的数据分析方法和装置 | |
Noel et al. | Applicability of Latent Dirichlet Allocation to multi-disk search | |
CN108763961B (zh) | 一种基于大数据的隐私数据分级方法和装置 | |
CN105512300B (zh) | 信息过滤方法及*** | |
CN107809370B (zh) | 用户推荐方法及装置 | |
CN110046251A (zh) | 社区内容风险评估方法及装置 | |
Hayes et al. | An analysis of bloggers, topics and tags for a blog recommender system | |
Krokos et al. | A look into twitter hashtag discovery and generation | |
Zaharieva et al. | Cross-platform social event detection | |
Abbasi et al. | Organizing resources on tagging systems using t-org |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |