CN106484767B - 一种跨媒体的事件抽取方法 - Google Patents

一种跨媒体的事件抽取方法 Download PDF

Info

Publication number
CN106484767B
CN106484767B CN201610809600.1A CN201610809600A CN106484767B CN 106484767 B CN106484767 B CN 106484767B CN 201610809600 A CN201610809600 A CN 201610809600A CN 106484767 B CN106484767 B CN 106484767B
Authority
CN
China
Prior art keywords
event
data
alternate message
message
summary frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610809600.1A
Other languages
English (en)
Other versions
CN106484767A (zh
Inventor
尹芷仪
薛聪
向继
查达仁
王雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201610809600.1A priority Critical patent/CN106484767B/zh
Publication of CN106484767A publication Critical patent/CN106484767A/zh
Application granted granted Critical
Publication of CN106484767B publication Critical patent/CN106484767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种跨媒体的事件抽取方法。本方法为:设置种子事件特征库及所需的知识数据;从可信新闻源中采集新闻网页,并提取新闻文本及元数据信息;从每则新闻文本中抽取事件要素信息,生成一初始事件集合;计算初始事件各要素在事件刻画中的重要程度,生成事件初始概要框架;基于事件初始概要框架中的各要素搜索社交网络消息文本,生成候选消息集合;根据候选消息的概要框架与事件概要框架的相似度对候选消息进行过滤,得到初始事件对应的消息队列;将事件初始概要框架中的事件要素和消息队列中存在而初始概要框架中不存在的事件要素生成完备事件数据。本发明能够在海量跨媒体数据环境中实现重大事件的精确抽取。

Description

一种跨媒体的事件抽取方法
技术领域
本发明涉及一种基于新闻媒体和社交网络的跨媒体数据环境中的事件抽取方法,属于信息提取领域。
背景技术
针对新闻事件数据进行科学定量分析已经在态势感知、应急响应、风险预警等社会研究中展开应用。事件数据(Event Data)记录了特定场景中的一次人类活动,包含涉事主体和客体、施事行为、时间、地点、类型、社会学属性等多类要素,通常以多元组形式进行表示,是对现实世界的原子化描述。事件要素的表示类别可分为数字型、描述型、断言型等,数字型数据通常表示事件中的数量信息,描述型数据通常为与事件要素分类的关键词,断言型数据用来表示特定的属性特征。特定主题事件发生前后,新闻媒体和社交网络展开关注,围绕事件的信息通过文本、图像等载体在互联网进行传播,这也使得通过信息提取获得事件数据成为主流方式,形成事件抽取技术。
事件抽取的主要任务是从海量网络数据中发现事件并围绕事件要素进行结构化处理,最终生成可用于机器自动化分析的事件数据,常规的主要处理步骤如下:(1)数据提取,针对不同类别的数据源,建立匹配的数据侦测规则和数据提取接口,并设置规则更新策略应对数据源的接口变化;(2)对原始数据进行预处理,清理数据噪声,对文本、图像、元数据等不同类别数据进行适当的数据封装;(3)结合知识信息和机器学习方法,实现数据的进一步理解,发现与事件要素相关的位置锚点或数据特征,识别并提取事件相关的要素信息;(4)对已经识别的事件要素通过去重、聚类、规范化等一系列处理,生成候选事件数据;(5)事件数据融合,生成精细的结构化事件数据,并集中存储形成事件库。用户可通过统一的事件库访问接口提取事件数据,从而极大简化了数据处理工作,并为研究政治及社会演化提供更大的挖掘空间。
由于新闻文本文章架构统一,语言风格严谨,目前常用的事件抽取方法主要针对新闻媒体中的文本数据,最终生成符合预定格式的事件数据。随着社交网络的普及,用户发布的微博消息成为事件的第一手资料,传播过程中用户自发地补充事件信息,在社交网络中形成了对关键事件的群体效应;同时,社交网络在推动事件演化中逐渐起到重要作用(例如“***之春”事件),使得传统的基于新闻文本的事件萃取方法显现出局限性。此外,复杂场景下的事件分析要求抽取事件要素的多样化,重大事件通常引起一系列关联事件,事件发展的联动关系在传统的新闻数据难以体现,因此需要精细化的事件抽取方法和动态可变的事件数据存储结构。目前尚未发现在综合新闻媒体和社交网络数据进行事件抽取的方法。随着知识关联和机器学习方法的不断成熟,在海量异构跨媒体数据中实现重大事件数据的精确事件抽取具备充分的实现条件。
发明内容
针对上述问题,本发明提供一种跨媒体的事件抽取方法,主要分为知识准备(步骤1)、基础事件要素抽取(步骤2-4)、事件要素扩展(步骤5-9)三个阶段,涵盖了事件初始概要框架、由社交网络信息抽取的候选事件要素和事件融合等方法。主要步骤如下:
(1)设置种子事件特征库及所需的知识数据,包括特定组织、机构、场所、人物等实体要素资料库,关联本体及分类的开放知识图谱资料集,事件行为类别模式库或语料资源等内容。
(2)从设定的可信新闻源中实时采集新闻网页并进行预处理,提取新闻文本及元数据信息。
(3)从每则新闻文本中抽取基础的事件要素信息,生成初始事件数据;并对相似事件数据进行去重或合并,构成初始事件集合。
(4)计算初始事件各要素在事件刻画中的重要程度,生成由基础要素构成的事件初始概要框架。
(5)基于事件的初始概要框架生成社交网络数据的检索框架,采用动态迭代的检索方案实时更新检索框架,提取满足搜索条件的社交网络消息文本,生成候选消息集合。
(6)结合文本语义分析方法,分析候选消息集合中的要素信息及所属分类,分析每个键值对的重要程度,并根据键值对的分析结果生成候选消息的概要框架。
(7)比较候选消息概要框架与事件概要框架的相似度,当满足要求时将候选消息加入到初始事件对应的消息队列。
(8)根据预设的消息排序条件(如社交网络消息的重要程度、发布时间等条件),依次选择消息队列中的键值对作为事件数据的候选事件要素;针对地理坐标等确定性信息,根据已加入消息队列中键值对进行聚类,分析结果加入候选事件要素中。
(9)对上述新闻文本和社交网络数据抽取的候选事件要素,按照时间、地点、实体、类别、结果、规模、社会学属性等方面进一步分类,采用事件融合规则,对事件要素进行规格化整合,生成完备的事件数据。
本发明的积极效果在于:
1、提供了跨媒体数据环境中的多类别事件要素抽取方法,实现了精细化可扩展的事件要素抽取,不仅融入了新闻文本描述规范的优势,抽取事件基础要素;还利用了社交网络文本数据规模大、用户更新、内容覆盖范围广等特性,能够增加事件结果、规模及影响、社会学属性等类别的要素信息。
2、基于事件概要的检索框架和候选消息概要框架的在检索阶段和过滤阶段的双向查询,能够更精准的筛选出与事件相关的社交网络消息。
3、综合了事件要素重要程度对刻画事件的影响,从而保留了更关键可信的事件要素信息。
4、不仅从跨媒体环境的文本数据中抽取事件要素,还结合了社交网络元数据中在描述事件相关的时间、位置、热度等方面的优势。
附图说明
图1是根据本发明一个实施例的跨媒体事件抽取方法流程图。
具体实施方式
本方法提供了一种跨媒体的事件抽取方法,用于在特定类别的重大事件发生后基于新闻媒体和社交网络的相关信息快速生成细粒度结构化的事件数据,包括数据提取、事件概要框架、事件要素抽取和事件融合。下面,结合具体的实施例对本发明进行详细说明,其中社交网络事件抽取以研究微博数据为例,应理解本实施例仅用于解释本发明,并不限于本发明的范围。
参照图1所示为本发明跨媒体事件抽取方法的流程示意图,包括如下步骤:
(1)设置种子事件特征库及所需的知识数据,包括特定组织、机构、场所、人物等实体要素资料库,关联本体及分类的开放知识图谱资料集,事件行为类别模式库或语料资源等内容。
在实施过程中,针对目标事件的主题类型和公共数据资源的主要特点,搜集并选用合适的事件特征库和知识集合,包含了目标事件的特征词集和新闻事件典型语料,用于后续的事件识别及过滤,并建立同步更新规则。实体要素及本体在标注名称的同时,建立同义词、类别等关联,例如人物资料中,“某某某”一词的同义关联词有某国总统、某国最高领导人等,同时又属于政府机构人员,并具有一定的关联时效性,可以使用WordNet语料库和官方组织提供的数据资源;又如“两国签署协定”事件属于合作事件,同时属于具有正面情感倾向的事件,可用编码树形式进行标注。采用DBpedia或Freebase等开源知识库提供本体信息及对应类别的知识图谱,例如“***”对应类别“非营利国际组织”。事件行为模式可从句法结构和语法树中的语言模板等方面定义,句法结构与常规的实体识别方法规则关联,得到事件行为和实体在文本表示中的关系特征,用于后续的事件要素抽取。
(2)从可信的新闻源中实时采集新闻网页并进行预处理,提取新闻文本及元数据信息。
从新闻文本抽取事件数据时应选用可信的新闻媒体,可信新闻源通常会在重大事件发生后第一时间报道,覆盖事件类别全面,从而减少站点RSS种子的集成数量,同时新闻稿件文字编排和参考依据真实性方面也较同行拥有更高质量,为后续处理模块降低难度。可信新闻数据源列表选择时需从权威性、地域性、新鲜度等角度考虑,采集新闻网页应满足大规模实时需求,可采用Redis分布式爬取机制,从新闻网页中提取文本和元数据信息可采用Goose报文提取机制,同时过滤无关数据,更具体的处理过程如下:
a)定义可信新闻源种子列表:按关注地域标注新闻源的覆盖类别,包括国内、国际、局部地区等,并分别设定更新时间,默认为15分钟更新一次。
b)将新闻源列表存储在主服务器中,并划分子任务到下属服务器中,每个新闻源种子分配单独的后台工作线程,并启动文本及元数据信息提取模块。
c)提取模块内从原始网页的html中使用dom、css等结构提取出所有文本标记部分,对于包含多个文本的node结点,根据每个结点下的停用词数量及该结点在网页中的位置布局进行打分,用来判断node的重要程度:一般来说停用词数量越多代表该部分内容越详实,在网页布局中越靠近中心的内容越较为重要,通过这种方式找出核心结点,并提取核心结点中的文本内容作为核心新闻文本。
d)对描述无关事件的新闻文本进行过滤。由于易产生混淆的无关事件通常有明显的文本特征,例如研究政治社会事件时,体育赛事等新闻报道经常采用意为国家较量类型的用词特点,但同时又包含众多“国际联赛”等体育词汇,因此可采用包括无关词特征的剔除词词典,过滤无关事件。
e)根据一些事先定义好的规则或者模板,清除css和脚本中与内容无关的结构标签,保留发布日期、标题信息,完成文本提取及清理。
f)将提取的新闻文本和元数据整合成规定格式的文件,并上传至NoSQL存储架构的数据库中。
(3)根据步骤(1)所需的知识数据从每则新闻文本中抽取基础的事件要素信息,生成初始事件数据;并对相似事件数据进行去重或合并,构成初始事件集合。
新闻文本遵循特定的写作规范,通常靠前的段落介绍新闻事件梗概,靠后的段落主要对事件做进一步补充。因此可综合模板分析和统计学习方法对新闻文本进行分析,更具体的过程如下:
a)使用语句提取器将新闻文本分割成句,应用自然语言处理工具(如斯坦福大学的CoreNLP、北京理工大学的NLPIR等)对新闻摘要(可以选择前六句)进行词法和句法分析,解析成语法树的形式,并识别依存关系。
b)根据词语在语法树中的结构特征以及实体要素资料库,对新闻摘要进行命名实体识别,挖掘出事件中涉及到的人名、地名、机构名等实体对象。
c)根据新闻摘要中的动作核心词,判定行为的涉事主体和客体,根据预定义的事件行为类别模式(例如表1中的内容示意),识别事件的行为关系和所属类别,并计算事件的情感倾向强度。例如研究国际事件时,从政治合作到大规模暴力事件划分为20个大类,并分别定义了相应子类和词语使用特征,情感倾向强度被分配-10到10的评分,军事袭击/大规模暴力事件为-10分,终止军事行动为+10分,发布公开声明为0分。
表1
d)定位新闻文本中的时间描述词,应用TimeML文本时间关系标准和发布时间,对模糊的时间表述(如“本周六”“昨日”等)通过推理规则转换为规范的时间记法。综合文本的时间关系推理出事件的时序关系,将事件与时间标记相匹配。
e)定位文本中的位置描述词,可以使用开源的地理信息标注服务,选取识别为位置状语的第一个标注词作为事件发生地,并根据文本中的地名自动进行查找补全,达到从国家、行政区域到城市的最低识别粒度。如果文本中注明了街道、建筑等精细位置信息,则识别到城市,同时保留该描述字段。
f)将上述要素整合成初始事件数据,事件要素类型值可以使用但不限于如下形式:event=(time,location,actor1,actor2,action,type,scale,url)
其中time为发生时间,描述或数值型要素;location为发生位置,包括描述名称、国别、行政区域、城市等分量,缺省时为空;actor1和actor2分别表示施事主体和受事客体,可用多类字段进行表示,既包括描述型名称,也包括标注实体性质(如人名、官方机构、非官方机构、国际组织等)的断言信息;action记录行为描述词;type表示事件类别,属于断言型要素;scale表示事件的情感倾向,属于数值型要素;url为补充信息,表示原始数据的出处。
例如,8月13日发布的新闻
表2
对应的初始事件数据可表示为
表3
g)当同时段初始事件数据的相似度超过特定阈值时,保留该时段内生成的最新事件数据以进行去重;同时以信息较完整的数据为准,对事件要素进行信息合并,并记录所有相应的来源信息。
(4)计算初始事件各要素在事件刻画中的重要程度,生成由基础要素构成的的事件初始概要框架。
a)事件要素对刻画事件越关键,其重要程度取值越大,取值范围在0到1之间,其中:发生时间要素的重要程度为1;描述型要素的重要程度由其在事件对应的新闻文本中共现频率确定,并进行归一化处理;对于采用多级描述形式的事件要素,例如事件发生位置信息采用地名、城市名、行政区域名、国名多级结构描述,描述型名称的计算方法同上,随着要素描述粒度的扩大,重要程度在该要素性质的基础上适当缩小。。
b)将初始事件数据的各要素取值按照键值对的形式进行展开,并根据要素重要程度对各键值对的重要程度进行赋值,生成事件初始概要框架,如下:P(e)={((ki,vi),ωi(e,(ki,vi)))|(ki,vi)∈E,ωi(e,(ki,vi))∈[0,1]},其中E表示事件e所有要素分量的键值对集合,i的最大取值为所有键值对的个数,(ki,vi)为第i个键值对,ki是要素分量的名称,vi为分量对应取值,ωi为键值对的重要程度。
(5)基于事件的初始概要框架生成社交网络数据的检索框架,采用动态迭代的检索方案实时更新检索框架,提取满足搜索条件的社交网络消息文本,生成候选消息集合。
更具体的过程如下:
a)将事件初始概要框架中的键值对信息作为检索关键词种子,根据同义词集对关键词进行扩展,生成微博检索框架;通过微博开放的数据检索接口,检索事件发生最近一段时间内(比如7天之内)的微博数据。
b)在检索到的微博消息中根据词语或短语的TFIDF值对微博消息中词语或短语进行排名,选取排名较高的词作为关键词,并更新检索框架,进一步按照上述要求检索微博消息。
c)当关键词的发现过程收敛时终止迭代搜索,提取检索到的微博消息文本,记入候选消息集合。
(6)根据步骤(1)中的知识数据,结合文本语义分析方法,分析候选消息集合中的要素信息及所属分类,分析每个键值对的重要程度,并根据键值对的分析结果生成候选消息的概要框架。
更具体的过程如下:
a)从微博消息中提取候选消息元数据中的图片元数据或用户地理位置信息,得到候选消息对应的地理坐标信息。
b)对候选消息进行命名实体识别和浅层语义分析,定位每条微博涉及的实体信息和语义角色。
c)使用知识图谱资料集及关联工具,将博文中的实体信息映射到相关概念,得到微博中包含的键值对信息。例如一则微博“距离***地点约2公里的万通新城国际小区,财产损失严重”中识别出实体“万通新城国际小区”属于“居民区”类别。
d)对微博文本进行分类识别或聚类,并建立所属类别和关键词的关联,形成一组键值对,与该条微博文本一并存储。重大事件发生后,微博内容通常分为以下类别:事件影响、原因剖析、潜在风险、当事人经历、用户评论等,根据文本特征及相应的类别识别规则,对文本进行分类;然后将已经识别出的键值对信息映射到相应的类别,例如“事件影响”类别的微博下可能包括如下键值对,(死亡人数,165)、(受伤人数,798)、(居民区,万通新城国际小区)等。
e)从微博元数据、用户关注度和微博发布地理位置信息等方面评估微博消息内容的重要程度。微博元数据中包括该则微博的转发、评论等关注热度,通常热度越高,该则消息内容越重要;用户关注度指发布者的粉丝数量,表示发布者的影响力;微博发布的地理位置与初始事件框架中的地理位置进行比较,地理距离在一定范围内则标识为当事人消息,重要度提高。重要程度的评估模型可以采用score=MS+US+LS,其中MS是根据元数据计算的微博热度得分,US是根据用户信息计算的得分,LS是根据地理相对位置计算的得分,最终得到的score进行归一化处理,取值在0到1之间。
f)整合每条微博的键值对信息,并根据键值对的查询得分和微博重要程度信息,形成关于候选微博消息m的概要框架,即
P(m)={((ki,vi),si(m,(ki,vi)))|(ki,vi)∈M,si(m,(ki,vi))∈[0,1]};其中si(m,(ki,vi))为消息文本中抽取的键值对(ki,vi)的重要程度,根据微博m的重要程度score和键值对在候选消息键值对的TFIDF值共同计算得出;i的最大取值为该微博消息(包括文本和元数据)中所包含键值对的个数;一条微博消息的概要框架包含的键值对可能为空,也可能包含多组信息,M表示候选消息m所有要素分量的键值对集合,ki是第i个要素分量的名称,vi为分量对应取值。
(7)比较候选消息概要框架与事件概要框架的相似度,当满足要求时,将候选消息加入到该事件的消息队列。
由事件概要框架P(e)触发的微博检索方法是根据文本进行的查询过滤。通过调整余弦相似度或明氏距离方法计算每条候选消息的概要框架P(m)与P(e)的相似度,并根据相似度的阈值建立候选消息的过滤规则,实现语义过滤,从而得到更精确的事件消息队列。
(8)根据预设的消息排序条件(如社交网络消息的重要程度、发布时间等条件),依次选择消息队列中的键值对作为事件数据的候选事件要素;针对地理坐标等确定性信息,根据已加入消息队列中键值对进行聚类,分析结果加入候选事件要素中。
事件的微博消息队列包含了事件更精细化的要素信息,需要按照特定规则条件加入到事件数据中,更进一步的说明如下:
a)对微博消息列表中的消息进行排序:可以按照微博重要程度score或微博概要框架与初始事件概要框架的相似度进行排序,也可按照微博消息的发布时间与事件概要框架中的时间的接近程度由小到大排序,用户还可以综合构建定制化的排序策略。
b)按照队列顺序依次提取微博,如果该条微博对应的键值对信息未出现在当前的事件概要框架,则加入到事件数据的候选事件要素中,直到没有新的信息加入为止。
c)对消息队列中大量的地理坐标数据,通过异常点剔除和聚类分析,可以获得事件发生的准确经纬度,特别是对多个发生地点的事件,该步骤起到更加精确的效果。
(9)对上述新闻文本和社交网络数据抽取的候选事件要素,按照时间、地点、实体、类别、结果、规模、社会学属性等方面进一步分类,采用事件融合规则,对事件要素进行规格化整合,生成完备的事件数据。
由于事件概要框架和通过微博数据得到的候选事件要素中可能存在内容重叠的情况,例如“812天津港特大***”事件中的涉事实体要素,对应的取值可能是“瑞海物流”、“瑞海公司”、“天津港港务集团”等,因此需要对事件的同类信息进行整合,相似信息进行合并等操作,更进一步的说明如下:
a)根据知识和训练数据,对要素类别名称进行分类,类别包括发生时间、发生地点、施事主体、受事客体、事件类别、事件结果、规模及影响、社会学属性等,所涉及的类别作为事件数据的最外层的描述标签。
b)根据知识图谱提供的概念网络,将要素类别名称加入到事件数据的子标签中,必要时可加入中间概念节点。
c)对候选事件要素的取值类型进行规格化处理,并将类型标签(描述型、断言型、数值型等)和取值内容加入到事件数据,形成完备的事件数据。
表4完备事件部分节取

Claims (8)

1.一种跨媒体的事件抽取方法,其步骤为:
1)设置种子事件特征库及所需的知识数据;
2)从设定的可信新闻源中采集新闻网页,并从采集的新闻网页中提取新闻文本及元数据信息;
3)根据所述种子事件特征库及所需的知识数据从每则新闻文本中抽取事件要素信息,生成初始事件数据,得到一初始事件集合;
4)计算初始事件各要素在事件刻画中的重要程度,生成事件的初始概要框架;其中,所述事件的初始概要框架为P(e)={((ki,vi),ωi(e,(ki,vi)))|(ki,vi)∈E,ωi(e,(ki,vi))∈[0,1]};E表示事件e所有要素分量的键值对集合,ki是第i个要素分量的名称,vi为分量对应取值,ωi为第i个键值对(ki,vi)的重要程度;
5)基于事件的初始概要框架中的各要素搜索社交网络消息文本,生成候选消息集合;
6)结合文本语义分析方法,分析候选消息集合中所包含的要素信息及所属分类,生成每一候选消息的概要框架;
7)根据候选消息的概要框架与所述事件的初始概要框架的相似度对候选消息进行过滤,得到初始事件对应的消息队列;
8)将所述事件的初始概要框架中的事件要素和消息队列中存在而事件初始概要框架中不存在的事件要素加入到一候选事件要素集合;
9)根据候选事件要素集合中的事件要素生成完备事件数据;
其中,生成候选消息的概要框架的方法为:
a)提取候选消息元数据中的图片元数据或用户地理位置信息,得到候选消息对应的地理坐标信息;
b)对候选消息进行命名实体识别和浅层语义分析,定位每条候选消息的实体信息和语义角色;
c)根据所述知识数据对候选消息的实体信息进行映射,得到该候选消息中包含的键值对信息;
d)对步骤c)得到的键值对信息进行分类识别或聚类,建立所属类别和关键词的关联,得到该候选消息的若干组键值对,并评估该候选消息的重要程度;
e)根据候选消息的键值对及其重要程度信息,形成该候选消息的概要框架。
2.如权利要求1所述的方法,其特征在于,生成候选消息集合的方法为:
a)将事件的初始概要框架中的键值对信息作为检索关键词种子,根据同义词集对关键词进行扩展,生成候选消息检索框架并检索设定时间内的候选消息;
b)根据检索到的候选消息中分词的TFIDF值对分词进行排名,根据排名选取若干分词作为关键词更新候选消息检索框架,然后迭代检索设定时间内的候选消息;当关键词的发现过程收敛时终止迭代搜索,将检索到的候选消息作为候选消息集合。
3.如权利要求1或2所述的方法,其特征在于,所述候选消息的概要框架为P(m)={((ki,vi),si(m,(ki,vi)))|(ki,vi)∈M,si(m,(ki,vi))∈[0,1]};其中,si(m,(ki,vi))为候选消息m中抽取的键值对(ki,vi)的重要程度,M表示候选消息m所有要素分量的键值对集合,ki是第i个要素分量的名称,vi为分量对应取值。
4.如权利要求1或2所述的方法,其特征在于,所述种子事件特征库及所需的知识数据包括:实体要素资料库,关联本体及分类的开放知识图谱资料集,事件行为类别模式库或语料资源。
5.如权利要求4所述的方法,其特征在于,根据种子事件特征库及所需的知识数据从每则新闻文本中抽取事件要素信息,生成初始事件数据的方法为:
a)对新闻文本进行分句,将新闻摘要解析成语法树并识别依存关系;
b)根据词语在语法树中的结构特征以及实体要素资料库,对新闻摘要进行命名实体识别,得到事件中涉及到的实体对象;
c)根据新闻摘要中的动作核心词判定行为的涉事的主体和客体,根据预定义的事件行为类别模式,识别事件的行为关系和所属类别,并计算事件的情感倾向强度;
d)定位新闻文本中的时间描述词,将模糊的时间表述转换为规范的时间记法,并将事件与时间标记进行匹配;
e)定位新闻文本中的位置描述词,选取识别为位置状语的第一个标注词作为事件发生地,并根据新闻文本中的地名自动进行查找补全;
f)将上述要素整合成初始事件数据。
6.权利要求1或2所述的方法,其特征在于,计算初始事件的各要素对刻画事件的重要程度的方法为:事件要素对刻画事件越重要,其重要程度取值越大;其中:发生时间要素的重要程度为重要程度最大值;描述型要素的重要程度根据其在新闻文本中的共现频率确定。
7.如权利要求1或2所述的方法,其特征在于,生成所述完备事件数据的方法为:
a)对候选事件要素集合中的事件要素进行分类,类别包括发生时间、发生地点、施事主体、受事客体、事件类别、事件结果、规模及影响、社会学属性;将事件要素的类别作为事件数据的最外层的描述标签;
b)根据所述知识数据中的知识图谱提供的概念网络,将事件要素的类别名称加入到事件数据的子标签中;
c)对候选事件要素的取值类型进行规格化处理,得到取值类型标签;然后将取值类型标签和取值内容加入到事件数据,形成完备的事件数据。
8.如权利要求1所述的方法,其特征在于,所述初始事件数据的要素类型格式为event=(time,location,actor1,actor2,action,type,scale,url);其中,time为发生时间,location为发生位置,actor1为施事主体,actor2为受事客体,action为行为描述词,type表示事件类别,scale表示事件的情感倾向,url为原始数据的出处。
CN201610809600.1A 2016-09-08 2016-09-08 一种跨媒体的事件抽取方法 Active CN106484767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610809600.1A CN106484767B (zh) 2016-09-08 2016-09-08 一种跨媒体的事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610809600.1A CN106484767B (zh) 2016-09-08 2016-09-08 一种跨媒体的事件抽取方法

Publications (2)

Publication Number Publication Date
CN106484767A CN106484767A (zh) 2017-03-08
CN106484767B true CN106484767B (zh) 2019-06-21

Family

ID=58273654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610809600.1A Active CN106484767B (zh) 2016-09-08 2016-09-08 一种跨媒体的事件抽取方法

Country Status (1)

Country Link
CN (1) CN106484767B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229712A (zh) * 2017-05-27 2017-10-03 中南大学 一种面向公共安全事件信息获取的时空聚类方法
CN107766477A (zh) * 2017-09-30 2018-03-06 武汉汉思信息技术有限责任公司 页面结构化数据提取方法、终端设备及存储介质
CN108920447B (zh) * 2018-05-07 2022-08-05 国家计算机网络与信息安全管理中心 一种面向特定领域的中文事件抽取方法
CN109033074B (zh) * 2018-06-29 2023-05-23 北京百度网讯科技有限公司 新闻摘要生成方法、装置、设备及计算机可读介质
CN108959626B (zh) * 2018-07-23 2023-06-13 四川省烟草公司成都市公司 一种跨平台异构数据简报高效自动生成方法
CN109408806A (zh) * 2018-09-11 2019-03-01 中国电子科技集团公司第二十八研究所 一种基于英文语法规则的事件提取方法
CN109241438B (zh) * 2018-09-27 2022-06-24 国家计算机网络与信息安全管理中心 基于要素的跨通道热点事件发现方法、装置及存储介质
CN111428041B (zh) * 2019-01-09 2023-06-16 阿里巴巴集团控股有限公司 案件摘要生成方法、装置、***和存储介质
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110134842B (zh) * 2019-04-03 2021-08-31 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN110297885B (zh) * 2019-05-27 2021-08-17 中国科学院深圳先进技术研究院 实时事件摘要的生成方法、装置、设备及存储介质
WO2020237479A1 (zh) * 2019-05-27 2020-12-03 中国科学院深圳先进技术研究院 实时事件摘要的生成方法、装置、设备及存储介质
CN110471993B (zh) * 2019-07-05 2022-06-17 武楚荷 一种事件的关联方法、装置以及存储装置
CN110457468B (zh) * 2019-07-05 2022-08-23 武楚荷 一种事件的分类方法、装置以及存储装置
CN110334220A (zh) * 2019-07-15 2019-10-15 中国人民解放军战略支援部队航天工程大学 一种基于多数据源的知识图谱构建方法
CN110472066B (zh) * 2019-08-07 2022-03-25 北京大学 一种城市地理语义知识图谱的构建方法
CN111191413B (zh) * 2019-12-30 2021-11-12 北京航空航天大学 一种基于图排序模型的事件核心内容自动标记方法、装置及***
CN111191046A (zh) * 2019-12-31 2020-05-22 北京明略软件***有限公司 一种实现信息搜索的方法、装置、计算机存储介质及终端
CN113495951A (zh) * 2020-04-03 2021-10-12 源析(青岛)信息技术有限公司 一种面向持续性社会事件的知识图谱的构建方法
CN111966890B (zh) * 2020-06-30 2023-07-04 北京百度网讯科技有限公司 基于文本的事件推送方法、装置、电子设备和存储介质
CN111782907B (zh) * 2020-07-01 2024-03-01 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN112036171B (zh) * 2020-09-04 2024-06-25 平安科技(深圳)有限公司 医学特定指称及其关系的抽取方法、***及装置
CN112328856A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 公共事件追踪方法、装置、计算机设备及计算机可读介质
CN113033201B (zh) * 2020-11-06 2023-07-28 新华智云科技有限公司 一种地震新闻信息抽取方法及其***
CN112328794B (zh) * 2020-11-10 2021-08-24 南京师范大学 台风事件信息聚合方法
CN112560461A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 新闻线索的生成方法、装置、电子设备及存储介质
CN112579738A (zh) * 2020-12-23 2021-03-30 广州博冠信息科技有限公司 目标对象的标签处理方法、装置、设备及存储介质
CN112597772A (zh) * 2020-12-31 2021-04-02 讯飞智元信息科技有限公司 一种热点信息确定方法、计算机设备以及装置
CN113065051B (zh) * 2021-04-02 2022-04-15 西南石油大学 一种可视化农业大数据分析交互***
CN113326352B (zh) * 2021-06-18 2022-05-24 哈尔滨工业大学 一种基于异构事件图的子事件关系识别方法
CN113609309B (zh) * 2021-08-16 2024-02-06 脸萌有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN113901125A (zh) * 2021-09-17 2022-01-07 盐城金堤科技有限公司 数据展示方法和装置、及存储介质和电子设备
CN114372159B (zh) * 2022-01-07 2024-05-07 北京中视广信科技有限公司 一种体育赛事直播的全媒体内容智能感知及关联的方法
CN114065769B (zh) * 2022-01-14 2022-04-08 四川大学 情感原因对抽取模型的训练方法、装置、设备及介质
CN114880588B (zh) * 2022-06-13 2024-04-26 四川封面传媒科技有限责任公司 基于知识图谱的新闻热度预测方法
CN115422948B (zh) * 2022-11-04 2023-01-24 文灵科技(北京)有限公司 一种基于语义分析的事件层次网络识别***及方法
CN117688042A (zh) * 2023-12-01 2024-03-12 合肥大智慧财汇数据科技有限公司 实现多源相似事件实时去重的方法、***和存储介质
CN117435697B (zh) * 2023-12-21 2024-03-22 中科雨辰科技有限公司 一种获取核心事件的数据处理***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778200A (zh) * 2014-01-09 2014-05-07 中国科学院计算技术研究所 一种报文信息源抽取方法及其***
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN105389354A (zh) * 2015-11-02 2016-03-09 东南大学 面向社交媒体文本的无监督的事件抽取和分类方法
CN105389304A (zh) * 2015-10-27 2016-03-09 小米科技有限责任公司 事件提取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778200A (zh) * 2014-01-09 2014-05-07 中国科学院计算技术研究所 一种报文信息源抽取方法及其***
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN105389304A (zh) * 2015-10-27 2016-03-09 小米科技有限责任公司 事件提取方法及装置
CN105389354A (zh) * 2015-11-02 2016-03-09 东南大学 面向社交媒体文本的无监督的事件抽取和分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于框架的事件抽取研究;金璐钰;《高科技与产业化》;20100930(第9期);111-112 *

Also Published As

Publication number Publication date
CN106484767A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN106484767B (zh) 一种跨媒体的事件抽取方法
CN110941692B (zh) 互联网政治外交类新闻事件抽取方法
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
CN108073569B (zh) 一种基于多层级多维度语义理解的法律认知方法、装置和介质
Sankaranarayanan et al. Twitterstand: news in tweets
CN112131449B (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN102567509B (zh) 视觉信息辅助的即时通信方法及***
US20100306206A1 (en) System and method for high precision and high recall relevancy searching
CN103984771B (zh) 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
CN105631749A (zh) 基于统计数据的用户画像计算方法
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN107480137A (zh) 用语义迭代提取网络突发事件并识别外延事件关系的方法
CN102214227B (zh) 基于互联网层次结构存储的自动舆情监控方法
CN112015908A (zh) 知识图谱的构建方法及***、查询方法及***
CN102117285A (zh) 一种基于语义索引的检索方法
Di Gregorio et al. Overview of land-cover classifications and their interoperability
Phuvipadawat et al. Detecting a multi-level content similarity from microblogs based on community structures and named entities
CN106777395A (zh) 一种基于社区文本数据的话题发现***
Lindgren Crowdsourcing knowledge: Interdiscursive flows from Wikipedia into scholarly research
KR101092165B1 (ko) 웹 문서의 분류 및 분석 정확도를 향상시키는 문서 전처리 장치
Buccio et al. A linked open data approach for geolinguistics applications
CN113268607A (zh) 知识图谱的构建方法和装置
ElGindy et al. Capturing place semantics on the geosocial web
Bossé et al. Domain Specific Fusion of Unstructured Text for Situation Understanding (Poster)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant