CN110737821B - 相似事件查询的方法、装置、存储介质和终端设备 - Google Patents

相似事件查询的方法、装置、存储介质和终端设备 Download PDF

Info

Publication number
CN110737821B
CN110737821B CN201810719378.5A CN201810719378A CN110737821B CN 110737821 B CN110737821 B CN 110737821B CN 201810719378 A CN201810719378 A CN 201810719378A CN 110737821 B CN110737821 B CN 110737821B
Authority
CN
China
Prior art keywords
event
trigger
similar
events
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810719378.5A
Other languages
English (en)
Other versions
CN110737821A (zh
Inventor
韦庭
潘旭
尹存祥
雍倩
吴伟佳
崔路男
李云聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201810719378.5A priority Critical patent/CN110737821B/zh
Publication of CN110737821A publication Critical patent/CN110737821A/zh
Application granted granted Critical
Publication of CN110737821B publication Critical patent/CN110737821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种相似事件查询的方法、装置、存储介质和终端设备,其中,所述方法包括:根据待查询事件的主题类别,从事件库中获取与所述主题类别相匹配的事件,获得主题事件集合;其中,所述事件库包括多个事件,每个事件包括事件的主题类别、触发词和事件特征;根据所述待查询事件的触发词,判断所述主题事件集合是否包括与所述触发词相匹配的事件;以及当所述主题事件集合包括与所述触发词匹配的事件时,根据所述待查询事件的事件特征,从所述主题事件集合中获取与所述待查询事件相似的事件。采用本发明,可以减少计算事件相似度的计算量,提高获取相似事件的效率。

Description

相似事件查询的方法、装置、存储介质和终端设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种相似事件查询的方法、装置、存储介质和终端设备。
背景技术
舆情分析是根据特定的问题或事件的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程。在舆情分析和处置的过程中,如果能有相似事件做参考,对媒体工作者来说,可以丰富素材,写出更有深度的报道。以及对于事件中的当事方,可以学习前人的经验教训,更好的处置事件,将损失降到最低。例如:北京单位A发生事件C。如果通过相似事件的召回,可以发现:在此事件发生之前,在上海单位B发生了一起事件C。对媒体、相关管理部门来,可以参考单位B发生的事件C的舆情处置的情况,来对单位A发生的事件C进行舆情分析和处置。
目前,业内对事件的处理,一般是对事件或者话题的进行追踪。但是,事件或话题的追踪主要是对同一个事件或话题在不同时间段进行分析,与相似事件的概念不同。对于相似事件的召回,通常的做法是:根据文本相似度对事件聚类。例如,根据事件名称,进行两两计算事件的相似度。
但是上述通过事件名称进行两两计算事件的相似度,存在以下缺点:
1、效率低。当事件库内包含的事件过多时,两两事件之间的相似度的计算效率低,难以通过在线的方式提供服务。
2、检索效果不佳。通过相似度阈值来设置事件是否相似会导致:若相似度阈值设置较高,则检索结果是同一事件或同一事件在不同时间段的进程。若相似度阈值设置较低,则检索结果中事件不相似。难以把握相似度阈值,检索效果不佳。
发明内容
本发明实施例提供一种相似事件查询的方法、装置、存储介质和终端设备,以解决或缓解现有技术中的以上一个或多个技术问题。
第一方面,本发明实施例提供了一种相似事件查询的方法,包括:
根据待查询事件的主题类别,从事件库中获取与所述主题类别相匹配的事件,获得主题事件集合;其中,所述事件库包括多个事件,每个事件包括事件的主题类别、触发词和事件特征;
根据所述待查询事件的触发词,判断所述主题事件集合是否包括与所述触发词相匹配的事件;以及
当所述主题事件集合包括与所述触发词匹配的事件时,根据所述待查询事件的事件特征,从所述主题事件集合中获取与所述待查询事件相似的事件。
结合第一方面,在第一方面的第一种实施方式中,所述根据所述待查询事件的触发词和事件特征,从所述主题事件集合中获取与所述待查询事件相似的事件,包括:
根据所述待查询事件的触发词,从所述主题事件集合中选取与所述触发词相匹配的事件,获得触发事件集合;
根据所述待查询事件的事件特征,计算所述待查询事件与所述触发事件集合中每个事件的相似度;以及
根据所述待查询事件与所述触发事件集合中每个事件的相似度,从所述触发事件集合中选取与所述待查询事件相似的事件。
结合第一方面,在第一方面的第二种实施方式中,所述方法还包括:
当所述主题事件集合不包括与所述触发词相匹配的事件时,根据所述待查询事件的触发词和事件特征,从所述事件库中获取与所述待查询事件相似的事件。
结合第一方面的第二种实施方式,在第一方面的第三种实施方式中,所述根据所述待查询事件的触发词和事件特征,从所述事件库中获取与所述待查询事件相似的事件,包括:
根据所述待查询事件的触发词,从所述事件库中获取与所述触发词相匹配的事件,获得触发事件集合;
根据所述待查询事件的事件特征,计算所述待查询事件与所述触发事件集合中每个事件的相似度;以及
根据所述待查询事件与所述触发事件集中每个事件的相似度,从所述触发事件集合中选取与所述待查询事件相似的事件。
结合第一方面或其任一种实施方式,在第一方面的第四种实施方式中,所述根据所述待查询事件的事件特征,计算所述待查询事件与所述触发事件集合中每个事件的相似度,包括:
分别设置所述待查询事件的每一类特征对应的权重值;
对于所述每一类特征,分别计算所述待查询事件与所述触发事件集合中每个事件之间的特征相似度;
对于所述触发事件集合中的每个事件,根据所述事件的每一类特征对应的权重值,以及所述事件与所述待查询事件之间的特征相似度,计算获得所述事件与所述待查询事件的相似度。
结合第一方面,在第一方面的第五种实施方式中,所述方法还包括:
对所述待查询事件的事件标题进行分词,并从中抽取包含动作的词语,并添加到触发词库中。
结合第一方面,在第一方面的第六种实施方式中,所述方法还包括:
从互联网中实时收集资讯数据;
对收集到的资讯数据进行预处理,获得待收集的事件;
确定所述待收集的事件的主题类别、触发词和事件特征;以及
根据所述待收集的事件的标识与所述待收集的事件的主题类别、触发词和事件特征,关联存储于所述事件库中。
结合第一方面的第六种实施方式,在第一方面的第七种实施方式中,所述确定所待收集的事件的主题类别、触发词和事件特征,包括:
根据所述待收集的事件的主题进行主题分类,确定所述待收集的事件的主题类别;
结合触发词库,对所述待收集的事件的事件标题进行依存句法分析,从所述事件标题中获取所述待收集的事件的触发词;以及
根据所述待收集的事件的事件标题和事件内容,确定所述待收集的事件的事件特征。
结合第一方面的第七种实施方式,在第一方面的第八种实施方式中,所述事件特征至少包括实体词、命名实体或关注点中的一者,以及所述根据所述待收集的事件的事件内容,确定所述待收集的事件的事件特征,包括:
查询预设的实体词词典,从所述待收集的事件的事件标题中提取实体词;
根据深度序列标注算法,从所述待收集的事件的事件内容中识别命名实体;以及
结合预设的关注点图谱,根据所述待收集事件的主题、事件内容对应的话题和实体词,计算获得所述待收集的事件的关注点。
第二方面,本发明实施例还提供一种相似事件查询的装置,包括:
主题事件集合模块,用于根据待查询事件的主题类别,从事件库中获取与所述主题类别相匹配的事件,获得主题事件集合;其中,所述事件库包括多个事件,每个事件包括事件的主题类别、触发词和事件特征;
触发事件判断模块,用于根据所述待查询事件的触发词,判断所述主题事件集合是否包括与所述触发词相匹配的事件;以及
第一相似事件获取模块,用于当所述主题事件集合包括与所述触发词匹配的事件时,根据所述待查询事件的事件特征,从所述主题事件集合中获取与所述待查询事件相似的事件。
结合第二方面,在第二方面的第一种实施方式中,所述第一相似事件获取模块包括:
触发事件集合单元,用于根据所述待查询事件的触发词,从所述主题事件集合中选取与所述触发词相匹配的事件,获得触发事件集合;
相似度计算单元,用于根据所述待查询事件的事件特征,计算所述待查询事件与所述触发事件集合中每个事件的相似度;以及
事件选取单元,用于根据所述待查询事件与所述触发事件集合中每个事件的相似度,从所述触发事件集合中选取与所述待查询事件相似的事件。
结合第二方面,在第二方面的第二种实施方式中,所述装置还包括:
第二相似事件获取模块,用于当所述主题事件集合不包括与所述触发词相匹配的事件时,根据所述待查询事件的触发词和事件特征,从所述事件库中获取与所述待查询事件相似的事件。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,相似事件查询的结构中包括处理器和存储器,所述存储器用于相似事件查询的装置执行上述第一方面中相似事件查询的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述相似事件查询的装置还可以包括通信接口,用于相似事件查询的装置与其他设备或通信网络通信。
第三方面,本发明实施例还提供一种计算机可读存储介质,用于相似事件查询的装置所用的计算机软件指令,其中包括用于执行上述第一方面的相似事件查询的方法所涉及的程序。
上述技术方案中的任意一个技术方案具有如下优点或有益效果:
本发明实施例可以根据待查询事件的主题类别,从事件库中提取与该主题类别相匹配的案件于主题事件集合中,从主题事件集合中获取与待查询事件相似的事件,可以减少计算事件相似度的计算量,提高获取相似事件的效率。依据待查询事件的触发词,判断是否可以从主题事件集合中提取事件,当主题事件集合中包括与触发词匹配的事件,说明此主题事件集合中事件与待查询事件较为相似,可以从集合中提取事件。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1是本发明提供的相似事件查询的方法的一个实施例的流程示意图;
图2是本发明提供的从主题事件集合中获取相似事件的过程的一个实施例的流程示意图;
图3是本发明提供的相似事件查询的方法的另一个实施例的流程示意图;
图4是本发明提供的从事件库中获取相似事件的过程的一个实施例的流程示意图;
图5是本发明提供的在事件库中添加事件的过程的一个实施例的流程示意图;
图6是本发明提供的主题、触发词及事件特征的确定过程的一个实施例的流程示意图;
图7是本发明提供的事件特征确定过程的一个实施例的流程示意图;
图8是发明提供的事件的关注点计算过程的一个实施例的流程示意图;
图9是本发明提供的事件库增量更新的过程的一个应用示例的流程示意图;
图10是本发明提供的相似事件查询的方法的一个应用示例的流程示意图;
图11是本发明提供的相似事件查询的装置的一个实施例的结构示意图;
图12是本发明提供的第一相似事件获取模块的一个实施例的结构示意图;
图13是本发明提供的终端设备的一个实施例的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
请参阅图2,本发明实施例提供了一种相似事件查询的方法,可以应用于终端设备。终端设备可以包括计算机、智能手机、平板等。本实施例包括步骤S100至步骤S300,具体如下:
S100,根据待查询事件的主题类别,从事件库中获取与主题类别相匹配的事件,获得主题事件集合。其中,事件库包括多个事件,每个事件包括事件的主题类别、触发词和事件特征。
在本实施例中,事件可以定义为由某些原因或条件引起,发生在特定时间和特定地点,并可能伴随某些必然结果的一个事情。在收集事件于事件库时,可以根据事件的定义,判断收集到的资料是否为事件。可以基于长短期记忆网络(Long Short-Term Memory,LSTM)构建文本分类器,根据文本类器对事件进行识别。主题类别可以包括时政、社会、财经、交通、科技、体育、教育等。主题事件集合中事件的主题所属类别属于同一类。触发词用于描述事件的发生动作。事件特征用于描述事件的内容,可以包括事件内容中的专有名词、描述事件内容的标签(关键词)等。专有名词可以包括人名、地名、组织名、品牌、作品、奖项、活动类型等。
示例性地,如果待查询事件A的主题类别是“体育”,从事件库中获取主题类别为“体育”的事件,加入到主题事件集合中。例如,主题事件集合包含事件K,事件K的主题类别也为“体育”,则可以事件K加入到触发事件集合。
S200,根据待查询事件的触发词,判断主题事件集合是否包括与触发词相匹配的事件。
S300,当主题事件集合包括与触发词匹配的事件时,根据待查询事件的事件特征,从主题事件集合中获取与待查询事件相似的事件。
本发明实施例可以根据待查询事件的主题类别,从事件库中提取与该主题类别相匹配的案件于主题事件集合中,从主题事件集合中获取与待查询事件相似的事件,可以减少计算事件相似度的计算量,提高获取相似事件的效率。依据待查询事件的触发词,判断是否可以从主题事件集合中提取事件。当主题事件集合中包括与触发词匹配的事件,说明此主题事件集合中事件与待查询事件较为相似,可以从集合中提取事件。
在一种可能的实现方式中,如图2所示,上述步骤S300中,从主题事件集合中获取与待查询事件相似的事件的过程,可以包括:
S310,根据待查询事件的触发词,从主题事件集合中选取与触发词相匹配的事件,获得触发事件集合。
示例性地,如果待查询事件A的触发词为“失信”,可以从主题事件集合中获取触发词与“失信”一词相同的事件。例如,主题事件集合包含事件B,事件B的触发词也为“失信”,则可以事件B加入到触发事件集合。
S320,根据待查询事件的事件特征,计算待查询事件与触发事件集合中每个事件的相似度。
S330,根据待查询事件与触发事件集合中每个事件的相似度,从触发事件集合中选取与待查询事件相似的事件。
在本实施例中,主题事件集合中包含与触发词相匹配的事件,相比集合中的其他事件,与待查询事件之间的相似程度更高。因而,将主题事件集合中包含与触发词相匹配的事件,组合成触发事件集合,然后再从触发事件集合中选取与待查询事件相似的事件,减少了需要计算相似的事件,可以进一步减少相似度的计算量。
在一种可能实现方式中,如果在主题事件集合中匹配不到与触发词匹配的事件,则需要从事件库中获取与待查询事件相似的事件。如图3所示,本实施例提供的方法还包括步骤S400,如下:
S400,当主题事件集合不包括与触发词相匹配的事件时,根据待查询事件的触发词和事件特征,从事件库中获取与待查询事件相似的事件。
在本实施例中,触发词描述的是事件的发生动作,则如果两个事件的触发词不相同,则事件的相似程度较低。因而,如果主题事件集合不包括与触发词相匹配的事件,则说明主题事件集合中的事件与待查询事件的相似程度较低,可以不从主题事件集合中获取相似事件,可以返回从事件库中获取相似事件。获取的方式可以包括:根据事件之间的触发词以及事件特征的相似程度,从事件库中获取。
在一种可能的实现方式中,从事件库中获取与待查询事件相似的事件的过程,可以先根据触发词进行事件初筛,获取一个触发事件集合,然后再进行事件提取。如图4所示,此过程可以包括:
S410,根据待查询事件的触发词,从事件库中获取与触发词相匹配的事件,获得触发事件集合。
示例性地,如果待查询事件A的触发词为“失信”,可以从事件库中获取触发词与“失信”一词相同的事件,例如,事件库中的事件C的触发词也为“失信”,则可以事件C加入到触发事件集合。
S420,根据待查询事件的事件特征,计算待查询事件与触发事件集合中每个事件的相似度。
S430,根据待查询事件与触发事件集中每个事件的相似度,从触发事件集合中选取与待查询事件相似的事件。
在本实施例中,根据触发词进行事件的初筛,再从触发事件集合中提取相似的事件,可以提高事件匹配的速度。
在一种可能的实现方式中,在计算待查询事件与集合中的每个事件的相似度的过程,可以包括:分别设置待查询事件的每一类特征对应的权重值;对于每一类特征,分别计算待查询事件与触发事件集合中每个事件之间的特征相似度;对于触发事件集合中的每个事件,根据事件的每一类特征对应的权重值,以及事件与待查询事件之间的特征相似度,计算获得事件与待查询事件的相似度。
示例性地,假设将事件特征可以包括:主题类别、触发词、活动类型、关键词、组织名、奖项、作品、人名、地名等,可以为每一类设定一个权重值。可以根据事件特征的重要程度,设置事件特征的权重值。例如,主题类别和触发词较为重要,权重值可以设置较高的数值。再如,相对于主题类别和触发词来说,组织名、奖项、作品、人名、地名等的重要程度较低一些,权重值可设置相对低一些的数值。例如:主题类别和触发词的权重值可以设置为0.8,组织名和奖项的权重值可以设置为0.6。此处事件特征之间的权重值可以相同也可以不相同。
在一种可能的实现方式中,可以对待查询事件的事件标题进行分词,并从中抽取包含动作的词语,并添加到触发词库中。也可以在不从主题事件集合提取相似事件时,才从待查询事件中抽取动作词。在添加新事件于事件库时,可以利用触发词库识别事件中的触发词。
在一种可能的实现方式中,本实施例可以实时或定时增量新的事件于事件库中,便于前述相似事件的召回。如图5所示,增加事件于事件库的过程可以包括:
S500,从互联网中实时收集资讯数据。
在本实施例中,资讯数据可以包括新闻、微信文章、博客等。
S600,对收集到的资讯数据进行预处理,获得待收集的事件。
在本实施例中,预处理可以包括:1、过滤没有标题或没有正文内容的资讯数据;2、资讯数据的来源网站为黑名单网站。3、事件判别模型识别到资讯数据不属于事件的范畴,可以将此资讯数据过虑。事件判别模型可以是前述的文本分类器。
S700,确定待收集的事件的主题类别、触发词和事件特征。
S800,根据待收集的事件的标识与待收集的事件的主题类别、触发词和事件特征,关联存储于事件库中。
在本实施例中,可以根据待收集的事件的URL(Uniform Resource Locator,统一资源定位符)生成事件的标识,则不同事件的标识互不相同。事件库中可以包含每个事件的标识、主题类别、触发词和事件特征等信息。事件库可以不包括每个事件的具体文本内容,可以通过标识获知事件的URL。然后再通过事件的URL可以获取事件的具体文本内容。此外,事件库也可以包括事件的URL。
在一种可能的实现方式中,如图6所示,上述步骤S700的主题、触发词及事件特征的确定过程,可以包括:
S710,根据待收集的事件的主题进行主题分类,确定待收集的事件的主题类别。可以根据时政、社会、财经、交通、科技、教育等类别进行分类。可以通过描述事件的主题内容,确定该事件所属的主题类别。例如,事件A的主题是世界杯,事件B的主题是法网公开赛等,可以确定事件A和事件B的主题类别均是体育。再如,事件C的主题是高考状元,可以确定事件C的主题类别是教育。
S720,结合触发词库,对待收集的事件的事件标题进行依存句法分析,从事件标题中获取待收集的事件的触发词。
在本实施例中,触发词库可以包括大量的动作词或动宾结构的词语。如果在句话分析过程中识别到事件标题的动作词或者动宾结构的词语,则可以将此动作词或动宾词语与触发词库中的词进行匹配,如果与触发词库中的一个词语匹配度高,可以将此动作词或动宾词语作为事件的触发词。
S730,根据待收集的事件的事件标题和事件内容,确定待收集的事件的事件特征。
在本实施例中,可以从事件标题和事件内容中直接提取词语作为事件特征,也可以根据事件内容推断出事件特征。
在一种可能的实现方式中,事件特征至少包括实体词、命名实体或关注点中的一者。如图7所示,上述步骤S730的事件特征确定过程,可以包括:
S732,查询预设的实体词词典,从待收集的事件的事件标题中提取实体词。
在本实施例中,实体词可以包括人名、地名、组名、品牌名等。例如:李xxx、南锣鼓巷、北京市交通局等。
S734,根据深度序列标注算法,从待收集的事件的事件内容中识别命名实体。在本实施例中,命名实体为实体词的一种,也可以包括:人名、地名、组名、品牌名、作品、奖项或活动类型等。在识别过程中可以过滤掉噪音词,例如歧义词。
S736,结合预设的关注点图谱,根据待收集事件的主题、事件内容对应的话题和实体词,计算获得待收集的事件的关注点。
其中,关注点图谱可以包括主题、实体词以及话题,可以是由一个话题延申出来的与主题和实体词连接的一个网络。例如,基于“百度AI开发者大会”的话题,关注点图谱可以如图8所示。可以利用关注点图谱对“百度举办全球首个AI开发者大会构建最完整AI开放生态”的事件,计算出该事件的关注点包括的三种类型以及三种类型对应的关注点。其中关注点也称为标签或关键词。
请参阅图9和图10,图9是本发明实施例提供的事件库增量更新的过程的一个应用示例的示意图。图10是本发明实施例提供的相似事件查询的方法的一个应用示例的示意图。
如图9所示,本实施例的事件库增量更新的过程包括:
A),定期捉取新闻。在预定时间段内从互联网上抓取的新闻进行内容质量过滤。包括:1、过滤没有标题或没有正文内容的资讯数据;2、资讯数据的来源网站为黑名单网站。3、事件判别模型识别到资讯数据不属于事件的范畴,可以将此事件过程。事件判别模型可以是前述的文本分类器。最终得到的预定时间段内新增的事件新闻。
B),根据新增事件的标题获得标题的实体。
利用聚合模型对新增的事件新闻去重。并根据新增事件的标题,查询预设的实体词典,从新增事件的标题中获取标题包含的实体。
C),从标题中抽取事件的触发词。
其中,事件触发知识库包括大量的触发词,可以预先构建。通过事件触发知识库,结合依存句法分析,从新增事件的标题中获取触发词。
D),抽取专名。
利用深度序列标注,从新闻内容中抽取专有名词(专名)。专有名词可以包括人名、地名、组织名、品牌、作品、奖、活动类型等。以及在抽取过程中可以过滤其中易造成歧义的词语。
E),抽关键词。
可以通过Attention(注意力)模型抽取的标题加正文的关注点,作为关键词。其中关注点的计算可以参考图8。
F),主题分类。
设置主题分类模型,并通过标注好的训练数据进行对模型进行训练。可以利用训练好的主题分类模型对事件新闻的主题类别进行识别。主题类别可以包括时政、社会、财经等。
G),根据URL生成事件的唯一ID,对事件库进行增量更新。
其中,如图10所示本实施例的相似事件查询过程包括:
第一步:将待查询事件的主题分类特征,与库中所有事件的触发词的分类特征进行匹配,召回分类特征相匹配的事件,作为事件集A。
第二步:将待查询事件的触发词特征,与事件集A中所有事件的触发词的特征进行匹配,召回触发特征相匹配的事件,作为事件集B。
第三步:若不存在事件集合B,则根据待查询事件的活动类型、关键词、组织名、奖项、作品、人名、地名等特征,按权重从高到低分别计算相似度,从事件库中召回相似事件,并将标题中抽到的新词作为触发词备选词,定期更新到触发知识库中。
第四步:若存在事件集合B,则根据待查询事件的活动类型、关键词、组织名、奖项、作品、人名、地名等特征,按权重从高到低分别计算相似度,从事件集B中召回相似事件。
本实施例,可以对事件进行结构化抽取,预先抽取出事件的多维度特征并积累到事件库中。根据不同维度的特征在相似性判断中的重要程度,可以将特征分为三类,以构建如下式的事件相似度模型:
事件相似度=
Figure 159603DEST_PATH_IMAGE001
其中,事件相似度用于衡量两个事件之间的相似度。式中的
Figure 873481DEST_PATH_IMAGE002
为在第i类特征中两个事件均具有相同的特征的个数。
Figure 823858DEST_PATH_IMAGE003
为第i类特征的权重值。
这三类特征可以分类如下表1:
表1
Figure 422329DEST_PATH_IMAGE005
其中,可以设置这三类的权重值为:
Figure 580909DEST_PATH_IMAGE006
示例性地,根据假设的事件A和事件B的事件特征,可以得到以下统计表示的数据:
表2
Figure 731268DEST_PATH_IMAGE008
其中,表2括号内代表两个事件相同的特征是如何的。
最后,可以根据预设的权重值,对特征值进行加权求和,获得两个事件的相似度。
本实施例的计算算法复杂低,计算效率高,易于在搜索***中实现,适合在大规模事件库中在线检索相似事件。
请参图图11,本发明实施例还提供一种相似事件查询的装置,包括:
主题事件集合模块100,用于根据待查询事件的主题类别,从事件库中获取与所述主题类别相匹配的事件,获得主题事件集合;其中,所述事件库包括多个事件,每个事件包括事件的主题类别、触发词和事件特征;
触发事件判断模块200,用于根据所述待查询事件的触发词,判断所述主题事件集合是否包括与所述触发词相匹配的事件;以及
第一相似事件获取模块300,用于当所述主题事件集合包括与所述触发词匹配的事件时,根据所述待查询事件的事件特征,从所述主题事件集合中获取与所述待查询事件相似的事件。
在一种可能的实现方式中,如图12所示,所述第一相似事件获取模块包括:
触发事件集合单元310,用于根据所述待查询事件的触发词,从所述主题事件集合中选取与所述触发词相匹配的事件,获得触发事件集合;
相似度计算单元320,用于根据所述待查询事件的事件特征,计算所述待查询事件与所述触发事件集合中每个事件的相似度;以及
事件选取单元330,用于根据所述待查询事件与所述触发事件集合中每个事件的相似度,从所述触发事件集合中选取与所述待查询事件相似的事件。
在一种可能的实现方式中,如图11所示,所述装置还包括:
第二相似事件获取模块400,用于当所述主题事件集合不包括与所述触发词相匹配的事件时,根据所述待查询事件的触发词和事件特征,从所述事件库中获取与所述待查询事件相似的事件。
所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,相似事件查询的结构中包括处理器和存储器,所述存储器用于相似事件查询的装置执行上述第一方面中相似事件查询的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述相似事件查询的装置还可以包括通信接口,用于相似事件查询的装置与其他设备或通信网络通信。
本发明实施例还提供一种相似事件查询的终端设备,如图13所示,该设备包括:存储器21和处理器22,存储器21内存储有可在处理器22上的计算机程序。处理器22执行计算机程序时实现上述实施例中的相似事件查询的方法。存储器21和处理器22的数量可以为一个或多个。
该设备还包括:
通信接口23,用于处理器22与外部设备之间的通信。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器21、处理器22和通信接口23独立实现,则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23集成在一块芯片上,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
本发明实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行***、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种相似事件查询的方法,其特征在于,包括:
根据待查询事件的主题类别,从事件库中获取与所述主题类别相匹配的事件,获得主题事件集合;其中,所述事件库包括多个事件,每个事件包括事件的主题类别、触发词和事件特征;
根据所述待查询事件的触发词,判断所述主题事件集合是否包括与所述触发词相匹配的事件;
当所述主题事件集合包括与所述触发词匹配的事件时,根据所述待查询事件的触发词,从所述主题事件集合中选取与所述触发词相匹配的事件,获得触发事件集合;
根据所述待查询事件的事件特征,计算所述待查询事件与所述触发事件集合中每个事件的相似度;以及
根据所述待查询事件与所述触发事件集合中每个事件的相似度,从所述触发事件集合中选取与所述待查询事件相似的事件。
2.如权利要求1所述的相似事件查询的方法,其特征于,所述方法还包括:
当所述主题事件集合不包括与所述触发词相匹配的事件时,根据所述待查询事件的触发词和事件特征,从所述事件库中获取与所述待查询事件相似的事件。
3.如权利要求2所述的相似事件查询的方法,其特征在于,所述根据所述待查询事件的触发词和事件特征,从所述事件库中获取与所述待查询事件相似的事件,包括:
根据所述待查询事件的触发词,从所述事件库中获取与所述触发词相匹配的事件,获得触发事件集合;
根据所述待查询事件的事件特征,计算所述待查询事件与所述触发事件集合中每个事件的相似度;以及
根据所述待查询事件与所述触发事件集中每个事件的相似度,从所述触发事件集合中选取与所述待查询事件相似的事件。
4.如权利要求1或3所述的相似事件查询的方法,其特征在于,所述根据所述待查询事件的事件特征,计算所述待查询事件与所述触发事件集合中每个事件的相似度,包括:
分别设置所述待查询事件的每一类特征对应的权重值;
对于所述每一类特征,分别计算所述待查询事件与所述触发事件集合中每个事件之间的特征相似度;
对于所述触发事件集合中的每个事件,根据所述事件的每一类特征对应的权重值,以及所述事件与所述待查询事件之间的特征相似度,计算获得所述事件与所述待查询事件的相似度。
5.如权利要求1所述的相似事件查询的方法,其特征在于,所述方法还包括:
对所述待查询事件的事件标题进行分词,并从中抽取包含动作的词语,并添加到触发词库中。
6.如权利要求1所述的相似事件查询的方法,其特征在于,所述方法还包括:
从互联网中实时收集资讯数据;
对收集到的资讯数据进行预处理,获得待收集的事件;
确定所述待收集的事件的主题类别、触发词和事件特征;以及
根据所述待收集的事件的标识与所述待收集的事件的主题类别、触发词和事件特征,关联存储于所述事件库中。
7.如权利要求6所述的相似事件查询的方法,其特征在于,所述确定所待收集的事件的主题类别、触发词和事件特征,包括:
根据所述待收集的事件的主题进行主题分类,确定所述待收集的事件的主题类别;
结合触发词库,对所述待收集的事件的事件标题进行依存句法分析,从所述事件标题中获取所述待收集的事件的触发词;以及
根据所述待收集的事件的事件标题和事件内容,确定所述待收集的事件的事件特征。
8.如权利要求7所述的相似事件查询的方法,其特征在于,所述事件特征至少包括实体词、命名实体或关注点中的一者,以及所述根据所述待收集的事件的事件内容,确定所述待收集的事件的事件特征,包括:
查询预设的实体词词典,从所述待收集的事件的事件标题中提取实体词;
根据深度序列标注算法,从所述待收集的事件的事件内容中识别命名实体;以及
结合预设的关注点图谱,根据所述待收集事件的主题、事件内容对应的话题和实体词,计算获得所述待收集的事件的关注点。
9.一种相似事件查询的装置,其特征在于,包括:
主题事件集合模块,用于根据待查询事件的主题类别,从事件库中获取与所述主题类别相匹配的事件,获得主题事件集合;其中,所述事件库包括多个事件,每个事件包括事件的主题类别、触发词和事件特征;
触发事件判断模块,用于根据所述待查询事件的触发词,判断所述主题事件集合是否包括与所述触发词相匹配的事件;以及
第一相似事件获取模块,用于当所述主题事件集合包括与所述触发词匹配的事件时,根据所述待查询事件的触发词,从所述主题事件集合中选取与所述触发词相匹配的事件,获得触发事件集合,根据所述待查询事件的事件特征,计算所述待查询事件与所述触发事件集合中每个事件的相似度,根据所述待查询事件与所述触发事件集合中每个事件的相似度,从所述触发事件集合中选取与所述待查询事件相似的事件。
10.如权利要求9所述的相似事件查询的装置,其特征于,所述装置还包括:
第二相似事件获取模块,用于当所述主题事件集合不包括与所述触发词相匹配的事件时,根据所述待查询事件的触发词和事件特征,从所述事件库中获取与所述待查询事件相似的事件。
11.一种实现相似事件查询的终端设备,其特征在于,所述终端设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-8中任一所述的相似事件查询的方法。
12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的相似事件查询的方法。
CN201810719378.5A 2018-07-03 2018-07-03 相似事件查询的方法、装置、存储介质和终端设备 Active CN110737821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810719378.5A CN110737821B (zh) 2018-07-03 2018-07-03 相似事件查询的方法、装置、存储介质和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810719378.5A CN110737821B (zh) 2018-07-03 2018-07-03 相似事件查询的方法、装置、存储介质和终端设备

Publications (2)

Publication Number Publication Date
CN110737821A CN110737821A (zh) 2020-01-31
CN110737821B true CN110737821B (zh) 2022-06-07

Family

ID=69234209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810719378.5A Active CN110737821B (zh) 2018-07-03 2018-07-03 相似事件查询的方法、装置、存储介质和终端设备

Country Status (1)

Country Link
CN (1) CN110737821B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148843B (zh) * 2020-11-25 2021-05-07 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112632040A (zh) * 2020-12-31 2021-04-09 国家核安保技术中心 核安保事件库生成方法、装置、设备及计算机存储介质
CN113806486B (zh) * 2021-09-23 2024-05-10 深圳市北科瑞声科技股份有限公司 长文本相似度的计算方法及装置、存储介质、电子装置
CN114547257B (zh) * 2022-04-25 2022-07-19 湖南工商大学 类案匹配方法、装置、计算机设备及存储介质
CN116204177B (zh) * 2023-03-17 2023-10-03 湖北坤盈数字科技有限公司 一种***业务模块开发耦合组装方法、装置及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853298A (zh) * 2010-05-26 2010-10-06 上海大学 一种面向事件的查询扩展方法
CN102760140A (zh) * 2011-04-29 2012-10-31 淮海工学院 一种基于事件本体的查询扩展方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666819B2 (en) * 2007-07-20 2014-03-04 Yahoo! Overture System and method to facilitate classification and storage of events in a network
CN104156352B (zh) * 2014-08-15 2017-04-19 苏州大学 一种中文事件的处理方法及***
CN104572958B (zh) * 2014-12-29 2018-10-02 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
JP6507657B2 (ja) * 2015-01-15 2019-05-08 富士通株式会社 類似性判定装置、類似性判定方法および類似性判定プログラム
CN105808722B (zh) * 2016-03-08 2020-07-24 苏州大学 一种信息判别方法和***
CN108023768B (zh) * 2017-12-01 2019-05-10 中国联合网络通信集团有限公司 网络事件链确立方法和网络事件链确立***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853298A (zh) * 2010-05-26 2010-10-06 上海大学 一种面向事件的查询扩展方法
CN102760140A (zh) * 2011-04-29 2012-10-31 淮海工学院 一种基于事件本体的查询扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
事件相似度计算;单建芳等;《小型微型计算机***》;20100430;第31卷(第04期);第731-734页 *

Also Published As

Publication number Publication date
CN110737821A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析***
Morita et al. Information filtering based on user behavior analysis and best match text retrieval
CN110968684B (zh) 一种信息处理方法、装置、设备及存储介质
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN100478962C (zh) 搜索网页的方法、装置及***和建立索引数据库的装置
US20090319449A1 (en) Providing context for web articles
CN107844533A (zh) 一种智能问答***及分析方法
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
CN107679075B (zh) 网络监控方法和设备
CN113641833B (zh) 服务需求匹配方法及装置
CN108733791A (zh) 网络事件检测方法
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN103226601A (zh) 一种图片搜索的方法和装置
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
Abbasi et al. Organizing resources on tagging systems using t-org
CN114943285B (zh) 互联网新闻内容数据智能审核***
CN114238735B (zh) 一种互联网数据智能采集方法
CN112328752B (zh) 基于搜索内容的课程推荐方法、装置、计算机设备及介质
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN105786929A (zh) 一种信息监测方法及装置
CN112434126B (zh) 一种信息处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant