CN110378378B - 事件检索方法、装置、计算机设备及存储介质 - Google Patents

事件检索方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110378378B
CN110378378B CN201910520888.4A CN201910520888A CN110378378B CN 110378378 B CN110378378 B CN 110378378B CN 201910520888 A CN201910520888 A CN 201910520888A CN 110378378 B CN110378378 B CN 110378378B
Authority
CN
China
Prior art keywords
event
vector
description
recognition model
descriptions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910520888.4A
Other languages
English (en)
Other versions
CN110378378A (zh
Inventor
陈玉光
韩翠云
潘禄
刘远圳
施茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910520888.4A priority Critical patent/CN110378378B/zh
Publication of CN110378378A publication Critical patent/CN110378378A/zh
Application granted granted Critical
Publication of CN110378378B publication Critical patent/CN110378378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了事件检索方法、装置、计算机设备及存储介质,其中方法可包括:训练得到用于识别两个事件描述是否对应同一事件的识别模型;基于识别模型形成事件向量抽取服务,所述事件向量表示识别模型对于事件描述的理解;根据事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量;根据获取到的事件向量,确定出事件库中与待检索的事件描述相匹配的事件。应用本发明所述方案,可实现基于事件描述的事件检索,并提高检索结果的准确性等。

Description

事件检索方法、装置、计算机设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及事件检索方法、装置、计算机设备及存储介质。
【背景技术】
在有些场景下,会需要进行事件检索,如根据用户提供的或文本中出现的事件描述,从事件库中检索出对应的事件(相同事件),以方便进行文本理解或信息推荐等。
事件是一种特殊的实体,它客观存在,但又不同于普通的实体,更加复杂,描述也更加多样,两个相同事件的事件描述可能有很大区别,而两个不同事件的事件描述又可能非常相似。
鉴于上述问题,如何根据事件描述来进行事件检索,目前还没有一种较好的实现方式。
【发明内容】
有鉴于此,本发明提供了事件检索方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种事件检索方法,包括:
训练得到用于识别两个事件描述是否对应同一事件的识别模型;
基于所述识别模型形成事件向量抽取服务,所述事件向量表示所述识别模型对于事件描述的理解;
根据所述事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量;
根据获取到的事件向量,确定出所述事件库中与所述待检索的事件描述相匹配的事件。
根据本发明一优选实施例,所述训练得到用于识别两个事件描述是否对应同一事件的识别模型包括:
构建作为训练样本的正样本和负样本,其中,所述正样本中包含对应于同一事件的两个事件描述,所述负样本中包含对应于不同事件的两个事件描述;
根据所述正样本和所述负样本训练得到所述识别模型。
根据本发明一优选实施例,所述构建作为训练样本的正样本和负样本包括:
从指定数据源抽取事件描述;
根据抽取出的事件描述构建所述正样本和所述负样本。
根据本发明一优选实施例,所述识别模型包括:基于转换器双向编码器特征BERT的微调fine-tune模型。
根据本发明一优选实施例,所述事件向量抽取服务包括:当向所述识别模型输入一个事件描述时,抽取所述识别模型中所述事件描述的最后一层句子分隔符[SEP]向量,作为所述事件描述对应的事件向量。
根据本发明一优选实施例,所述根据获取到的事件向量,确定出所述事件库中与所述待检索的事件描述相匹配的事件包括:
基于近似最近邻ANN工具,确定出所述事件库中的事件的事件描述对应的事件向量中、与所述待检索的事件描述对应的事件向量相匹配的事件向量,将相匹配的事件向量对应的事件作为与所述待检索的事件描述相匹配的事件。
一种事件检索装置,包括:模型训练单元、服务生成单元以及事件检索单元;
所述模型训练单元,用于训练得到用于识别两个事件描述是否对应同一事件的识别模型;
所述服务生成单元,用于基于所述识别模型形成事件向量抽取服务,所述事件向量表示所述识别模型对于事件描述的理解;
所述事件检索单元,用于根据所述事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量;根据获取到的事件向量,确定出所述事件库中与所述待检索的事件描述相匹配的事件。
根据本发明一优选实施例,所述模型训练单元进一步用于,构建作为训练样本的正样本和负样本,其中,所述正样本中包含对应于同一事件的两个事件描述,所述负样本中包含对应于不同事件的两个事件描述,根据所述正样本和所述负样本训练得到所述识别模型。
根据本发明一优选实施例,所述模型训练单元从指定数据源抽取事件描述,根据抽取出的事件描述构建所述正样本和所述负样本。
根据本发明一优选实施例,所述识别模型包括:基于转换器双向编码器特征BERT的微调fine-tune模型。
根据本发明一优选实施例,所述事件向量抽取服务包括:当向所述识别模型输入一个事件描述时,抽取所述识别模型中所述事件描述的最后一层句子分隔符[SEP]向量,作为所述事件描述对应的事件向量。
根据本发明一优选实施例,所述事件检索单元基于近似最近邻ANN工具,确定出所述事件库中的事件的事件描述对应的事件向量中、与所述待检索的事件描述对应的事件向量相匹配的事件向量,将相匹配的事件向量对应的事件作为与所述待检索的事件描述相匹配的事件。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可训练得到用于识别两个事件描述是否对应同一事件的识别模型,并可基于识别模型形成事件向量抽取服务,事件向量表示识别模型对于事件描述的理解,之后,可根据事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量,进而可根据获取到的事件向量,确定出事件库中与待检索的事件描述相匹配的事件,从而实现了基于事件描述的事件检索,而且,利用事件向量来表征事件特征,提高了检索结果的准确性等,并可适用于各种不同的场景,具有广泛适用性。
【附图说明】
图1为本发明所述事件检索方法第一实施例的流程图。
图2为本发明所述样本标注方式示意图。
图3为本发明所述基于BERT的网络模型结构示意图。
图4为本发明所述事件检索方法第二实施例的流程图。
图5为本发明所述事件检索装置实施例的组成结构示意图。
图6示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明所述事件检索方法第一实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,训练得到用于识别两个事件描述(也可称为事件句等)是否对应同一事件的识别模型。
在102中,基于识别模型形成事件向量抽取服务,所述事件向量表示识别模型对于事件描述的理解。
在103中,根据事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量。
在104中,根据获取到的事件向量,确定出事件库中与待检索的事件描述相匹配的事件。
为实现本实施例所述方案,需要首先训练得到识别模型,识别模型可用于识别输入的两个事件描述是否对应同一事件。即识别模型需要具备对事件描述的区分能力,即对于比较相似但对应于不同事件的两个事件描述,需要能够给出较低的“相同事件”概率,而对于差异较大但对应于同一事件的两个事件描述,需要能够给出较高的“相同事件”概率。训练识别模型是为了使识别模型具备对事件描述的理解能力,以便后续将其对事件描述的理解抽取出来。
相应地,可构建作为训练样本的正样本和负样本,其中,正样本中可包含对应于同一事件的两个事件描述,负样本中可包含对应于不同事件的两个事件描述,可根据所构建的正样本和负样本训练得到识别模型。
如何构建正样本和负样本不作限制,比如,可从指定数据源抽取事件描述,根据抽取出的事件描述构建正样本和负样本。
举例说明:
可利用爬虫工具从指定站点抓取新闻/资讯,并可进行文本聚类,形成多个资讯簇,每个资讯簇中可包含多个相同类型的资讯,并可将各个资讯整理为标题(title)列表的形式。
基于上述处理,可进行样本标注。图2为本发明所述样本标注方式示意图,如图2所示,根据接收自用户的指令,可将对应于同一事件的不同标题标记为同一颜色,如第一行和第二行的标题均对应于事件1,可标记为同一颜色,第三行和第四行的标题均对应于事件2,可标记为另一颜色等,总之,要确保不同事件具有不同颜色,相同事件具有相同颜色。
基于上述样本标注,可构建出多个事件描述对,如:
第一事件描述对:(《歌手》**唱跳变二次元,《歌手》**嗨唱二次元神曲);
第二事件描述对:(《歌手》**唱跳变二次元,《歌手》**狂练歌);
其中,第一事件描述对中的两个事件描述标记为相同颜色,对应于同一事件,可作为构建出的正样本,第二事件描述对中的两个事件描述标记为不同颜色,对应于不同事件,可作为构建出的负样本。
按照上述方式,可构建出大量的正样本和负样本。
根据构建出的正样本和负样本,可训练得到识别模型。识别模型可为神经网络模型,优选地,识别模型可为基于转换器双向编码器特征(BERT,Bidirectional EncoderRepresentations from Transformers)的微调(fine-tune)模型。输入为两个事件描述,输出为两个事件描述对应的事件是否为同一事件的识别结果。
可基于训练得到的识别模型形成事件向量抽取服务。具体地,当识别模型为基于BERT的fine-tune模型时,形成的事件向量抽取服务可以是指:当向识别模型输入一个事件描述时,抽取该识别模型中该事件描述的最后一层句子分隔符[SEP]向量,作为该事件描述对应的事件向量,即得到该事件描述的理解向量。
图3为本发明所述基于BERT的网络模型结构示意图。如图3所示,经过训练后,模型已经具备对两个事件描述对应的事件是否相同进行识别的能力,这种能力是基于对事件描述的理解得到的,向量抽取就是为了将模型对于事件描述的理解抽取出来。根据分析可知,模型用于任务计算的向量是分类符号[CLS]最后一层的向量,显然,这个向量包含的是“是否相同”的信息,这个信息是在对两个事件描述的理解基础上得到的,而[SEP]向量则是每一个事件描述都有的一个向量,每一层的两个事件描述的[SEP]向量都会被用于计算下一层的[CLS],[SEP]向量包含了模型对于每一个事件描述的理解,因此,只要将[SEP]向量抽取出来,即可得到模型对于事件描述的理解。
将上述过程进行服务化即可形成一个服务,即事件向量抽取服务。
在形成事件向量抽取服务之后,可结合现有的近似最近邻(ANN,ApproximateNearest Neighbor)工具,提供针对事件的高并发检索能力,ANN工具可提供快速向量检索能力。
具体地,可根据事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量,并可根据获取到的事件向量,确定出事件库中与待检索的事件描述相匹配的事件,如可基于ANN工具,确定出事件库中的事件的事件描述对应的事件向量中、与待检索的事件描述对应的事件向量相匹配的事件向量,将相匹配的事件向量对应的事件作为与待检索的事件描述相匹配的事件。
针对事件库中的各事件的事件描述,可分别调用事件向量抽取服务,得到各事件描述对应的事件向量,将每个事件都映射到一个高维空间中。
针对得到的事件向量,可通过ANN工具进行向量空间索引构建,完成向量空间索引构建后,即可提供快速的向量检索服务,如获取用户提供的一个待检索的事件描述,通过事件向量抽取服务,得到该事件描述对应的事件向量,并利用ANN工具,获取待检索的事件描述对应的事件向量在向量空间索引中最近的若干个事件向量,将这个/这些事件向量对应的事件作为与待检索的事件描述相匹配的事件。
所述若干个事件向量可为一个事件向量,也可为多个事件向量,若为一个事件向量,可以是指事件库中的事件对应的事件向量中与待检索的事件描述对应的事件向量的相似度最高的一个事件向量,若为多个事件向量,可以是指按照与待检索的事件描述对应的事件向量的相似度从大到小的顺序排序后,排在前N位的事件向量,N为大于一的正整数。
基于上述介绍,图4为本发明所述事件检索方法第二实施例的流程图。如图4所示,包括以下具体实现方式。
在401中,构建作为训练样本的正样本和负样本,其中,正样本中包含对应于同一事件的两个事件描述,负样本中包含对应于不同事件的两个事件描述。
可从指定数据源抽取事件描述,根据抽取出的事件描述构建正样本和负样本。
在402中,根据所构建的正样本和负样本训练得到基于BERT的fine-tune模型。
如何训练得到基于BERT的fine-tune模型为现有技术。
在403中,根据基于BERT的fine-tune模型形成事件向量抽取服务。
所述事件向量抽取服务可以是指:当向基于BERT的fine-tune模型输入一个事件描述时,抽取基于BERT的fine-tune模型中该事件描述的最后一层[SEP]向量,作为该事件描述对应的事件向量。
在404中,根据事件向量抽取服务,获取事件库中的事件的事件描述对应的事件向量。
在405中,根据事件向量抽取服务,获取待检索的事件描述对应的事件向量。
在406中,基于ANN工具,确定出事件库中的事件的事件描述对应的事件向量中、与待检索的事件描述对应的事件向量相匹配的事件向量,将相匹配的事件向量对应的事件作为与待检索的事件描述相匹配的事件。
需要说明的是,对于前述的各方法实施例,为了简单描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
总之,采用本发明方法实施例所述方案,可实现基于事件描述的事件检索,而且,利用事件向量来表征事件特征,可提高检索结果的准确性,并可适用于各种不同的场景,具有广泛适用性。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图5为本发明所述事件检索装置实施例的组成结构示意图。如图5所示,包括:模型训练单元501、服务生成单元502以及事件检索单元503。
模型训练单元501,用于训练得到用于识别两个事件描述是否对应同一事件的识别模型。
服务生成单元502,用于基于识别模型形成事件向量抽取服务,事件向量表示识别模型对于事件描述的理解。
事件检索单元503,用于根据事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量;根据获取到的事件向量,确定出事件库中与待检索的事件描述相匹配的事件。
为训练得到识别模型,模型训练单元501需要首先构建作为训练样本的正样本和负样本,其中,正样本中可包含对应于同一事件的两个事件描述,负样本中可包含对应于不同事件的两个事件描述,进而可根据正样本和负样本训练得到识别模型。
如何构建正样本和负样本不作限制,比如,模型训练单元501可从指定数据源抽取事件描述,根据抽取出的事件描述构建正样本和负样本。
根据构建出的正样本和负样本,可训练得到识别模型,识别模型可为神经网络模型,优选地,识别模型可为基于BERT的fine-tune模型。输入为两个事件描述,输出为两个事件描述对应的事件是否为同一事件的识别结果。
服务生成单元502可基于训练得到的识别模型形成事件向量抽取服务。具体地,当识别模型为基于BERT的fine-tune模型时,形成的事件向量抽取服务可以是指:当向识别模型输入一个事件描述时,抽取该识别模型中该事件描述的最后一层[SEP]向量,作为该事件描述对应的事件向量,即得到该事件描述的理解向量。
在形成事件向量抽取服务之后,可结合现有的ANN工具,提供针对事件的高并发检索能力,ANN工具可提供快速向量检索能力。
具体地,事件检索单元503可根据事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量,并可根据获取到的事件向量,确定出事件库中与待检索的事件描述相匹配的事件,如可基于ANN工具,确定出事件库中的事件的事件描述对应的事件向量中、与待检索的事件描述对应的事件向量相匹配的事件向量,将相匹配的事件向量对应的事件作为与待检索的事件描述相匹配的事件。
图5所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本发明装置实施例所述方案,可实现基于事件描述的事件检索,而且,利用事件向量来表征事件特征,可提高检索结果的准确性,并可适用于各种不同的场景,具有广泛适用性。
图6示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图6显示的计算机***/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同***组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或图4所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或图4所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种事件检索方法,其特征在于,包括:
训练得到用于识别两个事件描述是否对应同一事件的识别模型,包括:从指定数据源抽取事件描述,并进行聚类,针对得到的每个簇,基于用户的颜色标记构建出作为训练样本的正样本和负样本,其中,所述正样本中包含对应于同一事件的两个事件描述,所述负样本中包含对应于不同事件的两个事件描述,根据所述正样本和所述负样本训练得到所述识别模型;
基于所述识别模型形成事件向量抽取服务,所述事件向量抽取服务用于:当向所述识别模型输入一个事件描述时,抽取所述识别模型中所述事件描述的最后一层句子分隔符[SEP]向量,作为所述事件描述对应的事件向量;所述事件向量表示所述识别模型对于事件描述的理解;
根据所述事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量;
根据获取到的事件向量,确定出所述事件库中与所述待检索的事件描述相匹配的事件。
2.根据权利要求1所述的方法,其特征在于,
所述识别模型包括:基于转换器双向编码器特征BERT的微调fine-tune模型。
3.根据权利要求1所述的方法,其特征在于,
所述根据获取到的事件向量,确定出所述事件库中与所述待检索的事件描述相匹配的事件包括:
基于近似最近邻ANN工具,确定出所述事件库中的事件的事件描述对应的事件向量中、与所述待检索的事件描述对应的事件向量相匹配的事件向量,将相匹配的事件向量对应的事件作为与所述待检索的事件描述相匹配的事件。
4.一种事件检索装置,其特征在于,包括:模型训练单元、服务生成单元以及事件检索单元;
所述模型训练单元,用于训练得到用于识别两个事件描述是否对应同一事件的识别模型,包括:从指定数据源抽取事件描述,并进行聚类,针对得到的每个簇,基于用户的颜色标记构建出作为训练样本的正样本和负样本,其中,所述正样本中包含对应于同一事件的两个事件描述,所述负样本中包含对应于不同事件的两个事件描述,根据所述正样本和所述负样本训练得到所述识别模型;
所述服务生成单元,用于基于所述识别模型形成事件向量抽取服务,所述事件向量抽取服务用于:当向所述识别模型输入一个事件描述时,抽取所述识别模型中所述事件描述的最后一层句子分隔符[SEP]向量,作为所述事件描述对应的事件向量;所述事件向量表示所述识别模型对于事件描述的理解;
所述事件检索单元,用于根据所述事件向量抽取服务,分别获取待检索的事件描述对应的事件向量以及事件库中的事件的事件描述对应的事件向量;根据获取到的事件向量,确定出所述事件库中与所述待检索的事件描述相匹配的事件。
5.根据权利要求4所述的装置,其特征在于,
所述识别模型包括:基于转换器双向编码器特征BERT的微调fine-tune模型。
6.根据权利要求4所述的装置,其特征在于,
所述事件检索单元基于近似最近邻ANN工具,确定出所述事件库中的事件的事件描述对应的事件向量中、与所述待检索的事件描述对应的事件向量相匹配的事件向量,将相匹配的事件向量对应的事件作为与所述待检索的事件描述相匹配的事件。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~3中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~3中任一项所述的方法。
CN201910520888.4A 2019-06-17 2019-06-17 事件检索方法、装置、计算机设备及存储介质 Active CN110378378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910520888.4A CN110378378B (zh) 2019-06-17 2019-06-17 事件检索方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910520888.4A CN110378378B (zh) 2019-06-17 2019-06-17 事件检索方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110378378A CN110378378A (zh) 2019-10-25
CN110378378B true CN110378378B (zh) 2022-10-28

Family

ID=68248952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910520888.4A Active CN110378378B (zh) 2019-06-17 2019-06-17 事件检索方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110378378B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259987B (zh) * 2020-02-20 2023-12-29 民生科技有限责任公司 一种基于bert的多模型融合提取事件主体的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021619A (zh) * 2017-11-13 2018-05-11 星潮闪耀移动网络科技(中国)有限公司 一种事件描述对象推荐方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252488B (zh) * 2013-06-28 2017-12-22 华为技术有限公司 处理数据的方法和服务器
CN109299094A (zh) * 2018-09-18 2019-02-01 深圳壹账通智能科技有限公司 数据表处理方法、装置、计算机设备和存储介质
CN109542956A (zh) * 2018-10-17 2019-03-29 深圳壹账通智能科技有限公司 报表生成方法、装置、计算机设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021619A (zh) * 2017-11-13 2018-05-11 星潮闪耀移动网络科技(中国)有限公司 一种事件描述对象推荐方法及装置

Also Published As

Publication number Publication date
CN110378378A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN108052577B (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN107291828B (zh) 基于人工智能的口语查询解析方法、装置及存储介质
CN107832662B (zh) 一种获取图片标注数据的方法和***
CN108959257B (zh) 一种自然语言解析方法、装置、服务器及存储介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN107908641B (zh) 一种获取图片标注数据的方法和***
CN107909088B (zh) 获取训练样本的方法、装置、设备和计算机存储介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN111738001A (zh) 同义词识别模型的训练方法、同义词确定方法及设备
CN112507090A (zh) 用于输出信息的方法、装置、设备和存储介质
CN111144102A (zh) 用于识别语句中实体的方法、装置和电子设备
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN112052005A (zh) 界面处理方法、装置、设备及存储介质
CN117011581A (zh) 图像识别方法、介质、装置和计算设备
CN113096687B (zh) 音视频处理方法、装置、计算机设备及存储介质
CN113220854B (zh) 机器阅读理解的智能对话方法及装置
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN110378378B (zh) 事件检索方法、装置、计算机设备及存储介质
CN110362688B (zh) 试题标注方法、装置、设备及计算机可读存储介质
CN113627186B (zh) 基于人工智能的实体关系检测方法及相关设备
CN111507109A (zh) 电子病历的命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant