CN112182346A - 一种对突发事件的实体信息进行抽取的方法与设备 - Google Patents

一种对突发事件的实体信息进行抽取的方法与设备 Download PDF

Info

Publication number
CN112182346A
CN112182346A CN202011158657.2A CN202011158657A CN112182346A CN 112182346 A CN112182346 A CN 112182346A CN 202011158657 A CN202011158657 A CN 202011158657A CN 112182346 A CN112182346 A CN 112182346A
Authority
CN
China
Prior art keywords
information
emergency
determining
entity information
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011158657.2A
Other languages
English (en)
Other versions
CN112182346B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mido Digital Technology Co ltd
Original Assignee
Shanghai Mdata Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mdata Information Technology Co ltd filed Critical Shanghai Mdata Information Technology Co ltd
Priority to CN202011158657.2A priority Critical patent/CN112182346B/zh
Publication of CN112182346A publication Critical patent/CN112182346A/zh
Application granted granted Critical
Publication of CN112182346B publication Critical patent/CN112182346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请的目的是提供一种用于提取突发事件信息中的实体信息的方法与设备。与现有技术相比,本申请通过确定用以进行实体信息提取的突发事件信息,然后,抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息,并将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。通过这种方式,能够方便快捷地实现对突发事件信息中的实体信息进行抽取,提高了效率。

Description

一种对突发事件的实体信息进行抽取的方法与设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于对突发事件的实体信息进行抽取的技术。
背景技术
现有技术中,事件抽取指的是,从自然语言文本中抽取出用户感兴趣的事件信息,并且以结构化的形式呈现出来,如什么人/组织,在什么时间,在什么地方,做了什么事情,可以将这些信息称为事件的实体信息。对于事件抽取现有技术的方案主要包括:1)模式匹配方式,主要根据语言的模式,设计模板,将待抽取的句子和已有的模板进行匹配。通常基于语法树或者正则表达式;2)基于管道式/流水线式的机器学习方法,主要通过把任务转化为多阶段分类任务;3)基于联合建模式的机器学习方法,主要通过将任务转化为依存树结构的预测问题,把触发词提取和元素提取联合在一个端到端的模型中。
上述现有技术中的方式主要用于通常的事件抽取中,而且,方法较繁琐,且并未有针对突发事件的专门提取方式。在此,突发事件包括一些紧急或者突然发生的事件,例如,火灾、地震、交通事故等等。因此,如何提供一种适用于突发事件的提取方式成为亟待解决的问题。
发明内容
本申请的目的是提供一种基于对突发事件的实体信息进行抽取的方法与设备,以解决现有技术中抽取方法太繁琐的问题。
根据本申请的一个方面,提供了一种用于提取突发事件信息中的实体信息的方法,其中,所述方法包括:
确定用以进行实体信息提取的突发事件信息;
抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息;
将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。
进一步地,其中,所述确定用以进行实体信息提取的突发事件信息包括:
获取网络平台中的发布信息;
从所述发布信息中确定用以进行实体信息提取的突发事件信息。
进一步地,其中,所述从所述发布信息中确定用以进行实体信息提取的突发事件信息包括:
从所述发布信息中筛选包含突发事件信息触发词的目标发布信息;
通过二分类神经网络模型对所述目标发布信息进行二分类判断,将满足突发事件阈值的目标发布信息确定为突发事件信息,其中,所述二分类神经网络模型基于突发事件信息训练数据训练完成。
进一步地,其中,当所述突发事件信息包括含有多个触发词的多种突发事件信息,所述二分类神经网络模型基于所述多种突发事件信息对应的多个突发事件信息训练数据训练完成,其中,通过二分类神经网络模型对所述目标发布信息进行二分类判断,将满足突发事件阈值的目标发布信息确定为突发事件信息包括:
通过二分类神经网络模型对所述目标发布信息进行二分类判断,将满足对应的突发事件阈值的目标发布信息确定为对应的突发事件信息。
进一步地,其中,所述二分类神经网络模型包括attention based bi-lstm模型。
进一步地,其中,所述将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息包括:
将所述候选实体信息对应的一个或多个事件元素信息分别与所述突发事件信息或者所述突发事件信息对应的触发词输入关系识别神经网络模型,将满足内容关系识别阈值的事件元素信息确定为所述突发事件的实体信息。
进一步地,其中,所述关系识别网络模型包括attention-based rnn模型或者bert模型中至少任一项,其中,当所述关系识别网络模型包括attention-based rnn模型和bert模型,其中,所述将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息包括:
将所述候选实体信息对应的一个或多个事件元素信息与所述突发事件信息分别输入attention-based rnn模型和bert模型,将满足至少一个所述模型的内容关系识别阈值的事件元素信息确定为所述突发事件的实体信息。
进一步地,其中,所述突发事件信息的事件元素信息包括主体信息、时间信息和地点信息,其中,所述候选实体信息包括所述突发事件中涉及的所有主体信息、时间信息和地点信息,所述通过神经网络模型抽取所述突发事件信息中的候选实体信息包括:
通过***lac工具抽取所述突发事件信息中的所有时间信息和地点信息并通过hanlp工具型抽取所述突发事件信息中的所有主体信息;
将抽取的所有所述主体信息、时间信息和地点信息确定为所述突发事件信息中的候选实体信息。
根据本申请的再一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述方法的操作。
根据本申请的又一方面,还提供了一种用于提取突发事件信息中的实体信息的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器:确定用以进行实体信息提取的突发事件信息;通过神经网络模型抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息;将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。
与现有技术相比,本申请通过确定用以进行实体信息提取的突发事件信息,然后,通过抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息,并将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。通过这种方式,能够方便快捷地实现对突发事件信息中的实体信息进行抽取,提高了效率,并且,由于步骤分离,可以针对中间步骤进行规则优化,灵活方便。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于提取突发事件信息中的实体信息的方法流程图;
图2示出示出attention-based rnn模型的架构示意图;
图3示出根据本申请另一方面的一种用于提取突发事件信息中的实体信息的设备示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及较佳实施例,对本申请的技术方案,进行清楚和完整的描述。
图1示出本申请一个方面提供的一种用于提取突发事件信息中的实体信息的方法流程图,该方法通过设备1执行,该方法包括以下步骤:
S11设备1确定用以进行实体信息提取的突发事件信息;
S12设备1抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息;
S13设备1将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。
在本申请中,所述方法通过设备1执行,所述设备1包括但不限于网络设备,其中,所述网络设备包括但不限于计算机设备和/或云,所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集;所述云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。在此,所述计算机设备和/或云仅为举例,其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本申请也应包含在本申请的保护范围内,在此,以引用的方式包含于此。
在该实施例中,在所述步骤S11中,设备1确定用以进行实体信息提取的突发事件信息。在此,所述突发事件信息可以是通过用户筛选出来的或者也可以是通过设备1自动筛选出来的。在此,对于确定突发事件信息的方式不做限定。
优选地,其中,所述步骤S11包括:S111(未示出)获取网络平台中的发布信息;S112(未示出)从所述发布信息中确定用以进行实体信息提取的突发事件信息。
在该实施例中,在所述步骤S111中,设备1获取网络平台中的发布信息,在此,所述网络平台包括但不限于可以进行信息发布的一切网络平台,例如,包括但不限于微博、微信或者其他的可以进行信息发布的网络平台等等,在本申请中对于具体的网络平台不做限定。其中,发布信息为平台账号通过平台进行发布的信息。具体地,设备1可实时地获取发布信息,例如通过Flink实时获取数据,或者基于预设的时间间隔从网络平台中获取平台所有账号的发布信息,在此,为了更好、更及时地提取发布信息,预设时间间隔可尽量设置的小,具体的时间间隔的设置可基于经验值确定,在此,不做限定。
在所述步骤S112中,设备1从所述发布信息中确定用以进行实体信息提取的突发事件信息。在此,所述设备1可通过突发事件关键字词提取的方式从所述发布信息中进行筛选,以从所述发布信息中确定出突发事件信息。例如,突发事件包括火灾、地震、交通事故、台风、洪水、疫情、民生等一种或者多种,当从发布信息中提取到与火灾相关的关键词,可确定该发布信息为火灾突发事件信息,在此,所述突发事件或者突发事件关键字词可通过用户预先设定好。
优选地,还可以通过神经网络模型来从发布信息中确定用以进行实体信息提取的突发事件信息。其中,所述步骤S112包括:从所述发布信息中筛选包含突发事件信息触发词的目标发布信息;通过二分类神经网络模型对所述目标发布信息进行二分类判断,将满足突发事件阈值的目标发布信息确定为突发事件信息,其中,所述二分类神经网络模型基于突发事件信息训练数据训练完成,在此,训练数据可包括训练集和测试集,其中,训练集用以对神经网络进行训练,测试集用以进行验证训练的准确率。
在该实施例中,可先从发布信息中筛选出包含突发事件信息触发词的目标发布信息,在此,所述突发事件信息触发词包括用以筛选突发事件信息的相关词,例如,火灾突发事件的触发词可以为火、起火、消防等等,在此,所述触发词的确定可根据对应突发事件的描述相关词确定,在此,可预先确定出突发事件信息触发词,然后,根据触发词筛选出包含触发词的发布信息,将包含触发词的发布信息确定为目标发布信息。
进一步地,将所述目标发布信息输入二分类神经网络模型进行二分类判断,将满足突发事件阈值的目标发布信息确定为突发事件信息。在此,所述二分类神经网络模型基于突发事件信息训练数据训练完成。例如,可以预先收集一定数量的突发事件信息,将这些信息作为突发事件信息训练数据用以对二分类神经网络模型继续训练,直至所述模型收敛,例如,通过训练数据中的测试集进行验证准确率达到预设值可确定收敛等,在此,预设值可预先设定。比如,突发事件包括火灾事件,可收集关于火灾的突发事件信息以及非火灾的信息,并分别将这些信息进行标注,然后将这些关于火灾的突发事件信息以及非火灾的信息输入二分类神经网络模型进行训练,直至判断结果满足训练阈值即可。
优选地,其中,当所述突发事件信息包括含有多个触发词的多种突发事件信息,所述二分类神经网络模型基于所述多种突发事件信息对应的多个突发事件信息训练数据训练完成,其中,通过二分类神经网络模型对所述目标发布信息进行二分类判断,将满足突发事件阈值的目标发布信息确定为突发事件信息包括:
通过二分类神经网络模型对所述目标发布信息进行二分类判断,将满足对应的突发事件阈值的目标发布信息确定为对应的突发事件信息。
在该实施例中,若存在多种突发事件信息,可分别针对不同的突发事件信息对所述二分类神经网络模型进行训练,以使该二分类神经网络模型可筛选出不同的种类的突发事件信息。优选地,其中,所述二分类神经网络模型包括attention based bi-lstm模型。
继续在该实施例中,在所述步骤S12中,设备1抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息。在此,所述事件元素信息可用以概述所述突发事件信息,例如,所述事件元素信息可包括所述突发事件的触发词或者包括但不限于突发事件的主体信息、时间信息和地点信息等等。例如,针对火灾突发事件,主体信息可包括火灾发生主体,比如,菜市场、汽车、民房等等。
在此,所述候选实体信息与事件元素信息对应,例如,事件元素信息包括时间信息,则候选实体信息包括筛选出来的作为突发事件信息的发布信息中提到的所有时间信息;若事件元素信息包括地点信息,则筛选出来的作为突发事件信息的发布信息中提到的所有地点信息等等。例如,事件元素信息包括主体信息、时间信息和地点信息,则候选实体信息包括筛选出来的作为突发事件信息的发布信息中提到的所有主体信息、时间信息和地点信息。在此,上述事件元素信息或者候选实体信息仅为举例,其他如适用于本申请的相关信息也应包含在本申请的保护范围内。
优选地,其中,所述突发事件信息的事件元素信息包括主体信息、时间信息和地点信息,其中,所述候选实体信息包括所述突发事件中涉及的所有主体信息、时间信息和地点信息,所述通过神经网络模型抽取所述突发事件信息中的候选实体信息包括:
通过***lac工具抽取所述突发事件信息中的所有时间信息和地点信息并通过hanlp工具抽取所述突发事件信息中的所有主体信息;
将抽取的所有所述主体信息、时间信息和地点信息确定为所述突发事件信息中的候选实体信息。
在该实施例中,通过***lac工具可进行时间信息、地点信息等等的抽取;通过hanlp工具进行依存句法分析抽取事件触发词的主语,以火灾为例,在用hanlp进行依存分析时,除了触发词的主语之外,也抽取了触发词的谓语的主语,比如那栋大楼冒起了浓烟,依存逻辑是,浓烟-动宾关系-冒起+大楼-主谓关系-冒起;还同时抽取了火灾触发词的宾语,比如着火了那栋楼,依存关系是楼-动宾关系-着火 。
继续在该实施例中,在所述步骤S13中,设备1将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。
在该实施例中,由于候选实体信息包括所有的事件元素信息,而突发事件的事件元素信息可能只有一个,例如,候选实体信息包括筛选出来的作为突发事件信息的发布信息中所有的地点信息,而突发事件的地点信息只有一个,因此,需要筛选出真正的地点信息,所以,可将所有的地点信息与筛选出来的作为突发事件信息的发布信息分别进行内容关系识别,并将满足内容关系识别阈值的地点信息确定为所述突发事件的地点信息。
优选地,其中,所述步骤S13包括:将所述候选实体信息对应的一个或多个事件元素信息分别与所述突发事件信息或者所述突发事件信息对应的触发词输入关系识别神经网络模型,将满足内容关系识别阈值的事件元素信息确定为所述突发事件的实体信息。
在该实施例中,例如,若事件元素信息包括主体信息、时间信息和地点信息,则可在确定突发事件的主体信息时,将所有的主体信息分别与所述突发事件信息或者所述突发事件信息对应的触发词输入关系识别网络模型进行判断,以确定所述突发事件信息对应的主体信息;在确定突发事件的时间信息时,将所有的时间信息分别与所述突发事件信息或者所述突发事件信息对应的触发词输入关系识别网络模型进行判断,以确定所述突发事件信息对应的时间信息等等。例如,若输入的是所有的主体信息与所述突发事件信息或者所述突发事件信息对应的触发词,可将触发词对应的主语作为所述突发事件的主体信息,在此,所述确定所述突发事件的实体信息的方式仅为举例,其他现有的或者今后可能出现的方式如适用于本申请也应包含在本申请的保护范围内,在此,以引用的方式包含于此。
优选地,其中,所述关系识别网络模型包括attention-based rnn模型或者bert模型中至少任一项,其中,当所述关系识别网络模型包括attention-based rnn模型和bert模型,其中,所述步骤S13包括:
将所述候选实体信息对应的一个或多个事件元素信息与所述突发事件信息分别输入attention-based rnn模型和bert模型,将满足至少一个所述模型的内容关系识别阈值的事件元素信息确定为所述突发事件的实体信息。
在该实施例中,可通过一个或者两个关系识别网络模型来进行关系识别以确定对应的实体信息。例如,可单独通过attention-based rnn模型或者bert模型来进行识别,将满足内容关系识别阈值的事件元素信息确定为所述突发事件的实体信息。
或者,还可以通过attention-based rnn模型及bert模型进行判断,二者通过“或”的关系进行最终结果的判断,例如,一个模型判断其中的一个主体信息为突发事件的主体信息,则可确定该主体信息为突发事件的主体信息,若两个模型都判断该主体信息非突发事件信息的主体信息,则确定该主体信息不是突发事件信息的主体信息。如图2示出attention-based rnn模型的架构示意图。
在此,两个模型除了通过“或”的关系进行识别,也可以通过“与”的关系进行识别,在此,可预先进行设定,本申请中不做具体限定。
与现有技术相比,本申请通过确定用以进行实体信息提取的突发事件信息,然后,通过神经网络模型抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息,并将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。通过这种方式,能够方便快捷地实现对突发事件信息中的实体信息进行抽取,提高了效率。
图3示出本申请另一个方面提供的一种用于对突发事件的实体信息进行抽取的设备示意图,该设备1包括:
第一装置11,用于确定用以进行实体信息提取的突发事件信息;
第二装置12,用于抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息;
第三装置13,用于将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。
此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述方法。
本申请实施例还提供了一种用于对突发事件的实体信息进行抽取的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行前述方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:确定用以进行实体信息提取的突发事件信息;通过抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息;将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种用于提取突发事件信息中的实体信息的方法,其中,所述方法包括:
确定用以进行实体信息提取的突发事件信息;
抽取所述突发事件信息中的候选实体信息,其中,所述候选实体信息包括用以描述所述突发事件信息的一个或多个事件元素信息;
将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息。
2.根据权利要求1所述的方法,其中,所述确定用以进行实体信息提取的突发事件信息包括:
获取网络平台中的发布信息;
从所述发布信息中确定用以进行实体信息提取的突发事件信息。
3.根据权利要求2所述的方法,其中,所述从所述发布信息中确定用以进行实体信息提取的突发事件信息包括:
从所述发布信息中筛选包含突发事件信息触发词的目标发布信息;
通过二分类神经网络模型对所述目标发布信息进行二分类判断,将满足突发事件阈值的目标发布信息确定为突发事件信息,其中,所述二分类神经网络模型基于突发事件信息训练数据训练完成。
4.根据权利要求3所述的方法,其中,当所述突发事件信息包括含有多个触发词的多种突发事件信息,所述二分类神经网络模型基于所述多种突发事件信息对应的多个突发事件信息训练数据训练完成,其中,通过二分类神经网络模型对所述目标发布信息进行二分类判断,将满足突发事件阈值的目标发布信息确定为突发事件信息包括:
通过二分类神经网络模型对所述目标发布信息进行二分类判断,将满足对应的突发事件阈值的目标发布信息确定为对应的突发事件信息。
5.根据权利要求3或4所述的方法,其中,所述二分类神经网络模型包括attentionbased bi-lstm模型。
6.根据权利要求1至5中任一项所述的方法,其中,所述将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息包括:
将所述候选实体信息对应的一个或多个事件元素信息分别与所述突发事件信息或者所述突发事件信息对应的触发词输入关系识别神经网络模型,将满足内容关系识别阈值的事件元素信息确定为所述突发事件的实体信息。
7.根据权利要求1至6中任一项所述的方法,其中,所述关系识别网络模型包括attention-based rnn模型或者bert模型中至少任一项,其中,当所述关系识别网络模型包括attention-based rnn模型和bert模型,其中,所述将所述候选实体信息与所述突发事件信息进行内容关系识别,将满足内容关系识别阈值的候选实体信息确定为所述突发事件的实体信息包括:
将所述候选实体信息对应的一个或多个事件元素信息与所述突发事件信息分别输入attention-based rnn模型和bert模型,将满足至少一个所述模型的内容关系识别阈值的事件元素信息确定为所述突发事件的实体信息。
8.根据权利要求1至7任一项所述的方法,其中,所述突发事件信息的事件元素信息包括主体信息、时间信息和地点信息,其中,所述候选实体信息包括所述突发事件中涉及的所有主体信息、时间信息和地点信息,所述抽取所述突发事件信息中的候选实体信息包括:
通过***lac工具抽取所述突发事件信息中的所有时间信息和地点信息并通过hanlp工具抽取所述突发事件信息中的所有主体信息;
将抽取的所有所述主体信息、时间信息和地点信息确定为所述突发事件信息中的候选实体信息。
9.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。
10.一种用于提取突发事件信息中的实体信息的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至8中任一项所述方法的操作。
CN202011158657.2A 2020-10-26 2020-10-26 一种对突发事件的实体信息进行抽取的方法与设备 Active CN112182346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011158657.2A CN112182346B (zh) 2020-10-26 2020-10-26 一种对突发事件的实体信息进行抽取的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011158657.2A CN112182346B (zh) 2020-10-26 2020-10-26 一种对突发事件的实体信息进行抽取的方法与设备

Publications (2)

Publication Number Publication Date
CN112182346A true CN112182346A (zh) 2021-01-05
CN112182346B CN112182346B (zh) 2024-07-19

Family

ID=73923213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011158657.2A Active CN112182346B (zh) 2020-10-26 2020-10-26 一种对突发事件的实体信息进行抽取的方法与设备

Country Status (1)

Country Link
CN (1) CN112182346B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342973A (zh) * 2021-06-03 2021-09-03 重庆南鹏人工智能科技研究院有限公司 一种基于疾病二分类器的辅助诊断模型的诊断方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
US20150154263A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Event detection through text analysis using trained event template models
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111507110A (zh) * 2019-01-30 2020-08-07 国家计算机网络与信息安全管理中心 一种突发事件检测方法、装置、设备及存储介质
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150154263A1 (en) * 2013-12-02 2015-06-04 Qbase, LLC Event detection through text analysis using trained event template models
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法
CN111507110A (zh) * 2019-01-30 2020-08-07 国家计算机网络与信息安全管理中心 一种突发事件检测方法、装置、设备及存储介质
CN111488726A (zh) * 2020-03-31 2020-08-04 成都数之联科技有限公司 基于指针网络的非结构文本抽取多任务联合训练方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIXIANG GUO: ""A Practical Approach to Chinese Emergency Event Extraction using BiLSTM-CRF"", 《2019 5TH INTERNATIONAL CONFERENCE ON BIG DATA AND INFORMATION ANALYTICS》, 31 May 2019 (2019-05-31), pages 1 - 8 *
王艳东: ""基于社交媒体的突发事件应急信息挖掘与分析"", 《武汉大学学报· 信息科学版》, 31 March 2016 (2016-03-31), pages 290 - 295 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342973A (zh) * 2021-06-03 2021-09-03 重庆南鹏人工智能科技研究院有限公司 一种基于疾病二分类器的辅助诊断模型的诊断方法

Also Published As

Publication number Publication date
CN112182346B (zh) 2024-07-19

Similar Documents

Publication Publication Date Title
US11023682B2 (en) Vector representation based on context
US10884893B2 (en) Detecting software build errors using machine learning
Hofmann et al. Text mining and visualization: Case studies using open-source tools
CN113094200A (zh) 一种应用程序的故障预测方法和装置
US11682415B2 (en) Automatic video tagging
CN111401700A (zh) 一种数据分析方法、装置、计算机***及可读存储介质
Kersten et al. What happens where during disasters? A Workflow for the multifaceted characterization of crisis events based on Twitter data
US20210209310A1 (en) Sensor data collection control based on natural language interaction
US11188517B2 (en) Annotation assessment and ground truth construction
JP2023545994A (ja) 敵対的攻撃を防ぐための質問回答対話システムのトレーニング
Khatoon et al. Social media-based intelligence for disaster response and management in smart cities
Buckingham et al. The untapped potential of mining news media events for understanding environmental change
Rathje et al. Enhancing research in natural hazards engineering through the DesignSafe cyberinfrastructure
CN112182346B (zh) 一种对突发事件的实体信息进行抽取的方法与设备
Chulahwat et al. Integrated graph measures reveal survival likelihood for buildings in wildfire events
Hu et al. Spatial vulnerability of network systems under spatially local hazards
Lorini et al. SMDRM: A Platform to Analyze Social Media for Disaster Risk Management in Near Real Time.
US11062616B2 (en) Interactive learning experience
CN116624226A (zh) 一种煤矿灾害数据采集、分析及可视化展现***
US11055491B2 (en) Geographic location specific models for information extraction and knowledge discovery
WO2018060777A1 (en) Method and system for optimizing software testing
Hong et al. Analytics and evolving landscape of machine learning for emergency response
Fan et al. Detecting spatial patterns of natural hazards from the wikipedia knowledge base
Yang et al. Integrated execution framework for catastrophe modeling
US20230368510A1 (en) Image grounding with modularized graph attentive networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room 301ab, No.10, Lane 198, zhangheng Road, Pudong New Area pilot Free Trade Zone, Shanghai 201204

Applicant after: Shanghai Mido Technology Co.,Ltd.

Address before: Room 301ab, No.10, Lane 198, zhangheng Road, Pudong New Area pilot Free Trade Zone, Shanghai 201204

Applicant before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd.

Country or region before: China

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20240604

Address after: 201306 building C, No. 888, Huanhu West 2nd Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Applicant after: Shanghai Mido Digital Technology Co.,Ltd.

Country or region after: China

Address before: Room 301ab, No.10, Lane 198, zhangheng Road, Pudong New Area pilot Free Trade Zone, Shanghai 201204

Applicant before: Shanghai Mido Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant