CN114417865B

CN114417865B - 灾害事件的描述文本处理方法、装置、设备及存储介质

Info

Publication number: CN114417865B
Application number: CN202210082425.6A
Authority: CN
Inventors: 张跃威; 文浩宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-05-26
Anticipated expiration: 2042-01-24
Also published as: CN114417865A

Abstract

本申请提供一种灾害事件的描述文本处理方法、装置、设备及计算机可读存储介质，该方法包括：从源终端获取目标灾害事件的描述文本；基于分词模型，对描述文本进行分词，得到多个关键词；基于语义泛化模型，对关键词进行语义泛化处理，得到与关键词对应的属性概念词，属性概念词用于描述关键词的属性或类别；基于实体词数据库，对属性概念词进行实体匹配，得到与属性概念词对应的实体词，实体词为与属性概念词的属性或类别关联的词；根据实体词确定泛化事件描述文本，并发送至目标终端。通过对描述文本的泛化过程进行约束得到泛化事件描述文本的同时，提高泛化事件描述文本的置信度。本申请还涉及区块链技术，泛化事件描述文本可以存储于区块链中。

Description

灾害事件的描述文本处理方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理的技术领域，尤其涉及一种灾害事件的描述文本处理方法、装置、设备及计算机可读存储介质。

背景技术

事件通常是指参与者所参与的某些行为或情况的发生，或客观状态的改变。其中，将具体事件进行概括或归纳则称为事件泛化，泛化后的抽象事件可对如事件预测、事件抽取等下游任务提供一定的支撑，在传统的自然灾害事件泛化的相关技术中，往往是将结构化的事件中的论元通过语义网络去将事件进行一定程度的高维抽象，进而通过谓词投影去约束事件中论元泛化的程度。通过此类方法得到的泛化后的自然灾害事件存在大量置信度较低的情况。此外，对于具有某种关系的事件对(如因果关系、顺承关系、子事件关系)，直接对其进行此类方法的泛化后，能否依旧保持泛化后的自然灾害事件对两端的同种事件关系是难以保证的。

发明内容

本申请的主要目的在于提供一种灾害事件的描述文本处理方法、装置、设备及计算机可读存储介质，旨在提高对事件进行泛化之后得到的事件泛化文本的准确性。

第一方面，本申请提供一种灾害事件的描述文本处理方法，所述灾害事件的描述文本处理方法包括以下步骤：

从源终端获取目标灾害事件的描述文本；

基于分词模型，对所述描述文本进行分词，得到多个关键词；

基于语义泛化模型，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词，其中，所述属性概念词用于描述所述关键词的属性或类别；

基于实体词数据库，对所述属性概念词进行实体匹配，得到与所述属性概念词对应的实体词，其中，所述实体词为与所述属性概念词的属性或类别关联的词；

根据所述实体词确定泛化事件描述文本，并将所述泛化事件描述文本发送至目标终端。

第二方面，本申请还提供一种灾害事件的描述文本处理装置，所述灾害事件的描述文本处理装置包括：

文本获取模块，用于从源终端获取目标灾害事件的描述文本；

文本分词模块，用于基于分词模型，对所述描述文本进行分词，得到多个关键词；

属性概念词确定模块，用于基于语义泛化模型，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词，其中，所述属性概念词用于描述所述关键词的属性或类别；

实体词确定模块，用于基于实体词数据库，对所述属性概念词进行实体匹配，得到与所述属性概念词对应的实体词，其中，所述实体词为与所述属性概念词的属性或类别关联的词；

文本生成模块，用于根据所述实体词确定泛化事件描述文本，并将所述泛化事件描述文本发送至目标终端。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的灾害事件的描述文本处理方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的灾害事件的描述文本处理方法的步骤。

本申请提供一种灾害事件的描述文本处理方法、装置、设备及计算机可读存储介质，本申请通过对文本进行分词后得到的关键词进行语义泛化处理，将关键词泛化为属性概念词，并通过属性概念词确定对应的实体词，以得到泛化事件描述文本，对在目标灾害事件描述文本的关键词泛化的过程进行约束，以使泛化事件描述文本的置信度较高，同时，由于对词语的泛化过程进行了约束，在两个具有特定关系的事件泛化之后，仍能够从泛化之后的事件描述文本中体现事件之间的特定关系，并且能够通过泛化事件描述文本对目标灾害事件进行归纳或概括。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种灾害事件的描述文本处理方法的流程示意图；

图2为实施本实施例提供的灾害事件的描述文本处理方法的一场景示意图；

图3为本申请实施例提供的一种灾害事件的描述文本处理装置的示意性框图；

图4为本申请一实施例涉及的计算机设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种灾害事件的描述文本处理方法、装置、计算机设备及计算机可读存储介质。其中，该灾害事件的描述文本处理方法可应用于终端设备中，该终端设备可以是平板电脑、笔记本电脑、台式电脑等电子设备。也可以应用于服务器中，该服务器可以是单独的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种灾害事件的描述文本处理方法的流程示意图。

如图1所示，该灾害事件的描述文本处理方法包括步骤S101至步骤S105。

步骤S101、从源终端获取目标灾害事件的描述文本。

示例性的，在源终端中，可以响应于用户的输入操作，生成目标灾害事件的描述文本，以使服务器可以从终端中获取目标灾害事件的描述文本。

如图2所示，对目标灾害事件的描述文本进行泛化处理的服务器可以从一源终端中获取目标灾害事件的描述文本，并将处理后生成的泛化事件描述文本发送至目标终端，可以理解的，可以发送至多个目标终端，以达到事件预告或事件告知的目的。

示例性的，描述文本可以用于描述某一灾害事件，可以理解的，在描述文本中包括多个词，由这些词组成用于描述目标灾害事件的描述文本。

示例性的，描述文本包括但不限于中文、英文。

示例性的，描述文本可以由语音转化而得到，具体的，获取用户用于描述目标灾害事件的描述语音，通过训练好的文本转化模型，将描述语音转化为文本，从而得到目标灾害事件的描述文本。

可以理解的，目标灾害事件的描述文本中的词包括多种词性，可以例如是，名词、动词、介词，具体的，描述文本可以例如是A地区气候干燥，存在明火点燃杂草导致地区火灾发生，在该描述文本中，A地区、气候干燥、杂草、火灾为名词，点燃、发生为动词。

上述描述文本仅为举例说明，并不对描述文本予以限定。

可以理解的，在描述文本中，存在一定的因果关系，如上述“气候干燥”会容易导致“火灾发生”，但通过现有技术进行谓词映射的泛化处理后，容易得到“A地区所在的片区，气候容易导致火灾发生”，可以理解的，A地区所在的片区不一定全都是干燥气候，因而泛化之后的句子中的因果关系不存在，会有一定概率出现逻辑错误。

通过泛化过程中，对关键词进行约束泛化，并泛化为属性概念词后，确定最接近的实体词，从而得到的泛化事件描述文本能够保留句子中的因果关系，以使泛化事件描述文本的可置信度提升。

步骤S102、基于分词模型，对所述描述文本进行分词，得到多个关键词。

示例性的，将目标灾害事件的描述文本输入至分词模型中，以使分词模型对描述文本进行分词，得到描述文本中的多个关键词。

示例性的，分词处理可以是将描述文本中的主语、谓语、宾语进行分割，并不对描述文本中的语序进行改变。

例如，可以在描述文本中***“/”分隔符，以便于提取多个关键词，例如，登山者/遗漏/的/火苗/点燃/杂草/导致/山火/发生。

示例性的，分词模型可以根据经标注的分词数据对神经网络模型进行训练得到，神经网络模型的参数可以基于在线机器学习的算法框架，从经标注的分词数据中学习调整得到。

例如，经标注的分词数据可以包括常用语料和/或业务语料的分词数据，其中，常用语料例如为开源的语料分词数据，业务语料数据可以为运行内容搜索方法的服务器上储存的业务语料分词数据。

示例性地，可以基于分词模型和字的序列标注对描述文本进行分词。对于输入的描述文本的字序列，分词模型可以给描述文本中的每一个字标注一个标识词边界的标记，根据标识词边界的标记可以确定搜索文本中的若干关键词。

在一些实施例中，在所述基于语义泛化模型，对所述关键词进行语义泛化处理的步骤之前，还包括：基于词根确定模型，确定各关键词的词根；基于预设语法模板，根据各关键词之间的位置关系以及各关键词的词根确定每一个关键词的词性。

示例性的，对描述文本进行分词，得到多个关键词后，将关键词输入至分词模型中的词根还原子模型中，以使词根还原子模型对关键词进行词根还原处理，可以理解的，在英文的构词中，词的意义主要是由组成单词的词根体现出来的。词根可以单独构成词，也可以彼此组合成词，通过前缀后缀来改变单词的词性和意义。同样的，对于中文的词组，也可以还原为较为简单的形容方式，例如，“去爬山的一行人”或“山上的游客”，可以还原成“爬山队”，以更容易确定关键词的词性。

示例性的，可以在词根还原子模型中预设wordnet(单词网络)知识库，在该知识库中，最小分类节点为词的词根而非实体、短句等，并且名词词根包含上下位关系(hyponymy/hypernymy)、所属关系(meronymy)、antonymy(反义关系)、attribute(属性关系)等十种关系。动词词根包括上下位关系(Troponymy/hypernymy)、致使关系(cause)、entailment(蕴含关系)等。可以理解的，将关键词输入至wordnet(单词网络)知识库后，可以基于wordnet(单词网络)知识库中的连接关系，确定输入的关键词对应的最小分类节点中的词根。

示例性的，通过预设语法模板，确定每一个关键词的词性，具体的，在预设语法模板中，可以包括各词之间的上下文关系，从而在预设语法模板与具有语序的关键词匹配中，能够得到各个关键词的词性。

示例性的，预设语法模板可以是关注动词的语法模板，具体的，动词可以通过VevbNet(动词网络)词汇表来识别，不同的动词对应不同的预设语法模板，可以理解的，将关键词的词根遍历VevbNet(动词网络)词汇表后，若关键词为动词可以在VevbNet(动词网络)词汇表查找到对应的词根，也即是关键词的词根与VevbNet(动词网络)词汇表中的词根匹配，确定对应的预设语法模板，并通过对应的预设语法模板确定描述文本中余下的关键词对应的词性。

可以理解的，通过预设语法模板确定描述文本中余下的关键词对应的词性后，可以通过余下的关键词的词根对确定的词性进行检验，以减少关键词词性确定错误的几率。

示例性的，确定各关键词的词性后，可以基于语义泛化模型，通过各个关键词的词性，对关键词进行语义泛化处理，以得到关键词对应的属性概念词。

步骤S103、基于语义泛化模型，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词，其中，所述属性概念词用于描述所述关键词的属性或类别。

示例性的，语义泛化模型用于对关键词进行语义泛化处理，得到与关键词对应的属性概念词，可以理解的，属性概念词用于描述关键词的属性或类别，例如“登山驴友”进行泛化之后可以得到“喜好/擅长登山的人”以表征喜好登山这一类别的人群。

示例性的，对关键词进行语义泛化，可以便于对关键词进行归类，可以理解的，当描述文本中的关键词均进行归类后，得到的泛化事件的描述文本也能够用于对目标灾害事件进行归类。

示例性的，语义泛化模型包括预设的语义映射网络，通过语义映射网络对关键词进行语义泛化处理。

例如，语义映射网络包含多个网络层级，网络的根节点所包含的词为属性概念词，可以理解的，网络的根节点与多个子节点连接，且每个子节点中均存在待匹配关键词。将关键词输入至语义映射网络中，并在语义映射网络中确定与关键词相同的待匹配关键词，以及待匹配关键词所处的节点，并通过最短路径确定该待匹配关键词所处的节点的根节点，确定的根节点中的属性概念词即为关键词对应的属性概念词。

在一些实施例中，所述根据所述关键词的词性，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词，包括：确定与词性为动词的关键词相邻的多个待选关键词，并在多个所述待选关键词中，将词性为名词的关键词作为目标关键词；将所述目标关键词映射至语义映射网络中，确定所述目标关键词对应的属性概念词。

示例性的，在描述文本对应的多个关键词中确定词性为动词的关键词之后，确定与动词关键词相邻的多个待选关键词，具体的，确定与动词关键词所处的位置相邻的多个待选关键词，例如确定位于动词关键词当前位置的前一位置的关键词和后一位置的关键词为待选关键词，并在多个待选关键词中，将词性为名词的关键词作为目标关键词。

可以理解的，可以通过关键词的词根确定关键词的词性。

例如，多个关键词为“登山者/点燃/一根/火柴”，其中，确定动词关键词为“点燃”,与动词的关键词相邻的有“登山者”和“一根”，并且通过名词对应的词根“……者”，可以确定“登山者”的词性为名词，“一根”的词性为量词，因而将“登山者”确定为目标关键词。

示例性的，将得到的目标关键词输入至语义映射网络中，以确定目标关键词对应的属性概念词，可以理解的，语义映射网络中包括多个层级，其中，属性概念词位于根部的层级中，例如第一层级，除第一层级外，在每一层级中均包括多个用于指示待匹配关键词的子节点，每个层级之间相关联的子节点相互连接。在语义映射网络中，可以通过连接的路径，查找到与目标关键词对应的位于第一层级的属性概念词，具体过程如上所述，在此不再撰述。

在一些实施例中，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词，包括：基于所述语义泛化模型的语义映射网络，确定所述关键词对应的待选属性概念词，以及所述待选属性概念词的数目；若所述关键词对应的待选属性概念词的数目大于或等于预设数目阈值，则对多个所述待选属性概念词进行词义消歧处理，得到所述关键词对应的属性概念词。

示例性的，在语义映射网络中，一个关键词可能会通过不同的路径，得到与关键词对应的不同的待选属性概念词，可以理解的，需要在多个待选属性概念词中确定与关键词对应的属性概念词。

示例性的，当关键词对应的待选属性概念词的数目为1时，确定该待选属性概念词为关键词对应的属性概念词；当关键词对应的待选属性概念词的数目大于等于预设数目阈值，例如2时，需要对多个待选属性概念词进行词义消歧处理，以确定关键词对应的属性概念词。

例如，可以通过语义映射网络中，根据关键词与各待选属性概念词之间的路径长度，确定与关键词对应的属性概念词。具体的，关键词A对应待选属性概念词B以及待选属性概念词C，而在语义映射网络中，关键词A到待选属性概念词B的路径经过了7个节点，而关键词A到待选属性概念词C的路径经过了5个节点，将待选属性概念词C作为关键词A对应的属性概念词。

又例如，在另一些实施方式中，对多个所述待选属性概念词进行词义消歧处理，得到所述关键词对应的属性概念词，包括：基于预设与余弦相似度计算公式，将所述关键词与各所述待选属性概念词进行相似度计算，得到所述关键词和各所述待选属性概念词的相似值；确定所述相似值最高的待选属性概念词，并将相似值最高的待选属性概念词作为所述关键词对应的属性概念词。

示例性的，将关键词与各待选属性概念词进行相似度计算，具体的，将每一个待选属性概念词依次作为目标待选属性概念词，将关键词与目标待选属性概念词进行相似度计算，以得到关键词与个待选属性概念词的相似值。

例如，存在待选属性概念词“A、B、C、D”，在第一次计算时将“A”确定为目标待选属性概念词，并与关键词进行相似度计算，“B、C、D”则不进行计算，完成“A”的计算后，将“B”作为目标待选属性概念词，以此循环，直到所有的待选属性概念词均进行计算后结束。

示例性的，可以先对关键词和目标待选属性概念词转化为向量，以得到对应的关键词向量和目标待选属性概念词向量，将关键词向量以及目标待选属性概念词向量输入至预设余弦相似度计算公式，可以得到关键词和目标待选属性概念词的相似值。

例如，预设余弦相似度计算公式可以是：

其中，A_i用于指示关键词向量，B_i用于指示目标待选属性概念词向量，n为关键词向量和目标待选属性概念词向量中的向量元总数目，cosθ用于指示相似值。

通过上述预设余弦相似度计算公式，可以得到关键词与各待选属性概念词之间的相似值，并将相似值最高的待选属性概念词确定为关键词对应的属性概念词。

步骤S104、基于实体词数据库，对所述属性概念词进行实体匹配，得到与所述属性概念词对应的实体词，其中，所述实体词为与所述属性概念词的属性或类别关联的词。

将每一个属性概念词进行实体匹配，以得到与属性概念词对应的实体词。可以理解的，实体词用于指示具体描述的事物和/或人群，且与属性概念词的属性或类别关联。例如，属性概念词为“爬山人”或“常爬山人”，对应的实体词可以是“爬山爱好者”。

可以理解的，由于属性概念词用于表征关键词的属性或类别，因而属性概念词是较为抽象的词，直接将属性概念词进行输出可能无法体现原来的描述文本中的因果关系，因而确定属性概念词对应的实体词以对属性概念词进行约束，并通过实体词确定泛化事件描述文本。

在一些实施例中，所述实体词数据库包括至少两个层级，且每一层级包括多个实体词，所述基于实体词数据库，对所述属性概念词进行实体匹配，得到与所述属性概念词对应的实体词，包括：在所述实体词数据库中确定所述属性概念词所处的第一层级，与所述属性概念词连接的多个待选实体词，以及各所述待选实体词所处的第二层级；基于预设词义相似度计算公式，根据所述第一层级和所述第二层级，得到所述属性概念词与各所述待选实体词的词义相似度；确定词义相似度最高的待选实体词，并将词义相似度最高的待选实体词作为所述属性概念词对应的实体词。

示例性的，实体词数据库中可以是以实体词汇树的形式进行存储的，可以理解的，实体词汇树的结构可以如拓扑结构，包括多层级，在拓扑结构的多个根节点中，存在对应的多个属性概念词；在各个根节点对应的多个子节点中，包括多个待选实体词。可以理解的，多个子节点可以处于同一层级，也可以处于不同的层级，并在相邻的层级中，具有上下级的的语义关系或其逆关系可以在实体词汇树中体现，具体的，通过连接关系体现。其中，实体词汇树可以是预设的，存储于服务器或区块链中。

示例性的，将描述文本的各关键词对应的属性概念词依次作为目标属性概念词，并将目标属性概念词与多个待选实体词进行相似度计算，以确定目标属性概念词所对应的实体词。

可以理解的，与目标属性概念词连接的待选实体词不限于直接与目标属性概念词的待选实体词，也可以是间接与目标属性概念词连接的待选实体词，例如目标属性概念词位于第一层级，第二层级中有一个待选实体词与目标属性概念词连接，而在第三层级中还包括两个待选实体词与第二层级中的与目标属性概念词连接的实体词连接，分别计算目标属性概念词与这三个待选实体词的相似度。

示例性的，将待选实体词依次作为目标待选实体词，并确定目标属性概念词在实体词数据库中所处的第一层级，以及目标待选实体词在实体数据库中所处的第二层级，将目标属性概念词的第一层级和目标待选实体词的第二层级输入至词义相似度计算公式，以确定目标属性概念词和目标待选实体词的词义相似度。

示例性的，词义相似度计算公式可以如下所示：

其中，s₁用于指示目标属性概念词，s₂用于指示待选实体词，lcs用于指示两个词最近的祖先节点，depth用于指示对应的词或节点所位于的层级，similarity用于指示相似度。

示例性的，计算得到相似度之后，可以根据目标待选实体词对应的相似度确定目标属性概念词对应的实体词。例如，将相似度最高的目标待选实体词确定为目标属性概念词对应的实体词。

步骤S105、根据所述实体词确定泛化事件描述文本，并将所述泛化事件描述文本发送至目标终端。

示例性的，得到实体词后，由于在计算过程中并未对描述文本的语序进行修改，描述文本的语序能够被保留，因而描述文本中词与词之间的位置关系得以保留，确定每一个属性概念词对应的实体词之后，对实体词按照属性概念词的位置，也即是关键词所处的位置进行拼接，得到泛化事件描述文本。可以理解的，泛化事件描述文本可以用于描述与目标灾害事件相同类别的灾害事件，以达到对目标灾害事件的归类或概括的目的。

示例性的，得到泛化事件描述文本之后，对泛化事件描述文本进行输出，可以理解的，可以输出至目标终端。

可以理解的，泛化事件描述文本还能够存储于区块链中，以使在其他终端设备需要获取泛化事件描述文本时，能够通过向区块链进行广播以获取泛化事件描述文本。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，在所述根据所述实体词确定泛化事件描述文本之后，还包括：基于事件关联度计算模型，对所述描述文本和所述泛化事件描述文本进行事件关联度计算，得到所述灾害事件和所述灾害事件的泛化事件之间的关联强度数值；根据所述关联强度数值，确定所述泛化事件描述文本是否符合需求；若确定所述泛化事件描述文本符合需求，则向所述源终端发送用于指示所述泛化事件描述文本符合需求的文本泛化成功信息。

示例性的，可以通过事件关联度的计算，确定泛化之后的泛化事件描述文本是否符合需求，可以理解的，若泛化过度，在泛化事件描述文本无法获取到完整的信息，从而无法很好的了解灾害事件，若泛化不足，达不到泛化的目标，造成资源的浪费，且有可能将目标灾害事件归类错误。

示例性的，事件关联度计算模型可以对目标灾害事件对应的描述文本和对目标灾害事件泛化之后的泛化事件描述文本进行事件的关联度计算，具体的，事件的关联度可以通过关联强度数值表征。可以理解的，关联强度数值越高，事件关联度越高。

示例性的，可以预设关联强度阈值，当计算得到的关联强度数值大于预设的关联强度阈值，可以认为泛化事件描述文本符合需求。

示例性的，当泛化事件描述文本符合需求，输出用于指示所述泛化事件描述文本符合需求的文本泛化成功信息；当泛化事件描述文本不符合需求时，输出用于指示所述泛化事件描述文本不符合需求的文本泛化失败信息，以对描述文本的泛化过程进行调整。

在一些实施例中，基于事件关联度计算模型，对所述描述文本和所述泛化事件描述文本进行事件关联度计算，得到灾害事件和灾害事件的泛化事件之间的关联强度数值，包括：基于事件关联度计算模型中的向量化子模型，对描述文本进行向量化处理，得到描述文本对应的第一文本向量，以及对泛化事件描述文本进行向量化处理，得到泛化事件描述文本对应的第二文本向量，并将第一文本向量和第二文本向量进行拼接，得到第三文本向量；基于事件关联度计算模型中的预设因果关系计算公式，对第三向量进行关联度计算，得到描述文本和泛化事件描述文本之间的关联强度数值。

示例性的，通过向量化子模型，对描述文本和泛化事件描述文本进行向量化处理，得到描述文本对应的第一文本向量和泛化事件描述文本对应的第二文本向量。并将第一文本向量和第二文本向量进行拼接，得到第三文本向量。

示例性的，向量化处理可以是对词进行编码处理，也可以是确定字词出现的频率，并基于字词频率进行编码处理，本申请不予限定。

示例性的，将第三文本向量输入至池化层，以进行池化处理，得到处理后的第三文本向量。池化处理例如可以是对文本向量进行截取或增补处理，以使第三文本向量的向量长度为池化层中的预设向量长度。

示例性的，将处理后的第三文本向量输入至预设关联度计算公式中，以进行事件关联度的计算，其中，预设关联度计算公式可以如下所示：

C＝σ(WH+b)

其中，C用于指示关联强度数值，W、b为事件关联度计算模型中的模型参数，σ用于指示sigmoid函数，用于进行激活计算，以确保关联强度数值的取值范围。其中，σ(sigmoid函数)的表达式为：

其中，W、H、b如上所述，exp用于指示取实数部分。

示例性的，还可以通过样本描述文本和样本描述文本对应的样本泛化事件描述文本对事件关联性计算模型进行训练，其中，将样本描述文本和样本泛化事件描述文本输入至事件关联度计算模型中的损失值计算子模型中，通过预设损失值计算公式计算输入的样本描述文本和样本泛化事件描述文本的损失值，并通过计算得到的损失值调整事件关联度计算模型的参数，例如参数W和参数b。

其中，预设损失值计算公式可以如下所示：

L＝max(0,M+C′-C)

其中，L用于指示损失值，max用于指示取两者之中的较大值，C′用于指示关联强度数值超过预设关联强度阈值的样本描述文本及对应的样本泛化事件描述文本，C用于指示关联强度数值低于预设关联强度阈值的样本描述文本及对应的样本泛化事件描述文本，M用于指示事件关联度计算模型的参数或常数。

可以理解的，通过损失值调整描述文本的泛化过程，可以提高泛化事件描述文本的可置信度，以及避免描述文本的泛化过度或泛化程度不足的情况发生。

上述实施例提供的灾害事件的描述文本处理方法，通过对文本进行分词后得到的关键词进行语义泛化处理，将关键词泛化为属性概念词，并通过属性概念词确定对应的实体词，以得到泛化事件描述文本，既能在泛化的过程进行约束，以使泛化事件描述文本的置信度较高，同时，由于对词语的泛化过程进行了约束，在两个具有特定关系的事件泛化之后，仍能够从泛化之后的事件描述文本中体现事件之间的特定关系，还能对目标灾害事件进行归纳或概括。

请参阅图3，图3是本申请一实施例提供的一种灾害事件的描述文本处理装置100的示意图，该灾害事件的描述文本处理装置100可以配置于服务器或终端中，用于执行前述的灾害事件的描述文本处理方法。

如图3所示，该灾害事件的描述文本处理装置100，包括：文本获取模块110、文本分词模块120、属性概念词确定模块130、实体词确定模块140、文本生成模块150。

文本获取模块110，用于从源终端获取目标灾害事件的描述文本。

文本分词模块120，用于基于分词模型，对所述描述文本进行分词，得到多个关键词。

属性概念词确定模块130，用于基于语义泛化模型，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词，其中，所述属性概念词用于描述所述关键词的属性或类别。

实体词确定模块140，用于基于实体词数据库，对所述属性概念词进行实体匹配，得到与所述属性概念词对应的实体词，其中，所述实体词为与所述属性概念词的属性或类别关联的词。

文本生成模块150，用于根据所述实体词确定泛化事件描述文本，并将所述泛化事件描述文本发送至目标终端。

示例性的，文本分词模块120还包括词根确定子模块，词性确定子模块。

词根确定子模块，用于基于所述分词模型中的词根确定子模型，确定各所述关键词的词根。

词性确定子模块，用于基于预设语法模板，根据各所述关键词之间的位置关系以及各所述关键词的词根确定每一个所述关键词的词性。

属性概念词确定模块130，还用于根据所述关键词的词性，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词。

示例性的，属性概念词确定模块130还包括名词确定子模块，语义映射处理子模块。

名词确定子模块，用于确定与词性为动词的关键词相邻的多个待选关键词，并在多个所述待选关键词中，将词性为名词的关键词作为目标关键词。

语义映射处理子模块，用于将所述目标关键词映射至语义映射网络中，确定所述目标关键词对应的属性概念词。

示例性的，属性概念词确定模块130还包括待选属性概念词数目确定子模块，词义消歧处理子模块。

待选属性概念词数目确定子模块，用于基于所述语义泛化模型的语义映射网络，确定所述关键词对应的待选属性概念词，以及确定所述待选属性概念词的数目。

词义消歧处理子模块，用于若所述关键词对应的待选属性概念词的数目大于或等于预设数目阈值，对多个所述待选属性概念词进行词义消歧处理，得到所述关键词对应的属性概念词。

示例性的，词义消歧处理子模块还包括相似值计算子模块，相似值对比子模块。

相似值计算子模块，用于基于预设与余弦相似度计算公式，将所述关键词与各所述待选属性概念词进行相似度计算，得到所述关键词和各所述待选属性概念词的相似值；

相似值对比子模块，用于确定所述相似值最高的待选属性概念词，并将相似值最高的待选属性概念词作为所述关键词对应的属性概念词。

示例性的，实体词确定模块140包括层级确定子模块、词义相似度计算子模块，词语相似度对比子模块。

层级确定子模块，用于在所述实体词数据库中确定所述属性概念词所处的第一层级，所述属性概念词对应的多个待选实体词，以及各所述待选实体词所处的第二层级。

词义相似度计算子模块，用于基于预设词义相似度计算公式，根据所述第一层级和所述第二层级，得到所述属性概念词与各所述待选实体词的词义相似度。

词语相似度对比子模块，用于确定词义相似度最高的待选实体词，并将词义相似度最高的待选实体词作为所述属性概念词对应的实体词。

示例性的，灾害事件的描述文本处理装置100还包括事件关联度计算模块、需求判断模块、信息输出模块。

事件关联度计算模块，用于基于事件关联度计算模型，对所述描述文本和所述泛化事件描述文本进行事件关联度计算，得到所述灾害事件和所述灾害事件的泛化事件之间的关联强度数值。

需求判断模块，用于根据所述关联强度数值，确定所述泛化事件描述文本是否符合需求。

信息输出模块，用于若确定所述泛化事件描述文本符合需求，则向所述源终端发送用于指示所述泛化事件描述文本符合需求的文本泛化成功信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法，可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端。

如图4所示，该计算机设备包括通过***总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。

存储介质可存储操作***和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种灾害事件的描述文本处理方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种灾害事件的描述文本处理方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

从源终端获取目标灾害事件的描述文本；

在一个实施例中，所述处理器在实现基于语义泛化模型，对所述关键词进行语义泛化处理之前，还用于实现：

基于所述分词模型中的词根确定子模型，确定各所述关键词的词根；

基于预设语法模板，根据各所述关键词之间的位置关系以及各所述关键词的词根确定每一个所述关键词的词性；

所述处理器在实现对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词时，用于实现：

根据所述关键词的词性，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词。

在一个实施例中，所述处理器在实现根据所述关键词的词性，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词时，用于实现：

确定与词性为动词的关键词相邻的多个待选关键词，并在多个所述待选关键词中，将词性为名词的关键词作为目标关键词；

将所述目标关键词映射至语义映射网络中，确定所述目标关键词对应的属性概念词。

在一个实施例中，所述处理器在实现对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词时，用于实现：

基于所述语义泛化模型的语义映射网络，确定所述关键词对应的待选属性概念词，以及确定所述待选属性概念词的数目；

若所述关键词对应的待选属性概念词的数目大于或等于预设数目阈值，对多个所述待选属性概念词进行词义消歧处理，得到所述关键词对应的属性概念词。

在一个实施例中，所述处理器在实现对多个所述待选属性概念词进行词义消歧处理，得到所述关键词对应的属性概念词时，用于实现：

基于预设与余弦相似度计算公式，将所述关键词与各所述待选属性概念词进行相似度计算，得到所述关键词和各所述待选属性概念词的相似值；

确定所述相似值最高的待选属性概念词，并将相似值最高的待选属性概念词作为所述关键词对应的属性概念词。

在一个实施例中，所述处理器在实现基于实体词数据库，对所述属性概念词进行实体匹配，得到与所述属性概念词对应的实体词时，用于实现：

在所述实体词数据库中确定所述属性概念词所处的第一层级，所述属性概念词对应的多个待选实体词，以及各所述待选实体词所处的第二层级；

基于预设词义相似度计算公式，根据所述第一层级和所述第二层级，得到所述属性概念词与各所述待选实体词的词义相似度；

确定词义相似度最高的待选实体词，并将词义相似度最高的待选实体词作为所述属性概念词对应的实体词。

在一个实施例中，所述处理器在实现根据所述实体词确定泛化事件描述文本之后，还用于实现：

基于事件关联度计算模型，对所述描述文本和所述泛化事件描述文本进行事件关联度计算，得到所述灾害事件和所述灾害事件的泛化事件之间的关联强度数值；

根据所述关联强度数值，确定所述泛化事件描述文本是否符合需求；

若确定所述泛化事件描述文本符合需求，则向所述源终端发送用于指示所述泛化事件描述文本符合需求的文本泛化成功信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述灾害事件的描述文本处理的具体工作过程，可以参考前述灾害事件的描述文本处理控制方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请灾害事件的描述文本处理方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种灾害事件的描述文本处理方法，其特征在于，包括：

从源终端获取目标灾害事件的描述文本；

根据所述实体词确定泛化事件描述文本，并将所述泛化事件描述文本发送至目标终端；

其中，在所述基于语义泛化模型，对所述关键词进行语义泛化处理之前，还包括：基于词根确定模型，确定各所述关键词的词根；基于预设语法模板，根据各所述关键词之间的位置关系以及各所述关键词的词根确定每一个所述关键词的词性；

所述基于语义泛化模型，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词，包括：基于语义泛化模型，根据所述关键词的词性对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词。

2.如权利要求1所述的灾害事件的描述文本处理方法，其特征在于，所述根据所述关键词的词性，对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词，包括：

3.如权利要求1所述的灾害事件的描述文本处理方法，其特征在于，所述对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词，包括：

若所述关键词对应的待选属性概念词的数目大于或等于预设数目阈值，则对多个所述待选属性概念词进行词义消歧处理，得到所述关键词对应的属性概念词。

4.如权利要求3所述的灾害事件的描述文本处理方法，其特征在于，所述对多个所述待选属性概念词进行词义消歧处理，得到所述关键词对应的属性概念词，包括：

5.如权利要求1或2所述的灾害事件的描述文本处理方法，其特征在于，所述实体词数据库包括至少两个层级，且每一层级包括多个实体词，所述基于实体词数据库，对所述属性概念词进行实体匹配，得到与所述属性概念词对应的实体词，包括：

6.如权利要求1或2所述的灾害事件的描述文本处理方法，其特征在于，在所述根据所述实体词确定泛化事件描述文本之后，还包括：

7.一种灾害事件的描述文本处理装置，其特征在于，所述灾害事件的描述文本处理装置包括：

文本生成模块，用于根据所述实体词确定泛化事件描述文本，并将所述泛化事件描述文本发送至目标终端；

所述灾害事件的描述文本处理装置还包括：

词性确定子模块，用于基于预设语法模板，根据各所述关键词之间的位置关系以及各所述关键词的词根确定每一个所述关键词的词性；

所述属性概念词确定模块，还用于基于语义泛化模型，根据所述关键词的词性对所述关键词进行语义泛化处理，得到与所述关键词对应的属性概念词。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至6中任一项所述的灾害事件的描述文本处理方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至6中任一项所述的灾害事件的描述文本处理方法的步骤。