CN114372458A

CN114372458A - 一种基于政务工单的突发事件检测方法

Info

Publication number: CN114372458A
Application number: CN202210063986.1A
Authority: CN
Inventors: 郑文博; 汤灏; 包利安
Original assignee: Beijing Zero Data Technology Co ltd; Beijing Zero Vision Network Technology Co ltd
Current assignee: Beijing Zero Data Technology Co ltd; Beijing Zero Vision Network Technology Co ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-19
Anticipated expiration: 2042-01-20
Also published as: CN114372458B

Abstract

本申请提供了一种基于政务工单的突发事件检测方法，涉及人工智能算法技术领域。该方法包括：获取训练样本，训练样本包括正样本和负样本，其中，正样本为带有突发事件的文本数据，负样本为带有非突发事件的文本数据；以正样本和负样本为输入，以所有突发事件的概率值为输出，对突发事件模型进行训练，获得训练好的突发事件模型。以此方式，可以提高对政务工单中突发事件识别的准确率。

Description

一种基于政务工单的突发事件检测方法

技术领域

本申请涉及人工智能算法技术领域，尤其是涉及一种基于政务工单的突发事件检测方法。

背景技术

随着政府不同数据服务的数据汇聚，发生的事件种类越来越多，而事件和事件的定义范围存在近义、互斥等现象。因此，需要一种技术来准确提取政务工单中的突发事件，帮助业务人员立刻协调相应单位对突发事件进行处置。

目前，现有的提取方法，更多的是人为定义特定关键词并进行简单的文本匹配，但使用此种方法，规则和关键词都需要人工定义，缺乏泛化能力，迁移能力弱，且无法基于文本的语义环境做分析，从而不能准确高效地是识别出政务工单中的突发事件。

发明内容

为了提高对政务工单中突发事件识别的准确率，本申请提供了一种基于政务工单的突发事件检测方法。

在本申请的第一方面，提供了一种突发事件模型的训练方法，包括：

获取训练样本，所述训练样本包括正样本和负样本，其中，所述正样本为带有突发事件的文本数据，所述负样本为带有非突发事件的文本数据；

以所述正样本和负样本为输入，以所有突发事件的概率值为输出，对突发事件模型进行训练，获得训练好的所述突发事件模型。

可选的，该方法还包括：将训练好的所述突发事件模型通过损失函数进行优化，获得优化后的所述突发事件模型。

可选的，该方法还包括：获取验证集，利用验证集对优化后的所述突发事件模型进行验证。

在本申请的第二方面，提供了一种突发事件模型的训练装置，包括：

获取模块，用于获取训练样本，所述训练样本包括正样本和负样本，其中，所述正样本为带有突发事件的文本数据，所述负样本为带有非突发事件的文本数据；

训练模块，用于以所述正样本和负样本为输入，以所有突发事件的概率值为输出，对突发事件模型进行训练，获得训练好的所述突发事件模型。

可选的，该装置还包括：优化模块，用于将训练好的所述突发事件模型通过损失函数进行优化，获得优化后的所述突发事件模型。

可选的，该装置还包括：验证模块，用于获取验证集，利用验证集对优化后的所述突发事件模型进行验证。

在本申请的第三方面，提供了一种基于政务工单的突发事件检测方法，包括：

获取政务工单；

将所述政务工单输入至训练好的突发事件模型，获得所述政务工单中的突发事件。

可选的，所述获得所述政务工单中的突发事件包括：

利用所述突发事件模型计算出所有突发事件的概率值，取所述概率值最大的突发事件作为最终要获得的突发事件。

在本申请的第四方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如第一方面中任一项所述的方法或第三方面中任一项所述的方法。

在本申请的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面中任一项所述的方法或第三方面中任一项所述的方法。

通过采用上述技术方案，将获取的训练样本输入至突发事件模型中，来对突发事件模型进行训练，并通过损失函数对突发事件模型进行优化，获得最优的突发事件模型，提高模型输出数据的准确度，再将政务工单数据输入训练好的突发事件模型中，通过突发事件模型推理获得政务工单中的突发事件，从而提高了识别政务工单中突发事件的准确率。

应当理解，发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1是本申请实施例中突发事件模型的训练方法的流程图；

图2是本申请实施例中突发事件模型的训练装置的方框图；

图3是本申请实施例中基于政务工单的突发事件检测方法的流程图；

图4是本申请实施例中电子设备的方框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

图1示出了本申请实施例中突发事件模型的训练方法的流程图。参见图1，该方法包括以下步骤：

步骤S110：获取训练样本。

其中，训练样本包括正样本和负样本。正样本为带有突发事件的文本数据；负样本为带有非突发事件的文本数据。需要说明的是，突发事件是指突然发生地、危害民众安全的事件，比如，***、放火、***等，均属于突发事件。此外，在训练样本的正样本中，已经对突发事件打好标签。

获得训练样本后，对训练样本进行预处理，将训练样本转换成能够输入模型的特征向量。下面对训练样本预处理进行具体介绍。

首先，对上述打好标签的有监督学习文本数据进行分词处理，再对每条文本数据开头连接[CLS]标记。具体地，利用Bert预处理模型来对文本数据进行分词处理，Bert预处理模型中主要有两个分词器：BasicTokenizer和WordpieceTokenizer，先利用BasicTokenizer对文本数据进行粗略的分词，得到一个token列表，然后再对每个token进行一次WordpieceTokenizer处理，得到最终的分词结果。

对文本数据进行分词处理后，再对文本数据进行embedding向量化表示。即将分词后的每个词用基于Bert预训练模型的特征向量表示，对每个句子进行embedding向量化表示，对每个词的相对位置编码向量表示，再将三种特征向量相加。需要说明的是，本申请实施例中使用的Bert预训练模型的L＝12,H＝768,A＝12。

在一些实施例中，对标签数据编码化处理，样本标签类型数根据训练数据的样本范围自动化采集构建。

步骤S120：以正样本和负样本为输入，以所有突发事件的概率值为输出，对突发事件模型进行训练，获得训练好的突发事件模型。

在一些实施方式中，该突发事件模型的训练方法还包括以下步骤：

步骤S130：将训练好的突发事件模型通过损失函数进行优化，获得优化后的突发事件模型。

具体地，将训练好的突发事件模型基于预训练Bert模型构建多标签场景损失函数，来进行finetuning训练。由于Bert模型训练主要采取双向transformer中的encoder模块作为向量特征提取表示，Bert模型主要的机制是自注意力机制，其能够自动化的挖掘文本中当前词和上下文中其他词的语义关系，并且忽略距离上的远近，来获取词的语义向量表示。而获取的词的语义向量表示能够充分考虑到语义关联，从而提高了识别政务工单中突发事件的准确率。

本申请实施例使用的transformer设置为12层，在模型构建时，取最后一层的[CLS]标记字符向量表示作为下一层的输入向量。

在一些实施方式中，采用如下损失函数，作为优化目标：

其中，N为负样本集合，P为正样本集合，S_i为正样本得分，S_j为负样本得分。

值得一提的是，该损失函数能够针对多标签的样本数据进行建模。

在一些实施方式中，在训练突发事件模型时，进行如下设置：

epoch＝40；

批次大小batch_size＝16；

最大文本截取长度maxlen＝410；

学习率lr＝le-5；

多标签的阈值为0。

需要说明的是，一个epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程。批次大小是指一次训练抓取的文本数据的数量。

步骤S140：获取验证集，利用验证集对优化后的突发事件模型进行验证。

验证集同样包括带有突发事件的文本数据和带有非突发事件的文本数据，即验证集中的文本数据带有标注。验证集用来验证上述训练好的突发事件模型的参数是否为最优，若不是最优，则继续对参数进行优化。具体地，在每次验证过程中，会获得相比于当前突发事件模型的参数更优的参数，将最优参数替换当前突发事件模型的参数，并不断循环，从而来找到最优的突发事件模型参数。

在一些实施方式中，在不断循环验证的过程中，当突发事件模型的参数连续预设次数不再更新时，提前终止训练。

需要说明的是，预设次数人为设定，比如，设定预设次数为10次，即当突发事件模型的参数达到连续10epochs不再更新时，提前终止后续的训练，从而能够节省GPU资源。

在一些实施方式中，采用模型评价指标对优化后的突发事件模型进行评价。需要说明的是，在本实施例中采用的模型评价指标包括准确率和F1指标。需要说明的是，F1指标是通过计算测试验证集的F1值的平均值获得的，而F1值为精确率和召回率的调和平均值。

图2示出了本申请实施例中突发事件模型的训练装置的方框图。参见图2，该装置包括：

获取模块210，用于获取训练样本，训练样本包括正样本和负样本，其中，正样本为带有突发事件的文本数据，负样本为带有非突发事件的文本数据；

训练模块220，用于以正样本和负样本为输入，以所有突发事件的概率值为输出，对突发事件模型进行训练，获得训练好的所述突发事件模型。

在一些实施方式中，该装置还包括优化模块230，用于将训练好的突发事件模型通过损失函数进行优化，获得优化后的突发事件模型。

在一些实施方式中，该装置还包括验证模块240，用于获取验证集，利用验证集对优化后的突发事件模型进行验证。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图3示出了本申请实施例中基于政务工单的突发事件检测方法的流程图。参见图3，该突发事件检测方法包括以下步骤：

步骤S310：获取政务工单。

步骤S320：将政务工单输入至训练好的突发事件模型，获得政务工单中的突发事件。

在一些实施方式中，步骤S320包括：利用突发事件模型计算出所有突发事件的概率值，取概率值最大的突发事件作为最终要获得的突发事件。

需要说明的是，获取多个政务工单作为测试集，该政务工单中未对突发事件进行标记。

具体地，基于训练完成的最优的突发事件模型做推理功能，根据输入的政务工单中的文本数据，计算该文本数据中所有事件标签的概率值，取概率值最大的突发事件标签，若该标签不为空，则该事件即为突发事件。

本申请实施例中提供了一种电子设备，如图4所示，图4所示的电子设备400包括：处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。可选地，电子设备400还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备400的结构并不构成对本申请实施例的限定。

处理器401可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的突发事件模型的训练方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种突发事件模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的训练方法，其特征在于，还包括：

将训练好的所述突发事件模型通过损失函数进行优化，获得优化后的所述突发事件模型。

3.根据权利要求2所述的训练方法，其特征在于，还包括：

获取验证集，利用验证集对优化后的所述突发事件模型进行验证。

4.一种突发事件模型的训练装置，其特征在于，包括：

5.根据权利要求4所述的训练装置，其特征在于，还包括：

优化模块，用于将训练好的所述突发事件模型通过损失函数进行优化，获得优化后的所述突发事件模型。

6.根据权利要求5所述的训练装置，其特征在于，还包括：

验证模块，用于获取验证集，利用验证集对优化后的所述突发事件模型进行验证。

7.一种基于政务工单的突发事件检测方法，其特征在于，包括：

获取政务工单；

8.根据权利要求7所述的突发事件检测方法，其特征在于，所述获得所述政务工单中的突发事件包括：

9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～3中任一项所述的方法或7～8中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～3中任一项所述的方法或7～8中任一项所述的方法。