CN113627542A - 一种事件信息处理方法、服务器及存储介质 - Google Patents
一种事件信息处理方法、服务器及存储介质 Download PDFInfo
- Publication number
- CN113627542A CN113627542A CN202110930107.6A CN202110930107A CN113627542A CN 113627542 A CN113627542 A CN 113627542A CN 202110930107 A CN202110930107 A CN 202110930107A CN 113627542 A CN113627542 A CN 113627542A
- Authority
- CN
- China
- Prior art keywords
- event
- events
- information
- clustered
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种事件信息处理方法、服务器及存储介质,属于计算机技术领域。在本申请中,接收到事件监测设备上传的多个待分类事件的事件信息,根据多个待分类事件的事件信息进行分类操作,得到多个事件集合。针对分类后得到的每个事件集合的各个待聚类事件的事件信息中包含的关键信息,对多个待聚类事件进行聚类,可以将事件集合中包含相同关键信息的待聚类事件进行关联,得到至少一个关联事件集合,实现事件的分类归并操作。针对接收到的多个事件,经过先分类再聚类的两级处理,可以使得被分类归并到一个关联事件集合中的事件相似度更高,关联性更强,提高事件分类归并的精准度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种事件信息处理方法、服务器及存储介质。
背景技术
随着移动互联网、大数据和云计算技术的飞速发展,人们应对各种事件的手段逐渐多样化。例如,在发生自然灾害或者公共安全等突发事件之后,人们能够借助互联网,实时将事件信息进行上报。而如何将接收到的事件信息进行有效的归并关联,对于及时了解灾情,制定有效解决方案至关重要。
现有技术中,针对于突发事件的事件分类归并操作,可以通过ANN(ArtificialNeural Network,人工神经网络)等方式对事件进行分类归并,但是,通过该方式对突发事件进行事件的分类归并,往往得到的事件集合精准度较差。
发明内容
本申请实施例提供一种事件信息处理方法、服务器及存储介质,用于解决现有技术中的事件分类归并的精准度差的问题。
第一方面,本申请实施例提供一种事件信息处理方法,该方法包括:
接收事件监测设备上传的多个待分类事件的事件信息;
基于所述多个待分类事件的事件信息,对所述多个待分类事件进行分类,得到多个事件集合;每个事件集合中的待分类事件属于同一类别;
针对每个事件集合,分别执行如下操作:针对所述事件集合中的各个待聚类事件,基于所述各个待聚类事件的事件信息中包含的关键信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合;针对每个关联事件集合,根据所述关联事件集合中的待聚类事件生成一个关联事件;
输出得到的各个关联事件。
在本申请实施例中,接收到事件监测设备上传的多个待分类事件的事件信息,根据多个待分类事件的事件信息进行分类操作,得到多个事件集合,每个事件集合中的待分类事件属于同一类别。针对分类后得到的每个事件集合,基于各个待聚类事件的事件信息中包含的关键信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合。将分类后得到的事件集合根据待聚类事件的事件信息中包含的事件关键信息再进行聚类处理,可以将事件集合中包含相同关键信息的待聚类事件进行关联,得到至少一个关联事件集合,实现事件的分类归并操作。针对每个关联事件集合,根据关联事件集合中的待聚类事件生成一个关联事件,输出得到的各个关联事件。针对接收到的多个事件,经过先分类再聚类的两级处理,可以使得被分类归并到一个关联事件集合中的事件相似度更高,关联性更强,提高事件分类归并的精准度。
在一种可能实现的方式中,基于所述多个待分类事件的事件信息,对所述多个待分类事件进行分类,得到多个事件集合,包括:
根据设定字段对应的权重,对各个所述待分类事件的事件信息中的设定字段信息进行权重赋值,得到各个所述待分类事件的赋值字段信息;
基于各个所述待分类事件的赋值字段信息,对所述多个待分类事件进行分类,得到多个事件集合。
在本申请实施例中,根据设定字段对应的权重,对各个待分类事件的事件信息中的设定字段信息进行权重赋值,得到各个待分类事件的赋值字段信息,再基于各个待分类事件的赋值字段信息,对多个待分类事件进行分类,得到多个事件集合。在事件分类的处理过程中引入权重参数,针对性更强,使得事件在分类处理得到的结果精准度进一步提高。
在一种可能实现的方式中,基于所述多个待分类事件的事件信息,对所述多个待分类事件进行分类,得到多个事件集合之后,方法所述还包括:
从所述多个待分类事件的事件信息中,提取设定数量的关键信息。
在本申请实施例中,从多个待分类事件的事件信息中,提取出设定数量的关键信息,根据各个待聚类事中的设定数量的关键信息对待聚类事件进行聚类处理,可以根据这些关键信息判断待分类后的事件集合中的待聚类事件是否为同一聚类,针对性更强,得到的待聚类事件关联性更好。
在一种可能实现的方式中,从所述多个待分类事件的事件信息中,提取设定数量的关键信息,包括:
将所述多个待分类事件的事件信息去除设定字段信息,得到语料库;
对所述语料库中的信息进行分词处理,得到多个分词;
按照各个分词在语料库中出现的次数,对所述多个分词进行排序,并提取前m个关键分词;m为设定值;
将所述m个关键分词与所述设定字段信息加和,得到设定数量的关键信息。
在本申请实施例中,对语料库进行分词操作,从中选择出m个出现次数最多的分词,在将设定字段信息与m个分词加和,可以得到设定数量的关键信息。由语料库中出现次数最多的分词与设定字段信息加和得到设定数量的关键信息比随机选取设定数量的关键信息具有更强的针对性,对待聚类事件进行聚类处理时,得到的关联事件集合关联性更好。
在一种可能实现的方式中,基于所述各个待聚类事件的事件信息中包含的关键信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合,包括:
对各个待聚类事件的事件信息中包含的关键信息进行权重赋值,得到各个待聚类事件的赋值信息;
基于各个所述待聚类事件的赋值信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合。
在本申请实施例中,对各个待聚类事件的事件信息中包含的关键信息进行权重赋值,在根据待聚类事件的赋值信息对多个待聚类事件进行聚类,引入权重参数,可以对关键信息进行分层,权重赋值更高的对待聚类事件聚类处理时影响更大,使得聚类操作的针对性更强,得到的关联事件集合的关联性更好。
在一种可能实现的方式中,基于各个所述待聚类事件的赋值信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合,包括:
基于各个所述待聚类事件的赋值信息,分别确定各个所述待聚类事件对应的事件向量,并根据各个所述待聚类事件对应的事件向量,确定至少一个聚类中心;
根据各个所述待聚类事件对应的事件向量和至少一个聚类中心,确定至少一个关联事件集合。
在本申请实施例中,对分类后得到的事件集合再进行聚类处理,先实现待分类事件的分类,在将分类后的事件集合进行聚类,可以在同一种类别的事件集合中将包含相同关键信息的待聚类事件进行聚类,得到关联性极高的关联事件集合,使得上报的事件实现分类归并的效果。
在一种可能实现的方式中,输出得到的各个关联事件,包括:
显示所述各个关联事件;
若接收到针对所述各个关联事件中的任一个目标关联事件的展开操作,按照预设的优先级顺序显示所述目标关联事件对应的关联事件集合中的待聚类事件。
在本申请实施例中,在接收到针对各个关联事件中的任一个目标关联事件的展开操作时,将得到的关联事件按照预设的优先级顺序显示,用户可以优先看到优先级高的待聚类事件,掌握待聚类事件的各项信息。
第二方面,本申请实施例提供一种事件信息处理装置,包括:
接收单元,用于接收事件监测设备上传的多个待分类事件的事件信息;
分类单元,用于基于所述多个待分类事件的事件信息,对所述多个待分类事件进行分类,得到多个事件集合;每个事件集合中的待分类事件属于同一类别;
聚类单元,用于针对每个事件集合,分别执行如下操作:针对所述事件集合中的各个待聚类事件,基于所述各个待聚类事件的事件信息中包含的关键信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合;针对每个关联事件集合,根据所述关联事件集合中的待聚类事件生成一个关联事件;
输出单元,用于输出得到的各个关联事件。
在一种可能实现的方式中,所述分类单元,还用于:
根据设定字段对应的权重,对各个所述待分类事件的事件信息中的设定字段信息进行权重赋值,得到各个所述待分类事件的赋值字段信息;
基于各个所述待分类事件的赋值字段信息,对所述多个待分类事件进行分类,得到多个事件集合。
在一种可能实现的方式中,事件信息处理装置,还包括:
提取单元,用于从所述多个待分类事件的事件信息中,提取设定数量的关键信息。
在一种可能实现的方式中,所述提取单元,还用于:
将所述多个待分类事件的事件信息去除设定字段信息,得到语料库;
对所述语料库中的信息进行分词处理,得到多个分词;
按照各个分词在语料库中出现的次数,对所述多个分词进行排序,并提取前m个关键分词;m为设定值;
将所述m个关键分词与所述设定字段信息加和,得到设定数量的关键信息。
在一种可能实现的方式中,所述聚类单元,用于:
对各个待聚类事件的事件信息中包含的关键信息进行权重赋值,得到各个待聚类事件的赋值信息;
基于各个所述待聚类事件的赋值信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合。
在一种可能实现的方式中,所述聚类单元,用于:
基于各个所述待聚类事件的赋值信息,分别确定各个所述待聚类事件对应的事件向量,并根据各个所述待聚类事件对应的事件向量,确定至少一个聚类中心;
根据各个所述待聚类事件对应的事件向量和至少一个聚类中心,确定至少一个关联事件集合。
在一种可能实现的方式中,事件信息处理装置,还包括:
显示单元,用于显示所述各个关联事件;若接收到针对所述各个关联事件中的任一个目标关联事件的展开操作,按照预设的优先级顺序显示对所述目标关联事件对应的关联事件集合中的待聚类事件。
第三方面,本申请实施例提供了一种服务器,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序;
所述处理器用于读取存储器中的程序并执行下列过程:
接收事件监测设备上传的多个待分类事件的事件信息;
基于所述多个待分类事件的事件信息,对所述多个待分类事件进行分类,得到多个事件集合;每个事件集合中的待分类事件属于同一类别;
针对每个事件集合,分别执行如下操作:针对所述事件集合中的各个待聚类事件,基于所述各个待聚类事件的事件信息中包含的关键信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合;针对每个关联事件集合,根据所述关联事件集合中的待聚类事件生成一个关联事件;
输出得到的各个关联事件。
在一种可能实现的方式中,所述处理器还用于执行下列过程:
通过显示器显示所述各个关联事件;
若接收到针对所述各个关联事件中的任一个目标关联事件的展开操作,按照预设的优先级顺序显示对所述目标关联事件对应的关联事件集合中的待聚类事件。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可以实现第一方面的事件信息处理方法。
第二方面至第四方面中任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果,此处不再赘述。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的事件信息处理方法的一种应用场景;
图2为本申请实施例提供的一种事件信息处理方法的流程示意图;
图3为本申请实施例提供的待分类事件的事件信息的展示界面的示意图;
图4为本申请实施例提供的分类后的一个事件集合的展示界面的示意图;
图5为本申请实施例提供的聚类后的多个关联事件的展开操作界面的示意图;
图6为本申请实施例提供的另一种事件信息处理方法的流程示意图;
图7为本申请实施例提供的一种事件信息处理装置的结构示意图;
图8为本申请实施例提供的另一种事件信息处理装置的结构示意图;
图9为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,本申请的文件中涉及的术语“包括”和“具有”以及它们的变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请为了解决现有技术中对事件进行分类归并的精准度差的问题,本申请实施例提供的一种事件信息处理方法,接收到事件监测设备上传的多个待分类事件的事件信息,根据多个待分类事件的事件信息进行分类操作,得到多个事件集合,每个事件集合中的待分类事件属于同一类别。针对分类后得到的每个事件集合,基于各个待聚类事件的事件信息中包含的关键信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合。将分类后得到的事件集合根据待聚类事件的事件信息中包含的事件关键信息再进行聚类处理,可以将事件集合中包含相同关键信息的待聚类事件进行关联,得到至少一个关联事件集合,实现事件的分类归并操作。针对每个关联事件集合,根据关联事件集合中的待聚类事件生成一个关联事件,输出得到的各个关联事件。此种处理方式有较强的拟合能力,可以使得被分类归并到一起的事件相似度更高,关联性更强。
其中,根据设定字段对应的权重,对各个待分类事件的事件信息中的设定字段信息进行权重赋值,得到各个待分类事件的赋值字段信息,再基于各个待分类事件的赋值字段信息,对多个待分类事件进行分类,得到多个事件集合。在事件分类的处理过程中引入权重参数,针对性更强,使得事件在分类处理得到的结果精准度更高。
图1示出了本申请实施例提供的事件信息处理方法的一种应用场景,参见图1所示,该应用场景中包括多个事件监测设备11,服务器12以及显示设备13。事件监测设备11与服务器12之间可以通过有线连接方式或无线连接方式(如通信网络)进行连接并传输数据,例如,事件监测设备11与服务器12可以通过数据线连接或者通过有线网络连接;事件监测设备11与服务器12也可以通过无线网络连接。
其中,事件监测设备11可以是监控摄像头、电子眼等,服务器12可以是一台服务器或由若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台,也可以是个人计算机、大中型计算机或计算机集群等,根据实现需要,本申请实施例中的应用场景中可以具有任意数目的终端设备和服务器。本申请对此不做特殊限定。
本申请实施例提供的事件信息处理方法由服务器12执行,服务器12接收事件监测设备11上报多个待分类事件的事件信息,基于多个待分类事件的事件信息,对多个待分类事件进行分类,得到多个事件集合,每个事件集合中的待分类事件属于同一类别,针对每个事件集合,分别执行如下操作:针对事件集合中的各个待聚类事件,基于各个待聚类事件的事件信息中包含的关键信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合,针对每个关联事件集合,根据关联事件集合中的待聚类事件生成一个关联事件,输出得到的各个关联事件,其中,服务器12可以通过显示设备13将得到分类后的多个事件集合、聚类后得到的多个关联事件集合以及最终得到的各个关联事件展示给用户,以便于用户可以掌握事件信息,并进行处理。
为更好地理解本申请实施例提供的技术方案,下面对本申请实施例提供的技术方案适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
图2示出了本申请实施例提供的一种事件信息处理方法,参见图2所示,本申请中的处理方法可以应用于服务器,也可以应用于电子设备。具体的实现过程如图2所示,该事件信息处理方法包括以下步骤:
步骤S201:接收事件监测设备上传的多个待分类事件的事件信息。
服务器接收事件检测设备上传的待分类事件,待分类事件中包含事件信息,事件信息是按照固定的格式填写仅数据表格中的。
一种可能的实施例中,事件信息包括设定字段,如,事件标题、事件类型、事发时间、事发地区、事发地址、财产损失、死亡人数、受伤人数等。还可以包括重伤、失踪人数、敏感因素、事件详情等。
进一步地,事件信息中还包括设定字段信息,设定字段信息为设定字段对应的具体的数据内容,如,设定字段为事件类型,则设定字段信息可以为自然灾害、事故灾难、公共卫生事件和社会安全事件等;设定字段为事发时间时,设定字段信息可以为事件发生的具体时间,可以以一个小时或十个小时为一个时间周期,在同一时间周期内发生的事件可以被认为属于同一事发时间;设定字段为事发地区时,设定字段信息可以是事件发生的具体地区,根据不同地区的大小进行不同的设定,可以将在同一个街道发生的事件视为同一事发地区,也可以将同一县城发生的事件视为同一事发地区。
示例性地,图3示出了待分类事件的事件信息的展示界面的示意图。服务器接收到事件监测设备上传的包含事件信息的固定格式的表格后,提取出表格中包含的事件信息,形成待分类事件,然后可以将待分类事件进行上报。
步骤S202:基于多个待分类事件的事件信息,对多个待分类事件进行分类,得到多个事件集合,每个事件集合中的待分类事件属于同一类别。
利用分类算法对多个待分类事件进行处理,可以得到分类后的多个事件集合。此处的多个事件集合中每个事件集合中的待分类事件属于同一类别,示例性地,某一个事件集合中的待分类事件均属于自然灾害类型的事件。分类算法可以选择KNN算法、ANN、svm(Support Vector Machine,支持向量机)等方式对待分类事件进行处理。图4示出了分类后的一个事件集合的展示界面的示意图。
在一种可能的实施例中,利用分类算法对多个待分类事件进行处理,此处以KNN算法为例,将多个待分类事件输入参考事件集合中,获取每个待分类事件的待分类事件向量以及参考事件的参考事件向量,参考事件集合为已知类别的训练数据集合,确定待分类事件向量与参考事件向量之间的余弦相似度,将待分类事件向量与参考事件向量之间的余弦相似度,作为待分类事件向量与参考事件向量的相关度,计算出的余弦值越小的两个向量相似性越大,相关度越高。选择k的值为4,则选择出与待分类事件向量相关度最高的4个参考事件向量,判断被选出的4个参考事件的类别,若其中三个参考事件的类型为自然灾害类型,则待分类事件的类型也为自然灾害类型。将每个待分类事件均划分出类别,相同类别的待分类事件处于同一个事件集合,可以得到多个事件集合。
在一种可能的实施方式中,步骤S202中的基于多个待分类事件的事件信息,对多个待分类事件进行分类,得到多个事件集合,包括:
根据设定字段对应的权重,对各个待分类事件的事件信息中的设定字段信息进行权重赋值,得到各个待分类事件的赋值字段信息,基于各个待分类事件的赋值字段信息,对多个待分类事件进行分类,得到多个事件集合。
对待分类事件中的设定字段进行权重赋值,此处对于设定字段进行权重赋值可以是预设的,也可以是基于专家打分的结果来进行赋值。再根据设定字段对应的权重,对各个待分类事件的事件信息中的设定字段信息进行权重赋值,得到各个待分类事件的赋值字段信息。得到赋值字段信息后,基于各个待分类事件的赋值字段信息,对多个待分类事件进行分类,得到多个事件集合。
在一种可能的实施例中,利用分类算法对待分类事件进行处理时,不对设定字段信息进行权重赋值时,可以看做每一种类别的设定字段信息的权重大小均为1,所以,设定字段信息的权重大小可以影响待分类事件生成的待分类事件向量,从而影响分类的结果。引入权重参数之后,针对性更强。例如,在对事件进行分类时,想要以事件类型进行分类,则可以对事件类型这个设定字段进行权重赋值时赋予较大的权重,对其他的设定字段赋予较小的权重,这样就可以改变分类结果。
步骤S203:针对每个事件集合,分别执行如下操作:针对事件集合中的各个待聚类事件,基于各个待聚类事件的事件信息中包含的关键信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合,针对每个关联事件集合,根据关联事件集合中的待聚类事件生成一个关联事件。
在一种可能的实施例中,得到分类后的多个事件集合后,针对多个事件集合中的每一个事件集合进行聚类处理,每个事件集合中包含的事件即为待聚类事件,将待聚类事件利用聚类算法进行处理。可以基于事件集合得到至少一个关联事件集合,这里的关联事件集合为将分类得到的事件集合进行聚类后得到的结果。在针对每个关联事件集合,根据关联事件集合中的待聚类事件生成一个关联事件。聚类算法可以选择k-means算法(k-means clustering algorithm,K均值聚类算法)、DBSCAN聚类算法(Density-BasedSpatial Clustering of Applications with Noise,基于密度的聚类算法)等方式对待聚类事件进行处理,本申请中在k-means算法即基础上进行改进,使用了k-means++算法对待聚类事件进行处理。图5示出了聚类后的多个关联事件的展开操作界面的示意图。
在一种可能的实施方式中,步骤S203还包括:
从多个待分类事件的事件信息中,提取设定数量的关键信息。
其中,从多个待分类事件的事件信息中,提取设定数量的关键信息,具体包括:
将多个待分类事件的事件信息去除设定字段信息,得到语料库,对语料库中的信息进行分词处理,得到多个分词,按照各个分词在语料库中出现的次数,对多个分词进行排序,并提取前m个关键分词,m为设定值,将m个关键分词与设定字段信息加和,得到设定数量的关键信息。
在一种可能的实施例中,在多个待分类事件的事件信息中,提取出设定数量的关键信息。在上报的多个事件中,可能会存在由于事件监测设备的地点不同,上报时间不同,导致同一个事件被上报多次,而当成了多个事件进行处理,对事件进行分类后,在使用聚类算法对分类后的每一个事件集合进行处理,将本属于同一个事件的多个待分类事件进行聚类并关联起来,可以得到至少一个关联事件集合,也叫作对事件的归并处理。提取出的关键信息是为了在聚类处理的过程中,多个关键信息相同的待聚类事件就可以看做是同一个事件。
在一种可能的实施例中,可以先将事件信息中的设定字段信息删除,得到剩余的事件信息,称为语料库,将语料库中的信息进行分词处理,得到多个分词,按照各个分词在语料库中出现的次数,对多个分词进行排序,并提取前m个关键分词,m为设定值,将m个关键分词与设定字段信息加和,得到设定数量的关键信息。这里分词处理的方式以隐马尔可夫分词算法为例。
进一步地,可以只将设定字段信息中权重高的设定字段信息删除,例如,在对设定字段信息进行权重赋值时,对事件类型对应的设定字段信息权重赋值为5,对事发时间对应的设定字段信息权重赋值为4,对事发地区对应的设定字段信息权重赋值为3,其余的设定字段对应的设定字段信息权重赋值为1,则可以只将事件类型、事发时间、事发地区对应的设定字段信息删除,保留剩余的设定字段信息,形成语料库,再对语料库进行分词处理,得到多个分词,按照各个分词在语料库中出现的次数,对多个分词进行排序,并提取前m个关键分词,m为设定值,将m个关键分词与删除的权重较高的设定字段信息加和,得到设定数量的关键信息。
需要说明的是,利用隐马尔可夫分词处理得到的观测序列需要进行解码才可以得到状态序列。所以这里利用隐马尔可夫分词得到观测序列之后,需要利用极大似然估计算法(Maximum Likelihood Estimate,MLE)对已知观测序列进行解码,求解状态序列,完成分词操作,得到多个分词。
在一种可能的实施方式中,步骤S203中基于各个待聚类事件的事件信息中包含的关键信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合,包括:
对各个待聚类事件的事件信息中包含的关键信息进行权重赋值,得到各个待聚类事件的赋值信息,基于各个待聚类事件的赋值信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合。
在一种可能的实施例中,对各个待聚类事件的事件信息中包含的关键信息进行权重赋值,得到各个待聚类事件的赋值信息。在对待聚类事件进行聚类处理时,对关键信息进行权重赋值,得到各个待聚类事件的赋值信息,赋值信息中包括关键信息的权重分布。根据待聚类事件的赋值信息,可以判断哪些待聚类事件是属于可以被关联的事件,从而得到至少一个关联事件集合。此处,以k-means++算法为例对待聚类事件进行聚类处理。
示例性地,若两个待聚类事件中权重值高的关键信息中的内容大部分相同,只有事发时间不同,则可以判断这两个待聚类事件可能是因为上报的时间节点不同,所以被当成了两个不同的事件进行处理,在聚类的过程中,这两个待聚类事件可能会被聚类到同一关联事件集合中。
在一种可能的实施方式中,基于各个待聚类事件的赋值信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合,包括:
基于各个待聚类事件的赋值信息,分别确定各个待聚类事件对应的事件向量,并根据各个待聚类事件对应的事件向量,确定至少一个聚类中心,根据各个待聚类事件对应的事件向量和至少一个聚类中心,确定至少一个关联事件集合。
在一种可能的实施例中,利用k-means++算法对待聚类事件进行处理,根据各个待聚类事件的赋值信息,分别确定各个待聚类事件对应的事件向量,并根据各个待聚类事件对应的事件向量,先在待聚类事件对应的事件向量中确定至少一个聚类中心,然后根据各个待聚类事件对应的事件向量和至少一个聚类中心,确定至少一个关联事件集合。
示例性地,确定聚类中心的方式如下:从多个待聚类事件对应的事件向量中选择一个待聚类事件对应的事件向量为初始聚类中心,基于初始聚类中心对第二聚类中心事件进行确定,确定过程为:计算剩余待聚类事件对应的事件向量与第一聚类中心的距离,基于剩余待聚类事件对应的事件向量与第一聚类中心的距离的平方和以及剩余待聚类事件对应的事件向量中任意一个待聚类事件对应的事件向量与第一聚类中心的距离的平方,得到第二聚类中心被选择的概率,第二聚类中心被选择概率最大的点即为第二聚类中心。基于第二聚类中心,确定第三聚类中心,直到最终的聚类中心回到初始聚类中心事件时停止。
进一步地,另一种确定聚类中心的方式如下:从多个待聚类事件对应的事件向量中选择一个待聚类事件对应的事件向量为初始聚类中心,对于事件集合中的每一个待聚类事件对应的事件向量,计算与初始聚类中心的距离,并将所有得到的距离加和得到和距离,再取一个小于和距离的随机值,用此随机值减每一个待聚类事件对应的事件向量与初始聚类中心的距离,直到得到的结果小于等于0,那么,与这个与随机值相减得到结果小于等于0的这个待聚类事件对应的事件向量记为第二聚类中心点,重复执行选取聚类中心的过程,直到所有的聚类中心被选取出来为止,利用这些聚类中心进行聚类操作。
示例性地,选取出所有的聚类中心之后,聚类的过程为:选择任意一个除聚类中心以外的待聚类事件对应的事件向量,记为第一待聚类事件对应的事件向量,计算它与所有聚类中心的加权距离,对加权距离进行排序,将第一待聚类事件对应的事件向量与加权距离最小的聚类中心划分至同一聚类,重复执行聚类过程,将每个待聚类事件对应的事件向量与距离最近的聚类中心划分至同一聚类,将划分至同一聚类的待聚类事件进行关联,得到至少一个关联事件集合。
通过步骤S203可以确定至少一个关联事件集合,并针对每个关联事件集合,根据关联事件集合中的待聚类事件生成一个关联事件之后,进行步骤S140。
步骤S204:输出得到的各个关联事件。
将分类后得到的多个事件集合分别进行聚类处理之后,得到多个关联事件,将关联事件输出,并展示给用户进行查看。
在一种可能的实施方式中,步骤S204包括:
显示各个关联事件,若接收到针对各个关联事件中的任一个目标关联事件的展开操作,按照预设的优先级顺序显示对目标关联事件对应的关联事件集合中的待聚类事件。
在一种可能的实施例中,将得到的多个关联事件进行展示,用户可以选择想要查看的目标关联事件进行点击,使其展开。关联事件是由关联事件集合中的待聚类事件生成的,接收到用户对目标关联事件的展开操作,目标关联事件展开后会显示出目标关联事件中的多个待聚类事件。其中,多个待聚类事件的展示方式是按照预设的优先级顺序进行显示的。
示例性地,多个待聚类事件中可能会包含在此事件中的受伤人数,则受伤人数多的待聚类事件则为优先级高的待聚类事件,在显示给用户进行查看时,排在前列。其中,多个待聚类事件按照预设的优先级排序的一种方式为:可以在将关联事件集合中的待聚类事件生成一个关联事件时排列好,以优先级最高的待聚类事件为最终生成的关联事件。另一种方式可以为:对多个待聚类事件进行检测相同的关键信息,将完全相同的关键信息提取出来,用于生成关联事件,当接收到针对各个关联事件中的任一个目标关联事件的展开操作时,此目标关联事件中的待聚类事件再按照预设的优先级进行排序,优先级最高的排在第一位,用户可以优先看到,并对事件进行处理。
本申请实施例提供的一种事件信息处理方法,具体地,提供了一种可能的、详细的实施例,图6示出了另一种事件信息处理方法的流程示意图。
步骤S601:在设定时间段内,接收事件监测设备上传的多个待分类事件的事件信息。
步骤S602:从各个事件数据信息包含的数据表格中,提取各个事件信息对应的事件的设定字段信息。
步骤S603:对各个事件的设定字段进行权重赋值,对设定字段对应的设定字段信息赋予相同的权重值,得到各个待分类事件的赋值字段信息。
这里的数据表格指的是固定格式的数据表格,内部包含的信息存在对应的数据标识,数据类型等内容。其中,上报事件的基础信息表如下:
表1
其中,预案基础信息表如下:
表2
各个事件的设定字段可以包括:事件标题、事件类型、事发时间、事发地区、事发地址、财产损失、死亡人数、受伤人数等。还可以包括重伤、失踪人数、敏感因素、事件详情等。
其中,设定字段为事件类型,则设定字段信息可以为自然灾害、事故灾难、公共卫生事件和社会安全事件等;设定字段为事发时间时,设定字段信息可以为事件发生的具体时间,可以以一个小时或十个小时为一个时间周期,在同一时间周期内发生的事件可以被认为属于同一事发时间;设定字段为事发地区时,设定字段信息可以是事件发生的具体地区,根据不同地区的大小进行不同的设定,可以将在同一个街道发生的事件视为同一事发地区,也可以将同一县城发生的事件视为同一事发地区。
可以从各个事件的设定字段信息中,选取预设的目标设定字段,预设的目标设定字段对应的信息就是设定字段信息。将选取的目标设定字段信息赋予较高的权重,其他的设定字段信息的权重均赋值为1。
具体地,预设的目标设定字段信息可以是从上述设定字段包括的信息中选取的一部分设定字段的信息。预设的目标设定字段信息可以是对于事件分类影响较大的设定字段信息,示例性地,预设的目标设定字段信息可以为事件类型、事发时间、事发地区或事件标题等设定字段中包括的具体信息。可以在分类之前,对目标设定字段信息进行权重赋值。例如,在以事件类型为目标设定字段,对各个事件进行分类的实施例中,各个目标设定字段按照权重从高到低的顺序,可以排列为:事件类型权重最高,可以赋值为4;事件发生时间权重第二,可以赋值为3;事件发生地区权重第三,可以赋值为2;事件标题权重第四,可以赋值为1,则目标设定字段信息对应的权重赋值与目标设定字段的权重赋值相同。
对于设定字段的权重赋值可以采用AHP(Analytic Hierarchy Process,层次分析法)的方式,示例性地,层次分析法的第一步是构建判断矩阵,即建立一个表格,表格里面表述了分析项的相对重要性大小,数字代表相对重要的大小。针对突发事件,涉及的关键要素有事件标题、事件类型、事发时间、事发地区,那么此4个要素的相对重要性构建出判断矩阵如下表:
表3
层次分析法是利用了数字大小的相对性,数字越大越重要权重会越高的原理,最终计算得到每个因素的重要性。层次分析法一般用于专家打分,直接让多位专家(一般是4~7个)提供相对重要性的打分判断矩阵,然后进行汇总,一般是去掉最大值和最小值,然后计算平均值得到最终的判断矩阵,最终计算得到各因素的权重。对于上报的突发事件来讲,根据经验处理类似突发事件比较常见,应用专家预案进行权重的设置是比较合理的。通过问卷的方式,调研专家对上述四个维度信息的权重打分情况,然后直接利用平均值大小相除得到相对重要性大小。得到上述四个字段的权重大小之后,就可以对设定字段进行权重赋值,并对设定字段对应的设定字段信息赋予相对应的权重值。
也可以只选择事件类型、事发时间和事发地区作为预设的目标设定字段,每个目标设定字段信息对应的权重可以参照所述实施例进行赋值。
将事件利用分类算法进行处理时,事件形成的待分类点的位置与事件所包含的设定字段信息的权重有关,权重越大的设定字段信息对待分类点的位置影响越大,则预设设定字段信息赋值权重之后,预设设定字段信息对事件形成的待分类点的位置影响较大。
示例性地,事件类型的权重大,则待分类点的位置置于已知的训练数据集中时,待分类点可以与类型相同的点相似性更大;类似地,对事件类型权重赋值为4,事发时间权重赋值为3,事发地区权重赋值为2,事件标题权重赋值为1,未赋予权重的其他的设定字段信息的权重均可以赋值为0.5。则证明在此事件置于已知的训练数据集中时,此事件的形成的待分类点分布的位置则与事件类型、事件发生时间、事件发生地区、事件标题相同的点相似性更大,有利于后续在利用余弦相似度对事件进行处理时,相似度的计算结果。
步骤S604:采用k近邻分类算法,基于各个待分类事件的赋值字段信息,对多个待分类事件进行分类,得到多个事件集合,每个事件集合中的待分类事件属于同一类别。
多个待分类事件形成的待分类点输入到已知的训练数据集合中,已知的训练数据集合为包括多个参考事件的事件集合,在此事件集合中的事件均为已知事件。利用余弦相似度判断待分类点和训练数据集中所有已知点的相似度,得到待分类点和训练数据集中所有已知点的相关度。在根据相似度的大小,以及k的取值,从训练数据集中选择待分类点类别的判断点,根据判断点确定待分类点的类别。判断点为训练数据集中与待分类点相似度较高的点,选择几个点作为判断点根据k的值确定。这里的类别可以为事件类型,也可以为事发事件。
具体地说,按照权重最高的设定字段对所有上报的事件进行分类操作,也就是按照事件类型将事件进行分类。对某一个事件的处理方式为,选择第一待分类点和任意一个已知训练数据集中的点,选中的已知训练数据集中的点称为第一已知点,在以任意一个点为原点。以原点为起点,第一待分类点为终点,基于第一待分类点和原点形成第一向量;以原点为起点,第一已知点为终点,基于第一已知点和原点,形成第二向量。计算第一向量和第二向量的余弦值,计算得出的余弦值越小证明第一向量和第二向量的事件类型越相似,事件类型越接近。
余弦值的计算公式如下:
θ为第一向量和第二向量的夹角,a为第一向量,b为第二向量。
在原点不变的条件下,按照上述方式计算第一待分类点和所有训练数据集中的点的余弦值,分别判断出待分类点与训练数据集中所有点的相似度。若选择k为5,则选出余弦值最小的五个点作为判断待分类点的判断点,若五个点中有四个点为自然灾害类型,则待分类点为自然灾害类型。
对所有的事件进行分类后,事件已经按照权重最高的目标设定字段信息分类完毕,组成了几个事件集合。具体地说,所有事件按照自然灾害、事故灾难、公共卫生事件和社会安全事件等目标设定字段信息组成了几个按照事件类型分类的事件集合。
步骤S605:对接收到的各个事件的事件信息进行预处理,得到语料库。
步骤S606:对语料库进行分词处理,将得到的多个分词按照出现的次数进行排序,并提取出前m个关键信息,m为设定值。
步骤S607:将预设的目标设定字段中的设定字段信息与m个高频词汇相加,得到设定数量的关键信息,形成n个字段信息。
对接收到的各个事件信息进行预处理,预处理过程可以为,先在事件信息中选取出预设的目标设定字段信息,将目标设定字段信息从各个事件信息中删除,得到预处理后的事件信息,预处理后的事件信息可以称为语料库,再对语料库进行分词处理,得到语料库中的词汇以及单个字段,根据词汇出现的次数进行排序,选择出m个出现次数最高的词汇,则为提取出的前m个关键信息。将m个关键信息与设定字段信息相加,一共得到n个关键信息,即为设定数量的关键信息。
具体地说,以“更好的收集XXX街道的事件信息”为例,隐马尔可夫分词算法中,设定字母的含义:B:词语的开头(单词的头一个字),不分词;M:中间词(即在一个词语的开头和结尾之中),不分词;E:单词的结尾(即单词的最后一个字),进行分词;S:单个字,进行分词。
分词以后就是:“更好的收集XXX街道的事件信息”,在后方加入状态就是:“更(S),好(S),的(S),收集(BE),XXX街道(BMMME),的(S),事件(BE),信息(BE)",即对应的状态序列就是“SSSBEBMMMESBEBE”。
其中,利用隐马尔可夫分词得到的状态转移概率矩阵如下表所示:
表4
B | M | E | S | |
B | B TO B | B TO M | B TO E | B TO S |
M | M TO B | M TO M | M TO E | M TO S |
E | E TO B | E TO M | E TO E | E TO S |
S | S TO B | S TO M | S TO E | S TO S |
状态转移概率矩阵代表每一个元素代表着从每一个状态变成下一个状态的概率,以“更好的收集XXX街道的事件信息”为例,得到的状态转移概率矩阵就是:
表5
B | M | E | S | |
B | 0 | 1/14 | 3/14 | 0 |
M | 0 | 2/14 | 1/14 | 0 |
E | 2/14 | 0 | 0 | 1/14 |
S | 2/14 | 0 | 0 | 2/14 |
其中,利用隐马尔可夫分词得到的观测转移矩阵的如下表所示:
表6
V1 | V2 | V3 | V4 | ..... | VM-1 | VM | |
B | B TOV1 | B TO V2 | B TO V3 | B TO V4 | B TO VM-1 | B TO VM | |
M | M TO V1 | M TO V2 | M TO V3 | M TO V4 | M TO VM-1 | M TO VM | |
E | E TO V1 | E TO V2 | E TO V3 | E TO V4 | E TO VM-1 | E TO VM | |
S | S TO V1 | S TO V2 | S TO V3 | S TO V4 | S TO VM-1 | S TO VM |
得到的观测转移矩阵是指每一个时刻的观测,就是我们所看到的句子中的每一个字,状态则是前面所说的BMES之一。那么可得出观测转移矩阵,观测结果包含所有的字段,假设为M个,分别为V1,V2,V3...VM。
以“更好的收集XXX街道的事件信息”为例,这句话利用隐马尔可夫分词得到的观测转移矩阵就是:
表7
更 | 好 | 的 | 收 | 集 | X | X | X | 街 | 道 | 的 | 事 | 件 | 信 | 息 | |
B | 1/15 | 1/15 | 1/15 | 1/15 | |||||||||||
M | 1/15 | 1/15 | 1/15 | ||||||||||||
E | 1/15 | 1/15 | 1/15 | 1/15 | |||||||||||
S | 1/15 | 1/15 | 1/15 | 1/15 |
最后就是我们的初始状态概率向量。初始状态概率向量形式如下表:
表8
B | a |
M | b |
E | c |
S | d |
得到的初始状态概率向量要求满足a+b+c+d=1,其中,a=4/15,b=3/15,c=4/15,d=4/15。得到初始状态概率向量之后,在统计每个字在作为句子出现的次数,将出现的次数转换为频率,其实就是将得到的多个分词的第一个词出现的次数统计,就可以得到这个词出现的次数,在将得到的多个分词进行排序,就可以选择出前m个关键分词了。
其中,利用隐马尔可夫分词算法得到语料库中分词的观测序列概率分布,状态序列概率分布,初始状态概率向量,在明确知道这些观测序列的情况下,应用极大似然估计对其进行解码,求解状态序列,就可以得到多个分词了。
步骤S608:将n个关键信息进行权重赋值,得到各个待聚类事件的赋值信息。
步骤S609:基于各个待聚类事件的赋值信息,分别确定各个待聚类事件对应的事件向量,并根据各个待聚类事件对应的事件向量,确定至少一个聚类中心。
步骤S610:根据各个待聚类事件对应的事件向量和至少一个聚类中心,确定至少一个关联事件集合。
步骤S611:根据关联事件集合中的待聚类事件生成一个关联事件,输出得到的各个关联事件。
(1)n维向量的权重赋值
上报的事件信息中可能的包含的关键信息为:数十人、严重烧伤、煤气、泥石流、暴雨、流感等一系列可以说明事件情况的词汇,通过分词操作在语料库中得到出现次数最多的m个关键信息,加上预设的设定字段信息,一共为n个关键信息,每一个关键信息可以是一个一维向量,所以n个关键信息也可以称为n维向量。其中,“数十人”这种类型的字段信息可以与设定字段中的受伤人数相对应,“煤气、泥石流、暴雨”可以与设定字段中事件发生的因素相对应。
聚类操作是将按照事件类型分类完毕的事件集合再进行聚类,事件已经按照事件类型进行分类,但是同一事件可能因为上报人不同,上报时间不同,被当做两个事件进行处理。进行聚类归并处理,根据事件发生的时间,事件发生的地区和事件发生所导致的受伤人物等因素进行归并,需要说明的是,事件发生的时间可能因为事件的持续性而不同,但是事件发生的时间应该是在大致在某一时间段,所以可以以一定的时间段为一个周期。事件标题可能相同,导致事件发生的敏感因素可能相同。聚类操作的目的就是将被当成不同事件处理的同一事件进行聚类归并。
进一步地,对事件进行聚类操作时,对n个关键信息进行权重的赋值。再计算欧式距离时,权重的大小作为影响欧式距离的因素参与计算。
此处,对需要进行聚类的事件中的n个关键信息进行权重赋值时,可以先关键信息对应的字段进行权重赋值,在根据对应关系将关键信息进行赋值。如,对事件类型权重赋值为6,则事件类型中包含的关键信息如自然灾害,事故灾难等的权重赋值也为6,权重赋值的方式与上述内容中对待分类事件的权重赋值方式相同。可以将事件类型的权重赋值为6,可以将事发时间的权重赋值为5,可以将事发地区的权重赋值为4,可以将事件中受伤人数的权重赋值为3,然后根据字段以及关键信息的对应关系对n个关键信息进行赋值。
(2)选择聚类中心
选择分类后事件集合中的一个事件集合,此事件集合为第一事件集合,第一事件集合中每个事件均为聚类样本点,从聚类样本点中任意选出一个聚类样本点,称为第一聚类中心点。
第一聚类中心点任意选择,第二聚类中心点的选择方式如下,计算所有聚类样本点到第一聚类中心点的距离,将此距离记为D(Xi),计算第二聚类中心点被选中的概率P(Xi),P(Xi)计算的公式如下:
计算得出所有聚类样本点的概率大小,同一簇的聚类样本点被选中为第二聚类中心的总概率为SUM(X),SUM(X)占比最大的一簇聚类样本点是距离第一聚类中心最远的一簇聚类样本点的集合,第二聚类中心点在SUM(X)占比最大的一簇聚类样本点中进行选择。依次根据此种方式将所有的聚类中心点选择出来。
(3)对没有被选为聚类中心点的其他聚类样本点进行聚类生成关联事件集合。
具体地说,计算其余的聚类样本点与聚类中心点的距离,对其余的聚类样本点进行聚类。此处,已经被选择为聚类中心点的聚类样本点后面均称为聚类中心点。每个聚类样本点中均包括n维向量,任意选出一个聚类样本点,计算此聚类样本点到所有聚类中心点的欧式距离,以第一聚类中心点为例,计算欧式距离的公式如下:
xi表示某第一聚类中心点的n维向量,yi表示第一聚类样本点的n维向量,αi为n维向量中每个向量的权重值。
计算得出第一聚类样本点与第一聚类中心点的欧氏距离,继续计算第一聚类样本点和其他聚类中心点的欧式距离,计算出第一聚类样本点和所有其他聚类中心点的欧式距离后,对欧式距离进行排序,将第一聚类样本点与第一聚类样本点欧式距离最小的聚类中心点分为一类,依次按照此方法对其他聚类样本点进行分类,直到所有的聚类样本点均已经聚类完毕,将聚类在一起的事件进行关联。例如,同一个事件被上报十次,被记为十个事件,则在聚类后,可以将原本的十个事件聚类到一起成为一个关联事件集合。根据一个关联事件集合确定为一个关联事件,并输出此关联事件给用户进行展示。
(4)针对每个关联事件集合,根据关联事件集合中的待聚类事件生成一个关联事件。
可以将一个关联事件集合中的待聚类事件按照预设的优先级进行排序。在聚类处理时,优先级高的排序在前列,优先级最高的事件定义为主要事件,可以将主要事件作为关联事件进行展示,其余的事件定义为次事件,当接收到针对各个关联事件中的任一个目标关联事件的展开操作时,次事件也会展示给用户。
可以提取关联事件集合中的所有待聚类事件的共同字段,基于共同字段对应的共同字段信息生成关联事件,并展示关联事件。当接收到针对各个关联事件中的任一个目标关联事件的展开操作时,会展示出所有待聚类事件,用户可以随机点开查看。
基于同一发明构思,本申请实施例中还提供了一种事件信息处理装置,该事件信息处理装置可以应用于服务器或终端设备中。由于该装置是本申请实施例事件信息处理方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。
图7示出了本申请实施例提供的一种事件信息处理装置的结构示意图,如图7所示,该事件信息处理装置包括接收单元71,分类单元72,聚类单元73,输出单元74。
接收单元,用于接收事件监测设备上传的多个待分类事件的事件信息;
分类单元,用于基于多个待分类事件的事件信息,对多个待分类事件进行分类,得到多个事件集合;每个事件集合中的待分类事件属于同一类别;
聚类单元,用于针对每个事件集合,分别执行如下操作:针对事件集合中的各个待聚类事件,基于各个待聚类事件的事件信息中包含的关键信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合;针对每个关联事件集合,根据关联事件集合中的待聚类事件生成一个关联事件;
输出单元,用于输出得到的各个关联事件。
在一种可能实现的方式中,分类单元72,还用于:
根据设定字段对应的权重,对各个待分类事件的事件信息中的设定字段信息进行权重赋值,得到各个待分类事件的赋值字段信息;
基于各个待分类事件的赋值字段信息,对多个待分类事件进行分类,得到多个事件集合。
在一种可能实现的方式中,聚类单元73,用于:
对各个待聚类事件的事件信息中包含的关键信息进行权重赋值,得到各个待聚类事件的赋值信息;
基于各个待聚类事件的赋值信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合。
在一种可能实现的方式中,聚类单元73,用于:
基于各个待聚类事件的赋值信息,分别确定各个待聚类事件对应的事件向量,并根据各个待聚类事件对应的事件向量,确定至少一个聚类中心;
根据各个待聚类事件对应的事件向量和至少一个聚类中心,确定至少一个关联事件集合。
如图8所示,上述事件信息处理装置还包括提取单元81,显示单元82。
其中,提取单元81,用于从多个待分类事件的事件信息中,提取设定数量的关键信息。
显示单元82,用于显示各个关联事件;若接收到针对各个关联事件中的任一个目标关联事件的展开操作,按照预设的优先级顺序显示对目标关联事件对应的关联事件集合中的待聚类事件。
在一种可能实现的方式中,提取单元81,还用于:
将多个待分类事件的事件信息去除设定字段信息,得到语料库;
对语料库中的信息进行分词处理,得到多个分词;
按照各个分词在语料库中出现的次数,对多个分词进行排序,并提取前m个关键分词;m为设定值;
将m个关键分词与设定字段信息加和,得到设定数量的关键信息。
与上述方法实施例相对应地,本申请实施例还提供了一种服务器,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机程序;
处理器用于读取存储器中的程序并执行下列过程:
接收事件监测设备上传的多个待分类事件的事件信息;
基于多个待分类事件的事件信息,对多个待分类事件进行分类,得到多个事件集合;每个事件集合中的待分类事件属于同一类别;
针对每个事件集合,分别执行如下操作:针对事件集合中的各个待聚类事件,基于各个待聚类事件的事件信息中包含的关键信息,对多个待聚类事件进行聚类,得到至少一个关联事件集合;针对每个关联事件集合,根据关联事件集合中的待聚类事件生成一个关联事件;
输出得到的各个关联事件。
图9为本申请实施例提供的一种服务器的结构示意图;如图9所示,本申请实施例中该服务器900包括:处理器901、存储器902、显示器903、输入设备904、总线905和通讯模块906。该处理器901、存储器902、显示器903、输入设备904以及通讯模块906通过总线905连接,该总线905用于该处理器901、存储器902、显示器903、输入设备904以及通讯模块906之间传输数据。
处理器901是服务器900的控制中心,利用总线905以及各种接口和线路连接整个服务器900的各个部分,通过运行或执行存储在存储器902内的软件程序和/或模块,以及调用存储在存储器902内的数据,执行服务器900的各种功能和处理数据。可选的,处理器901可包括一个或多个处理单元,如CPU、GPU、数字处理单元等。
处理器901可以将上报事件的事件信息、分类后的事件集合以及聚类后得到的关联事件通过显示器903展示给用户。
处理器901还可以通过通讯模块906连接网络,接收事件监测设备上传的多个待分类事件的事件信息。
其中,存储器902可用于存储软件程序以及模块,如本申请实施例中的回复信息确定方法对应的程序指令/模块,处理器901通过运行存储在存储器902中的软件程序以及模块,从而执行服务器900的各种功能应用以及数据处理,如本申请实施例提供的事件信息处理方法。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个应用的应用程序等;存储数据区可存储根据服务器900的使用所创建的数据(比如分类后得到的事件集合、聚类后得到的关联事件集合)等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本申请实施例还提供了一种计算机可读存储介质,该计算机存储介质中存储有计算机可执行指令,该计算机程序被处理器执行时可用于实现本申请任一实施例所记载的事件信息处理方法。
在一些可能的实施方式中,本申请提供的事件信息处理方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的事件信息处理方法的步骤,例如,所述计算机设备可以执行如图2所示的步骤S201~S204的事件信息处理方法的流程。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种事件信息处理方法,其特征在于,该方法包括:
接收事件监测设备上传的多个待分类事件的事件信息;
基于所述多个待分类事件的事件信息,对所述多个待分类事件进行分类,得到多个事件集合;每个事件集合中的待分类事件属于同一类别;
针对每个事件集合,分别执行如下操作:针对所述事件集合中的各个待聚类事件,基于所述各个待聚类事件的事件信息中包含的关键信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合;针对每个关联事件集合,根据所述关联事件集合中的待聚类事件生成一个关联事件;
输出得到的各个关联事件。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个待分类事件的事件信息,对所述多个待分类事件进行分类,得到多个事件集合,包括:
根据设定字段对应的权重,对各个所述待分类事件的事件信息中的设定字段信息进行权重赋值,得到各个所述待分类事件的赋值字段信息;
基于各个所述待分类事件的赋值字段信息,对所述多个待分类事件进行分类,得到多个事件集合。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个待分类事件的事件信息,对所述多个待分类事件进行分类,得到多个事件集合之后,方法所述还包括:
从所述多个待分类事件的事件信息中,提取设定数量的关键信息。
4.根据权利要求3所述的方法,其特征在于,所述从所述多个待分类事件的事件信息中,提取设定数量的关键信息,包括:
将所述多个待分类事件的事件信息去除设定字段信息,得到语料库;
对所述语料库中的信息进行分词处理,得到多个分词;
按照各个分词在语料库中出现的次数,对所述多个分词进行排序,并提取前m个关键分词;m为设定值;
将所述m个关键分词与所述设定字段信息加和,得到设定数量的关键信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述各个待聚类事件的事件信息中包含的关键信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合,包括:
对各个待聚类事件的事件信息中包含的关键信息进行权重赋值,得到各个待聚类事件的赋值信息;
基于各个所述待聚类事件的赋值信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合。
6.根据权利要求5所述的方法,其特征在于,所述基于各个所述待聚类事件的赋值信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合,包括:
基于各个所述待聚类事件的赋值信息,分别确定各个所述待聚类事件对应的事件向量,并根据各个所述待聚类事件对应的事件向量,确定至少一个聚类中心;
根据各个所述待聚类事件对应的事件向量和至少一个聚类中心,确定至少一个关联事件集合。
7.根据权利要求1所述的方法,其特征在于,所述输出得到的各个关联事件,包括:
显示所述各个关联事件;
若接收到针对所述各个关联事件中的任一个目标关联事件的展开操作,按照预设的优先级顺序显示对所述目标关联事件对应的关联事件集合中的待聚类事件。
8.一种服务器,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序;
所述处理器用于读取存储器中的程序并执行下列过程:
接收事件监测设备上传的多个待分类事件的事件信息;
基于所述多个待分类事件的事件信息,对所述多个待分类事件进行分类,得到多个事件集合;每个事件集合中的待分类事件属于同一类别;
针对每个事件集合,分别执行如下操作:针对所述事件集合中的各个待聚类事件,基于所述各个待聚类事件的事件信息中包含的关键信息,对所述多个待聚类事件进行聚类,得到至少一个关联事件集合;针对每个关联事件集合,根据所述关联事件集合中的待聚类事件生成一个关联事件;
输出得到的各个关联事件。
9.根据权利要求8所述的服务器,其特征在于,所述处理器具体用于:
通过显示器显示所述各个关联事件;
若接收到针对所述各个关联事件中的任一个目标关联事件的展开操作,按照预设的优先级顺序显示所述目标关联事件对应的关联事件集合中的待聚类事件。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930107.6A CN113627542A (zh) | 2021-08-13 | 2021-08-13 | 一种事件信息处理方法、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930107.6A CN113627542A (zh) | 2021-08-13 | 2021-08-13 | 一种事件信息处理方法、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627542A true CN113627542A (zh) | 2021-11-09 |
Family
ID=78385325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110930107.6A Pending CN113627542A (zh) | 2021-08-13 | 2021-08-13 | 一种事件信息处理方法、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627542A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116842200A (zh) * | 2023-03-29 | 2023-10-03 | 全景智联(武汉)科技有限公司 | 一种事件聚档管理方法 |
CN116842200B (zh) * | 2023-03-29 | 2024-06-28 | 全景智联(武汉)科技有限公司 | 一种事件聚档管理方法 |
-
2021
- 2021-08-13 CN CN202110930107.6A patent/CN113627542A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116842200A (zh) * | 2023-03-29 | 2023-10-03 | 全景智联(武汉)科技有限公司 | 一种事件聚档管理方法 |
CN116842200B (zh) * | 2023-03-29 | 2024-06-28 | 全景智联(武汉)科技有限公司 | 一种事件聚档管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472090B (zh) | 基于语义标签的图像检索方法以及相关装置、存储介质 | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
CN110619568A (zh) | 风险评估报告的生成方法、装置、设备及存储介质 | |
CN108734184B (zh) | 一种对敏感图像进行分析的方法及装置 | |
CN112016623B (zh) | 一种人脸聚类方法、装置、设备及存储介质 | |
CN110458078A (zh) | 一种人脸图像数据聚类方法、***及设备 | |
CN112258254B (zh) | 基于大数据架构的互联网广告风险监测方法及*** | |
CN104463177A (zh) | 相似人脸图片获取方法和装置 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN111177367A (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN112328657A (zh) | 特征衍生方法、装置、计算机设备及介质 | |
CN114419391A (zh) | 目标图像识别方法及装置、电子设备及可读存储介质 | |
CN111460315A (zh) | 社群画像构建方法、装置、设备及存储介质 | |
CN109086794A (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN110162769B (zh) | 文本主题输出方法和装置、存储介质及电子装置 | |
CN114722199A (zh) | 基于通话录音的风险识别方法、装置、计算机设备及介质 | |
CN113407696A (zh) | 收集表处理方法、装置、设备以及存储介质 | |
CN111177450B (zh) | 一种图像检索云识别方法、***及计算机可读存储介质 | |
CN113010705A (zh) | 标签预测方法、装置、设备及存储介质 | |
CN115204436A (zh) | 检测业务指标异常原因的方法、装置、设备及介质 | |
CN111831819A (zh) | 一种文本更新方法及装置 | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN115661472A (zh) | 图像查重方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |