CN115564156A

CN115564156A - 基于机器学习的事务聚集发生预警方法及其应用

Info

Publication number: CN115564156A
Application number: CN202211294234.2A
Authority: CN
Inventors: 朱淑敏; 黄宸; 曹鹏寅; 李斌; 田雨
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-01-03

Abstract

本申请提出了基于机器学习的事务聚集发生预警方法及其应用，包括以下步骤：提取原有数据的特征结构，该特征结构至少包括事务文本内容；提取事务文本内容中的文本内容，并将该文本内容拆分为地址字段特征、人名字段特征、事务人数字段特征及原始文本字段特征；将地址字段特征转换成标准结构化地址及其经纬度数据；通过递归密度聚类算法选取任一经纬度数据作为数据组点，并找到该数据组点密度可达的所有数据对象点形成一个簇，再将在同一簇下的数据组分类为同类数据；通过文本相似度算法处理同类数据下的文本字段，将同一类目下的相似事务作为结果存储至结果表；S50、输出结果表并根据该结果表预警。本申请提取事件的可用性及准确性高优点。

Description

基于机器学习的事务聚集发生预警方法及其应用

技术领域

本申请涉及机器学习技术领域，特别是一种涉及基于机器学习的事务聚集发生预警方法及其应用。

背景技术

目前的事务聚集发生预警可针对各地的征地拆迁，安置纠纷，房地产纠纷，知识产权纠纷，校园邻里纠纷，生态环境纠纷，婚姻家庭纠纷，信访纠纷，商事纠纷，山林土地纠纷等各地纠纷事件的类型、实际情况来进行分析和多元地化解。

但是现有技术通过中文NLP各种相似度算法在特定的领域进行分析，其准确率、场景化、分类能力都不能满足某些精细化场景的需求。也有通过人名、企业名、地址名等主体辅助分类，也依然受限与数据源隐私要求、数据源录入的结构规范化等问题，无法准确地匹配相同主体，如：地址的录入格式不标准，规范化XXX省XXX市XXX街道XXXX类似格式在录入中总会被省略部分字段。又如人名定位受限于数据源隐私，无法将所有个人相关字段全部提取。同时传统的地址聚类由于实际数据事务的发生或数据收集、录入时候往往呈现聚集性，而传统聚类方法一般只限制最小的簇数量来控制最终簇的数量，这可能会导致一个数据集在经过传统聚类方法分类后，大比例的数据会聚集在一个类别中，这与际的事务分类需求不符。

因此，亟待一种显著提高识别率、分类能力及拓展能力的基于机器学习的事务聚集发生预警方法及其应用。

发明内容

本申请实施例提供了基于机器学习的事务聚集发生预警方法及其应用，针对目前技术存在的识别率低和分类能力低等问题。

本发明核心技术主要是通过机器学习技术将数据源中相似事件再次辅助分类，提高最终提取事件的可用性及准确性。

第一方面，本申请提供了基于机器学习的事务聚集发生预警方法，所述方法包括以下步骤：

S00、提取原有数据的特征结构，该特征结构至少包括事务文本内容；

S10、提取事务文本内容中的文本内容，并将该文本内容拆分为地址字段特征、人名字段特征、事务人数字段特征及原始文本字段特征，以实现对特征结构的补齐；

S20、将地址字段特征转换成标准结构化地址及其经纬度数据，以作为新特征单独存储；

S30、通过递归密度聚类算法选取任一经纬度数据作为数据组点，并找到该数据组点密度可达的所有数据对象点形成一个簇，再将在同一簇下的数据组分类为同类数据；

S40、通过文本相似度算法处理同类数据下的文本字段，进一步优化分类结果并将同一类目下的相似事务作为结果存储至结果表；

S50、输出结果表并根据该结果表预警。

进一步地，步骤S00中，特征结构还包括标识ID，该标识ID用于标识事务。

进一步地，步骤S00中，特征结构还包括事务时间和事务地点。

进一步地，步骤S10中，通过地图软件的开放API将地址字段特征转换成标准结构化地址及其经度和纬度数据。

进一步地，步骤S30中，若选取的数据组点为边缘点，则选取另一个数据对象点，直至所有数据对象点被处理。

进一步地，步骤S30中，根据簇群分布情况，按照簇的大小进行密度聚类形成新的簇，并进行递归，直至到达设定条件形成递归结果，并将递归结果中的同一类簇下的数据组点归类为同类数据。

进一步地，步骤S30中，通过DBSCAN算法将同一类簇下的数据组点归类为同类数据。

第二方面，本申请提供了一种基于机器学习的事务聚集发生预警装置，包括：

数据提取模块，用于提取原有数据的特征结构，该特征结构至少包括事务文本内容；

数据补全模块，用于提取事务文本内容中的文本内容，并将该文本内容拆分为地址字段特征、人名字段特征、事务人数字段特征及原始文本字段特征，以实现对特征结构的补齐；

数据转换模块，用于将地址字段特征转换成标准结构化地址及其经纬度数据，以作为新特征单独存储；

递归密度聚类模块，用于通过递归密度聚类算法选取任一经纬度数据作为数据组点，并找到该数据组点密度可达的所有数据对象点形成一个簇，再将在同一簇下的数据组分类为同类数据；

文本相似度计算模块，用于通过文本相似度算法处理同类数据下的文本字段，进一步优化分类结果并将同一类目下的相似事务作为结果存储至结果表；

输出模块，用于输出结果表并根据该结果表预警。

第三方面，本申请提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述的基于机器学习的事务聚集发生预警方法。

第四方面，本申请提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据上述的基于机器学习的事务聚集发生预警方法。

本发明的主要贡献和创新点如下：1、与现有技术（传统文本相似度计算法，传统方法对文本相似的判断能力有一定局限性，受限于文本的输入规划程度，文本叙述主要元素的完整程度，对相似事件的不同数据源的描述习惯等因素，识别能力浮动较大无法达到令人满意的识别率）相比，本申请通过机器学习技术将数据源中相似事件再次辅助分类，提高最终提取事件的可用性及准确性；

2、与现有技术相比，本申请在传统的聚类方法基础上，增加了递归计算，通过参数调整，将密度较大的区域进行更细化的划分，同时增加最大深度等限制，限制算法计算时间的无限增长，提高算法的分类能力及计算速率，而且在传统方法上加入递归计算，能够将原本分布不佳的数据集在计算后的单个簇数量控制在一个合理的区间内，避免了大量数据集中在某个或某几个少数簇中，影响数据结果的可用性，同时通过文本相似度参数与分类参数可联合调整，增加了算法的拓展能力；

3、本申请能够清晰地展示相似事务聚集发生的内容、位置、分类标识、时间等特征，并确保相似事务发生在一定区域内的设定密度下，能够通过密度聚类算法辅助文本相似度识别，更准确地将原本难以识别的相似事务识别出来，同时减少不相关事务的错误识别；

4、本申请由于传统的密度聚类算法的特性，同样能够对于异常值不敏感（缺失值，错误录入值），能够接纳一定程度的错误定位数据（异常值通常会以离群点的形式出现，算法会将其归类为noisepoint后文有描述，因此一定数量内的异常值不会对算法造成影响），且通过本申请的算法改良，将算法没有最大簇上限的问题解决，并且限制算法最大深度，保证算法的运算时间在可控范围内，这是传统算法无法做到的；

5、本申请能够通过参数调整，设定所需计算的事务的时间跨度，定义事务的发生次数等（时间跨度是指提取数据源时，业务需求不同提取的数据源时间跨度不同，如本月聚集发生，本年度，本季度，可以用过数据源的时间特征筛选完成，事务发生次数为预警特征，即业务场景中对聚集的具体数值定义，可以根据需求自主调整，算法本身对同类簇的定义由最小簇数量完成，事务的发生次数设定只要大于最小簇（后文minsample参数）都是有实际意义的），根据不同的业务需求来计算结果，满足不同业务所需的结果数据，及时发现征地拆迁，安置纠纷，房地产纠纷，知识产权纠纷，校园邻里纠纷，生态环境纠纷，婚姻家庭纠纷，信访纠纷，商事纠纷，山林土地纠纷等各地纠纷事件的类型、实际情况来进行分析和多元地化解。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于机器学习的事务聚集发生预警方法的流程图；

图2是本申请的DBSCAN算法示意图；

图3是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

传统文本相似度计算法，传统方法对文本相似的判断能力有一定局限性，受限于文本的输入规划程度，文本叙述主要元素的完整程度，对相似事件的不同数据源的描述习惯等因素，识别能力浮动较大无法达到令人满意的识别率。同时传统的地址聚类由于实际数据事务的发生或数据收集、录入时候往往呈现聚集性，而传统聚类方法一般只限制最小的簇数量来控制最终簇的数量，这可能会导致一个数据集在经过传统聚类方法分类后，大比例的数据会聚集在一个类别中，这与实际的事务分类需求不符。

基于此，本发明基于机器学习辅助文本相似度计算区分相似事务聚集发生来解决现有技术存在的问题。即基于传统的机器学习基于业务场景修改完善。

实施例一

本申请旨在提出基于机器学习的事务聚集发生预警方法，通过机器学习技术将数据源中相似事件再次辅助分类，提高最终提取事件的可用性及准确性。

具体地，本申请实施例提供了基于机器学习的事务聚集发生预警方法，具体地，参考图1，所述方法包括：

S00、提取原有数据（来自数据源）的特征结构，该特征结构至少包括事务文本内容；

此步骤中，特征结构主要为标识id，事务文本内容，事务时间，事务地点，其中事务文本内容为必要特征，其余特征可以根据需求用算法辅助填充。优选地，事务时间可以辅助通过时间筛选更精准的时间维度来筛选数据源输入，在没有时间维度的情况下，默认使用全数据源数据进行计算。事务地点数据可以为空或者提供非结构化地址数据，由于数据源提供结构化数据的可能性较小，默认进行步骤S10计算。

此步骤中，事务人数字段特征的字段提取方法：将文本内容的描述中的数字及中文数字描述作正则化提取后，使用判断规则将超出一定长度，超出一定大小范围的数据去除，作为文本内容人数，而后用作与文本提取到的人名数量做比对，将其中的较大值作为事务人数特征输出，其中，文本内容人数（事务人数字段特征）的提取规则可以使用参数修改，根据不同地区、不同业务需求提高其精度。

因为原有数据中并不是完整的，因此本步骤目的在于通过仅有的事务文本内容来提取其他特征，从而使得后续递归密度聚类所要的特征都能够补充完整。

此步骤中，如通过高德开放API转换为标准结构化地址，结构如：XXX省XXX市XXX街道XXX 类数据，及其地址的经纬度数值，作为其新的特征单独存储。不仅限于高德开放API，百度开放API等等均可以。

在此步骤后，用于计算的特征已完整提取，为：标识id，事务原始文本内容，事务时间，事务结构化地址，事务经度，事务纬度，事务发生人数及事务包含人名。

在本实施例中，具体步骤为：

S31、根据类密度聚类算法（传统密度聚类算法），选取事务数据源（也就是S20得到的数据）中的任一经度、纬度，对于参数Eps，minsample（即DBSCAN算法中的MinPts），所选取的数据组点标记为p，找到所有从p密度可达的数据对象点，形成一个簇；

S32、根据数据源分布及结果簇群分布的合理性判定，在较大的样本（指的是拥有最大点数量的簇，也就是为了保证最大的分类小于样本总数量的一定比例，避免大量的点被分入某一个簇）被归入同一个簇时，对较大的数据样本簇继续进行密度聚类形成新的簇；

S33、将上述步骤归入同一个递归过程，设定最大簇数量、最大递归层数、最大样本分布百分比等退出条件（为了完善算法加的参数设定，目的是避免算法深度过大，运算时间过长，簇分布过于不均衡等问题）；

S34、最终将同一簇下的数据组（也就是簇）归类为同类数据；

优选地，如图2所示，通过DBSCAN算法（由密度可达关系导出的最大密度相连的样本集合，即为最终聚类的一个簇）将数据点（被分类前的所有点）分为三类：

核心点（Core point），若样本χ_i的ε领域内至少包含了MinPts个样本，即N_ε(X_i)≥MinPts，则称样本点χ_i为核心点；

边界点（Border point），若样本χ_i的ε领域内包含的样本数目小于MinPts个样本，但是它在其他核心点的领域内，则称样本点χ_i为边界点；

噪音点（Noise point），既不是核心点也不是边界点的点。

其中，半径Eps(ε)和置顶的数目MinPts均可以按照需求进行设定。

其中，每个核心点周围一定范围的数据点总和会与被整体纳入计算范围的数据点综合做比较，超过一定阈值的簇将进行二次递归计算，直到其与总数据点数之间的比例达到设定阈值内，在这个过程中会生成新的簇，当然也包含新的核心点，边界点，噪音点，而新的核心点与其所述范围内的周边边界点会继续这个过程，直到数据内所有的点都被分类完成，形成最终的数据结果。

其中，Eps：参数大小直接影响了分类结果的数量，且与min_sample参数共同影响单个簇的borderpoint数量，数值越大，对密度要求越严格，容易产生单个点为一簇的情况（min_sample=1前提），根据数据质量及具体需求调整，在此实例中设定为0.1。

Min_sample：最小簇中corepoint与borderpoint的数量总和，可以通过数据质量，算法结果调整也可以根据业务数据调整，在此实例中小于一定数量的事务发生不会触发预警机制，因此min_sample被设定为大于10，但是由于二次计算需要与文本相似度的distance联合调整，单个簇数量过少时，从单独的簇中无法提取出相似事务，最终测试后min_sample设定为100。

Distance：文本相似度判定阈值，通过与算法参数的联合调整，此实例中设定为300。

Ratio：单个簇corepoint与borderpoint的总数与总数据点的比例阈值，影响最终的簇数量及算法深度，在此实例中设定为0.25。

Max_deepth：递归计算的最大递归次数，根据计算硬件性能及算法性能综合调整，此实例中设定为5。

在本实施例中，使用文本相似度计算接口，进一步处理同类下的文本字段（同类数据），与步骤S30的参数（Eps，minpts，distance，递归深度，最大样本百分比）联合调整，使结果满足业务需求，最终将同一类目下的相似事务作为结果存储到结果表。

S50、输出结果表并根据该结果表预警。

其中，预警是通过算法结果设定统计阈值实现的，可以根据业务需求灵活变动，基于聚集的预警肯定是以相似且相近的事务总数量作为阈值的。

在本实施例中，最终的数据结果包含标识id、事务文本内容、事务时间、事务标准化地址、事务分类标识id、事务文本人数及事务包含人名字段。

事务分类id相同表示该id下的事务是发生在邻近区域内的相似事务，且事务文本人数清晰展示了该事务描述中描述的事务包含人数（描述人数与提取人名总数的较大值），事务包含人名清晰展示了事务描述中包含的人名，方便与其他结果表联合查询。

实施例二

基于相同的构思，本申请还提出了一种基于机器学习的事务聚集发生预警装置，包括：

输出模块，用于输出结果表并根据该结果表预警。

实施例三

本实施例还提供了一种电子装置，参考图3，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意基于机器学习的事务聚集发生预警方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是原有数据等，输出的信息可以是结果表等。

实施例四

本实施例还提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据实施例一的基于机器学习的事务聚集发生预警方法。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、***、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.基于机器学习的事务聚集发生预警方法，其特征在于，包括以下步骤：

S10、提取所述事务文本内容中的文本内容，并将该文本内容拆分为地址字段特征、人名字段特征、事务人数字段特征及原始文本字段特征，以实现对所述特征结构的补齐；

S20、将所述地址字段特征转换成标准结构化地址及其经纬度数据，以作为新特征单独存储；

S50、输出结果表并根据该结果表预警。

2.如权利要求1所述的基于机器学习的事务聚集发生预警方法，其特征在于，步骤S00中，所述特征结构还包括标识ID，该标识ID用于标识事务。

3.如权利要求1所述的基于机器学习的事务聚集发生预警方法，其特征在于，步骤S00中，所述特征结构还包括事务时间和事务地点。

4.如权利要求1所述的基于机器学习的事务聚集发生预警方法，其特征在于，步骤S10中，通过地图软件的开放API将所述地址字段特征转换成标准结构化地址及其经度和纬度数据。

5.如权利要求1所述的基于机器学习的事务聚集发生预警方法，其特征在于，步骤S30中，若选取的数据组点为边缘点，则选取另一个数据对象点，直至所有数据对象点被处理。

6.如权利要求1所述的基于机器学习的事务聚集发生预警方法，其特征在于，步骤S30中，根据簇群分布情况，按照簇的大小进行密度聚类形成新的簇，并进行递归，直至到达设定条件形成递归结果，并将递归结果中的同一类簇下的数据组点归类为同类数据。

7.如权利要求6所述的基于机器学习的事务聚集发生预警方法，其特征在于，步骤S30中，通过DBSCAN算法将同一类簇下的数据组点归类为同类数据。

8.一种基于机器学习的事务聚集发生预警装置，其特征在于，包括：

输出模块，用于输出结果表并根据该结果表预警。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项所述的基于机器学习的事务聚集发生预警方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至7任一项所述的基于机器学习的事务聚集发生预警方法。