CN108536794A

CN108536794A - 符合泊松分布的有序多分类变量的数据规格化方法

Info

Publication number: CN108536794A
Application number: CN201810281245.4A
Authority: CN
Inventors: 李娜; 杨美红; 李士锋; 曾云辉; 赵志刚; 葛菁; 孙占全
Original assignee: Public Security Department Of Shandong Province; Shandong Computer Science Center
Current assignee: Public Security Department Of Shandong Province; Shandong Computer Science Center National Super Computing Center in Jinan; Shandong Computer Science Center
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-09-14

Abstract

本发明的符合泊松分布的有序多分类变量的数据规格化方法，设数据样本的属性A符合泊松分布，属性A的m个类别经自然编码后的原始值分别为v₁、v₂、…、v_m，v_i、v_j∈Z且v_i≠v_j，1≤i≤m,1≤j≤m，样本中属性A的总数量记为N，属性A中类别k下的数量记为n_k；有序多分类变量的属性A规格化后的数据值v′_k通过公式(1)进行求取：其中，1≤k≤m，

Description

符合泊松分布的有序多分类变量的数据规格化方法

技术领域

本发明涉及一种数据规格化方法，更具体的说，尤其涉及一种的符合泊松分布的有序多分类变量的数据规格化方法。

背景技术

数据规格化是数据预处理的基本过程之一。在医疗、警务、海洋等大数据应用背景下，经常遇到有序多分类变量。这些变量不符合正态分布，使用零均值等现有常规的数据规格化方法，会影响数据挖掘算法的效果。本发明专利对符合泊松分布的有序多分类变量进行分析，有针对性的提出新的数据规格化计算方法，使该类数据规格化效果更好。

现实世界数据库中常常包含许多不完整、不一致、冗余或含有噪声、异常值的数据，因此数据预处理是数据挖掘和知识发现过程中必不可少的重要步骤。数据预处理，指通过数据清洗、数据集成、数据转换、数据规约等方法步骤，为数据挖掘的内核算法提供更有针对性的可用数据，从而有效提高数据挖掘的效率和质量。数据预处理过程之一，数据转换(data transformation)，主要是对数据进行规格化(normalization)操作，有时也称归一化。

数据规格化就是将一个属性取值范围投射到一个特定范围之内，以消除数值型属性因大小不一或量纲不同而造成的挖掘结果的偏差。在正式进行数据挖掘之前，尤其是使用基于对象距离的挖掘算法时，如神经网络、最近邻分类、聚类等，必须进行数据规格化。采用规格化后的数据不仅有助于确保数据挖掘的正确性，消除因属性取值范围不同而导致对数据挖掘结果的影响，还有助于提高挖掘算法的速度和效率。

目前数据规格化方法包括：最大最小规格化方法、零均值规格化方法、十基数变换规格化方法、非线性变换规格化方法等。十基数变换规格化方法，通过移动属性值的小数点位置来进行数据规格化，适用于因量纲数量级影响数据挖掘的情况。非线性变换规格化方法通过log、正切等数学函数进行数据规格化，适用于数据分布符合非线性函数曲线的情况。实际应用中被经常使用的规格化方法是最大最小规格化方法、零均值规格化方法，在常用的语言程序(如Matlab、R)或机器学习库(如scikit-learn)中均有函数可方便实现。

发明内容

本发明为了克服上述技术问题的缺点，提供了一种符合泊松分布的有序多分类变量的数据规格化方法。

本发明的符合泊松分布的有序多分类变量的数据规格化方法，设数据样本的属性A符合泊松分布，属性A具有m个类别，属性A的m个类别经自然编码后的原始值分别为v₁、v₂、…、v_m，v_i、v_j∈Z且v_i≠v_j，1≤i≤m,1≤j≤m，即属性A的原始值为m个正整数的集合；样本中属性A的总数量记为N，属性A中类别k下的数量记为n_k，1≤k≤m，则满足

其特征在于，有序多分类变量的属性A规格化后的数据值v_k＇通过公式(1)进行求取：

其中，1≤k≤m，为属性A中m个类别原始值的均值，其通过如下公式进行求取：

本发明的符合泊松分布的有序多分类变量的数据规格化方法，属性A的m个类别经自然编码后的原始值v₁、v₂、…、v_m分别为1、2、…、m；医学上某项检查利用物质浓度的分区间标定结果作为数据样本时，原始值v₁＝1表示检测结果为阴性。

本发明的有益效果是：本发明的符合泊松分布的有序多分类变量的数据规格化方法，摒弃了采用最大最小规格化方法、零均值规格化方法对符合泊松分布的有序多分类变量进行处理，通过实践和总结，提出了一种全新的对符合泊松分布的有序多分类变量进行规格化的方法，使得处理后的变量可应用在如神经网络、最近邻分类、聚类等基于对象距离的挖掘算法中，有益效果显著，适于应用推广。

具体实施方式

下面结合实施例对本发明作进一步说明。

为了说明本发明的数据规格化方法与现有数据处理方法的区别，首先对最大最小规格化方法和零均值规格化方法进行详细说明。

最大最小规格化方法，是对属性的原始数据进行一种线性转换。假设min_A和max_A为属性A的最小和最大值，属性A的原始数据值为v，规格化后数据值为v'，规格化后的区间为[new_min_A,new_max_A]，即v'∈[new_min_A,new_max_A]，则v'由公式(3)进行计算：

该方法保留了原来数据中存在的关系，但是当属性A出现新的输入值在原数据值域之外时，将引起***出错，导致规格化效果变差。

零均值规格化方法，是根据属性A的均值和方差进行规格化，属性A的原始数据值为v，规格化后数据值为v'，则v'由公式(4)进行计算：

其中，和σ_A分别为属性A的均值和标准差。该方法假设属性A的原始数据分布可以近似为高斯分布，否则规格化的效果会变差。零均值规格化方法是最常用的数据规格化方法。

在大数据挖掘中，有些符合泊松分布的数据使用以上数据规格化方法均不合适，特别是对于一些“有序多分类变量”而言。例如，在医学数据预处理中，尿常规检测数据的很多属性，如白细胞、亚硝酸盐、尿胆原、蛋白质等，通常得到的检测结果是“阴性(-)、微量(+-)、少量(+)、中量(++)、大量(+++)”等一系列指标值。这些指标值代表的检验科医生使用传统的尿沉渣检验法或尿干化学仪，对尿液标本进行检测后，对标本里各属性代表物质浓度的分区间标定结果。该类属性无法按数据自然大小当作连续型变量处理，通常按照因变量影响由小到大的顺序编码为“1、2、3、……”的自然数。此时若使用零均值规格化公式(4)计算v'，分母的方差值通常很小(一般小于0.1)，阳性指标的属性值v'会出现较大的特异性，有时还会超出正态分布z值表的取值范围，从而对数据挖掘算法产生影响。针对这样的属性数据，现有常规的数据规格化方法不再适用。如采用本发明中的方法进行数据规格化，将会取得比其他规格化方法更好的效果。

泊松分布是最重要的离散分布之一，当一个随机事件，以固定的平均瞬时速率λ(或称密度)随机且独立地出现时，那么这个事件在单位时间(面积或体积)内出现的次数或个数k就服从泊松分布P，用公式(5)计算：

其中固定参数λ是一个正数，P代表单位时间(或单位面积)内随机事件的平均发生率。泊松分布在数据处理领域应用十分广泛，许多随机现象都服从或近似服从泊松分布，如社会生活中，对服务的各种要求，如某电话交换台收到的呼叫数、来到某公共汽车站的乘客数等都近似服从泊松分布；物理学中，放射性物质发射出的粒子数、热电子的发射数等都服从泊松分布；另外，机器出现的故障、各类事故、自然灾害等也都服从泊松分布。因此泊松分布在运筹学、管理科学中占有很突出的地位。因此，本专利发明的数据规格化方法在医疗、警务、海洋大数据等诸多方面都有着广泛的应用基础。

以尿常规检测的白细胞、亚硝酸盐、尿胆原、蛋白质等属性为例，这些属性数据满足以下三个条件：(1)在健康人群中该属性指标为阳性是小概率事件；(2)在健康人群中该属性指标是否为阳性是独立的，不同人之间不相互影响；(3)从中长期看，标准量级的健康人群(比如每万人)该指标为阳性的数量(可能代表某些疾病的发生率)是稳定的。因此，这些属性数据从统计学讲，都是具有增量平稳性的独立增量随机过程，符合泊松分布，其通过以下方法进行数据规格化处理：

设数据样本的属性A符合泊松分布，属性A具有m个类别，属性A的m个类别经自然编码后的原始值分别为v₁、v₂、…、v_m，v_i、v_j∈Z且v_i≠v_j，1≤i≤m,1≤j≤m，即属性A的原始值为m个正整数的集合；样本中属性A的总数量记为N，属性A中类别k下的数量记为n_k，1≤k≤m，则满足

其特征在于，有序多分类变量的属性A规格化后的数据值v′_k通过公式(1)进行求取：

属性A的m个类别经自然编码后的原始值v₁、v₂、…、v_m可分别取为1、2、…、m；医学上某项检查利用物质浓度的分区间标定结果作为数据样本时，原始值v₁＝1表示检测结果为阴性。

下面以科研工作中实际采集的一个小样本数据进行计算举例比较说明，样本符合泊松分布的有序多分类变量，样本数据如表1所示。

表1

表1中为尿常规检测的白细胞指标，可见为阴性(-)的为133人，其编码后原始值为1；为阳性(+-)的为11人，其编码后原始值为2；为阳性(+)的为4人，其编码后的原始值为3；为阳性(++)的为1人，其编码后的原始值为4；为阳性(+++)的为1人，其编码后的原始值为5。如果采用公式(4)的零均值规格化方法对编码后的原始值进行处理，其获取的规格化后属性值v′分别为-0.308043034248、1.46912831718、3.24629966862、5.02347102005、6.80064237148。

采用本发明的数据规格化方法进行处理时，当k＝1，即属性类别为阴性(-)时，规格化后的v′₁通过以下公式求取：

当k＝2时：

通过同样的方法，可求得v′₃、v′₄、v′₅的值分别为0.647152574068608、2.628294180533355、2.652104511088709。

本发明的规格化方法，更适于对符合泊松分布的有序多分类变量进行规格化处理，其处理后的数据更适于应用在如神经网络、最近邻分类、聚类等基于对象距离的挖掘算法中。

Claims

1.一种符合泊松分布的有序多分类变量的数据规格化方法，设数据样本的属性A符合泊松分布，属性A具有m个类别，属性A的m个类别经自然编码后的原始值分别为v₁、v₂、…、v_m，v_i、v_j∈Z且v_i≠v_j，1≤i≤m,1≤j≤m，即属性A的原始值为m个正整数的集合；样本中属性A的总数量记为N，属性A中类别k下的数量记为n_k，1≤k≤m，则满足

2.根据权利要求1所述的符合泊松分布的有序多分类变量的数据规格化方法，其特征在于：属性A的m个类别经自然编码后的原始值v₁、v₂、…、v_m分别为1、2、…、m；医学上某项检查利用物质浓度的分区间标定结果作为数据样本时，原始值v₁＝1表示检测结果为阴性。