CN108536794A - 符合泊松分布的有序多分类变量的数据规格化方法 - Google Patents

符合泊松分布的有序多分类变量的数据规格化方法 Download PDF

Info

Publication number
CN108536794A
CN108536794A CN201810281245.4A CN201810281245A CN108536794A CN 108536794 A CN108536794 A CN 108536794A CN 201810281245 A CN201810281245 A CN 201810281245A CN 108536794 A CN108536794 A CN 108536794A
Authority
CN
China
Prior art keywords
attribute
classification
data
orderly
poisson distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810281245.4A
Other languages
English (en)
Inventor
李娜
杨美红
李士锋
曾云辉
赵志刚
葛菁
孙占全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Public Security Department Of Shandong Province
Shandong Computer Science Center National Super Computing Center in Jinan
Shandong Computer Science Center
Original Assignee
Public Security Department Of Shandong Province
Shandong Computer Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Public Security Department Of Shandong Province, Shandong Computer Science Center filed Critical Public Security Department Of Shandong Province
Priority to CN201810281245.4A priority Critical patent/CN108536794A/zh
Publication of CN108536794A publication Critical patent/CN108536794A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的符合泊松分布的有序多分类变量的数据规格化方法,设数据样本的属性A符合泊松分布,属性A的m个类别经自然编码后的原始值分别为v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,样本中属性A的总数量记为N,属性A中类别k下的数量记为nk;有序多分类变量的属性A规格化后的数据值v′k通过公式(1)进行求取:其中,1≤k≤m,

Description

符合泊松分布的有序多分类变量的数据规格化方法
技术领域
本发明涉及一种数据规格化方法,更具体的说,尤其涉及一种的符合泊松分布的有序多分类变量的数据规格化方法。
背景技术
数据规格化是数据预处理的基本过程之一。在医疗、警务、海洋等大数据应用背景下,经常遇到有序多分类变量。这些变量不符合正态分布,使用零均值等现有常规的数据规格化方法,会影响数据挖掘算法的效果。本发明专利对符合泊松分布的有序多分类变量进行分析,有针对性的提出新的数据规格化计算方法,使该类数据规格化效果更好。
现实世界数据库中常常包含许多不完整、不一致、冗余或含有噪声、异常值的数据,因此数据预处理是数据挖掘和知识发现过程中必不可少的重要步骤。数据预处理,指通过数据清洗、数据集成、数据转换、数据规约等方法步骤,为数据挖掘的内核算法提供更有针对性的可用数据,从而有效提高数据挖掘的效率和质量。数据预处理过程之一,数据转换(data transformation),主要是对数据进行规格化(normalization)操作,有时也称归一化。
数据规格化就是将一个属性取值范围投射到一个特定范围之内,以消除数值型属性因大小不一或量纲不同而造成的挖掘结果的偏差。在正式进行数据挖掘之前,尤其是使用基于对象距离的挖掘算法时,如神经网络、最近邻分类、聚类等,必须进行数据规格化。采用规格化后的数据不仅有助于确保数据挖掘的正确性,消除因属性取值范围不同而导致对数据挖掘结果的影响,还有助于提高挖掘算法的速度和效率。
目前数据规格化方法包括:最大最小规格化方法、零均值规格化方法、十基数变换规格化方法、非线性变换规格化方法等。十基数变换规格化方法,通过移动属性值的小数点位置来进行数据规格化,适用于因量纲数量级影响数据挖掘的情况。非线性变换规格化方法通过log、正切等数学函数进行数据规格化,适用于数据分布符合非线性函数曲线的情况。实际应用中被经常使用的规格化方法是最大最小规格化方法、零均值规格化方法,在常用的语言程序(如Matlab、R)或机器学习库(如scikit-learn)中均有函数可方便实现。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种符合泊松分布的有序多分类变量的数据规格化方法。
本发明的符合泊松分布的有序多分类变量的数据规格化方法,设数据样本的属性A符合泊松分布,属性A具有m个类别,属性A的m个类别经自然编码后的原始值分别为v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,即属性A的原始值为m个正整数的集合;样本中属性A的总数量记为N,属性A中类别k下的数量记为nk,1≤k≤m,则满足
其特征在于,有序多分类变量的属性A规格化后的数据值vk'通过公式(1)进行求取:
其中,1≤k≤m,为属性A中m个类别原始值的均值,其通过如下公式进行求取:
本发明的符合泊松分布的有序多分类变量的数据规格化方法,属性A的m个类别经自然编码后的原始值v1、v2、…、vm分别为1、2、…、m;医学上某项检查利用物质浓度的分区间标定结果作为数据样本时,原始值v1=1表示检测结果为阴性。
本发明的有益效果是:本发明的符合泊松分布的有序多分类变量的数据规格化方法,摒弃了采用最大最小规格化方法、零均值规格化方法对符合泊松分布的有序多分类变量进行处理,通过实践和总结,提出了一种全新的对符合泊松分布的有序多分类变量进行规格化的方法,使得处理后的变量可应用在如神经网络、最近邻分类、聚类等基于对象距离的挖掘算法中,有益效果显著,适于应用推广。
具体实施方式
下面结合实施例对本发明作进一步说明。
为了说明本发明的数据规格化方法与现有数据处理方法的区别,首先对最大最小规格化方法和零均值规格化方法进行详细说明。
最大最小规格化方法,是对属性的原始数据进行一种线性转换。假设minA和maxA为属性A的最小和最大值,属性A的原始数据值为v,规格化后数据值为v',规格化后的区间为[new_minA,new_maxA],即v'∈[new_minA,new_maxA],则v'由公式(3)进行计算:
该方法保留了原来数据中存在的关系,但是当属性A出现新的输入值在原数据值域之外时,将引起***出错,导致规格化效果变差。
零均值规格化方法,是根据属性A的均值和方差进行规格化,属性A的原始数据值为v,规格化后数据值为v',则v'由公式(4)进行计算:
其中,和σA分别为属性A的均值和标准差。该方法假设属性A的原始数据分布可以近似为高斯分布,否则规格化的效果会变差。零均值规格化方法是最常用的数据规格化方法。
在大数据挖掘中,有些符合泊松分布的数据使用以上数据规格化方法均不合适,特别是对于一些“有序多分类变量”而言。例如,在医学数据预处理中,尿常规检测数据的很多属性,如白细胞、亚硝酸盐、尿胆原、蛋白质等,通常得到的检测结果是“阴性(-)、微量(+-)、少量(+)、中量(++)、大量(+++)”等一系列指标值。这些指标值代表的检验科医生使用传统的尿沉渣检验法或尿干化学仪,对尿液标本进行检测后,对标本里各属性代表物质浓度的分区间标定结果。该类属性无法按数据自然大小当作连续型变量处理,通常按照因变量影响由小到大的顺序编码为“1、2、3、……”的自然数。此时若使用零均值规格化公式(4)计算v',分母的方差值通常很小(一般小于0.1),阳性指标的属性值v'会出现较大的特异性,有时还会超出正态分布z值表的取值范围,从而对数据挖掘算法产生影响。针对这样的属性数据,现有常规的数据规格化方法不再适用。如采用本发明中的方法进行数据规格化,将会取得比其他规格化方法更好的效果。
泊松分布是最重要的离散分布之一,当一个随机事件,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数k就服从泊松分布P,用公式(5)计算:
其中固定参数λ是一个正数,P代表单位时间(或单位面积)内随机事件的平均发生率。泊松分布在数据处理领域应用十分广泛,许多随机现象都服从或近似服从泊松分布,如社会生活中,对服务的各种要求,如某电话交换台收到的呼叫数、来到某公共汽车站的乘客数等都近似服从泊松分布;物理学中,放射性物质发射出的粒子数、热电子的发射数等都服从泊松分布;另外,机器出现的故障、各类事故、自然灾害等也都服从泊松分布。因此泊松分布在运筹学、管理科学中占有很突出的地位。因此,本专利发明的数据规格化方法在医疗、警务、海洋大数据等诸多方面都有着广泛的应用基础。
以尿常规检测的白细胞、亚硝酸盐、尿胆原、蛋白质等属性为例,这些属性数据满足以下三个条件:(1)在健康人群中该属性指标为阳性是小概率事件;(2)在健康人群中该属性指标是否为阳性是独立的,不同人之间不相互影响;(3)从中长期看,标准量级的健康人群(比如每万人)该指标为阳性的数量(可能代表某些疾病的发生率)是稳定的。因此,这些属性数据从统计学讲,都是具有增量平稳性的独立增量随机过程,符合泊松分布,其通过以下方法进行数据规格化处理:
设数据样本的属性A符合泊松分布,属性A具有m个类别,属性A的m个类别经自然编码后的原始值分别为v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,即属性A的原始值为m个正整数的集合;样本中属性A的总数量记为N,属性A中类别k下的数量记为nk,1≤k≤m,则满足
其特征在于,有序多分类变量的属性A规格化后的数据值v′k通过公式(1)进行求取:
其中,1≤k≤m,为属性A中m个类别原始值的均值,其通过如下公式进行求取:
属性A的m个类别经自然编码后的原始值v1、v2、…、vm可分别取为1、2、…、m;医学上某项检查利用物质浓度的分区间标定结果作为数据样本时,原始值v1=1表示检测结果为阴性。
下面以科研工作中实际采集的一个小样本数据进行计算举例比较说明,样本符合泊松分布的有序多分类变量,样本数据如表1所示。
表1
表1中为尿常规检测的白细胞指标,可见为阴性(-)的为133人,其编码后原始值为1;为阳性(+-)的为11人,其编码后原始值为2;为阳性(+)的为4人,其编码后的原始值为3;为阳性(++)的为1人,其编码后的原始值为4;为阳性(+++)的为1人,其编码后的原始值为5。如果采用公式(4)的零均值规格化方法对编码后的原始值进行处理,其获取的规格化后属性值v′分别为-0.308043034248、1.46912831718、3.24629966862、5.02347102005、6.80064237148。
采用本发明的数据规格化方法进行处理时,当k=1,即属性类别为阴性(-)时,规格化后的v′1通过以下公式求取:
当k=2时:
通过同样的方法,可求得v′3、v′4、v′5的值分别为0.647152574068608、2.628294180533355、2.652104511088709。
本发明的规格化方法,更适于对符合泊松分布的有序多分类变量进行规格化处理,其处理后的数据更适于应用在如神经网络、最近邻分类、聚类等基于对象距离的挖掘算法中。

Claims (2)

1.一种符合泊松分布的有序多分类变量的数据规格化方法,设数据样本的属性A符合泊松分布,属性A具有m个类别,属性A的m个类别经自然编码后的原始值分别为v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,即属性A的原始值为m个正整数的集合;样本中属性A的总数量记为N,属性A中类别k下的数量记为nk,1≤k≤m,则满足
其特征在于,有序多分类变量的属性A规格化后的数据值v′k通过公式(1)进行求取:
其中,1≤k≤m,为属性A中m个类别原始值的均值,其通过如下公式进行求取:
2.根据权利要求1所述的符合泊松分布的有序多分类变量的数据规格化方法,其特征在于:属性A的m个类别经自然编码后的原始值v1、v2、…、vm分别为1、2、…、m;医学上某项检查利用物质浓度的分区间标定结果作为数据样本时,原始值v1=1表示检测结果为阴性。
CN201810281245.4A 2018-04-02 2018-04-02 符合泊松分布的有序多分类变量的数据规格化方法 Pending CN108536794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810281245.4A CN108536794A (zh) 2018-04-02 2018-04-02 符合泊松分布的有序多分类变量的数据规格化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810281245.4A CN108536794A (zh) 2018-04-02 2018-04-02 符合泊松分布的有序多分类变量的数据规格化方法

Publications (1)

Publication Number Publication Date
CN108536794A true CN108536794A (zh) 2018-09-14

Family

ID=63482198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810281245.4A Pending CN108536794A (zh) 2018-04-02 2018-04-02 符合泊松分布的有序多分类变量的数据规格化方法

Country Status (1)

Country Link
CN (1) CN108536794A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140348286A1 (en) * 2004-09-24 2014-11-27 Lawrence Livermore National Security, Llc Neutron detection using poisson distribution comparison independent of count rate based on correlation signals
CN104517040A (zh) * 2014-12-31 2015-04-15 青岛海信网络科技股份有限公司 一种基于ic卡数据公交车辆车内拥挤程度计算方法
CN106504029A (zh) * 2016-11-08 2017-03-15 山东大学 一种基于客户群体行为分析的加油站销量预测方法
CN107402381A (zh) * 2017-07-11 2017-11-28 西北工业大学 一种迭代自适应的多机动目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140348286A1 (en) * 2004-09-24 2014-11-27 Lawrence Livermore National Security, Llc Neutron detection using poisson distribution comparison independent of count rate based on correlation signals
CN104517040A (zh) * 2014-12-31 2015-04-15 青岛海信网络科技股份有限公司 一种基于ic卡数据公交车辆车内拥挤程度计算方法
CN106504029A (zh) * 2016-11-08 2017-03-15 山东大学 一种基于客户群体行为分析的加油站销量预测方法
CN107402381A (zh) * 2017-07-11 2017-11-28 西北工业大学 一种迭代自适应的多机动目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李学丰等: "《岩石裂隙组构的定量测定》", 《岩石力学与工程学报》 *

Similar Documents

Publication Publication Date Title
CN111899882B (zh) 一种预测癌症的方法及***
CN108717867A (zh) 基于梯度迭代树的疾病预测模型建立方法及装置
CN111539451A (zh) 样本数据优化方法、装置、设备及存储介质
CN107545133A (zh) 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法
CN113128567A (zh) 一种基于用电量数据的异常用电行为识别方法
CN107480426A (zh) 自迭代病历档案聚类分析***
WO2014157750A1 (ko) 하수처리장 유출수질의 상태에 대한 원인인자 제공장치 및 방법
CN106960218B (zh) 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类***
CN114242178A (zh) 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法
CN116432088B (zh) 一种复合光学薄膜层厚智能监测方法及***
CN116504314B (zh) 基于细胞动态分化的基因调控网络构建方法
CN110807174B (zh) 一种基于统计分布的污水厂厂群出水分析及异常识别方法
Subrahmaniam et al. Robustness of the linear discriminant function to nonnormality: Edgeworth series distribution
CN113096810A (zh) 一种基于卷积神经网络的食管鳞癌患者生存风险预测方法
CN112949697A (zh) 一种管道异常的确认方法、装置及计算机可读存储介质
CN110706004B (zh) 一种基于层次聚类的农田重金属污染物溯源方法
CN108536794A (zh) 符合泊松分布的有序多分类变量的数据规格化方法
CN109887253B (zh) 石油化工装置报警的关联分析方法
CN116127398B (zh) 一种基于机理模型与多源数据融合的液压泵故障诊断方法
CN108763864A (zh) 一种评价生物通路样本状态的方法
CN113092083A (zh) 一种基于分形维数和神经网络的机泵故障诊断方法和装置
CN116933166A (zh) 一种面向脑卒中非平衡数据集的分类方法及***
CN109635112A (zh) 异常透析数据筛选方法、装置、设备及存储介质
CN113705920B (zh) 火电厂用水数据样本集的生成方法和终端设备
CN113782121B (zh) 随机分组方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180914

RJ01 Rejection of invention patent application after publication