CN110580494A

CN110580494A - 一种基于分位数逻辑回归的数据分析方法

Info

Publication number: CN110580494A
Application number: CN201910502413.2A
Authority: CN
Inventors: 张舵
Original assignee: Shenzhen Suoxinda Data Technology Co Ltd
Current assignee: Shenzhen Suoxinda Data Technology Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-12-17

Abstract

一种基于分位数逻辑回归的数据分析方法，涉及一种基于分位数逻辑回归的数据分析方法。传统的逻辑回归模型在做分类器时，所能给出的信息十分有限，模型的预测准确度很差。步骤：第一步，数据清洗与预处理；第二步，进行分位数逻辑回归建模；第三步，对分位数逻辑回归模型进行求参数，求得参数使加权误差绝对值之和最小；第四步，计算无约束分位数回归目标函数和约束分位数回归目标函数。方便研究人员更细致的研究不同群体，通过数据得到更多的信息。同时，分位数回归模型对异常值不敏感，少量异常值并不影响模型预测效果，大大提高了模型的鲁棒性。

Description

一种基于分位数逻辑回归的数据分析方法

技术领域

本发明涉及数据分析领域，具体涉及一种基于分位数逻辑回归的数据分析方法。

背景技术

逻辑回归常用于数据分析中的二分类问题。对于响应变量y＝1或0(对应YES orNO)和k个解释变量x之间的关系，采用如下模型：或logit(π)＝β₀+β₁x₁+L+β_kx_k，

其中π(x)＝P(y＝1|X＝x)是y＝1(YES)的概率。例如在***欺诈案例中，对于判断客户欺诈行为(y＝1为是，y＝0为否)与其特征变量X(收入、职业、申请地址等等)的关系进行逻辑回归建模，则在进行预测时，模型输出 π(x)＝P(y＝1|X＝x)为某客户存在欺诈的概率，若我们设定0.5为界限，则 P>0.5为存在欺诈行为，P<0.5为不存在欺诈行为。逻辑回归模型在数据分析领域被广泛的作为分类器使用。

传统的逻辑回归模型在做分类器时，描述的是解释变量随因变量平均值的变化。在进行预测时也是对“平均状态”进行预测，所能给出的信息十分有限。当关注点为数据高位数或低位数的表现时往往不能给出精准预测，例如当解释变量x 为家庭年收入时，25％分位数则表示低收入群体，95％分位数则表示收入高于95％其他人的高收入群体。而逻辑回归模型作为一种均值模型，不能提供不同分位数d准确预测。同时，均值模型对于数据要求较高，需要进行异常值的检测与处理，否则模型的预测准确度很差。

发明内容

为了解决上述问题，本发明针对有技术中存在的不足，提供一种基于分位数逻辑回归的数据分析方法。

为解决本发明所提出技术问题采用的技术方案如下：

一种基于分位数逻辑回归的数据分析方法，其特征在于：具体包括以下步骤：第一步，数据清洗与预处理；对原始数据进行一致性检查，标准化数据格式，清除重复数据、异常数据和无效数据，纠正错误数据，填补缺失值，并将类别变量转化为数值型变量；

第二步，根据输入、输出关系对响应变量和解释变量进行分位数逻辑回归建模；

第三步，对分位数逻辑回归模型进行求参数，求得参数使加权误差绝对值之和最小，其中正项误差项的权重即为分位数，负项误差项的权重为1减去分位数；所求得的参数为在此分位数的回归模型参数；

第四步，计算无约束分位数回归目标函数和约束分位数回归目标函数，1减去其比值即为模型拟合优度；拟合优度越接近1说明模型拟合度越好；若模型拟合度不好，可以考虑更换除逻辑回归以外的其他线性/非线性模型。

作为对本发明作进一步限定的技术方案包括有：

所述逻辑回归模型的参数估计方法为使加权误差绝对值之和最小。

具体方法为：

(1)数据清洗与预处理后的数据结构为：响应变量y为二分类变量，取值 1或0，表示两个不同的种类；解释变量有k个，为x₁,…,x_k，均为数值型变量；

(2)对响应变量和解释变量进行分位数逻辑回归建模的方法为：首先根据输入、输出关系建立如下逻辑回归模型：

其中x^T＝(1,x₁,K,x_k)^T为解释变量向量，β^T＝(β₀,β₁,K,β_k)^T为参数向量； π(x)＝P(y＝1|X＝x)为在数据支持下y＝1的概率；针对不同的分位数τ∈(0,1)，其分位数逻辑回归模型为：

π_τ(x)为在分位数τ时y＝1的概率；为逻辑回归模型在分位数τ时的参数；

(3)对不同分位数水平进行拟合求参；对分位数逻辑回归模型(1)进行求参数，

其方法是求得使加权误差绝对值之和最小，即：

其中损失函数ρ_τ(u)＝u(τ-I(u<0)),I(u<0)为指示性函数，当u<0时为1，否则为0；

针对预先设定的分位数τ，求解(2)式我们可以求得相应的参数β_τ，代入(1) 式即得到分位数逻辑回归模型：

(4)对模型进行拟合优度检验方法：

首先计算无约束分位数回归目标函数：

约束分位数回归目标函数：

拟合优度表达如下：

若解释变量作用较弱，则两个目标函数越接近，其比值越接近1，所以R_τ越接近于0，说明拟合优度较差；反之，如果解释变量作用强，则 R_τ越接近1，说明拟合度较好。

本发明采用上述技术方案，具有以下有益效果：该方法在做数据分析中的分类器时，可以建立针对变量不同分位数的逻辑回归模型，方便研究人员更细致的研究不同群体，通过数据得到更多的信息。同时，分位数回归模型对异常值不敏感，少量异常值并不影响模型预测效果，大大提高了模型的鲁棒性。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和优选的具体实施例对本发明技术方案进行详细说明。

如图1所示，本发明的一种基于分位数逻辑回归的数据分析方法，具体包括以

下步骤：

一种基于分位数逻辑回归的数据分析方法，其特征在于：具体包括以下步骤：

第一步，数据清洗与预处理；对原始数据进行一致性检查，标准化数据格式，清除重复数据、异常数据和无效数据，纠正错误数据，根据情况填补缺失值，并将类别变量转化为数值型变量。

例如：数据清洗与预处理后的数据结构为：响应变量y为二分类变量，取值 1或0，表示两个不同的种类；解释变量有k个，为x₁,…,x_k，均为数值型变量；

第二步，根据输入、输出关系对响应变量和解释变量进行分位数逻辑回归建模；所述逻辑回归模型的参数估计方法为使加权误差绝对值之和最小。

对响应变量和解释变量进行分位数逻辑回归建模的具体方法为：首先根据输入、输出关系建立如下逻辑回归模型：

π_τ(x)为在分位数τ时y＝1的概率；为逻辑回归模型在分位数τ时的参数。

对不同分位数水平进行拟合求；对分位数逻辑回归模型(1)进行求参数，其方法是求得使加权误差绝对值之和最小，即：

选取τ＝0.1、0.25、0.5、0.75、0.9五个分位数，求解(2)式我们可以求得相应的参数β_τ，代入(1)式即可得到五个不同的分位数逻辑回归模型：

对模型进行拟合优度检验具体方法：

首先计算无约束分位数回归目标函数：

约束分位数回归目标函数：

拟合优度表达如下：

若解释变量作用较弱，则两个目标函数越接近，其比值越接近1，所以R_τ越接近于0，说明拟合优度较差。反之，如果解释变量作用强，则 R_τ越接近1，说明拟合度较好。保留R_τ值接近1的模型，R_τ值接近0的模型说明拟合度不好，在此分位数的数据未能提供足够的信息，可尝试使用逻辑回归之外的其他非线性/线性模型。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于分位数逻辑回归的数据分析方法，其特征在于：具体包括以下步骤：

第一步，数据清洗与预处理；对原始数据进行一致性检查，标准化数据格式，清除重复数据、异常数据和无效数据，纠正错误数据，填补缺失值，并将类别变量转化为数值型变量；

2.根据权利要求1一种基于分位数逻辑回归的数据分析方法，其特征在于：所述逻辑回归模型的参数估计方法为使加权误差绝对值之和最小。

3.根据权利要求1一种基于分位数逻辑回归的数据分析方法，其特征在于：

(1)数据清洗与预处理后的数据结构为：响应变量y为二分类变量，取值1或0，表示两个不同的种类；解释变量有k个，为x₁,…,x_k，均为数值型变量；

其中x^T＝(1,x₁,...,x_k)^T为解释变量向量，β^T＝(β₀,β₁,...,β_k)^T为参数向量；

π(x)＝P(y＝1|X＝x)为在数据支持下y＝1的概率；针对不同的分位数τ∈(0,1)，

其分位数逻辑回归模型为：

(3)对不同分位数水平进行拟合求参；对分位数逻辑回归模型(1)进行求参数，其方法是求得使加权误差绝对值之和最小，即：

针对预先设定的分位数τ，求解(2)式我们可以求得相应的参数β_τ，代入(1)式即得到分位数逻辑回归模型：

(4)对模型进行拟合优度检验方法：

首先计算无约束分位数回归目标函数：

约束分位数回归目标函数：

拟合优度表达如下：