CN110580494A - 一种基于分位数逻辑回归的数据分析方法 - Google Patents

一种基于分位数逻辑回归的数据分析方法 Download PDF

Info

Publication number
CN110580494A
CN110580494A CN201910502413.2A CN201910502413A CN110580494A CN 110580494 A CN110580494 A CN 110580494A CN 201910502413 A CN201910502413 A CN 201910502413A CN 110580494 A CN110580494 A CN 110580494A
Authority
CN
China
Prior art keywords
quantile
logistic regression
model
data
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910502413.2A
Other languages
English (en)
Inventor
张舵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Suoxinda Data Technology Co Ltd
Original Assignee
Shenzhen Suoxinda Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Suoxinda Data Technology Co Ltd filed Critical Shenzhen Suoxinda Data Technology Co Ltd
Priority to CN201910502413.2A priority Critical patent/CN110580494A/zh
Publication of CN110580494A publication Critical patent/CN110580494A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于分位数逻辑回归的数据分析方法,涉及一种基于分位数逻辑回归的数据分析方法。传统的逻辑回归模型在做分类器时,所能给出的信息十分有限,模型的预测准确度很差。步骤:第一步,数据清洗与预处理;第二步,进行分位数逻辑回归建模;第三步,对分位数逻辑回归模型进行求参数,求得参数使加权误差绝对值之和最小;第四步,计算无约束分位数回归目标函数和约束分位数回归目标函数。方便研究人员更细致的研究不同群体,通过数据得到更多的信息。同时,分位数回归模型对异常值不敏感,少量异常值并不影响模型预测效果,大大提高了模型的鲁棒性。

Description

一种基于分位数逻辑回归的数据分析方法
技术领域
本发明涉及数据分析领域,具体涉及一种基于分位数逻辑回归的数据分析方 法。
背景技术
逻辑回归常用于数据分析中的二分类问题。对于响应变量y=1或0(对应YES orNO)和k个解释变量x之间的关系,采用如下模型: 或logit(π)=β01x1+L+βkxk
其中π(x)=P(y=1|X=x)是y=1(YES)的概率。例如在***欺诈案例中,对 于判断客户欺诈行为(y=1为是,y=0为否)与其特征变量X(收入、职业、申 请地址等等)的关系进行逻辑回归建模,则在进行预测时,模型输出 π(x)=P(y=1|X=x)为某客户存在欺诈的概率,若我们设定0.5为界限,则 P>0.5为存在欺诈行为,P<0.5为不存在欺诈行为。逻辑回归模型在数据分析领域 被广泛的作为分类器使用。
传统的逻辑回归模型在做分类器时,描述的是解释变量随因变量平均值的变 化。在进行预测时也是对“平均状态”进行预测,所能给出的信息十分有限。当关 注点为数据高位数或低位数的表现时往往不能给出精准预测,例如当解释变量x 为家庭年收入时,25%分位数则表示低收入群体,95%分位数则表示收入高于95% 其他人的高收入群体。而逻辑回归模型作为一种均值模型,不能提供不同分位数d准确预测。同时,均值模型对于数据要求较高,需要进行异常值的检测与处理, 否则模型的预测准确度很差。
发明内容
为了解决上述问题,本发明针对有技术中存在的不足,提供一种基于分位数 逻辑回归的数据分析方法。
为解决本发明所提出技术问题采用的技术方案如下:
一种基于分位数逻辑回归的数据分析方法,其特征在于:具体包括以下步骤: 第一步,数据清洗与预处理;对原始数据进行一致性检查,标准化数据格式,清 除重复数据、异常数据和无效数据,纠正错误数据,填补缺失值,并将类别变量 转化为数值型变量;
第二步,根据输入、输出关系对响应变量和解释变量进行分位数逻辑回归建模;
第三步,对分位数逻辑回归模型进行求参数,求得参数使加权误差绝对值之和最小,其中正项误差项的权重即为分位数,负项误差项的权重为1减去分位数;所 求得的参数为在此分位数的回归模型参数;
第四步,计算无约束分位数回归目标函数和约束分位数回归目标函数,1减去其比值即为模型拟合优度;拟合优度越接近1说明模型拟合度越好;若模型拟合度 不好,可以考虑更换除逻辑回归以外的其他线性/非线性模型。
作为对本发明作进一步限定的技术方案包括有:
所述逻辑回归模型的参数估计方法为使加权误差绝对值之和最小。
具体方法为:
(1)数据清洗与预处理后的数据结构为:响应变量y为二分类变量,取值 1或0,表示两个不同的种类;解释变量有k个,为x1,…,xk,均为数值型变量;
(2)对响应变量和解释变量进行分位数逻辑回归建模的方法为:首先根据 输入、输出关系建立如下逻辑回归模型:
其中xT=(1,x1,K,xk)T为解释变量向量,βT=(β01,K,βk)T为参数向量; π(x)=P(y=1|X=x)为在数据支持下y=1的概率;针对不同的分位数τ∈(0,1), 其分位数逻辑回归模型为:
πτ(x)为在分位数τ时y=1的概率;为逻辑回归模型在分位数τ时 的参数;
(3)对不同分位数水平进行拟合求参;对分位数逻辑回归模型(1)进行求参数,
其方法是求得使加权误差绝对值之和最小,即:
其中损失函数ρτ(u)=u(τ-I(u<0)),I(u<0)为指示性函数,当u<0时为1,否 则为0;
针对预先设定的分位数τ,求解(2)式我们可以求得相应的参数βτ,代入(1) 式即得到分位数逻辑回归模型:
(4)对模型进行拟合优度检验方法:
首先计算无约束分位数回归目标函数:
约束分位数回归目标函数:
拟合优度表达如下:
若解释变量作用较弱,则两个目标函数越接近,其比值越接近1, 所以Rτ越接近于0,说明拟合优度较差;反之,如果解释变量作用强,则 Rτ越接近1,说明拟合度较好。
本发明采用上述技术方案,具有以下有益效果:该方法在做数据分析中的分 类器时,可以建立针对变量不同分位数的逻辑回归模型,方便研究人员更细致 的研究不同群体,通过数据得到更多的信息。同时,分位数回归模型对异常值不 敏感,少量异常值并不影响模型预测效果,大大提高了模型的鲁棒性。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和优选的具体实施例对本发明技术方案进行详细说明。
如图1所示,本发明的一种基于分位数逻辑回归的数据分析方法,具体包括 以
下步骤:
一种基于分位数逻辑回归的数据分析方法,其特征在于:具体包括以下步骤:
第一步,数据清洗与预处理;对原始数据进行一致性检查,标准化数据格式, 清除重复数据、异常数据和无效数据,纠正错误数据,根据情况填补缺失值,并 将类别变量转化为数值型变量。
例如:数据清洗与预处理后的数据结构为:响应变量y为二分类变量,取值 1或0,表示两个不同的种类;解释变量有k个,为x1,…,xk,均为数值型变量;
第二步,根据输入、输出关系对响应变量和解释变量进行分位数逻辑回归建 模;所述逻辑回归模型的参数估计方法为使加权误差绝对值之和最小。
对响应变量和解释变量进行分位数逻辑回归建模的具体方法为:首先根据输 入、输出关系建立如下逻辑回归模型:
其中xT=(1,x1,K,xk)T为解释变量向量,βT=(β01,K,βk)T为参数向量; π(x)=P(y=1|X=x)为在数据支持下y=1的概率;针对不同的分位数τ∈(0,1), 其分位数逻辑回归模型为:
πτ(x)为在分位数τ时y=1的概率;为逻辑回归模型在分 位数τ时的参数。
第三步,对分位数逻辑回归模型进行求参数,求得参数使加权误差绝对值之 和最小,其中正项误差项的权重即为分位数,负项误差项的权重为1减去分位数; 所求得的参数为在此分位数的回归模型参数;
对不同分位数水平进行拟合求;对分位数逻辑回归模型(1)进行求参数, 其方法是求得使加权误差绝对值之和最小,即:
其中损失函数ρτ(u)=u(τ-I(u<0)),I(u<0)为指示性函数,当u<0时为1,否 则为0;
选取τ=0.1、0.25、0.5、0.75、0.9五个分位数,求解(2)式我们可以求得相应 的参数βτ,代入(1)式即可得到五个不同的分位数逻辑回归模型:
第四步,计算无约束分位数回归目标函数和约束分位数回归目标函数,1减 去其比值即为模型拟合优度;拟合优度越接近1说明模型拟合度越好;若模型拟 合度不好,可以考虑更换除逻辑回归以外的其他线性/非线性模型。
对模型进行拟合优度检验具体方法:
首先计算无约束分位数回归目标函数:
约束分位数回归目标函数:
拟合优度表达如下:
若解释变量作用较弱,则两个目标函数越接近,其比值越接近1, 所以Rτ越接近于0,说明拟合优度较差。反之,如果解释变量作用强,则 Rτ越接近1,说明拟合度较好。保留Rτ值接近1的模型,Rτ值接 近0的模型说明拟合度不好,在此分位数的数据未能提供足够的信息,可尝试使 用逻辑回归之外的其他非线性/线性模型。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人 员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是 说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变 化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范 围由所附的权利要求书及其等效物界定。

Claims (3)

1.一种基于分位数逻辑回归的数据分析方法,其特征在于:具体包括以下步骤:
第一步,数据清洗与预处理;对原始数据进行一致性检查,标准化数据格式,清除重复数据、异常数据和无效数据,纠正错误数据,填补缺失值,并将类别变量转化为数值型变量;
第二步,根据输入、输出关系对响应变量和解释变量进行分位数逻辑回归建模;
第三步,对分位数逻辑回归模型进行求参数,求得参数使加权误差绝对值之和最小,其中正项误差项的权重即为分位数,负项误差项的权重为1减去分位数;所求得的参数为在此分位数的回归模型参数;
第四步,计算无约束分位数回归目标函数和约束分位数回归目标函数,1减去其比值即为模型拟合优度;拟合优度越接近1说明模型拟合度越好;若模型拟合度不好,可以考虑更换除逻辑回归以外的其他线性/非线性模型。
2.根据权利要求1一种基于分位数逻辑回归的数据分析方法,其特征在于:所述逻辑回归模型的参数估计方法为使加权误差绝对值之和最小。
3.根据权利要求1一种基于分位数逻辑回归的数据分析方法,其特征在于:
(1)数据清洗与预处理后的数据结构为:响应变量y为二分类变量,取值1或0,表示两个不同的种类;解释变量有k个,为x1,…,xk,均为数值型变量;
(2)对响应变量和解释变量进行分位数逻辑回归建模的方法为:首先根据输入、输出关系建立如下逻辑回归模型:
其中xT=(1,x1,...,xk)T为解释变量向量,βT=(β01,...,βk)T为参数向量;
π(x)=P(y=1|X=x)为在数据支持下y=1的概率;针对不同的分位数τ∈(0,1),
其分位数逻辑回归模型为:
πτ(x)为在分位数τ时y=1的概率;为逻辑回归模型在分位数τ时的参数;
(3)对不同分位数水平进行拟合求参;对分位数逻辑回归模型(1)进行求参数,其方法是求得使加权误差绝对值之和最小,即:
其中损失函数ρτ(u)=u(τ-I(u<0)),I(u<0)为指示性函数,当u<0时为1,否则为0;
针对预先设定的分位数τ,求解(2)式我们可以求得相应的参数βτ,代入(1)式即得到分位数逻辑回归模型:
(4)对模型进行拟合优度检验方法:
首先计算无约束分位数回归目标函数:
约束分位数回归目标函数:
拟合优度表达如下:
若解释变量作用较弱,则两个目标函数越接近,其比值越接近1,所以Rτ越接近于0,说明拟合优度较差;反之,如果解释变量作用强,则 Rτ越接近1,说明拟合度较好。
CN201910502413.2A 2019-06-11 2019-06-11 一种基于分位数逻辑回归的数据分析方法 Pending CN110580494A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910502413.2A CN110580494A (zh) 2019-06-11 2019-06-11 一种基于分位数逻辑回归的数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910502413.2A CN110580494A (zh) 2019-06-11 2019-06-11 一种基于分位数逻辑回归的数据分析方法

Publications (1)

Publication Number Publication Date
CN110580494A true CN110580494A (zh) 2019-12-17

Family

ID=68811017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910502413.2A Pending CN110580494A (zh) 2019-06-11 2019-06-11 一种基于分位数逻辑回归的数据分析方法

Country Status (1)

Country Link
CN (1) CN110580494A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695819A (zh) * 2020-06-16 2020-09-22 中国联合网络通信集团有限公司 一种坐席人员排班方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695819A (zh) * 2020-06-16 2020-09-22 中国联合网络通信集团有限公司 一种坐席人员排班方法和装置
CN111695819B (zh) * 2020-06-16 2023-06-02 中国联合网络通信集团有限公司 一种坐席人员排班方法和装置

Similar Documents

Publication Publication Date Title
CN109615226B (zh) 一种运营指标异常监测方法
Cont et al. Recovering volatility from option prices by evolutionary optimization
CN110852856B (zh) 一种基于动态网络表征的***虚开识别方法
CN107679734A (zh) 一种用于无标签数据分类预测的方法和***
CN112508105A (zh) 一种采油机故障检测与检索方法
WO2003096237A2 (en) Electronic data processing system and method of using an electronic data processing system for automatically determining a risk indicator value
CN113570396A (zh) 时间序列数据异常检测方法、装置、设备及存储介质
Dette et al. Relevant change points in high dimensional time series
CN116596582A (zh) 一种基于大数据的销售信息预测方法及装置
CN110782349A (zh) 一种模型训练方法和***
CN111415192A (zh) 基于大数据的用户用水性质预测方法
CN113723861A (zh) 异常用电行为检测方法、装置、计算机设备和存储介质
Liu et al. Stock price trend prediction model based on deep residual network and stock price graph
CN114519519A (zh) 基于gbdt算法与逻辑回归模型的企业违约风险评估方法设备及介质
CN114358157A (zh) 一种基于时序数据LSTM特征的K-Shape聚类方法
CN110580494A (zh) 一种基于分位数逻辑回归的数据分析方法
CN112766537A (zh) 一种短期电负荷预测方法
CN108920428B (zh) 一种基于联合模糊扩张原理的模糊距离判别方法
WO2022249927A1 (ja) 分類システム
CN116384223A (zh) 基于退化状态智能辨识的核设备可靠性评估方法及***
CN115601183A (zh) 一种理赔数据处理分析方法及***
CN111428510B (zh) 一种基于口碑的p2p平台风险分析方法
CN109840479B (zh) 健康状态匹配方法及装置
CN113139673A (zh) 一种预测空气质量的方法、装置、终端及存储介质
CN111882441A (zh) 一种基于理财产品推荐场景的用户预测解释Treeshap方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191217