CN111654853A - 一种基于用户信息的数据分析方法 - Google Patents

一种基于用户信息的数据分析方法 Download PDF

Info

Publication number
CN111654853A
CN111654853A CN202010769479.0A CN202010769479A CN111654853A CN 111654853 A CN111654853 A CN 111654853A CN 202010769479 A CN202010769479 A CN 202010769479A CN 111654853 A CN111654853 A CN 111654853A
Authority
CN
China
Prior art keywords
variables
variable
value
model
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010769479.0A
Other languages
English (en)
Other versions
CN111654853B (zh
Inventor
邵俊
蔺静茹
张磊
曹新建
支磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Suoxinda Data Technology Co ltd
Soxinda Beijing Data Technology Co ltd
Original Assignee
Shenzhen Suoxinda Data Technology Co ltd
Soxinda Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Suoxinda Data Technology Co ltd, Soxinda Beijing Data Technology Co ltd filed Critical Shenzhen Suoxinda Data Technology Co ltd
Priority to CN202010769479.0A priority Critical patent/CN111654853B/zh
Publication of CN111654853A publication Critical patent/CN111654853A/zh
Application granted granted Critical
Publication of CN111654853B publication Critical patent/CN111654853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/18Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
    • H04W8/183Processing at user equipment or user record carrier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/56Allocation or scheduling criteria for wireless resources based on priority criteria
    • H04W72/566Allocation or scheduling criteria for wireless resources based on priority criteria of the information or information source or recipient

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于用户信息的数据分析方法及***。所述方法包括以下步骤:接收用户信息;将所述用户信息转换汇总为用户大数据集合;将所述用户大数据集合随机划分为两个集合,所述两个集合包括第一集合和第二集合;对所述第一集合进行分箱相关处理,得到第三集合;基于所述第三集合采用因子分析法构建第一模型;基于所述第二集合对所述第一模型进行验证。与现有技术相比,本发明通过使用因子分析法在尽可能保留精度的情况下消除共线性,避免了为了消除共线性而简单地保留某个在簇类最有代表性的变量(例如与主成分相关性最大)而丢失了重要变量和精度,从而提高了数据分析的准确性。

Description

一种基于用户信息的数据分析方法
技术领域
本发明属于大数据分析与数据挖掘领域,尤其涉及一种基于用户信息的数据分析方法及***。
背景技术
随着移动通信技术的发展,移动通信业务种类越来越多,对通讯资源的需求也迅速增长,然而当前可用的无线通讯资源有限,在多用户多业务的条件下如何合理调配资源,提高无线资源的利用效率,是目前移动通信领域研究的热点和难点,而在无线资源调度过程中的一个关键问题就是确定用户优先级。
用户优先级别的确定是一个多目标求解的问题,需要同时综合考虑用户使用资源的公平性、无线资源使用效率、***吞吐量、服务质量等多个目标的约束。目前对用户优先级的判别方法,或只考虑技术上的需求,或只考虑业务上的需求,没有全面考虑用户自身的影响因素,导致用户在资源的使用分配上的确定具有片面性。回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照自变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。
在中国专利ZL201510881058.6中提出了一种消除复杂***中回归数据共线性问题的优化分析方法,其实质是一种基于主成分分析不断筛选变量的方法。该方法的主要步骤是在每次计算出主成分后挑选出与其相关性最大的变量,同时剔除出其他与其高度相关的变量,并计算下一个主成分。虽然其对变量进行了选择,但是上述方法还可能存在两个弊端:挑选出的变量对模型的贡献度可能并不高;在剔除变量的过程中对于高度相关的判断存在很强的主观性,容易丢失重要变量。由于挑选的变量不典型,同时又丢失了重要变量,最终会造成***的数据分析不精确,导致***的可信度变低。因此,对于获得的海量数据信息,如何进行快速高效地分类整理建模,提取满足预设条件的有价值的或者所关心的数据信息,是大数据分析与数据挖掘领域面临的技术问题。
发明内容
针对上述现有技术中存在的缺陷,本发明的目的在于提供一种能够有效提高基于用户信息的挖掘精度的方法及***。
为了达到上述目的,本发明提供一种基于用户信息的数据分析方法,包括以下步骤:
接收用户信息;
将所述用户信息转换汇总为用户大数据集合;
将所述用户大数据集合随机划分为两个集合,所述两个集合包括第一集合和第二集合,所述第一集合存储到第一数据库中,所述第二集合存储到第二数据库中;
对所述第一数据库中的所述第一集合进行分箱相关处理,得到第三集合,将所述第三集合存储到第三数据库中;
提取所述第三数据库中的第三集合,并基于所述第三集合采用因子分析法构建第一模型;
提取所述第二数据库中的第二集合,基于所述第二集合对所述第一模型进行验证;
其中,所述基于所述第三集合采用因子分析法构建所述第一模型,具体包括:
使用因子分析法进行变量聚类;
对每个类中的变量进行第一次变量筛选使得剩余变量数不大于第一阈值;
对第一次筛选后剩下的变量采用多次向后剔除法迭代进行第二次变量筛选,直至满足预设条件。
其中,将所述用户大数据集合随机划分为两个集合,具体包括:
将用户所有信息组合成宽表;
将所述宽表随机按照一定比例划分成两个集合。
其中,所述第一集合为训练集,其用于建模和模型参数估计,所述第二集合为测试集,其用于模型评估。
其中,所述第一模型为逻辑回归模型。
其中,所述对所述第一数据库中的所述第一集合进行分箱相关处理,得到第三集合具体包括:
对所述第一集合数据,进行分箱;
对每箱进行WOE变换,获取WOE值,得到第三集合。
其中,所述因子分析法具体包括:
假设有N个候选变量的特征向量,计算出其协方差矩阵,其协方差矩阵是一个N*N的矩阵M,其中M_ij的值为矩阵M的第i行的X_i与第j列的X_j的协方差;
计算协方差矩阵M的N个特征根和特征向量;
N个特征根按照从大到小排序分别记做λ_1,λ_2,…,λ_N,与使用上述方式排序后的特征根对应的N个标准化特征向量依次记做v_1,v_2,…,v_N。
其中,所述用户大数据集合是响应于用户请求,由服务方经过用户授权后获得。
其中,基于上述因子分析法获取第一阈值,所述第一阈值为
Figure 167457DEST_PATH_IMAGE001
,其表示前k个最大的特征值的和大于0.75。
其中,所述对每个类中的变量进行第一次变量筛选使得剩余变量数不大于第一阈值,具体包括:
变量聚类后的类的数量为k,而第一阈值为2k;
对所述k个类中的每个类选取出两个变量,一个是变量IV值最高的,另一个是变量R2值最大的;IV值高意味着该变量对于模型结果的贡献较高,R2值高意味着该变量在簇内最具有代表性。
其中,所述对第一次筛选后剩下的变量采用多次向后剔除法迭代进行第二次变量筛选,直至满足预设条件具体包括:
如果存在候选变量的VIF值大于4,则将p值最高的变量剔除出去;
剔除p值大于指定值的变量;
重复以上步骤,直至所有变量的p值均小于指定值,且所有变量的VIF均小于4。
与现有技术相比,通过本发明的数据分析***将用户信息进行数字化处理,转换为***特定格式的数据信息,使用建模模块通过因子分析法在尽可能保留精度的情况下消除共线性,避免了为了消除共线性而简单地保留某个在簇类最有代表性的变量(例如与主成分相关性最大)而丢失了重要变量和精度,从而提高了数据分析的准确性。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种基于用户信息的数据分析方法流程图;
图2是示出根据本发明实施例的构建第一模型的流程图;
图3是示出根据本发明某一实施例的提高数据分析准确性的方法流程图;
图4是示出根据本发明某一实施例的载荷矩阵的估计方法流程图;
图5是示出根据本发明某一实施例的进行逻辑回归建模的流程图;
图6是示出根据本发明某一实施例的载荷矩阵示意图;
图7是示出根据本发明实施例的一种基于用户信息的提高数据分析准确性的***结构框图;以及
图8是示出根据本发明实施例的一种电子设备的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
以通信行业为例。本发明的实施例所述的方法首先从技术和业务两方面选择可能影响用户业务授权优先级的用户信息,确定后续工作的对象;然后对所述指标数据进行数据预处理,为后续工作提供完整、可靠的数据资源;最后利用因子分析法对用户进行筛选,目的在于以海量移动通信领域数据为基础,以数据挖掘技术为手段,充分发挥海量数据的优势,综合考虑多方面的影响因素,合理确定享用业务的用户优先级,以实现提高无线资源的使用效率和***吞吐量的目的。其中,所述影响用户业务授权优先级的用户信息包括:信道质量指示、用户最大传输速率、用户历史平均传输速率、用户丢包率、用户时延、用户要求的传输速率、服务质量参数标识、***可分配资源总量、***历史平均吞吐量、用户计费总额、用户当前业务类型、用户当前时刻所需的资源量和/或当前业务完成进度、用户基本信息(例如,年龄、职业、收入等)。本发明不限于通信领域,还可以应用到医疗卫生、金融等各行各业中。
实施例一
如图1所示,本发明公开了一种基于用户信息的数据分析方法,包括以下步骤:
接收用户信息;
将所述用户信息转换汇总为用户大数据集合;
将所述用户大数据集合随机划分为两个集合,所述两个集合包括第一集合和第二集合,所述第一集合存储到第一数据库中,所述第二集合存储到第二数据库中;
对所述第一数据库中的所述第一集合进行分箱相关处理,得到第三集合,将所述第三集合存储到第三数据库中;
提取所述第三数据库中的第三集合,并基于所述第三集合采用因子分析法构建第一模型;
提取所述第二数据库中的第二集合,基于所述第二集合对所述第一模型进行验证;
参见图2所示,其中,所述基于所述第三集合采用因子分析法构建所述第一模型,具体包括:
使用因子分析法进行变量聚类;
对每个类中的变量进行第一次变量筛选使得剩余变量数不大于第一阈值;
对第一次筛选后剩下的变量采用多次向后剔除法迭代进行第二次变量筛选,直至满足预设条件。
实施例二
在实施例一的基础上,本实施例还包括以下内容:
通过计算机或网络收集用户的个人信息,并根据这些收集的个人信息建立评估模型,以量化用户是否为该项增值业务的***,是否存在风险。
通常会使用逻辑回归模型来进行度量。逻辑回归是一种有监督的二分类模型,它通过将收集到的关于用户的一系列特征信息(如学历水平等)在分箱之后经过WOE(Weightof Evidence,证据权重)变换(变换公式如式1)之后的值进行线性加和,并对加和的值采用Sigmoid变换得到一个0到1之间的数值(Sigmoid变换是这样一个映射f(x)=1/(1+exp(-x))),而这个数值则可以用于表征预测用户是否可信的概率,并据此概率值来决定是否授权相应的操作。
更具体地,参见图3所示,从收到用户申请某项业务到预测用户是否可靠的概率并决定是否授权该项业务的这个过程可以写为:
步骤1、在用户授权后,接收与用户相关的数百个特征;将所有特征汇总为用户大数据集合;
步骤2、将之前累积的用户特征及相应的标签(是否越权,越权标签即二分类结果记做因变量Y,Y=1表示用户越权,Y=0表示用户不越权)组合成宽表,并将宽表随机按照7:3划分训练集和测试集。其中训练集数据用于建模和模型参数估计,测试集用于模型评估。
步骤3、在训练集数据中,将用户特征变量区分数值型变量与文本型变量进行分箱,并对每箱进行WOE变换,转化为WOE值。分箱的意义在于:
1)将不可计算的文本变量的取值转换成可以计算的数值,
2)增加模型的稳定性,防止因数值的微小扰动而导致模型结果较大的变化。
设变量X分箱后共有x,y,z三箱,x箱的WOE值计算公式如下:
WOE(X=x)=ln((#{Y=1,X=x}/#{Y=1})/(#{Y=0,X=x}/#{Y=0}))…(1)
其中#(A)表示满足条件A的样本数目,#(A,B)表示同时满足条件A与B的样本数目,ln()为自然对数函数。
步骤4、对WOE转换后的训练集进行逻辑回归建模,并进行模型评估。
在这个步骤中,由于每个变量对模型的贡献度不同,且许多变量之间可能存在较强的相关性。这些相关性较强的变量同时入模会导致无法完成对模型参数的评估,对这种现象称之为模型的共线性问题。下文中将会重点分解步骤4。
实施例三
在实施例二的基础上,本实施例还包括以下内容:
逻辑回归模型的变量在进入最终的回归环节后,一般会通过两个指标来评判模型的有效性:p值(p-value,假定值)和VIF(variance inflation factor,方差膨胀系数)值。其中p值反映了单个变量的显著程度,p值越大则意味着变量的显著程度越低,如果p值>0.05,则认为该变量没有显著性,应当从模型中去除;VIF值反映了变量的共线性程度,VIF值越高则共线性越大,一般如果VIF值>4,则认为模型中存在共线性,变量需要做出调整。
其中,VIF表示模型的共线性系数,其公式为
VIF=1/(1-R2),其中R为自变量对其余自变量作回归分析的复相关系数。
p值是逻辑回归使用z统计量来表征的显著程度,即,
p= Pr(|s|>|z|),其中s服从标准正态分布,Pr是求解概率的运算,其即求取|s|>|z|的概率。
如果p值大于0.05,则认为该变量不具有显著性,应当从模型中剔除。
为了便于理解上述的共线性系数、复相关系数和显著程度,下面对其分别进行详细描述。
其中,共线性系数本发明使用了VIF,变量
Figure 337407DEST_PATH_IMAGE002
的VIF值与其复相关系数的关系为:
Figure 794934DEST_PATH_IMAGE003
,其中的复相关系数是
Figure 671623DEST_PATH_IMAGE004
的平方根。复相关系数越大,则
Figure 559332DEST_PATH_IMAGE004
越大,所 以变量共线性系数就越大,即
Figure 623103DEST_PATH_IMAGE002
存在与其他变量较强的相关性,会导致在模型训练时无法 得到稳定的参数估计。
上述的
Figure 884320DEST_PATH_IMAGE002
对其他变量的复相关系数具体的含义为:在所有自变量中,以
Figure 412253DEST_PATH_IMAGE002
作为因 变量,以其他所有
Figure 467934DEST_PATH_IMAGE005
作为自变量建立线性回归模型的可决系数
Figure 284580DEST_PATH_IMAGE006
的平方根。在一个 线性回归模型中,将y记做因变量,X记做自变量,则
Figure 83909DEST_PATH_IMAGE007
,其中
Figure 395243DEST_PATH_IMAGE008
为样本 平均值,
Figure 152983DEST_PATH_IMAGE009
为通过该线性模型对y的估计值,该式表征了在y值的总体编译中可以使用该线 性模型来解释的百分比,剩余不能解释的比例则是由于取样导致的随机扰动产生。该值越 大,则模型对y的解释能力越强,y与自变量之间的相关性也就越强。在本发明的场景中,则 是使用
Figure 191346DEST_PATH_IMAGE002
作为因变量y,使用
Figure 325524DEST_PATH_IMAGE005
作为自变量,做以上计算即可。
另外,上述的显著程度具体的含义为:统计假设检验过程中是否应当拒绝原假设的一个指标。例如:
假设H0(null hypothesis,原假设): 变量X的系数为0,对模型结果没有解释能力,即X不应进入模型;
假设H1(alternative hypothesis,备择假设): 变量X的系数不为0,应当进入模型;
P值是用来指假设H0成立的概率,如果P值大于设定的显著程度0.05,则认为没有充分理由拒绝原假设,即X不应当进入模型。P值越大则变量对模型的贡献越有可能仅仅是由抽样误差导致的,就越应当剔除出模型。
实施例四
在实施例三的基础上,本实施例对步骤4进行分解之前,介绍一下因子分析的原理:
假设有N个候选变量X_1,X_2,…,X_N需要做因子分析。因子分析方法假设存在k个公共因子F_1,F_2,…,F_k,使得每个原始变量可以写成这k个公共因子和一个特殊因子ε的线性加和,即对任意变量X_i,可以将X_i写成X_i=a_i1*F_1+a_i2*F_2+…+a_ik*F_k+ε_i
其中系数a_i1,a_i2,…,a_ik称为载荷因子,则对所有i属于[1, N], 构成了一个大小为N*k的矩阵A,叫做载荷矩阵。
对载荷矩阵的估计方法可以采用主成分法、主因子法或极大似然估计法,这里不做详细论述。
实施例五
在实施例四的基础上,本实施例还包括以下内容:
参见图4所示,对于载荷矩阵的估计方法,本发明采用主成分法进行估计,具体包括:
以下表示中,_i表示下标为i,Ʃ表示加和,
Figure 765733DEST_PATH_IMAGE010
表示按照i取值从1至N进行加和。
在因子分析模型构建中,涉及到对公共因子数量k的估计和对载荷矩阵的估计。下面本发明使用主成分法来估计以上参数。
假设N个候选变量的原始特征向量,计算出其协方差矩阵,其协方差矩阵是一个N*N的矩阵M,其中M_ij的值为矩阵M的第i行的X_i与第j列的X_j的协方差。
计算协方差矩阵M的N个特征根和特征向量。N个特征根按照从大到小排序分别记做λ_1,λ_2,…,λ_N,与使用上述方式排序后的特征根对应的N个标准化特征向量依次记做v_1,v_2,…,v_N;
其中,公共因子数量
Figure 959954DEST_PATH_IMAGE011
即本发明选择这样一个最小的 k,使得前k个最大的特征值的和大于0.75。
使用主成分法估计的载荷矩阵如下:
Figure 954455DEST_PATH_IMAGE012
实施例六
参见图5所示,下面在实施例五的基础上,本实施例回到步骤4,并对该步骤提出以下的分解子步骤(以下假设N=10, k=3):
步骤4.1、在进行完WOE变换之后,本发明现在共有10个候选变量。对所有这些候选变量进行因子分析得到3个公共变量,那么载荷矩阵的大小为10*3。假设本发明求解得到的载荷矩阵如下图6所示。
步骤4.2、通过载荷矩阵系数值最大的那个公共变量来判定变量归属哪个类。
如图6所示,用横框圈出的第一行表示的是变量X_1对三个公共变量的系数a_11=0.82,a_12=0.13,a_13=0.22,本发明找出其中最大的值,即a_11=0.82,是第一个公共变量(公共因子)F_1的系数,于是本发明将变量X_1归为第一类。本发明用竖框框出了所有10个变量相应的最大系数的位置,即其应当划分的组别,将10个变量划到了3组,其中变量X_1,X_2和X_3划分到第一组,X_4,X_5,X_6和X_7划分到第二组,X_8,X_9和X_10划分到第三组。
步骤4.3、在这k个类(本例是3类)中,对每个类选取出两个变量,一个是变量IV值最高的,另一个是变量R2值最大的。IV值高意味着该变量对于模型结果的贡献较高,R2 值高意味着该变量在簇内最具有代表性,进一步,贡献较高表示该变量对于模型输出的概率值的影响很大,为了简单,影响很大指改变量与输出概率值的相关性最大,具有代表性表示与簇内主成分的皮尔逊相关系数最大,其中IV值的公式如下:
IV:Ʃ_x((#{Y=1,X=x}/#{Y=1})-(#{Y=0,X=x}/#{Y=0}))*WOE(X=x)
其中#{A}表示计数,即满足条件A的样本数目,#{A,B}则是同时满足A与B条件的样本数目。
R2表示着在簇内代表性的一种度量,其可以通过该变量与它所属这个类第一主成分的皮尔逊相关系数的平方获取。
每个类选出的这两个变量有可能为同一个变量。这样可以留下最多2k个变量,剩下的变量均会被剔除。
步骤4.4、对剩下的最多2k个变量采用向后剔除法迭代进行变量筛选,具体地,将所有进入该流程的候选变量进行逻辑回归建模,并观察所有变量的VIF值,如果存在变量的VIF值大于4,则说明共线性存在,那么本发明就将p值最高的变量剔除出去。
步骤4.5、剔除p值大于指定值的变量;
步骤4.6、重复以上步骤,直至所有变量的p值均小于指定值(0.05),且所有变量的VIF均小于4,即模型的共线性被完全消除。
实施例七
结合图1至图6所示,在上述实施例的基础上,本发明实施例提供一种基于用户信息的数据分析方法,包括以下步骤:
接收用户信息;将所述用户信息转换汇总为用户大数据集合;将所述用户大数据集合随机划分为两个集合,所述两个集合包括第一集合和第二集合,所述第一集合存储到第一数据库中,所述第二集合存储到第二数据库中;为了提高获取用户大数据集合的规范性和合法性,所述用户大数据集合是响应于用户请求,由服务方经过用户授权后获得;
对所述第一数据库中的所述第一集合进行分箱相关处理,得到第三集合,将所述第三集合存储到第三数据库中;
提取所述第三数据库中的第三集合,并基于所述第三集合采用因子分析法构建第一模型;
提取所述第二数据库中的第二集合,基于所述第二集合对所述第一模型进行验证;
其中,所述基于所述第三集合采用因子分析法构建所述第一模型,具体包括:
使用因子分析法进行变量聚类;
对每个类中的变量进行第一次变量筛选使得剩余变量数不大于第一阈值;
对第一次筛选后剩下的变量采用多次向后剔除法迭代进行第二次变量筛选,直至满足预设条件。
本发明实施例的数据分析***将用户信息进行数字化处理,转换为***特定格式的数据信息,使用建模模块通过因子分析法在尽可能保留精度的情况下消除了模型的共线性,避免了为了消除共线性而简单地保留某个在簇类最有代表性的变量(例如与主成分相关性最大)而丢失了重要变量和精度,从而提高了数据分析的准确性。
为了检验训练集建立的模型的精准性,可以设置测试集,以使得通过训练集建立的模型在测试集上测试并得到测试效果,通过测试效果与实际效果对比,从而可以完成对模型的评估。进一步地,将所述用户大数据集合随机划分为两个集合,具体包括:
将用户所有信息组合成宽表;
将所述宽表随机按照一定比例划分成两个集合。
在实际应用场景中,通常将划分成两个集合的所述第一集合作为训练集,其用于建模和模型参数估计,所述第二集合作为测试集,其用于模型评估。
为了使得用户特征变量的数值型变量与文本型变量可以采用因子分析法构建第一模型,可以对用户的特征变量进行分箱相关操作。在实际应用场景中,所述对所述第一数据库中的所述第一集合进行分箱相关处理,得到第三集合具体包括:
对所述第一集合数据,进行分箱;
对每箱进行WOE变换,获取WOE值,得到第三集合。
进一步地,对每箱进行的WOE变换具有以下优点:
1.WOE能反映自变量的贡献情况。自变量内部WOE值的变异(波动)情况,结合模型拟合出的系数,可以构造出各个自变量的贡献率及相对重要性。一般地,拟合出的系数越大,WOE的方差越大,则自变量的贡献率越大。
2.标准化功能。在WOE编码之后,自变量具备了某种标准化的性质。具体而言,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。
3.对异常值不敏感。很多极值变量通过WOE可以变为非异常值,很多频次较少的变量也可以通过WOE变换进行合并。
通过上述描述可以看出,WOE变换极大的提高了数据的可理解性,这对数据分析准确性很重要。WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小。进一步地,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。
另外,基于所述第三集合采用上述因子分析法构建的所述第一模型为逻辑回归模型。该逻辑回归模型具有以下优点:
1.形式简单,模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响,例如某个特征的权重值比较高,那么这个特征最后对结果的影响会比较大。
2.模型效果很好。在工程上是可以普遍接受的(作为baseline),如果其特征工程做的好,则模型效果相应不会太差,并且特征工程可以并行开发,大大加快开发的速度。
3.训练速度较快。在分类时,计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化sgd(Stochastic Gradient Descent,随机梯度下降)发展比较成熟,训练的速度可以通过堆机器进一步提高,这样可以在短时间内迭代几个版本的模型。
4.资源占用小,尤其体现在内存。因为其只需要存储各个维度的特征值。
5.方便输出结果调整。逻辑回归可以很方便的得到最后的分类结果,因为输出的是每个样本的概率分数,可以很容易的对这些概率分数进行cutoff,也就是划分阈值(大于某个阈值的是一类,小于某个阈值的是一类)。
在对用户的特征变量进行分箱相关操作后,可以通过因子分析法构建第一模型。在实际应用场景中,所述因子分析法具体包括:
假设有N个候选变量(第三集合的内容)的特征向量,计算出其协方差矩阵,其协方差矩阵是一个N*N的矩阵M,其中M_ij的值为矩阵M的第i行的X_i与第j列的X_j的协方差;
计算协方差矩阵M的N个特征根和特征向量;
N个特征根按照从大到小排序分别记做λ_1,λ_2,…,λ_N,与使用上述方式排序后的特征根对应的N个标准化特征向量依次记做v_1,v_2,…,v_N。
本发明实施例在对每个类中的变量进行第一次变量筛选时,需要先基于上述因子 分析法获取第一阈值,所述第一阈值为
Figure 95586DEST_PATH_IMAGE013
,其表示前k个最大的特 征值的和大于0.75。
在获取到第一阈值后,所述对每个类中的变量进行第一次变量筛选使得剩余变量数不大于第一阈值,具体包括:
变量聚类后的类的数量为k,而第一阈值为2k;
对所述k个类中的每个类选取出两个变量,一个是变量IV值最高的,另一个是变量R2值最大的;IV值高意味着该变量对于模型结果的贡献较高,R2值高意味着该变量在簇内最具有代表性。
在进行第二次变量筛选后,需要所有变量满足一定条件。与之对应地,所述对第一次筛选后剩下的变量采用多次向后剔除法迭代进行第二次变量筛选,直至满足预设条件具体包括:
如果存在候选变量的VIF值大于4,则将p值最高的变量剔除出去;
剔除p值大于指定值的变量;
重复以上步骤,直至所有变量的p值均小于指定值,且所有变量的VIF均小于4。
实施例八
如图7所示,本发明还提供了一种基于用户信息的数据分析***700,其包括:
数据分解模块703,其用于将所述用户大数据集合随机划分为两个集合,所述两个集合包括第一集合和第二集合;
分箱处理模块704,其用于对所述第一集合进行分箱相关处理,得到第三集合;
建模模块705,其用于基于所述第三集合采用因子分析法构建第一模型;
验证模块706,其用于基于所述第二集合对所述第一模型进行验证;
其中,所述基于所述第三集合采用因子分析法构建所述第一模型,具体包括:
使用因子分析法进行变量聚类;
对每个类中的变量进行第一次变量筛选使得剩余变量数不大于第一阈值;
对第一次筛选后剩下的变量采用多次向后剔除法迭代进行第二次变量筛选,直至满足预设条件。
所述***700还包括:
数据接收模块701,其用于接收用户信息;
数据汇总模块702,其用于将所述用户信息转换汇总为用户大数据集合。
实施例九
如图8所示,本实施例还提供一种电子设备800,所述电子设备800,包括:至少一个处理器801;以及,与所述至少一个处理器801通信连接的存储器802;其中,
所述存储器802存储有可被所述一个处理器801执行的指令,所述指令被所述至少一个处理器801执行,以使所述至少一个处理器801能够执行如上实施例所述的方法步骤。
实施例十
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (10)

1.一种基于用户信息的数据分析方法,包括以下步骤:
接收用户信息;
将所述用户信息转换汇总为用户大数据集合;
将所述用户大数据集合随机划分为两个集合,所述两个集合包括第一集合和第二集合,所述第一集合存储到第一数据库中,所述第二集合存储到第二数据库中;
对所述第一数据库中的所述第一集合进行分箱相关处理,得到第三集合,将所述第三集合存储到第三数据库中;
提取所述第三数据库中的第三集合,并基于所述第三集合采用因子分析法构建第一模型;
提取所述第二数据库中的第二集合,基于所述第二集合对所述第一模型进行验证;
其中,所述基于所述第三集合采用因子分析法构建所述第一模型,具体包括:
使用因子分析法进行变量聚类;
对每个类中的变量进行第一次变量筛选使得剩余变量数不大于第一阈值;
对第一次筛选后剩下的变量采用多次向后剔除法迭代进行第二次变量筛选,直至满足预设条件。
2.如权利要求1所述的方法,其中将所述用户大数据集合随机划分为两个集合,具体包括:
将用户所有信息组合成宽表;
将所述宽表随机按照一定比例划分成两个集合。
3.如权利要求2所述的方法,其中所述第一集合为训练集,其用于建模和模型参数估计,所述第二集合为测试集,其用于模型评估。
4.如权利要求1所述的方法,其中所述第一模型为逻辑回归模型。
5.如权利要求4所述的方法,其中所述对所述第一数据库中的所述第一集合进行分箱相关处理,得到第三集合具体包括:
对所述第一集合数据,进行分箱;
对每箱进行WOE变换,获取WOE值,得到第三集合。
6.如权利要求5所述的方法,其中所述因子分析法具体包括:
假设有N个候选变量的特征向量,计算出其协方差矩阵,其协方差矩阵是一个N*N的矩阵M,其中M_ij的值为矩阵M的第i行的X_i与第j列的X_j的协方差;
计算协方差矩阵M的N个特征根和特征向量;
N个特征根按照从大到小排序分别记做λ_1,λ_2,…,λ_N,与使用上述方式排序后的特征根对应的N个标准化特征向量依次记做v_1,v_2,…,v_N。
7.如权利要求6所述的方法,其中基于上述因子分析法获取第一阈值,所述第一阈值为
Figure 546856DEST_PATH_IMAGE001
,其表示前k个最大的特征值的和大于0.75。
8.如权利要求7所述的方法,其中所述对每个类中的变量进行第一次变量筛选使得剩余变量数不大于第一阈值,具体包括:
变量聚类后的类的数量为k,而第一阈值为2k;
对所述k个类中的每个类选取出两个变量,一个是变量IV值最高的,另一个是变量R2值最大的;IV值高意味着该变量对于模型结果的贡献较高,R2值高意味着该变量在簇内最具有代表性。
9.如权利要求5所述的方法,所述对第一次筛选后剩下的变量采用多次向后剔除法迭代进行第二次变量筛选,直至满足预设条件具体包括:
如果存在候选变量的VIF值大于4,则将p值最高的变量剔除出去;
剔除p值大于指定值的变量;
重复以上步骤,直至所有变量的p值均小于指定值,且所有变量的VIF均小于4。
10.如权利要求1所述的方法,其中所述用户大数据集合是响应于用户请求,由服务方经过用户授权后获得。
CN202010769479.0A 2020-08-04 2020-08-04 一种基于用户信息的数据分析方法 Active CN111654853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010769479.0A CN111654853B (zh) 2020-08-04 2020-08-04 一种基于用户信息的数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010769479.0A CN111654853B (zh) 2020-08-04 2020-08-04 一种基于用户信息的数据分析方法

Publications (2)

Publication Number Publication Date
CN111654853A true CN111654853A (zh) 2020-09-11
CN111654853B CN111654853B (zh) 2020-11-10

Family

ID=72352607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010769479.0A Active CN111654853B (zh) 2020-08-04 2020-08-04 一种基于用户信息的数据分析方法

Country Status (1)

Country Link
CN (1) CN111654853B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022227644A1 (zh) * 2021-04-26 2022-11-03 深圳前海微众银行股份有限公司 数据处理方法、装置、设备、存储介质及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095391A (zh) * 2016-05-31 2016-11-09 携程计算机技术(上海)有限公司 基于大数据平台和算法模型的计算方法及***
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN108399255A (zh) * 2018-03-06 2018-08-14 中国银行股份有限公司 一种分类数据挖掘模型的输入数据处理方法及装置
WO2019047790A1 (zh) * 2017-09-08 2019-03-14 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及***
CN110415111A (zh) * 2019-08-01 2019-11-05 信雅达***工程股份有限公司 基于用户数据与专家特征合并逻辑回归信贷审批的方法
CN110728453A (zh) * 2019-10-14 2020-01-24 山东嘉熙信息科技有限公司 一种基于大数据的政策自动匹配分析***及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095391A (zh) * 2016-05-31 2016-11-09 携程计算机技术(上海)有限公司 基于大数据平台和算法模型的计算方法及***
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
WO2019047790A1 (zh) * 2017-09-08 2019-03-14 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及***
CN108399255A (zh) * 2018-03-06 2018-08-14 中国银行股份有限公司 一种分类数据挖掘模型的输入数据处理方法及装置
CN110415111A (zh) * 2019-08-01 2019-11-05 信雅达***工程股份有限公司 基于用户数据与专家特征合并逻辑回归信贷审批的方法
CN110728453A (zh) * 2019-10-14 2020-01-24 山东嘉熙信息科技有限公司 一种基于大数据的政策自动匹配分析***及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022227644A1 (zh) * 2021-04-26 2022-11-03 深圳前海微众银行股份有限公司 数据处理方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN111654853B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN109587713B (zh) 一种基于arima模型的网络指标预测方法、装置及存储介质
CN113792825B (zh) 一种用电信息采集设备故障分类模型训练方法及装置
CN108364106A (zh) 一种报销单风险预测方法、装置、终端设备及存储介质
CN110928764A (zh) 移动应用众包测试报告自动化评估方法及计算机存储介质
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及***
CN110222733B (zh) 一种高精度的多阶神经网络分类方法及***
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN111797320A (zh) 数据处理方法、装置、设备及存储介质
CN113408548A (zh) 变压器异常数据检测方法、装置、计算机设备和存储介质
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN115357764A (zh) 一种异常数据检测方法及装置
CN112711757A (zh) 一种基于大数据平台的数据安全集中管控方法及***
CN110796485A (zh) 一种提高预测模型的预测精度的方法及装置
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN111654853B (zh) 一种基于用户信息的数据分析方法
CN113112188B (zh) 一种基于预筛选动态集成的电力调度监控数据异常检测方法
CN110704614B (zh) 对应用中的用户群类型进行预测的信息处理方法及装置
CN116719714A (zh) 一种测试用例的筛选模型的训练方法及相应的装置
CN116185797A (zh) 预测服务器资源饱和度的方法、装置及存储介质
CN116383645A (zh) 一种基于异常检测的***健康度智能监测评估方法
CN116126807A (zh) 一种日志分析方法及相关装置
CN115423600A (zh) 数据筛选方法、装置、介质及电子设备
CN115221955A (zh) 基于样本差异分析的多深度神经网络参数融合***及方法
CN114399407A (zh) 一种基于动静态选择集成的电力调度监控数据异常检测方法
CN111882135B (zh) 一种物联网设备入侵检测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant