CN116484293A - 一种基于svm算法的平台用户付费行为预测方法 - Google Patents

一种基于svm算法的平台用户付费行为预测方法 Download PDF

Info

Publication number
CN116484293A
CN116484293A CN202310723583.XA CN202310723583A CN116484293A CN 116484293 A CN116484293 A CN 116484293A CN 202310723583 A CN202310723583 A CN 202310723583A CN 116484293 A CN116484293 A CN 116484293A
Authority
CN
China
Prior art keywords
data
svm algorithm
platform user
user
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310723583.XA
Other languages
English (en)
Other versions
CN116484293B (zh
Inventor
赵龙霄
马红光
李想
邵杰
王新鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Cuiwen Technology Co ltd
Beijing University of Chemical Technology
Original Assignee
Anhui Cuiwen Technology Co ltd
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Cuiwen Technology Co ltd, Beijing University of Chemical Technology filed Critical Anhui Cuiwen Technology Co ltd
Priority to CN202310723583.XA priority Critical patent/CN116484293B/zh
Publication of CN116484293A publication Critical patent/CN116484293A/zh
Application granted granted Critical
Publication of CN116484293B publication Critical patent/CN116484293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/389Keeping log of transactions for guaranteeing non-repudiation of a transaction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Finance (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于SVM算法的平台用户付费行为预测方法,属于付费预测领域,包括以下步骤:S1、获取平台用户访问日志,并形成数据集;S2、对步骤S1获取的数据集中的原始数据进行预处理;S3、构建基于SVM算法的模型;S4、调取平台用户操作日志,通过基于SVM算法的模型预测结果。本发明采用上述一种基于SVM算法的平台用户付费行为预测方法,基于大数据分析、数据挖掘、机器学***台的内容的设计开发。

Description

一种基于SVM算法的平台用户付费行为预测方法
技术领域
本发明涉及付费预测技术领域,尤其涉及一种基于SVM算法的平台用户付费行为预测方法。
背景技术
为满足用户的多层次的需求,很多平台同时具有付费业务(即平台在内部提供付费,才能享受的服务,如高报平台中报考推荐、志愿检测等)与非付费业务(如高报平台中的简单查询、浏览服务),其用户可以根据自身需求选择成为付费或非付费用户。
由于相对非付费用户,付费用户可以享受到更加多样化和高质量的服务,来满足自身个性化的需求。且付费用户的增多利于平台的进一步发展,使其提供更高质的服务和更好的用户体验,从而吸引更多的用户,达到双赢的目的。
可知,对上述平台来说,付费转化率是一个很重要的指标。其中如何将活跃用户向付费用户转化,是平台运营过程中非常重要的环节。
现阶段转化付费用户大部分通过电话联系、电子邮件联系、上门拜访推广等途径。以上途径效率低,成本高,不能实现客户的精准触达。
发明内容
为解决上述问题,本发明提供一种基于SVM算法的平台用户付费行为预测方法,利用在平台的运营过程中,产生的大量的用户行为数据,对用户付费行为进行准确有效的分析和预测,从而为平台的运营提供数据支持,提升效率,节省成本,实现客户精准触达。
为实现上述目的,本发明提供了一种基于SVM算法的平台用户付费行为预测方法,包括以下步骤:
S1、获取平台用户访问日志,并形成数据集;
S2、对步骤S1获取的数据集中的原始数据进行预处理;
S3、构建基于SVM算法的模型;
S4、调取平台用户操作日志,通过基于SVM算法的模型预测结果。
优选的,在步骤S1中通过后台获取平台用户访问日志。
优选的,步骤S2具体包括以下步骤:
S21、数据清理:数据清理包括缺失数据处理、异常数据处理、重复数据处理和非活跃用户数据处理;
S22、主要数据提取:提取数据集中的有效数据;
S23、特征构造:利用底层数据加工构建出新的特征;
S24、数据变换。
优选的,步骤S21中所述的缺失数据为由于请求或返回部分的数据出现了截断现象导致的数据丢失,处理方式为:删除缺失数据;
步骤S21中所述的异常数据为数值超过设定的正常数值范围的数据,处理方式为:删除异常数据;
步骤S21中所述的重复数据为属性值完全相同的记录数据,处理方式为:保留重复数据中的其中一条,删除剩余重复数据;
步骤S21中所述的非活跃用户为仅有注册登录操作用户数据,处理方式为:删除非活跃用户数据。
优选的,在步骤S22中通过删除非用户操作、删除用户访问日志中的无效字段、删除付费用户付费后的平台用户访问日志后得到的数据为有效数据。
优选的,步骤S23中的底层数据为结构化的表格数据,使用特征交叉、分解原有的特征来创建新的特征。
优选的,在步骤S24中经max-min归一化对数据变换,其中数据归一化公式为:
(1)
式中,为归一化后的数据;/>是数据集中的原始数据;/> />分别是原始数据中的最大值和最小值。
优选的,步骤S3具体包括以下步骤:
S31、将用户的活跃天数、日均活跃时间、平均登录间隔、活跃天数占比、操作总数、平均每活跃日操作数量、平均操作间隔作为输入变量,将预测用户是否有付费意愿作为输出变量;
S32、以RBF作为SVM算法核函数,使用SMO算法对SVM算法极值进行求解,并通过对正则化参数和核函数参数gamma优化模型;
S33、训练模型:
S331、将经步骤S2预处理之后的数据集分为训练集和测试集;
S332、利用训练集拟合模型的参数及配置;
S333、利用测试集对拟合好的模型进行预测;
S34、使用交叉验证方法评估模型,并生成每次训练之后得到的报告。
优选的,步骤S32具体包括以下步骤:
S321、假设有个训练点/>,其中,/>为输入变量,其分量称为特征或属性;每个训练点对应一个输出指标/> />,训练集
给定问题为对于新的输入,推断它的输出/>是/>还是/>,处理方式是找到一个函数/>,定义下述的决策函数实现输出:
(2)
式中,是符号函数,表示当/>时,/>取值/>,否则/>取值/>
其中,确定的算法为分类机;如果/>,则确定/>和/>的算法为线性分类机,/>表示分类超平面的法向量,用于定义分类边界;/>表示分类超平面的偏置项;
S322、考虑训练集,若存在/>,/>和/>,/>为松弛变量,可以被视为一个超参数,允许样本点到分类平面的距离不满足原先的要求,则使得:对所有的/>的拉格朗日乘子/>,有/>;而对所有的/>的拉格朗日乘子/>,有;此时训练集/>线性可分;
若训练集不满足/>的条件,则训练集/>线性不可分;
S323、在考虑所有的样本点的优化问题表达式的基础上,寻找正负类之间的最大几何间隔:
约束条件中增加一个松弛项参数
(3)
S324、在目标函数中加入惩罚参数,得到以下优化问题:
(4)
式中,
S325、利用拉格朗日优化方法把最大间隔问题转换对偶问题:
S3251、定义凸二次规划的拉格朗日函数:
(5)
式中,为输入变量,表示第/>个训练样本的特征向量;/>表示输出指标,表示第/>个训练样本的类别标签(取值为-1或1);/>表示拉格朗日乘子,是对每个训练样本的权重,它用于确定哪些样本是支持向量;/>表示松弛变量的拉格朗日乘子,用于对松弛变量进行加权处理。
S3252、令对/>求偏导为0,得到:
(6)
(7)
(8)
S3253、带入拉格朗日函数,消除,再消去/>得到对偶问题:
(9)
对偶问题:
(10)
式中,表示第/>个和第/>个训练样本对应的拉格朗日乘子;/>表示第/>个和第/>个训练样本的类别标签;/>表示核函数;
S326、求得凸二次规划的最优解拉格朗日乘子向量,则/>
在KKT条件下带入自由支持向量求出最优分类超平面的偏置项
(11)
其中,时为自由支持向量;
核函数:
(12)
式中表示两个特征向量之间的平方欧几里得距离,/>为输入样本的特征向量;/>是是表示函数的宽度的自由参数,用于控制函数的径向作用范围;
S327、构造决策函数:
(13)。
优选的,步骤S4具体包括以下步骤:
S41、接收通过终端发出的预测请求,根据请求调取平台用户操作日志,并不用步骤S2对平台用户操作日志处理;
S42、将用户操作日志处理输入步骤S3构建的基于SVM算法的模型中;
S43、输出用户是否有付费的意愿。
本发明具有以下有益效果:
1、基于大数据分析、数据挖掘、机器学习,并采用SVM算法,提高了用户付费行为预测精度,更适合精准运营,达到提高运营人员生产力、降低企业成本、增加企业收入的目的;
2、在预测的过程中,可捉到对用户付费有影响的一些关键因素,有利于对平台的内容的设计开发。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的一种基于SVM算法的平台用户付费行为预测方法的流程图。
具体实施方式
为了使本发明实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明实施例,并不用于限定本发明实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
一种基于SVM算法的平台用户付费行为预测方法,包括以下步骤:
S1、获取平台用户访问日志,并形成数据集;
平台后台日志是平台运行过程中记录的最原始方式。用户的每一次操作,可以看作用户通过客户端,向服务端发送了一个对应的请求,服务器在取得相应数据后,再通过网络传回客户端,进行展示。例如,在用户进行登录操作时,客户端会将用户名和密码封装在一个登录请求的数据包中,通过网络发送给服务端;服务端接收到请求后,会验证用户名和密码的正确性,然后将登录成功或失败的结果传回客户端。所以用户在平台中的每一次操作,其实就是对应了一对请求数据和相应数据,而服务器会将这每一对数据记录下来,即为平台后台日志的最原始形式。且平台后台日志主要由三部分组成:日志时间、应用名等信息以及客户端发送的数据请求和服务端发送给客户端的回应信息。
优选的,在步骤S1中通过后台获取平台用户访问日志。
S2、对步骤S1获取的数据集中的原始数据进行预处理;
数据的质量是影响数据分析结果的准确性和有效性的重要因素。异常的数据模式会对用户行为模式产生转变,从而对用户行为的预测产生负面影响。因此在预测前,需要对数据整体情况有一个比较好的把握,并利用数据清洗等方法,对异常数据进行剔除,对不符合要求的数据进行转换,从而获得研究所需要的高质量数据,确保对用户行为预测的准确性。
优选的,步骤S2具体包括以下步骤:
S21、数据清理:数据清理包括缺失数据处理、异常数据处理、重复数据处理和非活跃用户数据处理;
步骤S21中所述的异常数据为数值超过设定的正常数值范围的数据,处理方式为:删除异常数据;
步骤S21中所述的重复数据为属性值完全相同的记录数据,处理方式为:保留重复数据中的其中一条,删除剩余重复数据;在本实施例中,数据集中还会出现同一用户短时间内重复同一操作,这通常是因为网络问题或用户错误操作造成的,采取保留用户最后一次操作,删除其它操作。
步骤S21中所述的非活跃用户为仅有注册登录操作用户数据,处理方式为:删除非活跃用户数据。
优选的,步骤S21中所述的缺失数据为由于请求或返回部分的数据出现了截断现象导致的数据丢失,处理方式为:删除缺失数据;
数据集来源为后台***日志,缺失数据、异常数据、缺失数据均占比极小,所以采取删除处理,非活跃用户对分析无效,故删除。
S22、主要数据提取:提取数据集中的有效数据;
优选的,在步骤S22中通过删除非用户操作、删除用户访问日志中的无效字段、删除付费用户付费后的平台用户访问日志后得到的数据为有效数据。
S23、特征构造:利用底层数据加工构建出新的特征;
优选的,步骤S23中的底层数据为结构化的表格数据,使用特征交叉、分解原有的特征来创建新的特征。在本实施例中特征交叉用于将两个不同属性的特征进行交叉组成新的特征:如有两个特征 “性别” 和 “年龄”,可以通过将它们进行交叉,创建一个新特征“性别-年龄”,表示某个人的性别和年龄的组合。特征分解用于将原始特征分解:如有一个原始特征“日期”,可以将其分解为“年份”、“月份”和“日期”这三个单独的特征。
S24、数据变换。
优选的,在步骤S24中经max-min归一化对数据变换,其中数据归一化公式为:
(1)
式中,为归一化后的数据;/>是数据集中的原始数据;/> />分别是原始数据中的最大值和最小值。
S3、构建基于SVM算法的模型;
SVM(Support Vector Machine 支持向量机)算法是一种有坚实理论基础的新颖的学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。SVM算法的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。
优选的,步骤S3具体包括以下步骤:
S31、将用户的活跃天数、日均活跃时间、平均登录间隔、活跃天数占比、操作总数、平均每活跃日操作数量、平均操作间隔作为输入变量,将预测用户是否有付费意愿作为输出变量;
S32、以RBF作为SVM算法核函数,使用SMO算法对SVM算法极值进行求解,并通过对正则化参数和核函数参数gamma优化模型;
优选的,步骤S32具体包括以下步骤:
S321、假设有个训练点/>,其中,/>为输入变量,其分量称为特征或属性;每个训练点对应一个输出指标/> />,训练集
给定问题为对于新的输入,推断它的输出/>是/>还是/>,处理方式是找到一个函数/>,定义下述的决策函数实现输出:
(2)
式中,是符号函数,表示当/>时,/>取值/>,否则/>取值/>
其中,确定的算法为分类机;如果/>,则确定/>和/>的算法为线性分类机,/>表示分类超平面的法向量,用于定义分类边界;/>表示分类超平面的偏置项;
S322、考虑训练集,若存在/>,/>和/>,/>为松弛变量,可以被视为一个超参数,允许样本点到分类平面的距离不满足原先的要求,则使得:对所有的/>的拉格朗日乘子/>,有/>;而对所有的/>的拉格朗日乘子/>,有;此时训练集/>线性可分;
若训练集不满足/>的条件,则训练集/>线性不可分;
S323、在考虑所有的样本点的优化问题表达式的基础上,寻找正负类之间的最大几何间隔:
约束条件中增加一个松弛项参数
(3)
S324、在目标函数中加入惩罚参数,得到以下优化问题:
(4)
式中,
S325、利用拉格朗日优化方法把最大间隔问题转换对偶问题:
S3251、定义凸二次规划的拉格朗日函数:
(5)
式中,为输入变量,表示第/>个训练样本的特征向量;/>表示输出指标,表示第/>个训练样本的类别标签(取值为-1或1);/>表示拉格朗日乘子,是对每个训练样本的权重,它用于确定哪些样本是支持向量;/>表示松弛变量的拉格朗日乘子,用于对松弛变量进行加权处理。
S3252、令对/>求偏导为0,得到:
(6)
(7)
(8)
S3253、带入拉格朗日函数,消除,再消去/>得到对偶问题:
(9)
对偶问题:
(10)
式中,表示第/>个和第/>个训练样本对应的拉格朗日乘子;/>表示第/>个和第/>个训练样本的类别标签;/>表示核函数;
S326、求得凸二次规划的最优解拉格朗日乘子向量,则/>
在KKT条件下带入自由支持向量求出最优分类超平面的偏置项
(11)
其中,时为自由支持向量;
核函数:
(12)
式中表示两个特征向量之间的平方欧几里得距离,/>为输入样本的特征向量;/>是是表示函数的宽度的自由参数,用于控制函数的径向作用范围;
S327、构造决策函数:
(13)。
S33、训练模型:
S331、将经步骤S2预处理之后的数据集分为训练集和测试集;
S332、利用训练集拟合模型的参数及配置;
S333、利用测试集对拟合好的模型进行预测;
S34、使用交叉验证方法评估模型,并生成每次训练之后得到的报告。
本实施例中还在每个epoch之后,评估测试集表现,判断何时停止和是否提前停止。
本实施例的判断条件如下:
判断何时停止:监控模型在测试集上的性能指标(如准确率、损失函数值等),并设定一个阈值或目标值。当模型在测试集上的性能达到或超过设定的阈值或目标值时,可以判断模型已经达到了满意的表现,停止训练。
是否提前停止:在训练过程中,会将数据集划分为训练集、验证集和测试集。在每个epoch之后,使用验证集评估模型的性能。如果模型在验证集上的性能开始下降,或者连续多个epoch中性能没有明显提升,那么可以认为模型已经过拟合,即可提前停止训练,以避免过拟合。
S4、调取平台用户操作日志,通过基于SVM算法的模型预测结果。
优选的,步骤S4具体包括以下步骤:
S41、接收通过终端发出的预测请求,根据请求调取平台用户操作日志,并不用步骤S2对平台用户操作日志处理;
S42、将用户操作日志处理输入步骤S3构建的基于SVM算法的模型中;
S43、输出用户是否有付费的意愿。
因此,本发明采用上述一种基于SVM算法的平台用户付费行为预测方法,基于大数据分析、数据挖掘、机器学***台的内容的设计开发。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于SVM算法的平台用户付费行为预测方法,其特征在于:包括以下步骤:
S1、获取平台用户访问日志,并形成数据集;
S2、对步骤S1获取的数据集中的原始数据进行预处理;
S3、构建基于SVM算法的模型;
S4、调取平台用户操作日志,通过基于SVM算法的模型预测结果。
2.根据权利要求1所述的一种基于SVM算法的平台用户付费行为预测方法,其特征在于:在步骤S1中通过后台获取平台用户访问日志。
3.根据权利要求1所述的一种基于SVM算法的平台用户付费行为预测方法,其特征在于:步骤S2具体包括以下步骤:
S21、数据清理:数据清理包括缺失数据处理、异常数据处理、重复数据处理和非活跃用户数据处理;
S22、主要数据提取:提取数据集中的有效数据;
S23、特征构造:利用底层数据加工构建出新的特征;
S24、数据变换。
4.根据权利要求3所述的一种基于SVM算法的平台用户付费行为预测方法,其特征在于:步骤S21中所述的缺失数据为由于请求或返回部分的数据出现了截断现象导致的数据丢失,处理方式为:删除缺失数据;
步骤S21中所述的异常数据为数值超过设定的正常数值范围的数据,处理方式为:删除异常数据;
步骤S21中所述的重复数据为属性值完全相同的记录数据,处理方式为:保留重复数据中的其中一条,删除剩余重复数据;
步骤S21中所述的非活跃用户为仅有注册登录操作用户数据,处理方式为:删除非活跃用户数据。
5.根据权利要求3所述的一种基于SVM算法的平台用户付费行为预测方法,其特征在于:在步骤S22中通过删除非用户操作、删除用户访问日志中的无效字段、删除付费用户付费后的平台用户访问日志后得到的数据为有效数据。
6.根据权利要求3所述的一种基于SVM算法的平台用户付费行为预测方法,其特征在于:步骤S23中的底层数据为结构化的表格数据,使用特征交叉、分解原有的特征来创建新的特征。
7.根据权利要求3所述的一种基于SVM算法的平台用户付费行为预测方法,其特征在于:在步骤S24中经max-min归一化对数据变换,其中数据归一化公式为:
(1)
式中,为归一化后的数据;/>是数据集中的原始数据;/> />分别是原始数据中的最大值和最小值。
8.根据权利要求1所述的一种基于SVM算法的平台用户付费行为预测方法,其特征在于:步骤S3具体包括以下步骤:
S31、将用户的活跃天数、日均活跃时间、平均登录间隔、活跃天数占比、操作总数、平均每活跃日操作数量、平均操作间隔作为输入变量,将预测用户是否有付费意愿作为输出变量;
S32、以RBF作为SVM算法核函数,使用SMO算法对SVM算法极值进行求解,并通过对正则化参数和核函数参数gamma优化模型;
S33、训练模型:
S331、将经步骤S2预处理之后的数据集分为训练集和测试集;
S332、利用训练集拟合模型的参数及配置;
S333、利用测试集对拟合好的模型进行预测;
S34、使用交叉验证方法评估模型,并生成每次训练之后得到的报告。
9.根据权利要求8所述的一种基于SVM算法的平台用户付费行为预测方法,其特征在于:步骤S32具体包括以下步骤:
S321、假设有个训练点/>,其中,/>为输入变量,其分量称为特征或属性;每个训练点对应一个输出指标/> />,训练集
给定问题为对于新的输入,推断它的输出/>是/>还是/>,处理方式是找到一个函数,定义下述的决策函数实现输出:
(2)
式中,是符号函数,表示当/>时,/>取值/>,否则/>取值/>
其中,确定的算法为分类机;如果/>,则确定/>和/>的算法为线性分类机,/>表示分类超平面的法向量,用于定义分类边界;/>表示分类超平面的偏置项;
S322、考虑训练集,若存在/>,/>和/>,/>为松弛变量,可以被视为一个超参数,允许样本点到分类平面的距离不满足原先的要求,则使得:对所有的/>的拉格朗日乘子/>,有/>;而对所有的/>的拉格朗日乘子/>,有/>;此时训练集/>线性可分;
若训练集不满足/>的条件,则训练集/>线性不可分;
S323、在考虑所有的样本点的优化问题表达式的基础上,寻找正负类之间的最大几何间隔:
约束条件中增加一个松弛项参数
(3)
S324、在目标函数中加入惩罚参数,得到以下优化问题:
(4)
式中,
S325、利用拉格朗日优化方法把最大间隔问题转换对偶问题:
S3251、定义凸二次规划的拉格朗日函数:
(5)
式中,为输入变量,表示第/>个训练样本的特征向量;/>表示输出指标,表示第/>个训练样本的类别标签;/>表示拉格朗日乘子,是对每个训练样本的权重,它用于确定哪些样本是支持向量;/>表示松弛变量的拉格朗日乘子,用于对松弛变量进行加权处理;
S3252、令对/>求偏导为0,得到:
(6)
(7)
(8)
S3253、带入拉格朗日函数,消除,再消去/>得到对偶问题:
(9)
对偶问题:
(10)
式中,表示第/>个和第/>个训练样本对应的拉格朗日乘子;/>表示第/>个和第/>个训练样本的类别标签;/>表示核函数;
S326、求得凸二次规划的最优解拉格朗日乘子向量,则/>
在KKT条件下带入自由支持向量求出最优分类超平面的偏置项
(11)
其中,时为自由支持向量;
核函数:
(12)
式中表示两个特征向量之间的平方欧几里得距离,/>为输入样本的特征向量;/>是是表示函数的宽度的自由参数,用于控制函数的径向作用范围;
S327、构造决策函数:
(13)。
10.根据权利要求1所述的一种基于SVM算法的平台用户付费行为预测方法,其特征在于:步骤S4具体包括以下步骤:
S41、接收通过终端发出的预测请求,根据请求调取平台用户操作日志,并不用步骤S2对平台用户操作日志处理;
S42、将用户操作日志处理输入步骤S3构建的基于SVM算法的模型中;
S43、输出用户是否有付费的意愿。
CN202310723583.XA 2023-06-19 2023-06-19 一种基于svm算法的平台用户付费行为预测方法 Active CN116484293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310723583.XA CN116484293B (zh) 2023-06-19 2023-06-19 一种基于svm算法的平台用户付费行为预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310723583.XA CN116484293B (zh) 2023-06-19 2023-06-19 一种基于svm算法的平台用户付费行为预测方法

Publications (2)

Publication Number Publication Date
CN116484293A true CN116484293A (zh) 2023-07-25
CN116484293B CN116484293B (zh) 2023-08-29

Family

ID=87219825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310723583.XA Active CN116484293B (zh) 2023-06-19 2023-06-19 一种基于svm算法的平台用户付费行为预测方法

Country Status (1)

Country Link
CN (1) CN116484293B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150170175A1 (en) * 2009-01-21 2015-06-18 Truaxis, Inc. Method and system for identifying a cohort of users based on past shopping behavior and other criteria
CN111727451A (zh) * 2018-09-10 2020-09-29 澪标分析株式会社 用于计算预测数据的信息处理装置等
CN112837099A (zh) * 2021-02-05 2021-05-25 深圳市欢太科技有限公司 潜在流失用户识别方法、装置、存储介质及电子设备
CN115409577A (zh) * 2022-08-31 2022-11-29 拓元(广州)智慧科技有限公司 基于用户行为及环境信息的智能货柜复购预测方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150170175A1 (en) * 2009-01-21 2015-06-18 Truaxis, Inc. Method and system for identifying a cohort of users based on past shopping behavior and other criteria
CN111727451A (zh) * 2018-09-10 2020-09-29 澪标分析株式会社 用于计算预测数据的信息处理装置等
CN112837099A (zh) * 2021-02-05 2021-05-25 深圳市欢太科技有限公司 潜在流失用户识别方法、装置、存储介质及电子设备
CN115409577A (zh) * 2022-08-31 2022-11-29 拓元(广州)智慧科技有限公司 基于用户行为及环境信息的智能货柜复购预测方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MUHAMMAD WAQAS MOIN SHEIKH: ""智能电网中的客户行为分析电力行业"", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
ZHU XIAOKAI 等: ""Image Kernel for Recognition"", 《PROCEEDINGS OF 2008 9TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING(ICSP\'2008)》 *
吴悦昕 等: ""在线游戏用户的流失预测:基于不平衡数据的采样方法比较和分析"", 《中文信息学报》, vol. 30, no. 4 *
贺清哲: ""网购客户流失预测研究"", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Also Published As

Publication number Publication date
CN116484293B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN112766550B (zh) 基于随机森林的停电敏感用户预测方法、***、存储介质及计算机设备
US11010691B1 (en) Distributable event prediction and machine learning recognition system
CN111666351A (zh) 基于用户行为数据的模糊聚类***
US20230104757A1 (en) Techniques for input classification and response using generative neural networks
CN112053223A (zh) 一种基于ga-svm算法的互联网金融欺诈行为检测方法
CN116561542B (zh) 模型的优化训练***、方法以及相关装置
US20210049414A1 (en) Deep graph de-noise by differentiable ranking
CN115409115A (zh) 基于用户日志的时序聚类异常终端识别方法
CN113010659A (zh) 一种问卷样本处理方法及装置
Huynh et al. Multi-output Gaussian processes for multi-population longevity modelling
US20230109260A1 (en) Techniques for cursor trail capture using generative neural networks
CN114118570A (zh) 业务数据预测方法及装置、电子设备和存储介质
CN116911882B (zh) 一种基于机器学习的保险防欺诈预测方法及***
CN116484293B (zh) 一种基于svm算法的平台用户付费行为预测方法
US20230325630A1 (en) Graph learning-based system with updated vectors
Hanif Applications of data mining techniques for churn prediction and cross-selling in the telecommunications industry
CN112329928B (zh) 基于异构模型的用户满意度分析方法
WO2018098009A1 (en) Improved automated nonparametric content analysis for information management and retrieval
CN111899057A (zh) 基于边缘云节点数据收集的客户画像数据聚类分析***
CN115831339B (zh) 基于深度学习的医疗***风险管控事前预测方法、***
US11928128B2 (en) Construction of a meta-database from autonomously scanned disparate and heterogeneous sources
WO2024059801A2 (en) Systems and methods for machine learning-based classification of signal data signatures featuring using a multi-modal oracle
Liu et al. ChronoBridge: A Novel Framework for Enhanced Temporal and Relational Reasoning in Temporal Knowledge Graphs
CN118350926A (zh) 信用风险评估方法及装置
Zejian et al. Power Outage Detection and Prediction Model Using Data Mining Technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant