CN108564423A - 票务订单的恶意占位识别方法、***、设备和存储介质 - Google Patents

票务订单的恶意占位识别方法、***、设备和存储介质 Download PDF

Info

Publication number
CN108564423A
CN108564423A CN201711499025.0A CN201711499025A CN108564423A CN 108564423 A CN108564423 A CN 108564423A CN 201711499025 A CN201711499025 A CN 201711499025A CN 108564423 A CN108564423 A CN 108564423A
Authority
CN
China
Prior art keywords
occupy
malice
ticketing service
service order
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711499025.0A
Other languages
English (en)
Inventor
崔欣培
肖铨武
高远
李文广
李靖楠
向榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Network Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Network Technology Shanghai Co Ltd filed Critical Ctrip Travel Network Technology Shanghai Co Ltd
Priority to CN201711499025.0A priority Critical patent/CN108564423A/zh
Publication of CN108564423A publication Critical patent/CN108564423A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供票务订单的恶意占位识别方法、***、设备和存储介质,方法包括:获取数据库中已完成票务订单的用户信息和行为信息,从中提取与恶意占位相关的特征变量;计算各特征变量的信息值;筛选出信息值大于信息阈值的特征变量,提取先验条件;采用筛选出的特征变量训练回归模型;获取实时票务订单及其用户信息和行为信息,判断是否超出对应的先验条件,若是则识别具有恶意占位风险;采用训练好的回归模型计算该实时票务订单对应的下单用户的恶意占位概率,并采取对应的拦截措施。本发明通过筛选特征变量,采用先验条件识别恶意占位风险,并训练出更准确地计算恶意占位概率的回归模型,提高恶意占位的判别准确率。

Description

票务订单的恶意占位识别方法、***、设备和存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种票务订单的恶意占位识别方法、***、设备和存储介质。
背景技术
正常的票务订单预订时,例如机票预定过程中,创单填写页点击下一步时会发起订位请求,随后获得订位结果。用户下单15分钟内未支付将关闭订单。然而,存在恶意用户在预订过程中预订但不支付订单的恶意占位情况,导致对应航班的座位被占无法出售,降低了正常用户的预订体验,同时对航空公司的航班售卖造成损失。
目前的风控***中,使用基于业务经验设定的人为规则来识别虚占位恶意用户,该功能存在两个主要问题。首先,人为规则的设定存在一定的主观性,规则的标准和阀值的设定准确性较低。其次,恶意用户通过不断尝试容易识别并破解风控规则,灵活性较差。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
针对现有技术中的缺陷,本发明要解决的问题在于,如何实时计算票务订单的恶意占位概率,更加准确和全面地识别恶意占位用户。
根据本发明的一个方面,提供一种票务订单的恶意占位识别方法,所述方法包括:
获取数据库中已完成票务订单的用户信息和行为信息,部分所述已完成票务订单被标记为恶意占位,从所述用户信息和所述行为信息中提取与恶意占位相关的特征变量;
基于各特征变量在被标记为恶意占位的已完成票务订单中的取值和在未被标记为恶意占位的已完成票务订单中的取值的差值,计算各特征变量的信息值;
筛选出信息值大于预设阈值的特征变量,基于筛选出的特征变量在被标记为恶意占位的已完成票务订单中的取值,提取先验条件;
采用筛选出的特征变量训练回归模型Z=logit(p)=log(odds)=β01X12X23X3+…+βkXk,其中p为一票务订单的恶意占位概率,odds为该票务订单发生恶意占位与不发生恶意占位的比值,odds=p/(1-p),X1,X2,…,Xk为筛选出的各特征变量在该票务订单中对应的取值,β0为截距,β12,…,βk为筛选出的各特征变量对应的回归系数;
获取实时票务订单及其用户信息和行为信息,判断该实时票务订单的用户信息和行为信息是否满足先验条件,若是则判断该实时票务订单具有恶意占位风险;
对于具有恶意占位风险的实时票务订单,基于该实时票务订单的用户信息和行为信息,采用训练好的回归模型计算该实时票务订单的恶意占位概率,并拦截恶意占位概率超出概率阈值的实时票务订单。
优选地,训练所述回归模型时,还包括采用下述公式对回归系数进行调整:
其中,为回归系数的lasso估计值;N为用于训练回归模型的已完成票务订单的样本总数,i从1取至N;yi为第i个已完成票务订单对应的回归函数,yi∈{0,1},yi=1代表票务订单恶意占位,yi=0代表票务订单非恶意占位;k为筛选出的用于训练回归模型的特征变量个数,j从1取至k;为惩罚项;t为约束值,t通过自适应选择使预测误差的期望估计值最小。
优选地,所述拦截恶意占位概率超出概率阈值的实时票务订单的步骤包括:将恶意占位概率按照多个概率阈值划分恶意占位等级,对不同恶意占位等级的实时票务订单对应的下单用户,分别采取对应的拦截措施。
优选地,所述拦截措施包括:对于恶意占位概率小于第一概率阈值的实时票务订单对应的下单用户,允许其票务预定行为;对于恶意占位概率大于等于第一概率阈值且小于第二概率阈值的实时票务订单对应的下单用户,弹出验证码;对于恶意占位概率大于等于第二概率阈值的实时票务订单对应的下单用户,拒绝其票务预订行为。
优选地,进行先验条件判断时,若一实时票务订单不满足先验条件,则判断该实时票务订单不具有恶意占位风险,允许该实时票务订单对应的下单用户的票务预订行为。
优选地,获取实时票务订单及其用户信息和行为信息的步骤包括:获取实时票务订单,并获取该实时票务订单对应所述筛选出的特征变量的用户信息和行为信息。
优选地,采用筛选出的特征变量训练回归模型前,还包括对所述筛选出的特征变量进行数据预处理的步骤。
根据本发明的另一方面,提供一种票务订单的恶意占位识别***,所述***包括:
样本获取模块,获取数据库中已完成票务订单的用户信息和行为信息,部分所述已完成票务订单被标记为恶意占位,从所述用户信息和所述行为信息中提取与恶意占位相关的特征变量;
变量处理模块,基于各特征变量在被标记为恶意占位的已完成票务订单中的取值和在未被标记为恶意占位的已完成票务订单中的取值的差值,计算各特征变量的信息值;
先验处理模块,筛选出信息值大于预设阈值的特征变量,基于筛选出的特征变量在被标记为恶意占位的已完成票务订单中的取值,提取先验条件;
模型训练模块,采用筛选出的特征变量训练回归模型Z=logit(p)=log(odds)=β01X12X23X3+…+βkXk,其中p为一票务订单的恶意占位概率,odds为该票务订单发生恶意占位与不发生恶意占位的比值,odds=p/(1-p),X1,X2,…,Xk为筛选出的各特征变量在该票务订单中对应的取值,β0为截距,β12,…,βk为筛选出的各特征变量对应的回归系数;
恶意识别模块,获取实时票务订单及其用户信息和行为信息,判断该实时票务订单的用户信息和行为信息是否满足先验条件,若是则判断该实时票务订单具有恶意占位风险;
概率计算模块,对于具有恶意占位风险的实时票务订单,基于该实时票务订单的用户信息和行为信息,采用训练好的回归模型计算该实时票务订单的恶意占位概率,并拦截恶意占位概率超出概率阈值的实时票务订单。
根据本发明的另一个方面,提供一种票务订单的恶意占位识别设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的票务订单的恶意占位识别的步骤。
根据本发明的另一个方面,提供计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的票务订单的恶意占位识别的步骤。
有鉴于此,本发明与现有技术相比的有益效果在于:
本发明从用户信息和行为信息中筛选出具有高识别度的特征变量,建立更加准确规范的票务订单识别恶意占位的回归模型,能够识别出更多的恶意占位用户,减少对正常用户的误判,降低代价并提高风控效率。同时,针对不同时期恶意占位用户的特点实现周期性的更新,动态地控制恶意用户带来的风险。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明示例性实施例中一种票务订单的恶意占位识别方法的步骤示意图;
图2示出本发明示例性实施例中一种sigmoid函数曲线图;
图3示出本发明示例性实施例中一种票务订单的恶意占位识别***的模块结构图;
图4示出本发明示例性实施例中一种票务订单的恶意占位识别设备的示意图;
图5示出本发明示例性实施例中一种计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出实施例中票务订单的恶意占位识别方法的步骤示意图。参照图1所示,本实施例中票务订单的恶意占位识别方法包括:
步骤S101、获取数据库中已完成票务订单的用户信息和行为信息,部分已完成票务订单被标记为恶意占位,从用户信息和行为信息中提取与恶意占位相关的特征变量。
其中,用户信息用于标记票务订单的用户属性,例如用户性别,用户归属地等等;行为信息用于标记票务订单的行为属性,例如创单时间,创单所在地等等。特征属性的取值根据定性变量和定量变量的不同而稍有差异。对于定性变量,比如用户性别,用户分为男性和女性,可以把男性记为1,女性记为0。也即对于用户性别这个特征变量,其取值为1时代表男性,取值为0时即代表女性。对于定量变量,比如年购票次数,可以直接采用其真实值作为取值。例如一个用户年购票10次,则其特征变量年购票次数取值即为10;另一个用户年购票5次,则其特征变量年购票次数取值即为5。
步骤S102、基于各特征变量在被标记为恶意占位的已完成票务订单中的取值和在未被标记为恶意占位的已完成票务订单中的取值的差值,计算各特征变量的信息值。
在后续训练用于计算恶意占位概率的模型时,并非所有的特征变量都作为输入数据,而要筛选出重要性高的特征变量。因为本实施例要解决的问题是分类问题,即区分恶意占位和非恶意占位。如果某个特征变量在恶意占位票务订单和非恶意占位票务订单中的表现不一样就是有区分度的,能更好地区分开两类票务订单就是具有高区分度的特征变量。主要表现为恶意占位的票务订单和非恶意占位的票务订单中,该特征变量的取值分布有区别。
步骤S103、筛选出信息值大于预设阈值的特征变量,基于筛选出的特征变量在被标记为恶意占位的已完成票务订单中的取值,提取先验条件。
例如,在上述计算特征变量的信息值的过程中,发现某些特征变量,例如机票行为特征对于恶意占位用户有很好的过滤作用,故使用该特征变量作为模型输入前的先验规则。通过先验规则的票务订单即代表有恶意占位风险,因此后续再通过回归模型计算其恶意占位概率,不符合先验规则的票务订单自动标记为正常订单。即先验条件是票务订单进入回归模型之前的过滤,首先使用先验规则圈定有恶意占可能的票务订单,再使用回归模型计算判断其恶意占位概率。
步骤S104、采用筛选出的特征变量训练回归模型Z=logit(p)=log(odds)=β01X12X23X3+…+βkXk,其中p为一票务订单的恶意占位概率,odds为该票务订单发生恶意占位与不发生恶意占位的比值,odds=p/(1-p),X1,X2,…,Xk为筛选出的各特征变量在该票务订单中对应的取值,β0为截距,β12,…,βk为筛选出的各特征变量对应的回归系数。
具体的,在采用筛选出的特征变量训练回归模型之前,还包括数据预处理,包括数据清洗,去除异常值,数据转换,数据离散化,独热编码等。模型训练是指机器学习,通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。在机器学习中,根据已知数据寻找模型参数的过程就是训练,最终搜索到的映射被称为训练出来的模型。本实施例中,输入数据即筛选出的特征变量,输出数据即恶意占位/非恶意占位的分类,寻找输入数据与输出数据对应关系函数的参数的过程即为模型训练的过程。
具体来说,假设一个票务订单为恶意占位标记为1,一个票务订单为非恶意占位标记为0,要解决的问题是预测一个票务订单的分类是否为恶意占位,可以写成yi∈{0,1}。yi=1代表票务订单恶意占位,yi=0代表票务订单非恶意占位。逻辑回归是一个使用逻辑函数的回归过程,逻辑回归公式:z=logit(p)=log(odds)=β01X12X23X3+…+βkXk,其中β0为截距,β1,β2,…,βk为回归系数,X1,X2,…,Xk为特征变量,p即为票务订单恶意占位的概率。odds表示事件的几率,即事件发生与不发生的比值odds=p/(1-p),odds的值域是0到正无穷,几率越大,事件发生(即发生恶意占位)的可能性越大。如果特征变量乘以其回归系数非显著不同于0,说明该特征变量对预测输出数据(即是否恶意占位)没有显著的贡献,将会从回归模型中移除。
相应的,概率p为class=1可以表示为:
函数被称为sigmoid函数,是一个随z值变化而在[0,1]区间变化的S形函数,z的取值范围正负无穷,对应的函数曲线如图2所示。根据业务需求,调整最佳的阀值,即如果p>特定阀值,视为class=1即恶意占位。
上述的逻辑回归模型基于大量的已有恶意占位订单和非恶意占位订单作为训练数据,识别出具有高区分度的特征变量,并赋予各个特征变量合理的权重(即回归系数);根据逻辑回归模型可以结合实时数据和历史数据计算出一个票务订单是否恶意占位的概率值。较佳地,采用逻辑回归模型结合Lasso模型的方式,能够减少数据波动的影响,使模型具有较好的稳定。
此处,实时数据和历史数据都时用来进行模型训练的所需输入数据。历史数据包括两种:1)用户是男性女性等特征变量是不根据时间变化而变化的,这种特征变量如果有历史数据就可以直接从数据库调用;2)若某一特征变量是统计过去一年的数据,如果每天在实时请求下单时再计算会影响效率,那可以先统计好过去364天的,每天只需要再加上当天截止到下单时的数据,就不会影响***的计算效率。实时数据也分为两类:1)用来跟历史数据做拼接的;2)某些特征变量就是实时的数据,即用来描述用户当前时间点的某些表现。
具体的,Lasso(Least Absolute Shrinkage and Selection Operator)算法是一种同时进行特征变量选择和正则化(数学)的回归分析方法,旨在增强统计模型的预测准确性和可解释性。Lasso回归是带有参数惩罚的广义线性模型,属于Elastic Net家族,惩罚回归系数的绝对值大小。其主要思路是把权重平方的总和加到损失函数中,因此可以稳定参数估计来改善预测的准确性,减少变化程度并提高线性回归模型的精度。
也可以写作拉格朗日形式,即:
其中,为回归系数的lasso估计值;N为用于训练回归模型的已完成票务订单的样本总数,i从1取至N;yi为第i个已完成票务订单对应的回归函数,yi∈{0,1},y)=1代表票务订单恶意占位,yi=0代表票务订单非恶意占位;k为筛选出的用于训练回归模型的特征变量个数,j从1取至k;为惩罚项;t为约束值,如果t取值足够小会导致某些特征变量的回归系数为0;t通过自适应选择来使预测误差的期望估计值最小。
Lasso回归复杂度调整的程度由参数λ来控制,λ越大对变量较多的线性模型的惩罚力度就越大,从而最终获得一个变量较少的模型。目标函数的第一行与传统线性回归模型完全相同,即我们希望得到相应的自变量系数β,以此最小化实际因变量y与预测应变量βx之间的误差平方和。而线性Elastic Net与线性回归的不同之处就在于有无第二行的这个约束,线性Elastic Net希望得到的自变量系数是在由t控制的一个范围内。这一约束也是Elastic Net模型能进行复杂度调整,Lasso回归能进行变量筛选和复杂度调整的原因。
步骤S105、获取实时票务订单及其用户信息和行为信息,判断该实时票务订单的用户信息和行为信息是否满足先验条件,若是则判断该实时票务订单具有恶意占位风险;步骤S106、对于具有恶意占位风险的实时票务订单,基于该实时票务订单的用户信息和行为信息,采用训练好的回归模型计算该实时票务订单的恶意占位概率,并拦截恶意占位概率超出概率阈值的实时票务订单。
具体的,获取实时票务订单,并获取该实时票务订单对应所述筛选出的特征变量的用户信息和行为信息。进行先验条件判断时,若一实时票务订单不满足先验条件,则判断该实时票务订单不具有恶意占位风险,允许该实时票务订单对应的下单用户的票务预订行为。对于满足先验条件的实时票务订单,表明其下单用户存在恶意占位风险,因此采用回归模型计算其恶意占位概率。其中,拦截恶意占位概率超出概率阈值的实时票务订单的步骤包括:将恶意占位概率按照多个概率阈值划分恶意占位等级,对不同恶意占位等级的实时票务订单对应的下单用户,分别采取对应的拦截措施。例如,对于恶意占位概率小于第一概率阈值的实时票务订单对应的下单用户,允许其票务预定行为;对于恶意占位概率大于等于第一概率阈值且小于第二概率阈值的实时票务订单对应的下单用户,弹出验证码;对于恶意占位概率大于等于第二概率阈值的实时票务订单对应的下单用户,拒绝其票务预订行为。
进一步的,日志同时记录了输入模型的特征变量的变化,并对特征变量的取值分布进行统计监测,来迭代更新模型。例如,如果男女比例在训练数据恶意占位样本中是男70%女30%的分布,非恶意占位样本中是男55%女45%,但是经过一段时间线上的数据分布变成了男45%女55%,这个时候数据(特征变量)就发生了变化,需要及时地迭代更新模型。
综上,本实施例通过回归模型,基于大量的已有恶意占位订单和非恶意占位订单作为训练数据,识别出具有高区分度的特征变量,并赋予各个特征变量合理的权重;根据模型可以结合实时数据和历史数据计算出票务订单是否恶意占位的概率值。采用逻辑回归模型结合Lasso模型的方式,能够减少数据波动的影响,使模型具有较好的稳定性。并且通过日志记录的日志数据监测特征变量的数据变化,对模型进行调整,实现动态的更新迭代。
本发明还提供一种票务订单的恶意占位识别***,包括:
样本获取模块,获取数据库中已完成票务订单的用户信息和行为信息,部分所述已完成票务订单被标记为恶意占位,从所述用户信息和所述行为信息中提取与恶意占位相关的特征变量;
变量处理模块,基于各特征变量在被标记为恶意占位的已完成票务订单中的取值和在未被标记为恶意占位的已完成票务订单中的取值的差值,计算各特征变量的信息值;
先验处理模块,筛选出信息值大于预设阈值的特征变量,基于筛选出的特征变量在被标记为恶意占位的已完成票务订单中的取值,提取先验条件;
模型训练模块,采用筛选出的特征变量训练回归模型Z=logit(p)=log(odds)=β01X12X23X3+…+βkXk,其中p为一票务订单的恶意占位概率,odds为该票务订单发生恶意占位与不发生恶意占位的比值,odds=p/(1-p),X1,X2,…,Xk为筛选出的各特征变量在该票务订单中对应的取值,β0为截距,β12,…,βk为筛选出的各特征变量对应的回归系数;
恶意识别模块,获取实时票务订单及其用户信息和行为信息,判断该实时票务订单的用户信息和行为信息是否满足先验条件,若是则判断该实时票务订单具有恶意占位风险;
概率计算模块,对于具有恶意占位风险的实时票务订单,基于该实时票务订单的用户信息和行为信息,采用训练好的回归模型计算该实时票务订单的恶意占位概率,并拦截恶意占位概率超出概率阈值的实时票务订单。
参照图3所示的票务订单的恶意占位识别***的模块结构图。其中,上述的样本获取模块、变量处理模块、先验处理模块、模型训练模块均位于恶意占位识别模型中。恶意识别模块和概率计算模块位于风控模块中。首先,根据数据库中的样本数据,进行特征变量的筛选和处理,即执行特征工程,采用经过处理的特征变量进行机器学习(即监督学习),形成用于识别恶意占位的模型,将该恶意占位识别模型输出至风控模块。
当用户在外部(即客户端,区别于***内部)开始预订票务订单时,***采集其实时数据,并结合数据库中的历史数据,对该票务订单的特征变量进行数据预处理,先验识别等操作,并输入恶意占位模型识别其恶意占位概率。根据识别的恶意占位概率,分等级进行风控处理,对于恶意占位订单,通过验证码、拦截等操作阻止其继续预定;对于非恶意占位订单,则允许其继续预定流程。
同时,***日志实时监测特征变量的数据变化,对模型进行调整,实现动态的更新迭代。从而能够适应不断变化的用户属性和行为属性等特征变量的取值分布。
在本发明的示例性实施例中,还提供一种票务订单的恶意占位识别设备,该票务订单的恶意占位识别设备可以包括处理器,以及用于存储处理器的可执行指令的存储器。其中,处理器配置为经由执行可执行指令来执行上述任意一个实施例中所述的票务订单的恶意占位识别方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
下面参照图4来描述根据本发明的这种实施方式的票务订单的恶意占位识别设备400。图4显示的票务订单的恶意占位识别设备400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,票务订单的恶意占位识别设备400以通用计算设备的形式表现。票务订单的恶意占位识别设备400的组件可以包括但不限于:至少一个处理单元410、至少一个存储单元420、连接不同***组件(包括存储单元420和处理单元410)的总线430、显示单元440等。
其中,存储单元存储有程序代码,程序代码可以被处理单元410执行,使得处理单元410执行本说明书上述票务订单的恶意占位识别方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元410可以执行如图1中所示的步骤。
存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。
存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
票务订单的恶意占位识别设备400也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该票务订单的恶意占位识别设备400交互的设备通信,和/或与使得该票务订单的恶意占位识别设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且,票务订单的恶意占位识别设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白,尽管图中未示出,可以结合票务订单的恶意占位识别设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中所述的票务订单的恶意占位识别方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述的票务订单的恶意占位识别方法描述的根据本发明各种示例性实施方式的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
所述程序产品600可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述票务订单的恶意占位识别方法。
综上,本发明的票务订单的恶意占位识别方法、***、设备和存储介质,通过回归模型,基于大量的已有恶意占位订单和非恶意占位订单作为训练数据,识别出具有高区分度的特征变量,并赋予各个特征变量合理的权重;根据模型可以结合实时数据和历史数据计算出票务订单是否恶意占位的概率值。采用逻辑回归模型结合Lasso模型的方式,能够减少数据波动的影响,使模型具有较好的稳定性。并且通过日志记录的日志数据监测特征变量的数据变化,对模型进行调整,实现动态的更新迭代。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。

Claims (10)

1.一种票务订单的恶意占位识别方法,其特征在于,所述方法包括:
获取数据库中已完成票务订单的用户信息和行为信息,部分所述已完成票务订单被标记为恶意占位,从所述用户信息和所述行为信息中提取与恶意占位相关的特征变量;
基于各特征变量在被标记为恶意占位的已完成票务订单中的取值和在未被标记为恶意占位的已完成票务订单中的取值的差值,计算各特征变量的信息值;
筛选出信息值大于信息阈值的特征变量,基于筛选出的特征变量在被标记为恶意占位的已完成票务订单中的取值,提取先验条件;
采用筛选出的特征变量训练回归模型Z=logit(p)=log(odds)=β01X12X23X3+…+βkXk,其中p为一票务订单的恶意占位概率,odds为该票务订单发生恶意占位与不发生恶意占位的比值,odds=p/(1-p),X1,X2,…,Xk为筛选出的各特征变量在该票务订单中对应的取值,β0为截距,β12,…,βk为筛选出的各特征变量对应的回归系数;
获取实时票务订单及其用户信息和行为信息,判断该实时票务订单的用户信息和行为信息是否满足对应的先验条件,若是则判断该实时票务订单具有恶意占位风险;
对于具有恶意占位风险的实时票务订单,基于该实时票务订单的用户信息和行为信息,采用训练好的回归模型计算该实时票务订单的恶意占位概率,并拦截恶意占位概率超出概率阈值的实时票务订单。
2.如权利要求1所述的票务订单的恶意占位识别方法,其特征在于,训练回归模型时,还包括采用下述公式对回归系数进行调整:
其中,为回归系数的lasso估计值;
N为用于训练回归模型的已完成票务订单的样本总数,i从1取至N;
yi为第i个已完成票务订单对应的回归函数,yi∈{0,1},yi=1代表票务订单恶意占位,yi=0代表票务订单非恶意占位;
k为筛选出的用于训练回归模型的特征变量个数,j从1取至k;
为惩罚项;
t为约束值。
3.如权利要求1所述的票务订单的恶意占位识别方法,其特征在于,所述拦截恶意占位概率超出概率阈值的实时票务订单的步骤包括:
将恶意占位概率按照多个概率阈值划分恶意占位等级,对不同恶意占位等级的实时票务订单对应的下单用户,分别采取对应的拦截措施。
4.如权利要求3所述的票务订单的恶意占位识别方法,其特征在于,所述拦截措施包括:
对于恶意占位概率小于第一概率阈值的实时票务订单对应的下单用户,允许其票务预定行为;
对于恶意占位概率大于等于第一概率阈值且小于第二概率阈值的实时票务订单对应的下单用户,弹出验证码;
对于恶意占位概率大于等于第二概率阈值的实时票务订单对应的下单用户,拒绝其票务预订行为。
5.如权利要求1所述的票务订单的恶意占位识别方法,其特征在于,进行先验条件判断时,若一实时票务订单不满足先验条件,则判断该实时票务订单不具有恶意占位风险,允许该实时票务订单对应的下单用户的票务预订行为。
6.如权利要求1所述的票务订单的恶意占位识别方法,其特征在于,获取实时票务订单及其用户信息和行为信息的步骤包括:
获取实时票务订单,并获取该实时票务订单对应所述筛选出的特征变量的用户信息和行为信息。
7.如权利要求1所述的票务订单的恶意占位识别方法,其特征在于,采用筛选出的特征变量训练回归模型前,还包括对所述筛选出的特征变量进行数据预处理的步骤。
8.一种票务订单的恶意占位识别***,其特征在于,所述***包括:
样本获取模块,获取数据库中已完成票务订单的用户信息和行为信息,部分所述已完成票务订单被标记为恶意占位,从所述用户信息和所述行为信息中提取与恶意占位相关的特征变量;
变量处理模块,基于各特征变量在被标记为恶意占位的已完成票务订单中的取值和在未被标记为恶意占位的已完成票务订单中的取值的差值,计算各特征变量的信息值;
先验处理模块,筛选出信息值大于预设阈值的特征变量,基于筛选出的特征变量在被标记为恶意占位的已完成票务订单中的取值,提取先验条件;
模型训练模块,采用筛选出的特征变量训练回归模型Z=logit(p)=log(odds)=β01X12X23X3+…+βkXk,其中p为一票务订单的恶意占位概率,odds为该票务订单发生恶意占位与不发生恶意占位的比值,odds=p/(1-p),X1,X2,…,Xk为筛选出的各特征变量在该票务订单中对应的取值,β0为截距,β12,…,βk为筛选出的各特征变量对应的回归系数;
恶意识别模块,获取实时票务订单及其用户信息和行为信息,判断该实时票务订单的用户信息和行为信息是否满足先验条件,若是则判断该实时票务订单具有恶意占位风险;
概率计算模块,对于具有恶意占位风险的实时票务订单,基于该实时票务订单的用户信息和行为信息,采用训练好的回归模型计算该实时票务订单的恶意占位概率,并拦截恶意占位概率超出概率阈值的实时票务订单。
9.一种票务订单的恶意占位识别设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7任一项所述的票务订单的恶意占位识别的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7任一项所述的票务订单的恶意占位识别的步骤。
CN201711499025.0A 2017-12-28 2017-12-28 票务订单的恶意占位识别方法、***、设备和存储介质 Pending CN108564423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711499025.0A CN108564423A (zh) 2017-12-28 2017-12-28 票务订单的恶意占位识别方法、***、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711499025.0A CN108564423A (zh) 2017-12-28 2017-12-28 票务订单的恶意占位识别方法、***、设备和存储介质

Publications (1)

Publication Number Publication Date
CN108564423A true CN108564423A (zh) 2018-09-21

Family

ID=63530493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711499025.0A Pending CN108564423A (zh) 2017-12-28 2017-12-28 票务订单的恶意占位识别方法、***、设备和存储介质

Country Status (1)

Country Link
CN (1) CN108564423A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408556A (zh) * 2018-09-28 2019-03-01 中国平安人寿保险股份有限公司 基于大数据的异常用户识别方法及装置、电子设备、介质
CN110288350A (zh) * 2019-04-24 2019-09-27 武汉众邦银行股份有限公司 用户价值预测方法、装置、设备及存储介质
CN111461815A (zh) * 2020-03-17 2020-07-28 上海携程国际旅行社有限公司 订单识别模型生成方法、识别方法、***、设备和介质
CN112163932A (zh) * 2020-09-30 2021-01-01 中国民航信息网络股份有限公司 恶意占座订单的识别方法、装置及电子设备
CN112396504A (zh) * 2021-01-21 2021-02-23 北京天通慧智科技有限公司 一种电商订单拦截方法、装置和电子设备
CN112529509A (zh) * 2020-12-29 2021-03-19 安徽运通达物流科技有限公司 一种运输平台中恶意运单识别的方法
CN113328978A (zh) * 2020-02-28 2021-08-31 北京沃东天骏信息技术有限公司 恶意用户识别方法及装置、计算机存储介质、电子设备
CN114881711A (zh) * 2022-07-11 2022-08-09 荣耀终端有限公司 基于请求行为进行异常分析的方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458042A (zh) * 2013-09-10 2013-12-18 上海交通大学 一种微博广告用户检测方法
CN104809589A (zh) * 2015-05-08 2015-07-29 北京嘀嘀无限科技发展有限公司 用于处理订单的方法及设备
CN106786560A (zh) * 2017-02-14 2017-05-31 中国电力科学研究院 一种电力***稳定特征自动提取方法及装置
CN106779126A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 恶意占座订单的处理方法和***
CN107341716A (zh) * 2017-07-11 2017-11-10 北京奇艺世纪科技有限公司 一种恶意订单识别的方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458042A (zh) * 2013-09-10 2013-12-18 上海交通大学 一种微博广告用户检测方法
CN104809589A (zh) * 2015-05-08 2015-07-29 北京嘀嘀无限科技发展有限公司 用于处理订单的方法及设备
CN106779126A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 恶意占座订单的处理方法和***
CN106786560A (zh) * 2017-02-14 2017-05-31 中国电力科学研究院 一种电力***稳定特征自动提取方法及装置
CN107341716A (zh) * 2017-07-11 2017-11-10 北京奇艺世纪科技有限公司 一种恶意订单识别的方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁颖等: "《学术影响力的测评 方法与实践》", 30 September 2017, 武汉大学出版社 *
蔡楠: "《半参数平滑转换自回归模型理论研究及其应用》", 31 December 2016, 东北财经大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408556A (zh) * 2018-09-28 2019-03-01 中国平安人寿保险股份有限公司 基于大数据的异常用户识别方法及装置、电子设备、介质
CN109408556B (zh) * 2018-09-28 2024-02-02 中国平安人寿保险股份有限公司 基于大数据的异常用户识别方法及装置、电子设备、介质
CN110288350A (zh) * 2019-04-24 2019-09-27 武汉众邦银行股份有限公司 用户价值预测方法、装置、设备及存储介质
CN113328978A (zh) * 2020-02-28 2021-08-31 北京沃东天骏信息技术有限公司 恶意用户识别方法及装置、计算机存储介质、电子设备
CN113328978B (zh) * 2020-02-28 2023-06-27 北京沃东天骏信息技术有限公司 恶意用户识别方法及装置、计算机存储介质、电子设备
CN111461815A (zh) * 2020-03-17 2020-07-28 上海携程国际旅行社有限公司 订单识别模型生成方法、识别方法、***、设备和介质
CN111461815B (zh) * 2020-03-17 2023-04-28 上海携程国际旅行社有限公司 订单识别模型生成方法、识别方法、***、设备和介质
CN112163932A (zh) * 2020-09-30 2021-01-01 中国民航信息网络股份有限公司 恶意占座订单的识别方法、装置及电子设备
CN112529509A (zh) * 2020-12-29 2021-03-19 安徽运通达物流科技有限公司 一种运输平台中恶意运单识别的方法
CN112396504A (zh) * 2021-01-21 2021-02-23 北京天通慧智科技有限公司 一种电商订单拦截方法、装置和电子设备
CN114881711A (zh) * 2022-07-11 2022-08-09 荣耀终端有限公司 基于请求行为进行异常分析的方法及电子设备

Similar Documents

Publication Publication Date Title
CN108564423A (zh) 票务订单的恶意占位识别方法、***、设备和存储介质
Usmani et al. Stock market prediction using machine learning techniques
CN109241418A (zh) 基于随机森林的异常用户识别方法及装置、设备、介质
CN104834983B (zh) 业务数据处理方法及装置
US20190180379A1 (en) Life insurance system with fully automated underwriting process for real-time underwriting and risk adjustment, and corresponding method thereof
US9122995B2 (en) Classification of stream-based data using machine learning
CN112926699A (zh) 异常对象识别方法、装置、设备及存储介质
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
CN110163647A (zh) 一种数据处理方法及装置
CN109784779A (zh) 财务风险预测方法、装置及存储介质
CN108062674A (zh) 基于gps的订单欺诈识别方法、***、存储介质和电子设备
CN107679734A (zh) 一种用于无标签数据分类预测的方法和***
AU2019100968A4 (en) A Credit Reporting Evaluation System Based on Mixed Machine Learning
CN110147389A (zh) 帐号处理方法和装置、存储介质及电子装置
CN109784352A (zh) 一种评估分类模型的方法和装置
Oliveira et al. Modelling the redistribution of hospital supply to achieve equity taking account of patient's behaviour
CN114187125A (zh) 理赔案件分流方法、装置、设备及存储介质
CN117235608A (zh) 风险检测方法、装置、电子设备及存储介质
CN109117352B (zh) 服务器性能预测方法和装置
CN109767333A (zh) 选基方法、装置、电子设备及计算机可读存储介质
CN106779245B (zh) 基于事件的民航需求预测方法和装置
CN116776209A (zh) 一种关口计量装置运行状态辨识方法、***、设备及介质
CN112634062A (zh) 基于Hadoop的数据处理方法、装置、设备及存储介质
US11551104B2 (en) Method and system for exchange of packets pertaining to an instrument
CN112712270B (zh) 信息处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921