CN109285009B - 刷单识别方法和刷单识别装置 - Google Patents

刷单识别方法和刷单识别装置 Download PDF

Info

Publication number
CN109285009B
CN109285009B CN201810886770.9A CN201810886770A CN109285009B CN 109285009 B CN109285009 B CN 109285009B CN 201810886770 A CN201810886770 A CN 201810886770A CN 109285009 B CN109285009 B CN 109285009B
Authority
CN
China
Prior art keywords
subset
cluster
type
users
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810886770.9A
Other languages
English (en)
Other versions
CN109285009A (zh
Inventor
王聪
李�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201810886770.9A priority Critical patent/CN109285009B/zh
Publication of CN109285009A publication Critical patent/CN109285009A/zh
Application granted granted Critical
Publication of CN109285009B publication Critical patent/CN109285009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud

Landscapes

  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种刷单识别方法,包括:根据疑似刷单的第一类型用户的第一集合中第一类型用户的订单信息,确定疑似合作刷单的第二类型用户的第二集合;根据所述第二集合中第二类型用户的订单信息,扩展所述第一集合中的第一类型用户;分别对第一集合和第二集合进行聚类,得到第一子集和第二子集;确定所述第一子集和所述第二子集中合作刷单的第一类型用户和第二类型用户。根据本公开的实施例,可以对用户构成的集合进行识别,有益于提高识别效率,并且针对复杂的群体合作刷单场景也能够进行有效地识别。

Description

刷单识别方法和刷单识别装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及刷单识别方法、刷单识别装置、电子设备和计算机可读存储介质。
背景技术
目前识别网约车刷单的方式,主要是根据订单特征和司机画像来识别,这种判断方式主要是针对个体目标进行判断,一方面效率较低,另一方面对于复杂的群体合作刷单场景难以有效地识别。
发明内容
根据本发明实施例的第一方面提出一种刷单识别方法,包括:
根据疑似刷单的第一类型用户的第一集合中第一类型用户的订单信息,确定疑似合作刷单的第二类型用户的第二集合;
根据所述第二集合中第二类型用户的订单信息,扩展所述第一集合中的第一类型用户;
分别对第一集合和第二集合进行聚类,得到第一子集和第二子集;
确定所述第一子集和所述第二子集中合作刷单的第一类型用户和第二类型用户。
可选地,所述方法还包括:
根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,i为正整数;
根据第i次扩展的第二集合中的第二类型用户的订单信息,第i+1次扩展所述第一集合中的第一类型用户;
对第i+1次扩展的第一集合和i次扩展的第二集合中的第二类型用户进行聚类,得到第i+1次聚类的第一子集和第i次聚类的第二子集;
确定第i+1次聚类的第一子集和第i次聚类的第二子集是否收敛;
若第i+1次聚类的第一子集和第i次聚类的第二子集收敛,确定第i+1次聚类的第一子集和第i次聚类的第二子集中合作刷单的第一类型用户和第二类型用户;
其中,若确定出合作刷单的第一类型用户和第二类型用户,将i+1次聚类的第一子集作为第i次扩展的第一集合,将i增大1,根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,直至第i+1次聚类的第一子集或第i次聚类的第二子集收敛,或者直至确定不出合作刷单的第一类型用户和第二类型用户。
可选地,所述确定第i+1次聚类的第一子集和第i次聚类的第二子集是否收敛包括:
确定第i+1次聚类的第一子集和第i次聚类的第一子集是否相同,以及第i次聚类的第二子集和第i-1次聚类的第二子集是否相同;
若第i+1次聚类的第一子集和第i次聚类的第一子集相同,且第i次聚类的第二子集和第i-1次聚类的第二子集相同,确定第i+1次聚类的第一子集和第i次聚类的第二子集收敛。
可选地,所述对第i+1次扩展的第一集合和i次扩展的第二集合中的第二类型用户进行聚类,得到第i+1次聚类的第一子集和第i次聚类的第二子集包括:
根据第一类型用户的特征信息对第i+1次扩展的第一集合中的第一类型用户进行空间表征,根据第二类型用户的特征信息对第i次扩展的第二集合中的第二类型用户进行空间表征;
通过聚类算法在第i+1次扩展的第一集合中确定每两个第一类型用户之间的第一距离,以及在第i次扩展的第二集合中确定每两个第二类型用户之间的第二距离;
基于第一距离小于第一预设距离的第一类型用户构成第i+1次聚类的第一子集,基于第二距离小于第二预设距离的第二类型用户构成第i次聚类的第二子集。
可选地,所述确定第i+1次聚类的第一子集和第i次聚类的第二子集中合作刷单的第一类型用户和第二类型用户包括:
基于通过机器学习得到的验证模型,验证第i+1次聚类的第一子集中的用户和第i次聚类的第二子集中的用户是否合作刷单。
根据本发明实施例的第二方面,提出一种刷单识别装置,包括:
集合确定模块,用于根据疑似刷单的第一类型用户的第一集合中第一类型用户的订单信息,确定疑似合作刷单的第二类型用户的第二集合;
集合扩展模块,用于根据所述第二集合中第二类型用户的订单信息,扩展所述第一集合中的第一类型用户;
聚类模块,用于分别对第一集合和第二集合进行聚类,得到第一子集和第二子集;
刷单确定模块,用于确定所述第一子集和所述第二子集中合作刷单的第一类型用户和第二类型用户。
可选地,所述集合扩展模块用于根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,i为正整数;以及根据第i次扩展的第二集合中的第二类型用户的订单信息,第i+1次扩展所述第一集合中的第一类型用户;
所述聚类模块用于对第i+1次扩展的第一集合和i次扩展的第二集合中的第二类型用户进行聚类,得到第i+1次聚类的第一子集和第i次聚类的第二子集;
所述装置还包括:
收敛确定模块,用于确定第i+1次聚类的第一子集和第i次聚类的第二子集是否收敛;
其中,所述刷单确定模块在第i+1次聚类的第一子集和第i次聚类的第二子集收敛的情况下,确定第i+1次聚类的第一子集和第i次聚类的第二子集中合作刷单的第一类型用户和第二类型用户;
其中,若确定出合作刷单的第一类型用户和第二类型用户,将i+1次聚类的第一子集作为第i次扩展的第一集合,将i增大1,所述集合扩展模块用于根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,直至第i+1次聚类的第一子集或第i次聚类的第二子集收敛,或者直至确定不出合作刷单的第一类型用户和第二类型用户。
可选地,所述收敛确定模块包括:
相同确定模块,用于确定第i+1次聚类的第一子集和第i次聚类的第一子集是否相同,以及第i次聚类的第二子集和第i-1次聚类的第二子集是否相同;
其中,若第i+1次聚类的第一子集和第i次聚类的第一子集相同,且第i次聚类的第二子集和第i-1次聚类的第二子集相同,确定第i+1次聚类的第一子集和第i次聚类的第二子集收敛。
可选地,所述聚类模块包括:
空间表征子模块,用于根据第一类型用户的特征信息对第i+1次扩展的第一集合中的第一类型用户进行空间表征,根据第二类型用户的特征信息对第i次扩展的第二集合中的第二类型用户进行空间表征;
距离确定子模块,用于通过聚类算法在第i+1次扩展的第一集合中确定每两个第一类型用户之间的第一距离,以及在第i次扩展的第二集合中确定每两个第二类型用户之间的第二距离;
用户聚类子模块,用于基于第一距离小于第一预设距离的第一类型用户构成第i+1次聚类的第一子集,基于第二距离小于第二预设距离的第二类型用户构成第i次聚类的第二子集。
可选地,所述刷单确定模块包括:
验证子模块,用于基于通过机器学习得到的验证模型,验证第i+1次聚类的第一子集中的用户和第i次聚类的第二子集中的用户是否合作刷单。
根据本发明实施例的第三方面,提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述任一实施例所述的刷单识别方法中的步骤。
根据本发明实施例的第四方面,提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述任一实施例所述的刷单识别方法中的步骤。
根据本发明的实施例,相对于相关技术中针对个体进行识别的情况,可以对用户构成的集合进行识别,有益于提高识别效率,并且针对复杂的群体合作刷单场景也能够进行有效地识别。
附图说明
图1是根据本发明的实施例示出的一种刷单识别方法的示意流程图。
图2是根据本发明的实施例示出的另一种刷单识别方法的示意流程图。
图3是根据本发明的实施例示出的又一种刷单识别方法的示意流程图。
图4是根据本发明的实施例示出的又一种刷单识别方法的示意流程图。
图5是根据本发明的实施例示出的又一种刷单识别方法的示意流程图。
图6是根据本发明的实施例示出的刷单识别装置所在服务器的一种硬件结构图。
图7是根据本发明的实施例示出的一种刷单识别装置的示意框图。
图8是根据本发明的实施例示出的另一种刷单识别装置的示意框图。
图9是根据本发明的实施例示出的一种收敛确定模块的示意框图。
图10是根据本发明的实施例示出的一种刷单确定模块的示意框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据本发明的实施例示出的一种刷单识别方法的示意流程图。本实施例所示的刷单识别方法可以应用于至少两类用户进行交易的场景。例如网约车场景,其中一类用户是司机,另一类用户是乘客;例如网络购物场景,其中一类用户是商家,另一类用户是顾客。当然,本实施例所示的方法可应用的场景并不限于上述场景,具体可以根据需要进行设置。以下主要在网约车场景下对本发明的实施例进行示例性说明。
如图1所示,所述刷单识别方法可以包括以下步骤:
步骤S1,根据疑似刷单的第一类型用户的第一集合中第一类型用户的订单信息,确定疑似合作刷单的第二类型用户的第二集合。
在一个实施例中,若第一类型用户是司机,那么第二类型用户则是乘客;若第一类型用户是乘客,那么第二类型用户则是司机。以下主要在第一类型用户是司机,第二类型用户是乘客的情况下,对本发明的实施例进行说明。
在一个实施例中,针对司机而言,可以根据司机的完成订单的路径信息,订单频率信息,订单补贴信息等确定疑似刷单的司机。
例如以路径信息为例,若在司机完成的订单中,完成某条路径的订单占总订单的比例较大,那么可以确定司机为疑似刷单的司机。
例如以订单频率信息为例,若司机单位时间内完成的订单数量较多,那么可以确定司机为疑似刷单的司机。
例如以订单补贴信息为例,若在司机完成的订单中,获得补贴的订单占总订单的比例较大,那么可以确定司机为疑似刷单的司机。
需要说明的是,确定疑似刷单的第一类型用户所依据的信息并不限于上述几种,可以根据需要进行设置。并且在根据多种信息确定疑似刷单的第一类型用户时,可以为每种信息分别设置权值。
在一个实施例中,确定的疑似刷单的司机可以是一个,也可以是多个,确定的疑似刷单的司机可以构成第一集合。针对第一集合中的每个司机,可以根据司机的订单信息,确定疑似合作刷单的乘客,确定的疑似合作刷单的乘客可以构成第二集合。对于一个疑似刷单司机而言,确定的疑似合作刷单的乘客可以为一个,也可以为多个。以下主要在疑似刷单的司机为一个的情况下,对本发明的实施例进行说明。
在一个实施例中,根据司机的订单信息,确定合作刷单的乘客,其中,司机的订单信息可以包括以下至少之一:画像信息,路径信息,订单频率信息,订单补贴信息,评价信息。
例如以路径信息为例,若在司机所完成的订单中,完成某条路径的订单的数量,与乘客所完成的订单中,完成某条路径的订单的数量相近,那么可以确定该乘客为合作刷单的乘客。
例如以订单频率信息为例,若在司机所完成的订单中,某个时段单位时间内完成订单的数量,与乘客所完成的订单中,某个时段单位时间内完成订单的数量相近,那么可以确定该乘客为合作刷单乘客。
需要说明的是,确定合作刷单的第二类型用户所依据的信息并不限于上述几种,可以根据需要进行设置。并且在根据多种信息确定合作刷单的第二类型用户时,可以为每种信息分别设置权值。
步骤S2,根据所述第二集合中第二类型用户的订单信息,扩展所述第一集合中的第一类型用户。
在一个实施例中,在确定了疑似合作刷单的乘客的第二集合后,针对第二集合中每个疑似合作刷单的乘客,可以进一步根据乘客订单信息确定疑似合作刷单的司机,针对每个第二乘客所确定的疑似合作刷单的司机,可以对第一集合进行拓展,增加第一集合中疑似合作刷单的司机。
其中,乘客的订单信息可以包括以下至少之一:画像信息,路径信息,订单频率信息,订单补贴信息,评价信息。
例如以路径信息为例,若在乘客所完成的订单中,完成某条路径的订单的数量,与司机所完成的订单中,完成某条路径的订单的数量相近,那么可以确定该司机为疑似合作刷单司机。
例如以订单频率信息为例,若在乘客所完成的订单中,某个时段单位时间内完成订单的数量,与司机所完成的订单中,某个时段单位时间内完成订单的数量相近,那么可以确定该司机为疑似合作刷单司机。
步骤S3,分别对第一集合和第二集合进行聚类,得到第一子集和第二子集。
由于第一集合中司机为疑似刷单的司机,也即可能既包括的确与乘客合作刷单的司机,也包括未与乘客合作刷单的司机,同理,第二集合也是可能既包括的确与司机合作刷单的乘客,也包括未与司机合作刷单的乘客。因此,若基于第一集合和第二集合直接确定合作刷单的乘客和司机,那么将较大可能考虑到未合作刷单的司机和乘客,不仅导致处理的数据量增大,还可能将未合作刷单的司机和乘客误判为合作刷单。
在一个实施例中,可以根据司机的特征信息对第一集合中的司机进行空间表征,以及根据乘客的特征信息对第二集合中的乘客进行空间表征,然后对第一集合进行聚类可以得到第一子集,对第二集合进行聚类可以得到第二子集,聚类之后的子集中的元素,相对于聚类之前的集合中的元素,元素之间距离较近,也即特征信息较为接近。
而特征信息是与合作刷单相关的特征信息,更为接近的特征信息说明第一子集中的司机刷单特性更为明显,说明第一子集中司机的刷单特性更为明显,也即第一子集中的司机合作刷单的概率均值,相对于第一集合中的司机合作刷单的概率均值更大。同理,第二子集中的乘客合作刷单的概率均值,相对于第二集合中的乘客合作刷单的概率均值更大。
据此,后续可以基于第一子集和第二子集确定合作刷单的乘客和司机,相对于基于第一集合和第二集合直接确定合作刷单的乘客和司机,不仅可以降低处理数据的数据量,还可以提高确定合作刷单的司机和乘客的准确率。
步骤S4,确定所述第一子集和所述第二子集中合作刷单的第一类型用户和第二类型用户。
在一个实施例中,可以通过机器学习预先训练出验证模型,验证模型可以体现刷单的司机的群组和刷单的乘客的群组合作刷单时的关系,基于验证模型可以识别出第一子集和所述第二子集中合作刷单的第一类型用户和第二类型用户,进而可以输出合作刷单的第一类型用户和第二类型用户供操作者人员分析查看。
相对于相关技术中针对个体进行识别的情况,根据本实施例可以对用户构成的集合进行识别,例如对乘客集合和司机集合进行识别,有益于提高识别效率,并且针对复杂的群体合作刷单场景也能够进行有效地识别。
图2是根据本发明的实施例示出的另一种刷单识别方法的示意流程图。如图2所示,在图1所示实施例的基础上,所述方法还包括:
步骤S5,根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,i为正整数;
步骤S6,根据第i次扩展的第二集合中的第二类型用户的订单信息,第i+1次扩展所述第一集合中的第一类型用户;
步骤S7,对第i+1次扩展的第一集合和i次扩展的第二集合中的第二类型用户进行聚类,得到第i+1次聚类的第一子集和第i次聚类的第二子集;
步骤S8,确定第i+1次聚类的第一子集和第i次聚类的第二子集是否收敛;
步骤S9,若第i+1次聚类的第一子集和第i次聚类的第二子集收敛,确定第i+1次聚类的第一子集和第i次聚类的第二子集中合作刷单的第一类型用户和第二类型用户;
其中,若确定出合作刷单的第一类型用户和第二类型用户,将第i+1次聚类的第一子集作为第i次扩展的第一集合,将i增大1,根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,直至第i+1次聚类的第一子集或第i次聚类的第二子集收敛,或者直至确定不出合作刷单的第一类型用户和第二类型用户。
在一个实施例中,除了可以对第一集合进行扩展,还可以对第二集合进行扩展,例如在第i次扩展第一集合后,可以根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展第二集合中的第二类型用户,进而可以再次对第一集合进行扩展,根据第i次扩展的第二集合中的第二类型用户的订单信息,第i+1次扩展所述第一集合中的第一类型用户,以此类推,可以多次扩展第一集合和第二集合,使得第一集合包含尽可能多的第一类型用户,以及使得第二集合包含尽可能多的第二类型用户,以便通过后续步骤尽可能多地识别出合作刷单的第一类型用户和第二类型用户的效率,从而提高识别效率。
另外,对于每次扩展后的第一集合和第二集合可以进行聚类,例如对第i+1次扩展的第一集合进行聚类得到第i+1次聚类的第一子集,对i次扩展的第二集合进行聚类得到第i次聚类的第二子集,进而在聚类的子集的基础上扩展集合,有利于保证扩展后的集合中的用户,更有可能是合作刷单的用户。
需要说明的是,对于第一集合和第二集合的拓展在某些情况下可以停止,例如在第i+1次聚类的第一子集和第i次聚类的第二子集收敛,或者确定不出合作刷单的第一类型用户和第二类型用户,就可以停止继续。
其中,若第i+1次聚类的第一子集和第i次聚类的第二子集收敛,说明第一集合和第二集合已经扩展到了满足需要的程度,例如经过扩展并没有增加集合中用户的数目,则无需继续扩展下去,从而可以停止扩展。而若确定不出合作刷单的第一类型用户和第二类型用户,说明对第一集合和第二集合的扩展出现了问题,若继续扩展将可能使得第一集合和第二集合包含更多未合作刷单的用户,导致更加无法确定出合作刷单的第一类型用户和第二类型用户,因此也可以停止扩展。
而若能确定出合作刷单的第一类型用户和第二类型用户,且第i+1次聚类的第一子集或第i次聚类的第二子集不收敛,那么可以将i+1次聚类的第一子集作为第i次扩展的第一集合,将i增大1,根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,从而继续扩展第一集合和第二集合。
另外,在i=1的情况下,若未确定出合作刷单的第一类型用户和第二类型用户,说明初始确定的第一集合有误,可以重新选择第一类型用户来构成第一集合。
图3是根据本发明的实施例示出的又一种刷单识别方法的示意流程图。如图3所示,在图2所示实施例的基础上,所述确定第i+1次聚类的第一子集和第i次聚类的第二子集是否收敛包括:
步骤S801,确定第i+1次聚类的第一子集和第i次聚类的第一子集是否相同,以及第i次聚类的第二子集和第i-1次聚类的第二子集是否相同;
步骤S802,若第i+1次聚类的第一子集和第i次聚类的第一子集相同,且第i次聚类的第二子集和第i-1次聚类的第二子集相同,确定第i+1次聚类的第一子集和第i次聚类的第二子集收敛。
在一个实施例中,若第i+1次聚类的第一子集和第i次聚类的第一子集相同,也即根据新扩展出的第一子集确定出的第一子集和根据前一次扩展出的第一子集确定出的第一子集相同,这种情况说明经过扩展并没有使得第一子集中的用户增加,因此无需对第一集合进行扩展。相应地,若第i次聚类的第二子集和第i-1次聚类的第二子集相同,说明经过扩展并没有使得第二子集中的用户增加,因此无需对第二集合进行扩展。
除了根据图3所示实施例的方式判断第一子集和第二子集是否收敛,还可以根据需要选择其他方式进行判断。
例如若第i+1次聚类的第一子集和第i次聚类的第一子集不同,可以确定第i+1次聚类的第一子集在第i次聚类的第一子集的第一相对补集;若第i次聚类的第二子集和第i-1次聚类的第二子集不同,可以确定第i次聚类的第二子集在第i-1次聚类的第二子集的第二相对补集。
其中,相对补集是指,针对A集合和B集合而言,A集合所包含的B集合没有的元素的集合,即A集合在B集合中的相对补集。例如第一相对补集是指第i+1次聚类的第一子集所包含的第i次聚类的第一子集没有的司机的集合,第二相对补集是指第i次聚类的第二子集所包含的第i-1次聚类的第二子集没有的乘客的集合。
若识别出合作刷单的第一类型用户和第二类型用户,说明新确定的子集相对前次确定子集扩展出了新的用户,并且扩展出的新的用户是合作刷单的,因此对于前次确定子集继续扩展可以使得新确定的子集包括更多的合作刷单的用户,也即在基于第一相对补集和第二相对补集识别出合作刷单的第一类型用户和第二类型用户时,可以判定所述第一子集和所述第二子集不收敛,从而可以继续扩展第一集合和第二集合,来增加第一子集和第二子集中的用户。
而若基于第一相对补集和第二相对补集,识别不出合作刷单的第一类型用户和第二类型用户,也即即使再扩展第一集合和第二集合,扩展出的新的用户也不是合作刷单的用户,从而可以判定所述第一子集和所述第二子集收敛,停止扩展第一集合和第二集合。
另外,还可以根据i的数值来确定是否收敛,若i较大,例如大于预设数值,说明对于第一集合和第二集合扩展的次数较多,可以确定第一子集和所述第二子集收敛,以便继续扩展第一集合和第二集合,浪费资源。
图4是根据本发明的实施例示出的又一种刷单识别方法的示意流程图。如图4所示,在图2所示实施例的基础上,所述对第i+1次扩展的第一集合和i次扩展的第二集合中的第二类型用户进行聚类,得到第i+1次聚类的第一子集和第i次聚类的第二子集包括:
步骤S701,根据第一类型用户的特征信息对第i+1次扩展的第一集合中的第一类型用户进行空间表征,根据第二类型用户的特征信息对第i次扩展的第二集合中的第二类型用户进行空间表征;
步骤S702,通过聚类算法在第i+1次扩展的第一集合中确定每两个第一类型用户之间的第一距离,以及在第i次扩展的第二集合中确定每两个第二类型用户之间的第二距离;
步骤S703,基于第一距离小于第一预设距离的第一类型用户构成第i+1次聚类的第一子集,基于第二距离小于第二预设距离的第二类型用户构成第i次聚类的第二子集。
在一个实施例中,可以针对司机和乘客分别提取特征信息,其中,所提取的特征信息可以是一种,也可以是多种,优选地,可以为多种。其中,可以以所提取的特征信息作为维度,每种特征信息作为一维,进而可以通过特征信息对司机和用户进行空间表征,将司机和用户表示为坐标的形式,坐标中的值即特征的值。
例如针对司机和乘客而言,所提取的特征信息包括以下至少之一:画像信息,路径信息,订单频率信息,订单补贴信息,评价信息。当然,特征信息并不限于上述几种,具体可以根据需要进行设置和选择。
在一个实施例中,针对空间表征的司机和乘客,可以分别计算司机和司机之间的距离,以及乘客和乘客之间的距离,进而针对司机和乘客,可以根据确定的距离分别通过聚类算法进行聚类。
例如针对司机而言,可以计算第一并集中每两个司机之间的距离,然后通过无监督学习进行聚类,其中,所采用的聚类算法可以是KNN(K最近邻)分类算法,或者分层聚类算法。
其中,特征信息是与合作刷单相关的特征信息,更为接近的特征信息说明第一子集中的司机刷单特性更为明显,说明第一子集中司机的刷单特性更为明显,也即第一子集中的司机合作刷单的概率均值,相对于第一集合中的司机合作刷单的概率均值更大。同理,第二子集中的乘客合作刷单的概率均值,相对于第二集合中的乘客合作刷单的概率均值更大。
图5是根据本发明的实施例示出的又一种刷单识别方法的示意流程图。如图5所示,在图2所示实施例的基础上,所述确定第i+1次聚类的第一子集和第i次聚类的第二子集中合作刷单的第一类型用户和第二类型用户包括:
步骤S901,基于通过机器学习得到的验证模型,验证第i+1次聚类的第一子集中的用户和第i次聚类的第二子集中的用户是否合作刷单。
在一个实施例中,可以从历史数据中确定的确进行合作刷单的第一类型用户和第二类型用户作为样本,以构成样本集合,进而基于样本集合中的样本可以通过机器学习得到验证模型。
在一个实施例中,可以在扩展的第一集合和扩展的第二集合中确定刷单的第一类型用户和第二类型用户,例如通过线下核实的方式或者按照预设规则进行确定,然后将确定的第一类型用户和第二类型用户以构成样本集合,进而基于样本集合中的样本可以通过机器学习得到验证模型。
其中,按照预设规则的方式确定刷单的第一类型用户和第二类型用户,可以针对第一集合中的部分司机计算完成订单的数量在单位时间(例如一天)内的第一分布,针对第二集合中的部分乘客计算完成订单的数量在单位时间内的第二分布,然后计算第一分布和第二分布的相似度,若相似度较高,那么确定这部分司机和这部分乘客合作刷单。
需要说明的是,所述机器学习可以是监督学习,所采用的机器学习算法可以是逻辑回归、梯度提升树、神经网络等。
在一个实施例中,若在扩展的第一集合和扩展的第二集合中确定刷单的第一类型用户和第二类型用户作为样本以构成样本集合,那么基于验证模型确定合作刷单的第一类型用户和第二类型用户,可以是针对第一集合和第二集合中未作为样本的第一类型用户和第二类型用户进行确定。
与前述刷单识别方法的实施例相对应,本申请还提供了刷单识别装置的实施例。
本发明的实施例提供的刷单识别装置可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为根据本发明的实施例示出的刷单识别装置所在服务器的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图7是根据本发明的实施例示出的一种刷单识别装置的示意框图。本实施例所示的刷单识别装置可以应用于至少两类用户进行交易的场景。例如网约车场景,其中一类用户是司机,另一类用户是乘客;例如网络购物场景,其中一类用户是商家,另一类用户是顾客。当然,本实施例所示的装置可应用的场景并不限于上述场景,具体可以根据需要进行设置。以下主要在网约车场景下对本发明的实施例进行示例性说明。
如图7所示,所示刷单识别装置包括:
集合确定模块1,用于根据疑似刷单的第一类型用户的第一集合中第一类型用户的订单信息,确定疑似合作刷单的第二类型用户的第二集合;
集合扩展模块2,用于根据所述第二集合中第二类型用户的订单信息,扩展所述第一集合中的第一类型用户;
聚类模块3,用于分别对第一集合和第二集合进行聚类,得到第一子集和第二子集;
刷单确定模块4,用于确定所述第一子集和所述第二子集中合作刷单的第一类型用户和第二类型用户。
图8是根据本发明的实施例示出的另一种刷单识别装置的示意框图。如图8所示,在图7所示实施例的基础上,所述集合扩展模块2用于根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,i为正整数;以及根据第i次扩展的第二集合中的第二类型用户的订单信息,第i+1次扩展所述第一集合中的第一类型用户;
所述聚类模块3用于对第i+1次扩展的第一集合和i次扩展的第二集合中的第二类型用户进行聚类,得到第i+1次聚类的第一子集和第i次聚类的第二子集;
所述装置还包括:
收敛确定模块5,用于确定第i+1次聚类的第一子集和第i次聚类的第二子集是否收敛;
其中,所述刷单确定模块4在第i+1次聚类的第一子集和第i次聚类的第二子集收敛的情况下,确定第i+1次聚类的第一子集和第i次聚类的第二子集中合作刷单的第一类型用户和第二类型用户;
其中,若确定出合作刷单的第一类型用户和第二类型用户,将i+1次聚类的第一子集作为第i次扩展的第一集合,将i增大1,所述集合扩展模块2用于根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,直至第i+1次聚类的第一子集或第i次聚类的第二子集收敛,或者直至确定不出合作刷单的第一类型用户和第二类型用户。
图9是根据本发明的实施例示出的一种收敛确定模块的示意框图。如图9所示,在图7或图8所示实施例的基础上,所述收敛确定模块5包括:
相同确定子模块501,用于确定第i+1次聚类的第一子集和第i次聚类的第一子集是否相同,以及第i次聚类的第二子集和第i-1次聚类的第二子集是否相同;
其中,若第i+1次聚类的第一子集和第i次聚类的第一子集相同,且第i次聚类的第二子集和第i-1次聚类的第二子集相同,确定第i+1次聚类的第一子集和第i次聚类的第二子集收敛。
在图7或图8所示实施例的基础上,所述聚类模块3包括:
空间表征子模块,用于根据第一类型用户的特征信息对第i+1次扩展的第一集合中的第一类型用户进行空间表征,根据第二类型用户的特征信息对第i次扩展的第二集合中的第二类型用户进行空间表征;
距离确定子模块,用于通过聚类算法在第i+1次扩展的第一集合中确定每两个第一类型用户之间的第一距离,以及在第i次扩展的第二集合中确定每两个第二类型用户之间的第二距离;
用户聚类子模块,用于基于第一距离小于第一预设距离的第一类型用户构成第i+1次聚类的第一子集,基于第二距离小于第二预设距离的第二类型用户构成第i次聚类的第二子集。
图10是根据本发明的实施例示出的一种刷单确定模块的示意框图。如图10所示,在图7或图8所示实施例的基础上,所述刷单确定模块4包括:
验证子模块401,用于基于通过机器学习得到的验证模型,验证第i+1次聚类的第一子集中的用户和第i次聚类的第二子集中的用户是否合作刷单。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明的实施例还提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述任一实施例所述的刷单识别方法中的步骤。
本发明的实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述任一实施例所述的刷单识别方法中的步骤。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (12)

1.一种刷单识别方法,其特征在于,包括:
根据疑似刷单的第一类型用户的第一集合中第一类型用户的订单信息,确定疑似合作刷单的第二类型用户的第二集合;
根据所述第二集合中第二类型用户的订单信息,扩展所述第一集合中的第一类型用户;
分别对第一集合和第二集合进行聚类,得到第一子集和第二子集;
确定所述第一子集和所述第二子集中合作刷单的第一类型用户和第二类型用户。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,i为正整数;
根据第i次扩展的第二集合中的第二类型用户的订单信息,第i+1次扩展所述第一集合中的第一类型用户;
对第i+1次扩展的第一集合和第i次扩展的第二集合中的第二类型用户进行聚类,得到第i+1次聚类的第一子集和第i次聚类的第二子集;
确定第i+1次聚类的第一子集和第i次聚类的第二子集是否收敛;
若第i+1次聚类的第一子集和第i次聚类的第二子集收敛,确定第i+1次聚类的第一子集和第i次聚类的第二子集中合作刷单的第一类型用户和第二类型用户;
其中,若确定出合作刷单的第一类型用户和第二类型用户,将i+1次聚类的第一子集作为第i次扩展的第一集合,将i增大1,根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,直至第i+1次聚类的第一子集或第i次聚类的第二子集收敛,或者直至确定不出合作刷单的第一类型用户和第二类型用户。
3.根据权利要求2所述的方法,其特征在于,所述确定第i+1次聚类的第一子集和第i次聚类的第二子集是否收敛包括:
确定第i+1次聚类的第一子集和第i次聚类的第一子集是否相同,以及第i次聚类的第二子集和第i-1次聚类的第二子集是否相同;
若第i+1次聚类的第一子集和第i次聚类的第一子集相同,且第i次聚类的第二子集和第i-1次聚类的第二子集相同,确定第i+1次聚类的第一子集和第i次聚类的第二子集收敛。
4.根据权利要求2或3所述的方法,其特征在于,所述对第i+1次扩展的第一集合和第i次扩展的第二集合中的第二类型用户进行聚类,得到第i+1次聚类的第一子集和第i次聚类的第二子集包括:
根据第一类型用户的特征信息对第i+1次扩展的第一集合中的第一类型用户进行空间表征,根据第二类型用户的特征信息对第i次扩展的第二集合中的第二类型用户进行空间表征;
通过聚类算法在第i+1次扩展的第一集合中确定每两个第一类型用户之间的第一距离,以及在第i次扩展的第二集合中确定每两个第二类型用户之间的第二距离;
基于第一距离小于第一预设距离的第一类型用户构成第i+1次聚类的第一子集,基于第二距离小于第二预设距离的第二类型用户构成第i次聚类的第二子集。
5.根据权利要求2或3所述的方法,其特征在于,所述确定第i+1次聚类的第一子集和第i次聚类的第二子集中合作刷单的第一类型用户和第二类型用户包括:
基于通过机器学习得到的验证模型,验证第i+1次聚类的第一子集中的用户和第i次聚类的第二子集中的用户是否合作刷单。
6.一种刷单识别装置,其特征在于,包括:
集合确定模块,用于根据疑似刷单的第一类型用户的第一集合中第一类型用户的订单信息,确定疑似合作刷单的第二类型用户的第二集合;
集合扩展模块,用于根据所述第二集合中第二类型用户的订单信息,扩展所述第一集合中的第一类型用户;
聚类模块,用于分别对第一集合和第二集合进行聚类,得到第一子集和第二子集;
刷单确定模块,用于确定所述第一子集和所述第二子集中合作刷单的第一类型用户和第二类型用户。
7.根据权利要求6所述的装置,其特征在于,所述集合扩展模块用于根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,i为正整数;以及根据第i次扩展的第二集合中的第二类型用户的订单信息,第i+1次扩展所述第一集合中的第一类型用户;
所述聚类模块用于对第i+1次扩展的第一集合和第i次扩展的第二集合中的第二类型用户进行聚类,得到第i+1次聚类的第一子集和第i次聚类的第二子集;
所述装置还包括:
收敛确定模块,用于确定第i+1次聚类的第一子集和第i次聚类的第二子集是否收敛;
其中,所述刷单确定模块在第i+1次聚类的第一子集和第i次聚类的第二子集收敛的情况下,确定第i+1次聚类的第一子集和第i次聚类的第二子集中合作刷单的第一类型用户和第二类型用户;
其中,若确定出合作刷单的第一类型用户和第二类型用户,将i+1次聚类的第一子集作为第i次扩展的第一集合,将i增大1,所述集合扩展模块用于根据第i次扩展的第一集合中的第一类型用户的订单信息,第i次扩展所述第二集合中的第二类型用户,直至第i+1次聚类的第一子集或第i次聚类的第二子集收敛,或者直至确定不出合作刷单的第一类型用户和第二类型用户。
8.根据权利要求7所述的装置,其特征在于,所述收敛确定模块包括:
相同确定模块,用于确定第i+1次聚类的第一子集和第i次聚类的第一子集是否相同,以及第i次聚类的第二子集和第i-1次聚类的第二子集是否相同;
其中,若第i+1次聚类的第一子集和第i次聚类的第一子集相同,且第i次聚类的第二子集和第i-1次聚类的第二子集相同,确定第i+1次聚类的第一子集和第i次聚类的第二子集收敛。
9.根据权利要求7或8所述的装置,其特征在于,所述聚类模块包括:
空间表征子模块,用于根据第一类型用户的特征信息对第i+1次扩展的第一集合中的第一类型用户进行空间表征,根据第二类型用户的特征信息对第i次扩展的第二集合中的第二类型用户进行空间表征;
距离确定子模块,用于通过聚类算法在第i+1次扩展的第一集合中确定每两个第一类型用户之间的第一距离,以及在第i次扩展的第二集合中确定每两个第二类型用户之间的第二距离;
用户聚类子模块,用于基于第一距离小于第一预设距离的第一类型用户构成第i+1次聚类的第一子集,基于第二距离小于第二预设距离的第二类型用户构成第i次聚类的第二子集。
10.根据权利要求7或8所述的装置,其特征在于,所述刷单确定模块包括:
验证子模块,用于基于通过机器学习得到的验证模型,验证第i+1次聚类的第一子集中的用户和第i次聚类的第二子集中的用户是否合作刷单。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1至5中任一项所述方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述方法中的步骤。
CN201810886770.9A 2018-08-06 2018-08-06 刷单识别方法和刷单识别装置 Active CN109285009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810886770.9A CN109285009B (zh) 2018-08-06 2018-08-06 刷单识别方法和刷单识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810886770.9A CN109285009B (zh) 2018-08-06 2018-08-06 刷单识别方法和刷单识别装置

Publications (2)

Publication Number Publication Date
CN109285009A CN109285009A (zh) 2019-01-29
CN109285009B true CN109285009B (zh) 2021-03-02

Family

ID=65182948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810886770.9A Active CN109285009B (zh) 2018-08-06 2018-08-06 刷单识别方法和刷单识别装置

Country Status (1)

Country Link
CN (1) CN109285009B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768258A (zh) * 2019-06-05 2020-10-13 北京京东尚科信息技术有限公司 识别异常订单的方法、装置、电子设备和介质
CN112508630B (zh) * 2021-01-29 2021-05-25 腾讯科技(深圳)有限公司 异常会话群的检测方法、装置、计算机设备和存储介质
CN114301711B (zh) * 2021-12-31 2024-06-25 招商银行股份有限公司 防暴刷方法、装置、设备、存储介质及计算机程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016012236A (ja) * 2014-06-30 2016-01-21 ぴあ株式会社 商品販売装置、商品販売プログラム、商品販売方法
CN105392113A (zh) * 2015-12-02 2016-03-09 百度在线网络技术(北京)有限公司 用车刷单作弊的识别方法和装置
CN106127505A (zh) * 2016-06-14 2016-11-16 北京众成汇通信息技术有限公司 一种刷单识别方法及装置
CN106384273A (zh) * 2016-10-08 2017-02-08 江苏通付盾科技有限公司 恶意刷单检测***及方法
CN106557955A (zh) * 2016-11-29 2017-04-05 流量海科技成都有限公司 网约车异常订单识别方法及***
CN107093090A (zh) * 2016-10-25 2017-08-25 北京小度信息科技有限公司 异常用户识别方法及装置
CN107872767A (zh) * 2017-11-07 2018-04-03 中国联合网络通信集团有限公司 一种网约车刷单行为识别方法和识别***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140207694A1 (en) * 2013-01-21 2014-07-24 International Foundation for Electoral Systems Electoral integrity assessment method, and system
US20160217532A1 (en) * 2015-01-23 2016-07-28 Sure, Inc. Securing Claim Data via Block-Chains for a Peer to Peer Platform

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016012236A (ja) * 2014-06-30 2016-01-21 ぴあ株式会社 商品販売装置、商品販売プログラム、商品販売方法
CN105392113A (zh) * 2015-12-02 2016-03-09 百度在线网络技术(北京)有限公司 用车刷单作弊的识别方法和装置
CN106127505A (zh) * 2016-06-14 2016-11-16 北京众成汇通信息技术有限公司 一种刷单识别方法及装置
CN106384273A (zh) * 2016-10-08 2017-02-08 江苏通付盾科技有限公司 恶意刷单检测***及方法
CN107093090A (zh) * 2016-10-25 2017-08-25 北京小度信息科技有限公司 异常用户识别方法及装置
CN106557955A (zh) * 2016-11-29 2017-04-05 流量海科技成都有限公司 网约车异常订单识别方法及***
CN107872767A (zh) * 2017-11-07 2018-04-03 中国联合网络通信集团有限公司 一种网约车刷单行为识别方法和识别***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于C2C电子商务市场虚假销量识别的若干技术研究";乐元;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;20170215;全文 *
"基于模板用户信息搜索行为和统计分析的共谋销量欺诈识别";王忠群 等;《现代图书情报技术》;20151130;全文 *

Also Published As

Publication number Publication date
CN109285009A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN107103171B (zh) 机器学习模型的建模方法及装置
CN109934293B (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
Wang et al. Kernel cross-modal factor analysis for information fusion with application to bimodal emotion recognition
KR20180118596A (ko) 데이터세트들의 반-자동 라벨링
CN109285009B (zh) 刷单识别方法和刷单识别装置
CN109191226B (zh) 风险控制方法和装置
CN109359972B (zh) 核身产品推送及核身方法和***
CN109271958B (zh) 人脸年龄识别方法及装置
CN108960304B (zh) 一种网络交易欺诈行为的深度学习检测方法
CN110111136B (zh) 视频数据处理方法、装置、计算机设备和存储介质
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN104281831B (zh) 一种笔迹验证的方法和装置
CN111062486B (zh) 一种评价数据的特征分布和置信度的方法及装置
CN107491674A (zh) 基于特征信息进行用户验证的方法及装置
WO2015138272A1 (en) Two stage risk model building and evaluation
CN116250020A (zh) 使用潜在邻域图检测对抗性示例
CN113449012A (zh) 基于大数据预测的互联网服务挖掘方法及大数据预测***
CN114638234A (zh) 应用于线上业务办理的大数据挖掘方法及***
CN112529078A (zh) 一种业务处理方法、装置及设备
CN116151965B (zh) 一种风险特征提取方法、装置、电子设备及存储介质
CN110276802B (zh) 医学图像中病症组织定位方法、装置与设备
CN116740866A (zh) 用于自助机具的装清钞***及方法
WO2020190482A1 (en) Method and system for classifying an input data set using multiple data representation source modes
CN115907954A (zh) 账户的识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant