CN111325419A

CN111325419A - 一种识别黑名单用户的方法和装置

Info

Publication number: CN111325419A
Application number: CN201811524333.9A
Authority: CN
Inventors: 肖斯敏; 徐开廷; 李淑英; 徐海涛; 丁智; 张留超; 司正隆; 宋德伟
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-06-23

Abstract

本发明公开了一种识别黑名单用户的方法和装置，包括：将黑名单样本用户的商品购买数据和待识别用户的商品购买数据输入至隐语义模型；通过隐语义模型获取黑名单样本用户对所购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值；根据黑名单样本用户对所购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值，确定待识别用户与黑名单样本用户之间的相似度；根据待识别用户与黑名单样本用户之间的相似度，确定待识别用户是否为黑名单用户。本发明实现了对待识别用户和购买商品的隐含特征的自动挖掘，实现了通过对订单信息的更精细化的处理，从业务角度发掘风险，更有效地控制了风险。

Description

一种识别黑名单用户的方法和装置

技术领域

本发明涉及电子商务技术领域，尤其是指一种识别黑名单用户的方法和装置。

背景技术

随着大型综合性电商业务种类以及合作品牌的逐步丰富与扩展，促销优惠活动的形式层出不穷，刺激新用户的发掘，鼓励老用户的消费。与此同时，牟取套利优惠的黑色产业链日益壮大，面对日新月异的互联网环境，复杂庞大的优惠促销规则等，风险控制在电商的每个环节都是不可或缺的。

现有的风险控制***中，从较粗粒度分类考虑各种套利行为，比如根据用户画像、风险地址画像等限制套利行为，以从用户信息中提取风险控制规则，制止了一部分利益骗取。但是，黑色产业链针对风险控制***却表现出的极快速的适应能力，使得现有的风险控制***难以实现针对套利行为的更全面监控和筛查。因而需要从更细粒度分类角度出发，结合现有错综复杂的营销规则组织新的防欺诈逻辑。

但是，现有的更细粒度分类是采用人为的分类方式，这种方式由于人的主观意识导致了分类角度的客观性和合理性无法考量，分类粒度难以控制，并且极大地增加了人工成本，从而难以有效锁定黑名单用户，难以提高风险控制水平。

发明内容

有鉴于此，本发明提供一种识别黑名单用户的方法和装置，以对待识别用户和购买商品的隐含特征的自动挖掘，进而通过与已知黑名单用户对比隐含特征，获取待识别用户与已知黑名单用户在隐含特征的相似度，来有效地锁定黑名单用户，从而实现通过对订单信息的更精细化的处理，并从业务角度发掘风险，更有效地控制风险。

本发明的技术方案是这样实现的：

一种识别黑名单用户的方法，包括：

将黑名单样本用户的商品购买数据和待识别用户的商品购买数据输入至隐语义模型；

通过所述隐语义模型获取所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值；

根据所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值，确定所述待识别用户与所述黑名单样本用户之间的相似度；

根据所述待识别用户与所述黑名单样本用户之间的相似度，确定所述待识别用户是否为黑名单用户。

进一步，所述黑名单样本通过用户画像、风险地址画像、风险手机号码标签中的至少一种方法获得。

进一步，将黑名单样本用户的商品购买数据和待识别用户的商品购买数据输入至隐语义模型，包括：

将黑名单样本用户的用户名和黑名单样本用户购买的所有商品的记录以及待识别用户的用户名和待识别用户购买的所有商品的记录置入所述隐语义模型的输入矩阵。

进一步，通过所述隐语义模型获取所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值，包括：

通过所述隐语义模型将所述输入矩阵变换为用户-商品隐分类矩阵和商品隐分类-商品矩阵相乘的形式，其中，所述用户-商品隐分类矩阵中记录有所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值；

从所述用户-商品隐分类矩阵中将所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值取出。

进一步，根据所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值，确定所述待识别用户与所述黑名单样本用户之间的相似度，包括：

采用余弦相似度方法或者皮尔森相关系数方法，确定所述待识别用户与所述黑名单样本用户之间的相似度。

进一步，根据所述待识别用户与所述黑名单样本用户之间的相似度，确定所述待识别用户是否为黑名单用户，包括：

设定黑名单用户相似度阈值，将满足所述黑名单用户相似度阈值条件的待识别用户确定为黑名单用户，将不满足所述黑名单用户相似度阈值条件的待识别用户不作为黑名单用户。

一种识别黑名单用户的装置，包括：

输入模块，用于将黑名单样本用户的商品购买数据和待识别用户的商品购买数据输入至隐语义模型；

兴趣值获取模块，用于通过所述隐语义模型获取所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值；

相似度获取模块，用于根据所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值，确定所述待识别用户与所述黑名单样本用户之间的相似度；以及

黑名单用户确定模块，用于根据所述待识别用户与所述黑名单样本用户之间的相似度，确定所述待识别用户是否为黑名单用户。

一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如上任一项所述的识别黑名单用户的方法中的步骤。

一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的识别黑名单用户的方法中的步骤。

从上述方案可以看出，本发明的识别黑名单用户的方法和装置，利用隐语义模型实现了根据用户消费行为对商品隐分类的自动分类，无需担心如何分类角度和分类准确性，并且基于隐语义模型可以控制商品隐分类的，使得分类粒度可控，从而实现了细粒度的分类。通过隐语义模型实现了对包括黑名单样本用户和待识别用户中的每一个每个用户，找到其对各项商品隐分类的倾向度或兴趣度，而不只关心现有商品分类列表的一级品类、二级品类或者三级品类等可见的分类。同时，本发明对于每件商品，可以计算得到其属于某一分类的概率或者程度，属于一种软分类。对于每一个商品隐分类，商品在该商品隐分类的权重越大，则该商品隐分类的代表性更强，可以找到黑名单用户中最受欢迎的商品。

本发明的识别黑名单用户的方法和装置，实现了对待识别用户和购买商品的隐含特征的自动挖掘，通过与已知黑名单用户对比隐含特征，实现了获取待识别用户与已知黑名单用户在隐含特征的相似度，以有效地锁定黑名单用户，从而实现通过对订单信息的更精细化的处理，并从业务角度发掘风险，更有效地控制风险。

附图说明

图1为本发明实施例的识别黑名单用户的方法流程图；

图2为本发明实施例中的隐语义模型的输入矩阵示意图；

图3为本发明实施例中的隐语义模型的用户-商品隐分类矩阵示意图；

图4为本发明实施例中的隐语义模型的商品隐分类-商品矩阵示意图；

图5为本发明实施例中的隐语义模型的隐语义模型的输入矩阵、用户-商品隐分类矩阵、商品隐分类-商品矩阵的运算关系示意图；

图6为本发明实施例的识别黑名单用户的装置示意图；

图7为本发明实施例中的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

如图1所示，本发明实施例的识别黑名单用户的方法，包括：

步骤1、将黑名单样本用户的商品购买数据和待识别用户的商品购买数据输入至隐语义模型；

步骤2、通过隐语义模型获取黑名单样本用户对所购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值；

步骤3、根据黑名单样本用户对所购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值，确定待识别用户与黑名单样本用户之间的相似度；

步骤4、根据待识别用户与黑名单样本用户之间的相似度，确定待识别用户是否为黑名单用户。

其中，兴趣值表示用户对商品隐分类所感兴趣的程度。

黑名单用户，例如套利用户，可能会有不同的消费模式，对商品的倾向也有可能不同。比如用户A会倾向于大量购买笔记本电脑，用户B更多消费在手机，但两种商品可能在某些属性上具有高度相似，比如笔记本电脑和手机都属于电子产品，在通讯工具方面，笔记本电脑和手机则有极大不同。

本发明实施例的识别黑名单用户的方法，基于隐语义模型，根据黑名单用户行为对商品进行自动分类，将物品划分到不同类别中，这些类别可以理解为用户的消费倾向。

在一个具体实施例中，首先需要进行黑名单样本的获取。黑名单样本通过用户画像、风险地址画像、风险手机号码标签中的至少一种方法获得。其中用户画像是指通过收集分析用户的社会属性、生活习性、消费行为等数据，进而分析抽象出一个用户的信息全貌。风险地址画像等各类画像技术与用户画像相似。

通常用户画像会针对用户历史购买行为进行风险信用评分，通过用户画像获取信用值并将信用值小于某阈值的用户确定为黑名单用户。其他诸如风险地址画像、风险收集号码标签等手段，都可以用来收集黑名单用户。这些手段都属于本领域的已有技术，此处不再赘述。之后，根据人工经验，通过设置规则并拦截黑名单用户，进行初步筛选，比如，利用恶意订单反馈收集，黑名单用户识别模型，以及黄牛订单等手段，筛选出黑名单用户样本。

在本发明实施例中，步骤1中，将黑名单样本用户的商品购买数据和待识别用户的商品购买数据输入至隐语义模型，包括：

将黑名单样本用户的用户名和黑名单样本用户购买的所有商品的记录以及待识别用户的用户名和待识别用户购买的所有商品的记录置入隐语义模型的输入矩阵。

隐语义模型(latent factor model，LFM)的原理是对物品基于权重进行分类，并同时依据用户对每一类的兴趣来确定用户感兴趣的物品。

隐语义模型的具体计算方式是：

R＝P×Q

其中，R、P、Q均表示矩阵。矩阵R是一种用户内容兴趣度矩阵，矩阵R的矩阵值表示的是用户对内容项的兴趣度，当计算出他对所有内容项的兴趣度后，就可以进行排序并作出推荐。将矩阵R表示为矩阵P和矩阵Q相乘。矩阵P是用户标签兴趣度矩阵，矩阵P中的矩阵值表示的是用户对标签集中的各个标签的兴趣度；矩阵Q是内容标签权重矩阵，矩阵Q中的矩阵值表示的是所述标签集中的各个标签在推荐内容集中的不同内容项中的权重。隐语义模型可根据上述公式来计算用户对内容项的兴趣度，对兴趣度进行排序后，提取前N个内容项进行推荐。

在本发明实施例中，矩阵R为隐语义模型的输入矩阵，矩阵R的矩阵值表示用户对商品的购买行为，具体详见以下说明。

图2示出了本发明实施例中的隐语义模型的输入矩阵示意图。其中，图2中最左侧的列坐标中，user1、user2……表示黑名单样本用户的用户名，newuser1和newuser2表示待识别用户的用户名，图2最上侧的行坐标中，sku1、sku2……skum表示黑名单样本用户和待识别用户所购买的商品的名称。

其中，对于人一个黑名单样本用户和待识别用户来说，并非sku1、sku2……skum中的所有商品都存在购买行为。隐语义模型的输入矩阵中的任意一个元素R表示该任意一个元素R对应的用户是否购买了该任意一个元素R对应的商品。在一个具体实施例中，用0和1分别代表用户对商品的购买行为，若某个用户对某件商品有过购买行为，则相应于该用户和该件商品的矩阵位置处为1，反之为0。例如，对于图2的隐语义模型的输入矩阵中的R22来说，若R22＝0则表示黑名单样本用户中的user2没有购买商品sku2，对于图2的隐语义模型的输入矩阵中的R(n-1)m来说，若R(n-1)m＝1则表示待识别用户newuser1购买了商品skum。

在本发明实施例中，步骤2中，通过隐语义模型获取黑名单样本用户对所购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值，包括：

通过隐语义模型将输入矩阵变换为用户-商品隐分类矩阵和商品隐分类-商品矩阵相乘的形式，其中，用户-商品隐分类矩阵中记录有黑名单样本用户对所购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值；

从用户-商品隐分类矩阵中将黑名单样本用户对所购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值取出。

图3示出了本发明实施例中的用户-商品隐分类矩阵示意图。用户-商品隐分类矩阵相当于上述关于隐语义模型的具体计算方式中的矩阵P。其中，图3中最左侧的列坐标中，user1、user2……表示黑名单样本用户的用户名，newuser1和newuser2表示待识别用户的用户名，图3最上侧的行坐标中，class1、class2……classl表示黑名单样本用户和待识别用户所购买的商品的商品隐分类名称。

在本发明实施例中，商品隐分类可理解为一种商品属性，对于图3的用户-商品隐分类矩阵中的任一个元素Pij(i表示1到n中的任意自然数，j表示1到l中的任意自然数)表示对应于第i用户对第j商品隐分类的兴趣度或购买倾向度。例如，图3的用户-商品隐分类矩阵中的P2l来说，表示黑名单样本用户中的user2对品隐分类classl的兴趣度或购买倾向度。

图4示出了本发明实施例中的商品隐分类-商品矩阵示意图。商品隐分类-商品矩阵相当于上述关于隐语义模型的具体计算方式中的矩阵Q。其中，图4中最左侧的列坐标中，class1、class2……classl表示黑名单样本用户和待识别用户所购买的商品的商品隐分类名称，图4最上侧的行坐标中，sku1、sku2……skum表示黑名单样本用户和待识别用户所购买的商品的名称。

在本发明实施例中，对于图4的商品隐分类-商品矩阵中的任一个元素Qij(i表示1到l中的任意自然数，j表示1到m中的任意自然数)表示第j商品在第i商品隐分类中的权重值。商品的所属隐分类由统计用户消费行为得到，如果喜欢某个商品隐分类的用户都会喜欢某个商品，那这个商品在这个商品隐分类中的权重值就比较高。

如图5所示，隐语义模型从数据集中抽取出若干主题，作为用户(包括黑名单样本用户和待识别用户)和所购买商品的连接桥梁，将输入矩阵(即矩阵R)分解为用户-商品隐分类矩阵(即矩阵P)乘以商品隐分类-商品矩阵(即矩阵Q)，根据用户历史购买行为挖掘商品的隐藏属性(商品隐分类)，并找到待识别用户与已知的黑名单用户(黑名单样本用户)之间类似的兴趣。隐语义模型通常根据以下公式来分解用户对商品的关系：

其中，Tendency(U,S)表示用户购买行为记录，在一个可选实施例中，若某用户购买过某商品，则该用户对应于该商品的值为1，否则为0；

R_US表示本发明实施例中的隐语义模型的输入矩阵，即用户购买商品的历史数据；

P_U表示本发明实施例中的用户-商品隐分类矩阵；

Q_S表示本发明实施例中的商品隐分类-商品矩阵；

U表示用户；

K表示商品隐分类；

P_U,K表示本发明实施例中的用户-商品隐分类矩阵；

Q_K,S表示本发明实施例中的商品隐分类-商品矩阵；

F表示P_U,KQ_K,S的数据集总量，本发明实施例中的隐语义模型的输入参数可拆分为F份；

f表示F份输入参数中的某一份参数，其中，U、K具有对应于f的确定值。

相比于传统人工分类方式存在的分类不细致、可能存在潜在差错、物品在分类中的权重值确定困难、分类效率低下等问题，可以在隐语义模型中避免。本发明实施例是基于用户历史购买行为统计并自动聚类，无需对如何分类和分为多少类进行担心。采用隐语义模型也可以通过设置手段来限定商品隐分类的个数，商品隐分类的数越大，表明粒度越细。对于每一个用户，可计算出对应每一个商品隐分类的倾向度。

本发明实施例中，步骤3的根据黑名单样本用户对所虚假购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值，确定待识别用户与黑名单样本用户之间的相似度，包括：

采用余弦相似度方法或者皮尔森相关系数方法，确定待识别用户与黑名单样本用户之间的相似度。

在预测待识别用户是否为风险用户时，可以通过计算待识别用户与黑名单样本用户之间的相似度。分解后的用户-商品隐分类矩阵(矩阵P)给出了每个用户(包括黑名单样本用户和待识别用户)在每项商品隐分类的倾向度，该倾向度表示为用户(包括黑名单样本用户和待识别用户)对所购买商品的商品隐分类的兴趣值。若待识别用户与大量已知黑名单用户在兴趣值上具有很高相似性，则可以认为该待识别用户极有可能为高风险用户。

本发明实施例中，在衡量兴趣值时，只需取用户-商品隐分类矩阵(矩阵P)里的用户与商品隐分类的关系数据，进一步确认待识别用户与黑名单样本用户之间的兴趣值的相似度。计算相似度通常会用到余弦相似度、皮尔森相关系数等，利用用户-商品隐分类矩阵(矩阵P)中黑名单样本用户与待识别用户的相关数据构建向量，并计算向量之间的夹角。向量越相似，则向量间的夹角越小，余弦越大；若余弦值为负，则两向量负相关。例如计算用户-商品隐分类矩阵(矩阵P)中的user1(黑名单样本用户中的一个)和newuser2(待识别用户中的一个)的相似度，则：

构造user1的向量为

构造newuser1向量为

则有如下关系

其中，Similarity表示user1和newuser2之间的兴趣值的相似度。

在一个具体实施例中，步骤4的根据待识别用户与黑名单样本用户之间的相似度，确定待识别用户是否为黑名单用户，包括：

设定黑名单用户相似度阈值，将满足黑名单用户相似度阈值条件的待识别用户确定为黑名单用户，将不满足黑名单用户相似度阈值条件的待识别用户不作为黑名单用户。

如图3所示的实施例中，经过批量计算待识别用户(例如newuser2)与每个黑名单样本用户(如user1、user2……)的相似度后，可以取待识别用户与每个黑名单样本用户的相似度的平均值作为该待识别用户(如newuser2)与所有黑名单样本用户的总的相似度。通过设定黑名单用户相似度阈值，将该待识别用户(如newuser2)与黑名单用户相似度阈值进行比较，如果满足黑名单用户相似度阈值条件，则将该待识别用户(如newuser2)确定为新的黑名单用户，否则该待识别用户(如newuser2)不是黑名单用户。

如图6所示，本发明是实施例还提供了一种识别黑名单用户的装置，包括：输入模块11、兴趣值获取模块12、相似度获取模块13和黑名单用户确定模块14。其中，输入模块11用于将黑名单样本用户的商品购买数据和待识别用户的商品购买数据输入至隐语义模型。兴趣值获取模块12用于通过隐语义模型获取黑名单样本用户对所购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值。相似度获取模块13用于根据黑名单样本用户对所虚假购买商品的商品隐分类的兴趣值和待识别用户对所购买商品的商品隐分类的兴趣值，确定待识别用户与黑名单样本用户之间的相似度。黑名单用户确定模块14用于根据待识别用户与黑名单样本用户之间的相似度，确定待识别用户是否为黑名单用户。

本发明实施例还同时提供一种执行识别黑名单用户的方法的电子设备，如图7所示，该电子设备包括：至少一个处理器21以及存储器22。存储器22和至少一个处理器21通信连接，例如存储器22和至少一个处理器21通过总线连接。存储器22存储有可被至少一个处理器21执行的指令，所述指令被至少一个处理器21执行，以使至少一个处理器21执行如上述说明中的识别黑名单用户的方法中的各个步骤。

本发明实施例还同时提供一种非易失性计算机可读存储介质，该非易失性计算机可读存储介质存储指令，该指令在由处理器执行时使得所述处理器执行如上述说明中的识别黑名单用户的方法中的各个步骤。

本发明实施例的识别黑名单用户的方法和装置，利用隐语义模型实现了根据用户消费行为对商品隐分类的自动分类，无需担心如何分类角度和分类准确性，并且基于隐语义模型可以控制商品隐分类的，使得分类粒度可控，从而实现了细粒度的分类。通过隐语义模型实现了对包括黑名单样本用户和待识别用户中的每一个每个用户，找到其对各项商品隐分类的倾向度或兴趣度，而不只关心现有商品分类列表的一级品类、二级品类或者三级品类等可见的分类。同时，本发明对于每件商品，可以计算得到其属于某一分类的概率或者程度，属于一种软分类。对于每一个商品隐分类，商品在该商品隐分类的权重越大，则该商品隐分类的代表性更强，可以找到黑名单用户中最受欢迎的商品。

本发明实施例的识别黑名单用户的方法和装置，实现了对待识别用户和购买商品的隐含特征的自动挖掘，通过与已知黑名单用户对比隐含特征，实现了获取待识别用户与已知黑名单用户在隐含特征的相似度，以有效地锁定黑名单用户，从而实现通过对订单信息的更精细化的处理，并从业务角度发掘风险，更有效地控制风险。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种识别黑名单用户的方法，包括：

2.根据权利要求1所述的识别黑名单用户的方法，其特征在于：

所述黑名单样本通过用户画像、风险地址画像、风险手机号码标签中的至少一种方法获得。

3.根据权利要求1所述的识别黑名单用户的方法，其特征在于，将黑名单样本用户的商品购买数据和待识别用户的商品购买数据输入至隐语义模型，包括：

4.根据权利要求3所述的识别黑名单用户的方法，其特征在于，通过所述隐语义模型获取所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值，包括：

5.根据权利要求1所述的识别黑名单用户的方法，其特征在于，根据所述黑名单样本用户对所购买商品的商品隐分类的兴趣值和所述待识别用户对所购买商品的商品隐分类的兴趣值，确定所述待识别用户与所述黑名单样本用户之间的相似度，包括：

6.根据权利要求1所述的识别黑名单用户的方法，其特征在于，根据所述待识别用户与所述黑名单样本用户之间的相似度，确定所述待识别用户是否为黑名单用户，包括：

7.一种识别黑名单用户的装置，其特征在于，包括：

8.一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1至6中任一项所述的识别黑名单用户的方法中的步骤。

9.一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至6中任一项所述的识别黑名单用户的方法中的步骤。