CN110163714A

CN110163714A - 一种基于相似度算法挖掘隐藏风险商户的方法和装置

Info

Publication number: CN110163714A
Application number: CN201910258699.4A
Authority: CN
Inventors: 刘晓韵; 王立
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-08-23

Abstract

本公开涉及一种基于相似度算法挖掘隐藏风险商户的方法，包括确定黑种子，所述黑种子包括已知的风险商户或高置信度潜在风险商户或其组合；确定与所述黑种子有共同用户的未知商户；确定所述未知商户与所述黑种子的相似度；以及至少基于所述未知商户与所述黑种子的相似度来确定所述未知商户属于潜在风险商户的最终得分。本公开还涉及相应的装置、设备和计算机可读介质。

Description

一种基于相似度算法挖掘隐藏风险商户的方法和装置

技术领域

本公开涉及风险控制，尤其涉及隐藏风险商户的挖掘。

背景技术

风险商户(诸如赌博幕后庄家)在巨大的收入利益驱使下，为了规避被发现并稽核，会在一定成本下模仿真实交易场景。近期发现，风险商户会通过各种非法渠道控制并运营各种平台的大量收款码。例如，在赌博场景中，当用户多次向赌博幕后庄家充值(例如，购买筹码)时，庄家APP会把交易随机分配到不同的收款码，从而伪造出该用户去各种不同的商户消费付款的数据假象，以试图躲避常规的风控识别策略。

因此，本领域中需要改进的风控识别技术来挖掘出隐藏在真实交易场景假象背后的风险商户。

发明内容

本公开的一方面涉及一种基于相似度算法挖掘隐藏风险商户的方法，包括：确定黑种子，所述黑种子包括已知的风险商户或高置信度潜在风险商户或其组合；确定与所述黑种子有共同用户的未知商户；确定所述未知商户与所述黑种子的相似度；以及至少基于所述未知商户与所述黑种子的相似度来确定所述未知商户属于潜在风险商户的最终得分。

根据一示例性实施例，确定与所述黑种子有共同用户的未知商户包括：确定在一时间段里与所述黑种子发生过交易的用户；以及关联出与所述黑种子发生过交易的用户在所述时间段里交易过的其他商户作为所述未知商户。

根据一示例性实施例，所述相似度包括买家相似度，其中确定所述未知商户与所述黑种子的所述相似度包括：确定所述未知商户与所述黑种子的共同买家；以及基于所述共同买家的数量确定所述未知商户与所述黑种子的买家相似度。

根据另一示例性实施例，所述相似度包括金额相似度，其中确定所述未知商户与所述黑种子的所述相似度包括：确定所述未知商户的金额类别和所述黑种子的金额类别；以及确定所述未知商户的金额类别与所述黑种子的金额类别的相似度。

根据又一示例性实施例，所述相似度包括文本相似度，其中确定所述未知商户与所述黑种子的所述相似度包括：拆解所述未知商户的文本和所述黑种子的文本；以及基于所述拆解，确定所述未知商户的文本和所述黑种子的文本的文本相似度，其中文本包括商品名、转账附言、注释文本或其任何组合。

根据再一示例性实施例，所述相似度包括综合相似度，其中确定所述未知商户与所述黑种子的所述相似度包括：基于买家相似度、金额相似度和文本相似度的组合来确定所述综合相似度。

根据进一步的示例性实施例，所述综合相似度基于所述买家相似度，并由所述金额相似度和所述文本相似度进一步调节。

根据又一进一步的示例性实施例，所述综合相似度基于所述买家相似度、所述金额相似度和所述文本相似度的加权结合。

根据一示例性实施例，至少基于所述未知商户与所述黑种子的相似度来确定所述未知商户属于潜在风险商户的最终得分包括：基于所述未知商户与所述黑种子的相似度和所述黑种子的置信度来确定所述最终得分。

根据一示例性实施例，该方法进一步包括：输出所述未知商户属于潜在风险商户的所述最终得分。

根据一示例性实施例，该方法进一步包括：将所述未知商户属于潜在风险商户的所述最终得分与阈值作比较；以及基于所述比较来确定是否要稽核所述未知商户。

根据一示例性实施例，所述高置信度潜在风险商户基于策略或模型或其组合来确定，并且所述高置信度潜在风险商户的置信度基于所述策略的松紧程度或所述模型的打分或其组合。

根据另一示例性实施例，所述黑种子包括多个黑种子，并且所述基于所述未知商户与所述黑种子的相似度和所述黑种子的置信度来确定所述最终得分包括：基于所述未知商户与所述多个黑种子中的每一个黑种子的相似度和该黑种子的置信度来确定所述最终得分。

根据又一示例性实施例，该方法进一步包括：如果确定要稽核所述未知商户，则将所述未知商户添加到所述黑种子中。

本公开的其他方面还包括相应的装置、设备和计算机可读介质。

附图说明

图1示出了一种用户向风险商户付款参与风险交易的示例性场景。

图2示出了一种用户向风险商户付款参与风险交易的示例性场景。

图3示出了根据一示例性方面的挖掘隐藏风险商户的方法。

图4示出了黑种子与二度关联商户之间的关系。

图5示出了示例性的各种二度关联商户的情形。

图6示出了根据一示例性而非限定性实施例的金额相似度的示例。

图7示出了根据一示例性实施例的文本相似度的示例。

图8示出了确定未知商户是潜在风险商户的最终得分的示例情形。

图9示出了根据本公开一示例性实施例的稽核示例。

图10示出了根据本公开的示例性方面的基于相似度算法挖掘隐藏风险商户的方法的流程图。

图11示出了根据本公开一示例性方面的基于相似度算法挖掘隐藏风险商户的装置的框图。

具体实施方式

为了发现并稽核风险商户，一种途径是根据用户投诉来识别风险商户。通过累积一定量的用户真实投诉，的确能够准确识别出风险商户。然而，由于大部分参与风险交易(例如，赌博下注)的用户是自愿参与的，因此主动投诉风险商家(例如，庄家)的比例很低。因此，能够确定的黑样本占比很小，覆盖率低，并不足以识别出大部分的风险商户。

为了发现并稽核风险商户，通常可以根据买家的交易异常来作出判断。然而，风险商户为了规避此类稽核，会模拟真实商户交易。例如，幕后庄家会通过各种非法渠道控制并运营各种平台的大量收款码。从交易上来看，交易特征与普通网店、实体店等正常营运的商户的交易特征非常相似，难以区分。例如，在一示例性的通过APP来进行网络赌博的场景中，幕后庄家可能会采用轮码手法，即通过各种非法渠道来控制并运营各种平台的大量收款码，当用户多次向该庄家充值(例如，购买筹码)时，庄家APP会把交易随机分配到不同的收款码，从而伪造出该用户去各种不同的商户消费付款的数据假象，以试图躲避常规的风控识别策略。抽象地来看，风险商户的各个用户会通过不同的收款码向不同的商户(账户)转移，而最终一个商户会接收到来自不同商户(例如，赌博账户)的用户的付款。如所可知，风险商户并不被限定于庄家APP，而是也可涵盖实体风险商户机构等。

图1示出一种用户向风险商户付款参与风险交易的示例性场景100。在本例中，以赌博场景为例。如所可见，风险商户(例如，赌博幕后庄家)101控制了多个分店A、B、C、……、N及其各自相关联的收款码102A、102B、102C、……、102N。这些分店可能被伪装成各种正常业务的商户，诸如早餐店、小吃店、书店、服装店、咖啡馆等等……

用户103a、103b、103c、……、103m想要例如购买筹码和/或直接付款参与赌博。用户103a和103b可能在分店A参与赌博，并通过分店A的收款码102A进行支付(例如，购买筹码和/或直接付款参与赌博等)；用户103c等可能在分店B参与赌博，并通过分店B的收款码102B进行支付(例如，购买筹码和/或直接付款参与赌博等)；……；用户103m等可能在分店N参与赌博，并通过分店N的收款码102N进行支付(例如，购买筹码和/或直接付款参与赌博等)。

在此过程中，该风险商户101的一个或多个收款码102(例如，收款码102A和102B)可能被发现并稽核，例如由于用户举报和/或由于资金交易异常而被平台风控发现并稽核，从而这一个或多个收款码102可能被废除并且相关联的一个或多个分店(例如，A和B)可被强制关闭。此时，该风险商户101可能引导顾客去其他分店(例如，C、……、N)。此时，平台风控通过跟踪被关闭的分店A和B的用户(例如，用户103a、103b、103c等)的动向可能容易追踪到该风险商户101的其他分店(C、……、N)。

尽管以上结合赌博作为风险交易的示例来描述了用户向风险商户付款参与风险交易的示例性场景，但是如本领域普通技术人员所可知，本公开并不被限定于赌博交易，而是可以涵盖其他风险交易。

图2示出一种用户向风险商户付款参与风险交易的示例性场景200。在本例中，仍以赌博场景为例。为了避免示例性场景100中的因资金交易异常而被平台风控发现并稽核的风险，并且避免部分分店被稽核导致的用户迁移致使其他分店易于被平台风控发现并稽核，风险商户201通过轮转手法将各用户203随机分配到各个收款码202。例如，用户203a可能被分配到收款码202C，用户203b可能被分配到收款码202N，用户203c可能被分配到收款码202A，……而用户203m可能也被分配到收款码202A。如所可知，不同用户203可能被分配到相同的或不同的收款码202。同一用户203也可多次发起购买，从而每一次被分配到相同的、或部分相同的、或不同的收款码202。每个用户使用所分配到的收款码来进行支付(例如，购买筹码和/或直接付款参与赌博等)。

在此过程中，由于各用户被随机分配到该风险商户各分店的收款码，因此从数据上看，各用户是到不同的地方(诸如早餐店、小吃店、书店、服装店、咖啡馆等等)消费，这具有极大的隐蔽性。即便该风险商户201的一个或多个收款码202(例如，收款码202A和202B)可能被发现并稽核，例如由于用户举报和/或平台风控等而被发现并稽核，导致这一个或多个收款码202可能被废除并且相关联的一个或多个分店(例如，A和B)可被强制关闭，该风险商户201也可将这些被稽核分店的用户再次随机分配到其他分店(例如，C、……、N)。从而即便平台风控跟踪被关闭分店A和B的用户(例如，用户203a、203m等)的动向，该风险商户201的其他分店(C、……、N)也难以被发现。

协同过滤(CF)是推荐领域广泛运用的算法，其主要用于预测和推荐。协同过滤算法通过对用户的历史行为数据进行挖掘来发现用户的偏好，再基于不同的偏好为用户推荐品味相似的商品。

协同过滤推荐算法通常可分为两类，分别是基于用户的协同过滤算法和基于物品的协同过滤算法。

基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的偏好(例如，如商品购买、收藏、内容评论或分享等)，并根据不同用户对相同/相似商品或内容的态度和偏好程度计算用户之间的关系，以在有相同偏好的用户间进行商品推荐。根据一简单的示例，如果A、B两个用户都购买了a、b和c三件商品，并且给出了5星的好评。那么A和B就可能属于同一类用户，从而可以将A购买过的、看过的或收藏的那些商品也推荐给用户B。

基于物品的协同过滤算法与基于用户的协同过滤算法类似，区别在于将商品和用户互换。即，基于用户对不同物品的态度和偏好来获得物品间的关系，然后基于物品间的关系对用户进行相似物品的推荐。根据一简单的示例，如果用户A同时购买了商品a和商品b，那么说明商品a和商品b的相关度较高。当用户B也购买了商品a时，可以推断他很可能也有购买商品b的需求。

本公开的一些方面借鉴了商品或内容推荐中所使用的基于物品的协同过滤的思想。即，未知商户与已知风险商户所具有的共同用户越多或比例越高，则未知商户与风险商户就越相似。从而，通过找到已知风险商户的用户的“共同偏好”商户，就有可能挖掘出隐藏的风险商户。

图3示出了根据一示例性方面的挖掘隐藏风险商户的方法300。方法300可包括在框301估计未知商户与已知风险商户的相似性。方法300可进一步包括在框302从未知商户与已知风险商户的相似性来推断未知商户与已知风险商户之间的关系。

根据一示例性而非限定性实施例，已知风险商户可被称为黑样本。然而，诸如赌博之类的风险交易为主动风险。即，赌徒与庄家为主动参与赌博这一风险行为。虽然会有少量赌徒投诉/举报并可据此确定黑样本，但是投诉量不多且覆盖不广。因此，黑样本数量通常不足。为此，本公开可以结合策略稽核和/或赌博模型，将高得分的商户作为高置信度潜在风险商户，或称黑种子。策略稽核中所使用的策略可包括但不限于例如异常的资金流动、异常的商户宣传、异常的产品、异常的用户评价等等。风险交易模型可以采用任何常用的风险交易模型。

根据一示例性而非限定性的实施例，基于策略的松紧程度和/或模型的打分等，可以挑选出黑种子(高置信度潜在风险商户)，并且可赋予其置信度得分。该置信度得分可表示相应的潜在风险商户可能为真正风险商户的可能性。

根据一示例性而非限定性的实施例，挑选黑种子可以基于置信度得分阈值、经归一化置信度得分阈值、或置信度得分百分比等等。例如，可以挑选置信度高于预定义阈值的那些潜在风险商户作为黑种子。又如，可以挑选例如0.1％的最高得分的潜在风险商户作为黑种子，等等。本公开在此方面不受限定，并且也可采用上述各种方案或其它方案等的任何组合。对于经归一化的置信度得分，得分为0可表示确定并非风险商户，而得分为1可表示已知的风险商户。

根据一示例性而非限定性的实施例，可以从作为黑种子的风险商户的历史(例如，过去N天，诸如过去3天、5天、一周等)中发生过交易的用户，关联出这些用户在同一时间段(例如，过去N天，诸如过去3天、5天、一周等)消费过的商户，即为黑种子二度关联的商户。此类二度关联的商户风险属性未知，但是与黑种子有共同用户。

图4示出了黑种子与二度关联商户之间的关系。如所可见，黑种子与二度关联商户之间存在共同用户(例如，同一时间段)。换言之，这些共同用户在该时间段期间既与黑种子发生过交易，也与二度关联商户发生过交易。

根据一示例性而非限定性实施例，可以建立商户之间的买家相似度。例如，借鉴推荐领域的基于物品的协同过滤技术，在假定用户之间相互独立的前提下，可以认为两个商户间的共同买家越多，这两个商户的买家相似度就越高，或者说在买家相似度空间中距离越接近。光顾一个风险商户的用户也很可能会光顾其他类似的风险商户，并且光顾一个风险商户的用户很可能会光顾同一风险商户的几家分店。买家相似度指标可以例如使用本领域当前或将来所知的各种相似度指标，诸如Jaccard、Adamic/Adar、Cosine等等。

然而，此类二度关联商户中既可能存在潜在风险商户，亦可能存在正常商户。图5示出了示例性的各种二度关联商户的情形。例如，一些赌徒501可能在一家小额贷款公司502借款，然后到几个风险商户(例如，赌博庄家)503处进行风险交易(例如，下注)，也到该小额贷款公司502还款。这些交易通常发生在同一时间段期间。当其中某个风险商户因作为潜在风险商户的置信度高而被当作黑种子时，通过基于物品的协同过滤，其余几家风险商户和该小额贷款公司均会作为该黑种子的二度关联商户被发现。由于多个用户可能向该小额贷款公司502借款并且去风险商户503处下注，该小额贷款公司与风险商户的买家相似度高。如果仅基于二度关联商户与黑种子的买家相似度来认定潜在风险商户，则这些正常的商户(例如，小额贷款公司等)容易被误稽核。

因此，可以考虑添加更多维度的相似性，来综合评价两个商户之间的综合相似性，以更准确地发现潜在风险商户。

根据一示例性而非限定性实施例，商户与黑种子之间的相似性还可以考虑金额相似度。相似经营模式的商户，其商品的金额(价格)种类会十分相似。比如，赌博的充值金额/筹码，在各个赌场/赌博APP中都是非常相似的。即便在轮码的场景中，此相似度也是非常明显的。虽然一风险商户的各分店可能伪装成各种正常业务的商户，诸如早餐店、小吃店、书店、服装店、咖啡馆等等……，即从数据上表面看来是不同的商户，但是由于实际上是同一个风险商户，例如基于同一个赌博APP，所以赌徒的充值金额(体现为在这些店里的消费金额)会比较相似。另一方面，伪装的商户与该业务真正的正常商户的消费金额则很可能有显著区别。

利用金额相似度，能有效地区分风险商户与各种正常业务的商户，诸如早餐店、小吃店、书店、服装店、咖啡馆等等……。即便碰巧或因其他原因导致风险商户与各种正常业务的商户有共同买家，也会大大减少这些各种正常业务的商户被误稽核的可能性。

图6示出了根据一示例性而非限定性实施例的金额相似度的示例。可以使用例如cosine作为相似度指标来计算金额相似度。例如，可以将商户的金额类别作为向量。如果一个商户A有例如五类金额，分别是：5元、10元、30元、40元、100元，则可将其金额向量记为[5,10,30,40,100]。如果另一个商户B有例如八类金额，分别是：1元、2元、3元、10元、15元、30元、60元、100元，则可将其金额向量记为[1,2,3,10,15,30,60,100]。如果又一个商户C有例如四类金额，分别是：5元、10元、20元、100元，则可将其金额向量记为[5,10,20,100]。

根据一示例性而非限定性实施例，然后可以例如计算这些商户之间两两的金额相似度。例如，对于商户A和商户B，可先计算它们分别的金额频度向量。由于商户A和商户B一共有十类不同金额，分别是：1元、2元、3元、5元、10元、15元、30元、40元、60元、100元，所以商户A的金额频度向量记为[0,0,0,1,1,0,1,1,0,1]，而商户B的金额频度向量记为[1,1,1,0,1,1,1,0,1,1]。金额频度向量中，元素0代表该商户有相应的金额，而元素1代表该商户没有相应的金额。通过计算商户A的金额频度向量[0,0,0,1,1,0,1,1,0,1]与商户B的金额频度向量[1,1,1,0,1,1,1,0,1,1]之间的余弦，便可基于例如常用的余弦公式，例如：

来计算这两个金额频度向量的余弦相似度。

类似地，对于商户A和商户C，可先计算它们分别的金额频度向量。由于商户A和商户C一共有六类不同金额，分别是：5元、10元、20元、30元、40元、100元，所以商户A的金额频度向量记为[1,1,0,1,1,1]，而商户B的金额频度向量记为[1,1,1,0,0,1]。通过计算商户A的金额频度向量[1,1,0,1,1,1]与商户B的金额频度向量[1,1,1,0,0,1]之间的余弦，便可基于例如常用的余弦公式，来计算这两个金额频度向量的余弦相似度。

通过基于cosine相似度来计算这些金额向量之间的相似度，可以确定，商户A与商户B的相似度比商户A与商户C的要低，也就是说商户A与商户C更相似。

以上仅仅是计算商户之间的金额相似度的示例。上例中基于cosine相似度来计算商户两两之间的金额相似度。如所可知，本公开并不被限定于此。例如，也可通过列出所有商户的可能金额并基于此列出所有商户的金额频度向量，来计算所有商户之间的金额相似度。相似度也不仅仅基于cosine相似度，而是可以使用本领域当前或将来所知的各种相似度指标，诸如Jaccard、Adamic/Adar等等。

但是，部分风险商户的APP可能会有一些更复杂的后台操作。例如，一些风险商户可以把金额固定分派给固定的码等，例如将小额充值分派给一个码，而将大额充值分派给另一个码；或者将小额充值随机分派给数个码，而将大额充值分派给数个其他码，等等。从而该风险商户的与小额充值的码相关联的分店从数据上看起来可能与例如早餐店、小吃店等较为相似，而与大额充值的码相关联的分店从数据上看起来可能与例如服装店等较为相似。在这种情况下，仅用金额相似度作为商户与黑种子之间的综合相似性的考量的话，覆盖率很可能不足。

根据另一示例性而非限定性实施例，商户与黑种子之间的综合相似性还可以考虑商品名/转账文本相似度。通常，尽管风险商户会将各分店伪装成各种正常业务的商户，诸如早餐店、小吃店、书店、服装店、咖啡馆等等……，但是为了方便用户购买，其商品名会至少部分地标记有相似的文本。不仅如此，尽管这些分店关联于不同的收款码，并且从数据表面看来是不同的正常业务商户，但是由于它们实际上属于同一个风险商户并且例如基于同一个赌博APP，因此，为了运营，该赌博APP会对订单进行标记/注释，例如可标记在商品名和/或转账附言或注释文本中，等等。

为了躲避策略的关键字追捕，庄家会经常改变这些文本。但是，同一个庄家标记的文本往往显现出显著的相似性。

图7示出了根据一示例性实施例的文本相似度的示例。例如，一风险商户可能有数家分店且可能伪装成不同的正常业务的商户。例如，分店A可能伪装成早餐店，而分店B可能伪装成服装店。从数据表面看，很难看出这两家店之间有任何关系。但是，分店A对收款码A的注释文本A与分店B对收款码B的注释文本B则可能存在显著的相似性。

例如，根据一示例，分店A对收款码A的注释文本A可能是例如“B8063548405794745352(补全姓名见头像)”，而分店B对收款码B的注释文本B可能是“B8062078613529729882(补全姓名见头像)”。如所可见，这两个注释文本肉眼上看很相似，并且用文本拆解+相似度计算的办法可以确定，这两个文本相似度非常高。从而在综合评价中，可以推断出这两个商户有强相关的关系。

对于上例中的分店A对收款码A的注释文本“B8063548405794745352(补全姓名见头像)”以及分店B对收款码B的注释文本“B8062078613529729882(补全姓名见头像)”，可以先进行文本拆解，或称分词。

例如，分店A对收款码A的注释文本“B8063548405794745352(补全姓名见头像)”可被拆解为：

B/8063548405794745352/(/补全/姓名/见/头像/)

而分店B对收款码B的注释文本“B8062078613529729882(补全姓名见头像)”可被拆解为：

B/8062078613529729882/(/补全/姓名/见/头像/)

接着，可以列出所有的词：

字母数字左括号补全姓名见头像右括号

基于此，可以得到词频向量。例如分店A对收款码A的注释文本“B8063548405794745352(补全姓名见头像)”的词频向量可为[1,1,1,1,1,1,1,1]，而分店B对收款码B的注释文本“B8062078613529729882(补全姓名见头像)”的词频向量可为[1,1,1,1,1,1,1,1]。使用各种相似度指标，诸如Jaccard、Adamic/Adar、cosine等等，均可计算出关联于这两个收款码的这两个文本均有强相关，从而可确定这两个收款码所对应的两家商户(即，分店A和分店B)有强关联关系。

如所可知，拆解与收款码相关联的注释文本仅是示例。通过例如商品名、转账附言文本等也可以计算对应的商户之间的相关性。

通过计算买家相似度、金额相似度和文本相似度中的一者或多者或其任何组合，可以将结果整合成综合分以用于确定未知商户是赌博潜在庄家的商户的可能性。

对各种相似度进行整合有各种方式。根据一示例性实施例，例如，可以买家相似度(例如，通过协同过滤所发现的黑种子二度关联商户，其与黑种子的共同买家越多，则与该黑种子的买家相似度越高)为主，并将金额相似度和文本相似度用于进一步的过滤和/或调节。

例如，当通过协同过滤，发现了黑种子的二度关联商户之后，可排除其中例如金额相似度较低(例如，低于阈值)的那些二度关联商户，和/或可基于文本相似度对未被排除的二度关联商户进行排名。又如，也可在通过协同过滤，发现了黑种子的二度关联商户之后，基于金额相似度和文本相似度的组合对所有二度关联商户进行排名。这些仅是示例，本公开在此方面并不受限定。

根据另一示例性实施例，也可以对买家相似度、金额相似度和/或文本相似度或其任何组合进行加权结合。权重可代表相应相似度的重要性。权重的赋值可以基于经验。例如，可以根据业务经验，对各项相似度赋予不同的权重，并对其进行加权。最后可将加权后的权重相乘或相加以获得最后的综合相似度得分。

为了确定未知商户是风险商户的可能性，除了考虑其与黑种子的相似度以外，根据一示例性而非限定性实施例，还可考虑黑种子本身的置信度得分(即，模型和/或策略的打分)。即，黑种子的置信度得分越高，则与该黑种子相似的未知商户是风险商户的可能性就越高。

基于一示例性而非限定性实施例，可以通过将黑种子的置信度得分与未知商户关于该黑种子的综合相似度得分相乘，来得到该未知商户基于该黑种子的可信分。

根据另一示例性而非限定性实施例，一未知商户与数量越多的黑种子相似，则该未知商户是风险商户的可能性就越高。由此，若一个未知商户与多个黑种子相似，则在考虑该未知商户是潜在风险商户的可能性时可以考虑该商户分别基于这多个黑种子的可信分整合起来。

根据进一步的示例性而非限定性实施例，也可以只考虑排名较高的预定数目个(例如，N个)可信分。例如，若一未知商户与M(其中M>N)个黑种子相似，则可以选取其中最大的N个可信分并将其相加来得到该未知商户是潜在风险商户的最终得分。

另一方面，若该未知商户与T(其中T<＝N)个黑种子相似，则可以直接将相应的T个可信分相加来得到该未知商户是潜在风险商户的最终得分。

尽管以上描述了最终得分是通过将未知商户基于各个黑种子的可信分相加来得到的示例，但是本公开并不被限定于此，而是可以有其他计算方式。只要所计算出的最终得分能够反映该未知商户与多少个黑种子相似、该未知商户与相应各个黑种子的相似度、和/或相应各个黑种子的置信度即可。

图8示出了确定未知商户是潜在风险商户的最终得分的示例情形。例如，可能发现未知商户D与三个黑种子相似。例如，可能通过协同过滤算法发现该未知商户D是三个黑种子(高置信度的风险商户A、B和C)的二度关联商户。其中，黑种子A的置信度得分为1.0(即，已知的风险商户)，黑种子B的置信度得分为0.9(即，高置信度风险商户)，而黑种子C的置信度得分为0.8(高置信度风险商户)。

根据一示例性而非限定性实施例，可通过前述的方式，计算出未知商户D关于黑种子A、B和C分别的综合相似度得分为0.9、0.4和0.7。

根据一示例性而非限定性实施例，假定选取排名较高的预定数目个(例如，5个)可信分，则可计算该未知商户是潜在风险商户的最终得分＝1.0*0.9+0.9*0.4+0.8*0.7＝1.82。

根据另一示例性而非限定性实施例，假定选取排名较高的预定数目个(例如，2个)可信分，则可计算该未知商户是潜在风险商户的最终得分＝1.0*0.9+0.8*0.7＝1.46。

基于最终得分，可以确定是否要稽核该未知商户。例如，可以将最终得分与阈值相比较，并且当最终得分高于或等于阈值时，可认为该未知商户极有可能是潜在风险商户，并且相应地可对其进行稽核。

根据另一示例性而非限定性实施例，在稽核之前，也可进行人工检验以进一步提高稽核准确率。

图9示出了根据本公开一示例性实施例的稽核示例。如所可见，有两个未知商户X和Y和两个已知风险商户A和B。通过前述方案计算出未知商户X与风险商户A的综合相似度为0.91，而与风险商户B的综合相似度为0.83。类似地，计算出未知商户Y与风险商户A的综合相似度为0.01，而与风险商户B的综合相似度为0.00。相应地，例如基于如前述地计算的最终得分或其他类似方式，可以确定未知商户X是风险商户的可能性很高，而未知商户Y是风险商户的可能性极低。可以在有或者没有人工检验的情况下对疑似风险商户的未知商户X进行稽核。

本公开采用半监督的模式，从黑样本(高置信度潜在风险商户)出发，根据不同的相似性来发现与黑样本相似的未知样本(未知商户)，并通过模型/策略分数计算，可找到风险商户的其他未被挖掘的风险(例如，赌博)收钱码(例如轮码体系下)，也可发现其他潜在的风险商户。本公开的技术能挖掘那些有意规避交易风险策略的商户。这些实际风险商户从交易上看没有异常，故而通过现有技术很难被发现，但是能被本文所公开的技术挖掘出来。例如，实验数据表明，在企业转账赌博场景，对交易特征判断的模型和策略来说，本公开的模型的增益为约50％。即，对于用本公开的技术挖掘出的高置信度风险商户而言，其中仅有约50％是其他现有技术的策略/模型也可发现的，而经人工检验表明，对由本公开的技术单独挖掘出的另外约50％的高置信度风险商户的判断准确率约为100％，即都为赌博商户。

另外，本公开还可借助于投诉判定的黑样本，扩充黑种子名单，可以克服通过投诉识别的覆盖率低的问题。

图10示出了根据本公开的示例性方面的基于相似度算法挖掘隐藏风险商户的方法1000的流程图。方法1000可包括在框1002确定黑种子。黑种子可包括已知风险商户，例如已被稽核的风险商户和/或已被确认的风险商户等。当已知的风险商户不足时，可以基于本领域的各种策略和/或模型来确定高置信度潜在风险商户作为黑种子，并且可将相应策略和/或模型所确定的置信度作为其置信度分值。

在框1004，可确定黑种子的二度关联商户。黑种子的二度关联商户可包括与黑种子有共同用户的商户。根据一示例性而非限定性实施例，可从黑种子的交易历史(例如，过去N天等)中发现有交易的用户，并关联出这些用户在例如同一时间段所消费/交易过的其他商户，但本公开并不被限定于此。此时，黑种子的二度关联商户风险属性未知，但与黑种子具有共同用户。

在框1006，可确定二度关联商户与黑种子的相似度。根据一示例性而非限定性实施例，二度关联商户与黑种子的相似度可包括例如买家相似度、金额相似度、文本相似度等或其任何组合。根据一进一步的示例性而非限定性实施例，二度关联商户与黑种子的相似度可包括例如综合相似度，该综合相似度可基于例如买家相似度、金额相似度、文本相似度等或其任何组合。根据一示例，综合相似度可以基于各项相似度的组合。例如，综合相似度可以其中一项相似度为主，并以其他相似度为辅来对其进行过滤和/或调节。又如，综合相似度可以是各项相似度的加权组合。例如，可将经加权的各项相似度相乘或相加来获得综合相似度。本公开在此方面不受限定。

在框1008，可至少基于二度关联商户与黑种子的相似度来确定该二度关联商户是潜在风险商户的最终得分。例如，在可确定黑种子的置信度得分的情况下，可将黑种子的置信度得分与二度关联商户与黑种子的相似度相乘来确定最终得分。在二度关联商户与不止一个黑种子相似的情况下，可基于该二度关联商户与每一个黑种子的相似度与该黑种子的置信度得分来确定最终得分。例如，根据一示例性而非限定性实施例，可以计算每一个黑种子的相似度与该黑种子的置信度得分的乘积作为可信分，并将这些可信分相加来确定最终得分。本公开在此方面不受限定，且无论其计算方式如何，只要最终得分反映了黑种子的置信度以及二度关联商户与黑种子的相似度，或者在二度关联商户与不止一个黑种子相似的情况下，还反映了与多个黑种子的相似度以及相应黑种子的置信度。

在可任选的框1010，可以输出该二度关联商户是潜在风险商户的最终得分或者基于该最终得分来确定是否要稽核该二度关联商户。例如，可以将该最终得分与阈值进行比较，并且若该最终得分大于或等于该阈值，则可认为该二度关联商户很有可能是风险商户，并可对其进行稽核。又如，也可直接输出该最终得分。例如，可输出该最终得分以供进一步检验。该检验可以是例如人工检验和/或模型检验等。

图11示出了根据本公开一示例性方面的基于相似度算法挖掘隐藏风险商户的装置1100的框图。

装置1100可包括用于确定黑种子并赋予置信度分值的模块1102，其可被配置成执行以上结合图10描述的框1002的功能。装置1100还可包括用于确定黑种子的二度关联商户的模块1104，其可被配置成执行以上结合图10描述的框1104的功能。

装置1100还可包括用于确定二度关联商户与黑种子的相似度的模块1106，其可被配置成执行以上结合图10描述的框1006的功能。装置1100可进一步包括用于至少基于黑种子的置信度得分以及二度关联商户与黑种子的相似度来确定该二度关联商户是潜在风险商户的最终得分的模块1108，其可被配置成执行以上结合图10描述的框1008的功能。

可任选地，装置1100还可包括用于输出该二度关联商户是潜在风险商户的最终得分或者基于该最终得分来确定是否要稽核该二度关联商户的模块1110，其可被配置成执行以上结合图10描述的框1010的功能。

装置1100的各个模块可以用各种方式来实现。例如，上述模块可以被配置成软件。根据一示例性而非限定性实施例，上述模块可以按处理器可读指令的形式被存储在存储器中，并在由处理器执行时实现相应的功能。根据另一示例性而非限定性实施例，上述模块可被实现在存储处理器可读指令的计算机可读介质上。

在其他方面，装置1100的各个模块也可被实现为硬件。例如，装置1100的各个模块可被实现为逻辑块、电路模块、通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、门或晶体管逻辑、硬件组件等或其任何组合。

在进一步的方面，装置1100的各个模块也可被实现为硬件与软件的组合(诸如，固件)。本公开在此方面并不受限定。

本领域普通技术人员应理解，本发明的有益效果并非由任何单个实施例来全部实现。各种组合、修改和替换均为本领域普通技术人员在本发明的基础上所易于明了。

此外，除非特别指出，否则术语“或”旨在表示包含性“或”而非排他性“或”。即，除非另外指明或从上下文能清楚地看出，否则短语“X采用A或B”或类似短语旨在表示任何自然的可兼排列。即，短语“X采用A或B”藉由以下实例中的任何实例得到满足：X采用A；X采用B；X采用A和B两者。术语“连接”与“耦合”可表示相同含义，即两组件之间直接的或经由一个或多个居间组件的间接耦合。另外，本申请和所附权利要求书中所用的冠词“一”和“某”一般应当被理解为表示“一个或多个”，除非另外特别声明或从上下文中可以清楚地看出是指单数形式。

各个方面或特征以可包括数个设备、组件、模块及类似物等的***的形式来呈现。应理解的时，各种***可以包括附加的设备、组件、模块及类似物等，和/或可以并不包括所讨论的实施例中的设备、组件、模块及类似物的全体。

结合本文中所公开的实施例描述的各种说明性逻辑、逻辑块、模块和电路可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、门或晶体管逻辑、硬件组件。但在替换方案中，处理器可以是任何常规的处理器、控制器、微控制器或状态机。以上结合方法描述的实施例可以通过处理器和与之耦合的存储器来实现，其中处理器可被配置成执行前述任何方法的任何步骤或其组合。

结合本文中的实施例描述的方法或算法的步骤和/或动作可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。例如，以上结合各个方法描述的实施例可以通过存储有计算机程序代码的计算机可读介质来实现，其中该计算机程序代码在由处理器/计算机执行时执行前述任何方法的任何步骤或其任何组合。

本公开中通篇描述的各种方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上等效的方案均被本公开所覆盖。此外，本文中任何内容无论是否在权利要求书中被述及，均并非旨在贡献给公众。

Claims

1.一种基于相似度算法挖掘隐藏风险商户的方法，其特征在于，包括：

确定黑种子，所述黑种子包括已知的风险商户或高置信度潜在风险商户或其组合；

确定与所述黑种子有共同用户的未知商户；

确定所述未知商户与所述黑种子的相似度；以及

至少基于所述未知商户与所述黑种子的相似度来确定所述未知商户属于潜在风险商户的最终得分。

2.如权利要求1所述的方法，其特征在于，确定与所述黑种子有共同用户的未知商户包括：

确定在一时间段里与所述黑种子发生过交易的用户；以及

关联出与所述黑种子发生过交易的用户在所述时间段里交易过的其他商户作为所述未知商户。

3.如权利要求1所述的方法，其特征在于，所述相似度包括买家相似度，其中确定所述未知商户与所述黑种子的所述相似度包括：

确定所述未知商户与所述黑种子的共同买家；以及

基于所述共同买家的数量确定所述未知商户与所述黑种子的买家相似度。

4.如权利要求1所述的方法，其特征在于，所述相似度包括金额相似度，其中确定所述未知商户与所述黑种子的所述相似度包括：

确定所述未知商户的金额类别和所述黑种子的金额类别；以及

确定所述未知商户的金额类别与所述黑种子的金额类别的相似度。

5.如权利要求1所述的方法，其特征在于，所述相似度包括文本相似度，其中确定所述未知商户与所述黑种子的所述相似度包括：

拆解所述未知商户的文本和所述黑种子的文本；以及

基于所述拆解，确定所述未知商户的文本和所述黑种子的文本的文本相似度，其中文本包括商品名、转账附言、注释文本或其任何组合。

6.如权利要求1所述的方法，其特征在于，所述相似度包括综合相似度，其中确定所述未知商户与所述黑种子的所述相似度包括：

基于买家相似度、金额相似度和文本相似度的组合来确定所述综合相似度。

7.如权利要求6所述的方法，其特征在于，所述综合相似度基于所述买家相似度，并由所述金额相似度和所述文本相似度进一步调节。

8.如权利要求6所述的方法，其特征在于，所述综合相似度基于所述买家相似度、所述金额相似度和所述文本相似度的加权结合。

9.如权利要求1所述的方法，其特征在于，至少基于所述未知商户与所述黑种子的相似度来确定所述未知商户属于潜在风险商户的最终得分包括：

基于所述未知商户与所述黑种子的相似度和所述黑种子的置信度来确定所述最终得分。

10.如权利要求1所述的方法，其特征在于，进一步包括：

输出所述未知商户属于潜在风险商户的所述最终得分。

11.如权利要求1所述的方法，其特征在于，进一步包括：

将所述未知商户属于潜在风险商户的所述最终得分与阈值作比较；以及

基于所述比较来确定是否要稽核所述未知商户。

12.如权利要求9所述的方法，其特征在于，所述高置信度潜在风险商户基于策略或模型或其组合来确定，并且所述高置信度潜在风险商户的置信度基于所述策略的松紧程度或所述模型的打分或其组合。

13.如权利要求9所述的方法，其特征在于，所述黑种子包括多个黑种子，并且所述基于所述未知商户与所述黑种子的相似度和所述黑种子的置信度来确定所述最终得分包括：

基于所述未知商户与所述多个黑种子中的每一个黑种子的相似度和该黑种子的置信度来确定所述最终得分。

14.如权利要求11所述的方法，其特征在于，进一步包括：

如果确定要稽核所述未知商户，则将所述未知商户添加到所述黑种子中。

15.一种基于相似度算法挖掘隐藏风险商户的装置，其特征在于，包括：

用于确定黑种子的模块，所述黑种子包括已知的风险商户或高置信度潜在风险商户或其组合；

用于确定与所述黑种子有共同用户的未知商户的模块；

用于确定所述未知商户与所述黑种子的相似度的模块；以及

用于至少基于所述未知商户与所述黑种子的相似度来确定所述未知商户属于潜在风险商户的最终得分的模块。

16.如权利要求15所述的装置，其特征在于，用于确定与所述黑种子有共同用户的未知商户的模块包括：

用于确定在一时间段里与所述黑种子发生过交易的用户的模块；以及

用于关联出与所述黑种子发生过交易的用户在所述时间段里交易过的其他商户作为所述未知商户的模块。

17.如权利要求15所述的装置，其特征在于，所述相似度包括买家相似度，其中用于确定所述未知商户与所述黑种子的所述相似度的模块包括：

用于确定所述未知商户与所述黑种子的共同买家的模块；以及

用于基于所述共同买家的数量确定所述未知商户与所述黑种子的买家相似度的模块。

18.如权利要求15所述的装置，其特征在于，所述相似度包括金额相似度，其中用于确定所述未知商户与所述黑种子的所述相似度的模块包括：

用于确定所述未知商户的金额类别和所述黑种子的金额类别的模块；以及

用于确定所述未知商户的金额类别与所述黑种子的金额类别的相似度的模块。

19.如权利要求15所述的装置，其特征在于，所述相似度包括文本相似度，其中用于确定所述未知商户与所述黑种子的所述相似度的模块包括：

用于拆解所述未知商户的文本和所述黑种子的文本的模块；以及

用于基于所述拆解，确定所述未知商户的文本和所述黑种子的文本的文本相似度的模块，其中文本包括商品名、转账附言、注释文本或其任何组合。

20.如权利要求15所述的装置，其特征在于，所述相似度包括综合相似度，其中用于确定所述未知商户与所述黑种子的相似度的模块包括：

用于基于买家相似度、金额相似度和文本相似度的组合来确定所述综合相似度的模块。

21.如权利要求20所述的装置，其特征在于，所述综合相似度基于所述买家相似度，并由所述金额相似度和所述文本相似度进一步调节。

22.如权利要求20所述的方法，其特征在于，所述综合相似度基于所述买家相似度、所述金额相似度和所述文本相似度的加权结合。

23.如权利要求15所述的装置，其特征在于，所述用于至少基于所述未知商户与所述黑种子的相似度来确定所述未知商户属于潜在风险商户的最终得分的模块包括：

用于基于所述未知商户与所述黑种子的相似度和所述黑种子的置信度来确定所述最终得分的模块。

24.如权利要求15所述的装置，其特征在于，进一步包括：

用于输出所述未知商户属于潜在风险商户的所述最终得分的模块。

25.如权利要求15所述的装置，其特征在于，进一步包括：

用于将所述未知商户属于潜在风险商户的所述最终得分与阈值作比较的模块；以及

用于基于所述比较来确定是否要稽核所述未知商户的模块。

26.如权利要求23所述的装置，其特征在于，所述高置信度潜在风险商户基于策略或模型或其组合来确定，并且所述高置信度潜在风险商户的置信度基于所述策略的松紧程度或所述模型的打分或其组合。

27.如权利要求23所述的装置，其特征在于，所述黑种子包括多个黑种子，并且所述用于基于所述未知商户与所述黑种子的相似度和所述黑种子的置信度来确定所述最终得分的装置包括：

用于基于所述未知商户与所述多个黑种子中的每一个黑种子的相似度和该黑种子的置信度来确定所述最终得分的装置。

28.如权利要求25所述的装置，其特征在于，进一步包括：

用于如果确定要稽核所述未知商户，则将所述未知商户添加到所述黑种子中的装置。

29.一种基于相似度算法挖掘隐藏风险商户的设备，其特征在于，包括：

存储器；以及

与所述存储器耦合的处理器，所述处理器被配置成：

确定与所述黑种子有共同用户的未知商户；

确定所述未知商户与所述黑种子的相似度；以及

30.一种存储有处理器可执行指令的计算机可读介质，所述处理器可读指令在由处理器执行时，使所述处理器基于相似度算法挖掘隐藏风险商户，包括：

确定与所述黑种子有共同用户的未知商户；

确定所述未知商户与所述黑种子的相似度；以及