CN105404947A

CN105404947A - 用户质量侦测方法及装置

Info

Publication number: CN105404947A
Application number: CN201410444194.4A
Authority: CN
Inventors: 陈俊波; 陈春明; 章鹏; 李红松; 王力; 庞昂博
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-09-02
Filing date: 2014-09-02
Publication date: 2016-03-16
Also published as: HK1221541A1

Abstract

本申请公开了用户质量侦测方法及装置，其中，该方法包括：建立用户集合，所述用户集合中包括已知用户质量的用户以及未知用户质量的用户；将所述用户集合中已知用户质量的用户确定为种子用户，并分别为各个用户赋予质量分值初始值；获取所述用户集合中各个用户之间在至少一个维度上的关联关系信息，并进行量化；根据所述关联关系信息、各用户的质量分值、各用户是否为种子用户，利用预置的预测模型进行多次迭代计算，直到算法收敛时结束迭代计算，并利用最终得到的各个用户的质量分值确定各个用户的用户质量。通过本申请实施例，能够更准确地进行用户质量的侦测，提高侦测结果的可靠性，降低对计算资源的浪费。

Description

用户质量侦测方法及装置

技术领域

本申请涉及电子商务交易平台中的用户质量分析技术领域，特别是涉及用户质量侦测方法及装置。

背景技术

在电子商务交易平台上，在很多场景中都存在识别用户质量的需求。例如，买家和卖家之间的活动，从一开始就伴随着作弊与反作弊等矛盾关系，如：欺诈与反欺诈，虚假交易与反虚假交易，等等。在对平台进行管理的过程中，很重要的一个内容就是对不良的用户进行识别和管理，它的前提是，对于不良用户有较好的识别。另外，还有一些场景下需要识别出高质量的用户，例如，当需要邀请一些用户针对某投票事件给出投票结果时，一般就需要选择一些高质量的用户，以保证投票结果的公正公平，等等。

通常，对于高风险用户/高质量用户的发现和识别是比较困难的，比如针对于虚假交易，无论是虚假交易的发起方还是参与方，都会刻意地掩盖其不良动机，并想方设法通过模仿正常的交易行为来达到掩盖不良动机的目的。对于其他不良行为，如欺诈、职业差评等，也呈现出类似的特征。

现有技术中，往往是通过人工或者专家的方式来进行用户质量的识别，这种方法虽然有效，但是局限性也十分明显。例如，人工的方式处理能力有限，无法对全网的用户(比如超过千万甚至上亿)进行识别。当通过人工检查的方式发现了比如上百笔有虚假交易问题的交易和上百个对应的问题账号以后，随之而来的一个问题就是，在全网还有多少参与过虚假交易的问题用户。

另一种现有技术中，通过对一类问题开发一种对应的业务模型的方式，来发现特定业务类型内的高风险用户/高质量用户。这种自动侦测的方式相对于人工侦测的方式而言，提高了对单一问题的处理效率，但是，针对每一个业务问题都需要开发不同的业务模型，同样无法满足业务问题多样化的挑战。比如，针对虚假交易开发一个虚假交易用户的识别和侦测模型，对于欺诈开发欺诈用户的识别和侦测模型，开发和维护的成本都很高。

另外，现有技术中还可以通过开发全平台通用的侦测模型的方式，来侦测各个用户的质量，但是，在侦测模型中往往需要设定一些参数，对于这些参数的设定，现有技术中往往是通过经验值，或者预先通过一些训练样本进行训练等方式来设定，但是，在实际应用中，经常存在侦测结果的准确度不高的情况，无法直接应用到具体的场景中，对于计算资源等造成浪费。

因此，如何更准确地进行用户质量的侦测，提高侦测结果的可靠性，降低对计算资源的浪费，成为迫切需要本领域技术人员解决的技术问题。

发明内容

本申请提供了用户质量侦测方法及装置，能够更准确地进行用户质量的侦测，提高侦测结果的可靠性，降低对计算资源的浪费。

本申请提供了如下方案：

一种用户质量侦测方法，包括：

建立用户集合，所述用户集合中包括已知用户质量的用户以及未知用户质量的用户，所述已知用户质量的用户中包括高质量的用户以及高风险的用户；

将所述用户集合中已知用户质量的用户确定为种子用户，并分别为各个用户赋予质量分值初始值；

获取所述用户集合中各个用户之间在至少一个维度上的关联关系信息，并进行量化；

根据所述关联关系信息、各用户的质量分值、各用户是否为种子用户，利用预置的预测模型进行多次迭代计算，直到算法收敛时结束迭代计算，并利用最终得到的各个用户的质量分值确定各个用户的用户质量。

一种用户质量侦测装置，包括：

用户集合建立单元，用于建立用户集合，所述用户集合中包括已知用户质量的用户以及未知用户质量的用户，所述已知用户质量的用户中包括高质量的用户以及高风险的用户；

种子用户确定单元，用于将所述用户集合中已知用户质量的用户确定为种子用户，并分别为各个用户赋予质量分值初始值；

关联关系信息获取单元，用于获取所述用户集合中各个用户之间在至少一个维度上的关联关系信息，并进行量化；

迭代计算单元，用于根据所述关联关系信息、各用户的质量分值、各用户是否为种子用户，利用预置的预测模型进行多次迭代计算，直到算法收敛时结束迭代计算，并利用最终得到的各个用户的质量分值确定各个用户的用户质量。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

本申请实施例，通过每一次对参数的优化调整，可以寻找到最优的参数组合，最终的评估结果的可靠性也得到提高，从而降低对计算资源的浪费。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的方法的流程图；

图2是本申请实施例提供的装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，可以根据用户与用户之间的关系，建立起用户关系图，并从一批已经确定的高风险用户以及高质量用户出发，在用户关系图中进行随机游走，在多次迭代之后，得到各个用户的得分，用该得分来确定用户属于高质量或者高风险用户的概率。

在利用用户关系图进行迭代计算的过程中，需要用到预测模型，预测模型中一般会包含一个或几个参数，在现有技术中，一般会将这种参数作为常量，根据经验值等来确定其取值。而在本申请实施例中，还可以在每次迭代之后，对预测模型中的参数进行优化调整，以便最终获得更准确的用户质量分值，进而更准确的对用户进行分类。下面对具体的实现方式进行详细的介绍。

参见图1，本申请实施例首先提供了一种用户侦测方法，该方法可以包括以下步骤：

S101：建立用户集合，所述用户集合中包括已知用户质量的用户以及未知用户质量的用户，所述已知用户质量的用户中包括高质量的用户以及高风险的用户；

所谓的用户集合，可以是由交易平台中的多个用户组成的，例如，只要是在交易平台中注册的用户，都可以加入到该用户集合中。在该集合中，大部分用户都是未知状态，也即，尚未知晓其质量如何，另外还有一部分用户是已经知晓其质量情况的，并且其中既包含已知是高质量的用户，还包含已知是高风险的用户。

其中，可以通过人工等方式确定出一些已知了用户质量的用户，或者也可以根据交易平台的数据库中保存的信息，来提取这些用户。例如，可以将以下用户类型之一或组合确定为高风险用户：历史上已经因炒作信用而被处罚的卖家(以下简称，炒信卖家)、历史上已经因销售假货而被处罚的卖家、物流信息缺失比例较大的卖家、交易时间异常集中在某一个时间段的卖家等。还可以将以下用户类型之一或组合确定为高质量用户：信誉度比较高的卖家、完全没有物流信息缺失的卖家、多数都是与优质卖家进行交易的买家等等。

S102：将所述用户集合中已知用户质量的用户确定为种子用户，并分别为各个用户赋予质量分值初始值；

这些已知用户质量的用户就可以作为种子用户，其他未知用户质量的用户，都是从这些种子用户开始进行传递，确定出各自的质量分值。具体实现时，还可以首先为各个用户赋予质量分值的初始值。例如，如果将各个用户的质量分值限制在0到1之间，其中，1代表100％为高质量用户，0代表100％为高风险用户，则可以将高质量种子用户的质量分值初始值确定为1，高风险种子用户的质量分值初始值赋值为0，其他未知用户的质量分值初始值确定为0.5。

S103：获取所述用户集合中各个用户之间在至少一个维度上的关联关系信息，并进行量化；

本申请实施例中进行用户质量分值传递的前提是，假设大多数好的买家倾向于同高质量的卖家交易；而有问题的买家，会和有问题的卖家为了正常交易之外的目的进行交易。例如，炒信卖家s无法孤立的进行信用炒作，他必须借助于炒作信用的买家b进行信用炒作。因此，通过发现高风险的卖家，也能发现高风险的买家，反之亦然。为此，具体在进行质量分值传递之前，可以首先获取各个用户之间的关联关系信息。这种关联关系一般会体现在多个方面，因此可以获取至少一个维度上的关联关系信息。

例如，具体实现时，这种关联关系信息可以体现在交易关系方面。具体的，电子商务交易平台中的用户一般分为买家用户和卖家用户两种类型，交易都是发生在某个买家用户与某个卖家用户之间的，同时，交易平台可以对交易的信息进行记录，包括交易双方的用户信息、交易的金额、对应的商品对象的信息等等。因此，在本申请实施例中，可以首先根据交易平台内各个用户的历史交易记录，获取用户交易关系信息。

其中，在本申请实施例中，获取的用户交易关系信息可以包括：该第一用户与该第二用户之间是否具有交易关系，以及在具有交易关系的情况下，两者之间的交易密切程度。当然，为了将这种交易关系信息带入到具体的迭代计算中，还可以将这种交易密切程度信息进行量化。具体的，可以利用用户之间的交易量、交易额来表示这两个用户之间的交易关系信息。这样，用户i与用户j之间的交易关系信息就可以表示为<交易量、交易额>。其中，交易量用于表示用户i与用户j进行过多少次交易，交易额可以用于表示两者之间各次交易涉及的总交易额。当然，在实际应用中，还可以用其它参数来对用户之间的交易关系信息进行量化。

另外，关于用户集合中的各个用户，除了可能在交易中发生关联之外，还可能从其他方面体现出关联，并且这种关联关系可能会从一定程度上体现出用户质量的好坏。例如，有的用户可能会注册多个帐号，通过这多个帐号伪装成多个用户，进而用于炒信等行为。也就是说，对于交易平台服务器而言，一般是以帐号来区分用户身份的，从服务器角度来看，一个帐号对应一个用户。但实际上，可能存在多个帐号对应现实世界中的一个用户的情况，而这些帐号对应的用户之间可能不存在具体的交易关系，无法利用交易关系信息来发现，因此，本申请实施例中，还可以另外获取用户的同人关系信息。具体在确定同人关系信息时，可以对各个帐号的同机登录次数、同ip登录次数、相同物流地址的次数等进行统计，如果某两个或者多个帐号之间的上述信息符合一定的条件，则可以认为其间具有同人关系。当然，上述对于同人关系的判断实际上也是一种概率的判断，也即根据前述统计信息判断出用户之间具有同人关系的概率。可以直接将这种概率作为量化后的同人关系信息带入到后续的计算中，或者，为了压缩信息量，还可以预先确定将同人关系划分为多个等级，并设置各个等级对应的概率区间，这样，可以将这种同人概率量化到具体的等级中，例如，假设预先划分为五个等级，则同人关系的取值为0、1、2、3、4，取值越高，同人关系越密切。

在一种优选的实施方式下，就可以从上述交易关系信息以及同人关系信息两个维度上获取用户之间的关联关系信息，其中，交易关系信息可以用<交易量，交易额>来表示，同人关系信息可以用<同人等级>来表示，因此，用户集合中的任意两个用户i与用户j之间都可以得到一个三维的特征向量：<交易量，交易额，同人等级>，该特征向量就可以表示用户i与用户j之间的关联关系信息，并可以带入到后续的预测模型中进行计算。

在具体将上述关联关系信息带入到预测模型中进行计算时，可以采用直接带入的方式，但是，在用户之间具有多个维度的关联关系信息的情况下，直接带入进行计算的方式会比较复杂。因此，在本申请实施例中，可以将预测模型分为两部分，其中一部分用于将上述多个维度上的关联关系信息转换为一个综合关系值，该综合关系值属于一个标量，之后，在预测模型的另一部分中，可以利用该综合关系值来代表对应两个用户之间的关联关系，进行用户质量分值的传递。

其中，具体在将多个维度上的关联关系信息转换成综合关系值时，可以有多种具体的实现方式，例如，在其中一种实现方式下，可以利用以下公式来进行：

a_{ij} = {(1 + e^{- w \cdot (x_{ij} - θ)})}^{- 1} - - - (1)

其中，a_ij为用户i与用户j之间的综合关系值；

x_ij为用户i与用户j之间的关联关系特征向量，该特征向量中的各个元素为用户i与用户j在各个维度上的关联关系信息的量化值；例如，前述的<交易量，交易额，同人等级>；

w、θ分别为一个向量，其长度与x_ij的长度相等。

在实际应用中，还可以将上述综合关系值进行正则化处理，得到：

关于w、θ在各个元素上的具体取值可以是预先设定好的，例如，可以根据经验值进行设定，显然，当这两个参数取不同的取值时，会直接影响到综合关系值的计算结果，而该综合关系值作为用户之间关联关系的体现，会直接影响到后续用户质量分值的传递和计算，而综合关系值的准确性会影响到后续对用户质量的评估。因此，在本申请实施例中，将w、θ这两个参数作为待优化的参数，每一次迭代计算之后，都可以对这两个参数进行优化调整(当然，在第一次迭代运算时，这两个参数可以随机设置，或者按照经验值进行设置，等等)，之后重新计算用户之间的综合关系值，在下一次迭代计算中，就是用重新计算出来的综合关系值。这样，随着每一次的迭代计算，用户综合关系值都可以不断的得到优化，进而用户质量分值也在不断的变化，更接近于实际的情况。关于具体的参数优化调整方式，在后文中会有详细地介绍。

在得到用户之间的综合关系值之后，可以基于用户集合中的各个用户以及上述计算出的综合关系值，建立用户关联关系图，在该关联关系图中，每个用户对应一个节点，在综合关系值不为0的节点之间可以建立起边，对应两个节点之间的综合关系值就代表对应边上的权重。在对综合关系值进行了前述正则化处理的情况下，该关联关系图上的任意节点都可以满足如下性质：所有出边上权重之和为1，且每一个出边的权重大于等于0,小于等于1。

在具体实现时，可以通过转移矩阵的形式来描述上述关联关系图，具体的，该转移矩阵A中的每一行以及每一列分别代表一个用户，假设用户集合中共有N个用户，则该转移矩阵就是一个N行N列的矩阵。对于其中的元素A[m,n]，如果用户m与用户n之间的综合关系值为0，则A[m,n]＝0，如果用户m与用户n之间具有关联关系，则A[m,n]的取值就对应用户m与用户n之间的综合关系值。这样，后续就可以用该矩阵代表用户集合中各个用户之间的关联关系，带入到后续的迭代计算过程中。

例如，假设用户集合为{A,B,C,D,E,F,G,H}，在某次迭代中，使用的转移矩阵可以如以下表1所示(当然各个元素上的取值只是用于举例，在实际应用中可以根据具体的特征向量等进行转换计算得到)：

表1

	A	B	C	D	E	F	G	H
									A			0.2
B			0.1	0.2
									C	1.0	0.3		0.8		1.0	0.7
D		0.7					0.2
									E							0.1
F			0.2					1.0
									G			0.7		0.9
H					0.1

S104：根据所述关联关系信息、各用户的质量分值、各用户是否为种子用户，利用预置的预测模型进行多次迭代计算，直到算法收敛时结束迭代计算，并利用最终得到的各个用户的质量分值确定各个用户的用户质量。

进一步地，所述预测模型中包含待优化的参数；

在获取到用户之间的关联关系信息之后，由于预先已知哪些用户为种子用户，并且为各个用户赋予了质量分值的初始值，因此，就可以根据这三方面的信息进行第一次的迭代计算。在迭代计算时，可以根据关联关系信息、各用户是否为种子用户，将各用户的质量分值在具有关联关系的用户之间进行传递。

具体的，这种传递关系可以通过公式的方式来实现。当然，在本申请实施例中，由于用户集合中既存在高质量的种子用户，又存在高风险的种子用户，因此，可以如下进行传递：

根据关联关系信息、各用户是否为高质量种子用户，将各用户的质量分值在具有关联关系的用户之间进行传递，获取从高质量种子用户传递到各用户的第一概率；

根据关联关系信息、各用户是否为高风险种子用户，将各用户的质量分值在具有关联关系的用户之间进行传递，获取从高风险种子用户传递到各用户的第二概率；

将上述第一概率与对应的第二概率之差确定为对应用户在本次迭代后的质量分值。

具体的，由于上述质量分值的传递过程，相当于是质量分值在前述用户关联关系图中的随机游走，因此，在每一次迭代计算中，都可以是计算从高质量节点随机游走到任意节点v的概率R_T和从高风险节点B随机游走到该节点的概率R_B之差，并以此来估计当前节点v的信用等级。具体的计算公式可以如以下所示：

B_T(i+1)＝αA·R_T(i)+(1-α)Q_T(3)

R_B(i+1)＝αA·R_B(i)+(1-α)Q_B(4)

P＝R_T-R_B(5)

其中，A是根据用户之间的综合关系值建立的转移矩阵；当然，由于每一次迭代计算之后都可以对综合关系值转换公式中的参数进行优化，因此，该矩阵中各个元素的取值在每一次迭代计算中可能是不同的。

R_T(i)为在第i次迭代计算中，从高质量种子用户游走到各用户后，得到的各用户的质量分值组成的向量，该向量的长度与用户集合中的总用户数量相同，当i＝0时，也即在第一次迭代计算中，各用户的质量分值为步骤S102中赋予的初始值；

Q_T为一向量，其长度与用户集合中的总用户数量相同，该向量中各个元素的取值由对应的用户是否为高质量种子用户确定，例如，假设用户集合为{A,B,C,D,E,F,G,H}，其中，用户A和用户B是高质量种子用户，用户G和用户H是高风险种子节点，其他为未知质量的节点。则Q_T＝[1，1，0，0，0，0，0，0]，归一化之后，Q_T＝[0.5，0.5，0，0，0，0，0，0]。并且，在每一步迭代中，这个向量都是不变的，可以看出，该向量的存在只对高质量种子用户的分值有影响，因为其他元素的值全部为0(即使是高风险种子用户，在该向量中取值也为0)。

R_B()为在第i次迭代计算中，从高风险种子用户游走到各用户后，得到的各用户的质量分值组成的向量，该向量的长度也与用户集合中的总用户数量相同，当i＝0时，也即在第一次迭代计算中，各用户的质量分值为步骤S102中赋予的初始值；

Q_B为另一向量，其长度与用户集合中的总用户数量相同，该向量中各个元素的取值由对应的用户是否为高风险种子用户确定，例如，仍然假设用户集合为{A,B,C,D,E,F,G,H}，其中，用户A和用户B是高质量种子用户，用户G和用户H是高风险种子节点，其他为未知质量的节点。则Q_B＝[0，0，0，0，0，0，1，1]，归一化之后，Q_T＝[0，0，0，0，0，0，0.5，0.5]。同样，在每一步迭代中，这个向量都是不变的，该向量的存在只对高风险种子用户的分值有影响，因为其他元素的值全部为0(即使是高质量种子用户，在该向量中取值也为0)。

总之，在每一次迭代计算之后都可以得到一个向量P，该向量的长度同样等于用户集合中的用户数量，向量中各元素代表在此次迭代之后，用户集合中各用户的质量分值。其中，无论是种子用户还是非种子用户，其质量分值相对于上一次迭代计算之后的结果，都可能会发生变化。

如前文所述，在w、θ取固定值的情况下，通过多次的迭代计算，用户的质量分值也可以趋于收敛，并可以确定出最终的质量分值。但是，在这种取固定值的方式下，用户质量的评估结果到底是否准确是无法判断的。为此，在本申请实施例中，在每一次迭代计算后，都可以对此次迭代计算的评估结果的准确性进行衡量，并且确定出应如何对参数进行优化调整，以使得下一次的迭代计算结果更接近于真实情况。

为此，本申请实施例可以采用AUC(AreaUnderrocCurve，ROC曲线下方的面积)的方式来衡量每一次迭代之后向量P的优劣。其中，ROC的全名叫做ReceiverOperatingCharacteristic，其主要分析工具是一个画在二维平面上的曲线——ROCcurve。平面的横坐标是falsepositiverate(FPR)，纵坐标是truepositiverate(TPR)。对某个分类器(本申请实施例中的前述预测模型实际上也是一个分类器，将用户分类为高质量用户以及高风险用户两类)而言，可以根据其在测试样本上的表现得到一个TPR和FPR点对。这样，此分类器就可以映射成ROC平面上的一个点。调整这个分类器分类时候使用的阈值，就可以得到一个经过(0,0)，(1,1)的曲线，这就是此分类器的ROC曲线。一般情况下，这个曲线都应该处于(0,0)和(1,1)连线的上方，因为(0,0)和(1,1)连线形成的ROC曲线实际上代表的是一个随机分类器。AUC的一个性质在于，任意给一个正类样本和一个负类样本，正类样本的得分有多大的概率大于负类样本的得分，该概率越大，就证明分类器的性能越好。

基于此，在本申请实施例中，在一次迭代计算结束后，可以从用户集合中选取出全部或部分已知是高质量的用户组成正样本用户集合，以及全部或部分已知是高风险的用户组成负样本集合，基于上述正样本集合以及负样本集合中的用户在此次迭代后的质量分值，可以计算出AUC值，该AUC值的大小代表此次迭代计算结果的优劣，AUC值越大，证明评估结果越准确。具体的，可以通过以下方式来计算AUC值：

AUC = \frac{Σ_{i &Element; D_{T}} Σ_{j &Element; D_{B}} I (P_{i} - P_{j})}{| D_{T} | | D_{B} |} - - - (6)

其中，I(P_i-P_j)为一个指示函数：

I (P_{i} - P_{j}) = \{\begin{matrix} 1 & if & P_{i} &GreaterEqual; P_{j} \\ 0 & if & P_{i} < P_{j} \end{matrix} - - - (7)

其中，D_T为正样本用户集合，D_B为负样本用户集合，P_i为正样本用户在一次迭代计算后得到的质量分值，P_j为负样本用户在一次迭代计算后得到的质量分值。在分类器具有较高分类性能的情况下，在迭代计算之后，正样本用户的质量分值一定全部高于负样本，但是，如果分类器的性能不太好的情况下，可能会将某些正样本的质量分值变得很低，负样本的质量分值反而变高，显然这是分类器出现误判导致的，并且这种误判也会出现在对其他未知质量用户的分类上。因此，上述AUC函数衡量体系中，可在一次迭代计算后，将每个正样本用户的质量分值分别与各个负样本用户的质量分值进行比较，判断有多少正样本用户的质量分值高于负样本用户的质量分值，该数量越多，证明分类器的性能越好。

在通过计算AUC值评估分类性能时，本申请实施例还可以进行一项非常重要的工作，那就是，可以基于各个样本用户在一次迭代计算中的质量分值，分别计算出AUC函数关于待优化参数w和θ的梯度方向。该梯度方向的意义在于，当参数w和θ的取值沿着该梯度方向进行调整时，总是能让AUC值得到优化，并且相对于其他方向，该梯度方向上的调整会使得AUC的值上升的最快。

因此，在本申请实施例中，就可以获取AUC衡量函数关于待优化参数w和θ的梯度方向，在该梯度方向上按照预置的步长对待优化参数w和θ进行调整，以便在下一次迭代计算时，利用优化调整后的参数进行各用户质量分值的传递。

其中，在计算公式(6)所示的AUC衡量函数相对于待优化参数w和θ的梯度方向时，由于指示函数不是可微函数，因此在设计上可以用Sigmoid函数进行近似：

AUC = \frac{Σ_{i &Element; D_{T}} Σ_{j &Element; D_{B}} S (P_{i} - P_{j})}{| D_{T} | | D_{B} |} - - - (8)

其中：S(x)＝(1+e^-βx)^-1，其中β是事先设定的参数。

由于P的计算依赖于w和θ的取值，因此，可以认为是w和θ的函数。类似的，可以认为AUC也是w和θ的函数，进而可以推导出AUC的关于w和θ的梯度方向：

\frac{&PartialD; AUC (w, θ)}{&PartialD; w} = \frac{Σ_{i &Element; D_{T}} Σ_{j &Element; D_{B}} \frac{&PartialD; S (δ_{ij})}{{&PartialD; δ}_{ij}} (\frac{{&PartialD; P}_{i}}{&PartialD; w} - \frac{{&PartialD; P}_{j}}{&PartialD; w})}{| D_{T} | | D_{B} |} - - - (9)

\frac{&PartialD; AUC (w, θ)}{&PartialD; θ} = \frac{Σ_{i &Element; D_{T}} Σ_{j &Element; D_{B}} \frac{&PartialD; S (δ_{ij})}{{&PartialD; δ}_{ij}} (\frac{{&PartialD; P}_{i}}{&PartialD; θ} - \frac{{&PartialD; P}_{j}}{&PartialD; θ})}{| D_{T} | | D_{B} |} - - - (10)

其中，δ_ij＝P_i-P_j，

\frac{&PartialD; S (δ_{ij})}{{&PartialD; δ}_{ij}} = βS (δ_{ij}) (1 - S (δ_{ij}))

下面推导

P＝R_T一R_B

因此：

\frac{&PartialD; P}{{&PartialD; w}_{k}} = αA \cdot \frac{&PartialD; P}{{&PartialD; w}_{k}} + α \frac{&PartialD; A}{{&PartialD; w}_{k}} \cdot P

\frac{&PartialD; P}{{&PartialD; θ}_{k}} = αA \cdot \frac{&PartialD; P}{{&PartialD; θ}_{k}} + α \frac{&PartialD; A}{{&PartialD; θ}_{k}} \cdot P

其中，

\frac{{&PartialD; A}_{ij}}{{&PartialD; w}_{k}} = \frac{\frac{{&PartialD; a}_{ij}}{{&PartialD; w}_{k}} Σ_{j} a_{ij} - a_{ij} Σ_{j} \frac{{&PartialD; a}_{ij}}{{&PartialD; w}_{k}}}{{(Σ_{j} a_{ij})}^{2}}

\frac{{&PartialD; A}_{ij}}{{&PartialD; θ}_{k}} = \frac{\frac{{&PartialD; a}_{ij}}{{&PartialD; θ}_{k}} Σ_{j} a_{ij} - a_{ij} Σ_{j} \frac{{&PartialD; a}_{ij}}{{&PartialD; θ}_{k}}}{{(Σ_{j} a_{ij})}^{2}}

其中，

\frac{{&PartialD; a}_{ij}}{{&PartialD; w}_{k}} = (x_{ij} [k] - θ_{k}) a_{ij} (1 - a_{ij})

\frac{{&PartialD; a}_{ij}}{{&PartialD; θ}_{k}} = - w_{k} a_{ij} (1 - a_{ij})

通过上述推导，可以计算AUC的梯度方向，即，和

因此，假设在第k轮迭代结束后，具体在计算AUC的梯度方向时可以将上述各公式代回公式(9)(10)进行计算。

在计算出AUC关于w、θ的梯度方向之后，假设第k轮迭代时的参数取值为w^(K),θ^(K),则，第k+1轮迭代时的参数取值为：

w^{(K + 1)} = w^{(K)} + η \frac{&PartialD; AUC (w, θ)}{&PartialD; w} - - - (11)

θ^{(K + 1)} = θ^{(K)} + η \frac{&PartialD; AUC (w, θ)}{&PartialD; θ} - - - (12)

其中，η为移动步长。

这样，在第k+1轮迭代时，就可以采用上述优化调整后的参数值带入到公式(1)中重新计算用户之间的综合关系值，在对关系转移矩阵中各元素的取值进行更新后，利用公式(3)、(4)、(5)计算各个用户的质量分值。

另外，在第k+1轮迭代结束之后，可以将计算得到的AUC值与第K轮迭代结束的AUC值进行比较，如果相对于第K轮迭代得到的AUC值的提高幅度小于预置阈值，则证明算法已经收敛，并且可以结束迭代过程。

总之，在本申请实施例中，在通过将用户质量分值在用户关系网中随机游走的方式获取用户质量分值的过程中，在每一轮迭代结束之后，可以选取出全部或部分已知是高质量的用户组成正样本用户集合，以及全部或部分已知是高风险的用户组成负样本集合，基于正样本集合以及负样本集合中的用户在此次迭代后的质量分值，获取预置的模型衡量函数关于待优化参数的梯度方向，在该梯度方向上按照预置的步长对所述待优化参数进行调整，以便在下一次迭代计算时，利用优化调整后的参数进行各用户质量分值的传递。这样，通过每一次对参数的优化调整，可以寻找到最优的参数组合，最终的评估结果的可靠性也得到提高，从而降低对计算资源的浪费。

与本申请实施例提供的用户质量侦测方法相对应，本申请实施例还提供了一种用户质量侦测装置，参见图2，该装置具体可以包括：

用户集合建立单元201，用于建立用户集合，所述用户集合中包括已知用户质量的用户以及未知用户质量的用户，所述已知用户质量的用户中包括高质量的用户以及高风险的用户；

种子用户确定单元202，用于将所述用户集合中已知用户质量的用户确定为种子用户，并分别为各个用户赋予质量分值初始值；

关联关系信息获取单元203，用于获取所述用户集合中各个用户之间在至少一个维度上的关联关系信息，并进行量化；

迭代计算单元204，用于根据所述关联关系信息、各用户的质量分值、各用户是否为种子用户，利用预置的预测模型进行多次迭代计算，直到算法收敛时结束迭代计算，并利用最终得到的各个用户的质量分值确定各个用户的用户质量。

进一步地，所述预测模型中包含待优化的参数；

其中，所述迭代计算单元204包括：

质量分值传递子单元，用于在每一次迭代计算中，根据关联关系信息、各用户是否为种子用户，将各用户的质量分值在具有关联关系的用户之间进行传递；

参数调整子单元，用于在每一次迭代计算后，从所述用户集合中选取出全部或部分已知是高质量的用户组成正样本用户集合，以及全部或部分已知是高风险的用户组成负样本集合，基于所述正样本集合以及负样本集合中的用户在此次迭代后的质量分值，获取预置的模型衡量函数关于所述待优化参数的梯度方向，在该梯度方向上按照预置的步长对所述待优化参数进行调整，以便在下一次迭代计算时，利用优化调整后的参数进行各用户质量分值的传递。

其中，关联关系信息获取单元203具体可以用于：根据交易平台内的用户历史交易记录，获取各用户之间的交易关系信息，其中一第一用户与第二用户之间的交易关系信息包括：该第一用户与该第二用户之间是否具有交易关系，以及在具有交易关系的情况下，两者之间的交易密切程度。

其中，所述获取所述用户集合中各个用户之间在至少一个维度上的关联关系信息，关联关系信息获取单元203具体还可以用于：

根据不同用户的同机登录次数、同IP地址登录次数和/或相同物流地址的次数，获取各用户之间的同人关系信息。

具体实现时，可以通过以下方式将各个维度上的关系信息进行量化表示：

利用用户之间的交易量、交易额表示所述交易关系信息；根据所述不同用户的同机登录次数、同IP地址登录次数和/或相同物流地址的次数，计算属于同一用户的概率，利用该概率确定属于同人用户的得分，利用该得分表示所述同人关系信息。

如果在至少两个维度上获取用户之间的关联关系信息，则所述迭代计算单元204具体可以包括：

综合关系值计算子单元，用于将在各个维度上量化后的关联关系信息代入到预置的第一公式中，计算出用户之间的综合关系值；其中，所述预置的第一公式中包含有所述待优化参数；

矩阵建立子单元，用于基于所述用户集合以及所述综合关系值建立用户关系转移矩阵A；其中，所述用户关系转移矩阵中的每一行以及每一列分别代表一个用户，对于其中的元素A[m,n]，A[m,n]的取值为用户m与用户n之间的综合关系值；

计算子单元，用于基于所述用户关系转移矩阵、各用户的质量分值、各用户是否为种子用户，利用预置的第二公式进行多次迭代计算。

其中，可以通过以下方式计算出用户之间的综合关系值：

a_{ij} = {(1 + e^{- w \cdot (x_{ij} - θ)})}^{- 1}

其中，a_ij为用户i与用户j之间的综合关系值；

x_ij为用户i与用户j之间的关联关系特征向量，该特征向量中的各个元素为用户i与用户j在各个维度上的关联关系信息的量化值；

w、θ为待优化参数。

其中，在每一次迭代计算中，所述质量分值传递子单元2041具体可以包括：

第一概率获取子单元，用于根据关联关系信息、各用户是否为高质量种子用户，将各用户的质量分值在具有关联关系的用户之间进行传递，获取从高质量种子用户传递到各用户的第一概率；

第二概率获取子单元，用于根据关联关系信息、各用户是否为高风险种子用户，将各用户的质量分值在具有关联关系的用户之间进行传递，获取从高风险种子用户传递到各用户的第二概率；

确定子单元，用于将所述第一概率与对应的第二概率之差确定为对应用户在本次迭代后的质量分值。

具体实现时，所述模型衡量函数可以为AUC函数。其中，所述AUC函数为可以如公式(6)所示。

另外，该装置还可以包括：

函数值计算单元，用于在每一次迭代计算后，将所述正样本集合以及负样本集合中的用户在此次迭代计算后的质量分值代入所述模型衡量函数中，计算出函数值；

比较单元，用于将该函数值与上一次迭代得到的函数值进行比较；

迭代结束单元，用于如果相对于上一次迭代得到的函数值的提高幅度小于预置阈值，则结束迭代过程。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的用户质量侦测方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种用户质量侦测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述预测模型中包含待优化的参数；

其中，在每一次迭代计算中，根据关联关系信息、各用户是否为种子用户，将各用户的质量分值在具有关联关系的用户之间进行传递；

在每一次迭代计算后，从所述用户集合中选取出全部或部分已知是高质量的用户组成正样本用户集合，以及全部或部分已知是高风险的用户组成负样本集合，基于所述正样本集合以及负样本集合中的用户在此次迭代后的质量分值，获取预置的模型衡量函数关于所述待优化参数的梯度方向，在该梯度方向上按照预置的步长对所述待优化参数进行调整，以便在下一次迭代计算时，利用优化调整后的参数进行各用户质量分值的传递。

3.根据权利要求1所述的方法，其特征在于，所述获取所述用户集合中各个用户之间在至少一个维度上的关联关系信息，包括：

根据交易平台内的用户历史交易记录，获取各用户之间的交易关系信息，其中一第一用户与第二用户之间的交易关系信息包括：该第一用户与该第二用户之间是否具有交易关系，以及在具有交易关系的情况下，两者之间的交易密切程度。

4.根据权利要求3所述的方法，其特征在于，所述获取所述用户集合中各个用户之间在至少一个维度上的关联关系信息，还包括：

5.根据权利要求4所述的方法，其特征在于，通过以下方式将各个维度上的关系信息进行量化表示：

利用用户之间的交易量、交易额表示所述交易关系信息；

根据所述不同用户的同机登录次数、同IP地址登录次数和/或相同物流地址的次数，计算属于同一用户的概率，利用该概率确定属于同人用户的得分，利用该得分表示所述同人关系信息。

6.根据权利要求1所述的方法，其特征在于，如果在至少两个维度上获取用户之间的关联关系信息，则所述利用预置的预测模型进行多次迭代计算，包括：

将在各个维度上量化后的关联关系信息代入到预置的第一公式中，计算出用户之间的综合关系值；其中，所述预置的第一公式中包含有所述待优化参数；

基于所述用户集合以及所述综合关系值建立用户关系转移矩阵A；其中，所述用户关系转移矩阵中的每一行以及每一列分别代表一个用户，对于其中的元素A[m,n]，A[m,n]的取值为用户m与用户n之间的综合关系值；

基于所述用户关系转移矩阵、各用户的质量分值、各用户是否为种子用户，利用预置的第二公式进行多次迭代计算。

7.根据权利要求6所述的方法，其特征在于，通过以下方式计算出用户之间的综合关系值：

a_{ij} = {(1 + e^{- w \cdot (x_{ij} - θ)})}^{- 1}

其中，a_ij为用户i与用户j之间的综合关系值；

w、θ为待优化参数。

8.根据权利要求1所述的方法，其特征在于，在每一次迭代计算中，所述根据关联关系信息、各用户是否为种子用户，将各用户的质量分值在具有关联关系的用户之间进行传递，包括：

将所述第一概率与对应的第二概率之差确定为对应用户在本次迭代后的质量分值。

9.根据权利要求2所述的方法，其特征在于，所述模型衡量函数为AUC函数。

10.根据权利要求8所述的方法，其特征在于，所述AUC函数为：

AUC = \frac{Σ_{i &Element; D_{T}} Σ_{j &Element; D_{B}} S (P_{i} - P_{j})}{| D_{T} | | D_{B} |}

其中，S(x)＝(1+e^-βx)^-1，β为预先设定的参数；

P_i为所述正样本用户集合中各用户的质量分值；

P_j为所述负样本用户集合中各用户的质量分值；

D_T为正样本用户集合；

D_B为负样本用户集合；

|D_T|为正样本用户集合中包含的用户数目；

|D_B|为负样本用户集合中包含的用户数目。

11.根据权利要求1所述的方法，其特征在于，还包括：

在每一次迭代计算后，将所述正样本集合以及负样本集合中的用户在此次迭代计算后的质量分值代入所述模型衡量函数中，计算出函数值；

将该函数值与上一次迭代得到的函数值进行比较；

如果相对于上一次迭代得到的函数值的提高幅度小于预置阈值，则结束迭代过程。

12.一种用户质量侦测装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，

所述预测模型中包含待优化的参数；

所述迭代计算单元包括：