CN104778605A - 电商客户的分类方法及装置 - Google Patents

电商客户的分类方法及装置 Download PDF

Info

Publication number
CN104778605A
CN104778605A CN201510165730.1A CN201510165730A CN104778605A CN 104778605 A CN104778605 A CN 104778605A CN 201510165730 A CN201510165730 A CN 201510165730A CN 104778605 A CN104778605 A CN 104778605A
Authority
CN
China
Prior art keywords
summit
label
client
weight
cum rights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510165730.1A
Other languages
English (en)
Other versions
CN104778605B (zh
Inventor
林熙东
牟川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510165730.1A priority Critical patent/CN104778605B/zh
Publication of CN104778605A publication Critical patent/CN104778605A/zh
Application granted granted Critical
Publication of CN104778605B publication Critical patent/CN104778605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种电商客户的分类方法及装置。该方法包括:根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,其中,所述商品列表包括商品的名称及价格;对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签;遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果。本发明能够对同一客户产生多个标签,使得对客户的描述更加全面与准确,达到对客户进行准确分类的效果,同时保持了运行时间上的高效,能够应用在更大规模的数据集上。

Description

电商客户的分类方法及装置
技术领域
本发明实施例涉及大数据处理技术,尤其涉及一种电商客户的分类方法及装置。
背景技术
电子商务网站一般都拥有大量的注册用户,为了给这些客户提供更好的服务,电商企业的一个需求是希望能够对客户进行分类,即根据业务需要给每个客户打上一个或多个标签(类别)。在对客户进行分类的过程中,一个普遍存在的困难是如何建立分类体系,使得其对客户群体同时有足够的区分度与覆盖度。目前,主要是根据客户购买的商品集合所提供的信息来设法对客户进行分类与打标签。
现有技术中,先通过聚类技术把客户分为若干群,然后再由人工对这些群体打标签。图1是现有技术中对电商客户进行分类的示意图,如图1所示,利用k-均值(k-means)聚类算法,先人工指定一个分类数k;然后针对订单记录,把每个客户表示为购买商品形成的向量,通过比较这些向量之间的余弦距离,迭代决定某个客户的归属群体。
现有技术通过聚类技术可以发现自然数据中所蕴含的结构信息,如群体分布,但是,传统聚类方法在实践中还存在一些问题,如k-means需要人工预先指定群体个数,难以发现传递意义上的距离关系等,这些缺点会导致对客户的分类结果不精确。
发明内容
有鉴于此,本发明实施例提供一种电商客户的分类方法及装置,以达到准确对客户进行分类的效果。
第一方面,本发明实施例提供了一种电商客户的分类方法,所述方法包括:
根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,其中,所述商品列表包括商品的名称及价格;
对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签;
遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果。
进一步地,根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,包括:
根据订单数据把购买同一种商品的客户归为一组;
对每组内的客户,每个客户生成一个顶点,两两顶点之间建立一条以商品名称及价格为边的无向带权边;
遍历所有无向带权边,对顶点对相同的边进行合并,得到以客户为顶点、商品列表为边的带权网络。
进一步地,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果,包括:
根据每个客户顶点的所有邻居顶点的标签得到多标签列表,所述多标签列表中的每个标签的权重等于各自边的权重;
对所述多标签列表中的标签进行合并,所述标签的权重为所有重复标签的权重之和;
对合并后的多标签列表的权重进行归一化处理,得到每个客户的多标签分类结果。
进一步地,对所述带权网络执行带权标签传播算法,得到多个客户群体,包括:
S1、初始化所述带权网络中的所有顶点,为每个顶点分配唯一的标签;
S2、随机选择所述带权网络中的每一个顶点,将选定的顶点的标签更改为该选定的顶点的所有邻居顶点的标签集合中的权重最大的标签,其中,一个顶点的邻居顶点的权重为该顶点与该邻居顶点之间的边上的商品的价格总和,标签集合中的标签的权重为具有相同标签的顶点的权重之和;
S3、判断每个顶点的标签在所有邻居顶点的标签集合中的权重是否最大,若否,则返回执行S2。
进一步地,对每个客户群体定义标签包括:
以群号作为每个客户群体的标签;和/或
利用自然语言处理对每个客户群体内客户购买商品的标题集合进行处理,生成主题词,所述主题词作为标签。
第二方面,本发明实施例还提供了一种电商客户的分类装置,所述装置包括:
网络建立模块,用于根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,其中,所述商品列表包括商品的名称及价格;
社群挖掘模块,用于对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签;
多标签生成模块,用于遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果。
进一步地,所述网络建立模块包括:
分组单元,用于根据订单数据把购买同一种商品的客户归为一组;
无向带权边建立单元,用于对每组内的客户,每个客户生成一个顶点,两两顶点之间建立一条以商品名称及价格为边的无向带权边;
网络建立单元,用于遍历所有无向带权边,对顶点对相同的边进行合并,得到以客户为顶点、商品列表为边的带权网络。
进一步地,所述多标签生成模块包括;
多标签列表生成单元,用于根据每个客户顶点的所有邻居顶点的标签得到多标签列表,所述多标签列表中的每个标签的权重等于各自边的权重;
标签合并单元,用于对所述多标签列表中的标签进行合并,所述标签的权重为所有重复标签的权重之和;
权重归一化单元,用于对合并后的多标签列表的权重进行归一化处理,得到每个客户的多标签分类结果。
进一步地,所述社群挖掘模块包括:
初始化单元,用于初始化所述带权网络中的所有顶点,为每个顶点分配唯一的标签;
标签更改单元,用于随机选择所述带权网络中的每一个顶点,将选定的顶点的标签更改为该选定的顶点的所有邻居顶点的标签集合中的权重最大的标签,其中,一个顶点的邻居顶点的权重为该顶点与该邻居顶点之间的边上的商品的价格总和,标签集合中的标签的权重为具有相同标签的顶点的权重之和;
迭代单元,用于判断每个顶点的标签在所有邻居顶点的标签集合中的权重是否最大,若否,则触发所述标签更改单元操作。
进一步地,所述社群挖掘模块包括:
群号生成单元,用于以群号作为每个客户群体的标签;和/或
主题词生成单元,用于利用自然语言处理对每个客户群体内客户购买商品的标题集合进行处理,生成主题词,所述主题词作为标签。
本发明通过根据订单数据建立以客户为顶点、所述客户所购买的商品的商品列表为边的带权网络,对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签,遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果,从而能够对同一客户产生多个标签,使得对客户的描述更加全面与准确,达到对客户进行准确分类的效果,同时保持了运行时间上的高效,能够应用在更大规模的数据集上。
附图说明
图1是现有技术中对电商客户进行分类的示意图;
图2是本发明实施例一提供的一种电商客户的分类方法的流程图;
图3是本发明实施例提供的一种电商客户的分类方法中的利用带权标签传播算法得到多个客户群体的流程图;
图4是本发明实施例二提供的一种电商客户的分类方法的示意图;
图5是本发明实施例提供的一种电商客户的分类方法中的建立的带权网络的示意图;
图6是本发明实施例提供的一种电商客户的分类方法中的得到的多个客户群体的示意图;
图7是本发明实施例提供的一种电商客户的分类方法中的多标签生成的流程图;
图8是本发明实施例提供的一种电商客户的分类方法中的每个客户的多标签分类结果的示意图;
图9是本发明实施例四提供的一种电商客户的分类装置的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图2是本发明实施例一提供的一种电商客户的分类方法的流程图,本实施例可适用于电子商务网站对客户进行分类,该方法可以由后台服务器来执行,具体包括如下步骤:
步骤210,根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,其中,所述商品列表包括商品的名称及价格。
选取一段时间(如一个月)内的订单数据,根据该订单数据,将每一个客户作为一个顶点,对购买相同商品的客户顶点之间建立一条边,该边表示两个顶点所代表的客户所购买相同商品的商品列表,其中,所述商品列表包括商品的名称及价格。所述顶点和所述边组成带权网络。其中,带权网络是由若干个顶点以及带权重的边构成的数据结构。无向网络中的边不区别方向,如果网络的规模(一般由顶点个数决定)巨大(如上百万个顶点构成的网络),则称为复杂网络。
优选的,根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,包括:
根据订单数据把购买同一种商品的客户归为一组;
对每组内的客户,每个客户生成一个顶点,两两顶点之间建立一条以商品名称及价格为边的无向带权边;
遍历所有无向带权边,对顶点对相同的边进行合并,得到以客户为顶点、商品列表为边的带权网络。
步骤220,对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签。
利用带权标签传播算法对所述带权网络进行处理,根据所述带权网络中的客户及客户间的关系对所述带权网络进行分群,并对分群后的每个客户群体定义标签。其中,标签传播算法(Label Propagation Algorithm,LPA)是一种在复杂网络上应用的社群挖掘算法。所谓社群挖掘,就是对网络中的顶点,依据网络的拓扑结构信息把它们划分到若干个群组中。LPA算法的时间复杂度为O(n),n为顶点个数,是一种高效的社群挖掘算法。
其中,图3是本发明实施例提供的一种电商客户的分类方法中的利用带权标签传播算法得到多个客户群体的流程图,如图3所示,对所述带权网络执行带权标签传播算法,得到多个客户群体,包括:
步骤221、初始化所述带权网络中的所有顶点,为每个顶点分配唯一的标签;
步骤222、随机选择所述带权网络中的每一个顶点,将选定的顶点的标签更改为该选定的顶点的所有邻居顶点的标签集合中的权重最大的标签,其中,一个顶点的邻居顶点的权重为该顶点与该邻居顶点之间的边上的商品的价格总和,标签集合中的标签的权重为具有相同标签的顶点的权重之和;
步骤223、判断每个顶点的标签在所有邻居顶点的标签集合中的权重是否最大,若否,则返回执行步骤222。
执行步骤222时,比如一个顶点的标签为B,该顶点有三个邻居顶点,标签及其权重分别为A:0.3、B:0.4、A:0.3,那么在该顶点的邻居顶点的标签集合中标签A的权重为0.6,那么该顶点的标签应该更改为A而不是B。随机选择所述带权网络中的一个顶点,执行一次上述的操作,直到每一个顶点均执行过上述的操作后,在执行步骤223。
其中,对每个客户群体定义标签包括:
以群号作为每个客户群体的标签;和/或
利用自然语言处理对每个客户群体内客户购买商品的标题集合进行处理,生成主题词,所述主题词作为标签。
步骤230,遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果。
其中,一个客户顶点的邻居顶点的权重为该客户顶点与该邻居顶点之间的边上的商品的价格总和。每个客户顶点的标签为该客户所属的客户群体的标签。根据每个客户顶点的所有邻居顶点的标签及权重计算该客户在每一个标签中所占的比重,从而得到每个客户的多标签分类结果。
优选的,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果,包括:
根据每个客户顶点的所有邻居顶点的标签得到多标签列表,所述多标签列表中的每个标签的权重等于各自边的权重;
对所述多标签列表中的标签进行合并,所述标签的权重为所有重复标签的权重之和;
对合并后的多标签列表的权重进行归一化处理,得到每个客户的多标签分类结果。
其中,归一化是把一个非零实向量的每个分量除以各分量的和所得到的标准化向量,该结果向量可以当做是一个概率分布(各项和为1)。
本实施例的技术方案,通过根据订单数据建立以客户为顶点、所述客户所购买的商品的商品列表为边的带权网络,对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签,遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果,从而能够对同一客户产生多个标签,使得对客户的描述更加全面与准确,达到对客户进行准确分类的效果,同时保持了运行时间上的高效,能够应用在更大规模的数据集上。
实施例二
图4是本发明实施例二提供的一种电商客户的分类方法的示意图,如图4所示,本实施例提供的一种电商客户的分类方法具体包括如下步骤:
步骤410,预处理。
根据订单数据将订单记录转换为客户-商品网络,该客户-商品网络是以客户为顶点、商品列表为边的无向带权网络。首先,根据订单数据把购买同一种商品的客户归为一组;对每组内的客户,每个客户生成一个顶点,两两顶点之间建立一条以商品名称及价格为边的无向带权边E,该无向带权边E表示为(x,y,a,b),其中,x和y分别代表这两个客户,a是商品的价格,b是商品的名称;遍历所有无向带权边,对顶点对相同的边进行合并,具体合并过程为对商品b添加得到列表,将商品b的价格相加得到价格总和,由此将整个订单数据构成一张以客户为顶点、客户所购买商品的商品列表为边的带权网络。
步骤420,社群挖掘。
对步骤410建立的带权网络执行带权LPA算法,得到m个客户群体,并对每个客户群体定义标签。
步骤430,多标签生成。
计算客户多群体归属,得到客户多群体归属关系,具体为:遍历每个客户顶点,根据每个客户顶点的所有邻居顶点的标签得到多标签列表,所述多标签列表中的每个标签的权重等于各自边的权重;对该多标签列表中的标签进行合并,把所有相同的标签只保留一个,该标签的权重为所有重复标签的权重之和;对合并后的多标签列表的权重进行归一化处理,得到每个客户最终的多标签分类结果。
本实施例的技术方案,能够对同一客户产生多个标签,使得对客户的描述更加全面与准确,达到对客户进行准确分类的效果,同时保持了运行时间上的高效,能够应用在更大规模的数据集上。
实施例三
本发明实施例三提供了一种电商客户的分类方法,本实施例以五个客户为例进行详细说明,其中,客户1购买了商品A和B,客户2购买了商品A、B和C,客户3购买了商品A、C和D,客户4购买了商品D和E,客户5购买了商品E。
首先是根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络。根据订单数据把购买同一种商品的客户归为一组;对每组内的客户,每个客户生成一个顶点,两两顶点之间建立一条以商品名称及价格为边的无向带权边;遍历所有无向带权边,对顶点对相同的边进行合并,得到以客户为顶点、商品列表为边的带权网络,例如:客户1和客户2都买了A,那么就有一条边为(1,2,80,[A]),这里80是商品A的价格;如果客户1和2还买了B,那么对应的还有一条边(1,2,200,[B]),这两条边的顶点相同(都是1、2),所以需要合并成一条边,即(1,2,280,[A,B]),类似的情况还有顶点2、3之间最终的边也是合并得到的:(2,3,180,[A,C])。最终得到的带权网络如图5所示,图5是本发明实施例提供的一种电商客户的分类方法中的建立的带权网络的示意图。
其次是对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签,图6是本发明实施例提供的一种电商客户的分类方法中的得到的多个客户群体的示意图,如图6所示,得到两个客户群体P和Q。
最后是遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果。图7是本发明实施例提供的一种电商客户的分类方法中的多标签生成的流程图,如图7所示,具体包括如下步骤:
步骤701,初始化客户顶点。
社群挖掘的结果,即给每个客户顶点打上初始标签,顶点1、顶点2、顶点3、顶点4和顶点5的初始标签分别为1(P)、2(P)、3(P)、4(Q)、5(Q)。
步骤702,根据每个客户顶点的所有邻居顶点的标签得到多标签列表。
顶点1的所有邻居顶点为顶点2和顶点3,这两个顶点的初始标签都是P,顶点3到顶点1的边的权重是80,顶点2到顶点1的权重是280,这样顶点2的标签在顶点1的多标签列表中的权重为280,顶点3的标签在顶点1的多标签列表中的权重为80,因此,顶点1的多标签列表为“P:280,P:80”;又如,顶点3的所有邻居顶点是1、2、4,,初始标签分别为P、P、Q,对应的边权分别为80、180、65,所以经过这一步后顶点3的多标签列表为“P:80,P:180,Q:65”;同样可以得到顶点2、顶点4和顶点5的多标签列表。
步骤703,对所述多标签列表进行合并。
对顶点1的多标签列表进行合并,把相同的标签对应权重相加,得到新的多标签列表为“P:360”;类似地,经过这步顶点2的多标签列表为“P:460”,顶点3的多标签列表为“P:260,Q:65”,顶点4的多标签列表为“P:65,Q:120”,顶点5的多标签列表为“Q:120”。
步骤704,对合并后的多标签列表的权重进行归一化处理,得到每个客户的多标签分类结果。
对顶点1而言,所有邻居顶点都属于群体P,合并后的多标签列表里只有一个标签,所以顶点1最终的多标签列表为“P:360/360”,即“P:1.0”;类似的,还有顶点2和顶点5,顶点2的最终的多标签列表为“P:1.0”,顶点5的最终的多标签列表为“Q:1.0”;对于顶点3和顶点4,因为处于群的边界,所以具有多个标签,顶点3最终的多标签列表为“P:260/(260+65),Q:65/(260+65)”,也即“P:0.8,Q:0.2”,顶点4最终的多标签列表为“P:65/(65+120),Q:120/(65+120)”。最终得到的每个客户的多标签分类结果如图8所示,图8是本发明实施例提供的一种电商客户的分类方法中的每个客户的多标签分类结果的示意图。
本实施例以5个客户为例,详细介绍了对客户进行多标签分类的步骤。
实施例四
图9是本发明实施例四提供的一种电商客户的分类装置的示意图,如图4所示,本实施例提供的电商客户的分类装置包括:网络建立模块910、社群挖掘模块920和多标签生成模块930。
其中,网络建立模块910用于根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,其中,所述商品列表包括商品的名称及价格;
社群挖掘模块920用于对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签;
多标签生成模块930用于遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果。
优选的,所述网络建立模块包括:
分组单元,用于根据订单数据把购买同一种商品的客户归为一组;
无向带权边建立单元,用于对每组内的客户,每个客户生成一个顶点,两两顶点之间建立一条以商品名称及价格为边的无向带权边;
网络建立单元,用于遍历所有无向带权边,对顶点对相同的边进行合并,得到以客户为顶点、商品列表为边的带权网络。
优选的,所述多标签生成模块包括;
多标签列表生成单元,用于根据每个客户顶点的所有邻居顶点的标签得到多标签列表,所述多标签列表中的每个标签的权重等于各自边的权重;
标签合并单元,用于对所述多标签列表中的标签进行合并,所述标签的权重为所有重复标签的权重之和;
权重归一化单元,用于对合并后的多标签列表的权重进行归一化处理,得到每个客户的多标签分类结果。
优选的,所述社群挖掘模块包括:
初始化单元,用于初始化所述带权网络中的所有顶点,为每个顶点分配唯一的标签;
标签更改单元,用于随机选择所述带权网络中的每一个顶点,将选定的顶点的标签更改为该选定的顶点的所有邻居顶点的标签集合中的权重最大的标签,其中,一个顶点的邻居顶点的权重为该顶点与该邻居顶点之间的边上的商品的价格总和,标签集合中的标签的权重为具有相同标签的顶点的权重之和;
迭代单元,用于判断每个顶点的标签在所有邻居顶点的标签集合中的权重是否最大,若否,则触发所述标签更改单元操作。
优选的,所述社群挖掘模块包括:
群号生成单元,用于以群号作为每个客户群体的标签;和/或
主题词生成单元,用于利用自然语言处理对每个客户群体内客户购买商品的标题集合进行处理,生成主题词,所述主题词作为标签。
上述电商客户的分类装置可执行本发明任意实施例所提供的电商客户的分类方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种电商客户的分类方法,其特征在于,所述方法包括:
根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,其中,所述商品列表包括商品的名称及价格;
对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签;
遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果。
2.根据权利要求1所述的方法,其特征在于,根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,包括:
根据订单数据把购买同一种商品的客户归为一组;
对每组内的客户,每个客户生成一个顶点,两两顶点之间建立一条以商品名称及价格为边的无向带权边;
遍历所有无向带权边,对顶点对相同的边进行合并,得到以客户为顶点、商品列表为边的带权网络。
3.根据权利要求1所述的方法,其特征在于,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果,包括:
根据每个客户顶点的所有邻居顶点的标签得到多标签列表,所述多标签列表中的每个标签的权重等于各自边的权重;
对所述多标签列表中的标签进行合并,所述标签的权重为所有重复标签的权重之和;
对合并后的多标签列表的权重进行归一化处理,得到每个客户的多标签分类结果。
4.根据权利要求1所述的方法,其特征在于,对所述带权网络执行带权标签传播算法,得到多个客户群体,包括:
S1、初始化所述带权网络中的所有顶点,为每个顶点分配唯一的标签;
S2、随机选择所述带权网络中的每一个顶点,将选定的顶点的标签更改为该选定的顶点的所有邻居顶点的标签集合中的权重最大的标签,其中,一个顶点的邻居顶点的权重为该顶点与该邻居顶点之间的边上的商品的价格总和,标签集合中的标签的权重为具有相同标签的顶点的权重之和;
S3、判断每个顶点的标签在所有邻居顶点的标签集合中的权重是否最大,若否,则返回执行S2。
5.根据权利要求1-4任一所述的方法,其特征在于,对每个客户群体定义标签包括:
以群号作为每个客户群体的标签;和/或
利用自然语言处理对每个客户群体内客户购买商品的标题集合进行处理,生成主题词,所述主题词作为标签。
6.一种电商客户的分类装置,其特征在于,所述装置包括:
网络建立模块,用于根据订单数据建立以客户为顶点、所述客户所购买商品的商品列表为边的带权网络,其中,所述商品列表包括商品的名称及价格;
社群挖掘模块,用于对所述带权网络执行带权标签传播算法,得到多个客户群体,并对每个客户群体定义标签;
多标签生成模块,用于遍历所述多个客户群体中的每个客户顶点,根据每个客户顶点的所有邻居顶点的标签及权重计算每个客户的多标签分类结果。
7.根据权利要求6所述的装置,其特征在于,所述网络建立模块包括:
分组单元,用于根据订单数据把购买同一种商品的客户归为一组;
无向带权边建立单元,用于对每组内的客户,每个客户生成一个顶点,两两顶点之间建立一条以商品名称及价格为边的无向带权边;
网络建立单元,用于遍历所有无向带权边,对顶点对相同的边进行合并,得到以客户为顶点、商品列表为边的带权网络。
8.根据权利要求6所述的装置,其特征在于,所述多标签生成模块包括;
多标签列表生成单元,用于根据每个客户顶点的所有邻居顶点的标签得到多标签列表,所述多标签列表中的每个标签的权重等于各自边的权重;
标签合并单元,用于对所述多标签列表中的标签进行合并,所述标签的权重为所有重复标签的权重之和;
权重归一化单元,用于对合并后的多标签列表的权重进行归一化处理,得到每个客户的多标签分类结果。
9.根据权利要求6所述的装置,其特征在于,所述社群挖掘模块包括:
初始化单元,用于初始化所述带权网络中的所有顶点,为每个顶点分配唯一的标签;
标签更改单元,用于随机选择所述带权网络中的每一个顶点,将选定的顶点的标签更改为该选定的顶点的所有邻居顶点的标签集合中的权重最大的标签,其中,一个顶点的邻居顶点的权重为该顶点与该邻居顶点之间的边上的商品的价格总和,标签集合中的标签的权重为具有相同标签的顶点的权重之和;
迭代单元,用于判断每个顶点的标签在所有邻居顶点的标签集合中的权重是否最大,若否,则触发所述标签更改单元操作。
10.根据权利要求6-9任一所述的装置,其特征在于,所述社群挖掘模块包括:
群号生成单元,用于以群号作为每个客户群体的标签;和/或
主题词生成单元,用于利用自然语言处理对每个客户群体内客户购买商品的标题集合进行处理,生成主题词,所述主题词作为标签。
CN201510165730.1A 2015-04-09 2015-04-09 电商客户的分类方法及装置 Active CN104778605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510165730.1A CN104778605B (zh) 2015-04-09 2015-04-09 电商客户的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510165730.1A CN104778605B (zh) 2015-04-09 2015-04-09 电商客户的分类方法及装置

Publications (2)

Publication Number Publication Date
CN104778605A true CN104778605A (zh) 2015-07-15
CN104778605B CN104778605B (zh) 2019-05-03

Family

ID=53620055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510165730.1A Active CN104778605B (zh) 2015-04-09 2015-04-09 电商客户的分类方法及装置

Country Status (1)

Country Link
CN (1) CN104778605B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106452809A (zh) * 2015-08-04 2017-02-22 北京奇虎科技有限公司 一种数据处理方法和装置
CN106875087A (zh) * 2016-12-30 2017-06-20 厦门南讯软件科技有限公司 一种待付款订单转化可行性分析方法
CN106897894A (zh) * 2016-12-30 2017-06-27 厦门南讯软件科技有限公司 一种基于对客户订单分析的客户精准分层方法
CN107122125A (zh) * 2016-02-25 2017-09-01 阿里巴巴集团控股有限公司 一种数据处理方法和***
CN108230029A (zh) * 2017-12-29 2018-06-29 西南大学 客户交易行为分析方法
CN108510304A (zh) * 2017-09-28 2018-09-07 平安科技(深圳)有限公司 目标客户群的构建方法、电子装置及存储介质
CN109472370A (zh) * 2018-09-30 2019-03-15 深圳市元征科技股份有限公司 一种维修厂分类方法及装置
CN109934706A (zh) * 2017-12-15 2019-06-25 阿里巴巴集团控股有限公司 一种基于图结构模型的交易风险控制方法、装置以及设备
CN110750697A (zh) * 2019-10-30 2020-02-04 汉海信息技术(上海)有限公司 商户分类方法、装置、设备及存储介质
CN112669053A (zh) * 2020-12-03 2021-04-16 杭州未名信科科技有限公司 基于销售数据的欺诈群体识别方法、装置、设备及介质
US11526936B2 (en) 2017-12-15 2022-12-13 Advanced New Technologies Co., Ltd. Graphical structure model-based credit risk control

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148779A (ja) * 1998-11-11 2000-05-30 Mitsubishi Electric Corp 運転履歴データ管理方法およびそのプログラムを記録した記録媒体と装置
JP2003122943A (ja) * 2001-10-10 2003-04-25 Casio Comput Co Ltd 商品購入装置、商品購入方法、及びプログラム
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148779A (ja) * 1998-11-11 2000-05-30 Mitsubishi Electric Corp 運転履歴データ管理方法およびそのプログラムを記録した記録媒体と装置
JP2003122943A (ja) * 2001-10-10 2003-04-25 Casio Comput Co Ltd 商品購入装置、商品購入方法、及びプログラム
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像***和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨阳: "在线社会网络社区发现和社区特征分析", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106452809A (zh) * 2015-08-04 2017-02-22 北京奇虎科技有限公司 一种数据处理方法和装置
CN107122125A (zh) * 2016-02-25 2017-09-01 阿里巴巴集团控股有限公司 一种数据处理方法和***
CN107122125B (zh) * 2016-02-25 2020-06-23 阿里巴巴集团控股有限公司 一种数据处理方法和***
CN106875087A (zh) * 2016-12-30 2017-06-20 厦门南讯软件科技有限公司 一种待付款订单转化可行性分析方法
CN106897894A (zh) * 2016-12-30 2017-06-27 厦门南讯软件科技有限公司 一种基于对客户订单分析的客户精准分层方法
WO2019062011A1 (zh) * 2017-09-28 2019-04-04 平安科技(深圳)有限公司 目标客户群的构建方法、电子装置及存储介质
CN108510304A (zh) * 2017-09-28 2018-09-07 平安科技(深圳)有限公司 目标客户群的构建方法、电子装置及存储介质
CN109934706B (zh) * 2017-12-15 2021-10-29 创新先进技术有限公司 一种基于图结构模型的交易风险控制方法、装置以及设备
CN109934706A (zh) * 2017-12-15 2019-06-25 阿里巴巴集团控股有限公司 一种基于图结构模型的交易风险控制方法、装置以及设备
US11526936B2 (en) 2017-12-15 2022-12-13 Advanced New Technologies Co., Ltd. Graphical structure model-based credit risk control
US11526766B2 (en) 2017-12-15 2022-12-13 Advanced New Technologies Co., Ltd. Graphical structure model-based transaction risk control
CN108230029A (zh) * 2017-12-29 2018-06-29 西南大学 客户交易行为分析方法
CN109472370A (zh) * 2018-09-30 2019-03-15 深圳市元征科技股份有限公司 一种维修厂分类方法及装置
CN110750697A (zh) * 2019-10-30 2020-02-04 汉海信息技术(上海)有限公司 商户分类方法、装置、设备及存储介质
CN110750697B (zh) * 2019-10-30 2022-07-29 汉海信息技术(上海)有限公司 商户分类方法、装置、设备及存储介质
CN112669053A (zh) * 2020-12-03 2021-04-16 杭州未名信科科技有限公司 基于销售数据的欺诈群体识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN104778605B (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN104778605A (zh) 电商客户的分类方法及装置
Guo et al. Supplier selection based on hierarchical potential support vector machine
CN104731962B (zh) 一种社交网络中基于相似社团的好友推荐方法及***
CN106934035B (zh) 一种基于类与特征分布的多标签数据流中概念漂移检测方法
CN102317962A (zh) 机器优化装置、方法和***
Guan et al. Using social media to predict the stock market crash and rebound amid the pandemic: the digital ‘haves’ and ‘have-mores’
Budhi et al. Strategies and policies for developing SMEs based on creative economy
Cai et al. OOLAM: an opinion oriented link analysis model for influence persona discovery
CN107247753A (zh) 一种相似用户选取方法及装置
CN106127493A (zh) 一种分析用户交易行为的方法及装置
Rea et al. Visualization of a stock market correlation matrix
Tsizh et al. Large-scale structures in the ΛCDM Universe: network analysis and machine learning
Singh et al. Machine learning based classification and segmentation techniques for CRM: a customer analytics
Kwon et al. Weak signal detecting of industry convergence using information of products and services of global listed companies-focusing on growth engine industry in South Korea
Zheng Research on E-commerce potential client mining applied to apriori association rule algorithm
Wang et al. Future development trend of “new retail” and e-commerce based on big data
Domingues et al. Identification of city motifs: a method based on modularity and similarity between hierarchical features of urban networks
Mostafa Knowledge discovery of hidden consumer purchase behaviour: a market basket analysis
Rao et al. BMSP-ML: big mart sales prediction using different machine learning techniques
Ome Ezzine et al. Polynomial formulation and heuristic based approach for the k-travelling repairman problem
Yu et al. Short-term power load forecasting under COVID-19 based on graph representation learning with heterogeneous features
Li et al. Community discovery and importance analysis in social network
Panchal et al. Emerging perspectives on business model typologies
Nair et al. Domination index in graphs
Li et al. Analysis and research of retail customer consumption behavior based on support vector machine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant