CN111191713A - 基于***数据的用户画像方法及装置 - Google Patents
基于***数据的用户画像方法及装置 Download PDFInfo
- Publication number
- CN111191713A CN111191713A CN201911382477.XA CN201911382477A CN111191713A CN 111191713 A CN111191713 A CN 111191713A CN 201911382477 A CN201911382477 A CN 201911382477A CN 111191713 A CN111191713 A CN 111191713A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- commodity
- tree
- feature point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 45
- 238000010586 diagram Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
Abstract
本发明公开基于***数据的用户画像方法及装置。该方法,包括:从获取的***票面数据中,提取用户消费行为数据;针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品与销货方对应的多个分组、商品与购货方对应的多个分组;其中,每个分组中,每一个二维数据对应有预先设定的多个标签中的一个标签;针对目标用户,确定目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组;根据业务需求确定的标签权重值,形成宽表,所述宽表即为针对该目标用户的精细画像。该用户画像方法及装置,实现在大数据意义上的用户的精细分类;数据处理效率高,耗时短。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种基于***数据的用户画像方法及装置。
背景技术
在“用户中心论”的理论支持下,很多行业意识到用户的重要性,开始了从以产品和服务为中心向以用户为主导的思维转变,着重研究用户需求和用户满意度等。为了能够吸引更多的新用户,同时留住老用户,增加营收,提高利润,基于用户的研究越来越重要了。
目前,基于***数据对用户消费偏好、用户消费行为的数据处理方法的效率低,消耗的时间长,不能满足***行业的需求。
发明内容
针对现有技术的不足,本发明提供基于***数据的用户画像方法及装置,以解决目前针对用户消费偏好、用户消费行为的数据处理方法耗时及低效的问题。
第一方面,本发明提供一种基于***数据的用户画像方法,包括以下步骤:
从获取的***票面数据中,提取用户消费行为数据,其中,用户消费数据包括商品、购货方、销货方和消费金额;
针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品与销货方对应的多个分组、商品与购货方对应的多个分组;其中,每个分组中,每一个二维数据对应有预先设定的多个标签中的一个标签;
针对目标用户,确定目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组;
根据业务需求确定的标签权重值,形成宽表,所述宽表即为针对该目标用户的精细画像。
进一步地,所述的基于***数据的用户画像方法,还包括:
根据业务需求确定的标签权重值,根据目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组,
将目标用户划分到指定的四类用户类别中,其中,所述四类用户类别分别为优质、良好、普通、黑名单。
进一步地,所述的基于***数据的用户画像方法,在使用KNN聚类方法时,应用KD-Tree算法快速搜索最近点,包括:
获取特征点数据;
步骤A1:展开kd-树;选择最大方差维数ki;选取ki维的中值kv作阈值;其中,ki为大于1的正整数;
步骤A2:针对各ki维,分割特征点数据,包括:
在ki维小于阈值时,将特征点数据加入到右子树特征点数据,展开右子树;
在ki维大于阈值时,将特征点数据加入到左子树特征点数,并展开左子树;
步骤A3:重复步骤A1—步骤A2,直到特征点数据的数目为1。
进一步地,所述的基于***数据的用户画像方法,在提取用户消费行为数据之后,还包括:
基于缺失值比率,清洗用户消费行为数据。
进一步地,所述的基于***数据的用户画像方法,在提取用户消费行为数据之后,还包括:
基于z-score方法,对清洗后的用户消费行为数据进行标准化。
第二方面,本发明提供一种基于***数据的用户画像装置,包括:
用户消费行为数据提取单元,用于:
从获取的***票面数据中,提取用户消费行为数据,其中,用户消费数据包括商品、购货方、销货方和消费金额;
用户标签提取单元,用于:
针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品与销货方对应的多个分组、商品与购货方对应的多个分组;其中,每个分组中,每一个二维数据对应有预先设定的多个标签中的一个标签;
用户精细画像单元,用于:
针对目标用户,确定目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组;根据业务需求确定的标签权重值,形成宽表,所述宽表即为针对该目标用户的精细画像。
进一步地,所述的基于***数据的用户画像装置,还包括:
用户类别单元,用于:
根据业务需求确定的标签权重值,根据目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组,
将目标用户划分到指定的四类用户类别中,其中,所述四类用户类别分别为优质、良好、普通、黑名单。
进一步地,所述的基于***数据的用户画像装置,还包括:
应用KD-Tree实现KNN聚类方法单元,用于:在使用KNN聚类方法时,应用KD-Tree算法快速搜索最近点,包括:
获取特征点数据;
步骤A1:展开kd-树;选择最大方差维数ki;选取ki维的中值kv作阈值;其中,ki为大于1的正整数;
步骤A2:针对各ki维,分割特征点数据,包括:
在ki维小于阈值时,将特征点数据加入到右子树特征点数据,展开右子树;
在ki维大于阈值时,将特征点数据加入到左子树特征点数,并展开左子树;
步骤A3:重复步骤A1—步骤A2,直到特征点数据的数目为1。
进一步地,所述的基于***数据的用户画像装置,还包括:
用户消费行为数据清洗单元,用于:
在提取用户消费行为数据之后,
基于缺失值比率,清洗用户消费行为数据。
进一步地,所述的基于***数据的用户画像装置,还包括:
用户消费行为数据标准化单元,用于:
在提取用户消费行为数据之后,基于z-score方法,对清洗后的用户消费行为数据进行标准化。
综上,本发明提供的基于***数据的用户画像方法及装置,从***票面信息中提取用户的消费行为数据;基于KNN聚类方法,将用户与购货方、用户与商品、用户与购货方、商品与购货方分别聚类,并得多个标签,从而预测与用户对应的多个标签和各标签对应的权重、用户消费偏好和消费行为特征,从而对用户画像,实现在大数据意义上的用户的精细分类;数据处理效率高,耗时短。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本发明优选实施方式的基于***数据的用户画像方法的流程示意图;
图2是本发明优选实施方式的基于***数据的用户画像装置的组成示意图;
图3是本发明优选实施方式的基于***数据的用户画像方法的KD-Tree算法模型的流程示意图;
图4是本发明优选实施方式的基于***数据的用户画像方法的***数据组成示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
随着大数据和互联网行业的不断发展,移动支付和互联网网上消费已经成为人们生活中不可或缺的一部分,随之而产生的电子***数据也越来越庞大。
目前针对用户行为的研究中,选择的数据源的真实性和全面性不足;而数量众多的电子***数据,涉及各方面消费行为是非常理想的数据源。
本发明实施例的基于***数据的用户画像方法及装置,基于***数据,对消费者个体打标签;并根据各标签的权重,对用户进行精细划分。
如图1所示,本发明实施例的基于***数据的用户画像方法,包括:
步骤S100:从获取的***票面数据中,提取用户消费行为数据,其中,用户消费数据包括商品、购货方、销货方和消费金额;
步骤S200:针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品与销货方对应的多个分组、商品与购货方对应的多个分组;其中,每个分组中,每一个二维数据对应有预先设定的多个标签中的一个标签;
步骤S300:针对目标用户,确定目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组;
根据业务需求确定的标签权重值,形成宽表,所述宽表即为针对该目标用户的精细画像。
进一步地,所述的基于***数据的用户画像方法,还包括:
根据业务需求确定的标签权重值,根据目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组,
将目标用户划分到指定的四类用户类别中,其中,所述四类用户类别分别为优质、良好、普通、黑名单。
进一步地,所述的基于***数据的用户画像方法,在使用KNN聚类方法时,应用KD-Tree算法快速搜索最近点,包括:
获取特征点数据;
步骤A1:展开kd-树;选择最大方差维数ki;选取ki维的中值kv作阈值;其中,ki为大于1的正整数;
步骤A2:针对各ki维,分割特征点数据,包括:
在ki维小于阈值时,将特征点数据加入到右子树特征点数据,展开右子树;
在ki维大于阈值时,将特征点数据加入到左子树特征点数,并展开左子树;
步骤A3:重复步骤A1—步骤A2,直到特征点数据的数目为1。
进一步地,所述的基于***数据的用户画像方法,在提取用户消费行为数据之后,还包括:
基于缺失值比率,清洗用户消费行为数据。
当缺失值比率很小(如1%)时,直接对缺失记录进行舍弃。进一步地,所述的基于***数据的用户画像方法,在提取用户消费行为数据之后,还包括:
基于z-score方法,对清洗后的用户消费行为数据进行标准化。
Z-Score标准化能够将不同量级的数据转化为统一量度的Z-Score分值以进行比较。具体地,Z-Score通过(x-μ)/σ将两组或多组数据转化为无单位的Z-Score分值,使得数据标准统一化,提高了数据可比性。
如图2所示,本发明实施例的基于***数据的用户画像装置,包括:
用户消费行为数据提取单元,用于:
从获取的***票面数据中,提取用户消费行为数据,其中,用户消费数据包括商品、购货方、销货方和消费金额;
用户标签提取单元,用于:
针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品与销货方对应的多个分组、商品与购货方对应的多个分组;其中,每个分组中,每一个二维数据对应有预先设定的多个标签中的一个标签;
用户精细画像单元,用于:
针对目标用户,确定目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组;根据业务需求确定的标签权重值,形成宽表,所述宽表即为针对该目标用户的精细画像。
进一步地,所述的基于***数据的用户画像装置,还包括:
用户类别单元,用于:
根据业务需求确定的标签权重值,根据目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组,
将目标用户划分到指定的四类用户类别中,其中,所述四类用户类别分别为优质、良好、普通、黑名单。
进一步地,所述的基于***数据的用户画像装置,还包括:
应用KD-Tree实现KNN聚类方法单元,用于:在使用KNN聚类方法时,应用KD-Tree算法快速搜索最近点,包括:
获取特征点数据;
步骤A1:展开kd-树;选择最大方差维数ki;选取ki维的中值kv作阈值;其中,ki为大于1的正整数;
步骤A2:针对各ki维,分割特征点数据,包括:
在ki维小于阈值时,将特征点数据加入到右子树特征点数据,展开右子树;
在ki维大于阈值时,将特征点数据加入到左子树特征点数,并展开左子树;
步骤A3:重复步骤A1—步骤A2,直到特征点数据的数目为1。
进一步地,所述的基于***数据的用户画像装置,还包括:
用户消费行为数据清洗单元,用于:
在提取用户消费行为数据之后,
基于缺失值比率,清洗用户消费行为数据。
进一步地,所述的基于***数据的用户画像装置,还包括:
用户消费行为数据标准化单元,用于:
在提取用户消费行为数据之后,基于z-score方法,对清洗后的用户消费行为数据进行标准化。
该发明实施例的基于***数据的用户画像装置是对应于前述实施例的基于***数据的用户画像方法的装置,具有与该方法相同的技术构思和技术效果,这里不再赘述。
具体地,该发明实施例的基于***数据的用户画像方法及装置,从***票面信息中提取用户的消费行为数据;基于KNN聚类方法,将用户与购货方、用户与商品、用户与购货方、商品与购货方分别聚类,并得多个标签,从而预测与用户对应的多个标签和各标签对应的权重、用户消费偏好和消费行为特征,从而对用户画像,实现在大数据意义上的用户的精细分类。
具体地,在实现KNN聚类方法时,利用KD-Tree算法求解最近点。
具体地,用户消费偏好包括:用户价格偏好、用户类目偏好、用户品牌偏好等等。
用户消费行为特征包括:消费金额与自然月份之间的关系、购买商品的名称、数量和金额。
具体地,用户种类是预先定义的,如,根据用户的消费水平划分用户组;根据用户所消费商品的来源区划分用户组。
具体地,对用户的精细分类是指将用户划分到指定的四类用户类别中的某一类。这四类用户类别分别是优质、良好、普通、黑名单。
具体地,从获取的大数据级别的***数据中清洗出用户信息、商品信息、购货方信息、销货方信息、消费金额信息。
基于KNN聚类方法,不需要预设中心,只需要预设分组数;经过KNN聚类后,各数据点都被划分到某一个具有标签的类别。
KNN聚类算法又称k近邻分类(K-Nearest Neighbor,简称KNN)算法。根据特征值之间的距离来对特征值进行多个分类的机器学***均值赋给该样本,就可以得到该样本的属性。
在KNN聚类算法中,利用KD-Tree算法求解最近点。
具体地,本发明实施例的方法,包括:
步骤S1:从***票面信息中提取商品、购货方、销货方、消费金额等消费行为数据;
具体地,***数据票面信息包含用户作为购货方在不同销货方的日常消费数据。
步骤S2:分别建立商品、消费金额、销货方和购货方之间的关系数据,并对关系数据进行标准化处理;
步骤S3对商品、消费金额、销货方和购货方之间的关系数据进行降维处理,将关系数据映射到一个低维空间;
具体地,降为了便于后续计算和可视化,对关系数据基于缺失值比率进行降维处理,从而进一步提取有效信息、摈弃无用信息。
步骤S4:利用KNN聚类方法把商品、消费金额、销货方、购货方分别聚类成多个基于二维数据点的分组及各分组对应的标签;
聚类后,用户与商品之间的映射关系,包括用户类目偏好(如,母婴类、洗化类、餐饮类等)、用户价格偏好(如,根据单次平均消费金额划分为多个数据档)等多个分组;用户与销货方之间的映射关系,包括用于反映用户品牌偏好的多个分组;用户与购货方之间的映射关系,包括用于反映用户购买力、用户活跃度的多个分组。
以上步骤中,通过多个聚类中心的KNN聚类方法,将每一类用户抽象成高度精炼的短文本,并形成具有代表性的标签;
步骤S5:在用户对应的每一个分组上,确定与用户对应的各分组的预测值。
具体地,根据KNN聚类算法确定的消费者个体确定的标签权重值,结合业务需求,利用来构建用户画像模型,建立用户、商品、购货方、销货方之间的计算模型,迭代计算出用户标签、权重、用户偏好及行为特征,确定用户的精细分类。
具体地,将待分析用户对应于不同分组的预测值,形成宽表,进行可视化展示,展示内容包括用户对应的多个标签和各标签对应的权重、用户偏好及行为特征,从而实现用户精细分类。
具体地,如图4所示,从***票面信息中提取到的消费行为数据包括:
购货方数据,包括:购货方名称、购货方识别号;
销货方数据,包括:销货方名称、销货方识别号;
***明细数据,包括商品名称、商品数量、商品单价、商品金额、商品行序号等。
本发明实施例的基于***数据的用户画像方法及装置对清洗得到的有效数据,基于KNN聚类算法对用户画像,构建出用户画像模型,实现用户特征、行为偏好和精细化分类,有利于后续根据用户画像模型向用户精准推荐商品,为提高营销转化率提供数据服务。
本发明实施例的基于***数据的用户画像方法及装置,基于电子***数据,通过KD-Tree算法实现KNN聚类算法,分析用户偏好和行为特征,进而将用户进行类别划分。
KD-Tree(K-Dimensional Tree,简称KD-Tree),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。K-D树是二进制空间分割树的特殊的情况。在计算机科学里,k-d树(k-维树的缩写)是在k维欧几里德空间组织点的数据结构。k-d树可以使用在多种应用场合,如多维键值搜索(例:范围搜寻及最邻近搜索)。k-d树是空间二分树(Binary space partitioning)的一种特殊情况。
如图3所示,应用KD-Tree算法快速搜索最近点时,选择一个维度(x,y,z......);选出这些点这个维度值的中位数;将数据按中位数分为两部分;对这两部分数据同样执行上述操作,直到数据点的数目为1。
或,获取特征点数据;
步骤A1:展开kd-树;
选择最大方差维数ki;
选取ki维的中值kv作阈值;
步骤A2:针对各ki维,分割特征点数据,包括:
在ki维小于阈值时,将特征点数据加入到右子树特征点数据,展开右子树;在ki维大于阈值时,将特征点数据加入到左子树特征点数,并展开左子树。
以下是术语说明:
宽表:从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。由于把不同的内容(相关字段)都放在同一张表存储,可以大大提高搜索效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
以上已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
Claims (10)
1.一种基于***数据的用户画像方法,其特征在于,包括以下步骤:
从获取的***票面数据中,提取用户消费行为数据,其中,用户消费数据包括商品、购货方、销货方和消费金额;
针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品与销货方对应的多个分组、商品与购货方对应的多个分组;其中,每个分组中,每一个二维数据对应有预先设定的多个标签中的一个标签;
针对目标用户,确定目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组;
根据业务需求确定的标签权重值,形成宽表,所述宽表即为针对该目标用户的精细画像。
2.根据权利要求1所述的基于***数据的用户画像方法,其特征在于,还包括:
根据业务需求确定的标签权重值,根据目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组,
将目标用户划分到指定的四类用户类别中,其中,所述四类用户类别分别为优质、良好、普通、黑名单。
3.根据权利要求1所述的基于***数据的用户画像方法,其特征在于,在使用KNN聚类方法时,应用KD-Tree算法快速搜索最近点,包括:
获取特征点数据;
步骤A1:展开kd-树;选择最大方差维数ki;选取ki维的中值kv作阈值;其中,ki为大于1的正整数;
步骤A2:针对各ki维,分割特征点数据,包括:
在ki维小于阈值时,将特征点数据加入到右子树特征点数据,展开右子树;
在ki维大于阈值时,将特征点数据加入到左子树特征点数,并展开左子树;
步骤A3:重复步骤A1—步骤A2,直到特征点数据的数目为1。
4.根据权利要求1所述的基于***数据的用户画像方法,其特征在于,在提取用户消费行为数据之后,还包括:
基于缺失值比率,清洗用户消费行为数据。
5.根据权利要求4所述的基于***数据的用户画像方法,其特征在于,在提取用户消费行为数据之后,还包括:
基于z-score方法,对清洗后的用户消费行为数据进行标准化。
6.一种基于***数据的用户画像装置,其特征在于,包括:
用户消费行为数据提取单元,用于:
从获取的***票面数据中,提取用户消费行为数据,其中,用户消费数据包括商品、购货方、销货方和消费金额;
用户标签提取单元,用于:
针对标准化后的用户消费行为数据,基于KNN聚类方法,分别聚类得到商品与消费金额对应的多个分组、商品与销货方对应的多个分组、商品与购货方对应的多个分组;其中,每个分组中,每一个二维数据对应有预先设定的多个标签中的一个标签;
用户精细画像单元,用于:
针对目标用户,确定目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组;根据业务需求确定的标签权重值,形成宽表,所述宽表即为针对该目标用户的精细画像。
7.根据权利要求6所述的基于***数据的用户画像装置,其特征在于,还包括:
用户类别单元,用于:
根据业务需求确定的标签权重值,根据目标用户对应的商品与消费金额分组、商品与销货方分组、商品与购货方分组,
将目标用户划分到指定的四类用户类别中,其中,所述四类用户类别分别为优质、良好、普通、黑名单。
8.根据权利要求6所述的基于***数据的用户画像装置,其特征在于,还包括:
应用KD-Tree实现KNN聚类方法单元,用于:在使用KNN聚类方法时,应用KD-Tree算法快速搜索最近点,包括:
获取特征点数据;
步骤A1:展开kd-树;选择最大方差维数ki;选取ki维的中值kv作阈值;其中,ki为大于1的正整数;
步骤A2:针对各ki维,分割特征点数据,包括:
在ki维小于阈值时,将特征点数据加入到右子树特征点数据,展开右子树;
在ki维大于阈值时,将特征点数据加入到左子树特征点数,并展开左子树;
步骤A3:重复步骤A1—步骤A2,直到特征点数据的数目为1。
9.根据权利要求6所述的基于***数据的用户画像装置,其特征在于,还包括:
用户消费行为数据清洗单元,用于:
在提取用户消费行为数据之后,
基于缺失值比率,清洗用户消费行为数据。
10.根据权利要求9所述的基于***数据的用户画像装置,其特征在于,还包括:
用户消费行为数据标准化单元,用于:
在提取用户消费行为数据之后,基于z-score方法,对清洗后的用户消费行为数据进行标准化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911382477.XA CN111191713A (zh) | 2019-12-27 | 2019-12-27 | 基于***数据的用户画像方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911382477.XA CN111191713A (zh) | 2019-12-27 | 2019-12-27 | 基于***数据的用户画像方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191713A true CN111191713A (zh) | 2020-05-22 |
Family
ID=70711060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911382477.XA Pending CN111191713A (zh) | 2019-12-27 | 2019-12-27 | 基于***数据的用户画像方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191713A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737587A (zh) * | 2020-08-21 | 2020-10-02 | 北京每日优鲜电子商务有限公司 | 设备操作方法、装置、电子设备和计算机可读介质 |
CN112613902A (zh) * | 2020-12-15 | 2021-04-06 | 航天信息股份有限公司 | 一种建立用户画像的方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354273A (zh) * | 2015-10-29 | 2016-02-24 | 浙江高速信息工程技术有限公司 | 一种快速检索高速公路逃费车辆高相似度图像的方法 |
CN108109163A (zh) * | 2017-12-18 | 2018-06-01 | 中国科学院长春光学精密机械与物理研究所 | 一种航拍视频的运动目标检测方法 |
CN108268898A (zh) * | 2018-01-19 | 2018-07-10 | 大象慧云信息技术有限公司 | 一种基于K-Means的电子***用户聚类方法 |
CN109359244A (zh) * | 2018-10-30 | 2019-02-19 | 中国科学院计算技术研究所 | 一种个性化信息推荐方法和装置 |
CN109615429A (zh) * | 2018-12-11 | 2019-04-12 | 大象慧云信息技术有限公司 | 一种基于***数据的精准广告投放***及方法 |
CN110135901A (zh) * | 2019-05-10 | 2019-08-16 | 重庆天蓬网络有限公司 | 一种企业用户画像构建方法、***、介质和电子设备 |
-
2019
- 2019-12-27 CN CN201911382477.XA patent/CN111191713A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354273A (zh) * | 2015-10-29 | 2016-02-24 | 浙江高速信息工程技术有限公司 | 一种快速检索高速公路逃费车辆高相似度图像的方法 |
CN108109163A (zh) * | 2017-12-18 | 2018-06-01 | 中国科学院长春光学精密机械与物理研究所 | 一种航拍视频的运动目标检测方法 |
CN108268898A (zh) * | 2018-01-19 | 2018-07-10 | 大象慧云信息技术有限公司 | 一种基于K-Means的电子***用户聚类方法 |
CN109359244A (zh) * | 2018-10-30 | 2019-02-19 | 中国科学院计算技术研究所 | 一种个性化信息推荐方法和装置 |
CN109615429A (zh) * | 2018-12-11 | 2019-04-12 | 大象慧云信息技术有限公司 | 一种基于***数据的精准广告投放***及方法 |
CN110135901A (zh) * | 2019-05-10 | 2019-08-16 | 重庆天蓬网络有限公司 | 一种企业用户画像构建方法、***、介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
曾子明等: "《电子商务推荐***与智能谈判技术》", 武汉大学出版社, pages: 103 - 104 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737587A (zh) * | 2020-08-21 | 2020-10-02 | 北京每日优鲜电子商务有限公司 | 设备操作方法、装置、电子设备和计算机可读介质 |
CN112613902A (zh) * | 2020-12-15 | 2021-04-06 | 航天信息股份有限公司 | 一种建立用户画像的方法及*** |
CN112613902B (zh) * | 2020-12-15 | 2024-06-07 | 航天信息股份有限公司 | 一种建立用户画像的方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chang et al. | Group RFM analysis as a novel framework to discover better customer consumption behavior | |
US7567918B2 (en) | Method and system for researching sales effects for advertising using association analysis | |
US20040138958A1 (en) | Sales prediction using client value represented by three index axes as criteron | |
CN108073667B (zh) | 产生用户浏览属性的方法、以及非暂存计算机可读介质 | |
CN101454771A (zh) | 基于使用多媒体调查特征匹配以划分和标记个体的***和方法 | |
Dzyabura et al. | Leveraging the power of images in managing product return rates | |
CN112001754A (zh) | 用户画像生成方法、装置、设备及计算机可读介质 | |
Hemalatha | Market basket analysis–a data mining application in Indian retailing | |
CN115131101A (zh) | 一种保险产品个性化智能推荐*** | |
CN111191713A (zh) | 基于***数据的用户画像方法及装置 | |
CN106127493A (zh) | 一种分析用户交易行为的方法及装置 | |
CN115496566A (zh) | 基于大数据的地区特产推荐方法及*** | |
CN111414542A (zh) | 一种房地产客户群识别和营销的方法 | |
CN115018588A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
Mostafa | Knowledge discovery of hidden consumer purchase behaviour: a market basket analysis | |
Hoang et al. | Electronic word of mouth, brand image and young customers' online purchase intention during the COVID-19 pandemic | |
CN116739836B (zh) | 一种基于知识图谱的餐饮数据分析方法及*** | |
CN110968670B (zh) | 一种流行商品的属性获取方法、装置、设备及存储介质 | |
CN114266594A (zh) | 一种基于东南亚跨境电商平台的大数据分析方法 | |
CN111445302A (zh) | 商品排序方法、***及装置 | |
CN114331569A (zh) | 一种商业空间内不同场景的用户消费行为分析方法及*** | |
Neifer et al. | Recommender Systems in Food Retail: Modeling Repeat Purchase Decisions on Transaction Data of a Stationary Food Retailer. | |
Casabayó et al. | Using AI techniques in the grocery industry: Identifying the customers most likely to defect | |
CN111400622A (zh) | 一种分布式电商***中紧缺商品数量展现方法及装置 | |
Muhammad et al. | Analyzing the use of Social Media by Fashion Designers with K-Means and C45 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |