CN109903082A - 基于用户画像的聚类方法、电子装置及存储介质 - Google Patents
基于用户画像的聚类方法、电子装置及存储介质 Download PDFInfo
- Publication number
- CN109903082A CN109903082A CN201910068877.7A CN201910068877A CN109903082A CN 109903082 A CN109903082 A CN 109903082A CN 201910068877 A CN201910068877 A CN 201910068877A CN 109903082 A CN109903082 A CN 109903082A
- Authority
- CN
- China
- Prior art keywords
- variable
- user
- user characteristics
- weight
- preference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000011002 quantification Methods 0.000 claims abstract description 44
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 16
- 238000013210 evaluation model Methods 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 2
- 239000006185 dispersion Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据分析技术,提供一种基于用户画像的聚类方法,包括:获取多个用户的用户特征及其特征变量;将用户特征转为词向量;对词向量进行聚类,确定各用户特征所属类别;将所述特征变量划分为连续变量和离散变量;对离散变量和连续变量进行量化处理;筛选出有偏好的用户特征的类别,对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值;对所有经过量化处理的离散变量和连续变量进行聚类,得到有偏向的用户特征聚类。本发明还提出了一种电子装置及存储介质。本发明在保留全部特征信息的基础上,有针对性的聚类。
Description
技术领域
本发明涉及数据分析技术领域,更为具体地,涉及一种基于用户画像的聚类方法、电子装置及存储介质。
背景技术
为精准营销服务,进而深入挖掘潜在的商业价值,于是,用户画像的概念应运而生。用户画像是用户信息的标签化,而一个标签通常是高度精炼的特征标识,如年龄、性别、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”了,用户画像可抽象出用户信息的全貌。现阶段对于用户画像进行聚类,通常数据源可以分为生活属性、行为属性等等,不能有针对性的准确聚类。
发明内容
鉴于上述问题,本发明的目的是提供一种在保留全部特征信息的基础上,有针对性的聚类的基于用户画像的聚类方法、电子装置及存储介质。
为了实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器和处理器,所述存储器中包括基于用户画像的聚类程序,所述基于用户画像的聚类程序被所述处理器执行时实现如下步骤:
获取多个用户的用户特征及所述用户特征对应的特征变量;
将用户特征转化为词向量;
对词向量进行聚类,确定各用户特征所属类别;
将所述用户特征对应的特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;
对离散变量和连续变量进行量化处理;
筛选出有偏好的用户特征的类别,对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值,所述偏好是指聚类过程的偏向性;
对所有经过量化处理的离散变量和连续变量进行聚类,得到有偏向的用户特征聚类。
此外,为了实现上述目的,本发明还提供一种基于用户画像的聚类方法,包括:
获取多个用户的用户特征及其对应的特征变量;
将用户特征转化为词向量;
对词向量进行聚类,确定各用户特征所属类别;
将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;
对离散变量和连续变量进行量化处理;
筛选出有偏好的用户特征的类别,对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值,所述偏好是指聚类过程的偏向性;
对所有经过量化处理的离散变量和连续变量进行聚类,得到有偏向的用户特征聚类。
优选地,所述对离散变量和连续变量进行量化处理的方法包括:
将具有次序性的离散变量转换为数值形式;
将不具有次序性且取值数量超过设定数量的离散变量转化为高阶形式;
将转换为高阶形式的离散变量进行编码;
筛选出编码后具有次序的所述离散变量与连续变量进行归一化处理。
优选地,所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括:
统计用户特征聚类后的类别数量n;
将有偏好的用户特征的类别的特征变量的权值在大于1不大于n-1的范围内进行变化;
根据赋权之后的聚类的轮廓系数或/和可解释性,确定最佳权值。
进一步,优选地,还包括:
将最佳权值对应的聚类结果作为最佳偏向的用户特征聚类,其中,包括:
根据下式计算每次聚类的轮廓系数
其中,si为第i次聚类的轮廓系数,ai和bi分别为第i次聚类结果中属于不同类别的距离最大的两个特征变量;
重复上述步骤,得到轮廓系数随权值的变化曲线,观察曲线是否有极值点,将轮廓系数最大值对应的权值作为最佳权值,与轮廓系数最大值对应的聚类结果作为最佳偏向的用户特征聚类。
此外,优选地,所述有偏好的用户特征的类别为一类或多类,当所述有偏好的用户特征的类别为一类时,所述有偏好的一类用户特征的特征变量的权值在大于1且不大于n-1范围内;当有偏好的类别为多类时,多类偏好的一类用户特征的特征变量的权值在大于1且权值之和不大于n-1范围内,n为用户特征聚类后的类别数量。
此外,优选地,所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括:
统计用户特征总数,属于每一个用户特征类别的用户特征数;
赋予有偏好的用户特征类别的权值在大于1到使得所述类别的用户特征数等于其他类别的用户特征数之和的范围内。
此外,为了实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于用户画像的聚类程序,所述基于用户画像的聚类程序被处理器执行时,实现上述的基于用户画像的聚类方法的步骤。
本发明所述基于用户画像的聚类方法、电子装置及计算机可读存储介质可以在保留全部特征信息的基础上,实现针对性的聚类,同时由于对离散特征的有序、无序处理,使得整体的精度得到提升。
附图说明
图1是本发明基于用户画像的聚类方法较佳实施例的应用环境示意图;
图2是图1中基于用户画像的聚类程序较佳实施例的模块示意图;
图3是本发明基于用户画像的聚类方法较佳实施例的流程图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下将结合附图对本发明的具体实施例进行详细描述。
本发明提供一种基于用户画像的聚类方法,应用于一种电子装置1。参照图1所示,为本发明基于用户画像的聚类方法较佳实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端客户端。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于用户画像的聚类程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于用户画像的聚类程序10等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子客户端之间建立通信连接。
通信总线14用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的客户端、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。
在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
可选地,该电子装置1还可以包括逻辑门电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作***以及基于用户画像的聚类程序10;处理器12执行存储器11中存储的基于用户画像的聚类程序10时实现如下步骤:
获取多个用户的用户特征及所述用户特征对应的特征变量;
将用户特征转化为词向量;
对词向量进行聚类,确定各用户特征所属类别;
将所述用户特征对应的特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;
对离散变量和连续变量进行量化处理;
筛选出有偏好的用户特征的类别,对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值,所述偏好是指聚类过程的偏向性;
对所有经过量化处理的离散变量和连续变量进行聚类,得到有偏向的用户特征聚类。
在其他实施例中,所述基于用户画像的聚类程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中基于用户画像的聚类程序10较佳实施例的功能模块图。所述基于用户画像的聚类程序10可以被分割为:
用户特征获取模块110,获取多个用户的用户特征及其对应的特征变量;
转化模块120,将用户特征转化为词向量;
第一聚类模块130,对词向量进行聚类,确定各用户特征所属类别;
划分模块140,将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;
量化模块150,对离散变量和连续变量进行量化处理;
偏好选择模块160,筛选出有偏好的用户特征的类别,对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值,所述偏好是指关注的用户特征,也是聚类过程的偏向性;
第二聚类模块170,对所有经过量化的离散变量和连续变量进行聚类,将有加权的用户特征类别的特征变量和无加权的用户特征类别的特征变量进行聚类,得到有偏向的用户特征聚类。
此外,本发明还提供一种基于用户画像的聚类方法。参照图3所示,为本发明基于用户画像的聚类方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于用户画像的聚类方法,包括:
步骤S1,获取多个用户的用户特征及所述用户特征对应的特征变量,例如,可以利用网络爬虫技术从网络中获得用户特征及其特征变量,也可以通过专门的数据获得,又如,用户特征为性别,特征变量为女;
步骤S2,将用户特征转化为词向量,例如,从词向量词典中查找用户特征对应的词向量,具体地,词向量为预先准备的字典,其训练方法为Word2Vec;
步骤S3,对词向量进行聚类,确定各用户特征所属类别,这一步骤可通过Python中的SKLearn模块实现,例如,姓名、性别、年龄、籍贯等可以聚类为个人属性,学历、证书、工作经历等可以聚类为业务能力,家中排行、家庭结构,家庭幸福感、家庭教育等可以聚类为家庭责任感;
步骤S4,将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量(如地名、等级信息),特征变量区分可通过编程自动实现;
步骤S5,对离散变量和连续变量进行量化处理;
步骤S6,筛选出有偏好的用户特征的类别,对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值,所述偏好是指聚类过程的偏向性,例如,对于偏向性格的聚类,则会上调性格相关用户特征的特征变量的比重,聚类结果在性格方面的差异会更显著;
步骤S7,对所有经过量化处理的离散变量和连续变量进行聚类,也就是说将有加权的用户特征类别的特征变量和无加权的用户特征类别的特征变量进行聚类(例如层次聚类,K-Means聚类等),得到有偏向的用户特征聚类。这一步骤可以通过Python中K-Prototypes库实现。
上述聚类方法为非监督分类方法,根据用户画像特征,建立加权聚类算法,实现用户分类功可以根据具体应用场景做加权修改,可以根据业务需求有针对的加大聚类方法的偏好。
在步骤S5中,上述对离散变量和连续变量进行量化处理的方法包括:
将具有次序性的离散变量(例如等级)转换为数值形式;
将不具有次序性且取值数量超过设定数量(例如20个)的离散变量(地名等信息)转化为高阶形式(如身份、城市等级等信息);
将转换为高阶形式的离散变量进行编码(例如,one-hot编码);
筛选出编码后具有次序的所述离散变量与连续变量进行归一化处理。
在本发明的一个实施例中,在步骤S6中,所述有偏好的用户特征的类别为一类或多类,当所述有偏好的用户特征的类别为一类时,所述有偏好的一类用户特征的特征变量的权值在大于1且不大于n-1范围内;当有偏好的类别为多类时,多类偏好的一类用户特征的特征变量的权值在大于1且权值之和不大于n-1范围内,n为用户特征聚类后的类别数量。
在本发明的另一个实施例中,所述有偏好的用户特征的类别为一类或多类,当所述有偏好的用户特征的类别为一类时,所述有偏好的一类用户特征的特征变量的权值在大于1且使得所述类别的用户特征数等于其他类别的用户特征数之和的范围内;当有偏好的类别为多类时,多类偏好的一类用户特征的特征变量的权值在大于1且权值之和使得有偏好类别的用户特征总数等于无偏好的类别的用户特征数之和的范围内,例如,用户特征总数有800,具有4个用户特征类别,第一类别到第四类别的用户特征数分别为100、300、200、200,有偏好的分类为第一类别,则第一类别的权值在大于1不大于7的范围内进行变化。
可以采用上述两个实施例中对有偏好的用户特征类别赋予的权值在上述范围内进行变化,得到不同次赋值,从而得到不同次聚类,可以采用下述实施例中一种或多种的结合得到有偏好的用户特征类别的最佳权值。
在一个可选实施例中,所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括:
统计用户特征聚类后的类别数量n;
将有偏好的用户特征的类别的特征变量的权值在大于1不大于n-1的范围内进行变化;
根据赋权之后的聚类的轮廓系数或/和可解释性,确定最佳权值。
优选地,还包括:
将最佳权值对应的聚类结果作为最佳偏向的用户特征聚类,其中,包括:
根据下式计算每次聚类的轮廓系数
其中,si为第i次聚类的轮廓系数,ai和bi分别为第i次聚类结果中属于不同类别的距离最大的两个特征变量;
重复上述步骤,得到轮廓系数随权值的变化曲线,观察曲线是否有极值点,将轮廓系数最大值对应的权值作为最佳权值,与轮廓系数最大值对应的聚类结果作为最佳偏向的用户特征聚类。
在一个可选实施例中,所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括:
获得有偏好一类或多类的用户特征类别的经过量化处理的离散变量和连续变量构成的量化矩阵
B=(bij)m×n
其中,bij为第i个用户特征的第j个特征变量;
构建对有偏好的用户特征类别的特征变量不同次赋予不同权值的组合权值矩阵
F=WΘ=[F1 F2 … Fn]T
Fn=wn,1θ1+wn,2θ2+…+wn,lθl
其中,矩阵W为有偏好一类或多类用户特征的特征变量不同次赋予的权值,Θ为各次赋予权值的线性系数向量,wn,l为第l次对第n个特征变量赋予的权值,权值大于1且不大于n-1,n为特征变量的个数,l为赋权次数,wl为第l次赋权的权值组成的权值向量,且每一个权值向量中权值之和不大于n-1,θl为第l次赋权的线性系数,θk≥0,k=1,2,…,l,Fn为第n个特征的组合权值;
利用向量矩阵构建向量差矩阵C,
根据向量差矩阵和组合权值矩阵获得权值评价模型
M(F)=CF=CWΘ;
将权值评价模型一阶导数为零对应的组合权值矩阵的最优解分别作为各特征变量的最佳权值。
在一个可选实施例中,所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括:
获得有偏好一类或多类的用户特征类别的经过量化处理的离散变量和连续变量构成的量化矩阵
B=(bij)m×n
其中,bij为第i个用户特征的第j个特征变量;
构建对有偏好的用户特征类别的特征变量不同次赋予不同权值的组合权值矩阵
F=WΘ=[F1 F2 … Fn]T
Fn=wn,1θ1+wn,2θ2+…+wn,lθl
其中,矩阵W为有偏好一类或多类用户特征的特征变量不同次赋予的权值,Θ为各次赋予权值的线性系数向量,wn,l为第l次对第n个特征变量赋予的权值,权值大于1且不大于n-1,n为特征变量的个数,l为赋权次数,wl为第l次赋权的权值组成的权值向量,且每一个权值向量中权值之和不大于n-1,θl为第l次赋权的线性系数,θk≥0,k=1,2,…,l,Fn为第n个特征的组合权值;
利用向量矩阵构建向量和矩阵H,
根据向量和矩阵和组合权值矩阵获得权值评价模型
M′(F)=HF=HWΘ;
将权值评价模型一阶导数为零对应的组合权值矩阵的最优解分别作为各特征变量的最佳权值。
利用向量差矩阵构建权值评价模型,体现了属于不同用户特征的特征变量之间的差异,使得特征变量聚类时的各类之间的差异清晰,具有较好的可解释性,利用向量和矩阵构建权值评价模型,体现了不同用户特征之间的联系使得特征变量聚类时具有良好的轮廓,因此,可以采用两者加权结合构建评价模型。
在本发明的一个实施例中,所述对离散变量和连续变量进行量化处理的方法包括:
判断离散变量的离散程度,所述离散程度可以根据词向量的极差、四分位距、方差、标准差、平均差和变异系数中的一种或多种方法获得,例如,采用平均方差评价离散度,
其中PC为一个用户特征的离散变量的离散程度,N为用户数,yi和oi分别为第i个用户的用户特征的离散变量及其期待值,所述期待值是使得离散程度降低的设定值;
对离散程度超过阈值(可以设定值,聚类精度越高,阈值越低)的离散变量进行概括统计,直到离散程度不超过阈值,例如,居住地的离散特征可以由小区概括统一为街道,概括统一为街道后的离散特征的离散程度依然超过阈值时,可以进一步概括统一为区/县。
在本发明的一个实施例中,所述对所有经过量化处理的离散变量和连续变量进行聚类,得到有偏向的用户特征聚类的方法包括:
赋予不同权值进行多次初始聚类;
根据多次初始聚类的结果构建树结构,其中,根节点从顶到低依次是第一次初始聚类结果到最后一次初始聚类结果的每一个聚类,边长为聚类结果中具有相同的特征变量占所有特征变量的比例;
以节点之间的边长差值相对于最大边长与最短边长的比值作为节点之间的相似度;
根据相似度对节点进行聚类(例如采用k-means方法聚类),将聚类结果中初始聚类的交集作为最佳聚类结果。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于用户画像的聚类程序,所述基于用户画像的聚类程序被处理器执行时实现如下步骤:
获取多个用户的用户特征及其对应的特征变量;
将用户特征转化为词向量;
对词向量进行聚类,确定各用户特征所属类别;
将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;
对离散变量和连续变量进行量化处理;
筛选出有偏好的用户特征的类别,对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值,所述偏好是指聚类过程的偏向性;
对所有经过量化处理的离散变量和连续变量进行聚类,得到有偏向的用户特征聚类。
本发明之计算机可读存储介质的具体实施方式与上述基于用户画像的聚类方法、电子装置的具体实施方式大致相同,在此不再赘述。
上述基于用户画像的聚类方法、电子装置及存储介质可以选择较为关注的若干个字段(针对性分类,比如对这群用户我希望可以偏重于个人属性分类,那么就加大这部分属性的权重)进行权重调整(大于1),实现有针对性的聚类。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端客户端(可以是手机,计算机,服务器,或者网络客户端等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于用户画像的聚类方法,其特征在于,包括:
获取多个用户的用户特征及所述用户特征对应的特征变量;
将用户特征转化为词向量;
对词向量进行聚类,确定各用户特征所属类别;
将所述用户特征对应的特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;
对离散变量和连续变量进行量化处理;
筛选出有偏好的用户特征的类别,对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值,所述偏好是指聚类过程的偏向性;
对所有经过量化处理的离散变量和连续变量进行聚类,得到有偏向的用户特征聚类。
2.根据权利要求1所述的基于用户画像的聚类方法,其特征在于,所述对离散变量和连续变量进行量化处理的方法包括:
将具有次序性的离散变量转换为数值形式;
将不具有次序性且取值数量超过设定数量的离散变量转化为高阶形式;
将转换为高阶形式的离散变量进行编码;
筛选出编码后具有次序的所述离散变量与连续变量进行归一化处理。
3.根据权利要求1所述的基于用户画像的聚类方法,其特征在于,所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括:
统计用户特征聚类后的类别数量n;
将有偏好的用户特征的类别的特征变量的权值在大于1不大于n-1的范围内进行变化;
根据赋权之后的聚类的轮廓系数或/和可解释性,确定最佳权值。
4.根据权利要求3所述的基于用户画像的聚类方法,其特征在于,所述根据赋权之后的聚类的轮廓系数或/和可解释性,确定最佳权值的步骤之后,还包括:
将最佳权值对应的聚类结果作为最佳偏向的用户特征聚类,其中,包括:
根据下式计算每次聚类的轮廓系数
其中,si为第i次聚类的轮廓系数,ai和bi分别为第i次聚类结果中属于不同类别的距离最大的两个特征变量;
重复上述步骤,得到轮廓系数随权值的变化曲线,观察曲线是否有极值点,将轮廓系数最大值对应的权值作为最佳权值,与轮廓系数最大值对应的聚类结果作为最佳偏向的用户特征聚类。
5.根据权利要求1所述的基于用户画像的聚类方法,其特征在于,所述有偏好的用户特征的类别为一类或多类,当所述有偏好的用户特征的类别为一类时,所述有偏好的一类用户特征的特征变量的权值在大于1且不大于n-1范围内;当有偏好的类别为多类时,多类偏好的一类用户特征的特征变量的权值在大于1且权值之和不大于n-1范围内,n为用户特征聚类后的类别数量。
6.根据权利要求5所述的基于用户画像的聚类方法,其特征在于,所述对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法还包括:
获得有偏好一类或多类的用户特征类别的经过量化处理的离散变量和连续变量构成的量化矩阵;
B=(bij)m×n
其中,bij为第i个用户特征的第j个特征变量;
构建对有偏好的用户特征类别的特征变量不同次赋予不同权值的组合权值矩阵;
F=WΘ=[F1 F2 … Fn]T
Fn=wn,1θ1+wn,2θ2+…+wn,lθl
其中,矩阵W为有偏好一类或多类用户特征的特征变量不同次赋予的权值,Θ为各次赋予权值的线性系数向量,wn,l为第l次对第n个特征变量赋予的权值,权值大于1且不大于n-1,n为特征变量的个数,l为赋权次数,wl为第l次赋权的权值组成的权值向量,且每一个权值向量中权值之和不大于n-1,θl为第l次赋权的线性系数,θk≥0,k=1,2,…,l,Fn为第n个特征的组合权值;
利用向量矩阵构建向量差矩阵C,
根据向量差矩阵和组合权值矩阵获得权值评价模型;
M(F)=CF=CWΘ;
将权值评价模型一阶导数为零对应的组合权值矩阵的最优解分别作为各特征变量的最佳权值。
7.根据权利要求5所述的基于用户画像的聚类方法,其特征在于,所述对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法还包括:
获得有偏好一类或多类的用户特征类别的经过量化处理的离散变量和连续变量构成的量化矩阵;
B=(bij)m×n
其中,bij为第i个用户特征的第j个特征变量;
构建对有偏好的用户特征类别的特征变量不同次赋予不同权值的组合权值矩阵;
F=WΘ=[F1 F2 … Fn]T
Fn=wn,1θ1+wn,2θ2+…+wn,lθl
其中,矩阵W为有偏好一类或多类用户特征的特征变量不同次赋予的权值,Θ为各次赋予权值的线性系数向量,wn,l为第l次对第n个特征变量赋予的权值,权值大于1且不大于n-1,n为特征变量的个数,l为赋权次数,wl为第l次赋权的权值组成的权值向量,且每一个权值向量中权值之和不大于n-1,θl为第l次赋权的线性系数,θk≥0,k=1,2,…,l,Fn为第n个特征的组合权值;
利用向量矩阵构建向量和矩阵H,
根据向量和矩阵和组合权值矩阵获得权值评价模型;
M′(F)=HF=HWΘ;
将权值评价模型一阶导数为零对应的组合权值矩阵的最优解分别作为各特征变量的最佳权值。
8.根据权利要求1所述的基于用户画像的聚类方法,其特征在于,所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括:
统计用户特征总数,属于每一个用户特征类别的用户特征数;
赋予有偏好的用户特征类别的权值在大于1到使得所述类别的用户特征数等于其他类别的用户特征数之和的范围内。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器中存储有基于用户画像的聚类程序,所述基于用户画像的聚类程序被所述处理器执行时实现如下步骤:
获取多个用户的用户特征及其对应的特征变量;
将用户特征转化为词向量;
对词向量进行聚类,确定各用户特征所属类别;
将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量,所述离散变量是非数值型变量;
对离散变量和连续变量进行量化处理;
筛选出有偏好的用户特征的类别,对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值,所述偏好是指聚类过程的偏向性;
对所有经过量化处理的离散变量和连续变量进行聚类,得到有偏向的用户特征聚类。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括有基于用户画像的聚类程序,所述基于用户画像的聚类程序被处理器执行时,实现如权利要求1至8中任一项权利要求所述基于用户画像的聚类方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910068877.7A CN109903082B (zh) | 2019-01-24 | 2019-01-24 | 基于用户画像的聚类方法、电子装置及存储介质 |
PCT/CN2019/089151 WO2020151152A1 (zh) | 2019-01-24 | 2019-05-30 | 基于用户画像的聚类方法、电子装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910068877.7A CN109903082B (zh) | 2019-01-24 | 2019-01-24 | 基于用户画像的聚类方法、电子装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109903082A true CN109903082A (zh) | 2019-06-18 |
CN109903082B CN109903082B (zh) | 2022-10-28 |
Family
ID=66944108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910068877.7A Active CN109903082B (zh) | 2019-01-24 | 2019-01-24 | 基于用户画像的聚类方法、电子装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109903082B (zh) |
WO (1) | WO2020151152A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597348A (zh) * | 2020-04-27 | 2020-08-28 | 平安科技(深圳)有限公司 | 用户画像方法、装置、计算机设备和存储介质 |
CN111881190A (zh) * | 2020-08-05 | 2020-11-03 | 厦门力含信息技术服务有限公司 | 基于客户画像的关键数据挖掘*** |
CN112116205A (zh) * | 2020-08-21 | 2020-12-22 | 国网上海市电力公司 | 针对台区用电特征的画像方法、装置和存储介质 |
CN113592306A (zh) * | 2021-07-30 | 2021-11-02 | 北京壹心壹翼科技有限公司 | 基于全流程用户画像的智能匹配方法、装置、设备及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272119B (zh) * | 2023-11-21 | 2024-03-22 | 国网山东省电力公司营销服务中心(计量中心) | 用户画像分类模型训练方法、用户画像分类方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140344270A1 (en) * | 2013-05-16 | 2014-11-20 | International Business Machines Corporation | Data clustering and user modeling for next-best-action decisions |
CN108062375A (zh) * | 2017-12-12 | 2018-05-22 | 百度在线网络技术(北京)有限公司 | 一种用户画像的处理方法、装置、终端和存储介质 |
CN108427669A (zh) * | 2018-02-27 | 2018-08-21 | 华青融天(北京)技术股份有限公司 | 异常行为监控方法和*** |
CN108734217A (zh) * | 2018-05-22 | 2018-11-02 | 齐鲁工业大学 | 一种基于聚类分析的客户细分方法及装置 |
CN108737856A (zh) * | 2018-04-26 | 2018-11-02 | 西北大学 | 社会关系感知的iptv用户行为建模与节目推荐方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268290B (zh) * | 2014-10-22 | 2017-08-08 | 武汉科技大学 | 一种基于用户聚类的推荐方法 |
CN107730289A (zh) * | 2016-08-11 | 2018-02-23 | 株式会社理光 | 一种用户行为分析方法及用户行为分析装置 |
CN106850314B (zh) * | 2016-12-20 | 2021-06-15 | 上海掌门科技有限公司 | 一种用于确定用户属性模型及用户属性信息的方法与设备 |
CN107679946B (zh) * | 2017-09-28 | 2021-09-10 | 平安科技(深圳)有限公司 | 基金产品推荐方法、装置、终端设备及存储介质 |
CN108519993B (zh) * | 2018-03-02 | 2022-03-29 | 华南理工大学 | 基于多数据流计算的社交网络热点事件检测方法 |
CN109086787B (zh) * | 2018-06-06 | 2023-07-25 | 平安科技(深圳)有限公司 | 用户画像获取方法、装置、计算机设备以及存储介质 |
CN109165383B (zh) * | 2018-08-09 | 2022-07-12 | 四川政资汇智能科技有限公司 | 一种基于云平台的数据汇聚、分析、挖掘与共享方法 |
CN109255715A (zh) * | 2018-09-03 | 2019-01-22 | 平安科技(深圳)有限公司 | 电子装置、产品推荐方法和计算机可读存储介质 |
-
2019
- 2019-01-24 CN CN201910068877.7A patent/CN109903082B/zh active Active
- 2019-05-30 WO PCT/CN2019/089151 patent/WO2020151152A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140344270A1 (en) * | 2013-05-16 | 2014-11-20 | International Business Machines Corporation | Data clustering and user modeling for next-best-action decisions |
CN108062375A (zh) * | 2017-12-12 | 2018-05-22 | 百度在线网络技术(北京)有限公司 | 一种用户画像的处理方法、装置、终端和存储介质 |
CN108427669A (zh) * | 2018-02-27 | 2018-08-21 | 华青融天(北京)技术股份有限公司 | 异常行为监控方法和*** |
CN108737856A (zh) * | 2018-04-26 | 2018-11-02 | 西北大学 | 社会关系感知的iptv用户行为建模与节目推荐方法 |
CN108734217A (zh) * | 2018-05-22 | 2018-11-02 | 齐鲁工业大学 | 一种基于聚类分析的客户细分方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597348A (zh) * | 2020-04-27 | 2020-08-28 | 平安科技(深圳)有限公司 | 用户画像方法、装置、计算机设备和存储介质 |
CN111597348B (zh) * | 2020-04-27 | 2024-02-06 | 平安科技(深圳)有限公司 | 用户画像方法、装置、计算机设备和存储介质 |
CN111881190A (zh) * | 2020-08-05 | 2020-11-03 | 厦门力含信息技术服务有限公司 | 基于客户画像的关键数据挖掘*** |
CN111881190B (zh) * | 2020-08-05 | 2021-10-08 | 厦门南讯股份有限公司 | 基于客户画像的关键数据挖掘*** |
CN112116205A (zh) * | 2020-08-21 | 2020-12-22 | 国网上海市电力公司 | 针对台区用电特征的画像方法、装置和存储介质 |
CN112116205B (zh) * | 2020-08-21 | 2024-03-12 | 国网上海市电力公司 | 针对台区用电特征的画像方法、装置和存储介质 |
CN113592306A (zh) * | 2021-07-30 | 2021-11-02 | 北京壹心壹翼科技有限公司 | 基于全流程用户画像的智能匹配方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020151152A1 (zh) | 2020-07-30 |
CN109903082B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021203819A1 (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN109903082A (zh) | 基于用户画像的聚类方法、电子装置及存储介质 | |
WO2021068610A1 (zh) | 资源推荐的方法、装置、电子设备及存储介质 | |
CN110032632A (zh) | 基于文本相似度的智能客服问答方法、装置及存储介质 | |
CN106503269A (zh) | 应用推荐的方法、装置及服务器 | |
CN108629043A (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN110147882B (zh) | 神经网络模型的训练方法、人群扩散方法、装置及设备 | |
CN111667022A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN105144164A (zh) | 使用深度网络对概念术语评分 | |
CN110490221A (zh) | 多标签分类方法、电子装置及计算机可读存储介质 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN112231485B (zh) | 文本推荐方法、装置、计算机设备及存储介质 | |
CN106874355A (zh) | 同时融入社交关系和用户相似度的协同过滤方法 | |
CN109949089B (zh) | 一种确定展示率的方法、装置及终端 | |
CN110503506A (zh) | 基于评分数据的物品推荐方法、装置及介质 | |
CN110275952A (zh) | 基于用户短期兴趣的新闻推荐方法、装置及介质 | |
CN110276382A (zh) | 基于谱聚类的人群分类方法、装置及介质 | |
CN112528164B (zh) | 一种用户协同过滤召回方法及装置 | |
CN109690581A (zh) | 用户指导***及方法 | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN112328657A (zh) | 特征衍生方法、装置、计算机设备及介质 | |
CN113656690A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
CN116738044A (zh) | 基于个性化实现高校图书馆的图书推荐方法、装置及设备 | |
CN113343713B (zh) | 意图识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |