CN114581098A - 客群分类方法、装置、计算机设备和存储介质 - Google Patents

客群分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN114581098A
CN114581098A CN202210087788.9A CN202210087788A CN114581098A CN 114581098 A CN114581098 A CN 114581098A CN 202210087788 A CN202210087788 A CN 202210087788A CN 114581098 A CN114581098 A CN 114581098A
Authority
CN
China
Prior art keywords
target user
user
feature matrix
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210087788.9A
Other languages
English (en)
Inventor
胡黎明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuhe Information Technology Co Ltd
Original Assignee
Shanghai Shuhe Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuhe Information Technology Co Ltd filed Critical Shanghai Shuhe Information Technology Co Ltd
Priority to CN202210087788.9A priority Critical patent/CN114581098A/zh
Publication of CN114581098A publication Critical patent/CN114581098A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种客群分类方法、装置、计算机设备和存储介质。所述方法包括:获取第一目标用户的用户特征数据,所述第一目标用户的用户特征数据包括文本型数据以及数值型数据;对所述文本型数据进行特征提取,得到第一特征矩阵;将所述第一特征矩阵与所述数值型数据进行合并,得到第二特征矩阵;将所述第二特征矩阵输入预先训练的目标意愿模型,得到各所述第一目标用户的意愿分值;根据各所述第一目标用户的意愿分值对各所述第一目标用户进行客群分类。本申请基于数值型用户特征数据以及文本型用户特征数据对用户的意愿进行预测,使得挖掘用户意愿的数据维度更加丰富,对用户的意愿的预测更加精准,进而使得对用户的客群划分更加准确。

Description

客群分类方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种客群分类方法、装置、计算机设备和存储介质。
背景技术
在互联网金融行业,营销人员通过电话营销的方式,促使用户完成动支。但若盲目的给所有的用户进行电销,会带来些负面作用。首先会给部分沟通意愿较低的用户带来困扰,其次会带来较大的营销成本。因此在电销之前预测出用户的沟通意愿程度以及动支意愿程度,有针对性的对不同客群进行电销,会极大提高精准营销的效率。
评估用户意愿传统的做法是,收集用户评分日之前的特征数据,比如用户的基本信息、借贷多头信息、信用评分类等来预测用户的动支意愿以及沟通意愿模型。但是,这些特征的维度不够丰富,数据类型单一往往不能够深层次的挖掘出用户的意愿,所以目前的评估用户的沟通意愿以及动支意愿的方法还不是很准确。
发明内容
基于此,有必要针对上述技术问题,提供一种客群分类方法、装置、计算机设备和存储介质。
一种客群分类方法,方法包括:
获取各第一目标用户的用户特征数据,各第一目标用户的用户特征数据包括文本型数据以及数值型数据;
对文本型数据进行特征提取,得到第一特征矩阵;
将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵;
将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值;
根据各第一目标用户的意愿分值对各第一目标用户进行客群分类。
在其中一个实施例中,上述的文本型数据包括预设时间段内各第一目标用户的电销文本数据,上述的对文本型数据进行特征提取,得到第一特征矩阵,包括:
对各第一目标用户的电销文本数据进行结巴分词,得到各电销文本数据对应的一组关键词;
获取第三特征矩阵,第三特征矩阵为根据word2vec模型对各电销文本数据对应的一组关键词进行向量转化处理得到的各第一目标用户对应的特征矩阵;
获取第四特征矩阵,第四特征矩阵为根据tf-idf算法对各电销文本数据对应的一组关键词进行编码得到的各第一目标用户对应的特征矩阵;
根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵。
在其中一个实施例中,上述的根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵,包括:
根据第三特征矩阵中的特征和/或第四特征矩阵中的特征进行特征组合,生成各第一目标用户对应的特征;
根据各第一目标用户对应的特征,生成第一特征矩阵;
上述的将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵,包括:
将各第一目标用户对应的数值型数据添加至第一特征矩阵中各第一目标用户对应的特征中,生成第二特征矩阵。
在其中一个实施例中,上述的方法还包括:
获取第二目标用户的用户特征数据;
根据第二目标用户的用户特征数据以及预先构建的初始模型,进行初始模型的迭代训练,初始模型中包括目标函数,各次迭代生成对应轮次的模型树;
对各次迭代后生成的模型树进行累加,生成各次迭代后对应的模型树的累计值;
在当前次迭代所生成的模型树的累计值达到预设阈值时,和/或在预设次数的迭代过程中,目标函数的取值为连续减少趋势时,终止迭代,当前迭代所生成的模型为目标意愿模型。
在其中一个实施例中,上述的目标意愿模型包括沟通意愿模型以及动支意愿模型,上述的方法还包括:
当终止迭代时,获取最后一次迭代时各第二目标用户的沟通意愿分值以及各第二目标用户的动支意愿分值,各第二目标用户的沟通意愿分值为沟通意愿模型输出的分值,各第二目标用户的动支意愿分值为动支意愿模型输出的分值;
获取各第二目标用户的实际沟通信息以及实际动支信息;
根据各第二目标用户的沟通意愿分值、各第二目标用户的动支意愿分值、各第二目标用户的实际沟通信息以及实际动支信息确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间;
上述的根据各第一目标用户的意愿分值对各第一目标用户进行客群分类,包括:
将各第一目标用户的意愿分值中的沟通意愿分值与沟通意愿分值区间进行匹配,将各第一目标用户的意愿分值中的动支意愿分值与动支意愿分值区间进行匹配,得到各第一目标用户对应的客群类别,以对各第一目标用户进行客群分类。
在其中一个实施例中,上述的方法还包括:
对第二特征矩阵中各第一目标用户对应的特征计算IV值;
将IV值低于第一预设阈值的特征从第二特征矩阵中移除;
和/或,
对第二特征矩阵中每两个特征计算相关系数;
将相关系数大于第二预设阈值的两个特征中IV值较小的特征从第二特征矩阵中移除。
在其中一个实施例中,上述的获取第二目标用户的用户特征数据,包括:
从预设的历史数据库中获取各候选用户的历史行为数据,候选用户包括在贷用户以及流失用户;
获取各候选用户的历史行为数据的时间信息;
筛选出时间信息在预设时间段内的各候选用户的用户特征数据,得到第二目标用户的用户特征数据。
一种数据处理装置,装置包括:
获取模块,用于获取第一目标用户的用户特征数据,第一目标用户的用户特征数据包括文本型数据以及数值型数据;
提取模块,用于对文本型数据进行特征提取,得到第一特征矩阵;
合并模块,用于将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵;
评分模块,用于将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值;
分类模块,用于根据各第一目标用户的意愿分值对各第一目标用户进行客群分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取各第一目标用户的用户特征数据,各第一目标用户的用户特征数据包括文本型数据以及数值型数据;
对文本型数据进行特征提取,得到第一特征矩阵;
将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵;
将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值;
根据各第一目标用户的意愿分值对各第一目标用户进行客群分类。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取各第一目标用户的用户特征数据,各第一目标用户的用户特征数据包括文本型数据以及数值型数据;
对文本型数据进行特征提取,得到第一特征矩阵;
将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵;
将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值;
根据各第一目标用户的意愿分值对各第一目标用户进行客群分类。
上述客群分类方法、装置、计算机设备和存储介质,通过获取第一目标用户的用户特征数据,第一目标用户的用户特征数据包括文本型数据以及数值型数据;对文本型数据进行特征提取,得到第一特征矩阵;
将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵;将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值;根据各第一目标用户的意愿分值对各第一目标用户进行客群分类。本申请基于数值型用户特征数据以及文本型用户特征数据对用户的意愿进行预测,使得挖掘用户意愿的数据维度更加丰富,对用户的意愿的预测更加精准,进而使得对用户的客群划分更加准确。
附图说明
图1为一个实施例中客群分类方法的应用环境图;
图2为一个实施例中客群分类方法的流程示意图;
图3为一个实施例中对文本型数据进行特征提取,得到第一特征矩阵步骤的流程示意图;
图4为另一个实施例中CBOW模型的结构流程示意图;
图5为一个实施例中根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵步骤的流程示意图;
图6为一个实施例中目标意愿模型训练的流程示意图;
图7为一个实施例中确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间步骤的流程示意图;
图8为一个实施例中确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间步骤的流程示意图;
图9为一个实施例中数据处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
请参考图1,图1为本申请一示例性实施例提供的一种客群分类方法的应用环境示意图。如图1所示,该应用环境中包括服务器100以及终端101,服务器100与终端101之间可以通过网络102实现可通信的连接,以实现本申请的客群分类方法。
服务器100用于获取第一目标用户的用户特征数据,第一目标用户的用户特征数据包括文本型数据以及数值型数据;对文本型数据进行特征提取,得到第一特征矩阵;将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵;将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值;根据各第一目标用户的意愿分值对各第一目标用户进行客群分类以及接收终端101发送的客群分类结果的查询请求并相应反馈对应的查询结果。其中,服务器100可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
终端101用于向服务器100发送客群分类结果的查询请求以及接收服务器100相应反馈的客群分类的结果。终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
网络102用于实现终端101与服务器100之间的网络连接,具体的,网络102可以包括多种类型的有线或无线网络。
在一个实施例中,如图2所示,提供了一种客群分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S11、获取各第一目标用户的用户特征数据,各第一目标用户的用户特征数据包括文本型数据以及数值型数据。
本申请中,上述的第一目标用户为当前需要对其沟通意愿以及动支意愿进行预测的用户,其可以为在贷户以及流失户。其中,上述的沟通意愿是指愿意接收电话营销的程度。上述的动支意愿是指愿意完成借款的程度。第一目标用户的用户特征数据为当前需要输入预先训练的目标意愿模型的数据,其可以包括用户的基本信息、多头借贷、三方信用评分、交易信息、还款压力、借新还旧、活跃情况、还款信息以及历史电销等维度信息。
上述的文本型数据是指用户特征数据为文本类型,如用户的电销文本数据。其中,该电销文本数据可以通过获取客服和用户之间进行沟通的语音信息,通过语音识别技术对该语音信息进行处理得到对应的电销文本数据得到。上述的数值型数据是指用户特征数据为数值类型,如近2月平均可用额度、首次授信额度使用率、当前未还款的分期计划数、近1个月可用额度加总以及当前未还款的最小应还本金金额等。
S12、对文本型数据进行特征提取,得到第一特征矩阵。
本申请中,服务器对上述的文本型数据进行特征提取时,可以通过对上述的文本型数据进行分词,得到多个词组,对各词组通过预设算法进行量化得到数值型数据组成的向量,多个向量构成上述的第一特征矩阵。其中,该第一特征矩阵中包括多个特征,每一个特征均被转换成了数值型数据。
在其中一个实施例中,如图3所示,上述的文本型数据可以包括预设时间段内各第一目标用户的电销文本数据,上述的对文本型数据进行特征提取,得到第一特征矩阵,可以包括:
S31、对各第一目标用户的电销文本数据进行结巴分词,得到各电销文本数据对应的一组关键词。
S32、获取第三特征矩阵,第三特征矩阵为根据word2vec模型对各电销文本数据对应的一组关键词进行向量转化处理得到的各第一目标用户对应的特征矩阵。
S33、获取第四特征矩阵,第四特征矩阵为根据tf-idf算法对各电销文本数据对应的一组关键词进行编码得到的各第一目标用户对应的特征矩阵。
S34、根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵。
本申请中,对每个第一目标用户的电销文本数据进行数据处理,用户特征数据入模之前需要对电销文本数据进行预处理,其余维度的数据均是数值型,故不需要进行处理。上述的预设时间段可以根据实际需求进行设定,如可以设定为近一个月内。上述的关键词为对电销文本数据进行分词后得到的各词语。
具体的,收集近一个月内各第一目标用户的电销文本数据,将各第一目标用户在近一个月内每次的通话文本集成为一个文档进行保存,则各第一目标用户对应有一个电销文本数据的文档。进一步的,对各第一目标用户对应文档进行结巴分词,得到各电销文本数据对应的一组关键词。
上述的word2vec模型是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。word2vec是语言模型中的一种,它是从大量文本预料中以无监督方式学习语义知识的模型,被广泛地应用于自然语言处理中,其中包括俩个重要模型CBOW模型和skip-gram模型。
CBOW模型,连续词袋模型,完成的任务是给定任意中心词的一个范围窗口(若窗口为5)内的单词wt-2,wt-1,wt+1,wt+2预测中心词wt的概率。具体结构如图4所示。
输入是中心词wt的上下文单词,都是one-hot编码的,我假设了窗口尺寸是5,所以有4个one-hot编码向量的输入wt-2,wt-1,wt+1,wt+2。设输入层矩阵为w4V*D,wD*1是权重矩阵。
有w4V*D*wD*1=u4V*1,并对隐藏层u4V*1进行求和平均(CBOW模型认为窗口范围内的词语对中心词的重要性是一致的),即
Figure BDA0003487744700000091
最后对窗口内5个词语的隐藏层输出项进行softmax逻辑回归,得到最后的预测概率值。
Skip-gram模型和CBOW模型不同,Skip-gram模型是给定中心词来预测上下文。
本申请中,wordvec将一个月的电销文本转化成计算机可以理解的向量,通过一个神经网络模型输出一个特征矩阵。具体的,服务器根据word2vec模型对各电销文本数据对应的一组关键词进行向量转化处理得到的各第一目标用户对应的特征向量,将该各第一目标用户对应的特征向量进行组合得到上述的第三特征矩阵。
进一步的,服务器根据tf-idf算法对各电销文本数据对应的一组关键词进行编码得到的各第一目标用户对应的特征向量,将该各第一目标用户对应的特征向量进行组合得到上述的第四特征矩阵。具体而言,服务器根据tf-idf算法对各电销文本数据对应的一组关键词进行编码得到的各第一目标用户对应的特征向量,具体可以包括如下步骤:
对各电销文本数据对应的一组关键词中的各关键词进行统计,根据统计结果构建词频矩阵,其中,词频矩阵是统计各个样本中出现的关键词的频数,且词频矩阵的列数是词的总数;
对每个关键词计算tf值,其中,tf值等于某个关键词在文档中出现的次数与文档的总词数的比值;
对每个关键词计算idf值,其中,idf值等于log(总样本数/某个关键词出现的样本数);
计算各关键词的编码,其中,各关键词的编码等于tf*idf取值;
根据各关键词的编码构造各第一目标用户的第四特征矩阵。
进一步的,上述的根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵,可以包括:
将第三特征矩阵作为第一特征矩阵;
或者,将第四特征矩阵作为第一特征矩阵;
或者,将第三特征矩阵于第四特征矩阵中各第一目标用户的特征进行组合得到上述的第一特征矩阵。
本申请中,通过word2vec模型和/或tf-idf算法对用户的电销文本数据进行处理,实现了将文本型数据转换成数值型数据,使得后续可以根据数值型数据进行意愿分值的预测,使得方案可支持的数据维度更加丰富,预测的意愿分值更加精准。
S13、将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵。
本申请中,上述的第一特征矩阵由各第一目标用户的各特征组成,因此,本申请在将第一特征矩阵与数值型数据进行合并时,可以将各第一目标用户的数值型数据添加至第一特征矩阵中,得到第二特征矩阵。
S14、将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值。
本申请中,上述的目标意愿模型为用于对第一目标用户的意愿进行预测的模型。上述的意愿分值用于衡量第一目标用户的意愿程度。
本申请中,上述的第二特征矩阵中可以包括各第一目标用户的多个特征。其中,该特征可以包括近2月平均可用额度、首次授信额度使用率、近6月历史订单总数、当前未还款的分期计划数、近1个月可用额度加总、当前未还款的最小应还本金金额、本次申请后的额度使用率、最近动支日期距评分日的间隔(天)、近30天成功动支订单的次数、最近14天app活跃天数、年龄、最近30天app页面浏览总数、近1月历史借款金额超1000借款次数、最近90天内最近一次app活跃时间距评分日间隔(天)以及两笔成功动支订单的最小时间间隔(分钟)等。
S15、根据各第一目标用户的意愿分值对各第一目标用户进行客群分类。
本申请中,对各第一目标用户进行客群分类是指将各第一目标用户进行客群类别的划分,划分为预设的各种客群类别。
在其中一个实施例中,如图5所示,上述的根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵,可以包括:
S51、根据第三特征矩阵中的特征和/或第四特征矩阵中的特征进行特征组合,生成各第一目标用户对应的特征;
S52、根据各第一目标用户对应的特征,生成第一特征矩阵;
上述的将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵,可以包括:
将各第一目标用户对应的数值型数据添加至第一特征矩阵中各第一目标用户对应的特征中,生成第二特征矩阵。
本申请中,上述的根据第三特征矩阵中的特征和/或第四特征矩阵中的特征进行特征组合,生成各第一目标用户对应的特征,可以包括:
将第三特征矩阵中各第一目标用户的特征和/或第四特征矩阵中各第一目标用户的特征进行组合,得到各第一目标用户对应的特征。
上述的将各第一目标用户对应的数值型数据添加至第一特征矩阵中各第一目标用户对应的特征中,生成第二特征矩阵,可以包括:
将各第一目标用户对应的数值型数据添加至各第一目标用户的特征所在的特征向量中,生成第二特征矩阵。其中,各第一目标用户的特征构成各第一目标用户的一个特征向量,各第一目标用户的特征向量构成第二特征矩阵。
本申请通过对文本型数据进行处理得到数值型数据,将处理后的数值型数据与其他的数值型数据进行特征融合,得到第二特征矩阵,实现了多维度数据的挖掘,将融合后的特征输入目标意愿模型后,使得得到的意愿分值更加准确,进一步使得对各第一目标用户进行的客群分类也更加精准。
在其中一个实施例中,如图6所示,上述的方法还可以包括:
S61、获取第二目标用户的用户特征数据;
S62、根据第二目标用户的用户特征数据以及预先构建的初始模型,进行初始模型的迭代训练,初始模型中包括目标函数,各次迭代生成对应轮次的模型树;
S63、对各次迭代后生成的模型树进行累加,生成各次迭代后对应的模型树的累计值;
S64、在当前次迭代所生成的模型树的累计值达到预设阈值时,和/或在预设次数的迭代过程中,目标函数的取值为连续减少趋势时,终止迭代,当前迭代所生成的模型为目标意愿模型。
本申请中,上述的第二目标用户可以为用于训练目标意愿模型的用户。上述的第二目标用户的用户特征数据为从预先创建的历史数据库中获取的用户的历史数据。具体的,该第二目标用户的用户特征数据可以包括用户的基本信息、多头借贷、三方信用评分、交易信息、还款压力、借新还旧、活跃情况、还款信息、历史电销等维度信息。
上述的初始模型为基于XGboost算法构建的意愿评估模型。该初始模型中可以包括上述的目标函数、迭代终止条件以及超参数等。其中,通过目标函数的值可以评估训练是否满足迭代终止条件。该迭代终止条件可以包括以下条件中的任意一个或两个:
条件1:在预设次数的迭代过程中,目标函数的取值为连续减少趋势;
条件2:当前次迭代所生成的模型树的累计值达到预设阈值。
上述的超参数可以包括学习率、模型树的数量和模型树的深度。其中,学习率是指为了防止过拟合,在更新过程中用到的收缩步长值。在每次提升计算之后,算法会直接获得新特征的权重。本申请在迭代训练过程中,各次迭代会生成对应的模型树,训练的过程即为建树的过程。
本申请中,可以根据实际需求对该三个超参数进行设定。其中,学习率通过缩减特征的权重使提升计算过程更加保守,提高模型泛化能力。模型树的数量设置得越多,模型学习越精细化,但是也会容易过拟合。树的深度设置得越深,模型学习越精细化,但是也会容易过拟合。一般而言在设定该三个超参数时,优先固定模型树的最大深度。在模型树的深度固定的情况下,提高学习率,模型树的数量视情况适当减少。提高模型树的数量,那么学习率视情况适当减少。其中,模型数的最大深度,缺省值为3,取值范围为大于等于1,其值越大,模型树越大,模型越复杂。
在其中一个实施例中,如图7所示,上述的目标意愿模型包括沟通意愿模型以及动支意愿模型,上述的方法还可以包括:
S71、当终止迭代时,获取最后一次迭代时各第二目标用户的沟通意愿分值以及各第二目标用户的动支意愿分值,各第二目标用户的沟通意愿分值为沟通意愿模型输出的分值,各第二目标用户的动支意愿分值为动支意愿模型输出的分值;
S72、获取各第二目标用户的实际沟通信息以及实际动支信息;
S73、根据各第二目标用户的沟通意愿分值、各第二目标用户的动支意愿分值、各第二目标用户的实际沟通信息以及实际动支信息确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间;
根据各第一目标用户的意愿分值对各第一目标用户进行客群分类,包括:
将各第一目标用户的意愿分值中的沟通意愿分值与沟通意愿分值区间进行匹配,将各第一目标用户的意愿分值中的动支意愿分值与动支意愿分值区间进行匹配,得到各第一目标用户对应的客群类别,以对各第一目标用户进行客群分类。
其中,上述的各第二目标用户的实际沟通信息可以为各第二目标用户实际已经沟通了或者实际未沟通的信息。上述的各第二目标用户的实际动支信息可以为各第二目标用户的实际已经动支了或者实际未动支的信息。具体的,服务器可以从预先创建的数据库中获取各第二目标用户的实际沟通信息以及实际动支信息,该数据库中包括各第二目标用户的历史数据记录,该历史数据记录可以包括各第二目标用户的历史被营销的情况、历史愿意沟通的情况以及历史动支情况等信息。
本申请中,上述的沟通意愿模型用于对用户的沟通意愿进行预测。其中,该沟通意愿用沟通意愿分值来衡量。上述的动支意愿模型用于对用户的动支意愿进行预测。该动支意愿用动支意愿分值来衡量。
具体的,如图8所示,上述的根据各第二目标用户的沟通意愿分值、各第二目标用户的动支意愿分值、各第二目标用户的实际沟通信息以及实际动支信息确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间,可以包括:
S81、对各第二目标用户的沟通意愿分值根据预设的排序规则进行排序后对各第二目标用户进行分组,得到各第一分组;
S82、对各第二目标用户的动支意愿分值根据排序规则进行排序后对各第二目标用户进行分组,得到各第二分组;
S83、根据各第二目标用户的实际沟通信息以及实际动支信息对各第一分组以及各第二分组中实际已沟通的人数和实际已动支的人数分别进行统计;
S84、根据统计结果以及第二目标用户的总人数,生成各第一分组以及各第二分组对应的沟通率以及动支率;
S85、根据各第一分组以及各第二分组对应的沟通率以及动支率确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间。
其中,上述的对各第二目标用户的沟通意愿分值根据预设的排序规则进行排序后对各第二目标用户进行分组,得到各第一分组,可以包括:
对各第二目标用户的沟通意愿分值根据预设的排序规则进行排序,得到第一排序结果;
根据第一排序结果将第二目标用户进行第一次分组,得到第一预设数目个第一分组。
上述的对各第二目标用户的动支意愿分值根据排序规则进行排序后对各第二目标用户进行分组,得到各第二分组,可以包括:
对各第二目标用户的沟通意愿分值根据预设的排序规则进行排序,得到第二排序结果;
根据第二排序结果将第一目标用户进行第二次分组,得到第二预设数目个第二分组。
其中,上述的预设规则可以为由大到小或者由小到大的规则。需要说明的是,对各第一目标用户的动支意愿分值进行排序的规则需要与对各第一目标用户的动支意愿分值进行排序的规则一致,比如都是由大到小进行排序或者都是由小到大进行排序。但是在进行分组时,第一次分组的组数可以和第二次分组的组数不一致。例如,一个分成2组,另一个可以分成3组。上述的第一预设数目以及第二预设数目可以根据实际需求进行设定,如可以设为2组或者3组等。
其中,上述的根据各第二目标用户的实际沟通信息以及实际动支信息对各第一分组以及各第二分组中实际已沟通的人数和实际已动支的人数分别进行统计,可以包括:
将第一预设数目M1个第一分组与第二预设数目M2个第二分组进行交叉,得到一个M1*M2矩阵;
统计落在矩阵中各矩阵单元中的实际已沟通的人数和实际已动支的人数,以对各第一分组以及各第二分组中实际已沟通的人数和实际已动支的人数分别进行统计。
上述的根据统计结果以及第二目标用户的总人数,生成各第一分组以及各第二分组对应的沟通率以及动支率,可以包括:
计算落在矩阵中各矩阵单元中的实际已沟通的人数与第二目标用户的总人数的比值得到矩阵中各矩阵单元对应的沟通率;
计算落在矩阵中各矩阵单元中的实际已动支的人数与第二目标用户的总人数的比值得到矩阵中各矩阵单元对应的动支率。
上述的根据各第一分组以及各第二分组对应的沟通率以及动支率确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间,可以包括:
根据各矩阵单元对应的沟通率以及动支率确定各矩阵单元对应的客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间。
其中,上述的客群类别可以包括低动支率低沟通率类别、高动支率低沟通率类别、低动支率高沟通率类别以及高动支率高沟通率类别。具体的,该客群类别也可以根据实际需求设定为其他类别,在此不做具体限定。具体的,服务器可以将沟通率大于预设沟通率阈值时划分为高沟通率,其他划分为低沟通率,将动支率大于预设动支率阈值时划分为高动支率,其他划分为低动支率,以此来确定各矩阵单元对应的客群类别。
进一步的,服务器确定各客群类别的沟通意愿分值区间以及动支意愿分值区间时可以包括:
获取各矩阵单元对应的各第一分组中沟通意愿分值的上限值以及下限值、各第二分组中动支意愿分值的上限值以及下限值,得到各矩阵单元对应的沟通意愿分值的上限值和下限值以及动支意愿分值的上限值和下限值。该各矩阵单元对应的沟通意愿分值的上限值和下限值即为各客群类别对应的沟通意愿分值区间。该各矩阵单元对应的动支意愿分值的上限值和下限值即为各客群类别对应的动支意愿分值区间。
一种实施例中,假设上述的第一次分组分为2组,上述的第二次分组也分为2组,分别对电话沟通意愿分和动支意愿分进行交叉,会得到2*2的矩阵,如下表1所示。表1为一种实施例中,沟通率以及动支率计算表。
表1
Figure BDA0003487744700000161
Figure BDA0003487744700000171
在表1中,一共存在4个分组,将第一分组与第二分组进行交叉得到一个2*2的矩阵。即在这个矩阵的第一行第一列中的各第二目标用户所满足的条件为:沟通意愿分值所在区间为(X1,X2),动支意愿分值所在区间为(Y1,Y2);在这个矩阵的第一行第二列中的各第二目标用户所满足的条件为:沟通意愿分值所在区间为(X2,X3),动支意愿分值所在区间为(Y1,Y2);在这个矩阵的第二行第一列中的各第二目标用户所满足的条件为:沟通意愿分值所在区间为(X1,X2),动支意愿分值所在区间为(Y2,Y3);在这个矩阵的第二行第二列中的各第二目标用户所满足的条件为:沟通意愿分值所在区间为(X2,X3),动支意愿分值所在区间为(Y2,Y3)。
进一步的,统计落在这个矩阵的第一行第一列对应的矩阵单元中的所有用户中实际已沟通的人数以及实际已动支的人数。计算第一行第一列中的实际已沟通的人数与第二目标用户的总人数的比值,得到第一行第一列对应的矩阵单元的沟通率Z1。同理,分别可以计算第一行第二列、第二行第一列以及第二行第二列对应的矩阵单元的沟通率,得到上述的Z2、Z3以及Z4。
进一步的,计算第一行第一列中的实际已动支的人数与第二目标用户的总人数的比值,得到第一行第一列对应的矩阵单元的动支率S1。同理,分别可以计算第一行第二列、第二行第一列以及第二行第二列对应的矩阵单元的动支率,得到上述的S2、S3以及S4。
根据Z1、Z2、Z3以及Z4的大小和S1、S2、S3以及S4的大小将对应的矩阵单元所对应的分组划分多对应的客群类别。例如,若Z1以及S1满足低沟通率低动支率的阈值条件,则将第一行第一列中的第二目标用户划分为低沟通率低动支率类别,进一步确定该低沟通率低动支率类别对应的沟通意愿分值区间为(X1,X2),确定该低沟通率低动支率类别对应的动支意愿分值区间为(Y1,Y2)。同理,可以确定其他客群类别对应的沟通意愿分值区间以及动支意愿分值区间。
本申请中,在模型训练阶段可以输出目标意愿模型以及输出各客群类别以及各客群类别对应的沟通意愿分值区间以及动支意愿分值区间。其中,目标意愿模型用于后续对第一目标用户进行沟通意愿以及动支意愿的预测。各客群类别以及各客群类别对应的沟通意愿分值区间以及动支意愿分值区间用于后续将对各第一目标用户进行预测得到的意愿分值与以及各客群类别对应的沟通意愿分值区间以及动支意愿分值区间进行匹配,以确定各第一目标用户所属的区间,进一步确定各第一目标用户所属的客群类别,以最终实现对各第一目标用户进行客群分类。本申请中,由于预测时结合了数值型数据以及文本型数据,因此,通过该方式实现对用户所属客群的精准分类。
在其中一个实施例中,上述的目标意愿模型包括沟通意愿模型以及动支意愿模型,上述的意愿分值包括沟通意愿分值以及动支意愿分值,上述的将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值,可以包括:
将第二特征矩阵分别输入沟通意愿模型以及动支意愿模型得到对应的沟通意愿分值以及动支意愿分值。
其中,输入沟通意愿模型中的特征可以包括近2月平均可用额度、首次授信额度使用率、近6月历史订单总数、当前未还款的分期计划数、近1个月可用额度加总、当前未还款的最小应还本金金额、本次申请后的额度使用率、最近动支日期距评分日的间隔(天)、近30天成功动支订单的次数、最近14天app活跃天数、年龄、最近30天app页面浏览总数、近1月历史借款金额超1000借款次数、最近90天内最近一次app活跃时间距评分日间隔(天)以及两笔成功动支订单的最小时间间隔(分钟)等。
输入动支意愿模型中的特征可以包括距评分日一个月用户通话明细、用户近一个月浏览或点击页面总次数、用户近浏览或点击页面距评分日最短时长、近6个月订单的平均还款周期数、日点击次数最小值、最近一笔订单距评分日时长、所有的订单起息日距评分日时长均值、近一个月浏览或点击优惠券日距评分日时长标准差、近一个月浏览或点击优惠券日距评分日时长最大值、近一个月浏览或点击借款页总次数、近一个月浏览或点击借款页日距评分日时长均值、近一个月浏览或点击借款页日距评分日时长标准差、状态为还清的总订单数以及借款成功订单的平均还款周期等。
其中,输入沟通意愿模型以及动支意愿模型中的特征也可以是同一维度的特征。
在其中一个实施例中,上述的获取第二目标用户的用户特征数据,可以包括:
从预设的历史数据库中获取各候选用户的历史行为数据,候选用户包括在贷用户以及流失用户;
获取各候选用户的历史行为数据的时间信息;
筛选出时间信息在预设时间段内的各候选用户的用户特征数据,得到第二目标用户的用户特征数据。
本申请中,上述的预设时间段可以根据实际需求进行设定,例如,可以设定为距离当前时间至少一个月或者至少2个月等。上述的历史行为数据可以包括第二目标用户的历史交易数据、历史还款数据、历史信用评分、以及历史电销数据等。上述的时间信息可以为如交易的发送时间、还款时间以及电销时间等。
本申请中,通过获取预设时间段内的贷用户以及流失用户作为第二目标用户使得训练得到的模型更加具有针对性、更加精准。
在其中一个实施例中,方法还包括:
对第二特征矩阵中各第一目标用户对应的特征计算IV值;
将IV值低于第一预设阈值的特征从第二特征矩阵中移除;
和/或,
对第二特征矩阵中每两个特征计算相关系数;
将相关系数大于第二预设阈值的两个特征中IV值较小的特征从第二特征矩阵中移除。
本申请中,IV(Infromation Value,信息价值)用来表示特征对目标预测的贡献程度,即特征的预测能力,一般来说,IV值越高,该特征的预测能力越强,信息贡献程度越高。
在介绍IV值的计算公式之前,先引入WOE的概念。WOE(weight of evidence,证据权重)直观上讲,WOE是对原始变量的一种编码形式,要对一个变量进行WOE编码,首先需要把这个变量进行分组处理,即分箱或者离散化,常用离散化的方法有等宽分组,等高分组,或者利用决策树来分组。分组后,WOE=log(当前分组中响应客户占所有响应客户的比例/当前分组中没有响应的客户占所有没有响应客户的比例)
IV=SUM((当前分组中响应客户占所有响应客户的比例-当前分组中没有响应的客户占所有没有响应客户的比例)*WOE)
其中,上述的响应客户即相当于本申请中的愿意沟通的用户以及动支用户。上述的未响应客户即相当于本申请中不愿意沟通的用户以及未动支用户。以此来计算第二特征矩阵中各第一目标用户对应特征的IV值。
上述的第一预设阈值以及第二预设阈值可以根据实际需求进行设定,例如,上述的第一预设阈值可以设定为0.02。上述的第二预设阈值可以设定为0.7。上述的对第二特征矩阵中每两个特征计算相关系数的计算公式可以为如下公式:
Figure BDA0003487744700000201
其中,
Figure BDA0003487744700000202
Figure BDA0003487744700000203
以及
Figure BDA0003487744700000204
分别是对的样本xi的标准分数、样本平均值以及样本标准差。
Figure BDA0003487744700000211
Figure BDA0003487744700000212
以及
Figure BDA0003487744700000213
分别是对的样本yi的标准分数、样本平均值以及样本标准差。xi是第二特征矩阵中的其中一个特征,yi是第二特征矩阵中的另一个特。n为第二特征矩阵中特征的总数。
本申请中,IV衡量的是某一个变量的信息量,若IV值低于第一预设阈值,那么该特征没有预测价值。所以将IV值低于第一预设阈值的特征从第二特征矩阵中移除可以移除没有预测价值的特征。用户特征较多,无法避免会出现很多相关性程度较高的特征也即相关系数很大的特征,而相关性程度较高的特征同时入模型会影响模型的泛化能力和预测准确性能力。因此,本申请中将相关系数大于第二预设阈值的两个特征中IV值较小的特征从第二特征矩阵中移除,可以提升目标意愿模型的准确性。
在一个实施例中,如图9所示,提供了一种数据处理装置,包括:获取模块11、提取模块12、合并模块13、评分模块14以及分类模块15,其中:
获取模块11,用于获取第一目标用户的用户特征数据,第一目标用户的用户特征数据包括文本型数据以及数值型数据;
提取模块12,用于对文本型数据进行特征提取,得到第一特征矩阵;
合并模块13,用于将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵;
评分模块14,用于将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值;
分类模块15,用于根据各第一目标用户的意愿分值对各第一目标用户进行客群分类。
在其中一个实施例中,上述的文本型数据包括预设时间段内各第一目标用户的电销文本数据,上述的提取模块12可以对各第一目标用户的电销文本数据进行结巴分词,得到各电销文本数据对应的一组关键词,获取第三特征矩阵,第三特征矩阵为根据word2vec模型对各电销文本数据对应的一组关键词进行向量转化处理得到的各第一目标用户对应的特征矩阵,获取第四特征矩阵,第四特征矩阵为根据tf-idf算法对各电销文本数据对应的一组关键词进行编码得到的各第一目标用户对应的特征矩阵,根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵。
在其中一个实施例中,上述的提取模块12还可以根据第三特征矩阵中的特征和/或第四特征矩阵中的特征进行特征组合,生成各第一目标用户对应的特征,根据各第一目标用户对应的特征,生成第一特征矩阵,上述的合并模块13可以将各第一目标用户对应的数值型数据添加至第一特征矩阵中各第一目标用户对应的特征中,生成第二特征矩阵。
在其中一个实施例中,上述的还包括训练模块(图未示)该训练模块可以获取第二目标用户的用户特征数据,根据第二目标用户的用户特征数据以及预先构建的初始模型,进行初始模型的迭代训练,初始模型中包括目标函数,各次迭代生成对应轮次的模型树,对各次迭代后生成的模型树进行累加,生成各次迭代后对应的模型树的累计值,在当前次迭代所生成的模型树的累计值达到预设阈值时,和/或在预设次数的迭代过程中,目标函数的取值为连续减少趋势时,终止迭代,当前迭代所生成的模型为目标意愿模型。
在其中一个实施例中,上述的目标意愿模型包括沟通意愿模型以及动支意愿模型,上述的训练模块还可以当终止迭代时,获取最后一次迭代时各第二目标用户的沟通意愿分值以及各第二目标用户的动支意愿分值,各第二目标用户的沟通意愿分值为沟通意愿模型输出的分值,各第二目标用户的动支意愿分值为动支意愿模型输出的分值,获取各第二目标用户的实际沟通信息以及实际动支信息,根据各第二目标用户的沟通意愿分值、各第二目标用户的动支意愿分值、各第二目标用户的实际沟通信息以及实际动支信息确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间,上述的分类模块15可以将各第一目标用户的意愿分值中的沟通意愿分值与沟通意愿分值区间进行匹配,将各第一目标用户的意愿分值中的动支意愿分值与动支意愿分值区间进行匹配,得到各第一目标用户对应的客群类别,以对各第一目标用户进行客群分类。
在其中一个实施例中,上述的还包括移除模块(图未示)该移除模块可以对第二特征矩阵中各第一目标用户对应的特征计算IV值,将IV值低于第一预设阈值的特征从第二特征矩阵中移除,和/或,对第二特征矩阵中每两个特征计算相关系数,将相关系数大于第二预设阈值的两个特征中IV值较小的特征从第二特征矩阵中移除。
在其中一个实施例中,上述的训练模块还可以从预设的历史数据库中获取各候选用户的历史行为数据,候选用户包括在贷用户以及流失用户,获取各候选用户的历史行为数据的时间信息,筛选出时间信息在预设时间段内的各候选用户的用户特征数据,得到第二目标用户的用户特征数据。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储智能家居设备的运行数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现编译虚拟机的资源分配方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取各第一目标用户的用户特征数据,各第一目标用户的用户特征数据包括文本型数据以及数值型数据;对文本型数据进行特征提取,得到第一特征矩阵;将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵;将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值;根据各第一目标用户的意愿分值对各第一目标用户进行客群分类。
在一个实施例中,上述的文本型数据包括预设时间段内各第一目标用户的电销文本数据,处理器执行计算机程序实现上述的对文本型数据进行特征提取,得到第一特征矩阵步骤时,具体实现以下步骤:
对各第一目标用户的电销文本数据进行结巴分词,得到各电销文本数据对应的一组关键词;
获取第三特征矩阵,第三特征矩阵为根据word2vec模型对各电销文本数据对应的一组关键词进行向量转化处理得到的各第一目标用户对应的特征矩阵;
获取第四特征矩阵,第四特征矩阵为根据tf-idf算法对各电销文本数据对应的一组关键词进行编码得到的各第一目标用户对应的特征矩阵;
根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵。
在一个实施例中,处理器执行计算机程序实现上述的根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵步骤时具体实现以下步骤:
根据第三特征矩阵中的特征和/或第四特征矩阵中的特征进行特征组合,生成各第一目标用户对应的特征;
根据各第一目标用户对应的特征,生成第一特征矩阵;
处理器执行计算机程序实现上述的将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵步骤时具体实现以下步骤:
将各第一目标用户对应的数值型数据添加至第一特征矩阵中各第一目标用户对应的特征中,生成第二特征矩阵。
在一个实施例中,处理器执行计算机程序时具体还实现以下步骤:
获取第二目标用户的用户特征数据;
根据第二目标用户的用户特征数据以及预先构建的初始模型,进行初始模型的迭代训练,初始模型中包括目标函数,各次迭代生成对应轮次的模型树;
对各次迭代后生成的模型树进行累加,生成各次迭代后对应的模型树的累计值;
在当前次迭代所生成的模型树的累计值达到预设阈值时,和/或在预设次数的迭代过程中,目标函数的取值为连续减少趋势时,终止迭代,当前迭代所生成的模型为目标意愿模型。
在一个实施例中,上述的目标意愿模型包括沟通意愿模型以及动支意愿模型,处理器执行计算机程序时具体还实现以下步骤:
当终止迭代时,获取最后一次迭代时各第二目标用户的沟通意愿分值以及各第二目标用户的动支意愿分值,各第二目标用户的沟通意愿分值为沟通意愿模型输出的分值,各第二目标用户的动支意愿分值为动支意愿模型输出的分值;
获取各第二目标用户的实际沟通信息以及实际动支信息;
根据各第二目标用户的沟通意愿分值、各第二目标用户的动支意愿分值、各第二目标用户的实际沟通信息以及实际动支信息确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间;
处理器执行计算机程序实现上述的根据各第一目标用户的意愿分值对各第一目标用户进行客群分类步骤时,具体实现以下步骤:
将各第一目标用户的意愿分值中的沟通意愿分值与沟通意愿分值区间进行匹配,将各第一目标用户的意愿分值中的动支意愿分值与动支意愿分值区间进行匹配,得到各第一目标用户对应的客群类别,以对各第一目标用户进行客群分类。
在一个实施例中,处理器执行计算机程序时具体还实现以下步骤:
对第二特征矩阵中各第一目标用户对应的特征计算IV值;
将IV值低于第一预设阈值的特征从第二特征矩阵中移除;
和/或,
对第二特征矩阵中每两个特征计算相关系数;
将相关系数大于第二预设阈值的两个特征中IV值较小的特征从第二特征矩阵中移除。
在一个实施例中,处理器执行计算机程序实现上述的获取第二目标用户的用户特征数据步骤时,具体实现以下步骤:
从预设的历史数据库中获取各候选用户的历史行为数据,候选用户包括在贷用户以及流失用户;
获取各候选用户的历史行为数据的时间信息;
筛选出时间信息在预设时间段内的各候选用户的用户特征数据,得到第二目标用户的用户特征数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取各第一目标用户的用户特征数据,各第一目标用户的用户特征数据包括文本型数据以及数值型数据;对文本型数据进行特征提取,得到第一特征矩阵;将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵;将第二特征矩阵输入预先训练的目标意愿模型,得到各第一目标用户的意愿分值;根据各第一目标用户的意愿分值对各第一目标用户进行客群分类。
在一个实施例中,上述的文本型数据包括预设时间段内各第一目标用户的电销文本数据,计算机程序被处理器执行实现上述的对文本型数据进行特征提取,得到第一特征矩阵步骤时,具体实现以下步骤:
对各第一目标用户的电销文本数据进行结巴分词,得到各电销文本数据对应的一组关键词;
获取第三特征矩阵,第三特征矩阵为根据word2vec模型对各电销文本数据对应的一组关键词进行向量转化处理得到的各第一目标用户对应的特征矩阵;
获取第四特征矩阵,第四特征矩阵为根据tf-idf算法对各电销文本数据对应的一组关键词进行编码得到的各第一目标用户对应的特征矩阵;
根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵。
在一个实施例中,计算机程序被处理器执行实现上述的根据第三特征矩阵和/或第四特征矩阵生成第一特征矩阵步骤时具体实现以下步骤:
根据第三特征矩阵中的特征和/或第四特征矩阵中的特征进行特征组合,生成各第一目标用户对应的特征;
根据各第一目标用户对应的特征,生成第一特征矩阵;
计算机程序被处理器执行实现上述的将第一特征矩阵与数值型数据进行合并,得到第二特征矩阵步骤时具体实现以下步骤:
将各第一目标用户对应的数值型数据添加至第一特征矩阵中各第一目标用户对应的特征中,生成第二特征矩阵。
在一个实施例中,计算机程序被处理器执行时具体还实现以下步骤:
获取第二目标用户的用户特征数据;
根据第二目标用户的用户特征数据以及预先构建的初始模型,进行初始模型的迭代训练,初始模型中包括目标函数,各次迭代生成对应轮次的模型树;
对各次迭代后生成的模型树进行累加,生成各次迭代后对应的模型树的累计值;
在当前次迭代所生成的模型树的累计值达到预设阈值时,和/或在预设次数的迭代过程中,目标函数的取值为连续减少趋势时,终止迭代,当前迭代所生成的模型为目标意愿模型。
在一个实施例中,上述的目标意愿模型包括沟通意愿模型以及动支意愿模型,计算机程序被处理器执行时具体还实现以下步骤:
当终止迭代时,获取最后一次迭代时各第二目标用户的沟通意愿分值以及各第二目标用户的动支意愿分值,各第二目标用户的沟通意愿分值为沟通意愿模型输出的分值,各第二目标用户的动支意愿分值为动支意愿模型输出的分值;
获取各第二目标用户的实际沟通信息以及实际动支信息;
根据各第二目标用户的沟通意愿分值、各第二目标用户的动支意愿分值、各第二目标用户的实际沟通信息以及实际动支信息确定各客群类别以及落在各客群类别的沟通意愿分值区间以及动支意愿分值区间;
计算机程序被处理器执行实现上述的根据各第一目标用户的意愿分值对各第一目标用户进行客群分类步骤时,具体实现以下步骤:
将各第一目标用户的意愿分值中的沟通意愿分值与沟通意愿分值区间进行匹配,将各第一目标用户的意愿分值中的动支意愿分值与动支意愿分值区间进行匹配,得到各第一目标用户对应的客群类别,以对各第一目标用户进行客群分类。
在一个实施例中,计算机程序被处理器执行时具体还实现以下步骤:
对第二特征矩阵中各第一目标用户对应的特征计算IV值;
将IV值低于第一预设阈值的特征从第二特征矩阵中移除;
和/或,
对第二特征矩阵中每两个特征计算相关系数;
将相关系数大于第二预设阈值的两个特征中IV值较小的特征从第二特征矩阵中移除。
在一个实施例中,计算机程序被处理器执行实现上述的获取第二目标用户的用户特征数据步骤时,具体实现以下步骤:
从预设的历史数据库中获取各候选用户的历史行为数据,候选用户包括在贷用户以及流失用户;
获取各候选用户的历史行为数据的时间信息;
筛选出时间信息在预设时间段内的各候选用户的用户特征数据,得到第二目标用户的用户特征数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种客群分类方法,所述方法包括:
获取各第一目标用户的用户特征数据,各所述第一目标用户的用户特征数据包括文本型数据以及数值型数据;
对所述文本型数据进行特征提取,得到第一特征矩阵;
将所述第一特征矩阵与所述数值型数据进行合并,得到第二特征矩阵;
将所述第二特征矩阵输入预先训练的目标意愿模型,得到各所述第一目标用户的意愿分值;
根据各所述第一目标用户的意愿分值对各所述第一目标用户进行客群分类。
2.根据权利要求1所述的方法,其特征在于,所述文本型数据包括预设时间段内各所述第一目标用户的电销文本数据,所述对所述文本型数据进行特征提取,得到第一特征矩阵,包括:
对各所述第一目标用户的电销文本数据进行结巴分词,得到各所述电销文本数据对应的一组关键词;
获取第三特征矩阵,所述第三特征矩阵为根据word2vec模型对各所述电销文本数据对应的一组关键词进行向量转化处理得到的各第一目标用户对应的特征矩阵;
获取第四特征矩阵,所述第四特征矩阵为根据tf-idf算法对各所述电销文本数据对应的一组关键词进行编码得到的各所述第一目标用户对应的特征矩阵;
根据所述第三特征矩阵和/或所述第四特征矩阵生成所述第一特征矩阵。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第三特征矩阵和/或所述第四特征矩阵生成所述第一特征矩阵,包括:
根据所述第三特征矩阵中的特征和/或所述第四特征矩阵中的特征进行特征组合,生成各所述第一目标用户对应的特征;
根据各所述第一目标用户对应的特征,生成所述第一特征矩阵;
所述将所述第一特征矩阵与所述数值型数据进行合并,得到第二特征矩阵,包括:
将各所述第一目标用户对应的数值型数据添加至所述第一特征矩阵中各第一目标用户对应的特征中,生成所述第二特征矩阵。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二目标用户的用户特征数据;
根据所述第二目标用户的用户特征数据以及预先构建的初始模型,进行所述初始模型的迭代训练,所述初始模型中包括目标函数,各次迭代生成对应轮次的模型树;
对各次迭代后生成的模型树进行累加,生成各次迭代后对应的模型树的累计值;
在当前次迭代所生成的模型树的累计值达到预设阈值时,和/或在预设次数的迭代过程中,所述目标函数的取值为连续减少趋势时,终止迭代,所述当前迭代所生成的模型为所述目标意愿模型。
5.根据权利要求4所述的方法,其特征在于,所述目标意愿模型包括沟通意愿模型以及动支意愿模型,所述方法还包括:
当终止迭代时,获取最后一次迭代时各所述第二目标用户的沟通意愿分值以及各所述第二目标用户的动支意愿分值,各所述第二目标用户的沟通意愿分值为所述沟通意愿模型输出的分值,各所述第二目标用户的动支意愿分值为所述动支意愿模型输出的分值;
获取各所述第二目标用户的实际沟通信息以及实际动支信息;
根据各所述第二目标用户的沟通意愿分值、各所述第二目标用户的动支意愿分值、各所述第二目标用户的实际沟通信息以及实际动支信息确定各客群类别以及落在各所述客群类别的沟通意愿分值区间以及动支意愿分值区间;
所述根据各所述第一目标用户的意愿分值对各所述第一目标用户进行客群分类,包括:
将各所述第一目标用户的意愿分值中的沟通意愿分值与所述沟通意愿分值区间进行匹配,将各所述第一目标用户的意愿分值中的动支意愿分值与所述动支意愿分值区间进行匹配,得到各所述第一目标用户对应的客群类别,以对各所述第一目标用户进行客群分类。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述第二特征矩阵中各所述第一目标用户对应的特征计算IV值;
将所述IV值低于第一预设阈值的特征从所述第二特征矩阵中移除;
和/或,
对所述第二特征矩阵中每两个特征计算相关系数;
将所述相关系数大于第二预设阈值的两个特征中IV值较小的特征从所述第二特征矩阵中移除。
7.根据权利要求4所述的方法,其特征在于,所述获取第二目标用户的用户特征数据,包括:
从预设的历史数据库中获取各候选用户的历史行为数据,所述候选用户包括在贷用户以及流失用户;
获取各所述候选用户的历史行为数据的时间信息;
筛选出所述时间信息在预设时间段内的各所述候选用户的用户特征数据,得到所述第二目标用户的用户特征数据。
8.一种数据处理装置,所述装置包括:
获取模块,用于获取第一目标用户的用户特征数据,所述第一目标用户的用户特征数据包括文本型数据以及数值型数据;
提取模块,用于对所述文本型数据进行特征提取,得到第一特征矩阵;
合并模块,用于将所述第一特征矩阵与所述数值型数据进行合并,得到第二特征矩阵;
评分模块,用于将所述第二特征矩阵输入预先训练的目标意愿模型,得到各所述第一目标用户的意愿分值;
分类模块,用于根据各所述第一目标用户的意愿分值对各所述第一目标用户进行客群分类。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210087788.9A 2022-01-25 2022-01-25 客群分类方法、装置、计算机设备和存储介质 Pending CN114581098A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210087788.9A CN114581098A (zh) 2022-01-25 2022-01-25 客群分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210087788.9A CN114581098A (zh) 2022-01-25 2022-01-25 客群分类方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN114581098A true CN114581098A (zh) 2022-06-03

Family

ID=81772021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210087788.9A Pending CN114581098A (zh) 2022-01-25 2022-01-25 客群分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN114581098A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452241A (zh) * 2023-04-17 2023-07-18 广西财经学院 一种基于多模态融合神经网络的用户流失概率计算方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452241A (zh) * 2023-04-17 2023-07-18 广西财经学院 一种基于多模态融合神经网络的用户流失概率计算方法
CN116452241B (zh) * 2023-04-17 2023-10-20 广西财经学院 一种基于多模态融合神经网络的用户流失概率计算方法

Similar Documents

Publication Publication Date Title
Sadiq et al. Discrepancy detection between actual user reviews and numeric ratings of Google App store using deep learning
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN112508609B (zh) 人群扩量的预测方法、装置、设备及存储介质
CN110674636B (zh) 一种用电行为分析方法
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
CN117151870B (zh) 一种基于客群画像行为分析方法及***
CN115098650B (zh) 基于历史数据模型的评论信息分析方法及相关装置
CN111178949A (zh) 服务资源匹配参考数据确定方法、装置、设备和存储介质
Fu et al. A sentiment-aware trading volume prediction model for P2P market using LSTM
CN110858219A (zh) 物流对象信息处理方法、装置及计算机***
CN112215629B (zh) 基于构造对抗样本的多目标广告生成***及其方法
CN112685635A (zh) 基于分类标签的项目推荐方法、装置、服务器和存储介质
CN115829683A (zh) 一种基于逆奖赏学习优化的电力积分商品推荐方法及***
CN116468460A (zh) 基于人工智能的消费金融客户画像识别***及其方法
CN112685639A (zh) 活动推荐方法、装置、计算机设备和存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN114581098A (zh) 客群分类方法、装置、计算机设备和存储介质
WO2021217866A1 (zh) 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
CN110162535B (zh) 用于执行个性化的搜索方法、装置、设备以及存储介质
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及***
CN114548242A (zh) 用户标签识别方法、装置、电子设备和计算机可读存储介质
Rahmawati et al. Public Sentiments Analysis about Indonesian Social Insurance Administration Organization on Twitter
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN110610378A (zh) 产品需求分析方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination