CN113191821A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN113191821A CN113191821A CN202110553972.3A CN202110553972A CN113191821A CN 113191821 A CN113191821 A CN 113191821A CN 202110553972 A CN202110553972 A CN 202110553972A CN 113191821 A CN113191821 A CN 113191821A
- Authority
- CN
- China
- Prior art keywords
- user
- determining
- conversion
- target user
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims abstract description 103
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 3
- 230000008439 repair process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102100035932 Cocaine- and amphetamine-regulated transcript protein Human genes 0.000 description 1
- 101000715592 Homo sapiens Cocaine- and amphetamine-regulated transcript protein Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0254—Targeted advertisements based on statistics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种数据处理方法及装置。所述方法在获取目标用户的特征信息后,会以目标用户的特征信息为输入,基于多个转化概率预测模型,分别确定目标用户的多个转化概率,再根据多个转化概率,确定目标用户的标签集合,其中,转换概率预测模型为根据对应产品的历史销售数据预先训练的模型,各转化概率用于表征目标用户购买对应的产品的概率,通过所述方法可以对不同产品进行区分,准确的找出潜在的高转化率用户。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
在产品的推广过程中,通常需要从已经跟进联系但并未转化的用户中找出潜在的高转化率用户。
现有技术通常是采用线索挖掘方法来找出潜在的高转化率用户,但现有技术并未考虑到产品间的区别,同时,现有技术的样本获取方式并不严谨,找出潜在的高转化率用户的准确率低。
发明内容
有鉴于此,本发明实施例提供了一种数据处理方法及装置,可以对不同产品进行区分,准确的找出潜在的高转化率用户。
第一方面,本发明实施例提供一种数据处理方法,所述方法包括:
获取目标用户的特征信息,所述特征信息包括与所述目标用户进行联系操作所得到的历史特征;
以所述目标用户的特征信息为输入,基于多个转化概率预测模型,分别确定所述目标用户的多个转化概率;
根据所述多个转化概率,确定所述目标用户的标签集合;
其中,所述转换概率预测模型为根据对应产品的历史销售数据预先训练的模型,各转化概率用于表征所述目标用户购买对应的产品的概率。
进一步地,所述目标用户为进行过联系操作但未被转化的用户。
进一步地,所述以所述目标用户的特征信息为输入,基于多个转化概率预测模型,分别确定所述目标用户的多个转化概率包括:
将所述目标用户的特征信息分别输入到所述多个转化概率预测模型中,确定所述目标用户对于至少一种类型的不同价格的产品的转化概率;
其中,所述转化概率用于表征所述目标用户购买对应的类型和价格的产品的概率。
进一步地,所述根据所述多个转化概率,确定所述目标用户的标签集合包括:
根据所述多个转化概率,确定标签集合;
将所述标签集合确定为所述目标用户的标签集合;
其中,所述标签集合中包括至少一个满足预设阈值条件的转化概率所对应的产品标签,所述满足预设阈值条件指转化概率大于预设转化阈值;
其中,所述方法还包括:
响应于所述多个转化概率均不满足预设阈值条件,将所述目标用户确定为不需要进行联系操作的用户。
进一步地,所述多个转发概率预测模型通过如下方式训练获得:
确定用户集合,所述用户集合包括预定时间段内进行过多次联系操作的至少一个用户;
根据所述用户集合,确定多个用户子集合;
对于各用户子集合,确定所述用户子集合中的正样本用户和负样本用户;
获取所述正样本用户和负样本用户的用户特征,以确定多个训练样本集合;
根据所述多个训练样本集合训练对应的转发概率预测模型。
进一步地,所述根据所述用户集合,确定多个用户子集合包括:
获取与所述用户集合中的各用户所对应的历史联系记录;其中,所述历史联系记录中包括用户所要购买产品的类型和价格;
根据所述历史联系记录和所述用户集合,确定所述多个用户子集合;
其中,所述根据所述历史联系记录和所述用户集合,确定所述多个用户子集合包括:
按照预设分类规则,将所述用户集合分为多个用户子集合;
其中,所述预设分类规则指将所要购买产品的类型和价格均相同的用户分为一个用户子集合。
进一步地,所述确定所述用户子集合中的正样本用户和负样本用户包括:
将所述用户子集合中最后一次进行联系操作后,在预设时间内转化的用户确定为所述正样本用户;
将所述用户子集合中最后一次进行联系操作后,未在预设时间内转化且被放弃的用户确定为所述负样本用户。
进一步地,所述获取所述正样本用户和负样本用户的用户特征,以确定多个训练样本集合包括:
对于各用户子集合,获取所述用户子集合中的正样本用户和负样本用户在最后一次进行分配操作前的历史分配特征、最后一次进行联系操作前的历史联系特征以及基本特征;
将所述历史分配特征、所述历史联系特征以及所述基本特征,确定为与所述用户子集合对应的训练样本集合。
第二方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第三方面,本发明实施例提供一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
本发明实施例的方法在获取目标用户的特征信息后,会以目标用户的特征信息为输入,基于多个转化概率预测模型,分别确定目标用户的多个转化概率,再根据多个转化概率,确定目标用户的标签集合,其中,转换概率预测模型为根据对应产品的历史销售数据预先训练的模型,各转化概率用于表征目标用户购买对应的产品的概率,通过所述方法可以对不同产品进行区分,准确的找出潜在的高转化率用户。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例的数据处理方法的流程图;
图2为本发明实施例的转化概率的确定示意图;
图3为本发明实施例的确定目标用户标签集合方法的流程示意图;
图4为本发明实施例的转化概率预测模型的训练方法的流程示意图;
图5为本发明实施例的用户子集合确定方法的流程示意图;
图6为本发明实施例的正负样本用户确定方法的流程示意图;
图7为本发明实施例的训练样本集合确定方法的流程示意图;
图8是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的各实施例中,出于对用户隐私权的保护,所获取的用户信息均是在用户允许的前提下进行的,所述用户信息仅应用于本发明的各实施例中所述方法。
在与客服进行联系但并未转化的用户中,部分用户很可能是因为某些原因,例如所要购买的产品价格过高、没有足够的资金或其他的个人原因,而放弃购买产品,这些用户相较于普通用户有着更高的购买意愿。此时,需要从这些用户中找出潜在的高转化率的用户。
现有的线索挖掘方法通常是获取相应的用户特征来训练预测模型,再通过模型来对不同用户的转化概率进行预测,找出潜在的高转化率用户,但现有技术通常是以一个统一的时间点,例如当前时间或用户与客服进行联系的时间,通过判断用户是否在一定时间内转化来确定正负样本,这种方式所获取的样本并不严谨,而且现有技术并未考虑到不同产品的类型和价格之间的区别,例如:某些用户可能更倾向于购买低价格产品或某一类型的产品。
图1为本发明实施例的数据处理方法的流程图。如图1所示,本实施例的数据处理方法包括如下步骤。
S100:获取目标用户的特征信息。
其中,所述目标用户为与客服进行过联系操作但未被转化的用户。应当理解地,所述目标用户可以为与客服进行过一次联系但未被转化的用户,也可以为与客服进行过多次联系但未被转化的用户。
可选地,所述联系操作可以是由目标用户主动向客服发起的,也可以是由客服向目标用户发起的。
可选地,所述联系方式可以是通过电话进行联系,也可以是通过产品所对应的应用,例如网课APP或第三方社交平台,例如微信进行联系。
其中,所述特征信息包括与所述目标用户进行联系操作所得到的历史特征,所述历史特征可以包括用户的年龄、性别、现居住地、所要购买产品的类型和价格、来源渠道、历史购买记录,通话接通率、通话时间以及与通话文本。应当理解的,所获取的特征信息还可以根据实际需要进行设置或组合。
可选地,若目标用户曾与客服进行过多次联系,所获取的特征信息应包括之前每次与用户进行联系操作所得到的历史特征。
可选地,可以将与客服进行过联系但未被转化的用户的特征信息统一存储在一个数据库中,以便于进行查找和管理。
例如:用户通过某一渠道,例如微信,阅读到产品的推广信息,认为该产品很适合自己,便根据推广信息中的链接跳转到产品官网与客服进行电话联系,通过联系了解到当前所要购买的产品得价格超出了自己的预期,于是没有下单,此时,用户的相关特征信息会被存储到数据库中。
具体地,在步骤S100中,可以从存储有与客服进行过联系但未被转化的用户的特征信息的数据库中选取一个用户作为目标用户,获取所述目标用户的特征信息。
可选地,考虑到用户特征信息具有时效性,所选取的目标用户应该是预设时间段内,例如一年内的与客服进行过联系操作但未被转化的用户。
S200:以所述目标用户的特征信息为输入,基于多个转化概率预测模型,分别确定所述目标用户的多个转化概率。
其中,各转化概率预测模型为根据对应产品的历史销售数据预先训练的模型,通过转化概率预测模型可以预测目标用户的转化概率,各转化概率用于表征目标用户购买对应的产品的概率。
具体地,将所述目标用户的特征信息分别输入到多个转化概率预测模型中,确定目标用户对于至少一种类型的不同价格的产品的转化概率,其中,所述转化概率用于表征所述目标用户购买对应的类型和价格的产品的概率
图2为本发明实施例的转化概率的确定示意图。如图2所示,将目标用户的特征信息分别输入到转化概率预测模型A、B、C、D和E中,得到对应的转化概率a、b、c、d和e,其中,转化概率a、b、c、d和e为目标用户购买至少一种类型不同价格的产品的概率。例如:转化概率a是用户购买2000元的数学必修课的概率,转化概率b是用户购买1500元的数学必修课的概率,转化概率c是用户购买2000元的英语必修课的概率,转化概率d是用户购买1000元的选修课的概率,转化概率e是用户购买800元的选修课的概率。
应当理解的,图2中所给出的转化概率预测模型的数量并不是实际应用中的数量,在实际应用中,可以根据实际需要设置相应的转化概率预测模型,来预测目标用户的转化概率,例如:转化概率预测模型的设置可以根据当前所出售的产品进行设置,也即,为每个正在出售的产品设置对应的转化概率预测模型,来分别预测目标用户对于每个正在出售产品的转化概率,在此前提下,当某一类型的产品售空后,将不会再预测目标用户对于该类型产品的转化概率,当有新类型的产品时,可以设置相应的转化概率预测模型,来预测目标用户对于新类型产品的转化概率。
可选地,对于某些售出量高的热销产品,也可以单独设置相应的转化概率预测模型预测目标用户对于同一产品不同价格的转化概率。例如:转化概率预测模型E和F用于预测目标用户对于同一门课程的不同价格的转化概率。
可选地,所述多个转化概率预测模型均可以采用Xgboost模型为基础进行训练,训练好的Xgboost模型可以根据输入的用户特征信息,来预测目标用户的转化概率,同时,Xgboost模型也支持缺失值处理,也即,输入Xgboost模型的目标用户特征信息不需要进行缺失值处理。
具体地,训练好的Xgboost模型由多个CART(Classification and RegressionTrees,分类回归树)组成,每个CART分别对应不同的特征信息,其中,每个CART具有多个叶子节点,每个叶子节点分别对应不同的分值。在将目标用户的特征信息输入训练好的Xgboost模型后,Xgbo ost模型中的各CART会根据目标用户的特征信息,对用户进行多次分类,并累积各叶子节点的分数作为对应CART的分数,最后再将各CART所累积的分数相加,得到目标用户的转化概率。
可选地,Xgboost模型的超参数,例如CART的个数、深度、学习率,可以采用随机搜索(RandomizedSearchCV)来确定。
S300:根据所述多个转化概率,确定所述目标用户的标签集合。
具体地,在确定目标用户对于至少一种类型的不同价格的产品的转化概率后,可以根据所得到多个转化概率,进一步确定目标用户的标签集合,以便客服在与目标用户进行联系时,可以向目标用户推荐标签集合中的产品。
可选地,图3为本发明实施例的确定目标用户标签集合方法的流程示意图,可以通过如图3所示流程确定目标用户的标签集合,具体包括如下步骤。
S310:根据所述多个转化概率,确定标签集合。
其中,所述标签集合中包括至少一个满足预设阈值条件的转化概率所对应的产品标签,所述满足预设阈值条件指转化概率大于预设转化阈值,所述预设转化阈值可以根据实际需要进行设置,所述产品标签可以包括与产品相关的基本信息,例如:产品类型和产品价格,以方便客服可以准确地找到推荐产品。
具体地,将高于预设转化阈值的转化概率所对应的产品标签确定为标签集合中的产品标签,例如:在将目标用户1的特征信息输入多个转化概率预测模型后,分别得到目标用户1购买2000元的数学必修课的概率为80%,购买1500元的数学必修课的概率为40%,购买2000元的英语必修课的概率为30%,购买1000元的选修课的概率为20%,购买800元的选修课的概率为70%,设置的预设转化阈值为60%,则将2000元的数学必修课和800元的选修课确定为标签集合中的产品标签。
可选地,响应于所述多个转化概率均不满足预设阈值条件,将所述目标用户确定为不需要进行联系操作的用户。
具体地,若所得到多个转化概率中没有大于预设转化阈值,则表明目标用户对于多个产品的购买概率很低,此时,将该目标用户确定为不需要进行联系操作的用户。在被确定为不需要进行联系操作的用户后,客服不会与该目标用户进行联系。
S320:将所述标签集合确定为所述目标用户的标签集合。
具体地,在得到标签集合后,将所得到标签集合作为目标用户的标签集合,客服在于客服进行联系时,可以优先向用户推荐标签集合中的标签所对应的产品。
例如:在确定目标用户1的标签集合中的产品标签分别为2000元的数学必修课和800元的选修课,则客服可以根据产品类型和产品价格,找出适合向用户推荐的产品,在与用户进行联系时,向用户推荐所找出的产品。
本发明实施例的方法在获取目标用户的特征信息后,会以目标用户的特征信息为输入,基于多个转化概率预测模型,分别确定目标用户的多个转化概率,再根据多个转化概率,确定目标用户的标签集合,其中,转换概率预测模型为根据对应产品的历史销售数据预先训练的模型,各转化概率用于表征目标用户购买对应的产品的概率,通过所述方法可以对不同产品进行区分,准确的找出潜在的高转化率用户。
图4为本发明实施例的转化概率预测模型的训练方法的流程示意图,可以通过如图4所示流程训练转化概率预测模型,具体包括如下步骤。
S410:确定用户集合。
其中,所述用户集合包括预定时间段内进行过多次联系操作的至少一个用户。
具体地,将预定时间内,例如一年之内的进行过多次联系操作的用户确定为用户集合中的用户,其中,用户集合中的数量可以根据需要进行设置。
S420:根据所述用户集合,确定多个用户子集合。
具体地,为了训练用于预测目标用户对于至少一个类型的不同价格的产品的转化概率的多个转化概率预测模型,需要根据用户所要购买的产品类型和价格,将用户集合分为多个用户子集合,确定各用户子集合中的正负样本用户,再获取各用户子集合中正负样本用户的用户特征作为对应的训练样本。
可选地,图5为本发明实施例的用户子集合确定方法的流程示意图,可以通过如图5所示流程确定多个用户子集合,具体包括如下步骤。
S421:获取与所述用户集合中的各用户所对应的历史联系记录。
其中,所述历史联系记录中包括用户所要购买产品的类型和价格。
具体地,客服在与用户进行联系后,会留下相应的联系记录,获取用户集合中每个用户的历史联系记录,所述历史联系记录至少应包括有每个用户所要购买产品的类型和价格。
例如:用户2与客服进行电话联系,用户2在电话联系中向客服表达自己想购买2000元的数学必修课的意愿,此时,会生成相应的记录作为与用户2对应的历史联系记录。
S422:根据所述历史联系记录和所述用户集合,确定所述多个用户子集合。
可选地,对于部分用户,所获取的历史联系记录中,所记录的用户所要购买的产品的类型和价格可能会发生改变,此时,则只考虑客服与用户最后一次进行联系时,用户所要购买的产品的类型和价格。
例如:用户3与客服进行了三次电话联系,用户3在前两次电话联系中向客服表达自己想购买2000元的数学必修课的意愿,但在第三次电话联系中向客服表达自己想购买800元的选修课的意愿,此时,只考虑用户3最后一次与客服进行联系时所表达的意愿,也即,用户3所要购买的产品的类型和价格为800元的选修课。
具体地,在获取用户集合中各用户的历史联系记录后,可以根据历史联系记录中所记录的用户所要购买的产品的类型和价格,对用户进行分类。
可选地,可以按照预设分类规则,将所述用户集合分为多个用户子集合,其中,所述预设分类规则指将所要购买产品的类型和价格均相同的用户分为一个用户子集合。
例如:用户2所要购买的产品价格和类型分别为2000元的数学必修课,用户3所要购买的产品价格和类型分别为800元的选修课,用户4所要购买的产品价格和类型分别为800元的选修课,用户5所要购买的产品价格和类型分别为2000元的数学必修课,此时,则将用户3和4分为一个用户子集合,用户2和5分为一个用户子集合。应当理解的,用户子集合中的用户数量并不受限制。
可选地,为了保证训练样本的基数,可以在确定用户集合的过程中,提前根据用户所要购买的产品的类型和价格,对用户集合中的用户进行适当调整,例如:当用户集合中想要购买某一类型和价格的产品的用户数量过多时,适量减少用户集合中对应用户的数量,当用户集合中想要购买某一类型和价格的产品的用户数量过少时,适量增加用户集合中对应用户的数量。
S430:对于各用户子集合,确定所述用户子集合中的正样本用户和负样本用户。
具体地,在将用户集合分为多个用户子集合后,分别确定各用户子集合中的正负样本用户。
可选地,图6为本发明实施例的正负样本用户确定方法的流程示意图,可以通过如图6所示流程确定各用户子集合中的正负样本用户,具体包括如下步骤。
S431:将所述用户子集合中最后一次进行联系操作后,在预设时间内转化的用户确定为所述正样本用户。
具体地,将最后一次与客服进行联系后,在预设时间,例如两周内购买产品的用户确定为正样本用户,其中,预设时间可以根据时间需要进行设置。
S432:将所述用户子集合中最后一次进行联系操作后,未在预设时间内转化且被放弃的用户确定为所述负样本用户。
具体地,将最后一次与客服进行联系后,在预设时间,例如两周内未购买产品,且客服已经放弃的用户确定为负样本用户。
S440:获取所述正样本用户和负样本用户的用户特征,以确定多个训练样本集合。
具体地,在确定各用户子集合中的正负样本用户后,可以获取正负样本用户的用户特征作为训练样本,来训练对应模型。
可选地,图7为本发明实施例的训练样本集合确定方法的流程示意图,可以通过如图7所示流程确定训练样本集合,具体包括如下步骤。
S441:对于各用户子集合,获取所述用户子集合中的正样本用户和负样本用户在最后一次进行分配操作前的历史分配特征、最后一次进行联系操作前的历史联系特征以及基本特征。
具体地,在与用户进行联系前,通常是由服务器筛选出指定用户,再将筛选出的指定用户分配给客服,客服在接收到分配指令后,才会根据分配指令与指定用户进行联系,而在这个过程中,客服并非是在接收到分配指令后就立刻与客服进行联系,而是可能存在一定的时间间隔,现有技术通常并不会对这一时间段进行考虑,这会造成获取的训练样本发生偏差,因此,需要对获取的训练样本的时间进行限制。在本实施例中,会获取各用户子集合中正负样本用户在最后一次进行分配操作前的历史分配特征、最后一次进行联系操作前的历史联系特征以及基本特征。
其中,所述历史分配特征包括用户的渠道来源、购买意向以及相应的联系文本,所述渠道来源指用户具体是从哪个渠道带来的:例如用户通过微信阅读到产品的推广信息,根据推广信息中的链接跳转到产品官网与客服进行电话联系,则用户的来源渠道就是微信,所述购买意向是指用户想要购买什么样的产品,有什么需求,例如:用户的阅读能力很差,于是想购买一门有关阅读理解的课程来提升自己的阅读水平,所述联系文本指用户与客服在联系过程中的交流文本,例如:通话文本或聊天记录等。
其中,所述历史联系特征包括用户的历史消费数据、通话率,所述历史消费数据包括用户之前所购买的相关产品的数据,所述通话率指客服与用户进行通话时,用户的接通率。
其中,所述基本信息包括用户的年龄、性别、现居住地等。
S442:将所述历史分配特征、所述历史联系特征以及所述基本特征,确定为与所述用户子集合对应的训练样本集合
具体地,将所获取的历史分配特征、历史联系特征以及基本特征确定为与各用户子集合对应的训练样本。
S450:根据所述多个训练样本集合训练对应的转发概率预测模型。
具体地,将所获取的多个训练样本分别输入不同的模型,模型会从输入的训练样本中找到影响用户转化率的相关特征,并为不同的特征设置相应的分数,训练好的模型可以用于预测目标用户对于对应产品的转化概率。
图8是本发明实施例的电子设备的示意图。如图8所示,电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器51通过执行存储器52所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线53将上述多个组件连接在一起,同时将上述组件连接到显示控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置55通过输入/输出(I/O)控制器56与***相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取目标用户的特征信息,所述特征信息包括与所述目标用户进行联系操作所得到的历史特征;
以所述目标用户的特征信息为输入,基于多个转化概率预测模型,分别确定所述目标用户的多个转化概率;
根据所述多个转化概率,确定所述目标用户的标签集合;
其中,所述转换概率预测模型为根据对应产品的历史销售数据预先训练的模型,各转化概率用于表征所述目标用户购买对应的产品的概率。
2.根据权利要求1所述的方法,其特征在于,所述目标用户为进行过联系操作但未被转化的用户。
3.根据权利要求1所述的方法,其特征在于,所述以所述目标用户的特征信息为输入,基于多个转化概率预测模型,分别确定所述目标用户的多个转化概率包括:
将所述目标用户的特征信息分别输入到所述多个转化概率预测模型中,确定所述目标用户对于至少一种类型的不同价格的产品的转化概率;
其中,所述转化概率用于表征所述目标用户购买对应的类型和价格的产品的概率。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多个转化概率,确定所述目标用户的标签集合包括:
根据所述多个转化概率,确定标签集合;
将所述标签集合确定为所述目标用户的标签集合;
其中,所述标签集合中包括至少一个满足预设阈值条件的转化概率所对应的产品标签,所述满足预设阈值条件指转化概率大于预设转化阈值;
其中,所述方法还包括:
响应于所述多个转化概率均不满足预设阈值条件,将所述目标用户确定为不需要进行联系操作的用户。
5.根据权利要求1所述的方法,其特征在于,所述多个转发概率预测模型通过如下方式训练获得:
确定用户集合,所述用户集合包括预定时间段内进行过多次联系操作的至少一个用户;
根据所述用户集合,确定多个用户子集合;
对于各用户子集合,确定所述用户子集合中的正样本用户和负样本用户;
获取所述正样本用户和负样本用户的用户特征,以确定多个训练样本集合;
根据所述多个训练样本集合训练对应的转发概率预测模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述用户集合,确定多个用户子集合包括:
获取与所述用户集合中的各用户所对应的历史联系记录;其中,所述历史联系记录中包括用户所要购买产品的类型和价格;
根据所述历史联系记录和所述用户集合,确定所述多个用户子集合;
其中,所述根据所述历史联系记录和所述用户集合,确定所述多个用户子集合包括:
按照预设分类规则,将所述用户集合分为多个用户子集合;
其中,所述预设分类规则指将所要购买产品的类型和价格均相同的用户分为一个用户子集合。
7.根据权利要求5所述的方法,其特征在于,所述确定所述用户子集合中的正样本用户和负样本用户包括:
将所述用户子集合中最后一次进行联系操作后,在预设时间内转化的用户确定为所述正样本用户;
将所述用户子集合中最后一次进行联系操作后,未在预设时间内转化且被放弃的用户确定为所述负样本用户。
8.根据权利要求5所述的方法,其特征在于,所述获取所述正样本用户和负样本用户的用户特征,以确定多个训练样本集合包括:
对于各用户子集合,获取所述用户子集合中的正样本用户和负样本用户在最后一次进行分配操作前的历史分配特征、最后一次进行联系操作前的历史联系特征以及基本特征;
将所述历史分配特征、所述历史联系特征以及所述基本特征,确定为与所述用户子集合对应的训练样本集合。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。
10.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110553972.3A CN113191821A (zh) | 2021-05-20 | 2021-05-20 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110553972.3A CN113191821A (zh) | 2021-05-20 | 2021-05-20 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113191821A true CN113191821A (zh) | 2021-07-30 |
Family
ID=76982756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110553972.3A Pending CN113191821A (zh) | 2021-05-20 | 2021-05-20 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191821A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115934809A (zh) * | 2023-03-08 | 2023-04-07 | 北京嘀嘀无限科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528374A (zh) * | 2014-10-21 | 2016-04-27 | 苏宁云商集团股份有限公司 | 一种电子商务中的商品推荐方法及其*** |
CN107590688A (zh) * | 2017-08-24 | 2018-01-16 | 平安科技(深圳)有限公司 | 目标客户的识别方法及终端设备 |
CN108154420A (zh) * | 2017-12-26 | 2018-06-12 | 泰康保险集团股份有限公司 | 产品推荐方法及装置、存储介质、电子设备 |
CN108875761A (zh) * | 2017-05-11 | 2018-11-23 | 华为技术有限公司 | 一种拓展***的方法及装置 |
CN109582876A (zh) * | 2018-12-19 | 2019-04-05 | 广州易起行信息技术有限公司 | 旅游行业用户画像构造方法、装置和计算机设备 |
CN109615437A (zh) * | 2018-12-18 | 2019-04-12 | 北京蚁链科技有限公司 | 销售获客跟踪管理方法 |
CN109685631A (zh) * | 2019-01-10 | 2019-04-26 | 博拉网络股份有限公司 | 一种基于大数据用户行为分析的个性化推荐方法 |
CN109711872A (zh) * | 2018-12-14 | 2019-05-03 | 中国平安人寿保险股份有限公司 | 基于大数据分析的广告投放方法及装置 |
CN110060090A (zh) * | 2019-03-12 | 2019-07-26 | 北京三快在线科技有限公司 | 推荐商品组合的方法、装置、电子设备及可读存储介质 |
CN110992097A (zh) * | 2019-12-03 | 2020-04-10 | 上海钧正网络科技有限公司 | 营收产品价格的处理方法、装置、计算机设备及存储介质 |
CN111127155A (zh) * | 2019-12-24 | 2020-05-08 | 北京每日优鲜电子商务有限公司 | 商品推荐方法、装置、服务器和存储介质 |
CN111192108A (zh) * | 2019-12-16 | 2020-05-22 | 北京淇瑀信息科技有限公司 | 一种用于产品推荐的排序方法、装置和电子设备 |
CN111210332A (zh) * | 2019-12-12 | 2020-05-29 | 北京淇瑀信息科技有限公司 | 贷后管理策略生成方法、装置及电子设备 |
CN111695938A (zh) * | 2020-06-05 | 2020-09-22 | 中国工商银行股份有限公司 | 产品推送方法及*** |
CN111798273A (zh) * | 2020-07-01 | 2020-10-20 | 中国建设银行股份有限公司 | 产品的购买概率预测模型的训练方法及购买概率预测方法 |
CN111861569A (zh) * | 2020-07-23 | 2020-10-30 | 中国工商银行股份有限公司 | 产品信息推荐方法及装置 |
CN111951050A (zh) * | 2020-08-14 | 2020-11-17 | 中国工商银行股份有限公司 | 理财产品推荐方法及装置 |
CN112085525A (zh) * | 2020-09-04 | 2020-12-15 | 长沙理工大学 | 一种基于混合模型的用户网络购买行为预测研究方法 |
CN112163963A (zh) * | 2020-09-27 | 2021-01-01 | 中国平安财产保险股份有限公司 | 业务推荐方法、装置、计算机设备和存储介质 |
CN112579910A (zh) * | 2020-12-28 | 2021-03-30 | 北京嘀嘀无限科技发展有限公司 | 信息处理方法、信息处理装置、存储介质和电子设备 |
-
2021
- 2021-05-20 CN CN202110553972.3A patent/CN113191821A/zh active Pending
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528374A (zh) * | 2014-10-21 | 2016-04-27 | 苏宁云商集团股份有限公司 | 一种电子商务中的商品推荐方法及其*** |
CN108875761A (zh) * | 2017-05-11 | 2018-11-23 | 华为技术有限公司 | 一种拓展***的方法及装置 |
CN107590688A (zh) * | 2017-08-24 | 2018-01-16 | 平安科技(深圳)有限公司 | 目标客户的识别方法及终端设备 |
CN108154420A (zh) * | 2017-12-26 | 2018-06-12 | 泰康保险集团股份有限公司 | 产品推荐方法及装置、存储介质、电子设备 |
CN109711872A (zh) * | 2018-12-14 | 2019-05-03 | 中国平安人寿保险股份有限公司 | 基于大数据分析的广告投放方法及装置 |
CN109615437A (zh) * | 2018-12-18 | 2019-04-12 | 北京蚁链科技有限公司 | 销售获客跟踪管理方法 |
CN109582876A (zh) * | 2018-12-19 | 2019-04-05 | 广州易起行信息技术有限公司 | 旅游行业用户画像构造方法、装置和计算机设备 |
CN109685631A (zh) * | 2019-01-10 | 2019-04-26 | 博拉网络股份有限公司 | 一种基于大数据用户行为分析的个性化推荐方法 |
CN110060090A (zh) * | 2019-03-12 | 2019-07-26 | 北京三快在线科技有限公司 | 推荐商品组合的方法、装置、电子设备及可读存储介质 |
CN110992097A (zh) * | 2019-12-03 | 2020-04-10 | 上海钧正网络科技有限公司 | 营收产品价格的处理方法、装置、计算机设备及存储介质 |
CN111210332A (zh) * | 2019-12-12 | 2020-05-29 | 北京淇瑀信息科技有限公司 | 贷后管理策略生成方法、装置及电子设备 |
CN111192108A (zh) * | 2019-12-16 | 2020-05-22 | 北京淇瑀信息科技有限公司 | 一种用于产品推荐的排序方法、装置和电子设备 |
CN111127155A (zh) * | 2019-12-24 | 2020-05-08 | 北京每日优鲜电子商务有限公司 | 商品推荐方法、装置、服务器和存储介质 |
CN111695938A (zh) * | 2020-06-05 | 2020-09-22 | 中国工商银行股份有限公司 | 产品推送方法及*** |
CN111798273A (zh) * | 2020-07-01 | 2020-10-20 | 中国建设银行股份有限公司 | 产品的购买概率预测模型的训练方法及购买概率预测方法 |
CN111861569A (zh) * | 2020-07-23 | 2020-10-30 | 中国工商银行股份有限公司 | 产品信息推荐方法及装置 |
CN111951050A (zh) * | 2020-08-14 | 2020-11-17 | 中国工商银行股份有限公司 | 理财产品推荐方法及装置 |
CN112085525A (zh) * | 2020-09-04 | 2020-12-15 | 长沙理工大学 | 一种基于混合模型的用户网络购买行为预测研究方法 |
CN112163963A (zh) * | 2020-09-27 | 2021-01-01 | 中国平安财产保险股份有限公司 | 业务推荐方法、装置、计算机设备和存储介质 |
CN112579910A (zh) * | 2020-12-28 | 2021-03-30 | 北京嘀嘀无限科技发展有限公司 | 信息处理方法、信息处理装置、存储介质和电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115934809A (zh) * | 2023-03-08 | 2023-04-07 | 北京嘀嘀无限科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090174B (zh) | 一种基于***功能语法的机器人应答方法及装置 | |
US10546005B2 (en) | Perspective data analysis and management | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN107016026B (zh) | 一种用户标签确定、信息推送方法和设备 | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
US20140172415A1 (en) | Apparatus, system, and method of providing sentiment analysis result based on text | |
US20160285672A1 (en) | Method and system for processing network media information | |
JP2018526710A (ja) | 情報推薦方法および情報推薦装置 | |
CN104361063A (zh) | 用户兴趣发现方法和装置 | |
JP2021103535A (ja) | 対話システム、対話方法及び対話プログラム | |
CN111198935A (zh) | 模型处理方法、装置、存储介质及电子设备 | |
CN102915493A (zh) | 信息处理装置和方法 | |
CN109615009B (zh) | 一种学习内容推荐方法及电子设备 | |
CN103870528A (zh) | 深度问题回答***中的问题分类和特征映射的方法和*** | |
US10706371B2 (en) | Data processing techniques | |
CN111782793A (zh) | 智能客服处理方法和***及设备 | |
CN110162609A (zh) | 用于向用户推荐咨询问题的方法及装置 | |
US10042913B2 (en) | Perspective data analysis and management | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN112818234B (zh) | 一种网络舆情信息分析处理方法及*** | |
CN113191821A (zh) | 一种数据处理方法及装置 | |
CN104077288A (zh) | 网页内容推荐方法和网页内容推荐设备 | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
CN113971581A (zh) | 一种机器人的控制方法、装置、终端设备及存储介质 | |
CN112200602A (zh) | 用于广告推荐的神经网络模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |