CN114118192A - 用户预测模型的训练方法、预测方法、装置及存储介质 - Google Patents

用户预测模型的训练方法、预测方法、装置及存储介质 Download PDF

Info

Publication number
CN114118192A
CN114118192A CN202010903751.XA CN202010903751A CN114118192A CN 114118192 A CN114118192 A CN 114118192A CN 202010903751 A CN202010903751 A CN 202010903751A CN 114118192 A CN114118192 A CN 114118192A
Authority
CN
China
Prior art keywords
user
feature
training
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010903751.XA
Other languages
English (en)
Inventor
江洁
马燕
张子淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010903751.XA priority Critical patent/CN114118192A/zh
Publication of CN114118192A publication Critical patent/CN114118192A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用户预测模型的训练方法、预测方法、装置及存储介质。该训练方法包括:对样本集数据进行数据预处理;对所述数据预处理后的样本集数据进行特征提取,得到用于描述各用户的特征数据集;对所述特征数据集进行特征选择,得到目标特征集;基于所述目标特征集训练用户预测模型,得到训练好的用户预测模型;所述用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型。本发明实施例可以得到多维度的有效用户特征;且用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型,从而可以对多个用户的目标特征集,融合多种基模型进行预测,提高预测的准确率。

Description

用户预测模型的训练方法、预测方法、装置及存储介质
技术领域
本发明涉及无线通信领域,尤其涉及一种用户预测模型的训练方法、预测方法、装置及存储介质。
背景技术
随着大数据的兴起,相关技术中,往往可以基于用户数据刻画用户画像,从而为运营商的业务开展提供有力支撑。
比如由于5G(第五代移动通信)用户数据较少,往往通过预设的指定规则进行预测,导致特征数据不全面,5G目标用户预测效果欠佳,此外,亦无法准确对5G同网升级用户及5G异网转化用户进行预测分类。
发明内容
有鉴于此,本发明实施例提供了一种用户预测模型的训练方法、预测方法、装置及存储介质,旨在有效预测目标用户。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种用户预测模型的训练方法,包括:
对样本集数据进行数据预处理,所述样本集数据包括预设数量个用户的移动通信相关的用户数据及各用户的标签信息,所述标签信息用于表征所述用户为以下之一:同网升级的目标用户、异网升级的目标用户、非目标用户;
对所述数据预处理后的样本集数据进行特征提取,得到用于描述各用户的特征数据集;
对所述特征数据集进行特征选择,得到目标特征集;
基于所述目标特征集训练用户预测模型,得到训练好的用户预测模型;
其中,所述用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型。
本发明实施例还提供了一种用户预测方法,包括:
将待预测用户的目标特征集输入本发明实施例所述的用户预测模型的训练方法训练得到的用户预测模型中,得到待预测用户的分类结果。
本发明实施例又提供了一种用户预测模型的训练装置,包括:
预处理模块,用于对样本集数据进行数据预处理,所述样本集数据包括预设数量个用户的移动通信相关的用户数据及各用户的标签信息,所述标签信息用于表征所述用户为以下之一:同网升级的目标用户、异网升级的目标用户、非目标用户;
特征提取模块,用于对所述数据预处理后的样本集数据进行特征提取,得到用于描述各用户的特征数据集;
特征选择模块,用于对所述特征数据集进行特征选择,得到目标特征集;
模型训练模块,用于基于所述目标特征集训练用户预测模型,得到训练好的用户预测模型;
其中,所述用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型。
本发明实施例还提供了一种用户预测装置,包括:
预测模块,用于将待预测用户的目标特征集输入本发明实施例所述的用户预测模型的训练装置训练得到的用户预测模型中,得到待预测用户的分类结果。
本发明实施例又提供了一种用户预测模型的训练设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本发明实施例所述的用户预测模型的训练方法的步骤。
本发明实施例还提供了一种用户预测设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本发明所述的用户预测方法的步骤。
本发明实施例又提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本发明任一实施例所述方法的步骤。
本发明实施例提供的技术方案,对数据预处理后的样本集数据进行特征提取,得到用于描述各用户的特征数据集;对所述特征数据集进行特征选择,得到目标特征集,可以得到多维度的有效用户特征;且本发明实施例的用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型,从而可以对多个用户的目标特征集,融合多种基模型进行预测,提高预测的准确率;此外,本发明实施例可以对目标用户进行同网升级的目标用户和异网升级的目标用户的分类,丰富了预测结果的类型,利于运营商的业务开展。
附图说明
图1为本发明实施例用户预测模型的训练方法的流程示意图;
图2为本发明一应用示例中基于特征选择生成目标特征集的流程示意图;
图3为本发明一应用示例中基于Stacking融合的方法对四个基模型进行融合的原理示意图;
图4为本发明实施例用户预测方法的流程示意图;
图5为本发明实施例用户预测模型的训练装置的结构示意图;
图6为本发明实施例用户预测装置的结构示意图;
图7为本发明实施例用户预测模型的训练设备的结构示意图;
图8为本发明实施例用户预测设备的的结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供了一种用户预测模型的训练方法,如图1所示,该训练方法包括:
步骤101,对样本集数据进行数据预处理,所述样本集数据包括预设数量个用户的移动通信相关的用户数据及各用户的标签信息,所述标签信息用于表征所述用户为以下之一:同网升级的目标用户、异网升级的目标用户、非目标用户;
示例性地,目标用户为5G用户,标签信息将用户分为以下三类:同网升级的5G用户、异网升级的5G用户及非5G用户。其中,同网升级的5G用户是指用户在同一运营商下将非5G用户(比如,4G或者3G用户)升级至5G用户;异网升级的5G用户是指用户将一个运营商下的非5G用户升级至另一运营商下的5G用户。
这里,样本集数据可以包括收集的不同数据库中的移动通信相关的用户数据,比如,各运营商平台下的数据、用应用平台下的数据等等。
步骤102,对所述数据预处理后的样本集数据进行特征提取,得到用于描述各用户的特征数据集;
这里,数据预处理是指对不同来源的用户数据进行集成,并对数据进行清洗(包括属性缺失值处理、删除对模型构建无意义的字段等)、数据转换(如变量类别的调整、属性转换等)、平衡数据等预处理,得到与业务目标匹配的特征宽表,例如,用于5G用户预测的全部特征的数据表。
步骤103,对所述特征数据集进行特征选择,得到目标特征集;
步骤104,基于所述目标特征集训练用户预测模型,得到训练好的用户预测模型。
本发明实施例中,所述用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型。
本发明实施例对数据预处理后的样本集数据进行特征提取,得到用于描述各用户的特征数据集;对所述特征数据集进行特征选择,得到目标特征集,可以得到多维度的有效用户特征;且本发明实施例的用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型,从而可以对多个用户的目标特征集,融合多种基模型进行预测,提高预测的准确率;此外,本发明实施例可以对目标用户进行同网升级的目标用户和异网升级的目标用户的分类,丰富了预测结果的类型,利于运营商的业务开展。
在一些实施例中,所述特征数据集包括以下至少之一:用户基本属性特征、用户工作信息特征、设备使用特征、用户消费偏好特征、用户通信特征、用户上网行为特征及用户社交信息特征。示例性地,特征数据集包括前述的全部特征,如此,可以对潜在的目标用户进行全面的刻画,提高用户预测模型的准确度。
下面对前述的各特征进行具体举例说明:
用户基本属性特征可以包括以下至少之一:用户的年龄、性别、地域、家庭情况;
用户工作信息特征可以包括以下至少之一:用户是否经济独立、职业、行业、薪资水平、工作年限、月可支配收入、工作地点;
设备使用特征可以包括以下至少之一:用户的手机型号、是否多个手机、是否有多张运营商手机卡、最近一次更换手机年限、更换手机周期、是否使用5G手机;
用户消费偏好特征可以包括以下至少之一:月消费类型及各类金额、智能设备消费品类、月通信费用支出;
用户通信特征可以包括以下至少之一:用户是否是4G用户、入网4G时间、入网4G是否是合约套餐用户、固定时间段内月流量使用情况、使用套餐种类、流量套餐订购情况、是否使用5G套餐、5G流量使用情况、超流量次数、副卡流量使用情况、副卡超流量次数;
用户上网行为特征可以包括以下至少之一:用户上网时长、上网频率、上网场景、用户流量消耗Top3 APP、用户使用TOP3 APP、观看高清视频的频率及时长、观看VR视频频率及时长、玩大型***频率及时长、观看直播频率及时长、远程办公软件使用频率及时长、网上课程使用频率及时长、网上医疗使用频率及时长;
用户社交信息特征是指基于位置的社交网络(LBSN)相关的特征。随着智能手机和通信网络的发展,LBSN相关的特征被很多人使用。LBSN提供的签到服务将用户的社交行为和位置信息结合起来,得到大量的LBSN异构数据,包括文本信息、时空信息、音视频信息、图片信息等,使得用户的社交特征更加丰富。基于LBSN社交数据、搜索数据,包括微博、微信朋友圈、网页中的搜索记录等数据源,针对位置信息可以分别进行位置特征和语义特征抽取,相关的特征可以包括用户签到地理位置TOP5大类、用户签到语义位置TOP5大类、用户分享5G相关内容频率、用户社交分享主题TOP5大类。
为了避免维度灾难并降低模型学习任务的难度,本发明实施例中,从特征数据集中选择出真正相关特征,从而构建目标特征集。示例性地,可以基于最大互信息系数(Maximal Information Coefficient,MIC)进行特征选择。
这里,MIC用于来衡量两个基因之间的关联程度,线性或非线性关系,相较于互信息(Mutual Information,MI)而言有更高的准确度。其中,MIC值越大,说明这两个特征(维度)越接近。MIC值的计算公式可以参照现有技术,在此不再赘述。
在一些实施例中,所述对所述特征数据集进行特征选择,得到目标特征集,包括:
将所述特征数据集中与所述标签信息之间的MIC值最大的第一特征加入目标特征集;
遍历所述特征数据集中余下的其他特征,选取分别与所述第一特征、所述标签信息间的MIC值的均值最大的特征加入所述目标特征集;
评估当前所述目标特征集的模型训练性能是否大于上一次所述目标特征集的模型训练性能,若是,则继续所述遍历所述特征数据集中余下的其他特征,选取分别与所述第一特征、所述标签信息间的MIC值的均值最大的特征加入所述目标特征集,直至当前所述目标特征集的模型训练性能小于或等于上一次所述目标特征集的模型训练性能,停止特征选择,并删除所述目标特征集中最后一次加入的特征。
这里,所述特征数据集中余下的其他特征是指所述特征数据集中除去已加入所述目标特征集之外的特征。
这里,评估目标特征集的模型训练性能可以是利用KNN(K-Nearest Neighboralgorithm,K最邻近方法)模型对目标特征集进行训练,计算模型的准确率、AUC(AreaUnder Curve,曲线下面积)等指标,从而评估模型的训练性能。
在一应用示例中,如图2所示,基于特征选择生成目标特征集包括:
步骤201,获取原始的特征数据集;
这里,原始的特征数据集是指对数据预处理后的样本集数据进行特征提取,得到的用于描述各用户的特征数据集。
步骤202,将所述特征数据集中与所述标签信息之间的MIC值最大的第一特征加入目标特征集;
可以理解的是,该第一特征作为加入目标特征集的首个特征。
步骤203,遍历所述特征数据集中余下的其他特征,选取分别与所述第一特征、所述标签信息间的MIC值的均值最大的特征加入所述目标特征集;
这里,可以分别计算遍历的特征与所述第一特征之间的第一MIC值、与所述标签信息之间的第二MIC值,取第一MIC值与第二MIC值的平均值,选取平均值最大的特征,并将选取的特征加入至目标特征集。
步骤204,评估当前所述目标特征集的模型训练的第一性能和上一次所述目标特征集的模型训练的第二性能;
示例性地,可以分别对当前目标特征集和上一次目标特征集,利用KNN模型进行训练,计算模型的准确率、AUC等指标,从而评估各目标特征集对应模型训练的性能,即当前目标特征集的第一性能和上一次目标特征集的第二性能。
步骤205,判断第一性能是否大于第二性能,若是,则返回步骤203;若否,则执行步骤206;
步骤206,生成最终的目标特征集。
这里,若第一性能小于或等于第二性能,则表明加入的特征并未起到优化性能的效果,停止特征选择,并删除所述目标特征集中最后一次加入的特征,从而得到最终的目标特征集。
在一些实施例中,基于所述目标特征集训练用户预测模型,得到训练好的用户预测模型,包括:
将所述样本集数据基于用户划分为训练数据集和测试数据集,并确定所述训练数据集中各用户的目标特征集和所述测试数据集中各用户的目标特征集;
对所述用户预测模型中的各所述基模型,基于交叉验证法得到所述训练数据集的第一预测结果和所述测试数据集的第二预测结果;
基于各所述基模型的所述第一预测结果和所述第二预测结果对所述用户预测模型中的所述元模型进行训练,得到训练好的用户预测模型。
本发明实施例中,各基模型构成第一层学习网络,元模型构成融合各基模型的第二学习网络,从而在提取多维特征的基础上(即目标特征集的基础上),充分融合多种弱分类模型进行预测,提高预测的准确率。
在一些实施例中,所述基于各所述基模型的所述第一预测结果和所述第二预测结果对所述用户预测模型中的所述元模型进行训练,包括:
将各所述基模型的所述第一预测结果作为训练集,训练所述元模型,得到训练后的所述用户预测模型;
将各所述基模型的所述第二预测结果作为测试集,评估所述训练后的所述用户预测模型的性能。
如此,本发明实施例可以各基模型的第二预测结果作为测试集,从而评估训练好的用户预测模型的性能。
在一些实施例中,所述对所述用户预测模型中的各所述基模型,基于交叉验证法得到所述训练数据集的第一预测结果和所述测试数据集的第二预测结果,包括:
将所述训练数据集分为五份,基于五折交叉验证法,得到各所述基模型的所述训练数据集的第一预测结果和所述测试数据集的第二预测结果。
在一应用示例中,可以将样本集数据按照比例划分为训练数据集和测试数据集,其中,测试数据集占比30%。训练数据集中5G用户与非5G用户的比例保持在1:3左右。接下来,需要在训练数据集上进行模型的建立与训练。
模型构建中,训练数据集的用户特征作为输入,用户转化行为(即用户的标签信息)为输出,可以采用随机森林、xgboost(决策树)、KNN、贝叶斯分类器四种常用的机器学习算法构建四个基模型,四个基模型的算法应尽量具有较大的差异,集成不同学习模型对不同特征的学习能力并有效结合。对训练数据集进行多基模型的模型训练,采用学习神经网路作为元模型,神经网络将前述四个基模型的输出作为输入,返回最终的预测结果。
其中,利用随机森林进行模型训练时,可以通过调整决策树数目、树节点个数参数来得到最优模型。利用决策树进行模型训练时,通过调整决策树深度等参数来得到最优模型。
在一应用示例中,利用Stacking(模型堆叠)融合的方法对四个基模型进行融合,如图3所示,四个模型包括:C1至C4,融合步骤如下:
步骤1)、将训练数据集分为五份,使用五折交叉验证方法对第一层中的一个基模型进行训练预测,将5次验证集结果拼接成一个矩阵,获得该基模型的验证集预测结果(即第一预测结果),同理可以获取其他基模型的第一预测结果。示例性地,四个基模型的第一预测结果分别为P1、P2、P3、P4;
步骤2)、将步骤1)中每次训练的基模型对测试数据集进行预测,并将同一基模型的5次的测试数据集预测结果进行加权平均,得到该基模型的测试集预测结果(即第二预测结果),同理可以获取其他基模型的第一预测结果。示例性地,四个基模型的第二预测结果分别为T1、T2、T3、T4;
步骤3)、将4个基模型得到的P1、P2、P3、P4并列成一个矩阵作为训练集,对第二层模型(即元模型)进行训练学习,最终学习得到用户预测模型P。
步骤4)、将4个基模型得到的T1、T2、T3、T4作为测试集输入用户预测元模型,即可以获得测试数据的预测结果,以评估用户预测模型P的性能。
本发明实施例还提供了一种用户预测方法,如图4所示,包括:
步骤401,将待预测用户的目标特征集输入用户预测模型的训练方法训练得到的用户预测模型中,得到待预测用户的分类结果。
这里,用户预测模型为采用本发明前述实施例所述的用户预测模型的训练方法训练得到,目标特征集可以理解为对待预测用户的用户数据基于前述的数据预处理、特征提取及特征选择后,得到的目标特征集。分类结果可以支持:同网升级的目标用户、异网升级的目标用户及非目标用户,从而丰富了预测结果的类型,利于运营商的业务开展。示例性地,目标用户为5G用户,分类结果可以为以下之一:同网升级的5G用户、异网升级的5G用户及非5G用户。
为了实现本发明实施例的方法,本发明实施例还提供一种用户预测模型的训练装置,该用户预测模型的训练装置与上述用户预测模型的训练方法对应,上述用户预测模型的训练方法实施例中的各步骤也完全适用于本用户预测模型的训练装置实施例。
如图5所示,该用户预测模型的训练装置包括:预处理模块501、特征提取模块502、特征选择模块503及模型训练模块504。其中,
预处理模块501用于对样本集数据进行数据预处理,所述样本集数据包括预设数量个用户的移动通信相关的用户数据及各用户的标签信息,所述标签信息用于表征所述用户为以下之一:同网升级的目标用户、异网升级的目标用户、非目标用户;
特征提取模块502用于对所述数据预处理后的样本集数据进行特征提取,得到用于描述各用户的特征数据集;
特征选择模块503用于对所述特征数据集进行特征选择,得到目标特征集;
模型训练模块504用于基于所述目标特征集训练用户预测模型,得到训练好的用户预测模型;其中,所述用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型。
在一些实施例中,模型训练模块504具体用于:
将所述样本集数据基于用户划分为训练数据集和测试数据集,并确定所述训练数据集中各用户的目标特征集和所述测试数据集中各用户的目标特征集;
对所述用户预测模型中的各所述基模型,基于交叉验证法得到所述训练数据集的第一预测结果和所述测试数据集的第二预测结果;
基于各所述基模型的所述第一预测结果和所述第二预测结果对所述用户预测模型中的所述元模型进行训练,得到训练好的用户预测模型。
在一些实施例中,模型训练模块504基于各所述基模型的所述第一预测结果和所述第二预测结果对所述用户预测模型中的所述元模型进行训练,包括:
将各所述基模型的所述第一预测结果作为训练集,训练所述元模型,得到训练后的所述用户预测模型;
将各所述基模型的所述第二预测结果作为测试集,评估所述训练后的所述用户预测模型的性能。
在一些实施例中,模型训练模块504对所述用户预测模型中的各所述基模型,基于交叉验证法得到所述训练数据集的第一预测结果和所述测试数据集的第二预测结果,包括:
将所述训练数据集分为五份,基于五折交叉验证法,得到各所述基模型的所述训练数据集的第一预测结果和所述测试数据集的第二预测结果。
在一些实施例中,所述特征数据集包括以下至少之一:用户基本属性特征、用户工作信息特征、设备使用特征、用户消费偏好特征、用户通信特征、用户上网行为特征及用户社交信息特征。
在一些实施例中,特征选择模块503具体用于:
将所述特征数据集中与所述标签信息之间的最大互信息值系数MIC值最大的第一特征加入目标特征集;
遍历所述特征数据集中余下的其他特征,选取分别与所述第一特征、所述标签信息间的MIC值的均值最大的特征加入所述目标特征集;
评估当前所述目标特征集的模型训练性能是否大于上一次所述目标特征集的模型训练性能,若是,则继续所述遍历所述特征数据集中余下的其他特征,选取分别与所述第一特征、所述标签信息间的MIC值的均值最大的特征加入所述目标特征集,直至当前所述目标特征集的模型训练性能小于或等于上一次所述目标特征集的模型训练性能,停止特征选择,并删除所述目标特征集中最后一次加入的特征。
实际应用时,预处理模块501、特征提取模块502、特征选择模块503及模型训练模块504,可以由用户预测模型的训练装置中的处理器来实现。当然,处理器需要运行存储器中的计算机程序来实现它的功能。
需要说明的是:上述实施例提供的用户预测模型的训练装置在进行用户预测模型的训练时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的用户预测模型的训练装置与用户预测模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
为了实现本发明实施例的方法,本发明实施例还提供一种用户预测装置,该用户预测装置与上述用户预测方法对应,上述用户预测方法实施例中的各步骤也完全适用于本用户预测装置实施例。
如图6所示,该用户预测装置包括:预测模块601,用于将待预测用户的目标特征集输入本发明实施例所述的用户预测模型的训练装置训练得到的用户预测模型中,得到待预测用户的分类结果。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供一种用户预测模型的训练设备。图7仅仅示出了该用户预测模型的训练设备的示例性结构而非全部结构,根据需要可以实施图7示出的部分结构或全部结构。
如图7所示,本发明实施例提供的用户预测模型的训练设备700包括:至少一个处理器701、存储器702、用户接口703和至少一个网络接口704。用户预测模型的训练设备700中的各个组件通过总线***705耦合在一起。可以理解,总线***705用于实现这些组件之间的连接通信。总线***705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线***705。
其中,用户接口703可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
本发明实施例中的存储器702用于存储各种类型的数据以支持用户预测模型的训练设备的操作。这些数据的示例包括:用于在用户预测模型的训练设备上操作的任何计算机程序。
本发明实施例揭示的用户预测模型的训练方法可以应用于处理器701中,或者由处理器701实现。处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,用户预测模型的训练方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(DSP,DigitalSignal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器701可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成本发明实施例提供的用户预测模型的训练方法的步骤。
在示例性实施例中,用户预测模型的训练设备可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述的用户预测模型的训练方法。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供一种用户预测设备。图8仅仅示出了该用户预测设备的示例性结构而非全部结构,根据需要可以实施图8示出的部分结构或全部结构。
如图8所示,本发明实施例提供的用户预测设备800包括:至少一个处理器801、存储器802、用户接口803和至少一个网络接口804。用户预测设备800中的各个组件通过总线***805耦合在一起。可以理解,总线***805用于实现这些组件之间的连接通信。总线***805除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线***805。
其中,用户接口803可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
本发明实施例中的存储器802用于存储各种类型的数据以支持用户预测设备的操作。这些数据的示例包括:用于在用户预测设备上操作的任何计算机程序。
本发明实施例揭示的用户预测方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,用户预测方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器801可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成本发明实施例提供的用户预测方法的步骤。
在示例性实施例中,用户预测设备800可以被一个或多个ASIC、DSP、PLD、CPLD、FPGA、通用处理器、控制器、MCU、Microprocessor、或其他电子元件实现,用于执行前述用户预测方法。
可以理解,存储器702、802可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read OnlyMemory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体可以是计算机可读存储介质,例如包括存储计算机程序的存储器702,上述计算机程序可由用户预测模型的训练设备的处理器701执行,以完成本发明实施例用户预测模型的训练方法所述的步骤;又如,包括存储计算机程序的存储器802,上述计算机程序可由用户预测设备的处理器801执行,以完成本发明实施例用户预测方法所述的步骤。计算机可读存储介质可以是ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种用户预测模型的训练方法,其特征在于,包括:
对样本集数据进行数据预处理,所述样本集数据包括预设数量个用户的移动通信相关的用户数据及各用户的标签信息,所述标签信息用于表征所述用户为以下之一:同网升级的目标用户、异网升级的目标用户、非目标用户;
对所述数据预处理后的样本集数据进行特征提取,得到用于描述各用户的特征数据集;
对所述特征数据集进行特征选择,得到目标特征集;
基于所述目标特征集训练用户预测模型,得到训练好的用户预测模型;
其中,所述用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型。
2.根据权利要求1所述的方法,其特征在于,基于所述目标特征集训练用户预测模型,得到训练好的用户预测模型,包括:
将所述样本集数据基于用户划分为训练数据集和测试数据集,并确定所述训练数据集中各用户的目标特征集和所述测试数据集中各用户的目标特征集;
对所述用户预测模型中的各所述基模型,基于交叉验证法得到所述训练数据集的第一预测结果和所述测试数据集的第二预测结果;
基于各所述基模型的所述第一预测结果和所述第二预测结果对所述用户预测模型中的所述元模型进行训练,得到训练好的用户预测模型。
3.根据权利要求2所述的方法,其特征在于,所述基于各所述基模型的所述第一预测结果和所述第二预测结果对所述用户预测模型中的所述元模型进行训练,包括:
将各所述基模型的所述第一预测结果作为训练集,训练所述元模型,得到训练后的所述用户预测模型;
将各所述基模型的所述第二预测结果作为测试集,评估所述训练后的所述用户预测模型的性能。
4.根据权利要求2所述的方法,其特征在于,所述对所述用户预测模型中的各所述基模型,基于交叉验证法得到所述训练数据集的第一预测结果和所述测试数据集的第二预测结果,包括:
将所述训练数据集分为五份,基于五折交叉验证法,得到各所述基模型的所述训练数据集的第一预测结果和所述测试数据集的第二预测结果。
5.根据权利要求1所述的方法,其特征在于,所述特征数据集包括以下至少之一:用户基本属性特征、用户工作信息特征、设备使用特征、用户消费偏好特征、用户通信特征、用户上网行为特征及用户社交信息特征。
6.根据权利要求1所述的方法,其特征在于,所述对所述特征数据集进行特征选择,得到目标特征集,包括:
将所述特征数据集中与所述标签信息之间的最大互信息值系数MIC值最大的第一特征加入目标特征集;
遍历所述特征数据集中余下的其他特征,选取分别与所述第一特征、所述标签信息间的MIC值的均值最大的特征加入所述目标特征集;
评估当前所述目标特征集的模型训练性能是否大于上一次所述目标特征集的模型训练性能,若是,则继续所述遍历所述特征数据集中余下的其他特征,选取分别与所述第一特征、所述标签信息间的MIC值的均值最大的特征加入所述目标特征集,直至当前所述目标特征集的模型训练性能小于或等于上一次所述目标特征集的模型训练性能,停止特征选择,并删除所述目标特征集中最后一次加入的特征。
7.一种用户预测方法,其特征在于,包括:
将待预测用户的目标特征集输入如权利要求1至6任一所述方法训练得到的用户预测模型中,得到待预测用户的分类结果。
8.一种用户预测模型的训练装置,其特征在于,包括:
预处理模块,用于对样本集数据进行数据预处理,所述样本集数据包括预设数量个用户的移动通信相关的用户数据及各用户的标签信息,所述标签信息用于表征所述用户为以下之一:同网升级的目标用户、异网升级的目标用户、非目标用户;
特征提取模块,用于对所述数据预处理后的样本集数据进行特征提取,得到用于描述各用户的特征数据集;
特征选择模块,用于对所述特征数据集进行特征选择,得到目标特征集;
模型训练模块,用于基于所述目标特征集训练用户预测模型,得到训练好的用户预测模型;
其中,所述用户预测模型包括至少两个基模型和连接所述至少两个基模型的元模型。
9.一种用户预测装置,其特征在于,包括:
预测模块,用于将待预测用户的目标特征集输入如权利要求8所述的用户预测模型的训练装置训练得到的用户预测模型中,得到待预测用户的分类结果。
10.一种用户预测模型的训练设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器,用于运行计算机程序时,执行权利要求1至6任一项所述方法的步骤。
11.一种用户预测设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器,用于运行计算机程序时,执行权利要求7所述方法的步骤。
12.一种存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7任一项所述方法的步骤。
CN202010903751.XA 2020-09-01 2020-09-01 用户预测模型的训练方法、预测方法、装置及存储介质 Pending CN114118192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010903751.XA CN114118192A (zh) 2020-09-01 2020-09-01 用户预测模型的训练方法、预测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010903751.XA CN114118192A (zh) 2020-09-01 2020-09-01 用户预测模型的训练方法、预测方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114118192A true CN114118192A (zh) 2022-03-01

Family

ID=80360338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010903751.XA Pending CN114118192A (zh) 2020-09-01 2020-09-01 用户预测模型的训练方法、预测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114118192A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439206A (zh) * 2022-11-08 2022-12-06 税友信息技术有限公司 一种申报数据预测方法、装置、设备及介质
CN116258579A (zh) * 2023-04-28 2023-06-13 成都新希望金融信息有限公司 用户信用评分模型的训练方法及用户信用评分方法
CN116416884A (zh) * 2023-06-12 2023-07-11 深圳市彤兴电子有限公司 一种显示器模组的测试装置及其测试方法
CN117541366A (zh) * 2023-10-20 2024-02-09 网麒科技(北京)有限责任公司 一种中标概率的预测方法、装置、电子设备及存储介质
WO2024093561A1 (zh) * 2022-11-04 2024-05-10 大唐移动通信设备有限公司 模型训练方法、模型测试方法、装置及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024093561A1 (zh) * 2022-11-04 2024-05-10 大唐移动通信设备有限公司 模型训练方法、模型测试方法、装置及存储介质
CN115439206A (zh) * 2022-11-08 2022-12-06 税友信息技术有限公司 一种申报数据预测方法、装置、设备及介质
CN115439206B (zh) * 2022-11-08 2023-03-07 税友信息技术有限公司 一种申报数据预测方法、装置、设备及介质
CN116258579A (zh) * 2023-04-28 2023-06-13 成都新希望金融信息有限公司 用户信用评分模型的训练方法及用户信用评分方法
CN116416884A (zh) * 2023-06-12 2023-07-11 深圳市彤兴电子有限公司 一种显示器模组的测试装置及其测试方法
CN116416884B (zh) * 2023-06-12 2023-08-18 深圳市彤兴电子有限公司 一种显示器模组的测试装置及其测试方法
CN117541366A (zh) * 2023-10-20 2024-02-09 网麒科技(北京)有限责任公司 一种中标概率的预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107818344B (zh) 用户行为进行分类和预测的方法和***
US11995112B2 (en) System and method for information recommendation
CN114118192A (zh) 用户预测模型的训练方法、预测方法、装置及存储介质
US20200226133A1 (en) Knowledge map building system and method
CN111444428A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN112396108A (zh) 业务数据评估方法、装置、设备及计算机可读存储介质
WO2023065211A1 (zh) 一种信息获取方法以及装置
CN109960761B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
CN111723292B (zh) 基于图神经网络的推荐方法、***、电子设备及存储介质
CN111538794B (zh) 一种数据融合方法、装置及设备
WO2021155691A1 (zh) 用户画像生成方法、装置、存储介质及设备
CN111984784B (zh) 人岗匹配方法、装置、电子设备和存储介质
US11694059B2 (en) Method, apparatus, electronic device and storage medium for predicting user attribute
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN117273018A (zh) 信息处理方法、信息处理装置、计算机设备及存储介质
WO2024021685A1 (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
Shi et al. Human resources balanced allocation method based on deep learning algorithm
CN112015912B (zh) 一种基于知识图谱的指标智能可视化方法及装置
CN111429174A (zh) 一种基于视频分析的商品推荐方法、装置、设备和介质
CN113065880A (zh) 群体不满意用户识别方法、装置、设备及存储介质
US11610402B2 (en) System and method for crowdsourcing a video summary for creating an enhanced video summary
Yu et al. Traffic flow prediction based on depthwise separable convolution fusion network
US20230410016A1 (en) Methods and systems of facilitating provisioning contexts for business situations using a semantic graph
CN117556149A (zh) 资源推送方法、装置、电子设备和存储介质
Zhong The Application of Big Data Technology in University Library Management Service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination