CN107886366A

CN107886366A - 性别分类模型的生成方法、性别填充方法、终端及存储介质

Info

Publication number: CN107886366A
Application number: CN201711176286.9A
Authority: CN
Inventors: 黄程波
Original assignee: Shenzhen Jinli Communication Equipment Co Ltd
Current assignee: Shenzhen Jinli Communication Equipment Co Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2018-04-06

Abstract

本发明实施例公开性别分类模型的生成方法、性别填充方法、终端及存储介质，其性别分类模型的生成方法包括：获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表；根据目标矩阵表中的性别数据集筛选出多个业务的待训练用户，待训练用户包括在多个预设业务中均含有性别信息且性别信息相同的用户集合；将待训练用户在所述目标矩阵表中的性别数据集和行为数据集转换为训练性别分类模型的特征数据集，其中特征数据集包括训练数据集和测试数据集；根据训练数据集，采用决策树算法训练出性别分类模型；根据算法调优参数和测试数据集交叉验证性别分类模型，得到最优性别分类模型。

Description

性别分类模型的生成方法、性别填充方法、终端及存储介质

技术领域

本发明涉及电子技术领域，尤其涉及一种性别分类模型的生成方法、性别填充方法、终端及存储介质。

背景技术

目前，随着互联网技术的发展和电子商务的普及，以及高性能的智能移动终端逐渐普及，移动互联网为用户打造了一个全新的通讯环境，能够极大地满足用户的差异化需求，移动应用也以令人吃惊的速度不断丰富。其中，电子商务通常是指在全球各地广泛的商业贸易活动中，在开放的移动互联网环境下，基于浏览器/服务器应用方式，买卖双方线上进行各种商贸活动。然而，区别于传统线下服务模式，在线上交易过程中，商户对用户的个人基础信息不甚了解，导致商户对用户的需求了解有一定的局限性，容易造成一些广告和促销的无效投放或广告等营销措施难以实现预期的目标等情况。因此，研究预测用户的基本属性信息和历史行为对精准定位用户的需求非常有必要，以便为用户提供更好的个性化服务。其中，用户的性别信息作为人口统计最基本的指标，是构建用户画像标签体系中最重要的组成之一。性别信息结合用户的其他基本属性及用户的历史行为常用于分析洞察用户的兴趣爱好和个性化需求，在人群定向中，性别是最重要的筛选条件之一。然而用户基础属性信息如性别、年龄等一般被用户视为个人隐私信息，用户在各个平台如微信、新浪的注册过程中都会选择性不填写这类个人隐私信息，因此，很多的网络应用公司很难获得用户的性别、年龄等基础属性信息。

现有技术中，获取用户的性别信息基本依赖于用户所填写的性别信息或者运用某个单一业务的数据进行建模预测得到的性别信息这两种方式。比如，一些网络应用公司在用户注册个人账号时会强制要求用户填写或让用户选择性填写性别信息，但是这类个人隐私信息对于用户来说比较敏感。因此，对于强制要求填写的注册信息，用户的体验效果较差，对于部分注重隐私的用户甚至会容易引起用户的反感，再者用户也可能故意填写错误的信息，这些虚假的信息对用户的个性化推荐会有负作用。而实际情况是大部分用户在注册时都没有填写相关的基础属性信息如性别信息等。现有技术还通过获取用户安装的App应用名称或者一系列安装包名称列表等单一数据建模来预测性别，并将预测出来的性别作为用户最终的性别标签。然而，如果只是依靠用户在单一业务上的行为数据建立模型，进行性别预测，容易导致预测出来的性别的准确度较低，即便性别预测的准确度较高，采集的行为数据只是该单一业务的用户群体，用户群体的覆盖面较窄，其他业务的用户的性别还是空缺的。

因此，要解决现有技术中依靠用户填写性别或运用某个单一业务数据进行建模预测性别存在的问题，需要一种能运用多个业务的数据并结合用户使用的APP类别及其历史行为数据建立性别分类模型，从而根据性别分类模型预测用户的性别标签，进而能对多个业务的所有用户的性别进行有效填充。

发明内容

本发明实施例提供一种性别分类模型的生成方法、性别填充方法、终端及存储介质，可以通过置信度较高的用户的性别数据集和行为数据集作为训练数据集训练出性别分类模型，并通过算法调优参数及测试数据集交叉验证出最优性别分类模型；并可以通过该最优性别分类模型预测填充多个业务中没有性别信息的用户或置信度较低的用户的性别标签，提高平台中所有用户最终判定的性别标签的整体准确度。

第一方面，本发明实施例提供了一种性别分类模型的生成方法，该方法包括：获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表；根据所述目标矩阵表中的所述性别数据集筛选出所述多个业务的待训练用户，所述待训练用户包括在多个预设业务中均含有性别信息且性别信息相同的用户集合；将所述待训练用户在所述目标矩阵表中的性别数据集和行为数据集转换为训练性别分类模型的特征数据集，其中所述特征数据集包括训练数据集和测试数据集；根据所述训练数据集，采用决策树算法训练出所述性别分类模型；根据算法调优参数和所述测试数据集交叉验证所述性别分类模型，得到最优性别分类模型。

第二方面，本发明实施例提供了一种性别填充方法，该方法包括：获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表；根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括在所述多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中含有性别信息且所述性别信息不同各占有一半的用户集合；根据所述行为数据集获取每个所述待填充用户和所述待矫正用户在每个所述应用程序中的点击次数作为特征向量；根据所述特征向量，采用如第一方面所述的最优性别分类模型来预测所述待填充用户的性别并将预测结果进行填充；根据所述特征向量，采用所述最优性别分类模型预测所述待矫正用户的性别并结合所述待矫正用户的所述性别数据集，取其众数作为所述待矫正用户的最终性别并进行填充。

第三方面，本发明实施例提供了一种终端，该终端包括用于执行上述第一和第二方面的方法的单元。

第四方面，本发明实施例提供了另一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一和第二方面的方法。

第五方面，本发明实施例提供了一种存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一和第二方面的方法。

本发明实施例提供一种性别分类模型的生成方法、性别填充方法、终端及存储介质，其通过运用多个业务的用户数据，结合置信度较高的用户的性别数据集及其使用的APP类别及其点击行为数据集作为特征数据集，所述特征数据集包括训练数据集及测试数据集，根据决策树算法，采用训练数据集训练出性别分类模型，根据算法调优参数和所述测试数据集交叉验证得到最优性别分类模型，进而对多个业务中没有性别信息的用户和性别信息置信度较低的用户的性别进行填充，可以有效提高平台中所有用户最终判定的性别标签的整体准确度，最终判定的性别标签可以为根据不同性别的用户的偏好和需求进行相关的个性化服务推荐提供支持，同时，对人群精准定位营销和点击率预估的准确率起着重要的作用。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种性别分类模型的生成方法的示意流程图；

图2是图1所示性别分类模型的生成方法中步骤S11的具体示意流程图；

图3是图2所示步骤S11中步骤S11b的具体示意流程图；

图4是本发明实施例提供的一种性别填充方法的示意流程图；

图5是本发明第一实施例提供的一种性别填充方法的示意流程图；

图6是本发明第二实施例提供的一种性别填充方法的示意流程图；

图7是本发明实施例提供的与图1方法相对应的一种终端的结构示意图；

图8是图7所示的一种终端的第一获取单元的示意性框图；

图9是本发明实施例提供的与图4方法相对应的一种终端的结构示意图；

图10是本发明实施例提供的与图5方法相对应的一种终端的结构示意图；

图11是本发明实施例提供的与图6方法相对应的一种终端的结构示意图；

图12是本发明实施例提供的另一种终端示意性框图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

具体实现中，本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述设备并非便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。

在接下来的讨论中，描述了包括显示器和触摸敏感表面的终端。然而，应当理解的是，终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。

终端支持各种应用程序，例如以下中的一个或多个：绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。

可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样，终端的公共物理架构(例如，触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。

请参见图1，其是本发明实施例提供的一种性别分类模型的生成方法的示意流程图，该方法可以运行在智能手机(如Android手机、IOS手机等)、具有移动联网功能的平板电脑、个人数字助理(PDA)、智能穿戴设备等设备中。如图所示，该方法可包括步骤S11至S15。

S11、获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，所述多个应用程序可以按照每个应用程序的主要功能对应划分应用所属类别，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区以及娱乐社交等多个应用类别，优选地，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别。在本实施例中，通过爬虫抓取外部网站数据、查询内部数据库或购买接口等技术获取用户在多个业务如购机、售后、延保以及阅读等中已上报及没有上报的性别信息，同时也可以获取用户在浏览器，输入法，新闻咨询、网络社区等多个应用类别中的行为数据集，将获取到的性别数据集和行为数据集结合以生成目标矩阵表。

S12、根据所述矩阵表中的所述性别数据集筛选出所述多个业务的待训练用户，所述待训练用户在多个预设业务中均含有性别信息且性别信息相同的用户集合。具体地，根据获取所述目标矩阵表中的所述多个预设业务中的性别数据集筛选出均含有性别信息且性别信息相同的待训练用户，其中，所述多个预设业务可以根据用户需求进行自定义设置，也可以由***检测出含有性别信息较多且性别整体准确率较高的业务作为多个预设业务。例如，在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，其中，若检测到用户在所述多个业务中如购机、延保和阅读等三大业务中的已上报性别信息较多且性别信息保持一致，则将所述购机、延保及阅读预先设置为所述多个预设业务。在一些可行的实施例中，所述多个预设业务的业务数至少占所述多个业务的总业务数的75％。

S13、将所述待训练用户在所述目标矩阵表中的性别数据集和行为数据集转换为训练性别分类模型的特征数据集，其中所述特征数据集包括训练数据集和测试数据集。具体地，所述待训练用户包括多个预设业务中均含有性别信息且性别信息相同的用户集合，所述待训练用户在多个预设业务中上报的性别数据集的置信度较高。在本实施例中，选取置信度较高的所述待训练用户的性别数据集及行为数据集转换为所述性别分类模型的特征数据集，其中，所述行为数据集包括所述待训练用户使用多个所述应用程序的历史行为数据集，例如，获取用户在预设时间内点击每个所述应用程序的次数；将获取每个用户在预设时间内在每个所述应用程序中的点击次数进行向量转换，从而得到每个用户在每个应用程序下的点击特征向量。另外，将所述特征数据集按预设比例随机划分为训练数据集和测试数据集。在本实施例中，将所述特征数据集按七三比例随机划分为所述训练数据集和所述测试数据集，其中，所述训练数据集占所述特征数据集的百分之七十，所述测试数据集占所述特征数据集的百分之三十。在一些可行的实施例中，所述预设比例可以根据用户需求进行自定义设置。

S14、根据所述训练数据集，采用决策树算法训练出所述性别分类模型。具体地，在本实施例中，将所述特征数据集按七三比例随机划分成所述训练数据集和所述测试数据集，即所述训练数据集占所述特征数据集的百分之七十，所述测试数据集占所述特征数据集的百分之三十。其中，所述训练数据集作为训练所述性别分类模型的训练集，将所述训练数据集中上报性别信息显示男性的用户作为训练模型的正样本，显示女性的用户作为训练模型的负样本。所述决策树算法可以包括CART算法(Classification And RegressionTree Algorithm)、ID3算法、C4.5算法以及随机森林算法(Random Forest Algorithm)。在本实施例中，获取正负样本的性别数据集及其行为数据集，采用随机森林算法，利用多棵树对所述正负样本的性别数据集及其行为数据集进行训练，从而训练出所述性别分类模型。其中，随机森林算法指的是利用多棵树对样本进行训练并预测的一种分类器，该输出的类别是由各个树输出的类别的众数决定的。随机森林算法能够处理很高维度的数据，不用做特征选择，其特征子集是随机选择的，即在每个节点，随机选取所有特征的一个子集，用来计算最佳分割方式。随机森林算法不仅对于不平衡的数据集来说，它可以平衡误差，而且如果有很大一部分的特征遗失，仍可以维持其算法训练模型的准确度。

S15、根据算法调优参数和所述测试数据集交叉验证所述性别分类模型，得到最优性别分类模型。具体地，所述算法调优参数可以包括：随机森林树的棵数(numTrees)，特征子集选择策略(Feature Subset Strategy)、属性选择度量(0impurity)、树的最大深度(max Depth)以及树的最大宽度(max Bins)等参数。其中，所述课数无默认值，且该参数的调优范围包括[20，50，90，100，150，160，210，220]；所述特征子集选择策略无默认值，该参数的调优范围包括：auto，sqrt，log2，one third；所述属性选择度量无默认值，该参数的调优包含纯度(gini)和信息增益(entropy)；所述树的最大深度无默认值，该参数调优范围包括[5，10，20，25，30]；所述树的最大宽度无默认值，该参数调优范围包括[50，100，200，300，400，500]。在本实施例中，设置不同的调优参数，进而对随机划分的所述训练数据集进行训练，并利用所述测试数据集对所述性别分类模型进行交叉验证以获得最优性别分类模型，所述交叉验证的评估指标包括：精度((Precision)、召回率(Recall)以及整体准确率(Accuracy)。对于一个二分类***而言，性别分类模型预测填充的情况有4种，其中，这4种包括：用户为男性且预测该用户性别结果为男性，用户为男性但是预测该用户性别结果为女性，用户性别为女性但是预测该用户性别结果为男性，用户性别为女性且预测该用户性别结果为女性。其中，所述交叉验证的评估指标中的所述精度定义为该类别正确预测结果的用户总数和预测为该类别的用户总数的比值，以测试数据集的男性样本为例，用户为男性类别的精度＝用户为男性且预测该用户性别为男性的用户总数/(用户为男性且预测该用户性别为男性的用户总数+用户为女性但是预测该用户性别为男性的用户总数)。所述召回率定义为该类别正确预测结果的总人数和该类别实际人数的比值，以测试数据集的男性样本为例，用户为男性类别的召回率＝用户为男性且预测该用户性别为男性的用户总数/(用户为男性且预测该用户性别为男性的用户总数+用户为男性但预测该用户性别为女性的用户总数)。所述性别分类模型的整体准确率定义为正确预测的人数和实际预测人数的比例，所述整体准确率＝(用户为男性且预测该用户性别为男性的用户总数+用户为女性且预测该用户性别为女性的用户总数)/总用户数。在本实施例中，由于所述训练数据集和所述测试数据集的男女比例在5:1范围内，故不对其进行过抽样或者欠抽样处理，在模型不过拟合的前提下，模型评估指标也主要以整体准确率为准。在本实施例中，经过算法调优参数和所述测试数据集交叉验证根据所述训练数据集训练得到的性别分类模型，进而获得最优性别分类模型。优选地，所述最优性别分类模型的整体准确率至少达到89.41％。

在上述实施例中，通过集成用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集，进而根据所述性别数据集筛选出置信度较高的待训练用户，将所述待训练用户的所述性别数据集和所述行为数据集转换为训练模型的特征数据集，通过采用决策树算法训练置信度较高的用户特征数据集得出所述性别分类模型，其模型的预测准确度较高，且模型可信度较高，分类精度高，并根据算法调优参数和所述测试数据集交叉验证所述性别分类模型，从而得到最优性别分类模型。因此，该性别分类模型通过采用置信度较高的待训练用户，并基于多个业务的数据进行建模，其用户覆盖面较广，性别预测结果的准确度较高。

请参见图2，其是图1所示性别分类模型的生成方法中步骤S11的具体示意流程图。如图所示，步骤S11包括S11a-S11b。

S11a、获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成原始矩阵表，其中，所述性别数据集包括用户在每个所述业务中的性别信息，所述行为数据集包括用户在预设时间内点击每个所述应用程序的次数，所述原始矩阵表的行是用户ID号，列是对应用户在每个所述业务中的性别信息及其在预设时间内点击每个所述应用程序的次数，其中，通过用户的ID号将所述性别数据集及行为数据集关联起来作为特征数据集。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，在本实施例中，可以通过爬虫抓取外部网站数据、查询内部数据库或购买接口等技术获取用户在多个业务如购机、售后、延保以及阅读等中已上报性别信息和没有性别信息的性别数据集以及用户ID号；由于当用户访问某个应用程序时会相应产生浏览访问该应用程序的历史行为数据集，在本实施例中，所述行为数据集包括用户在移动互联网环境下点击每个所述应用程序的次数，由于用户点击一次应用程序就会相应产生一条上网日志，统计用户在预设时间内在所有应用程序的上网日志即可统计用户点击所有应用程序的对应次数，接着对所有用户进行类似统计，从而获取所有用户访问所有应用程序的行为数据集。其中，所述预设时间可以为随机设置的一段时间，也可以根据模型训练的数据需求进行自定义设置；根据所述性别数据集和行为数据集可生成所述原始矩阵表，其中所述原始矩阵表的行是用户ID号，列是对应每个用户在每个所述业务中的性别信息及其点击每个所述应用程序的次数。具体地，对获取得到的用户ID号、用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集等数据进行汇总整理以生成原始矩阵表。在本实施例中，所述原始矩阵表可以如表1所示。

表一

如表1所示的原始矩阵表中，所述原始矩阵表中的行方向对应包括每个用户ID号，列方向可以包括每个用户在多个业务中的性别数据集及其在预设时间内访问每个应用程序产生的行为数据集，在本实施例中，所述行为数据集包括用户在移动互联网环境下点击每个所述应用程序的次数，在本实施例中，所述行为数据集包括用户在移动互联网环境下点击每个所述应用程序的次数。

S11b、对所述原始矩阵表进行数据清洗以生成所述目标矩阵表。具体地，在本实施例中，如图3所示，图3是图2所示步骤S11中步骤S11b的具体示意流程图，对所述原始矩阵表进行数据清洗，具体步骤S11b包括S11b1-S11b2：

S11b1、识别所述原始矩阵表中缺失率大于90％的所述应用程序。具体地，目前市面上可供选择下载的应用程序非常多，不同的用户安装使用的应用程序也不尽相同，除去一些手机常用应用如微信、支付宝等应用程序，更多小众类的应用程序如美柚、百词斩等的安装及使用频率也是因人而异的，因此，所述原始矩阵表中有超过90％的零值。在本实施例中，所述原始矩阵表中获取的所述应用程序的类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别，因此，需要识别所述原始矩阵表中缺失率大于90％的应用程序。

S11b2、从所述原始矩阵表中删除已识别出来的应用程序而生成所述目标矩阵表。

在上述实施例中，通过对集成用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集整理清洗以生成目标矩阵表，其中，所述性别数据集包括用户在每个所述业务中已上报或没有上报的性别信息，所述行为数据集包括用户在预设时间内点击每个应用程序的次数，由于市面上可供安装的应用程序不胜其数，不同的人使用的应用程序也不相同，进而需要对原始矩阵表进行数据清洗，去掉缺失率高达90％的应用程序。因此，对所述原始矩阵表进行数据清洗处理，可以降低算法处理的复杂度，提高训练该性别分类模型的训练效率和准确度。

请参见图4，其是本发明实施例提供的一种性别填充方法的示意流程图，该方法可以运行在智能手机(如Android手机、IOS手机等)、具有通信交互功能的平板电脑、个人数字助理(PDA)、智能穿戴设备等设备中。如图所示，该方法可包括步骤S21至S25。

S21、获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，所述多个应用程序可以按照每个应用程序的主要功能对应划分应用所属类别，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区以及娱乐社交等多个应用类别，优选地，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别。在本实施例中，通过爬虫抓取外部网站数据、查询内部数据库或购买接口等技术获取用户在多个业务如购机、售后、延保以及阅读等中已上报及没有上报的性别信息，同时也可以获取用户在浏览器，输入法，新闻咨询、网络社区等多个应用类别中的行为数据集，将获取到的性别数据集和行为数据集结合以生成目标矩阵表。

S22、根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括在所述多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合。具体地，在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，其中，若检测到用户在所述多个业务中均没有填写上报性别信息，则将该用户群体筛选作为所述多个业务的待填充用户；若检测到用户在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半，即在购机、售后、延保和阅读等四大业务中某个用户可能只是在购机业务和售后业务填写上报了性别信息，且填写性别信息不相同，例如在购机业务中某用户填写上报的性别信息为男性，在售后业务中填写上报的性别信息为女性；也可能四种都填写了但含有不同性别信息的业务数量各占有一半，例如在购机业务和阅读业务中某用户填写上报的性别信息为女性，在售后业务和延保业务中填写上报的性别信息为男性，则将该用户群体筛选出作为所述多个业务的待矫正用户。

S23、根据所述行为数据集获取每个所述用户在每个所述应用程序中的点击次数作为特征向量。具体地，所述行为数据集包括统计每个所述用户在预设时间内点击每个所述应用程序中的次数，并将统计得到每个用户在每个所述应用程序下的点击次数进行向量转换，从而得到每个所述用户在每个所述应用程序下的点击特征向量。

S24、根据所述特征向量，采用如图1-3所述的方法所得到的最优性别分类模型来预测所述待填充用户的性别并将预测结果进行填充。具体地，通过采用所述最优性别分类模型，对每个所述待填充用户的特征向量数据集进行预测，得出每个所述待填充用户的预测性别，将每个所述待填充用户的预测的性别结果进行填充。

S25、根据所述特征向量，采用所述最优性别分类模型预测所述待矫正用户的性别并结合所述待矫正用户的所述性别数据集，取其众数作为所述待矫正用户的最终性别并进行填充。具体地，通过采用所述最优性别分类模型，对每个所述待矫正用户的特征向量数据集进行训练预测，得出每个所述待矫正用户的预测性别，将每个所述待矫正用户的预测的性别与其在多个业务中的性别数据集结合起来，取其众数的性别结果填充作为该用户最终性别，例如，当某个待矫正用户预测得出的性别为女性，其在购机业务和阅读业务中上报的性别信息为男性，在延保业务和售后业务中上报的性别信息为女性，则将预测结果与性别数据集结合起来取其众数作为某个待矫正用户的最终性别并进行填充，即所述待矫正用户最终填充的性别为女性。

本实施例提供的性别填充方法，可通过获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集，并根据所述性别数据集筛选出在多个业务中均没有上报性别信息的待填充用户以及置信度较低的待矫正用户，将所述待填充用户和所述待矫正用户在每个所述应用程序中的点击次数转换作为特征向量，通过采用最优性别分类模型预测得出所述待填充用户和待矫正用户的性别并进行相应的填充，其模型可信度较高，分类精度高，且模型的预测准确度较高。因此，该最优性别分类模型可基于多个业务预测待填充用户和待矫正用户，其用户覆盖面较广，能有效填充未知性别的用户群体，矫正在部分业务中有上报性别信息但置信度较低的用户群体的性别，其中，该矫正在部分业务中有上报性别信息但置信度较低的用户群体的性别也是用户性别填充的一种方式。本方案能较为准确预测填充多个业务中没有性别信息的用户或置信度较低的用户的性别标签，提高平台中所有用户最终判定的性别标签的整体准确度。

请参见图5，其是本发明第一实施例提供的一种性别填充方法的示意流程图，该方法可以运行在智能手机(如Android手机、IOS手机等)、具有通信交互功能的平板电脑、个人数字助理(PDA)、智能穿戴设备等设备中。如图所示，该方法可包括步骤S31至S37。

S31、获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，所述多个应用程序可以按照每个应用程序的主要功能对应划分应用所属类别，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区以及娱乐社交等多个应用类别，优选地，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别。在本实施例中，通过爬虫抓取外部网站数据、查询内部数据库或购买接口等技术获取用户在多个业务如购机、售后、延保以及阅读等中已上报及没有上报的性别信息，同时也可以获取用户在浏览器，输入法，新闻咨询、网络社区等多个应用类别中的行为数据集，将获取到的性别数据集和行为数据集结合以生成目标矩阵表。

S32、根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括在所述多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合。具体地，在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，其中，若检测到用户在所述多个业务中均没有填写上报性别信息，则将该用户群体筛选作为所述多个业务的待填充用户；若检测到用户在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半，即在购机、售后、延保和阅读等四大业务中某个用户可能只是在购机业务和售后业务填写上报了性别信息，且填写性别信息不相同，例如在购机业务中某用户填写上报的性别信息为男性，在售后业务中填写上报的性别信息为女性；也可能四种都填写了但含有不同性别信息的业务数量各占有一半，例如在购机业务和阅读业务中某用户填写上报的性别信息为女性，在售后业务和延保业务中填写上报的性别信息为男性，则将该用户群体筛选出作为所述多个业务的待矫正用户。

S33、根据所述行为数据集获取每个所述用户在每个所述应用程序中的点击次数作为特征向量。具体地，所述行为数据集包括统计每个所述用户在预设时间内点击每个所述应用程序中的次数，并将统计得到每个用户在每个所述应用程序下的点击次数进行向量转换，从而得到每个所述用户在每个所述应用程序下的点击特征向量。

S34、根据所述特征向量，采用如图1-3所述的方法所得到的最优性别分类模型来预测所述待填充用户的性别并将预测结果进行填充。具体地，通过采用所述最优性别分类模型，对每个所述待填充用户的特征向量数据集进行预测，得出每个所述待填充用户的预测性别，将每个所述待填充用户的预测的性别结果进行填充。

S35、获取所述最优性别分类模型预测该用户为女性的整体准确率S1。

S36、若所述预测结果为女性，所述预测结果的评分为S1。具体地，当所述最优性别分类模型训练预测性别结果为女性时，所述预测结果的评分为所述最优性别分类模型预测该待填充用户为女性的整体准确率S1。

S37、若所述预测结果为男性，所述预测结果的评分为S2，S2＝1-S1。具体地，当所述最优性别分类模型训练预测性别结果为男性时，所述预测结果的评分为(1-S1)。

在上述实施例中，对于在购机、售后、延保以及阅读等四大业务中均没有上报性别属性的待填充用户，通过调用最优性别分类模型预测该用户的性别标签，并将该性别预测结果判定为该用户最终预测结果并对所述预测结果进行相应的评分，其中，当性别预测结果为男性时，评分结果为(1-最优性别分类模型预测该用户为女性的整体准确率S1)，当所述性别预测结果为女性时，评分结果为最优性别分类模型预测该用户为女性的整体准确率S1。通过评分可以得出该预测结果的准确率。

请参见图6，其是本发明第二实施例提供的一种性别填充方法的示意流程图，该方法可以运行在智能手机(如Android手机、IOS手机等)、具有通信交互功能的平板电脑、个人数字助理(PDA)、智能穿戴设备等设备中。如图所示，该方法可包括步骤S41至S49。

S41、获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，所述多个应用程序可以按照每个应用程序的主要功能对应划分应用所属类别，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区以及娱乐社交等多个应用类别，优选地，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别。在本实施例中，通过爬虫抓取外部网站数据、查询内部数据库或购买接口等技术获取用户在多个业务如购机、售后、延保以及阅读等中已上报及没有上报的性别信息，同时也可以获取用户在浏览器，输入法，新闻咨询、网络社区等多个应用类别中的行为数据集，将获取到的性别数据集和行为数据集结合以生成目标矩阵表。

S42、根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括在所述多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合。具体地，在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，其中，若检测到用户在所述多个业务中均没有填写上报性别信息，则将该用户群体筛选作为所述多个业务的待填充用户；若检测到用户在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半，即在购机、售后、延保和阅读等四大业务中某个用户可能只是在购机业务和售后业务填写上报了性别信息，且填写性别信息不相同，例如在购机业务中某用户填写上报的性别信息为男性，在售后业务中填写上报的性别信息为女性；也可能四种都填写了但含有不同性别信息的业务数量各占有一半，例如在购机业务和阅读业务中某用户填写上报的性别信息为女性，在售后业务和延保业务中填写上报的性别信息为男性，则将该用户群体筛选出作为所述多个业务的待矫正用户。

S43、根据所述行为数据集获取每个所述用户在每个所述应用程序中的点击次数作为特征向量。具体地，所述行为数据集包括统计每个所述用户在预设时间内点击每个所述应用程序中的次数，并将统计得到每个用户在每个所述应用程序下的点击次数进行向量转换，从而得到每个所述用户在每个所述应用程序下的点击特征向量。

S44、根据所述特征向量，采用所述最优性别分类模型预测所述待矫正用户的性别并结合所述待矫正用户的所述性别数据集，取其众数作为所述待矫正用户的最终性别并进行填充。具体地，通过采用所述最优性别分类模型，对每个所述待矫正用户的特征向量数据集进行训练预测，得出每个所述待矫正用户的预测性别，将每个所述待矫正用户的预测的性别与其在多个业务中的性别数据集结合起来，取其众数的性别结果填充作为该用户最终性别，例如，当某个待矫正用户预测得出的性别为女性，其在购机业务和阅读业务中上报的性别信息为男性，在延保业务和售后业务中上报的性别信息为女性，则将预测结果与性别数据集结合起来取其众数作为某个待矫正用户的最终性别并进行填充，即所述待矫正用户最终填充的性别为女性。

S45、将在每个所述业务中已上报性别信息的用户进行抽样调研的性别结果与其在每个所述业务中相应上报的性别信息进行一一比对。具体地，对在所述多个业务中已上报性别信息的用户进行随机抽样调查，并对抽样调查结果与其在每个所述业务中对应用户上报的性别信息进行比对计算，从而可以得到每个所述业务中的性别整体准确率。

S46、根据比对结果，计算得出每个所述业务的性别整体准确率z_n。具体的，在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，通过抽样调研比对结果可得到所述购机业务、售后业务、延保业务以及阅读业务的性别整体准确率分别为z₁，z₂，z₃，z₄。在一些可行的实施例中，若对所述多个业务不进行抽样调研，则所述整体准确率z₁，z₂，z₃，z₄均默认为1.0。

S47、获取所述最优性别分类模型预测该用户为女性的整体准确率S1。

S48、若所述最终性别为女性，所述最终性别的评分为S3，S3＝(1-S1×(1-z₁)×(1-z₂)...×(1-z_n))。具体地，n的取值为所述多个业务的总业务数；且已上报性别信息为男性所对应的业务以及没有性别信息所对应的业务的性别整体准确率z_n的取值为零。例如，所述多个业务包括购机业务、阅读业务、延保业务以及售后业务等四大业务，所以n＝4，其中，所述购机业务、售后业务、延保业务以及阅读业务的已上报性别信息的性别整体准确率分别为z₁，z₂，z₃，z₄。当某个待矫正用户预测得出的性别为女性，其在购机业务中上报的性别信息为男性，在延保业务上报的性别信息为女性，其余两种业务均未上报性别信息，则z₁＝0，z₂＝0，z₄＝0，因此，所述某个待矫正用户的评分为S3＝(1-S1×(1-z₃))。再比如，当某个待矫正用户预测得出的性别为女性，其在购机业务和阅读业务中上报的性别信息为男性，在延保业务和售后业务中上报的性别信息为女性，则n＝4，z₁＝0，z₂＝0，因此，所述某个待矫正用户的评分为S3＝(1-S1×(1-z₃)×(1-z₄))。

S49、若所述最终性别为男性，所述最终性别的评分S4，S4＝(1-(1-S1)×(1-z₁)×(1-z₂)...×(1-z_n))，其中，n的取值为所述多个业务的总业务数；且已上报性别信息为女性所对应的业务以及没有性别信息所对应的业务的性别整体准确率z_n的取值为零。具体地，所述多个业务包括购机业务、阅读业务、延保业务以及售后业务等四大业务，所以n＝4，其中，所述购机业务、售后业务、延保业务以及阅读业务的已上报性别信息的性别整体准确率分别为z₁，z₂，z₃，z₄。当某个待矫正用户预测得出的性别为男性，其在购机业务中上报的性别信息为男性，在延保业务上报的性别信息为女性，其余两种业务均未上报性别信息，则z₂＝0，z₃＝0，z₄＝0，因此，所述某个待矫正用户的评分为S4＝(1-(1-S1)×(1-z₁))。再比如，当某个待矫正用户预测得出的性别为男性，其在购机业务和阅读业务中上报的性别信息为男性，在延保业务和售后业务中上报的性别信息为女性，则z₂＝0，z₃＝0，因此，所述某个待矫正用户的评分为S4＝(1-(1-S1)×(1-z₁)×(1-z₄))。

在上述实施例中，对于在购机、售后、延保以及阅读等四大业务中只上报了两大业务的性别属性且性别信息不一致或在四大业务都上报了性别属性且性别信息不一致各占一半的置信度较低的待矫正用户，通过调用最优性别分类模型预测该用户的性别标签，并结合所述待矫正用户的所述性别数据集，取众数的性别结果填充作为该用户的最终性别，并进行相应的评分。通过评分可以得出该预测的最终性别的准确率。

请参见图7，其是本发明实施例提供的与图1方法相对应的一种终端的结构示意图。该终端100可以为智能手机(如Android手机、IOS手机等)、平板电脑、个人数字助理(PDA)、智能穿戴设备等具有移动联网功能的设备。该终端100包括第一获取单元110、第一筛选单元120、数据处理单元130、训练模型单元140、模型调优单元150。

所述第一获取单元110，用于获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，所述多个应用程序可以按照每个应用程序的主要功能对应划分应用所属类别，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区以及娱乐社交等多个应用类别，优选地，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别。在本实施例中，通过所述第一获取单元110获取用户在多个业务如购机、售后、延保以及阅读等中已上报及没有上报的性别信息，同时还可以获取用户在浏览器，输入法，新闻咨询、网络社区等多个应用类别中的行为数据集，所述第一获取单元110还用于将获取到的性别数据集和行为数据集结合以生成目标矩阵表。

所述第一筛选单元120，用于根据所述矩阵表中的所述性别数据集筛选出所述多个业务的待训练用户，所述待训练用户在多个预设业务中均含有性别信息且性别信息相同的用户集合。具体地，所述第一筛选单元120用于根据获取所述目标矩阵表中的所述多个预设业务中的性别数据集筛选出均含有性别信息且性别信息相同的待训练用户，其中，所述多个预设业务可以根据用户需求进行自定义设置，也可以由***检测出含有性别信息较多且性别整体准确率较高的业务作为多个预设业务。例如，在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，其中，若检测到用户在所述多个业务中如购机、延保和阅读等三大业务中的已上报性别信息较多且性别信息保持一致，则将所述购机、延保及阅读预先设置为所述多个预设业务。在一些可行的实施例中，所述多个预设业务的业务数至少占所述多个业务的总业务数的75％。

所述数据处理单元130，用于将所述待训练用户在所述目标矩阵表中的性别数据集和行为数据集转换为训练性别分类模型的特征数据集，其中所述特征数据集包括训练数据集和测试数据集。具体地，所述待训练用户包括多个预设业务中均含有性别信息且性别信息相同的用户集合，所述待训练用户在多个预设业务中上报的性别数据集的置信度较高。在本实施例中，所述数据处理单元130用于选取置信度较高的所述待训练用户的性别数据集及行为数据集转换为所述性别分类模型的特征数据集，其中，所述行为数据集包括所述待训练用户使用多个所述应用程序的历史行为数据集，例如，获取用户在预设时间内点击每个所述应用程序的次数；将获取每个用户在预设时间内在每个所述应用程序中的点击次数进行向量转换，从而得到每个用户在每个应用程序下的点击特征向量。另外，所述数据处理单元130还用于将所述特征数据集按预设比例随机划分为训练数据集和测试数据集。在本实施例中，按三七比例随机划分为所述训练数据集和所述测试数据集，其中，所述训练数据集占所述特征数据集的百分之七十，所述测试数据集占所述特征数据集的百分之三十。在一些可行的实施例中，所述预设比例可以根据用户需求进行自定义设置。

所述训练模型单元140，用于根据所述训练数据集，采用决策树算法训练出所述性别分类模型。具体地，在本实施例中，将所述特征数据集按七三比例随机划分成所述训练数据集和所述测试数据集，即所述训练数据集占所述特征数据集的百分之七十，所述测试数据集占所述特征数据集的百分之三十。其中，所述训练数据集作为训练所述性别分类模型的训练集，将所述训练数据集中上报性别信息显示男性的用户作为训练模型的正样本，显示女性的用户作为训练模型的负样本。所述决策树算法可以包括CART算法(Classification And Regression Tree Algorithm)、ID3算法、C4.5算法以及随机森林算法(Random Forest Algorithm)。在本实施例中，获取正负样本的性别数据集及其行为数据集，采用随机森林算法，利用多棵树对所述正负样本的性别数据集及其行为数据集进行训练，从而训练出所述性别分类模型。其中，随机森林算法指的是利用多棵树对样本进行训练并预测的一种分类器，该输出的类别是由各个树输出的类别的众数决定的。随机森林算法能够处理很高维度的数据，不用做特征选择，其特征子集是随机选择的，即在每个节点，随机选取所有特征的一个子集，用来计算最佳分割方式。随机森林算法不仅对于不平衡的数据集来说，它可以平衡误差，而且如果有很大一部分的特征遗失，仍可以维持其算法训练模型的准确度。

所述模型调优单元150，用于根据算法调优参数和所述测试数据集交叉验证所述性别分类模型，得到最优性别分类模型。具体地，所述算法调优参数可以包括：随机森林树的棵数(numTrees)，特征子集选择策略(Feature Subset Strategy)、属性选择度量(0impurity)、树的最大深度(max Depth)以及树的最大宽度(max Bins)等参数。其中，所述课数无默认值，且该参数的调优范围包括[20，50，90，100，150，160，210，220]；所述特征子集选择策略无默认值，该参数的调优范围包括：auto，sqrt，log2，one third；所述属性选择度量无默认值，该参数的调优包含纯度(gini)和信息增益(entropy)；所述树的最大深度无默认值，该参数调优范围包括[5，10，20，25，30]；所述树的最大宽度无默认值，该参数调优范围包括[50，100，200，300，400，500]。在本实施例中，设置不同的调优参数，进而对随机划分的所述训练数据集进行训练，并利用所述测试数据集对所述性别分类模型进行交叉验证以获得最优性别分类模型，所述交叉验证的评估指标包括：精度((Precision)、召回率(Recall)以及整体准确率(Accuracy)。对于一个二分类***而言，性别分类模型预测填充的情况有4种，其中，这4种包括：用户为男性且预测该用户性别结果为男性，用户为男性但是预测该用户性别结果为女性，用户性别为女性但是预测该用户性别结果为男性，用户性别为女性且预测该用户性别结果为女性。其中，所述交叉验证的评估指标中的所述精度定义为该类别正确预测结果的用户总数和预测为该类别的用户总数的比值，以测试数据集的男性样本为例，用户为男性类别的精度＝用户为男性且预测该用户性别为男性的用户总数/(用户为男性且预测该用户性别为男性的用户总数+用户为女性但是预测该用户性别为男性的用户总数)。所述召回率定义为该类别正确预测结果的总人数和该类别实际人数的比值，以测试数据集的男性样本为例，用户为男性类别的召回率＝用户为男性且预测该用户性别为男性的用户总数/(用户为男性且预测该用户性别为男性的用户总数+用户为男性但预测该用户性别为女性的用户总数)。所述性别分类模型的整体准确率定义为正确预测的人数和实际预测人数的比例，所述整体准确率＝(用户为男性且预测该用户性别为男性的用户总数+用户为女性且预测该用户性别为女性的用户总数)/总用户数。在本实施例中，由于所述训练数据集和所述测试数据集的男女比例在5:1范围内，故不对其进行过抽样或者欠抽样处理，在模型不过拟合的前提下，模型评估指标也主要以整体准确率为准。在本实施例中，经过算法调优参数和所述测试数据集交叉验证根据所述训练数据集训练得到的性别分类模型，进而获得最优性别分类模型。优选地，所述最优性别分类模型的整体准确率至少达到89.41％。

在上述实施例中，通过所述第一获取单元110集成用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集，进而根据所述第一筛选单元120筛选出置信度较高的待训练用户，进而根据所述数据处理单元130将所述待训练用户的所述性别数据集和所述行为数据集转换为训练模型的特征数据集，所述训练模型单元140用于采用决策树算法训练置信度较高的用户特征数据集得到所述性别分类模型，其模型的预测准确度较高，且模型可信度较高，分类精度高，并根据模型调优单元150来调整算法调优参数，采用所述测试数据集交叉验证所述性别分类模型，从而得到最优性别分类模型。因此，该性别分类模型通过采用置信度较高的待训练用户，并基于多个业务的数据进行建模，其用户覆盖面较广，性别预测结果的准确度较高。

请参见图8，其是图7所示的一种终端的第一获取单元110的示意性框图。在本实施例中，所述第一获取单元110用于获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。具体地，所述第一获取单元110包括矩阵信息阵获取单元111以及数据清洗单元112，其中所述数据清洗单元112还包括数据识别单元112a和数据删除单元112b。

所述矩阵信息获取单元111，获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成原始矩阵表，其中，所述性别数据集包括用户在每个所述业务中的性别信息，所述行为数据集包括用户在预设时间内点击每个所述应用程序的次数，所述原始矩阵表的行是用户ID号，列是对应用户在每个所述业务中的性别信息及其在预设时间内点击每个所述应用程序的次数，其中，通过用户的ID号将所述性别数据集及行为数据集关联起来作为特征数据集。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，在本实施例中，可以通过爬虫抓取外部网站数据、查询内部数据库或购买接口等技术获取用户在多个业务如购机、售后、延保以及阅读等中已上报性别信息和没有性别信息的性别数据集以及用户ID号；由于当用户访问某个应用程序时会相应产生浏览访问该应用程序的历史行为数据集，在本实施例中，所述行为数据集包括用户在移动互联网环境下点击每个所述应用程序的次数，由于用户点击一次应用程序就会相应产生一条上网日志，统计用户在预设时间内在所有应用程序的上网日志即可统计用户点击所有应用程序的对应次数，接着对所有用户进行类似统计，从而获取所有用户访问所有应用程序的行为数据集。其中，所述预设时间可以为随机设置的一段时间，也可以根据模型训练的数据需求进行自定义设置；根据所述性别数据集和行为数据集可生成所述原始矩阵表，其中所述原始矩阵表的行是用户ID号，列是对应每个用户在每个所述业务中的性别信息及其点击每个所述应用程序的次数。具体地，对获取得到的用户ID号、用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集等数据进行汇总整理以生成原始矩阵表。在本实施例中，所述原始矩阵表可以如表2所示。

表二

如表2所示的原始矩阵表中，所述原始矩阵表中的行方向对应包括每个用户ID号，列方向可以包括每个用户在多个业务中的性别数据集及其在预设时间内访问每个应用程序产生的行为数据集，在本实施例中，所述行为数据集包括用户在移动互联网环境下点击每个所述应用程序的次数，在本实施例中，所述行为数据集包括用户在移动互联网环境下点击每个所述应用程序的次数。

所述数据清洗单元112，用于对所述矩阵表进行数据清洗。具体地，所述数据清洗单元112还包括数据识别单元112a和数据删除单元112b。

所述数据识别单元112a，用于识别所述原始矩阵表中缺失率大于90％的所述应用程序。具体地，目前市面上可供选择下载的应用程序非常多，不同的用户安装使用的应用程序也不尽相同，除去一些手机常用应用如微信、支付宝等应用程序，更多小众类的应用程序如美柚、百词斩等的安装及使用频率也是因人而异的，因此，所述原始矩阵表中有超过90％的零值。在本实施例中，所述原始矩阵表中获取的所述应用程序的类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别，因此，需要识别所述原始矩阵表中缺失率大于90％的应用程序。

所述数据删除单元112b，用于从所述原始矩阵表中删除已识别出来的应用程序而生成所述目标矩阵表。

在上述实施例中，通过第一获取单元110集成用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集整理清洗以生成目标矩阵表，其中，可以通过矩阵信息获取单元111获取用户在所述多个业务中上报或没有上报的性别信息及其用户ID号以及用户在预设时间内点击每个应用程序的次数，由于市面上可供安装的应用程序不胜其数，不同的人使用的应用程序也不相同，进而需要通过数据清洗单元112对原始矩阵表进行数据清洗，去掉缺失率高达90％的应用程序。因此，对所述原始矩阵表进行数据清洗处理，可以降低算法处理的复杂度，提高训练该性别分类模型的训练效率和准确度。

请参见图9，其是本发明实施例提供的与图4方法相对应的一种终端的结构示意图。该终端200可以为智能手机(如Android手机、IOS手机等)、平板电脑、个人数字助理(PDA)、智能穿戴设备等具有移动联网功能的设备。该终端200包括第二获取单元210、第二筛选单元220、第一特征处理单元230、第一填充单元240，第二填充单元250。

所述第二获取单元210，用于获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，所述多个应用程序可以按照每个应用程序的主要功能对应划分应用所属类别，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区以及娱乐社交等多个应用类别，优选地，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别。在本实施例中，通过第二获取单元210获取用户在多个业务如购机、售后、延保以及阅读等中已上报及没有上报的性别信息，同时也可以获取用户在浏览器，输入法，新闻咨询、网络社区等多个应用类别中的行为数据集，将获取到的性别数据集和行为数据集结合以生成目标矩阵表。

所述第二筛选单元220，用于根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括在所述多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合。具体地，在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，其中，若检测到用户在所述多个业务中均没有填写上报性别信息，则将该用户群体筛选作为所述多个业务的待填充用户；若检测到用户在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半，即在购机、售后、延保和阅读等四大业务中某个用户可能只是在购机业务和售后业务填写上报了性别信息，且填写性别信息不相同，例如在购机业务中某用户填写上报的性别信息为男性，在售后业务中填写上报的性别信息为女性；也可能四种都填写了但含有不同性别信息的业务数量各占有一半，例如在购机业务和阅读业务中某用户填写上报的性别信息为女性，在售后业务和延保业务中填写上报的性别信息为男性，则将该用户群体筛选出作为所述多个业务的待矫正用户。

所述第一特征处理单元230，用于根据所述行为数据集获取每个所述用户在每个所述应用程序中的点击次数作为特征向量。具体地，所述行为数据集包括统计每个所述用户在预设时间内点击每个所述应用程序中的次数，并将统计得到每个用户在每个所述应用程序下的点击次数进行向量转换，从而得到每个所述用户在每个所述应用程序下的点击特征向量。

所述第一填充单元240，用于根据所述特征向量，采用如图1-3所述的方法所得到的最优性别分类模型来预测所述待填充用户的性别并将预测结果进行填充。具体地，所述第一填充单元240用于采用所述最优性别分类模型，对每个所述待填充用户的特征向量数据集进行预测，得出每个所述待填充用户的预测性别，将每个所述待填充用户的预测的性别填充作为该用户最终的性别标签。

所述第二填充单元250，用于根据所述特征向量，采用所述最优性别分类模型预测所述待矫正用户的性别并结合所述待矫正用户的所述性别数据集，取其众数作为所述待矫正用户的最终性别并进行填充。具体地，所述第二填充单元250用于采用所述最优性别分类模型，对每个所述待矫正用户的特征向量数据集进行预测，得出每个所述待矫正用户的预测性别，将每个所述待矫正用户的预测性别与其在多个业务中的性别数据集结合起来，取其众数的性别结果填充作为该用户最终的性别标签，例如，当某个待矫正用户预测得出的性别为女性，其在购机业务和阅读业务中上报的性别信息为男性，在延保业务和售后业务中上报的性别信息为女性，将预测结果与性别数据集结合起来取其众数作为某个待矫正用户的最终性别，即所述某个待矫正用户的最终性别为女性。

本实施例提供的性别填充方法，可通过所述第二获取单元210获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集，并根据所述第二筛选单元220筛选出在多个业务中均没有上报性别信息的待填充用户以及置信度较低的待矫正用户，再通过第一特征处理单元230将所述待填充用户和所述待矫正用户在每个所述应用程序中的点击次数转换作为特征向量，进而第一填充单元240以及第二填充单元250采用最优性别分类模型预测得出所述待填充用户和待矫正用户的性别并进行相应的填充，其模型可信度较高，分类精度高，且模型的预测准确度较高。因此，该最优性别分类模型可基于多个业务预测待填充用户和待矫正用户，其用户覆盖面较广，能有效填充未知性别的用户群体，矫正在部分业务中有上报性别信息但置信度较低的用户群体的性别，其中，该矫正在部分业务中有上报性别信息但置信度较低的用户群体的性别也是用户性别填充的一种方式。本方案能较为准确预测填充多个业务中没有性别信息的用户或置信度较低的用户的性别标签，提高平台中所有用户最终判定的性别标签的整体准确度。

请参见图10，其是本发明实施例提供的与图5方法相对应的一种终端的结构示意图。该终端300可以为智能手机(如Android手机、IOS手机等)、平板电脑、个人数字助理(PDA)、智能穿戴设备等具有移动联网功能的设备。该终端300包括第三获取单元310、第三筛选单元320、第二特征处理单元330、第三填充单元340、第一准确率获取单元350、第一评分单元360以及第二评分单元370。

所述第三获取单元310，用于获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，所述多个应用程序可以按照每个应用程序的主要功能对应划分应用所属类别，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区以及娱乐社交等多个应用类别，优选地，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别。在本实施例中，通过第三获取单元310获取用户在多个业务如购机、售后、延保以及阅读等中已上报及没有上报的性别信息，同时也可以获取用户在浏览器，输入法，新闻咨询、网络社区等多个应用类别中的行为数据集，将获取到的性别数据集和行为数据集结合以生成目标矩阵表。

所述第三筛选单元320，用于根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括在所述多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合。具体地，在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，其中，若检测到用户在所述多个业务中均没有填写上报性别信息，则将该用户群体筛选作为所述多个业务的待填充用户；若检测到用户在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半，即在购机、售后、延保和阅读等四大业务中某个用户可能只是在购机业务和售后业务填写上报了性别信息，且填写性别信息不相同，例如在购机业务中某用户填写上报的性别信息为男性，在售后业务中填写上报的性别信息为女性；也可能四种都填写了但含有不同性别信息的业务数量各占有一半，例如在购机业务和阅读业务中某用户填写上报的性别信息为女性，在售后业务和延保业务中填写上报的性别信息为男性，则将该用户群体筛选出作为所述多个业务的待矫正用户。

所述第二特征处理单元330，用于根据所述行为数据集获取每个所述用户在每个所述应用程序中的点击次数作为特征向量。具体地，所述行为数据集包括统计每个所述用户在预设时间内点击每个所述应用程序中的次数，并将统计得到每个用户在每个所述应用程序下的点击次数进行向量转换，从而得到每个所述用户在每个所述应用程序下的点击特征向量。

所述第三填充单元340，用于根据所述特征向量，采用如图1-3所述的方法所得到的最优性别分类模型来预测所述待填充用户的性别并将预测结果进行填充。具体地，所述第三填充单元340用于采用所述最优性别分类模型，对每个所述待填充用户的特征向量数据集进行预测，得出每个所述待填充用户的预测性别，将每个所述待填充用户的预测的性别填充作为该用户最终的性别标签。

所述第一准确率获取单元350，用于获取所述最优性别分类模型预测该用户为女性的整体准确率S1。

所述第一评分单元360，用于若所述预测结果为女性，所述预测结果的评分为S1。具体地，当所述最优性别分类模型训练预测性别结果为女性时，所述预测结果的评分为所述最优性别分类模型预测该待填充用户为女性的整体准确率S1。

所述第二评分单元370，用于若所述预测结果为男性，所述预测结果的评分为S2，所述S2＝1-S1。具体地，当所述最优性别分类模型训练预测性别结果为男性时，所述预测结果的评分为(1-S1)。

在上述实施例中，对于在购机、售后、延保以及阅读等四大业务中均没有上报性别属性的待填充用户，通过所述第三填充单元340调用最优性别分类模型预测该用户的性别标签，将该性别预测结果判定为该用户最终预测结果，并通过第一评分单元360及第二评分单元370对性别预测结果进行相应的评分，其中，所述第二评分单元370用于当性别预测结果为男性时，评分结果为(1-最优性别分类模型预测该用户为女性的整体准确率S1)，所述第一评分单元360用于当当性别预测出来结果为女性时，评分结果为最优性别分类模型预测该用户为女性的整体准确率S1。通过评分可以得出该预测结果的准确率。

请参见图11，其是本发明实施例提供的与图6方法相对应的一种终端的结构示意图。该终端400可以为智能手机(如Android手机、IOS手机等)、平板电脑、个人数字助理(PDA)、智能穿戴设备等具有移动联网功能的设备。该终端400包括第四获取单元410、第四筛选单元420、第三特征处理单元430、第四填充单元440、抽样比对单元450、计算单元460、第二准确率获取单元470、第三评分单元480以及第四评分单元490。

所述第四获取单元410，用于获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。具体地，所述多个业务可以包括购机、售后、延保和阅读等业务，所述多个应用程序可以按照每个应用程序的主要功能对应划分应用所属类别，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区以及娱乐社交等多个应用类别，优选地，所述应用类别可以包括浏览器，输入法，新闻咨询、网络社区等478个应用程序类别。在本实施例中，通过第四获取单元410获取用户在多个业务如购机、售后、延保以及阅读等中已上报及没有上报的性别信息，同时也可以获取用户在浏览器，输入法，新闻咨询、网络社区等多个应用类别中的行为数据集，将获取到的性别数据集和行为数据集结合以生成目标矩阵表。

所述第四筛选单元420，用于根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括在所述多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合。具体地，在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，其中，若检测到用户在所述多个业务中均没有填写上报性别信息，则将该用户群体筛选作为所述多个业务的待填充用户；若检测到用户在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半，即在购机、售后、延保和阅读等四大业务中某个用户可能只是在购机业务和售后业务填写上报了性别信息，且填写性别信息不相同，例如在购机业务中某用户填写上报的性别信息为男性，在售后业务中填写上报的性别信息为女性；也可能四种都填写了但含有不同性别信息的业务数量各占有一半，例如在购机业务和阅读业务中某用户填写上报的性别信息为女性，在售后业务和延保业务中填写上报的性别信息为男性，则将该用户群体筛选出作为所述多个业务的待矫正用户。

所述第三特征处理单元430，用于根据所述行为数据集获取每个所述用户在每个所述应用程序中的点击次数作为特征向量。具体地，所述行为数据集包括统计每个所述用户在预设时间内点击每个所述应用程序中的次数，并将统计得到每个用户在每个所述应用程序下的点击次数进行向量转换，从而得到每个所述用户在每个所述应用程序下的点击特征向量。

所述第四填充单元440，用于根据所述特征向量，采用所述最优性别分类模型预测所述待矫正用户的性别并结合所述待矫正用户的所述性别数据集，取其众数作为所述待矫正用户的最终性别并进行填充。具体地，所述第四填充单元440用于采用所述最优性别分类模型，对每个所述待矫正用户的特征向量数据集进行预测，得出每个所述待矫正用户的预测性别，将每个所述待矫正用户的预测性别与其在多个业务中的性别数据集结合起来，取其众数的性别结果填充作为该用户最终的性别标签，例如，当某个待矫正用户预测得出的性别为女性，其在购机业务和阅读业务中上报的性别信息为男性，在延保业务和售后业务中上报的性别信息为女性，将预测结果与性别数据集结合起来取其众数作为某个待矫正用户的最终性别，即所述某个待矫正用户的最终性别为女性。

所述抽样比对单元450，用于将在每个所述业务中已上报性别信息的用户进行抽样调研的性别结果与其在在每个所述业务中相应上报的性别信息进行一一比对。具体地，对在所述多个业务中已上报性别信息的用户进行随机抽样调查，并对抽样调查结果与其在每个所述业务中对应用户上报的性别信息进行比对计算，从而可以得到每个所述业务中的性别整体准确率。

所述计算单元460，用于根据比对结果，计算得出每个所述业务的性别整体准确率。在本实施例中，所述多个业务可以包括购机、售后、延保和阅读等四大业务，通过抽样调研比对结果可得到所述购机业务、售后业务、延保业务以及阅读业务的性别整体准确率分别为z₁，z₂，z₃，z₄。在一些可行的实施例中，若对所述多个业务不进行抽样调研，则所述整体准确率z₁，z₂，z₃，z₄均默认为1.0。

所述第二准确率获取单元470，用于获取所述最优性别分类模型预测该用户为女性的整体准确率S1。

所述第三评分单元480，用于若所述最终性别为女性，所述最终性别的评分为S3，S3＝(1-S1×(1-z₁)×(1-z₂)...×(1-z_n))。具体地，n的取值为所述多个业务的总业务数；且已上报性别信息为男性所对应的业务以及没有性别信息所对应的业务的性别整体准确率z_n的取值为零。例如，所述多个业务包括购机业务、阅读业务、延保业务以及售后业务等四大业务，所以n＝4，其中，所述购机业务、售后业务、延保业务以及阅读业务的已上报性别信息的性别整体准确率分别为z₁，z₂，z₃，z₄。当某个待矫正用户预测得出的性别为女性，其在购机业务中上报的性别信息为男性，在延保业务上报的性别信息为女性，其余两种业务均未上报性别信息，则z₁＝0，z₂＝0，z₄＝0，因此，所述某个待矫正用户的评分为S3＝(1-S1×(1-z₃))。再比如，当某个待矫正用户预测得出的性别为女性，其在购机业务和阅读业务中上报的性别信息为男性，在延保业务和售后业务中上报的性别信息为女性，则n＝4，z₁＝0，z₂＝0，因此，所述某个待矫正用户的评分为S3＝(1-S1×(1-z₃)×(1-z₄))。

所述第四评分单元490，用于若所述最终性别为男性，所述最终性别的评分S4，S4＝(1-(1-S1)×(1-z₁)×(1-z₂)...×(1-z_n))，其中，n的取值为所述多个业务的总业务数；且已上报性别信息为女性所对应的业务以及没有性别信息所对应的业务的性别整体准确率z_n的取值为零。具体地，所述多个业务包括购机业务、阅读业务、延保业务以及售后业务等四大业务，所以n＝4，其中，所述购机业务、售后业务、延保业务以及阅读业务的已上报性别信息的性别整体准确率分别为z₁，z₂，z₃，z₄。当某个待矫正用户预测得出的性别为男性，其在购机业务中上报的性别信息为男性，在延保业务上报的性别信息为女性，其余两种业务均未上报性别信息，则z₂＝0，z₃＝0，z₄＝0，因此，所述某个待矫正用户的评分为S4＝(1-(1-S1)×(1-z₁))。再比如，当某个待矫正用户预测得出的性别为男性，其在购机业务和阅读业务中上报的性别信息为男性，在延保业务和售后业务中上报的性别信息为女性，则z₂＝0，z₃＝0，因此，所述某个待矫正用户的评分为S4＝(1-(1-S1)×(1-z₁)×(1-z₄))。

在上述实施例中，对于在购机、售后、延保以及阅读等四大业务中只上报了两大业务的性别属性且性别信息不一致或在四大业务都上报了性别属性且性别信息不一致各占一半的置信度较低的待矫正用户，通过所述第四填充单元440调用最优性别分类模型预测该用户的性别标签，将结合所述待矫正用户的所述性别数据集，取众数作为该用户的最终性别，并通过所述第三评分单元480及所述第四评分单元490进行相应的评分。通过评分可以得出该预测的最终性别的准确率

请参见图12，其是本发明另一实施例提供的一种终端示意性框图。如图所示的本实施例中的终端可以包括：一个或多个处理器801；一个或多个输入设备802，一个或多个输出设备803和存储器804。上述处理器801、输入设备802、输出设备803和存储器804通过总线805连接。存储器802用于存储计算机程序，所述计算机程序包括程序指令，处理器801用于执行存储器802存储的程序指令。

其中，处理器801被配置用于调用所述程序指令执行：

获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表。

根据所述矩阵表中的所述性别数据集筛选出所述多个业务的待训练用户，所述待训练用户在多个预设业务中均含有性别信息且性别信息相同的用户集合。

将所述待训练用户在所述目标矩阵表中的性别数据集和行为数据集转换为训练性别分类模型的特征数据集，其中所述特征数据集包括训练数据集和测试数据集。

根据所述训练数据集，采用决策树算法训练出所述性别分类模型。

根据算法调优参数和所述测试数据集交叉验证所述性别分类模型，得到最优性别分类模型。

进一步实现：

获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成原始矩阵表，其中，所述性别数据集包括用户在每个所述业务中的性别信息，所述行为数据集包括用户在预设时间内点击每个所述应用程序的次数，所述原始矩阵表的行是用户ID号，列是对应用户在每个所述业务中的性别信息及其在预设时间内点击每个所述应用程序的次数，其中，通过用户的ID号将所述性别数据集及行为数据集关联起来作为特征数据集。对所述原始矩阵表进行数据清洗以生成所述目标矩阵表。具体地：

识别所述原始矩阵表中缺失率大于90％的所述应用程序。

从所述原始矩阵表中删除已识别出来的应用程序而生成所述目标矩阵表。

其中，处理器801还可以被配置用于调用所述程序指令执行：

根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括所述在多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合。

根据所述行为数据集获取每个所述用户在每个所述应用程序中的点击次数作为特征向量。

根据所述特征向量，根据所述性别分类模型的生成方法所得到的最优性别分类模型来预测所述待填充用户的性别并将预测结果进行填充。

根据所述特征向量，采用所述最优性别分类模型预测所述待矫正用户的性别并结合所述待矫正用户的所述性别数据集，取其众数作为所述待矫正用户的最终性别并进行填充。

进一步实现：

根据所述特征向量，采用所述性别分类模型的生成方法所得到的最优性别分类模型来预测所述待填充用户的性别并将预测结果进行填充。

获取所述最优性别分类模型预测该用户为女性的整体准确率S1。

若所述预测结果为女性，所述预测结果的评分为S1。

若所述预测结果为男性，所述预测结果的评分为S2，所述S2＝1-S1。

在上述实施例中，对于在购机、售后、延保以及阅读等四大业务中均没有上报性别属性的待填充用户，通过调用最优性别分类模型预测该用户的性别标签，并将该性别预测结果判定为该用户最终预测结果并进行相应的评分，其中，当性别预测结果为男性用户时，评分结果为(1-最优性别分类模型预测该用户为女性的整体准确率S1)，当性别预测出来结果为女性时，评分结果为最优性别分类模型预测该用户为女性的整体准确率S1。通过评分可以得出该预测结果的准确率。

还可以实现：

将在每个所述业务中已上报性别信息的用户进行抽样调研的性别结果与其在在每个所述业务中相应上报的性别信息进行一一比对。

根据比对结果，计算得出每个所述业务的性别整体准确率z_n。

若所述最终性别为女性，所述最终性别的评分为S3，S3＝(1-S1×(1-z₁)×(1-z₂)...×(1-z_n))。

若所述最终性别为男性，所述最终性别的评分S4，S4＝(1-(1-S1)×(1-z₁)×(1-z₂)...×(1-z_n))，其中，n的取值为所述多个业务的总业务数；且已上报性别信息为女性所对应的业务以及没有性别信息所对应的业务的性别整体准确率z_n的取值为零。

应当理解，在本发明实施例中，所称处理器801可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备802可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备803可以包括显示器(LCD等)、扬声器等。

该存储器804可以包括只读存储器和随机存取存储器，并向处理器801提供指令和数据。存储器804的一部分还可以包括非易失性随机存取存储器。例如，存储器804还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器801、输入设备802、输出设备803可执行本发明实施例提供的性别分类模型的生成方法以及性别填充方法的第一实施例和第二实施例中所描述的实现方式，也可执行本发明实施例所描述的终端的实现方式，在此不再赘述。

在本发明的另一实施例中提供一种存储介质，所述存储介质可以为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：

进一步实现：

识别所述原始矩阵表中缺失率大于90％的所述应用程序。

其中，处理器801还可以被配置用于调用所述程序指令执行：

根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括所述多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合。

还可以实现：

若所述预测结果为女性，所述预测结果的评分为S1。

进一步，还可以实现：

所述存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种性别分类模型的生成方法，其特征在于，包括：

获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表；

根据所述目标矩阵表中的所述性别数据集筛选出所述多个业务的待训练用户，所述待训练用户包括在多个预设业务中均含有性别信息且性别信息相同的用户集合；

将所述待训练用户在所述目标矩阵表中的性别数据集和行为数据集转换为训练性别分类模型的特征数据集，其中所述特征数据集包括训练数据集和测试数据集；

根据所述训练数据集，采用决策树算法训练出所述性别分类模型；

2.根据权利要求1所述的方法，其特征在于，所述获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成目标矩阵表，具体包括：

获取用户在多个业务中的性别数据集及其在多个应用程序中的行为数据集以生成原始矩阵表，其中，所述性别数据集包括用户在每个所述业务中的性别信息，所述行为数据集包括用户在预设时间内点击每个所述应用程序的次数，所述原始矩阵表的行是用户ID号，列是对应用户在每个所述业务中的性别信息及其在预设时间内点击每个所述应用程序的次数；

对所述原始矩阵表进行数据清洗以生成所述目标矩阵表。

3.根据权利要求2所述的方法，其特征在于，所述对所述原始矩阵表进行数据清洗以生成所述目标矩阵表，具体包括：

识别所述原始矩阵表中缺失率大于90％的应用程序；

4.根据权利要求1所述的方法，其特征在于，所述多个业务包括有购机业务、售后业务、延保业务、阅读业务。

5.根据权利要求1所述的方法，其特征在于，所述多个预设业务的业务数至少占所述多个业务的总业务数的75％。

6.根据权利要求1所述的方法，其特征在于，所述决策树算法包括：CART算法、ID3算法、C4.5算法以及随机森林算法。

7.根据权利要求1所述的方法，其特征在于，所述算法调优参数包括：决策树的棵数、特征子集选择策略、属性选择度量、树的最大深度以及树的最大宽度。

8.根据权利要求1所述的方法，其特征在于，所述交叉验证的评估指标包括：精度、召回率以及整体准确率。

9.一种性别填充方法，其特征在于，包括：

根据所述性别数据集筛选出所述多个业务的待填充用户和待矫正用户，所述待填充用户包括在所述多个业务中没有性别信息的用户集合，所述待矫正用户包括在所述多个业务中部分含有性别信息且含有不同性别信息的业务各占有一半的用户集合；根据所述行为数据集获取每个所述待填充用户和所述待矫正用户在每个所述应用程序中的点击次数作为特征向量；

根据所述特征向量，采用权利要求1-8任一项所述的最优性别分类模型来预测所述待填充用户的性别并将预测结果进行填充；

10.根据权利要求9所述的方法，其特征在于，所述将预测结果进行填充之后，还包括：

获取所述最优性别分类模型预测该用户为女性的整体准确率S1；

若所述预测结果为女性，所述预测结果的评分为S1；

若所述预测结果为男性，所述预测结果的评分为S2，所述S2等于1-S1。

11.根据权利要求9所述的方法，其特征在于，所述取其众数作为所述待矫正用户的最终性别并进行填充之后，还包括：

将在每个所述业务中已上报性别信息的用户进行抽样调研的性别结果与其在每个所述业务中相应上报的性别信息进行一一比对；

根据比对结果，计算得出每个所述业务的性别整体准确率z_n；

若所述最终性别为女性，所述最终性别的评分为S3，S3＝(1-S1×(1-z₁)×(1-z₂)...×(1-z_n))，其中，n的取值为所述多个业务的总业务数；且已上报性别信息为男性所对应的业务以及没有性别信息所对应的业务的性别整体准确率z_n的取值为零；

若所述最终性别为男性，所述最终性别的评分为S4，S4＝(1-(1-S1)×(1-z₁)×(1-z₂)...×(1-z_n))，其中，n的取值为所述多个业务的总业务数；且已上报性别信息为女性所对应的业务以及没有性别信息所对应的业务的性别整体准确率z_n的取值为零。

12.一种终端，其特征在于，包括用于执行如权利要求1-11任一权利要求所述的方法的单元。

13.一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-11任一项所述的方法。

14.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-11任一项所述的方法。