CN105654131A - 分类模型训练方法及装置 - Google Patents

分类模型训练方法及装置 Download PDF

Info

Publication number
CN105654131A
CN105654131A CN201511020827.XA CN201511020827A CN105654131A CN 105654131 A CN105654131 A CN 105654131A CN 201511020827 A CN201511020827 A CN 201511020827A CN 105654131 A CN105654131 A CN 105654131A
Authority
CN
China
Prior art keywords
sex
user
characteristic
feature vectors
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511020827.XA
Other languages
English (en)
Inventor
汪平仄
张涛
龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Technology Co Ltd
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201511020827.XA priority Critical patent/CN105654131A/zh
Publication of CN105654131A publication Critical patent/CN105654131A/zh
Priority to PCT/CN2016/087528 priority patent/WO2017113664A1/zh
Priority to EP16205538.8A priority patent/EP3188094A1/en
Priority to US15/391,923 priority patent/US20170193399A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开揭示了一种分类模型训练方法及装置,属于信息技术领域。分类模型训练方法包括:根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,确定每个样本特征向量所属用户的性别标识,根据每个样本特征向量和每个样本特征向量对应的性别标识进行训练,得到性别分类模型。通过根据每个用户的至少一个样本短信确定每个用户的至少一项特征集合,获取每个用户的样本特征向量,确定每个样本特征向量所属用户的性别标识,对多个样本特征向量和每个样本特征向量对应的性别标识进行训练,得到性别分类模型,该性别分类模型可以用于性别分类,实现了根据用户样本短信确定用户性别的目的,增加了样本短信的信息量,提高了灵活性。

Description

分类模型训练方法及装置
技术领域
本公开涉及信息技术领域,特别涉及一种分类模型训练方法及装置。
背景技术
通常情况下,当用户在某些网站上执行了登录、购物、支付等操作时,网站会根据用户预先注册的电话号码发送通知类的短信,对用户进行操作提示。
通知类的短信中一般会包括用户的个人信息,通过对这种短信进行分析可以获知用户的个人信息。例如,用户在网上购买商品之后,商家向用户发送的快递通知短信为:“<#姓名#>您好,您的订单<#订单号#>商品已经开始派送,配送公司为<#快递公司#>,快递单号:<#订单号#>”,从该快递通知短信中可以获知用户的姓名、订单号等信息。
但是,通知类短信中很少会包括与用户性别相关的信息,根据通知类短信很难确定用户的性别。
发明内容
为克服相关技术中存在的问题,本公开提供一种分类模型训练方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种分类模型训练方法,所述方法包括:
根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,每个用户的至少一项特征集合根据对应用户的至少一个样本短信确定;
确定每个样本特征向量所属用户的性别标识;
根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型。
在另一实施例中,所述根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型,包括:
采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到所述性别分类模型。
在另一实施例中,所述采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到所述性别分类模型,包括:
将所述多个样本特征向量以及每个样本特征向量对应的性别标识组合成初始的特征数据集;
在训练过程的每一层中,获取当前的特征数据集中的每个特征维度的增益值,每个特征维度与所述多个样本特征向量中相应位置上的特征值对应,所述增益值用于表示对应特征维度对性别分类结果的影响程度;
将当前的特征数据集中增益值最大的特征维度确定为测试维度,在当前层构建与所述测试维度对应的节点,作为上一层所构建节点的分支节点;
按照所述特征数据集中所述测试维度对应的至少一个特征值,将当前的特征数据集划分为至少一个子集,并将所述至少一个子集中所述测试维度对应的特征值删除,得到至少一个特征数据集;
将所述至少一个特征数据集传递至下一层中,继续在下一层根据对应特征数据集构建当前层节点的分支节点,直至当前的特征数据集中仅包括一种性别标识时,根据所述性别标识构建节点,将构建的多层节点组合成所述性别分类模型。
在另一实施例中,所述方法还包括:
基于所述性别分类模型,对目标用户进行分类,得到所述目标用户的性别标识。
在另一实施例中,所述基于所述分类模型,对目标用户进行分类,得到所述目标用户的性别标识,包括:
根据所述目标用户的至少一项特征集合,获取所述目标用户的目标特征向量,所述目标用户的至少一项特征集合根据所述目标用户的至少一个目标短信确定;
根据所述目标特征向量和所述性别分类模型,确定所述目标用户的性别标识。
在另一实施例中,所述方法还包括:
每隔预设时长,获取所述目标用户的至少一个目标短信,根据所述至少一个目标短信确定所述目标用户的至少一项特征集合;或者,
当检测到所述目标用户的目标短信数目增加了预设阈值时,获取所述目标用户的至少一个目标短信,根据所述至少一个目标短信确定所述目标用户的至少一项特征集合。
在另一实施例中,用户的特征集合包括:称呼特征集合、操作特征集合、应用特征集合中的至少一项。
在另一实施例中,所述称呼特征集合包括男性称呼特征集合和女性称呼特征集合。
在另一实施例中,所述操作特征集合至少包括网购次数参数、团购次数参数、月账单消费参数中的一种。
在另一实施例中,所述应用特征集合至少包括应用程序APP注册数量参数、性别特定APP参数中的一种。
根据本公开实施例的第二方面,提供一种分类模型训练装置,包括装置包括:
第一获取模块,用于根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,每个用户的至少一项特征集合根据对应用户的至少一个样本短信确定;
确定模块,用于确定每个样本特征向量所属用户的性别标识;
训练模块,用于根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型。
在另一实施例中,所述训练模块还用于采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到所述性别分类模型。
在另一实施例中,所述训练模块还用于将所述多个样本特征向量以及每个样本特征向量对应的性别标识组合成初始的特征数据集,在训练过程的每一层中,获取当前的特征数据集中的每个特征维度的增益值,每个特征维度与所述多个样本特征向量中相应位置上的特征值对应,所述增益值用于表示对应特征维度对性别分类结果的影响程度,将当前的特征数据集中增益值最大的特征维度确定为测试维度,在当前层构建与所述测试维度对应的节点,作为上一层所构建节点的分支节点,按照所述特征数据集中所述测试维度对应的至少一个特征值,将当前的特征数据集划分为至少一个子集,并将所述至少一个子集中所述测试维度对应的特征值删除,得到至少一个特征数据集,将所述至少一个特征数据集传递至下一层中,继续在下一层根据对应特征数据集构建当前层节点的分支节点,直至当前的特征数据集中仅包括一种性别标识时,根据所述性别标识构建节点,将构建的多层节点组合成所述性别分类模型。
在另一实施例中,所述装置还包括:
分类模块,用于基于所述性别分类模型,对目标用户进行分类,得到所述目标用户的性别标识。
在另一实施例中,所述分类模块还用于根据所述目标用户的至少一项特征集合,获取所述目标用户的目标特征向量,所述目标用户的至少一项特征集合根据所述目标用户的至少一个目标短信确定,根据所述目标特征向量和所述性别分类模型,确定所述目标用户的性别标识。
在另一实施例中,所述装置还包括:
第二获取模块,用于每隔预设时长,获取所述目标用户的至少一个目标短信,根据所述至少一个目标短信确定所述目标用户的至少一项特征集合;或者,当检测到所述目标用户的目标短信数目增加了预设阈值时,获取所述目标用户的至少一个目标短信,根据所述至少一个目标短信确定所述目标用户的至少一项特征集合。
在另一实施例中,用户的特征集合包括:称呼特征集合、操作特征集合、应用特征集合中的至少一项。
在另一实施例中,所述称呼特征集合包括男性称呼特征集合和女性称呼特征集合。
在另一实施例中,所述操作特征集合至少包括网购次数参数、团购次数参数、月账单消费参数中的一种。
在另一实施例中,所述应用特征集合至少包括应用程序APP注册数量参数、性别特定APP参数中的一种。
根据本公开的第三方面,提供一种分类模型训练装置,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,每个用户的至少一项特征集合根据对应用户的至少一个样本短信确定;
确定每个样本特征向量所属用户的性别标识;
根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过根据每个用户的至少一个样本短信确定每个用户的至少一项特征集合,从而获取每个用户的样本特征向量,确定每个样本特征向量所属用户的性别标识,根据多个用户中每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型,该性别分类模型可以用于性别分类,实现了根据用户的样本短信确定用户性别的目的,增加了样本短信的信息量,提高了灵活性。
在另一实施例中,采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到所述性别分类模型。例如,将所述多个样本特征向量以及每个样本特征向量对应的性别标识组合成初始的特征数据集,获取特征数据集中的每个特征维度的增益值,每个特征维度与所述多个样本特征向量中相应位置上的特征值对应,所述增益值用于表示对应特征维度对性别分类结果的影响程度,将当前的特征数据集中增益值最大的特征维度确定为测试维度,在当前层构建与所述测试维度对应的节点,作为上一层所构建节点的分支节点,按照所述特征数据集中所述测试维度对应的至少一个特征值,将当前的特征数据集划分为至少一个子集,并将所述至少一个子集中所述测试维度对应的特征值删除,得到至少一个特征数据集,将所述至少一个特征数据集传递至下一层中,继续在下一层根据对应特征数据集构建当前层节点的分支节点,直至当前的特征数据集中仅包括一种性别标识时,根据所述性别标识构建节点,将构建的多层节点组合成所述性别分类模型。通过对多个样本特征向量以及每个样本特征向量所属用户的性别标识进行训练,不断根据不同的特征维度构建多层节点,从而得到准确的性别分类模型,能够提高基于性别分类模型确定用户性别标识的准确率。
在另一实施例中,基于所述性别分类模型,对目标用户进行分类,得到所述目标用户的性别标识。通过对目标用户进行分类,增加了获取到的信息量,提高了灵活性。
在另一实施例中,对目标用户进行分类时,获取目标用户的至少一个目标短信,根据该目标用户的至少一个目标短信确定目标用户的至少一项特征集合,获取该目标用户的目标特征向量,将目标特征向量输入至训练完成的性别分类模型中,根据目标特征向量和性别分类模型,确定目标用户的性别标识。通过根据用户的样本短信的至少一项特征集合确定的样本特征向量训练出性别分类模型后,在对目标用户进行分类时,获取目标用户的至少一个目标短信的至少一项特征集合,确定该目标用户的目标特征向量,基于性别分类模型,对目标特征向量进行计算,从而确定目标用户的性别,提高了准确率。
在另一实施例中,每隔预设时长获取该目标用户的至少一个目标短信,根据该至少一个目标短信确定该目标用户的至少一项特征集合,从而得到目标用户最新的目标特征向量,以便确定目标用户的性别标识。或者在检测到目标用户的目标短信数目增加了预设阈值时,获取该目标用户的至少一个目标短信,根据该至少一个目标短信确定该目标用户的至少一项特征集合,从而得到目标用户最新的目标特征向量,以便确定目标用户的性别标识。通过每隔预设时长或者在检测到目标用户的目标短信数目增加了预设阈值时,获取目标用户的至少一个目标短信,从而基于新获取到的目标短信重新确定目标用户的性别标识,提高了分类准确率。
在另一实施例中,用户的特征集合包括:称呼特征集合、操作特征集合、应用特征集合中的至少一项。其中,称呼特征集合包括男性称呼特征集合和女性称呼特征集合,操作特征集合至少包括网购次数参数、团购次数参数、月账单消费参数中的一种,应用特征集合至少包括应用程序APP注册数量参数、性别特定APP参数中的一种。通过将用户样本特征向量的各个特征维度的特征按照样本短信中的称呼、样本短信所指示操作和样本短信所指示应用划分为三类,使得样本特征向量和目标特征向量的特征维度便于管理,提高了获取样本特征向量和目标特征向量的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种分类模型训练方法的流程图;
图2是根据另一示例性实施例示出的一种分类模型训练方法的流程图;
图3是根据一示例性实施例示出的一种分类模型的示意图;
图4是根据一示例性实施例示出的一种分类模型训练装置的框图;
图5是根据另一示例性实施例示出的一种分类模型训练装置的框图;
图6是根据又一示例性实施例示出的一种分类模型训练装置的框图;
图7是根据又一示例性实施例示出的一种分类模型训练装置的框图;
图8是根据又一示例性实施例示出的一种分类模型训练装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种分类模型训练方法的流程图,如图1所示,该分类模型训练方法应用于分类装置中,包括以下步骤:
在步骤101中,根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,每个用户的至少一项特征集合根据对应用户的至少一个样本短信确定。
在步骤102中,确定每个样本特征向量所属用户的性别标识。
在步骤103中,根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型。
综上所述,本公开实施例中提供的分类模型训练方法,通过根据每个用户的至少一个样本短信确定每个用户的至少一项特征集合,从而获取每个用户的样本特征向量,确定每个样本特征向量所属用户的性别标识,根据多个用户中每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型,该性别分类模型可以用于性别分类,实现了根据用户的样本短信确定用户性别的目的,增加了样本短信的信息量,提高了灵活性。
在另一实施例中,该根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型,包括:
采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到该性别分类模型。
在另一实施例中,该采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到该性别分类模型,包括:
将该多个样本特征向量以及每个样本特征向量对应的性别标识组合成初始的特征数据集;
在训练过程的每一层中,获取当前的特征数据集中的每个特征维度的增益值,每个特征维度与该多个样本特征向量中相应位置上的特征值对应,该增益值用于表示对应特征维度对性别分类结果的影响程度;
将当前的特征数据集中增益值最大的特征维度确定为测试维度,在当前层构建与该测试维度对应的节点,作为上一层所构建节点的分支节点;
按照该特征数据集中该测试维度对应的至少一个特征值,将当前的特征数据集划分为至少一个子集,并将该至少一个子集中该测试维度对应的特征值删除,得到至少一个特征数据集;
将该至少一个特征数据集传递至下一层中,继续在下一层根据对应特征数据集构建当前层节点的分支节点,直至当前的特征数据集中仅包括一种性别标识时,根据该性别标识构建节点,将构建的多层节点组合成该性别分类模型。
在另一实施例中,该方法还包括:
基于该性别分类模型,对目标用户进行分类,得到该目标用户的性别标识。
在另一实施例中,基于该分类模型,对目标用户进行分类,得到该目标用户的性别标识,包括:
根据该目标用户的至少一项特征集合,获取该目标用户的目标特征向量,该目标用户的至少一项特征集合根据该目标用户的至少一个目标短信确定;
根据该目标特征向量和该性别分类模型,确定该目标用户的性别标识。
在另一实施例中,该方法还包括:
每隔预设时长,获取该目标用户的至少一个目标短信,根据该至少一个目标短信确定该目标用户的至少一项特征集合;或者,
当检测到该目标用户的目标短信数目增加了预设阈值时,获取该目标用户的至少一个目标短信,根据该至少一个目标短信确定该目标用户的至少一项特征集合。
在另一实施例中,用户的特征集合包括:称呼特征集合、操作特征集合、应用特征集合中的至少一项。
在另一实施例中,该称呼特征集合包括男性称呼特征集合和女性称呼特征集合。
在另一实施例中,该操作特征集合至少包括网购次数参数、团购次数参数、月账单消费参数中的一种。
在另一实施例中,该应用特征集合至少包括APP(Application,应用程序)注册数量参数、性别特定APP参数中的一种。
图2是根据一示例性实施例示出的一种分类模型训练方法的流程图,如图2所示,该分类模型训练方法应用于分类装置中,包括以下步骤:
在步骤201中,根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量。
其中,分类装置可以为终端,也可以为服务器,本实施例对此不做限定。
在本实施例中,为了准确地对用户进行分类,确定用户的性别,可以先训练出性别分类模型。
对于每个用户来说,分类装置可以将用户的历史短信作为样本短信,根据至少一个样本短信获取至少一项特征集合,作为用户的特征集合,并根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,从而对多个用户的样本特征向量进行训练得到性别分类模型。
其中,该历史短信可以包括用户已接收到的短信或者已发出的短信等,且由于通知类短信中包括的性别特征要多于其他短信中的性别特征,该分类装置可以获取用户历史短信中的至少一个通知类短信,根据至少一个通知类短信获取至少一项特征集合,作为用户的特征集合,以减小计算量,本实施例对此不做限定。
其中,用户的样本特征向量可能包括多个特征维度下的特征值,该样本特征向量的特征维度可以包括:男性称呼总次数参数、网购次数参数、APP注册数量参数等,本实施例对此不做限定。每个样本特征向量中,一个特征维度对应一个特征值,在每个特征维度下,根据用户的至少一个样本短信的具体信息的不同,对应的特征值也不同。
例如,样本特征向量包括三个特征维度:男性称呼总次数参数、网购次数参数和APP注册数量参数。如果用户有10个样本短信,其中有3个样本短信中包括“先生”,有5个样本短信是快递短信,有4个样本短信是注册APP时的验证短信,则该用户的样本特征向量的“男性称呼总次数参数”下的特征值为3、“网购次数参数”下的特征值为5、“APP注册数量参数”下的特征值为4,该用户的样本特征向量为{3,5,4}。
样本特征向量可能具有多个特征维度,为了便于管理样本特征向量的特征维度,可以按照样本短信中的称呼、样本短信所指示操作和样本短信所指示应用的不同,将多个特征维度下的特征划分为三项特征集合:称呼特征集合、操作特征集合、应用特征集合,则用户的特征集合包括称呼特征集合、操作特征集合、应用特征集合中的至少一项。
其中,这三项特征集合可以为:
1、称呼特征集合为至少一个样本短信中称呼的特征集合,该称呼特征集合可以包括男性称呼特征集合和女性称呼特征集合。该至少一个样本短信中的称呼可以为“先生”、“帅哥”、“女士”、“小姐”、“美女”等,这些称呼中可能包括男性称呼和女性称呼,男性称呼特征集合对应的特征维度可以包括男性称呼总次数参数,女性称呼特征集合对应的特征维度可以包括女性称呼总次数参数,另外该称呼特征集合对应的特征维度还可以包括男性称呼总次数参数是否大于女性称呼总次数参数等。
2、操作特征集合为至少一个样本短信所指示操作的特征集合,该操作特征集合至少包括网购次数参数、团购次数参数、月账单消费参数中的一种,当然也可以包括其他操作特征的参数。
例如,可以根据用户的快递短信的数量获取用户的快递数量参数,根据团购短信的数量获取用户的团购次数参数,从用户的***账单短信中可以获取用户的月账单消费参数,该月账单消费参数可以包括消费次数参数、平均消费额度参数等。
3、应用特征集合为至少一个样本短信所指示的APP的集合,该应用特征集合至少包括APP注册数量参数、性别特定APP参数中的一种,当然也可以包括其他与APP相关的参数。
例如,根据该注册APP时的验证码短信获取APP注册数量参数,或者,根据用户注册的APP类型,获取性别特定APP参数。性别特定APP可以包括女性特定APP和男性特定APP。例如,女性可能会经常使用生理周期管理APP、化妆品购买APP、服饰购买APP、美颜APP等女性特定APP,则女性特定APP参数可以包括:是否使用生理周期管理APP、化妆品购买类APP注册数量参数、服饰购买类APP注册数量参数,而男性可能会经常使用理财APP、游戏APP、体育APP、新闻APP等男性特定APP,则男性特定APP参数可以包括:理财类APP注册数量参数、游戏类APP注册数量参数、是否使用体育类APP、是否使用新闻类APP。
分类装置获取到用户的至少一个样本短信在每个特征维度下的特征后,多个特征维度下的特征可以组合成特征集合,根据组合的特征集合,得到用户的样本特征向量。
例如,用户有20个样本短信,其中有4个样本短信中包括“先生”,有1个样本短信中包括“帅哥”,有5个样本短信是快递短信,有3个样本短信是团购短信,有12个样本短信是注册验证码短信,在这12个验证码短信中有5个是游戏类应用的注册验证码短信,则按照男性称呼总次数参数、网购次数参数、团购次数参数、APP注册数量参数、游戏类APP注册数量参数这5个特征维度,得到可以确定5个特征维度下的特征值为5,5,3,12,5,则该样本特征向量为[5,5,3,12,5]。
在步骤202中,确定每个样本特征向量所属用户的性别标识。
分类装置可以确定每个用户的性别标识,该性别标识可以为男或女。对于每个用户来说,用户的性别标识可以作为对用户的样本特征向量的分类结果,那么,根据多个样本特征向量和每个样本特征向量所属用户的性别标识进行训练,可以得到性别分类模型。
在步骤203中,根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型。
得到多个用户的样本特征向量后,分类装置可以采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到该性别分类模型。当然,该分类装置还可以采用SVM(SupportVectorMachine,支持向量机)等其他算法进行训练,得到性别分类模型,本实施例对预设训练算法不做限定。
例如,采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到该性别分类模型的过程可以包括:
1、分类装置将该多个样本特征向量以及每个样本特征向量对应的性别标识组合成初始的特征数据集。
2、在训练过程的每一层中,获取当前的特征数据集中的每个特征维度的增益值,将当前的特征数据集中增益值最大的特征维度确定为测试维度,在当前层构建与该测试维度对应的节点,作为上一层所构建节点的分支节点。
例如,多个用户的样本特征向量以及每个样本特征向量所属用户对应的性别标识组合成的特征数据集如下表1所示,其中男性性别标识用1表示,女性性别标识用0表示。
表1
计算表1所示特征数据集中每个特征维度的增益值,得出增益值最大的为“女性称呼总次数参数”这一特征维度,则将“女性称呼总次数参数”这个特征维度确定为测试维度,根据获取到的特征数据集和测试维度,构建节点1,如图3所示。
3、按照该特征数据集中该测试维度对应的至少一个特征值,将当前的特征数据集划分为至少一个子集,并将该至少一个子集中该测试维度对应的特征值删除,得到至少一个特征数据集。
其中,每个特征维度与该多个样本特征向量中相应位置上的特征值对应,每个特征维度的增益值用于表示对应特征维度对性别分类结果的影响程度,可以采用信息增益算法、卡方检验等算法计算每个特征维度的增益值,本实施例对此不做限定。
另外,按照该特征数据集中该测试维度对应的至少一个特征值,将当前的特征数据集划分为至少一个子集包括:
第一种:按照该测试维度对应的至少一个特征值的不同,对当前的特征数据集进行划分,使得划分得到的多个子集中,同一子集中该测试维度对应的特征值均相同,而不同子集中该测试维度对应的特征值均不同。
第二种:按照该测试维度对应的至少一个特征值所属范围的不同,将至少一个特征值划分为多个范围,并对当前的特征数据集进行划分,使得划分得到的多个子集中,同一子集中该测试维度对应的特征值均属于同一范围,而不同子集中该测试维度对应的特征值均属于不同的范围。
参见图3,基于步骤1和2的举例,每个样本特征向量在测试维度“女性称呼总次数参数”上的特征值包括大于5和不大于5两种,将表1所示的特征数据集中女性称呼总次数参数大于5的样本特征向量作为一个特征数据集,并将女性称呼总次数参数不大于5的样本特征向量作为另一个特征数据集,并将这两个特征数据集中的“女性称呼总次数参数”维度上的特征值删除,得到的两个特征数据集分别如表2、表3所示:
表2
表3
4、将根据该测试维度对应的至少一个特征值划分得到的至少一个特征数据集传递到下一层中,在下一层继续重复上述步骤2至3构建节点,并作为当前层所构建节点在对应特征值条件下的分支节点,直至当前的特征数据集中仅包括一种性别标识时,根据该性别标识构建节点,将构建的多层节点组合成该性别分类模型。
如果当前层为第一层,则分类装置可以根据确定的测试维度构建一个节点,并根据该测试维度对应的特征值在第二层构建分支节点,并针对第二层的每个节点上的特征数据集继续执行步骤2至4,以此类推,直至当前的特征数据集中仅包括一种性别标识时停止。
而且,构建节点时,可以先判断当前的特征数据集是否仅包括一种性别标识,如果当前的特征数据集仅包括一种性别标识,则直接根据该性别标识构建节点,而无需计算测试维度,如果当前的特征数据集中包括多种性别标识,则根据当前的特征数据集计算测试维度,并构建节点,作为上一层的分支节点。
基于上述步骤1-4的举例,参见图3,将划分到的两个特征数据集传递到第二层中,在第二层中,由于表2所示特征数据集中包括0和1两种性别标识,则计算增益值最大的特征维度为“男性称呼总次数参数”,将“男性称呼总次数参数”这一特征维度确定为测试维度,构建节点2,而表3所示特征数据集中仅包括性别标识1,因此无需计算测试维度,直接构建节点3“男性”,并将节点2和节点3作为节点1的分支节点,其中节点2是节点1在女性称呼总次数参数大于5的条件下的分支节点,节点3是节点1在女性称呼总次数参数不大于5的条件下的分支节点。
针对节点2,表2所示特征数据集中测试维度“男性称呼总次数参数”包括大于5和不大于5两种,将表2所示的特征数据集中男性称呼总次数参数大于5的样本特征向量作为一个特征数据集,并将男性称呼总次数参数不大于5的样本特征向量作为另一个特征数据集,并将这两个特征数据集中的“男性称呼总次数参数”维度上的特征值删除,得到的两个特征数据集分别如表4、表5所示:
表4
表5
将表4和表5所示特征数据集传递至第三层中,在第三层中,由于表4和表5所示特征数据集中仅包括一种性别标识,因此无需计算测试维度,直接构建节点4“男性”和节点5“女性”,并将节点4和节点5作为节点2的分支节点,其中节点4是节点2在男性称呼总次数参数大于5的条件下的分支节点,节点5是节点2在男性称呼总次数参数不大于5的条件下的分支节点。此时,得到节点1至节点5,将节点1至节点5组成性别分类模型。
在步骤204中,基于该性别分类模型,对目标用户进行分类,得到该目标用户的性别标识。
得到该性别分类模型后,要对目标用户进行分类时,该分类装置可以获取目标用户的至少一个目标短信,包括目标用户接收到的短信或者发出的短信等,根据该目标用户的至少一个目标短信确定目标用户的至少一项特征集合,并根据该目标用户的至少一项特征集合,获取该目标用户的目标特征向量,将目标特征向量输入至训练完成的性别分类模型中,根据目标特征向量和性别分类模型,确定目标用户的性别标识,实现对目标用户的性别分类。
其中,由于通知类短信中包括的特征较多,该分类装置可以从目标用户的多个短信中获取目标用户的通知类短信,作为目标短信。例如,对于用户的每个短信,分类装置判断发送该短信的号码是否为预设号码,如果是预设号码,则可以确定该短信为通知类短信。
其中,预设号码可以包括商家的电话号码、快递公司的电话号码、银行的电话号码或者预设团体机构的电话号码等,本实施例对该预设号码不做限定。
其中,在分类装置获取目标特征向量时,为了能够根据性别分类模型获取用户的性别标识,该目标特征向量的维度数目与样本特征向量的维度数目相同,且目标特征向量的每个维度与样本特征向量的每个维度对应相同。
本步骤204中获取目标用户的目标特征向量与步骤201中获取用户的样本特征向量的过程类似,在此不再赘述。
另外,为了提高分类准确率,可以多次获取目标用户的至少一个目标短信,根据每次获取到的至少一个目标短信再次进行分类,实现对目标用户的性别标识的更新。
其中,获取目标用户的目标短信时,可以采用以下两种方式:
1、分类装置可以每隔预设时长,获取该目标用户的至少一个目标短信,根据该至少一个目标短信确定该目标用户的至少一项特征集合,从而得到目标用户最新的目标特征向量,以便确定目标用户的性别标识。
2、分类装置可以在检测到目标用户的目标短信数目增加了预设阈值时,获取该目标用户的至少一个目标短信,根据该至少一个目标短信确定该目标用户的至少一项特征集合,从而得到目标用户最新的目标特征向量,以便确定目标用户的性别标识。
当然,还可以在其他时刻获取目标用户的至少一个目标短信,以便确定目标用户的性别标识,本实施例对此不做限定。
其中,获取该目标用户的至少一个目标短信时,可以获取到此时为止该目标用户的全部目标短信,也可以忽略上一次获取到的目标短信,仅获取本次新增加的目标短信,本实施例对此不做限定。
确定目标用户的性别标识,即确定了目标用户的性别,考虑到不同性别的用户喜好不同,则可以将待推荐信息划分为男性用户喜爱的信息和女性用户喜爱的信息,根据该目标用户的性别,为该目标用户推荐匹配的信息。
例如,可以男性用户推荐体育类别的新闻、户外用品等信息,为女性用户推荐购物折扣信息、化妆品等信息。
综上所述,本公开实施例中提供的分类模型训练方法,通过根据每个用户的至少一个样本短信确定每个用户的至少一项特征集合,从而获取每个用户的样本特征向量,确定每个样本特征向量所属用户的性别标识,根据多个用户中每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型,该性别分类模型可以用于性别分类,实现了根据用户的样本短信确定用户性别的目的,增加了样本短信的信息量,提高了灵活性。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是根据一示例性实施例示出的一种分类模型训练装置的框图,如图4所示,该分类模型训练装置包括:第一获取模块401、确定模块402和训练模块403。
该第一获取模块401,被配置为用于根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,每个用户的至少一项特征集合根据对应用户的至少一个样本短信确定;
该确定模块402,被配置为用于确定每个样本特征向量所属用户的性别标识;
该训练模块403,被配置为用于根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型。
本实施例提供的分类模型训练装置,通过根据每个用户的至少一个样本短信确定每个用户的至少一项特征集合,从而获取每个用户的样本特征向量,确定每个样本特征向量所属用户的性别标识,根据多个用户中每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型,该性别分类模型可以用于性别分类,实现了根据用户的样本短信确定用户性别的目的,增加了样本短信的信息量,提高了灵活性。
在另一实施例中,该训练模块403还被配置为用于采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到该性别分类模型。
在另一实施例中,该训练模块403还被配置为用于将该多个样本特征向量以及每个样本特征向量对应的性别标识组合成初始的特征数据集,在训练过程的每一层中,获取当前的特征数据集中的每个特征维度的增益值,每个特征维度与该多个样本特征向量中相应位置上的特征值对应,该增益值用于表示对应特征维度对性别分类结果的影响程度,将当前的特征数据集中增益值最大的特征维度确定为测试维度,在当前层构建与该测试维度对应的节点,作为上一层所构建节点的分支节点,按照该特征数据集中该测试维度对应的至少一个特征值,将当前的特征数据集划分为至少一个子集,并将该至少一个子集中该测试维度对应的特征值删除,得到至少一个特征数据集,将该至少一个特征数据集传递至下一层中,继续在下一层根据对应特征数据集构建当前层节点的分支节点,直至当前的特征数据集中仅包括一种性别标识时,根据该性别标识构建节点,将构建的多层节点组合成该性别分类模型。
参见图5,在另一实施例中,该装置还包括:分类模块404。
该分类模块404还被配置为用于基于该性别分类模型,对目标用户进行分类,得到该目标用户的性别标识。
在另一实施例中,该分类模块404还被配置为用于根据该目标用户的至少一项特征集合,获取该目标用户的目标特征向量,该目标用户的至少一项特征集合根据该目标用户的至少一个目标短信确定,根据该目标特征向量和该性别分类模型,确定该目标用户的性别标识。
参见图6,在另一实施例中,该装置还包括:第二获取模块405。
该第二获取模块405,还被配置为用于每隔预设时长,获取该目标用户的至少一个目标短信,根据该至少一个目标短信确定该目标用户的至少一项特征集合;或者,当检测到该目标用户的目标短信数目增加了预设阈值时,获取该目标用户的至少一个目标短信,根据该至少一个目标短信确定该目标用户的至少一项特征集合。
在另一实施例中,用户的特征集合包括:称呼特征集合、操作特征集合、应用特征集合中的至少一项。
在另一实施例中,该称呼特征集合包括男性称呼特征集合和女性称呼特征集合。
在另一实施例中,该操作特征集合至少包括网购次数参数、团购次数参数、月账单消费参数中的一种。
在另一实施例中,该应用特征集合至少包括应用程序APP注册数量参数、性别特定APP参数中的一种。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据另一示例性实施例示出的一种分类模型训练装置的框图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件702,其进一步包括一个或多个处理器,以及由存储器704所代表的存储器资源,用于存储可由处理组件702的执行的指令,例如应用程序。存储器704中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件702被配置为执行指令,以执行上述分类模型训练方法。
装置700还可以包括一个电源组件706被配置为执行装置700的电源管理,一个有线或无线网络接口708被配置为将装置700连接到网络,和一个输入输出(I/O)接口710。装置700可以操作基于存储在存储器704的操作***,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
图8是根据一示例性实施例示出的一种分类模型训练装置的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器818来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如Wi-Fi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述分类模型训练方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器818执行以完成上述分类模型训练方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (21)

1.一种分类模型训练方法,其特征在于,所述方法包括:
根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,每个用户的至少一项特征集合根据对应用户的至少一个样本短信确定;
确定每个样本特征向量所属用户的性别标识;
根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型。
2.根据权利要求1所述的方法,其特征在于,所述根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型,包括:
采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到所述性别分类模型。
3.根据权利要求2所述的方法,其特征在于,所述采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到所述性别分类模型,包括:
将所述多个样本特征向量以及每个样本特征向量对应的性别标识组合成初始的特征数据集;
在训练过程的每一层中,获取当前的特征数据集中的每个特征维度的增益值,每个特征维度与所述多个样本特征向量中相应位置上的特征值对应,所述增益值用于表示对应特征维度对性别分类结果的影响程度;
将当前的特征数据集中增益值最大的特征维度确定为测试维度,在当前层构建与所述测试维度对应的节点,作为上一层所构建节点的分支节点;
按照所述特征数据集中所述测试维度对应的至少一个特征值,将当前的特征数据集划分为至少一个子集,并将所述至少一个子集中所述测试维度对应的特征值删除,得到至少一个特征数据集;
将所述至少一个特征数据集传递至下一层中,继续在下一层根据对应特征数据集构建当前层节点的分支节点,直至当前的特征数据集中仅包括一种性别标识时,根据所述性别标识构建节点,将构建的多层节点组合成所述性别分类模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述性别分类模型,对目标用户进行分类,得到所述目标用户的性别标识。
5.根据权利要求4所述的方法,其特征在于,所述基于所述分类模型,对目标用户进行分类,得到所述目标用户的性别标识,包括:
根据所述目标用户的至少一项特征集合,获取所述目标用户的目标特征向量,所述目标用户的至少一项特征集合根据所述目标用户的至少一个目标短信确定;
根据所述目标特征向量和所述性别分类模型,确定所述目标用户的性别标识。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
每隔预设时长,获取所述目标用户的至少一个目标短信,根据所述至少一个目标短信确定所述目标用户的至少一项特征集合;或者,
当检测到所述目标用户的目标短信数目增加了预设阈值时,获取所述目标用户的至少一个目标短信,根据所述至少一个目标短信确定所述目标用户的至少一项特征集合。
7.根据权利要求1所述的方法,其特征在于,用户的特征集合包括:称呼特征集合、操作特征集合、应用特征集合中的至少一项。
8.根据权利要求7所述的方法,其特征在于,所述称呼特征集合包括男性称呼特征集合和女性称呼特征集合。
9.根据权利要求7所述的方法,其特征在于,所述操作特征集合至少包括网购次数参数、团购次数参数、月账单消费参数中的一种。
10.根据权利要求7所述的方法,其特征在于,所述应用特征集合至少包括应用程序APP注册数量参数、性别特定APP参数中的一种。
11.一种分类模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,每个用户的至少一项特征集合根据对应用户的至少一个样本短信确定;
确定模块,用于确定每个样本特征向量所属用户的性别标识;
训练模块,用于根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型。
12.根据权利要求11所述的装置,其特征在于,所述训练模块还用于采用决策树算法,对每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到所述性别分类模型。
13.根据权利要求12所述的装置,其特征在于,所述训练模块还用于将所述多个样本特征向量以及每个样本特征向量对应的性别标识组合成初始的特征数据集,在训练过程的每一层中,获取当前的特征数据集中的每个特征维度的增益值,每个特征维度与所述多个样本特征向量中相应位置上的特征值对应,所述增益值用于表示对应特征维度对性别分类结果的影响程度,将当前的特征数据集中增益值最大的特征维度确定为测试维度,在当前层构建与所述测试维度对应的节点,作为上一层所构建节点的分支节点,按照所述特征数据集中所述测试维度对应的至少一个特征值,将当前的特征数据集划分为至少一个子集,并将所述至少一个子集中所述测试维度对应的特征值删除,得到至少一个特征数据集,将所述至少一个特征数据集传递至下一层中,继续在下一层根据对应特征数据集构建当前层节点的分支节点,直至当前的特征数据集中仅包括一种性别标识时,根据所述性别标识构建节点,将构建的多层节点组合成所述性别分类模型。
14.根据权利要求11所述的装置,其特征在于,所述装置还包括:
分类模块,用于基于所述性别分类模型,对目标用户进行分类,得到所述目标用户的性别标识。
15.根据权利要求14所述的装置,其特征在于,所述分类模块还用于根据所述目标用户的至少一项特征集合,获取所述目标用户的目标特征向量,所述目标用户的至少一项特征集合根据所述目标用户的至少一个目标短信确定,根据所述目标特征向量和所述性别分类模型,确定所述目标用户的性别标识。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于每隔预设时长,获取所述目标用户的至少一个目标短信,根据所述至少一个目标短信确定所述目标用户的至少一项特征集合;或者,当检测到所述目标用户的目标短信数目增加了预设阈值时,获取所述目标用户的至少一个目标短信,根据所述至少一个目标短信确定所述目标用户的至少一项特征集合。
17.根据权利要求11所述的装置,其特征在于,用户的特征集合包括:称呼特征集合、操作特征集合、应用特征集合中的至少一项。
18.根据权利要求17所述的装置,其特征在于,所述称呼特征集合包括男性称呼特征集合和女性称呼特征集合。
19.根据权利要求17所述的装置,其特征在于,所述操作特征集合至少包括网购次数参数、团购次数参数、月账单消费参数中的一种。
20.根据权利要求17所述的装置,其特征在于,所述应用特征集合至少包括应用程序APP注册数量参数、性别特定APP参数中的一种。
21.一种分类模型训练装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据多个用户中每个用户的至少一项特征集合,获取每个用户的样本特征向量,每个用户的至少一项特征集合根据对应用户的至少一个样本短信确定;
确定每个样本特征向量所属用户的性别标识;
根据每个样本特征向量以及每个样本特征向量对应的性别标识进行训练,得到性别分类模型。
CN201511020827.XA 2015-12-30 2015-12-30 分类模型训练方法及装置 Pending CN105654131A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201511020827.XA CN105654131A (zh) 2015-12-30 2015-12-30 分类模型训练方法及装置
PCT/CN2016/087528 WO2017113664A1 (zh) 2015-12-30 2016-06-28 分类模型训练方法及装置
EP16205538.8A EP3188094A1 (en) 2015-12-30 2016-12-20 Method and device for classification model training
US15/391,923 US20170193399A1 (en) 2015-12-30 2016-12-28 Method and device for conducting classification model training

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511020827.XA CN105654131A (zh) 2015-12-30 2015-12-30 分类模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN105654131A true CN105654131A (zh) 2016-06-08

Family

ID=56489959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511020827.XA Pending CN105654131A (zh) 2015-12-30 2015-12-30 分类模型训练方法及装置

Country Status (4)

Country Link
US (1) US20170193399A1 (zh)
EP (1) EP3188094A1 (zh)
CN (1) CN105654131A (zh)
WO (1) WO2017113664A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017113664A1 (zh) * 2015-12-30 2017-07-06 小米科技有限责任公司 分类模型训练方法及装置
CN107886366A (zh) * 2017-11-22 2018-04-06 深圳市金立通信设备有限公司 性别分类模型的生成方法、性别填充方法、终端及存储介质
CN108399418A (zh) * 2018-01-23 2018-08-14 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN108647571A (zh) * 2018-03-30 2018-10-12 国信优易数据有限公司 视频动作分类模型训练方法、装置及视频动作分类方法
CN109598479A (zh) * 2018-10-25 2019-04-09 北京奇虎科技有限公司 一种账单提取方法、装置、电子设备及介质
WO2019120024A1 (zh) * 2017-12-22 2019-06-27 Oppo广东移动通信有限公司 用户性别识别方法、装置、存储介质及电子设备
WO2019120023A1 (zh) * 2017-12-22 2019-06-27 Oppo广东移动通信有限公司 性别预测方法、装置、存储介质及电子设备
CN109961163A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 性别预测方法、装置、存储介质及电子设备
CN109961075A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 用户性别预测方法、装置、介质及电子设备
CN110009062A (zh) * 2019-04-18 2019-07-12 成都四方伟业软件股份有限公司 分类模型训练方法及装置
CN110019791A (zh) * 2017-10-13 2019-07-16 腾讯科技(深圳)有限公司 分类模型训练、伪基站短信识别方法和装置
CN110751287A (zh) * 2018-07-23 2020-02-04 第四范式(北京)技术有限公司 神经网络模型的训练方法及***以及预测方法及***
CN111078742A (zh) * 2019-12-09 2020-04-28 秒针信息技术有限公司 用户分类模型训练方法、用户分类方法及装置
CN111178983A (zh) * 2020-01-03 2020-05-19 北京搜狐新媒体信息技术有限公司 用户性别预测方法、装置、设备及存储介质
CN111222026A (zh) * 2020-01-09 2020-06-02 支付宝(杭州)信息技术有限公司 用户类别识别模型的训练方法和用户类别识别方法
CN112329843A (zh) * 2020-11-03 2021-02-05 中国平安人寿保险股份有限公司 基于决策树的呼叫数据处理方法、装置、设备及存储介质
CN113657917A (zh) * 2020-05-12 2021-11-16 上海佳投互联网技术集团有限公司 一种基于user-agent的访客性别分析方法及***
CN113822691A (zh) * 2020-10-28 2021-12-21 北京沃东天骏信息技术有限公司 用户账号的识别方法、装置、***和介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102210772B1 (ko) * 2018-12-28 2021-02-01 아주대학교산학협력단 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법
CN112560961B (zh) * 2020-12-17 2024-04-26 中国平安人寿保险股份有限公司 基于图聚类的目标识别方法、装置、电子设备及存储介质
CN113240304A (zh) * 2021-05-20 2021-08-10 北京百度网讯科技有限公司 特征构建方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240424A1 (en) * 2004-04-27 2005-10-27 Xiaofan Lin System and method for hierarchical attribute extraction within a call handling system
CN102035698A (zh) * 2011-01-06 2011-04-27 西北工业大学 基于决策树分类算法的http隧道检测方法
US20120259619A1 (en) * 2011-04-06 2012-10-11 CitizenNet, Inc. Short message age classification
CN104423945A (zh) * 2013-08-30 2015-03-18 联想(北京)有限公司 一种信息处理方法及电子设备
CN104636504A (zh) * 2015-03-10 2015-05-20 飞狐信息技术(天津)有限公司 一种识别用户性别的方法及***
CN105095401A (zh) * 2015-07-07 2015-11-25 北京嘀嘀无限科技发展有限公司 一种性别识别的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457605B2 (en) * 2010-10-04 2013-06-04 Telefonica, S.A. Method for gender identification of a cell-phone subscriber
CN104778173B (zh) * 2014-01-10 2020-01-10 腾讯科技(深圳)有限公司 目标用户确定方法、装置及设备
CN103729785B (zh) * 2014-01-26 2015-02-25 合一信息技术(北京)有限公司 一种视频用户性别分类方法及其装置
CN105260628B (zh) * 2014-06-03 2019-01-11 腾讯科技(深圳)有限公司 分类器训练方法和装置、身份验证方法和***
KR20150144924A (ko) * 2014-06-18 2015-12-29 양용철 이동단말에서의 여성용, 남성용 아이콘을 이용한 남녀 구분 검색방법 및 이를 위한 이동단말
CN104268214B (zh) * 2014-09-24 2018-01-19 苏州大学 一种基于微博用户关系的用户性别识别方法及***
CN105654131A (zh) * 2015-12-30 2016-06-08 小米科技有限责任公司 分类模型训练方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240424A1 (en) * 2004-04-27 2005-10-27 Xiaofan Lin System and method for hierarchical attribute extraction within a call handling system
CN102035698A (zh) * 2011-01-06 2011-04-27 西北工业大学 基于决策树分类算法的http隧道检测方法
US20120259619A1 (en) * 2011-04-06 2012-10-11 CitizenNet, Inc. Short message age classification
CN104423945A (zh) * 2013-08-30 2015-03-18 联想(北京)有限公司 一种信息处理方法及电子设备
CN104636504A (zh) * 2015-03-10 2015-05-20 飞狐信息技术(天津)有限公司 一种识别用户性别的方法及***
CN105095401A (zh) * 2015-07-07 2015-11-25 北京嘀嘀无限科技发展有限公司 一种性别识别的方法及装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017113664A1 (zh) * 2015-12-30 2017-07-06 小米科技有限责任公司 分类模型训练方法及装置
CN110019791A (zh) * 2017-10-13 2019-07-16 腾讯科技(深圳)有限公司 分类模型训练、伪基站短信识别方法和装置
CN107886366A (zh) * 2017-11-22 2018-04-06 深圳市金立通信设备有限公司 性别分类模型的生成方法、性别填充方法、终端及存储介质
CN109961077A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 性别预测方法、装置、存储介质及电子设备
WO2019120024A1 (zh) * 2017-12-22 2019-06-27 Oppo广东移动通信有限公司 用户性别识别方法、装置、存储介质及电子设备
WO2019120023A1 (zh) * 2017-12-22 2019-06-27 Oppo广东移动通信有限公司 性别预测方法、装置、存储介质及电子设备
CN109961163A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 性别预测方法、装置、存储介质及电子设备
CN109961075A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 用户性别预测方法、装置、介质及电子设备
CN108399418B (zh) * 2018-01-23 2021-09-03 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN108399418A (zh) * 2018-01-23 2018-08-14 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN108647571A (zh) * 2018-03-30 2018-10-12 国信优易数据有限公司 视频动作分类模型训练方法、装置及视频动作分类方法
CN108647571B (zh) * 2018-03-30 2021-04-06 国信优易数据股份有限公司 视频动作分类模型训练方法、装置及视频动作分类方法
CN110751287A (zh) * 2018-07-23 2020-02-04 第四范式(北京)技术有限公司 神经网络模型的训练方法及***以及预测方法及***
CN110751287B (zh) * 2018-07-23 2024-02-20 第四范式(北京)技术有限公司 神经网络模型的训练方法及***以及预测方法及***
CN109598479B (zh) * 2018-10-25 2024-04-05 三六零科技集团有限公司 一种账单提取方法、装置、电子设备及介质
CN109598479A (zh) * 2018-10-25 2019-04-09 北京奇虎科技有限公司 一种账单提取方法、装置、电子设备及介质
CN110009062B (zh) * 2019-04-18 2020-07-24 成都四方伟业软件股份有限公司 分类模型训练方法及装置
CN110009062A (zh) * 2019-04-18 2019-07-12 成都四方伟业软件股份有限公司 分类模型训练方法及装置
CN111078742B (zh) * 2019-12-09 2023-09-05 秒针信息技术有限公司 用户分类模型训练方法、用户分类方法及装置
CN111078742A (zh) * 2019-12-09 2020-04-28 秒针信息技术有限公司 用户分类模型训练方法、用户分类方法及装置
CN111178983A (zh) * 2020-01-03 2020-05-19 北京搜狐新媒体信息技术有限公司 用户性别预测方法、装置、设备及存储介质
CN111178983B (zh) * 2020-01-03 2024-03-12 北京搜狐新媒体信息技术有限公司 用户性别预测方法、装置、设备及存储介质
CN111222026B (zh) * 2020-01-09 2023-07-14 支付宝(杭州)信息技术有限公司 用户类别识别模型的训练方法和用户类别识别方法
CN111222026A (zh) * 2020-01-09 2020-06-02 支付宝(杭州)信息技术有限公司 用户类别识别模型的训练方法和用户类别识别方法
CN113657917A (zh) * 2020-05-12 2021-11-16 上海佳投互联网技术集团有限公司 一种基于user-agent的访客性别分析方法及***
CN113822691A (zh) * 2020-10-28 2021-12-21 北京沃东天骏信息技术有限公司 用户账号的识别方法、装置、***和介质
CN112329843A (zh) * 2020-11-03 2021-02-05 中国平安人寿保险股份有限公司 基于决策树的呼叫数据处理方法、装置、设备及存储介质
CN112329843B (zh) * 2020-11-03 2024-06-11 中国平安人寿保险股份有限公司 基于决策树的呼叫数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20170193399A1 (en) 2017-07-06
EP3188094A1 (en) 2017-07-05
WO2017113664A1 (zh) 2017-07-06

Similar Documents

Publication Publication Date Title
CN105654131A (zh) 分类模型训练方法及装置
CN104408402B (zh) 人脸识别方法及装置
CN104537532B (zh) 消费数据记录方法及装置
CN105516270B (zh) 信息推送方法及装置
CN106528709A (zh) 社交信息推荐方法及装置
CN104036037A (zh) 处理垃圾用户的方法及装置
CN105447750A (zh) 信息识别方法、装置、终端及服务器
CN104951935A (zh) 一种分账方法及装置
CN108287921A (zh) 信息推荐方法及装置
CN106250921A (zh) 图片处理方法及装置
CN108090206A (zh) 评论信息的排序方法及装置、电子设备
CN104915114A (zh) 信息记录方法和装置、智能终端
CN103886284A (zh) 人物属性信息识别方法、装置及电子设备
CN105100193A (zh) 云名片推荐方法及装置
CN105335714A (zh) 照片处理方法、装置和设备
CN106777016A (zh) 基于即时通信进行信息推荐的方法及装置
CN110659895A (zh) 支付方法、装置、电子设备及介质
CN105677164A (zh) 页面选择方法和装置
CN105357386A (zh) 短信排序方法及装置
CN104715007A (zh) 用户标识方法及装置
CN104268149A (zh) 聚类方法及装置
CN112348606A (zh) 信息推荐方法、装置及***
CN105551047A (zh) 图片内容的检测方法和装置
CN104850855A (zh) 计算置信度的方法和装置
CN105488074A (zh) 照片聚类的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160608

RJ01 Rejection of invention patent application after publication