CN111639714B - 确定用户的属性的方法、装置和设备 - Google Patents
确定用户的属性的方法、装置和设备 Download PDFInfo
- Publication number
- CN111639714B CN111639714B CN202010484863.6A CN202010484863A CN111639714B CN 111639714 B CN111639714 B CN 111639714B CN 202010484863 A CN202010484863 A CN 202010484863A CN 111639714 B CN111639714 B CN 111639714B
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- application
- user
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种确定用户的属性的方法、装置、介质以及设备。其中的方法包括:获取多个用户的应用特征样本,形成样本集合;其中的应用特征样本用于表征用户的终端设备所安装的应用;根据具有预定属性的应用,为样本集合中的至少一应用特征样本设置标签,形成正样本和负样本;根据样本集合中的正样本和负样本,对半监督分类模型进行初始化;根据初始化后的半监督分类模型,对样本集合中的未设置标签的应用特征样本进行用户的属性预测处理;根据预测处理结果,为未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本。本公开有利于便捷准确的获知用户的属性。
Description
技术领域
本公开涉及计算机技术,尤其是涉及一种确定用户的属性的方法、确定用户的属性的装置、存储介质以及电子设备。
背景技术
在一些应用领域中,有时需要根据用户的属性(如人口统计学属性等),为用户提供更为精准的服务。其中的用户的属性可以为用户的性别、是否已婚或者是否已育等。
在网络环境中,如何采用合法手段,准确的推测使用终端设备的用户的属性,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种确定用户的属性的方法、确定用户的属性的装置、存储介质以及电子设备。
根据本公开实施例的一个方面,提供了一种确定用户的属性的方法,该方法包括:获取多个用户的应用特征样本,形成样本集合;其中,所述应用特征样本用于表征用户的终端设备所安装的应用;根据具有预定属性的应用,为所述样本集合中的至少一应用特征样本设置标签,形成正样本和负样本;根据所述样本集合中的正样本和负样本,对半监督分类模型进行初始化;根据所述初始化后的半监督分类模型,对所述样本集合中的未设置标签的应用特征样本进行用户的属性预测处理;根据所述预测处理结果,为所述未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本。
在本公开一实施方式中,所述获取多个用户的应用特征样本,包括:对于任一用户,根据该用户的终端设备上报的应用安装信息,生成该用户的应用地图;对该用户的应用地图进行压缩处理,获得该用户的应用特征样本。
在本公开又一实施方式中,所述对该用户的应用地图进行压缩处理,获得该用户的应用特征样本,包括:对该用户的应用地图进行因子分解处理,获得该用户的应用地图的第一特征;将该用户的应用地图作为神经网络的输入,经由所述神经网络对该用户的应用地图进行特征提取处理,获得该用户的应用地图的第二特征;对所述第一特征和第二特征进行拼接处理,获得该用户的应用特征样本。
在本公开再一实施方式中,所述根据具有预定属性的应用,为所述样本集合中的至少一应用特征样本设置标签,包括:根据所有用户的应用地图,确定各用户的终端设备分别安装有具有预定属性的应用的数量;为所述数量满足预定数量要求的应用特征样本,设置所述预定属性对应的标签。
在本公开再一实施方式中,所述方法在根据具有预定属性的应用,为所述样本集合中的至少一应用特征样本设置标签,形成正样本和负样本之后,还包括:将所述样本集合中的任一设置有标签的样本作为基样本,确定与所述基样本的距离符合预定距离要求的所有应用特征样本,并将所述所有应用特征样本中的设置有所述基样本的标签的应用特征样本作为少样本;若所述所有应用特征样本的数量符合预定要求,则根据所述基样本和所述少样本,生成新的少样本。
在本公开再一实施方式中,所述根据所述基样本和所述少样本,生成新的少样本,包括:将所述所有应用特征样本划分为第一部分和第二部分;根据所述第一部分和第二部分各自包含的少样本的数量和未设置标签的应用特征样本的数量,确定第一部分和第二部分各自对应的生成少样本的概率;根据所述概率确定生成少样本的方向;其中,所述方向指示第一部分和/或第二部分;根据所述基样本和所述方向所指示的部分中的少样本,生成新的少样本。
在本公开再一实施方式中,所述将所述所有应用特征样本划分为第一部分和第二部分,包括:以基样本为圆心,以通过所述圆心的直径两侧的应用特征样本中的少样本数量差异最小为原则,将所述所有应用特征样本划分为位于直径两侧的第一部分和第二部分。
在本公开再一实施方式中,所述根据所述基样本和所述方向所指示的部分中的少样本,生成新的少样本,包括:根据所述基样本和所述方向所指示的部分中的少样本的各维特征的特征值形成的各取值范围,设置所述新的少样本的各维特征的特征值。
在本公开再一实施方式中,所述根据所述预测处理结果,为所述未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本,包括:根据所述预测处理结果获得的属于正样本的概率值,将属于正样本的概率值不低于第一预定概率值的未设置标签的应用特征样本作为正样本;根据所述预测处理结果获得的属于正样本的概率值,将属于正样本的概率值低于第二预定概率值的未设置标签的应用特征样本作为负样本。
在本公开再一实施方式中,所述方法还包括:在形成正样本和负样本后,返回所述根据所述样本集合中的正样本和负样本,对半监督分类模型进行初始化的步骤,直到所述样本集合中不存在未设置标签的应用特征样本。
根据本公开实施例的另一个方面,提供一种确定用户的属性的装置,该装置包括:获取样本模块,用于获取多个用户的应用特征样本,形成样本集合;其中,所述应用特征样本用于表征用户的终端设备所安装的应用;第一设置模块,用于根据具有预定属性的应用,为所述获取样本模块形成的样本集合中的至少一应用特征样本设置标签,形成正样本和负样本;初始化模块,用于根据所述样本集合中的正样本和负样本,对半监督分类模型进行初始化;预测处理模块,用于根据所述初始化模块初始化后的半监督分类模型,对所述样本集合中的未设置标签的应用特征样本进行用户的属性预测处理;第二设置模块,用于根据所述预测处理模块的预测处理结果,为所述未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本。
在本公开一实施方式中,所述获取样本模块,包括:第一子模块,用于对于任一用户,根据该用户的终端设备上报的应用安装信息,生成该用户的应用地图;第二子模块,用于对该用户的应用地图进行压缩处理,获得该用户的应用特征样本。
在本公开又一实施方式中,所述第二子模块进一步用于:对该用户的应用地图进行因子分解处理,获得该用户的应用地图的第一特征;将该用户的应用地图作为神经网络的输入,经由所述神经网络对该用户的应用地图进行特征提取处理,获得该用户的应用地图的第二特征;对所述第一特征和第二特征进行拼接处理,获得该用户的应用特征样本。
在本公开再一实施方式中,所述第一设置模块进一步用于:根据所有用户的应用地图,确定各用户的终端设备分别安装有具有预定属性的应用的数量;为所述数量满足预定数量要求的应用特征样本,设置所述预定属性对应的标签。
在本公开再一实施方式中,所述装置还包括:确定少样本模块,用于将所述样本集合中的任一设置有标签的样本作为基样本,确定与所述基样本的距离符合预定距离要求的所有应用特征样本,并将所述所有应用特征样本中的设置有所述基样本的标签的应用特征样本作为少样本;生成样本模块,用于若所述所有应用特征样本的数量符合预定要求,则根据所述基样本和所述少样本,生成新的少样本。
在本公开再一实施方式中,所述生成样本模块,包括:第三子模块,用于将所述所有应用特征样本划分为第一部分和第二部分;第四子模块,用于根据所述第一部分和第二部分各自包含的少样本的数量和未设置标签的应用特征样本的数量,确定第一部分和第二部分各自对应的生成少样本的概率;第五子模块,用于根据所述概率确定生成少样本的方向;其中,所述方向指示第一部分和/或第二部分;第六子模块,用于根据所述基样本和所述方向所指示的部分中的少样本,生成新的少样本。
在本公开再一实施方式中,所述第三子模块进一步用于:以基样本为圆心,以通过所述圆心的直径两侧的应用特征样本中的少样本数量差异最小为原则,将所述所有应用特征样本划分为位于直径两侧的第一部分和第二部分。
在本公开再一实施方式中,所述第六子模块进一步用于:根据所述基样本和所述方向所指示的部分中的少样本的各维特征的特征值形成的各取值范围,设置所述新的少样本的各维特征的特征值。
在本公开再一实施方式中,所述第二设置模块进一步用于:根据所述预测处理结果获得的属于正样本的概率值,将属于正样本的概率值不低于第一预定概率值的未设置标签的应用特征样本作为正样本;根据所述预测处理结果获得的属于正样本的概率值,将属于正样本的概率值低于第二预定概率值的未设置标签的应用特征样本作为负样本。
在本公开再一实施方式中,所述装置还包括控制模块,用于:在所述第二设置模块形成正样本和负样本后,触发初始化模块再次执行根据所述样本集合中的正样本和负样本,对半监督分类模型进行初始化的步骤,直到所述样本集合中不存在未设置标签的应用特征样本。
基于本公开上述实施例提供的一种确定用户的属性的方法和装置,通过利用应用特征样本来反映用户的终端设备中安装的应用,并利用具有预定属性的应用(如具有人口统计学属性的应用)为应用特征样本设置相应的标签,可以便捷准确的获得纯度较高的正样本和负样本;由于本公开中的正样本和负样本的纯度较高,因此,利用这样的正样本和负样本对半监督分类模型进行初始化,有利于提高半监督分类模型的分类性能;进而有利于提高半监督分类模型对未设置标签的应用特征样本进行用户的属性预测处理的准确性。由此可知,本公开提供的技术方案有利于快速便捷的获知用户的属性。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的适用场景的一个实施例的示意图;
图2为本公开的确定用户的属性的方法一个实施例的流程图;
图3为本公开的获取用户的应用特征样本一实施例的流程图;
图4为本公开的生成新的正样本一实施例的流程图;
图5为本公开的基样本的邻域一实施例的示意图;
图6为本公开的生成新的少样本一实施例的流程图;
图7为本公开的将邻域中的所有应用特征样本分为两部分一实施例的示意图;
图8为本公开的确定用户的属性的方法另一个实施例的流程图;
图9为本公开的确定用户的属性的装置一个实施例的结构示意图;
图10为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机***、服务器等电子设备,其可与众多其它通用或者专用计算***环境或配置一起操作。适于与终端设备、计算机***或者服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境等等。
终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,通过用户注册过程,可以获得用户的属性(如人口统计学属性等);通过用户提供的身份证以及护照等证件,可以获得用户的属性(如人口统计学属性等);通过问卷调查方式,也可以获得用户的属性(如人口统计学属性等)。然而,在一些应用场景中,无法利用上述方式获得用户的属性。一个例子,用户通过其终端设备(如智能移动电话)以非登录的方式,访问相应的网站(如租房网站或者房屋销售网站或者新闻网站等),此时,网络侧无法通过用户的网络接入地址等信息获知用户的属性(如人口统计学属性等)。另一个例子,在用户注册过程只包括用户名和登录密码的情况下,网络侧同样无法获得用户的属性(如人口统计学属性等)。例如,网络侧无法获知用户的性别、用户是否已婚以及用户是否已育等属性。
示例性概述
本公开提供的确定用户的属性的技术的应用场景的一个例子,如图1所示。
图1中,假设当前有n个用户,即用户1、用户2、……、以及用户n,且每一个用户均具有各自的终端设备,即终端设备1.1(如计算机)、终端设备2.1(如智能移动电话)、……以及终端设备n.1(如平板电脑)。各用户使用其各自的终端设备访问服务器102。服务器102根据各用户的访问需求,向终端设备1.1、终端设备2.1、……、以及终端设备n.1分别推送相应的信息,终端设备1.1、终端设备2.1、……、以及终端设备n.1分别根据服务器102推送来的信息,形成相应的页面(如网页形式的页面或者APP形式的页面等),并显示给相应的用户。
服务器102在分别征得用户1、用户2、……和用户n的同意的情况下,可以获得终端设备1.1中安装的所有应用、终端设备2.1中安装的所有应用、……以及终端设备n.1中安装的所有应用。
服务器102可以根据其获得的终端设备1.1中安装的所有应用,采用本公开的技术方案推测出的用户1的性别、是否已婚、以及是否已育等属性中的至少一个。
服务器102可以根据其获得的终端设备2.1中安装的所有应用,采用本公开的技术方案推测出的用户2的性别、是否已婚、以及是否已育等属性中的至少一个。
……
服务器102可以根据其获得的终端设备n.1中安装的所有应用,采用本公开的技术方案推测出的用户n的性别、是否已婚、以及是否已育等属性中的至少一个。
服务器102可以根据其推测出的用户1的属性、用户2的属性、……以及用户n的属性,向终端设备1.1、终端设备2.1、……、以及终端设备n.1分别推送与各用户的属性分别相匹配的信息。这里的信息可以为广告信息或者时事新闻或者娱乐资讯等。例如,对于女性用户,可以向其推送与女性用品相关的广告信息,而对于已育的女性用户,可以向其推送学校周边的房屋信息或者学校教育类的广告信息等。
示例性方法
图2为本公开的确定用户的属性的方法一个实施例的流程图。图2所示的实施例的方法包括:S200、S201、S202、S203以及S204。下面对各步骤分别进行说明。
S200、获取多个用户的应用特征样本,形成样本集合。
本公开中的应用特征样本可以表示出用户的终端设备所安装的多个应用,例如,用户的终端设备所安装的所有应用。本公开中的应用特征样本通常包括用户标识以及多个特征点。其中的一个特征点可以认为是一维特征,N个特征点可以认为是N维特征。在应用特征样本所包含的所有特征点为压缩处理后的特征点的情况下,应用特征样本中的每一个特征点通常没有具体的含义。
本公开中的终端设备可以是指智能移动电话、计算机或者平板电脑等具有网络接入能力的电子设备。本公开中的应用可以是指智能移动电话以及平板电脑上安装的APP,也可以是指计算机上安装的客户端程序等。本公开中的样本集合通常包含有大量用户的应用特征样本。
S201、根据具有预定属性的应用,为样本集合中的至少一应用特征样本设置标签,形成正样本和负样本。
本公开中的预定属性(如人口统计学属性等)可以是指具有两种互为相反的状态的属性。例如,本公开中的预定属性(如人口统计学属性等)可以为性别、是否已婚或者是否已育等。具体而言,如果用户性别为男,则用户性别不可能是女;如果用户是否已婚为已婚,则用户是否已婚不可能为未婚;如果用户是否已育为已育,则用户是否已育不可能为未育。
本公开涉及到的所有应用并不均具有预定属性(如人口统计学属性),在通常情况下,在所有应用中,只有少量应用具有预定属性。例如,化妆品监管、美柚、天天P图、美拍以及美图等应用可以认为是具有女性属性的应用。再例如,发型屋(男生版)、男衣邦、野兽先生等应用可以认为是具有男性属性的应用。
由于本公开中的预定属性为具有两种互为相反的状态的属性,因此,本公开可以使其中一种属性对应第一标签,且具有第一标签的应用特征样本为正样本,并使其中另一种属性对应第二标签,且具有第二标签的应用特征样本为负样本。例如,女性属性对应第一标签,男性属性对应第二标签。
S202、根据样本集合中的正样本和负样本,对半监督分类模型进行初始化。
本公开中的正样本和负样本通常为纯度较高的正样本和负样本,即本公开中的正样本和负样本通常为可靠性较高的正样本和负样本。
本公开中的半监督分类模型用于对样本集合中的未设置标签的应用特征样本进行用户的属性(如人口统计学属性)预测处理。本公开中的半监督分类模型可以是指基于半监督学习(Semi-Supervised Learning)算法的分类器。半监督学习算法是监督学习算法与无监督学习算法相结合的一种学习方法算法。半监督分类模型可以在样本集合中包括:设置有标签的应用特征样本(即正样本和负样本)以及未设置标签的应用特征样本的情况下,执行相应的分类操作。本公开对半监督分类模型进行初始化可以是指设置分类器的参数。
S203、根据初始化后的半监督分类模型,对样本集合中的未设置标签的应用特征样本进行用户的属性预测处理。
本公开可以将样本集合中的每一个未设置标签的应用特征样本分别作为模型输入,提供给半监督分类模型,本监督分类模型可以针对每一个模型输入分别输出一个概率值,该概率值表示相应的模型输入属于正样本的可能性。
S204、根据预测处理结果,为未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本。
本公开可以预先设置预定要求,对于满足预定要求的预测处理结果,本公开会为该预测处理结果对应的应用特征样本设置相应的标签,如设置第一标签或者第二标签等,从而形成正样本或者负样本,进而消耗样本集合中的未设置标签的应用特征样本的数量,使样本集合中的正样本数量和负样本数量逐步增加。
本公开通过利用应用特征样本来反映用户的终端设备中安装的应用,并利用具有预定属性的应用(如具有人口统计学属性的应用)为应用特征样本设置标签,可以便捷准确的获得纯度较高的正样本和负样本,由于本公开中的正样本和负样本的纯度较高,因此,利用这样的正样本和负样本对半监督分类模型进行初始化,有利于提高半监督分类模型的分类性能;进而有利于提高半监督分类模型对未设置标签的应用特征样本进行用户的属性预测处理的准确性。由此可知,本公开提供的技术方案有利于快速便捷的获知用户的属性(如用户的人口统计学属性等)。
在一个可选示例中,本公开中的获取多个用户中的任一用户的应用特征样本的一实现方式可以如图3所示。
图3中,S300、针对多个用户中的任一用户,根据该用户的终端设备上报的应用安装信息,生成该用户的应用地图。
可选的,本公开可以在通过信息交互征得该用户的同意后,收集该用户的终端设备的应用安装信息。例如,在征得该用户的同意后,该用户的终端设备向网络侧上报其应用安装信息,从而本公开可以根据接收到的应用安装信息生成该用户的应用地图。
可选的,本公开中的用户的应用地图通常可以绘制出在众多的应用中,该用户的终端设备已经安装了的应用以及未安装的应用。例如,用户的应用地图包括多个点,每一个点对应一个应用,如果一个点对应的应用被安装于该用户的终端设备中,则可以将该点的取值设置为第一值(如1),如果一个点对应的应用未被安装于该用户的终端设备中,则可以将该点的取值设置为第二值(如0)。该用户的应用地图即为由多个1和0形成的数字串。
S301、对该用户的应用地图进行压缩处理,获得该用户的应用特征样本。
可选的,由于目前的应用数量通常非常庞大(如上万个),而一用户的终端设备所安装的应用的数量通常较少(如几十个),因此,用户的应用地图通常呈现稀疏结构(如上万个零和几十个1),本公开通过对用户的应用地图进行压缩处理,从而可以有效避免应用特征样本结构稀疏的现象,进而有利于执行后续的用户的属性预测处理操作。
可选的,本公开可以采用预先设置的模型,对任一用户的应用地图进行压缩处理。例如,将用户的应用地图作为输入,提供给预先设置的模型,并根据该模型的输出,获得该用户的应用特征样本。在执行压缩处理前,应用地图所包含的各点通常是具有物理含义的,而在执行压缩处理后,应用特征样本所包含的点的数量远小于应用地图所包含的点的数量,且应用特征样本所包含的各点通常不再具有物理含义。
可选的,本公开中的用于压缩处理的预先设置的模型可以包括:DeepFM(Factorization Machine,因子分解机)。DeepFM主要包括:Deep部分和FM部分。其中的FM部分主要用于提取应用地图的低阶特征。该低阶特征即一二阶特征。其中的Deep部分通常为一DNN(DeepNeuralNetworks,深度神经网络,如多层全连接神经网络等)。Deep部分主要用于提取应用地图的高阶特征。该高阶特征即二阶以上的特征。
具体的,本公开可以利用FM部分对用户的应用地图进行因子分解处理,获得该用户的应用地图的第一特征,该第一特征可以称为一二阶特征,同时,本公开可以将该用户的应用地图作为Deep部分的输入,经由Deep部分对用户的应用地图进行特征提取处理,获得用户的应用地图的第二特征,该第二特征可以称为高阶特征;在获得了一二阶特征和高阶特征之后,本公开可以对一二阶特征和高阶特征进行拼接处理,从而获得该用户的应用特征样本。例如,在一二阶特征为M1(M1为大于1的整数)维特征,高阶特征为M2(M2为大于M1的整数)维特征的情况下,本公开可以将拼接后的(M1+M2)维特征作为该用户的应用特征样本。其中的M1维特征可以是指由M1个特征点形成的特征。其中的M2维特征可以是指由M2个特征点形成的特征。其中的(M1+M2)维特征可以是指由(M1+M2)个特征点形成的特征。一个例子,(M1+M2)维特征可以为:{F1:0.87,F2:0.43……}。本公开通过利用DeepFM对应用地图进行压缩处理,不仅可以便捷的获得用户的应用特征样本,而且还使应用特征样本包含更为全面的特征信息,从而有利于提高半监督分类模型的预测处理性能。
在一个可选示例中,本公开在为应用特征样本设置标签时,可以考虑用户的终端设备所安装的具有预定属性(如预定人口统计学属性,具体的,如女或者男等)的应用的数量。具体的,本公开可以先根据所有用户的应用地图,确定各用户的终端设备分别安装了具有预定属性(如预定人口统计学属性)的应用的数量,然后,为数量满足预定数量要求的应用特征样本设置预定属性(如预定人口统计学属性)对应的标签。
可选的,上述预定数量要求可以为:终端设备安装了具有预定属性(如预定人口统计学属性)的应用的数量不低于预定数量阈值。上述预定数量要求也可以为:终端设备安装了具有预定属性(如预定人口统计学属性)的应用的数量的排序属于前N个等。当然,本公开中的预定数量要求还可以为上述两者的结合等。本公开通过考虑用户的中的设备所按照的具有预定属性(如预定人口统计学属性)的应用的数量,有利于保证为应用特征样本设置的标签的准确性,从而有利于进一步保证样本集合中的正负样本的纯度。
一个具体的例子,在预定属性为女的情况下,本公开可以根据所有用户的应用地图,统计出每一个用户的终端设备中安装了具有女属性的应用的数量,假定有100个用户的终端设备中安装了具有女属性的应用,即第一个用户的终端设备安装了X1个具有女属性的应用,第二个用户的终端设备安装了X2个具有女属性的应用,……,第一百个用户的终端设备安装了X100个具有女属性的应用,本公开可以按照由大到小的顺序对X1、X2、……、以及X100进行排序,并按照10%的比例,从其中选取前10个,进而本公开为选取出的前10个各自对应的应用特征样本分别设置第一标签(如1),形成10个正样本。在预定属性为男的情况下,本公开可以根据所有用户的应用地图,统计出每一个用户的终端设备中安装了具有男属性的应用的数量,假定有200个用户的终端设备中安装了具有男属性的应用,即第一个用户的终端设备安装了Y1个具有女属性的应用,第二个用户的终端设备安装了Y2个具有女属性的应用,……,第二百个用户的终端设备安装了Y200个具有女属性的应用,本公开可以按照由大到小的顺序对Y1、Y2、……、以及Y200进行排序,并按照10%的比例,从其中选取前20个,进而本公开为选取出的前20个各自对应的应用特征样本分别设置第二标签(如0),形成20个负样本。
在一个可选示例中,本公开通过上述方式获得的正样本和负样本的数量通常较少,本公开可以基于样本集合中的少量的正样本形成新的正样本,且本公开可以基于样本集合中的少量的负样本形成新的负样本。
下面结合图4,对本公开生成新的正样本的过程进行说明。生成新的负样本的过程与图4所示的过程基本相同,只需将正样本替换为负样本即可,在此不再重复说明。
图4中,S400、判断样本集合中是否存在未被选取过的正样本,如果存在未被选取过的正样本,则到S401,如果不存在未被选取过的正样本,则到S405。
虽然图4描述的是:针对样本集合中的每一个正样本分别执行生成新的正样本的处理操作,但是,可以理解的是,本公开也可以仅针对样本集合中的部分正样本执行生成新的正样本的处理操作。例如,对随机选取的部分正样本分别执行生成新的正样本的处理操作。再例如,针对样本集合中的排序靠前的一定数量的正样本分别执行生成新的正样本的处理操作。其中的排序可以是指终端设备安装了具有预定属性(如预定人口统计学属性)的应用的数量的排序。
S401、从样本集合中的未被选取过的正样本中选取一正样本,将该正样本标记为已被选取过的正样本,并将该正样本作为基样本。本公开中的基样本可以是指以其为基础生成新的正样本的正样本。
S402、确定样本集合中与该基样本的距离符合预定距离要求的所有应用特征样本,并将距离符合预定距离要求的所有应用特征样本中的正样本作为少样本。
可选的,本公开可以计算样本集合中的每一个应用特征样本分别与该基样本的距离,如欧式距离等。本公开中的预定距离要求可以为:与基样本的距离小于预定距离。如果将基样本作为圆心,将该预定距离作为半径,本公开可以基于该圆心和该半径获得一个圆,位于该圆中的除基样本之外的所有应用特征样本即为:与该基样本的距离符合预定距离要求的所有应用特征样本。一个例子如图5所示。
图5中,填充为灰色的圆表示未设置标签的应用特征样本,填充为灰色的三角形表示正样本,填充为黑色的三角形表示基样本,以该基样本为圆心,以预定距离为半径R获得一个圆500,位于圆500内的所有填充为灰色的圆和所有填充为灰色的三角形即为与该基样本的距离符合预定距离要求的所有应用特征样本。
S403、判断邻域中的应用特征样本的数量是否符合预定要求,如果符合预定要求,则到S404,如果不符合预定要求,则返回到S400。
可选的,本公开中的预定要求可以为:少样本的密度不低于预定密度。预定要求也可以为:少样本的数量不低于一预定样本数量等。如果将样本集合中与该基样本的距离符合预定距离要求的所有应用特征样本形成的空间称为邻域,预定要求还可以为:少样本的数量不低于一预定样本数量,且邻域中的所有应用特征样本的数量不低于另一预定样本数量等。
可选的,上述少样本的密度可以为邻域中所有少样本的数量与邻域中的所有应用特征样本的数量的比值。例如,图5中的少样本的密度为3/10。
S404、根据该基样本和上述少样本,生成新的正样本,返回到S400。
可选的,邻域中通常包含有多个少样本,本公开可以利用基样本和部分少样本生成至少一个新的正样本,本公开也可以利用基样本和每一个少样本分别生成新的正样本。本公开根据基样本和少样本生成新的正样本的一个例子如图6所示。
S405、本次生成新的正样本的过程结束。
如果一基样本的邻域中的少样本数量和/或所有应用特征样本数量过少,则基于该基样本所生成的新的正样本很有可能是错误的,本公开通过对邻域中的应用特征样本的数量进行判断,有利于避免生成不恰当的新的正样本的现象,从而有利于避免给样本集合中引入噪声样本的现象,进而有利于提高半监督分类模型的初始化效果。
本公开通过增加样本集合中的正样本数量和负样本数量,有利于避免由于样本集合中的正样本数量和负样本数量太少,而会对半监督分类模型的初始化效果产生不良影响的现象,从而有利于提高半监督分类模型的初始化效果。
在一个可选示例中,本公开根据基样本和其邻域中的少样本生成新的少样本的一个例子如图6所示。
图6中,S600、将基样本的邻域中的除基样本之外的所有应用特征样本划分为两部分,即第一部分和第二部分。
可选的,本公开在将基样本的邻域中的除基样本之外的所有应用特征样本划分为两部分时,可以以基样本为圆心,以通过该圆心的直径两侧的应用特征样本中的少样本数量差异最小为原则,将所有应用特征样本划分为分别位于直径两侧的第一部分和第二部分。
续前述图5所示的例子,本公开划分出的两部分如图7所示。图7中,以基样本为圆心的直径,将邻域中的所有应用特征样本划分为分别位于直径左右两侧的两部分,左侧的部分包括五个未设置标签的应用特征样本和一个正样本,右侧的部分包括一个未设置标签的应用特征样本和两个正样本。
S601、根据第一部分和第二部分各自包含的少样本的数量和未设置标签的应用特征样本的数量,确定第一部分和第二部分各自对应的生成少样本的概率。
可选的,本公开可以将第一部分包含的少样本的数量和第一部分包含的所有应用特征样本的数量的比值,作为第一部分对应的生成少样本的概率。本公开可以将第二部分包含的少样本的数量和第二部分包含的所有应用特征样本的数量的比值,作为第二部分对应的生成少样本的概率。续前述图7所示的例子,左侧的部分对应的生成少样本的概率为1/6,右侧的部分对应的生成少样本的概率为2/3。
S602、根据上述概率确定生成少样本的方向。
可选的,本公开中的方向用于指示第一部分和/或第二部分。具体的,本公开中的方向可以表示出是否基于基样本和第一部分中的少样本生成新的少样本、以及是否基于基样本和第二部分中的少样本生成新的少样本。本公开中的方向可以影响所生成的新的少样本的各特征点的取值。本公开可以基于上述概率,采用摇骰子等方式,确定生成少样本的方向。
续前述图7所示的例子,由于直径左侧的部分对应的生成少样本的概率为1/6,因此,本公开的六面骰子中有一面表示生成少样本,其他五面表示不生成少样本,通过摇骰子,可以确定出是否基于基样本和左侧的部分中的少样本生成新的少样本。由于直径右侧的部分对应的生成少样本的概率为2/3,因此,本公开的六面骰子中有四面表示生成少样本,其他两面表示不生成少样本,本公开通过摇骰子,可以确定出是否基于基样本和右侧的部分中的少样本生成新的少样本。
S603、根据基样本和上述方向所指示的部分中的少样本,生成新的少样本。
可选的,本公开可以基于基样本中的各维特征的取值和上述方向所指示的部分中的少样本中的各维特征的取值,确定新的少样本的各维特征的取值,从而生成新的少样本点,即新的正样本。
具体的,本公开可以根据基样本和上述方向所指示的部分中的少样本的各维特征的特征值分别形成的各维特征的取值范围,并从各维特征的取值范围中分别选取一特征值,并将选取出的各特征值分别作为新的少样本的各维特征的特征值,从而形成新的正样本。本公开通过利用基样本和少样本的各维特征的特征值形成的取值范围来设置新的少样本的各维特征的特征值,有利于合理设置新的少样本的特征值,有利于避免新的少样本成为噪声的现象,从而有利于降低新的少样本给样本集合引入的噪声量。
一个例子,假设样本集合中的每一个应用特征样本均包括M维特征,即第一维特征、第二维特征、……第M-1维特征以及第M维特征。假设基样本的M维特征的特征值分别为:x1、x2、……xm-1以及xm。假设一少样本的M维特征分别为:y1、y2、……ym-1以及ym。在上述假设情况下,本公开所生成的新的少样本的M维特征的取值范围分别为:x1和y1形成的取值范围、x2和y2形成的取值范围、……、xm-1和ym-1形成的取值范围、以及xm和ym形成的取值范围。本公开可以从上述各取值范围中分别选取一个数值,作为新的少样本的M维特征的特征值。例如,本公开可以将各取值范围的中间值分别作为新的少样本的M维特征的特征值。
本公开通过确定生成少样本的方向,并基于该方向生成新的少样本,有利于避免在不恰当的位置形成新的少样本的现象,由于在不恰当的位置所形成新的少样本为噪声样本的可能性较大,因此,本公开基于方向生成新的少样本的过程有利于避免在样本集合中引入噪声样本的现象,从而不但有利于提高样本集合中的正样本和负样本的纯度,而且有利于提高半监督分类模型的初始化效果。
在一个可选示例中,本公开中的为样本集合中的未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本的一个例子,可以为:半监督分类模型输出的预测处理结果通常为一个概率值,该概率值表示输入的应用特征样本为正样本的可能性,本公开可以对半监督分类模型输出的每一个概率值分别进行判断;对于任一概率值,如果该概率值不低于第一预定概率值,则可以将该概率值对应的输入(即相应的应用特征样本)作为正样本,即为该概率值对应的输入设置第一标签;如果该概率值低于第二预定概率值,则可以将该概率值对应的输入(即相应的应用特征样本)作为负样本,即为该概率值对应的输入设置第二标签;如果该概率值低于第一预定概率值,并不低于第二预定概率值,则该概率值对应的输入(即相应的应用特征样本)仍然为未设置标签的应用特征样本,即本次不为该概率值对应的输入设置任何标签。其中的第一预定概率值通常远大于第二预定概率值。例如,第一预定概率值可以为0.85或者0.9等,而第二预定概率值可以为0.15或者0.1等。第一预定概率值设置的越高,则获得的正样本的纯度越高,而第二预定概率值设置的越低,则获得的负样本的纯度越高。第一预定概率值和第二预定概率值可以根据实际需求设置。
本公开通过将极高概率值对应的应用特征样本作为正样本,并将极低概率值对应的应用特征样本作为负样本,有利于避免在样本集合中引入噪声样本的现象,从而有利于提高样本集合中的正样本和负样本的纯度,进而有利于提高半监督分类模型的初始化效果。
在一个可选示例中,本公开在利用预测处理结果获得了正样本和负样本之后,可以利用当前样本集合中的正样本和负样本,再次对半监督分类模型进行初始化处理,并再次利用初始化后的半监督分类模型对当前样本集合中的未设置标签的应用特征样本进行预测处理,并继续根据预测处理结果为当前未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本。重复上述迭代循环的过程,直到样本集合中不存在未设置标签的应用特征样本。当然,也可以直到未设置标签的应用特征样本的数量不再随着迭代循环的次数的增加而减少为止。本公开通过重复上述迭代循环过程,可以不断的消耗样本集合中的未设置标签的应用特征样本的数量,从而有利于尽快的使样本集合中的所有应用特征样本均具有相应的标签。
下面以用户的属性为性别为例,结合图8,对本公开的确定用户的属性的方法的实现过程进行说明。
图8中,S800、根据各用户的终端设备各自上报的应用安装信息,生成各用户的应用地图。
S801、对各用户的应用地图分别进行压缩处理,获得各用户的应用特征样本。
S802、根据各用户的应用地图,确定各用户的终端设备分别安装有具有女性属性的应用的数量、以及分别安装有具有男性属性的应用的数量。
S8031、对安装有具有女性属性的应用的数量进行排序,并为排序中的前i1%(如10%)的应用特征样本设置女性标签,即第一标签。
S8032、安装有具有男性属性的应用的数量进行排序,并为排序中的前i2%(10%)的应用特征样本设置男性标签,即第二标签。
S8041、对于样本集合中的任一设置有女性标签的样本,将该样本作为基样本,确定与该基样本的距离符合预定距离要求的所有应用特征样本,并将与该基样本的距离符合预定距离要求的所有应用特征样本中的设置有女性标签的应用特征样本作为少样本,且在所有应用特征样本的数量符合预定要求的情况下,根据基样本和少样本,生成新的少样本。
该步骤的具体的实现过程可以参见上述针对图6的描述。
S8042、对于样本集合中的任一设置有男性标签的样本,将该样本作为基样本,确定与该基样本的距离符合预定距离要求的所有应用特征样本,并将与该基样本的距离符合预定距离要求的所有应用特征样本中的设置有男性标签的应用特征样本作为少样本,且在所有应用特征样本的数量符合预定要求的情况下,根据基样本和少样本,生成新的少样本。
该步骤的具体的实现过程可以参见上述针对图6的描述。
S805、根据当前样本集合中的所有正样本和负样本,对半监督分类模型进行初始化。
S806、根据初始化后的半监督分类模型,对当前样本集合中的未设置标签的应用特征样本进行用户的属性预测处理。
S807、根据预测处理结果,为未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本。
S808、判断是否继续执行为未设置标签的应用特征样本设置标签的过程,如果需要继续执行为未设置标签的应用特征样本设置标签的过程,则返回S805,如果不需要继续执行为未设置标签的应用特征样本设置标签的过程,则到S809。
可选的,本公开可以在确定出当前样本集合中还存在未设置标签的应用特征样本,且当前样本集合中的未设置标签的应用特征样本的数量少于上一次循环过程中的当前样本集合中的未设置标签的应用特征样本的数量时,确定需要继续执行为未设置标签的应用特征样本设置标签的过程。
可选的,本公开可以在确定出当前样本集合中还存在未设置标签的应用特征样本,且当前样本集合中的未设置标签的应用特征样本的数量等于上一次循环过程中的当前样本集合中的未设置标签的应用特征样本的数量时,确定不需要继续执行为未设置标签的应用特征样本设置标签的过程。
可选的,本公开可以在确定出当前样本集合中已不存在未设置标签的应用特征样本时,确定不需要继续执行为未设置标签的应用特征样本设置标签的过程。
S809、结束本流程。
示例性装置
图9为本公开的确定用户的属性的装置的一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图9所示,本实施例的装置包括:获取样本模块900、第一设置模块901、初始化模块902、预测处理模块903以及第二设置模块904。可选的,该实施例的装置还可以包括:确定少样本模块905、生成样本模块906以及控制模块907。
获取样本模块900用于获取多个用户的应用特征样本,形成样本集合。其中的应用特征样本用于表征用户的终端设备所安装的应用。
可选的,获取样本模块900包括:第一子模块9001和第二子模块9002。其中的第一子模块9001用于对于任一用户,根据该用户的终端设备上报的应用安装信息,生成该用户的应用地图。其中的第二子模块9002用于对该用户的应用地图进行压缩处理,获得该用户的应用特征样本。例如,第二子模块9002可以用于对该用户的应用地图进行因子分解处理,获得该用户的应用地图的第一特征,与此同时,第二子模块9002将该用户的应用地图作为神经网络的输入,经由神经网络对该用户的应用地图进行特征提取处理,获得该用户的应用地图的第二特征,之后,第二子模块9002对第一特征和第二特征进行拼接处理,获得该用户的应用特征样本。
第一设置模块901用于根据具有预定属性的应用,为获取样本模块900形成的样本集合中的至少一应用特征样本设置标签,从而形成正样本和负样本。例如,第一设置模块901可以根据所有用户的应用地图,确定各用户的终端设备分别安装有具有预定属性的应用的数量,并为数量满足预定数量要求的应用特征样本,设置预定属性对应的标签。
初始化模块902用于根据样本集合中的正样本和负样本,对半监督分类模型进行初始化。
预测处理模块903用于根据初始化模块902初始化后的半监督分类模型,对样本集合中的未设置标签的应用特征样本进行用户的属性预测处理。
第二设置模块904用于根据预测处理模块903的预测处理结果,为未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本。
可选的,第二设置模块904可以根据预测处理结果获得的属于正样本的概率值,将属于正样本的概率值不低于第一预定概率值的未设置标签的应用特征样本作为正样本,且第二设置模块904可以根据预测处理结果获得的属于正样本的概率值,将属于正样本的概率值低于第二预定概率值的未设置标签的应用特征样本作为负样本。
确定少样本模块905用于对于样本集合中的任一设置有标签的样本,将该样本作为基样本,确定与基样本的距离符合预定距离要求的所有应用特征样本,并将与基样本的距离符合预定距离要求的所有应用特征样本中的设置有基样本的标签的应用特征样本作为少样本。
生成样本模块906用于若与基样本的距离符合预定距离要求的所有应用特征样本的数量符合预定要求,则根据基样本和少样本,生成新的少样本。
可选的,生成样本模块906包括:第三子模块9061、第四子模块9062、第五子模块9063以及第六子模块9064。其中的第三子模块9061用于将与基样本的距离符合预定距离要求的所有应用特征样本划分为第一部分和第二部分。一个例子,第三子模块9061可以以基样本为圆心,以通过该圆心的直径两侧的应用特征样本中的少样本数量差异最小为原则,将所有应用特征样本划分为位于直径两侧的第一部分和第二部分。其中的第四子模块9062用于根据第一部分和第二部分各自包含的少样本的数量和未设置标签的应用特征样本的数量,确定第一部分和第二部分各自对应的生成少样本的概率。其中的第五子模块9063用于根据第四子模块9062确定出的概率确定生成少样本的方向。其中的方向用于指示第一部分和/或第二部分。其中的第六子模块9064用于根据基样本和第五子模块9063确定出的方向所指示的部分中的少样本,生成新的少样本。例如,第六子模块9064可以根据基样本和第五子模块9063确定出的方向所指示的部分中的少样本的各维特征的特征值形成的各取值范围,设置新的少样本的各维特征的特征值。
本公开中的确定少样本模块905和生成样本模块906可以在初次对半监督分类模型进行初始化操作之前执行相应的操作,以增加样本集合中的正样本数量和负样本数量,从而有利于避免样本集合中的正样本数量和负样本数量太少,而影响半监督分类模型的初始化效果的现象。
控制模块907用于在第二设置模块904形成正样本和负样本后,触发初始化模块902再次执行根据当前样本集合中的正样本和负样本,对半监督分类模型进行初始化的步骤,直到当前样本集合中不存在未设置标签的应用特征样本。
上述各模块及其包括的子模块具体执行的操作可以参见上述方法实施例中针对图2-图8的描述,在此不再详细说明。
示例性电子设备
下面参考图10来描述根据本公开实施例的电子设备。图10示出了根据本公开实施例的电子设备的框图。如图10所示,电子设备101包括一个或多个处理器1011和存储器1012。
处理器1011可以是中央处理单元(CPU)或者具有确定用户的属性的能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备101中的其他组件以执行期望的功能。
存储器1012可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1011可以运行所述程序指令,以实现上文所述的本公开的各个实施例的确定用户的属性的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备101还可以包括:输入装置1013以及输出装置1014等,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。此外,该输入设备1013还可以包括例如键盘、鼠标等等。该输出装置1014可以向外部输出各种信息。该输出设备1014可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图10中仅示出了该电子设备101中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备101还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的确定用户的属性的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的确定用户的属性的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及***。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (20)
1.一种确定用户的属性的方法,包括:
获取多个用户的应用特征样本,形成样本集合;其中,所述应用特征样本用于表征用户的终端设备所安装的应用;
根据具有预定属性的应用,为所述样本集合中的至少一应用特征样本设置标签,形成正样本和负样本;
根据所述样本集合中的正样本和负样本,对半监督分类模型进行初始化;
根据所述初始化后的半监督分类模型,对所述样本集合中的未设置标签的应用特征样本进行用户的属性预测处理;
根据所述预测处理结果,为所述未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本;
其中,所述根据具有预定属性的应用,为所述样本集合中的至少一应用特征样本设置标签,形成正样本和负样本之后,还包括:
将所述样本集合中的任一设置有标签的样本作为基样本,确定与所述基样本的距离符合预定距离要求的所有应用特征样本,并将所述所有应用特征样本中的设置有所述基样本的标签的应用特征样本作为少样本;
若所述所有应用特征样本的数量符合预定要求,则根据所述基样本和所述少样本,生成新的少样本。
2.根据权利要求1所述的方法,其中,所述获取多个用户的应用特征样本,包括:
对于任一用户,根据该用户的终端设备上报的应用安装信息,生成该用户的应用地图;
对该用户的应用地图进行压缩处理,获得该用户的应用特征样本。
3.根据权利要求2所述的方法,其中,所述对该用户的应用地图进行压缩处理,获得该用户的应用特征样本,包括:
对该用户的应用地图进行因子分解处理,获得该用户的应用地图的第一特征;
将该用户的应用地图作为神经网络的输入,经由所述神经网络对该用户的应用地图进行特征提取处理,获得该用户的应用地图的第二特征;
对所述第一特征和第二特征进行拼接处理,获得该用户的应用特征样本。
4.根据权利要求2所述的方法,其中,所述根据具有预定属性的应用,为所述样本集合中的至少一应用特征样本设置标签,包括:
根据所有用户的应用地图,确定各用户的终端设备分别安装有具有预定属性的应用的数量;
为所述数量满足预定数量要求的应用特征样本,设置所述预定属性对应的标签。
5.根据权利要求1所述的方法,其中,所述根据所述基样本和所述少样本,生成新的少样本,包括:
将所述所有应用特征样本划分为第一部分和第二部分;
根据所述第一部分和第二部分各自包含的少样本的数量和未设置标签的应用特征样本的数量,确定第一部分和第二部分各自对应的生成少样本的概率;
根据所述概率确定生成少样本的方向;其中,所述方向指示第一部分和/或第二部分;
根据所述基样本和所述方向所指示的部分中的少样本,生成新的少样本。
6.根据权利要求5所述的方法,其中,所述将所述所有应用特征样本划分为第一部分和第二部分,包括:
以基样本为圆心,以通过所述圆心的直径两侧的应用特征样本中的少样本数量差异最小为原则,将所述所有应用特征样本划分为位于直径两侧的第一部分和第二部分。
7.根据权利要求5所述的方法,其中,所述根据所述基样本和所述方向所指示的部分中的少样本,生成新的少样本,包括:
根据所述基样本和所述方向所指示的部分中的少样本的各维特征的特征值形成的各取值范围,设置所述新的少样本的各维特征的特征值。
8.根据权利要求1所述的方法,其中,所述根据所述预测处理结果,为所述未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本,包括:
根据所述预测处理结果获得的属于正样本的概率值,将属于正样本的概率值不低于第一预定概率值的未设置标签的应用特征样本作为正样本;
根据所述预测处理结果获得的属于正样本的概率值,将属于正样本的概率值低于第二预定概率值的未设置标签的应用特征样本作为负样本。
9.根据权利要求1至8中任一项所述的方法,其中,所述方法还包括:
在形成正样本和负样本后,返回所述根据所述样本集合中的正样本和负样本,对半监督分类模型进行初始化的步骤,直到所述样本集合中不存在未设置标签的应用特征样本。
10.一种确定用户的属性的装置,其中,所述装置包括:
获取样本模块,用于获取多个用户的应用特征样本,形成样本集合;其中,所述应用特征样本用于表征用户的终端设备所安装的应用;
第一设置模块,用于根据具有预定属性的应用,为所述获取样本模块形成的样本集合中的至少一应用特征样本设置标签,形成正样本和负样本;
初始化模块,用于根据所述样本集合中的正样本和负样本,对半监督分类模型进行初始化;
预测处理模块,用于根据所述初始化模块初始化后的半监督分类模型,对所述样本集合中的未设置标签的应用特征样本进行用户的属性预测处理;
第二设置模块,用于根据所述预测处理模块的预测处理结果,为所述未设置标签的应用特征样本中的相应应用特征样本设置标签,形成正样本和负样本;
确定少样本模块,用于将所述样本集合中的任一设置有标签的样本作为基样本,确定与所述基样本的距离符合预定距离要求的所有应用特征样本,并将所述所有应用特征样本中的设置有所述基样本的标签的应用特征样本作为少样本;
生成样本模块,用于若所述所有应用特征样本的数量符合预定要求,则根据所述基样本和所述少样本,生成新的少样本。
11.根据权利要求10所述的装置,其中,所述获取样本模块,包括:
第一子模块,用于对于任一用户,根据该用户的终端设备上报的应用安装信息,生成该用户的应用地图;
第二子模块,用于对该用户的应用地图进行压缩处理,获得该用户的应用特征样本。
12.根据权利要求11所述的装置,其中,所述第二子模块进一步用于:
对该用户的应用地图进行因子分解处理,获得该用户的应用地图的第一特征;
将该用户的应用地图作为神经网络的输入,经由所述神经网络对该用户的应用地图进行特征提取处理,获得该用户的应用地图的第二特征;
对所述第一特征和第二特征进行拼接处理,获得该用户的应用特征样本。
13.根据权利要求11所述的装置,其中,所述第一设置模块进一步用于:
根据所有用户的应用地图,确定各用户的终端设备分别安装有具有预定属性的应用的数量;
为所述数量满足预定数量要求的应用特征样本,设置所述预定属性对应的标签。
14.根据权利要求10所述的装置,其中,所述生成样本模块,包括:
第三子模块,用于将所述所有应用特征样本划分为第一部分和第二部分;
第四子模块,用于根据所述第一部分和第二部分各自包含的少样本的数量和未设置标签的应用特征样本的数量,确定第一部分和第二部分各自对应的生成少样本的概率;
第五子模块,用于根据所述概率确定生成少样本的方向;其中,所述方向指示第一部分和/或第二部分;
第六子模块,用于根据所述基样本和所述方向所指示的部分中的少样本,生成新的少样本。
15.根据权利要求14所述的装置,其中,所述第三子模块进一步用于:
以基样本为圆心,以通过所述圆心的直径两侧的应用特征样本中的少样本数量差异最小为原则,将所述所有应用特征样本划分为位于直径两侧的第一部分和第二部分。
16.根据权利要求14所述的装置,其中,所述第六子模块进一步用于:
根据所述基样本和所述方向所指示的部分中的少样本的各维特征的特征值形成的各取值范围,设置所述新的少样本的各维特征的特征值。
17.根据权利要求10所述的装置,其中,所述第二设置模块进一步用于:
根据所述预测处理结果获得的属于正样本的概率值,将属于正样本的概率值不低于第一预定概率值的未设置标签的应用特征样本作为正样本;
根据所述预测处理结果获得的属于正样本的概率值,将属于正样本的概率值低于第二预定概率值的未设置标签的应用特征样本作为负样本。
18.根据权利要求10至17中任一项所述的装置,其中,所述装置还包括控制模块,用于:
在所述第二设置模块形成正样本和负样本后,触发初始化模块再次执行根据所述样本集合中的正样本和负样本,对半监督分类模型进行初始化的步骤,直到所述样本集合中不存在未设置标签的应用特征样本。
19.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-9中任一项所述的方法。
20.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010484863.6A CN111639714B (zh) | 2020-06-01 | 2020-06-01 | 确定用户的属性的方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010484863.6A CN111639714B (zh) | 2020-06-01 | 2020-06-01 | 确定用户的属性的方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639714A CN111639714A (zh) | 2020-09-08 |
CN111639714B true CN111639714B (zh) | 2021-07-23 |
Family
ID=72329716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010484863.6A Active CN111639714B (zh) | 2020-06-01 | 2020-06-01 | 确定用户的属性的方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639714B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022204939A1 (en) * | 2021-03-30 | 2022-10-06 | Paypal, Inc. | Machine learning and reject inference techniques utilizing attributes of unlabeled data samples |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194336A (zh) * | 2017-05-11 | 2017-09-22 | 西安电子科技大学 | 基于半监督深度距离度量网络的极化sar图像分类方法 |
CN107451565A (zh) * | 2017-08-01 | 2017-12-08 | 重庆大学 | 一种半监督小样本深度学习图像模式分类识别方法 |
CN108256052A (zh) * | 2018-01-15 | 2018-07-06 | 成都初联创智软件有限公司 | 基于tri-training的汽车行业潜在客户识别方法 |
CN108829763A (zh) * | 2018-05-28 | 2018-11-16 | 电子科技大学 | 一种基于深度神经网络的影评网站用户的属性预测方法 |
CN110674883A (zh) * | 2019-09-29 | 2020-01-10 | 江南大学 | 一种基于k近邻和概率选择主动学习方法 |
CN111191722A (zh) * | 2019-12-30 | 2020-05-22 | 支付宝(杭州)信息技术有限公司 | 通过计算机训练预测模型的方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9069942B2 (en) * | 2010-11-29 | 2015-06-30 | Avi Turgeman | Method and device for confirming computer end-user identity |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
CN106126597A (zh) * | 2016-06-20 | 2016-11-16 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
CN106776925B (zh) * | 2016-11-30 | 2020-07-14 | 腾云天宇科技(北京)有限公司 | 一种移动终端用户性别的预测方法、服务器和*** |
CN108256537A (zh) * | 2016-12-28 | 2018-07-06 | 北京酷我科技有限公司 | 一种用户性别预测方法和*** |
CN109961075A (zh) * | 2017-12-22 | 2019-07-02 | 广东欧珀移动通信有限公司 | 用户性别预测方法、装置、介质及电子设备 |
CN110490625A (zh) * | 2018-05-11 | 2019-11-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法及装置、电子设备、存储介质 |
CN109299976B (zh) * | 2018-09-07 | 2021-03-23 | 深圳大学 | 点击率预测方法、电子装置及计算机可读存储介质 |
CN110210335B (zh) * | 2019-05-16 | 2021-05-11 | 上海工程技术大学 | 一种行人重识别学习模型的训练方法、***和装置 |
CN111209173B (zh) * | 2020-01-02 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种性别预测方法、装置、存储介质、以及电子设备 |
-
2020
- 2020-06-01 CN CN202010484863.6A patent/CN111639714B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194336A (zh) * | 2017-05-11 | 2017-09-22 | 西安电子科技大学 | 基于半监督深度距离度量网络的极化sar图像分类方法 |
CN107451565A (zh) * | 2017-08-01 | 2017-12-08 | 重庆大学 | 一种半监督小样本深度学习图像模式分类识别方法 |
CN108256052A (zh) * | 2018-01-15 | 2018-07-06 | 成都初联创智软件有限公司 | 基于tri-training的汽车行业潜在客户识别方法 |
CN108829763A (zh) * | 2018-05-28 | 2018-11-16 | 电子科技大学 | 一种基于深度神经网络的影评网站用户的属性预测方法 |
CN110674883A (zh) * | 2019-09-29 | 2020-01-10 | 江南大学 | 一种基于k近邻和概率选择主动学习方法 |
CN111191722A (zh) * | 2019-12-30 | 2020-05-22 | 支付宝(杭州)信息技术有限公司 | 通过计算机训练预测模型的方法及装置 |
Non-Patent Citations (1)
Title |
---|
高光谱遥感图像 DE-self-training 半监督分类算法;王俊淑 等;《农业机械学报》;20150531;第46卷(第5期);239-244 * |
Also Published As
Publication number | Publication date |
---|---|
CN111639714A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Krishnaraj et al. | An efficient radix trie‐based semantic visual indexing model for large‐scale image retrieval in cloud environment | |
Yu et al. | Category-based deep CCA for fine-grained venue discovery from multimodal data | |
Zhu et al. | Unsupervised topic hypergraph hashing for efficient mobile image retrieval | |
US20210073473A1 (en) | Vector Representation Based on Context | |
Bucak et al. | Multiple kernel learning for visual object recognition: A review | |
Zhu et al. | Dimensionality reduction by mixed kernel canonical correlation analysis | |
US11263223B2 (en) | Using machine learning to determine electronic document similarity | |
US10878281B2 (en) | Video face clustering detection with inherent and weak supervision | |
Kumar et al. | Extraction of informative regions of a face for facial expression recognition | |
CN114298417A (zh) | 反欺诈风险评估方法、训练方法、装置及可读存储介质 | |
Du et al. | DC-NMF: nonnegative matrix factorization based on divide-and-conquer for fast clustering and topic modeling | |
Zhang et al. | Semisupervised particle swarm optimization for classification | |
CN111639714B (zh) | 确定用户的属性的方法、装置和设备 | |
JP2019028984A (ja) | 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法 | |
US11227231B2 (en) | Computational efficiency in symbolic sequence analytics using random sequence embeddings | |
Tang et al. | Collaborative Filtering Recommendation Using Nonnegative Matrix Factorization in GPU‐Accelerated Spark Platform | |
Wang et al. | Random angular projection for fast nearest subspace search | |
CN113961709A (zh) | 用于生成意图标签的方法、电子设备、介质和程序产品 | |
US20210357681A1 (en) | Scalable Attributed Graph Embedding for Large-Scale Graph Analytics | |
Liu et al. | Fast constrained spectral clustering and cluster ensemble with random projection | |
Cao et al. | Multiple hierarchical deep hashing for large scale image retrieval | |
US20200372108A1 (en) | Natural language skill generation for digital assistants | |
Wei et al. | Cross-modal retrieval based on shared proxies | |
US11379270B2 (en) | Clustering tenants based on tenancy knowledge graph | |
US11748453B2 (en) | Converting unstructured computer text to domain-specific groups using graph datastructures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201104 Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd. Address before: 300 457 days Unit 5, Room 1, 112, Room 1, Office Building C, Nangang Industrial Zone, Binhai New Area Economic and Technological Development Zone, Tianjin Applicant before: BEIKE TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |