CN106778843B - 一种预测移动终端用户性别的方法、服务器和*** - Google Patents

一种预测移动终端用户性别的方法、服务器和*** Download PDF

Info

Publication number
CN106778843B
CN106778843B CN201611088196.XA CN201611088196A CN106778843B CN 106778843 B CN106778843 B CN 106778843B CN 201611088196 A CN201611088196 A CN 201611088196A CN 106778843 B CN106778843 B CN 106778843B
Authority
CN
China
Prior art keywords
gender
mobile terminal
model
user
dimension value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611088196.XA
Other languages
English (en)
Other versions
CN106778843A (zh
Inventor
路瑶
张夏天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tengyun Tianyu Science & Technology Beijing Co ltd
Original Assignee
Tengyun Tianyu Science & Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tengyun Tianyu Science & Technology Beijing Co ltd filed Critical Tengyun Tianyu Science & Technology Beijing Co ltd
Priority to CN201611088196.XA priority Critical patent/CN106778843B/zh
Publication of CN106778843A publication Critical patent/CN106778843A/zh
Application granted granted Critical
Publication of CN106778843B publication Critical patent/CN106778843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种预测移动终端用户性别的方法,适于在服务器中执行,该方法包括:收集多个已确定用户性别的移动终端的设备信息,所述设备信息包括该移动终端的应用信息;组合所述多个移动终端的应用信息及其用户性别,生成应用列表;统计每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个应用的性别倾向指数;将所述应用列表中的应用按照性别倾向指数的大小划分为多个分组;计算所述每个移动终端的应用在每个分组内的单组性别维度值,并结合其用户性别构建用于预测用户性别的分类模型;以及根据所述分类模型对待确定用户性别的移动终端进行性别预测。本发明还公开了对应的预测移动终端用户性别的装置和服务器。

Description

一种预测移动终端用户性别的方法、服务器和***
技术领域
本发明涉及移动通信领域,尤其涉及一种预测移动终端用户性别的方法、服务器和***。
背景技术
随着互联网技术和硬件技术的不断发展,越来越多的人开始使用如智能手机、平板电脑等移动终端设备。同时,移动互联网的广泛普及促使移动应用的发展更加迅猛,用户通过使用移动终端上安装的各类移动应用,进行阅读、聊天、购物等各项活动。用户在移动设备上使用某个应用时,会产生一系列状态数据,例如应用信息、移动设备信息、环境信息、位置信息等。
大量移动设备的使用产生了海量的数据,通过对人群的基本属性、行为习惯、商业价值等多种维度信息数据综合分析即可精准的进行目标受众的画像和定位,并以标签和画像为基础进行精准定向的互联网广告营销。在用户画像的众多维度当中,性别是最重要的维度之一。如果知道了用户的性别,就可以专门向该用户推荐其他同性用户常关注的内容消息,从而提高用户体验和内容点击率或转化率。
因此,需要提供一种能高效准确判断移动终端用户性别的方法。
发明内容
为此,本发明提供一种预测移动终端用户性别的方法、服务器和***,以力图解决或至少解决上面存在的问题。
根据本发明的一个方面,提供一种预测移动终端用户性别的方法,适于在服务器中执行,该方法包括步骤:收集多个移动终端的设备信息作为第一模型样本A1,其中,该移动终端已经确定了其用户性别,该设备信息包括该移动终端的应用信息;组合多个移动终端的应用信息及其用户性别,生成应用列表;从应用列表中统计每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个应用的性别倾向指数;将应用列表中的应用按照性别倾向指数的大小划分为多个分组;计算第一模型样本A1中每个移动终端的应用在每个分组内的单组性别维度值;根据每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型;以及根据构建好的分类模型对待确定用户性别的移动终端进行性别预测。
可选地,根据本发明的方法中,构建用于预测用户性别的分类模型的步骤包括:根据单组性别维度值计算得到该移动终端的整体性别维度值,该整体性别维度值包括偏女性维度值和偏男性维度值;以及根据每个移动终端的用户性别及其整体性别维度值,构建用于预测用户性别的分类模型。
可选地,根据本发明的方法中,设备信息还包括该移动终端的机型,该方法还包括步骤:统计每个机型所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个机型的性别倾向指数;基于所述每个机型的性别倾向指数综合计算该机型的性别维度值。计算移动终端的整体性别维度值的步骤还包括:如果某个移动终端的机型的性别维度值偏向女性维度,则将该机型的性别维度值加入到该移动终端的偏女性维度值中,反之则加入到该移动终端偏男性维度值中。
可选地,根据本发明的方法中,性别倾向指数=(男性用户数目-女性用户数目)/(男性用户数目+女性用户数目);偏女性维度值是所有为负值的单组性别维度值之和,所述偏男性维度值是所有为正值的单组性别维度值之和。
可选地,根据本发明的方法中,将应用按照性别倾向指数的大小划分为多个分组的步骤包括:计算性别倾向指数的最大值和最小值之间的差值,根据该差值将应用均分为多个分组。计算移动终端的应用在每个分组内的单组性别维度值的步骤包括:统计每个分组内所含的该移动终端的应用数目,并结合每个分组的权值来计算该移动终端在每个分组的单组性别维度值。
可选地,根据本发明的方法中,结合每个分组的权值来计算该移动终端的单组性别维度值的步骤包括:计算每个分组内的所有应用的平均性别倾向指数,并将其作为该分组的权值;以及将每个分组内所含的该移动终端的应用数目乘以该分组的权值,作为该移动终端在每个分组内的单组性别维度值。
可选地,根据本发明的方法中,分类模型包括随机森林模型、支持向量机模型或卷积神经网络模型中的任意一种。
可选地,根据本发明的方法中,根据构建好的分类模型对待确定用户性别的移动终端进行性别预测的步骤包括:收集一个待确定用户性别的移动终端的设备信息;计算该移动终端的单组或整体性别维度值;以及将该单组或整体性别维度值输入到构建好的分类模型中,输出得到该移动终端的用户性别预测结果。
根据本发明的另一方面,提供一种性别预测服务器,包括:样本收集单元,适于收集多个移动终端的设备信息,其中,这些移动终端已经确定了其用户性别,设备信息包括该移动终端的应用信息;列表生成单元,适于组合多个移动终端的应用信息及其用户性别,生成应用列表;第一计算单元,适于统计应用列表中每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到该应用的性别倾向指数;第二计算单元,适于将应用列表中的应用按照性别倾向指数的大小划分为多个分组,并计算第一模型样本A1中每个移动终端的应用在每个分组内的单组性别维度值;模型构建单元,适于根据每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型;以及性别预测单元,适于根据构建好的分类模型对待确定用户性别的移动终端进行性别预测。
根据本发明的另一方面,提供一种性别预测***,包括如上所述的性别预测服务器,以及至少一个移动终端。
根据本发明的技术方案,通过收集已知用户性别的终端设备信息作为模型样本,得到每个终端的设备ID、用户性别及安装的应用。通过组合这些设备信息即可统计得到每个应用的男性用户数目和女性用户给数目,从而得到该应用的性别倾向指数及对应移动终端的性别维度值。根据每个终端的用户性别及性别维度值即可构建分类模型用于预测用户性别。因为已知每个应用的性别倾向指数,所以只要收集到待测终端上安装的应用信息即可计算求得该终端的性别维度值。将计算得到的性别维度值输入到分类模型中,即可预测得到该待测终端的用户性别。这样,明显降低了数据统计的维度,提高了计算速度,进而降低了对数据计算硬件条件的要求。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的性别预测***100的结构框图;
图2示出了根据本发明一个实施例的预测移动终端用户性别的方法200的流程图;
图3示出了根据本发明一个实施例的性别预测服务器300的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的性别预测***100的结构图。如图1所示,性别预测***100包括该***包括性别预测服务器300和移动终端400,服务器300和移动终端400之间通过互联网络500通信连接。
服务器300可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。此外,用于组成服务器集群或云计算服务中心的多个服务器可以驻留在多个地理位置中,本发明对服务器120的部署方式不做限制。
移动终端400(如图1中的420、440、460和480)可以是可连网的手机、平板电脑、桌面电脑、笔记本电脑等移动设备,也可以是智能手表、智能眼镜等可以连网的可穿戴设备,但不限于此。虽然图1中仅示例性地示出了4个移动终端,但是本领域技术人员可以意识到,该***中还可以包括多个移动终端,本发明对性别预测***100中的移动终端400的数目并无限制。移动终端400可以以有线或无线的方式与服务器300建立连接,如采用3G、4G、WiFi、个人热点、IEEE802.11x、蓝牙等技术建立无线连接。
移动终端400中通常安装了多个应用(即app),某些应用中的代码中嵌入了js脚本或植入了第三方的sdk(software development kit,软件开发工具包),当用户使用这些应用时,js或sdk会采集用户使用该应用时的状态数据,例如移动设备ID、机型、应用名、移动设备mac等各项设备信息,并将采集到的数据发送至服务器300。另外,通过身份证、客服沟通、问卷调查等方式可以还能获取到某些终端用户的性别。因此,服务器300就可以收集到客户端的各项设备信息,并根据这些信息构建一个模型样本,这个样本里有每个设备ID的性别、机型,以及该设备上所安装的应用名称。另外,服务器300收集到客户端的各项设备信息后,可以将数据存储于数据库中。应当指出,数据库可以作为本地数据库驻留于服务器300中,也可以作为远程数据库设置于服务器300之外,本发明对数据库的部署方式不做限制。
图2示出了根据本发明一个实施例的预测移动终端用户性别的方法200的流程图,该方法适于在性别预测服务器300中执行。如图2所示,该方法始于步骤S210。
在步骤S210中,收集多个移动终端的设备信息作为第一模型样本A1。这些移动终端已经确定了其用户性别,设备信息包括每个移动终端的设备ID、应用信息和用户性别。
表1
设备ID 性别 应用
ID1 APP1,APP2,APP5…
ID2 APP1,APP2,APP3…
ID3 APP1,APP3,APP4…
随后,在步骤S220中,组合第一模型样本A1中的多个移动终端的应用信息及其用户性别,生成应用列表。假设第一模型样本A1中统计了2000个终端的设备信息(设备ID、机型、性别和应用信息等),这2000个终端中共含有200种应用,则对于每种应用,都统计设置有该应用的移动终端的设备信息,如表2所示。
表2
Figure BDA0001167282070000061
应当理解,每个用户手机都安装一定数量的应用,这些应用彼此之间虽然有些重合。当收集到的用户数量非常庞大的时候,应用的数量甚至会呈指数级增长的。这对计算资源的要求非常高,也很容易导致计算维度的***。从表1和表2中也可以进一步看出,应用数目、设备ID和机型所含的维度非常大,需要对其中的数据进行降维处理。
因此,在步骤S230中,从所述应用列表中统计每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个应用的性别倾向指数I。即从表2中的“性别”栏中统计得到每个应用的男女用户数目,如表3所示。其中,性别倾向指数I=(男性用户数目-女性用户数目)/(男性用户数目+女性用户数目)。当然,也可以根据实际数据情况采取其他计算方法,本发明对此不作限制。
表3
应用 男性用户数目 女性用户数目 应用_性别倾向指数
APP1 1000 2300 -0.39
APP2 3400 1256 0.46
... ... ... ...
对于某一款应用,其所在终端的男性用户数目显著高于男性用户数目,则其性别倾向指数偏向1,否则偏向-1。如果对数据的抽样没有偏差,即对每一款应用,抽到的数据中男女性男性用户数目的比值几乎是恒定的,则每次抽样算出的每一款应用的性别倾向指数是恒定的。因此,可将这个性别倾向指数作为该应用的终端用户的性别判断参数。
随后,在步骤S240中,将所述应用列表中的应用按照性别倾向指数的大小划分为多个分组。具体地,可以计算每个应用的性别倾向指数的最大值和最小值之间的差值,并根据差值将所述应用均分为多个分组。如根据(Imax-Imin)/100的间隔将性别倾向指数分为100个分组,假设性别倾向指数最大为1,最小为-1,则应用分组为[-1,-0.98],(-0.98,-0.96]...,(0.96,0.98],(0.98,1]。在上述例子中APP1的性别倾向指数为-0.39,则其应该属于[-0.4,-0.38)这一分组。当然,各个分组区间也可以设置为[-1,-0.98),[-0.98,-0.96)...,[0.96,0.98),[0.98,1],本发明对分组区间的设定不作限定。
随后,在步骤S250中,计算第一模型样本A1中每个移动终端的应用在每个分组内的单组性别维度值。
根据本发明的一个实施例,单组性别维度值可以直接选择每个分组内所含的该移动终端的应用数目。表4示出了统计得到的每个设备ID的应用在每个分组中的数目。在表4中,设备ID1是男性,使用的应用大多是性别倾向指数偏大的(偏向1);设备ID2是女性,使用的应用大多数是性别倾向指数偏小的(偏向-1)。这里,就将表1和表2中的多维数据降低到了只有100维,从而可从整体降低数据的运算量。
表4
Figure BDA0001167282070000071
根据本发明的另一个实施例,考虑两端分组里的应用性别倾向严重(一种用户性别显著高于另一种用户性别),靠近中间分组里的应用性别倾向不明显(男女用户数量没有显著差别)。因此,可以给每个分组一个权值,两端分组的权值绝对值大,中间分组的权值绝对值小。对于统计得到的每个分组内所含的该移动终端的应用数目,可以结合每个分组的权值来计算该移动终端在每个分组内的单组性别维度值。
在给每个分组定义权值时,根据一个实施例,可以计算落在每一个分组内的所有应用的平均性别倾向指数,并将其作为该分组的权重。假设对于某个移动终端,其中有2个应用的性别倾向指数属于第一个分组[-1,-0.98],则可以计算得到这2种应用的平均性别倾向指数作为第一个分组的权值。当然,采取平均性别倾向指数的方法这只是一个示例性的说明,还可以根据具体数据分布情况采用其他权值计算方法,本发明对此不作限制。
计算得到权值后,将统计得到的每个分组内所含的该移动终端的应用数目乘以该分组的权值,作为该移动终端在对应分组的单组性别维度值。当然,对于应用数目与权值之间的乘法计算,只是一个示例性的说明,也可以根据情况采取其他数学计算方法,本发明对此不作限制。假设表4中每个分组的权值序列为(-100,-99,...,99,100),则计算得到每个分组的单组性别维度值如表5所示,其中,设备ID1的第一组性别维度值为-200,最后一组性别维度值为1100。
表5
Figure BDA0001167282070000081
经过这种变化,就可以对两端的应用分组,也就是性别差异较为明显的分组给予更多关注。
随后,在步骤S260中,根据第一模型样本中每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型。即利用表5中的各个特征值来构建分类模型。其中,构建分类模型可以采取随机森林模型、支持向量机(SVM)模型或卷积神经网络(CNN)模型等现有的任意一种方法,本发明对此不作限制。使用的模型依据具体数据情况而定,比如,如果表5中的数据很稀疏,可以考虑使用支持向量机模型。
随后,在步骤S270中,根据建好的分类模型对待确定用户性别的移动终端进行性别预测。
具体地,随机收集一个待确定用户性别的移动终端的设备信息。这里的设备信息也包括该待测终端的设备ID和应用信息。根据步骤S240中划分好的每个分组的应用,可以得到待测终端的应用在每个分组内的数目,进而得到该待测终端的单组性别维度值。之后,将该单组性别维度值输入到步骤S260中构建好的分类模型,输出得到该待测终端的用户性别的预测结果。
根据本发明的一个实施例,在步骤S260中,还可以根据每个移动终端的用户性别和整体性别维度值来构建分类模型。例如,当统计得到表5中的数据非常稀疏,或者需要减少抽样误差以保证模型更加稳定时,就可以考虑进一步降低维度,将多个分组的单组性别维度值合并为整体性别维度值来构建模型。
具体地,对于每个移动终端,根据其各个单组性别维度值计算得到该移动终端的整体性别维度值。其中,整体性别维度值包括偏女性维度值和偏男性维度值。之后,就可以根据每个移动终端的用户性别及其整体性别维度值来构建分类模型。
其中,根据单组性别维度值计算整体性别维度值,可以将全部分组里偏女性的单组性别维度值(全部是负数)相加得到偏女性维度值;将全部分组里偏男性的单组性别维度值(全部是正数)相加得到偏男性维度值。这样,就从表5中的100维的应用分组,降低到偏女性维度和偏男性维度这2个维度,从而进一步降低了数据的运算量。表6示出了根据一个实施例的计算得到的偏女性维度值和偏男性维度值。
表6
设备ID 性别 偏女性维度值 偏男性维度值
ID1 -200 1100
ID2 -2000 200
... ... ... ...
这样,在步骤S270中,就可以根据待测终端的各个单组性别维度值计算得到其整体性别维度值,并将该整体性别维度值输入基于整体性别维度值所构建的分类模型中,以对待确定用户性别的移动终端进行性别预测。
另外,申请人发现,机型对用户性别的判断非常重要,比如市面上一些明显偏重于美颜或照相功能的手机,都明显更受女士们的青睐。根据本发明的一个实施例,可以将机型作为终端用户性别判断的一个重要参考依据。因此在步骤S210统计第一模型样本中每个移动终端的设备信息时,可以将机型信息也包括在设备信息内,生成类似表7的机型信息。
表7
设备ID 性别 机型
ID1 机型A
ID2 机型B
ID3 机型A
随后,参考表2的生成过程,组合多个移动终端的机型信息及其用户性别,生成机型列表。即从表7中统计得到每个机型所对应的移动终端的设备ID和用户性别,即生成类似表8的机型列表。
表8
Figure BDA0001167282070000101
随后,参考表3的生成过程,从机型列表中统计每个机型所对应的移动终端的女性用户数目和男性使用户数目,并计算得到每个机型的性别倾向指数,如表9所示。
表9
机型 男性用户数目 女性用户数目 机型_性别倾向指数
机型A 1000 2000 -0.33
机型B 3000 1000 0.5
... ... ... ...
根据本发明的一个实施例,参考应用的权值加权,可以对机型的性别倾向指数一个权值设置,以(如设置100)得到该机型的性别维度值,如表10所示。对于机型来说,在处理过程中是直接根据性别倾向指数及权值计算的,因此得到的就直接是唯一的性别维度值,而不用区分是单组性别维度值还是整体性别维度值。
表10
机型 机型_性别维度值
机型A -33
机型B 50
... ...
进一步地,考虑到在判断用户性别时,机型信息有时甚至比应用信息更有效,因此可以将机型的性别维度值加入到偏女性维度值和偏男性维度值中,以对整体性别维度值进行进一步的校准。具体地,对于每一个设备ID,如果其对应的机型的性别维度值偏向男性维度,即是正数(如表10里的50),则加到表6中的偏男性维度值中;反之(如表10里的-33)则加到表6中的偏女性维度值里,计算结果如表11所示。
表11
Figure BDA0001167282070000111
之后,就可以根据表11中的每个移动终端的用户性别及其校正后的偏女性维度值和偏男性维度值,构建用于预测用户性别的分类模型。对于待测移动终端,以同样方法计算得到其校正后的偏女性维度值和偏男性维度值,输入到基于表11所构建的分类模型中,即可预测得到该待测终端的用户性别。
综上所述,分类模型可以根据表5中的单组性别维度值进行构建,也可以根据表6中的由单组性别维度值计算得到整体性别维度值进行构建,还可以根据表11中的用机型特征校正过的整体性别特征进行构建。根据不同的特征项构建的分类模型,计算得到待测终端的对应特征项,输入到所构建的分类模型中,即可预测得到其用户性别。
根据本发明的另一个实施例,也可以不把机型的性别维度值计入到与应用有关的整体性别维度值中,而单独基于每个机型的性别维度值和其对应终端的用户性别构建分类模型,即构建机型与用户性别的对应关系。而对于这种仅基于机型的性别维度值构建的分类模型,算出待测终端的机型的性别维度值,将其输入到该分类模型中,就可以得到该待测终端的用户性别。这种方法通过几步简单的运算就可得到预测结果,在某些定性分析中比较快速有效。
图3示出了根据本发明一个实施例的预测移动终端用户性别的服务器300的结构框图。如图3所示,服务器300包括样本收集单元310、列表生成单元320、第一计算单元330、第二计算单元340、模型构建单元350和性别预测单元360。
样本收集单元310收集多个移动终端的设备信息,其中,这些移动终端已经确定了其用户性别,设备信息包括该移动终端的设备ID、用户性别和应用信息,还可以包括该移动终端的机型,收集到的设备信息如表1所示。
之后,列表生成单元320组合所收集到的移动终端的应用信息及其用户性别,生成应用列表,该应用列表中列出每个应用都安装在哪些终端上,即该终端的用户性别,如表2所示。另外,列表生成单元320也可以组合所收集到的移动终端的机型信息及其用户性别,生成机型列表。
之后,第一计算单元330从应用列表中统计每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到该应用的性别倾向指数,如表3所示。当然,第一计算单元330也可以从机型列表中统计每种机型所对应的移动终端的女性用户数目和男性用户数目,并计算得到该应用的性别倾向指数。其中,性别倾向指数=(男性用户数目-用户数目)/(男性用户数目+女性用户数目)。当然也可以根据数据情况采取其他数学计算方法,本发明对此不作限制。
之后,第二计算单元340将应用列表中的应用按照性别倾向指数的大小划分为多个分组,并计算该第一模型样本A1中每个移动终端的应用在每个分组内的单组性别维度值。具体地,可以计算性别倾向指数的最大值和最小值之间的差值,并根据该差值将所述应用均分为多个分组。之后,统计每个分组内所含的该移动终端的应用数目,并综合考虑每个分组的权值后得到该移动终端的在每个分组的单组性别维度值.
根据一个实施例,可以按照差值除以100进行分组划分,即划分为100个分组。对于每个终端ID,统计每个分组内包含的该终端应用的平均性别倾向指数,作为该分组的权值。权值设置好后,将统计得到的每个分组的应用数目乘以该分组的权值即可得到其对应移动终端的单组性别维度值,如表5所示。当然,这只是一个示例性的说明,实际上可以根据数据情况调整分组依据、权值计算方法和应用加权方法,本发明对此不作限制。
另外,第二计算单元340也可以基于单组性别维度值进一步得到移动终端的整体性别维度值,其包括偏女性维度值和偏男性维度值。其中,偏女性维度值是所有为负值的单组性别维度值之和,偏男性维度值是所有为正值的单组性别维度值之和,计算结果如表6所示。而且,在计算整体性别维度值时,也可以加入机型的性别维度值。具体地,将机型的性别倾向指数乘以其对应的取值后得到该机型的性别维度值,当机型的性别维度值偏向女性维度时(即为负值),将该机型的性别维度值加入到其对应终端的偏女性维度值中;反之则加入到偏男性维度值中,计算结果如表11所示。
之后,模型构建单元350根据每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型。其中,分类模型包括随机森林模型、支持向量机模型或卷积神经网络模型中等现有的任意一种分类模型。
另外,模型构建单元350还可以根据每个移动终端的用户性别及其整体性别维度值,构建用于预测用户性别的分类模型。
之后,性别预测单元360根据构建好的分类模型对待确定用户性别的移动终端进行性别预测。这里,首先是样本收集单元310收集一个待测移动终端的设备信息;第二计算单元320计算得到该移动终端的单组或整体性别维度值;之后性别预测单元360将该移动终端的单组或整体性别维度值输入到构建好的分类模型中,输出得到该移动终端的用户性别的预测结果。
根据本发明的性别预测服务器300,其具体细节已在基于图1和图2的描述中详细公开,在此不再赘述。
根据本发明的技术方案,提供了一种有效的降维方式,通过统计模型样本中的每个移动终端的应用信息和用户性别,计算得到每个应用的性别倾向指数。再根据该性别倾向指数的大小,将很大维度的终端和应用的组合信息,降低为例如为100维的应用分组。之后,又进一步降低了男性和女性维度这两个维度。这样,可以在尽可能不损失信息的前提下将维度大幅度减小,极大的提高了计算效率,也降低了对硬件的设备要求。
B10、如B9所述的服务器,其中,所述第二计算单元适于根据所述单组性别维度值计算得到该移动终端的整体性别维度值,所述整体性别维度值包括偏女性维度值和偏男性维度值;所述模型构建单元适于根据所述每个移动终端的用户性别及其整体性别维度值,构建用于预测用户性别的分类模型。
B11、如B9或B10所述的服务器,所述设备信息还包括该移动终端的机型,所述第一计算单元适于统计每个机型的女性用户数目和男性用户数目,并计算得到该机型的性别倾向指数;所述第二计算单元适于基于所述每个机型的性别倾向指数计算该机型的性别维度值;所述第二计算单元还适于当所述移动终端的的机型的性别维度值偏向女性维度时,将该机型的性别维度值加入到该移动终端的偏女性维度值中,以及当偏向男性维度时将其加入到该移动终端的偏男性维度值中。
B12、如B9-B11中任一项所述的服务器,其中,所述性别倾向指数=(男性用户数目-用户数目)/(男性用户数目+女性用户数目);所述偏女性维度值是所有为负值的单组性别维度值之和,所述偏男性维度值是所有为正值的单组性别维度值之和。
B13、如B9所述的服务器,所述第二计算单元适于计算所述性别倾向指数的最大值和最小值之间的差值,根据所述差值将所述应用均分为多个分组;以及统计每个分组内所含的该移动终端的应用数目,并结合每个分组的权值来计算该移动终端在每个分组的单组性别维度值。
B14、如B9或B13所述的服务器,所述第二计算单元适于计算每个分组内的所有应用的平均性别倾向指数,并将其作为该分组的权值;以及将所述每个分组内所含的该移动终端的应用数目乘以该分组的权值,作为该移动终端在每个分组的单组性别维度值。
B15、如B9所述的服务器,所述分类模型包括随机森林模型、支持向量机模型或卷积神经网络模型中的任意一种。
B16、如B9所述的服务器,其中,所述样本收集单元适于收集一个待确定用户性别的移动终端的设备信息;所述第二计算单元适于计算该移动终端的单组或整体性别维度值;以及所述性别预测单元适于将所述单组或整体性别维度值输入到所述构建好的分类模型中,输出得到所述移动终端的用户性别预测结果。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (13)

1.一种预测移动终端用户性别的方法,适于在服务器中执行,该方法包括步骤:
收集多个移动终端的设备信息作为第一模型样本A1,其中,所述移动终端已经确定了其用户性别,所述设备信息包括该移动终端的应用信息;
组合所述多个移动终端的应用信息及其用户性别,生成应用列表;
从所述应用列表中统计每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个应用的性别倾向指数;
计算所述性别倾向指数的最大值和最小值之间的差值,并将所述应用列表中的应用按照所述差值划分为多个分组;
统计每个分组内所含的各移动终端的应用数目,并结合每个分组的权值计算所述第一模型样本A1中每个移动终端的应用在每个分组内的单组性别维度值,所述每个分组的权值为该分组内所有应用的平均性别倾向指数;
根据所述每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型;以及
根据所述构建好的分类模型对待确定用户性别的移动终端进行性别预测,包括:收集一个待确定用户性别的移动终端的设备信息,计算该移动终端的单组性别维度值,并将所述单组性别维度值输入到所述训练好的分类模型中,输出得到所述移动终端的用户性别预测结果;
其中,所述设备信息还包括该移动终端的机型,该方法还包括步骤:统计每个机型所对应的移动终端的女性用户数目和男性用户数目,并计算得到每个机型的性别倾向指数;以及基于所述每个机型的性别倾向指数计算该机型的性别维度值。
2.如权利要求1所述的方法,其中,所述构建用于预测用户性别的分类模型的步骤包括:
根据所述单组性别维度值计算得到该移动终端的整体性别维度值,所述整体性别维度值包括偏女性维度值和偏男性维度值;以及
根据所述每个移动终端的用户性别及其整体性别维度值,构建用于预测用户性别的分类模型。
3.如权利要求2所述的方法,其中,所述计算移动终端的整体性别维度值的步骤还包括:如果所述移动终端的机型的性别维度值偏向女性维度,则将该机型的性别维度值加入到该移动终端的偏女性维度值中,反之则加入到该移动终端的偏男性维度值中。
4.如权利要求2所述的方法,其中,
所述性别倾向指数=(男性用户数目-女性用户数目)/(男性用户数目+女性用户数目);
所述偏女性维度值是所有为负值的单组性别维度值之和,所述偏男性维度值是所有为正值的单组性别维度值之和。
5.如权利要求4所述的方法,其中,所述结合每个分组的权值来计算该移动终端的单组性别维度值的步骤包括:
将所述每个分组内所含的该移动终端的应用数目乘以该分组的权值,作为该移动终端在每个分组内的单组性别维度值。
6.如权利要求1所述的方法,其中,所述分类模型包括随机森林模型、支持向量机模型或卷积神经网络模型中的任意一种。
7.一种性别预测服务器,包括:
样本收集单元,适于收集多个已知用户性别的移动终端的设备信息作为第一模型样本A1,其中,所述移动终端已经确定了其用户性别,所述设备信息包括该移动终端的应用信息;
列表生成单元,适于组合所述多个移动终端的应用信息及其用户性别,生成应用列表;
第一计算单元,适于统计所述应用列表中每个应用所对应的移动终端的女性用户数目和男性用户数目,并计算得到该应用的性别倾向指数;
第二计算单元,适于计算所述性别倾向指数的最大值和最小值之间的差值,并将所述应用列表中的应用按照所述差值划分为多个分组,还适于统计每个分组内所含的各移动终端的应用数目,并结合每个分组的权值来并计算所述第一模型样本A1中每个移动终端的应用在每个分组内的单组性别维度值,所述每个分组的权值为该分组内的所有应用的平均性别倾向指数;
模型构建单元,适于根据所述每个移动终端的用户性别及其单组性别维度值,构建用于预测用户性别的分类模型;以及
性别预测单元,适于根据所述构建好的分类模型对待确定用户性别的移动终端进行性别预测,具体适于收集一个待确定用户性别的移动终端的设备信息,计算该移动终端的单组性别维度值,并将所述单组性别维度值输入到所述训练好的分类模型中,输出得到所述移动终端的用户性别预测结果;
其中,所述设备信息还包括该移动终端的机型,所述第一计算单元还适于统计每个机型的女性用户数目和男性用户数目,并计算得到该机型的性别倾向指数;所述第二计算单元还适于基于所述每个机型的性别倾向指数计算该机型的性别维度值。
8.如权利要求7所述的服务器,其中,
所述第二计算单元适于根据所述单组性别维度值计算得到该移动终端的整体性别维度值,所述整体性别维度值包括偏女性维度值和偏男性维度值;
所述模型构建单元适于根据所述每个移动终端的用户性别及其整体性别维度值,构建用于预测用户性别的分类模型。
9.如权利要求8所述的服务器,其中,所述第二计算单元还适于当所述移动终端的机型的性别维度值偏向女性维度时,将该机型的性别维度值加入到该移动终端的偏女性维度值中,以及当偏向男性维度时将其加入到该移动终端的偏男性维度值中。
10.如权利要求8所述的服务器,其中,
所述性别倾向指数=(男性用户数目-用户数目)/(男性用户数目+女性用户数目);
所述偏女性维度值是所有为负值的单组性别维度值之和,所述偏男性维度值是所有为正值的单组性别维度值之和。
11.如权利要求7所述的服务器,所述第二计算单元适于:
将所述每个分组内所含的该移动终端的应用数目乘以该分组的权值,作为该移动终端在每个分组的单组性别维度值。
12.如权利要求7所述的服务器,所述分类模型包括随机森林模型、支持向量机模型或卷积神经网络模型中的任意一种。
13.一种性别预测***,包括如权利要求7-12中任一项所述的性别预测服务器,以及至少一个移动终端。
CN201611088196.XA 2016-11-30 2016-11-30 一种预测移动终端用户性别的方法、服务器和*** Active CN106778843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611088196.XA CN106778843B (zh) 2016-11-30 2016-11-30 一种预测移动终端用户性别的方法、服务器和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611088196.XA CN106778843B (zh) 2016-11-30 2016-11-30 一种预测移动终端用户性别的方法、服务器和***

Publications (2)

Publication Number Publication Date
CN106778843A CN106778843A (zh) 2017-05-31
CN106778843B true CN106778843B (zh) 2020-04-21

Family

ID=58915251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611088196.XA Active CN106778843B (zh) 2016-11-30 2016-11-30 一种预测移动终端用户性别的方法、服务器和***

Country Status (1)

Country Link
CN (1) CN106778843B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357782B (zh) * 2017-06-29 2020-12-18 深圳市金立通信设备有限公司 一种识别用户性别的方法及终端
CN109389138A (zh) * 2017-08-09 2019-02-26 武汉安天信息技术有限责任公司 一种用户画像方法及装置
CN107766891B (zh) * 2017-10-31 2020-05-12 Oppo广东移动通信有限公司 用户性别识别方法、装置、存储介质及电子设备
CN108564220A (zh) * 2018-04-19 2018-09-21 广州优视网络科技有限公司 用户性别预测方法、装置、存储介质和计算机设备
CN109684539A (zh) * 2018-12-07 2019-04-26 陈包容 一种基于手机设备信息和上网信息的用户画像方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296802A (zh) * 1999-11-19 2001-05-30 李增庆 分娩期妇女心理卫生评定量表及其应用
CN103838884A (zh) * 2014-03-31 2014-06-04 联想(北京)有限公司 信息处理设备以及信息处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016061292A1 (en) * 2014-10-17 2016-04-21 SimonComputing, Inc. Method and system for imaging documents in mobile applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296802A (zh) * 1999-11-19 2001-05-30 李增庆 分娩期妇女心理卫生评定量表及其应用
CN103838884A (zh) * 2014-03-31 2014-06-04 联想(北京)有限公司 信息处理设备以及信息处理方法

Also Published As

Publication number Publication date
CN106778843A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106778843B (zh) 一种预测移动终端用户性别的方法、服务器和***
CN106776925B (zh) 一种移动终端用户性别的预测方法、服务器和***
WO2019134544A1 (zh) 营销信息的推送方法及装置
CN105608179B (zh) 确定用户标识的关联性的方法和装置
CN110046929B (zh) 一种欺诈团伙识别方法、装置、可读存储介质及终端设备
CN106469413B (zh) 一种虚拟资源的数据处理方法及装置
US20120130940A1 (en) Real-time analytics of streaming data
US10559004B2 (en) Systems and methods for establishing and utilizing a hierarchical Bayesian framework for ad click through rate prediction
CN110162359B (zh) 新手引导信息的推送方法、装置及***
WO2018149337A1 (zh) 一种信息投放方法、装置及服务器
US11887132B2 (en) Processor systems to estimate audience sizes and impression counts for different frequency intervals
US20160055320A1 (en) Method and system for measuring effectiveness of user treatment
Hassani et al. Context-aware recruitment scheme for opportunistic mobile crowdsensing
CN107392259B (zh) 构建不均衡样本分类模型的方法和装置
WO2021108441A1 (en) Methods, systems and apparatus to estimate census-level audience size and total impression durations across demographics
CN111626767B (zh) 资源数据的发放方法、装置及设备
CN111159553A (zh) 信息推送方法、装置、计算机设备及存储介质
CN107222410B (zh) 链接预测的方法、装置、终端及计算机可读存储介质
WO2018223271A1 (en) Systems and methods for providing recommendations based on seeded supervised learning
CN105681089B (zh) 网络用户行为聚类方法、装置及终端
CN112771512B (zh) 数据处理方法、数据处理***和计算机可读介质
Xu An efficient clustering method for mobile users based on hybrid PSO and ABC
CN109947830B (zh) 用于输出信息的方法和装置
CN112036418A (zh) 用于提取用户特征的方法和装置
US20210056586A1 (en) Optimizing large scale data analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant