CN105701498B - 一种用户分类方法及服务器 - Google Patents
一种用户分类方法及服务器 Download PDFInfo
- Publication number
- CN105701498B CN105701498B CN201511033392.2A CN201511033392A CN105701498B CN 105701498 B CN105701498 B CN 105701498B CN 201511033392 A CN201511033392 A CN 201511033392A CN 105701498 B CN105701498 B CN 105701498B
- Authority
- CN
- China
- Prior art keywords
- user
- users
- attribute
- initial
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 93
- 238000002372 labelling Methods 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims description 62
- 230000003993 interaction Effects 0.000 claims description 20
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 238000005304 joining Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 4
- 230000008774 maternal effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用户分类方法及服务器,其中方法包括:基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
Description
技术领域
本发明涉及通信领域中的用户信息处理技术,尤其涉及一种用户分类方法及服务器。
背景技术
当前社交网络以及媒体信息发送***中,直接使用用户在社交网络上注册填写的属性内容,比如感情/婚恋状态,来进行媒体信息的分类发送。但是,用户填写属性的内容存在如下两个问题:一、覆盖用户不全:用户有可能不会主动进行属性的填写;二、内容不准确:因为存在过期未及时更新的问题,导致属性缺乏时效性的问题。可见,当前社交网络中基于用户填写的属性可能会出现分类不准确的问题。
发明内容
有鉴于此,本发明的目的在于提供一种用户分类方法及服务器,能至少解决现有技术中存在的上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种用户分类方法,所述方法包括:
基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
本发明实施例提供了一种服务器,包括:
用户获取单元,用于基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
模型建立单元,用于从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
分类单元,用于基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
本发明实施例提供了用户分类方法及服务器,基于历史服务数据获取到具备第一属性的至少一个标注用户,再基于至少一个维度的至少一种特征参数、以及标注用户的第一属性确定针对用户的第一属性的分类模型,根据所述分类模型为至少一个目标用户划分类别。如此,能够避免由于用户未填写的第一属性、或者填写第一属性过时,而导致的无法准确的为目标用户划分类别的问题。
附图说明
图1为本发明实施例用户分类方法流程示意图;
图2为本发明实施例选取标注用户场景示意图一;
图3为本发明实施例选取标注用户场景示意图一;
图4为本发明实施例选取标注用户场景示意图一;
图5为本发明实施例用户特征提取场景示意图;
图6为本发明实施例特征提取内容示意图;
图7为本发明实施例建立分类模型逻辑示意图;
图8为本发明实施例服务器组成结构示意图;
图9为本发明实施例服务器硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
实施例一、
本发明实施例提供了一种用户分类方法,如图1所示,所述方法包括:
步骤101:基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
步骤102:从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
步骤103:基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
这里,本实施例提供的方案可以应用于服务器侧。
其中,所述针对用户的第一属性的分类模型中以用户的特征参数作为输入参数、以用户对应的第一属性的类别作为输出参数。
执行上述步骤101获取到具备第一属性的至少一个标注用户之前,所述方法还包括:
基于社交网络用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性可以为用户的婚姻状态;相应的,所述第一属性对应的类别可以为两种,第一类别可以为已婚,第二类别可以为未婚;
基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;
基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户,设置所述第二类初始用户的第一属性为第二类别;
基于所述第一类初始用户以及第二类初始用户的历史服务数据,建立针对用户的第一属性的分类模型。
其中,所述选取第一属性为第一类别的至少一个第一类初始用户的方法可以包括:根据用户的历史服务数据,选取设置第一属性为第一类别的用户作为第一类初始用户。所述第一类别为已婚,相应的,第一类初始用户为已婚用户。这里,首先选取第一类初始用户是由于假设社交网络用户注册时填写的婚恋状态是准确的,只是存在一些长期未及时更新的问题,但是,对于“已婚”状态,一旦用户步入该状态,现实中基本不会改变,所以,我们可以认为是这个状态的下的数据非常准确。
从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,可以参见图2,也就是说,将至少一个第一类初始用户看作正例(Positive data),从刨除第一类初始用户后剩余的全部用户中随机选择预设比例第二类初始用户作为负例(Negative data),即未标注数据(Unlabeled data),基于第一类初始用户以及第二类初始用户作为训练数据建立并训练针对用户的第一属性的分类模型。
其中,预设比例可以为根据实际情况进行设置,比如可以从剩余的用户中选取30%的用户作为第二类初始用户;或者,可以选取50%的用户作为第二类初始用户。
所述针对用户的第一属性的分类模型可以为一种二元分类器,用于判断是否“已婚”,采用Logisitic Regression(LR)机器学习算法,训练得到模型,即LR Model。
进一步地,所述获取到具备第一属性的至少一个标注用户,可以包括:
基于社交网络用户的历史服务数据,选取设置有第一属性的至少一个用户作为待处理用户;
基于所述针对用户的第一属性的分类模型对所述待处理用户进行分类得到针对所述待处理用户的分类结果;
确定所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户。
所述第一属性中设置的内容可以基于用户的标签获得。所述设置有第一属性的至少一个用户中,用户针对第一属性进行设置时,可以存在多种设置内容,可能包含有:已婚、未婚、单身、有子女、新婚、恋爱中、订婚、分手、离异等多种内容;
相应的,在确定所述待处理用户的第一属性与其对应的分类结果相同的概率时,首先可以根据待处理用户的第一属性中设置的内容,为待处理用户选取对应的类别,比如,已婚的类别可以对应的第一属性中设置的内容有:已婚、新婚、有子女;未婚的类别对应的第一属性中设置的内容有:单身、未婚、恋爱中、订婚、分手以及离异等等。
在图2的基础上,参见图3用于描述上述数据获取(Data Acquisition)的处理,具体为:对社交网络有婚恋填写状态的所有用户做分类预估,判断是否为“已婚”人群,概率为p(c|instance),保留满足如下条件的数据作为多分类候选训练数据集:
p(c=0|instance,label=0)>threshold1
p(c=1|instance,label=1)>threshold2
其中,c是针对用户的第一属性的分类模型的预估类别,即基于用户的至少一种第二属性以及分类模型判断用户是否已婚;instance是待处理用户,label是instance标注的类别,即是否“已婚”。Threshold代表截断阈值,threshold1用来保留预估为未婚的高概率人群,threshold2用来保留预估为已婚的高概率人群。
可见,通过采用上述方案,就能够基于历史服务数据获取到具备第一属性的至少一个标注用户,再基于至少一个维度的至少一种特征参数、以及标注用户的第一属性确定针对用户的第一属性的分类模型,根据所述分类模型为至少一个目标用户划分类别。如此,能够避免由于用户未填写的第一属性、或者填写第一属性过时,而导致的无法准确的为目标用户划分类别的问题。
实施例二、
本发明实施例提供了一种用户分类方法,如图1所示,所述方法包括:
步骤101:基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
步骤102:从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
步骤103:基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
这里,本实施例提供的方案可以应用于服务器侧。
其中,所述针对用户的第一属性的分类模型中以用户的特征参数作为输入参数、以用户对应的第一属性的类别作为输出参数。
执行上述步骤101获取到具备第一属性的至少一个标注用户之前,所述方法还包括:
基于社交网络用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性可以为用户的婚姻状态;相应的,所述第一属性对应的类别可以为两种,第一类别可以为已婚,第二类别可以为未婚;
基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;
基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户;
基于所述第一类初始用户以及第二类初始用户的历史服务数据,建立针对用户的第一属性的分类模型。
其中,所述选取第一属性为第一类别的至少一个第一类初始用户的方法可以包括:根据用户的历史服务数据,选取设置第一属性为第一类别的用户作为第一类初始用户。所述第一类别为已婚,相应的,第一类初始用户为已婚用户。这里,首先选取第一类初始用户是由于假设社交网络用户注册时填写的婚恋状态是准确的,只是存在一些长期未及时更新的问题,但是,对于“已婚”状态,一旦用户步入该状态,现实中基本不会改变,所以,我们可以认为是这个状态的下的数据非常准确。
基于上述操作,本实施例还提供了所述从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,包括:
基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;
基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户。
对于负例的选择,随机策略可能导致Unlabeled data中存在本来应该是Positive而未被标注出来的数据,因为现实中已婚用户占比很高,所以,可以仅从与已知Positivedata差异比较大的数据中随机选取更为可靠的负例用来训练。这里可以通过样本特征(如兴趣偏好分布)之间的余弦相似度作为评判依据。
所述针对用户的第一属性的分类模型可以为一种二元分类器,用于判断是否“已婚”,采用Logisitic Regression(LR)机器学习算法,训练得到模型,即LR Model。
进一步地,所述获取到具备第一属性的至少一个标注用户,可以包括:
基于社交网络用户的历史服务数据,选取设置有第一属性的至少一个用户作为待处理用户;
基于所述针对用户的第一属性的分类模型对所述待处理用户进行分类得到针对所述待处理用户的分类结果;
确定所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户。
所述第一属性中设置的内容可以基于用户的标签获得。所述设置有第一属性的至少一个用户中,用户针对第一属性进行设置时,可以存在多种设置内容,可能包含有:已婚、未婚、单身、有子女、新婚、恋爱中、订婚、分手、离异等多种内容;
相应的,在确定所述待处理用户的第一属性与其对应的分类结果相同的概率时,首先可以根据待处理用户的第一属性中设置的内容,为待处理用户选取对应的类别,比如,已婚的类别可以对应的第一属性中设置的内容有:已婚、新婚、有子女;未婚的类别对应的第一属性中设置的内容有:单身、未婚、恋爱中、订婚、分手以及离异等等。
优选地,本实施例在选取标注用户之后,还会进一步的保证训练数据的质量,进一步的对标注用户进行校准,具体的,所述选取概率高于预设概率门限值的待处理用户作为标注用户之后,所述方法还包括:
分别从至少一个维度获取到标注用户对应的历史服务数据;
基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户。
其中,所述至少一个维度可以包括以下至少之一:用户浏览的预设类型网站的频率;用户加入的用户群的类型;用户操作的目标数据的类型;用户的预设类型的属性对应的内容。所述预设类型可以为婚恋类型的网站;用户群可以为单身群、母婴群等;操作的目标数据可以为相册中的照片类型。
比如,如经常浏览婚恋交友类网站的用户不能在非“单身”训练集中,经常活跃于母婴类群中的用户不能在非“已婚&育儿”训练集中,相册中包含婚纱照的用户不能出现在非“新婚&已婚”训练集中。
从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,可以参见图2,也就是说,将至少一个第一类初始用户看作正例(Positive data),从刨除第一类初始用户后剩余的全部用户中随机选择预设比例第二类初始用户作为负例(Negative data),即未标注数据(Unlabeled data),基于第一类初始用户以及第二类初始用户作为训练数据建立并训练针对用户的第一属性的分类模型。
在图2的基础上,参见图3用于描述上述数据获取(Data Acquisition)的处理,具体为:对社交网络有婚恋填写状态的所有用户做分类预估,判断是否为“已婚”人群,概率为p(c|instance),保留满足如下条件的数据作为多分类候选训练数据集:
p(c=0|instance,label=0)>threshold1
p(c=1|instance,label=1)>threshold2
其中,c是针对用户的第一属性的分类模型的预估类别,即基于用户的至少一种第二属性以及分类模型判断用户是否已婚;instance是待处理用户,label是instance标注的类别,即是否“已婚”。Threshold代表截断阈值,threshold1用来保留预估为未婚的高概率人群,threshold2用来保留预估为已婚的高概率人群。
进一步参见图4,数据校准(Data Calibration):为了进一步保证训练数据质量,人工定义规则,对候选训练数据集做校正,如下:收集每个状态下高准确率的用户,如经常浏览婚恋交友类网站的用户不能在非“单身”训练集中,经常活跃于母婴类群中的用户不能在非“已婚&育儿”训练集中,相册中包含婚纱照的用户不能出现在非“新婚&已婚”训练集中,等等。小于18岁的用户只可能是“恋爱”或“单身”。据此,可以获取到大量带婚恋状态的用户标注数据集,用于模型的训练。
可见,通过采用上述方案,就能够基于历史服务数据获取到具备第一属性的至少一个标注用户,再基于至少一个维度的至少一种特征参数、以及标注用户的第一属性确定针对用户的第一属性的分类模型,根据所述分类模型为至少一个目标用户划分类别。如此,能够避免由于用户未填写的第一属性、或者填写第一属性过时,而导致的无法准确的为目标用户划分类别的问题。
实施例三、
本发明实施例提供了一种用户分类方法,如图1所示,所述方法包括:
步骤101:基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
步骤102:从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
步骤103:基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
这里,本实施例提供的方案可以应用于服务器侧。
其中,所述针对用户的第一属性的分类模型中以用户的特征参数作为输入参数、以用户对应的第一属性的类别作为输出参数。
执行上述步骤101获取到具备第一属性的至少一个标注用户之前,所述方法还包括:
基于社交网络用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性可以为用户的婚姻状态;相应的,所述第一属性对应的类别可以为两种,第一类别可以为已婚,第二类别可以为未婚;
基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;
基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户;
基于所述第一类初始用户以及第二类初始用户的历史服务数据,建立针对用户的第一属性的分类模型。
其中,所述选取第一属性为第一类别的至少一个第一类初始用户的方法可以包括:根据用户的历史服务数据,选取设置第一属性为第一类别的用户作为第一类初始用户。所述第一类别为已婚,相应的,第一类初始用户为已婚用户。这里,首先选取第一类初始用户是由于假设社交网络用户注册时填写的婚恋状态是准确的,只是存在一些长期未及时更新的问题,但是,对于“已婚”状态,一旦用户步入该状态,现实中基本不会改变,所以,我们可以认为是这个状态的下的数据非常准确。
其中,预设比例可以为根据实际情况进行设置,比如可以从剩余的用户中选取30%的用户作为第二类初始用户;或者,可以选取50%的用户作为第二类初始用户。
基于上述操作,本实施例还提供了所述从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,包括:
基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;
基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户。
对于负例的选择,随机策略可能导致Unlabeled data中存在本来应该是Positive而未被标注出来的数据,因为现实中已婚用户占比很高,所以,可以仅从与已知Positivedata差异比较大的数据中随机选取更为可靠的负例用来训练。这里可以通过样本特征(如兴趣偏好分布)之间的余弦相似度作为评判依据。
所述针对用户的第一属性的分类模型可以为一种二元分类器,用于判断是否“已婚”,采用Logisitic Regression(LR)机器学习算法,训练得到模型,即LR Model。
进一步地,所述获取到具备第一属性的至少一个标注用户,可以包括:
基于社交网络用户的历史服务数据,选取设置有第一属性的至少一个用户作为待处理用户;
基于所述针对用户的第一属性的分类模型对所述待处理用户进行分类得到针对所述待处理用户的分类结果;
确定所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户。
所述第一属性中设置的内容可以基于用户的标签获得。所述设置有第一属性的至少一个用户中,用户针对第一属性进行设置时,可以存在多种设置内容,可能包含有:已婚、未婚、单身、有子女、新婚、恋爱中、订婚、分手、离异等多种内容;
相应的,在确定所述待处理用户的第一属性与其对应的分类结果相同的概率时,首先可以根据待处理用户的第一属性中设置的内容,为待处理用户选取对应的类别,比如,已婚的类别可以对应的第一属性中设置的内容有:已婚、新婚、有子女;未婚的类别对应的第一属性中设置的内容有:单身、未婚、恋爱中、订婚、分手以及离异等等。
优选地,本实施例在选取标注用户之后,还会进一步的保证训练数据的质量,进一步的对标注用户进行校准,具体的,所述选取概率高于预设概率门限值的待处理用户作为标注用户之后,所述方法还包括:
分别从至少一个维度获取到标注用户对应的历史服务数据;
基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户。
其中,所述至少一个维度可以包括以下至少之一:用户浏览的预设类型网站的频率;用户加入的用户群的类型;用户操作的目标数据的类型;用户的预设类型的属性对应的内容。所述预设类型可以为婚恋类型的网站;用户群可以为单身群、母婴群等;操作的目标数据可以为相册中的照片类型。
进一步地,用户婚恋状态分类器重点是用户特征抽取和分类算法设计。其中,抽取有效的特征是最为重要的。参见图5,其中,数据源表示所要进行特征提取的用户的数据,特征提取可以为根据至少一个维度进行特征提取,正态分布的特征表示,从提取的特征中选取相互之间不重合的特征。
本实施例针对用户的第一属性的分类模型的建立、训练以及调整进行说明,所述从至少一个维度获取到所述标注用户对应的至少一种特征参数,包括以下至少之一:
基于标注用户的历史服务数据获取到所述标注用户的基本属性参数;
基于标注用户的历史服务数据获取到所述标注用户针对目标数据的操作参数;
基于标注用户的历史服务数据获取到所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的交互特征参数。
主要可以如图6所示,包括以下几类:
人群属性(Demographics):用户基本属性信息,包括年龄、性别、职业、教育程度、消费习惯、家乡、常驻地等;
行为爱好(Behavioral):用户商业兴趣和关键词Tag,挖掘来源包括群、广告点击、移动App、网页浏览等;
再营销规则(Remarketing Rule):根据广告主提交上传的用户标识号码包生成的规则标识信息,还可以根据规则标识信息关联到广告信息。
进一步地,对上述至少一种特征参数进行说明:
所述标注用户的基本属性参数,包括以下至少之一:登录位置信息、登录时间段、加入预设名称的群组、以及在所述群组的交互频率;
所述标注用户针对目标数据的操作参数,至少包括:针对预设类型的目标信息的操作频率以及操作时段;
所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的交互特征参数,包括以下至少之一:所述其他用户的性别属性、所述其他用户与所述标注用户之间的交互频率、以及与所述其他用户的登录地址信息。
相应的,基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户,可以为以下至少之一:
针对预设类型的目标信息的操作频率以及操作时段符合预设频率以及预设时间段的条件;比如,LBS行为:总活跃在校园中的年轻人更可能是单身或恋爱;在线时间段:总深夜在线用户更可能是未婚用户;好友分组名:是否包含特定称谓的分组,以及互动频率;
所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的交互特征参数满足预设条件;
比如,所述其他用户的性别属性与所述标注用户的性别属性不同,也就是说,所述标注用户经常与异性朋友聊天,更有可能是非单身用户,当然,还可以同时考虑所述标注用户与所述其他用户之间是否为相互均满足所述预设条件,也就是用来判断是否是对方的唯一交互对象;以及还可以判断其他用户是否为包含特定称谓的好友,以及两者之间的互动频率;
基于标注用户与其他用户的登录行为进行判断,比如,两个男女好友是否经常通过同一个IP登录,尤其区分晚上,周末,节假日;
另外,还可以获取到所述其他用户的婚恋状态:与联系较多的好友婚恋状态更可能一致。
基于针对预设类型的目标信息的操作频率以及操作时段,判断针对预设类型的目标信息的操作频率是否满足频率阈值,操作时段是否满足预设时段要求;
比如,相册分类:近期是否上传了新婚、育儿类相册;
或者,UGC动态:近期是否发表了情侣、新婚、育儿类的文字。
参见图7,在图5的基础上,可以根据特征配置从左侧提取出来的多个特征中选取一个或多个特征作为用户特征;再根据标注用户组成的标注数据以及用户特征进行匹配之后,得到训练数据以及测试数据;其中,训练数据和测试数据可以根据实际情况选取,比如可以每4个数据中选取一个作为测试数据剩下的作为训练数据;
基于训练数据对分类模型进行训练,其中,进行训练可以为根据用户的多个特征作为输入数据,将已知的用户对应的类型作为结果,对分类模型进行训练;
基于测试数据对分类模型进行预测,其中,进行预测可以为根据用户的多个特征作为输入数据,基于分类模型得到对应的输出结果,判断输出结果与用户的类型匹配的概率,当概率高于预设的门限值时,确定分类模型建立成功;否则,继续进行训练。
分类模型的建立以及训练我们同时尝试使用两种策略:单个Softmax Regression多元分类器和多个One-vs-All Logistic Regression二元分类器,通过调优训练数据规模,正负例比例,优化算法和正则因子等,选取最优的分类器策略和参数,学***衡,达到最佳的效果。
可见,通过采用上述方案,就能够基于历史服务数据获取到具备第一属性的至少一个标注用户,再基于至少一个维度的至少一种特征参数、以及标注用户的第一属性确定针对用户的第一属性的分类模型,根据所述分类模型为至少一个目标用户划分类别。如此,能够避免由于用户未填写的第一属性、或者填写第一属性过时,而导致的无法准确的为目标用户划分类别的问题。
实施例四、
本发明实施例提供了一种服务器,如图8所示,包括:
用户获取单元81,用于基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
模型建立单元82,用于从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
分类单元83,用于基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
这里,本实施例提供的方案可以应用于服务器侧。
其中,所述针对用户的第一属性的分类模型中以用户的特征参数作为输入参数、以用户对应的第一属性的类别作为输出参数。
用户获取单元81,用于基于社交网络用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性可以为用户的婚姻状态;相应的,所述第一属性对应的类别可以为两种,第一类别可以为已婚,第二类别可以为未婚;基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户,设置所述第二类初始用户的第一属性为第二类别;基于所述第一类初始用户以及第二类初始用户的历史服务数据,建立针对用户的第一属性的分类模型。
其中,所述选取第一属性为第一类别的至少一个第一类初始用户的方法可以包括:根据用户的历史服务数据,选取设置第一属性为第一类别的用户作为第一类初始用户。所述第一类别为已婚,相应的,第一类初始用户为已婚用户。这里,首先选取第一类初始用户是由于假设社交网络用户注册时填写的婚恋状态是准确的,只是存在一些长期未及时更新的问题,但是,对于“已婚”状态,一旦用户步入该状态,现实中基本不会改变,所以,我们可以认为是这个状态的下的数据非常准确。
从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,可以参见图2,也就是说,将至少一个第一类初始用户看作正例(Positive data),从刨除第一类初始用户后剩余的全部用户中随机选择预设比例第二类初始用户作为负例(Negative data),即未标注数据(Unlabeled data),基于第一类初始用户以及第二类初始用户作为训练数据建立并训练针对用户的第一属性的分类模型。
其中,预设比例可以为根据实际情况进行设置,比如可以从剩余的用户中选取30%的用户作为第二类初始用户;或者,可以选取50%的用户作为第二类初始用户。
所述针对用户的第一属性的分类模型可以为一种二元分类器,用于判断是否“已婚”,采用Logisitic Regression(LR)机器学习算法,训练得到模型,即LR Model。
进一步地,用户获取单元81,用于基于社交网络用户的历史服务数据,选取设置有第一属性的至少一个用户作为待处理用户;基于所述针对用户的第一属性的分类模型对所述待处理用户进行分类得到针对所述待处理用户的分类结果;确定所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户。
所述第一属性中设置的内容可以基于用户的标签获得。所述设置有第一属性的至少一个用户中,用户针对第一属性进行设置时,可以存在多种设置内容,可能包含有:已婚、未婚、单身、有子女、新婚、恋爱中、订婚、分手、离异等多种内容;
相应的,在确定所述待处理用户的第一属性与其对应的分类结果相同的概率时,首先可以根据待处理用户的第一属性中设置的内容,为待处理用户选取对应的类别,比如,已婚的类别可以对应的第一属性中设置的内容有:已婚、新婚、有子女;未婚的类别对应的第一属性中设置的内容有:单身、未婚、恋爱中、订婚、分手以及离异等等。
在图2的基础上,参见图3用于描述上述数据获取(Data Acquisition)的处理,具体为:对社交网络有婚恋填写状态的所有用户做分类预估,判断是否为“已婚”人群,概率为p(c|instance),保留满足如下条件的数据作为多分类候选训练数据集:
p(c=0|instance,label=0)>threshold1
p(c=1|instance,label=1)>threshold2
其中,c是针对用户的第一属性的分类模型的预估类别,即基于用户的至少一种第二属性以及分类模型判断用户是否已婚;instance是待处理用户,label是instance标注的类别,即是否“已婚”。Threshold代表截断阈值,threshold1用来保留预估为未婚的高概率人群,threshold2用来保留预估为已婚的高概率人群。
可见,通过采用上述方案,就能够基于历史服务数据获取到具备第一属性的至少一个标注用户,再基于至少一个维度的至少一种特征参数、以及标注用户的第一属性确定针对用户的第一属性的分类模型,根据所述分类模型为至少一个目标用户划分类别。如此,能够避免由于用户未填写的第一属性、或者填写第一属性过时,而导致的无法准确的为目标用户划分类别的问题。
实施例五、
本发明实施例提供了一种服务器,如图8所示,包括:
用户获取单元81,用于基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
模型建立单元82,用于从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
分类单元83,用于基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
其中,所述针对用户的第一属性的分类模型中以用户的特征参数作为输入参数、以用户对应的第一属性的类别作为输出参数。
用户获取单元81,用于基于社交网络用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性可以为用户的婚姻状态;相应的,所述第一属性对应的类别可以为两种,第一类别可以为已婚,第二类别可以为未婚;基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户;基于所述第一类初始用户以及第二类初始用户的历史服务数据,建立针对用户的第一属性的分类模型。
基于上述操作,本实施例还提供了所述从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,用户获取单元81,用于基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户。
对于负例的选择,随机策略可能导致Unlabeled data中存在本来应该是Positive而未被标注出来的数据,因为现实中已婚用户占比很高,所以,可以仅从与已知Positivedata差异比较大的数据中随机选取更为可靠的负例用来训练。这里可以通过样本特征(如兴趣偏好分布)之间的余弦相似度作为评判依据。
所述针对用户的第一属性的分类模型可以为一种二元分类器,用于判断是否“已婚”,采用Logisitic Regression(LR)机器学习算法,训练得到模型,即LR Model。
进一步地,用户获取单元81,用于基于社交网络用户的历史服务数据,选取设置有第一属性的至少一个用户作为待处理用户;基于所述针对用户的第一属性的分类模型对所述待处理用户进行分类得到针对所述待处理用户的分类结果;确定所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户。
所述第一属性中设置的内容可以基于用户的标签获得。所述设置有第一属性的至少一个用户中,用户针对第一属性进行设置时,可以存在多种设置内容,可能包含有:已婚、未婚、单身、有子女、新婚、恋爱中、订婚、分手、离异等多种内容;
相应的,在确定所述待处理用户的第一属性与其对应的分类结果相同的概率时,首先可以根据待处理用户的第一属性中设置的内容,为待处理用户选取对应的类别,比如,已婚的类别可以对应的第一属性中设置的内容有:已婚、新婚、有子女;未婚的类别对应的第一属性中设置的内容有:单身、未婚、恋爱中、订婚、分手以及离异等等。
优选地,本实施例在选取标注用户之后,还会进一步的保证训练数据的质量,进一步的对标注用户进行校准,具体的,所述选取概率高于预设概率门限值的待处理用户作为标注用户之后,用户获取单元81,用于分别从至少一个维度获取到标注用户对应的历史服务数据;基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户。
其中,所述至少一个维度可以包括以下至少之一:用户浏览的预设类型网站的频率;用户加入的用户群的类型;用户操作的目标数据的类型;用户的预设类型的属性对应的内容。所述预设类型可以为婚恋类型的网站;用户群可以为单身群、母婴群等;操作的目标数据可以为相册中的照片类型。
比如,如经常浏览婚恋交友类网站的用户不能在非“单身”训练集中,经常活跃于母婴类群中的用户不能在非“已婚&育儿”训练集中,相册中包含婚纱照的用户不能出现在非“新婚&已婚”训练集中。
从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,可以参见图2,也就是说,将至少一个第一类初始用户看作正例(Positive data),从刨除第一类初始用户后剩余的全部用户中随机选择预设比例第二类初始用户作为负例(Negative data),即未标注数据(Unlabeled data),基于第一类初始用户以及第二类初始用户作为训练数据建立并训练针对用户的第一属性的分类模型。
在图2的基础上,参见图3用于描述上述数据获取(Data Acquisition)的处理,具体为:对社交网络有婚恋填写状态的所有用户做分类预估,判断是否为“已婚”人群,概率为p(c|instance),保留满足如下条件的数据作为多分类候选训练数据集:
p(c=0|instance,label=0)>threshold1
p(c=1|instance,label=1)>threshold2
其中,c是针对用户的第一属性的分类模型的预估类别,即基于用户的至少一种第二属性以及分类模型判断用户是否已婚;instance是待处理用户,label是instance标注的类别,即是否“已婚”。Threshold代表截断阈值,threshold1用来保留预估为未婚的高概率人群,threshold2用来保留预估为已婚的高概率人群。
进一步参见图4,数据校准(Data Calibration):为了进一步保证训练数据质量,人工定义规则,对候选训练数据集做校正,如下:收集每个状态下高准确率的用户,如经常浏览婚恋交友类网站的用户不能在非“单身”训练集中,经常活跃于母婴类群中的用户不能在非“已婚&育儿”训练集中,相册中包含婚纱照的用户不能出现在非“新婚&已婚”训练集中,等等。小于18岁的用户只可能是“恋爱”或“单身”。据此,可以获取到大量带婚恋状态的用户标注数据集,用于模型的训练。
可见,通过采用上述方案,就能够基于历史服务数据获取到具备第一属性的至少一个标注用户,再基于至少一个维度的至少一种特征参数、以及标注用户的第一属性确定针对用户的第一属性的分类模型,根据所述分类模型为至少一个目标用户划分类别。如此,能够避免由于用户未填写的第一属性、或者填写第一属性过时,而导致的无法准确的为目标用户划分类别的问题。
实施例六、
本发明实施例提供了一种服务器,如图8所示,包括:
用户获取单元81,用于基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;其中,所述第一属性用于表征所述社交网络用户的婚恋状态;
模型建立单元82,用于从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;
分类单元83,用于基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
其中,所述针对用户的第一属性的分类模型中以用户的特征参数作为输入参数、以用户对应的第一属性的类别作为输出参数。
用户获取单元81,用于基于社交网络用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性可以为用户的婚姻状态;相应的,所述第一属性对应的类别可以为两种,第一类别可以为已婚,第二类别可以为未婚;基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户;基于所述第一类初始用户以及第二类初始用户的历史服务数据,建立针对用户的第一属性的分类模型。
其中,所述选取第一属性为第一类别的至少一个第一类初始用户的方法可以包括:根据用户的历史服务数据,选取设置第一属性为第一类别的用户作为第一类初始用户。所述第一类别为已婚,相应的,第一类初始用户为已婚用户。这里,首先选取第一类初始用户是由于假设社交网络用户注册时填写的婚恋状态是准确的,只是存在一些长期未及时更新的问题,但是,对于“已婚”状态,一旦用户步入该状态,现实中基本不会改变,所以,我们可以认为是这个状态的下的数据非常准确。
其中,预设比例可以为根据实际情况进行设置,比如可以从剩余的用户中选取30%的用户作为第二类初始用户;或者,可以选取50%的用户作为第二类初始用户。
用户获取单元81,用于基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户。
对于负例的选择,随机策略可能导致Unlabeled data中存在本来应该是Positive而未被标注出来的数据,因为现实中已婚用户占比很高,所以,可以仅从与已知Positivedata差异比较大的数据中随机选取更为可靠的负例用来训练。这里可以通过样本特征(如兴趣偏好分布)之间的余弦相似度作为评判依据。
所述针对用户的第一属性的分类模型可以为一种二元分类器,用于判断是否“已婚”,采用Logisitic Regression(LR)机器学习算法,训练得到模型,即LR Model。
进一步地,用户获取单元81,用于基于社交网络用户的历史服务数据,选取设置有第一属性的至少一个用户作为待处理用户;基于所述针对用户的第一属性的分类模型对所述待处理用户进行分类得到针对所述待处理用户的分类结果;确定所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户。
所述第一属性中设置的内容可以基于用户的标签获得。所述设置有第一属性的至少一个用户中,用户针对第一属性进行设置时,可以存在多种设置内容,可能包含有:已婚、未婚、单身、有子女、新婚、恋爱中、订婚、分手、离异等多种内容;
相应的,在确定所述待处理用户的第一属性与其对应的分类结果相同的概率时,首先可以根据待处理用户的第一属性中设置的内容,为待处理用户选取对应的类别,比如,已婚的类别可以对应的第一属性中设置的内容有:已婚、新婚、有子女;未婚的类别对应的第一属性中设置的内容有:单身、未婚、恋爱中、订婚、分手以及离异等等。
优选地,本实施例在选取标注用户之后,还会进一步的保证训练数据的质量,进一步的对标注用户进行校准,具体的,所述选取概率高于预设概率门限值的待处理用户作为标注用户之后,用户获取单元81,用于分别从至少一个维度获取到标注用户对应的历史服务数据;基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户。
其中,所述至少一个维度可以包括以下至少之一:用户浏览的预设类型网站的频率;用户加入的用户群的类型;用户操作的目标数据的类型;用户的预设类型的属性对应的内容。所述预设类型可以为婚恋类型的网站;用户群可以为单身群、母婴群等;操作的目标数据可以为相册中的照片类型。
进一步地,用户婚恋状态分类器重点是用户特征抽取和分类算法设计。其中,抽取有效的特征是最为重要的。参见图5,其中,数据源表示所要进行特征提取的用户的数据,特征提取可以为根据至少一个维度进行特征提取,正态分布的特征表示,从提取的特征中选取相互之间不重合的特征。
本实施例针对用户的第一属性的分类模型的建立、训练以及调整进行说明,所述从至少一个维度获取到所述标注用户对应的至少一种特征参数,包括以下至少之一:
基于标注用户的历史服务数据获取到所述标注用户的基本属性参数;
基于标注用户的历史服务数据获取到所述标注用户针对目标数据的操作参数;
基于标注用户的历史服务数据获取到所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的交互特征参数。
主要可以如图6所示,包括以下几类:
人群属性(Demographics):用户基本属性信息,包括年龄、性别、职业、教育程度、消费习惯、家乡、常驻地等;
行为爱好(Behavioral):用户商业兴趣和关键词Tag,挖掘来源包括群、广告点击、移动App、网页浏览等;
再营销规则(Remarketing Rule):根据广告主提交上传的用户标识号码包生成的规则标识信息,还可以根据规则标识信息关联到广告信息。
进一步地,对上述至少一种特征参数进行说明:
所述标注用户的基本属性参数,包括以下至少之一:登录位置信息、登录时间段、加入预设名称的群组、以及在所述群组的交互频率;
所述标注用户针对目标数据的操作参数,至少包括:针对预设类型的目标信息的操作频率以及操作时段;
所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的交互特征参数,包括以下至少之一:所述其他用户的性别属性、所述其他用户与所述标注用户之间的交互频率、以及与所述其他用户的登录地址信息。
相应的,基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户,可以为以下至少之一:
针对预设类型的目标信息的操作频率以及操作时段符合预设频率以及预设时间段的条件;比如,LBS行为:总活跃在校园中的年轻人更可能是单身或恋爱;在线时间段:总深夜在线用户更可能是未婚用户;好友分组名:是否包含特定称谓的分组,以及互动频率;
所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的交互特征参数满足预设条件;
比如,所述其他用户的性别属性与所述标注用户的性别属性不同,也就是说,所述标注用户经常与异性朋友聊天,更有可能是非单身用户,当然,还可以同时考虑所述标注用户与所述其他用户之间是否为相互均满足所述预设条件,也就是用来判断是否是对方的唯一交互对象;以及还可以判断其他用户是否为包含特定称谓的好友,以及两者之间的互动频率;
基于标注用户与其他用户的登录行为进行判断,比如,两个男女好友是否经常通过同一个IP登录,尤其区分晚上,周末,节假日;
另外,还可以获取到所述其他用户的婚恋状态:与联系较多的好友婚恋状态更可能一致。
基于针对预设类型的目标信息的操作频率以及操作时段,判断针对预设类型的目标信息的操作频率是否满足频率阈值,操作时段是否满足预设时段要求;
比如,相册分类:近期是否上传了新婚、育儿类相册;
或者,UGC动态:近期是否发表了情侣、新婚、育儿类的文字。
参见图7,在图5的基础上,可以根据特征配置从左侧提取出来的多个特征中选取一个或多个特征作为用户特征;再根据标注用户组成的标注数据以及用户特征进行匹配之后,得到训练数据以及测试数据;其中,训练数据和测试数据可以根据实际情况选取,比如可以每4个数据中选取一个作为测试数据剩下的作为训练数据;
基于训练数据对分类模型进行训练,其中,进行训练可以为根据用户的多个特征作为输入数据,将已知的用户对应的类型作为结果,对分类模型进行训练;
基于测试数据对分类模型进行预测,其中,进行预测可以为根据用户的多个特征作为输入数据,基于分类模型得到对应的输出结果,判断输出结果与用户的类型匹配的概率,当概率高于预设的门限值时,确定分类模型建立成功;否则,继续进行训练。
分类模型的建立以及训练我们同时尝试使用两种策略:单个Softmax Regression多元分类器和多个One-vs-All Logistic Regression二元分类器,通过调优训练数据规模,正负例比例,优化算法和正则因子等,选取最优的分类器策略和参数,学***衡,达到最佳的效果。
可见,通过采用上述方案,就能够基于历史服务数据获取到具备第一属性的至少一个标注用户,再基于至少一个维度的至少一种特征参数、以及标注用户的第一属性确定针对用户的第一属性的分类模型,根据所述分类模型为至少一个目标用户划分类别。如此,能够避免由于用户未填写的第一属性、或者填写第一属性过时,而导致的无法准确的为目标用户划分类别的问题。
本发明实施例所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、基站、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
本实施例基于上述设备实施例提供一个具体的硬件,如图9所示,所述装置包括处理器92、存储介质94以及至少一个外部通信接口91;所述处理器92、存储介质94以及外部通信接口91均通过总线93连接。所述处理器92可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码。
所述硬件可以为所述服务器。所述处理器执行所述计算机可执行代码时,至少能实现以下功能:基于社交网络用户的历史服务数据,获取到具备第一属性的至少一个标注用户;从至少一个维度获取到所述标注用户对应的至少一种特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,确定针对用户的第一属性的分类模型;基于所述针对用户的第一属性的分类模型,为社交网络中的至少一个目标用户划分其对应的第一属性的类别。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (12)
1.一种用户分类方法,其特征在于,所述方法包括:
基于社交网络中的用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性用于表征所述社交网络中的用户的婚恋状态;
从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户;
基于所述第一类初始用户以及所述第二类初始用户,建立针对用户的第一属性的二元分类模型;
基于所述社交网络中的用户的历史服务数据,选取设置有所述第一属性的至少一个用户作为待处理用户;
通过所述二元分类模型对所述待处理用户进行分类,得到针对所述待处理用户的分类结果;
根据所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户;
对所述标注用户的历史服务数据进行特征提取处理,得到所述标注用户对应的特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,训练针对用户的第一属性的分类模型;
通过所述针对用户的第一属性的分类模型,对所述社交网络中至少一个目标用户的特征参数进行处理,得到所述目标用户对应的第一属性的类别;
根据所述目标用户对应的第一属性的类别,对所述目标用户进行媒体信息的分类发送。
2.根据权利要求1所述的方法,其特征在于,所述从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户,包括:
基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;
基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户。
3.根据权利要求1所述的方法,其特征在于,所述选取概率高于预设概率门限值的待处理用户作为标注用户之后,所述方法还包括:
分别从至少一个维度获取到标注用户对应的历史服务数据;
基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户。
4.根据权利要求1所述的方法,其特征在于,所述标注用户的特征参数包括所述标注用户的基本属性参数、操作参数以及交互特征参数;所述交互特征参数是根据所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的。
5.根据权利要求4所述的方法,其特征在于,所述标注用户的基本属性参数包括以下至少之一:登录位置信息、登录时间段、加入预设名称的群组、以及在所述群组的交互频率;
所述标注用户的操作参数至少包括:针对预设类型的目标信息的操作频率以及操作时段;
所述标注用户的交互特征参数包括以下至少之一:所述其他用户的性别属性、所述其他用户与所述标注用户之间的交互频率、以及所述其他用户的登录地址信息。
6.一种服务器,其特征在于,包括:
用户获取单元,用于:
基于社交网络中的用户的历史服务数据,选取第一属性为第一类别的至少一个第一类初始用户;其中,所述第一属性中包括有第一类别以及第二类别,所述第一类别与所述第二类别不同;所述第一属性用于表征所述社交网络中的用户的婚恋状态;
从除去所述至少一个第一类初始用户的全部用户中,选取至少一个第二类初始用户;
基于所述第一类初始用户以及所述第二类初始用户,建立针对用户的第一属性的二元分类模型;
基于所述社交网络中的用户的历史服务数据,选取设置有所述第一属性的至少一个用户作为待处理用户;
通过所述二元分类模型对所述待处理用户进行分类,得到针对所述待处理用户的分类结果;
根据所述待处理用户的第一属性与其对应的分类结果相同的概率,选取概率高于预设概率门限值的待处理用户作为标注用户;
模型建立单元,用于对所述标注用户的历史服务数据进行特征提取处理,得到所述标注用户对应的特征参数,基于所述标注用户的特征参数、以及所述标注用户对应的第一属性,训练针对用户的第一属性的分类模型;
分类单元,用于通过所述针对用户的第一属性的分类模型,对所述社交网络中至少一个目标用户的特征参数进行处理,得到所述目标用户对应的第一属性的类别;
所述分类单元,还用于根据所述目标用户对应的第一属性的类别,对所述目标用户进行媒体信息的分类发送。
7.根据权利要求6所述的服务器,其特征在于,
所述用户获取单元,还用于基于所述第一类初始用户的历史服务数据,确定所述第一类初始用户对应的共有特征;基于所述第一类初始用户对应的共有特征,从所述社交网络中选取与所述第一类初始用户的共有特征差异值超过预设门限值的至少一个第二类初始用户。
8.根据权利要求6所述的服务器,其特征在于,
所述用户获取单元,还用于分别从至少一个维度获取到标注用户对应的历史服务数据;基于所述至少一个维度的历史服务数据,对所述标注用户进行筛选,得到筛选后的标注用户。
9.根据权利要求6所述的服务器,其特征在于,所述标注用户的特征参数包括所述标注用户的基本属性参数、操作参数以及交互特征参数;所述交互特征参数是根据所述标注用户与除所述标注用户之外的其他用户之间的交互数据确定的。
10.根据权利要求9所述的服务器,其特征在于,所述标注用户的基本属性参数包括以下至少之一:登录位置信息、登录时间段、加入预设名称的群组、以及在所述群组的交互频率;
所述标注用户的操作参数至少包括:针对预设类型的目标信息的操作频率以及操作时段;
所述标注用户的交互特征参数包括以下至少之一:所述其他用户的性别属性、所述其他用户与所述标注用户之间的交互频率、以及所述其他用户的登录地址信息。
11.一种服务器,其特征在于,包括:
计算机可读存储介质,用于存储可执行指令;
处理器,用于执行所述计算机可读存储介质中存储的可执行指令时,实现权利要求1至5任一项所述的用户分类方法。
12.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至5任一项所述的用户分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511033392.2A CN105701498B (zh) | 2015-12-31 | 2015-12-31 | 一种用户分类方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511033392.2A CN105701498B (zh) | 2015-12-31 | 2015-12-31 | 一种用户分类方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105701498A CN105701498A (zh) | 2016-06-22 |
CN105701498B true CN105701498B (zh) | 2021-09-07 |
Family
ID=56226820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511033392.2A Active CN105701498B (zh) | 2015-12-31 | 2015-12-31 | 一种用户分类方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105701498B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106875183B (zh) * | 2016-06-28 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 确定银行账号、身份证号、待查信息状态的方法和装置 |
CN106204060B (zh) * | 2016-06-28 | 2018-04-13 | 腾讯科技(深圳)有限公司 | 通过计算机***实现的将用户划分至集群的方法及装置 |
CN106709755A (zh) * | 2016-11-28 | 2017-05-24 | 加和(北京)信息科技有限公司 | 一种预测用户频次的方法及装置 |
CN108268495A (zh) * | 2016-12-30 | 2018-07-10 | 上海互联网软件集团有限公司 | 基于大数据的网络用户分类*** |
CN108268511A (zh) * | 2016-12-30 | 2018-07-10 | 上海互联网软件集团有限公司 | 基于大数据的网络用户分类方法 |
CN108280104B (zh) * | 2017-02-13 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 目标对象的特征信息提取方法及装置 |
CN107240029B (zh) * | 2017-05-11 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN107330459B (zh) * | 2017-06-28 | 2021-09-14 | 联想(北京)有限公司 | 一种数据处理方法、装置和电子设备 |
CN107563429B (zh) * | 2017-07-27 | 2020-11-10 | 国家计算机网络与信息安全管理中心 | 一种网络用户群体的分类方法及装置 |
CN107392259B (zh) * | 2017-08-16 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 构建不均衡样本分类模型的方法和装置 |
CN109816134B (zh) * | 2017-11-22 | 2021-07-20 | 北京京东尚科信息技术有限公司 | 收货地址预测方法、装置以及存储介质 |
CN108399418B (zh) * | 2018-01-23 | 2021-09-03 | 北京奇艺世纪科技有限公司 | 一种用户分类方法及装置 |
CN109063736B (zh) * | 2018-06-29 | 2020-09-25 | 考拉征信服务有限公司 | 数据分类方法、装置、电子设备及计算机可读存储介质 |
CN109492658A (zh) * | 2018-09-21 | 2019-03-19 | 北京车和家信息技术有限公司 | 一种点云分类方法及终端 |
CN109818782A (zh) * | 2018-12-31 | 2019-05-28 | 南京红柑桔信息技术有限公司 | 一种对服务器进行分类的方法 |
WO2021038801A1 (ja) * | 2019-08-29 | 2021-03-04 | 富士通株式会社 | パターン抽出プログラム、装置、及び方法 |
CN112468385B (zh) * | 2019-09-09 | 2022-07-01 | 腾讯科技(深圳)有限公司 | 虚拟分组的配置方法和装置、存储介质及电子装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266619A (zh) * | 2008-05-12 | 2008-09-17 | 腾讯科技(深圳)有限公司 | 一种用户信息挖掘方法和一种用户信息挖掘*** |
CN102625940A (zh) * | 2009-06-12 | 2012-08-01 | 电子湾有限公司 | 互联网偏好学习工具 |
CN103778555A (zh) * | 2014-01-21 | 2014-05-07 | 北京集奥聚合科技有限公司 | 基于用户标签的用户属性挖掘方法和*** |
CN104298741A (zh) * | 2014-10-09 | 2015-01-21 | 百度在线网络技术(北京)有限公司 | 一种用于提供推送信息的方法和装置 |
CN104657369A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市腾讯计算机***有限公司 | 用户属性信息的生成方法及*** |
CN104718547A (zh) * | 2013-10-11 | 2015-06-17 | 文化便利俱乐部株式会社 | 顾客数据解析*** |
CN104737565A (zh) * | 2012-10-19 | 2015-06-24 | 脸谱公司 | 关于预测移动装置用户的未来状态的方法 |
CN104933075A (zh) * | 2014-03-20 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用户属性预测平台和方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089639B2 (en) * | 2013-01-23 | 2018-10-02 | [24]7.ai, Inc. | Method and apparatus for building a user profile, for personalization using interaction data, and for generating, identifying, and capturing user data across interactions using unique user identification |
US20140358630A1 (en) * | 2013-05-31 | 2014-12-04 | Thomson Licensing | Apparatus and process for conducting social media analytics |
-
2015
- 2015-12-31 CN CN201511033392.2A patent/CN105701498B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266619A (zh) * | 2008-05-12 | 2008-09-17 | 腾讯科技(深圳)有限公司 | 一种用户信息挖掘方法和一种用户信息挖掘*** |
CN102625940A (zh) * | 2009-06-12 | 2012-08-01 | 电子湾有限公司 | 互联网偏好学习工具 |
CN104737565A (zh) * | 2012-10-19 | 2015-06-24 | 脸谱公司 | 关于预测移动装置用户的未来状态的方法 |
CN104718547A (zh) * | 2013-10-11 | 2015-06-17 | 文化便利俱乐部株式会社 | 顾客数据解析*** |
CN104657369A (zh) * | 2013-11-19 | 2015-05-27 | 深圳市腾讯计算机***有限公司 | 用户属性信息的生成方法及*** |
CN103778555A (zh) * | 2014-01-21 | 2014-05-07 | 北京集奥聚合科技有限公司 | 基于用户标签的用户属性挖掘方法和*** |
CN104933075A (zh) * | 2014-03-20 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 用户属性预测平台和方法 |
CN104298741A (zh) * | 2014-10-09 | 2015-01-21 | 百度在线网络技术(北京)有限公司 | 一种用于提供推送信息的方法和装置 |
Non-Patent Citations (2)
Title |
---|
一个基于hadoop的并行社交网络挖掘***;李冠辰;《软件》;20140216;第34卷(第12期);127-131 * |
几种典型数据挖掘方法及其应用研究;董彩玲;《中国优秀硕士学位论文全文数据库_信息科技辑》;20100915(第09期);I138-415 * |
Also Published As
Publication number | Publication date |
---|---|
CN105701498A (zh) | 2016-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701498B (zh) | 一种用户分类方法及服务器 | |
US10223454B2 (en) | Image directed search | |
US9959467B2 (en) | Image processing client | |
US10637826B1 (en) | Policy compliance verification using semantic distance and nearest neighbor search of labeled content | |
US11636519B2 (en) | Automated visual suggestion, generation, and assessment using computer vision detection | |
WO2016161976A1 (zh) | 选择数据内容向终端推送的方法和装置 | |
CN111178970B (zh) | 广告投放的方法及装置、电子设备和计算机可读存储介质 | |
US20160364419A1 (en) | Image and text data hierarchical classifiers | |
CN105787133B (zh) | 广告信息过滤方法及装置 | |
US9286379B2 (en) | Document quality measurement | |
CN108959323B (zh) | 视频分类方法和装置 | |
US10825048B2 (en) | Image processing methods | |
US20160342624A1 (en) | Image Tagging System | |
US11087182B1 (en) | Image processing including streaming image output | |
US20150112814A1 (en) | System and method for an integrated content publishing system | |
US9639867B2 (en) | Image processing system including image priority | |
EP3798866A1 (en) | Customized thumbnail image generation and selection for digital content using computer vision and machine learning | |
CN108595580B (zh) | 新闻推荐方法、装置、服务器及存储介质 | |
KR20170036422A (ko) | 지식 공유 서비스 제공 장치, 방법 및 컴퓨터 프로그램 | |
CN112685618A (zh) | 用户特征识别方法、装置、计算设备及计算机存储介质 | |
JP6457986B2 (ja) | メッセージ分類システム、メッセージ分類方法及びプログラム | |
CN110598211B (zh) | 文章的识别方法和装置、存储介质及电子装置 | |
CN110765771B (zh) | 用于确定广告语句的方法及装置 | |
JP7043243B2 (ja) | 分類装置、分類方法、およびプログラム | |
CN113052635A (zh) | 人口属性标签预测方法、***、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |