CN109933698B - 一种用户画像的来源校验方法及装置 - Google Patents
一种用户画像的来源校验方法及装置 Download PDFInfo
- Publication number
- CN109933698B CN109933698B CN201910144906.3A CN201910144906A CN109933698B CN 109933698 B CN109933698 B CN 109933698B CN 201910144906 A CN201910144906 A CN 201910144906A CN 109933698 B CN109933698 B CN 109933698B
- Authority
- CN
- China
- Prior art keywords
- user
- information
- source
- portrait
- user portrait
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了用户画像的来源校验方法及装置,应用于信息处理技术领域。用户画像的来源校验装置会对得到用户画像信息的来源数据(即用户基本信息)进行校验,具体地,获取用户基本信息,并根据用户基本信息包括的多类来源信息分别获取用户画像信息,得到多组用户画像信息;最后根据预置策略将上述多组用户画像信息进行关联,确定用户基本信息的置信度。这样,将用户基本信息按照来源类型进行划分,将通过各类来源信息得到的各组用户画像信息进行整合,来确定用户基本信息的置信度,消除了各类来源信息之间的误差,使得最终得到的置信度能真实反映用户基本信息的准确性,进而可以很好地指导之后得到用户画像的过程。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种用户画像的来源校验方法及装置。
背景技术
在互联网信息量***式增长的今天,用户在精准内容消费方面的需求也随之提高,对个性化推荐***的效能要求也愈发严格,在个性化推荐的过程中,用户画像是进行个性化推荐的基石,推荐***需借助用户画像***得到的用户特性和用户兴趣等信息,进行“千人千面”的推荐,由此对用户画像***不断地优化,是非常必要且迫在眉睫的。
现有的用户画像***在得到用户画像的过程中,会先收集用户历史信息和基本属性等各种用户信息,并将其中一部分信息作为训练样本,另一部分信息只作为预测样本;然后根据训练样本建立基于朴素贝叶斯分类器的用户画像预测模型;最后利用用户画像预测模型对预测样本进行数据分类挖掘,从而得到用户画像。其中,用户画像预测模型的训练使用用户信息的一部分信息,而进行数据分类挖掘时使用用户信息中的另一部分信息,而这些用户信息的准确性很难保证,从而使得得到的用户画像的准确性也很难保证。
发明内容
本发明实施例提供一种用户画像的来源校验方法及装置,实现了根据用户基本信息中各类来源信息分别对应的用户画像信息,确定用户基本信息的置信度。
本发明实施例第一方面提供一种用户画像的来源校验方法,包括:
获取用户基本信息,所述用户基本信息包括多类来源信息;
根据所述多类来源信息,分别获取对应的用户画像信息,得到多组用户画像信息;
根据预置策略及所述多组用户画像信息,确定所述用户基本信息的置信度,以校验所述用户基本信息。
本发明实施例第二方面提供一种用户画像的来源校验装置,包括:
用户信息获取单元,用于获取用户基本信息,所述用户基本信息包括多类来源信息;
分类获取单元,用于根据所述多类来源信息,分别获取对应的用户画像信息,得到多组用户画像信息;
置信度单元,用于根据预置策略及所述多组用户画像信息,确定所述用户基本信息的置信度,以校验所述用户基本信息。
本发明实施例第三方面提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本发明实施例第一方面所述的用户画像的来源校验方法。
本发明实施例第四方面提供一种服务器,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如本发明实施例第一方面所述的用户画像的来源校验方法。
可见,在本实施例的方法中,用户画像的来源校验装置会对得到用户画像信息的来源数据(即用户基本信息)进行校验,具体地,获取用户基本信息,并根据用户基本信息包括的多类来源信息分别获取用户画像信息,得到多组用户画像信息;最后根据预置策略将上述多组用户画像信息进行关联,确定用户基本信息的置信度。这样,将用户基本信息按照来源类型进行划分,将通过各类来源信息得到的各组用户画像信息进行整合,来确定用户基本信息的置信度,消除了各类来源信息之间的误差,使得最终得到的置信度能真实反映用户基本信息的准确性,进而可以很好地指导之后得到用户画像的过程。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种用户画像的来源校验方法的示意图;
图2是本发明一个实施例提供的一种用户画像的来源校验方法的流程图;
图3是本发明应用实施例中用户画像的来源校验装置的示意图;
图4是本发明应用实施例提供的一种用户画像的来源校验方法的示意图;
图5是本发明应用实施例中推荐***根据一用户的用户画像信息推荐信息的示意图;
图6是本发明实施例提供的一种用户画像的来源校验装置的结构示意图;
图7是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种用户画像的来源校验方法,参考图1所示,主要是用户画像的来源校验装置通过如下的步骤对用户画像的来源数据进行校验,进而得到高置信度数据,可以根据高置信度数据得到较为准确的用户画像信息:
获取用户基本信息,所述用户基本信息包括多类来源信息;根据所述多类来源信息,分别获取对应的用户画像信息,得到多组用户画像信息;根据预置策略及所述多组用户画像信息,确定所述用户基本信息的置信度,以校验所述用户基本信息。
这样,将用户基本信息按照来源类型进行划分,将通过各类来源信息得到的各组用户画像信息进行整合,来确定用户基本信息的置信度,消除了各类来源信息之间的误差,使得最终得到的置信度能真实反映用户基本信息的准确性,进而可以很好地指导之后得到用户画像的过程。
本发明一个实施例提供的一种用户画像的来源校验方法,主要是用户画像的来源校验装置所执行的方法,流程图如图2所示,包括:
步骤101,获取用户基本信息,用户基本信息包括多种来源类型的信息,即多类来源信息,具体可以包括第一类来源信息和第二类来源信息等,其中,第二类来源信息是指高置信度的用户信息,而第二类来源信息可以是置信度不确定的用户信息。
可以理解,用户画像的来源校验装置会按照一定的周期发起本实施例的流程。用户画像的来源校验装置获取的用户基本信息可以包括但不限于如下信息:
A、多个用户的用户基本属性,即用户的年龄、性别、学历、职业、行业和家乡等短期内不会有较大变化的静态属性信息。具体可以从各个基于用户的应用***的用户注册信息中获取得到,也可以从信息采集***(比如用户调研***等)采集的用户信息中得到。
B、多个用户的用户行为相关数据,即用户操作各种应用终端的用户操作信息,比如:浏览器的用户浏览记录、应用终端的安装列表及应用终端的活跃信息(即用户操作哪些应用终端的信息)等。具体可以通过用户终端主动上报到应用后台,并从各个应用后台得到。
本实施例中,上述这些用户基本信息通过信息来源的类型划分,分为多种来源类型的信息,可以包括:第二类来源信息,是高置信度的用户信息,具体可以指有明确的上报路径,其准确性仅依赖于上报功能,而非依赖于主观认识(兴趣)和客观属性(比如性别、常住地),具体可以包含但不限于浏览网页和在应用终端活跃时间等信息;
还可以包括:上述第一类来源信息,可以是置信度不确定的用户信息,具体可以包括:用户通过应用终端上传到应用后台的自媒体信息等,比如用户在微信朋友圈发表的评论等信息;还可以包括其它类型来源的信息。
步骤102,根据多类来源信息,分别获取对应的用户画像信息,得到多组用户画像信息,这里用户画像信息是指用于描述某一用户的各个属性的标识信息,比如女性,工作类型等信息。
(一)对于多类来源信息中的第一类来源信息,用户画像的来源校验装置在获取对应的一组用户画像信息时,可以先获取用户画像策略,该用户画像策略是指通过用户基本信息中的某一类来源信息获取用户画像信息的策略;然后根据用户画像策略确定第一类来源信息对应的第一组用户画像信息。
具体地,可以通过但不限于如下几种方式来得到第一组用户画像信息:
(1)根据第二类来源信息训练至少一个用户分类模型,其中,不同用户分类模型的结构不同,用户画像策略包括各个用户分类模型的运行逻辑。这样,用户画像的来源校验装置在根据用户画像策略确定第一组用户画像信息时,可以通过上述至少一个用户分类模型,分别对第一类来源信息中各个用户的用户基本信息进行处理,得到各个用户的用户分类信息。第一组用户画像信息包括各个用户的用户分类信息。
用户分类模型具体可以包括:极端梯度增强(“Extreme Gradient Boosting,xgboost)、支持向量机(Support Vector Machines,SVM)或文本卷积神经网络(textConvolutional Neural Network,textCnn)等结构的用户分类模型。如果用户分类模型有多个,各个用户分类模型的功能可以相同,比如都是对用户职业进行分类;各个用户分类模型的功能也可以不同,比如一个用户分类模型用于对用户职业进行分类,另一用户分类模型用于对用户的性别进行分类等。
具体地,将第二类来源信息中各个用户的信息及各个用户的用户分类信息作为训练样本,训练得到至少一个用户分类模型,具体训练过程已经是比较成熟的技术,在这里不进行赘述。
其中,一个用户分类模型需要由第二类来源信息中一个来源的信息进行训练,一个来源可以对应一个应用***。例如,第二来源信息中包括来自于应用1的各个用户的信息,来自于应用2的各个用户的信息,……,来自于应用n的各个用户的信息,这样,可以通过来自于应用1的各个用户的信息及这些用户的用户分类信息训练得到用户分类模型1,通过来自于应用2的各个用户的信息及这些用户的用户分类信息训练得到用户分类模型2,……,通过来自于应用n的各个用户的信息及这些用户的用户分类信息训练得到用户分类模型n。进一步例如,某一用户分类模型是对用户性别分类的模型,则可以通过第二来源信息中来自于某一应用的各个用户的信息及这些用户的实际性别训练得到对用户性别分类的用户分类模型。
需要说明的是,用户画像信息中的有些属性是不能通过用户分类模型得到的,比如用户为军事爱好者等,因此,在用户画像策略中除了上述的至少一个用户分类模型的运行逻辑之外,还可以包括其它机器学习模型的运行逻辑。
(2)根据第二类来源信息,确定用户特征信息与用户操作各个应用终端的用户操作信息之间的对应关系信息,则用户画像策略包括该对应关系信息。这样,用户画像的来源校验装置在根据用户画像策略确定第一组用户画像信息时,可以将第一类来源信息中各个用户操作应用终端的用户操作信息与对应关系信息中的用户操作信息进行比较,从而得到各个用户的用户特征信息,并将得到的各个用户的用户特征信息作为第一组用户画像信息。
例如,用户操作信息为用户操作美拍,宝宝树和美柚等应用终端的信息,对应的用户特征信息为备孕或怀孕的女性。
(3)根据第二类来源信息,确定信息来源属性对用户特征信息的影响因子,用户画像策略则包括该影响因子。这样,用户画像的来源校验装置在根据用户画像策略确定第一组用户画像信息时,可以根据第一类来源信息中各个用户的信息来源属性,及信息来源属性对用户特征信息的影响因子,确定各个用户的用户特征信息,并将得到的各个用户的用户特征信息作为第一组用户画像信息。
例如,信息来源属性为来源于某一应用终端,该信息来源属性对用户特征信息的影响因子为:用户为女性的概率为95%等。
例如,第一类来源信息中包括某一用户对应的信息来源属性包括多个应用,即应用1,应用2,……,应用n,而在用户画像策略中各个应用对用户特征信息的影响因子分别包括:为特征b1的概率a1,为特征b2的概率a2,……,为特征bn的概率an,比如为女性的概率值,为医生工作者的概率值等。
根据这些影响因子中的概率值a1,a2,……,an,如果概率值大于某一阈值,则确定该用户具有相应的特征,如果概率值小于或等于某一阈值,则确定该用户不具有相应的特征。例如,a1大于某一阈值,则该用户具有特征a1等,从而可以得知该用户的用户特征信息,具体在特征b1,特征b2,……,特征bn中。
另外需要说明的是,在首次发起本实施例的来源校验流程时,用户画像的来源校验装置可以通过但不限于上述三种方式来获取用户画像策略,并储存到用户画像的来源校验装置中,这样在之后发起的来源校验流程中,可以直接从本地提取得到用户画像策略。
(二)对于多类来源信息中除第一类来源信息之外的其它类来源信息,
具体地,用户画像的来源校验装置可以直接向其它应用***获取用户画像信息;也可以先获取到各类来源信息,然后按照一定的策略分析得到用户画像信息,其中,可以根据用户画像策略分析得到用户画像信息。
进一步需要说明的是,通过本步骤102获取到了多组用户画像信息,每组用户画像信息都包括多个用户的用户画像信息,而每个用户的各组用户画像信息可以用同一用户标识来索引,方便了后续步骤103中查找到各个用户的用户画像信息,且确定各个用户的用户基本信息的置信度。也就是说,可以通过用户标识索引各个用户的多组用户画像信息。
其中,用户标识是唯一标识某一用户的信息,比如国际移动电话设备识别码(International Mobile Equipment Identity,IMEI)等信息。
步骤103,根据预置策略及多组用户画像信息,确定上述步骤101获取的用户基本信息的置信度,以校验用户基本信息。其中,预置策略可以包括:根据多组用户画像信息计算置信度的策略;或是包括某一机器学习模型的运行逻辑等。
具体地,用户画像的来源校验装置可以通过但不限于如下的方法确定用户基本信息的置信度:
(1)确定多组用户画像信息分别对应的权重值;然后根据各组用户画像信息及其对应的权重值,及预置的函数计算式,计算各个用户的用户基本信息的置信度。其中预置的函数计算式可以根据用户画像信息与对应权重值计算置信度的任意计算式,比如:置信度为多组用户画像信息的加权值等。
其中,在计算某一用户的用户基本信息的置信度时,可以分别对各组用户画像信息中某一用户的用户画像信息进行归一化,得到各组归一化信息;并将各组归一化信息与对应权重值的乘积相加得到的和值,作为该用户的用户基本信息的置信度。
例如,各组归一化信息为:x1,x2,......,xn,各组用户画像信息分别对应的权重值为:θ1,θ2,......,θn,则用户基本信息的置信度hθ(x)具体可以通过如下公式1来表示,其中,n为用户基本信息的信息来源类型的数量,也是用户画像信息的组数:
(2)根据多组用户画像信息,及预置的机器学习模型,确定各个用户的用户基本信息的置信度。
其中,预置的机器学习模型用于根据多组用户画像信息直接计算置信度的网络,比如卷积神经网络等,可以通过训练得到。具体地,可以根据多组训练样本,训练得到,其中,每组训练样本中包括:根据一个用户的用户基本信息中多类来源信息分别得到的多组用户画像信息,及该用户的用户基本信息是否可信的标注信息。
进一步地,如果获取的用户基本信息的置信度为高置信度,比如步骤103中确定的置信度大于某一阈值,则可以根据上述步骤101获取的用户基本信息得到各个用户的用户画像信息;如果为低置信度,比如步骤103中确定的置信度小于或等于某一阈值,则不会根据上述用户基本信息得到各个用户的用户画像信息。
可见,在本实施例的方法中,用户画像的来源校验装置会对得到用户画像信息的来源数据(即用户基本信息)进行校验,具体地,获取用户基本信息,并根据用户基本信息包括的多类来源信息分别获取用户画像信息,得到多组用户画像信息;最后根据预置策略将上述多组用户画像信息进行关联,确定用户基本信息的置信度。这样,将用户基本信息按照来源类型进行划分,将通过各类来源信息得到的各组用户画像信息进行整合,来确定用户基本信息的置信度,消除了各类来源信息之间的误差,使得最终得到的置信度能真实反映用户基本信息的准确性,进而可以很好地指导之后得到用户画像的过程。
以下以一个具体的应用实例来说明本发明的用户画像的来源校验方法,在本实施例中,参考图3所示,用户画像的来源校验装置可以包括:用户侧调研模块,第三方数据来源模块,规则及模型模块,***关联模块,数据来源投票模块,及结果存储和使用模块,其中:
(1)用户侧调研模块,用于通过用户调研、用户运营及相关运营活动获取用户基本信息,在本实施例中为第三类来源信息。
进一步地,用户侧调研模块还用于根据第三类来源信息获取对应的一组用户画像信息,即第三组用户画像信息。
其中,用户调研是指某些服务器向应用终端提供的线上调研问卷,这样用户可以通过应用终端显示的线上调研问卷,将相应的用户信息发送给服务器。用户运营及相关运营活动是指某些应用后台在向应用终端提供应用相关信息的过程中,指示用户输入用户信息。
(2)第三方数据来源模块,用于获取各个用户的第二类来源信息,为高置信度的用户信息,例如,从用户注册信息、社交网络信息或银行信息等相对权威可信的信息中获取得到。
进一步地,第三方数据来源模块,还用于根据第二类来源信息获取对应的一组用户画像信息,即第二组用户画像信息。
(3)规则及模型模块,用于根据第二类来源信息,训练得到多个用户分类模型,比如SVM、xgboost、RNN、textCNN等机器学习机,这样,通过多种用户分类模型的使用,降低某一种用户分类模型使用所需的前置条件带来的天然误差。
规则及模型模块还用于根据第二类来源信息总结得到一些强弱规则,具体包括用户特征信息与用户操作应用终端的用户操作信息之间的对应关系信息,比如:在美拍、宝宝树、美柚相对活跃的用户极有可能为备孕或怀孕女性。
规则及模型模块还用于根据第二类来源信息得到信息来源属性对用户特征信息的影响因子,例如某一应用终端对应的用户为女性的概率为95%等。
进一步地,规则及模型模块还用于接收第一类来源信息,并根据上述获取的用户画像策略,对接收的第一类来源信息进行分类,得到第一组用户画像信息。其中,第一类来源信息是置信度不确定的用户信息。
(4)***关联模块,用于将上述第一组用户画像信息,第二组用户画像信息及第三组用户画像信息中,同一用户的用户画像信息用同一个用户标识进行关联。
(5)数据来源投票模块,用于将上述第一组用户画像信息,第二组用户画像信息及第三组用户画像信息中各个用户的用户画像信息进行归一化处理,得到各个用户的用户画像信息的归一化信息,即x1,x2,x3;分别获取每组用户画像信息分别对应的权重值,即θ1,θ2,θ3;然后可以根据上述公式1得到各个用户的用户基本信息的置信度,如果某一用户的用户基本信息的置信度大于某一阈值,则确定该用户的用户基本信息是高置信度的用户信息,且储存到结果存储和使用模块中。这样,完成了使用高置信的第二类来源信息来验证置信度不确定的第一类来源信息,并筛选出可信的用户基本信息,以执行之后得到用户画像的操作。
其中,数据来源投票模块在获取每组用户画像信息分别对应的权重值时,对于根据第一类来源信息得到的第一组用户画像信息,可以根据上述用户分类模型的准召率等信息来确定对应的权重值,比如准召率较高,则对应的权重值较大;对于根据第二类来源信息得到的第二组用户画像信息,可以根据第三方数据来源模块获取第二组用户画像信息的可信度来确定对应的权重值,如果可信度较高,则对应的权重值较大;对于根据第三类来源信息得到的第三组用户画像信息,可以根据用户侧调研模块获取第三组用户画像信息的准确率来确定对应的权重值,如果准确率较高,则对应的权重值较大。
(6)结果存储和使用模块,用于储存高置信度的用户基本信息。
本实施例中的用户画像的来源校验装置可以通过如下的步骤来实现来源校验,流程图如图4所示,包括:
步骤201,用户通过操作用户画像的来源校验装置,以发起本实施例的流程,这样,用户画像的来源校验装置中的第三方数据来源模型会获取第二类来源信息,及对应的第二组用户画像信息;同时用户侧调研模块会获取第三类来源信息,及对应的第三组用户画像信息。
步骤202,规则及模型模块会根据第二类来源信息,训练得到多个用户分类模型,同时还会总结得到一些强弱规则,及信息来源属性对用户特征信息的影响因子等用户画像策略。
步骤203,规则及模型模块在获取到第一类来源信息后,会根据上述确定的用户画像策略,得到第一组用户画像信息。
步骤204,***关联模块将上述第一组用户画像信息,第二组用户画像信息及第三组用户画像信息中,同一用户的用户画像信息用同一个用户标识进行关联。
步骤205,数据来源投票模块会按照一定的策略,计算得到各个用户的用户基本信息的置信度,具体的计算过程见上述实施例中所述,在此不进行赘述。
步骤206,如果数据来源投票模块计算的某一用户的用户基本信息的置信度大于某一阈值,则会将该用户的用户基本信息储存到结果存储和使用模块,用于后续得到用户画像信息。
可以理解的是,当用户画像的来源校验装置得到置信度较大的用户基本信息后,可以基于这些用户基本信息得到用户画像信息。而最终得到的用户画像信息可以应用于推荐***中。
例如图5所示为推荐***根据某一用户的用户画像信息,为该用户1的终端推荐信息的推荐界面,如果在用户的用户画像信息中包括“男性”这个属性,且还可以包括“用户收入”、“家乡地”及“常驻地”等信息。这样,推荐***推荐的信息中就包括与男性相关的信息,还可以包括春节前推荐返乡(比如从深圳到西安)机票等信息。
可见,通过本实施例的方法可以实现:
(1)训练得到多种用户分类模型,由多种用户分类模型根据第一类来源信息确定第一组用户画像信息,并作为获取用户基本信息的置信度的数据之一,可以充分地利用这部分置信度不确定的用户信息即上述的第一类来源信息;同时也避免了仅使用单一的机器学习模型引入的天然误差,通过多种用户分类模型的整合减小了天然误差的引入。
(2)通过整合多种类型来源的用户信息,可以提升最终得到的高置信度的用户信息的可信度,由此可以更准确地度量用户画像***的效果,得到相应的结论及改进方向,推动用户画像***不断优化改进;且能很好地消除各类来源的用户信息之间的误差。
综上所述,通过本发明实施例的方法可以较大程度的提升得到用户画像过程中使用数据的可信度和准确率。
本发明实施例还提供一种用户画像的来源校验装置,其结构示意图如图6所示,具体可以包括:
用户信息获取单元10,用于获取用户基本信息,所述用户基本信息包括多类来源信息。
分类获取单元11,用于根据所述用户信息获取单元10获取的多类来源信息,分别获取对应的用户画像信息,得到多组用户画像信息。
分类获取单元11,具体用于如果所述多类来源信息包括第一类来源信息,获取用户画像策略;根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息。
进一步地,用户基本信息中还包括第二类来源信息,这样,分类获取单元11可以通过但不限于如下几种方式获取第一组用户画像信息:
(1)分类获取单元11在获取用户画像策略时,具体用于根据所述第二类来源信息训练至少一个用户分类模型,其中,不同用户分类模型的结构不同;所述用户画像策略包括所述至少一个用户分类模型的运行逻辑。
这样,分类获取单元11在根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息时,通过所述至少一个用户分类模型分别对所述第一类来源信息中各个用户的用户基本信息进行处理,得到所述各个用户的用户分类信息;所述第一组用户画像信息包括所述各个用户的用户分类信息。
(2)分类获取单元11在获取用户画像策略时,具体用于根据所述第二类来源信息,确定用户特征信息与用户操作应用终端的用户操作信息之间的对应关系信息;所述用户画像策略包括所述对应关系信息。
这样,分类获取单元11在根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息时,将所述第一类来源信息中各个用户操作应用终端的用户操作信息,与所述对应关系中的用户操作信息进行比较,得到所述各个用户的用户特征信息,所述第一组用户画像信息包括所述各个用户的用户特征信息。
(3)分类获取单元11在获取用户画像策略时,具体用于根据所述第二类来源信息,确定信息来源属性对用户特征信息的影响因子,所述用户画像策略包括所述影响因子。
这样,分类获取单元11在根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息时,根据所述第一类来源信息中各个用户的信息来源属性,及所述信息来源属性对用户特征信息的影响因子,确定所述各个用户的用户特征信息。
置信度单元12,用于根据预置策略及所述分类获取单元11获取的多组用户画像信息,确定所述用户基本信息的置信度,以校验所述用户基本信息。
具体地,一种情况下,该置信度单元12,具体用于确定所述多组用户画像信息分别对应的权重值;根据各组用户画像信息及其对应的权重值,及预置的函数计算式,计算各个用户的用户基本信息的置信度。其中,置信度单元12在根据各组用户画像信息及其对应的权重值,及预置的函数计算式,计算某一用户的用户基本信息的置信度时,具体用于分别对所述各组用户画像信息中某一用户的用户画像信息进行归一化,得到各组归一化信息;将所述各组归一化信息与对应权重值的乘积相加得到的和值,作为所述该用户的用户基本信息的置信度。
另一种情况下,该置信度单元12,具体用于根据多组用户画像信息,及预置的机器学习模型,确定各个用户的用户基本信息的置信度;所述机器学习模型用于根据多组用户画像信息计算置信度。
进一步地,本实施例中的用户画像的来源校验装置还可以包括:索引单元13,用于通过用户标识索引分类获取单元11得到的各个用户的多组用户画像信息。
可见,在本实施例的用户画像的来源校验装置会对得到用户画像的来源数据(即用户基本信息)进行校验,具体地,用户信息获取单元10获取用户基本信息,分类获取单元11根据用户基本信息中多类来源信息,分别获取对应的用户画像信息,得到多组用户画像信息;最后置信度单元12根据预置策略将上述多组用户画像信息进行关联,确定用户基本信息的置信度。这样,将用户基本信息按照来源类型进行划分,将通过各类来源信息得到的各组用户画像信息进行整合,来确定用户基本信息的置信度,消除了各类来源信息之间的误差,使得最终得到的置信度能真实反映用户基本信息的准确性,进而可以很好地指导之后得到用户画像的过程。
本发明实施例还提供一种服务器,其结构示意图如图7所示,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(centralprocessing units,CPU)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中的一系列指令操作。
具体地,在存储介质22中储存的应用程序221包括用户画像的来源校验的应用程序,且该程序可以包括上述用户画像的来源校验装置中的用户信息获取单元10,分类获取单元11,置信度单元12和索引单元13,在此不进行赘述。更进一步地,中央处理器20可以设置为与存储介质22通信,在服务器上执行存储介质22中储存的用户画像的来源校验的应用程序对应的一系列操作。
服务器还可以包括一个或一个以上电源23,一个或一个以上无线网络接口24,和/或,一个或一个以上操作***223,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述方法实施例中所述的由用户画像的来源校验装置所执行的步骤可以基于该图7所示的服务器的结构。
本发明实施例还提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如上述用户画像的来源校验装置所执行的用户画像的来源校验方法。
本发明实施例还提供一种服务器,包括处理器和存储介质,所述处理器,用于实现各个指令;
所述存储介质用于储存多条指令,所述指令用于由处理器加载并执行如上述用户画像的来源校验装置所执行的用户画像的来源校验方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。
以上对本发明实施例所提供的用户画像的来源校验方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种用户画像的来源校验方法,其特征在于,包括:
获取用户基本信息,所述用户基本信息包括多类来源信息;所述多类来源信息包括第一类来源信息和第二类来源信息,所述第一类来源信息是置信度不确定的用户信息,所述第二类来源信息是高置信度的用户信息;
根据所述多类来源信息,分别获取对应的用户画像信息,得到多组用户画像信息;
根据预置策略及所述多组用户画像信息,确定所述用户基本信息的置信度,以校验所述用户基本信息;
所述根据所述多类来源信息,分别获取对应的用户画像信息,具体包括:
获取用户画像策略;
根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息;
所述获取用户画像策略,具体包括:根据所述第二类来源信息,确定信息来源属性对用户特征信息的影响因子,所述用户画像策略包括所述影响因子;
所述根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息,具体包括:根据所述第一类来源信息中各个用户的信息来源属性,及所述信息来源属性对用户特征信息的影响因子,确定所述各个用户的用户特征信息;
其中,所述根据所述第二类来源信息,确定信息来源属性对用户特征信息的影响因子,具体包括:如果信息来源属性为某一应用,所述信息来源属性对用户特征信息的影响因子包括:用户为某一特征的概率值。
2.如权利要求1所述的方法,其特征在于,所述获取用户画像策略,具体包括:
根据所述第二类来源信息训练至少一个用户分类模型,其中,不同用户分类模型的结构不同;所述用户画像策略包括所述至少一个用户分类模型的运行逻辑;
所述根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息,具体包括:通过所述至少一个用户分类模型分别对所述第一类来源信息中各个用户的用户基本信息进行处理,得到所述各个用户的用户分类信息;
所述第一组用户画像信息包括所述各个用户的用户分类信息。
3.如权利要求1所述的方法,其特征在于,所述获取用户画像策略,具体包括:
根据所述第二类来源信息,确定用户特征信息与用户操作应用终端的用户操作信息之间的对应关系信息;所述用户画像策略包括所述对应关系信息;
所述根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息,具体包括:将所述第一类来源信息中各个用户操作应用终端的用户操作信息,与所述对应关系中的用户操作信息进行比较,得到所述各个用户的用户特征信息,所述第一组用户画像信息包括所述各个用户的用户特征信息。
4.如权利要求1至3任一项所述的方法,其特征在于,所述根据预置策略及所述多组用户画像信息,确定所述用户基本信息的置信度之前,所述方法还包括:
通过用户标识索引各个用户的多组用户画像信息。
5.如权利要求1至3任一项所述的方法,其特征在于,所述根据预置策略及所述多组用户画像信息,确定所述用户基本信息的置信度,具体包括:
确定所述多组用户画像信息分别对应的权重值;
根据各组用户画像信息及其对应的权重值,及预置的函数计算式,计算各个用户的用户基本信息的置信度。
6.如权利要求5所述的方法,其特征在于,所述根据各组用户画像信息及其对应的权重值,及预置的函数计算式,计算某一用户的用户基本信息的置信度,具体包括:
分别对所述各组用户画像信息中所述某一用户的用户画像信息进行归一化,得到各组归一化信息;
将所述各组归一化信息与对应权重值的乘积相加得到的和值,作为所述某一用户的用户基本信息的置信度。
7.如权利要求1至3任一项所述的方法,其特征在于,所述根据预置策略及所述多组用户画像信息,确定所述用户基本信息的置信度,具体包括:
根据多组用户画像信息,及预置的机器学习模型,确定各个用户的用户基本信息的置信度;
所述机器学习模型用于根据多组用户画像信息计算置信度。
8.一种用户画像的来源校验装置,其特征在于,包括:
用户信息获取单元,用于获取用户基本信息,所述用户基本信息包括多类来源信息;所述多类来源信息包括第一类来源信息和第二类来源信息,所述第一类来源信息是置信度不确定的用户信息,所述第二类来源信息是高置信度的用户信息;
分类获取单元,用于根据所述多类来源信息,分别获取对应的用户画像信息,得到多组用户画像信息;
置信度单元,用于根据预置策略及所述多组用户画像信息,确定所述用户基本信息的置信度,以校验所述用户基本信息;
所述分类获取单元,具体用于获取用户画像策略;根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息;所述获取用户画像策略,具体包括:根据所述第二类来源信息,确定信息来源属性对用户特征信息的影响因子,所述用户画像策略包括所述影响因子;所述根据所述用户画像策略确定所述第一类来源信息对应的第一组用户画像信息,具体包括:根据所述第一类来源信息中各个用户的信息来源属性,及所述信息来源属性对用户特征信息的影响因子,确定所述各个用户的用户特征信息;其中,所述根据所述第二类来源信息,确定信息来源属性对用户特征信息的影响因子,具体包括:如果信息来源属性为某一应用,所述信息来源属性对用户特征信息的影响因子包括:用户为某一特征的概率值。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质储存多条指令,所述指令适于由处理器加载并执行如权利要求1至7任一项所述的用户画像的来源校验方法。
10.一种服务器,其特征在于,包括处理器和计算机可读存储介质,所述处理器,用于实现各个指令;
所述计算机可读存储介质用于储存多条指令,所述指令用于由处理器加载并执行如权利要求1至7任一项所述的用户画像的来源校验方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910144906.3A CN109933698B (zh) | 2019-02-27 | 2019-02-27 | 一种用户画像的来源校验方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910144906.3A CN109933698B (zh) | 2019-02-27 | 2019-02-27 | 一种用户画像的来源校验方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933698A CN109933698A (zh) | 2019-06-25 |
CN109933698B true CN109933698B (zh) | 2021-06-08 |
Family
ID=66985966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910144906.3A Active CN109933698B (zh) | 2019-02-27 | 2019-02-27 | 一种用户画像的来源校验方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933698B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677710A (zh) * | 2015-12-28 | 2016-06-15 | 曙光信息产业(北京)有限公司 | 大数据的处理方法和*** |
CN106021377A (zh) * | 2016-05-11 | 2016-10-12 | 上海点荣金融信息服务有限责任公司 | 计算机实现的信息处理方法及装置 |
CN106874266A (zh) * | 2015-12-10 | 2017-06-20 | 中国电信股份有限公司 | 用户画像方法和用于用户画像的装置 |
CN108256537A (zh) * | 2016-12-28 | 2018-07-06 | 北京酷我科技有限公司 | 一种用户性别预测方法和*** |
CN108268547A (zh) * | 2016-12-29 | 2018-07-10 | 北京国双科技有限公司 | 用户画像生成方法和装置 |
CN108334519A (zh) * | 2017-01-19 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 一种用户画像中的用户标签获取方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280542B (zh) * | 2018-01-15 | 2021-05-11 | 深圳市和讯华谷信息技术有限公司 | 一种用户画像模型的优化方法、介质以及设备 |
CN109360106B (zh) * | 2018-09-27 | 2021-03-30 | 京东数字科技控股有限公司 | 画像构建方法、***、介质和计算机*** |
CN109359248A (zh) * | 2018-09-28 | 2019-02-19 | Oppo广东移动通信有限公司 | 用户画像更新方法、装置、终端及存储介质 |
-
2019
- 2019-02-27 CN CN201910144906.3A patent/CN109933698B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874266A (zh) * | 2015-12-10 | 2017-06-20 | 中国电信股份有限公司 | 用户画像方法和用于用户画像的装置 |
CN105677710A (zh) * | 2015-12-28 | 2016-06-15 | 曙光信息产业(北京)有限公司 | 大数据的处理方法和*** |
CN106021377A (zh) * | 2016-05-11 | 2016-10-12 | 上海点荣金融信息服务有限责任公司 | 计算机实现的信息处理方法及装置 |
CN108256537A (zh) * | 2016-12-28 | 2018-07-06 | 北京酷我科技有限公司 | 一种用户性别预测方法和*** |
CN108268547A (zh) * | 2016-12-29 | 2018-07-10 | 北京国双科技有限公司 | 用户画像生成方法和装置 |
CN108334519A (zh) * | 2017-01-19 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 一种用户画像中的用户标签获取方法及装置 |
Non-Patent Citations (1)
Title |
---|
"基于知识图谱的产品画像构建研究";王颖;《万方》;20190114;论文正文第3、4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN109933698A (zh) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348249B2 (en) | Training method for image semantic segmentation model and server | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN108846422B (zh) | 跨社交网络的账号关联方法及*** | |
CN105608179B (zh) | 确定用户标识的关联性的方法和装置 | |
TWI677828B (zh) | 基於資料源的業務客製裝置、方法及電腦可讀儲存介質 | |
US20170018030A1 (en) | System and Method for Determining Credit Worthiness of a User | |
CN108073645B (zh) | 一种招聘平台的求职人推荐页面展示方法及装置 | |
CN107809370B (zh) | 用户推荐方法及装置 | |
CN111192153B (zh) | 人群关系网络构建方法、装置、计算机设备和存储介质 | |
US11036700B2 (en) | Automatic feature generation for machine learning in data-anomaly detection | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
CN110991538B (zh) | 样本分类方法、装置、存储介质和计算机设备 | |
WO2019095587A1 (zh) | 人脸识别方法、应用服务器及计算机可读存储介质 | |
CN111177500A (zh) | 数据对象分类方法、装置、计算机设备和存储介质 | |
CN113707304A (zh) | 分诊数据处理方法、装置、设备及存储介质 | |
CN112883267A (zh) | 基于深度学习的数据热度统计方法及装置 | |
CN109933698B (zh) | 一种用户画像的来源校验方法及装置 | |
CN110598090A (zh) | 兴趣标签的生成方法、装置、计算机设备和存储介质 | |
CN116958622A (zh) | 数据的分类方法、装置、设备、介质及程序产品 | |
CN113254672B (zh) | 异常账号的识别方法、***、设备及可读存储介质 | |
CN112084408B (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN113722484A (zh) | 基于深度学习的谣言检测方法、装置、设备及存储介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN114219663A (zh) | 产品推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221115 Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518,101 Patentee after: Shenzhen Yayue Technology Co.,Ltd. Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |