CN105894028A - 用户识别方法和装置 - Google Patents

用户识别方法和装置 Download PDF

Info

Publication number
CN105894028A
CN105894028A CN201610197077.1A CN201610197077A CN105894028A CN 105894028 A CN105894028 A CN 105894028A CN 201610197077 A CN201610197077 A CN 201610197077A CN 105894028 A CN105894028 A CN 105894028A
Authority
CN
China
Prior art keywords
user
feature
weight
property value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610197077.1A
Other languages
English (en)
Other versions
CN105894028B (zh
Inventor
刘坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610197077.1A priority Critical patent/CN105894028B/zh
Publication of CN105894028A publication Critical patent/CN105894028A/zh
Application granted granted Critical
Publication of CN105894028B publication Critical patent/CN105894028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了用户识别方法和装置。所述方法的一具体实施方式包括:从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值;从预先建立的模型中获取与待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重,所述模型包括以下信息:特征、与所述特征关联的候选属性值、与所述特征和所述候选属性值关联的权重,所述权重是通过对预存的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比确定的;获取待识别用户的各个特征和特征的属性值匹配的权重之和;以所述权重之和的大小为依据,识别待识别用户是否为潜在目标用户。该实施方式能够准确地识别出更多的潜在目标用户。

Description

用户识别方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及用户画像技术领域,尤其涉及用户识别方法和装置。
背景技术
随着互联网的蓬勃发展,通过用户画像数据精准分析每个用户的属性以及关系的需求越来越明确。用户画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。通过用户调研去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后从每种类型中抽取出典型特征,赋予一些人口统计学要素、场景等描述,就形成了一个用户画像数据。用户画像使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。
目前,用户画像数据在信息推荐、消息推送等方面具有较成功的应用经验。在进行信息推荐、消息推送之前,需要在基础用户信息集合中识别出潜在目标用户,以使信息推荐、消息推送等可以更有针对性地进行。现有技术中识别潜在目标用户的方法通常是基于用户使用预定产品的频次进行识别的。
然而,通过上述现有技术识别出的潜在目标用户通常规模较小,存在一定的局限性,不能准确地识别出更多的潜在目标用户。
发明内容
本申请的目的在于提出一种用户识别方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种用户识别方法,其特征在于,所述方法包括:从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值;从预先建立的模型中获取与待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重,其中,所述模型包括以下信息:特征、与所述特征关联的候选属性值、与所述特征和所述候选属性值关联的权重,所述权重是通过对预存的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比确定的;获取待识别用户的所述至少一个特征中的各个特征和特征的属性值匹配的权重之和;以所述权重之和的大小为依据,识别待识别用户是否为潜在目标用户。
在一些实施例中,所述通过对预存的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比,包括:分别获取所述目标用户信息集合和所述基础用户信息集合中所述特征的属性值等于所述候选属性值的用户在集合中所占的比例;获取所述目标用户信息集合和所述基础用户信息集合的所述比例之差的绝对值,作为与所述特征和所述属性值关联的权重。
在一些实施例中,所述通过对预存的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比,还包括:根据与所述特征关联的候选属性值的数量,修正所述权重,其中,修正的权重与所述候选属性值的数量之间存在正相关关系。
在一些实施例中,所述模型还包括前置条件信息,所述模型中的所述与所述特征和所述属性值关联的权重为与所述前置条件、所述特征和所述属性值关联的权重,其中,所述权重是通过对预存的满足所述前置条件的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比确定的;以及所述待识别用户是满足预定前置条件的待识别用户;以及所述从预先建立的模型中获取与待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重,包括:从预先建立的模型中获取与所述预定前置条件、待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重。
在一些实施例中,所述方法还包括:在确定出潜在目标用户之后,获取潜在目标用户中成为目标用户的识别成功用户集合;通过对所述识别成功用户集合和所述基础用户信息集合中的每个特征所关联的每个候选属性值的用户的占比进行对比,重新计算并更新所述模型中的所述权重。
在一些实施例中,所述从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值,包括:对预先收集的用户信息集合进行以下处理中的至少一个:将用户信息集合中离散的原属性值更新为用于表示原属性值的各个预定区间范围的属性值;将用户信息集合中用户的属性值为空的特征的属性值设置为预设的缺省值;针对每个所述特征,删除对应的权重小于预定阈值的属性值;从经过所述处理之后的用户信息集合中获取待识别用户的至少一个特征的属性值。
第二方面,本申请提供了一种用户识别装置,所述装置包括:特征信息获取单元,用于从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值;权重获取单元,用于从预先建立的模型中获取与待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重,其中,所述模型包括以下信息:特征、与所述特征关联的候选属性值、与所述特征和所述候选属性值关联的权重,所述权重是通过对预存的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比确定的;加和单元,用于获取待识别用户的所述至少一个特征中的各个特征和特征的属性值匹配的权重之和;识别单元,用于以所述权重之和的大小为依据,识别待识别用户是否为潜在目标用户。
在一些实施例中,所述装置还包括:权重确定单元,用于针对所述至少一个特征中的每个特征和与所述特征关联的每个属性值,通过对预存的目标用户信息集合和基础用户信息集合中特征的属性值等于候选属性值的用户的占比进行对比确定与所述特征和所述候选属性值关联的权重,所述权重确定单元包括:比例获取子单元,用于分别获取所述目标用户信息集合和所述基础用户信息集合中所述特征的属性值等于所述候选属性值的用户在集合中所占的比例;权重确定子单元,用于获取所述目标用户信息集合和所述基础用户信息集合的所述比例之差的绝对值,作为与所述特征和所述属性值关联的权重。
在一些实施例中,所述权重确定单元还包括:权重修正子单元,用于根据与所述特征关联的候选属性值的数量,修正所述权重,其中,修正的权重与所述候选属性值的数量之间存在正相关关系。
在一些实施例中,所述模型还包括前置条件信息,所述模型中的所述与所述特征和所述属性值关联的权重为与所述前置条件、所述特征和所述属性值关联的权重,其中,所述权重是所述权重确定单元通过对预存的满足所述前置条件的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比确定的;以及所述待识别用户是满足预定前置条件的待识别用户;以及所述权重获取单元还用于从预先建立的模型中获取与所述预定前置条件、待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重。
在一些实施例中,所述装置还包括:成功样本获取单元,用于在确定出潜在目标用户之后,获取潜在目标用户中成为目标用户的识别成功用户集合;权重更新单元,用于通过对所述识别成功用户集合和所述基础用户信息集合中的每个特征所关联的每个候选属性值的用户的占比进行对比,重新计算并更新所述模型中的所述权重。
在一些实施例中,所述特征信息获取单元包括:预处理子单元,用于对预先收集的用户信息集合进行以下处理中的至少一个:将用户信息集合中离散的原属性值更新为用于表示原属性值的各个预定区间范围的属性值;将用户信息集合中用户的属性值为空的特征的属性值设置为预设的缺省值;针对每个所述特征,删除对应的权重小于预定阈值的属性值;特征信息抽取子单元,用于从经过所述预处理子单元的处理之后的用户信息集合中获取待识别用户的至少一个特征的属性值。
本申请提供的用户识别方法和装置,通过从预先建立的上述模型中获取与待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重,并以所述权重之和的大小为依据,识别待识别用户是否为潜在目标用户,可以基于更多的特征的属性值来对用户进行识别,从而能够准确地识别出更多的潜在目标用户。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的用户识别方法的一个实施例的流程图;
图3是根据本申请的用户识别方法的一个实施例的数据处理的示例性示意图;
图4是根据本申请的用户识别装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用户识别方法或用户识别装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如打车类应用、地图搜索服务应用等。
终端设备101、102、103可以是支持信息通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的打车类应用、地图搜索服务应用等发送的用户信息进行存储、分析等处理,并可以根据处理结果推送消息给对应用户。
需要说明的是,本申请实施例所提供的用户识别方法通常由服务器105执行。相应地,用户识别装置通常设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2示出了根据本申请的用户识别方法的一个实施例的流程200。
如图2所示,本实施例的用户识别方法包括以下步骤:
步骤201,从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值。
在本实施例中,用户识别方法运行于其上的电子设备(例如图1所示的服务器)可以在本地或远程地从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值。其中,上述用户信息集合可以是用户画像数据;上述待识别用户可以是一个或多个,上述至少一个特征可以包括但不限于:性别、年龄、收入水平、受教育程度、所在行业、消费习惯、个人兴趣等可能影响识别待识别结果的特征中的一个或多个特征。
在本实施例的一些可选的实现方式中,电子设备可以首先对预先收集的用户信息集合进行以下处理中的至少一个:将用户信息集合中离散的原属性值更新为用于表示原属性值的各个预定区间范围的属性值;将用户信息集合中用户的属性值为空的特征的属性值设置为预设的缺省值;针对每个上述特征,删除对应的权重小于预定阈值的属性值。然后,从经过上述处理之后的用户信息集合中获取待识别用户的至少一个特征的属性值。其中,以年龄特征为例,离散的原属性值通常为具体的年龄数值(例如21、22、30),将原属性值更新为用于表示原属性值的各个预定区间范围的属性值,之后,年龄特征所关联的属性值例如可以包括:20~25、25~29、30以上。通过该实现方式,在可辨识度、命中率、稳定性等方面都可以有很大程度的改进。
步骤202,从预先建立的模型中获取与待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重。
其中,上述模型包括以下信息:特征、与上述特征关联的候选属性值、与上述特征和上述候选属性值关联的权重,上述权重是通过对预存的目标用户信息集合和基础用户信息集合中上述特征的属性值等于上述候选属性值的用户的占比进行对比确定的。
在本实施例中,上述模型中的特征和属性值分别可以用特征标识和属性值标识表示。例如,第i个特征用i表示,特征i所关联的第j个属性值用j表示,其中,i、j为正整数,i∈{1,…M},j∈{1,…Ni+1},M为上述至少一个特征中特征的数量,Ni为特征i所关联的属性值的数量。设模型中与特征i和特征i所关联的属性值j关联的权重为Sij,电子设备可以根据上述至少一个特征中的每个特征和特征的属性值,在上述模型中匹配与每个特征和特征的每个属性值匹配的Sij,来获取与待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重。
其中,Sij是预先通过对预存的目标用户信息集合和基础用户信息集合中特征i的属性值等于属性值j的用户的占比进行对比确定的。其中,目标用户信息集合中的目标用户可以是手机到了实际使用了某个产品(例如某打车应用)的用户,基础用户信息集合中的用户是没有确定为是潜在目标用户的一般用户。以消费水平这个特征为例,该特征所关联的属性值可以包括:高、中、低。电子设备可以首先分别获取目标用户信息集合和和基础用户信息集合中消费水平为高的用户占比、消费水平为中的用户占比以及消费水平为低的用户占比,例如:
然后分别将目标用户信息集合中消费水平为高的用户的占比与基础用户信息集合中消费水平为高的用户占比进行对比,如果差异较大,则消费水平特征的属性值高所关联的权重就相对较大。对于属性值中和低,也采用上述方法分别获取所关联的权重。
在本实施例的一些可选的实现方式中,上述通过对预存的目标用户信息集合和基础用户信息集合中上述特征的属性值等于上述候选属性值的用户的占比进行对比可以包括:分别获取上述目标用户信息集合和上述基础用户信息集合中上述特征的属性值等于上述候选属性值的用户在集合中所占的比例;获取上述目标用户信息集合和上述基础用户信息集合的上述比例之差的绝对值,作为与上述特征和上述属性值关联的权重。
此外,由于一个用户在多属性值的特征关联的权重和在少属性值特征关联的权重相同的话,多属性值特征的权重应该更大。因此,可选地,上述通过对预存的目标用户信息集合和基础用户信息集合中上述特征的属性值等于上述候选属性值的用户的占比进行对比还可以包括:根据与上述特征关联的候选属性值的数量,修正上述权重,其中,修正的权重与上述候选属性值的数量之间存在正相关关系。例如,设上述原权重为S’ij,则修正后的Sij可以为:log(Ni)×S’ij。通过上述对权重的修正,使得模型中的权重上述候选属性值的数量之间成正相关关系,从而使模型中的权重更加合理、准确。
步骤203,获取待识别用户的上述至少一个特征中的各个特征和特征的属性值匹配的权重之和。
在本实施例中,电子设备可以将步骤202中获取的待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重进行加和,获得上述权重之和,该和可以用于表示待识别用户是潜在目标用户的显著度、可能性。
步骤204,以上述权重之和的大小为依据,识别待识别用户是否为潜在目标用户。
在本实施例中,电子设备可以将上述权重之和与预设的阈值进行比较,如果上述权重之和大于该阈值,则可以识别出待识别用户为潜在目标用户。此外,如果待识别用户有多个,电子设备可以按照上述权重之和从大到小一次选取预定数量个待识别用户,作为潜在目标用户。
在本实施例的一些可选的实现方式中,上述模型还包括前置条件信息,上述模型中的与上述特征和上述属性值关联的权重为与上述前置条件、上述特征和上述属性值关联的权重。其中,上述权重是通过对预存的满足上述前置条件的目标用户信息集合和基础用户信息集合中上述特征的属性值等于上述候选属性值的用户的占比进行对比确定的。以及,上述待识别用户是满足预定前置条件的待识别用户。以及,上述从预先建立的模型中获取与待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重可以包括:从预先建立的模型中获取与上述预定前置条件、待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重。
其中,上述前置条件可以是例如地域条件、用户信息采集时间条件等。例如,不同城市的用户的消费水平、受教育程度等特征的比例分布一般是具有差异的,如果根据通过一线城市的目标用户信息集合和基础用户信息集合的信息获取的权重对小城市的用户进行识别,效果通常比对一线城市的用户进行识别的准确度更低。因此,通过该实现方式,使得待验证用户的前置条件和生成模型所基于的用户信息集合的潜在条件相同,使得用户识别的准确度更高。
在本实施例的一些可选的实现方式中,本实施例的用户识别方法还可以包括:在确定出潜在目标用户之后,获取潜在目标用户中成为目标用户的识别成功用户集合;通过对上述识别成功用户集合和上述基础用户信息集合中的每个特征所关联的每个候选属性值的用户的占比进行对比,重新计算并更新上述模型中的上述权重。以目标用户是使用过某产品的用户为例,电子设备可以在步骤204之后的一定时间段后(例如1个月后),首先通过获取在步骤204中识别出的潜在目标用户中在该时间段中使用了该产品的用户,得到识别成功用户集合。然后通过步骤202的方法,对上述识别成功用户集合和上述基础用户信息集合中的每个特征所关联的每个候选属性值的用户的占比进行对比,重新计算并更新上述模型中的上述权重。通过该实现方式,对模型进行了调优,提升了后续用户识别的准确度。
下面参考图3,图3示出了根据本实施例的用户识别方法的一个示例性示意图。
如图3所示,电子设备可以基于基础数据层的目标用户信息集合301和基础用户信息集合302,在模型层通过前置条件集合303中前置条件的筛选(也可不通过前置条件)获取基础用户样本304和目标用户的样本305;然后通过进行如图3所示的用户特征抽取、对比比例分布计算、权重计算等处理(即本实施例的步骤202),得到模型306。在进行用户识别时,通过对待识别用户307进行如图3所示的用户特征抽取的处理(即本实施例的步骤201);并基于抽取到的待识别用户的特征的属性值和上述模型,进行图3所示的目标用户显著度计算(即本实施例的步骤203);最后得到图3所示的潜在目标用户集合308(通过本实施例的步骤204)。
本实施例提供的用户识别方法,通过从预先建立的上述模型中获取与待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重,并以上述权重之和的大小为依据,识别待识别用户是否为潜在目标用户,可以基于更多的特征的属性值来对用户进行识别,从而能够准确地识别出更多的潜在目标用户。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种用户识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于服务器中。
如图4所示,本实施例提供的用户识别装置400包括:特征信息获取单元401、权重获取单元402、加和单元403以及识别单元404。其中,特征信息获取单元401用于从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值;权重获取单元402用于从预先建立的模型中获取与待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重,其中,上述模型包括以下信息:特征、与上述特征关联的候选属性值、与上述特征和上述候选属性值关联的权重,上述权重是通过对预存的目标用户信息集合和基础用户信息集合中上述特征的属性值等于上述候选属性值的用户的占比进行对比确定的;加和单元403用于获取待识别用户的上述至少一个特征中的各个特征和特征的属性值匹配的权重之和;识别单元404用于以上述权重之和的大小为依据,识别待识别用户是否为潜在目标用户。
在本实施例中,特征信息获取单元401、权重获取单元402、加和单元403以及识别单元404的具体处理可分别参考图2对应实施例中步骤201、步骤202、步骤203以及步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,特征信息获取单元401可以包括:预处理子单元4011和特征信息抽取子单元4012。其中,预处理子单元4011用于对预先收集的用户信息集合进行以下处理中的至少一个:将用户信息集合中离散的原属性值更新为用于表示原属性值的各个预定区间范围的属性值;将用户信息集合中用户的属性值为空的特征的属性值设置为预设的缺省值;针对每个上述特征,删除对应的权重小于预定阈值的属性值。特征信息抽取子单元4012用于从经过上述预处理子单元的处理之后的用户信息集合中获取待识别用户的至少一个特征的属性值。该实现方式的具体处理及其所带来的技术效果可参考图2对应实施例中步骤201中相应可选实现方式的相关部分的说明,在此不再赘述。
在本实施例的一些可选的实现方式中,本实施例的用户识别装置还可以包括:权重确定单元405,用于针对上述至少一个特征中的每个特征和与上述特征关联的每个属性值,通过对预存的目标用户信息集合和基础用户信息集合中特征的属性值等于候选属性值的用户的占比进行对比确定与上述特征和上述候选属性值关联的权重。其中,权重确定单元405可以包括:比例获取子单元4051,用于分别获取上述目标用户信息集合和上述基础用户信息集合中上述特征的属性值等于上述候选属性值的用户在集合中所占的比例;权重确定子单元4052,用于获取上述目标用户信息集合和上述基础用户信息集合的上述比例之差的绝对值,作为与上述特征和上述属性值关联的权重。该实现方式的具体处理可参考图2对应实施例中步骤202中的相应可选实现方式的相关说明,在此不再赘述。
基于上一实现方式,在本实施例的一些可选的实现方式中,权重确定单元405还可以包括:权重修正子单元4053,用于根据与上述特征关联的候选属性值的数量,修正上述权重,其中,修正的权重与上述候选属性值的数量之间存在正相关关系。该实现方式的具体处理及其所带来的技术效果可参考图2对应实施例中步骤202中的相应可选实现方式的相关部分的说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述模型还可以包括前置条件信息,上述模型中的上述与上述特征和上述属性值关联的权重可以为与上述前置条件、上述特征和上述属性值关联的权重。其中,上述权重可以是上述权重确定单元通过对预存的满足上述前置条件的目标用户信息集合和基础用户信息集合中上述特征的属性值等于上述候选属性值的用户的占比进行对比确定的。以及,上述待识别用户是满足预定前置条件的待识别用户。以及,权重获取单元402还可以用于从预先建立的模型中获取与上述预定前置条件、待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重。该实现方式的具体处理及其所带来的技术效果可参考图2对应实施例中相应可选实现方式的相关部分的说明,在此不再赘述。
在本实施例的一些可选的实现方式中,本实施例的用户识别装置还可以包括:成功样本获取单元406,用于在确定出潜在目标用户之后,获取潜在目标用户中成为目标用户的识别成功用户集合;权重更新单元407,用于通过对上述识别成功用户集合和上述基础用户信息集合中的每个特征所关联的每个候选属性值的用户的占比进行对比,重新计算并更新上述模型中的上述权重。该实现方式的具体处理及其所带来的技术效果可参考图2对应实施例中相应可选实现方式的相关部分的说明,在此不再赘述。
本实施例提供的用户识别装置,通过权重获取单元402从预先建立的上述模型中获取与待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重,并通过识别单元404以加和单元403计算的权重之和的大小为依据,识别待识别用户是否为潜在目标用户,可以基于更多的特征的属性值来对用户进行识别,从而能够准确地识别出更多的潜在目标用户。
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机***500的结构示意图。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括硬盘等的存储部分506;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分507。通信部分507经由诸如因特网的网络执行通信处理。驱动器508也根据需要连接至I/O接口505。可拆卸介质509,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器508上,以便于从其上读出的计算机程序根据需要被安装入存储部分506。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分507从网络上被下载和安装,和/或从可拆卸介质509被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括特征信息获取单元、权重获取单元、加和单元以及识别单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,特征信息获取单元还可以被描述为“从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值;从预先建立的模型中获取与待识别用户的上述至少一个特征中的每个特征和特征的属性值匹配的权重,其中,上述模型包括以下信息:特征、与上述特征关联的候选属性值、与上述特征和上述候选属性值关联的权重,上述权重是通过对预存的目标用户信息集合和基础用户信息集合中上述特征的属性值等于上述候选属性值的用户的占比进行对比确定的;获取待识别用户的上述至少一个特征中的各个特征和特征的属性值匹配的权重之和;以上述权重之和的大小为依据,识别待识别用户是否为潜在目标用户。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种用户识别方法,其特征在于,所述方法包括:
从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值;
从预先建立的模型中获取与待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重,其中,所述模型包括以下信息:特征、与所述特征关联的候选属性值、与所述特征和所述候选属性值关联的权重,所述权重是通过对预存的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比确定的;
获取待识别用户的所述至少一个特征中的各个特征和特征的属性值匹配的权重之和;
以所述权重之和的大小为依据,识别待识别用户是否为潜在目标用户。
2.根据权利要求1所述的方法,其特征在于,所述通过对预存的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比,包括:
分别获取所述目标用户信息集合和所述基础用户信息集合中所述特征的属性值等于所述候选属性值的用户在集合中所占的比例;
获取所述目标用户信息集合和所述基础用户信息集合的所述比例之差的绝对值,作为与所述特征和所述属性值关联的权重。
3.根据权利要求2所述的方法,其特征在于,所述通过对预存的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比,还包括:
根据与所述特征关联的候选属性值的数量,修正所述权重,其中,修正的权重与所述候选属性值的数量之间存在正相关关系。
4.根据权利要求1-3任一所述的方法,其特征在于,所述模型还包括前置条件信息,所述模型中的所述与所述特征和所述属性值关联的权重为与所述前置条件、所述特征和所述属性值关联的权重,其中,所述权重是通过对预存的满足所述前置条件的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比确定的;以及
所述待识别用户是满足预定前置条件的待识别用户;以及
所述从预先建立的模型中获取与待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重,包括:
从预先建立的模型中获取与所述预定前置条件、待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重。
5.根据权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
在确定出潜在目标用户之后,获取潜在目标用户中成为目标用户的识别成功用户集合;
通过对所述识别成功用户集合和所述基础用户信息集合中的每个特征所关联的每个候选属性值的用户的占比进行对比,重新计算并更新所述模型中的所述权重。
6.根据权利要求1-3任一所述的方法,其特征在于,所述从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值,包括:
对预先收集的用户信息集合进行以下处理中的至少一个:将用户信息集合中离散的原属性值更新为用于表示原属性值的各个预定区间范围的属性值;将用户信息集合中用户的属性值为空的特征的属性值设置为预设的缺省值;针对每个所述特征,删除对应的权重小于预定阈值的属性值;
从经过所述处理之后的用户信息集合中获取待识别用户的至少一个特征的属性值。
7.一种用户识别装置,其特征在于,所述装置包括:
特征信息获取单元,用于从预先收集的用户信息集合中获取待识别用户的至少一个特征的属性值;
权重获取单元,用于从预先建立的模型中获取与待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重,其中,所述模型包括以下信息:特征、与所述特征关联的候选属性值、与所述特征和所述候选属性值关联的权重,所述权重是通过对预存的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比确定的;
加和单元,用于获取待识别用户的所述至少一个特征中的各个特征和特征的属性值匹配的权重之和;
识别单元,用于以所述权重之和的大小为依据,识别待识别用户是否为潜在目标用户。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
权重确定单元,用于针对所述至少一个特征中的每个特征和与所述特征关联的每个属性值,通过对预存的目标用户信息集合和基础用户信息集合中特征的属性值等于候选属性值的用户的占比进行对比确定与所述特征和所述候选属性值关联的权重,所述权重确定单元包括:
比例获取子单元,用于分别获取所述目标用户信息集合和所述基础用户信息集合中所述特征的属性值等于所述候选属性值的用户在集合中所占的比例;
权重确定子单元,用于获取所述目标用户信息集合和所述基础用户信息集合的所述比例之差的绝对值,作为与所述特征和所述属性值关联的权重。
9.根据权利要求8所述的装置,其特征在于,所述权重确定单元还包括:
权重修正子单元,用于根据与所述特征关联的候选属性值的数量,修正所述权重,其中,修正的权重与所述候选属性值的数量之间存在正相关关系。
10.根据权利要求7-9任一所述的装置,其特征在于,所述模型还包括前置条件信息,所述模型中的所述与所述特征和所述属性值关联的权重为与所述前置条件、所述特征和所述属性值关联的权重,其中,所述权重是所述权重确定单元通过对预存的满足所述前置条件的目标用户信息集合和基础用户信息集合中所述特征的属性值等于所述候选属性值的用户的占比进行对比确定的;以及
所述待识别用户是满足预定前置条件的待识别用户;以及
所述权重获取单元还用于从预先建立的模型中获取与所述预定前置条件、待识别用户的所述至少一个特征中的每个特征和特征的属性值匹配的权重。
11.根据权利要求7-9任一所述的装置,其特征在于,所述装置还包括:
成功样本获取单元,用于在确定出潜在目标用户之后,获取潜在目标用户中成为目标用户的识别成功用户集合;
权重更新单元,用于通过对所述识别成功用户集合和所述基础用户信息集合中的每个特征所关联的每个候选属性值的用户的占比进行对比,重新计算并更新所述模型中的所述权重。
12.根据权利要求7-9任一所述的装置,其特征在于,所述特征信息获取单元包括:
预处理子单元,用于对预先收集的用户信息集合进行以下处理中的至少一个:将用户信息集合中离散的原属性值更新为用于表示原属性值的各个预定区间范围的属性值;将用户信息集合中用户的属性值为空的特征的属性值设置为预设的缺省值;针对每个所述特征,删除对应的权重小于预定阈值的属性值;
特征信息抽取子单元,用于从经过所述预处理子单元的处理之后的用户信息集合中获取待识别用户的至少一个特征的属性值。
CN201610197077.1A 2016-03-31 2016-03-31 用户识别方法和装置 Active CN105894028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610197077.1A CN105894028B (zh) 2016-03-31 2016-03-31 用户识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610197077.1A CN105894028B (zh) 2016-03-31 2016-03-31 用户识别方法和装置

Publications (2)

Publication Number Publication Date
CN105894028A true CN105894028A (zh) 2016-08-24
CN105894028B CN105894028B (zh) 2020-01-10

Family

ID=57011752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610197077.1A Active CN105894028B (zh) 2016-03-31 2016-03-31 用户识别方法和装置

Country Status (1)

Country Link
CN (1) CN105894028B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294881A (zh) * 2016-08-30 2017-01-04 五八同城信息技术有限公司 信息识别方法及装置
CN108768743A (zh) * 2018-06-11 2018-11-06 北京奇艺世纪科技有限公司 一种用户识别方法、装置及服务器
CN109377284A (zh) * 2018-11-05 2019-02-22 连尚(新昌)网络科技有限公司 用于推送信息的方法和电子设备
CN110059244A (zh) * 2019-02-01 2019-07-26 阿里巴巴集团控股有限公司 受众扩展方法及装置
CN110110084A (zh) * 2019-04-23 2019-08-09 北京科技大学 高质量用户生成内容的识别方法
CN110334936A (zh) * 2019-06-28 2019-10-15 阿里巴巴集团控股有限公司 一种信贷资质评分模型的构建方法、装置和设备
CN111582906A (zh) * 2020-03-26 2020-08-25 口碑(上海)信息技术有限公司 一种目标用户信息的获取方法、装置以及电子设备
CN111831894A (zh) * 2019-04-23 2020-10-27 北京嘀嘀无限科技发展有限公司 一种信息匹配方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244314A (zh) * 2014-07-30 2014-12-24 北京拓明科技有限公司 一种基于Mc接口信令的潜在集团客户识别方法
CN104866626A (zh) * 2015-06-15 2015-08-26 ***通信集团黑龙江有限公司 一种电信业务的推荐方法及装置
CN105610768A (zh) * 2014-11-25 2016-05-25 阿里巴巴集团控股有限公司 网络操作处理方法及装置
CN106095916A (zh) * 2016-06-08 2016-11-09 百度在线网络技术(北京)有限公司 信息推送方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244314A (zh) * 2014-07-30 2014-12-24 北京拓明科技有限公司 一种基于Mc接口信令的潜在集团客户识别方法
CN105610768A (zh) * 2014-11-25 2016-05-25 阿里巴巴集团控股有限公司 网络操作处理方法及装置
CN104866626A (zh) * 2015-06-15 2015-08-26 ***通信集团黑龙江有限公司 一种电信业务的推荐方法及装置
CN106095916A (zh) * 2016-06-08 2016-11-09 百度在线网络技术(北京)有限公司 信息推送方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294881A (zh) * 2016-08-30 2017-01-04 五八同城信息技术有限公司 信息识别方法及装置
CN108768743A (zh) * 2018-06-11 2018-11-06 北京奇艺世纪科技有限公司 一种用户识别方法、装置及服务器
CN108768743B (zh) * 2018-06-11 2021-07-20 北京奇艺世纪科技有限公司 一种用户识别方法、装置及服务器
CN109377284A (zh) * 2018-11-05 2019-02-22 连尚(新昌)网络科技有限公司 用于推送信息的方法和电子设备
CN110059244A (zh) * 2019-02-01 2019-07-26 阿里巴巴集团控股有限公司 受众扩展方法及装置
CN110110084A (zh) * 2019-04-23 2019-08-09 北京科技大学 高质量用户生成内容的识别方法
CN111831894A (zh) * 2019-04-23 2020-10-27 北京嘀嘀无限科技发展有限公司 一种信息匹配方法及装置
CN110334936A (zh) * 2019-06-28 2019-10-15 阿里巴巴集团控股有限公司 一种信贷资质评分模型的构建方法、装置和设备
CN110334936B (zh) * 2019-06-28 2023-09-29 创新先进技术有限公司 一种信贷资质评分模型的构建方法、装置和设备
CN111582906A (zh) * 2020-03-26 2020-08-25 口碑(上海)信息技术有限公司 一种目标用户信息的获取方法、装置以及电子设备

Also Published As

Publication number Publication date
CN105894028B (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN105894028A (zh) 用户识别方法和装置
CN107908789A (zh) 用于生成信息的方法和装置
CN109460514A (zh) 用于推送信息的方法和装置
CN107609890A (zh) 一种订单跟踪的方法和装置
CN110008973B (zh) 一种模型训练方法、基于模型确定目标用户的方法及装置
CN105306495B (zh) 用户识别方法和装置
CN109978033A (zh) 同操作人识别模型的构建与同操作人识别的方法和装置
CN108564102A (zh) 图像聚类结果评价方法和装置
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN105721629A (zh) 用户标识匹配方法和装置
CN107545038B (zh) 一种文本分类方法与设备
CN105956469A (zh) 文件安全性识别方法和装置
CN107679119A (zh) 生成品牌衍生词的方法和装置
CN108255706A (zh) 自动化测试脚本的编辑方法、装置、终端设备及存储介质
CN107958247A (zh) 用于人脸图像识别的方法和装置
CN113704614A (zh) 基于用户画像的页面生成方法、装置、设备及介质
CN110798467A (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN110349013A (zh) 风险控制方法及装置
CN107908742A (zh) 用于输出信息的方法和装置
CN113592605A (zh) 基于相似产品的产品推荐方法、装置、设备及存储介质
CN107885754B (zh) 基于lda模型从交易数据中提取信用变量的方法和装置
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN106446844A (zh) 姿势估计方法和装置、计算机***
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN115114329A (zh) 数据流异常检测的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant