CN112035519A - 用户画像方法、装置、计算机可读存储介质及终端设备 - Google Patents

用户画像方法、装置、计算机可读存储介质及终端设备 Download PDF

Info

Publication number
CN112035519A
CN112035519A CN202010889737.9A CN202010889737A CN112035519A CN 112035519 A CN112035519 A CN 112035519A CN 202010889737 A CN202010889737 A CN 202010889737A CN 112035519 A CN112035519 A CN 112035519A
Authority
CN
China
Prior art keywords
user
portrait
information
target
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010889737.9A
Other languages
English (en)
Other versions
CN112035519B (zh
Inventor
林荣吉
张巧丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010889737.9A priority Critical patent/CN112035519B/zh
Publication of CN112035519A publication Critical patent/CN112035519A/zh
Application granted granted Critical
Publication of CN112035519B publication Critical patent/CN112035519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明属于人工智能技术领域,尤其涉及一种用户画像方法、装置、计算机可读存储介质及终端设备。所述方法接收用户画像指令,并从所述用户画像指令中提取出待画像用户的用户标识;根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息;使用预设的用户画像模型对各个信息维度上的用户信息进行处理,得到所述待画像用户的画像值;根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,其中,所述用户画像阈值为根据历史用户画像样本确定的动态阈值。通过本发明实施例,能够更加适应样本的变化趋势,从而提高用户画像结果的准确率。

Description

用户画像方法、装置、计算机可读存储介质及终端设备
技术领域
本发明属于人工智能技术领域,尤其涉及一种用户画像方法、装置、计算机可读存储介质及终端设备。
背景技术
在现有技术中,当需要对某个用户进行用户画像时,一般会采用一个固定的数据处理方式来对用户信息进行处理,从而得到用户画像结果。然而,在实际应用中,由于用户的行为特征可能会存在显著的突变性,在不同时期会产生比较大的波动,导致最终得到的用户画像结果准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种用户画像方法、装置、计算机可读存储介质及终端设备,以解决通过现有技术得到的用户画像结果准确率较低的问题。
本发明实施例的第一方面提供了一种用户画像方法,可以包括:
接收用户画像指令,并从所述用户画像指令中提取出待画像用户的用户标识;
根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息;
使用预设的用户画像模型对各个信息维度上的用户信息进行处理,得到所述待画像用户的画像值;
根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,其中,所述用户画像阈值为根据历史用户画像样本确定的动态阈值。
进一步地,所述根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息,包括:
从预设的数据源列表中分别选取与各个信息维度对应的数据源作为目标数据源,所述数据源列表记录了数据源与信息维度之间的对应关系,每个数据源中记录了至少一个信息维度上的用户信息;
根据所述用户标识从各个目标数据源中获取所述待画像用户在各个信息维度上的用户信息。
进一步地,所述根据所述用户标识从各个目标数据源中获取所述待画像用户在各个信息维度上的用户信息包括:
向目标用户终端发送身份信息请求,所述目标用户终端为与所述用户标识对应的终端设备;
接收所述目标用户终端反馈的所述待画像用户的身份信息;
从所述各个目标数据源中任意选取一个尚未被选取过的数据源作为当前数据源;
从预设的服务器列表中选取与所述当前数据源对应的服务器作为目标服务器,所述服务器列表记录了各个数据源与各个服务器之间的对应关系;
向所述目标服务器发送数据请求,所述数据请求中包括所述待画像用户的身份信息;
接收所述目标服务器发送的所述待画像用户的用户信息;
返回执行所述从所述各个目标数据源中任意选取一个尚未被选取过的数据源作为当前数据源的步骤,直至所述各个目标数据源均被选取过为止。
进一步地,所述用户画像阈值的设置过程包括:
根据所述历史用户画像样本确定目标类别用户在目标画像周期的基准比例;
根据所述历史用户画像样本确定所述目标类别用户在所述目标画像周期的浮动比例;
根据所述基准比例和所述浮动比例计算所述目标类别用户在所述目标画像周期的预期比例;
根据所述预期比例确定所述用户画像阈值。
进一步地,所述根据所述历史用户画像样本确定所述目标类别用户在所述目标画像周期的浮动比例,包括:
确定各个信息维度上的第一用户信息,所述第一用户信息为所述历史用户画像样本在预设的第一时段内的用户信息;
确定各个信息维度上的第二用户信息,所述第二用户信息为所述历史用户画像样本在预设的第二时段内的用户信息,所述第二时段的时长小于所述第一时段的时长,所述第二时段的起始时刻晚于所述第一时段的起始时刻,且所述第二时段的终止时刻晚于或等于所述第一时段的终止时刻;
根据各个信息维度上的第一用户信息、第二用户信息以及预设的维度权重,计算浮动比例调节因子;
根据所述浮动比例调节因子和预设的浮动比例调节系数计算所述目标类别用户在所述目标画像周期的浮动比例。
进一步地,所述维度权重和所述浮动比例调节系数的设置过程包括:
根据所述历史用户画像样本确定所述目标类别用户在各个历史画像周期的实际比例和基准比例;
根据所述实际比例和所述基准比例计算所述目标类别用户在各个历史画像周期的浮动比例;
根据所述目标类别用户在各个历史画像周期的浮动比例确定所述维度权重和所述浮动比例调节系数。
进一步地,所述根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,包括:
若所述画像值大于所述用户画像阈值,则确定所述待画像用户为目标类别用户。
本发明实施例的第二方面提供了一种用户画像装置,可以包括:
用户标识提取模块,用于接收用户画像指令,并从所述用户画像指令中提取出待画像用户的用户标识;
用户信息获取模块,用于根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息;
用户信息处理模块,用于使用预设的用户画像模型对各个信息维度上的用户信息进行处理,得到所述待画像用户的画像值;
用户画像结果确定模块,用于根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,其中,所述用户画像阈值为根据历史用户画像样本确定的动态阈值。
进一步地,所述用户信息获取模块可以包括:
数据源选取单元,用于从预设的数据源列表中分别选取与各个信息维度对应的数据源作为目标数据源,所述数据源列表记录了数据源与信息维度之间的对应关系,每个数据源中记录了至少一个信息维度上的用户信息;
用户信息获取单元,用于根据所述用户标识从各个目标数据源中获取所述待画像用户在各个信息维度上的用户信息。
进一步地,所述用户信息获取单元可以包括:
身份信息请求发送子单元,用于向目标用户终端发送身份信息请求,所述目标用户终端为与所述用户标识对应的终端设备;
身份信息接收子单元,用于接收所述目标用户终端反馈的所述待画像用户的身份信息;
当前数据源选取子单元,用于从所述各个目标数据源中任意选取一个尚未被选取过的数据源作为当前数据源;
目标服务器选取子单元,用于从预设的服务器列表中选取与所述当前数据源对应的服务器作为目标服务器,所述服务器列表记录了各个数据源与各个服务器之间的对应关系;
数据请求发送子单元,用于向所述目标服务器发送数据请求,所述数据请求中包括所述待画像用户的身份信息;
用户信息接收子单元,用于接收所述目标服务器发送的所述待画像用户的用户信息。
进一步地,所述用户画像装置还可以包括:
基准比例确定模块,用于根据所述历史用户画像样本确定目标类别用户在目标画像周期的基准比例;
浮动比例确定模块,用于根据所述历史用户画像样本确定所述目标类别用户在所述目标画像周期的浮动比例;
预期比例确定模块,用于根据所述基准比例和所述浮动比例计算所述目标类别用户在所述目标画像周期的预期比例;
用户画像阈值确定模块,用于根据所述预期比例确定所述用户画像阈值。
进一步地,所述浮动比例确定模块可以包括:
第一用户信息确定单元,用于确定各个信息维度上的第一用户信息,所述第一用户信息为所述历史用户画像样本在预设的第一时段内的用户信息;
第二用户信息确定单元,用于确定各个信息维度上的第二用户信息,所述第二用户信息为所述历史用户画像样本在预设的第二时段内的用户信息,所述第二时段的时长小于所述第一时段的时长,所述第二时段的起始时刻晚于所述第一时段的起始时刻,且所述第二时段的终止时刻晚于或等于所述第一时段的终止时刻;
调节因子计算单元,用于根据各个信息维度上的第一用户信息、第二用户信息以及预设的维度权重,计算浮动比例调节因子;
浮动比例计算单元,用于根据所述浮动比例调节因子和预设的浮动比例调节系数计算所述目标类别用户在所述目标画像周期的浮动比例。
进一步地,所述用户画像装置还可以包括:
历史比例确定模块,用于根据所述历史用户画像样本确定所述目标类别用户在各个历史画像周期的实际比例和基准比例;
浮动比例计算模块,用于根据所述实际比例和所述基准比例计算所述目标类别用户在各个历史画像周期的浮动比例;
参数确定模块,用于根据所述目标类别用户在各个历史画像周期的浮动比例确定所述维度权重和所述浮动比例调节系数。
进一步地,所述用户画像结果确定模块包括:
目标类别用户确定单元,用于若所述画像值大于所述用户画像阈值,则确定所述待画像用户为目标类别用户。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述任意一种用户画像方法的步骤。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述任意一种用户画像方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例接收用户画像指令,并从所述用户画像指令中提取出待画像用户的用户标识;根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息;使用预设的用户画像模型对各个信息维度上的用户信息进行处理,得到所述待画像用户的画像值;根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,其中,所述用户画像阈值为根据历史用户画像样本确定的动态阈值。通过本发明实施例,可以根据历史用户画像样本的波动情况对用户画像阈值进行自适应调整,即这是一个动态阈值,能够更加适应样本的变化趋势,从而提高用户画像结果的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种用户画像方法的一个实施例流程图;
图2为从各个目标数据源中获取待画像用户在各个信息维度上的用户信息的示意流程图;
图3为整个数据交互过程的示意图;
图4为用户画像阈值的设置过程的示意流程图;
图5为本发明实施例中一种用户画像装置的一个实施例结构图;
图6为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种用户画像方法的一个实施例可以包括:
步骤S101、接收用户画像指令,并从所述用户画像指令中提取出待画像用户的用户标识。
当相关工作人员需要对某一用户进行用户画像时,可以向执行用户画像的终端设备(即本发明实施例的执行主体,以下简称为执行终端)下发用户画像指令,在该用户画像指令中携带着待画像用户的用户标识。所述用户标识可以包括但不限于社保号码、公积金号码、保单号码以及其它可以唯一标识出该用户的标识。
所述执行终端在接收到用户画像指令之后,即可从其中提取出待画像用户的用户标识,并按照后续步骤进行用户画像。
步骤S102、根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息。
在本发明实施例中,可以根据实际情况选取多个不同信息维度的用户信息用于对用户进行画像。例如,这些信息维度可以包括但不限于:医疗信息维度、支付信息维度、民政信息维度、交通信息维度、……等等。
首先,从预设的数据源列表中分别选取与各个信息维度对应的数据源作为目标数据源。
所述数据源列表记录了数据源与信息维度之间的对应关系,具体如下表所示:
信息维度 数据源
信息维度1 医疗信息管理***
信息维度2 支付信息管理***
信息维度3 民政信息管理***
信息维度4 交通信息管理***
每个数据源中记录了至少一个信息维度上的用户信息,例如,医疗信息管理***的服务器中存储的用户的病历数据,如看病的次数;支付信息管理***的服务器中存储的用户的支付记录数据,如支付的次数;民政信息管理***的服务器中存储的用户的民政信息数据,如办理民政手续的次数;交通信息管理***的服务器中存储的用户的交通违章记录数据,如交通违章的次数;……等等。
然后,根据所述用户标识从各个目标数据源中获取所述待画像用户在各个信息维度上的用户信息。
具体地,可以包括如图2所示的步骤:
步骤S1021、向目标用户终端发送身份信息请求。
所述目标用户终端为与所述用户标识对应的终端设备,一般即为待画像用户使用的终端设备。
步骤S1022、接收所述目标用户终端反馈的所述待画像用户的身份信息。
所述目标用户终端在接收到身份信息请求后,会记录下所述执行终端的设备标识,并向所述执行终端反馈所述待画像用户的身份信息。所述身份信息可以包括但不限于在目标数据源注册的账号、邮箱、手机号码、身份证号码以及其它可以唯一表征该用户身份的信息。
步骤S1023、从所述各个目标数据源中任意选取一个尚未被选取过的数据源作为当前数据源。
步骤S1024、从预设的服务器列表中选取与所述当前数据源对应的服务器作为目标服务器。
所述服务器列表记录了各个数据源与各个服务器之间的对应关系,具体如下表所示:
数据源 服务器(IP地址)
数据源1 192.168.3.56
数据源2 192.155.26.134
数据源3 192.38.80.121
数据源4 192.176.34.5
步骤S1025、向所述目标服务器发送数据请求。
所述数据请求中包括所述待画像用户的身份信息,还包括所述执行终端的设备标识。
步骤S1026、接收所述目标服务器发送的所述待画像用户的用户信息。
所述目标服务器在接收到所述数据请求后,向所述目标用户终端发送授权请求,所述授权请求中包括所述执行终端的设备标识,所述目标用户终端对所述执行终端的设备标识进行核对,若核对无误,则向所述目标服务器发送授权指令,所述目标服务器在接收到所述授权指令之后,向所述执行终端发送所述待画像用户的用户信息。整个数据交互的过程如图3所示。
步骤S1027、判断所述各个目标数据源是否均被选取过。
若所述各个目标数据源中还存在尚未被选取过的数据源,则返回执行步骤S1023,若所述各个目标数据源均被选取过,则执行步骤S1028。
步骤S1028、确定用户信息均已获取成功。
通过以上过程,在获得用户授权的前提下,再从各个目标服务器中获取用户的信息,保证了用户信息的安全性。当各个信息维度的用户信息均已获取之后,则可根据这些用户信息进行用户画像。
步骤S103、使用预设的用户画像模型对各个信息维度上的用户信息进行处理,得到所述待画像用户的画像值。
所述用户画像模型可以是现有技术中的任意一种神经网络模型,可以包括但不限于CNN、LightGBM、XGBoost以及其它模型,这些模型的具体结构及处理过程可以参照现有技术中的相关内容,本发明实施例在此不再赘述。
步骤S104、根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果。
具体地,若所述画像值大于所述用户画像阈值,则确定所述待画像用户为目标类别用户,也即重要的优质用户;反之,若所述画像值小于或等于所述用户画像阈值,则确定所述待画像用户为非目标类别用户,也即一般的普通用户。
进一步地,还可以设置多个用户画像阈值,例如,可以将用户按照等级从高到低的顺序依次划分为甲、乙、丙、丁四个类别,则对应三个阈值,分别记为第一阈值、第二阈值和第三阈值,且第一阈值大于第二阈值,第二阈值大于第三阈值,当所述画像值大于第一阈值时,则确定所述待画像用户为甲等级,当所述画像值小于第一阈值且大于第二阈值时,则确定所述待画像用户为乙等级,当所述画像值小于第二阈值且大于第三阈值时,则确定所述待画像用户为丙等级,当所述画像值小于第三阈值时,则确定所述待画像用户为丁等级。
特别地,在本发明实施例中所使用的用户画像阈值为根据历史用户画像样本确定的动态阈值,可以根据历史用户画像样本的波动情况对用户画像阈值进行自适应调整,能够更加适应样本的变化趋势,从而提高用户画像结果的准确率。
在本发明实施例的一种具体实现中,所述用户画像阈值的设置过程可以包括如图4所示的步骤:
步骤S401、根据所述历史用户画像样本确定目标类别用户在目标画像周期的基准比例。
对用户进行用户画像的画像周期可以根据实际情况进行设置,在本发明实施例中,优选将画像周期设置为一个月,即每隔一个月进行一次用户画像。所述目标画像周期即为当前进行用户画像的画像周期。
判断用户画像结果是否合理,可以使用用户留存率作为衡量的质量标准,用户留存率是指在某一统计时段内的新增用户中再经过一段时间后仍然留存的用户比例。例如,以一年的用户留存率为例,若在2019年1月新增用户数为1000,在一年后,即2020年1月有300用户留存,则用户留存率为30%。
在本发明实施例中,可以根据实际情况选取合适的用户留存率来作为用户画像的质量标准。例如,在一种具体实现中,可以设置划分为目标类别用户的用户留存率为45%,即在划分为目标类别用户的用户中,其用户留存率应近似于45%,否则,则说明对于目标类别用户的划分质量不能满足要求。
在确定用户画像的质量标准之后,即可据此对目标画像周期之前的历史用户画像样本及模型输出的画像值的情况进行统计,确定在这一质量标准下,目标类别用户的人群占比。例如,若模型输出的画像值最高的30%的样本,其用户留存率满足45%的质量标准,则可以确定目标类别用户对应的基准比例(记为T)为30%,对于其它类别用户的基准比例的确定过程与之类似,此处不再赘述。
步骤S402、根据所述历史用户画像样本确定所述目标类别用户在所述目标画像周期的浮动比例。
首先,确定各个信息维度上的第一用户信息和第二用户信息。所述第一用户信息为所述历史用户画像样本在预设的第一时段内的用户信息;所述第二用户信息为所述历史用户画像样本在预设的第二时段内的用户信息,所述第二时段的时长小于所述第一时段的时长,所述第二时段的起始时刻晚于所述第一时段的起始时刻,且所述第二时段的终止时刻晚于或等于所述第一时段的终止时刻。在本发明的一种具体实现中,可以使用A、B、C、D来表示各个信息维度上的第一用户信息,使用a、b、c、d来表示各个信息维度上的第二用户信息,第一时段可以为距当前一年的时间段,第二时段可以为距当前一个月的时间段。
然后,可以根据各个信息维度上的第一用户信息、第二用户信息以及预设的维度权重,计算浮动比例调节因子。
具体的计算公式如下所示:
Figure BDA0002656559460000121
其中,α1、α2、α3、α4分别为各个维度权重,Alpha为所述浮动比例调节因子。
最后,可以根据所述浮动比例调节因子和预设的浮动比例调节系数计算所述目标类别用户在所述目标画像周期的浮动比例。
具体的计算公式如下所示:
R=k×(Alpha-1)
其中,k为所述浮动比例调节系数,R为所述浮动比例。
所述维度权重和所述浮动比例调节系数的设置过程可以包括如下步骤:
首先,根据所述历史用户画像样本确定所述目标类别用户在各个历史画像周期的实际比例和基准比例。所述历史画像周期即为所述目标画像周期之前的画像周期,通过对所述历史用户画像样本进行统计,可以得到所述目标类别用户在各个历史画像周期的实际比例和基准比例。
然后,根据所述实际比例和所述基准比例计算所述目标类别用户在各个历史画像周期的浮动比例。以任意一个历史画像周期为例,该周期的浮动比例的具体计算公式如下所示:
Ract=Sact-T
其中,Sact为所述目标类别用户在该历史画像周期的实际比例,T为所述目标类别用户在该历史画像周期的基准比例,Ract为所述目标类别用户在该历史画像周期的浮动比例。
最后,根据所述目标类别用户在各个历史画像周期的浮动比例确定所述维度权重和所述浮动比例调节系数。
具体地,可以构造如下所示的多元回归模型:
Figure BDA0002656559460000131
其中,因变量为Ract,自变量为
Figure BDA0002656559460000132
等因子,每个因子的权重分别为m1、m2、m3、m4,截距为n。通过对各个历史画像周期的回归分析,即可求得m1、m2、m3、m4及n的具体取值。
令:
Ract=k×(Alpha-1)
则有:
Figure BDA0002656559460000133
由式(1)和式(2),可得:
k=-n
α1=-m1/n
α2=-m2/n
α3=-m3/n
α4=-m4/n
在这些参数确定之后,即可计算得到浮动比例调节因子Alpha以及浮动比例R。
浮动比例调节因子主要反映近期趋势跟长期水平的比较,若Alpha>1则近期趋势向好,则当月浮动比例为正,若Alpha<1则近期趋势向差,则当月浮动比例为负。
步骤S403、根据所述基准比例和所述浮动比例计算所述目标类别用户在所述目标画像周期的预期比例。
具体地,可以根据下式计算所述目标类别用户在所述目标画像周期的预期比例:
S=T+R
也即在基准比例T的基础上,再加上浮动比例R,将两者之和作为所述目标类别用户在所述目标画像周期的预期比例S。
步骤S404、根据所述预期比例确定所述用户画像阈值。
在本发明实施例的一种具体实现中,可以获取目标画像周期的前一个画像周期中的历史用户画像样本的画像值,将这些画像值按照从大到小的顺序排列,并将这些画像值划分为两部分,第一部分为按照所述预期比例选取排列最靠前的若干个画像值,第二部分为剩余的画像值,则所述用户画像阈值应大于所述第二部分中的最大画像值,且小于所述第一部分中的最小画像值。
进一步地,在确定出待画像用户的用户画像结果之后,还可以将用户画像结果上传至区块链(Blockchain),从而保证其安全性和对用户的公正透明性。用户可以使用其终端设备可以从区块链中下载用户画像结果,以便查证用户画像结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
综上所述,本发明实施例接收用户画像指令,并从所述用户画像指令中提取出待画像用户的用户标识;根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息;使用预设的用户画像模型对各个信息维度上的用户信息进行处理,得到所述待画像用户的画像值;根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,其中,所述用户画像阈值为根据历史用户画像样本确定的动态阈值。通过本发明实施例,可以根据历史用户画像样本的波动情况对用户画像阈值进行自适应调整,即这是一个动态阈值,能够更加适应样本的变化趋势,从而提高用户画像结果的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种用户画像方法,图5示出了本发明实施例提供的一种用户画像装置的一个实施例结构图。
本实施例中,一种用户画像装置可以包括:
用户标识提取模块501,用于接收用户画像指令,并从所述用户画像指令中提取出待画像用户的用户标识;
用户信息获取模块502,用于根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息;
用户信息处理模块503,用于使用预设的用户画像模型对各个信息维度上的用户信息进行处理,得到所述待画像用户的画像值;
用户画像结果确定模块504,用于根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,其中,所述用户画像阈值为根据历史用户画像样本确定的动态阈值。
进一步地,所述用户信息获取模块可以包括:
数据源选取单元,用于从预设的数据源列表中分别选取与各个信息维度对应的数据源作为目标数据源,所述数据源列表记录了数据源与信息维度之间的对应关系,每个数据源中记录了至少一个信息维度上的用户信息;
用户信息获取单元,用于根据所述用户标识从各个目标数据源中获取所述待画像用户在各个信息维度上的用户信息。
进一步地,所述用户信息获取单元可以包括:
身份信息请求发送子单元,用于向目标用户终端发送身份信息请求,所述目标用户终端为与所述用户标识对应的终端设备;
身份信息接收子单元,用于接收所述目标用户终端反馈的所述待画像用户的身份信息;
当前数据源选取子单元,用于从所述各个目标数据源中任意选取一个尚未被选取过的数据源作为当前数据源;
目标服务器选取子单元,用于从预设的服务器列表中选取与所述当前数据源对应的服务器作为目标服务器,所述服务器列表记录了各个数据源与各个服务器之间的对应关系;
数据请求发送子单元,用于向所述目标服务器发送数据请求,所述数据请求中包括所述待画像用户的身份信息;
用户信息接收子单元,用于接收所述目标服务器发送的所述待画像用户的用户信息。
进一步地,所述用户画像装置还可以包括:
基准比例确定模块,用于根据所述历史用户画像样本确定目标类别用户在目标画像周期的基准比例;
浮动比例确定模块,用于根据所述历史用户画像样本确定所述目标类别用户在所述目标画像周期的浮动比例;
预期比例确定模块,用于根据所述基准比例和所述浮动比例计算所述目标类别用户在所述目标画像周期的预期比例;
用户画像阈值确定模块,用于根据所述预期比例确定所述用户画像阈值。
进一步地,所述浮动比例确定模块可以包括:
第一用户信息确定单元,用于确定各个信息维度上的第一用户信息,所述第一用户信息为所述历史用户画像样本在预设的第一时段内的用户信息;
第二用户信息确定单元,用于确定各个信息维度上的第二用户信息,所述第二用户信息为所述历史用户画像样本在预设的第二时段内的用户信息,所述第二时段的时长小于所述第一时段的时长,所述第二时段的起始时刻晚于所述第一时段的起始时刻,且所述第二时段的终止时刻晚于或等于所述第一时段的终止时刻;
调节因子计算单元,用于根据各个信息维度上的第一用户信息、第二用户信息以及预设的维度权重,计算浮动比例调节因子;
浮动比例计算单元,用于根据所述浮动比例调节因子和预设的浮动比例调节系数计算所述目标类别用户在所述目标画像周期的浮动比例。
进一步地,所述用户画像装置还可以包括:
历史比例确定模块,用于根据所述历史用户画像样本确定所述目标类别用户在各个历史画像周期的实际比例和基准比例;
浮动比例计算模块,用于根据所述实际比例和所述基准比例计算所述目标类别用户在各个历史画像周期的浮动比例;
参数确定模块,用于根据所述目标类别用户在各个历史画像周期的浮动比例确定所述维度权重和所述浮动比例调节系数。
进一步地,所述用户画像结果确定模块包括:
目标类别用户确定单元,用于若所述画像值大于所述用户画像阈值,则确定所述待画像用户为目标类别用户。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图6示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备6可包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机可读指令62,例如执行上述的用户画像方法的计算机可读指令。所述处理器60执行所述计算机可读指令62时实现上述各个用户画像方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器60执行所述计算机可读指令62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块501至504的功能。
示例性的,所述计算机可读指令62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令62在所述终端设备6中的执行过程。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机可读指令以及所述终端设备6所需的其它指令和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用户画像方法,其特征在于,包括:
接收用户画像指令,并从所述用户画像指令中提取出待画像用户的用户标识;
根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息;
使用预设的用户画像模型对各个信息维度上的用户信息进行处理,得到所述待画像用户的画像值;
根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,其中,所述用户画像阈值为根据历史用户画像样本确定的动态阈值。
2.根据权利要求1所述的用户画像方法,其特征在于,所述根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息,包括:
从预设的数据源列表中分别选取与各个信息维度对应的数据源作为目标数据源,所述数据源列表记录了数据源与信息维度之间的对应关系,每个数据源中记录了至少一个信息维度上的用户信息;
根据所述用户标识从各个目标数据源中获取所述待画像用户在各个信息维度上的用户信息。
3.根据权利要求2所述的用户画像方法,其特征在于,所述根据所述用户标识从各个目标数据源中获取所述待画像用户在各个信息维度上的用户信息包括:
向目标用户终端发送身份信息请求,所述目标用户终端为与所述用户标识对应的终端设备;
接收所述目标用户终端反馈的所述待画像用户的身份信息;
从所述各个目标数据源中任意选取一个尚未被选取过的数据源作为当前数据源;
从预设的服务器列表中选取与所述当前数据源对应的服务器作为目标服务器,所述服务器列表记录了各个数据源与各个服务器之间的对应关系;
向所述目标服务器发送数据请求,所述数据请求中包括所述待画像用户的身份信息;
接收所述目标服务器发送的所述待画像用户的用户信息;
返回执行所述从所述各个目标数据源中任意选取一个尚未被选取过的数据源作为当前数据源的步骤,直至所述各个目标数据源均被选取过为止。
4.根据权利要求1所述的用户画像方法,其特征在于,所述用户画像阈值的设置过程包括:
根据所述历史用户画像样本确定目标类别用户在目标画像周期的基准比例;
根据所述历史用户画像样本确定所述目标类别用户在所述目标画像周期的浮动比例;
根据所述基准比例和所述浮动比例计算所述目标类别用户在所述目标画像周期的预期比例;
根据所述预期比例确定所述用户画像阈值。
5.根据权利要求4所述的用户画像方法,其特征在于,所述根据所述历史用户画像样本确定所述目标类别用户在所述目标画像周期的浮动比例,包括:
确定各个信息维度上的第一用户信息,所述第一用户信息为所述历史用户画像样本在预设的第一时段内的用户信息;
确定各个信息维度上的第二用户信息,所述第二用户信息为所述历史用户画像样本在预设的第二时段内的用户信息,所述第二时段的时长小于所述第一时段的时长,所述第二时段的起始时刻晚于所述第一时段的起始时刻,且所述第二时段的终止时刻晚于或等于所述第一时段的终止时刻;
根据各个信息维度上的第一用户信息、第二用户信息以及预设的维度权重,计算浮动比例调节因子;
根据所述浮动比例调节因子和预设的浮动比例调节系数计算所述目标类别用户在所述目标画像周期的浮动比例。
6.根据权利要求5所述的用户画像方法,其特征在于,所述维度权重和所述浮动比例调节系数的设置过程包括:
根据所述历史用户画像样本确定所述目标类别用户在各个历史画像周期的实际比例和基准比例;
根据所述实际比例和所述基准比例计算所述目标类别用户在各个历史画像周期的浮动比例;
根据所述目标类别用户在各个历史画像周期的浮动比例确定所述维度权重和所述浮动比例调节系数。
7.根据权利要求1至6中任一项所述的用户画像方法,其特征在于,所述根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,包括:
若所述画像值大于所述用户画像阈值,则确定所述待画像用户为目标类别用户。
8.一种用户画像装置,其特征在于,包括:
用户标识提取模块,用于接收用户画像指令,并从所述用户画像指令中提取出待画像用户的用户标识;
用户信息获取模块,用于根据所述用户标识从预设的数据源中获取所述待画像用户在预设的各个信息维度上的用户信息;
用户信息处理模块,用于使用预设的用户画像模型对各个信息维度上的用户信息进行处理,得到所述待画像用户的画像值;
用户画像结果确定模块,用于根据所述画像值和预设的用户画像阈值确定所述待画像用户的用户画像结果,其中,所述用户画像阈值为根据历史用户画像样本确定的动态阈值。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的用户画像方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的用户画像方法的步骤。
CN202010889737.9A 2020-08-28 2020-08-28 用户画像方法、装置、计算机可读存储介质及终端设备 Active CN112035519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010889737.9A CN112035519B (zh) 2020-08-28 2020-08-28 用户画像方法、装置、计算机可读存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010889737.9A CN112035519B (zh) 2020-08-28 2020-08-28 用户画像方法、装置、计算机可读存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN112035519A true CN112035519A (zh) 2020-12-04
CN112035519B CN112035519B (zh) 2023-11-24

Family

ID=73586973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010889737.9A Active CN112035519B (zh) 2020-08-28 2020-08-28 用户画像方法、装置、计算机可读存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN112035519B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819527A (zh) * 2021-01-29 2021-05-18 百果园技术(新加坡)有限公司 一种用户分群处理方法及装置
WO2022142493A1 (zh) * 2020-12-29 2022-07-07 京东城市(北京)数字科技有限公司 业务数据处理方法、装置、电子设备和存储介质
CN116452165A (zh) * 2023-03-22 2023-07-18 北京游娱网络科技有限公司 一种人才信息推荐方法、服务***及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940705A (zh) * 2016-12-20 2017-07-11 上海掌门科技有限公司 一种用于构建用户画像的方法与设备
CN109299997A (zh) * 2018-09-03 2019-02-01 中国平安人寿保险股份有限公司 产品推荐方法、装置及计算机可读存储介质
CN110489646A (zh) * 2019-08-15 2019-11-22 中国平安人寿保险股份有限公司 用户画像构建方法及终端设备
CN110751533A (zh) * 2019-09-09 2020-02-04 上海陆家嘴国际金融资产交易市场股份有限公司 产品画像生成方法、装置、计算机设备和存储介质
CN110990712A (zh) * 2019-10-14 2020-04-10 中国平安财产保险股份有限公司 产品数据推送方法、装置和计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940705A (zh) * 2016-12-20 2017-07-11 上海掌门科技有限公司 一种用于构建用户画像的方法与设备
CN109299997A (zh) * 2018-09-03 2019-02-01 中国平安人寿保险股份有限公司 产品推荐方法、装置及计算机可读存储介质
CN110489646A (zh) * 2019-08-15 2019-11-22 中国平安人寿保险股份有限公司 用户画像构建方法及终端设备
CN110751533A (zh) * 2019-09-09 2020-02-04 上海陆家嘴国际金融资产交易市场股份有限公司 产品画像生成方法、装置、计算机设备和存储介质
CN110990712A (zh) * 2019-10-14 2020-04-10 中国平安财产保险股份有限公司 产品数据推送方法、装置和计算机设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022142493A1 (zh) * 2020-12-29 2022-07-07 京东城市(北京)数字科技有限公司 业务数据处理方法、装置、电子设备和存储介质
CN112819527A (zh) * 2021-01-29 2021-05-18 百果园技术(新加坡)有限公司 一种用户分群处理方法及装置
CN112819527B (zh) * 2021-01-29 2024-05-24 百果园技术(新加坡)有限公司 一种用户分群处理方法及装置
CN116452165A (zh) * 2023-03-22 2023-07-18 北京游娱网络科技有限公司 一种人才信息推荐方法、服务***及存储介质
CN116452165B (zh) * 2023-03-22 2024-05-24 北京游娱网络科技有限公司 一种人才信息推荐方法、服务***及存储介质

Also Published As

Publication number Publication date
CN112035519B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN112035519B (zh) 用户画像方法、装置、计算机可读存储介质及终端设备
WO2020082579A1 (zh) 一种风险审批方法、装置、存储介质和服务器
WO2019205325A1 (zh) 确定用户风险等级的方法、终端设备及计算机可读存储介质
CN109040329B (zh) 联系人标签的确定方法、终端设备及介质
CN112381428A (zh) 基于强化学习的业务分配方法、装置、设备及存储介质
Morlini A latent variables approach for clustering mixed binary and continuous variables within a Gaussian mixture model
CN110648180B (zh) 一种调整投放渠道的方法、装置和电子设备
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN108765144B (zh) 电子资源包的处理方法、终端设备及介质
CN111597348A (zh) 用户画像方法、装置、计算机设备和存储介质
US20180262482A1 (en) Information processing method and server
CN110830445A (zh) 一种异常访问对象的识别方法及设备
CN112365007A (zh) 模型参数确定方法、装置、设备及存储介质
CN114265740A (zh) 错误信息处理方法、装置、设备及存储介质
CN107229605B (zh) 文本相似度的计算方法及装置
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN114357085A (zh) 基于区块链的财务数据存储方法、装置及存储介质
CN108416652B (zh) 一种票务分配方法、计算机可读存储介质及服务器
CN112559692B (zh) 题目抽取方法、装置、电子设备及存储介质
CN112308749B (zh) 培养计划的生成装置、方法、电子设备及可读存储介质
WO2021212654A1 (zh) 物理机资源分配模型的获取方法、装置和计算机设备
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN109062638B (zh) 一种***组件显示方法、计算机可读存储介质及终端设备
CN116384502B (zh) 联邦学习中参与方价值贡献计算方法、装置、设备及介质
CN112348041A (zh) 日志分类、日志分类训练方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant