CN113064904B

CN113064904B - 一种基于数据自学习的画像构建方法

Info

Publication number: CN113064904B
Application number: CN202110476312.XA
Authority: CN
Inventors: 张中华; 王树峥; 欧钰鹏; 张伟; 金明林
Original assignee: Jinan Huitian Yunhai Information Technology Co ltd
Current assignee: Jinan Huitian Yunhai Information Technology Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-04-08
Anticipated expiration: 2041-04-29
Also published as: CN113064904A

Abstract

本发明公开了一种基于数据自学习的画像构建方法，所述方法通过定义算法，发布并授权给相应的实体算法权限，给实体定义一个标签并绑定标签与算法之间的对应关系；将一个实体下的多个标签进行分组，指定每个分组下的标签列表组合；将实体与数据集进行绑定，并指定数据集之间关联条件；构建实体画像任务。通过本发明方法进行画像构建，能够更加直观的表达实体和画像之间的关系，能够更加精细化的控制标签的生成过程、画像的构建过程，通过阈值参数和输入参数的动态调整能够更加灵活的调整算法的实现过程，从而达到算法的复用能力。另外通过分组和标签的二次关联分析，能够动态反馈标签的精准度，从而为算法参数的调整提供了依据。

Description

一种基于数据自学习的画像构建方法

技术领域

本发明涉及数据画像技术领域，具体提供一种基于数据自学习的画像构建方法。

背景技术

数据挖掘，是利用一种工具和算法，对数据进行处理和模型训练，从而能够发现数据之间的关联关系和隐藏于数据之间信息的过程。

数据画像，是利用一种工具对数据进行抽象化，提取出数据蕴含的典型特征，并赋予其标签名称，给数据内容进行打标签，同时基于一定的统计学要素、场景等描述，形成一个画像原型的过程。

随着科技的发展，我们已经进入万物互联的智能时代，人与人之间的交流更加频繁，数据价值应用凸显，实现数据的智慧化应用成为各行各业的利器。企业、产品、业务、人等都可以借助数据画像从而更深刻的理解企业经营情况、产品使用情况、业务经营情况、人的健康状况等，依靠数据决策，依靠数据提供的参考，更科学更智慧。

随着海量数据产生以及大数据技术的不断发展，数据之间的壁垒被打破从而实现了数据的互联互通，使得数据之间关联关系得以发掘和利用。其中画像的构建就是为了更加形象直观的展现数据之间的关系，发掘数据的价值，从而为现实中的决策、行为起到积极的指导作用。最常见的就是个人在消费互联网上的行为数据会被构建用户画像从而实现精准营销。

发明内容

常见的画像构建***是通过预先设定的规则对数据进行打标签，然后进行标签分组从而按条件进行画像的直观展示，这种画像的构建方法无法满足画像的动态生成过程和画像的自学习完善能力管理服务和数据发布服务以及数据接口的转发服务，从而满足不同应用***需求的多样性。本发明在已有的画像构建方式的基础上，实现画像数据的动态学习和画像参数的自动完善，即一种基于数据自学习的画像构建方法。

为实现上述目的，本发明提供了如下技术方案：

一种基于数据自学习的画像构建方法，所述方法通过定义算法，发布并授权给相应的实体算法权限，给实体定义一个标签并绑定标签与算法之间的对应关系；

将一个实体下的多个标签进行分组，指定每个分组下的标签列表组合；

将实体与数据集进行绑定，并指定数据集之间关联条件；

构建实体画像任务。

所述方法通过对实体画像任务的标签列表作为数据源进行二次关联分析，剖析实体与各标签之间的关系，对画像的精准度进行评分，并根据评分给出异常标签值，进行标签绑定算法的参数优化和逻辑优化

所述实体与数据集进行绑定的过程包括内容如下：

所述实体对应的数据集包含多个不同维度的数据表，各数据表之间具有一定的关联关系，绑定时将相关数据表之间的关联关系进行指定。

所述构建实体画像任务的过程包括内容如下：

选中实体后，展示数据集下的详细字段列表；

根据需要批量选择字段，绑定字段与标签之间的输入关系，并指定标签的执行顺序和分组的统计顺序，构建实体标签任务，得到标签结果。

具体实现过程如下：

a)在画布中选择实体，在弹出的数据集列表中选择可用字段

b)选择标签，设定阈值参数并绑定输入参数列

c)指定标签结果输出路径

所述标签结果同步到目标数据库中供前端的画像***进行可视化的呈现，并可为市场分析人员进行精准营销的策略制定提供依据。

所述方法通过将标签结果的作为自学习的数据来源，对各标签值以及实体数据集之间的结果预测和关联分析来检测各标签值的准确度，对于偏离过大的标签值进行参数优化和逻辑调整从而达到画像的精确化呈现。

所述算法通过选择已有算法的逻辑组合进行可视化构建。

所述算法通过上传第三方算法SDK构建；

上传的第三方算法SDK继承平台规定的API接口。

所述实体算法权限的授权包括内容如下：

a)被授权的实体可在算法列表中查看到该算法，并显示有使用权；

b)未授权的实体可在算法列表中看到该算法，但无使用权，该实体可提交使用申请，等待算法发布者审核。

所述方法中给实体定义标签并绑定标签与算法之间的对应关系的实现过程包括内容如下：

a)定义标签名称；

b)指定标签的参数，阈值参数和输入参数，其中：

阈值参数：预算过程中起到判断节点作用的参数值；

输入参数：需要进行标签的数据内容；

c)定义标签输出值。

与现有技术相比，本发明一种基于数据自学习的画像构建方法具有以下突出的有益效果：

本发明方法通过构建更加精准的数据画像，使得画像更加贴近现实世界中的实体，从而达到指导商业行为的目的。通过本发明方法进行画像构建，能够更加直观的表达实体和画像之间的关系，能够更加精细化的控制标签的生成过程、画像的构建过程，通过阈值参数和输入参数的动态调整能够更加灵活的调整算法的实现过程，从而达到算法的复用能力。另外通过分组和标签的二次关联分析，能够动态反馈标签的精准度，从而为算法参数的调整提供了依据，在不断的数据自学习过程中使得画像的精准度越来越高，为商业的应用提供更加准确的参考。

附图说明

图1是本发明方法实现流程图。

具体实施方式

下面将结合附图和实施例，对本发明作进一步详细说明。

如图1所示，一种基于数据自学习的画像构建方法，所述方法的实现包括内容方案如下：

(1)在平台中构建算法，上传三方算法SDK包或者通过可视化面板进行自定义，上传三方算法SDK时，需要指定算法的名称并指定输入参数、阈值参数，并对参数进行描述和限定，设定完成后进行发布，如果通过规则验证则发布成功，否则提示相应的错误信息，三方算法SDK必须继承平台定义好的算法接口，否则无法识别。通过可视化面板自定义算法时，可以对已有的算法进行逻辑组合也可以通过java或者shell进行代码编写，依然需要指定对应的输入参数和阈值参数，并对参数进行描述和限定。

(2)完成算法构建之后需要进行算法发布，发布算法时需要指定实体对该算法的权限，权限配置信息如下：

实体选择：

属性	说明
		All	所有实体
Portion	部分实体，需要多选实体列表
		Single	单个实体，需要单选实体列表

权限选择：

属性	说明
		All	所有权限，可见、可用、可编辑
Editable	可见、可编辑、不可用
		Viewable	可见、不可用、不可编辑
Usable	可见、可用、不可编辑

(3)在平台中给实体定义标签，指定标签名称并从被授权的算法列表中选择算法，并指定阈值参数。实体的标签定义完成后，对标签进行组合构建实体分组，注意分组内的标签不可冲突，即两个标签的逻辑含义不能有冲突，保证分组不会因为标签之间的逻辑冲突造成没有符合分组的实体数据。

(4)对实体进行数据集绑定，一个实体包含多种特征，所以一个实体对应的数据集一般包含多个不同维度的数据表，这些数据表之间具有一定的关联关系，绑定实体时需要将相关数据表的关联关系进行指定，如下：

假设实体“人物”的数据集有三个表basc_message、income_message、consume_message即基本信息、收入信息和消费信息，字段信息如下：

a)指定基本信息表与收入信息表的关联关系：

basc_message.basc_id＝income_message.income_id

b)指定基本信息表与消费信息表的关联关系：

basc_message.basc_id＝consume_message.consume_id

c)指定收入信息表与消费信息表的关联关系：

income_message.income_id＝consume_message.consume_id

(5)完成数据集绑定之后需要进行实体任务的构建，选中实体后会自动展示数据集下的详细字段列表，根据需要批量选择字段，然后绑定字段与标签之间的输入关系，并指定标签的执行顺序和分组的统计顺序。

a)标签A的执行过程需要用到算法a1和算法a2

b)标签B的执行过程需要用到算法a1和算法a3

c)标签C的执行过程需要用到算法a2和算法a3以及a4

d)假设在该实体任务中算法a1、a2、a3、a4的入参一样，各算法的耗时分别为t1、t2、t3、t4

e)则最常见的标签执行过程耗时为：标签A的耗时+标签B的耗时+标签C的耗时t1+t2+t1+t3+t2+t3+t4＝2t1+2t2+2t3+t4

f)通过数据自学习算法优化之后的执行过程为a1算法的执行结果会被标签A和标签B使用，a2算法的执行结果会被标签A和标签C使用，a3算法的执行结果会被标签B和标签C使用，则整个执行过程耗时为：t1+t2+t3+t4

g)假设t1＝t2＝t3＝t4则优化前耗时为2t1+2t2+2t3+t4＝7t1，优化后耗时为t1+t2+t3+t4＝4t1，随着标签所用算法的复合率越高则性能提升越明显。

(6)构建完实体的标签任务之后需要将标签结果同步到目标数据库中供前端的画像***进行可视化的呈现，并为市场分析人员进行精准营销的策略制定提供依据。

(7)对标签结果的另一个应用就是作为自学习的数据来源，通过对各标签值以及实体数据集之间的结果预测和关联分析来检测各标签值的准确度，对于偏离过大的标签值进行参数优化和逻辑调整从而达到画像的精确化呈现。

a)假设有A、B、C、D、E五个标签，理论上通过这五个标签就能够展示一个相对完整的数据画像。

b)对标签结果A、B、C、D以及实体数据进行关联分析，预测E的结果符合度。

c)当E的符合度没有达到预期，则对E的阈值参数进行调整。

d)依次不断的对A、B、C、D、E五个标签进行以上的分析、调整过程，从而保证最终的数字画像的精准度越来越高。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于数据自学习的画像构建方法，其特征在于，所述方法通过定义算法，发布并授权给相应的实体算法权限，给实体定义一个标签并绑定标签与算法之间的对应关系；

将实体与数据集进行绑定，并指定数据集之间关联条件；所述实体与数据集进行绑定过程包括内容如下：所述实体对应的数据集包含多个不同维度的数据表，各数据表之间具有关联关系，绑定时将相关数据表之间的关联关系进行指定，如下：

所述数据集有三个数据表basc_message、income_message、consume_message即基本信息、收入信息和消费信息，基本信息表中，basc_id表示身份证号；收入信息表中income_id表示身份证号；消费信息表中consume_id表示身份证号；

a)指定基本信息表与收入信息表的关联关系：

basc_message.basc_id＝income_message.income_id

b)指定基本信息表与消费信息表的关联关系：

basc_message.basc_id＝consume_message.consume_id

c)指定收入信息表与消费信息表的关联关系：

income_message.income_id＝consume_message.consume_id

构建实体画像任务；完成数据集绑定之后需要进行实体任务的构建，选中实体后会自动展示数据集下的详细字段列表，根据需要批量选择字段，然后绑定字段与标签之间的输入关系，并指定标签的执行顺序和分组的统计顺序，构建实体标签任务，得到标签结果；

a)标签A的执行过程需要用到算法a1和算法a2；

b)标签B的执行过程需要用到算法a1和算法a3；

c)标签C的执行过程需要用到算法a2和算法a3以及a4；

d)在该实体任务中算法a1、a2、a3、a4的入参一样，各算法的耗时分别为t1、t2、t3、t4；

e)则最常见的标签执行过程耗时为：标签A的耗时+标签B的耗时+标签C的耗时t1+t2+t1+t3+t2+t3+t4＝2t1+2t2+2t3+t4；

f)通过数据自学习算法优化之后的执行过程为a1算法的执行结果会被标签A和标签B使用，a2算法的执行结果会被标签A和标签C使用，a3算法的执行结果会被标签B和标签C使用，则整个执行过程耗时为：t1+t2+t3+t4；

g)当t1＝t2＝t3＝t4则优化前耗时为2t1+2t2+2t3+t4＝7t1，优化后耗时为t1+t2+t3+t4＝4t1。

2.根据权利要求1所述的一种基于数据自学习的画像构建方法，其特征在于，所述方法通过对实体画像任务的标签列表作为数据源进行二次关联分析，剖析实体与各标签之间的关系，对画像的精准度进行评分，并根据评分给出异常标签值，进行标签绑定算法的参数优化和逻辑优化。

3.根据权利要求1所述的一种基于数据自学习的画像构建方法，其特征在于，所述标签结果同步到目标数据库中供前端的画像***进行可视化的呈现，并可为市场分析人员进行精准营销的策略制定提供依据。

4.根据权利要求1所述的一种基于数据自学习的画像构建方法，其特征在于，所述方法通过将标签结果作为自学习的数据来源，对各标签值以及实体数据集之间的结果预测和关联分析来检测各标签值的准确度，对于偏离过大的标签值进行参数优化和逻辑调整从而达到画像的精确化呈现。

5.根据权利要求1所述的一种基于数据自学习的画像构建方法，其特征在于，所述算法通过选择已有算法的逻辑组合进行可视化构建。

6.根据权利要求1所述的一种基于数据自学习的画像构建方法，其特征在于，所述算法通过上传第三方算法SDK构建；

上传的第三方算法SDK继承平台规定的API接口。

7.根据权利要求1所述的一种基于数据自学习的画像构建方法，其特征在于，所述实体算法权限的授权包括内容如下：

a)被授权的实体在算法列表中查看到该算法，并显示有使用权；

b)未授权的实体在算法列表中看到该算法，但无使用权，该实体提交使用申请，等待算法发布者审核。

8.根据权利要求1所述的一种基于数据自学习的画像构建方法，其特征在于，所述方法中给实体定义一个标签并绑定标签与算法之间的对应关系的实现过程包括内容如下：

a)定义标签名称；

b)指定标签的参数，阈值参数和输入参数，其中：阈值参数：预算过程中起到判断节点作用的参数值；输入参数：需要进行标签的数据内容；

c)定义标签输出值。