CN113064904B - 一种基于数据自学习的画像构建方法 - Google Patents
一种基于数据自学习的画像构建方法 Download PDFInfo
- Publication number
- CN113064904B CN113064904B CN202110476312.XA CN202110476312A CN113064904B CN 113064904 B CN113064904 B CN 113064904B CN 202110476312 A CN202110476312 A CN 202110476312A CN 113064904 B CN113064904 B CN 113064904B
- Authority
- CN
- China
- Prior art keywords
- algorithm
- entity
- label
- data
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于数据自学习的画像构建方法,所述方法通过定义算法,发布并授权给相应的实体算法权限,给实体定义一个标签并绑定标签与算法之间的对应关系;将一个实体下的多个标签进行分组,指定每个分组下的标签列表组合;将实体与数据集进行绑定,并指定数据集之间关联条件;构建实体画像任务。通过本发明方法进行画像构建,能够更加直观的表达实体和画像之间的关系,能够更加精细化的控制标签的生成过程、画像的构建过程,通过阈值参数和输入参数的动态调整能够更加灵活的调整算法的实现过程,从而达到算法的复用能力。另外通过分组和标签的二次关联分析,能够动态反馈标签的精准度,从而为算法参数的调整提供了依据。
Description
技术领域
本发明涉及数据画像技术领域,具体提供一种基于数据自学习的画像构建方法。
背景技术
数据挖掘,是利用一种工具和算法,对数据进行处理和模型训练,从而能够发现数据之间的关联关系和隐藏于数据之间信息的过程。
数据画像,是利用一种工具对数据进行抽象化,提取出数据蕴含的典型特征,并赋予其标签名称,给数据内容进行打标签,同时基于一定的统计学要素、场景等描述,形成一个画像原型的过程。
随着科技的发展,我们已经进入万物互联的智能时代,人与人之间的交流更加频繁,数据价值应用凸显,实现数据的智慧化应用成为各行各业的利器。企业、产品、业务、人等都可以借助数据画像从而更深刻的理解企业经营情况、产品使用情况、业务经营情况、人的健康状况等,依靠数据决策,依靠数据提供的参考,更科学更智慧。
随着海量数据产生以及大数据技术的不断发展,数据之间的壁垒被打破从而实现了数据的互联互通,使得数据之间关联关系得以发掘和利用。其中画像的构建就是为了更加形象直观的展现数据之间的关系,发掘数据的价值,从而为现实中的决策、行为起到积极的指导作用。最常见的就是个人在消费互联网上的行为数据会被构建用户画像从而实现精准营销。
发明内容
常见的画像构建***是通过预先设定的规则对数据进行打标签,然后进行标签分组从而按条件进行画像的直观展示,这种画像的构建方法无法满足画像的动态生成过程和画像的自学习完善能力管理服务和数据发布服务以及数据接口的转发服务,从而满足不同应用***需求的多样性。本发明在已有的画像构建方式的基础上,实现画像数据的动态学习和画像参数的自动完善,即一种基于数据自学习的画像构建方法。
为实现上述目的,本发明提供了如下技术方案:
一种基于数据自学习的画像构建方法,所述方法通过定义算法,发布并授权给相应的实体算法权限,给实体定义一个标签并绑定标签与算法之间的对应关系;
将一个实体下的多个标签进行分组,指定每个分组下的标签列表组合;
将实体与数据集进行绑定,并指定数据集之间关联条件;
构建实体画像任务。
所述方法通过对实体画像任务的标签列表作为数据源进行二次关联分析,剖析实体与各标签之间的关系,对画像的精准度进行评分,并根据评分给出异常标签值,进行标签绑定算法的参数优化和逻辑优化
所述实体与数据集进行绑定的过程包括内容如下:
所述实体对应的数据集包含多个不同维度的数据表,各数据表之间具有一定的关联关系,绑定时将相关数据表之间的关联关系进行指定。
所述构建实体画像任务的过程包括内容如下:
选中实体后,展示数据集下的详细字段列表;
根据需要批量选择字段,绑定字段与标签之间的输入关系,并指定标签的执行顺序和分组的统计顺序,构建实体标签任务,得到标签结果。
具体实现过程如下:
a)在画布中选择实体,在弹出的数据集列表中选择可用字段
b)选择标签,设定阈值参数并绑定输入参数列
c)指定标签结果输出路径
所述标签结果同步到目标数据库中供前端的画像***进行可视化的呈现,并可为市场分析人员进行精准营销的策略制定提供依据。
所述方法通过将标签结果的作为自学习的数据来源,对各标签值以及实体数据集之间的结果预测和关联分析来检测各标签值的准确度,对于偏离过大的标签值进行参数优化和逻辑调整从而达到画像的精确化呈现。
所述算法通过选择已有算法的逻辑组合进行可视化构建。
所述算法通过上传第三方算法SDK构建;
上传的第三方算法SDK继承平台规定的API接口。
所述实体算法权限的授权包括内容如下:
a)被授权的实体可在算法列表中查看到该算法,并显示有使用权;
b)未授权的实体可在算法列表中看到该算法,但无使用权,该实体可提交使用申请,等待算法发布者审核。
所述方法中给实体定义标签并绑定标签与算法之间的对应关系的实现过程包括内容如下:
a)定义标签名称;
b)指定标签的参数,阈值参数和输入参数,其中:
阈值参数:预算过程中起到判断节点作用的参数值;
输入参数:需要进行标签的数据内容;
c)定义标签输出值。
与现有技术相比,本发明一种基于数据自学习的画像构建方法具有以下突出的有益效果:
本发明方法通过构建更加精准的数据画像,使得画像更加贴近现实世界中的实体,从而达到指导商业行为的目的。通过本发明方法进行画像构建,能够更加直观的表达实体和画像之间的关系,能够更加精细化的控制标签的生成过程、画像的构建过程,通过阈值参数和输入参数的动态调整能够更加灵活的调整算法的实现过程,从而达到算法的复用能力。另外通过分组和标签的二次关联分析,能够动态反馈标签的精准度,从而为算法参数的调整提供了依据,在不断的数据自学习过程中使得画像的精准度越来越高,为商业的应用提供更加准确的参考。
附图说明
图1是本发明方法实现流程图。
具体实施方式
下面将结合附图和实施例,对本发明作进一步详细说明。
如图1所示,一种基于数据自学习的画像构建方法,所述方法的实现包括内容方案如下:
(1)在平台中构建算法,上传三方算法SDK包或者通过可视化面板进行自定义,上传三方算法SDK时,需要指定算法的名称并指定输入参数、阈值参数,并对参数进行描述和限定,设定完成后进行发布,如果通过规则验证则发布成功,否则提示相应的错误信息,三方算法SDK必须继承平台定义好的算法接口,否则无法识别。通过可视化面板自定义算法时,可以对已有的算法进行逻辑组合也可以通过java或者shell进行代码编写,依然需要指定对应的输入参数和阈值参数,并对参数进行描述和限定。
(2)完成算法构建之后需要进行算法发布,发布算法时需要指定实体对该算法的权限,权限配置信息如下:
实体选择:
属性 | 说明 |
All | 所有实体 |
Portion | 部分实体,需要多选实体列表 |
Single | 单个实体,需要单选实体列表 |
权限选择:
属性 | 说明 |
All | 所有权限,可见、可用、可编辑 |
Editable | 可见、可编辑、不可用 |
Viewable | 可见、不可用、不可编辑 |
Usable | 可见、可用、不可编辑 |
(3)在平台中给实体定义标签,指定标签名称并从被授权的算法列表中选择算法,并指定阈值参数。实体的标签定义完成后,对标签进行组合构建实体分组,注意分组内的标签不可冲突,即两个标签的逻辑含义不能有冲突,保证分组不会因为标签之间的逻辑冲突造成没有符合分组的实体数据。
(4)对实体进行数据集绑定,一个实体包含多种特征,所以一个实体对应的数据集一般包含多个不同维度的数据表,这些数据表之间具有一定的关联关系,绑定实体时需要将相关数据表的关联关系进行指定,如下:
假设实体“人物”的数据集有三个表basc_message、income_message、consume_message即基本信息、收入信息和消费信息,字段信息如下:
a)指定基本信息表与收入信息表的关联关系:
basc_message.basc_id=income_message.income_id
b)指定基本信息表与消费信息表的关联关系:
basc_message.basc_id=consume_message.consume_id
c)指定收入信息表与消费信息表的关联关系:
income_message.income_id=consume_message.consume_id
(5)完成数据集绑定之后需要进行实体任务的构建,选中实体后会自动展示数据集下的详细字段列表,根据需要批量选择字段,然后绑定字段与标签之间的输入关系,并指定标签的执行顺序和分组的统计顺序。
a)标签A的执行过程需要用到算法a1和算法a2
b)标签B的执行过程需要用到算法a1和算法a3
c)标签C的执行过程需要用到算法a2和算法a3以及a4
d)假设在该实体任务中算法a1、a2、a3、a4的入参一样,各算法的耗时分别为t1、t2、t3、t4
e)则最常见的标签执行过程耗时为:标签A的耗时+标签B的耗时+标签C的耗时t1+t2+t1+t3+t2+t3+t4=2t1+2t2+2t3+t4
f)通过数据自学习算法优化之后的执行过程为a1算法的执行结果会被标签A和标签B使用,a2算法的执行结果会被标签A和标签C使用,a3算法的执行结果会被标签B和标签C使用,则整个执行过程耗时为:t1+t2+t3+t4
g)假设t1=t2=t3=t4则优化前耗时为2t1+2t2+2t3+t4=7t1,优化后耗时为t1+t2+t3+t4=4t1,随着标签所用算法的复合率越高则性能提升越明显。
(6)构建完实体的标签任务之后需要将标签结果同步到目标数据库中供前端的画像***进行可视化的呈现,并为市场分析人员进行精准营销的策略制定提供依据。
(7)对标签结果的另一个应用就是作为自学习的数据来源,通过对各标签值以及实体数据集之间的结果预测和关联分析来检测各标签值的准确度,对于偏离过大的标签值进行参数优化和逻辑调整从而达到画像的精确化呈现。
a)假设有A、B、C、D、E五个标签,理论上通过这五个标签就能够展示一个相对完整的数据画像。
b)对标签结果A、B、C、D以及实体数据进行关联分析,预测E的结果符合度。
c)当E的符合度没有达到预期,则对E的阈值参数进行调整。
d)依次不断的对A、B、C、D、E五个标签进行以上的分析、调整过程,从而保证最终的数字画像的精准度越来越高。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (8)
1.一种基于数据自学习的画像构建方法,其特征在于,所述方法通过定义算法,发布并授权给相应的实体算法权限,给实体定义一个标签并绑定标签与算法之间的对应关系;
将一个实体下的多个标签进行分组,指定每个分组下的标签列表组合;
将实体与数据集进行绑定,并指定数据集之间关联条件;所述实体与数据集进行绑定过程包括内容如下:所述实体对应的数据集包含多个不同维度的数据表,各数据表之间具有关联关系,绑定时将相关数据表之间的关联关系进行指定,如下:
所述数据集有三个数据表basc_message、income_message、consume_message即基本信息、收入信息和消费信息,基本信息表中,basc_id表示身份证号;收入信息表中income_id表示身份证号;消费信息表中consume_id表示身份证号;
a)指定基本信息表与收入信息表的关联关系:
basc_message.basc_id=income_message.income_id
b)指定基本信息表与消费信息表的关联关系:
basc_message.basc_id=consume_message.consume_id
c)指定收入信息表与消费信息表的关联关系:
income_message.income_id=consume_message.consume_id
构建实体画像任务;完成数据集绑定之后需要进行实体任务的构建,选中实体后会自动展示数据集下的详细字段列表,根据需要批量选择字段,然后绑定字段与标签之间的输入关系,并指定标签的执行顺序和分组的统计顺序,构建实体标签任务,得到标签结果;
a)标签A的执行过程需要用到算法a1和算法a2;
b)标签B的执行过程需要用到算法a1和算法a3;
c)标签C的执行过程需要用到算法a2和算法a3以及a4;
d)在该实体任务中算法a1、a2、a3、a4的入参一样,各算法的耗时分别为t1、t2、t3、t4;
e)则最常见的标签执行过程耗时为:标签A的耗时+标签B的耗时+标签C的耗时t1+t2+t1+t3+t2+t3+t4=2t1+2t2+2t3+t4;
f)通过数据自学习算法优化之后的执行过程为a1算法的执行结果会被标签A和标签B使用,a2算法的执行结果会被标签A和标签C使用,a3算法的执行结果会被标签B和标签C使用,则整个执行过程耗时为:t1+t2+t3+t4;
g)当t1=t2=t3=t4则优化前耗时为2t1+2t2+2t3+t4=7t1,优化后耗时为t1+t2+t3+t4=4t1。
2.根据权利要求1所述的一种基于数据自学习的画像构建方法,其特征在于,所述方法通过对实体画像任务的标签列表作为数据源进行二次关联分析,剖析实体与各标签之间的关系,对画像的精准度进行评分,并根据评分给出异常标签值,进行标签绑定算法的参数优化和逻辑优化。
3.根据权利要求1所述的一种基于数据自学习的画像构建方法,其特征在于,所述标签结果同步到目标数据库中供前端的画像***进行可视化的呈现,并可为市场分析人员进行精准营销的策略制定提供依据。
4.根据权利要求1所述的一种基于数据自学习的画像构建方法,其特征在于,所述方法通过将标签结果作为自学习的数据来源,对各标签值以及实体数据集之间的结果预测和关联分析来检测各标签值的准确度,对于偏离过大的标签值进行参数优化和逻辑调整从而达到画像的精确化呈现。
5.根据权利要求1所述的一种基于数据自学习的画像构建方法,其特征在于,所述算法通过选择已有算法的逻辑组合进行可视化构建。
6.根据权利要求1所述的一种基于数据自学习的画像构建方法,其特征在于,所述算法通过上传第三方算法SDK构建;
上传的第三方算法SDK继承平台规定的API接口。
7.根据权利要求1所述的一种基于数据自学习的画像构建方法,其特征在于,所述实体算法权限的授权包括内容如下:
a)被授权的实体在算法列表中查看到该算法,并显示有使用权;
b)未授权的实体在算法列表中看到该算法,但无使用权,该实体提交使用申请,等待算法发布者审核。
8.根据权利要求1所述的一种基于数据自学习的画像构建方法,其特征在于,所述方法中给实体定义一个标签并绑定标签与算法之间的对应关系的实现过程包括内容如下:
a)定义标签名称;
b)指定标签的参数,阈值参数和输入参数,其中:阈值参数:预算过程中起到判断节点作用的参数值;输入参数:需要进行标签的数据内容;
c)定义标签输出值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110476312.XA CN113064904B (zh) | 2021-04-29 | 2021-04-29 | 一种基于数据自学习的画像构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110476312.XA CN113064904B (zh) | 2021-04-29 | 2021-04-29 | 一种基于数据自学习的画像构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113064904A CN113064904A (zh) | 2021-07-02 |
CN113064904B true CN113064904B (zh) | 2022-04-08 |
Family
ID=76567955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110476312.XA Active CN113064904B (zh) | 2021-04-29 | 2021-04-29 | 一种基于数据自学习的画像构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113064904B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711874A (zh) * | 2018-12-17 | 2019-05-03 | 平安科技(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN110442761A (zh) * | 2019-06-21 | 2019-11-12 | 深圳中琛源科技股份有限公司 | 一种用户画像构建方法、电子设备及存储介质 |
CN111553729A (zh) * | 2020-04-27 | 2020-08-18 | 广州探途网络技术有限公司 | 一种电商用户画像数据生成方法、装置和计算设备 |
CN111915366A (zh) * | 2020-07-20 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 一种用户画像构建方法、装置、计算机设备及存储介质 |
WO2020248131A1 (zh) * | 2019-06-11 | 2020-12-17 | 深圳市欢太科技有限公司 | 用户画像构建方法及相关产品 |
CN112100256A (zh) * | 2020-08-06 | 2020-12-18 | 北京航空航天大学 | 一种数据驱动的城市精准深度画像***及方法 |
WO2020252639A1 (zh) * | 2019-06-17 | 2020-12-24 | 深圳市欢太科技有限公司 | 内容推送方法及相关产品 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980623B (zh) * | 2016-01-18 | 2020-02-21 | 华为技术有限公司 | 一种数据模型的确定方法及装置 |
CN112232909A (zh) * | 2020-10-13 | 2021-01-15 | 汉唐信通(北京)科技有限公司 | 一种基于企业画像的商机挖掘方法 |
-
2021
- 2021-04-29 CN CN202110476312.XA patent/CN113064904B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711874A (zh) * | 2018-12-17 | 2019-05-03 | 平安科技(深圳)有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
WO2020248131A1 (zh) * | 2019-06-11 | 2020-12-17 | 深圳市欢太科技有限公司 | 用户画像构建方法及相关产品 |
WO2020252639A1 (zh) * | 2019-06-17 | 2020-12-24 | 深圳市欢太科技有限公司 | 内容推送方法及相关产品 |
CN110442761A (zh) * | 2019-06-21 | 2019-11-12 | 深圳中琛源科技股份有限公司 | 一种用户画像构建方法、电子设备及存储介质 |
CN111553729A (zh) * | 2020-04-27 | 2020-08-18 | 广州探途网络技术有限公司 | 一种电商用户画像数据生成方法、装置和计算设备 |
CN111915366A (zh) * | 2020-07-20 | 2020-11-10 | 上海燕汐软件信息科技有限公司 | 一种用户画像构建方法、装置、计算机设备及存储介质 |
CN112100256A (zh) * | 2020-08-06 | 2020-12-18 | 北京航空航天大学 | 一种数据驱动的城市精准深度画像***及方法 |
Non-Patent Citations (2)
Title |
---|
基于大数据的电子商务用户画像构建研究;李佳慧等;《电子商务》;20190115(第01期);46-49 * |
基于用户画像的读者周边好书推荐服务研究;解娜;《情报探索》;20200815(第08期);109-113 * |
Also Published As
Publication number | Publication date |
---|---|
CN113064904A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021179720A1 (zh) | 基于联邦学习的用户数据分类方法、装置、设备及介质 | |
US8122429B2 (en) | Method, system and program product for developing a data model in a data mining system | |
CN109767255A (zh) | 一种通过大数据建模实现智能运营及精准营销的方法 | |
Vahidi et al. | Describing the necessity of multi-methodological approach for viable system model: case study of viable system model and system dynamics multi-methodology | |
Fenton | Visualising strategic change:: the role and impact of process maps as boundary objects in reorganisation | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
Ahmad | Firm Determinants that Influences Implementation of Accounting Technologies in Business Organizations | |
Rabbani et al. | Multi-objective optimization algorithms for mixed model assembly line balancing problem with parallel workstations | |
Dasarathy | Image data compression: block truncation coding | |
CN111159241A (zh) | 一种点击转化预估方法及装置 | |
US10313457B2 (en) | Collaborative filtering in directed graph | |
CN113064904B (zh) | 一种基于数据自学习的画像构建方法 | |
CN117473130A (zh) | 业务处理方法、装置、设备、介质和程序产品 | |
Conrow | Risk management for systems of systems | |
Seidmann et al. | Microcomputer selection process for organizational information management | |
Kaboudan | A dynamic-server queuing simulation | |
CN111882415A (zh) | 一种质量检测模型的训练方法和相关装置 | |
Chang et al. | Analysis on improving the application of machine learning in product development | |
Travar et al. | Accelerated Process of Digital Transformation-The Impact and Consequences of Covid-19 | |
Gatbonton et al. | Employability predictive model evaluator using part and JRIP classifier | |
WO2022114364A1 (ko) | 비지도학습에서의 사용자의도 반영 방법 및 그 장치 | |
Hassannezhad et al. | A Cybernetic Participatory Approach for Whole-Systems Modelling and Analysis, with Application to Inclusive Economies | |
CN109118407B (zh) | 一种新媒体综合调度方法和*** | |
CN114943406A (zh) | 试卷图像标注方法、装置、存储介质和电子设备 | |
Patria et al. | Industrial base sustainment through risk modeling with model-based systems engineering applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |