CN113313344B

CN113313344B - 一种融合多模式的标签体系构建方法和***

Info

Publication number: CN113313344B
Application number: CN202110394477.2A
Authority: CN
Inventors: 李巍
Original assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Current assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2023-03-31
Anticipated expiration: 2041-04-13
Also published as: CN113313344A

Abstract

一种融合多模式的标签体系构建方法，首先基于业务需求确定目标标签，分析、判断目标标签的计算方式和标签目录层级，然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源，将数据资源存储在Hive大数据资源池，标签结果存储在ElasticSearch上，通过编写SQL逻辑代码，组建增量打标任务工作流，实现标签计算。模型方式基于标签概率模型、标签积分模型或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务。本发明以业务需求为导向，设置SQL方式、模型方式、自定义方式三种标签计算方式，满足各类标签场景；基于LightGBM算法进行模型训练，训练速度快、内存开销小、模型精度和泛化能力强。

Description

一种融合多模式的标签体系构建方法和***

技术领域

本发明涉及的是大数据分析领域，特别涉及一种融合多模式的标签体系构建方法和***。

背景技术

随着大数据技术的飞速发展，各行业积累的数据越来越多，数据结构愈发复杂，数据价值密度低的问题越来越突出。相关行业现已积累汇聚了人口、民航、铁路、住宿、社保等各类行业内部、互联网、政务网数据。数据体量巨大，单纯罗列记录的简单应用已经不能很好达到数据治理和整合的目的。标签是用来刻画业务实体特征的数据，通过建立相关行业数据标签体系，在多个维度上建立针对业务对象的描述性标签属性，对业务对象的特征进行勾勒刻画，构建对象的画像，更好地服务于业务应用。然而，当前缺乏一套能够适应多场景的快速构建标签的方法体系和工具，因此，有必要设计一种融合多模式的标签体系构建方法及***。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种融合多模式的标签体系构建方法和***。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

一种融合多模式的标签体系构建方法，包括：

S100.基于业务需求确定目标标签，分析和确定目标标签的计算方式和标签目录层级；

S200.根据确定的不同目标标签计算方式，编写计算任务逻辑；

S300.根据确定的不同目标标签计算方式，激活标签计算任务。

进一步地，S100中，目标标签的计算方式包括SQL方式、模型方式和自定义方式三种。

进一步地，标签目录层级采用四层架构，即标签对象、一级分类、二级分类、标签。

进一步地，当目标标签的计算方式为SQL方式时，具体方法为：根据目标标签反向分析所需的数据资源，将数据资源存储在Hive大数据资源池，标签结果存储在ElasticSearch上，通过编写SQL逻辑代码，组建增量打标任务工作流，实现标签计算。

进一步地，S200中，当目标标签的计算方式为模型方式时，模型方式分为标签概率模型、标签积分模型和标签组合模型，上述模型是基于已有的标签生成新的标签。

进一步地，当模型方式为标签概率模型时，具体方法为：选择模型正样本，并随机按一定比例抽取负样本，共同组成建模样本；再将建模样本划分为训练集和测试集，以标签特征值作为模型输入，然后利用LightGBM算法进行模型训练，分别计算模型在训练集、测试集上的准确率、精确率、召回率，进行模型评价；模型训练好后，数据对象的标签特征值，即可得到其研判概率，最后对概率划分阈值，超过阈值的对象打上标签，此标签为数值型标签。

进一步地，当模型方式为标签积分模型时，具体方法为：首先配置标签积分规则，然后基于ElasticSearch进行积分加权求和计算，最后对积分划分阈值，超过阈值的对象打上标签，此标签为数值型标签。

进一步地，当模型方式为标签组合模型时，具体方法为：首先配置标签交、并、补计算逻辑，筛选出对象群体，然后其打上新的标签，此标签为类别型标签。

进一步地，当目标标签的计算方式为自定义方式时，具体方法为：输入对象唯一主键，对其打上自定义标签，此类标签为类别型标签。

本发明还公开了一种融合多模式的标签体系构建***，包括：标签目录模块、标签新建模块、任务配置模块、任务调度模块、任务监控模块；其中：

标签目录模块：用于自定义配置标签层级目录树，目录树分为一级分类、二级分类、三级分类；

标签新建模块：用于标签元数据编辑和存储，填写标签基本信息，包括标签名称、标签层级、标签说明、标签同义词，可以一次添加多组标签；

任务配置模块：用于配置标签计算任务逻辑。对于SQL方式，需要配置任务描述、特征类别、特征名称、映射规则、更新方式、更新周期、增量SQL。对于模型方式：需要填写任务描述、模型类别、选择模型、特征类别、特征名称、更新周期；其中标签概率模型还需设定概率阈值范围，积分模型需设定积分阈值范围。对于自定义方式，需要填写任务描述、特征类别、特征名称。

任务调度模块：用于激活标签计算任务，实现定时调度；对于SQL方式和模型方式的标签计算任务，设置标签任务的有效期，激活后基于定时器进行任务调度。对于自定义方式，激活直接上传对象文件，一次性完成打标。

任务监控模块：用于监控标签调度任务的执行状态，只对SQL方式和模型方式的任务进行监控。异常任务分为跑批异常和增量异常；跑批异常是检测任务批次的执行状态，若任务执行失败，则进行预警，并返回失败原因；增量异常是检测标签批次前后的数据量变化，若当前批次标签增量为0，则进行预警。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明提供的一种融合多模式的标签体系构建方法，首先基于业务需求确定目标标签，分析、判断目标标签的计算方式和标签目录层级，然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源，将数据资源存储在Hive大数据资源池，标签结果存储在ElasticSearch上，通过编写SQL逻辑代码，组建增量打标任务工作流，实现标签计算。模型方式基于标签概率模型、标签积分模型、或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务，对于SQL方式和模型方式的标签计算任务，设置标签任务的有效期，激活后基于定时器进行任务调度。对于自定义方式，激活直接上传对象文件，一次性完成打标。其效果在于：第一，以业务需求为导向，设置SQL方式、模型方式、自定义方式三种标签计算方式，满足各类标签场景；第二，基于LightGBM算法进行模型训练，训练速度快、内存开销小、模型精度和泛化能力较强。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例1中，一种融合多模式的标签体系构建方法的流程图；

图2为本发明实施例1中，一种融合多模式的标签体系构建***的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的缺乏一套能够适应多场景的快速构建标签的方法体系和工具问题，本发明实施例提供一种融合多模式的标签体系构建方法和***。

实施例1

本实施例公开了一种融合多模式的标签体系构建方法，如图1，包括：

S100.基于业务需求确定目标标签，分析和确定目标标签的计算方式和标签目录层级。

具体的，标签计算方式分为SQL方式、模型方式和自定义方式三种。标签目录层级一般采用四层架构，即标签对象、一级分类、二级分类、标签。标签包含标签值和特征值，标签值表示对象是否具有该标签，记为True、False，特征值为标签的量化特征表示。按特征类别，标签可划分为类别型和数值型，类别型标签特征值为离散变量，数值型标签特征值为连续变量。

S200.根据确定的不同目标标签计算方式，编写计算任务逻辑。

具体的，当目标标签的计算方式为SQL方式时，具体方法为：根据目标标签反向分析所需的数据资源，将数据资源存储在Hive大数据资源池，标签结果存储在ElasticSearch上，通过编写SQL逻辑代码，组建增量打标任务工作流，实现标签计算。SQL方式工作模块具体包括：建表模块、增量打标模块、数据同步模块、标签统计模块。建表模块用于创建标签计算的中间表，包括标签新表、标签旧表、标签统计表、数据同步通道表。增量打标模块用于计算标签新表与标签旧表的差集，取出增量标签。数据同步模块用于标签结果数据在Hive、ElasticSearch之间的双向同步。标签统计模块用于标签增量的统计计算。此种方式类别型、数值型标签均可产生。

当目标标签的计算方式为模型方式时，模型方式分为标签概率模型、标签积分模型和标签组合模型，上述模型是基于已有的标签生成新的标签。

具体的，当模型方式为标签概率模型时，具体方法为：选择模型正样本，并随机按一定比例抽取负样本，共同组成建模样本；再将建模样本划分为训练集和测试集，以标签特征值作为模型输入，然后利用LightGBM算法进行模型训练，分别计算模型在训练集、测试集上的准确率、精确率、召回率，进行模型评价；模型训练好后，数据对象的标签特征值，即可得到其研判概率，最后对概率划分阈值，超过阈值的对象打上标签，此标签为数值型标签。

当模型方式为标签积分模型时，具体方法为：首先配置标签积分规则，然后基于ElasticSearch进行积分加权求和计算，最后对积分划分阈值，超过阈值的对象打上标签，此标签为数值型标签。

当模型方式为标签组合模型时，具体方法为：首先配置标签交、并、补计算逻辑，筛选出对象群体，然后其打上新的标签，此标签为类别型标签。

在本实施例中，当目标标签的计算方式为自定义方式时，具体方法为：输入对象唯一主键，对其打上自定义标签，此类标签为类别型标签。

S300.根据确定的不同目标标签计算方式，激活标签计算任务。具体的，所述步骤S300具体包括：对于SQL方式和模型方式的标签计算任务，设置标签任务的有效期，激活后基于定时器进行任务调度。对于自定义方式，激活直接上传对象文件，一次性完成打标。

为了更好理解本实施例，以一年半夜酒店频繁入住标签和隐性涉毒人员标签为例，当目标标签为近一年半夜酒店频繁入住标签时，该标签为数值型标签，采用SQL方式进行标签计算。属于人-行为属性-酒店住宿层级下的标签，所需数据资源为酒店住宿记录数据，标签计算逻辑为：入住时间小于365天且在0点至6点，按身份证聚合分组统计，如果入住次数大于10，则具备近一年半夜酒店频繁入住标签。当目标标签为隐性涉毒人员标签，该标签为数值型标签，采用模型方式进行标签计算，具体为标签概率模型，属于人-高危属性-关注人员层级下的标签，所需的模型为涉毒人员概率研判模型。首先选择已知涉毒人员，按等比例随机抽取非涉毒人员，构成模型样本集，然后划分训练集、测试集，利用LightGBM进行分类模型训练，所得模型尽可能将涉毒人员与非涉毒人员区分开，以准确率、精确率、召回率评价模型效果。当准确率、精确率大于90％，召回率大于75％，且训练集、测试集指标差异小时，模型具备应用性。选择该模型后，配置研判概率阈值为0.9，则模型输出结果大于0.9人会被打上隐性涉毒人员标签。

本实施例提供的一种融合多模式的标签体系构建方法，首先基于业务需求确定目标标签，分析、判断目标标签的计算方式和标签目录层级，然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源，将数据资源存储在Hive大数据资源池，标签结果存储在ElasticSearch上，通过编写SQL逻辑代码，组建增量打标任务工作流，实现标签计算。模型方式基于标签概率模型、标签积分模型、或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务，对于SQL方式和模型方式的标签计算任务，设置标签任务的有效期，激活后基于定时器进行任务调度。对于自定义方式，激活直接上传对象文件，一次性完成打标。其效果在于：第一，以业务需求为导向，设置SQL方式、模型方式、自定义方式三种标签计算方式，满足各类标签场景；第二，基于LightGBM算法进行模型训练，训练速度快、内存开销小、模型精度和泛化能力较强。

实施例2

本实施例公开了一种融合多模式的标签体系构建***，如图2，包括：标签目录模块、标签新建模块、任务配置模块、任务调度模块、任务监控模块；其中：

标签目录模块：用于自定义配置标签层级目录树，目录树分为一级分类、二级分类、三级分类，在本实施例中，一级分类为标签对象。

标签新建模块：用于标签元数据编辑和存储，填写标签基本信息，包括标签名称、标签层级、标签说明、标签同义词，可以一次添加多组标签；在本实施例中，标签包含标签值和特征值，标签值表示对象是否具有该标签，记为True、False，特征值为标签的量化特征表示。按特征类别，标签可划分为类别型和数值型，类别型标签特征值为离散变量，数值型标签特征值为连续变量。

具体的，本实施例中的SQL方式、模型方式和自定义方式具体工作方法已在实施例1中进行了详细描述，本实施例对此不再进行赘述。

本实施例提供的一种融合多模式的标签体系构建***，首先基于业务需求确定目标标签，分析、判断目标标签的计算方式和标签目录层级，然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源，将数据资源存储在Hive大数据资源池，标签结果存储在ElasticSearch上，通过编写SQL逻辑代码，组建增量打标任务工作流，实现标签计算。模型方式基于标签概率模型、标签积分模型、或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务，对于SQL方式和模型方式的标签计算任务，设置标签任务的有效期，激活后基于定时器进行任务调度。对于自定义方式，激活直接上传对象文件，一次性完成打标。其效果在于：第一，以业务需求为导向，设置SQL方式、模型方式、自定义方式三种标签计算方式，满足各类标签场景；第二，基于LightGBM算法进行模型训练，训练速度快、内存开销小、模型精度和泛化能力较强。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个***所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种融合多模式的标签体系构建方法，其特征在于，包括：

S300.根据确定的不同目标标签计算方式，激活标签计算任务；

S100中，目标标签的计算方式包括SQL方式、模型方式和自定义方式三种；S200中，当目标标签的计算方式为模型方式时，模型方式分为标签概率模型、标签积分模型和标签组合模型，上述模型是基于已有的标签生成新的标签；当模型方式为标签概率模型时，具体方法为：选择模型正样本，并随机按一定比例抽取负样本，共同组成建模样本；再将建模样本划分为训练集和测试集，以标签特征值作为模型输入，然后利用LightGBM算法进行模型训练，分别计算模型在训练集、测试集上的准确率、精确率、召回率，进行模型评价；模型训练好后，数据对象的标签特征值，即可得到其研判概率，最后对概率划分阈值，超过阈值的对象打上标签，此标签为数值型标签；当模型方式为标签积分模型时，具体方法为：首先配置标签积分规则，然后基于ElasticSearch进行积分加权求和计算，最后对积分划分阈值，超过阈值的对象打上标签，此标签为数值型标签；当模型方式为标签组合模型时，具体方法为：首先配置标签交、并、补计算逻辑，筛选出对象群体，然后其打上新的标签，此标签为类别型标签。

2.如权利要求1的一种融合多模式的标签体系构建方法，其特征在于，S100中，标签目录层级采用四层架构，即标签对象、一级分类、二级分类、标签。

3.如权利要求1的一种融合多模式的标签体系构建方法，其特征在于，S200中，当目标标签的计算方式为SQL方式时，具体方法为：根据目标标签反向分析所需的数据资源，将数据资源存储在Hive大数据资源池，标签结果存储在ElasticSearch上，通过编写SQL逻辑代码，组建增量打标任务工作流，实现标签计算。

4.如权利要求1的一种融合多模式的标签体系构建方法，其特征在于，当目标标签的计算方式为自定义方式时，具体方法为：输入对象唯一主键，对其打上自定义标签，此类标签为类别型标签。

5.一种融合多模式的标签体系构建***，其特征在于，包括：标签目录模块、标签新建模块、任务配置模块、任务调度模块、任务监控模块；其中：

任务配置模块：用于配置标签计算任务逻辑；对于SQL方式，需要配置任务描述、特征类别、特征名称、映射规则、更新方式、更新周期、增量SQL；对于模型方式：需要填写任务描述、模型类别、选择模型、特征类别、特征名称、更新周期；其中标签概率模型还需设定概率阈值范围，积分模型需设定积分阈值范围；对于自定义方式，需要填写任务描述、特征类别、特征名称；

任务调度模块：用于激活标签计算任务，实现定时调度；对于SQL方式和模型方式的标签计算任务，设置标签任务的有效期，激活后基于定时器进行任务调度；对于自定义方式，激活直接上传对象文件，一次性完成打标；

任务监控模块：用于监控标签调度任务的执行状态，只对SQL方式和模型方式的任务进行监控；异常任务分为跑批异常和增量异常；跑批异常是检测任务批次的执行状态，若任务执行失败，则进行预警，并返回失败原因；增量异常是检测标签批次前后的数据量变化，若当前批次标签增量为0，则进行预警。