CN113313344B - 一种融合多模式的标签体系构建方法和*** - Google Patents

一种融合多模式的标签体系构建方法和*** Download PDF

Info

Publication number
CN113313344B
CN113313344B CN202110394477.2A CN202110394477A CN113313344B CN 113313344 B CN113313344 B CN 113313344B CN 202110394477 A CN202110394477 A CN 202110394477A CN 113313344 B CN113313344 B CN 113313344B
Authority
CN
China
Prior art keywords
label
mode
model
tag
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110394477.2A
Other languages
English (en)
Other versions
CN113313344A (zh
Inventor
李巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fiberhome Digtal Technology Co Ltd
Original Assignee
Wuhan Fiberhome Digtal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fiberhome Digtal Technology Co Ltd filed Critical Wuhan Fiberhome Digtal Technology Co Ltd
Priority to CN202110394477.2A priority Critical patent/CN113313344B/zh
Publication of CN113313344A publication Critical patent/CN113313344A/zh
Application granted granted Critical
Publication of CN113313344B publication Critical patent/CN113313344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种融合多模式的标签体系构建方法,首先基于业务需求确定目标标签,分析、判断目标标签的计算方式和标签目录层级,然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。模型方式基于标签概率模型、标签积分模型或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务。本发明以业务需求为导向,设置SQL方式、模型方式、自定义方式三种标签计算方式,满足各类标签场景;基于LightGBM算法进行模型训练,训练速度快、内存开销小、模型精度和泛化能力强。

Description

一种融合多模式的标签体系构建方法和***
技术领域
本发明涉及的是大数据分析领域,特别涉及一种融合多模式的标签体系构建方法和***。
背景技术
随着大数据技术的飞速发展,各行业积累的数据越来越多,数据结构愈发复杂,数据价值密度低的问题越来越突出。相关行业现已积累汇聚了人口、民航、铁路、住宿、社保等各类行业内部、互联网、政务网数据。数据体量巨大,单纯罗列记录的简单应用已经不能很好达到数据治理和整合的目的。标签是用来刻画业务实体特征的数据,通过建立相关行业数据标签体系,在多个维度上建立针对业务对象的描述性标签属性,对业务对象的特征进行勾勒刻画,构建对象的画像,更好地服务于业务应用。然而,当前缺乏一套能够适应多场景的快速构建标签的方法体系和工具,因此,有必要设计一种融合多模式的标签体系构建方法及***。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种融合多模式的标签体系构建方法和***。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种融合多模式的标签体系构建方法,包括:
S100.基于业务需求确定目标标签,分析和确定目标标签的计算方式和标签目录层级;
S200.根据确定的不同目标标签计算方式,编写计算任务逻辑;
S300.根据确定的不同目标标签计算方式,激活标签计算任务。
进一步地,S100中,目标标签的计算方式包括SQL方式、模型方式和自定义方式三种。
进一步地,标签目录层级采用四层架构,即标签对象、一级分类、二级分类、标签。
进一步地,当目标标签的计算方式为SQL方式时,具体方法为:根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。
进一步地,S200中,当目标标签的计算方式为模型方式时,模型方式分为标签概率模型、标签积分模型和标签组合模型,上述模型是基于已有的标签生成新的标签。
进一步地,当模型方式为标签概率模型时,具体方法为:选择模型正样本,并随机按一定比例抽取负样本,共同组成建模样本;再将建模样本划分为训练集和测试集,以标签特征值作为模型输入,然后利用LightGBM算法进行模型训练,分别计算模型在训练集、测试集上的准确率、精确率、召回率,进行模型评价;模型训练好后,数据对象的标签特征值,即可得到其研判概率,最后对概率划分阈值,超过阈值的对象打上标签,此标签为数值型标签。
进一步地,当模型方式为标签积分模型时,具体方法为:首先配置标签积分规则,然后基于ElasticSearch进行积分加权求和计算,最后对积分划分阈值,超过阈值的对象打上标签,此标签为数值型标签。
进一步地,当模型方式为标签组合模型时,具体方法为:首先配置标签交、并、补计算逻辑,筛选出对象群体,然后其打上新的标签,此标签为类别型标签。
进一步地,当目标标签的计算方式为自定义方式时,具体方法为:输入对象唯一主键,对其打上自定义标签,此类标签为类别型标签。
本发明还公开了一种融合多模式的标签体系构建***,包括:标签目录模块、标签新建模块、任务配置模块、任务调度模块、任务监控模块;其中:
标签目录模块:用于自定义配置标签层级目录树,目录树分为一级分类、二级分类、三级分类;
标签新建模块:用于标签元数据编辑和存储,填写标签基本信息,包括标签名称、标签层级、标签说明、标签同义词,可以一次添加多组标签;
任务配置模块:用于配置标签计算任务逻辑。对于SQL方式,需要配置任务描述、特征类别、特征名称、映射规则、更新方式、更新周期、增量SQL。对于模型方式:需要填写任务描述、模型类别、选择模型、特征类别、特征名称、更新周期;其中标签概率模型还需设定概率阈值范围,积分模型需设定积分阈值范围。对于自定义方式,需要填写任务描述、特征类别、特征名称。
任务调度模块:用于激活标签计算任务,实现定时调度;对于SQL方式和模型方式的标签计算任务,设置标签任务的有效期,激活后基于定时器进行任务调度。对于自定义方式,激活直接上传对象文件,一次性完成打标。
任务监控模块:用于监控标签调度任务的执行状态,只对SQL方式和模型方式的任务进行监控。异常任务分为跑批异常和增量异常;跑批异常是检测任务批次的执行状态,若任务执行失败,则进行预警,并返回失败原因;增量异常是检测标签批次前后的数据量变化,若当前批次标签增量为0,则进行预警。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明提供的一种融合多模式的标签体系构建方法,首先基于业务需求确定目标标签,分析、判断目标标签的计算方式和标签目录层级,然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。模型方式基于标签概率模型、标签积分模型、或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务,对于SQL方式和模型方式的标签计算任务,设置标签任务的有效期,激活后基于定时器进行任务调度。对于自定义方式,激活直接上传对象文件,一次性完成打标。其效果在于:第一,以业务需求为导向,设置SQL方式、模型方式、自定义方式三种标签计算方式,满足各类标签场景;第二,基于LightGBM算法进行模型训练,训练速度快、内存开销小、模型精度和泛化能力较强。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例1中,一种融合多模式的标签体系构建方法的流程图;
图2为本发明实施例1中,一种融合多模式的标签体系构建***的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中存在的缺乏一套能够适应多场景的快速构建标签的方法体系和工具问题,本发明实施例提供一种融合多模式的标签体系构建方法和***。
实施例1
本实施例公开了一种融合多模式的标签体系构建方法,如图1,包括:
S100.基于业务需求确定目标标签,分析和确定目标标签的计算方式和标签目录层级。
具体的,标签计算方式分为SQL方式、模型方式和自定义方式三种。标签目录层级一般采用四层架构,即标签对象、一级分类、二级分类、标签。标签包含标签值和特征值,标签值表示对象是否具有该标签,记为True、False,特征值为标签的量化特征表示。按特征类别,标签可划分为类别型和数值型,类别型标签特征值为离散变量,数值型标签特征值为连续变量。
S200.根据确定的不同目标标签计算方式,编写计算任务逻辑。
具体的,当目标标签的计算方式为SQL方式时,具体方法为:根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。SQL方式工作模块具体包括:建表模块、增量打标模块、数据同步模块、标签统计模块。建表模块用于创建标签计算的中间表,包括标签新表、标签旧表、标签统计表、数据同步通道表。增量打标模块用于计算标签新表与标签旧表的差集,取出增量标签。数据同步模块用于标签结果数据在Hive、ElasticSearch之间的双向同步。标签统计模块用于标签增量的统计计算。此种方式类别型、数值型标签均可产生。
当目标标签的计算方式为模型方式时,模型方式分为标签概率模型、标签积分模型和标签组合模型,上述模型是基于已有的标签生成新的标签。
具体的,当模型方式为标签概率模型时,具体方法为:选择模型正样本,并随机按一定比例抽取负样本,共同组成建模样本;再将建模样本划分为训练集和测试集,以标签特征值作为模型输入,然后利用LightGBM算法进行模型训练,分别计算模型在训练集、测试集上的准确率、精确率、召回率,进行模型评价;模型训练好后,数据对象的标签特征值,即可得到其研判概率,最后对概率划分阈值,超过阈值的对象打上标签,此标签为数值型标签。
当模型方式为标签积分模型时,具体方法为:首先配置标签积分规则,然后基于ElasticSearch进行积分加权求和计算,最后对积分划分阈值,超过阈值的对象打上标签,此标签为数值型标签。
当模型方式为标签组合模型时,具体方法为:首先配置标签交、并、补计算逻辑,筛选出对象群体,然后其打上新的标签,此标签为类别型标签。
在本实施例中,当目标标签的计算方式为自定义方式时,具体方法为:输入对象唯一主键,对其打上自定义标签,此类标签为类别型标签。
S300.根据确定的不同目标标签计算方式,激活标签计算任务。具体的,所述步骤S300具体包括:对于SQL方式和模型方式的标签计算任务,设置标签任务的有效期,激活后基于定时器进行任务调度。对于自定义方式,激活直接上传对象文件,一次性完成打标。
为了更好理解本实施例,以一年半夜酒店频繁入住标签和隐性涉毒人员标签为例,当目标标签为近一年半夜酒店频繁入住标签时,该标签为数值型标签,采用SQL方式进行标签计算。属于人-行为属性-酒店住宿层级下的标签,所需数据资源为酒店住宿记录数据,标签计算逻辑为:入住时间小于365天且在0点至6点,按身份证聚合分组统计,如果入住次数大于10,则具备近一年半夜酒店频繁入住标签。当目标标签为隐性涉毒人员标签,该标签为数值型标签,采用模型方式进行标签计算,具体为标签概率模型,属于人-高危属性-关注人员层级下的标签,所需的模型为涉毒人员概率研判模型。首先选择已知涉毒人员,按等比例随机抽取非涉毒人员,构成模型样本集,然后划分训练集、测试集,利用LightGBM进行分类模型训练,所得模型尽可能将涉毒人员与非涉毒人员区分开,以准确率、精确率、召回率评价模型效果。当准确率、精确率大于90%,召回率大于75%,且训练集、测试集指标差异小时,模型具备应用性。选择该模型后,配置研判概率阈值为0.9,则模型输出结果大于0.9人会被打上隐性涉毒人员标签。
本实施例提供的一种融合多模式的标签体系构建方法,首先基于业务需求确定目标标签,分析、判断目标标签的计算方式和标签目录层级,然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。模型方式基于标签概率模型、标签积分模型、或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务,对于SQL方式和模型方式的标签计算任务,设置标签任务的有效期,激活后基于定时器进行任务调度。对于自定义方式,激活直接上传对象文件,一次性完成打标。其效果在于:第一,以业务需求为导向,设置SQL方式、模型方式、自定义方式三种标签计算方式,满足各类标签场景;第二,基于LightGBM算法进行模型训练,训练速度快、内存开销小、模型精度和泛化能力较强。
实施例2
本实施例公开了一种融合多模式的标签体系构建***,如图2,包括:标签目录模块、标签新建模块、任务配置模块、任务调度模块、任务监控模块;其中:
标签目录模块:用于自定义配置标签层级目录树,目录树分为一级分类、二级分类、三级分类,在本实施例中,一级分类为标签对象。
标签新建模块:用于标签元数据编辑和存储,填写标签基本信息,包括标签名称、标签层级、标签说明、标签同义词,可以一次添加多组标签;在本实施例中,标签包含标签值和特征值,标签值表示对象是否具有该标签,记为True、False,特征值为标签的量化特征表示。按特征类别,标签可划分为类别型和数值型,类别型标签特征值为离散变量,数值型标签特征值为连续变量。
任务配置模块:用于配置标签计算任务逻辑。对于SQL方式,需要配置任务描述、特征类别、特征名称、映射规则、更新方式、更新周期、增量SQL。对于模型方式:需要填写任务描述、模型类别、选择模型、特征类别、特征名称、更新周期;其中标签概率模型还需设定概率阈值范围,积分模型需设定积分阈值范围。对于自定义方式,需要填写任务描述、特征类别、特征名称。
具体的,本实施例中的SQL方式、模型方式和自定义方式具体工作方法已在实施例1中进行了详细描述,本实施例对此不再进行赘述。
任务调度模块:用于激活标签计算任务,实现定时调度;对于SQL方式和模型方式的标签计算任务,设置标签任务的有效期,激活后基于定时器进行任务调度。对于自定义方式,激活直接上传对象文件,一次性完成打标。
任务监控模块:用于监控标签调度任务的执行状态,只对SQL方式和模型方式的任务进行监控。异常任务分为跑批异常和增量异常;跑批异常是检测任务批次的执行状态,若任务执行失败,则进行预警,并返回失败原因;增量异常是检测标签批次前后的数据量变化,若当前批次标签增量为0,则进行预警。
本实施例提供的一种融合多模式的标签体系构建***,首先基于业务需求确定目标标签,分析、判断目标标签的计算方式和标签目录层级,然后从SQL方式、模型方式、自定义方式中选择标签计算方式。SQL方式根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。模型方式基于标签概率模型、标签积分模型、或标签组合模型实现打标。自定义方式通过上传对象唯一主键实现打标。最后激活标签计算任务,对于SQL方式和模型方式的标签计算任务,设置标签任务的有效期,激活后基于定时器进行任务调度。对于自定义方式,激活直接上传对象文件,一次性完成打标。其效果在于:第一,以业务需求为导向,设置SQL方式、模型方式、自定义方式三种标签计算方式,满足各类标签场景;第二,基于LightGBM算法进行模型训练,训练速度快、内存开销小、模型精度和泛化能力较强。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个***所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims (5)

1.一种融合多模式的标签体系构建方法,其特征在于,包括:
S100.基于业务需求确定目标标签,分析和确定目标标签的计算方式和标签目录层级;
S200.根据确定的不同目标标签计算方式,编写计算任务逻辑;
S300.根据确定的不同目标标签计算方式,激活标签计算任务;
S100中,目标标签的计算方式包括SQL方式、模型方式和自定义方式三种;S200中,当目标标签的计算方式为模型方式时,模型方式分为标签概率模型、标签积分模型和标签组合模型,上述模型是基于已有的标签生成新的标签;当模型方式为标签概率模型时,具体方法为:选择模型正样本,并随机按一定比例抽取负样本,共同组成建模样本;再将建模样本划分为训练集和测试集,以标签特征值作为模型输入,然后利用LightGBM算法进行模型训练,分别计算模型在训练集、测试集上的准确率、精确率、召回率,进行模型评价;模型训练好后,数据对象的标签特征值,即可得到其研判概率,最后对概率划分阈值,超过阈值的对象打上标签,此标签为数值型标签;当模型方式为标签积分模型时,具体方法为:首先配置标签积分规则,然后基于ElasticSearch进行积分加权求和计算,最后对积分划分阈值,超过阈值的对象打上标签,此标签为数值型标签;当模型方式为标签组合模型时,具体方法为:首先配置标签交、并、补计算逻辑,筛选出对象群体,然后其打上新的标签,此标签为类别型标签。
2.如权利要求1的一种融合多模式的标签体系构建方法,其特征在于,S100中,标签目录层级采用四层架构,即标签对象、一级分类、二级分类、标签。
3.如权利要求1的一种融合多模式的标签体系构建方法,其特征在于,S200中,当目标标签的计算方式为SQL方式时,具体方法为:根据目标标签反向分析所需的数据资源,将数据资源存储在Hive大数据资源池,标签结果存储在ElasticSearch上,通过编写SQL逻辑代码,组建增量打标任务工作流,实现标签计算。
4.如权利要求1的一种融合多模式的标签体系构建方法,其特征在于,当目标标签的计算方式为自定义方式时,具体方法为:输入对象唯一主键,对其打上自定义标签,此类标签为类别型标签。
5.一种融合多模式的标签体系构建***,其特征在于,包括:标签目录模块、标签新建模块、任务配置模块、任务调度模块、任务监控模块;其中:
标签目录模块:用于自定义配置标签层级目录树,目录树分为一级分类、二级分类、三级分类;
标签新建模块:用于标签元数据编辑和存储,填写标签基本信息,包括标签名称、标签层级、标签说明、标签同义词,可以一次添加多组标签;
任务配置模块:用于配置标签计算任务逻辑;对于SQL方式,需要配置任务描述、特征类别、特征名称、映射规则、更新方式、更新周期、增量SQL;对于模型方式:需要填写任务描述、模型类别、选择模型、特征类别、特征名称、更新周期;其中标签概率模型还需设定概率阈值范围,积分模型需设定积分阈值范围;对于自定义方式,需要填写任务描述、特征类别、特征名称;
任务调度模块:用于激活标签计算任务,实现定时调度;对于SQL方式和模型方式的标签计算任务,设置标签任务的有效期,激活后基于定时器进行任务调度;对于自定义方式,激活直接上传对象文件,一次性完成打标;
任务监控模块:用于监控标签调度任务的执行状态,只对SQL方式和模型方式的任务进行监控;异常任务分为跑批异常和增量异常;跑批异常是检测任务批次的执行状态,若任务执行失败,则进行预警,并返回失败原因;增量异常是检测标签批次前后的数据量变化,若当前批次标签增量为0,则进行预警。
CN202110394477.2A 2021-04-13 2021-04-13 一种融合多模式的标签体系构建方法和*** Active CN113313344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110394477.2A CN113313344B (zh) 2021-04-13 2021-04-13 一种融合多模式的标签体系构建方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110394477.2A CN113313344B (zh) 2021-04-13 2021-04-13 一种融合多模式的标签体系构建方法和***

Publications (2)

Publication Number Publication Date
CN113313344A CN113313344A (zh) 2021-08-27
CN113313344B true CN113313344B (zh) 2023-03-31

Family

ID=77372342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110394477.2A Active CN113313344B (zh) 2021-04-13 2021-04-13 一种融合多模式的标签体系构建方法和***

Country Status (1)

Country Link
CN (1) CN113313344B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510324B (zh) * 2022-09-29 2023-04-28 中电金信软件有限公司 一种标签体系的确定方法、装置、电子设备及存储介质
CN116894426A (zh) * 2023-07-17 2023-10-17 曙光云计算集团有限公司 标签的标注及存储方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739909A (zh) * 2019-01-07 2019-05-10 山东浪潮通软信息科技有限公司 一种基于标签快速实现数据可视化图表的展示方法及***
CN110147499A (zh) * 2019-05-21 2019-08-20 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN110209709A (zh) * 2019-06-06 2019-09-06 四川九洲电器集团有限责任公司 一种关注人员行为分析的方法
CN110765101A (zh) * 2019-09-09 2020-02-07 湖南天云软件技术有限公司 标签的生成方法、装置、计算机可读存储介质及服务器
CN112148810A (zh) * 2020-11-10 2020-12-29 南京智数云信息科技有限公司 一种支持自定义标签的用户画像分析***

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8250015B2 (en) * 2009-04-07 2012-08-21 Microsoft Corporation Generating implicit labels and training a tagging model using such labels
US8954418B2 (en) * 2010-05-14 2015-02-10 Sap Se Performing complex operations in a database using a semantic layer
CN106897402A (zh) * 2017-02-13 2017-06-27 山大地纬软件股份有限公司 基于社保数据构建用户画像的方法和用户画像生成器
CN109872173A (zh) * 2017-12-04 2019-06-11 北京京东尚科信息技术有限公司 构建用户画像标签的方法、***及终端设备
CN108596679B (zh) * 2018-04-27 2022-05-03 中国联合网络通信集团有限公司 用户画像的构建方法、装置、终端及计算机可读存储介质
CN109101652B (zh) * 2018-08-27 2022-04-19 宜人恒业科技发展(北京)有限公司 一种标签创建和管理***
CN109903097A (zh) * 2019-03-05 2019-06-18 云南电网有限责任公司信息中心 一种用户画像构建方法以及用户画像构建装置
CN111062750A (zh) * 2019-12-13 2020-04-24 中国平安财产保险股份有限公司 用户画像标签建模和分析方法、装置、设备及存储介质
CN111177129B (zh) * 2019-12-16 2023-08-08 中国平安财产保险股份有限公司 标签体系的构建方法、装置、设备及存储介质
CN112182391A (zh) * 2020-09-30 2021-01-05 北京神州泰岳智能数据技术有限公司 一种用户画像方法与装置
CN112559740A (zh) * 2020-12-03 2021-03-26 星宏传媒有限公司 一种基于多模型融合的广告标签分类方法、***及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739909A (zh) * 2019-01-07 2019-05-10 山东浪潮通软信息科技有限公司 一种基于标签快速实现数据可视化图表的展示方法及***
CN110147499A (zh) * 2019-05-21 2019-08-20 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN110209709A (zh) * 2019-06-06 2019-09-06 四川九洲电器集团有限责任公司 一种关注人员行为分析的方法
CN110765101A (zh) * 2019-09-09 2020-02-07 湖南天云软件技术有限公司 标签的生成方法、装置、计算机可读存储介质及服务器
CN112148810A (zh) * 2020-11-10 2020-12-29 南京智数云信息科技有限公司 一种支持自定义标签的用户画像分析***

Also Published As

Publication number Publication date
CN113313344A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN113313344B (zh) 一种融合多模式的标签体系构建方法和***
CN111950738A (zh) 机器学习模型优化效果评估方法、装置、终端及存储介质
CN112257777A (zh) 基于隐马尔可夫模型的离职预测方法及相关装置
Shindarev et al. Approach to identifying of employees profiles in websites of social networks aimed to analyze social engineering vulnerabilities
CN110414715B (zh) 一种基于社团检测的客流量预警方法
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN112394973B (zh) 一种基于伪孪生网络的多语言代码剽窃检测方法
CN114037219A (zh) 一种数据评估方法、装置及电子设备
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN111708760B (zh) 模型迁移部署方法、装置、电子设备及存储介质
CN114418175A (zh) 一种人员管理方法、装置、电子设备及存储介质
CN116932523A (zh) 一种整合和监管第三方环境检测机构的平台
CN113177644A (zh) 一种基于词嵌入和深度时序模型的自动建模***
Wang et al. Graph neural network method for the intelligent selection of river system
CN111651271B (zh) 基于法律数据的多任务学习语义标注方法和装置
CN116910526A (zh) 模型训练方法、装置、通信设备及可读存储介质
CN111581185A (zh) 基于规则的数据相对时效修复与异常检测方法
WO2020091619A1 (ru) Автоматизированная оценка качества диалоговой системы в реальном времени
CN113610499B (zh) 一种基于区块链的求职功能团队职业信用档案方法和***
CN112801305B (zh) 应对策略预测处理方法、装置、计算机设备和存储介质
CN113704519B (zh) 一种数据集的确定方法、装置、计算机设备以及存储介质
CN112433952B (zh) 深度神经网络模型公平性测试方法、***、设备及介质
CN105824871B (zh) 一种图片检测方法与设备
CN113408263A (zh) 刑期预测方法、装置、存储介质及电子设备
CN114611841A (zh) 一种景区游客流量预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant