CN114372848A - 一种基于机器学习的烟草行业智能营销*** - Google Patents

一种基于机器学习的烟草行业智能营销*** Download PDF

Info

Publication number
CN114372848A
CN114372848A CN202111646113.5A CN202111646113A CN114372848A CN 114372848 A CN114372848 A CN 114372848A CN 202111646113 A CN202111646113 A CN 202111646113A CN 114372848 A CN114372848 A CN 114372848A
Authority
CN
China
Prior art keywords
label
merchant
intelligent
delivery
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111646113.5A
Other languages
English (en)
Inventor
曲艳梅
李先能
孙世航
何治健
邱健铭
肖雨笛
郑爽
钱伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LIAONING TOBACCO Co ANSHA
Dalian University of Technology
Original Assignee
LIAONING TOBACCO Co ANSHA
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LIAONING TOBACCO Co ANSHA, Dalian University of Technology filed Critical LIAONING TOBACCO Co ANSHA
Priority to CN202111646113.5A priority Critical patent/CN114372848A/zh
Publication of CN114372848A publication Critical patent/CN114372848A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于机器学***的供需动态平衡的智能投放子***;其四是基于数据分析、前端可视化技术和前述方法的智能营销研判可视化子***。本发明通过构建的标签子***和标签采集方法更加高效、科学的进行数据收集;并通过上述两机器学习子***对收集数据进行深度挖掘,使数据能够对烟草行业的一些应用场景发挥更大价值,并通过智能营销可视化研判子***对前述算法进行部署,构建出完整的数据驱动决策链条。

Description

一种基于机器学习的烟草行业智能营销***
技术领域
本发明属于电子信息技术领域,涉及标签设定技术和前端可视化技术。适用于烟草行业 进行产业数字化转型、实现数据驱动的智能营销、及烟草行业特有的智能投放、营销研判等 场景。
背景技术
近年来,烟草行业正在积极推进数字化技术的应用,如进行数字化采集终端推广、数据 中台的建立、以及数字投放***的开发等。但现有工作往往存在着数据孤岛化、数据使用率 不高等问题。如对于大量的烟草投放、订购、营销等数据,以往方法通常只采用简单的图表 或数据可视化技术进行展示,并没有使用人工智能或机器学习算法等数字化先进技术进行深 入的分析挖掘。所以现有的烟草行业数字化解决方案仍处于零散采集数据、简单应用数据、 数据辅助研判的阶段。
在传统的烟草营销中,商户标签设计往往不够科学和完善,标签主要集中于零售商户, 且各标签之间在设置时往往未考虑彼此之间的关系,缺乏明确依据,没能覆盖较多维度,无 法形成科学的标签***和标签应用方案,所以导致标签数据在采集和应用时浪费了大量人力 成本却难以获得较好效果。而在筛选优质终端商户和卷烟投放等营销场景中,往往通过对现 有数据的图表观察或抽样观测,并结合历史经验进行研判,则存在着没有使用大量卷烟历史 销售数据,和未深入挖掘数据价值等问题。
在烟草行业当中卷烟投放和优质商户筛选都是具有重要意义的业务场景。卷烟产品投放 属于卷烟产业链中从烟草公司到终端投放的重要环节当中,卷烟产品投放是我国烟草销售过 程中的一项重要基础性工作,由卷烟产品投放带来的卷烟产品销售订单将直接影响烟草商业 企业的经济效益,也是国家、各地***了解卷烟市场,调控卷烟市场的最直接、最重要的 手段。而国家烟草总局也在今年提出,烟草行业要积极顺应消费升级趋势,形成需求牵引供 给,供给创造需求的更高水平供需动态平衡。所以面对卷烟市场的卷烟“智能投放”就自然 是我国卷烟行业实现营销精准施策的重要课题和调节市场供需关系的关键举措。
优质商户筛选是指烟草公司通过零售终端收集卷烟市场信息和顾客需求时零售商的信息 与数据对于烟草公司来说尤为重要。然而,由于零售商分布的零散性以及零售商相关标准规 范的不统一,零售商所提供的销售方面的信息和数据往往是不准确的,这在一定程度上影响 了烟草公司信息采集的真实性。为了准确而方便地对卷烟的销售情况进行统计,烟草公司通 过向零售商推广终端POS机的方式对信息数据进行规范化,得到零售商在每一个时间段内准 确的卷烟销售量,从而在一定程度上保证了烟草公司获取信息的真实性,也有利于进一步实 现数据驱动的智能营销,以及烟草行业特有的智能投放、营销研判。一次性对全商户进行终 端POS机推广成本过高,批量推广的方式更为科学有效。智能终端选户就是在聚焦卷烟市场 供需关系、提出动态平衡指标体系和评价方法的基础上进行的。本发明依据现有终端用户画 像与历史业务数据,识别影响分类结果的关键属性特征,构建识别终端用户的分类算法,精 准识别不同类型的终端用户,基于模型学习出的优质商户特点,最终实现智能选户。
本发明将打造基于人工智能和机器学习的、整合烟草行业全域数据的智能营销方法***。 将现有数据孤岛化的问题打通,形成***地采集、挖掘、应用方案。将现有的烟草行业零散 采集数据、简单应用数据、数据辅助研判的现状改变为***收集数据、深度挖掘数据、人机 协同研判,构建出从数据生产到数据应用的完整的智能营销方法。
发明内容
针对烟草行业的营销活动,需要明确其数据需求,提高数据生产和数据采集的效率,并 在卷烟投放、智能选择优质商户等应用场景中科学地利用大数据进行研判。所以本发明分为 四个子***打造烟草营销方法并改进现有问题,其一是针对全域、全产业链的标签子***及 标签采集方案;其二是基于机器学***的供需动态平 衡的智能投放子***;其四是基于数据分析、前端可视化技术和前述方法的智能营销研判可 视化子***。本发明通过构建的标签子***和标签采集方法更加高效、科学的进行数据收集; 并通过上述两机器学习子***对收集数据进行深度挖掘,使数据能够对烟草行业的一些应用 场景发挥更大价值,并通过智能营销可视化研判子***对前述算法进行部署,构建出完整的 数据驱动决策链条。
本发明的技术方案:
一种基于机器学习的烟草行业智能营销***,烟草行业智能营销***包括标签子***、 基于机器学习的智能投放子***、基于机器学习的智能选户子***和智能营销研判可视化子 ***。
(一)标签子***
标签子***是以零售商为中心向外拓展,对与零售商相关的主体进行标签的建立与分类。 标签子***下设一级标签:零售商标签、烟草公司标签、外部环境标签、目标受众标签和品 牌标签;根据零售商所处的环境,对现有的标签子***进行完善。
零售商标签下设二级标签:基本信息标签、贡献度标签、特色配套标签、配合度标签、 成长度标签、规范度标签六类;
零售商标签中的基本信息标签下设三级标签:客户标签、人员标签;贡献度标签下设盈 利标签、品牌宽度标签;特色配套标签下设配套设施标签、***使用标签、硬件设施标签; 成长度标签下设未来发展标签、经营规模标签;规范度标签下设经营规范标签、合法合规标 签、小组标签;配合度标签下设烟草销售配合度标签、信息配合度标签;
烟草公司标签下设二级标签:营销中心标签、管理规范标签、物流体系标签三类;
烟草公司标签中的营销中心标签下设三级标签:到货信息标签、订单访销标签、网站开 放与维护标签、订单处理标签、货款收纳标签;管理规范标签下设入库作业管理标签、订单 管理机制标签、在库管理制度标签、出库管理制度标签、配送管理制度标签、仓库卫生管理 制度标签、绩效管理制度标签;物流体系标签下设入库管理标签、在库管理标签、出库管理 标签、配载标签、配送绩效评价标签、卷烟退换货标签;
外部环境标签下设二级标签:竞争对手信息标签和商圈经济信息标签两类;外部环境标 签中的竞争对手信息标签下设三级标签:店铺信息标签、人员信息标签;商圈经济信息标签 下设商圈信息标签、经济信息标签;
目标受众标签下设二级标签:基本信息标签、所在区域标签和受众偏好标签三类;目标 受众标签中的基本信息标签下设三级标签:受众结构标签、受众信息标签;所在区域标签下 设经济情况标签、环境状况标签;受众偏好标签下设商品偏好标签、购物偏好标签、注重方 面标签;
品牌标签下设二级标签:基本信息标签、合规性标签和市场情况标签三类。对于品牌标 签的二级标签下并未设立三级标签,而是根据下设标签所处级别和地位直接设立叶子结点标 签。
同时各三级标签下还设立叶子结点标签,进而构成完整且***的标签***树。
(二)基于机器学习的智能选户子***
搭建基于机器学***均订足率 和存销比数据,根据客户星级评定得分数据进行已安装终端商户的评定,根据具体客户星级 评定得分情况将已安装终端商户划分为优质和非优质商户,并进行优质和非优质商户的数据 打标签;将标签子***中的零售商标签以及数据打标签后的数据作为训练集数据。利用训练 集数据将梯度提升决策树模型进行优化训练,使用训练好的梯度提升决策树模型预测未安装 终端POS机的各商户是否为优质商户,以及某一具体商户为优质商户的概率值。
进一步地,梯度提升决策树模型搭建方法如下:
GBDT(Gradient Boosting Decision Tree)是boosting系列算法中的一个代表算法,它 是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终答案。其思 想是利用平方误差来表示损失函数,其中每一棵回归树学习的是之前所有树的结论和残差, 拟合得到一个当前的残差回归树。其中残差=真实值-预测值,提升树即是整个迭代过程生成 的回归树的累加。GBDT用来做回归预测,调整后可以用于本发明中的二分类问题(设定阈值, 大于阈值为正例,反之为反例)。本发明中的损失函数可表示为:
L(y,f(x))=log(1+e-yf(x))
其中,y∈{-1,1}。f(x)表示预测结果,x表示输入数据,y表示打标签的标签值;则此时的 负梯度误差为:
Figure BDA0003445209480000031
对于生成的决策树,各个叶子节点的最佳残差拟合值为:
Figure BDA0003445209480000041
其中,Rtj表示rti的集合,c表示残差值,t表示回归树的编号;
由于上式比较难优化,我们使用近似值代替:
Figure BDA0003445209480000042
梯度提升决策树模型的训练:对于训练集中的数值型特征:订足率和存销比,直接作为 数值型数据输入模型;对标签子***中所有的标签,作为类别型特征,通过类别特征数值化 的方式将类别转换为对应的整数后输入模型中进行训练。
优选的,利用GBDT中的LightGBM来实现本申请的方案。
(三)基于机器学习的智能投放子***
所述基于机器学习的智能投放子***包括销量预测模块和投放再分配模块。
(1)销量预测模块的建立方法如下:
使用卷烟历史投放、订购、销售数据和标签子***中零售商标签、品牌标签数据作为训 练集数据。并将卷烟按照市场状态划分标准分为紧俏型市场状态、否则为松软型市场状态。 市场状态划分标准即上一周期卷烟定足率(订购量/投放量)大于等于所有卷烟定足率百分之 75分界点。将训练集数据输入梯度提升决策树模型预测下一投放周期各商户对该卷烟的销量, 以及输入数据的特征重要性。
梯度提升决策树模型搭建方法如下:
首先是建立回归树,设X与Y分别是输入和输出变量,并且Y是连续变量,给定训练数 据集D考虑如何生成回归树。
D={(x1,y1),(x2,y2),…(xN,yN)}x1∈X,y1∈Y
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分的单元上的输出值。 设已将输入空间划分到M个单元R1,R2,…,Rm,…,RM,并且在每个单元Rm上有一个固定的输出值cm,于是回归树模型可表示为
Figure BDA0003445209480000043
其中,I为单位矩阵;
当输入空间的划分确定时,用平方误差
Figure BDA0003445209480000051
来表示回归树对于训练数据的 预测误差,用平方误最小的准则求解每个单元的最优输出值。易知,单元Rm上的cm的最优值
Figure BDA0003445209480000052
是Rm上的所有输入实例xi对应的输出yi的均值,即
Figure BDA0003445209480000053
选择切分特征和切分点,选用平方误差作为切分准则。其中ci是R1内yi的平均值,
Figure BDA0003445209480000054
是最优切分点R1内yi的平均输出值;其中c2是R1内yi的平均值,
Figure BDA0003445209480000055
是最优切分点R2内 yi的平均输出值。
采用启发式的方法对输入空间进行划分。选择第j个变量x(j)和它取的值s,作为切分变 量和切分点并定义两个区域:
R1(j,s)={x|x(j)≤s}
R2(j,s)={x|x(j)>s}
然后寻找最优切分变量j和最优切分点s。具体地,求解
Figure BDA0003445209480000056
对固定输入变量j可以找到最优切分点s。
Figure BDA0003445209480000057
Figure BDA0003445209480000058
GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型。模型的结果是一组回 归分类树组合(CART Tree Ensemble):T1,…,Tj,…,TK。其中Tj学习的是之前j-1棵树预测结果的残差。而模型最后的输出,是一个样本在各个树中输出的结果的和:
Figure BDA0003445209480000059
其中,Γ全部的回归树;
优选的,利用GBDT中的LightGBM来实现本申请的方案。
使用GBDT汇总的LightGBM算法,可只保存特征离散化后的值,而这个值一般用8位整 型存储就足够,内存消耗可以降低为原来的1/8;同时,LightGBM每遍历一个特征值只需要 计算k次(k为常数),直接将时间复杂度从O(#data*#feature)降低到O(k*# feature)。其中#data表示训练数据集中训练数据数量,#feature表示每条训练数据中特征 数量,data*#feature表示二者乘积。k*#feature表示k与每条训练数据中特征数量的 乘积。
(2)投放再分配模块
投放再分配模型针对不同市场类型的卷烟进行分别建模,包括紧俏型卷烟投放再分配模 型和松软型卷烟投放再分配模型。
对于紧俏型卷烟投放再分配模型包括三种:一户一策式的精准投放、动态分类投放和静 态分类投放。
对于松软型卷烟投放再分配模型包括三种:一户一策式的精准投放、动态分类投放和静 态分类投放。
(2.1)紧俏型卷烟投放再分配模型的一户一策式的精准投放
通过LightGBM模型预测到的销量,实现一户一策式的精准投放。但一户一策的精准投放 不能只考虑预测销量,还需要考虑当期的投放总量以及各商户的库存差异。为了平衡各商户 库存,引入卷烟的理想存销比:
理想存销比=(当前库存总量+当期投放总量-下一投放周期预测总销量)/下一投放周期 预测总销量
设理想存销比为r,商户的数量是n,用s1,s2…sn来表示各商户的预测销量,t1,t2…tn来 表示各商户当前的库存,则每一家商户在下一投放周期开始时与理想存销比下库存的偏离值 wi为:
wi=ti-si-si*r i=0,1…,n
如果wi>0,说明该商户的库存量较高,即使不投放卷烟下一投放周期开始时库存也高于 理想存销比下的库存;如果wi<0,说明该商户库存较低,需要投放卷烟。当wi=0时,如果ti≠0, 则说明商户下一周期恰好达到理想存销比下的库存,如果ti=0,说明商户断货,此时预测销 量si已经不能反映商户的真实需求了,这时,取si和库存不为零商户预测销量平均值的较大值 当作其预测销量。所以:
wi=ti-si-si*r ti≠0
wi=ti-max(saverage,si)-max(saverage,si)*r ti=0
Figure BDA0003445209480000061
将偏离值wi当作分配权重,将投放总量按权重分配给各商户,在模拟投放数据实验中, 该投放方案能使各商户存销比的方差显著下降,且当期投放量越多,平衡的效果越好。
(2.2)松软型卷烟投放再分配模型的一户一策式的精准投放
不考虑库存,但会考虑商户的优质程度,优质程度由基于机器学习的智能选户子***打 分给出。具体实施起来,要考虑两种情况,一种是当期投放量小于预测总销量的情况,另一 种是当期投放量大于预测总销量的情况。对于第一种情况,由于要优先考虑满足各商户的销 售需求,所以直接将商户的预测销量视为分配权重,将投放总量按权重分配。对于第二种情 况,先满足所有用户的下一阶段销量需求,再将剩余量按照商户优质得分的比重进行分配。
(2.3)紧俏型卷烟投放再分配模型的动态分类投放
对于某种要投放的卷烟,先按照一户一策投放方式计算出每个商户所要投放的数量列表。 然后使用K-means方法对一维投放向量进行聚类,在每一类中取均值作为该类用户的统一投 放量。
(2.4)松软型卷烟投放再分配模型的动态分类投放与对于紧俏型卷烟投放再分配模型的 动态分类投放相同
(2.5)紧俏型卷烟投放再分配模型、松软型卷烟投放再分配模型的静态分类投放
静态分类投放不会给出具体的投放数量,而是根据商户的相似度给出分类标签,然后由 投放的实际操作者结合分类标签,根据各类商户的销量、库存特点自己确定每种卷烟的投放 量。
具体操作:根据在紧俏/松软卷烟数据集上训练好的LightGBM销量预测模块的特征重要 性信息筛选特征,得到对卷烟销量最为重要的前80%商户特征,再以这些特征作为分类变量, 对商户进行K-means聚类,由此得到每个商户的分类标签。
(四)智能营销研判可视化子***
所述智能营销研判可视化子***用于结合标签子***和智能投放子***展示商户画像、 智能投放研判历史数据视图和智能投放研判结果。包括商户画像统计展示模块、商户详细信 息展示模块、智能选户模块、智能投放模块。
(1)商户画像统计展示模块
商户画像统计展示模块包括分类商户定位显示模块、商户标记说明模块、地图模块、商 户概况信息模块、地区标签展示模块。其中,分类商户定位显示模块包括按星级分类商户定 位显示、按地区分类商户显示、按客户经理分类商户显示、按档位分类商户显示、按信用等 级商户分类;地区标签展示模块包括地区商户数量展示单元、地区商户标签信息单元。
(2)商户详细信息展示模块
商户详细信息展示模块包括基础信息模块、相关商户信息模块、具体商户标签信息模块、 非烟销售情况模块、卷烟销售模块;其中,相关商户信息模块包括同星级商户展示单元、同 信用等级商户展示单元、同档位商户展示单元;具体商户标签信息模块包括贡献度标签单元、 配合度标签单元、成长度标签单元、规范度标签单元。
(3)智能选户模块
智能选户模块包括智能选户模型运行模块。智能选户模块对现有商户地理位置展示通过 在地图上标点形式进行对现有商户的展示,其中可以根据左侧筛选栏筛选是否安装了POS机 和是否已为优质商户。对于尚未安装POS机的商户,通过前述智能选户子***进行智能预测, 判断其是否为优质商户。
(4)智能投放模块
智能投放模块包括卷烟历史订购展示模块、智能投放模型运行模块。
卷烟历史订购展示模块可以通过对卷烟的投放量、定足率、销量、库存分别按值和百分比进 行筛选,筛选结果在地图中以标点形式进行展示。通过在地图上的展示可以分析出各种卷烟 在各地区投放和订购量的异同,使使用人员能够高效判别卷烟市场趋势。
智能投放模型运行模块可以运行智能投放子***,通过卷烟规格、时间跨度、商户档位 后运行智能投放子***,获取当前所选卷烟和商户的智能投放策略结果。
本发明的有益效果:
本发明在烟草行业数字化转型的背景下,为烟草公司提供了一种智能化的数字营销方案。 本发明涵盖了从烟草行业数据产生、收集、数据挖掘到数据支撑、人机协同决策的全数据链 路。在数据产生、收集方面,本发明中的标签子***提供了***、科学的烟草行业数据收集 方案。在数据挖掘方面,本发明中针对烟草行业的两大应用场景智能选户和智能投放进行了 基于机器学***衡的问题。数据 支撑、人机协同决策方面,本发明的智能营销研判可视化子***给予***使用者和机器学习 算法协同决策和有大数据支撑决策的能力。本发明能够有效的使用数字化技术为烟草行业提 升智能投放、智能选户等业务的准确性和科学性,取代其原有主观性较强的人工决策过程, 同时节省了大量数据收集的人工成本。
附图说明
图1为本发明整体结构图;
图2为标签子***体系图;
图3为智能选户子***流程图;
图4为智能投放子***流程图;
图5为智能营销研判可视化子***结构图。
具体实施方式
以下结合技术方案和附图详细叙述本发明的具体实例。
本发明中的烟草营销方法包括标签子***、基于机器学习的智能投放子***、智能选户 子***和智能营销研判可视化子***组成。
(一)所述标签子***以零售商为中心向外拓展,对与零售商相关的主体进行标签的 建立与分类。根据零售商所处的环境,烟草物流公司以及审核零售商的烟草公司,零售商的 目标客户,零售商所售卖的烟的品牌、气味、口感等都建立一整套完整的标签***,构建“关 系网络式”标签***。将行业内现有标签的进行细致分类,并对其他标签主体也进行了扩充 以及进行细致的分类分级。零售商标签下设基本信息标签、贡献度标签、特色配套标签、配 合度标签、成长度标签、规范度标签六类;烟草公司下设销售中心标签、管理规范标签、物 流体系标签三类;外部环境下设竞争对手信息标签和商圈经济情况标签两类;目标受众下设 基本信息标签、所在区域标签和基本偏好标签三类;品牌标签下设基本信息标签、合规性标 签和市场情况标签三类。同时在第二级节点下再次建立第三级节点,例如零售商基础信息标 签下设客户标签和人员标签;零售商贡献度标签下设盈利标签和品牌宽度标签;零售商特色 配套标签下设配套设施标签、***使用标签和硬件设施标签;零售商配合度标签下设卷烟销 售配合度和信息配合度两类;零售商成长度标签下设未来发展标签和经营规模标签;零售商 规范度标签下设经营规范标签、合法合规标签和小组标签;外部环境标签下设的竞争对手标 签也下设了店铺信息与人员信息等三级标签,外部环境商圈经济环境下设商圈信息与经济信 息两类三级标签;目标受众标签基础信息标签下设受众结构和受众信息标签;目标受众所在 区域标签下设经济情况和环境情况标签;目标受众受众偏好标签下设商品偏好、购物偏好、 注重方面标签;烟草公司下的各二级标签也根据其业务流程及相关特征建立了三级标签;对 于烟的品牌标签二级标签下并未设立三级标签,而是根据下设标签所处级别和地位直接设立 叶子结点标签。同时各三级标签下还设立叶子结点标签,进而构成完整且***的标签***树。
标签子***通过对标签进行筛选、扩增与分级,使得标签***更加完整,逻辑层次更加 清晰,每个标签所处于哪个分支下,与它类似的叶子标签都有哪些一目了然,更加方便于使 用者的理解、调查、应用。同时基础标签、算法标签、业务应用标签间的相互关联以及层级 的建立有助于其他项目的后续进行和发展。在同一标签***下,各营销场景根据不同业务的 需要,选取各自需要的不同标签开展各自的业务,同时选取的标签又彼此之间存在联系,处 于同一个框架,不仅兼顾了项目的统一性,还有利于各子项目的个性化、差异化。
(二)所述基于机器学习的智能选户子***具体如下:
选用标签子***中的标签,结合商户平均订足率和存销比数据,根据客户星级评定得分 数据进行已安装终端商户的评定,根据具体客户星级评定得分情况将已安装终端商户划分为 优质和非优质商户,并进行优质和非优质商户的数据打标签;将标签子***中的零售商标签 以及数据打标签后的数据作为训练集数据。利用训练集数据将梯度提升决策树模型进行优化 训练,使用训练好的梯度提升决策树模型预测未安装终端POS机的各商户是否为优质商户, 以及某一具体商户为优质商户的概率值。
在windows***下基于python语言搭建订量预测模型,其中梯度提升决策树模型搭建方 法如下:
GBDT(Gradient Boosting Decision Tree)是boosting系列算法中的一个代表算法,它 是一种迭代的决策树算法,由多棵决策树组成,所有树的输出累加即为模型最终输出。其思 想是利用平方误差来表示损失函数,其中每一棵回归树学习之前所有树的输出和残差,拟合 得到当前残差回归树。其中残差=真实值-预测值,GBDT即是整个迭代过程生成的回归树的累 加。GBDT用来做回归预测,调整后可以用于本发明中的二分类问题(设定阈值,大于阈值为 正例,反之为反例)。本发明中的损失函数可表示为:
L(y,f(x))=log(1+e-yf(x))
其中,y∈{-1,1}。f(x)表示预测结果,x表示输入数据,y表示打标签的标签值;则此时的 负梯度误差为:
Figure BDA0003445209480000101
对于生成的决策树,各个叶子节点的最佳残差拟合值为:
Figure BDA0003445209480000102
其中,Rtj表示rti的集合,c表示残差值,t表示回归树的编号;
由于上式比较难优化,我们使用近似值代替:
Figure BDA0003445209480000103
梯度提升决策树模型的训练中,本申请对于训练集中的数值型特征,即订足率和存销比 数据,直接作为数值型数据输入模型;对标签子***中所有的标签,作为类别型特征,通过 类别特征数值化的方式将标签子***中所有的标签转换为对应的整数后输入模型中进行训练。 为进一步提升模型运行的效率,本申请使用GBDT中的LightGBM,构建出较为完善的智能选 户模型。
LightGBM(Light Gradient Boosting Machine)运用特有Histogram算法、带深度限制 的Leaf-wise算法、GOSS算法实现GBDT算法的框架,可以支持高效率的并行训练,并且具 有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式、可以快速处理海量数据 等优点。大幅提升了训练的精度与速度,且其轻量级的特点有非常适合于部署在烟草智能选 户业务中。
通过训练完成的模型对未安装POS机的商户进行预测,判断具体商户是否为优质商户, 返回结果为优质/非优质和具体商户为优质商户的概率值。
(三)所述基于机器学习的智能投放子***包括销量预测模块和投放再分配模块,其中 销量预测模块如下:
使用卷烟历史投放、订购、销售数据、零售商标签、品牌标签数据作为训练集数据。并 将卷烟按照市场状态划分标准分为紧俏型市场状态、否则为松软型市场状态。市场状态划分 标准即上一周期卷烟定足率(订购量/投放量)大于等于所有卷烟定足率百分之75分界点。 使用梯度提升决策树模型预测下一投放周期各商户对该卷烟的销量,将训练集数据输入梯度 提升决策树模型预测下一投放周期各商户对该卷烟的销量,以及输入数据的特征重要性。
在windows***下基于python语言搭建订量预测模型。其中梯度提升决策树模型搭建方 法如下:
首先是建立回归树,设X与Y分别是输入和输出变量,并且Y是连续变量,给定训练数 据集D考虑如何生成回归树。
D={(x1,y1),(x2,y2),…(xN,yN)}x1∈X,y1∈Y
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分的单元上的输出值。 假设已将输入空间划分到M个单元R1,R2,…,Rm,…,RM,,并且在每个单元Rm上有一 个固定的输出值cm,于是回归树模型可表示为:
Figure BDA0003445209480000111
其中,I为单位矩阵
当输入空间的划分确定时,可以用平方误差
Figure BDA0003445209480000112
来表示回归树对于训练数 据的预测误差,用平方误最小的准则求解每个单元的最优输出值。易知,单元Rm上的cm的最 优值
Figure BDA0003445209480000113
是Rm上的所有输入实例xi对应的输出yi的均值,即
Figure BDA0003445209480000114
选择切分特征和切分点,选用平方误差作为切分准则。其中ci是Ri内yi的平均值,
Figure BDA0003445209480000115
是最优切分点R1内yi的平均输出值;其中c2是R1内yi的平均值,
Figure BDA0003445209480000116
是最优切分点R2内yi的平均输出值。
采用启发式的方法对输入空间进行划分。选择第j个变量x(j))和它取的值s,作为切分变 量和切分点并定义两个区域:
R1(j,s)={x|x(j)≤s}
R2(j,s)={x|x(j)>s}
然后寻找最优切分变量j和最优切分点s。具体地,求解:
Figure BDA0003445209480000117
对固定输入变量j可以找到最优切分点s。
Figure BDA0003445209480000118
Figure BDA0003445209480000119
GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型。模型的结果是一组回 归分类树组合(CART Tree Ensemble):T1,…,Tj,…,TK。其中Tj学习的是之前j-1棵树预测结果的残差。而模型最后的输出,是一个样本在各个树中输出的结果的和:
Figure BDA0003445209480000121
其中,Γ表示伽马函数;
为进一步提升模型运行的效率,本申请使用了当前最先进的基于GBDT的梯度提升树优化 模型LightGBM,LightGBM特有的Histogram算法、带深度限制的Leaf-wise算法、GOSS算 法可以大幅提升训练的精度与速度,且其轻量级的特点有非常适合于部署在烟草智能投放业 务中。
使用GBDT汇总的LightGBM算法,可只保存特征离散化后的值,而这个值一般用8位整 型存储就足够,内存消耗可以降低为原来的1/8;同时,LightGBM每遍历一个特征值只需要 计算k次(k为常数),直接将时间复杂度从O(#data*#feature)降低到O(k*# feature)。其中#data表示训练数据集中训练数据数量,#feature表示每条训练数据中特征 数量,data*#feature表示二者乘积。k*#feature表示k与每条训练数据中特征数量的 乘积。
所述基于机器学习的智能投放方法中投放再分配模块如下:
投放再分配模块针对不同市场类型的卷烟进行分别建模,包括紧俏型卷烟投放再分配模 型和松软型卷烟投放再分配模型。
紧俏型卷烟投放和松软型卷烟投放的再分配模型分别包括三种策略:一户一策式的精准 投放、动态分类投放和静态分类投放。
紧俏型卷烟和松软型卷烟的市场需求不同,因此需要考虑的投放指标也有所差异,具体 来说,紧俏型卷烟供小于求,故无需考虑定足率的问题,但商户过度囤货的问题较为严重。 所以问题关键是平衡各商户的存销比,使大部分商户卷烟销量在等长时间内大于零,减少部 分商户断货时长,部分商户大量囤积的不合理现象。松软型卷烟一般不会出现商户大量囤货 的现象,但是容易出现定足率过低的问题,定足率是烟草供应的重要指标,提高定足率是松 软型卷烟分配的主要目标。
对于紧俏型卷烟,分配的关键问题是是否能满足商户的真实需求,而反应真实需求的最 好指标正是商户下一周期的预测卷烟销量。通过销量预测模块预测到的销量,就可以用以实 现一户一策的精准投放。但一户一策的精准投放还需考虑当期的投放总量以及各商户的库存 差异。为了平衡各商户库存,本申请引入理想存销比,对于当期投放总量已知的某种卷烟, 这种卷烟的理想存销比计算公式为:
理想存销比=(当前库存总量+当期投放总量-下一投放周期预测总销量)/下一投放周期 预测总销量
理想存销比计算的是指在保持当前市场销售趋势不变的情况下,下一个投放周期各商户 所能达到的最平衡的共同存销比。由于市场销售量变化以及各商户囤货量不平衡,各商户难 以在下一周期开始时实现共同的理想存销比,但可以通过投放策略引导各商户的存销比向理 想存销比靠拢。
假设理想存销比为r,商户的数量为n,s1,s2…sn表示各商户的预测销量,t1,t2…tn表 示各商户当前库存,则每一家商户在下一投放周期开始时与理想存销比下库存的偏离值wi为:
wi=ti-si-si*ri=0,1…,n
如果wi>0,说明该商户的库存量较高,即使不投放卷烟下一投放周期开始时库存也高于 理想存销比下的库存;如果wi<0,说明该商户库存较低,需要投放卷烟。而wi=0的情况比 较特殊,需要考虑ti=0,即商户断货的情况。当wi=0时,如果ti≠0,则说明商户下一周期恰 好达到理想存销比下的库存,如果ti=0,那么说明商户已断货,此时预测销量si已经不能反映 商户的真实需求了,这时,取si和库存不为零商户预测销量平均值的较大值当作其预测销量。 所以:
wi=ti-si-si*r ti≠0
wi=ti-max(saverage,si)-max(saverage,si)*r ti=0
Figure BDA0003445209480000131
将偏离值wi当作分配权重,将投放总量按权重分配给各商户。
对于松软型卷烟,分配的关键是充分满足各商户的销售需求,同时将满足各户需求后剩 余卷烟投给有成长潜力的商户,因为成长潜力的商户将松软型卷烟销售出去的能力更强。故 松软型卷烟一户一策的投放方案不考虑库存因素,而是考虑商户的成长潜力,该成长潜力值 等于基于机器学***,而按照商户成长潜力值对剩余 量的分配则是可以提升松软型卷烟销量。
紧俏型卷烟的动态分类投放策略是建立在一户一策投放方式基础上的。一户一策的投放 方式虽然精准,但存在规则难以解释、同档位商户差异可能过大的管理学问题。具体操作上, 对于某种卷烟,我们根据照一户一策投放策略得出每个商户的投放列表。然后使用K-means 方法对一维投放向量进行聚类,在每一类中取聚类中心点作为该类用户的统一投放量。这种 方法既保证了投放能尽可能精准,也充分考虑到了投放粒度过细所带来的风险。松软型卷烟 的动态分类投放策略和紧俏型卷烟与紧俏型卷烟动态分类投放策略做法相同。
紧俏型卷烟与松软型卷烟的静态分类策略不会给出具体的投放数量,而是根据商户的相 似度给出分类标签,然后由***使用者结合分类标签,根据各类商户的销量、库存特点确定 每种卷烟的投放量。该方式也与当前烟草行业普遍采用的档位+市场类型、档位+星级投放策 略相似度最高,可以描述为档位+分类标签。具体操作上,我们会根据销量预测模块输出的特 征重要性信息筛选特征,得到对卷烟销量最为重要的前80%零售商标签,再以这些零售商标 签作为输入数据,对商户进行K-means聚类,由此可以得到每个商户的分类标签。这种再分 配策略有三个优点,第一,该方法虽然相较一户一策投放策略失去一部分精准性,但能结合 更多***使用者的专家经验,结合本申请的智能营销研判可视化子***,使用者可以获得每 类商户每种卷烟的销量、库存差异,然后确定每一类别商户的卷烟投放数量。第二,该分类 标签更加科学、更加全面地反映了商户销量特点,档位+市场类型、档位+星级投放策略利用 信息过少,主观因素较多,而本申请则选取了对商户销量最为重要的前80%标签作为分类依 据,不仅充分利用了零售商标签,得到的分类标签还与卷烟销量具有更高相关性。第三,该 策略同样能做到“静中有动”的自适应变化。商户的特征会定期更新,商户会随着自身变化 被划分到其他类别。同时,随着市场的波动,得到的前80%重要六手上标签也会变化,也就 是说该方法会不断更新对当前市场销售最为重要的零售商标签。
以上六种再分配策略,结合其卷烟市场类型对应的销量预测模型,即为本申请发明的基 于机器学习的智能投放子***所产生的六种投放策略。为烟草行业的***使用者提供了不同 粒度、不同角度的投放选择,真正做到了人机协同、共同决策的智能投放。
(四)所述智能营销可视化研判子***用于结合上述标签子***展示商户画像,结合基 于机器学习的智能选户子***提供智能选户功能,结合卷烟历史订购展示和基于机器学习的 智能投放子***提供智能投放研判功能。包括商户画像模块、智能选户模块、智能投放模块。
其中商户画像模块包括商户画像统计展示模块和商户详细信息展示模块:
(1)商户画像统计展示
针对***使用人员需在众多商户中精准选择所查找商户并查看相关信息,在不同地区或 不同等级商户间对比商户特点等需求。本模块提供了展示地区及商户简要信息,筛选所需商 户,标明商户定位,引入商户主界面等功能。
模块包含所在区域及周边地区地图模块、用户概况信息模块、地区标签区域模块和页面 跳转模块。
所在区域及周边地区地图模块使用标记标明所有商户或所选部分商户的商户定位,不同 颜色标记区分不同类别商户。地图可自由放大缩小,将鼠标滚轮向上滚动可放大地图,将鼠 标滚轮向下滚动可缩小地图,按住鼠标左键拖动鼠标可灵活移动地图界面。当鼠标在地图上 悬浮移动时,包含商户名称和照片的提示框会跟随鼠标的位置移动,鼠标停留位置商户的信 息会在页面左下方的商户概况信息区域中展示。鼠标点击商户,可跳转到商户详细信息模块。 模块包含两个按钮可控制地名和店名是否在地图中显示,默认状态下为显示地名和隐藏店名, 点击按钮时可切换显示或隐藏状态。此功能使模块信息展示更为简洁,并在需要时显示其名 称。模块中指南针形状按钮为2D和3D转换按钮和地图旋转按钮,默认地图显示状态为为2D 状态,点击标注2D/3D的方框可将地图在2D/3D模式间切换,便于***使用者在地图中以不 同维度视角查找商户定位和观察商户所在位置周边环境。模块中箭头按钮为地图旋转按钮, 点击其中一个按钮可将地图按其所指方向旋转90°,便于用户从地图不同方向查找商户定位。
同时,所在区域及周边地区地图模块支持商户按条件筛选。使得***使用者可以根据不 同需求筛选所需商户,实现对商户按不同标准分类,并在地图中分类显示商户定位功能。本 功能可以实现二级筛选,其中第一级筛选包括星级、地区、客户经理、档位、信用等级五种 备选项;第二级备选项包括:
1)星级:星级1、星级2、星级3、星级4、星级5
2)地区:所在区域地区划分列表
3)客户经理:经理A、经理B、经理C、经理D、经理E、经理F、经理G、经理H
4)档位:一档到三十档
5)信用等级:A1、A2、A3、A4、A5、AA1、AA2、AA3、AA4、AA5、B、C、D
当***使用者选定第一级筛选项之后第二级筛选备选项将根据上述列表出现。
本模块具有商户标记说明功能,所在区域及周边地区地图模块中各种颜色标记所代表内 容与分类的说明。当不选择筛选条件时,商户标记说明为所用商户对应的一种颜色,所有用 户使用此颜色标记在地图中标明商户定位。在特定筛选条件下,商户标记说明为此条件下不 同类别商户对应的不同颜色,不同类别商户使用说明中对应颜色在在区域及周边地区地图模 块中标记商户定位。
商户概况信息模块所展示的信息有当前商户名称、商户编号、客户经理、星级、信用等 级、档位以及所属地区,所在区域及周边地区地图模块中鼠标悬浮标记点所对应商户的概况 信息会在此区域显示。
地区标签展示模块利用条形图展示所在区域或所选地区商户数量,利用词云图展示商户 标签信息,包括商户静态特征和动态信息,动态信息包括贡献度(销售贡献)、配合度(配套 设施及手段)、营销手段、***使用、硬件设施、成长度(未来发展潜力)、规范度(营销监 管)等。词云图显示商户标签中出现频率较高的“关键词”,在视觉上突出所选区域商户特 点,***使用者可直观方便地了解此区域商户的共性特点,对比不同区域商户特点差异。默 认状态下显示地区为整个,条形图显示所在区域各地区商户数量对比,下方词云图中展示所 在区域所有商户商户标签中出现频率较高的标签。当***使用者在所在区域及周边地区地图 模块的地区筛选中选定一区域时,地区标签区域中展示此地区和所在区域其他地区商户数量 对比的条形图,词云图展示此区域商户商户标签中出现频率较高的标签。
页面跳转模块包含智能选户和智能投放两个按钮,点击按钮可跳转到智能选户模块和智 能投放模块查看选户和投放情况的详细内容。
(2)商户详细信息展示
本模块是对于商户全方位的画像可视化展示,包括基础信息模块、相关商户信息模块、 商户标签信息模块、商户评价等级信息模块。
基础信息模块展示了具体商户的商户编号、商户名称、营销部、终端类型、联系人、客 户经理、市场类型、业态、信息采集点、经营场所产权、店内支持收款方式、经济类型、店铺类型、市管送货员、法人、订货电话以及结算银行的信息以及星级评价、信用等级和档位的信息。档位中的“详情”按钮会跳转到商户评价等级信息模块。
基础信息模块还展示了具体商户的标签信息,包括店内卷烟柜台数量、店内卷烟背柜数 量、店内卷烟货架数量、店内卷烟展板数量、店铺经营面积以及卷烟经营面积、各品牌卷烟 存销比排行以及云POS在线率和云POS使用率。标签信息中的详情按钮会跳转到商户标签信 息模块。
基础信息模块中销量展示功能展现了卷烟/非卷烟的月销售量,其纵坐标为时间、横坐标 为金额,其中“非烟销售”和“卷烟销售”按钮,可以选择是否展现该部分的数据。卷烟销 量功能展现了各品牌的卷烟销售量,在鼠标移动每一品牌区域时,会自动出现该品牌的销售 量数据以及销售量占全品牌销售量的占比。其中各品牌按钮可筛选是否显示该品牌的销售数 据。
相关商户信息模块根据地图展示筛选条件下的相关商户,筛选条件为“同星级商户”、“同 信用等级商户”以及“同档位商户”。
商户标签信息模块展现了具体的有关贡献度、配合度、成长度以及规范度标签对应数据 的统计图,进一步地全方位展现具体商户的特征:
贡献度:包含基于时间变化的销售额动态变化图、卷烟销售及毛利混合为堆叠柱状图、 卷烟销售以及毛利率的数据、卷烟和非卷烟的销售额占比饼图、烟销售趋势折线图、省产烟 与非省产烟的占比饼图、订购总量及条均价通过综合折线图以及柱状图。
配合度:包括标签下涉及的主要信息词云图、扫码结算率词云图、***在线率与使用率 面积图、***下线时间柱状图。
成长度:包括档位变动图。
规范度:包括具体标签信息的词云图、盘点天数及预警数堆叠折线图。
商户评价等级信息模块包括了用旭日图展现的基础信息、商户得分排位、商户星级排位 以及商户信用等级排位的信息。这些信息的意义为可以综合评价出各个具体商户的评价等级。 同时。本模块设置智能选户和智能投放按钮跳转到智能选户模块和智能投放模块。
(3)智能选户模块
智能选户模块对现有商户地理位置展示通过在地图上标点形式进行对现有商户的展示, 可筛选商户是否安装了POS机和是否已为优质商户。对于尚未安装POS机的商户,本模块设 置模型运行按钮,点击按钮通过基于机器学习的智能选户子***进行智能预测,判断其是否 为优质商户。
(4)智能投放模块
智能投放模块包括卷烟历史订购展示模块和智能投放模型运行模块两个子模块组成。 卷烟历史订购展示模块可以通过筛选分别展示卷烟的投放量、定足率、销量、库存历史数据 的折线图。卷烟历史订购展示模块还通过向地图上添加标记点的形式展示出各种卷烟在各地 区投放和订购量的异同,使***使用人员能够高效判别卷烟市场趋势。
智能投放模型运行模块设置运行按钮,点击可以运行基于机器学习的智能投放子***, 可以筛选卷烟规格、时间跨度、商户档位,获取当前筛选条件下智能投放策略结果。
以进行卷烟投放为业务场景的示例具体实施方法如下:
步骤1,根据业务场景进行标签数据筛选
步骤1-1,标签子***筛选
在使用前根据卷烟投放在标签子***中确定所需标签,在整个标签子***中筛选相关一级 标签,并根据所选一级标签向下扩展,找出所属的二、三级标签。
步骤1-2,标签数据的生产和收集。对于选定的标签进行数据的收集,对于一些数据信息 较少或者原数据与所研究问题不符的标签进行标签数据的再次采集,如果标签对所研究问题 影响程度较小,同时与此标签关系度非常密切的其他标签数据较为完备,可以通过相关性建 立函数,用其他数据完善的标签代替原数据不完善的标签。
步骤2,构建基于机器学习的智能投放子***
步骤2-1,根据步骤1筛选出的标签数据和卷烟历史投放、订购、销售数据构成训练数据 集。并将卷烟按照市场状态划分标准分为紧俏型市场状态、否则为松软型市场状态。市场状 态划分标准即上一周期卷烟定足率(订购量/投放量)大于等于所有卷烟定足率百分之75分 界点。
步骤2-2在windows***下基于python语言构建销量预测模型。
步骤2-2-1,建立回归树,假设X与Y分别是输入和输出变量,并且Y是连续变量,给定 训练数据集D考虑如何生成回归树。
D={(x1,y1),(x2,y2),…(xN,yN)}x1∈X,y1∈Y
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分的单元上的输出值。 假设已将输入空间划分到M个单元R1,R2,…,Rm,…,RM,并且在每个单元Rm上有一个固定的输出值cm,,于是回归树模型可表示为
Figure BDA0003445209480000181
其中,I为单位矩阵;
当输入空间的划分确定时,计算平方误差
Figure BDA0003445209480000182
来表示回归树对于训练数据 的预测误差,用平方误最小的准则求解每个单元的最优输出值。易知,单元Rm上的cm的最优 值
Figure BDA0003445209480000183
是Rm上的所有输入实例xi对应的输出yi的均值,即
Figure BDA0003445209480000184
步骤2-2-2,选择切分特征和切分点,选用平方误差作为切分准则。其中ci是Ri内yi的 平均值,
Figure BDA0003445209480000185
是最优切分点R1内yi的平均输出值;其中c2是R1内yi的平均值,
Figure BDA0003445209480000186
是 最优切分点R2内yi的平均输出值。采用启发式的方法对输入空间进行划分。选择第j个变 量x(j)和它取的值s,作为切分变量和切分点并定义两个区域:
R1(j,s)={x|x(j)≤s}
R2(j,s)={x|x(j)>s}
然后寻找最优切分变量j和最优切分点s。具体地,求解
Figure BDA0003445209480000187
对固定输入变量j可以找到最优切分点s。
Figure BDA0003445209480000188
Figure BDA0003445209480000189
步骤2-2-3,模型寻找所有最优切分点,构成所有回归树,最终输出结果为一个样本在各 个树中输出的结果的和:
Figure BDA00034452094800001810
其中,Γ表示伽马函数;
步骤2-2-4,将步骤2-1处理后的训练数据输入所有回归树构建成的LightGBM算法,进 行训练,得到训练后的LightGBM模型作为销量预测模型
步骤2-2-5,使用销量预测模型预测出本期预测销量。
步骤2-3,在windows***下基于python语言构建投放再分配模型。以紧俏型卷烟的一 户一策策略为例,具体如下:
步骤2-3-1,计算理想存销比:
理想存销比=(当前库存总量+当期投放总量-下一投放周期预测总销量)/下一投放周期 预测总销量
步骤2-3-2,计算理想存销比下库存的偏离值wi为:
wi=ti-si-si*r ti≠0
wi=ti-max(saverage,si)-max(saverage,si)*r ti=0
Figure BDA0003445209480000191
其中r为理想存销比,n为商户数量,s1,s2…sn来=表示各商户的预测销量,t1,t2…tn表示各商户当前的库存
步骤2-3-3,按权重将投放总量进行再分配
步骤3,使用智能营销可视化系研判子***统进行综合研判和智能投放。具体如下
步骤3-1,进入智能营销可视化研判子***中的智能投放模块,选定要投放的卷烟规格。
步骤3-2,查看该规格卷烟历史订购的定足率、库存等信息。
步骤3-3,***使用者根据专家经验进行卷烟市场情况综合研判,确定当前规格卷烟本期 投放总量。
步骤3-4,输入投放总量,点击运行模型,获得由步骤2中训练后卷烟智能投放模型得到 的该规格卷烟投放策略。

Claims (1)

1.一种基于机器学习的烟草行业智能营销***,其特征在于,烟草行业智能营销***包括标签子***、基于机器学习的智能投放子***、基于机器学习的智能选户子***和智能营销研判可视化子***;
(一)标签子***
标签子***是以零售商为中心向外拓展,对与零售商相关的主体进行标签的建立与分类;标签子***下设一级标签:零售商标签、烟草公司标签、外部环境标签、目标受众标签和品牌标签;根据零售商所处的环境,对现有的标签子***进行完善;
零售商标签下设二级标签:基本信息标签、贡献度标签、特色配套标签、配合度标签、成长度标签、规范度标签六类;
零售商标签中的基本信息标签下设三级标签:客户标签、人员标签;贡献度标签下设盈利标签、品牌宽度标签;特色配套标签下设配套设施标签、***使用标签、硬件设施标签;成长度标签下设未来发展标签、经营规模标签;规范度标签下设经营规范标签、合法合规标签、小组标签;配合度标签下设烟草销售配合度标签、信息配合度标签;
烟草公司标签下设二级标签:营销中心标签、管理规范标签、物流体系标签三类;
烟草公司标签中的营销中心标签下设三级标签:到货信息标签、订单访销标签、网站开放与维护标签、订单处理标签、货款收纳标签;管理规范标签下设入库作业管理标签、订单管理机制标签、在库管理制度标签、出库管理制度标签、配送管理制度标签、仓库卫生管理制度标签、绩效管理制度标签;物流体系标签下设入库管理标签、在库管理标签、出库管理标签、配载标签、配送绩效评价标签、卷烟退换货标签;
外部环境标签下设二级标签:竞争对手信息标签和商圈经济信息标签两类;外部环境标签中的竞争对手信息标签下设三级标签:店铺信息标签、人员信息标签;商圈经济信息标签下设商圈信息标签、经济信息标签;
目标受众标签下设二级标签:基本信息标签、所在区域标签和受众偏好标签三类;目标受众标签中的基本信息标签下设三级标签:受众结构标签、受众信息标签;所在区域标签下设经济情况标签、环境状况标签;受众偏好标签下设商品偏好标签、购物偏好标签、注重方面标签;
品牌标签下设二级标签:基本信息标签、合规性标签和市场情况标签三类;对于品牌标签的二级标签下并未设立三级标签,而是根据下设标签所处级别和地位直接设立叶子结点标签;
同时各三级标签下还设立叶子结点标签,进而构成完整且***的标签***树;
(二)基于机器学习的智能选户子***
搭建基于机器学***均订足率和存销比数据,根据客户星级评定得分数据进行已安装终端商户的评定,根据具体客户星级评定得分情况将已安装终端商户划分为优质和非优质商户,并进行优质和非优质商户的数据打标签;将标签子***中的零售商标签以及数据打标签后的数据作为训练集数据;利用训练集数据将梯度提升决策树模型进行优化训练,使用训练好的梯度提升决策树模型预测未安装终端POS机的各商户是否为优质商户,以及某一具体商户为优质商户的概率值;
梯度提升决策树模型搭建方法如下:
GBDT是boosting系列算法中的一个代表算法,它是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终答案;其思想是利用平方误差来表示损失函数,其中每一棵回归树学习的是之前所有树的结论和残差,拟合得到一个当前的残差回归树;其中残差=真实值-预测值,提升树即是整个迭代过程生成的回归树的累加;GBDT用来做回归预测,调整后可以用于本发明中的二分类问题:设定阈值,大于阈值为正例,反之为反例;本发明中的损失函数可表示为:
L(y,f(x))=log(1+e-yf(x))
其中,y∈{-1,1};f(x)表示预测结果,x表示输入数据,y表示打标签的标签值;
则此时的负梯度误差为:
Figure FDA0003445209470000031
对于生成的决策树,各个叶子节点的最佳残差拟合值为:
Figure FDA0003445209470000032
其中,Rtj表示rti的集合,c表示残差值,t表示回归树的编号;
由于上式比较难优化,我们使用近似值代替:
Figure FDA0003445209470000033
梯度提升决策树模型的训练:对于训练集中的数值型特征:订足率和存销比,直接作为数值型数据输入模型;对标签子***中所有的标签,作为类别型特征,通过类别特征数值化的方式将类别转换为对应的整数后输入模型中进行训练;
优选的,利用GBDT中的LightGBM来实现本申请的方案;
(三)基于机器学习的智能投放子***
所述基于机器学习的智能投放子***包括销量预测模块和投放再分配模块;
(1)销量预测模块的建立方法如下:
使用卷烟历史投放、订购、销售数据和标签子***中零售商标签、品牌标签数据作为训练集数据;并将卷烟按照市场状态划分标准分为紧俏型市场状态、否则为松软型市场状态;市场状态划分标准即上一周期卷烟定足率大于等于所有卷烟定足率百分之75分界点;将训练集数据输入梯度提升决策树模型预测下一投放周期各商户对该卷烟的销量,以及输入数据的特征重要性;
梯度提升决策树模型搭建方法如下:
首先是建立回归树,设X与Y分别是输入和输出变量,并且Y是连续变量,给定训练数据集D考虑如何生成回归树;
D={(x1,y1),(x2,y2),…(xN,yN)}x1∈X,y1∈Y
一个回归树对应着输入空间的一个划分以及在划分的单元上的输出值;设已将输入空间划分到M个单元R1,R2,…,Rm,…,RM,并且在每个单元Rm上有一个固定的输出值cm,于是回归树模型可表示为
Figure FDA0003445209470000041
其中,I为单位矩阵;
当输入空间的划分确定时,用平方误差
Figure FDA0003445209470000042
来表示回归树对于训练数据的预测误差,用平方误最小的准则求解每个单元的最优输出值;易知,单元Rm上的cm的最优值
Figure FDA0003445209470000043
是Rm上的所有输入实例xi对应的输出yi的均值,即
Figure FDA0003445209470000044
选择切分特征和切分点,选用平方误差作为切分准则;其中ci是R1内yi的平均值,
Figure FDA0003445209470000051
是最优切分点R1内yi的平均输出值;其中c2是R1内yi的平均值,
Figure FDA0003445209470000052
是最优切分点R2内yi的平均输出值;
采用启发式的方法对输入空间进行划分;选择第j个变量x(j)和它取的值s,作为切分变量和切分点并定义两个区域:
R1(j,s)={x|x(j)≤s}
R2(j,s)={x|x(j)>s}
然后寻找最优切分变量j和最优切分点s;具体地,求解
Figure FDA0003445209470000053
对固定输入变量j可以找到最优切分点s;
Figure FDA0003445209470000054
Figure FDA0003445209470000055
GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型;模型的结果是一组回归分类树组合:T1,…,Tj,…,TK;其中Tj学习的是之前j-1棵树预测结果的残差;而模型最后的输出,是一个样本在各个树中输出的结果的和:
Figure FDA0003445209470000056
其中,Γ全部的回归树;
优选的,利用GBDT中的LightGBM来实现本申请的方案;
使用GBDT汇总的LightGBM算法,可只保存特征离散化后的值,而这个值一般用8位整型存储就足够,内存消耗可以降低为原来的1/8;同时,LightGBM每遍历一个特征值只需要计算k次,k为常数,直接将时间复杂度从O(#data*#feature)降低到O(k*#feature);其中#data表示训练数据集中训练数据数量,#feature表示每条训练数据中特征数量,data*#feature表示二者乘积;k*#feature表示k与每条训练数据中特征数量的乘积;
(2)投放再分配模块
投放再分配模型针对不同市场类型的卷烟进行分别建模,包括紧俏型卷烟投放再分配模型和松软型卷烟投放再分配模型;
对于紧俏型卷烟投放再分配模型包括三种:一户一策式的精准投放、动态分类投放和静态分类投放;
对于松软型卷烟投放再分配模型包括三种:一户一策式的精准投放、动态分类投放和静态分类投放;
(2.1)紧俏型卷烟投放再分配模型的一户一策式的精准投放
通过LightGBM模型预测到的销量,实现一户一策式的精准投放;但一户一策的精准投放不能只考虑预测销量,还需要考虑当期的投放总量以及各商户的库存差异;为了平衡各商户库存,引入卷烟的理想存销比:
理想存销比=(当前库存总量+当期投放总量-下一投放周期预测总销量)/下一投放周期预测总销量
设理想存销比为r,商户的数量是n,用s1,s2…sn来表示各商户的预测销量,t1,t2…tn来表示各商户当前的库存,则每一家商户在下一投放周期开始时与理想存销比下库存的偏离值wi为:
wi=ti-si-si*r i=0,1…,n
如果wi>0,说明该商户的库存量较高,即使不投放卷烟下一投放周期开始时库存也高于理想存销比下的库存;如果wi<0,说明该商户库存较低,需要投放卷烟;当wi=0时,如果ti≠0,则说明商户下一周期恰好达到理想存销比下的库存,如果ti=0,说明商户断货,此时预测销量si已经不能反映商户的真实需求了,这时,取si和库存不为零商户预测销量平均值的较大值当作其预测销量;所以:
wi=ti-si-si*r ti≠0
wi=ti-max(saverage,si)-max(saverage,si)*r ti=0
Figure FDA0003445209470000071
将偏离值wi当作分配权重,将投放总量按权重分配给各商户,在模拟投放数据实验中,该投放方案能使各商户存销比的方差显著下降,且当期投放量越多,平衡的效果越好;
(2.2)松软型卷烟投放再分配模型的一户一策式的精准投放
不考虑库存,但会考虑商户的优质程度,优质程度由基于机器学习的智能选户子***打分给出;具体实施起来,要考虑两种情况,一种是当期投放量小于预测总销量的情况,另一种是当期投放量大于预测总销量的情况;对于第一种情况,由于要优先考虑满足各商户的销售需求,所以直接将商户的预测销量视为分配权重,将投放总量按权重分配;对于第二种情况,先满足所有用户的下一阶段销量需求,再将剩余量按照商户优质得分的比重进行分配;
(2.3)紧俏型卷烟投放再分配模型的动态分类投放
对于某种要投放的卷烟,先按照一户一策投放方式计算出每个商户所要投放的数量列表;然后使用K-means方法对一维投放向量进行聚类,在每一类中取均值作为该类用户的统一投放量;
(2.4)松软型卷烟投放再分配模型的动态分类投放与对于紧俏型卷烟投放再分配模型的动态分类投放相同
(2.5)紧俏型卷烟投放再分配模型、松软型卷烟投放再分配模型的静态分类投放
静态分类投放不会给出具体的投放数量,而是根据商户的相似度给出分类标签,然后由投放的实际操作者结合分类标签,根据各类商户的销量、库存特点自己确定每种卷烟的投放量;
具体操作:根据在紧俏/松软卷烟数据集上训练好的LightGBM销量预测模块的特征重要性信息筛选特征,得到对卷烟销量最为重要的前80%商户特征,再以这些特征作为分类变量,对商户进行K-means聚类,由此得到每个商户的分类标签;
(四)智能营销研判可视化子***
所述智能营销研判可视化子***用于结合标签子***和智能投放子***展示商户画像、智能投放研判历史数据视图和智能投放研判结果;包括商户画像统计展示模块、商户详细信息展示模块、智能选户模块、智能投放模块;
(1)商户画像统计展示模块
商户画像统计展示模块包括分类商户定位显示模块、商户标记说明模块、地图模块、商户概况信息模块、地区标签展示模块;其中,分类商户定位显示模块包括按星级分类商户定位显示、按地区分类商户显示、按客户经理分类商户显示、按档位分类商户显示、按信用等级商户分类;地区标签展示模块包括地区商户数量展示单元、地区商户标签信息单元;
(2)商户详细信息展示模块
商户详细信息展示模块包括基础信息模块、相关商户信息模块、具体商户标签信息模块、非烟销售情况模块、卷烟销售模块;其中,相关商户信息模块包括同星级商户展示单元、同信用等级商户展示单元、同档位商户展示单元;具体商户标签信息模块包括贡献度标签单元、配合度标签单元、成长度标签单元、规范度标签单元;
(3)智能选户模块
智能选户模块包括智能选户模型运行模块;智能选户模块对现有商户地理位置展示通过在地图上标点形式进行对现有商户的展示,其中可以根据左侧筛选栏筛选是否安装了POS机和是否已为优质商户;对于尚未安装POS机的商户,通过前述智能选户子***进行智能预测,判断其是否为优质商户;
(4)智能投放模块
智能投放模块包括卷烟历史订购展示模块、智能投放模型运行模块;
卷烟历史订购展示模块可以通过对卷烟的投放量、定足率、销量、库存分别按值和百分比进行筛选,筛选结果在地图中以标点形式进行展示;通过在地图上的展示可以分析出各种卷烟在各地区投放和订购量的异同,使使用人员能够高效判别卷烟市场趋势;
智能投放模型运行模块可以运行智能投放子***,通过卷烟规格、时间跨度、商户档位后运行智能投放子***,获取当前所选卷烟和商户的智能投放策略结果。
CN202111646113.5A 2021-12-30 2021-12-30 一种基于机器学习的烟草行业智能营销*** Pending CN114372848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111646113.5A CN114372848A (zh) 2021-12-30 2021-12-30 一种基于机器学习的烟草行业智能营销***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111646113.5A CN114372848A (zh) 2021-12-30 2021-12-30 一种基于机器学习的烟草行业智能营销***

Publications (1)

Publication Number Publication Date
CN114372848A true CN114372848A (zh) 2022-04-19

Family

ID=81142223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111646113.5A Pending CN114372848A (zh) 2021-12-30 2021-12-30 一种基于机器学习的烟草行业智能营销***

Country Status (1)

Country Link
CN (1) CN114372848A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596012A (zh) * 2023-05-09 2023-08-15 上海银满仓数字科技有限公司 一种基于rfid的商品信息传输方法及***
CN117745340A (zh) * 2024-02-20 2024-03-22 湖南潇湘大数据研究院 基于大数据的卷烟市场网格容量合理性预测方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596012A (zh) * 2023-05-09 2023-08-15 上海银满仓数字科技有限公司 一种基于rfid的商品信息传输方法及***
CN116596012B (zh) * 2023-05-09 2024-05-07 上海银满仓数字科技有限公司 一种基于rfid的商品信息传输方法及***
CN117745340A (zh) * 2024-02-20 2024-03-22 湖南潇湘大数据研究院 基于大数据的卷烟市场网格容量合理性预测方法及***
CN117745340B (zh) * 2024-02-20 2024-05-24 湖南潇湘大数据研究院 基于大数据的卷烟市场网格容量合理性预测方法及***

Similar Documents

Publication Publication Date Title
CN110392899A (zh) 用于模型生成的动态特征选择
JP7120649B2 (ja) 情報処理システム、情報処理装置、予測モデル抽出方法および予測モデル抽出プログラム
CN113553540A (zh) 一种商品销量的预测方法
CN101783004A (zh) 快速智能化的商品推荐***
CN102272758A (zh) 因果驱动和市场响应弹性或提升因素的自动规范、估计和发现
CN111178624A (zh) 一种新产品需求预测的方法
CN110348635A (zh) 基于端对端学习的智能补货方法、存储介质、***及装置
CN114372848A (zh) 一种基于机器学习的烟草行业智能营销***
CN114219169A (zh) 颖幡供应链销售和库存预测算法模型和应用***
CN104346698A (zh) 基于云计算和数据挖掘的餐饮会员大数据分析和考核***
CN114548871B (zh) 一种大数据驱动的供应链ai智能补货***
Behera et al. Grid search optimization (GSO) based future sales prediction for big mart
CN115145993A (zh) 基于自学***台
Dhurkari Strategic pricing decision using the analytic hierarchy process
CN116823360B (zh) 一种基于用户行为的智能广告计划生成方法及***
CN109949065A (zh) 属性数据分析的方法和装置
CN116308494A (zh) 供应链需求预测方法
CN113435541B (zh) 品类规划方法、装置、存储介质及计算机设备
Gorokhovatskyi et al. Risk assessment of innovative projects: Development of forecasting models
Kusmana et al. The Design of A Web-Based Inventory Management Application Using Predictive Modeling
CN110968622B (zh) 一种会计报告定制方法、平台和终端
JP2001022851A (ja) スコアリング方法およびシステム
Kunasekaran Research on E-commerce Customer Loyalty under Big Data
Shan et al. Research on management decision based on machine learning: Taking the decision of location selection of a pharmaceutical retail enterprise as an example
Polat The role of forecasting and its potential for functional management: a review from the value-chain perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination