CN110737700A

CN110737700A - 一种基于贝叶斯算法的进销存用户分类方法及***

Info

Publication number: CN110737700A
Application number: CN201910983525.4A
Authority: CN
Inventors: 刘天水; 王正宇
Original assignee: Zhuo Zhuo Network Technology Co Ltd
Current assignee: Zhuo Zhuo Network Technology Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-01-31

Abstract

本发明公开了一种基于贝叶斯算法的进销存用户分类方法，其特征在于，包括步骤1确认特征属性；步骤2训练朴素贝叶斯分类器；步骤3统计分类概率，并计算各用户类型下各特征属性出现的概率；步骤4实际判定某个用户的所属分类；步骤5对无法在一次会话中完成的训练、分类等进行持久化存储。达到实现供独立用户进行概率计算的朴素贝叶斯分类器，可免去运营部门需要根据图表对用户行为再分析的流程，减少人力成本；通过对用户所属类目A概率与用户文档B概率形成的P(A|B)的计算也亦获得P(B|A)，即某类用户对于相应功能点的使用概率，宏观展现用户对于***功能的关注点，为后续***开发重点提供决策支持的效果。

Description

一种基于贝叶斯算法的进销存用户分类方法及***

技术领域

本发明涉及数据挖掘领域，特别是涉及一种基于贝叶斯算法的进销存用户分类方法及***。

背景技术

随着网站用户量的提升，用户形成的业务数据指数级增长，搜集有效数据的成本也随之增加。信息过量则需要网站的运营者花费大量人力资源从海量数据中挖掘出其中的有效信息。通过收集进销存网站用户的录单行为数据，以此为基础来分析用户的操作行为路径，确认用户的身份类型、所属行业等，了解用户对于现有***功能的关注点，从而提升用户对于***的使用粘性。

数据挖掘作为热点研究方向，可以高效且准确地满足该搜集需要。通过相关文献的调研，熟悉对各类用户行为分类概念与评价方法，将用户数据转化为分析文本。同时对比了各类分类算法的优劣，选择了使用贝叶斯算法作为主要的应用方法，对用户行为类型进行分类处理。

传统解决方法，需要通过同步生产库数据，使用SQL脚本对数据进行清洗过滤，以及对同主题类型数据进行聚集处理，开发周期较长，成本较高，且数据冗余性较大。得出的分析结果多以表格以及图表方式展示，虽然易于计算指定范围数据在周期内的同环比、平均值等结果，但对于用户行为变化预测的准确性并不理想，且需要人为分析，占用较多工作量，维护成本也较高。

通过将用户基础的行为数据转换为分析文本，并抽取部分作为训练集。将各用户在各分类中出现的概率进行组合，获取整个用户对于该分类的概率，设计合适的分类器，以供计算机进行自主学习，主动完成分类工作，无需人工干预，提升分类效率与准确性。

现有使用K-临近算法实现类似功能，虽然精度较高，但计算复杂度、空间复杂度也过高，且无法保证各样本数据范围处于同一数量级，故并不适用。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于贝叶斯算法的进销存用户分类方法及***。

通过将业务数据转换为用户文档信息，对用户文档进行预处理操作，过滤特殊数据、无意义信息，提高样本数据准确性。简化数据分析开发流程，形成更为直观的用户分类结果，降低运营在用户分类方面的二次人员成本投入。

使用贝叶斯算法前，需对用户文档进行预处理，过滤其中无意义的信息，获得训练样例文本信息序列，并做进一步的预处理操作，形成设定的文本表示模型，并提供特征选择以及特征权重的计算工作。

为解决上述技术问题，本发明提供一种基于贝叶斯算法的进销存用户分类方法，其特征在于，包括如下步骤：

步骤1：确认特征属性；所述特征属性是指不同类型进销存用户所对应的数据特征，对关系型数据库中的数据进行抽取整合，分析不同类型进销存用户的特征属性，形成键值对形式的用户文档，即可供分析的用户文档；

步骤2：训练分类器；根据贝叶斯定理P(A∩B)＝P(A)*P(B|A)＝P(B)*P(A|B)，编写代表分类器的类，对信息进行封装；形成多个分类器实例；通过对分类器实例进行训练，来响应不同类型群组的需求，所述分类器具体为朴素贝叶斯分类器；

步骤3：统计分类概率，并计算各用户类型下各特征属性出现的概率；对分类结果次数进行概率统计，使用贝叶斯算法对条件概率进行调换求解，设该样本为x，其单个特征属性记作a，所有特征属性记作a₁～a_m，则x＝{a₁,a₂,…a_m}为待分类x的特征属性集合，C＝{y₁,y₂,…y_m}为类型集合；对每个类型计算P(A|B1)P(B1)+P(A|B2)+…+P(A|Bn)P(Bn)，获得

步骤4：实际判定某个用户的所属分类，即计算用户在每个不同分类中的概率，并选择概率最大项P(A|Bn)P(Bn)作为该用户的所属分类；

步骤5：对无法在一次会话中完成的训练和分类进行持久化存储。

所述步骤1中，所述特征属性具体有：

该用户为流失用户的特征属性是：今年内存在录单但30天内不存在录单，且该用户首页未读信息数量超过3条；

该用户为无价值注册用户的特征属性是：30天内的登录次数与实际生成的有效单据的比例在10％以下且单据的创建未形成***中任意一条完整业务流；

该用户为***采购员用户的特征属性是：采购单数、付款单数和开票单数的总和占总录单数的80％以上，即(采购单数+付款单数+开票单数)/总录单数>80％；

所述步骤1中，所述分析不同类型进销存用户的特征属性包括：采用计算特征方差的形式来排除冗余特征属性，具体为记第i个特征为x_i，特征总数为n，方差计算结果为s，则有

并根据业务情况设置阈值d作为特征取舍的评判标准，若s≥d则保留该特征属性。

所述步骤4中，使用TF-IDF算法为同一用户类型下各特征属性分配权重，各特征属性权重记为k_j，如同一个用户类型下各特征概率不能满足计算准确度需求，则进一步标记不同特征属性各自占有的权重，每个特征属性占有的权重随其在所有用户类型特征属性中出现的频率的提高而降低，但随其在单个用户类型中出现的次数的增加而上升,所述TF-IDF算法具体为：

TF－IDF＝TF*IDF；

则有

所述步骤4中，所述被标记的特征属性包括“判断是否为流失用户时，用户的未读消息数量超过20条”。

所述持久化储存具体为：使用joblib软件包，对数据进行压缩存储，当再次进行训练或将现有数据应用于其他类型的分类器时，直接获取现有数据到内存中。

一种基于贝叶斯算法的进销存用户分类***，其特征在于：包括依次相连的关系型数据库、文本预处理模块、模型存储模块、算法执行模块和报告模块，其中模型存储模块与数据库连接，

所述关系型数据库，是指采用了关系模型来组织数据的数据库，其以行和列的形式存储数据，具体为MySQL数据库，用于为业务型的关系型数据库使用在进销存***中，为用户提供各类表单以及操作日志的存储；

所述文本预处理模型，用于通过编写代码处理关系型数据库中的数据表，将其转换为文档型数据，所述文档型可持久化存储，也可以直接在内存中参与后续运算；

所述模型存储模块，用于将分类器的训练信息进行持久化存储，对于模型本身、样本数据、以及无法在一次会话中完成的贝叶斯模型分析结果，可通过持久化存储的形式提高计算效率；

所述算法执行模块，用于在获得样本先验概率、后验概率以及似然估计值后，选择合适的分类方法，形成算法执行实例；确定样本用户归属于各自类型的概率。

所述报告模块，用于在完成概率计算后，读取算法执行模块完成执行任务后的结果，并以表格和图形的形式将分类结果进行直观展现，此模块采取增量更新的方式,可自由定义结果集结构，用于将结果直观展现给运营分析人员。

本发明所达到的有益效果:

1、通过贝叶斯算法，实现了供独立用户进行概率计算的朴素贝叶斯分类器，可免去运营部门需要根据图表对用户行为再分析的流程，减少人力成本；

2、通过对用户所属类目A概率与用户文档B概率形成的P(A|B)的计算也亦获得P(B|A)，即某类用户对于相应功能点的使用概率，宏观展现用户对于***功能的关注点，为后续***开发重点提供决策支持。

附图说明

图1为本发明的示例性实施例的方法流程示意图；

图2为本发明的示例性实施例中的***结构示意图。

具体实施方式

一种基于贝叶斯算法的进销存用户分类方法，包括如下步骤：

所述步骤1中，所述特征属性具体有：

TF－IDF＝TF*IDF；

则有

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示的一种基于贝叶斯算法的进销存用户分类方法；

一种基于贝叶斯算法的进销存用户分类方法，其特征在于，包括如下步骤：

步骤101：确认特征属性，并形成用户文档；确认特征属性，包括“该用户为流失所体现的特征属性是今年内存在录单但30天内不存在录单，且该用户首页未读信息超过3条”，“该用户为无价值注册用户所体现的特征属性是30天内的登录次数与实际生成的有效单据的比例在10％以下且单据的创建未形成***中任意一条完整业务流”，“特征属性为(采购单数+付款单数+开票单数)/总录单数>80％，则判定为***采购员”，以此类特征属性形成可供分析的用户文档。

分析步骤101中所述进销存用户的特征属性，对于各类单据录入数量间的占比，以及有效商品数等信息，在选择其所为特征集时需要做大量的权衡，分析该特征是否能得出正确的结论。通常可采用计算特征方差的形式来排除冗余特征属性。记第i个特征属性为x_i，特征属性总数为n，方差计算结果为s，则有

并根据业务情况设置阈值d作为特征取舍的评判标准，若s≥d则保留该特征属性。如“首页未读信息超过3条”所计算得到的方差为2，而设定d＝1，则该特征为有效特征。以此方式排除冗余特征属性，所得到的有效样本越多，则计算效果越佳，以此为基础进行不断调整与优化。对关系型数据库中数据进行抽取整合，形成键值对形式的用户文档，用于参与分析。

步骤102：选择适用的分类器模型并加以训练；编写代表分类器的类，对所掌握的信息进行封装；针对多个不同的用户、类型或查询，可形成各自的分类器实例；通过对它们加以训练，来响应不同类型群组的需求。这里使用朴素贝叶斯分类器模型，类似的分类器模型有K-临近算法、决策树模型等，未选择决策树模型的原因在于，***的用户类型占比差异过大，仓管及采购员可能占***绝大部分，此类样本过多会使计算结果增益偏向此类型特征，造成计算结果偏差过大的情况，K-临近亦有由于样本数量偏差大而导致k值过小导致过拟合的缺点，故不适用于本***。而由于进销存用户日入单数量、操作日志数据等均属于离散型数据，且***初期并不具备较大数据量，因而更适用于朴素贝叶斯分类器。

步骤103：对分类概率统计，并计算各类型下各特征出现的概率。获取进销存用户训练样本，设该样本为x，其单个特征属性记作a，所有特征属性记作a₁～a_m，则x＝{a₁,a₂,…a_m}。计算样本中某用户属于无价值用户的概率，则类型集合C＝{y₁(有价值),y₂(无价值)}，假设10000个用户样本中有800个为无价值用户，即可记P(C＝y₁)＝92％,P(C＝y₂)＝8％；特征概率P(有效录单数<录单总数10％|C＝y₂)出现次数为40，所占概率为0.4％，P(有效录单数<录单总数20％|C＝y₂)出现次数为80，所占概率为0.8％，依次类推，获得

其中x＝{a₁,a₂,…a_m}为待分类x的特征属性集合，C＝{y₁,y₂,…y_m}为类型集合。

步骤104：使用TF-IDF算法为同一类型下各特征分配权重。为在特征选择的基础上充分考虑不同特征属性对于分类结果的影响程度，需进一步标记不同特征属性各自占有的权重。每个特征属性占有的权重随其在所有用户类型特征属性中出现的频率的提高而降低，但随其在单个用户类型中出现的次数的增加而上升。如“一个星期内每天的未读消息数量都超过20条，但该星期该功能发生了故障。此情况下未读信息超过20条虽然不会在特征选择过程中被排除，但却因为***故障需要相应的降低其计算时所占权重”,或者“对于‘采购员’以及‘仓管’两种用户类型，‘出库单据数量占总录单数量80％以上’都属于二者的特征属性，但在每日的仓管类用户文档中出现的频率更高，则其在‘是仓管还是采购员’用户分类时生成权重k(出库单数量占80％)，分配到P(出库单概率占80％以上|仓管)上”。为了调整此类情况下特征属性对最终分类结果的影响程度，此处可使用TF-IDF算法，

TF－IDF＝TF*IDF

各特征属性权重记为k_j，则有

以此公式可调整各特征属性对最终分类结果的影响力度，更倾向以各自类型的重要特征属性作为更高权重的计算参数。

步骤105：对无法在一次会话中完成的训练、分类等进行持久化存储，可使用joblib软件包及相关工具，并对数据进行压缩存储，当再次进行训练或将现有数据应用于其他类型的分类器时，可直接获取现有数据到内存中。

如图2所示的一种基于贝叶斯算法的进销存用户分类***，包括依次相连的关系型数据库、文本预处理模块、模型存储模块、算法执行模块和报告模块，其中模型存储模块与数据库连接，

所述关系型数据库，是指采用了关系模型来组织数据的数据库，其以行和列的形式存储数据，以用于用户理解，关系型数据库这一系列的行和列被称为表，一组表组成了数据库。如MySQL数据库可作为业务型的关系型数据库使用在进销存***中，为用户提供各类表单以及操作日志的存储；

所述报告模块，用于读取算法执行模块完成执行任务后的结果，并以表格、图形等形式将结果只管展现的模块。此模块可采取增量更新的方式，并自由定义结果集结构，以用于将结果直观展现给运营分析人员，帮助分析人员快速定义用户角色类型，减少人工分析用户类型成本。

本发明所达到的有益效果:

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种基于贝叶斯算法的进销存用户分类方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于贝叶斯算法的进销存用户分类方法，其特征在于：所述步骤1中，所述特征属性具体有：

3.如权利要求2所述的一种基于贝叶斯算法的进销存用户分类方法，其特征在于：所述步骤4中，使用TF-IDF算法为同一用户类型下各特征属性分配权重，各特征属性权重记为k_j，如同一个用户类型下各特征概率不能满足计算准确度需求，则进一步标记不同特征属性各自占有的权重，每个特征属性占有的权重随其在所有用户类型特征属性中出现的频率的提高而降低，但随其在单个用户类型中出现的次数的增加而上升,所述TF-IDF算法具体为：

TF－IDF＝TF*IDF；

则有

4.如权利要求3所述的一种基于贝叶斯算法的进销存用户分类方法，其特征在于：所述步骤4中，所述被标记的特征属性包括“判断是否为流失用户时，用户的未读消息数量超过20条”。

5.如权利要求4所述的一种基于贝叶斯算法的进销存用户分类方法，其特征在于：所述持久化储存具体为：使用joblib软件包，对数据进行压缩存储，当再次进行训练或将现有数据应用于其他类型的分类器时，直接获取现有数据到内存中。

6.一种根据权利要求1-5之一所述方法运行的基于贝叶斯算法的进销存用户分类***，其特征在于：包括依次相连的关系型数据库、文本预处理模块、模型存储模块、算法执行模块和报告模块，其中模型存储模块与数据库连接，

所述算法执行模块，用于在获得样本先验概率、后验概率以及似然估计值后，选择合适的分类方法，形成算法执行实例；确定样本用户归属于各自类型的概率；