CN108108352A

CN108108352A - 一种基于机器学习文本挖掘技术的企业投诉风险预警方法

Info

Publication number: CN108108352A
Application number: CN201711363852.7A
Authority: CN
Inventors: 孔祥明; 高峰; 蔡文鑫
Original assignee: Guangdong Industry Kaiyuan Science And Technology Co Ltd
Current assignee: Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-06-01

Abstract

本发明提供了一种基于机器学习文本挖掘技术的企业投诉风险预警方法，包括如下步骤：步骤1)数据采集及处理并生成规范化数据：步骤2)建立投诉分析等级聚类模型：步骤3)设定情感倾向度分析模块，利用情感倾向度分析模块建立情感倾向度计算；步骤4)构建SVM分类器；步骤5)构建训练分类模型；步骤6)通过步骤5)进行模型预测。本发明能利用现有的计算机处理速度，处理成千上万的12345工单数据，对工单内容进行分类，分析。为执法部门提供企业投诉风险预警，为管理部门提供执法决策辅助，改被动执法为主动执法，改治标为治本的社会治理方式。

Description

一种基于机器学习文本挖掘技术的企业投诉风险预警方法

技术领域

本发明涉及消费维权指数计算技术，具体涉及一种基于机器学习文本挖掘技术的企业投诉风险预警方法，该方法主要应用于政府维稳监控***、投诉举报数据分析研判***、12345政务服务热线***、公安***、工商局***、企业征信***。

背景技术

随着近年社会经济的快速发展，12345政务服务热线受理部分消费者咨询、投诉、举报、意见及建议，是广大人民群众送上门来的“调查研究”，是工商行政管理机关研究加强和改进市场监管工作必须参考的大数据。其中投诉类型占12345工单数量一半以上，对投诉工单进行文本处理和分析，建立企业投诉风险预警模型是实现市场“大数据”向市场监管能力转化的有效探索和重要途径。

工商行政管理机关12345政务服务热线中心直接面对广大消费者，贴近人民群众，贴近市场，每天都会产生大量数据信息。这些数据信息是广大消费者对当下市场存在问题的实时反馈，能够及时、准确地反映消费热点的变化特点和规律，反映市场主体诚信经营状况、商品和服务质量状况，以及市场公平交易秩序状况，是市场监管质量的“温度计”、“晴雨表”，更是评价工商行政管理机关市场监管成效的“主考官”。

因此，加强对12345数据的分析利用，特别是被投诉企业的风险等级分类，坚持用数据说话，对于指导相关部门执法的针对性、时效性有重大意义。

发明内容

有鉴于此，本发明的主要目的是提供一种基于机器学习文本挖掘技术的企业投诉风险预警方法。

具体的方案如下：

一种基于机器学习文本挖掘技术的企业投诉风险预警方法，包括如下步骤：

步骤1)数据采集及处理并生成规范化数据：

S1：利用所述数据采集模块获取12345热线的工单文本；对数据采集模块获取的工单文本采用处理器进行初始处理步骤，对录入的文本数据利用分词模块和去噪模块进行处理，获得各个文本数据中的关键词；其中，数据采集模块连接处理器，处理器内设置有分词模块和去噪模块；

S2：设定文本特征向量化模块，将各个关键词进行向量化并作归一化处理，获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵；

S3：设定文本数据相似性匹配模块，根据建立的所述实数值矩阵，利用余弦定理计算各关键词间的余弦相似度，并将余弦距离最近的文本数据进行匹配，形成近义词词库；

S4：设定规范化数据生成模块，将匹配好的文本数据按照设定的统一规范化模式生成规范化数据；

步骤2)建立投诉分析等级聚类模型：利用步骤1)的设定的规范化数据生成模块，将生成的规范化数据输入至规范化数据预警模块进行预警处理，通过规范化数据预警模块建立的投诉分析等级聚类模型对规范化数据模式进行分析，根据聚类结果划分投诉风险等级，再根据风险所在等级发出相应的预警；

步骤3)设定情感倾向度分析模块，利用情感倾向度分析模块建立情感倾向度计算；

步骤4)构建SVM分类器；

步骤5)构建训练分类模型；

步骤6)通过步骤5)进行模型预测。

优选的，步骤2)建立投诉分析等级聚类模型的具体步骤如下：

S1：设定情感倾向度计算模块，对规范化数据进行情感判断并划分为积极、消极和中心三类；

S2：设定投诉风险等级划分模块，根据客户等级、业务类型、积极倾向度以及投诉历史参数建立投诉分析等级聚类模型，并根据聚类结果制定投诉风险等级规则；

S3：设定投诉分析预警模块，根据制定的投诉风险等级规则，选择模型变量参数，利用贝叶斯分类建立分类学习模型，通过对分类学习模型的训练实现对未知文本数据的投诉风险等级的预测。

优选的，步骤3)中利用情感倾向度分析模块建立情感倾向度计算的具体步骤如下：

S1：建立连词和否定词词典库；

S2：根据连词和否定词词典库从规范化数据中抽取连词和否定词，并标记相应词在规范化数据中的位置；

S3：匹配现有的情感词典库，获得词汇的极性及其情感评分值；

S4：通过连词位置，确定前句与后句所占比重，再根据否定词位置判断双重否定以及邻近词汇的极性反转；

S5：利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分；

S6：循环步骤S2至S5，若情感计算评分为正则为积极，为负则为消极，否则为中心；

S7：投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级；

S8：提高限定结果的精确性：在制定投诉风险等级规则需要对规则进行验证，将验证集数据输入建立的分类学习模型，获得验证集数据中各文本数据的投诉风险等级，并将结果集与验证集数据中对应的等级数据进行比对，计算模型预测的正确率∈{-1,1}。

优选的，步骤4)具体步骤如下：

S1：设给定的训练集为{(z1,y1),(z2,y2),…,(zn,yn)}其中zi∈Rn为输入向量，yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b＝0线性划分，

问题转化为求最优化超平面问题：

S2：对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H，使线性可分；则优化问题转化为

S3：解出式(2)最优化函数为：

从式(2)最小化问题可以得出，选择合适的函数K(·)和C即可以确定SVM分类器；

S4：选用RBF径向基核函数，即K(Z_i，Z_j)＝exp(-γ||Z_i-Z_j||)²,则分类器的优化问题最终转化为参数对(C,γ)的选择问题。

优选的，步骤5)具体步骤如下：

S1.以1≤C≤1000和0≤γ≤100为范围，构建取值范围内所有C和γ组成的参数对；

S2.依次取参数对(C,γ)作为基于RBF核函数的SVM分类器参数初始值，训练数据向量集S_train和测试数据向量集S_test，记这一分类模型下对测试数据集预测的准确率为pt；

S3.针对测试集准确率，用计算机程序调整测试SVM算法中不同的C值和γ值参数对，使准确率pt达到预定要求的准确率p0，并保存记录这一准确率p0下的模型参数对(C0,γ₀)。即这一参数对为所求SVM分类模型的模型参数。

优选的，步骤6)具体步骤如下：

S1：构建不含标记结果的工单得分率数据向量x’；

S2：采用步骤三中训练所得的模型参数(C0,γ₀)对x’进行SVM分类预测，得到输出结果y’∈{-1,1}

S3：y’即为所求的企业投诉风险等级计算结果。

传统方式处理12345工单时，只要工单提及企业投诉就会派发工单给予相关部门处理，期间对于投诉的等级不做处理，对于相似性质的企业缺少对比分析，对于工单内容缺少分类，会导致执法部门人手不足时只能按照投诉时间去处理相关事务，无法及时处于危险等级的企业会造成严重的不良社会影响，本发明是为了解决以上传统方式处理12345工单的问题。

本发明能利用现有的计算机处理速度，处理成千上万的12345工单数据，对工单内容进行分类，分析。为执法部门提供企业投诉风险预警，为管理部门提供执法决策辅助，改被动执法为主动执法，改治标为治本的社会治理方式。

附图说明

图1为本发明的方法流程图；

图2为本发明对工单数据进行业务分类梳理流程图；

图3为本发明模型验证流程图。

具体实施方式

以下结合实例对本发明做进一步详细说明。

术语解释：

大数据分类算法：

大数据分类算法指的是以支持向量机、神经网络等为主的，以找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类的算法。其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别中。

支持向量机：

在机器学习中，支持向量机(SVM，还支持矢量网络)是与相关的学习算法有关的监督学习模型，可以分析数据，识别模式，用于分类和回归分析。给定一组训练样本，每个标记为属于两类，一个SVM训练算法建立了一个模型，分配新的实例为一类或其他类，使其成为非概率二元线性分类。

本发明所要解决的技术问题在于克服现有技术不足，提供一种基于文本挖掘技术的投诉预警监测方法，针对12345工单数据记录的被投诉企业，准确掌握被投诉的热点问题，被投诉的频率，业务类型，对比分析企业库中相类似性质的企业，解决了目前人工梳理效率低和事后溯源追责的被动式管理问题。提出企业投诉风险预警模型，便于执法人员主动执法，为执法人员提供执法依据，执法紧迫程度意见，以及同性质同类型企业清单，从治标到治本的转变，从被动到主动服务的转变。

本发明提供的技术方案如下：

步骤1)数据采集及处理并生成规范化数据：

关键词W在文件d中的向量化归一化结果为：

式中：N表示文件总数量；N表示包含关键词W的文件数量；n为关键词总次数；W为第i个关键词；d表示第j个文件；tf为关键词W在文件d中的词频；为所有关键词在文件d中的词频平方和；为文件总数量与包含关键词W文件的数量比值加上调整项0.01后取对数；

步骤4)构建SVM分类器；

步骤5)构建训练分类模型；

步骤6)通过步骤5)进行模型预测。

S1：建立连词和否定词词典库；

优选的，步骤4)具体步骤如下：

问题转化为求最优化超平面问题：

S3：解出式(2)最优化函数为：

S4：选用RBF径向基核函数，即K(Z_i，Z_j)＝exp(-γ||Z_i-Z_j||)²,则分类器的优化问题最终转化为参数对(C,Υ)的选择问题。

优选的，步骤5)具体步骤如下：

优选的，步骤6)具体步骤如下：

S1：构建不含标记结果的工单得分率数据向量x’；

S3：y’即为所求的企业投诉风险等级计算结果。

Claims

1.一种基于机器学习文本挖掘技术的企业投诉风险预警方法，其特征在于，包括如下步骤：

步骤1)数据采集及处理并生成规范化数据：

步骤4)构建SVM分类器；

步骤5)构建训练分类模型；

步骤6)通过步骤5)进行模型预测。

2.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法，其特征在于，

步骤2)建立投诉分析等级聚类模型的具体步骤如下：

3.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法，其特征在于，

步骤3)中利用情感倾向度分析模块建立情感倾向度计算的具体步骤如下：

S1：建立连词和否定词词典库；

4.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法，其特征在于，

步骤4)具体步骤如下：

S1：设给定的训练集为{(z1,y1),(z2,y2),…,(zn,yn)}其中zi∈Rn为输入向量，yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b＝0线性划分，问题转化为求最优化超平面问题：

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mi>&Phi;</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>&xi;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>c</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>&GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&lsqb;</mo> <mrow> <mo>(</mo> <mi>W</mi> <mo>&CenterDot;</mo> <msub> <mi>Z</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> <mo>&rsqb;</mo> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>a</mi> </munder> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>j</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>&le;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&le;</mo> <mi>C</mi> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

S3：解出式(2)最优化函数为：

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>b</mi> <mo>*</mo> </msup> <mo>&rsqb;</mo> </mrow>

S4：选用RBF径向基核函数，即K(Z_i，Z_j)＝exp(-γ||Z_i-Z_j||)²,则分类器的优化问题最终转化为参数对(C,Y)的选择问题。

5.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法，其特征在于，

步骤5)具体步骤如下：

S3.针对测试集准确率，用计算机程序调整测试SVM算法中不同的C值和γ值参数对，使准确率pt达到预定要求的准确率p0，并保存记录这一准确率p0下的模型参数对(C0,γ₀)，即这一参数对为所求SVM分类模型的模型参数。

6.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法，其特征在于，

步骤6)具体步骤如下：

S1：构建不含标记结果的工单得分率数据向量x’；

S3：y’即为所求的企业投诉风险等级计算结果。