CN107992613A

CN107992613A - 一种基于机器学习的文本挖掘技术消费维权指标分析方法

Info

Publication number: CN107992613A
Application number: CN201711366440.9A
Authority: CN
Inventors: 王晓佳; 蔡文鑫
Original assignee: Guangdong Industry Kaiyuan Science And Technology Co Ltd
Current assignee: Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-05-04

Abstract

本发明提供了一种基于机器学习的文本挖掘技术消费维权指标分析方法，其特征在于，包括如下步骤：步骤1)数据采集及处理并生成规范化数据：步骤2)利用提取模块获取数据采集模块得到的规范化数据，并利用数据处理模块得到情感倾向度；步骤3)利用分类模块将情感倾向度分析后的消费维权数据进行分组和权重分类；步骤4)利用处理器进行指标得分率计算；步骤5)构建SVM分类器；步骤6)构建训练分类模型；步骤7)通过步骤6)进行模型预测。结合最新的感情倾向度分析计算方法并且结合业务数据计算，能达到快速、科学、标准、客观的计算结果，为执法部门提供消费维权指标计算，为管理部门提供执法决策辅助。

Description

一种基于机器学习的文本挖掘技术消费维权指标分析方法

技术领域

本发明涉及消费维权指数计算技术，具体涉及一种基于机器学习的文本挖掘技术消费维权指标分析方法，该方法主要应用于政府维稳监控***、投诉举报数据分析研判***、12345政务服务热线***、公安***、工商局***、企业征信***。

背景技术

随着近年社会经济的快速发展，12345政务服务热线受理部分消费者咨询、投诉、举报、意见及建议，是广大人民群众送上门来的“调查研究”，是工商行政管理机关研究加强和改进市场监管工作必须参考的大数据。其中投诉类型占12345工单数量一半以上，对投诉工单进行文本处理和分析，建立企业投诉风险预警模型是实现市场“大数据”向市场监管能力转化的有效探索和重要途径。

工商行政管理机关12345政务服务热线中心直接面对广大消费者，贴近人民群众，贴近市场，每天都会产生大量数据信息。这些数据信息是广大消费者对当下市场存在问题的实时反馈，能够及时、准确地反映消费热点的变化特点和规律，反映市场主体诚信经营状况、商品和服务质量状况，以及市场公平交易秩序状况，是市场监管质量的“温度计”、“晴雨表”，更是评价工商行政管理机关市场监管成效的“主考官”。

因此，加强对12345数据的分析利用，特别是被投诉企业的风险等级分类，坚持用数据说话，对于指导相关部门执法的针对性、时效性有重大意义。

传统“消费维权指数”的计算方法：消费维权指数可以某一时期确立为“基期”，选择服装鞋帽、美容美发、家居用品、家用电器及计算机产品、通讯器材类、交通工具、农业生产资料、网络交易这八大重点商品和服务作为监测领域，计算得出消费者投诉举报的商品和服务涉案总金额，然后建立数学模型：消费维权指数＝当月八大类别商品或服务各涉案金额除以基期(某一时期)同类商品或服务涉案总金额乘以100。

该算法的缺点：缺点1，仅仅考虑了涉案金额为唯一指标，计算结果往往会被某涉案金额高的数据影响，缺少了其他方面的考虑：立案比例、涉及人员人数、投诉人比例、异常企业投诉比例等等；缺点2，由于涉及的数据量巨大，新增了多个数据维度，给人工计算带来了若干困难。

发明内容

有鉴于此，本发明的主要目的是提供一种基于机器学习的文本挖掘技术消费维权指标分析方法。

具体的方案如下：

一种基于机器学习的文本挖掘技术消费维权指标分析方法，包括如下步骤：

步骤1)数据采集及处理并生成规范化数据：

S1：利用数据采集模块获取12345热线的工单文本；对数据采集模块获取的工单文本采用处理器进行初始处理步骤，对录入的文本数据利用分词模块和去噪模块进行处理，获得各个文本数据中的关键词；其中，数据采集模块连接处理器，处理器内设置有分词模块和去噪模块；

S2：设定文本特征向量化模块，将各个关键词进行向量化并作归一化处理，获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵；

S3：设定文本数据相似性匹配模块，根据建立的所述实数值矩阵，利用余弦定理计算各关键词间的余弦相似度，并将余弦距离最近的文本数据进行匹配，形成近义词词库；

S4：设定规范化数据生成模块，将匹配好的文本数据按照设定的统一规范化模式生成规范化数据；

步骤2)利用提取模块获取数据采集模块得到的规范化数据，并利用数据处理模块得到情感倾向度；

步骤3)利用分类模块将情感倾向度分析后的消费维权数据进行分组和权重分类；

步骤4)利用处理器进行指标得分率计算；

步骤5)构建SVM分类器；

步骤6)构建训练分类模型；

步骤7)通过步骤6)进行模型预测。

优选的，步骤2)利用数据处理模块得到情感倾向度的具体步骤如下：

S1：建立连词和否定词词典库；

S2：根据连词和否定词词典库从规范化数据中抽取连词和否定词，并标记相应词在规范化数据中的位置；

S3：匹配现有的情感词典库，获得词汇的极性及其情感评分值；

S4：通过连词位置，确定前句与后句所占比重，再根据否定词位置判断双重否定以及邻近词汇的极性反转；

S5：利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分；

S6：循环步骤S2至S5，若情感计算评分为正则为积极，为负则为消极，否则为中心；

S7：投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级；

S8：提高限定结果的精确性：在制定投诉风险等级规则需要对规则进行验证，将验证集数据输入建立的分类学习模型，获得验证集数据中各文本数据的投诉风险等级，并将结果集与验证集数据中对应的等级数据进行比对，计算模型预测的正确率∈{-1,1}。

优选的，步骤4)利用处理器进行指标得分率计算的具体步骤如下：

S1：设消费维权指数有m个评价领域，有n个专家参与评价，设某一专家k给出的评分值集合为X_i(j))}^(k)，式中{X_i(j))}^(k)表示第k＝1，2，···，n个专家对第i(i＝1，2，···，n)领域的评分序分值，其值为j(j＝1，2，···，m)；

S2：根据可将序分值集合转化为基分值集合{B_i(j))}^(k)，其中

根据可将序分值集合转化为基分值集合{B_i(j)}^(k)，其中{B_i(j)}^(k)表示第k个专家对第i个领域排在第j位时所对应的基数分值；

然后，用下述公式计算每个研究领域的重要程度:

在(2)以及(3)式中，m在(2)以及(3)式中，m表示领域数；Si表示i领域得分值；n表示专家数；B_i(j)表示i领域排在j位得分值；N_i表示赞同某一领域排在第j位的人

S3：将S2中计算得到的所有m个项目得分率S_i组合成一个m维的向量x＝[a₁，a₂，…，a_m]，该向量即表示一个投诉工单的评分情况。计算所有投诉工单评分情况向量，构成全体数据集Z＝{z_n,n∈R}；

S4：对全体数据集Z中的数据进行标号分类，所有高得分率工单标注为1，非高得分率工单标注为-1；并将标注结果后全体数据集中随机取出的60％数据组合构成训练数据集S_train＝{(z_n,y_n)|z_n∈Z,z_n∈{-1,1},n＝1,2,3…}其中z_n为第n个工单的得分率向量，y_n为对应第n个工单的得分率结果，其余40％作为测试数据集S_test＝{(z_m,y_m)|z_m∈Z，y_m∈{-1,1},m＝1,2,3…}其中z_m为第m个工单的得分率向量，y_m为对应第m个工单的得分率结果。

优选的，步骤5)构建SVM分类器的具体步骤如下：

S1：设给定的训练集为{(z₁,y₁),(z₂,y₂),…,(z_n,y_n)}其中zⁱ∈Rⁿ为输入向量，yⁱ∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b＝0线性划分，问题转化为求最优化超平面问题：

S2：对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rⁿ映射到高维的特征空间H，使线性可分，则优化问题转化为

S3：解出式(5)最优化函数为：

从式(5)最小化问题可以得出，选择合适的函数K(·)和C即可以确定SVM分类器；

S4：选用RBF径向基核函数，即K(Z_i，Z_j)＝exp(-γ||Z_i-Z_j||)²,则分类器的优化问题最终转化为参数对(C,γ)的选择问题。

优选的，步骤6)具体步骤如下：

S1.以1≤C≤1000和0≤γ≤100为范围，构建取值范围内所有C和γ组成的参数对；

S2.依次取参数对(C,γ)作为基于RBF核函数的SVM分类器参数初始值，训练数据向量集S_train和测试数据向量集S_test，记这一分类模型下对测试数据集预测的准确率为pt；

S3.针对测试集准确率，用计算机程序调整测试SVM算法中不同的C值和γ值参数对，使准确率p_t达到预定要求的准确率p0，并保存记录这一准确率p₀下的模型参数对(C₀,γ₀)，即这一参数对为所求SVM分类模型的模型参数。

优选的，步骤7)具体步骤如下：

S1：构建不含标记结果的工单得分率数据向量x’；

S2：采用步骤三中训练所得的模型参数(C₀,γ₀)对x’进行SVM分类预测，得到输出结果y’∈{-1,1}

S3：y’即为柔和工单情感度和业务数据的消费维权指标模型计算结果。

本发明是为了解决以上算法的缺点，将消费维权指数体系涉及的其他维度纳入计算范围，运用大数据分类算法、专家评分模型保证结果的准确和科学。本发明提供一种基于文本挖掘技术的消费维权指标模型，针对12345工单数据记录的消费维权投诉人、投诉单位，准确掌握被投诉的热点问题，分析其投诉感情倾向度，投诉的频率，业务类型等，再利用大数据分类算法，建立消费维权指标模型。

附图说明

图1为本发明的方法流程图；

图2为本发明对工单数据进行业务分类梳理流程图；

图3为本发明模型验证流程图。

具体实施方式

以下结合实例对本发明做进一步详细说明。

术语解释：

感情倾向度算法：

文本的情感倾向性研究是当前计算机领域、智能信息领域、自然语言处理领域中比较活跃的一个分支，它通过对文本中的评论对象的情感倾向进行分析，可以判断出评论者对评论对象的情感倾向是褒义的还是贬义的。文本情感倾向性分析被广泛地应用于信息检索、信息过滤、情感识别等领域。

大数据分类算法：

大数据分类算法指的是以支持向量机、神经网络等为主的，以找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类的算法。其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别中。

支持向量机：

在机器学习中，支持向量机(SVM，还支持矢量网络)是与相关的学习算法有关的监督学习模型，可以分析数据，识别模式，用于分类和回归分析。给定一组训练样本，每个标记为属于两类，一个SVM训练算法建立了一个模型，分配新的实例为一类或其他类，使其成为非概率二元线性分类。

本发明提供的技术方案如下：

步骤1)数据采集及处理并生成规范化数据：

S2：设定文本特征向量化模块，将各个关键词进行向量化并作归一化处理，获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵；关键词W在文件d中的向量化归一化结果为：

<img file＝"DEST_PATH_GDA0001183237700000021.GIF"wi＝"700"he＝"168"img-content＝"drawing"img-format＝"GIF"orientation＝"portrait"inline＝"no"/>。

步骤2)利用提取模块获取数据采集模块得到的规范化数据，并利用数据处理模块得到情感倾向度；具体步骤如下：

S1：建立连词和否定词词典库；

数据采集模块采集的12345热线按照工单内容，按照关键字通过嵌入式分类模块进行分类，得到二级指标，以及重要等级进行分组分类；(对一个***中的不同子项进行分类，总体按照项目对消费维权指标结果影响大小分为三级，分别为：较大影响项目、一般影响项目、较小影响项目)进行分组分类。

参照表1，表1提供了一种分类的方法。

表1为按照14个评价领域提供的实施例示意表。

步骤4)利用处理器进行指标得分率计算；

具体步骤如下：

S2：根据可将序分值集合转化为基分值集合{B_i(j))}^(k)，其中

根据可将序分值集合转化为基分值集合{B_i(j)}^(k)，其中{B_i(j)}^(k)表示第k个专家对第i个领域排在第j位时所对应的基数分值；然后，用下述公式计算每个研究领域的重要程度:

在(2)以及(3)式中，m在(2)以及(3)式中，m表示领域数；S_i表示i领域得分值；n表示专家数；B_i(j)表示i领域排在j位得分值；N_i表示赞同某一领域排在第j位的人

步骤5)构建SVM分类器；具体步骤如下：

S3：解出式(5)最优化函数为：

S4：选用RBF径向基核函数，即K(Z_i，Z_j)＝exp(-Υ||Z_i-Z_j||)²,则分类器的优化问题最终转化为参数对(C,Υ)的选择问题。

步骤6)构建训练分类模型；具体步骤如下：

步骤7)通过步骤6)进行模型预测；具体步骤如下：

S1：构建不含标记结果的工单得分率数据向量x’；

传统方式中对消费维权指数的计算极大地依赖于消费维权涉及的金额数据，数据维度单一，不具备现实普遍性。本发明能利用现有的计算机处理速度，处理成千上万的12345工单数据，对工单内容进行分类，分析，结合最新的感情倾向度分析计算方法并且结合业务数据计算，能达到快速、科学、标准、客观的计算结果，为执法部门提供消费维权指标计算，为管理部门提供执法决策辅助。

Claims

1.一种基于机器学习的文本挖掘技术消费维权指标分析方法，其特征在于，包括如下步骤：

步骤1)数据采集及处理并生成规范化数据：

步骤4)利用处理器进行指标得分率计算；

步骤5)构建SVM分类器；

步骤6)构建训练分类模型；

步骤7)通过步骤6)进行模型预测。

2.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法，其特征在于，

步骤2)利用数据处理模块得到情感倾向度的具体步骤如下：

S1：建立连词和否定词词典库；

3.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法，其特征在于，

步骤4)利用处理器进行指标得分率计算的具体步骤如下：

S1：设消费维权指数有m个评价领域，有n个专家参与评价，设某一专家k给出的评分值集合为X_i(j))}^(k)，式中{X_i(j))}^(k)表示第k＝1，2，…，n个专家对第i(i＝1，2，…，n)领域的评分序分值，其值为j(j＝1，2，…，m)；

S2：根据可将序分值集合转化为基分值集合{B_i(j))}^(k)，其中

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </msub> <msub> <mi>N</mi> <mi>j</mi> </msub> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>......</mn> <mo>,</mo> <mi>m</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>S</mi> <mi>i</mi> </msub> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>J</mi> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>......</mn> <mo>,</mo> <mi>m</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

S3：将S2中计算得到的所有m个项目得分率S_i组合成一个m维的向量x＝[a₁，a₂，…，a_m]，该向量即表示一个投诉工单的评分情况，计算所有投诉工单评分情况向量，构成全体数据集Z＝{z_n,n∈R}；

4.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法，其特征在于，

步骤5)构建SVM分类器的具体步骤如下：

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mi>&Phi;</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>&xi;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>c</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>&GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&lsqb;</mo> <mrow> <mo>(</mo> <mi>W</mi> <mo>&CenterDot;</mo> <msub> <mi>Z</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> <mo>&rsqb;</mo> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mi>a</mi> </munder> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>j</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>&le;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&le;</mo> <mi>C</mi> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

S3：解出式(5)最优化函数为：

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> <mo>*</mo> <mo>&rsqb;</mo> </mrow>

5.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法，其特征在于，

步骤6)具体步骤如下：

6.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法，其特征在于，

步骤7)具体步骤如下：

S1：构建不含标记结果的工单得分率数据向量x’；

S2：采用步骤三中训练所得的模型参数(C₀,γ₀)对x’进行SVM分类预测，得到输出结果y’∈{-1,1}；