CN107992613A - 一种基于机器学习的文本挖掘技术消费维权指标分析方法 - Google Patents

一种基于机器学习的文本挖掘技术消费维权指标分析方法 Download PDF

Info

Publication number
CN107992613A
CN107992613A CN201711366440.9A CN201711366440A CN107992613A CN 107992613 A CN107992613 A CN 107992613A CN 201711366440 A CN201711366440 A CN 201711366440A CN 107992613 A CN107992613 A CN 107992613A
Authority
CN
China
Prior art keywords
data
score
module
text
complaint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711366440.9A
Other languages
English (en)
Inventor
王晓佳
蔡文鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Industry Kaiyuan Science And Technology Co Ltd
Original Assignee
Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Industry Kaiyuan Science And Technology Co Ltd filed Critical Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority to CN201711366440.9A priority Critical patent/CN107992613A/zh
Publication of CN107992613A publication Critical patent/CN107992613A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,包括如下步骤:步骤1)数据采集及处理并生成规范化数据:步骤2)利用提取模块获取数据采集模块得到的规范化数据,并利用数据处理模块得到情感倾向度;步骤3)利用分类模块将情感倾向度分析后的消费维权数据进行分组和权重分类;步骤4)利用处理器进行指标得分率计算;步骤5)构建SVM分类器;步骤6)构建训练分类模型;步骤7)通过步骤6)进行模型预测。结合最新的感情倾向度分析计算方法并且结合业务数据计算,能达到快速、科学、标准、客观的计算结果,为执法部门提供消费维权指标计算,为管理部门提供执法决策辅助。

Description

一种基于机器学习的文本挖掘技术消费维权指标分析方法
技术领域
本发明涉及消费维权指数计算技术,具体涉及一种基于机器学习的文本挖掘技术消费维权指标分析方法,该方法主要应用于政府维稳监控***、投诉举报数据分析研判***、12345政务服务热线***、公安***、工商局***、企业征信***。
背景技术
随着近年社会经济的快速发展,12345政务服务热线受理部分消费者咨询、投诉、举报、意见及建议,是广大人民群众送上门来的“调查研究”,是工商行政管理机关研究加强和改进市场监管工作必须参考的大数据。其中投诉类型占12345工单数量一半以上,对投诉工单进行文本处理和分析,建立企业投诉风险预警模型是实现市场“大数据”向市场监管能力转化的有效探索和重要途径。
工商行政管理机关12345政务服务热线中心直接面对广大消费者,贴近人民群众,贴近市场,每天都会产生大量数据信息。这些数据信息是广大消费者对当下市场存在问题的实时反馈,能够及时、准确地反映消费热点的变化特点和规律,反映市场主体诚信经营状况、商品和服务质量状况,以及市场公平交易秩序状况,是市场监管质量的“温度计”、“晴雨表”,更是评价工商行政管理机关市场监管成效的“主考官”。
因此,加强对12345数据的分析利用,特别是被投诉企业的风险等级分类,坚持用数据说话,对于指导相关部门执法的针对性、时效性有重大意义。
传统“消费维权指数”的计算方法:消费维权指数可以某一时期确立为“基期”,选择服装鞋帽、美容美发、家居用品、家用电器及计算机产品、通讯器材类、交通工具、农业生产资料、网络交易这八大重点商品和服务作为监测领域,计算得出消费者投诉举报的商品和服务涉案总金额,然后建立数学模型:消费维权指数=当月八大类别商品或服务各涉案金额除以基期(某一时期)同类商品或服务涉案总金额乘以100。
该算法的缺点:缺点1,仅仅考虑了涉案金额为唯一指标,计算结果往往会被某涉案金额高的数据影响,缺少了其他方面的考虑:立案比例、涉及人员人数、投诉人比例、异常企业投诉比例等等;缺点2,由于涉及的数据量巨大,新增了多个数据维度,给人工计算带来了若干困难。
发明内容
有鉴于此,本发明的主要目的是提供一种基于机器学习的文本挖掘技术消费维权指标分析方法。
具体的方案如下:
一种基于机器学习的文本挖掘技术消费维权指标分析方法,包括如下步骤:
步骤1)数据采集及处理并生成规范化数据:
S1:利用数据采集模块获取12345热线的工单文本;对数据采集模块获取的工单文本采用处理器进行初始处理步骤,对录入的文本数据利用分词模块和去噪模块进行处理,获得各个文本数据中的关键词;其中,数据采集模块连接处理器,处理器内设置有分词模块和去噪模块;
S2:设定文本特征向量化模块,将各个关键词进行向量化并作归一化处理,获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵;
S3:设定文本数据相似性匹配模块,根据建立的所述实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
S4:设定规范化数据生成模块,将匹配好的文本数据按照设定的统一规范化模式生成规范化数据;
步骤2)利用提取模块获取数据采集模块得到的规范化数据,并利用数据处理模块得到情感倾向度;
步骤3)利用分类模块将情感倾向度分析后的消费维权数据进行分组和权重分类;
步骤4)利用处理器进行指标得分率计算;
步骤5)构建SVM分类器;
步骤6)构建训练分类模型;
步骤7)通过步骤6)进行模型预测。
优选的,步骤2)利用数据处理模块得到情感倾向度的具体步骤如下:
S1:建立连词和否定词词典库;
S2:根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范化数据中的位置;
S3:匹配现有的情感词典库,获得词汇的极性及其情感评分值;
S4:通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;
S5:利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;
S6:循环步骤S2至S5,若情感计算评分为正则为积极,为负则为消极,否则为中心;
S7:投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级;
S8:提高限定结果的精确性:在制定投诉风险等级规则需要对规则进行验证,将验证集数据输入建立的分类学习模型,获得验证集数据中各文本数据的投诉风险等级,并将结果集与验证集数据中对应的等级数据进行比对,计算模型预测的正确率∈{-1,1}。
优选的,步骤4)利用处理器进行指标得分率计算的具体步骤如下:
S1:设消费维权指数有m个评价领域,有n个专家参与评价,设某一专家k给出的评分值集合为Xi(j))}(k),式中{Xi(j))}(k)表示第k=1,2,···,n个专家对第i(i=1,2,···,n)领域的评分序分值,其值为j(j=1,2,···,m);
S2:根据可将序分值集合转化为基分值集合{Bi(j))}(k),其中
根据可将序分值集合转化为基分值集合{Bi(j)}(k),其中{Bi(j)}(k)表示第k个专家对第i个领域排在第j位时所对应的基数分值;
然后,用下述公式计算每个研究领域的重要程度:
在(2)以及(3)式中,m在(2)以及(3)式中,m表示领域数;Si表示i领域得分值;n表示专家数;Bi(j)表示i领域排在j位得分值;Ni表示赞同某一领域排在第j位的人
S3:将S2中计算得到的所有m个项目得分率Si组合成一个m维的向量x=[a1,a2,…,am],该向量即表示一个投诉工单的评分情况。计算所有投诉工单评分情况向量,构成全体数据集Z={zn,n∈R};
S4:对全体数据集Z中的数据进行标号分类,所有高得分率工单标注为1,非高得分率工单标注为-1;并将标注结果后全体数据集中随机取出的60%数据组合构成训练数据集Strain={(zn,yn)|zn∈Z,zn∈{-1,1},n=1,2,3…}其中zn为第n个工单的得分率向量,yn为对应第n个工单的得分率结果,其余40%作为测试数据集Stest={(zm,ym)|zm∈Z,ym∈{-1,1},m=1,2,3…}其中zm为第m个工单的得分率向量,ym为对应第m个工单的得分率结果。
优选的,步骤5)构建SVM分类器的具体步骤如下:
S1:设给定的训练集为{(z1,y1),(z2,y2),…,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,问题转化为求最优化超平面问题:
S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分,则优化问题转化为
S3:解出式(5)最优化函数为:
从式(5)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;
S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-γ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,γ)的选择问题。
优选的,步骤6)具体步骤如下:
S1.以1≤C≤1000和0≤γ≤100为范围,构建取值范围内所有C和γ组成的参数对;
S2.依次取参数对(C,γ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;
S3.针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和γ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C00),即这一参数对为所求SVM分类模型的模型参数。
优选的,步骤7)具体步骤如下:
S1:构建不含标记结果的工单得分率数据向量x’;
S2:采用步骤三中训练所得的模型参数(C00)对x’进行SVM分类预测,得到输出结果y’∈{-1,1}
S3:y’即为柔和工单情感度和业务数据的消费维权指标模型计算结果。
本发明是为了解决以上算法的缺点,将消费维权指数体系涉及的其他维度纳入计算范围,运用大数据分类算法、专家评分模型保证结果的准确和科学。本发明提供一种基于文本挖掘技术的消费维权指标模型,针对12345工单数据记录的消费维权投诉人、投诉单位,准确掌握被投诉的热点问题,分析其投诉感情倾向度,投诉的频率,业务类型等,再利用大数据分类算法,建立消费维权指标模型。
附图说明
图1为本发明的方法流程图;
图2为本发明对工单数据进行业务分类梳理流程图;
图3为本发明模型验证流程图。
具体实施方式
以下结合实例对本发明做进一步详细说明。
术语解释:
感情倾向度算法:
文本的情感倾向性研究是当前计算机领域、智能信息领域、自然语言处理领域中比较活跃的一个分支,它通过对文本中的评论对象的情感倾向进行分析,可以判断出评论者对评论对象的情感倾向是褒义的还是贬义的。文本情感倾向性分析被广泛地应用于信息检索、信息过滤、情感识别等领域。
大数据分类算法:
大数据分类算法指的是以支持向量机、神经网络等为主的,以找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类的算法。其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中。
支持向量机:
在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个标记为属于两类,一个SVM训练算法建立了一个模型,分配新的实例为一类或其他类,使其成为非概率二元线性分类。
本发明提供的技术方案如下:
一种基于机器学习的文本挖掘技术消费维权指标分析方法,包括如下步骤:
步骤1)数据采集及处理并生成规范化数据:
S1:利用数据采集模块获取12345热线的工单文本;对数据采集模块获取的工单文本采用处理器进行初始处理步骤,对录入的文本数据利用分词模块和去噪模块进行处理,获得各个文本数据中的关键词;其中,数据采集模块连接处理器,处理器内设置有分词模块和去噪模块;
S2:设定文本特征向量化模块,将各个关键词进行向量化并作归一化处理,获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵;关键词W在文件d中的向量化归一化结果为:
<img file="DEST_PATH_GDA0001183237700000021.GIF"wi="700"he="168"img-content="drawing"img-format="GIF"orientation="portrait"inline="no"/>。
S3:设定文本数据相似性匹配模块,根据建立的所述实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
S4:设定规范化数据生成模块,将匹配好的文本数据按照设定的统一规范化模式生成规范化数据;
步骤2)利用提取模块获取数据采集模块得到的规范化数据,并利用数据处理模块得到情感倾向度;具体步骤如下:
S1:建立连词和否定词词典库;
S2:根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范化数据中的位置;
S3:匹配现有的情感词典库,获得词汇的极性及其情感评分值;
S4:通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;
S5:利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;
S6:循环步骤S2至S5,若情感计算评分为正则为积极,为负则为消极,否则为中心;
S7:投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级;
S8:提高限定结果的精确性:在制定投诉风险等级规则需要对规则进行验证,将验证集数据输入建立的分类学习模型,获得验证集数据中各文本数据的投诉风险等级,并将结果集与验证集数据中对应的等级数据进行比对,计算模型预测的正确率∈{-1,1}。
步骤3)利用分类模块将情感倾向度分析后的消费维权数据进行分组和权重分类;
数据采集模块采集的12345热线按照工单内容,按照关键字通过嵌入式分类模块进行分类,得到二级指标,以及重要等级进行分组分类;(对一个***中的不同子项进行分类,总体按照项目对消费维权指标结果影响大小分为三级,分别为:较大影响项目、一般影响项目、较小影响项目)进行分组分类。
参照表1,表1提供了一种分类的方法。
表1为按照14个评价领域提供的实施例示意表。
步骤4)利用处理器进行指标得分率计算;
具体步骤如下:
S1:设消费维权指数有m个评价领域,有n个专家参与评价,设某一专家k给出的评分值集合为Xi(j))}(k),式中{Xi(j))}(k)表示第k=1,2,···,n个专家对第i(i=1,2,···,n)领域的评分序分值,其值为j(j=1,2,···,m);
S2:根据可将序分值集合转化为基分值集合{Bi(j))}(k),其中
根据可将序分值集合转化为基分值集合{Bi(j)}(k),其中{Bi(j)}(k)表示第k个专家对第i个领域排在第j位时所对应的基数分值;然后,用下述公式计算每个研究领域的重要程度:
在(2)以及(3)式中,m在(2)以及(3)式中,m表示领域数;Si表示i领域得分值;n表示专家数;Bi(j)表示i领域排在j位得分值;Ni表示赞同某一领域排在第j位的人
S3:将S2中计算得到的所有m个项目得分率Si组合成一个m维的向量x=[a1,a2,…,am],该向量即表示一个投诉工单的评分情况。计算所有投诉工单评分情况向量,构成全体数据集Z={zn,n∈R};
S4:对全体数据集Z中的数据进行标号分类,所有高得分率工单标注为1,非高得分率工单标注为-1;并将标注结果后全体数据集中随机取出的60%数据组合构成训练数据集Strain={(zn,yn)|zn∈Z,zn∈{-1,1},n=1,2,3…}其中zn为第n个工单的得分率向量,yn为对应第n个工单的得分率结果,其余40%作为测试数据集Stest={(zm,ym)|zm∈Z,ym∈{-1,1},m=1,2,3…}其中zm为第m个工单的得分率向量,ym为对应第m个工单的得分率结果。
步骤5)构建SVM分类器;具体步骤如下:
S1:设给定的训练集为{(z1,y1),(z2,y2),…,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,问题转化为求最优化超平面问题:
S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分,则优化问题转化为
S3:解出式(5)最优化函数为:
从式(5)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;
S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-Υ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,Υ)的选择问题。
步骤6)构建训练分类模型;具体步骤如下:
S1.以1≤C≤1000和0≤γ≤100为范围,构建取值范围内所有C和γ组成的参数对;
S2.依次取参数对(C,γ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;
S3.针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和γ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C00),即这一参数对为所求SVM分类模型的模型参数。
步骤7)通过步骤6)进行模型预测;具体步骤如下:
S1:构建不含标记结果的工单得分率数据向量x’;
S2:采用步骤三中训练所得的模型参数(C00)对x’进行SVM分类预测,得到输出结果y’∈{-1,1}
S3:y’即为柔和工单情感度和业务数据的消费维权指标模型计算结果。
传统方式中对消费维权指数的计算极大地依赖于消费维权涉及的金额数据,数据维度单一,不具备现实普遍性。本发明能利用现有的计算机处理速度,处理成千上万的12345工单数据,对工单内容进行分类,分析,结合最新的感情倾向度分析计算方法并且结合业务数据计算,能达到快速、科学、标准、客观的计算结果,为执法部门提供消费维权指标计算,为管理部门提供执法决策辅助。

Claims (6)

1.一种基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,包括如下步骤:
步骤1)数据采集及处理并生成规范化数据:
S1:利用数据采集模块获取12345热线的工单文本;对数据采集模块获取的工单文本采用处理器进行初始处理步骤,对录入的文本数据利用分词模块和去噪模块进行处理,获得各个文本数据中的关键词;其中,数据采集模块连接处理器,处理器内设置有分词模块和去噪模块;
S2:设定文本特征向量化模块,将各个关键词进行向量化并作归一化处理,获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵;
S3:设定文本数据相似性匹配模块,根据建立的所述实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
S4:设定规范化数据生成模块,将匹配好的文本数据按照设定的统一规范化模式生成规范化数据;
步骤2)利用提取模块获取数据采集模块得到的规范化数据,并利用数据处理模块得到情感倾向度;
步骤3)利用分类模块将情感倾向度分析后的消费维权数据进行分组和权重分类;
步骤4)利用处理器进行指标得分率计算;
步骤5)构建SVM分类器;
步骤6)构建训练分类模型;
步骤7)通过步骤6)进行模型预测。
2.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,
步骤2)利用数据处理模块得到情感倾向度的具体步骤如下:
S1:建立连词和否定词词典库;
S2:根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范化数据中的位置;
S3:匹配现有的情感词典库,获得词汇的极性及其情感评分值;
S4:通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;
S5:利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;
S6:循环步骤S2至S5,若情感计算评分为正则为积极,为负则为消极,否则为中心;
S7:投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级;
S8:提高限定结果的精确性:在制定投诉风险等级规则需要对规则进行验证,将验证集数据输入建立的分类学习模型,获得验证集数据中各文本数据的投诉风险等级,并将结果集与验证集数据中对应的等级数据进行比对,计算模型预测的正确率∈{-1,1}。
3.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,
步骤4)利用处理器进行指标得分率计算的具体步骤如下:
S1:设消费维权指数有m个评价领域,有n个专家参与评价,设某一专家k给出的评分值集合为Xi(j))}(k),式中{Xi(j))}(k)表示第k=1,2,…,n个专家对第i(i=1,2,…,n)领域的评分序分值,其值为j(j=1,2,…,m);
S2:根据可将序分值集合转化为基分值集合{Bi(j))}(k),其中
根据可将序分值集合转化为基分值集合{Bi(j)}(k),其中{Bi(j)}(k)表示第k个专家对第i个领域排在第j位时所对应的基数分值;然后,用下述公式计算每个研究领域的重要程度:
<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>B</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </msub> <msub> <mi>N</mi> <mi>j</mi> </msub> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>......</mn> <mo>,</mo> <mi>m</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>S</mi> <mi>i</mi> </msub> <mi>n</mi> </mfrac> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <mi>J</mi> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>......</mn> <mo>,</mo> <mi>m</mi> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
在(2)以及(3)式中,m在(2)以及(3)式中,m表示领域数;Si表示i领域得分值;n表示专家数;Bi(j)表示i领域排在j位得分值;Ni表示赞同某一领域排在第j位的人
S3:将S2中计算得到的所有m个项目得分率Si组合成一个m维的向量x=[a1,a2,…,am],该向量即表示一个投诉工单的评分情况,计算所有投诉工单评分情况向量,构成全体数据集Z={zn,n∈R};
S4:对全体数据集Z中的数据进行标号分类,所有高得分率工单标注为1,非高得分率工单标注为-1;并将标注结果后全体数据集中随机取出的60%数据组合构成训练数据集Strain={(zn,yn)|zn∈Z,zn∈{-1,1},n=1,2,3…}其中zn为第n个工单的得分率向量,yn为对应第n个工单的得分率结果,其余40%作为测试数据集Stest={(zm,ym)|zm∈Z,ym∈{-1,1},m=1,2,3…}其中zm为第m个工单的得分率向量,ym为对应第m个工单的得分率结果。
4.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,
步骤5)构建SVM分类器的具体步骤如下:
S1:设给定的训练集为{(z1,y1),(z2,y2),…,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,问题转化为求最优化超平面问题:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mi>&amp;Phi;</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>&amp;xi;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>c</mi> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&amp;lsqb;</mo> <mrow> <mo>(</mo> <mi>W</mi> <mo>&amp;CenterDot;</mo> <msub> <mi>Z</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> <mo>&amp;rsqb;</mo> <mo>&amp;GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分,则优化问题转化为
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mi>min</mi> <mi>a</mi> </munder> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>j</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>&amp;le;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&amp;le;</mo> <mi>C</mi> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
S3:解出式(5)最优化函数为:
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mo>&amp;lsqb;</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> <mo>*</mo> <mo>&amp;rsqb;</mo> </mrow>
从式(5)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;
S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-γ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,γ)的选择问题。
5.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,
步骤6)具体步骤如下:
S1.以1≤C≤1000和0≤γ≤100为范围,构建取值范围内所有C和γ组成的参数对;
S2.依次取参数对(C,γ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;
S3.针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和γ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C00),即这一参数对为所求SVM分类模型的模型参数。
6.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,
步骤7)具体步骤如下:
S1:构建不含标记结果的工单得分率数据向量x’;
S2:采用步骤三中训练所得的模型参数(C00)对x’进行SVM分类预测,得到输出结果y’∈{-1,1};
S3:y’即为柔和工单情感度和业务数据的消费维权指标模型计算结果。
CN201711366440.9A 2017-12-18 2017-12-18 一种基于机器学习的文本挖掘技术消费维权指标分析方法 Pending CN107992613A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711366440.9A CN107992613A (zh) 2017-12-18 2017-12-18 一种基于机器学习的文本挖掘技术消费维权指标分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711366440.9A CN107992613A (zh) 2017-12-18 2017-12-18 一种基于机器学习的文本挖掘技术消费维权指标分析方法

Publications (1)

Publication Number Publication Date
CN107992613A true CN107992613A (zh) 2018-05-04

Family

ID=62038511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711366440.9A Pending CN107992613A (zh) 2017-12-18 2017-12-18 一种基于机器学习的文本挖掘技术消费维权指标分析方法

Country Status (1)

Country Link
CN (1) CN107992613A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069777A (zh) * 2019-04-03 2019-07-30 网宿科技股份有限公司 一种客服质量审计方法及装置
CN111355849A (zh) * 2018-12-24 2020-06-30 北京国双科技有限公司 一种话务工单处理方法及装置
CN111400430A (zh) * 2020-03-11 2020-07-10 广联达科技股份有限公司 数字建筑清单计价中快速组价的方法及***
CN113240556A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 基于智能决策的侵权处理方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831558A (zh) * 2012-07-20 2012-12-19 桂林电子科技大学 不依赖人工预评分的大学英语作文自动评分***及方法
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
US8942470B2 (en) * 2008-12-16 2015-01-27 Microsoft Corporation Sentiment classification using out of domain data
CN105893758A (zh) * 2016-04-01 2016-08-24 河北工程大学 一种wmnt瓦斯***灾害风险评价方法
CN106530127A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析***
CN106529804A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析方法
CN106897792A (zh) * 2017-01-10 2017-06-27 广东广业开元科技有限公司 一种建筑消防风险等级预测方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8942470B2 (en) * 2008-12-16 2015-01-27 Microsoft Corporation Sentiment classification using out of domain data
CN102831558A (zh) * 2012-07-20 2012-12-19 桂林电子科技大学 不依赖人工预评分的大学英语作文自动评分***及方法
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN105893758A (zh) * 2016-04-01 2016-08-24 河北工程大学 一种wmnt瓦斯***灾害风险评价方法
CN106530127A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析***
CN106529804A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析方法
CN106897792A (zh) * 2017-01-10 2017-06-27 广东广业开元科技有限公司 一种建筑消防风险等级预测方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林升梁、刘志: "基于RBF核函数的支持向量机参数选择", 《浙江工业大学学报》 *
鞠姗: "贸易保护主义压力下的我国贸易摩擦预警模型", 《山东财政学院学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111355849A (zh) * 2018-12-24 2020-06-30 北京国双科技有限公司 一种话务工单处理方法及装置
CN110069777A (zh) * 2019-04-03 2019-07-30 网宿科技股份有限公司 一种客服质量审计方法及装置
CN111400430A (zh) * 2020-03-11 2020-07-10 广联达科技股份有限公司 数字建筑清单计价中快速组价的方法及***
CN113240556A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 基于智能决策的侵权处理方法、装置、设备及介质
CN113240556B (zh) * 2021-05-31 2024-02-09 平安科技(深圳)有限公司 基于智能决策的侵权处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108108352A (zh) 一种基于机器学习文本挖掘技术的企业投诉风险预警方法
Liu et al. Combining enterprise knowledge graph and news sentiment analysis for stock price prediction
JP2021504789A (ja) Esg基盤の企業評価遂行装置及びその作動方法
CN107992613A (zh) 一种基于机器学习的文本挖掘技术消费维权指标分析方法
CN106570525A (zh) 一种基于贝叶斯网络的在线商品评价质量评估方法
Wu et al. User Value Identification Based on Improved RFM Model and K‐Means++ Algorithm for Complex Data Analysis
CN106599065A (zh) 一种基于Storm分布式框架的食品安全网络舆情预警***
CN107944761A (zh) 基于人工智能消费维权指数企业投诉预警监测分析方法
Jonathan et al. Sentiment analysis of customer reviews in zomato bangalore restaurants using random forest classifier
Kashti et al. Enhancing NLP techniques for fake review detection
Darena et al. Machine learning-based analysis of the association between online texts and stock price movements
CN111626331B (zh) 一种自动化行业分类装置及其工作方法
Alamsyah et al. Analyzing employee voice using real-time feedback
Mitsuzuka et al. Analysis of CSR activities affecting corporate value using machine learning
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
Wu et al. The BP neural network with adam optimizer for predicting audit opinions of listed companies.
CN112506930B (zh) 一种基于机器学习技术的数据洞察***
Hai Data mining of enterprise financial management based on AHP
Qian et al. Satiindicator: Leveraging user reviews to evaluate user satisfaction of sourceforge projects
Reddy et al. Classification of Hotel Reviews using Machine Learning Techniques
Nadali et al. Class Labeling of Bank Credit's Customers Using AHP and SAW for Credit Scoring with Data Mining Algorithms
Zhu et al. Identification of Impoverished College Students Based on LR-RF Dual Indicators
Zhang et al. Construction of portrait system of listed companies based on big data
Masuda et al. A comparative study using discriminant analysis on a questionnaire survey regarding project managers’ cognition and team characteristics
Urkude et al. Comparative analysis on machine learning techniques: a case study on Amazon product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180504