CN108108352A - 一种基于机器学习文本挖掘技术的企业投诉风险预警方法 - Google Patents

一种基于机器学习文本挖掘技术的企业投诉风险预警方法 Download PDF

Info

Publication number
CN108108352A
CN108108352A CN201711363852.7A CN201711363852A CN108108352A CN 108108352 A CN108108352 A CN 108108352A CN 201711363852 A CN201711363852 A CN 201711363852A CN 108108352 A CN108108352 A CN 108108352A
Authority
CN
China
Prior art keywords
complaint
data
module
early warning
grade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711363852.7A
Other languages
English (en)
Inventor
孔祥明
高峰
蔡文鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Industry Kaiyuan Science And Technology Co Ltd
Original Assignee
Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Industry Kaiyuan Science And Technology Co Ltd filed Critical Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority to CN201711363852.7A priority Critical patent/CN108108352A/zh
Publication of CN108108352A publication Critical patent/CN108108352A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于机器学习文本挖掘技术的企业投诉风险预警方法,包括如下步骤:步骤1)数据采集及处理并生成规范化数据:步骤2)建立投诉分析等级聚类模型:步骤3)设定情感倾向度分析模块,利用情感倾向度分析模块建立情感倾向度计算;步骤4)构建SVM分类器;步骤5)构建训练分类模型;步骤6)通过步骤5)进行模型预测。本发明能利用现有的计算机处理速度,处理成千上万的12345工单数据,对工单内容进行分类,分析。为执法部门提供企业投诉风险预警,为管理部门提供执法决策辅助,改被动执法为主动执法,改治标为治本的社会治理方式。

Description

一种基于机器学习文本挖掘技术的企业投诉风险预警方法
技术领域
本发明涉及消费维权指数计算技术,具体涉及一种基于机器学习文本挖掘技术的企业投诉风险预警方法,该方法主要应用于政府维稳监控***、投诉举报数据分析研判***、12345政务服务热线***、公安***、工商局***、企业征信***。
背景技术
随着近年社会经济的快速发展,12345政务服务热线受理部分消费者咨询、投诉、举报、意见及建议,是广大人民群众送上门来的“调查研究”,是工商行政管理机关研究加强和改进市场监管工作必须参考的大数据。其中投诉类型占12345工单数量一半以上,对投诉工单进行文本处理和分析,建立企业投诉风险预警模型是实现市场“大数据”向市场监管能力转化的有效探索和重要途径。
工商行政管理机关12345政务服务热线中心直接面对广大消费者,贴近人民群众,贴近市场,每天都会产生大量数据信息。这些数据信息是广大消费者对当下市场存在问题的实时反馈,能够及时、准确地反映消费热点的变化特点和规律,反映市场主体诚信经营状况、商品和服务质量状况,以及市场公平交易秩序状况,是市场监管质量的“温度计”、“晴雨表”,更是评价工商行政管理机关市场监管成效的“主考官”。
因此,加强对12345数据的分析利用,特别是被投诉企业的风险等级分类,坚持用数据说话,对于指导相关部门执法的针对性、时效性有重大意义。
发明内容
有鉴于此,本发明的主要目的是提供一种基于机器学习文本挖掘技术的企业投诉风险预警方法。
具体的方案如下:
一种基于机器学习文本挖掘技术的企业投诉风险预警方法,包括如下步骤:
步骤1)数据采集及处理并生成规范化数据:
S1:利用所述数据采集模块获取12345热线的工单文本;对数据采集模块获取的工单文本采用处理器进行初始处理步骤,对录入的文本数据利用分词模块和去噪模块进行处理,获得各个文本数据中的关键词;其中,数据采集模块连接处理器,处理器内设置有分词模块和去噪模块;
S2:设定文本特征向量化模块,将各个关键词进行向量化并作归一化处理,获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵;
S3:设定文本数据相似性匹配模块,根据建立的所述实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
S4:设定规范化数据生成模块,将匹配好的文本数据按照设定的统一规范化模式生成规范化数据;
步骤2)建立投诉分析等级聚类模型:利用步骤1)的设定的规范化数据生成模块,将生成的规范化数据输入至规范化数据预警模块进行预警处理,通过规范化数据预警模块建立的投诉分析等级聚类模型对规范化数据模式进行分析,根据聚类结果划分投诉风险等级,再根据风险所在等级发出相应的预警;
步骤3)设定情感倾向度分析模块,利用情感倾向度分析模块建立情感倾向度计算;
步骤4)构建SVM分类器;
步骤5)构建训练分类模型;
步骤6)通过步骤5)进行模型预测。
优选的,步骤2)建立投诉分析等级聚类模型的具体步骤如下:
S1:设定情感倾向度计算模块,对规范化数据进行情感判断并划分为积极、消极和中心三类;
S2:设定投诉风险等级划分模块,根据客户等级、业务类型、积极倾向度以及投诉历史参数建立投诉分析等级聚类模型,并根据聚类结果制定投诉风险等级规则;
S3:设定投诉分析预警模块,根据制定的投诉风险等级规则,选择模型变量参数,利用贝叶斯分类建立分类学习模型,通过对分类学习模型的训练实现对未知文本数据的投诉风险等级的预测。
优选的,步骤3)中利用情感倾向度分析模块建立情感倾向度计算的具体步骤如下:
S1:建立连词和否定词词典库;
S2:根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范化数据中的位置;
S3:匹配现有的情感词典库,获得词汇的极性及其情感评分值;
S4:通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;
S5:利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;
S6:循环步骤S2至S5,若情感计算评分为正则为积极,为负则为消极,否则为中心;
S7:投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级;
S8:提高限定结果的精确性:在制定投诉风险等级规则需要对规则进行验证,将验证集数据输入建立的分类学习模型,获得验证集数据中各文本数据的投诉风险等级,并将结果集与验证集数据中对应的等级数据进行比对,计算模型预测的正确率∈{-1,1}。
优选的,步骤4)具体步骤如下:
S1:设给定的训练集为{(z1,y1),(z2,y2),…,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,
问题转化为求最优化超平面问题:
S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分;则优化问题转化为
S3:解出式(2)最优化函数为:
从式(2)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;
S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-γ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,γ)的选择问题。
优选的,步骤5)具体步骤如下:
S1.以1≤C≤1000和0≤γ≤100为范围,构建取值范围内所有C和γ组成的参数对;
S2.依次取参数对(C,γ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;
S3.针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和γ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C0,γ0)。即这一参数对为所求SVM分类模型的模型参数。
优选的,步骤6)具体步骤如下:
S1:构建不含标记结果的工单得分率数据向量x’;
S2:采用步骤三中训练所得的模型参数(C0,γ0)对x’进行SVM分类预测,得到输出结果y’∈{-1,1}
S3:y’即为所求的企业投诉风险等级计算结果。
传统方式处理12345工单时,只要工单提及企业投诉就会派发工单给予相关部门处理,期间对于投诉的等级不做处理,对于相似性质的企业缺少对比分析,对于工单内容缺少分类,会导致执法部门人手不足时只能按照投诉时间去处理相关事务,无法及时处于危险等级的企业会造成严重的不良社会影响,本发明是为了解决以上传统方式处理12345工单的问题。
本发明能利用现有的计算机处理速度,处理成千上万的12345工单数据,对工单内容进行分类,分析。为执法部门提供企业投诉风险预警,为管理部门提供执法决策辅助,改被动执法为主动执法,改治标为治本的社会治理方式。
附图说明
图1为本发明的方法流程图;
图2为本发明对工单数据进行业务分类梳理流程图;
图3为本发明模型验证流程图。
具体实施方式
以下结合实例对本发明做进一步详细说明。
术语解释:
大数据分类算法:
大数据分类算法指的是以支持向量机、神经网络等为主的,以找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类的算法。其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中。
支持向量机:
在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个标记为属于两类,一个SVM训练算法建立了一个模型,分配新的实例为一类或其他类,使其成为非概率二元线性分类。
本发明所要解决的技术问题在于克服现有技术不足,提供一种基于文本挖掘技术的投诉预警监测方法,针对12345工单数据记录的被投诉企业,准确掌握被投诉的热点问题,被投诉的频率,业务类型,对比分析企业库中相类似性质的企业,解决了目前人工梳理效率低和事后溯源追责的被动式管理问题。提出企业投诉风险预警模型,便于执法人员主动执法,为执法人员提供执法依据,执法紧迫程度意见,以及同性质同类型企业清单,从治标到治本的转变,从被动到主动服务的转变。
本发明提供的技术方案如下:
一种基于机器学习文本挖掘技术的企业投诉风险预警方法,包括如下步骤:
步骤1)数据采集及处理并生成规范化数据:
S1:利用所述数据采集模块获取12345热线的工单文本;对数据采集模块获取的工单文本采用处理器进行初始处理步骤,对录入的文本数据利用分词模块和去噪模块进行处理,获得各个文本数据中的关键词;其中,数据采集模块连接处理器,处理器内设置有分词模块和去噪模块;
S2:设定文本特征向量化模块,将各个关键词进行向量化并作归一化处理,获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵;
关键词W在文件d中的向量化归一化结果为:
<img file="DEST_PATH_GDA0001183237700000021.GIF"wi="700"he="168"img-content="drawing"img-format="GIF"orientation="portrait"inline="no"/>
式中:N表示文件总数量;N表示包含关键词W的文件数量;n为关键词总次数;W为第i个关键词;d表示第j个文件;tf为关键词W在文件d中的词频;为所有关键词在文件d中的词频平方和;为文件总数量与包含关键词W文件的数量比值加上调整项0.01后取对数;
S3:设定文本数据相似性匹配模块,根据建立的所述实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
S4:设定规范化数据生成模块,将匹配好的文本数据按照设定的统一规范化模式生成规范化数据;
步骤2)建立投诉分析等级聚类模型:利用步骤1)的设定的规范化数据生成模块,将生成的规范化数据输入至规范化数据预警模块进行预警处理,通过规范化数据预警模块建立的投诉分析等级聚类模型对规范化数据模式进行分析,根据聚类结果划分投诉风险等级,再根据风险所在等级发出相应的预警;
步骤3)设定情感倾向度分析模块,利用情感倾向度分析模块建立情感倾向度计算;
步骤4)构建SVM分类器;
步骤5)构建训练分类模型;
步骤6)通过步骤5)进行模型预测。
优选的,步骤2)建立投诉分析等级聚类模型的具体步骤如下:
S1:设定情感倾向度计算模块,对规范化数据进行情感判断并划分为积极、消极和中心三类;
S2:设定投诉风险等级划分模块,根据客户等级、业务类型、积极倾向度以及投诉历史参数建立投诉分析等级聚类模型,并根据聚类结果制定投诉风险等级规则;
S3:设定投诉分析预警模块,根据制定的投诉风险等级规则,选择模型变量参数,利用贝叶斯分类建立分类学习模型,通过对分类学习模型的训练实现对未知文本数据的投诉风险等级的预测。
优选的,步骤3)中利用情感倾向度分析模块建立情感倾向度计算的具体步骤如下:
S1:建立连词和否定词词典库;
S2:根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范化数据中的位置;
S3:匹配现有的情感词典库,获得词汇的极性及其情感评分值;
S4:通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;
S5:利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;
S6:循环步骤S2至S5,若情感计算评分为正则为积极,为负则为消极,否则为中心;
S7:投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级;
S8:提高限定结果的精确性:在制定投诉风险等级规则需要对规则进行验证,将验证集数据输入建立的分类学习模型,获得验证集数据中各文本数据的投诉风险等级,并将结果集与验证集数据中对应的等级数据进行比对,计算模型预测的正确率∈{-1,1}。
优选的,步骤4)具体步骤如下:
S1:设给定的训练集为{(z1,y1),(z2,y2),…,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,
问题转化为求最优化超平面问题:
S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分;则优化问题转化为
S3:解出式(2)最优化函数为:
从式(2)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;
S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-γ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,Υ)的选择问题。
优选的,步骤5)具体步骤如下:
S1.以1≤C≤1000和0≤γ≤100为范围,构建取值范围内所有C和γ组成的参数对;
S2.依次取参数对(C,γ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;
S3.针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和γ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C0,γ0)。即这一参数对为所求SVM分类模型的模型参数。
优选的,步骤6)具体步骤如下:
S1:构建不含标记结果的工单得分率数据向量x’;
S2:采用步骤三中训练所得的模型参数(C0,γ0)对x’进行SVM分类预测,得到输出结果y’∈{-1,1}
S3:y’即为所求的企业投诉风险等级计算结果。
传统方式处理12345工单时,只要工单提及企业投诉就会派发工单给予相关部门处理,期间对于投诉的等级不做处理,对于相似性质的企业缺少对比分析,对于工单内容缺少分类,会导致执法部门人手不足时只能按照投诉时间去处理相关事务,无法及时处于危险等级的企业会造成严重的不良社会影响,本发明是为了解决以上传统方式处理12345工单的问题。
本发明能利用现有的计算机处理速度,处理成千上万的12345工单数据,对工单内容进行分类,分析。为执法部门提供企业投诉风险预警,为管理部门提供执法决策辅助,改被动执法为主动执法,改治标为治本的社会治理方式。

Claims (6)

1.一种基于机器学习文本挖掘技术的企业投诉风险预警方法,其特征在于,包括如下步骤:
步骤1)数据采集及处理并生成规范化数据:
S1:利用所述数据采集模块获取12345热线的工单文本;对数据采集模块获取的工单文本采用处理器进行初始处理步骤,对录入的文本数据利用分词模块和去噪模块进行处理,获得各个文本数据中的关键词;其中,数据采集模块连接处理器,处理器内设置有分词模块和去噪模块;
S2:设定文本特征向量化模块,将各个关键词进行向量化并作归一化处理,获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵;
S3:设定文本数据相似性匹配模块,根据建立的所述实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;
S4:设定规范化数据生成模块,将匹配好的文本数据按照设定的统一规范化模式生成规范化数据;
步骤2)建立投诉分析等级聚类模型:利用步骤1)的设定的规范化数据生成模块,将生成的规范化数据输入至规范化数据预警模块进行预警处理,通过规范化数据预警模块建立的投诉分析等级聚类模型对规范化数据模式进行分析,根据聚类结果划分投诉风险等级,再根据风险所在等级发出相应的预警;
步骤3)设定情感倾向度分析模块,利用情感倾向度分析模块建立情感倾向度计算;
步骤4)构建SVM分类器;
步骤5)构建训练分类模型;
步骤6)通过步骤5)进行模型预测。
2.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法,其特征在于,
步骤2)建立投诉分析等级聚类模型的具体步骤如下:
S1:设定情感倾向度计算模块,对规范化数据进行情感判断并划分为积极、消极和中心三类;
S2:设定投诉风险等级划分模块,根据客户等级、业务类型、积极倾向度以及投诉历史参数建立投诉分析等级聚类模型,并根据聚类结果制定投诉风险等级规则;
S3:设定投诉分析预警模块,根据制定的投诉风险等级规则,选择模型变量参数,利用贝叶斯分类建立分类学习模型,通过对分类学习模型的训练实现对未知文本数据的投诉风险等级的预测。
3.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法,其特征在于,
步骤3)中利用情感倾向度分析模块建立情感倾向度计算的具体步骤如下:
S1:建立连词和否定词词典库;
S2:根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范化数据中的位置;
S3:匹配现有的情感词典库,获得词汇的极性及其情感评分值;
S4:通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;
S5:利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;
S6:循环步骤S2至S5,若情感计算评分为正则为积极,为负则为消极,否则为中心;
S7:投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级;
S8:提高限定结果的精确性:在制定投诉风险等级规则需要对规则进行验证,将验证集数据输入建立的分类学习模型,获得验证集数据中各文本数据的投诉风险等级,并将结果集与验证集数据中对应的等级数据进行比对,计算模型预测的正确率∈{-1,1}。
4.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法,其特征在于,
步骤4)具体步骤如下:
S1:设给定的训练集为{(z1,y1),(z2,y2),…,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,问题转化为求最优化超平面问题:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mi>&amp;Phi;</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>,</mo> <mi>&amp;xi;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>c</mi> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>c</mi> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&amp;lsqb;</mo> <mrow> <mo>(</mo> <mi>W</mi> <mo>&amp;CenterDot;</mo> <msub> <mi>Z</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> <mo>&amp;rsqb;</mo> <mo>&amp;GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>&amp;xi;</mi> <mi>i</mi> </msub> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分;则优化问题转化为
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>a</mi> </munder> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>j</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>j</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> </mrow> </mtd> <mtd> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mn>0</mn> <mo>&amp;le;</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&amp;le;</mo> <mi>C</mi> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
S3:解出式(2)最优化函数为:
<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mo>&amp;lsqb;</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msub> <mi>a</mi> <mi>i</mi> </msub> <mi>K</mi> <mrow> <mo>(</mo> <msub> <mi>Z</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>b</mi> <mo>*</mo> </msup> <mo>&amp;rsqb;</mo> </mrow>
从式(2)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;
S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-γ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,Y)的选择问题。
5.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法,其特征在于,
步骤5)具体步骤如下:
S1.以1≤C≤1000和0≤γ≤100为范围,构建取值范围内所有C和γ组成的参数对;
S2.依次取参数对(C,γ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;
S3.针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和γ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C0,γ0),即这一参数对为所求SVM分类模型的模型参数。
6.根据权利要求1所述的基于机器学习文本挖掘技术的企业投诉风险预警方法,其特征在于,
步骤6)具体步骤如下:
S1:构建不含标记结果的工单得分率数据向量x’;
S2:采用步骤三中训练所得的模型参数(C0,γ0)对x’进行SVM分类预测,得到输出结果y’∈{-1,1}
S3:y’即为所求的企业投诉风险等级计算结果。
CN201711363852.7A 2017-12-18 2017-12-18 一种基于机器学习文本挖掘技术的企业投诉风险预警方法 Pending CN108108352A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711363852.7A CN108108352A (zh) 2017-12-18 2017-12-18 一种基于机器学习文本挖掘技术的企业投诉风险预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711363852.7A CN108108352A (zh) 2017-12-18 2017-12-18 一种基于机器学习文本挖掘技术的企业投诉风险预警方法

Publications (1)

Publication Number Publication Date
CN108108352A true CN108108352A (zh) 2018-06-01

Family

ID=62210859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711363852.7A Pending CN108108352A (zh) 2017-12-18 2017-12-18 一种基于机器学习文本挖掘技术的企业投诉风险预警方法

Country Status (1)

Country Link
CN (1) CN108108352A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446327A (zh) * 2018-11-01 2019-03-08 合肥工业大学 一种移动通信客户投诉的诊断方法及***
CN109471934A (zh) * 2018-10-09 2019-03-15 杭州安恒信息技术股份有限公司 基于互联网的金融风险线索发掘方法
CN109635283A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN109710766A (zh) * 2018-12-29 2019-05-03 云南电网有限责任公司电力科学研究院 一种工单数据的投诉倾向分析预警方法及装置
CN110245959A (zh) * 2019-04-17 2019-09-17 阿里巴巴集团控股有限公司 针对性请求的处理方法和装置
CN110349039A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 投诉风险评估方法、***、计算机设备及可读存储介质
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110826935A (zh) * 2019-11-22 2020-02-21 国网陕西省电力公司电力科学研究院 一种基于机器学习的中长期电力市场风险评估方法
CN110851321A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN110889770A (zh) * 2019-10-12 2020-03-17 中国平安财产保险股份有限公司 数据处理方法、装置、设备及存储介质
CN111259057A (zh) * 2020-01-15 2020-06-09 浙江连信科技有限公司 用于民生诉求分析的数据处理方法及装置
CN111355849A (zh) * 2018-12-24 2020-06-30 北京国双科技有限公司 一种话务工单处理方法及装置
CN111400157A (zh) * 2020-03-23 2020-07-10 北京亿赛通科技发展有限责任公司 一种自动检测电脑用户风险行为的***
CN112257435A (zh) * 2020-09-11 2021-01-22 安徽中科新辰技术有限公司 一种基于人工智能分词技术的警情数据治理方法
CN112581106A (zh) * 2021-02-23 2021-03-30 苏州工业园区测绘地理信息有限公司 一种融合处置机构网格语义的政务事件自动派单方法
CN113723663A (zh) * 2021-07-12 2021-11-30 国网冀北电力有限公司计量中心 电力工单数据的处理方法、装置、电子设备及存储介质
CN114264784A (zh) * 2021-12-03 2022-04-01 淮阴工学院 基于传感器风险区间模型的养殖水情判断方法及***
CN115564332A (zh) * 2022-10-08 2023-01-03 深圳中科保泰科技有限公司 基于大数据的政务风险分析方法及***
US11954443B1 (en) 2021-06-03 2024-04-09 Wells Fargo Bank, N.A. Complaint prioritization using deep learning model
US12008579B1 (en) 2021-08-09 2024-06-11 Wells Fargo Bank, N.A. Fraud detection using emotion-based deep learning model

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095588A (zh) * 2015-08-05 2015-11-25 中国联合网络通信集团有限公司 移动互联网用户投诉的预测方法和装置
US9519871B1 (en) * 2015-12-21 2016-12-13 International Business Machines Corporation Contextual text adaptation
CN106529804A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析方法
CN106530127A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析***
CN106897792A (zh) * 2017-01-10 2017-06-27 广东广业开元科技有限公司 一种建筑消防风险等级预测方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095588A (zh) * 2015-08-05 2015-11-25 中国联合网络通信集团有限公司 移动互联网用户投诉的预测方法和装置
US9519871B1 (en) * 2015-12-21 2016-12-13 International Business Machines Corporation Contextual text adaptation
CN106529804A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析方法
CN106530127A (zh) * 2016-11-09 2017-03-22 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析***
CN106897792A (zh) * 2017-01-10 2017-06-27 广东广业开元科技有限公司 一种建筑消防风险等级预测方法及***

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471934A (zh) * 2018-10-09 2019-03-15 杭州安恒信息技术股份有限公司 基于互联网的金融风险线索发掘方法
CN109471934B (zh) * 2018-10-09 2021-08-17 杭州安恒信息技术股份有限公司 基于互联网的金融风险线索发掘方法
CN109446327A (zh) * 2018-11-01 2019-03-08 合肥工业大学 一种移动通信客户投诉的诊断方法及***
CN109635283A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN109635283B (zh) * 2018-11-26 2022-10-14 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN111355849A (zh) * 2018-12-24 2020-06-30 北京国双科技有限公司 一种话务工单处理方法及装置
CN109710766A (zh) * 2018-12-29 2019-05-03 云南电网有限责任公司电力科学研究院 一种工单数据的投诉倾向分析预警方法及装置
CN109710766B (zh) * 2018-12-29 2023-01-20 云南电网有限责任公司电力科学研究院 一种工单数据的投诉倾向分析预警方法及装置
CN110245959A (zh) * 2019-04-17 2019-09-17 阿里巴巴集团控股有限公司 针对性请求的处理方法和装置
CN110349039B (zh) * 2019-06-13 2024-03-05 中国平安人寿保险股份有限公司 投诉风险评估方法、***、计算机设备及可读存储介质
CN110349039A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 投诉风险评估方法、***、计算机设备及可读存储介质
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110851321A (zh) * 2019-10-10 2020-02-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN110851321B (zh) * 2019-10-10 2022-06-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN110889770B (zh) * 2019-10-12 2024-05-24 中国平安财产保险股份有限公司 数据处理方法、装置、设备及存储介质
CN110889770A (zh) * 2019-10-12 2020-03-17 中国平安财产保险股份有限公司 数据处理方法、装置、设备及存储介质
CN110826935A (zh) * 2019-11-22 2020-02-21 国网陕西省电力公司电力科学研究院 一种基于机器学习的中长期电力市场风险评估方法
CN110826935B (zh) * 2019-11-22 2022-03-08 国网陕西省电力公司电力科学研究院 一种基于机器学习的中长期电力市场风险评估方法
CN111259057A (zh) * 2020-01-15 2020-06-09 浙江连信科技有限公司 用于民生诉求分析的数据处理方法及装置
CN111400157A (zh) * 2020-03-23 2020-07-10 北京亿赛通科技发展有限责任公司 一种自动检测电脑用户风险行为的***
CN112257435A (zh) * 2020-09-11 2021-01-22 安徽中科新辰技术有限公司 一种基于人工智能分词技术的警情数据治理方法
CN112257435B (zh) * 2020-09-11 2024-05-14 安徽中科新辰技术有限公司 一种基于人工智能分词技术的警情数据治理方法
CN112581106B (zh) * 2021-02-23 2021-05-28 苏州工业园区测绘地理信息有限公司 一种融合处置机构网格语义的政务事件自动派单方法
CN112581106A (zh) * 2021-02-23 2021-03-30 苏州工业园区测绘地理信息有限公司 一种融合处置机构网格语义的政务事件自动派单方法
US11954443B1 (en) 2021-06-03 2024-04-09 Wells Fargo Bank, N.A. Complaint prioritization using deep learning model
CN113723663A (zh) * 2021-07-12 2021-11-30 国网冀北电力有限公司计量中心 电力工单数据的处理方法、装置、电子设备及存储介质
US12008579B1 (en) 2021-08-09 2024-06-11 Wells Fargo Bank, N.A. Fraud detection using emotion-based deep learning model
CN114264784B (zh) * 2021-12-03 2023-08-22 淮阴工学院 基于传感器风险区间模型的养殖水情判断方法及***
CN114264784A (zh) * 2021-12-03 2022-04-01 淮阴工学院 基于传感器风险区间模型的养殖水情判断方法及***
CN115564332A (zh) * 2022-10-08 2023-01-03 深圳中科保泰科技有限公司 基于大数据的政务风险分析方法及***

Similar Documents

Publication Publication Date Title
CN108108352A (zh) 一种基于机器学习文本挖掘技术的企业投诉风险预警方法
Harfoushi et al. Sentiment analysis algorithms through azure machine learning: Analysis and comparison
Allen et al. Exploratory text data analysis for quality hypothesis generation
Wu et al. An intelligent stock trading system using comprehensive features
CN107992613A (zh) 一种基于机器学习的文本挖掘技术消费维权指标分析方法
Eckhaus Corporate transformational leadership's effect on financial performance
Xu et al. Collective sentiment mining of microblogs in 24-hour stock price movement prediction
CN112419029B (zh) 类金融机构风险监控方法、风险模拟***及存储介质
Siering " Boom" or" Ruin"--Does It Make a Difference? Using Text Mining and Sentiment Analysis to Support Intraday Investment Decisions
Jonathan et al. Sentiment analysis of customer reviews in zomato bangalore restaurants using random forest classifier
Tao et al. Can online consumer reviews signal restaurant closure: A deep learning-based time-series analysis
Ghanavati et al. A generic service framework for stock market prediction
Uchida et al. Study on the relationship between employee satisfaction and corporate performance in japan via text mining
Featherstone et al. Validating sentiment analysis on opinion mining using self-reported attitude scores
Zhang et al. Can sentiment analysis help mimic decision-making process of loan granting? A novel credit risk evaluation approach using GMKL model
Ning et al. Manufacturing cost estimation based on similarity
CN111626331A (zh) 一种自动化行业分类装置及其工作方法
CN116385151A (zh) 基于大数据进行风险评级预测的方法及计算设备
Kim et al. Do SEC filings indicate any trends? Evidence from the sentiment distribution of forms 10-K and 10-Q with FinBERT
Wang et al. SPCM: A Machine Learning Approach for Sentiment-Based Stock Recommendation System
CN116128275A (zh) 一种事件推演预测***
Reddy et al. Classification of Hotel Reviews using Machine Learning Techniques
Seki et al. S-APIR: news-based business sentiment index
Zhang et al. Construction of portrait system of listed companies based on big data
Pilliang et al. Sentiment analysis for super applications in Indonesia: a case study of Gov2Go App

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180601