CN111160605A - 一种语音服务投诉预测方法及装置 - Google Patents

一种语音服务投诉预测方法及装置 Download PDF

Info

Publication number
CN111160605A
CN111160605A CN201911165919.5A CN201911165919A CN111160605A CN 111160605 A CN111160605 A CN 111160605A CN 201911165919 A CN201911165919 A CN 201911165919A CN 111160605 A CN111160605 A CN 111160605A
Authority
CN
China
Prior art keywords
data
quality difference
complaint
trained
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911165919.5A
Other languages
English (en)
Inventor
胡铮
朱新宁
刘杨
姜曦轮
罗娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201911165919.5A priority Critical patent/CN111160605A/zh
Publication of CN111160605A publication Critical patent/CN111160605A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种语音服务投诉预测方法及装置,该方法包括:对用户语音业务质差数据进行特征提取,得到用户质差特征数据;将用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。通过引入质差事件统计数据用于语音服务投诉预测,筛选有效投诉客户的样本目标投诉客户质差事件数据,然后根据样本目标投诉客户质差事件数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。

Description

一种语音服务投诉预测方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种语音服务投诉预测方法及装置。
背景技术
当前通信网络中,各类网络网元节点数量较多,组网结构复杂,无线环境不断恶化等情况影响下,用户对移动网络质量不满从而进行投诉的问题日益突出。
而目前关于运营商关于客户投诉预测的研究较少,客户投诉或离网预测的研究多基于xDR(x Data Recording)或CDR(Call Data Recording)数据进行。CDR是传统通信网中对通话过程中网络关键信息的记录,xDR是CDR概念的扩展,泛指对移动网络、承载网络中数据流量的关键信息记录,即流量日志。
基于xDR或CDR数据进行客户投诉预测存在很多缺点,比如通话时长、平均流量值、延迟均值、平均信号强度等这些特征只能在一定程度上反映当前通话环境的质量,但这些指标的高低不一定能被用户感知到,和用户体验没有直接联系,加之客户投诉兼具主观性客观性,因此,仅仅依靠底层语音服务指标相关的基本特征难以实现对投诉客户的精准预测。
因此如何更高效准确的实现语音服务投诉的预测,已经成为业界亟待解决的问题。
发明内容
本发明实施例提供一种语音服务投诉预测方法及装置,用以解决上述背景技术中提出的技术问题,或至少部分解决上述背景技术中提出的技术问题。
第一方面,本发明实施例提供一种语音服务投诉预测方法,包括:
对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
更具体的,在所述将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息的步骤之前,所述方法还包括:
获取以目标投诉客户类别为标签的目标投诉客户质差事件样本数据,对所述以目标投诉客户类别为标签的目标投诉客户质差事件样本数据从时间、空间和强度方面特征提取,得到以目标投诉客户类别为标签的多个样本特征;
采用留一法将所述以目标投诉客户类别为标签的多个样本特征分为五组,得到五组样本特征集和五组测试样本特征集,将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将五组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据;
将所述以目标投诉客户类别为标签的五组第一阶段预测数据输入Logistics回归模型进行训练,当满足预设训练条件时,得到训练好的Logistics回归模型,根据所述训练好的Logistics回归模型和所述五个训练好的机器学习模型得到训练好的分类模型。
更具体的,所述获取样本目标投诉客户质差事件数据的步骤,具体为:
获取样本语音业务质差事件统计数据和样本客户投诉数据信息进行数据,所述样本客户投诉数据信息包括主观投诉客户类别、目标投诉客户类别、正常投诉客户类别和沉默客户投诉类别;
在语音业务质差事件统计样本数据中选取目标投诉客户类别所对应的质差事件统计样本数据,得到目标投诉客户样本质差事件统计数据;
在目标投诉客户样本质差事件统计数据中选取投诉时间前一周的质差事件统计数据,得到样本目标投诉客户质差事件数据。
更具体的,所述五个单一机器学习模型具体为:Random Forest模型、GBDT模型、XGBoost模型、Naive Bayes模型和KNN模型。
更具体的,所述将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将一组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据的步骤,具体包括:
根据五组样本特征集分别对Random Forest模型、GBDT模型、XGBoost模型、NaiveBayes模型和KNN模型进行训练,得到五组训练好的Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型;
将所述五组测试样本特征集分别输入五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据。
更具体的,所述用户质差特征数据包括:质差事件总次数、上行质差次数、下行质差次数、未接通次数、掉话次数、同一小区质差次数最大值、质差事件天数、质差事件总次数、小区分布信息熵、小区个数、质差事件天分布信息熵、50%以上质差事件所在天数、质差事件最小时间间隔和质差事件平均时间间隔。
更具体的,所述用户质差特征数据还包括:非周末质差事件次数、周末质差事件次数、傍晚质差事件次数、早上质差事件次数、下午质差事件次数、深夜质差事件次数、最后一次质差事件类型和最后一次质差事件发生在一周中的时间、最后一次质差事件发生在一天中的时间和最后一次发生在非周末的质差事件在一天中的时间。
第二方面,本发明实施例提供一种语音服务投诉预测装置,包括:
特征提取模块,用于对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
预测模块,用于将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述语音服务投诉预测方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述语音服务投诉预测方法的步骤。
本发明实施例提供的一种语音服务投诉预测方法及装置,通过引入质差事件统计数据用于语音服务投诉预测,根据样本客户投诉数据信息对样本语音业务质差事件统计数据进行数据清洗,筛选有效投诉客户的样本目标投诉客户质差事件数据,然后根据样本目标投诉客户质差事件数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,在投诉客户和非投诉客户样本数量差异较大的情境下,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中所描述的语音服务投诉预测方法流程示意图;
图2为本发明一实施例中所描述的训练好的分类模型训练流程图;
图3为本发明一实施例所描述的语音服务投诉预测装置;
图4为本发明一实施例所描述的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例中所描述的语音服务投诉预测方法流程示意图,如图1所示,包括:
步骤S1,对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
步骤S2,将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
具体的,本发明实施例中所描述的用户语音业务质差数据可以包括用户平均意见值(Mean Opinion Score;MOS)质差记录和用户未接通掉话记录。
本发明实施例中所描述的用户质差特征数据具体是指质差事件总次数、上行质差次数、下行质差次数、未接通次数、掉话次数、同一小区质差次数最大值、质差事件天数、质差事件总次数、小区分布信息熵、小区个数、质差事件天分布信息熵、50%以上质差事件所在天数、质差事件最小时间间隔和质差事件平均时间间隔。
本发明实施例中所描述的用户质差特征数据还可以包括:非周末质差事件次数、周末质差事件次数、傍晚质差事件次数、早上质差事件次数、下午质差事件次数、深夜质差事件次数、最后一次质差事件类型和最后一次质差事件发生在一周中的时间、最后一次质差事件发生在一天中的时间和最后一次发生在非周末的质差事件在一天中的时间。
本发明实施例中所描述的训练好的分类模型用于根据用户质差特征数据,得到用户是否会因为语音服务进行投诉的预测结果信息。
此处训练好的分类网络采用五折两层堆叠模型,第一层选用本身就是集成模型的Random Forest模型、GBDT模型和XGBoost模型,并加入了在单一模型实验中表现有互补效果的Naive Bayes模型和KNN模型,共5个基模型。第二层选择了简单的Logistics回归模型,最终得到五折两层堆叠模型。
本发明实施例中所描述的训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据训练得到的,此处所描述的目标投诉客户质差事件样本数据是根据用户投诉工单类型为标准,选取目标投诉客户类别,对其它样本语音业务质差事件统计数据进行数据清洗后得到的,目标投诉客户类别为标签的数据。
此处所描述的目标客户投诉类别是指,语音服务指标较差,而导致产生投诉的客户类别。
训练分类模型分为两个阶段进行训练,第一阶段将样本目标投诉客户质差事件数据均分为五个部分,并对五个部分进行编号,分别为第一部分数据、第二部分数据、第三部分数据、第四部分数据和第五部分数据,依次留取一个部分数据作为测试数据,将其他数据作为训练数据集,例如,将第一部分数据作为一组测试样本数据,将第二、第三、第四、第五部分数据作为一组训练样本数据集,将第二部分数据作为一组测试样本数据,将第一、第三、第四、第五部分数据作为一组训练样本数据,以此方法,得到五组测试样本特征集和五组测试样本特征集。
根据五组测试样本集特征分别对五种模型进行训练,基于五组不同的测试样本集特征,每种模型都可以训练得到五个不同模型。
将一组测试样本特征集分别输入每种模型的五个不同模型,此时每组测试样本特征输入一种模型,会得到五个输出预测数据,将五个输出预测数据作为一组第一阶段预测数据,五种模型对应得到五组第一阶段预测数据,共同构成第二阶段输入特征的不同维度。
第二阶段,将五组第一阶段预测数据输入Logistics回归模型进行训练,当满足预设训练条件时,得到训练好的分类模型。
本发明实施例将用户质差特征数据输入训练好的分类模型,第一阶段将用户质差特征数据分别输入五种不同的单一机器学习模型,每种单一机器学习模型中包含五个同一类型的机器学习模型,此时从每一种单机机器学习模型的五个结果中选出投票结果,从而根据五种不同的单一机器学习模型得到一个五维数据,将这个五维数据输入第二阶段的Logistics回归模型,从而得到预测结果信息。
本发明实施例通过引入质差事件统计数据用于语音服务投诉预测,根据客户投诉样本数据信息对语音业务质差事件统计样本数据进行数据清洗,筛选有效投诉客户的目标投诉客户质差事件样本数据,然后根据目标投诉客户质差事件样本数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,在投诉客户和非投诉客户样本数量差异较大的情境下,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。
在上述实施例的基础上,在所述将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息的步骤之前,所述方法还包括:
获取以目标投诉客户类别为标签的目标投诉客户质差事件样本数据,对所述以目标投诉客户类别为标签的目标投诉客户质差事件数据从时间、空间和强度方面特征提取,得到以目标投诉客户类别为标签的多个样本特征;
采用留一法将所述以目标投诉客户类别为标签的多个样本特征分为五组,得到五组样本特征集和一组测试样本特征集,将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将五组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据;
将所述以目标投诉客户类别为标签的五组第一阶段预测数据输入Logistics回归模型进行训练,当满足预设训练条件时,得到训练好的Logistics回归模型,根据所述训练好的Logistics回归模型和所述五个训练好的机器学习模型得到训练好的分类模型。
本发明实施例中所描述的多个样本特征中,每个样本特征均包括用户质差特征数据中的所有特征数据。
本发明实施例中采用留一法将所述多个样本特征分为五组,具体为将样本目标投诉客户质差事件数据均分为五个部分,并对五个部分进行编号,分别为第一部分数据、第二部分数据、第三部分数据、第四部分数据和第五部分数据,依次留取一个部分数据作为测试数据,将其他数据作为训练数据集,例如,将第一部分数据作为一组测试样本数据,将第二、第三、第四、第五部分数据作为一组训练样本数据集,将第二部分数据作为一组测试样本数据,将第一、第三、第四、第五部分数据作为一组训练样本数据,以此方法,得到五组测试样本特征集和一组测试样本特征集。
本发明实施例中所描述的预设训练条件可以是指满足预设训练次数或者满足预设训练时间。
本发明实施例根据样本目标投诉客户质差事件数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,在投诉客户和非投诉客户样本数量差异较大的情境下,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。
在上述实施例的基础上,所述获取样本目标投诉客户质差事件数据的步骤,具体为:
获取样本语音业务质差事件统计数据和样本客户投诉数据信息进行数据,所述样本客户投诉数据信息包括主观投诉客户类别、目标投诉客户类别、正常客户类别和沉默客户类别;
在语音业务质差事件统计样本数据中选取目标投诉客户类别所对应的质差事件统计样本数据,得到目标投诉客户质差事件统计样本数据;
在目标投诉客户质差事件统计样本数据中选取投诉时间前一周的质差事件统计数据,得到目标投诉客户质差事件样本数据。
具体的,本发明实施例中所描述的客户投诉样本数据信息具体分为主观投诉客户类别、目标投诉客户类别、正常客户类别和沉默客户类别;目标投诉客户类别是是语音服务指标较差,发生投诉行为的客户,指标的改善有助于减少此类客户的投诉,因此这部分客户值得重点关注;沉默客户类别是指语音服务指标较差,但是没有投诉的客户群体,他们容忍度高、投诉意愿低,是潜在发生投诉的群体;主观投诉客户类别是指语音服务指标良好,但是发生投诉的客户,这类客户的投诉意识比较强,可能需要改善服务等非网络质量的原因,才能更有效的减少投诉;正常客户类别语音服务指标良好,没有投诉。
本发明的目标是找到由于质差事件导致投诉行为的客户,因此本发明实施例中数据清洗的目标是只选取目标投诉客户类别对应的质差事件统计样本数据。
具体的,对于有多次投诉行为的客户保留最后一次投诉时间,以保证保留其最后投诉时间之前的全部质差记录,对于投诉客户,取投诉时间前一周的质差记录作为目标投诉客户质差事件样本数据。
本发明实施例通过客户投诉样本数据信息,实现对客户分类,从而准确找到本发明实施例的目标客户的数据,保证了训练数据的准确度,从而有效训练好的分类模型的可靠性。
在上述实施例的基础上,所述五个单一机器学习模型具体为:Random Forest模型、GBDT模型、XGBoost模型、Naive Bayes模型和KNN模型。
所述将五组样本特征集输入到五个单一机器学习模型进行训练,然后根据五组测试样本特征集得到以目标投诉客户类别为标签的五组第一阶段预测数据的步骤,具体包括:
根据五组样本特征集分别对Random Forest模型、GBDT模型、XGBoost模型、NaiveBayes模型和KNN模型进行训练,得到五组训练好的Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型;
将所述五组测试样本特征集分别输入五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型,得到以目标投诉客户类别为标签的五组五维第一阶段预测数据。
本发明实施例中所描述的根据五组样本特征集分别对Random Forest模型、GBDT模型、XGBoost模型、Naive Bayes模型和KNN模型进行训练具体是指,分别根据五组样本特征集对Random Forest模型进行训练,得到训练好的五组Random Forest模型,分别根据五组样本特征集对GBDT模型,得到训练好的五组GBDT模型,分别根据五组样本特征集对XGBoost模型,得到训练好的五组XGBoost模型,分别根据五组样本特征集对Naive Bayes模型,得到训练好的五组Naive Bayes模型,分别根据五组样本特征集对KNN模型,得到训练好的五组KNN模型。
将所述一组测试样本特征集分别输入五组训练好的Random Forest模型,会得到五个输出数据,组成一组五维第一阶段预测数据。
将一组测试样本特征集分别输入五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型,得到五组五维第一阶段预测数据
本发明实施例通过选用多种机器学习分类模型进行堆叠,构建集成模型,在投诉客户、非投诉客户样本数量差异大的情景下,集成模型泛化能力更好。
在上述实施例的基础上,所述用户质差特征数据包括:质差事件总次数、上行质差次数、下行质差次数、未接通次数、掉话次数、同一小区质差次数最大值、质差事件天数、质差事件总次数、小区分布信息熵、小区个数、质差事件天分布信息熵、50%以上质差事件所在天数、质差事件最小时间间隔和质差事件平均时间间隔,所述用户质差特征数据还包括:非周末质差事件次数、周末质差事件次数、傍晚质差事件次数、早上质差事件次数、下午质差事件次数、深夜质差事件次数、最后一次质差事件类型和最后一次质差事件发生在一周中的时间、最后一次质差事件发生在一天中的时间和最后一次发生在非周末的质差事件在一天中的时间。
图2为本发明一实施例中所描述的训练好的分类模型训练流程图,如图2所示,首先将全部数据的80%作为整体训练数据,即Training Data,将全部数据的20%作为整体测试数据,即Test Data;然后采用5折交叉验证来进行模型训练,将整体训练数据分为五组第一阶段训练数据和第一阶段测试数据的组合,每次使用一组第一阶段训练数据和第一阶段测试数据分别对Model 1~Model 5进行训练和预测,每个Model做满5次训练和预测。对于每一行第一阶段预测数据,通过Model 1~Model 5分别得到5个结果,将5个结果横向拼接得到一行5维的第一阶段结果数据,作为第二训练阶段的输入数据的特征部分,仍然使用原数据中的标签作为第二训练阶段的输入数据的标签部分,使用此数据对第二阶段Logistics回归模型完成训练工作。通过整体测试数据对完成两个阶段训练的整体模型进行性能测试。性能指标达到期望阈值便可投入使用。此时Logistics回归模型得到的最终结果就是最后需要的数据。
表1为本发明实施例中所描述的用户质差特征数据表,如表1所示:
表1
Figure BDA0002287448440000111
图3为本发明一实施例所描述的语音服务投诉预测装置,如图3所示,包括:提取模块310和预测模块320,其中,提取模块310用于对用户语音业务质差数据进行特征提取,得到用户质差特征数据;其中,预测模块320用于将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
本发明实施例提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
本发明实施例通过引入质差事件统计数据用于语音服务投诉预测,根据样本客户投诉数据信息对样本语音业务质差事件统计数据进行数据清洗,筛选有效投诉客户的样本目标投诉客户质差事件数据,然后根据样本目标投诉客户质差事件数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,在投诉客户和非投诉客户样本数量差异较大的情境下,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。
图4为本发明一实施例所描述的电子设备结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:对用户语音业务质差数据进行特征提取,得到用户质差特征数据;将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:对用户语音业务质差数据进行特征提取,得到用户质差特征数据;将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述各实施例提供的方法,例如包括:对用户语音业务质差数据进行特征提取,得到用户质差特征数据;将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音服务投诉预测方法,其特征在于,包括:
对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
2.根据权利要求1所述语音服务投诉预测方法,其特征在于,在所述将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息的步骤之前,所述方法还包括:
获取以目标投诉客户类别为标签的目标投诉客户质差事件样本数据,对所述以目标投诉客户类别为标签的目标投诉客户质差事件样本数据从时间、空间和强度方面特征提取,得到以目标投诉客户类别为标签的多个样本特征;
采用留一法将所述以目标投诉客户类别为标签的多个样本特征分为五组,得到五组样本特征集和五组测试样本特征集,将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将五组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据;
将所述以目标投诉客户类别为标签的五组第一阶段预测数据输入Logistics回归模型进行训练,当满足预设训练条件时,得到训练好的Logistics回归模型,根据所述训练好的Logistics回归模型和所述五个训练好的机器学习模型得到训练好的分类模型。
3.根据权利要求2所述语音服务投诉预测方法,其特征在于,所述获取目标投诉客户质差事件样本数据的步骤,具体为:
获取语音业务质差事件统计样本数据和客户投诉样本数据信息,所述客户投诉样本数据信息包括主观投诉客户类别、目标投诉客户类别、正常客户类别和沉默客户类别;
在语音业务质差事件统计样本数据中选取目标投诉客户类别所对应的质差事件统计样本数据,得到目标投诉客户质差事件统计全部样本数据;
在目标投诉客户质差事件统计全部样本数据中选取投诉时间前一周的质差事件统计数据,得到目标投诉客户质差事件统计样本数据。
4.根据权利要求2所述语音服务投诉预测方法,其特征在于,所述五个单一机器学习模型具体为:Random Forest模型、GBDT模型、XGBoost模型、Naive Bayes模型和KNN模型。
5.根据权利要求4所述语音服务投诉预测方法,其特征在于,所述将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将五组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据的步骤,具体包括:
根据五组样本特征集分别对Random Forest模型、GBDT模型、XGBoost模型、NaiveBayes模型和KNN模型进行训练,得到五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型;
将所述五组测试样本特征集分别输入五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据。
6.根据权利要求1所述语音服务投诉预测方法,其特征在于,所述用户质差特征数据包括:质差事件总次数、上行质差次数、下行质差次数、未接通次数、掉话次数、同一小区质差次数最大值、质差事件天数、质差事件总次数、小区分布信息熵、小区个数、质差事件天分布信息熵、50%以上质差事件所在天数、质差事件最小时间间隔和质差事件平均时间间隔。
7.根据权利要求6所述语音服务投诉预测方法,其特征在于,所述用户质差特征数据还包括:非周末质差事件次数、周末质差事件次数、傍晚质差事件次数、早上质差事件次数、下午质差事件次数、深夜质差事件次数、最后一次质差事件类型和最后一次质差事件发生在一周中的时间、最后一次质差事件发生在一天中的时间和最后一次发生在非周末的质差事件在一天中的时间。
8.一种语音服务投诉预测装置,其特征在于,包括:
特征提取模块,用于对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
预测模块,用于将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音服务投诉预测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述语音服务投诉预测方法的步骤。
CN201911165919.5A 2019-11-25 2019-11-25 一种语音服务投诉预测方法及装置 Pending CN111160605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911165919.5A CN111160605A (zh) 2019-11-25 2019-11-25 一种语音服务投诉预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911165919.5A CN111160605A (zh) 2019-11-25 2019-11-25 一种语音服务投诉预测方法及装置

Publications (1)

Publication Number Publication Date
CN111160605A true CN111160605A (zh) 2020-05-15

Family

ID=70556138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911165919.5A Pending CN111160605A (zh) 2019-11-25 2019-11-25 一种语音服务投诉预测方法及装置

Country Status (1)

Country Link
CN (1) CN111160605A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116168A (zh) * 2020-09-29 2020-12-22 中国银行股份有限公司 一种用户行为的预测方法、装置及电子设备
CN112671573A (zh) * 2020-12-17 2021-04-16 北京神州泰岳软件股份有限公司 识别宽带业务中潜在离网用户的方法及装置
CN112925911A (zh) * 2021-02-25 2021-06-08 平安普惠企业管理有限公司 基于多模态数据的投诉分类方法及其相关设备
CN115442321A (zh) * 2021-06-04 2022-12-06 ***通信集团浙江有限公司 消息投放方法、装置、设备及计算机程序产品
CN115879587A (zh) * 2022-01-11 2023-03-31 北京中关村科金技术有限公司 样本不均衡条件下的投诉预测方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447364A (zh) * 2018-11-08 2019-03-08 国网湖南省电力有限公司 基于标签的电力客户投诉预测方法
CN109784496A (zh) * 2018-12-29 2019-05-21 厦门大学 一种面向不平衡数据集的分类方法
CN109982367A (zh) * 2017-12-28 2019-07-05 ***通信集团四川有限公司 移动终端上网用户投诉预测方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109982367A (zh) * 2017-12-28 2019-07-05 ***通信集团四川有限公司 移动终端上网用户投诉预测方法、装置、设备及存储介质
CN109447364A (zh) * 2018-11-08 2019-03-08 国网湖南省电力有限公司 基于标签的电力客户投诉预测方法
CN109784496A (zh) * 2018-12-29 2019-05-21 厦门大学 一种面向不平衡数据集的分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘丽娟: "基于人工智能算法的投诉用户质差小区定位及预测的方法研究", 《电信工程技术与标准化》 *
辛永 等: "基于多模型融合的客户投诉风险预测方法", 《电力大数据》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116168A (zh) * 2020-09-29 2020-12-22 中国银行股份有限公司 一种用户行为的预测方法、装置及电子设备
CN112116168B (zh) * 2020-09-29 2023-08-04 中国银行股份有限公司 一种用户行为的预测方法、装置及电子设备
CN112671573A (zh) * 2020-12-17 2021-04-16 北京神州泰岳软件股份有限公司 识别宽带业务中潜在离网用户的方法及装置
CN112671573B (zh) * 2020-12-17 2023-05-16 北京神州泰岳软件股份有限公司 识别宽带业务中潜在离网用户的方法及装置
CN112925911A (zh) * 2021-02-25 2021-06-08 平安普惠企业管理有限公司 基于多模态数据的投诉分类方法及其相关设备
CN112925911B (zh) * 2021-02-25 2022-08-12 平安普惠企业管理有限公司 基于多模态数据的投诉分类方法及其相关设备
CN115442321A (zh) * 2021-06-04 2022-12-06 ***通信集团浙江有限公司 消息投放方法、装置、设备及计算机程序产品
CN115442321B (zh) * 2021-06-04 2023-08-18 ***通信集团浙江有限公司 消息投放方法、装置、设备及计算机程序产品
CN115879587A (zh) * 2022-01-11 2023-03-31 北京中关村科金技术有限公司 样本不均衡条件下的投诉预测方法、装置及存储介质
CN115879587B (zh) * 2022-01-11 2024-01-26 北京中关村科金技术有限公司 样本不均衡条件下的投诉预测方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN111160605A (zh) 一种语音服务投诉预测方法及装置
US10757264B2 (en) Matching using agent/caller sensitivity to performance
US10276153B2 (en) Online chat communication analysis via mono-recording system and methods
US10162884B2 (en) System and method for auto-suggesting responses based on social conversational contents in customer care services
US20040098274A1 (en) System and method for predicting customer contact outcomes
US11336770B2 (en) Systems and methods for analyzing coaching comments
CN108076237B (zh) 一种电话客服数据处理方法及装置
WO2010069567A1 (en) Real-time speech analytics in contact center
US20150134404A1 (en) Weighted promoter score analytics system and methods
US11886509B2 (en) Predictive prompt generation by an automated prompt system
DE102016102338A1 (de) Vorhersage von contact-center-interaktionen
US20210065204A1 (en) Analyzing method, analyzing device, and computer-readable recording medium
CN111368858B (zh) 用户满意度评估方法及装置
CN112182188A (zh) 一种基于知识图谱的问答方法及装置、存储介质
CN108271202B (zh) 一种基于短频话单数据定位网络故障的方法和装置
US11449527B2 (en) Automated inquiry response systems
CN113517990B (zh) 一种网络净推荐值nps的预测方法及装置
CN115956359A (zh) 用于音调和语音分类的累积平均频谱熵分析
US8731182B2 (en) Data store for assessing accuracy of call center agent service time estimates
Inoue et al. Mobile-carrier & mobile-phone choice behavior analysis using supervised learning models
CN113780610A (zh) 一种客服画像构建方法和装置
CN114372644B (zh) 排班方法、装置、电子设备及计算机可读存储介质
CN110868732A (zh) VoLTE接通无线失败的问题定位方法、***和设备
US20240004960A1 (en) Telecommunication network feature selection for binary classification
CN115473965A (zh) 一种外呼方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication