CN113850630A

CN113850630A - 满意度预测方法及装置、存储介质、电子设备

Info

Publication number: CN113850630A
Application number: CN202111154505.XA
Authority: CN
Inventors: 朱永林; 赵旻
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-28

Abstract

本公开属于计算机技术领域，涉及一种满意度预测方法及装置、存储介质、电子设备。该方法包括：确定数据获取规则，并根据数据获取规则获取用户特征数据和用户话单数据；对用户话单数据和用户特征数据进行合并得到用户话单数据和用户特征数据之间的映射关系，并对用户话单数据进行质差占比计算得到质差话单数据；将具有映射关系的质差话单数据和用户特征数据输入至预先训练好的满意度预测模型中，以使训练好的满意度预测模型输出满意度评分。本公开实现对移动网络质量满意度的科学预测，保证了移动网络质量的满意度预测的准确性和时效性，为提升移动网络质量服务提供参考依据，能够指引制定移动网络服务质量的提升方案，也成为了提升满意度的工具。

Description

满意度预测方法及装置、存储介质、电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种满意度预测方法与满意度预测装置、计算机可读存储介质及电子设备。

背景技术

在当今移动通信快速发展的时代，随着4G(the 4th generation mobilecommunication technology，***移动通信技术)移动通信用户的快速增长和5G(5thGeneration Mobile Communication Technology，第五代移动通信技术)网络的蓬勃建设，通信运营商之间竞争日益激烈，移动网络质量满意度与用户忠诚度、市场发展有着极为密切的关系。

传统的移动网络质量评价指标是通过统计分析网络设备采集到的性能指标实现，与移动网络质量满意度缺乏直接关联性。移动网络质量满意度预测，目前尚处于空白领域。

鉴于此，本领域亟需开发一种新的满意度预测方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种满意度预测方法、满意度预测装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的缺乏对移动网络质量满意度的预测的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本发明实施例的第一个方面，提供一种满意度预测方法，所述方法包括：确定数据获取规则，并根据所述数据获取规则获取用户特征数据和用户话单数据；

对所述用户话单数据和所述用户特征数据进行合并得到所述用户话单数据和所述用户特征数据之间的映射关系，并对所述用户话单数据进行质差占比计算得到质差话单数据；

将具有所述映射关系的所述质差话单数据和所述用户特征数据输入至预先训练好的满意度预测模型中，以使所述训练好的满意度预测模型输出满意度评分。

在本发明的一种示例性实施例中，所述根据所述数据获取规则获取用户特征数据和用户话单数据，包括：

根据所述数据获取规则获取用户特征数据，并确定数据获取周期；

基于所述数据获取周期，并根据所述数据获取规则获取用户话单数据。

在本发明的一种示例性实施例中，所述对所述用户话单数据进行质差占比计算得到质差话单数据，包括：

对所述用户话单数据进行统计得到通话记录次数和质差话单频次；

对所述通话记录次数和所述质差话单频次进行质差占比计算得到质差话单数据。

在本发明的一种示例性实施例中，所述对所述用户话单数据进行统计得到通话记录次数和质差话单频次，包括：

对所述用户话单数据进行统计得到通话记录次数，并获取与所述用户话单数据对应的质差阈值；

根据所述质差阈值确定所述用户话单数据中的质差通话数据，并对所述质差通话数据进行统计得到质差话单频次。

在本发明的一种示例性实施例中，所述预先训练好的满意度预测模型，包括：决策树模型。

在本发明的一种示例性实施例中，在所述将具有所述映射关系的所述质差话单数据和所述用户特征数据输入至预先训练好的满意度预测模型中之前，所述方法还包括：

获取质差话单样本、用户特征样本以及与所述用户特征样本对应的满意度评分样本；

对所述质差话单样本、所述用户特征样本和所述满意度评分样本进行递归划分处理得到原始决策树模型；

对所述原始决策树模型进行剪枝处理得到预先训练好的满意度预测模型。

在本发明的一种示例性实施例中，所述将具有所述映射关系的所述质差话单数据和所述用户特征数据输入至预先训练好的满意度预测模型中，以使所述训练好的满意度预测模型输出满意度评分，包括：

获取与所述质差话单数据对应的筛选阈值，并利用所述筛选阈值对所述质差话单数据进行筛选得到目标话单数据；

将具有所述映射关系的所述目标话单数据和所述用户特征数据输入至预先训练好的满意度预测模型中，以使所述训练好的满意度预测模型输出满意度评分。

根据本发明实施例的第二个方面，提供一种满意度预测装置，所述装置包括：数据获取模块，被配置为确定数据获取规则，并根据所述数据获取规则获取用户特征数据和用户话单数据；

质差计算模块，被配置为对所述用户话单数据和所述用户特征数据进行合并得到所述用户话单数据和所述用户特征数据之间的映射关系，并对所述用户话单数据进行质差占比计算得到质差话单数据；

评分预测模块，被配置为将具有所述映射关系的所述质差话单数据和所述用户特征数据输入至预先训练好的满意度预测模型中，以使所述训练好的满意度预测模型输出满意度评分。

根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例中的满意度预测方法。

根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的满意度预测方法。

由上述技术方案可知，本公开示例性实施例中的满意度预测方法、满意度预测装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，通过用户话单数据和用户特征数据的多维度用户特征构建满意度预测模型，并且，对用户话单数据进行质差占比计算得到质差话单数据，以利用质差话单数据和用户特征数据输入至满意度预测模型，得到预测出的满意度评分，实现了对移动网络质量满意度的科学预测，保证了移动网络质量的满意度预测的准确性和时效性，为提升基于移动网络质量的服务提供了参考依据，也能够指引制定移动网络服务质量的提升方案，成为了移动网络质量满意度提升的重要工具。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种满意度预测方法的流程示意图；

图2示意性示出本公开示例性实施例中获取用户特征数据和用户话单数据的方法的流程示意图；

图3示意性示出本公开示例性实施例中质差占比计算的方法的流程示意图；

图4示意性示出本公开示例性实施例中对用户话单数据进行统计的方法的流程示意图；

图5示意性示出本公开示例性实施例中训练满意度预测模型的方法的流程示意图；

图6示意性示出本公开示例性实施例中预测满意度评分的方法的流程示意图；

图7示意性示出本公开示例性实施例中应用场景下移动网络满意度预测方法的流程示意图；

图8示意性示出本公开示例性实施例中应用场景预测满意度评分的方法的构建示意图；

图9示意性示出本公开示例性实施例中一种满意度预测装置的结构示意图；

图10示意性示出本公开示例性实施例中一种用于实现满意度预测方法的电子设备；

图11示意性示出本公开示例性实施例中一种用于实现满意度预测方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

针对相关技术中存在的问题，本公开提出了一种满意度预测方法，图1示出了满意度预测方法的流程图，如图1所示，满意度预测方法至少包括以下步骤：

步骤S110.确定数据获取规则，并根据数据获取规则获取用户特征数据和用户话单数据。

步骤S120.对用户话单数据和用户特征数据进行合并得到用户话单数据和所述用户特征数据之间的映射关系，并对用户话单数据进行质差占比计算得到质差话单数据。

步骤S130.将具有映射关系的质差话单数据和用户特征数据输入至预先训练好的满意度预测模型中，以使训练好的满意度预测模型输出满意度评分。

在本公开的示例性实施例中，通过用户话单数据和用户特征数据的多维度用户特征构建满意度预测模型，并且，对用户话单数据进行质差占比计算得到质差话单数据，以利用质差话单数据和用户特征数据输入至满意度预测模型，得到预测出的满意度评分，实现了对移动网络质量满意度的科学预测，保证了移动网络质量的满意度预测的准确性和时效性，为提升基于移动网络质量的服务提供了参考依据，也能够指引制定移动网络服务质量的提升方案，成为了移动网络质量满意度提升的重要工具。

下面对满意度预测方法的各个步骤进行详细说明。

在步骤S110中，确定数据获取规则，并根据数据获取规则获取用户特征数据和用户话单数据。

在本公开的示例性实施例中，为获取用于预测用户的满意度评分，可以预设一数据获取规则，以获取用户特征数据和用户话单数据。

在可选的实施例中，图2示出了获取用户特征数据和用户话单数据的方法的流程示意图，如图2所示，该方法至少包括以下步骤：在步骤S210中，根据数据获取规则获取用户特征数据，并确定数据获取周期。

具体的，可以根据数据获取规则确定往期参与满意度调查的客户群体，以生成该客户群体的电话号码样本库。

举例而言，数据获取规则可以是将连续3个月出账正常和平均使用流量在200M(兆)以上，并且本省使用流量占比50％以上的用户确定为目标的客户群体。其中，连续3个月出账正常表示为长期上网的移动网络正常使用用户，并且平均实用流量在200M以上表明该用户还是使用移动网络的活跃用户，更具参考价值。

在根据数据获取规则确定客户群体的电话号码样本库之后，可以对应获取样本库的往期移动网络质量满意度打分的用户特征数据。

该用户特征数据可以是用户的BSS(Basic Service Set，基本服务集)数据。BSS可以支持运营支持***(Operation Support System，OSS)和业务支撑***(BusinessSupport System，BSS)，并且，运营支持***和是业务支撑***电信运营商的一体化、信息资源共享的支持***。OSS的历史可以追溯到1984年，AT&T的第一次拆分让世界电信市场首次引入了竞争。随后市场竞争加剧，要求运营商们不仅能保持客户群的忠实度、减少客户流失，还必须保证一定的经营利润。OSS/BSS于是就应运而生了。其中，运营支持***是主体，业务支撑***是基础。从客户的角度看，运营支持***和业务支撑***之间没有区别。随着以客户为中心理念的盛行，服务商也渐渐淡化运营支持***和业务支撑***之间的区别。

因此，该用户特征数据可以是通过BSS***获取到的。其中，BSS***包括客户关系管理、数据采集***、计费帐务、综合结算、营销支撑这些功能模块。

具体的，用户特征数据可以包括用户年龄、性别、使用套餐、月均ARPU(AverageRevenue Per User，每用户平均收入)和终端型号等特征数据。

该ARPU是运营商用来测定其取自每个最终用户的收入的一个指标。但并不反映最终的利润率。指的是一个时期内(通常为一个月或一年)电信运营企业平均每个用户贡献的通信业务收入，其单位为元/户。从计算的角度看，ARPU值的大小取决于两个因素，业务收入和用户数量，相对用户数量，业务收入越高，ARPU值越大。同时，ARPU值也反映企业的用户结构状况，当用户构成中高端客户占的比重越高，ARPU值就越高。

除此之外，在训练满意度预测模型时，用户特征数据还可以包括用户的往期移动网络质量满意度打分。

在获取到用户特征数据之后，还可以将该用户特征数据以CSV(Comma-SeparatedValues，有时也称为字符分隔值，因为分隔字符也可以不是逗号)的形式导出。

CSV是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据，而这些程序本身是在不兼容的格式上进行操作的(往往是私有的和/或无规范的格式)。因为大量程序都支持某种CSV变体，至少是作为一种可选择的输入/输出格式。

CSV文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。CSV文件通常都是纯文本文件，因此，建议使用WORDPAD或是记事本来开启，或者先另存新档后用EXCEL开启，也是方法之一。

为进一步获取用户话单数据，还可以确定一获取用户话单数据的数据获取周期。举例而言，数据获取周期可以默认是一个完整周，也可以根据实际情况设定其他数据获取周期，本示例性实施例对此不做特殊限定。

在步骤S220中，基于数据获取周期，并根据数据获取规则获取用户话单数据。

从客服部分获取往期满意度评价客户的客户群体的电话号码样本库，通过编写SQL(Structured Query Language，结构化查询语言)查询脚本，可以通过用户的ISMSDN(手机号)在客户群体的电话号码样本库查询该数据获取周期的特定周期内的客户群体的用户CDR话单，以获取用户话单数据。

用户在通话、发消息或上网过程中，核心网网元记录相关计费信息，并发送计费消息到计费***，再由计费***生成话单。有些核心网网元可以直接产生话单，并发送到计费***或计费中心。

话单在字面上有通话、单据的意思。带有明显的语音业务为主流的色彩。实际上，在数据通信扩张的时代，这个“话”已经包括了语言、短信、数据相关业务。

并且，在CS(Circuit Switched，电路交换)域，话单通常根据业务特点分类，可以包括：移动始发话单、移动终结话单、短消息发送话单、短消息终结话单、漫游话单、前转话单、定位话单和补充业务话单等。

话单与费率无关，仅与对用户如何使用业务以及业务量有关。至于如何计算最终用户该支付的金额，是由计费中心确定的。而计费中心也是话单的最终被送达的地方。

其中，用户话单数据可以包括用户IMSI(International Mobile SubscriberIdentity，国际移动用户识别码)、基站号、扇区号、通话记录开始时间和通话记录结束时间、通话接入基站RSRP(Reference Signal Receiving Power，参考信号接收功率)和通话释放基站RSRP数据等，也可以根据实际情况包括其他数据，本示例性实施例对此不做特殊限定。

该用户IMSI是用于区分蜂窝网络中不同用户的、在所有蜂窝网络中不重复的识别码。手机将IMSI存储于一个64比特的字段发送给网络。IMSI可以用来在归属位置寄存器(HLR，Home Location Register)或拜访位置寄存器(VLR，Visitor Location Register)中查询用户的信息。为了避免被监听者识别并追踪特定的用户，大部分情形下手机和网络之间的通信会使用随机产生的临时移动用户识别码(TMSI，Temporary Mobile SubscriberIdentity)代替IMSI。

IMSI由一串十进制数字组成，最大长度为15位。实际使用的IMSI的长度绝大部分都是15位，短于15位的例子少见，例如，南非有一些仍在网络中使用的较旧的IMSI为14位数字。IMSI由移动国家代码(MCC，Mobile Country Code)、移动网络代码(MNC，MobileNetwork Code)和移动订户识别代码(MSIN，Mobile subscription identificationnumber)依次连接而成。MCC长度为3位，MNC长度由MCC的值决定，可以是2位(欧洲标准)或3位数字(北美标准)，MSIN的值由运营商自行分配。

RSRP是LTE网络中可以代表无线信号强度的关键参数以及物理层测量需求之一，是在某个符号内承载参考信号的所有RE(资源粒子)上接收到的信号功率的平均值。RSRP的用处和规范都等同于WCDMA中的RSCP(Received Signal Code Power)接收信号码功率。

并且，在获取到用户话单数据之后，也可以将该用户话单数据导出为CSV格式文件。

在本示例性实施例中，通过数据获取规则和数据获取周期获取对应的用户特征数据和用户话单数据，数据获取方式简单精准，为后续的用户满意度评分预测提供了最具参考价值的数据，保证了用户满意度评分预测的准确性。

在步骤S120中，对用户话单数据和用户特征数据进行合并得到用户话单数据和所述用户特征数据之间的映射关系，并对用户话单数据进行质差占比计算得到质差话单数据。

在本公开的示例性实施例中，得到用户话单数据和用户特征数据之后，还可以对用户话单数据和用户特征数据进行数据解析和数据清洗，以剔除无效数据。

举例而言，当用户话单数据或用户特征数据中存在空值时，可以针对不同的该用户话单数据或用户特征数据进行数据解析或数据清洗。

当用户特征数据中的性别为空值时，可以判断此时用户特征数据中性别为男还是女为占据比例更多，以将该空值赋予占据比例更多的性别属性；当用户特征数据中的年龄为空值时，可以计算当前用户特征数据中的年龄的平均值，以将该平均值作为该空值的用户特征数据中的年龄；当用户特征数据中的终端型号为空值时，可以直接将该空值的终端型号对应的用户特征数据剔除；当用户特征数据中的月均ARPU为空值时，也可以是计算当前用户特征数据的中的月均ARPU的平均值，以将该月均ARPU的平均值作为该空值的用户特征数据的月均ARPU。

除此之外，当其他用户特征数据或者用户话单数据存在控制或者其他情况时，也可以根据实际情况进行数据解析或数据清洗，本示例性实施例对此不做特殊限定。

在对用户话单数据和用户特征数据进行数据解析或数据清洗之后，还可以通过python语言的pandas(python数据分析模块)包的merge函数，以用户IMSI为key(键)，将用户特征数据和用户话单数据进行合并。

其中，pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语，在Pandas中也提供了panel的数据类型。

pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。pandas是使Python成为强大而高效的数据分析环境的重要因素之一。

merge函数是数据合并函数。merge()函数支持4种类型数据合并，分别是Naturaljoin、Full outer join、Left outer join和Right outer join。其中，Natural join:仅返回两数据框中匹配的数据框行，参数为：all＝FALSE。而Full outer join:返回两数据框中所有行，参数为：all＝TRUE。而Left outer join:返回x数据框中所有行以及和y数据框中匹配的行，参数为：all.x＝TRUE。而Right outer join:返回y数据框中所有行以及和x数据框匹配的行，参数为：all.y＝TRUE。

值得说明的是，用户话单数据和用户特征数据进行合并时，用户IMSI与用户ISMSDN是相同的，因此，可以通过用户IMSI与用户ISMSDN建立用户话单数据和用户特征数据之间的映射关系，以将用户话单数据和用户特征数据关联起来。

在可选的实施例中，图3示出了质差占比计算的方法的流程示意图，如图3所示，该方法至少包括以下步骤：在步骤S310中，对用户话单数据进行统计得到通话记录次数和质差话单频次。

在可选的实施例中，图4示出了对用户话单数据进行统计的方法的流程示意图，如图4所示，该方法至少包括以下步骤：在步骤S410中，对用户话单数据进行统计得到通话记录次数，并获取与用户话单数据对应的质差阈值。

该质差阈值可以是针对通话接入基站RSRP和通话释放基站RSRP设定的。一般的，从用户可感知的角度可以将该质差阈值设置为-110dBm(decibel relative to onemilliwatt，分贝毫瓦)，也可以设置为其他数值，本示例性实施例对此不做特殊限定。

其中，分贝毫瓦为一个指代功率的绝对值，而不同于dB只是一个相对值。

在步骤S420中，根据质差阈值确定用户话单数据中的质差通话数据，并对质差通话数据进行统计得到质差话单频次。

在得到质差阈值之后，可以利用该质差阈值对用户话单数据中的通话接入基站RSRP和通话释放基站RSRP进行判断以确定质差通话数据。

举例而言，可以提取用户接入时刻的RSRP值，并且以质差阈值确定用户接入RSRP≥-110dBm的话单作为优良话单，用户接入RSRP<-110dBm的话单确定为质差话单，以得到对应的质差通话数据。

进一步的，对质差通话数据表征的质差话单进行统计以得到对应的质差话单频次。

在本示例性实施例中，通过对用户话单数据进行统计和判断可以得到通话记录次数和质差话单频次，为计算质差话单数据提供了准确的数据基础。

在步骤S320中，对通话记录次数和质差话单频次进行质差占比计算得到质差话单数据。

在得到通话记录次数和质差话单频次之后，可以对通话记录次数和质差话单频次进行质差占比计算。

具体的，质差占比计算可以是利用质差话单频次除以通话记录次数，也可以有其他计算方式，本示例性实施例对此不做特殊限定。因此，在对通话记录次数和质差话单频次进行质差占比计算之后，可以得到对应的质差话单数据。

一般的，质差话单数据中可以包括质差话单占比和质差话单频次，也可以包括其他数据，本示例性实施例对此不做特殊限定。

值得说明的是，在用户话单数据和用户特征数据之间具有映射关系的前提下，在对用户话单数据进行质差占比计算得到质差话单数据时，该映射关系继续深化为质差话单数据与用户特征数据之间的映射关系。

在本示例性实施例中，通过对用户话单数据进行质差占比计算可以得到质差话单数据，通过无线基站的质差话单数据和用户特征数据公共作为满意度预测模型的输入数据，能够通过多维度的用户特征构建满意度预测模型，也进一步提升预测出的用户对移动网络的满意度评分的准确度。

在步骤S130中，将具有映射关系的质差话单数据和用户特征数据输入至预先训练好的满意度预测模型中，以使训练好的满意度预测模型输出满意度评分。

在本公开的示例性实施例中，在将映射关系继续深化为质差话单数据与用户特征数据之间的映射关系之后，可以是将具有映射关系的质差话单数据和用户特征输入至预先训练好的满意度预测模型中，以使该满意度预测模型预测用户对移动网络的满意度评分。

在可选的实施例中，预先训练好的满意度预测模型，包括：决策树模型。

具体的，使用的决策树模型可以是CART(Classification And Regression Tree，分类回归树)算法训练得到的。CART算法是决策树模型的一种实现，通常决策树主要有三种实现，分别是ID3算法，CART算法和C4.5算法。CART算法是一种二分递归分割技术，把当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树，它在每一步的决策时只能是“是”或者“否”，即使一个特征有多个取值，也是把数据分为两部分。

因此，在使用预先训练好的决策树模型进行满意度评分预测之前，可以使用CART算法对决策树模型进行训练。

在可选的实施例中，图5示出了训练满意度预测模型的方法的流程示意图，如图5所示，该方法至少包括以下步骤：在步骤S510中，获取质差话单样本、用户特征样本以及与用户特征样本对应的满意度评分样本。

其中，用户特征样本也可以包括用户年龄、性别、使用套餐、月均ARPU和终端型号等特征数据。

用户话单样本也可以是根据包括用户IMSI、基站号、扇区号、通话记录开始时间和通话记录结束时间、通话接入基站RSRP和通话释放基站RSRP的数据计算出的质差话单数据。该用户话单样本中包括用户质差话单占比样本和用户质差话单频次。

而满意度评分样本可以是与用户特征样本对应的用户往期移动网络质量满意度打分。

在训练决策树模型时，可以将所有训练样本都放在根节点，并且选择用户质差话单占比样本作为最优特征，按照这一最优特征将训练集分割为子集，使得各个子集有一个在当前条件下最好的分类。

在步骤S520中，对质差话单样本、用户特征样本和满意度评分样本进行递归划分处理得到原始决策树模型。

在获取到训练决策树模型的样本之后，可以对对质差话单样本、用户特征样本和满意度评分样本进行递归划分处理。

进一步的，设代表单个样本的各属性表示所属类别。CART算法通过递归的方式将维的空间划分为不重叠的矩形。具体的，选一个自变量，再选取的一个值，把维空间划分为两部分，一部分的所有点都满足，另一部分的所有点都满足，对非连续变量来说属性值的取值只有两个，即等于该值或不等于该值。然后，将上面得到的两部分重新选取一个属性继续划分，直到把整个维空间都划分完。对于一个变量属性来说，它的划分点是一对连续变量属性值的中点。假设个样本的集合一个属性有个连续的值，那么则会有个***点，每个***点为相邻两个连续值的均值。每个属性的划分按照能减少的杂质的量来进行排序，而杂质的减少量定义为划分前的杂质减去划分后的每个节点的杂质量划分所占比率之和。而杂质度量方法常用Gini指标，假设一个样本共有类，那么一个节点的Gini不纯度可定义为：

其中，P_i表示属于第i类的概率。当Gini(D)＝0时，所有样本属于同类；所有类在节点中以等概率出现时，Gini(D)最大化。

同样的，节点很多，每一个节点都有不同的权重时可以得到：

P_i有了上述理论基础，实际的递归划分过程是这样的：如果当前节点的所有样本都不属于同一类或者只剩下一个样本，那么此节点为非叶子节点，所以会尝试样本的每个属性以及每个属性对应的***点，尝试找到杂质变量最大的一个划分，该属性划分的子树即为最优分支。

根据这样的***规则CART算法就能完成建树过程得到原始决策树模型。

在步骤S530中，对原始决策树模型进行剪枝处理得到预先训练好的满意度预测模型。

根据验证数据进行剪枝。在CART树的建树过程中，可能存在Over fitting(过拟合)的情况，因此许多分支中反映的是数据中的异常。这样的原始决策树模型对分类的准确性不高，那么需要检测并减去这些不可靠的分支。决策树模型常用的剪枝有事前剪枝和事后剪枝，CART算法采用事后剪枝，具体方法为代价复杂性剪枝法。

在对原始决策树模型进行剪枝处理之后可以得到预先训练好的满意度预测模型。

在本示例性实施例中，通过CART算法可以训练得到满意度预测模型，该算法计算复杂度不高，并且输出结构易于理解，也对中间值的缺失不敏感，可以处理不相关的特征数据，因此，极其适用于用户对移动网络质量满意度的预测情况。

在训练得到满意度预测模型之后，可以将具有映射关系的质差话单数据和用户特征数据输入至该训练好的满意度预测模型中，以预测满意度评分。

在可选的实施例中，图6示出了预测满意度评分的方法的流程示意图，如图6所示，该方法至少包括以下步骤：在步骤S610中，获取与质差话单数据对应的筛选阈值，并利用筛选阈值对质差话单数据进行筛选得到目标话单数据。

由于质差话单数据中包括质差话单占比和质差话单频次，因此可以针对质差话单占比设置一筛选阈值。一般的，该筛选阈值可以是2％-5％，也可以设置为其他数值，本示例性实施例对此不做特殊限定。

当质差话单占比小于2％时，确定质差话单占比较小，表明用户的满意度较高；当质差话单占比大于5％时，确定质差话单占比较大，表明用户的满意度较低，因此无需对这两部分的质差话单数据进行预测。

根据该筛选阈值的大小，可以将质差话单数据中的质差话单占比与该筛选阈值进行比较，以将质差话单占比处于2％-5％之间的质差话单数据确定为目标话单数据。

值得说明的是，在映射关系已经深化为质差话单数据与用户特征数据之间的映射关系之后，因为根据筛选阈值从质差话单数据中确定出了目标话单数据，因此，该映射关系可以进一步深化为目标话单数据与用户特征数据之间的映射关系。

在步骤S620中，将具有映射关系的目标话单数据和用户特征数据输入至预先训练好的满意度预测模型中，以使训练好的满意度预测模型输出满意度评分。

在得到目标话单数据之后，将具有映射关系的目标话单数据和用户特征数据输入至预先训练好的满意度预测模型之后，可以使得该满意度预测模型预测得到对应的满意度评分，以确定客户群体的移动网络质量满意度。

在本示例性实施例中，通过训练好的满意度预测模型可以输出满意度评分，填补了移动网络质量满意度预测的空白区域，实现了对移动网络质量满意度的科学预测，为基于移动网络质量的服务提升提供了参考依据，也能够指引移动网络服务质量提升方案的指定，成为了提升移动网络质量满意度的重要工具。

下面结合一应用场景对本公开实施例中满意度预测方法做出详细说明。

图7示出了应用场景下移动网络满意度预测方法的流程示意图，如图7所示，在步骤S710中，获取往期参与满意度调查的客户群体的电话号码样本库。

为获取用于预测用户的满意度评分，可以预设一数据获取规则，以获取用户特征数据和用户话单数据。

在步骤S720中，获取样本库的往期移动网络质量满意度打分，用户年龄、性别、使用套餐、月均ARPU、终端型号等特征数据。

该用户特征数据可以是用户的BSS数据。BSS可以支持运营支持***和业务支撑***，并且，运营支持***和是业务支撑***电信运营商的一体化、信息资源共享的支持***。OSS的历史可以追溯到1984年，AT&T的第一次拆分让世界电信市场首次引入了竞争。随后市场竞争加剧，要求运营商们不仅能保持客户群的忠实度、减少客户流失，还必须保证一定的经营利润。OSS/BSS于是就应运而生了。其中，运营支持***是主体，业务支撑***是基础。从客户的角度看，运营支持***和业务支撑***之间没有区别。随着以客户为中心理念的盛行，服务商也渐渐淡化运营支持***和业务支撑***之间的区别。

具体的，用户特征数据可以包括用户年龄、性别、使用套餐、月均ARPU和终端型号等特征数据。

该ARPU是运营商用来测定其取自每个最终用户的收入的一个指标。但并不反映最终的利润率。指的是一个时期内(通常为一个月或一年)电信运营企业平均每个用户贡献的通信业务收入，其单位为元/户。从计算的角度看，ARPU值的大小取决于两个因素，业务收入和用户数量，相对用户数量，业务收入越高，ARPU值越大。同时ARPU值也反映企业的用户结构状况，当用户构成中高端客户占的比重越高，ARPU值就越高。

在获取到用户特征数据之后，还可以将该用户特征数据以CSV的形式导出。

在步骤S730中，根据电话号码样本库，查询待定周期的客户群体用户CDR话单，获取用户ISMI、基站号、扇区号、通话记录开始时间和结束时间，通话接入基站RSRP、通话释放基站RSRP等信息。

从客服部分获取往期满意度评价客户的客户群体的电话号码样本库，通过编写SQL查询脚本，可以通过用户的ISMSDN在客户群体的电话号码样本库查询该数据获取周期的特定周期内的客户群体的用户CDR话单，以获取用户话单数据。

并且，在CS域，话单通常根据业务特点分类，可以包括：移动始发话单、移动终结话单、短消息发送话单、短消息终结话单、漫游话单、前转话单、定位话单和补充业务话单等。

其中，用户话单数据可以包括用户IMSI、基站号、扇区号、通话记录开始时间和通话记录结束时间、通话接入基站RSRP和通话释放基站RSRP数据等，也可以根据实际情况包括其他数据，本示例性实施例对此不做特殊限定。

该用户IMSI是用于区分蜂窝网络中不同用户的、在所有蜂窝网络中不重复的识别码。手机将IMSI存储于一个64比特的字段发送给网络。IMSI可以用来在归属位置寄存器或拜访位置寄存器中查询用户的信息。为了避免被监听者识别并追踪特定的用户，大部分情形下手机和网络之间的通信会使用随机产生的临时移动用户识别码代替IMSI。

IMSI由一串十进制数字组成，最大长度为15位。实际使用的IMSI的长度绝大部分都是15位，短于15位的例子少见，例如，南非有一些仍在网络中使用的较旧的IMSI为14位数字。IMSI由移动国家代码、移动网络代码和移动订户识别代码依次连接而成。MCC长度为3位，MNC长度由MCC的值决定，可以是2位(欧洲标准)或3位数字(北美标准)，MSIN的值由运营商自行分配。

RSRP是LTE网络中可以代表无线信号强度的关键参数以及物理层测量需求之一，是在某个符号内承载参考信号的所有RE上接收到的信号功率的平均值。RSRP的用处和规范都等同于WCDMA中的RSCP接收信号码功率。

在步骤S740中，以客户感知RSRP-110dBm为阈值，统计用户通话记录次数、质差话单频次，从而生成质差话单占比。

得到用户话单数据和用户特征数据之后，还可以对用户话单数据和用户特征数据进行数据解析和数据清洗，以剔除无效数据。

在对用户话单数据和用户特征数据进行数据解析或数据清洗之后，还可以通过python语言的pandas包的merge函数，以用户IMSI为key，将用户特征数据和用户话单数据进行合并。

其中，pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。Pandas的名称来自于面板数据和python数据分析。panel data是经济学中关于多维数据集的一个术语，在Pandas中也提供了panel的数据类型。

进一步的，对用户话单数据进行统计得到通话记录次数，并获取与用户话单数据对应的质差阈值。

该质差阈值可以是针对通话接入基站RSRP和通话释放基站RSRP设定的。一般的，从用户可感知的角度可以将该质差阈值设置为-110dBm，也可以设置为其他数值，本示例性实施例对此不做特殊限定。

根据质差阈值确定用户话单数据中的质差通话数据，并对质差通话数据进行统计得到质差话单频次。

对通话记录次数和质差话单频次进行质差占比计算得到质差话单数据。

在步骤S750中，建立及其学习模型，以往期移动网络质量满意度打分为因变量，以用户年龄、性别、使用套餐、月均ARPU、终端型号、质差话单占比、质差话单频次为自变量，采用决策树的机器模型进行训练。

在将映射关系继续深化为质差话单数据与用户特征数据之间的映射关系之后，可以是将具有映射关系的质差话单数据和用户特征输入至预先训练好的满意度预测模型中，以使该满意度预测模型预测用户对移动网络的满意度评分。

通常，预先训练好的满意度预测模型，包括：决策树模型。

具体的，使用的决策树模型可以是CART算法训练得到的。CART算法是决策树模型的一种实现，通常决策树主要有三种实现，分别是ID3算法，CART算法和C4.5算法。CART算法是一种二分递归分割技术，把当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树，它在每一步的决策时只能是“是”或者“否”，即使一个feature有多个取值，也是把数据分为两部分。

获取质差话单样本、用户特征样本以及与用户特征样本对应的满意度评分样本。

在确定算法之后，还可以将获取到的质差话单样本、用户特征样本以及与用户特征样本对应的满意度评分样本划分为训练集和测试集。并且，随机抽取质差话单样本、用户特征样本以及与用户特征样本对应的满意度评分样本的75％作为训练集，25％作为测试集。训练集被用来训练机器学习模型，测试集用于测试训练好的机器学习模型的性能。

对质差话单样本、用户特征样本和满意度评分样本进行递归划分处理得到原始决策树模型。

进一步的，设代表单个样本的各属性表示所属类别。CART算法通过递归的方式将维的空间划分为不重叠的矩形。具体的，选一个自变量，再选取的一个值，把维空间划分为两部分，一部分的所有点都满足，另一部分的所有点都满足，对非连续变量来说属性值的取值只有两个，即等于该值或不等于该值。然后，将上面得到的两部分重新选取一个属性继续划分，直到把整个维空间都划分完。对于一个变量属性来说，它的划分点是一对连续变量属性值的中点。假设个样本的集合一个属性有个连续的值，那么则会有个***点，每个***点为相邻两个连续值的均值。每个属性的划分按照能减少的杂质的量来进行排序，而杂质的减少量定义为划分前的杂质减去划分后的每个节点的杂质量划分所占比率之和。而杂质度量方法常用Gini指标，假设一个样本共有类，那么一个节点的Gini不纯度可定义为公式(1)。同样的，节点很多，每一个节点都有不同的权重时可以得到公式(2)。

进一步的，对训练集进行剪枝，并用测试集进行验证。

具体的，根据验证数据进行剪枝。在CART树的建树过程中，可能存在Overfitting(过拟合)的情况，因此许多分支中反映的是数据中的异常。这样的原始决策树模型对分类的准确性不高，那么需要检测并减去这些不可靠的分支。决策树模型常用的剪枝有事前剪枝和事后剪枝，CART算法采用事后剪枝，具体方法为代价复杂性剪枝法。

在步骤S760中，将目标客户群体的用户号码导入数据库，生成特定周期的通话记录，得出目标客户群体的质差话单占比、质差话单频次、以及用户年龄、性别、使用套餐、月均ARPU、终端型号作为自变量导入移动网质量满意度预测模型，得到目标客户群体的移动网质量满意度。

图8示出了应用场景预测满意度评分的方法的构建示意图，如图8所示，当质差话单占比小于2％时，确定质差话单占比较小，表明用户的满意度较高；当质差话单占比大于5％时，确定质差话单占比较大，表明用户的满意度较低，因此无需对这两部分的质差话单数据进行预测。

因此，可以设置与质差话单数据对应的筛选阈值为2％-5％，并利用筛选阈值对质差话单数据进行筛选得到目标话单数据。

将具有映射关系的目标话单数据和用户特征数据输入至预先训练好的满意度预测模型中，以使训练好的满意度预测模型输出满意度评分。

在该应用场景下的满意度预测方法，通过用户话单数据和用户特征数据的多维度用户特征构建满意度预测模型，并且，对用户话单数据进行质差占比计算得到质差话单数据，以利用质差话单数据和用户特征数据输入至满意度预测模型，得到预测出的满意度评分，实现了对移动网络质量满意度的科学预测，保证了移动网络质量的满意度预测的准确性和时效性，为提升基于移动网络质量的服务提供了参考依据，也能够指引制定移动网络服务质量的提升方案，成为了移动网络质量满意度提升的重要工具。

此外，在本公开的示例性实施例中，还提供一种满意度预测装置。图9示出了满意度预测装置的结构示意图，如图9所示，满意度预测装置900可以包括：数据获取模块910、质差计算模块920和评分预测模块930。其中：

数据获取模块910，被配置为确定数据获取规则，并根据数据获取规则获取用户特征数据和用户话单数据；

质差计算模块920，被配置为对用户话单数据和用户特征数据进行合并得到用户话单数据和用户特征数据之间的映射关系，并对用户话单数据进行质差占比计算得到质差话单数据；

评分预测模块930，被配置为将具有映射关系的质差话单数据和用户特征数据输入至预先训练好的满意度预测模型中，以使训练好的满意度预测模型输出满意度评分。

上述满意度预测装置900的具体细节已经在对应的满意度预测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了满意度预测装置900的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图10来描述根据本发明的这种实施例的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同***组件(包括存储单元1020和处理单元1010)的总线1030、显示单元1040。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022，还可以进一步包括只读存储单元(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024，这样的程序模块1025包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1200(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图11所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1100，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种满意度预测方法，其特征在于，所述方法包括：

确定数据获取规则，并根据所述数据获取规则获取用户特征数据和用户话单数据；

2.根据权利要求1所述的满意度预测方法，其特征在于，所述根据所述数据获取规则获取用户特征数据和用户话单数据，包括：

3.根据权利要求1所述的满意度预测方法，其特征在于，所述对所述用户话单数据进行质差占比计算得到质差话单数据，包括：

4.根据权利要求3所述的满意度预测方法，其特征在于，所述对所述用户话单数据进行统计得到通话记录次数和质差话单频次，包括：

5.根据权利要求1所述的满意度预测方法，其特征在于，所述预先训练好的满意度预测模型，包括：决策树模型。

6.根据权利要求5所述的满意度预测方法，其特征在于，在所述将具有所述映射关系的所述质差话单数据和所述用户特征数据输入至预先训练好的满意度预测模型中之前，所述方法还包括：

7.根据权利要求1所述的满意度预测方法，其特征在于，所述将具有所述映射关系的所述质差话单数据和所述用户特征数据输入至预先训练好的满意度预测模型中，以使所述训练好的满意度预测模型输出满意度评分，包括：

8.一种满意度预测装置，其特征在于，包括：

数据获取模块，被配置为确定数据获取规则，并根据所述数据获取规则获取用户特征数据和用户话单数据；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的满意度预测方法。

10.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7中任意一项所述的满意度预测方法。