CN110895562A

CN110895562A - 反馈信息处理方法及装置

Info

Publication number: CN110895562A
Application number: CN201811066301.9A
Authority: CN
Inventors: 林鹏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2020-03-20

Abstract

本申请公开了一种反馈信息处理方法及装置，包括：将文本类反馈信息划分为训练数据和测试数据；对训练数据和测试数据分别进行特征提取；对经过特征提取的训练数据进行训练以获取分类模型；利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果；根据分类结果，将文本类反馈信息分发给相应解决人员。本申请对于用户反馈的文本类反馈信息进行了自动分类，实现了在海量反馈数据中对用户反馈的初步分类，提高了处理效率，节约了大量的人工成本。

Description

反馈信息处理方法及装置

技术领域

本申请涉及但不限于互联网技术，尤指一种反馈信息处理方法及装置。

背景技术

随着互联网发展的逐渐深入，用户数飞速提升，产品对用户的影响也越来越大。而用户对产品的认可也会促进技术的进一步发展，尤其是用户反馈，可以及时地反应出用户对产品的意见和产品服务收到的效果，零距离了解用户的实际需求和想法，对下一步产品决策提供了强有力的支持。在此基础上，有效地收集并利用用户的反馈信息对于提升产品竞争力非常重要。

在用户的反馈信息中，一种是基于问答样式的选项让用户勾选评论项目，但是，预先定义好的问答样式往往不能真实反映用户的实际需求；所以，反馈***会有另一种针对性的自定义的反馈形式让用户填写，这部分反馈信息也可以称为文本类反馈信息。

对于文本类反馈信息，首先需要分发给相应的人员，然后再进行人工加以分析和处理后才能获得用户的实际需求。由于产品规模复杂，涉及的功能也很多，不同的反馈信息需要对应到不同的解决人员来解决，人工分发势必造成效率低，而且所需要的人工成本也会随之增长。本发明提出了一个收集用户反馈，并对于用户评论自动分类的方法，能够在海量反馈数据中对用户评论做一个初步分类，然后分由相对应的接口人员进行审核，节约了大量的工作成本。

发明内容

本发明实施例提供一种反馈信息处理方法及装置，能够提高处理效率，节约人工成本。

本发明实施例提供了一种反馈信息处理方法，包括：

将文本类反馈信息划分为训练数据和测试数据；

对训练数据和测试数据分别进行特征提取；

对经过特征提取的训练数据进行训练以获取分类模型；

利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果；

根据分类结果，将文本类反馈信息分发给相应解决人员。

可选地，所述将文本类反馈信息划分为训练数据和测试数据之前，还包括：获取所述文本类反馈信息。

可选地，所述获取文本类反馈信息，包括：

从获得的反馈信息中筛选出文本类反馈信息；

删除筛选出的文本类反馈信息中的无效的文本类反馈信息。

可选地，所述训练数据和测试数据的比例包括1:1。

可选地，所述对训练数据和测试数据分别进行特征提取，包括：

通过文本提取算法对所述训练数据和所述测试数据分别进行特征提取。

可选地，所述对经过特征提取的训练数据进行训练以获取分类模型，包括：

利用最大熵数据挖掘算法，对所述经过特征提取的训练数据进行模型训练迭代，以获取所述分类模型。

可选地，所述对经过特征提取的测试数据进行分类并得到分类结果，包括：

将所述经过特征提取的测试数据输入训练得到的所述分类模型，以产出对所述测试数据进行分类的所述分类结果。

可选地，所述将文本类反馈信息分发给相应解决人员，包括：

根据所述分类结果将所述测试数据分成不同类型的数据集；

将不同类型的数据集反馈给相应的解决人员。

本申请还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述的反馈信息处理方法。

本申请再提供了一种计算机装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的反馈信息处理方法的步骤。

本申请又提供了一种反馈信息处理装置，包括：预处理模块、特征提取模块、训练模块、分类模块、分发模块；其中，

预处理模块，用于将文本类反馈信息划分为训练数据和测试数据；

特征提取模块，用于对训练数据和测试数据分别进行特征提取；

训练模块，用于对经过特征提取的训练数据进行训练以获取分类模型；

分类模块，用于利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果；

分发模块，用于根据分类结果，将文本类反馈信息分发给相应解决人员。本申请方法包括：将文本类反馈信息划分为训练数据和测试数据；对训练数据和测试数据分别进行特征提取；对经过特征提取的训练数据进行训练以获取分类模型；利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果；根据分类结果，将文本类反馈信息分发给相应解决人员。本申请对于用户反馈的文本类反馈信息进行了自动分类，实现了在海量反馈数据中对用户反馈的初步分类，提高了处理效率，节约了大量的人工成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请反馈信息处理方法的流程图；

图2为本申请反馈信息处理装置的组成结果示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请反馈信息处理方法的流程图，如图1所示，包括：

步骤100：将文本类反馈信息划分为训练数据和测试数据。

本步骤之前还包括：获取文本类反馈信息。

在一种示例性实例中，可以根据具体需要，对需要进行用户调查的业务设计好调查问卷；通过各种渠道发放调查问卷，包括人工或互联网发放；用户填写调查问卷后收集用户填写的调查问卷以获取用户的反馈信息。可选地，由于用户填写并完成调查问卷的时间长短不一，可以设置一个等待时长，比如两周；达到等待时长后，收集这两周内反馈的调查问卷，并合并各个渠道的问卷以做好数据对齐；之后，从反馈信息中筛选出文本类反馈信息；最后，再去除无效的文本类反馈信息，比如可以按照文本长度删除空反馈等无意义的反馈，以得到有效的文本类反馈信息。

在一种示例性实例中，合并即是对来自各个渠道的问卷，根据相同的问题进行合并，并且，对同一个问题答复的答案进行统计。比如对于问题1有答案A和答案B两个选项，通过对不同用户的回答进行统计可以得到，选择答案A的占比40％，选择答案B的占比60％。

可选地，本步骤中对于训练数据和测试数据的划分可以采用随机划分的方式，只要能保证训练数据和测试数据的分布尽可能一致即可。

在一种示例性实例中，训练数据和测试数据的比例可以是但不限于1:1。

在一种示例性实例中，标注一部分有效的文本类反馈信息为训练数据，用于数据挖掘机器学习算法使用，其中，训练数据中的每种问题样本大于或等于300条。

在一种示例性实例中，也可以通过口头问答、录音、录像等方式获取文本类反馈信息。

步骤101：对训练数据和测试数据分别进行特征提取。

可选地，本步骤可以通过文本提取算法对训练数据和测试数据分别进行特征提取。文本提取算法可以采用但不限于如N-Gram算法、N-Gram改进算法等，其中，N-Gram算法是一种基于统计语言模型的算法。

步骤102：对经过特征提取的训练数据进行训练以获取分类模型。

在一种示例性实例中，可以利用预先设置的算法，包括但不限于最大熵数据挖掘算法、逻辑回归算法、支持向量机(SVM，Support Vector Machine)算法等，对经过特征提取的训练数据进行模型训练迭代，以获取分类模型。

步骤103：利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果。

在一种示例性实例中，将经过特征提取的测试数据输入训练得到的分类模型，以产出对测试数据进行分类的分类结果。

步骤104：根据分类结果，将文本类反馈信息分发给相应解决人员。

可选地，本步骤包括：

根据分类结果将测试数据分成不同类型的数据集，比如反馈类型A，反馈类型B，反馈类型C，反馈类型D等不同的反馈类型；

将不同类型的数据集反馈给相应的解决人员。比如：相应于反馈类型A的是解决人员A，相应于反馈类型B的是解决人员B，相应于反馈类型C的是解决人员C，相应于反馈类型D的是解决人员D，这样，处理不同类型反馈信息的解决人员自动获得了属于自身能处理的类型的文本类反馈信息。

本申请反馈信息处理方法，对于用户反馈的文本类反馈信息进行了自动分类，实现了在海量反馈数据中对用户反馈的初步分类，提高了处理效率，节约了大量的人工成本。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述实施例中任一项的反馈信息处理方法。

本申请再提供一种计算机装置，包括存储器和处理器，其中，存储器中存储有上述实施例中任一项的反馈信息处理方法的步骤。

图2为本申请反馈信息处理装置的组成结果示意图，如图2所示，至少包括：预处理模块、特征提取模块、训练模块、分类模块、分发模块；其中，

预处理模块，用于将文本类反馈信息划分为训练数据和测试数据。

特征提取模块，用于对训练数据和测试数据分别进行特征提取。

训练模块，用于对经过特征提取的训练数据进行训练以获取分类模型。

分类模块，用于利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果。

分发模块，用于根据分类结果，将文本类反馈信息分发给相应解决人员。

可选地，预处理模块还用于：获取文本类反馈信息。

可选地，特征提取模块具体用于：通过文本提取算法对训练数据和测试数据分别进行特征提取。

可选地，训练模块具体用于：利用预先设置的算法，包括但不限于最大熵数据挖掘算法、逻辑回归算法、SVM算法等，对经过特征提取的训练数据进行模型训练迭代，以获取分类模型。

可选地，分类模块具体用于：将经过特征提取的测试数据输入训练得到的分类模型，以产出对测试数据进行分类的分类结果。

可选地，分类模块具体用于：根据分类结果将测试数据分成不同类型的数据集；将不同类型的数据集反馈给相应的解决人员。

本申请反馈信息处理装置，对于用户反馈的文本类反馈信息进行了自动分类，实现了在海量反馈数据中对用户反馈的初步分类，提高了处理效率，节约了大量的人工成本。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种反馈信息处理方法，包括：

将文本类反馈信息划分为训练数据和测试数据；

对训练数据和测试数据分别进行特征提取；

对经过特征提取的训练数据进行训练以获取分类模型；

根据分类结果，将文本类反馈信息分发给相应解决人员。

2.根据权利要求1所述的方法，所述将文本类反馈信息划分为训练数据和测试数据之前，还包括：获取所述文本类反馈信息。

3.根据权利要求2所述的方法，其中，所述获取文本类反馈信息，包括：

从获得的反馈信息中筛选出文本类反馈信息；

删除筛选出的文本类反馈信息中的无效的文本类反馈信息。

4.根据权利要求1所述的方法，其中，所述训练数据和测试数据的比例包括1:1。

5.根据权利要求1所述的方法，其中，所述对训练数据和测试数据分别进行特征提取，包括：

6.根据权利要求1所述的方法，其中，所述对经过特征提取的训练数据进行训练以获取分类模型，包括：

7.根据权利要求1所述的方法，其中，所述对经过特征提取的测试数据进行分类并得到分类结果，包括：

8.根据权利要求1所述的方法，其中，所述将文本类反馈信息分发给相应解决人员，包括：

根据所述分类结果将所述测试数据分成不同类型的数据集；

将不同类型的数据集反馈给相应的解决人员。

9.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求8任一项所述的反馈信息处理方法。

10.一种计算机装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求8任一项所述的反馈信息处理方法的步骤。

11.一种反馈信息处理装置，包括：预处理模块、特征提取模块、训练模块、分类模块、分发模块；其中，