CN110895562A - 反馈信息处理方法及装置 - Google Patents

反馈信息处理方法及装置 Download PDF

Info

Publication number
CN110895562A
CN110895562A CN201811066301.9A CN201811066301A CN110895562A CN 110895562 A CN110895562 A CN 110895562A CN 201811066301 A CN201811066301 A CN 201811066301A CN 110895562 A CN110895562 A CN 110895562A
Authority
CN
China
Prior art keywords
feedback information
training
test data
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811066301.9A
Other languages
English (en)
Inventor
林鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811066301.9A priority Critical patent/CN110895562A/zh
Publication of CN110895562A publication Critical patent/CN110895562A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种反馈信息处理方法及装置,包括:将文本类反馈信息划分为训练数据和测试数据;对训练数据和测试数据分别进行特征提取;对经过特征提取的训练数据进行训练以获取分类模型;利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果;根据分类结果,将文本类反馈信息分发给相应解决人员。本申请对于用户反馈的文本类反馈信息进行了自动分类,实现了在海量反馈数据中对用户反馈的初步分类,提高了处理效率,节约了大量的人工成本。

Description

反馈信息处理方法及装置
技术领域
本申请涉及但不限于互联网技术,尤指一种反馈信息处理方法及装置。
背景技术
随着互联网发展的逐渐深入,用户数飞速提升,产品对用户的影响也越来越大。而用户对产品的认可也会促进技术的进一步发展,尤其是用户反馈,可以及时地反应出用户对产品的意见和产品服务收到的效果,零距离了解用户的实际需求和想法,对下一步产品决策提供了强有力的支持。在此基础上,有效地收集并利用用户的反馈信息对于提升产品竞争力非常重要。
在用户的反馈信息中,一种是基于问答样式的选项让用户勾选评论项目,但是,预先定义好的问答样式往往不能真实反映用户的实际需求;所以,反馈***会有另一种针对性的自定义的反馈形式让用户填写,这部分反馈信息也可以称为文本类反馈信息。
对于文本类反馈信息,首先需要分发给相应的人员,然后再进行人工加以分析和处理后才能获得用户的实际需求。由于产品规模复杂,涉及的功能也很多,不同的反馈信息需要对应到不同的解决人员来解决,人工分发势必造成效率低,而且所需要的人工成本也会随之增长。本发明提出了一个收集用户反馈,并对于用户评论自动分类的方法,能够在海量反馈数据中对用户评论做一个初步分类,然后分由相对应的接口人员进行审核,节约了大量的工作成本。
发明内容
本发明实施例提供一种反馈信息处理方法及装置,能够提高处理效率,节约人工成本。
本发明实施例提供了一种反馈信息处理方法,包括:
将文本类反馈信息划分为训练数据和测试数据;
对训练数据和测试数据分别进行特征提取;
对经过特征提取的训练数据进行训练以获取分类模型;
利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果;
根据分类结果,将文本类反馈信息分发给相应解决人员。
可选地,所述将文本类反馈信息划分为训练数据和测试数据之前,还包括:获取所述文本类反馈信息。
可选地,所述获取文本类反馈信息,包括:
从获得的反馈信息中筛选出文本类反馈信息;
删除筛选出的文本类反馈信息中的无效的文本类反馈信息。
可选地,所述训练数据和测试数据的比例包括1:1。
可选地,所述对训练数据和测试数据分别进行特征提取,包括:
通过文本提取算法对所述训练数据和所述测试数据分别进行特征提取。
可选地,所述对经过特征提取的训练数据进行训练以获取分类模型,包括:
利用最大熵数据挖掘算法,对所述经过特征提取的训练数据进行模型训练迭代,以获取所述分类模型。
可选地,所述对经过特征提取的测试数据进行分类并得到分类结果,包括:
将所述经过特征提取的测试数据输入训练得到的所述分类模型,以产出对所述测试数据进行分类的所述分类结果。
可选地,所述将文本类反馈信息分发给相应解决人员,包括:
根据所述分类结果将所述测试数据分成不同类型的数据集;
将不同类型的数据集反馈给相应的解决人员。
本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的反馈信息处理方法。
本申请再提供了一种计算机装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的反馈信息处理方法的步骤。
本申请又提供了一种反馈信息处理装置,包括:预处理模块、特征提取模块、训练模块、分类模块、分发模块;其中,
预处理模块,用于将文本类反馈信息划分为训练数据和测试数据;
特征提取模块,用于对训练数据和测试数据分别进行特征提取;
训练模块,用于对经过特征提取的训练数据进行训练以获取分类模型;
分类模块,用于利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果;
分发模块,用于根据分类结果,将文本类反馈信息分发给相应解决人员。本申请方法包括:将文本类反馈信息划分为训练数据和测试数据;对训练数据和测试数据分别进行特征提取;对经过特征提取的训练数据进行训练以获取分类模型;利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果;根据分类结果,将文本类反馈信息分发给相应解决人员。本申请对于用户反馈的文本类反馈信息进行了自动分类,实现了在海量反馈数据中对用户反馈的初步分类,提高了处理效率,节约了大量的人工成本。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请反馈信息处理方法的流程图;
图2为本申请反馈信息处理装置的组成结果示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本申请反馈信息处理方法的流程图,如图1所示,包括:
步骤100:将文本类反馈信息划分为训练数据和测试数据。
本步骤之前还包括:获取文本类反馈信息。
在一种示例性实例中,可以根据具体需要,对需要进行用户调查的业务设计好调查问卷;通过各种渠道发放调查问卷,包括人工或互联网发放;用户填写调查问卷后收集用户填写的调查问卷以获取用户的反馈信息。可选地,由于用户填写并完成调查问卷的时间长短不一,可以设置一个等待时长,比如两周;达到等待时长后,收集这两周内反馈的调查问卷,并合并各个渠道的问卷以做好数据对齐;之后,从反馈信息中筛选出文本类反馈信息;最后,再去除无效的文本类反馈信息,比如可以按照文本长度删除空反馈等无意义的反馈,以得到有效的文本类反馈信息。
在一种示例性实例中,合并即是对来自各个渠道的问卷,根据相同的问题进行合并,并且,对同一个问题答复的答案进行统计。比如对于问题1有答案A和答案B两个选项,通过对不同用户的回答进行统计可以得到,选择答案A的占比40%,选择答案B的占比60%。
可选地,本步骤中对于训练数据和测试数据的划分可以采用随机划分的方式,只要能保证训练数据和测试数据的分布尽可能一致即可。
在一种示例性实例中,训练数据和测试数据的比例可以是但不限于1:1。
在一种示例性实例中,标注一部分有效的文本类反馈信息为训练数据,用于数据挖掘机器学习算法使用,其中,训练数据中的每种问题样本大于或等于300条。
在一种示例性实例中,也可以通过口头问答、录音、录像等方式获取文本类反馈信息。
步骤101:对训练数据和测试数据分别进行特征提取。
可选地,本步骤可以通过文本提取算法对训练数据和测试数据分别进行特征提取。文本提取算法可以采用但不限于如N-Gram算法、N-Gram改进算法等,其中,N-Gram算法是一种基于统计语言模型的算法。
步骤102:对经过特征提取的训练数据进行训练以获取分类模型。
在一种示例性实例中,可以利用预先设置的算法,包括但不限于最大熵数据挖掘算法、逻辑回归算法、支持向量机(SVM,Support Vector Machine)算法等,对经过特征提取的训练数据进行模型训练迭代,以获取分类模型。
步骤103:利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果。
在一种示例性实例中,将经过特征提取的测试数据输入训练得到的分类模型,以产出对测试数据进行分类的分类结果。
步骤104:根据分类结果,将文本类反馈信息分发给相应解决人员。
可选地,本步骤包括:
根据分类结果将测试数据分成不同类型的数据集,比如反馈类型A,反馈类型B,反馈类型C,反馈类型D等不同的反馈类型;
将不同类型的数据集反馈给相应的解决人员。比如:相应于反馈类型A的是解决人员A,相应于反馈类型B的是解决人员B,相应于反馈类型C的是解决人员C,相应于反馈类型D的是解决人员D,这样,处理不同类型反馈信息的解决人员自动获得了属于自身能处理的类型的文本类反馈信息。
本申请反馈信息处理方法,对于用户反馈的文本类反馈信息进行了自动分类,实现了在海量反馈数据中对用户反馈的初步分类,提高了处理效率,节约了大量的人工成本。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述实施例中任一项的反馈信息处理方法。
本申请再提供一种计算机装置,包括存储器和处理器,其中,存储器中存储有上述实施例中任一项的反馈信息处理方法的步骤。
图2为本申请反馈信息处理装置的组成结果示意图,如图2所示,至少包括:预处理模块、特征提取模块、训练模块、分类模块、分发模块;其中,
预处理模块,用于将文本类反馈信息划分为训练数据和测试数据。
特征提取模块,用于对训练数据和测试数据分别进行特征提取。
训练模块,用于对经过特征提取的训练数据进行训练以获取分类模型。
分类模块,用于利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果。
分发模块,用于根据分类结果,将文本类反馈信息分发给相应解决人员。
可选地,预处理模块还用于:获取文本类反馈信息。
可选地,特征提取模块具体用于:通过文本提取算法对训练数据和测试数据分别进行特征提取。
可选地,训练模块具体用于:利用预先设置的算法,包括但不限于最大熵数据挖掘算法、逻辑回归算法、SVM算法等,对经过特征提取的训练数据进行模型训练迭代,以获取分类模型。
可选地,分类模块具体用于:将经过特征提取的测试数据输入训练得到的分类模型,以产出对测试数据进行分类的分类结果。
可选地,分类模块具体用于:根据分类结果将测试数据分成不同类型的数据集;将不同类型的数据集反馈给相应的解决人员。
本申请反馈信息处理装置,对于用户反馈的文本类反馈信息进行了自动分类,实现了在海量反馈数据中对用户反馈的初步分类,提高了处理效率,节约了大量的人工成本。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (11)

1.一种反馈信息处理方法,包括:
将文本类反馈信息划分为训练数据和测试数据;
对训练数据和测试数据分别进行特征提取;
对经过特征提取的训练数据进行训练以获取分类模型;
利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果;
根据分类结果,将文本类反馈信息分发给相应解决人员。
2.根据权利要求1所述的方法,所述将文本类反馈信息划分为训练数据和测试数据之前,还包括:获取所述文本类反馈信息。
3.根据权利要求2所述的方法,其中,所述获取文本类反馈信息,包括:
从获得的反馈信息中筛选出文本类反馈信息;
删除筛选出的文本类反馈信息中的无效的文本类反馈信息。
4.根据权利要求1所述的方法,其中,所述训练数据和测试数据的比例包括1:1。
5.根据权利要求1所述的方法,其中,所述对训练数据和测试数据分别进行特征提取,包括:
通过文本提取算法对所述训练数据和所述测试数据分别进行特征提取。
6.根据权利要求1所述的方法,其中,所述对经过特征提取的训练数据进行训练以获取分类模型,包括:
利用最大熵数据挖掘算法,对所述经过特征提取的训练数据进行模型训练迭代,以获取所述分类模型。
7.根据权利要求1所述的方法,其中,所述对经过特征提取的测试数据进行分类并得到分类结果,包括:
将所述经过特征提取的测试数据输入训练得到的所述分类模型,以产出对所述测试数据进行分类的所述分类结果。
8.根据权利要求1所述的方法,其中,所述将文本类反馈信息分发给相应解决人员,包括:
根据所述分类结果将所述测试数据分成不同类型的数据集;
将不同类型的数据集反馈给相应的解决人员。
9.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~权利要求8任一项所述的反馈信息处理方法。
10.一种计算机装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求8任一项所述的反馈信息处理方法的步骤。
11.一种反馈信息处理装置,包括:预处理模块、特征提取模块、训练模块、分类模块、分发模块;其中,
预处理模块,用于将文本类反馈信息划分为训练数据和测试数据;
特征提取模块,用于对训练数据和测试数据分别进行特征提取;
训练模块,用于对经过特征提取的训练数据进行训练以获取分类模型;
分类模块,用于利用得到的分类模型对经过特征提取的测试数据进行分类并得到分类结果;
分发模块,用于根据分类结果,将文本类反馈信息分发给相应解决人员。
CN201811066301.9A 2018-09-13 2018-09-13 反馈信息处理方法及装置 Pending CN110895562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811066301.9A CN110895562A (zh) 2018-09-13 2018-09-13 反馈信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811066301.9A CN110895562A (zh) 2018-09-13 2018-09-13 反馈信息处理方法及装置

Publications (1)

Publication Number Publication Date
CN110895562A true CN110895562A (zh) 2020-03-20

Family

ID=69785291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811066301.9A Pending CN110895562A (zh) 2018-09-13 2018-09-13 反馈信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN110895562A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509712A (zh) * 2020-12-31 2021-03-16 曜立科技(北京)有限公司 一种产妇信息的跟踪反馈方法及***
CN112766749A (zh) * 2021-01-22 2021-05-07 北京高途云集教育科技有限公司 反馈信息处理方法、***和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN104834651A (zh) * 2014-02-12 2015-08-12 北京京东尚科信息技术有限公司 一种提供高频问题回答的方法和装置
CN105205043A (zh) * 2015-08-26 2015-12-30 苏州大学张家港工业技术研究院 一种新闻读者情绪的分类方法与***
CN106294718A (zh) * 2016-08-08 2017-01-04 北京邮电大学 信息处理方法及装置
CN107590195A (zh) * 2017-08-14 2018-01-16 百度在线网络技术(北京)有限公司 文本分类模型训练方法、文本分类方法及其装置
CN107679244A (zh) * 2017-10-30 2018-02-09 中国联合网络通信集团有限公司 文本分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN104834651A (zh) * 2014-02-12 2015-08-12 北京京东尚科信息技术有限公司 一种提供高频问题回答的方法和装置
CN105205043A (zh) * 2015-08-26 2015-12-30 苏州大学张家港工业技术研究院 一种新闻读者情绪的分类方法与***
CN106294718A (zh) * 2016-08-08 2017-01-04 北京邮电大学 信息处理方法及装置
CN107590195A (zh) * 2017-08-14 2018-01-16 百度在线网络技术(北京)有限公司 文本分类模型训练方法、文本分类方法及其装置
CN107679244A (zh) * 2017-10-30 2018-02-09 中国联合网络通信集团有限公司 文本分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吉久明等: "《文本挖掘中若干关键问题研究》", 上海科学技术文献出版社, pages: 247 - 248 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509712A (zh) * 2020-12-31 2021-03-16 曜立科技(北京)有限公司 一种产妇信息的跟踪反馈方法及***
CN112766749A (zh) * 2021-01-22 2021-05-07 北京高途云集教育科技有限公司 反馈信息处理方法、***和存储介质

Similar Documents

Publication Publication Date Title
CN111309759B (zh) 企业科技项目智能匹配平台
US9213983B2 (en) Computing system, method, and non-transitory computer-readable medium for providing a multi-tenant knowledge network
Burnap et al. COSMOS: Towards an integrated and scalable service for analysing social media on demand
US11416768B2 (en) Feature processing method and feature processing system for machine learning
KR101983538B1 (ko) 카테고리 비율들을 계산하기 위한 시스템들 및 방법들
Khang et al. AI-aided data analytics tools and applications for the healthcare sector
Garg et al. Challenges and techniques for testing of big data
US11341449B2 (en) Data distillery for signal detection
US20150032708A1 (en) Database analysis apparatus and method
Raghav et al. A survey of data visualization tools for analyzing large volume of data in big data platform
WO2018040067A1 (zh) 用户指导***及方法
Krstić et al. Visualization of big data text analytics in financial industry: a case study of topic extraction for Italian banks
Bright Big social science”: doing big data in the social sciences
Bion et al. How R helps Airbnb make the most of its data
CN110895562A (zh) 反馈信息处理方法及装置
Shahin A critical axiology for big data studies
CN108920508A (zh) 基于lda算法的文本分类模型训练方法及***
Ganguly R data analysis Cookbook
Thomas A Review paper on BIG Data
Sarkar Using qualitative approaches in the era of big data: A confessional tale of a behavioral researcher
Shaikh et al. YouTube data analysis using MapReduce on Hadoop
US20210312223A1 (en) Automated determination of textual overlap between classes for machine learning
Dave et al. Identifying big data dimensions and structure
CN110019771B (zh) 文本处理的方法及装置
Wetzel Market Research: The Process, Data, and Methods Using Stata.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination