CN110633311B - 一种数据处理方法、装置及存储介质 - Google Patents

一种数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN110633311B
CN110633311B CN201910864839.2A CN201910864839A CN110633311B CN 110633311 B CN110633311 B CN 110633311B CN 201910864839 A CN201910864839 A CN 201910864839A CN 110633311 B CN110633311 B CN 110633311B
Authority
CN
China
Prior art keywords
feedback
feedback data
historical
data
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910864839.2A
Other languages
English (en)
Other versions
CN110633311A (zh
Inventor
王辰正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910864839.2A priority Critical patent/CN110633311B/zh
Publication of CN110633311A publication Critical patent/CN110633311A/zh
Application granted granted Critical
Publication of CN110633311B publication Critical patent/CN110633311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置及存储介质,本申请实施例获取预设时间周期内的实时反馈数据;根据所述实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间;获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表;根据所述反馈波动频率、占比区间和反馈参考映射表,确定所述实时反馈数据对应的反馈结果。该方案通过反馈波动频率和预设关键词出现频率的占比区间,以及结合反馈参考映射表综合分析得到反馈结果,提高了反馈结果确定的准确性,相对于以反馈数量增长速度进行单一分析,大大提高了反馈结果的可靠性。

Description

一种数据处理方法、装置及存储介质
技术领域
本申请涉及通信技术领域,具体涉及一种数据处理方法、装置及存储介质。
背景技术
目前,用户在使用浏览器的过程中,一般会遇到一些问题并进行反馈,服务器在接收到基于使用浏览器用户的反馈后,会针对用户反馈进行分析,具体分析过程是统计问题反馈的数量,根据该数量来对异常反馈进行告警。例如,当反馈数量逐步增长或增长速度较快时,说明当前浏览器出现较大问题,需要尽快处理,此时对异常反馈进行告警。
在对现有技术的研究和实践过程中,本申请的发明人发现,以反馈数量增长速度来进行单一分析,无法保证发现异常反馈的速度,使得分析结果不准确,并且由于用户反馈存在数据波动,比较容易出现误报的情况,导致可靠性不高。
发明内容
本申请实施例提供一种数据处理方法、装置及存储介质,旨在提高反馈结果的准确性和可靠性。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种数据处理方法,包括:
获取预设时间周期内的实时反馈数据;
根据所述实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间;
获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表,所述反馈参考映射表包括多个基准反馈波动频率范围和多个基准占比区间划分得到的问题反馈概率区间;
根据所述反馈波动频率、占比区间和反馈参考映射表,确定所述实时反馈数据对应的反馈结果。
在一些实施方式中,所述根据所述反馈波动频率、占比区间和反馈参考映射表,确定所述实时反馈数据对应的反馈结果包括:
将所述反馈波动频率与基准反馈波动频率进行比较,以及将所述占比区间与基准占比区间进行比较;
根据比较结果确定所述反馈波动频率和占比区间位于所述反馈参考映射表中的位置;
根据所述位置确定所述实时反馈数据对应的反馈结果。
在一些实施方式中,根据所述实时反馈数据计算反馈波动频率包括:
获取实时反馈数据的数量,以及历史反馈数据的均值和标准差的累加值;
计算所述实时反馈数据的数量与所述累加值之间的差值;
获取基于基准反馈波动频率生成的历史反馈波动频率列表;
根据所述差值从所述历史反馈波动频率列表中,确定所述实时反馈数据对应的反馈波动频率。
在一些实施方式中,根据所述实时反馈数据计算预设关键词出现频率的占比区间包括:
对所述实时反馈数据进行分词处理,得到至少一个词语;
从所述至少一个词语中提取预设关键词;
获取所述预设关键词占所述实时反馈数据的数量,与所述实时反馈数据的总数量之间的比值;
获取基于基准占比区间生成的历史占比区间列表;
根据所述比值从所述历史占比区间列表中确定所述预设关键词出现频率所对应的占比区间。
在一些实施方式中,所述获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表之前,所述方法还包括:
获取预设时间段内的历史反馈数据,并从所述历史反馈数据中筛选出正常的反馈数据,得到筛选后的历史反馈数据;
将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据;
对每个日期区间内的历史反馈数据按照预设周期策略进行分组,得到多组历史反馈数据;
计算每组历史反馈数据对应的基准反馈波动频率;
计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间;
根据所述基准反馈波动频率和基准占比区间生成反馈参考映射表。
在一些实施方式中,所述计算每组历史反馈数据对应的基准反馈波动频率包括:
获取每组历史反馈数据的数量,以及每组历史反馈数据对应的均值和标准差;
计算每组历史反馈数据的所述均值、标准差与预设阈值之间的累加和;
根据所述数量和累加和计算每组历史反馈数据对应的基准反馈波动频率。
在一些实施方式中,所述计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间包括:
对每组历史反馈数据进行分词处理,得到至少一个词语,并从所述至少一个词语中提取预设关键词;
获取每组历史反馈数据中预设关键词占所在当前组历史反馈数据的数量,以及所述当前组历史反馈数据的总数量;
根据所述比值和总数量计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间。
在一些实施方式中,所述从所述至少一个词语中提取预设关键词包括:
从所述至少一个词语中提取动词和名词;
计算每组历史反馈数据中动词出现的频率,以及计算每组历史反馈数据中名词出现的频率;
筛选出频率最高的动词以及频率最高的名词,得到预设关键词。
一种数据处理装置,包括:
第一获取单元,用于获取预设时间周期内的实时反馈数据;
计算单元,用于根据所述实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间;
第二获取单元,用于获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表;
确定单元,用于根据所述反馈波动频率、占比区间和反馈参考映射表,确定所述实时反馈数据对应的反馈结果。
在一些实施方式中,所述确定单元具体用于:
将所述反馈波动频率与基准反馈波动频率进行比较,以及将所述占比区间与基准占比区间进行比较;
根据比较结果确定所述反馈波动频率和占比区间位于所述反馈参考映射表中的位置;
根据所述位置确定所述实时反馈数据对应的反馈结果。
在一些实施方式中,所述第一计算单元具体用于:
获取实时反馈数据的数量,以及历史反馈数据的均值和标准差的累加值;
计算所述实时反馈数据的数量与所述累加值之间的差值;
获取基于基准反馈波动频率生成的历史反馈波动频率列表;
根据所述差值从所述历史反馈波动频率列表中,确定所述实时反馈数据对应的反馈波动频率。
在一些实施方式中,所述第一计算单元具体用于:
对所述实时反馈数据进行分词处理,得到至少一个词语;
从所述至少一个词语中提取预设关键词;
获取所述预设关键词占所述实时反馈数据的数量,与所述实时反馈数据的总数量之间的比值;
获取基于基准占比区间生成的历史占比区间列表;
根据所述比值从所述历史占比区间列表中确定所述预设关键词出现频率所对应的占比区间。
在一些实施方式中,所述数据处理装置还包括:
筛选单元,用于获取预设时间段内的历史反馈数据,并从所述历史反馈数据中筛选出正常的反馈数据,得到筛选后的历史反馈数据;
划分单元,用于将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据;
分组单元,用于对每个日期区间内的历史反馈数据按照预设周期策略进行分组,得到多组历史反馈数据;
第二计算单元,用于计算每组历史反馈数据对应的基准反馈波动频率;
第三计算单元,用于计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间;
生成单元,用于根据所述基准反馈波动频率和基准占比区间生成反馈参考映射表。
在一些实施方式中,所述第二计算单元具体用于:
获取每组历史反馈数据的数量,以及每组历史反馈数据对应的均值和标准差;
计算每组历史反馈数据的所述均值、标准差与预设阈值之间的累加和;
根据所述数量和累加和计算每组历史反馈数据对应的基准反馈波动频率。
在一些实施方式中,所述第三计算单元包括:
提取模块,用于对每组历史反馈数据进行分词处理,得到至少一个词语,并从所述至少一个词语中提取预设关键词;
获取模块,用于获取每组历史反馈数据中预设关键词占所在当前组历史反馈数据的数量,以及所述当前组历史反馈数据的总数量;
计算模块,用于根据所述比值和总数量计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间。
在一些实施方式中,所述提取模块具体用于:
从所述至少一个词语中提取动词和名词;
计算每组历史反馈数据中动词出现的频率,以及计算每组历史反馈数据中名词出现的频率;
筛选出频率最高的动词以及频率最高的名词,得到预设关键词。
一种存储介质,所述存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行本申请实施例提供的任一种数据处理方法。
本申请实施例可以获取预设时间周期内的实时反馈数据,以及根据实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间,然后获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表,此时可以根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果。该方案通过反馈波动频率和预设关键词出现频率的占比区间,以及结合反馈参考映射表综合分析得到反馈结果,提高了反馈结果确定的准确性,相对于以反馈数量增长速度进行单一分析,大大提高了反馈结果的可靠性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据处理***的场景示意图;
图2是本申请实施例提供的数据处理方法的流程示意图;
图3是本申请实施例提供的数据处理方法的另一流程示意图;
图4是本申请实施例提供的反馈参考映射表的示意图;
图5是本申请实施例提供的生成反馈结果的示意图;
图6是本申请实施例提供的生成反馈结果的另一示意图;
图7是本申请实施例提供的生成反馈结果的另一示意图;
图8是本申请实施例提供的反馈监控界面的示意图;
图9是本申请实施例提供的反馈监控界面的另一示意图;
图10是本申请实施例提供的数据处理装置的结构示意图;
图11是本申请实施例提供的数据处理装置的另一结构示意图;
图12是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据处理方法、装置及存储介质。
请参阅图1,图1为本申请实施例所提供的数据处理***的场景示意图,该数据处理***可以包括数据处理装置,该数据处理装置具体可以集成在服务器中,该服务器可以获取预设时间周期内的实时反馈数据,例如,可以接收终端发送的实时反馈数据,然后,可以根据实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间,以及获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表。此时,可以根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果,例如,将反馈波动频率与基准反馈波动频率进行比较,以及将占比区间与基准占比区间进行比较,以便根据比较结果确定确定实时反馈数据对应的反馈结果,可以将反馈结果发送给管理后台,以便管理人员及时查看反馈结果,并采取相应的措施,还可以将反馈结果发送到指定邮箱或即时通信账号等。从而通过反馈波动频率和预设关键词出现频率的占比区间,以及结合反馈参考映射表综合分析得到反馈结果,提高了反馈结果确定的准确性和可靠性。
需要说明的是,图1所示的数据处理***的场景示意图仅仅是一个示例,本申请实施例描述的数据处理***以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着数据处理***的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。
在本实施例中,将从数据处理装置的角度进行描述,该数据处理装置具体可以集成在服务器或网关等网络设备中。
请参阅图2,图2是本申请一实施例提供的数据处理方法的流程示意图。该数据处理方法可以包括:
S101、获取预设时间周期内的实时反馈数据。
例如,可以接收手机或电脑等终端,每隔预设时间周期发送的实时反馈数据,或者,每隔预设时间周期从数据库中提取实时反馈数据,等等。其中,预设时间周期可以根据实际需要进行灵活设置,例如,预设时间周期可以是20分钟或30分钟,即可以每隔20分钟或30分钟获取实时反馈数据,或者是,每隔20分钟获取前1小时内的反馈数据,等等,以便对实时反馈数据进行分析,及时发现问题并及时采取相应措施。
该反馈数据可以是在使用浏览器、即时通信、邮箱或游戏等应用程序的过程中,基于用户使用体验产生的反馈数据或应用程序运行时自身产生的反馈数据等。例如,在2019年6月03日9:00:00用户A使用浏览器的过程中,产生反馈:错误代码ERR_CONNECTION_TIMED_OUT刷新网页|查看解决办法;又例如,在2019年7月16日11:30:00用户B使用网页玩游戏的过程中,产生反馈:XX游戏玩不了;又例如,在2019年8月28日15:20:00用户B使用浏览器的过程中,产生反馈:如何使用浏览器下载应用程序(APP,Application),等等。
S102、根据实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间。
S103、获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表。
为了准确进行数据分析,方便后续及时采取相应的措施,在得到实时反馈数据后,可以基于实时反馈数据计算反馈波动频率,以及基于实时反馈数据计算预设关键词出现频率的占比区间等,该反馈波动频率可以是在预设时间周期内反馈波动频率区间,用于表征问题反馈的情况,例如,在一个小时内的实时反馈数据中超过80%是反馈浏览器打不开,或者在一个小时内的实时反馈数据中低于80%是反馈无法登录账号。该预设关键词可以是从实时反馈数据中提取出的名词和动词等,或者是从实时反馈数据中提取出的出现频率最高的名词和动词等,该预设关键词可以为一个或多个,例如,从实时反馈数据“网页打不开,咋回事”中提取的关键词可以是“网页”和“打不开”等。该预设关键词出现频率的占比区间可以是预设关键词在预设时间周期内的实时反馈数据中出现频率的占比区间,例如预设关键词“登录”出现频率的占比区间在20%内。
在一些实施方式中,在步骤S101获取预设时间周期内的实时反馈数据之前,或者在步骤S102根据实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间之前,或者,在步骤S103获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表之前,数据处理方法还可以包括:获取预设时间段内的历史反馈数据,并从历史反馈数据中筛选出正常的反馈数据,得到筛选后的历史反馈数据;将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据;对每个日期区间内的历史反馈数据按照预设周期策略进行分组,得到多组历史反馈数据;计算每组历史反馈数据对应的基准反馈波动频率;计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间;根据基准反馈波动频率和基准占比区间生成反馈参考映射表。
具体地,首先可以获取预设时间段内的历史反馈数据,该预设时间段可以根据实际需要进行灵活设置,例如,可以是获取过去1年或2年的历史反馈数据。为了筛选出具有代表性的数据进行分析,提高后续计算的精准性,可以从历史反馈数据中筛选出正常的反馈数据(将正常的历史反馈数据作为基准数据),得到筛选后的历史反馈数据,该正常的反馈数据可以是去除存在重复多次严重反馈数据后得到的数据。由于正常的反馈数据占绝大多数,异常的反馈数据占极少数,因此正常的反馈数据代表性相对较优,使得后续通过对正常的反馈数据的分布情况来判断反馈情况。
由于不同时期的反馈数据存在一定的差异(即不同时期的用户行为的情况不一致),因此为了区分不同时期的反馈数据,可以将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据,该预设日期可以根据实际需要进行灵活设置,例如,可以将筛选后的历史反馈数据按照工作日(即该天为工作日,且第二天也为工作日)、休息日、准备休息日(即该天为工作日、第二天为休息日)等进行日期区间的划分。或者,可以按照工作日和非工作日进行划分,等等。
然后,可以对划分后的每个日期区间内的历史反馈数据,按照预设周期策略进行分组,得到多组历史反馈数据,该预设周期策略可以根据实际需要进行灵活设置,例如,可以对划分后的每个日期区间内的历史反馈数据,按照每隔20分钟进行数据分组,即将每隔20分钟的历史反馈数据作为一数据组,或者每隔20分钟获取前1小时内的历史反馈数据作为一数据组,从而可以得到多组历史反馈数据。其中,每组历史反馈数据中可以包括不同天的同一时间节点的历史反馈数据,例如,历史反馈数据组A中可以包括工作日1对应的12:00:00至12:20:00的历史反馈数据,工作日2对应的12:00:00至12:20:00的历史反馈数据,工作日3对应的12:00:00至12:20:00的历史反馈数据,等等。
此时可以计算每组历史反馈数据对应的基准反馈波动频率,该基准反馈波动频率可以是筛选后的历史反馈数据中,某一日期期间内某个时间节点对应的所有反馈数据的波动区间。在一些实施方式中,计算每组历史反馈数据对应的基准反馈波动频率可以包括:获取每组历史反馈数据的数量,以及每组历史反馈数据对应的均值和标准差;计算每组历史反馈数据的均值、标准差与预设阈值之间的累加和;根据数量和累加和计算每组历史反馈数据对应的基准反馈波动频率。
例如,可以获取每组历史反馈数据中同一时间点的数量,例如,获取历史反馈数据组A中工作日1对应的12:00:00至12:20:00的历史反馈数据为a条,工作日2对应的12:00:00至12:20:00的历史反馈数据为b条,工作日3对应的12:00:00至12:20:00的历史反馈数据为c条,等等;然后计算每组历史反馈数据的均值,以及计算每组历史反馈数据的标准差。
此时可以计算每组历史反馈数据的均值、标准差与预设阈值之间的累加和,该预设阈值可以根据实际需要进行灵活设置,该预设阈值可以包括一个或多个值,例如,可以该预设阈值可以包括1、2、3、4和5等,当均值为7.42857,标准差为0.37978时,预设阈值为1时,累加值=7.42857+0.37978+1=8.80835;当均值为7.42857,标准差为0.37978时,预设阈值为2时,累加值=7.42857+0.37978+2=9.80835,等等。
根据数量和累加和计算每组历史反馈数据对应的基准反馈波动频率,例如,以休息日,12:00:00为例,近一年历史反馈数据中,获取休息日在时间节点12:00:00(前一个小时内)的历史反馈数据的数量,计算该时间节点的历史反馈数据对应的均值为7.42857,标准差为0.37978,以及均值与标准差之和为7.80835,并且计算均值与标准差之和,与预设阈值(包括+1、+2、+3、+4、+5)之间的累加值,分别得到8.80835、9.80835、10.80835、11.80835和12.80835等,计算该组历史反馈数据对应的基准反馈波动频率为:'12:00:00':[7.42857,0.37978,0.5079,0.619,0.7937,0.8571,0.9206],其中该数据表示:12:00:00该时间节点近一年内休息日中在该时间节点的均值为7.42857,标准差为:0.37978,50.79%的历史反馈数据小于8.80835,61.9%的历史反馈数据小于9.80835,79.37%的历史反馈数据小于10.80835,85.71%的历史反馈数据小于11.80835,92.06%的历史反馈数据小于12.80835。根据上述计算方式可以得到各个日期区间中各个时间节点对应的历史反馈数据的基准反馈波动频率。
根据历史反馈数据的基准反馈波动频率,可以得出多个结论,例如可以包括:(1)反馈数据符合预期;(2)反馈数据中大于80%反馈;(3反馈数据超出限制预期反馈;(4)反馈数据超出平均反馈两倍以上;(5)反馈数据超出平均反馈三倍以上;等等。
以及,计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间,该基准占比区间可以是正常的历史反馈数据中,反馈频率最高关键词(包括名词或动词等)出现频率的占比区间,即某一个日期区间内某个具体反馈数据出现关键词的最高频率,在正常的历史反馈数据中数量的区间(例如80%以内或20%以内等)。
在一些实施方式中,计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间可以包括:对每组历史反馈数据进行分词处理,得到至少一个词语,并从至少一个词语中提取预设关键词;获取每组历史反馈数据中预设关键词占所在当前组历史反馈数据的数量,以及当前组历史反馈数据的总数量;根据比值和总数量计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间。
具体地,可以按照预设的分词策略对每组历史反馈数据进行分词处理,得到至少一个词语,该预设的分词策略可以根据实际需要进行灵活设置,例如,可以将历史反馈数据“密码无法使用”分为“密码”、“无法”和“使用”等词语。然后,从分词得到的至少一个词语中提取预设关键词,例如,可以从至少一个词语中提取出现的频率最高的词语作为预设关键词,或者,根据语义信息从至少一个词语中提取特定语义的词语作为预设关键词,等等。
在一些实施方式中,从至少一个词语中提取预设关键词可以包括:从至少一个词语中提取动词和名词;计算每组历史反馈数据中动词出现的频率,以及计算每组历史反馈数据中名词出现的频率;筛选出频率最高的动词以及频率最高的名词,得到预设关键词。
例如,可以从至少一个词语中提取动词和名词,以及计算每组历史反馈数据中动词出现的频率,以及计算每组历史反馈数据中名词出现的频率;筛选出频率最高的动词作为预设关键词,以及筛选出频率最高的名词作为预设关键词,即预设关键词可以包括多个,多个预设关键词中可以包括名词和动词等。
此时,可以获取每组历史反馈数据中预设关键词占所在当前组历史反馈数据的数量,以及当前组历史反馈数据的总数量,根据比值和总数量计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间。例如,以休息日在时间节点12:00:00为例,近一年历史反馈数据中获取休息日时间节点12:00:00(前一个小时内)的历史反馈数据的数量为10条,对这10条历史反馈数据进行分词,例如“密码无法使用”分词得到密码(名词)、使用(动词)、无法(非动词非名词可以忽略),然后,计算这10条历史反馈数据中,出现次数最多的预设关键词,若10条历史反馈数据中,4条出现“密码”(名词)、3条出现“账号”(名词),则这10条历史反馈数据中出现“密码”对应的频率为0.4,其为频率最高可以作为关键词。
计算关键词“密码”的出现频率的基准占比区间为10:{0.8:0.20299,0.85:0,0.9:0,0.95:0.30299,1:0.40299},其中,10表示10条历史反馈数据,0.8:0.20299表示:存在80%关键词的出现频率小于0.20299,即当关键词A出现频率低于0.20299时,处于80%的基准占比区间,当关键词A出现频率高于0.20299时,处于20%的基准占比区间。以此类推,0.85:0表示:85%的关键词小于0;1:0.40299表示:100%关键词的出现频率小于0.40299等。
基于预设关键词出现频率的基准占比区间,可以得出多个结论,例如可以包括:(1)关键词出现频率在80%的区间内(即关键词出现频率在该历史反馈数据中占80%);(2)关键词出现频率在20%的区间内(即关键词出现频率在该历史反馈数据占20%);(3)关键词出现频率在15%的区间内;(4)关键词出现频率在10%的区间内;(5)关键词出现频率在5%的区间内;(6)关键词出现频率在0%的区间内;等等。
最后可以根据基准反馈波动频率和基准占比区间生成反馈参考映射表,该反馈参考映射表可以是问题区间表,即该反馈参考映射表可以包括多个基准反馈波动频率范围和多个基准占比区间划分得到的问题反馈概率区间,可以以基准反馈波动频率和基准占比区间分别为横纵轴划分多个不同的区间,每个区间楷体用不同颜色或编号等标识进行区分,例如,绿色表示正常区间、黄色表示较大概率有问题的区间、红色表示极大概率有问题的区间,等等。例如,当历史反馈数据组A对应的基准反馈波动频率为大于80%,以及预设关键词出现频率的基准占比区间为在20%区间内时,对应位于该反馈参考映射表中的区间为正常区间。当历史反馈数据组B对应的基准反馈波动频率超出平均反馈3倍,以及预设关键词出现频率的基准占比区间为在5%区间内时,对应位于该反馈参考映射表中的区间为极大概率存在问题区间。
此时,还可以基于基准反馈波动频率生成的历史反馈波动频率列表,以及基于基准占比区间生成的历史占比区间列表,等等。可以将生成的反馈参考映射表、历史反馈波动频率列表和历史占比区间列表等进行存储,以便后续使用。
在获取实时反馈数据后,可以计算实时反馈数据对应的反馈波动频率,在一些实施方式中,根据实时反馈数据计算反馈波动频率可以包括:获取实时反馈数据的数量,以及历史反馈数据的均值和标准差的累加值;计算实时反馈数据的数量与累加值之间的差值;获取基于基准反馈波动频率生成的历史反馈波动频率列表;根据差值从历史反馈波动频率列表中,确定实时反馈数据对应的反馈波动频率。
具体地,可以统计预设时间周期内的实时反馈数据的数量,例如,统计出工作日2019年8月28日9:00:00至2019年8月28日9:20:00这段时间周期内的实时反馈数据的数量为10条。以及,获取历史反馈数据的均值和标准差,该历史反馈数据可以是与预设时间周期内对应的预设时间段内的历史反馈数据,该预设时间段可以根据实际需要进行灵活设置,例如,可以是过去1年内工作日中位于9:00:00至9:20:00的历史反馈数据,由于上述在生成反馈参考映射表的过程中已经计算各个组历史反馈数据的均值和标准差,因此可以获取上述计算得到的与预设时间周期内对应的历史反馈数据的均值和标准差。然后计算历史反馈数据的均值和标准差的累加值,例如,当均值为7.42857,标准差为0.37978时,累加值=7.42857+0.37978=7.80835;此时可以计算实时反馈数据的数量与累加值之间的差值,例如,当2019年8月28日8:00:00至2019年8月28日9:00:00这段时间周期内的实时反馈数据的数量为10条时,差值=10-7.80835=2.19165。
然后,可以获取基于基准反馈波动频率生成的历史反馈波动频率列表,根据差值从历史反馈波动频率列表中,确定实时反馈数据对应的反馈波动频率,例如,以历史反馈波动频率列表中在时间节点01:00:00对应的反馈波动频率:'01:00:00':[2.04762,0.73541,0.6508,0.8095,0.9365,0.9841,1.0]为例,当在01:00:00接收到的实时反馈数据为10条时,计算实时反馈数据的数量与均值(2.04762)和标准差(0.73541)之间累加值的差值,均值、标准差与预设阈值之间的累加和等,此时,计算得到的7.21698大于6.78303且小于7.78303,通过查询历史反馈波动频率列表,得到01:00:00的实时反馈数据对应的反馈数据波动频率是0.9841。
以及,可以根据实时反馈数据计算预设关键词出现频率的占比区间,在一些实施方式中,根据实时反馈数据计算预设关键词出现频率的占比区间可以包括:对实时反馈数据进行分词处理,得到至少一个词语;从至少一个词语中提取预设关键词;获取预设关键词占实时反馈数据的数量,与实时反馈数据的总数量之间的比值;获取基于基准占比区间生成的历史占比区间列表;根据比值从历史占比区间列表中确定预设关键词出现频率所对应的占比区间。
例如,可以按照预设的分词策略对实时反馈数据进行分词处理,得到至少一个词语,该预设的分词策略可以根据实际需要进行灵活设置,例如,可以将实时反馈数据“网页超级卡”分为“网页”、“超级”和“卡”等词语。然后从至少一个词语中提取预设关键词,例如,从至少一个词语中提取动词和名词;计算实时反馈数据中动词出现的频率,以及计算实时反馈数据中名词出现的频率,筛选出频率最高的动词和频率最高的名词,得到预设关键词。
获取预设关键词占实时反馈数据的数量,与实时反馈数据的总数量之间的比值,当预设关键词包括多个时,分别获取每个预设关键词占实时反馈数据的数量,与实时反馈数据的总数量之间的比值。例如,比值=预设关键词占实时反馈数据的数量(例如为4)/实时反馈数据的总数量(例如为10)=0.4,
然后,获取基于基准占比区间生成的历史占比区间列表,根据比值从历史占比区间列表中确定预设关键词出现频率所对应的占比区间。例如,实时反馈数据的总数量为10条所对应的历史占比区间列表为10:{0.8:0,0.85:0,0.9:0,0.95:0.31556,1:0.41556},由于比值为0.4,0.4大于0.31且小于0.41,因此可以查询历史占比区间列表到0.95:0.31556,即预设关键词出现频率所对应的占比区间为1-0.95=0.05(即5%)。
当需要使用反馈参考映射表时,可以获取预先存储的基于基准反馈波动频率和基准占比区间生成的反馈参考映射表。
S104、根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果。
在得到实时反馈数据的反馈波动频率和预设关键词出现频率的占比区间,以及基于基准反馈波动频率和基准占比区间生成的反馈参考映射表后,可以通过查询反馈参考映射表来确定实时反馈数据对应的反馈结果,以便根据反馈结果及时发现问题,并采取相应的措施。其中,反馈结果可以包括正常反馈、较大概率存在问题及该问题的类型,极大概率存在问题及该问题的类型,等等。
在一些实施方式中,根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果可以包括:将反馈波动频率与基准反馈波动频率进行比较,以及将占比区间与基准占比区间进行比较;根据比较结果确定反馈波动频率和占比区间位于反馈参考映射表中的位置;根据位置确定实时反馈数据对应的反馈结果。
具体地,可以将实时反馈数据的反馈波动频率与基准反馈波动频率进行比较,确定该反馈波动频率匹配的基准反馈波动频率,以及将实时反馈数据中预设关键词出现频率的占比区间与基准占比区间进行比较,确定该占比区间匹配的基准占比区间,然后确定匹配得到的基准反馈波动频率和基准占比区间位于反馈参考映射表中的位置,即可得到反馈波动频率和占比区间位于反馈参考映射表中的位置(即区间),此时可以根据位置确定实时反馈数据对应的反馈结果。例如,当实时反馈数据的反馈波动频率为超出平均反馈两倍,以及预设关键词出现频率的占比区间为在15%区间内时,得到反馈波动频率和占比区间位于反馈参考映射表中的位置为R区间,此时可以根据R区间确定实时反馈数据对应的反馈结果为较大概率存在问题。
本申请实施例可以获取预设时间周期内的实时反馈数据,以及根据实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间,然后获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表,此时可以根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果。该方案通过反馈波动频率和预设关键词出现频率的占比区间,以及结合反馈参考映射表综合分析得到反馈结果,提高了反馈结果确定的准确性,相对于以反馈数量增长速度进行单一分析,大大提高了反馈结果的可靠性。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
本实施例以数据处理装置为服务器为例,该服务器可以对终端使用浏览器的过程中产生的反馈数据进行多维度的准确分析,并针对异常反馈进行告警,从而可以达到快速发现问题(即异常反馈),及时处理问题,提高数据处理效率和可靠性,减少浏览器线上问题反馈带来的负面影响。
请参阅图3,图3为本申请实施例提供的数据处理方法的流程示意图。该方法流程可以包括:
S201、服务器接收终端基于在预设时间段内使用浏览器时发送的历史反馈数据。
其中,该预设时间段可以根据实际需要进行灵活设置,例如,服务器可以是获取过去1年或2年内终端使用浏览器时发送的历史反馈数据,该历史反馈数据可以包括正常反馈数据和异常反馈数据等,该正常反馈数据可以是浏览器使用正常时反馈的数据,例如,“浏览器还好,一切使用正常”,“通过浏览器如何下载APP”等。该异常反馈数据可以是浏览器使用异常时反馈的数据,例如,“新标签页经常打不开速度还很慢”,“浏览器存在问题,出现错误代码,让人烦躁”等。
S202、服务器从历史反馈数据中筛选出正常的反馈数据,得到筛选后的历史反馈数据。
为了筛选出具有代表性的数据进行分析,提高后续计算的精准性,服务器可以从历史反馈数据中筛选出正常的反馈数据,得到筛选后的历史反馈数据,该正常的反馈数据可以是浏览器使用正常时反馈的数据。由于正常的反馈数据占绝大多数,异常的反馈数据占极少数,因此正常的反馈数据代表性相对较优,使得后续通过对正常的反馈数据的分布情况来判断反馈情况。
S203、服务器将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据。
由于不同时期的反馈数据存在一定的差异,即不同时期的用户行为的情况不一致,例如,工作日和休息日使用浏览器的时长可能会不一样,因此为了区分不同时期的反馈数据,服务器可以将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据,该预设日期可以根据实际需要进行灵活设置,例如,可以将筛选后的历史反馈数据按照工作日WorkDay(即该天为工作日,且第二天也为工作日)、休息日RestDay、准备休息日ReadyRest(即该天为工作日、第二天为休息日)等进行日期区间的划分。
S204、服务器对每个日期区间内的历史反馈数据按照预设周期策略进行分组,得到多组历史反馈数据。
服务器可以对划分后的每个日期区间内的历史反馈数据,按照预设周期策略进行分组,得到多组历史反馈数据,该预设周期策略可以根据实际需要进行灵活设置,例如,可以对划分后的每个日期区间内的历史反馈数据,按照每隔20分钟获取前1小时内的历史反馈数据作为一数据组,从而可以得到多组历史反馈数据。其中,每组历史反馈数据中可以包括不同天的同一时间节点的历史反馈数据,例如,历史反馈数据组A中可以包括工作日1对应的12:00:00至12:20:00的历史反馈数据,工作日2对应的12:00:00至12:20:00的历史反馈数据,工作日3对应的12:00:00至12:20:00的历史反馈数据,等等。又例如,历史反馈数据组B中可以包括休息日1对应的9:20:00至9:40:00的历史反馈数据,休息日2对应的9:20:00至9:40:00的历史反馈数据,等等。
S205、服务器计算每组历史反馈数据对应的基准反馈波动频率,以及预设关键词出现频率的基准占比区间。
服务器可以计算每组历史反馈数据对应的基准反馈波动频率,该基准反馈波动频率可以是筛选后的历史反馈数据中,某一日期期间内某个时间节点对应的所有反馈数据的波动区间。具体地,服务器可以获取每组历史反馈数据的数量,以及每组历史反馈数据对应的均值和标准差;然后计算每组历史反馈数据的均值、标准差与预设阈值之间的累加和,根据数量和累加和计算每组历史反馈数据对应的基准反馈波动频率。
例如,可以获取每组历史反馈数据中同一时间点的数量,例如,获取历史反馈数据组A中工作日1对应的12:00:00至12:20:00的历史反馈数据为a条,工作日2对应的12:00:00至12:20:00的历史反馈数据为b条,工作日3对应的12:00:00至12:20:00的历史反馈数据为c条,等等;计算每组历史反馈数据的均值,例如,历史反馈数据组A中包括历史反馈数据a、b和c等n个数据,该组历史反馈数据的均值可以是x=(a+b+c+......+n)/n。以及计算每组历史反馈数据的标准差,例如,历史反馈数据组A的标准差s=sqrt(((a-x)^2+(b-x)^2+......(xn-x)^2)/n)。
然后,计算每组历史反馈数据的均值、标准差与预设阈值之间的累加和,该预设阈值可以根据实际需要进行灵活设置,该预设阈值可以包括一个或多个值,例如,可以该预设阈值可以包括1、2、3、4和5等,当均值为7.42857,标准差为0.37978时,预设阈值为1时,累加值=7.42857+0.37978+1=8.80835;当均值为7.42857,标准差为0.37978时,预设阈值为2时,累加值=7.42857+0.37978+2=9.80835,等等。
服务器可以根据数量和累加和计算每组历史反馈数据对应的基准反馈波动频率,例如,以休息日,12:00:00为例,近一年历史反馈数据中,获取休息日在时间节点12:00:00(前一个小时内)的历史反馈数据的数量,计算该时间节点的历史反馈数据对应的均值为7.42857,标准差为0.37978,以及均值与标准差之和为7.80835,并且计算均值与标准差之和,与预设阈值(包括+1、+2、+3、+4、+5)之间的累加值,分别得到7.42857+0.37978+1=8.80835、7.42857+0.37978+2=9.80835、7.42857+0.37978+3=10.80835、7.42857+0.37978+4=11.80835和7.42857+0.37978+5=12.80835等,计算该组历史反馈数据对应的基准反馈波动频率为:'12:00:00':[7.42857,0.37978,0.5079,0.619,0.7937,0.8571,0.9206],其中该数据表示:12:00:00该时间节点近一年内休息日中在该时间节点的均值为7.42857,标准差为:0.37978,50.79%的历史反馈数据小于7.42857+0.37978+1,61.9%的历史反馈数据小于7.42857+0.37978+2,79.37%的历史反馈数据小于7.42857+0.37978+3,85.71%的历史反馈数据小于7.42857+0.37978+4,92.06%的历史反馈数据小于7.42857+0.37978+5。根据上述计算方式可以得到各个日期区间中各个时间节点对应的历史反馈数据的基准反馈波动频率。
根据历史反馈数据的基准反馈波动频率,可以得出多个结论,例如可以包括:(1)反馈数据符合预期(正常反馈);(2)反馈数据中大于80%反馈;(3反馈数据超出限制预期反馈(例如超过均值+标准差+5);(4)反馈数据超出平均反馈两倍以上;(5)反馈数据超出平均反馈三倍以上;等等。
以及,计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间,该基准占比区间可以是正常的历史反馈数据中,反馈频率最高关键词(包括名词或动词等)出现频率的占比区间,即某一个日期区间内某个具体反馈数据出现关键词的最高频率,在正常的历史反馈数据中数量的区间(例如80%以内或20%以内等)。
服务器可以按照预设的分词策略对每组历史反馈数据进行分词处理,得到至少一个词语,该预设的分词策略可以根据实际需要进行灵活设置,例如,可以将历史反馈数据“密码无法使用”分为“密码”、“无法”和“使用”等词语。然后,从分词得到的至少一个词语中提取预设关键词,例如,可以从至少一个词语中提取出现的频率最高的词语作为预设关键词,或者,根据语义信息从至少一个词语中提取特定语义的词语作为预设关键词,等等。
例如,服务器可以从至少一个词语中提取动词和名词,计算每组历史反馈数据中动词出现的频率,以及计算每组历史反馈数据中名词出现的频率;筛选出频率最高的动词作为预设关键词,以及筛选出频率最高的名词作为预设关键词,即预设关键词可以包括多个,多个预设关键词中可以包括名词和动词等。
此时,服务器可以获取每组历史反馈数据中预设关键词占所在当前组历史反馈数据的数量,以及当前组历史反馈数据的总数量,根据比值和总数量计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间。例如,以休息日在时间节点12:00:00为例,近一年历史反馈数据中获取休息日时间节点12:00:00(前一个小时内)的历史反馈数据的数量为10条,对这10条历史反馈数据进行分词,例如“密码无法使用”分词得到密码(名词)、使用(动词)、无法(非动词非名词可以忽略),然后,计算这10条历史反馈数据中,出现次数最多的预设关键词(每一条历史反馈数据中关键词重复出现的只算1),若10条历史反馈数据中,4条出现“密码”(名词)、3条出现“账号”(名词),则这10条历史反馈数据中出现“密码”对应的频率为0.4,其为频率最高可以作为关键词。
服务器可以计算关键词“密码”的出现频率的基准占比区间为10:{0.8:0.20299,0.85:0,0.9:0,0.95:0.30299,1:0.40299},其中,10表示10条历史反馈数据,0.8:0.20299表示:存在80%关键词的出现频率小于0.20299,即当关键词A出现频率低于0.20299时,处于80%的基准占比区间,当关键词A出现频率高于0.20299时,处于20%的基准占比区间。也就是说,当历史反馈数据为10时,若关键词出现频率为0.203(>0.20299)时,说明关键词出现频率的基准占比区间在20%内(100%-80%),若关键词出现频率为0.2(<=0.20299)时,说明关键词出现频率的基准占比区间在80%内。以此类推,0.85:0表示:85%关键词的出现频率小于0(0表示区间与80%一致);0.9:0表示:90%关键词的出现频率小于0;0.95:0.30299表示:95%关键词的出现频率小于0.30299;1:0.40299表示:100%关键词的出现频率小于0.40299。根据上述计算方式可以得到各个日期区间中各个时间节点对应的历史反馈数据的关键词出现频率的基准占比区间。
基于预设关键词出现频率的基准占比区间,可以得出多个结论,例如可以包括:(1)关键词出现频率在80%的区间内(即关键词出现频率在该历史反馈数据中占80%);(2)关键词出现频率在20%的区间内(即关键词出现频率在该历史反馈数据占20%);(3)关键词出现频率在15%的区间内;(4)关键词出现频率在10%的区间内;(5)关键词出现频率在5%的区间内;(6)关键词出现频率在0%的区间内;等等。
S206、服务器根据基准反馈波动频率和基准占比区间生成反馈参考映射表,基于基准反馈波动频率生成的历史反馈波动频率列表,以及基于基准占比区间生成的历史占比区间列表。
服务器可以根据基准反馈波动频率和基准占比区间生成反馈参考映射表,该反馈参考映射表可以是问题区间表,即该反馈参考映射表可以包括多个基准反馈波动频率范围和多个基准占比区间划分得到的问题反馈概率区间,可以以基准反馈波动频率和基准占比区间分别为横纵轴划分多个不同的区间,每个区间楷体用不同颜色或编号等标识进行区分,例如,绿色表示正常区间、黄色表示较大概率有问题的区间、红色表示极大概率有问题的区间,等等。例如,当历史反馈数据组A对应的基准反馈波动频率为大于80%,以及预设关键词出现频率的基准占比区间为在20%区间内时,对应位于该反馈参考映射表中的区间为正常区间。当历史反馈数据组B对应的基准反馈波动频率超出平均反馈3倍,以及预设关键词出现频率的基准占比区间为在5%区间内时,对应位于该反馈参考映射表中的区间为极大概率存在问题区间。
此时,服务器可以基于基准反馈波动频率生成的历史反馈波动频率列表,例如,该历史反馈波动频率列表可以如下所示:
{'ReadyRest':{'01:00:00':[2.04762,0.73541,0.6508,0.8095,0.9365,0.9841,1.0],'01:20:00':[1.4127,0.83313,0.7778,0.9683,1.0,1.0,1.0],'01:40:00':[1.1746,1.01234,0.873,0.9365,0.9841,1.0,1.0],'02:00:00':[0.87302,1.19862,0.9206,0.9841,0.9841,1.0,1.0],'02:20:00':[0.71429,1.20738,0.873,0.9841,0.9841,0.9841,1.0],'02:40:00':[0.55556,1.19044,0.9048,1.0,1.0,1.0,1.0],'03:00:00':[0.50794,1.44089,0.8889,0.9841,1.0,1.0,1.0],'03:20:00':[0.52381,1.51576,0.9841,1.0,1.0,1.0,1.0],'03:40:00':[0.50794,1.5239,0.9683,1.0,1.0,1.0,1.0],......,'23:40:00':[3.77778,0.50894,0.6825,0.8413,0.9365,0.9683,0.9683],'00:00:00':[3.33333,0.61412,0.5714,0.7143,0.8889,0.9365,0.9524]};
'RestDay':{'01:00:00':[1.92254,0.7537,0.6972,0.8732,0.9577,0.9789,0.993],'01:20:00':[1.62676,0.7878,0.7746,0.9366,0.9789,0.9859,0.993],'01:40:00':[1.39437,0.79824,0.8732,0.9507,0.9859,1.0,1.0],'02:00:00':[1.21127,0.9691,0.8592,0.9366,0.993,1.0,1.0],'02:20:00':[1.02817,1.09469,0.8944,0.9648,0.9859,1.0,1.0],'02:40:00':[0.79577,1.16992,0.8099,0.9296,0.993,1.0,1.0],'03:00:00':[0.64789,1.33603,0.8592,0.9507,0.993,1.0,1.0],......,'23:40:00':[3.4507,0.64304,0.6972,0.838,0.9014,0.9507,0.9648],'00:00:00':[3.09859,0.73803,0.6479,0.7958,0.8662,0.8944,0.9366]};
'WorkDay':{'01:00:00':[1.89069,0.74651,0.7085,0.8947,0.9433,0.9798,0.996],'01:20:00':[1.49798,0.82556,0.8219,0.9312,0.9676,1.0,1.0],'01:40:00':[1.21862,0.94302,0.8704,0.9636,0.9838,0.996,1.0],'02:00:00':[0.97166,1.04529,0.9069,0.9838,0.996,1.0,1.0],'02:20:00':[0.82996,1.16484,0.8178,0.9231,0.9919,0.996,0.996],'02:40:00':[0.65587,1.30788,0.8704,0.9757,0.9798,0.996,1.0],'03:00:00':[0.56275,1.32233,0.8947,0.9757,1.0,1.0,1.0],......,'23:40:00':[3.76923,0.5823,0.6599,0.8178,0.9109,0.9555,0.9798],'00:00:00':[3.21862,0.6581,0.5587,0.7449,0.8785,0.9555,0.9757]}}。
其中,ReadyRest表示准备休息日对应的反馈波动频率,RestDay表示休息日对应的反馈波动频率,WorkDay表示工作日对应的反馈波动频率,一条记录中,例如{'01:00:00':[1.89069,0.74651,0.7085,0.8947,0.9433,0.9798,0.996],第一个数01:00:00表示时间节点,第二个数1.89069表示反馈数据对应的均值,第三个数0.74651表示反馈数据对应的标准差,第四个数0.7085表示70.85%的反馈数据小于均值+标准差+第一预设阈值(如1),第五个数0.8947表示89.47%的反馈数据小于均值+标准差+第二预设阈值(如2),第六个数0.9433表示94.33%的反馈数据小于均值+标准差+第三预设阈值(如3),第七个数0.9798表示97.98%的反馈数据小于均值+标准差+第四预设阈值(如4),第8个数0.996表示99.6%的反馈数据小于均值+标准差+第五预设阈值(如5)。其他条记录的理解以此类推。
以及,服务器可以基于基准占比区间生成的历史占比区间列表,例如,该历史占比区间列表可以如下所示:
{"ReadyRest_n":{......,4:{0.8:0.29863,0.85:0,0.9:0,0.95:0.59863,1:0.79863},5:{0.8:0,0.85:0,0.9:0,0.95:0.45961,1:0.85961},6:{0.8:0,0.85:0,0.9:0,0.95:0.34467,1:0.74467},......};
"ReadyRest_v":{......,3:{0.8:0.3859,0.85:0,0.9:0,0.95:0.6859,1:1.0859},4:{0.8:0,0.85:0,0.9:0,0.95:0.52875,1:0.82875},5:{0.8:0,0.85:0,0.9:0,0.95:0.48621,1:0.68621},6:{0.8:0,0.85:0,0.9:0,0.95:0.36648,1:0.56648},......,};
"RestDay_n":{......,4:{0.8:0.29511,0.85:0,0.9:0,0.95:0.59511,1:0.79511},5:{0.8:0,0.85:0,0.9:0,0.95:0.45846,1:1.05846},6:{0.8:0,0.85:0,0.9:0,0.95:0.34113,1:0.74113},......,};
"RestDay_v":{......,4:{0.8:0,0.85:0,0.9:0,0.95:0.51695,1:0.81695},5:{0.8:0,0.85:0,0.9:0,0.95:0.48493,1:0.88493},6:{0.8:0,0.85:0,0.9:0.37037,0.95:0.57037,1:0.67037},......,};
"WorkDay_n":{......,4:{0.8:0.30208,0.85:0,0.9:0,0.95:0.50208,1:0.80208},5:{0.8:0,0.85:0,0.9:0,0.95:0.46307,1:0.86307},6:{0.8:0,0.85:0,0.9:0,0.95:0.3392,1:0.8392},......,};
"WorkDay_v":{......,4:{0.8:0,0.85:0,0.9:0,0.95:0.52418,1:1.02418},5:{0.8:0,0.85:0,0.9:0,0.95:0.48927,1:0.68927},6:{0.8:0,0.85:0,0.9:0.36976,0.95:0.56976,1:0.66976},......,}}。
其中,_n表示名词,_v表示动词,ReadyRest_n表示准备休息日名词作为关键词出现频率的占比区间,ReadyRest_v表示准备休息日动词作为关键词出现频率的占比区间,RestDay_n表示休息日名词作为关键词出现频率的占比区间,RestDay_v表示休息日动词作为关键词出现频率的占比区间,WorkDay_n表示工作日名词作为关键词出现频率的占比区间,WorkDay_v表示工作日动词作为关键词出现频率的占比区间。在一条记录中,例如,6:{0.8:0,0.85:0,0.9:0.36976,0.95:0.56976,1:0.66976},第一个数6表示关键词占的反馈数据的条数,第二个数0.8:0表示80%关键词的出现频率小于0;第三个数0.85:0表示85%关键词的出现频率小于0;第四个数0.9:0.36976表示90%关键词的出现频率小于0.36976;第五个数0.95:0.56976表示95%关键词的出现频率小于0.56976;第六个数1:0.66976表示100%关键词的出现频率小于0.66976。其他条记录的理解以此类推。
服务器还可以根据基准反馈波动频率和基准占比区间生成反馈参考映射表(也可以称为问题区间表),例如,该反馈参考映射表可以如图4所示。该反馈参考映射表中,可以以基准反馈波动频率和基准占比区间分别为横纵轴划分多个不同的区间,每个区间楷体用不同颜色或编号等标识进行区分,例如,图4中,基准反馈波动频率为大于80%,且预设关键词出现频率的基准占比区间为在20%区间内时,对应位于该反馈参考映射表中的区间为正常区间。
服务器可以将生成的反馈参考映射表、历史反馈波动频率列表和历史占比区间列表等进行存储,以便后续使用。
S207、服务器接收终端在预设时间周期内使用浏览器时发送的实时反馈数据。
例如,由于光纤被铲断或网络等原因,因此使用浏览器出现问题的反馈不断,服务器可以接收在预设时间周期内使用浏览器时发送的实时反馈数据,该预设时间周期可以根据实际需要进行灵活设置,例如,每间隔20分钟获取前1小时内接收到的实时反馈数据。具体实时反馈数据可以包括:(1)XX空间打不开;(2)XX游戏玩不了;(3)错误代码ERR_CONNECTION_TIMED_OUT刷新网页|查看解决办法|;(4)新标签页经常打不开速度还很慢;(5)浏览器今天怎么打不开;(6)浏览器存在问题,烦躁;等等。
又例如,由于flash中国代理将浏览器拉入黑名单,因此导致终端使用浏览器通过flash观看视频等场景,弹出flash未授权窗口,引起反馈,此时服务器可以接收终端在使用浏览器时发送的实时反馈数据。具体实时反馈数据可以包括:(1)浏览器未授权使用FlashPlayer;(2);(3)直播视频使用窗口弹出功能有BUG;(4)玩网页游戏提示出来该软件未经授权运行AdobeflashPlayer;(5)网页打不开;(6)flash插件未授权;等等。
S208、服务器获取实时反馈数据的数量,以及历史反馈数据的均值和标准差的累加值,并计算实时反馈数据的数量与累加值之间的差值。
服务器可以统计预设时间周期内的实时反馈数据的数量,例如,统计出工作日2019年8月28日9:00:00至2019年8月28日9:20:00这段时间周期内的实时反馈数据的数量为10条。以及,获取历史反馈数据的均值和标准差,该历史反馈数据可以是与预设时间周期内对应的预设时间段内的历史反馈数据,该预设时间段可以根据实际需要进行灵活设置,例如,可以是过去1年内工作日中位于9:00:00至9:20:00的历史反馈数据,由于上述在生成反馈参考映射表的过程中已经计算各个组历史反馈数据的均值和标准差,因此可以获取上述计算得到的与预设时间周期内对应的历史反馈数据的均值和标准差。然后计算历史反馈数据的均值和标准差的累加值,例如,当均值为7.42857,标准差为0.37978时,累加值=7.42857+0.37978=7.80835;此时可以计算实时反馈数据的数量与累加值之间的差值,例如,当2019年8月28日8:00:00至2019年8月28日9:00:00这段时间周期内的实时反馈数据的数量为10条时,差值=10-7.80835=2.19165。
S209、服务器根据差值从历史反馈波动频率列表中,确定实时反馈数据计算反馈波动频率。
服务器可以获取基于基准反馈波动频率生成的历史反馈波动频率列表,根据差值从历史反馈波动频率列表中,确定实时反馈数据对应的反馈波动频率,例如,以历史反馈波动频率列表中在时间节点01:00:00对应的反馈波动频率:'01:00:00':[2.04762,0.73541,0.6508,0.8095,0.9365,0.9841,1.0]为例,当在01:00:00接收到的实时反馈数据为10条时,计算实时反馈数据的数量与均值(2.04762)和标准差(0.73541)之间累加值的差值:10-2.04762-0.73541=7.21698,而均值、标准差与预设阈值之间的累加和为:2.04762+0.73541+1=3.78303,2.04762+0.73541+2=4.78303,2.04762+0.73541+3=5.78303,2.04762+0.73541+4=6.78303,2.04762+0.73541+5=7.78303,此时,计算得到的7.21698大于6.78303且小于7.78303,通过查询历史反馈波动频率列表,得到01:00:00的实时反馈数据对应的反馈数据波动频率是0.9841。
S210、服务器对实时反馈数据进行分词处理,得到至少一个词语,以及从至少一个词语中提取预设关键词。
例如,服务器可以按照预设的分词策略对实时反馈数据进行分词处理,得到至少一个词语,该预设的分词策略可以根据实际需要进行灵活设置,例如,可以将实时反馈数据“网页超级卡”分为“网页”、“超级”和“卡”等词语。然后从至少一个词语中提取预设关键词,例如,从至少一个词语中提取动词和名词;计算实时反馈数据中动词出现的频率,以及计算实时反馈数据中名词出现的频率,筛选出频率最高的动词和频率最高的名词,得到预设关键词。
S211、服务器获取预设关键词占实时反馈数据的数量,与实时反馈数据的总数量之间的比值。
服务器可以获取预设关键词占实时反馈数据的数量,与实时反馈数据的总数量之间的比值,当预设关键词包括多个时,分别获取每个预设关键词占实时反馈数据的数量,与实时反馈数据的总数量之间的比值。例如,比值=预设关键词占实时反馈数据的数量(例如4)/实时反馈数据的总数量(例如10)=0.4,
S212、服务器根据比值从历史占比区间列表中确定预设关键词出现频率所对应的占比区间。
服务器可以获取基于基准占比区间生成的历史占比区间列表,根据比值从历史占比区间列表中确定预设关键词出现频率所对应的占比区间。例如,实时反馈数据的总数量为10条所对应的历史占比区间列表为10:{0.8:0,0.85:0,0.9:0,0.95:0.31556,1:0.41556},由于比值为0.4,0.4大于0.31且小于0.41,因此可以查询历史占比区间列表到0.95:0.31556,即预设关键词出现频率所对应的占比区间为1-0.95=0.05(即5%)。
S213、服务器将反馈波动频率与基准反馈波动频率进行比较,以及将占比区间与基准占比区间进行比较,根据比较结果确定反馈波动频率和占比区间位于反馈参考映射表中的位置。
服务器可以将实时反馈数据的反馈波动频率与基准反馈波动频率进行比较,确定该反馈波动频率匹配的基准反馈波动频率,以及将实时反馈数据中预设关键词出现频率的占比区间与基准占比区间进行比较,确定该占比区间匹配的基准占比区间,然后确定匹配得到的基准反馈波动频率和基准占比区间位于反馈参考映射表中的位置,即可得到反馈波动频率和占比区间位于反馈参考映射表中的位置(即区间)。
S214、服务器根据位置确定实时反馈数据对应的反馈结果,以及将反馈结果发送给浏览器对应的管理后台。
服务器可以根据位置确定实时反馈数据对应的反馈结果。例如,当实时反馈数据的反馈波动频率为超出平均反馈两倍,以及预设关键词出现频率的占比区间为在15%区间内时,得到反馈波动频率和占比区间位于反馈参考映射表中的位置为R区间,此时可以根据R区间确定实时反馈数据对应的反馈结果为较大概率存在问题。
例如,如图5所示,在对工作日WordDay(2019年06月03日)15:40:00的实时反馈数据进行分析的过程中,得到的分析结果为:对于名词关键词total_c_n有较小概率有问题,对于动词关键词total_c_v有较小概率有问题,其中存在7个反馈数据通过反馈数目判断,无问题,其中n_info表示名词关键词出现频率的占比区间的分析结果,相似波动低于80%表示80%名词关键词出现频率的占比区间为0.1492,账户表示名词关键词,v_info动词关键词出现频率的占比区间的分析结果,登录表示动词关键词。
又例如,如图6所示,对工作日WordDay(2019年06月03日)16:00:00的实时反馈数据的分析结果;又例如,如图7所示,对工作日WordDay(2019年06月03日)16:20:00的实时反馈数据的分析结果。
本实施例中存在的问题反馈可以包括:(1)浏览器新标签页改版灰度:用户使用不习惯且找不到以前收藏的网址,引起问题反馈;其反馈数据对应的关键词可以包括标签。(2)浏览器打不打(例如XX空间或XX农场打不开):光纤被施工方铲断,造成多款产品受到影响;其反馈数据对应的关键词可以包括浏览器。(3)新标签页改版灰度规模扩大:用户使用不习惯且找不到以前收藏的网址,故开始大量反馈;其反馈数据对应的关键词可以包括标签(4)flash未授权问题:flash中国代理将浏览器拉入黑名单,导致用户通过终端使用浏览器观看视频等场景,弹出flash未授权窗口,引起问题反馈;其反馈数据对应的关键词可以包括flash和授权等。(5)浏览器启动自动打开XX直播问题:针对升级插件,终端启动时自动打开XX直播,后续策略问题,扩大发布,引起大量反馈;其反馈数据对应的关键词可以包括直播。当然,还可以包括其他的问题反馈类型。
为了及时通知相关人员对存在问题的反馈进行处理,服务器可以将反馈结果发送给浏览器对应的管理后台,以便管理后台对用户通过终端的反馈进行监控,该管理后台可以是浏览器对应的管理后台,该管理后台还可以是邮箱或即时通信等后台,具体类型在此处不作限定。例如,2019年3月23日16点左右由于光纤被铲断等原因,浏览器反馈剧增,可以在1小时内及时发现问题,反馈数目波动(即反馈波动频率)或关键词波动(即关键词出现频率的占比区间)超出历史预期(即反馈参考映射表的预期)时,进行告警并通知知管理后台。又例如,flash中国代理将浏览器拉入黑名单,导致终端通过浏览器使用flash观看视频等场景,弹出flash未授权窗口,引起大量反馈,反馈数目波动或关键词波动超出历史预期,进行告警并通知知管理后台。
对用户通过终端的反馈进行监控的界面及信息等可以根据实际需要进行灵活设置,例如,如图8所示,可以基于网络问题对浏览器使用进行反馈监控,可以包括对分析的时间、名词分析、动词分析、反馈数分析、名词详情、动词详情、具体反馈等进行监控。
又例如,如图9所示,可以基于flash授权问题对浏览器使用进行反馈监控,可以包括对分析的时间、名词分析、动词分析、反馈数分析、名词详情、动词详情、具体反馈等进行监控。
本申请实施例通过实时反馈数据的反馈波动频率和关键词出现频率的占比区间的结合,以及基于历史反馈数据的基准反馈波动频率和关键词出现频率的基准占比区间生成的反馈参考映射表,从而使得服务器不仅可以在大规模的数据反馈中快速发现异常并进行及时处理,还可以在小规模的数据反馈(每小时几个至十几个的较少反馈数据)中,提取更多的数据信息,进行多维度分析,快速发现异常反馈,进行小时级别的快速告警,即使用户反馈存在数据波动,也不会出现误报的情况,问题量级较小时,能够保障准确率以及告警时效性,大大提高了数据处理的精准性和效率。
为便于更好的实施本申请实施例提供的数据处理方法,本申请实施例还提供一种基于上述数据处理方法的装置。其中名词的含义与上述数据处理方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图10,图10为本申请实施例提供的数据处理装置的结构示意图,其中该数据处理装置可以包括第一获取单元301、第一计算单元302、第二获取单元303及确定单元304等。
其中,第一获取单元301,用于获取预设时间周期内的实时反馈数据;
计算单元302,用于根据实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间;
第二获取单元303,用于获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表;
确定单元304,用于根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果。
在一些实施方式中,确定单元304具体用于:将反馈波动频率与基准反馈波动频率进行比较,以及将占比区间与基准占比区间进行比较;根据比较结果确定反馈波动频率和占比区间位于反馈参考映射表中的位置;根据位置确定实时反馈数据对应的反馈结果。
在一些实施方式中,第一计算单元301具体用于:获取实时反馈数据的数量,以及历史反馈数据的均值和标准差的累加值;计算实时反馈数据的数量与累加值之间的差值;获取基于基准反馈波动频率生成的历史反馈波动频率列表;根据差值从历史反馈波动频率列表中,确定实时反馈数据对应的反馈波动频率。
在一些实施方式中,第一计算单元301具体用于:对实时反馈数据进行分词处理,得到至少一个词语;从至少一个词语中提取预设关键词;获取预设关键词占实时反馈数据的数量,与实时反馈数据的总数量之间的比值;获取基于基准占比区间生成的历史占比区间列表;根据比值从历史占比区间列表中确定预设关键词出现频率所对应的占比区间。
在一些实施方式中,如图11所示,数据处理装置还可以包括筛选单元305、划分单元306、分组单元307、第二计算单元308、第三计算单元309和生成单元310等,具体可以如下:
筛选单元305,用于获取预设时间段内的历史反馈数据,并从历史反馈数据中筛选出正常的反馈数据,得到筛选后的历史反馈数据;
划分单元306,用于将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据;
分组单元307,用于对每个日期区间内的历史反馈数据按照预设周期策略进行分组,得到多组历史反馈数据;
第二计算单元308,用于计算每组历史反馈数据对应的基准反馈波动频率;
第三计算单元309,用于计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间;
生成单元310,用于根据基准反馈波动频率和基准占比区间生成反馈参考映射表。
在一些实施方式中,第二计算单元308具体用于:获取每组历史反馈数据的数量,以及每组历史反馈数据对应的均值和标准差;计算每组历史反馈数据的均值、标准差与预设阈值之间的累加和;根据数量和累加和计算每组历史反馈数据对应的基准反馈波动频率。
在一些实施方式中,第三计算单元309可以包括提取模块、获取模块和计算模块等,具体可以如下:
提取模块,用于对每组历史反馈数据进行分词处理,得到至少一个词语,并从至少一个词语中提取预设关键词;
获取模块,用于获取每组历史反馈数据中预设关键词占所在当前组历史反馈数据的数量,以及当前组历史反馈数据的总数量;
计算模块,用于根据比值和总数量计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间。
在一些实施方式中,提取模块具体用于:从至少一个词语中提取动词和名词;计算每组历史反馈数据中动词出现的频率,以及计算每组历史反馈数据中名词出现的频率;筛选出频率最高的动词以及频率最高的名词,得到预设关键词。
本申请实施例可以由第一获取单元301获取预设时间周期内的实时反馈数据,以及由第一计算单元302根据实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间,然后由第二获取单元303获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表,此时可以由确定单元304根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果。该方案通过反馈波动频率和预设关键词出现频率的占比区间,以及结合反馈参考映射表综合分析得到反馈结果,提高了反馈结果确定的准确性,相对于以反馈数量增长速度进行单一分析,大大提高了反馈结果的可靠性。
本申请实施例还提供一种服务器,如图12所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图12中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而执行以下各种功能,如下:
获取预设时间周期内的实时反馈数据;根据实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间;获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表,反馈参考映射表包括多个基准反馈波动频率范围和多个基准占比区间划分得到的问题反馈概率区间;根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果。
在一些实施方式中,在根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果时,处理器401还用于执行:将反馈波动频率与基准反馈波动频率进行比较,以及将占比区间与基准占比区间进行比较;根据比较结果确定反馈波动频率和占比区间位于反馈参考映射表中的位置;根据位置确定实时反馈数据对应的反馈结果。
在一些实施方式中,在根据实时反馈数据计算反馈波动频率时,处理器401还用于执行:获取实时反馈数据的数量,以及历史反馈数据的均值和标准差的累加值;计算实时反馈数据的数量与累加值之间的差值;获取基于基准反馈波动频率生成的历史反馈波动频率列表;根据差值从历史反馈波动频率列表中,确定实时反馈数据对应的反馈波动频率。
在一些实施方式中,在根据实时反馈数据计算预设关键词出现频率的占比区间时,处理器401还用于执行:对实时反馈数据进行分词处理,得到至少一个词语;从至少一个词语中提取预设关键词;获取预设关键词占实时反馈数据的数量,与实时反馈数据的总数量之间的比值;获取基于基准占比区间生成的历史占比区间列表;根据比值从历史占比区间列表中确定预设关键词出现频率所对应的占比区间。
在一些实施方式中,在获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表之前,处理器401还用于执行:获取预设时间段内的历史反馈数据,并从历史反馈数据中筛选出正常的反馈数据,得到筛选后的历史反馈数据;将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据;对每个日期区间内的历史反馈数据按照预设周期策略进行分组,得到多组历史反馈数据;计算每组历史反馈数据对应的基准反馈波动频率;计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间;根据基准反馈波动频率和基准占比区间生成反馈参考映射表。
在一些实施方式中,在计算每组历史反馈数据对应的基准反馈波动频率时,处理器401还用于执行:获取每组历史反馈数据的数量,以及每组历史反馈数据对应的均值和标准差;计算每组历史反馈数据的均值、标准差与预设阈值之间的累加和;根据数量和累加和计算每组历史反馈数据对应的基准反馈波动频率。
在一些实施方式中,在计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间,处理器401还用于执行:对每组历史反馈数据进行分词处理,得到至少一个词语,并从至少一个词语中提取预设关键词;获取每组历史反馈数据中预设关键词占所在当前组历史反馈数据的数量,以及当前组历史反馈数据的总数量;根据比值和总数量计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间。
在一些实施方式中,在从至少一个词语中提取预设关键词,处理器401还用于执行:从至少一个词语中提取动词和名词;计算每组历史反馈数据中动词出现的频率,以及计算每组历史反馈数据中名词出现的频率;筛选出频率最高的动词以及频率最高的名词,得到预设关键词。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对数据处理方法的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质(即存储介质)中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的一种数据处理方法。例如,该计算机程序可以执行如下步骤:
获取预设时间周期内的实时反馈数据;根据实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间;获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表,反馈参考映射表包括多个基准反馈波动频率范围和多个基准占比区间划分得到的问题反馈概率区间;根据反馈波动频率、占比区间和反馈参考映射表,确定实时反馈数据对应的反馈结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,ReadOnlyMemory)、随机存取记忆体(RAM,RandomAccessMemory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种数据处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种数据处理方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种数据处理方法,其特征在于,包括:
获取预设时间周期内的实时反馈数据;
根据所述实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间;
获取预设时间段内的历史反馈数据,并从所述历史反馈数据中筛选出正常的反馈数据,得到筛选后的历史反馈数据;
将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据;
对每个日期区间内的历史反馈数据按照预设周期策略进行分组,得到多组历史反馈数据;
计算每组历史反馈数据对应的基准反馈波动频率;
计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间;
根据所述基准反馈波动频率和基准占比区间生成反馈参考映射表;
获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表;
将所述反馈波动频率与基准反馈波动频率进行比较,以及将所述占比区间与基准占比区间进行比较;
根据比较结果确定所述反馈波动频率和占比区间位于所述反馈参考映射表中的位置;
根据所述位置确定所述实时反馈数据对应的反馈结果。
2.根据权利要求1所述的数据处理方法,其特征在于,根据所述实时反馈数据计算反馈波动频率包括:
获取实时反馈数据的数量,以及历史反馈数据的均值和标准差的累加值;
计算所述实时反馈数据的数量与所述累加值之间的差值;
获取基于基准反馈波动频率生成的历史反馈波动频率列表;
根据所述差值从所述历史反馈波动频率列表中,确定所述实时反馈数据对应的反馈波动频率。
3.根据权利要求1所述的数据处理方法,其特征在于,根据所述实时反馈数据计算预设关键词出现频率的占比区间包括:
对所述实时反馈数据进行分词处理,得到至少一个词语;
从所述至少一个词语中提取预设关键词;
获取所述预设关键词占所述实时反馈数据的数量,与所述实时反馈数据的总数量之间的比值;
获取基于基准占比区间生成的历史占比区间列表;
根据所述比值从所述历史占比区间列表中确定所述预设关键词出现频率所对应的占比区间。
4.根据权利要求1所述的数据处理方法,其特征在于,所述计算每组历史反馈数据对应的基准反馈波动频率包括:
获取每组历史反馈数据的数量,以及每组历史反馈数据对应的均值和标准差;
计算每组历史反馈数据的所述均值、标准差与预设阈值之间的累加和;
根据所述数量和累加和计算每组历史反馈数据对应的基准反馈波动频率。
5.根据权利要求1所述的数据处理方法,其特征在于,所述计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间包括:
对每组历史反馈数据进行分词处理,得到至少一个词语,并从所述至少一个词语中提取预设关键词;
获取每组历史反馈数据中预设关键词占所在当前组历史反馈数据的数量,以及所述当前组历史反馈数据的总数量;
根据比值和总数量计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间。
6.根据权利要求5所述的数据处理方法,其特征在于,所述从所述至少一个词语中提取预设关键词包括:
从所述至少一个词语中提取动词和名词;
计算每组历史反馈数据中动词出现的频率,以及计算每组历史反馈数据中名词出现的频率;
筛选出频率最高的动词以及频率最高的名词,得到预设关键词。
7.一种数据处理装置,其特征在于,包括:
第一获取单元,用于获取预设时间周期内的实时反馈数据;
第一计算单元,用于根据所述实时反馈数据计算反馈波动频率和预设关键词出现频率的占比区间;
筛选单元,用于获取预设时间段内的历史反馈数据,并从所述历史反馈数据中筛选出正常的反馈数据,得到筛选后的历史反馈数据;
划分单元,用于将筛选后的历史反馈数据按照预设日期进行划分,得到多个日期区间对应的历史反馈数据;
分组单元,用于对每个日期区间内的历史反馈数据按照预设周期策略进行分组,得到多组历史反馈数据;
第二计算单元,用于计算每组历史反馈数据对应的基准反馈波动频率;
第三计算单元,用于计算每组历史反馈数据对应的预设关键词出现频率的基准占比区间;
生成单元,用于根据所述基准反馈波动频率和基准占比区间生成反馈参考映射表;
第二获取单元,用于获取基于基准反馈波动频率和基准占比区间生成的反馈参考映射表;
确定单元,用于根据所述反馈波动频率、占比区间和反馈参考映射表,确定所述实时反馈数据对应的反馈结果;
其中,所述确定单元具体用于:
将所述反馈波动频率与基准反馈波动频率进行比较,以及将所述占比区间与基准占比区间进行比较;
根据比较结果确定所述反馈波动频率和占比区间位于所述反馈参考映射表中的位置;
根据所述位置确定所述实时反馈数据对应的反馈结果。
8.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至6任一项所述的数据处理方法。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至6任一项所述的数据处理方法。
CN201910864839.2A 2019-09-12 2019-09-12 一种数据处理方法、装置及存储介质 Active CN110633311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910864839.2A CN110633311B (zh) 2019-09-12 2019-09-12 一种数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910864839.2A CN110633311B (zh) 2019-09-12 2019-09-12 一种数据处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110633311A CN110633311A (zh) 2019-12-31
CN110633311B true CN110633311B (zh) 2023-10-20

Family

ID=68972699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910864839.2A Active CN110633311B (zh) 2019-09-12 2019-09-12 一种数据处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110633311B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778184A (zh) * 2014-01-15 2015-07-15 腾讯科技(深圳)有限公司 一种确定反馈关键词的方法和装置
US20160350408A1 (en) * 2014-03-07 2016-12-01 Naver Corporation Method and device for providing correct answer keyword
CN107844992A (zh) * 2017-10-31 2018-03-27 广东欧珀移动通信有限公司 评论信息处理方法、装置、终端设备及存储介质
CN107885889A (zh) * 2017-12-13 2018-04-06 聚好看科技股份有限公司 搜索结果的反馈方法、展示方法及装置
CN109618236A (zh) * 2018-12-13 2019-04-12 连尚(新昌)网络科技有限公司 视频评论处理方法和装置
CN109740156A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 反馈信息处理方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778184A (zh) * 2014-01-15 2015-07-15 腾讯科技(深圳)有限公司 一种确定反馈关键词的方法和装置
US20160350408A1 (en) * 2014-03-07 2016-12-01 Naver Corporation Method and device for providing correct answer keyword
CN107844992A (zh) * 2017-10-31 2018-03-27 广东欧珀移动通信有限公司 评论信息处理方法、装置、终端设备及存储介质
CN107885889A (zh) * 2017-12-13 2018-04-06 聚好看科技股份有限公司 搜索结果的反馈方法、展示方法及装置
CN109618236A (zh) * 2018-12-13 2019-04-12 连尚(新昌)网络科技有限公司 视频评论处理方法和装置
CN109740156A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 反馈信息处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110633311A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
US8516499B2 (en) Assistance in performing action responsive to detected event
CN101902366B (zh) 一种业务行为异常检测方法和***
CN109033200B (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN112308126A (zh) 故障识别模型训练方法、故障识别方法、装置及电子设备
CN108809734B (zh) 网络告警根源分析方法、***、存储介质及计算机设备
CN111694718A (zh) 内网用户异常行为识别方法、装置、计算机设备及可读存储介质
CN113992340B (zh) 用户异常行为识别方法、装置、设备和存储介质
CN114465874A (zh) 故障预测方法、装置、电子设备与存储介质
CN113986595A (zh) 一种异常定位方法及装置
CN112988509A (zh) 一种告警消息过滤方法、装置、电子设备及存储介质
CN112256548B (zh) 异常数据的监听方法、装置、服务器及存储介质
CN113849362B (zh) 一种业务服务平台管理方法、装置和计算机可读存储介质
CN116471174B (zh) 一种日志数据监测***、方法、装置和存储介质
CN110633311B (zh) 一种数据处理方法、装置及存储介质
CN116302652A (zh) ***报警信息的处理方法、装置及电子设备
CN115794479A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN112131090B (zh) 业务***性能监控方法及装置、设备及介质
CN109427177B (zh) 一种监控报警方法及装置
CN113568769A (zh) 异常处理方法、装置、服务器及存储介质
CN117971606B (zh) 基于ElasticSearch的日志管理***及方法
CN115296976B (zh) 物联网设备故障检测方法、装置、设备及存储介质
CN113743532B (zh) 异常检测方法、装置、设备及计算机存储介质
CN107566187A (zh) 一种sla违例监测方法、装置和***
CN115391150A (zh) 服务器部件故障的预测方法、相关装置及计算机存储介质
CN117828515A (zh) 一种基于低代码平台的智能日志异常诊断***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019573

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant