CN111143415B - 一种数据处理方法、装置和计算机可读存储介质 - Google Patents

一种数据处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111143415B
CN111143415B CN201911367948.XA CN201911367948A CN111143415B CN 111143415 B CN111143415 B CN 111143415B CN 201911367948 A CN201911367948 A CN 201911367948A CN 111143415 B CN111143415 B CN 111143415B
Authority
CN
China
Prior art keywords
data
message queue
information
line data
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911367948.XA
Other languages
English (en)
Other versions
CN111143415A (zh
Inventor
孟浩浩
张春鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengcaiyun Co ltd
Original Assignee
Zhengcaiyun Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengcaiyun Co ltd filed Critical Zhengcaiyun Co ltd
Priority to CN201911367948.XA priority Critical patent/CN111143415B/zh
Publication of CN111143415A publication Critical patent/CN111143415A/zh
Application granted granted Critical
Publication of CN111143415B publication Critical patent/CN111143415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置和介质,将获取的各类业务线数据记录至第一消息队列;提取第一消息队列中各类业务线数据的有效数据流。按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。采用消息队列缓存以及滑动窗口读取数据的方式,可以实现对实时业务线数据的直接处理,避免数据读取过程中造成的不必要时间消耗,从而可以更加有效的挖掘出海量数据的价值信息。并且将分析结果存储至第二消息队列,业务方通过读取第二消息队列,可以直观的获取有价值的数据信息。

Description

一种数据处理方法、装置和计算机可读存储介质
技术领域
本发明涉及数据技术领域,特别是涉及一种数据处理方法、装置和计算机可读存储介质。
背景技术
电商平台每时每刻都会产生数据流信息,包括用户登录及用户所属地区、平台供应商的销售商品数量、金额、商品类目、采购人的商品浏览信息、采购商品信息等实时信息流数据。在强调数据价值,尤其是实时数据价值的电商平台领域,最短时间范围内、最大限度的梳理平台实时数据之间的关系、重组数据信息结构、发掘数据信息的潜在价值极为重要。
目前市面上很多数据处理框架都是采用从数据库或数据存储介质中读取历史数据,然后再通过批处理方式处理这些数据。这种方式有一些固有的缺陷或不足。缺点一:从数据库或存储介质中读取数据本身需要一定的时间,在某些对数据的时效性要求高的场景中,数据价值就会打相应的折扣。缺点二:批处理自身的特性会造成一批数据全部处理完后再接着处理下一个批次的数据,不仅使得计算引擎本身利用不充分,也使得整个数据池中不同批次数据之间切换造成不可避免的数据处理延迟。缺点三:在某一特定时刻产生的海量数据,由于计算框架自身计算能力的原因,会造成数据处理不及时,甚至造成数据丢失,严重的会造成***宕机。
可见,如何有效的挖掘海量数据的价值信息,是本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种数据处理方法、装置和计算机可读存储介质,可以有效的挖掘海量数据的价值信息。
为解决上述技术问题,本发明实施例提供一种数据处理方法,包括:
将获取的各类业务线数据记录至第一消息队列;
提取所述第一消息队列中各类业务线数据的有效数据流;
按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;
将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。
可选地,所述将获取的各类业务线数据记录至第一消息队列包括:
按照预设的分类规则,对获取的各类业务线数据添加标签信息;
将添加标签信息后的各类业务线数据记录至第一消息队列。
可选地,所述提取所述第一消息队列中各类业务线数据的有效数据流包括:
根据目标业务线数据所对应的时间戳,对所述目标业务线数据进行排序,得到数据流;其中,所述目标业务线数据为所有业务线数据中的任意一个业务线数据;
按照所述目标业务线数据所对应的数据过滤规则,提取出所述数据流中的有效数据流;其中,不同的标签信息有其各自对应的数据过滤规则。
可选地,所述将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列包括:
当所述待分析数据块为商品交易信息时,根据预先设定的区划信息以及商品类目信息,统计出所述商品交易信息中不同区划下、不同商品类目的销售数量以及销售金额;
将销售数量最高的前N位以及销售金额最高的前N位商品交易信息按照区划、商品类目、销售数量以及销售金额的对应关系存储至第二消息队列。
可选地,所述将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列包括:
当所述待分析数据块为用户浏览信息时,统计出设置有相同标签信息的广告信息在预先划分的不同时间段内的点击量;
将所述广告信息按照标签信息、时间段和点击量的对应关系存储至第二消息队列。
可选地,所述将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列包括:
当所述待分析数据块为用户登录信息时,根据预先设定的区划信息,统计出所述用户登录信息中不同区划下、不同时间段内的用户登录数量;
将所述用户登录信息按照区划、时间段以及用户登录数量的对应关系存储至第二消息队列。
本发明实施例还提供了一种数据处理装置,包括记录单元、提取单元、统计单元和分析单元;
所述记录单元,用于将获取的各类业务线数据记录至第一消息队列;
所述提取单元,用于提取所述第一消息队列中各类业务线数据的有效数据流;
所述统计单元,用于按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;
所述分析单元,用于将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。
可选地,所述记录单元具体用于按照预设的分类规则,对获取的各类业务线数据添加标签信息;将添加标签信息后的各类业务线数据记录至第一消息队列。
可选地,所述提取单元包括排序子单元和过滤子单元;
所述排序子单元,用于根据目标业务线数据所对应的时间戳,对所述目标业务线数据进行排序,得到数据流;其中,所述目标业务线数据为所有业务线数据中的任意一个业务线数据;
所述过滤子单元,用于按照所述目标业务线数据所对应的数据过滤规则,提取出所述数据流中的有效数据流;其中,不同的标签信息有其各自对应的数据过滤规则。
可选地,所述分析单元包括统计子单元和存储子单元;
所述统计子单元,用于当所述待分析数据块为商品交易信息时,根据预先设定的区划信息以及商品类目信息,统计出所述商品交易信息中不同区划下、不同商品类目的销售数量以及销售金额;
所述存储子单元,用于将销售数量最高的前N位以及销售金额最高的前N位商品交易信息按照区划、商品类目、销售数量以及销售金额的对应关系存储至第二消息队列。
可选地,所述分析单元包括统计子单元和存储子单元;
所述统计子单元,用于当所述待分析数据块为用户浏览信息时,统计出设置有相同标签信息的广告信息在预先划分的不同时间段内的点击量;
所述存储子单元,用于将所述广告信息按照标签信息、时间段和点击量的对应关系存储至第二消息队列。
可选地,所述分析单元包括统计子单元和存储子单元;
所述统计子单元,用于当所述待分析数据块为用户登录信息时,根据预先设定的区划信息,统计出所述用户登录信息中不同区划下、不同时间段内的用户登录数量;
所述存储子单元,用于将所述用户登录信息按照区划、时间段以及用户登录数量的对应关系存储至第二消息队列。
本发明实施例还提供了一种数据处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述任意一项所述数据处理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述数据处理方法的步骤。
由上述技术方案可以看出,将获取的各类业务线数据记录至第一消息队列;采用消息队列技术,帮助数据计算引擎缓存和发送实时信息流数据,可以很好的处理瞬时或较短时间范围内产出的海量信息流,避免信息***造成信息丢失。提取第一消息队列中各类业务线数据的有效数据流。按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。在该技术方案中,线上平台实时产生的业务线数据不需要先入数据库再读取的方式,采用消息队列缓存以及滑动窗口读取数据的方式,可以实现对实时业务线数据的直接处理,避免数据读取过程中造成的不必要时间消耗,从而可以更加有效的挖掘出海量数据的价值信息。并且将分析结果存储至第二消息队列,业务方通过读取第二消息队列,可以直观的获取有价值的数据信息。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的流程图;
图2为本发明实施例提供的一种数据处理装置的结构示意图;
图3为本发明实施例提供的一种数据处理装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种数据处理方法。图1为本发明实施例提供的一种数据处理方法的流程图,该方法包括:
S101:将获取的各类业务线数据记录至第一消息队列。
业务线数据可以来自于线上交易平台产生的用户数据、商品数据等。在本发明实施例中,采用消息队列存储业务线数据,可以有效的帮助数据计算引擎缓存和发送实时信息流数据,可以很好的处理瞬时或较短时间范围内产出的海量信息流,避免信息***造成信息丢失。
业务线数据中包含有不同类型的数据,为了便于数据的分析管理,可以预先对业务线数据中可能包含的数据类型进行分类,当获取到业务线数据时,可以按照预设的分类规则,对获取的各类业务线数据添加标签信息;将添加标签信息后的各类业务线数据记录至第一消息队列。
标签信息用于区分不同的数据类型。在本发明实施例中,对于标签信息的具体形式不做限定,例如,可以采用数字或字母组合的形式作为标签信息。
S102:提取第一消息队列中各类业务线数据的有效数据流。
考虑到业务线数据中往往会存在一些不具有分析价值的常规数据,为了提升数据分析效率,可以对业务线数据中的常规数据进行过滤,从而提取出具有分析价值的有效数据。
每个业务线数据的处理方式类似,在本发明实施例中,以所有业务线数据中的任意一个业务线数据即目标业务线数据为例展开介绍,在具体实现中,可以根据目标业务线数据所对应的时间戳,对目标业务线数据进行排序,得到数据流;按照目标业务线数据所对应的数据过滤规则,提取出数据流中的有效数据流;其中,不同的标签信息有其各自对应的数据过滤规则。
不同类型的数据其对应的常规数据有所不同。在本发明实施例中,采用标签信息区分不同类型的数据,因此,针对于不同的标签信息可以预先设置其对应的过滤规则。在该过滤规则中可以包含常规数据的数据内容或者数据特征等,以便于过滤掉常规数据,得到有效数据流。
S103:按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块。
滑动窗口是用来改善吞吐量的一种技术,即容许发送方在接收任何应答之前传送附加的包,接收方告诉发送方在某一时刻能送多少包,从而有效的避免网络的拥塞。
考虑到有效数据流的数据量较大,为了保证数据处理的有序执行,在本发明实施例中,采用滑动窗口对各有效数据流进行处理。每条有效数据流的处理方式类似,在后续介绍中均以一条有效数据流的处理为例展开介绍。
预设的窗口时间可以看作是滑动窗口多次采集数据的时间跨度,预设的窗口时间的取值大于滑动窗口所对应的时间。
S104:将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。
在预设的窗口时间内,每条有效数据流有其对应一个待分析数据块,由于各待分析数据块所包含的数据类型有所不同,因此其对应的业务处理规则有所差异。
待分析数据块所对应的数据类型可以包括商品交易信息、用户浏览信息、用户登录信息等。
当待分析数据块为商品交易信息时,可以根据预先设定的区划信息以及商品类目信息,统计出商品交易信息中不同区划下、不同商品类目的销售数量以及销售金额。
区划指的是商品销售商所归属的区域。在实际应用中,可以按照省级、市级或县级等不同区域划分商品所属的区划。
在统计出商品交易信息中不同区划下、不同商品类目的销售数量以及销售金额之后,可以将销售数量最高的前N位以及销售金额最高的前N位商品交易信息按照区划、商品类目、销售数量以及销售金额的对应关系存储至第二消息队列。
其中,N的取值可以根据实际需求设定,在此不做限定,例如,N的取值可以设定为10。
当待分析数据块为用户浏览信息时,可以统计出设置有相同标签信息的广告信息在预先划分的不同时间段内的点击量;将广告信息按照标签信息、时间段和点击量的对应关系存储至第二消息队列。
其中,用户浏览信息可以包括广告浏览信息和商品浏览信息等。
当待分析数据块为用户登录信息时,根据预先设定的区划信息,统计出用户登录信息中不同区划下、不同时间段内的用户登录数量;将用户登录信息按照区划、时间段以及用户登录数量的对应关系存储至第二消息队列。
在本发明实施例中,为了便于和存储业务线数据的消息队列进行区分,可以将存储业务线数据的消息队列称作第一消息队列,将存储分析结果的消息队列称作第二消息队列。
由上述技术方案可以看出,将获取的各类业务线数据记录至第一消息队列;采用消息队列技术,帮助数据计算引擎缓存和发送实时信息流数据,可以很好的处理瞬时或较短时间范围内产出的海量信息流,避免信息***造成信息丢失。提取第一消息队列中各类业务线数据的有效数据流。按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。在该技术方案中,线上平台实时产生的业务线数据不需要先入数据库再读取的方式,采用消息队列缓存以及滑动窗口读取数据的方式,可以实现对实时业务线数据的直接处理,避免数据读取过程中造成的不必要时间消耗,从而可以更加有效的挖掘出海量数据的价值信息。并且将分析结果存储至第二消息队列,业务方通过读取第二消息队列,可以直观的获取有价值的数据信息。
图2为本发明实施例提供的一种数据处理装置的结构示意图,包括记录单元21、提取单元22、统计单元23和分析单元24;
记录单元21,用于将获取的各类业务线数据记录至第一消息队列;
提取单元22,用于提取第一消息队列中各类业务线数据的有效数据流;
统计单元23,用于按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;
分析单元24,用于将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。
可选地,记录单元具体用于按照预设的分类规则,对获取的各类业务线数据添加标签信息;将添加标签信息后的各类业务线数据记录至第一消息队列。
可选地,提取单元包括排序子单元和过滤子单元;
排序子单元,用于根据目标业务线数据所对应的时间戳,对目标业务线数据进行排序,得到数据流;其中,目标业务线数据为所有业务线数据中的任意一个业务线数据;
过滤子单元,用于按照目标业务线数据所对应的数据过滤规则,提取出数据流中的有效数据流;其中,不同的标签信息有其各自对应的数据过滤规则。
可选地,分析单元包括统计子单元和存储子单元;
统计子单元,用于当待分析数据块为商品交易信息时,根据预先设定的区划信息以及商品类目信息,统计出商品交易信息中不同区划下、不同商品类目的销售数量以及销售金额;
存储子单元,用于将销售数量最高的前N位以及销售金额最高的前N位商品交易信息按照区划、商品类目、销售数量以及销售金额的对应关系存储至第二消息队列。
可选地,分析单元包括统计子单元和存储子单元;
统计子单元,用于当待分析数据块为用户浏览信息时,统计出设置有相同标签信息的广告信息在预先划分的不同时间段内的点击量;
存储子单元,用于将广告信息按照标签信息、时间段和点击量的对应关系存储至第二消息队列。
可选地,分析单元包括统计子单元和存储子单元;
统计子单元,用于当待分析数据块为用户登录信息时,根据预先设定的区划信息,统计出用户登录信息中不同区划下、不同时间段内的用户登录数量;
存储子单元,用于将用户登录信息按照区划、时间段以及用户登录数量的对应关系存储至第二消息队列。
图2所对应实施例中特征的说明可以参见图1所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,将获取的各类业务线数据记录至第一消息队列;采用消息队列技术,帮助数据计算引擎缓存和发送实时信息流数据,可以很好的处理瞬时或较短时间范围内产出的海量信息流,避免信息***造成信息丢失。提取第一消息队列中各类业务线数据的有效数据流。按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。在该技术方案中,线上平台实时产生的业务线数据不需要先入数据库再读取的方式,采用消息队列缓存以及滑动窗口读取数据的方式,可以实现对实时业务线数据的直接处理,避免数据读取过程中造成的不必要时间消耗,从而可以更加有效的挖掘出海量数据的价值信息。并且将分析结果存储至第二消息队列,业务方通过读取第二消息队列,可以直观的获取有价值的数据信息。
图3为本发明实施例提供的一种数据处理装置30的硬件结构示意图,包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序以实现如上述任意一项数据处理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项数据处理方法的步骤。
以上对本发明实施例所提供的一种数据处理方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
将获取的各类业务线数据记录至第一消息队列;
提取所述第一消息队列中各类业务线数据的有效数据流;
按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;滑动窗口是由接收方告诉发送方在每个时刻能传送的包的数量;
将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。
2.根据权利要求1所述的方法,其特征在于,所述将获取的各类业务线数据记录至第一消息队列包括:
按照预设的分类规则,对获取的各类业务线数据添加标签信息;
将添加标签信息后的各类业务线数据记录至第一消息队列。
3.根据权利要求2所述的方法,其特征在于,所述提取所述第一消息队列中各类业务线数据的有效数据流包括:
根据目标业务线数据所对应的时间戳,对所述目标业务线数据进行排序,得到数据流;其中,所述目标业务线数据为所有业务线数据中的任意一个业务线数据;
按照所述目标业务线数据所对应的数据过滤规则,提取出所述数据流中的有效数据流;其中,不同的标签信息有其各自对应的数据过滤规则。
4.根据权利要求3所述的方法,其特征在于,所述将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列包括:
当所述待分析数据块为商品交易信息时,根据预先设定的区划信息以及商品类目信息,统计出所述商品交易信息中不同区划下、不同商品类目的销售数量以及销售金额;
将销售数量最高的前N位以及销售金额最高的前N位商品交易信息按照区划、商品类目、销售数量以及销售金额的对应关系存储至第二消息队列。
5.根据权利要求3所述的方法,其特征在于,所述将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列包括:
当所述待分析数据块为用户浏览信息时,统计出设置有相同标签信息的广告信息在预先划分的不同时间段内的点击量;
将所述广告信息按照标签信息、时间段和点击量的对应关系存储至第二消息队列。
6.根据权利要求3所述的方法,其特征在于,所述将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列包括:
当所述待分析数据块为用户登录信息时,根据预先设定的区划信息,统计出所述用户登录信息中不同区划下、不同时间段内的用户登录数量;
将所述用户登录信息按照区划、时间段以及用户登录数量的对应关系存储至第二消息队列。
7.一种数据处理装置,其特征在于,包括记录单元、提取单元、统计单元和分析单元;
所述记录单元,用于将获取的各类业务线数据记录至第一消息队列;
所述提取单元,用于提取所述第一消息队列中各类业务线数据的有效数据流;
所述统计单元,用于按照预设的窗口时间,利用滑动窗口对各有效数据流进行统计,得到待分析数据块;滑动窗口是由接收方告诉发送方在每个时刻能传送的包的数量;
所述分析单元,用于将各待分析数据块按照其对应的业务处理规则进行分析,并将得到的分析结果存储至第二消息队列。
8.根据权利要求7所述的装置,其特征在于,所述记录单元具体用于按照预设的分类规则,对获取的各类业务线数据添加标签信息;将添加标签信息后的各类业务线数据记录至第一消息队列。
9.一种数据处理装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至6任意一项所述数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据处理方法的步骤。
CN201911367948.XA 2019-12-26 2019-12-26 一种数据处理方法、装置和计算机可读存储介质 Active CN111143415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911367948.XA CN111143415B (zh) 2019-12-26 2019-12-26 一种数据处理方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911367948.XA CN111143415B (zh) 2019-12-26 2019-12-26 一种数据处理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111143415A CN111143415A (zh) 2020-05-12
CN111143415B true CN111143415B (zh) 2023-12-29

Family

ID=70520482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911367948.XA Active CN111143415B (zh) 2019-12-26 2019-12-26 一种数据处理方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111143415B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111901352B (zh) * 2020-07-30 2023-08-25 彩讯科技股份有限公司 消息分发处理的方法、装置、服务器及存储介质
CN112035534A (zh) * 2020-09-18 2020-12-04 上海依图网络科技有限公司 一种实时大数据处理方法、装置及电子设备
CN112506978A (zh) * 2020-12-15 2021-03-16 中国联合网络通信集团有限公司 大数据实时处理方法、装置和设备
CN112751726B (zh) * 2020-12-17 2022-09-09 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN112633904B (zh) * 2020-12-30 2024-04-30 中国平安财产保险股份有限公司 投诉行为分析方法、装置、设备及计算机可读存储介质
CN113360564A (zh) * 2021-07-12 2021-09-07 杭州安恒信息技术股份有限公司 基于etl的数据流处理方法、***、装置及可读存储介质
CN113626218A (zh) * 2021-07-30 2021-11-09 江苏苏宁物流有限公司 数据处理方法、装置、存储介质及计算机设备
CN113609202A (zh) * 2021-08-11 2021-11-05 湖南快乐阳光互动娱乐传媒有限公司 数据处理方法及装置
CN113993001B (zh) * 2021-09-08 2024-04-12 四创电子股份有限公司 一种基于滑动数据窗口的实时流式分析告警方法
CN116266183A (zh) * 2021-12-16 2023-06-20 中移(苏州)软件技术有限公司 一种数据分析方法、装置、设备以及计算机存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615777A (zh) * 2015-02-27 2015-05-13 浪潮集团有限公司 一种基于流式计算引擎的实时数据处理方法及装置
CN105512297A (zh) * 2015-12-10 2016-04-20 中国测绘科学研究院 一种基于分布式流式计算的空间数据处理方法与***
CN105786941A (zh) * 2014-12-26 2016-07-20 ***通信集团上海有限公司 一种信息挖掘方法和装置
CN106156026A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 一种基于数据流虚拟资产在线异常发现的方法
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
WO2017092582A1 (zh) * 2015-12-01 2017-06-08 阿里巴巴集团控股有限公司 一种数据处理方法和装置
WO2017185576A1 (zh) * 2016-04-25 2017-11-02 百度在线网络技术(北京)有限公司 一种多流流式数据的处理方法、***、存储介质及设备
CN108287905A (zh) * 2018-01-26 2018-07-17 华南理工大学 一种网络流特征的提取与存储方法
CN108874834A (zh) * 2017-05-16 2018-11-23 北京嘀嘀无限科技发展有限公司 一种数据处理方法、处理***及计算机装置
CN108874812A (zh) * 2017-05-10 2018-11-23 腾讯科技(北京)有限公司 一种数据处理方法及服务器、计算机存储介质
CN109471898A (zh) * 2018-12-19 2019-03-15 华迪计算机集团有限公司 一种用于对数据进行共享分发的方法及***
CN109905412A (zh) * 2019-04-28 2019-06-18 山东渔翁信息技术股份有限公司 一种网络数据并行加解密处理方法、装置和介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509650B2 (en) * 2004-05-20 2009-03-24 International Business Machines Corporation Enhance browsing of messages in a message queue
US9639895B2 (en) * 2007-08-30 2017-05-02 Chicago Mercantile Exchange, Inc. Dynamic market data filtering
US20130339473A1 (en) * 2012-06-15 2013-12-19 Zynga Inc. Real time analytics via stream processing

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786941A (zh) * 2014-12-26 2016-07-20 ***通信集团上海有限公司 一种信息挖掘方法和装置
CN104615777A (zh) * 2015-02-27 2015-05-13 浪潮集团有限公司 一种基于流式计算引擎的实时数据处理方法及装置
CN106156026A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 一种基于数据流虚拟资产在线异常发现的方法
WO2017092582A1 (zh) * 2015-12-01 2017-06-08 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN105512297A (zh) * 2015-12-10 2016-04-20 中国测绘科学研究院 一种基于分布式流式计算的空间数据处理方法与***
WO2017185576A1 (zh) * 2016-04-25 2017-11-02 百度在线网络技术(北京)有限公司 一种多流流式数据的处理方法、***、存储介质及设备
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
CN108874812A (zh) * 2017-05-10 2018-11-23 腾讯科技(北京)有限公司 一种数据处理方法及服务器、计算机存储介质
CN108874834A (zh) * 2017-05-16 2018-11-23 北京嘀嘀无限科技发展有限公司 一种数据处理方法、处理***及计算机装置
CN108287905A (zh) * 2018-01-26 2018-07-17 华南理工大学 一种网络流特征的提取与存储方法
CN109471898A (zh) * 2018-12-19 2019-03-15 华迪计算机集团有限公司 一种用于对数据进行共享分发的方法及***
CN109905412A (zh) * 2019-04-28 2019-06-18 山东渔翁信息技术股份有限公司 一种网络数据并行加解密处理方法、装置和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于海量数据的消息队列的性能对比与优化方案;刘峰;鄂海红;;软件(第10期);全文 *

Also Published As

Publication number Publication date
CN111143415A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111143415B (zh) 一种数据处理方法、装置和计算机可读存储介质
CN107168854B (zh) 互联网广告异常点击检测方法、装置、设备及可读存储介质
US8849798B2 (en) Sampling analysis of search queries
US20060098647A1 (en) Monitoring and reporting enterprise data using a message-based data exchange
CN111639138B (zh) 数据处理方法、装置、设备及存储介质
CN106815254B (zh) 一种数据处理方法和装置
CN111311136A (zh) 风控决策方法、计算机设备及存储介质
CN110060087B (zh) 异常数据的检测方法、装置和服务器
CN106131083A (zh) 一种攻击报文检测和防范的方法及交换机
US20120005257A1 (en) System and method for generating web analytic reports
CN106294676B (zh) 一种电子商务政务***的数据检索方法
CN111062799A (zh) 家庭客户的管理方法、装置、电子设备及存储介质
CN110675078A (zh) 上市公司风险诊断方法、***、计算机终端及存储介质
CN115357629A (zh) 用于金融数据流的处理方法、***、电子装置及存储介质
CN111967802A (zh) 一种企业金融风险定量分析和预警方法、装置及设备
CN102982048A (zh) 一种用于评估垃圾信息挖掘规则的方法与设备
CN116887340B (zh) 一种短信状态报告实时推送***
CN111861733B (zh) 基于地址模糊匹配的欺诈防控***及方法
CN114022051A (zh) 一种指标波动分析方法,存储介质和电子设备
CN111639916A (zh) 一种基于区块链技术及深度学习的在线审计方法、***和可读存储介质
CN111080362A (zh) 广告监测***及方法
CN113225325B (zh) 一种ip黑名单确定方法、装置、设备及存储介质
CN110032596A (zh) 流量异常用户识别方法及***
CN112560992B (zh) 优化图片分类模型的方法、装置、电子设备及存储介质
CN114143571A (zh) 一种用户处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant