CN113221033A - 埋点采集、统计分析方法、***、设备及存储介质 - Google Patents

埋点采集、统计分析方法、***、设备及存储介质 Download PDF

Info

Publication number
CN113221033A
CN113221033A CN202110445006.XA CN202110445006A CN113221033A CN 113221033 A CN113221033 A CN 113221033A CN 202110445006 A CN202110445006 A CN 202110445006A CN 113221033 A CN113221033 A CN 113221033A
Authority
CN
China
Prior art keywords
data
buried point
statistical analysis
acquisition
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110445006.XA
Other languages
English (en)
Inventor
王晓进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Gangyin Technology Development Co ltd
Original Assignee
Shanghai Gangyin Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Gangyin Technology Development Co ltd filed Critical Shanghai Gangyin Technology Development Co ltd
Priority to CN202110445006.XA priority Critical patent/CN113221033A/zh
Publication of CN113221033A publication Critical patent/CN113221033A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及数据统计、分析技术领域,公开了一种埋点采集、统计分析方法及***,埋点采集、统计分析方法包括:批量配置需要埋点跟踪的URI信息和参数信息以及基于需要统计分析的URI信息和参数信息,生成埋点方案;基于埋点配置规则采集数据,并将采集到的采集数据通过日志Logback方式落盘;将采集到的采集数据通过Filebeat+Logstash方式传输,经过MQ集群发送到清洗端做数据清洗处理;清洗端通过从MQ集群接收消息,对采集数据做数据清洗处理后写入ES集群,按照时间进行分类存储;最后通过埋点方案实时查看统计分析结果。本申请提供的埋点采集、统计分析方法及***实现非技术人员的可视化埋点配置,能够实时出统计结果,降低了二次开发的成本及缩短了开发耗时。

Description

埋点采集、统计分析方法、***、设备及存储介质
技术领域
本申请涉及数据统计、分析技术领域,尤其是涉及一种埋点采集、统计分析方法、***、设备及存储介质。
背景技术
“埋点”指在应用中特定的流程收集一些信息,用来跟踪应用使用的状况,包括访问数,访客数,停留时长,页面浏览数和跳出率等,以便于后续用来进一步优化产品或是提供运营的数据支撑。
相关技术中,埋点方案大多为单个业务部门提出需求,并向对应线的产品经理转达,同时由产品经理与研发项目经理商议对应的埋点拦截方案,然后进行方案细节的设计,并转交给对应的开发进行二次开发,因此,无法进行实时配置实时出统计结果,二次开发耗时较长,效率较低,开发成本较大。
发明内容
为了提高开发效率,降低开发成本,本申请提供了埋点采集、统计分析方法、***、设备及存储介质。
第一方面,本申请公开了埋点采集、统计分析方法。
埋点采集、统计分析方法,包括:
埋点配置,包括配置采集端点及配置采集方案:
配置采集端点,批量配置需要埋点跟踪的URI信息和参数信息;
配置采集方案,基于需要统计分析的URI信息和参数信息,生成埋点方案;
数据采集,基于埋点配置规则采集数据,并将采集到的采集数据通过日志Logback方式落盘;
数据清洗,将采集到的采集数据通过Filebeat+Logstash方式传输,经过MQ集群发送到清洗端做数据清洗处理;
数据存储,清洗端通过从MQ集群接收消息,对采集数据做数据清洗处理后写入ES集群,按照时间进行分类存储;
数据分析,通过埋点方案实时查看统计分析结果。
通过采用上述技术方案,仅需配置好采集端点以及对应的采集方案,即可根据配置规则采集请求,实现非技术人员的可视化埋点配置,能够实时出统计结果,降低了二次开发的成本及缩短了开发耗时。
优选的,所述埋点配置还包括定义采集数据的日志文件格式,在数据清洗之前还包括数据校验:
根据定义的日志文件格式,对采集到的采集数据进行校验,将校验得到的校验数据发送至清洗端做数据清洗处理。
通过采用上述技术方案,在进入数据清洗之前预先对数据的格式进行校验,提出错误格式的数据,保留合规的格式,降低了后续处理过程中的数据错误率,从而提高了效率。
优选的,所述清洗端做数据清洗处理包括:
将需要埋点跟踪的URI信息、参数信息以及校验得到的校验数据进行解析、聚合。
优选的,将需要埋点跟踪的URI信息、参数信息以及校验得到的校验数据进行解析、聚合包括:
对需要埋点跟踪的URI信息、参数信息进行解析,并缓存;
对校验得到的校验数据进行解析,生成解析日志;
提取所述解析日志与解析后的需要埋点跟踪的URI信息、参数信息的对应关系;
基于预设的聚合规则进行聚合,得到聚合结果。
通过采用上述技术方案,通过采用上述技术方案,直观获取相应参数信息的统计结果。
优选的,所述基于预设的聚合规则进行聚合得到聚合结果包括从页面、上下文、要素维度进行聚合得到聚合结果。
通过采用上述技术方案,提高统计分析的全面性。
第二方面,本申请公开了埋点采集、统计分析配置***,包括:
采集端点配置单元,用于配置需要埋点跟踪的URI信息和参数信息;
埋点方案配置单元,用于埋点方案的定义;
数据采集单元,用于基于埋点配置规则采集数据;
数据清洗单元,用于将需要埋点跟踪的URI信息、参数信息以及采集到的采集数据进行解析、聚合;
数据存储单元,用于分类存储清洗后的采集数据;
数据分析单元,用于基于埋点方案实时查看统计分析结果。
优选的,还包括:
文件格式定义单元,用于定义采集数据的日志文件格式;
数据校验单元,用于基于文件格式定义单元定义的日志文件格式对采集到的采集数据进行校验。
第三方面,本申请公开了埋点采集、统计分析配置设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行上述埋点采集、统计分析方法的计算机程序。
第四方面,本申请公开的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述埋点采集、统计分析方法。
综上所述,本申请提供的埋点采集、统计分析方法、***、设备及存储介质包括以下至少一种有益技术效果:
1、通过采集端点配置单元、埋点方案配置单元,以用于配置需要埋点跟踪的URI信息和参数信息及埋点方案的定义,在设定好埋点配置后即可基于配置的内容进行数据采集、清洗、存储及分析的处理过程,数据通过日志Logback方式落盘,通过Filebeat+Logstash方式传输,经过MQ集群发送到数据清洗单元进行解析、聚合,数据清洗单元对数据做预处理后写入ES集群,按照日/月/年纬度进行分类存储,后进行分析统计,实现了非技术人员的可视化埋点配置,能够实时出统计结果,降低了二次开发的成本及缩短了开发耗时;
2、通过采集端点配置单元、埋点方案配置单元支持个性化配置开发节点数据,满足不同种类的用户千人千面的统计需求。
附图说明
图1为本申请提供的埋点采集、统计分析配置***模块结构示意图。
图中,1、采集端点配置单元 ;2、埋点方案配置单元;3、数据采集单元;4、数据清洗单元;5、数据存储单元;6、数据分析单元;7、文件格式定义单元;8、数据校验单元。
具体实施方式
以下结合附图对本申请作进一步详细说明。
本申请首先公开了埋点采集、统计分析方法,包括以下步骤:
埋点配置,包括配置采集端点、配置采集方案及定义采集数据的日志文件格式:
配置采集端点,批量配置需要埋点跟踪的URI信息和参数信息,即根据目标载体上的元素配置需要采集的元素名称和定义埋点内容,埋点内容包括关于目标载体上的需要采集的元素的访问量(PV)、独立访客量(UV)和自定义参数,自定义参数如停留时长、跳出率等;
配置采集方案,基于上述配置的需要统计分析的URI信息和参数信息,生成对应的埋点方案;
定义采集数据的日志文件格式为一特定格式,以用于对采集的疏忽格式进行校验,以降低后续数据处理过程的错误率。
以上埋点配置为预先设置完成。在完成上述埋点配置后,方可进行以下处理流程:
数据采集,基于预先配置的配置采集端点规则采集相应的数据,并将采集到的采集数据通过日志Logback方式落盘。
数据校验,根据定义的日志文件格式,对采集到的采集数据进行校验,即将采集到的数据的格式与预先定义的日志文件格式进行比对,保留格式一致的数据;然后将校验后保留下的校验数据发送至清洗端做数据清洗处理。
数据清洗,将采集到的采集数据通过Filebeat+Logstash方式传输,经过MQ集群发送到清洗端做数据清洗处理,即将需要埋点跟踪的URI信息、参数信息以及校验得到的校验数据进行解析、聚合;
将需要埋点跟踪的URI信息、参数信息以及校验得到的校验数据进行解析、聚合包括:
对需要埋点跟踪的URI信息、参数信息进行解析,并缓存;
同时对校验得到的校验数据进行解析,生成解析日志;
提取所述解析日志与解析后的需要埋点跟踪的URI信息、参数信息的对应关系;
基于预设的聚合规则从页面、上下文、要素维度进行聚合得到聚合结果。
数据存储,清洗端通过从MQ集群接收消息,对采集数据做数据清洗处理后写入ES集群,并按照时间进行分类存储。
数据分析,通过埋点方案实时查看统计分析结果。
本申请还公开了埋点配置、采集、统计分析***,其特征在于,包括:
采集端点配置单元1,用于配置需要埋点跟踪的URI信息和参数信息;
埋点方案配置单元2,用于埋点方案的定义;
文件格式定义单元7,用于定义采集数据的日志文件格式;
数据采集单元3,用于基于埋点配置规则采集数据;
数据校验单元8,用于基于文件格式定义单元7定义的日志文件格式对采集到的采集数据进行校验;
数据清洗单元4,用于将需要埋点跟踪的URI信息、参数信息以及采集到的采集数据进行解析、聚合;
数据存储单元5,用于分类存储清洗后的采集数据;
数据分析单元6,用于基于埋点方案实时查看统计分析结果。
本申请中数据采集单元3基于配置的需要埋点跟踪的URI信息和参数信息采集数据,数据通过日志Logback方式落盘,并通过Filebeat+Logstash方式传输,经过MQ集群发送到数据清洗单元4进行解析、聚合,数据清洗单元4对数据做预处理后写入ES集群,按照日/月/年纬度进行分类存储,后进行分析统计。因此,仅需要虚线通过采集端点配置单元1配置需要埋点跟踪的URI信息和参数信息,通过埋点方案配置单元2定义埋点方案,结合实现埋点采集和统计分析,实现了非技术人员的可视化埋点配置,能够实时出统计结果,降低了二次开发的成本及缩短了开发耗时。
本申请还公开了一种计算机设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行上述埋点采集、统计分析方法的计算机程序。本申请还公开了存储有能够被处理器加载并执行上述埋点采集、统计分析方法的计算机程序,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储,信息可以是计算机可读指令、数据结构、程序结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本申请的方法及其核心思想,不应理解为对本申请的限制。本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。

Claims (9)

1.埋点采集、统计分析方法,其特征在于,包括:
埋点配置,包括配置采集端点及配置采集方案:
配置采集端点,批量配置需要埋点跟踪的URI信息和参数信息;
配置采集方案,基于需要统计分析的URI信息和参数信息,生成埋点方案;
数据采集,基于埋点配置规则采集数据,并将采集到的采集数据通过日志Logback方式落盘;
数据清洗,将采集到的采集数据通过Filebeat+Logstash方式传输,经过MQ集群发送到清洗端做数据清洗处理;
数据存储,清洗端通过从MQ集群接收消息,对采集数据做数据清洗处理后写入ES集群,按照时间进行分类存储;
数据分析,通过埋点方案实时查看统计分析结果。
2.根据权利要求1所述的埋点采集、统计分析方法,其特征在于,所述埋点配置还包括定义采集数据的日志文件格式,在数据清洗之前还包括数据校验:
根据定义的日志文件格式,对采集到的采集数据进行校验,将校验得到的校验数据发送至清洗端做数据清洗处理。
3.根据权利要求2所述的埋点采集、统计分析方法,其特征在于,所述清洗端做数据清洗处理包括:
将需要埋点跟踪的URI信息、参数信息以及校验得到的校验数据进行解析、聚合。
4.根据权利要求3所述的埋点采集、统计分析方法,其特征在于,将需要埋点跟踪的URI信息、参数信息以及校验得到的校验数据进行解析、聚合包括:
对需要埋点跟踪的URI信息、参数信息进行解析,并缓存;
对校验得到的校验数据进行解析,生成解析日志;
提取所述解析日志与解析后的需要埋点跟踪的URI信息、参数信息的对应关系;
基于预设的聚合规则进行聚合,得到聚合结果。
5.根据权利要求4所述的埋点采集、统计分析方法,其特征在于,所述基于预设的聚合规则进行聚合得到聚合结果包括从页面、上下文、要素维度进行聚合得到聚合结果。
6.埋点配置、采集、统计分析***,其特征在于,包括:
采集端点配置单元(1),用于配置需要埋点跟踪的URI信息和参数信息;
埋点方案配置单元(2)用于埋点方案的定义;
数据采集单元(3),用于基于埋点配置规则采集数据;
数据清洗单元(4),用于将需要埋点跟踪的URI信息、参数信息以及采集到的采集数据进行解析、聚合;
数据存储单元(5),用于分类存储清洗后的采集数据;
数据分析单元(6),用于基于埋点方案实时查看统计分析结果。
7.根据权利要求6所述的埋点配置、采集、统计分析***,其特征在于,还包括:
文件格式定义单元(7),用于定义采集数据的日志文件格式;
数据校验单元(8),用于基于文件格式定义单元(7)定义的日志文件格式对采集到的采集数据进行校验。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至5中任一种方法的计算机程序。
9.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至5中任一种方法的计算机程序。
CN202110445006.XA 2021-04-24 2021-04-24 埋点采集、统计分析方法、***、设备及存储介质 Pending CN113221033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110445006.XA CN113221033A (zh) 2021-04-24 2021-04-24 埋点采集、统计分析方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110445006.XA CN113221033A (zh) 2021-04-24 2021-04-24 埋点采集、统计分析方法、***、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113221033A true CN113221033A (zh) 2021-08-06

Family

ID=77088942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110445006.XA Pending CN113221033A (zh) 2021-04-24 2021-04-24 埋点采集、统计分析方法、***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113221033A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8713252B1 (en) * 2009-05-06 2014-04-29 Violin Memory, Inc. Transactional consistency scheme
CN103778244A (zh) * 2014-02-11 2014-05-07 五八同城信息技术有限公司 一种基于用户行为日志的自动化报表分析方法
CN107995283A (zh) * 2017-11-29 2018-05-04 上海恺英网络科技有限公司 一种数据埋点分析的方法、设备及***
CN110347716A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 日志数据处理方法、装置、终端及存储介质
CN112256530A (zh) * 2020-10-27 2021-01-22 广州助蜂网络科技有限公司 一种可链路追踪的日志服务方法及其***
CN112506743A (zh) * 2020-12-09 2021-03-16 天津狮拓信息技术有限公司 一种日志监控方法、装置和服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8713252B1 (en) * 2009-05-06 2014-04-29 Violin Memory, Inc. Transactional consistency scheme
CN103778244A (zh) * 2014-02-11 2014-05-07 五八同城信息技术有限公司 一种基于用户行为日志的自动化报表分析方法
CN107995283A (zh) * 2017-11-29 2018-05-04 上海恺英网络科技有限公司 一种数据埋点分析的方法、设备及***
CN110347716A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 日志数据处理方法、装置、终端及存储介质
CN112256530A (zh) * 2020-10-27 2021-01-22 广州助蜂网络科技有限公司 一种可链路追踪的日志服务方法及其***
CN112506743A (zh) * 2020-12-09 2021-03-16 天津狮拓信息技术有限公司 一种日志监控方法、装置和服务器

Similar Documents

Publication Publication Date Title
CN104426713B (zh) 网络站点访问效果数据的监测方法和装置
CN102546668B (zh) 一种独立访问者的统计方法、装置及***
US20110113117A1 (en) Asynchronous Collection and Correlation of Trace and Communications Event Data
CN104765689B (zh) 一种接口性能数据实时监制方法和装置
US20110271145A1 (en) Efficient failure detection for long running data transfer jobs
Siddiqui et al. Edge-node-aware adaptive data processing framework for smart grid
CN116680315A (zh) 数据离线处理方法、装置、电子设备及存储介质
CN109711849B (zh) 以太坊地址画像生成方法、装置、电子设备及存储介质
US9218205B2 (en) Resource management in ephemeral environments
CN110989935A (zh) Flume***的数据处理、传输方法及装置
CN109446167A (zh) 一种日志数据存储、提取方法及装置
Romero et al. Integration of DevOps practices on a noise monitor system with CircleCI and Terraform
CN113221033A (zh) 埋点采集、统计分析方法、***、设备及存储介质
CN107948234A (zh) 数据的处理方法及装置
CN112799951B (zh) 用于计费***的生成自动测试用例的方法与设备
CN110968487A (zh) 异常数据的分析方法及装置
CN115204888A (zh) 一种目标账户识别方法、装置、存储介质和电子设备
CN112116403A (zh) 一种信息推荐方法、装置及设备
CN112783920A (zh) 基于数据编排的工业物联网数据实时计算方法和***
CN113094414A (zh) 流转图谱生成方法及装置
US10558647B1 (en) High performance data aggregations
CN107547601B (zh) 用于消息发送的方法及路由设备、服务器、***
CN103312835A (zh) 地址溯源方法和装置
US10756948B1 (en) Horizontal scaling of time series data
CN117251384B (zh) 一种接口自动化测试用例生成方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806

RJ01 Rejection of invention patent application after publication