CN104182506A - 日志管理方法 - Google Patents

日志管理方法 Download PDF

Info

Publication number
CN104182506A
CN104182506A CN201410409927.0A CN201410409927A CN104182506A CN 104182506 A CN104182506 A CN 104182506A CN 201410409927 A CN201410409927 A CN 201410409927A CN 104182506 A CN104182506 A CN 104182506A
Authority
CN
China
Prior art keywords
daily record
value
log
management method
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410409927.0A
Other languages
English (en)
Inventor
刘璧怡
郭美思
吴楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410409927.0A priority Critical patent/CN104182506A/zh
Publication of CN104182506A publication Critical patent/CN104182506A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种日志管理方法。涉及计算机应用领域;解决了分布式存储管理日志数据的问题。该方法包括:收集流量日志和点击日志;对收集得到的日志进行预处理;分布式存储预处理后的日志。本发明提供的技术方案适用于数据挖掘,实现了基于HDFS架构的日志文件分布式存储。

Description

日志管理方法
技术领域
本发明涉及计算机应用领域,尤其涉及一种日志管理方法。
背景技术
随着互联网的急速发展,互联网用户量也急剧增长,用户的访问日志也得到迅速的膨胀。对于互联网来说,web日志是非常重要的信息。特别是对于一些大型的电子商务网站或者社交网站,可以通过对web日志的挖掘,找出用户的潜在访问模式,从而设计出更便于用户访问的网页组织模式。然而如何在这些海量的日志中挖掘出对企业有用的信息,并依此来做出正确的决策是非常重要的工作。由于Web日志是由众多用户生成的,它具有数据源多样性、海量性、传输条件不确定性等特点,而完整的日志是对后面分析工作的保证。从收集日志到日志分析是一项非常复杂的工作,它不仅要求有较高的可靠性,还需要时效性。所以单台主机不管是在日志存储还是计算方面,尽管硬件配置很高,它的处理能力还是有限的。故采用分布式存储和计算己经成为了必然的发展趋势。
在分布式计算方面,全球约有上百种不同的方案。Hadoop就是一个使用较为广泛的分布式存储和分布式计算框架,适用于大规模的分布式计算,越来越得到重视,在广告计算、日志分析、网页搜索以及数据挖掘等方面都得到了广泛的应用。近些年来,硬盘的存储量在快速的增加,但是硬盘的访问速度却不能与时俱进。当数据量非常大时,读取操作就会花费较长的时间。
发明内容
本发明提供了一种日志管理方法,解决了分布式存储管理日志数据的问题。
一种日志管理方法,包括:
收集流量日志和点击日志;
对收集得到的日志进行预处理;
分布式存储预处理后的日志。
优选的,收集流量日志和点击日志包括:
在用户打开web页面时,将所需要的信息拼成字符串传送给前端服务器,所述信息包括以下内容的任一或任意多项:
时间、客户端IP、用户信息、访问地址、refer地址。
优选的,对收集得到的日志进行预处理包括:
计算出每次访问的页面停留时间、访问的页面的层级以及一次连续访问中浏览的页面个数;
将收集到的日志根据用户的UID信息与用户信息库进行连接,获取访问用户的用户信息,所述用户信息库保存有所有用户详细信息;
将收集到的流量日志转化为流量日志标准格式,将收集到的点击日志转化为点击日志标准格式。
优选的,分布式存储预处理后的日志包括:
对所述预处理后的日志进行块大小和副本数的配置;
向HDFS文件***上传所述预处理后的日志,以LZO格式存储于所述HDFS文件***中。
优选的,该方法还包括:
读取数据表的配置信息,按日志类型分别导入不同文件中;
对日志进行Map操作,将日志处理成key-value格式,得到Map结果;
对所述Map结果进行合并操作,得到合并结果;
对所述合并进行Reduce操作,得到数据分析结果,将该数据分析结果存放于所述HDFS文件***中;
从所述HDFS文件***中将所述数据分析结果导入数据库,供用户查询。
优选的,读取数据表的配置信息,按日志类型分别导入不同文件中包括:
从数据库中读取数据表的配置信息,所述配置信息包括列信息、指标的配置信息、维度和维度值;
将所述配置信息按日志类型分别导入不同文件中,并上传到HDFS中。
优选的,对日志进行Map操作,将日志处理成key-value格式,得到Map结果包括:
循环遍历每种日志类型的每一个指标;
根据预置的每一个指标的计算规则,选择适合的计算类型对日志进行,将志处理成key-value的格式,以该key-value格式的日志作为Map结果。
优选的,所述计算类型包括:
计数类型,将符合当前计算规则的日志格式化为key=日期+指标ID,value=l;
累加类型,将符合当前计算规则的日志处理为key=日期+指标ID,value=计算列的值;
分组计数类型,将符合当前计算规则的日志记录格式化为key=日期+指标ID+组ID,value=l。
分组累加类型,将符合当前计算规则的日志处理为key=日期+指标ID+组ID,value=计算列的值。
优选的,对所述Map结果进行合并操作,得到合并结果包括:
对Map结果进行合并至每一个key-value值只对应一条日志。
本发明提供了一种日志管理方法,收集流量日志和点击日志,对收集得到的日志进行预处理,分布式存储预处理后的日志。实现了基于HDFS架构的日志文件分布式存储,解决了分布式存储管理日志数据的问题。
附图说明
图1为本发明的实施例一提供的一种日志管理***的结构示意图。
具体实施方式
在分布式计算方面,全球约有上百种不同的方案。Hadoop就是一个使用较为广泛的分布式存储和分布式计算框架,适用于大规模的分布式计算,越来越得到重视,在广告计算、日志分析、网页搜索以及数据挖掘等方面都得到了广泛的应用。近些年来,硬盘的存储量在快速的增加,但是硬盘的访问速度却不能与时俱进。当数据量非常大时,读取操作就会花费较长的时间。但如果并行的从多个磁盘上读写数据,将会节省很多时间。
因此为了提高日志处理速度,改善目前企业在数据处理方面遇到的一些问题,需要基于分布式存储和计算,设计一个流程化、统一化的日志分析***,这个***以收集到得web日志为数据基础,由数据分析师或其他人员配置指标和维度,***可以根据用户的配置定时运行后台计算程序,最后把数据直接展示给需要的人员。该***能够节省需求方和技术人员之间的沟通成本,进一步提高了日志分析工作效率。
为了解决上述问题,本发明的实施例提供了一种日志管理方法。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
首先结合附图,对本发明的实施例一进行说明。
本发明实施例提供了一种日志管理***,该***利用Hadoop提供的HDFS和Map/Reduce两个核心的技术。在***中,用户可以自定义的配置数据表,这样增加了报表的可定制性。该***的结构如图1所示包括:日志收集服务器101、日志预处理服务器102、HDFS文件***103、统计分析模块104以及用户界面模块105。
如附图1所示,当用户在浏览网页的时候,用户的一些操作行为都被记录了下来,由前端的日志收集服务器负责收集这些记录。前端的日志收集服务器并不是存储所有的日志,它会定时的将收集到的日志推送给中间日志处理服务器。日志的预处理操作就是在中间服务器上进行的,其中预处理操作包括日志的清洗、分类和格式的统一。预处理后的日志会被定时的存放到Hadoop分布式集群中的HDFS文件***中,作为后面数据统计的应用程序的输入数据。
下面,对本发明的实施例二进行说明。
本发明实施例提供了一种日志管理方法。针对上文所涉及的两种日志类型,本发明实施例采用的是页面布码的方式来收集日志。在进行页面布码之前,需要一个JS文件,这个JS文件主要实现三个功能。
1)当用户打web页面时,将所需要的信息,包括时间、客户端IP、用户信息、访问地址、refer地址等信息拼成字符串传送给前端日志服务器。
2)实现一个方法,该方法主要是为收集点击日志服务的。主要功能就是当用户点击链接时,触发该方法,然后将用户点击短链的标识、时间、用户信息等传送给前端日志服务器。
3)自定义了一个HTML标签属性,这个属性实现的功能与上面的函数是类似的,根据实际情况选择不同的方式。
在收集流量日志的时候,只需要将事先写好的JS文件添加到HTML页面中即可,使用动态载入方式加载JS文件。在进行点击日志布码的时候,要先确认己经完成上述的JS文件加载,在需要部署点击统计的HTML标签或者链接上,增加一个自定义属性,值为key={key}&value={value}。其中key和value的值在前端部署的时候是可以自定义的,key值是用来区分需求或者模块的,value值是用来标识该模块中的点击标签或链接的,同一个模块下的value对应的key值是相同的。在整个***中,key值是唯一的,value值在一个key值下要求是唯一的。
上述页面布码完成以后,日志收集服务器收集流量日志和点击日志,在用户打开web页面时,将所需要的信息拼成字符串传送给前端服务器,所述信息包括以下内容的任一或任意多项:
时间、客户端IP、用户信息、访问地址、refer地址。
在收集到日志后,就可以对这些日志进行预处理。流量日志的预处理过程主要包括:
首先,根据用户访问记录,计算出每次访问的页面停留时间、访问的页面的层级以及一次连续访问中浏览的页面个数等数据(这些数据作为日志预处理服务器的输出,存储到HDFS文件***中,作为统计分析模块的输入数据).
其次,将日志根据用户的UID信息与用户信息库进行连接,获取访问用户的用户信息。用户信息库是保存所有用户详细信息的数据库,日志里的只有用户的UID,用户信息库里的信息包括了用户的详细信息,比如微博用户,有用户注册的详细资料、所在地、生日、发的微博记录等。点击日志的预处理需要将点击日志与用户信息库进行关联,统一数据格式。具体的,将流量日志统一为流量日志标准格式,将点击日志统一为点击日志标准格式。
对流量日志标准格式举例说明如下:
列号 含义 列号 含义
0 会话ID 9 当前URL
1 会话序号 10 来源域名
2 访问层次 11 上一次访问时间
3 访问时间 12 总次数
4 Session_id 13 操作***版本
5 Cookie_id 14 浏览器版本
6 登录用户类别 15 Flash版本
7 登录用户ID 16 语言
8 来源URL 17 访问持续时间
对点击日志标准格式举例说明如下:
列号 含义 列号 含义
0 时间 9 昵称
1 IP 10 激活状态
2 当前URL 11 邮箱
3 Session_id 12 用户类型
4 Cookie_id 13 真实姓名
5 用户ID 14 标签
6 指标代码 15 注册来源
7 级别 16
8 性别 17
然后,即可分布式存储预处理后的日志。在HDFS文件***上存储预处理后的日志文件。自日志预处理服务器向HDFS文件***上传日志前,先通过Hadoop的配置文件对预处理后的日志进行块大小和副本数的配置,上传后日志文件以LZO格式存储。
数据统计分析模块主要是通过Hadoop提供的Map/Reduce框架实现,具体如下:
1)读取数据表的配置信息,按日志类型分别导入不同文件中;
先从数据库中读取数据表的配置信息,其中包括列信息、指标的配置信息以及维度和维度值。将这些信息按日志类型分别导入不同文件中,并且上传存到HDFS中,供后续程序使用。
2)对日志进行Map操作,将日志处理成key-value格式,得到Map结果;
循环遍历每种日志类型的每一个指标(日志的指标由使用者根据使用者的需求设置,比如首页的访问人数等),根据每一个指标的计算规则(计算规则由用户定义,用户可根据指标,设置计算规则,比如统计某个用户A的浏览量,则计算规则写为UID=’A’)对日志进行计算,如果某一条日志记录符合当前指标的计算规则,则将该记录处理成key-value的格式。
本发明实施例涉及的日志类型包含流量日志和点击日志。
本发明实施例中指标的计算类型包括4种:计数类型、累加类型、分组计数类型及分组累加类型,每种的数据处理都有所不同,具体如下:
计数类型:如果当前指标的计算类型是计数类型,则将符合当前计算规则的日志记录格式化为key=日期+指标ID,value=l。
累加类型:如果当前指标的计算类型是累加类型,那么将符合当前计算规则的日志记录处理为key=日期+指标ID,value=计算列的值。累加的key值与计数是相同的处理方式,但是累加的value值不是1,而是在进行列指标配置时,选择的计算列的值。这样在后面直接合并的就是累加值。
分组计数类型:如果当前指标的计算类型是分组计数类型,则将符合当前计算规则的日志记录格式化为key=日期+指标ID+组ID,value=l。
分组累加类型:如果当前指标的计算类型是分组累加类型,那么将符合当前计算规则的日志记录处理为key=日期+指标ID+组ID,value=计算列的值。累加的key值与计数是相同的处理方式,但是累加的value值不是1,而是在进行列指标配置时,选择的计算列的值。这样在后面合并的结果就是分组的累加值。
本步骤输出key-value格式的日志,即日志具有一key值和一value值。
3)对所述Map结果进行合并操作,得到合并结果;
本发明实施例在Mapper和Reducer之间增加了Combiner以进行Combine操作,Combiner主要是为了减轻Reducer的负载,提高程序运行速度。Combiner的操作是对本地的Map结果进行进一步的合并,处理后的结果作为Reducer的输入数据。如计数或者累加时,Combiner操作会将本地Map输出的结果进行合并,处理之后的结果是每一个key值(即每一个key-value组合)只有一条记录,从而减少了Reducer的工作。
4)对所述合并进行Reduce操作,得到数据分析结果,将该数据分析结果存放于所述HDFS文件***中;
经过Map和Combine的处理之后,数据被存储在统计分析模块本地的文件***中。进行Reducer操作时,需要从不同的Map上读取数据,不同Map中key值相同的日志将会在同一个Reducer中处理。具体每个key值对应的日志被分配到哪一个Reducer进行处理,是通过对key值进行哈希实现的,哈希值相同的记录分配到同一个Reducer上处理。计数和累加的Reducer操作时相同的,都是对相同key值对应的value值求和。当Reducer操作完成以后,结果数据被存放在HDFS中,最后从HDFS中将数据导入数据库,供用户查询。
用户界面模块主要是读取数据库中的统计结果数据,然后展示在前端页面,展现方式有数据表、饼图、折线图及柱状图。
本发明实施例提供了一种日志管理方法和***,首先在测试环境下,对选定的某一页面进行布码,添加所需js文件。然后收集用户访问日志。再将收集到得日志存储在Hadoop集群中一份,独立的服务器中一份。再在***的用户界面对数据表和指标进行配置。然后采用hadoop和shell脚本两种不同方法进行计算。最后通过***页面查看数据的图表的展示。收集流量日志和点击日志,对收集得到的日志进行预处理,分布式存储预处理后的日志。实现了基于HDFS架构的日志文件分布式存储,解决了分布式存储管理日志数据的问题。
本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如***、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。
可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。
上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。

Claims (9)

1.一种日志管理方法,其特征在于,包括:
收集流量日志和点击日志;
对收集得到的日志进行预处理;
分布式存储预处理后的日志。
2.根据权利要求1所述的日志管理方法,其特征在于,收集流量日志和点击日志包括:
在用户打开web页面时,将所需要的信息拼成字符串传送给前端服务器,所述信息包括以下内容的任一或任意多项:
时间、客户端IP、用户信息、访问地址、refer地址。
3.根据权利要求1所述的日志管理方法,其特征在于,对收集得到的日志进行预处理包括:
计算出每次访问的页面停留时间、访问的页面的层级以及一次连续访问中浏览的页面个数;
将收集到的日志根据用户的UID信息与用户信息库进行连接,获取访问用户的用户信息,所述用户信息库保存有所有用户详细信息;
将收集到的流量日志转化为流量日志标准格式,将收集到的点击日志转化为点击日志标准格式。
4.根据权利要求3所述的日志管理方法,其特征在于,分布式存储预处理后的日志包括:
对所述预处理后的日志进行块大小和副本数的配置;
向HDFS文件***上传所述预处理后的日志,以LZO格式存储于所述HDFS文件***中。
5.根据权利要求4所述的日志管理方法,其特征在于,该方法还包括:
读取数据表的配置信息,按日志类型分别导入不同文件中;
对日志进行Map操作,将日志处理成key-value格式,得到Map结果;
对所述Map结果进行合并操作,得到合并结果;
对所述合并进行Reduce操作,得到数据分析结果,将该数据分析结果存放于所述HDFS文件***中;
从所述HDFS文件***中将所述数据分析结果导入数据库,供用户查询。
6.根据权利要求5所述的日志管理方法,其特征在于,读取数据表的配置信息,按日志类型分别导入不同文件中包括:
从数据库中读取数据表的配置信息,所述配置信息包括列信息、指标的配置信息、维度和维度值;
将所述配置信息按日志类型分别导入不同文件中,并上传到HDFS中。
7.根据权利要求6所述的日志管理方法,其特征在于,对日志进行Map操作,将日志处理成key-value格式,得到Map结果包括:
循环遍历每种日志类型的每一个指标;
根据预置的每一个指标的计算规则,选择适合的计算类型对日志进行,将志处理成key-value的格式,以该key-value格式的日志作为Map结果。
8.根据权利要求7所述的日志管理方法,其特征在于,所述计算类型包括:
计数类型,将符合当前计算规则的日志格式化为key=日期+指标ID,value=l;
累加类型,将符合当前计算规则的日志处理为key=日期+指标ID,value=计算列的值;
分组计数类型,将符合当前计算规则的日志记录格式化为key=日期+指标ID+组ID,value=l;
分组累加类型,将符合当前计算规则的日志处理为key=日期+指标ID+组ID,value=计算列的值。
9.根据权利要求5所述的日志管理方法,其特征在于,对所述Map结果进行合并操作,得到合并结果包括:
对Map结果进行合并至每一个key-value值只对应一条日志。
CN201410409927.0A 2014-08-19 2014-08-19 日志管理方法 Pending CN104182506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410409927.0A CN104182506A (zh) 2014-08-19 2014-08-19 日志管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410409927.0A CN104182506A (zh) 2014-08-19 2014-08-19 日志管理方法

Publications (1)

Publication Number Publication Date
CN104182506A true CN104182506A (zh) 2014-12-03

Family

ID=51963545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410409927.0A Pending CN104182506A (zh) 2014-08-19 2014-08-19 日志管理方法

Country Status (1)

Country Link
CN (1) CN104182506A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105099764A (zh) * 2015-06-29 2015-11-25 百度在线网络技术(北京)有限公司 日志处理方法及装置
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘***
CN105577431A (zh) * 2015-12-11 2016-05-11 青岛云成互动网络有限公司 一种基于互联网应用的用户信息识别分类方法和***
CN105574539A (zh) * 2015-12-11 2016-05-11 中国联合网络通信集团有限公司 一种dns日志分析方法及装置
CN105608203A (zh) * 2015-12-24 2016-05-25 Tcl集团股份有限公司 一种基于Hadoop平台的物联网日志处理方法和装置
CN105808605A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种搜索日志合并方法和***
CN105843941A (zh) * 2016-04-01 2016-08-10 北京小米移动软件有限公司 日志校验方法及装置
CN106227877A (zh) * 2016-08-02 2016-12-14 北京集奥聚合科技有限公司 一种基于hadoop 的分布式日志采集***及方法
CN106503079A (zh) * 2016-10-10 2017-03-15 语联网(武汉)信息技术有限公司 一种日志管理方法及***
CN106776622A (zh) * 2015-11-20 2017-05-31 北京国双科技有限公司 访问日志的查询方法和装置
CN106815274A (zh) * 2015-12-02 2017-06-09 中兴通讯股份有限公司 基于Hadoop的日志数据挖掘方法及***
CN107153702A (zh) * 2017-05-10 2017-09-12 北京微影时代科技有限公司 一种数据处理方法及装置
CN108959043A (zh) * 2017-05-24 2018-12-07 艺龙网信息技术(北京)有限公司 实时日志处理方法与装置
CN109343993A (zh) * 2018-09-28 2019-02-15 郑州云海信息技术有限公司 一种云平台的错误信息处理方法及装置
CN112328567A (zh) * 2020-10-31 2021-02-05 中盈优创资讯科技有限公司 一种物联网mme日志数据的处理方法及装置
CN114650236A (zh) * 2020-12-17 2022-06-21 中移(苏州)软件技术有限公司 一种日志处理方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693307A (zh) * 2012-05-24 2012-09-26 上海克而瑞信息技术有限公司 一种网站用户的访问行为记录分析***
US20130124466A1 (en) * 2011-11-14 2013-05-16 Siddartha Naidu Data Processing Service

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130124466A1 (en) * 2011-11-14 2013-05-16 Siddartha Naidu Data Processing Service
CN102693307A (zh) * 2012-05-24 2012-09-26 上海克而瑞信息技术有限公司 一种网站用户的访问行为记录分析***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIJIE GUO等: "Mastiff: A MapReduce-based System for Time-based Big Data Analytics", 《2012 IEEE INTERNATIONAL CONFERENCE ON CLUSTER COMPUTING》 *
王高垒: "爬虫日志数据信息抽取与统计***设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808605A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种搜索日志合并方法和***
CN105808605B (zh) * 2014-12-31 2019-08-09 北京奇虎科技有限公司 一种搜索日志合并方法和***
CN105099764A (zh) * 2015-06-29 2015-11-25 百度在线网络技术(北京)有限公司 日志处理方法及装置
CN105099764B (zh) * 2015-06-29 2019-01-18 北京音之邦文化科技有限公司 日志处理方法及装置
CN106776622B (zh) * 2015-11-20 2020-03-03 北京国双科技有限公司 访问日志的查询方法和装置
CN106776622A (zh) * 2015-11-20 2017-05-31 北京国双科技有限公司 访问日志的查询方法和装置
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘***
CN106815274B (zh) * 2015-12-02 2022-02-18 中兴通讯股份有限公司 基于Hadoop的日志数据挖掘方法及***
CN106815274A (zh) * 2015-12-02 2017-06-09 中兴通讯股份有限公司 基于Hadoop的日志数据挖掘方法及***
CN105574539B (zh) * 2015-12-11 2018-09-21 中国联合网络通信集团有限公司 一种dns日志分析方法及装置
CN105577431A (zh) * 2015-12-11 2016-05-11 青岛云成互动网络有限公司 一种基于互联网应用的用户信息识别分类方法和***
CN105574539A (zh) * 2015-12-11 2016-05-11 中国联合网络通信集团有限公司 一种dns日志分析方法及装置
CN105608203B (zh) * 2015-12-24 2019-09-17 Tcl集团股份有限公司 一种基于Hadoop平台的物联网日志处理方法和装置
CN105608203A (zh) * 2015-12-24 2016-05-25 Tcl集团股份有限公司 一种基于Hadoop平台的物联网日志处理方法和装置
CN105843941B (zh) * 2016-04-01 2019-07-09 北京小米移动软件有限公司 日志校验方法及装置
CN105843941A (zh) * 2016-04-01 2016-08-10 北京小米移动软件有限公司 日志校验方法及装置
CN106227877A (zh) * 2016-08-02 2016-12-14 北京集奥聚合科技有限公司 一种基于hadoop 的分布式日志采集***及方法
CN106503079A (zh) * 2016-10-10 2017-03-15 语联网(武汉)信息技术有限公司 一种日志管理方法及***
CN107153702A (zh) * 2017-05-10 2017-09-12 北京微影时代科技有限公司 一种数据处理方法及装置
CN108959043A (zh) * 2017-05-24 2018-12-07 艺龙网信息技术(北京)有限公司 实时日志处理方法与装置
CN109343993A (zh) * 2018-09-28 2019-02-15 郑州云海信息技术有限公司 一种云平台的错误信息处理方法及装置
CN112328567A (zh) * 2020-10-31 2021-02-05 中盈优创资讯科技有限公司 一种物联网mme日志数据的处理方法及装置
CN112328567B (zh) * 2020-10-31 2022-10-04 中盈优创资讯科技有限公司 一种物联网mme日志数据的处理方法及装置
CN114650236A (zh) * 2020-12-17 2022-06-21 中移(苏州)软件技术有限公司 一种日志处理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN104182506A (zh) 日志管理方法
JP7006985B2 (ja) クライアントデバイス、記憶媒体及び方法
US10546006B2 (en) Method and system for hybrid information query
US10515386B2 (en) System and method for performing cross-platform big data analytics
US20140101134A1 (en) System and method for iterative analysis of information content
US20140172506A1 (en) Customer segmentation
CN105512336A (zh) 一种基于Hadoop的海量数据处理方法和装置
CN105069087B (zh) 基于Web日志数据挖掘的网站优化方法
CN103838867A (zh) 日志处理方法和装置
US9965772B2 (en) System and method for unifying user-level data across different media platforms
CN102902775B (zh) 互联网实时计算的方法和***
CN103329151A (zh) 基于话题聚类的推荐
CN107688568A (zh) 基于网页访问行为记录的采集方法及装置
CN107145556B (zh) 通用的分布式采集***
US20130185429A1 (en) Processing Store Visiting Data
CN107480277A (zh) 用于网站日志采集的方法及装置
CN103729479A (zh) 基于分布式文件存储的网站页面内容统计的方法和***
US11875377B2 (en) Generating and distributing digital surveys based on predicting survey responses to digital survey questions
CN104850549A (zh) 一种网络舆情的监控方法
CA3200883A1 (en) Multi-cache based digital output generation
CN103262079B (zh) 检索装置及检索方法
CN101188521A (zh) 一种挖掘用户行为数据的方法和网站服务器
CN114971714A (zh) 一种基于大数据标签的精准客户运营方法和计算机设备
CN106897313B (zh) 一种海量用户业务偏好评估方法和装置
CN104376066A (zh) 一种网络特定内容挖掘方法和装置、及一种电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141203