CN106844588A - 一种基于网络爬虫的用户行为数据的分析方法及*** - Google Patents

一种基于网络爬虫的用户行为数据的分析方法及*** Download PDF

Info

Publication number
CN106844588A
CN106844588A CN201710017268.XA CN201710017268A CN106844588A CN 106844588 A CN106844588 A CN 106844588A CN 201710017268 A CN201710017268 A CN 201710017268A CN 106844588 A CN106844588 A CN 106844588A
Authority
CN
China
Prior art keywords
data
analysis
user
module
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710017268.XA
Other languages
English (en)
Inventor
欧阳涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taizhou Jiji Intellectual Property Operation Co.,Ltd.
Original Assignee
Shanghai Feixun Data Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feixun Data Communication Technology Co Ltd filed Critical Shanghai Feixun Data Communication Technology Co Ltd
Priority to CN201710017268.XA priority Critical patent/CN106844588A/zh
Publication of CN106844588A publication Critical patent/CN106844588A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及数据处理领域,具体为一种基于网络爬虫的用户行为数据的分析方法及***,本发明方法包括如下步骤:步骤1,用户上网行为原始数据获取;步骤2,通过网络爬虫对步骤1中获取的数据进行中间分析并输出用户行为数据规范化结果;步骤3,对步骤2中用户行为数据规范化结果数据进行数据字段间关联性分析和商业化价值信息提取,具有效率高、分析精准度高等优点。

Description

一种基于网络爬虫的用户行为数据的分析方法及***
技术领域
本发明涉及数据处理技术领域,具体为一种基于网络爬虫的用户行为数据的数据分析方法及***。
背景技术
移动智能设备也使得消费者能够不受地域和时间的约束,随时随地进行网上购物和娱乐等行为。针对一个用户的网页浏览情况进行分析,我们可以从中推测出该用户对互联网的依赖程度和使用网络的行为性质划分,是潜在型的网络消费者,还是忠实型的网络消费者,或者其他类型。针对一个用户的行为数据分析的价值不大,采用同样的方式对全国甚至全球用户的这一行为数据进行分析,就潜藏着巨大的商业价值,同时随着上网行为数据量的巨大,数据收集、存储、分析的压力越来越大。目前,大的互联网商城、家用硬件设备提供商等企业,通过自身的产品在市场的份额和技术,能够抓取到用户在该类设备上的数据,对这些数据进行复制备份、清晰和解析等操作,提取出用户的浏览网页,即URL,通过这些URL,提取出用户的网络行为特征,但还不能做到很好的数据分析。
如公开号为CN 101192227B的专利公开了一种基于大数据的用户行为分析方法及***,通过客户端实时采集用户行为数据,将用户行为和页面URL的上下文信息相结合,最大限度地重现用户浏览Web页面的真实场景,提取全面的用户行为轨迹,为分析用户行为提供有效的数据保障;并通过安全分析模块为用户行为数据提供安全保障,还利用用户行为数据本体模型对用户行为建模,实现行为信息语义级的共享和重用,提高了模型互操作性和可靠性;实时采集用户行为及上下文数据进行分析,使结果更可靠;以列存储数据库对本体和行为信息进行存储,为海量数据管理奠定基础;将云计算技术的强大处理能力和大规模数据存储能力、本体及其推理、知识发现方法相结合,实时分析海量用户行为数据,及时获取用户兴趣,从而实现有效与精准的用户推送,该公开的专利采用的技术对于大量数据收集、存储、分析就会显得能力不足,效率低,准确性也会偏低。
发明内容
本发明的目的是提供一种效率高、分析精准度高的一种基于网络爬虫的用户行为数据的分析方法及***。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种基于网络爬虫的用户行为数据的分析方法,包括如下步骤:
步骤1,用户上网行为原始数据获取;
步骤2,通过网络爬虫对步骤1中获取的数据进行中间分析并输出用户行为数据规范化结果;
步骤3,对步骤2中用户行为数据规范化结果数据进行数据字段间关联性分析和商业化价值信息提取。
作为对本发明的优选,步骤1中数据获取包括提取用户在硬件设备上的传输数据的复制和备份存储。
作为对本发明的优选,步骤2中的中间分析包括:
步骤1)URL信息提取;
步骤2)URL信息定性分析;
步骤3)源文件关键字频度分析。
作为对本发明的优选,步骤1)包括:
原始数据的解压;
原始数据的解密;
处理数据后的协议解析;
URL和对应的用户信息提取。
作为对本发明的优选,步骤2)的实现需要对现有网页的特征进行分析,建立URL分类识别模型,对URL本身内容进行信息挖掘和分类。
作为对本发明的优选,当步骤2),URL信息定性分析定性成功,则执行步骤3),否则,不执行步骤3)。
作为对本发明的优选,步骤3)的实现:
首先,建立网页信息中一些典型关键字的提取,建立关键字库;
然后,通过用户的URL获取网页的源文件信息,针对这个关键字库中的关键字在源文件信息中出现的频度进行统计和分析,提取网页用户的行为数据定性分析。
一种基于网络爬虫的用户行为数据的分析***,包括用户原始数据获取模块、URL信息提取模块、URL信息定性分析模块、源文件关键字频度分析模块、行为数据规范化输出模块、数据分析模块,其中:
所述用户原始数据获取模块用于获取用户上网行为原始数据;
所述URL信息提取模块用于提取用户上网行为原始数据中用户浏览网页的URL信息;
所述URL信息定性分析模块用于对所述URL信息提取模块提取的URL信息进行定性分析;
所述源文件关键字频度分析模块用于通过网络爬虫对所述URL信息提取模块提取的URL信息进行定性分析;
所述行为数据规范化输出模块用于所述URL信息定性分析模块和所述源文件关键字频度分析模块定性分析后进行用户行为数据规范化结果输出;
所述数据分析模块用于对所述行为数据规范化输出模块输出的结果进行数据字段间关联性分析和商业化价值信息提取。
作为对本发明的优选,所述URL信息提取模块包括原始数据解压子模块、原始数据解密子模块、处理数据后的协议解析子模块和URL和对应的用户信息提取模块,其中,所述原始数据解压子模块用于对用户上网行为原始数据的解压;
所述原始数据解密子模块用于对用户上网行为原始数据的解密;
所述处理数据后的协议解析子模块用于对原始数据解压子模块和原始数据解密子模块处理后的数据进行协议解析;
所述URL和对应的用户信息提取模块用于所述处理数据后的协议解析子模块解析后的数据进行URL和对应的用户信息的数据提取。
作为对本发明的优选,数据分析模块定义为人为分析模块。
本发明利用现有的技术和硬件环境,对用户的上网行为原始数据进行搜集和存储;搭建Hadoop集群架构,对获取的数据进行存储,使用Spark大数据处理思想对大量数据采用适当的算法进行分析操作;使用协议解析软件,对获取的数据进行层层的解压、解密和协议解析等操作,获取用户行为数据的URL信息和其他相关信息;使用网络爬虫技术和URL信息分析软件,自动实现对用户的行为数据进行分类、定位和分析等操作并输出规范化用户行为数据分析结果;最终通过该规范化结果数据进行数据字段间关联性分析和商业化价值信息提取,效率更高、分析精准度更可靠。
附图说明
图1是本发明实施例1中用户上网行为原始数据的整个处理流程示意图;
图2是本发明实施例1中中间分析的流程示意图;
图3是本发明实施例1中用户上网行为规范化结果关联度分析和商业价值获取的流程示意图;
图4是本发明实施例2的***模块图。
具体实施方式
以下具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
实施例1
一种基于网络爬虫的用户行为数据的分析方法,包括如下步骤:
步骤1,用户上网行为原始数据获取;
步骤2,通过网络爬虫对步骤1中获取的数据进行中间分析并输出用户行为数据规范化结果;
步骤3,对步骤2中用户行为数据规范化结果数据进行数据字段间关联性分析和商业化价值信息提取。
本申请中会利用到网络爬虫技术,网络爬虫,又名网页蜘蛛和网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。随着移动智能设备的发展,人类对互联网的依赖性越来越强烈,通过网络进行日常的生活需求消费的行为成为目前比较流行的消费行为,并且市场份额也在逐年递增。
本申请中可采用大数据架构,并可通过网络爬虫对用户访问的网页进行定性分析,并进行统计,从而获取用户的网络行为的规律,从中提取出有价值的信息,例如某企业的某个商品在全球各个地区的销售需求预测,以及该商品不同型号商品在全球各个地区的消费需求的预测,从而减少商品的滞留率,提高企业利润率。通过网络爬虫技术,对大量用户的网页行为数据自动地进行分析、定性、统计和再分析,从而得出用户的网络行为进行规范化结果输出,业务部门就可以通过该规范化的结果数据输出,制定市场销售策略,本申请还需要结合采用hadoop架构集群中进行大量数据处理,结合采用Spark大数据算法分析,结合采用集群的并行化处理,提高数据的处理速度和准确性。
对上述方案进一步的优化,步骤1中的数据处理包括提取用户在硬件设备上的传输数据的复制和备份存储。当用户使用该类硬件设备进行上网行为,数据就会通过该类硬件设备进行数据传输,则可以从该类硬件设备上对数据进行复制备份,或者直接在一些网上商城的后台数据服务中心申请获取,这些数据的获取和使用是需要签订保密协议,防止用户数据恶意泄露。
然后,对步骤2进一步地细化,
步骤2中的中间分析包括:
步骤1),URL信息提取;
步骤2),URL信息定性分析;
步骤3),源文件关键字频度分析。
步骤1)包括:
原始数据的解压;
原始数据的解密;
处理数据后的协议解析;
URL和对应的用户信息提取。
其中,特别注意的是,当步骤2),URL信息定性分析定性成功,则执行步骤3),否则,不执行步骤3)。步骤2)的实现需要对现有网页的特征进行分析,建立URL分类识别模型,对URL本身内容进行信息挖掘和分类,例如:通过提取主流网址中关键字,建立URL自身内容的关键字库,从而为用户网页行为数据定性分析提供匹配库,即可实现用户URL信息定性分析。
步骤3)的实现:首先,建立网页信息中一些典型关键字的提取,建立关键字库;然后,通过用户的URL获取网页的源文件信息,针对这个关键字库中的关键字在源文件信息中出现的频度进行统计和分析,提取网页用户的行为数据定性分析。该步骤需要运用爬虫技术,获取URL对应的网页的源文件信息,建立网页信息中一些典型关键字的提取,比如新闻、购物、体育等关键字,建立关键字库,比如,网站类型字频库,根据建立的网站类型字频库,进行字频统计,依据统计结果和网页定性算法,即可进行用户URL行为数据定性分析。
输出用户行为数据规范化结果是基于URL信息定性分析和源文件关键字频度分析两者的分析情况,进行数据规范化统计、记录和输出功能。
而对步骤2中用户行为数据规范化结果数据进行数据字段间关联性分析和商业化价值信息提取可以采取人为的分析方法,将已经定性分析的用户行为数据规范化输出的结果进行人为分析并提取出规范化输出的结果数据中各个字段的联系和其中蕴藏的商业价值信息。
下面介绍一下比较完整的分析过程,如图1所示,图1是用户上网行为原始数据的整个处理流程示意图,包括用户上网行为原始数据的获取,然后需要进行一定的数据处理,并在处理之后,进行还原,便于后面分析时进行提取,当然,对这些用户行为的数据同样是需要规范化后输出。
如图2所示,图2是中间分析流程的流程示意图,对规范化后的用户上网行为数据,则可以进行中间分析的过程:
1、进行URL信息提取;
2、URL自身内容信息定性分析;
在过程2中,若过程2定性分析成功,则直接进行用户行为数据规范化记录,然后保存用户行为数据分析结果;
在过程2中,若过程2定性分析不成功,则执行过程3;
3、此为过程3,过程3为源文件关键字频度分析,若过程3定性分析成功,则先进行用户行为数据规范化记录,然后保存用户行为数据分析结果;
若过程3定性分析不成功,则直接保存用户行为数据分析结果;
4、最后,判断用户上网行为数据访问是否结束,如果结束了,则直接输出用户上网行为数据规范化结果;
如果过程4访问继续,则返回前面进行访问下一条用户行为数据,并作中间分析。
如图3所示,图3是用户上网行为规范化结果关联度分析和商业价值获取的流程示意图,根据获取的规范化数据统计结果,作如下工作:
1、进行字段间关联性分析;
2、商业价值分析和挖掘;
3、总结文档的书写。
通过上面三方面的工作,即可作出精度高又耗时少的分析结论。
实施例2
一种基于网络爬虫的用户行为数据的分析***,包括用户原始数据获取模块、URL信息提取模块、URL信息定性分析模块、源文件关键字频度分析模块、行为数据规范化输出模块、数据分析模块,其中,
所述用户原始数据获取模块用于获取用户上网行为原始数据;
所述URL信息提取模块用于提取用户上网行为原始数据中用户浏览网页的URL信息;
所述URL信息定性分析模块用于对所述URL信息提取模块提取的URL信息进行定性分析;
所述源文件关键字频度分析模块用于通过网络爬虫对所述URL信息提取模块提取的URL信息进行定性分析;
所述行为数据规范化输出模块用于所述URL信息定性分析模块和所述源文件关键字频度分析模块定性分析后进行用户行为数据规范化结果输出;
所述数据分析模块用于对所述行为数据规范化输出模块输出的结果进行数据字段间关联性分析和商业化价值信息提取。
该***的总体功能可以分为六个功能模块,分别是用户原始数据获取、URL信息提取、URL信息定性分析、源文件关键字频度分析、行为数据规范化输出和数据分析。其中用户原始数据获取和URL信息的提取是企业现有的技术手段,本申请的特殊设计在于URL信息定位分析、源文件关键字频度分析、行为数据规范化输出和数据分析。
本***的设计是可以适用于实施例1的分析方法的,其中,各个模块具体实现的功能具体可如下设置:
所述用户原始数据获取模块,对用户在使用企业路由器等设备上的用户原始数据进行自动获取;
所述URL信息提取模块,通过原始数据的解压、解密和清洗等操作提取用户浏览网页的URL信息;
所述URL信息定性分析模块,通过提取主流网址中关键字,建立URL自身内容的关键字库,从而为用户网页行为数据定性分析提供匹配库,实现用户URL信息定性分析;
所述源文件关键字频度分析模块,通过爬虫技术,获取URL对应的网页的源文件信息,然后根据建立的网站类型字频库,进行字频统计,依据统计结果和网页定性算法,进行用户URL行为数据定性分析;
所述行为数据规范化输出模块,通过对URL信息的统计和分析,提取出里面的关键的信息,例如用户访问的网页类型以及对应的频度,用户访问的商品类型和访问频度等信息;
所述数据分析模块,通过对数据规范化输出的记过报表,分析用户行为数据,进行用户行为数据关联性分析。
所述URL信息提取模块包括原始数据解压子模块、原始数据解密子模块、处理数据后的协议解析子模块和URL和对应的用户信息提取模块,其中,所述原始数据解压子模块用于对用户上网行为原始数据的解压;
所述原始数据解密子模块用于对用户上网行为原始数据的解密;
所述处理数据后的协议解析子模块用于对原始数据解压子模块和原始数据解密子模块处理后的数据进行协议解析;
所述URL和对应的用户信息提取模块用于所述处理数据后的协议解析子模块解析后的数据进行URL和对应的用户信息的数据提取。
数据分析模块定义为人为分析模块。
整个***具有如下的功能和优势:
1)利用现有的技术和硬件环境,对用户的上网行为原始数据进行搜集和存储。
2)搭建Hadoop集群架构,对获取的数据进行存储,使用Spark大数据处理思想对大量数据采用适当的算法进行分析操作。
3)可使用协议解析软件,对获取的数据进行层层的解压、解密和协议解析等操作,获取用户行为数据的URL信息和其他相关信息。
4)可使用网络爬虫技术和URL信息分析软件,自动实现对用户的行为数据进行分类、定位和分析等操作并输出规范化用户行为数据分析结果。
5)最终通过该规范化结果数据进行数据字段间关联性分析和商业化价值信息提取。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种基于网络爬虫的用户行为数据的分析方法,其特征在于,包括如下步骤:
步骤1,用户上网行为原始数据获取;
步骤2,通过网络爬虫对步骤1中获取的数据进行中间分析并输出用户行为数据规范化结果;
步骤3,对步骤2中用户行为数据规范化结果数据进行数据字段间关联性分析和商业化价值信息提取。
2.根据权利要求1所述的一种基于网络爬虫的用户行为数据的分析方法,其特征在于:步骤1中的数据获取包括提取用户在硬件设备上的传输数据的复制和备份存储。
3.根据权利要求1所述的一种基于网络爬虫的用户行为数据的分析方法,其特征在于:步骤2中的中间分析包括:
步骤1),URL信息提取;
步骤2),URL信息定性分析;
步骤3),源文件关键字频度分析。
4.根据权利要求3所述的一种基于网络爬虫的用户行为数据的分析方法,其特征在于:步骤1)包括:
原始数据的解压;
原始数据的解密;
处理数据后的协议解析;
URL和对应的用户信息提取。
5.根据权利要求4所述的一种基于网络爬虫的用户行为数据的分析方法,其特征在于:步骤2)的实现需要对现有网页的特征进行分析,建立URL分类识别模型,对URL本身内容进行信息挖掘和分类。
6.根据权利要求5所述的一种基于网络爬虫的用户行为数据的数据分析方法,其特征在于:当步骤2),URL信息定性分析定性成功,则执行步骤3),否则,不执行步骤3)。
7.根据权利要求5所述的一种基于网络爬虫的用户行为数据的分析方法,其特征在于:步骤3)的实现:首先,建立网页信息中一些典型关键字的提取,建立关键字库;然后,通过用户的URL获取网页的源文件信息,针对这个关键字库中的关键字在源文件信息中出现的频度进行统计和分析,提取网页用户的行为数据定性分析。
8.一种基于网络爬虫的用户行为数据的分析***,其特征在于:包括用户原始数据获取模块、URL信息提取模块、URL信息定性分析模块、源文件关键字频度分析模块、行为数据规范化输出模块、数据分析模块,其中:
所述用户原始数据获取模块用于获取用户上网行为原始数据;
所述URL信息提取模块用于提取用户上网行为原始数据中用户浏览网页的URL信息;
所述URL信息定性分析模块用于对所述URL信息提取模块提取的URL信息进行定性分析;
所述源文件关键字频度分析模块用于通过网络爬虫对所述URL信息提取模块提取的URL信息进行定性分析;
所述行为数据规范化输出模块用于所述URL信息定性分析模块和所述源文件关键字频度分析模块定性分析后进行用户行为数据规范化结果输出;
所述数据分析模块用于对所述行为数据规范化输出模块输出的结果进行数据字段间关联性分析和商业化价值信息提取。
9.根据权利要求8所述的一种基于网络爬虫的用户行为数据的分析***,其特征在于:所述URL信息提取模块包括原始数据解压子模块、原始数据解密子模块、处理数据后的协议解析子模块和URL和对应的用户信息提取模块,其中:
所述原始数据解压子模块用于对用户上网行为原始数据的解压;
所述原始数据解密子模块用于对用户上网行为原始数据的解密;
所述处理数据后的协议解析子模块用于对原始数据解压子模块和原始数据解密子模块处理后的数据进行协议解析;
所述URL和对应的用户信息提取模块用于所述处理数据后的协议解析子模块解析后的数据进行URL和对应的用户信息的数据提取。
10.根据权利要求8所述的一种基于网络爬虫的用户行为数据的分析***,其特征在于:数据分析模块定义为人为分析模块。
CN201710017268.XA 2017-01-11 2017-01-11 一种基于网络爬虫的用户行为数据的分析方法及*** Pending CN106844588A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710017268.XA CN106844588A (zh) 2017-01-11 2017-01-11 一种基于网络爬虫的用户行为数据的分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710017268.XA CN106844588A (zh) 2017-01-11 2017-01-11 一种基于网络爬虫的用户行为数据的分析方法及***

Publications (1)

Publication Number Publication Date
CN106844588A true CN106844588A (zh) 2017-06-13

Family

ID=59118551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710017268.XA Pending CN106844588A (zh) 2017-01-11 2017-01-11 一种基于网络爬虫的用户行为数据的分析方法及***

Country Status (1)

Country Link
CN (1) CN106844588A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536804A (zh) * 2018-03-30 2018-09-14 掌阅科技股份有限公司 基于电子书的信息推送方法、电子设备及计算机存储介质
CN108540314A (zh) * 2018-03-22 2018-09-14 微梦创科网络科技(中国)有限公司 用户行为的还原方法及***
CN109361564A (zh) * 2018-11-01 2019-02-19 清华大学 基于主被动数据融合的互联网数据采集方法及装置
CN109416700A (zh) * 2017-09-30 2019-03-01 深圳市得道健康管理有限公司 一种互联网行为的分类训练方法以及网络终端
WO2019071966A1 (zh) * 2017-10-13 2019-04-18 平安科技(深圳)有限公司 基于爬虫数据的用户行为分析方法、应用服务器及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855248A (zh) * 2011-06-29 2013-01-02 ***通信集团广西有限公司 一种用户特征信息的确定方法、装置及***
CN102946319A (zh) * 2012-09-29 2013-02-27 焦点科技股份有限公司 网络用户行为信息分析***及其分析方法
CN103646119A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 用户行为记录的生成方法及装置
CN104750704A (zh) * 2013-12-26 2015-07-01 ***通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN105786965A (zh) * 2016-01-27 2016-07-20 久远谦长(北京)技术服务有限公司 一种基于url的用户行为分析方法和装置
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855248A (zh) * 2011-06-29 2013-01-02 ***通信集团广西有限公司 一种用户特征信息的确定方法、装置及***
CN102946319A (zh) * 2012-09-29 2013-02-27 焦点科技股份有限公司 网络用户行为信息分析***及其分析方法
CN103646119A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 用户行为记录的生成方法及装置
CN104750704A (zh) * 2013-12-26 2015-07-01 ***通信集团河南有限公司 一种网页url地址分类识别方法及装置
CN105786965A (zh) * 2016-01-27 2016-07-20 久远谦长(北京)技术服务有限公司 一种基于url的用户行为分析方法和装置
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416700A (zh) * 2017-09-30 2019-03-01 深圳市得道健康管理有限公司 一种互联网行为的分类训练方法以及网络终端
WO2019071966A1 (zh) * 2017-10-13 2019-04-18 平安科技(深圳)有限公司 基于爬虫数据的用户行为分析方法、应用服务器及可读存储介质
CN108540314A (zh) * 2018-03-22 2018-09-14 微梦创科网络科技(中国)有限公司 用户行为的还原方法及***
CN108536804A (zh) * 2018-03-30 2018-09-14 掌阅科技股份有限公司 基于电子书的信息推送方法、电子设备及计算机存储介质
CN108536804B (zh) * 2018-03-30 2021-06-29 掌阅科技股份有限公司 基于电子书的信息推送方法、电子设备及计算机存储介质
CN109361564A (zh) * 2018-11-01 2019-02-19 清华大学 基于主被动数据融合的互联网数据采集方法及装置

Similar Documents

Publication Publication Date Title
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
Tanwar et al. Unravelling unstructured data: A wealth of information in big data
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及***
CN102915335B (zh) 基于用户操作记录和资源内容的信息关联方法
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN101751458A (zh) 一种网络舆情监控***及方法
Jayaweera et al. Crime analytics: Analysis of crimes through newspaper articles
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN102542061B (zh) 一种产品的智能分类方法
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及***
CN103605738A (zh) 网页访问数据统计方法及装置
CN102473190A (zh) 为网页分配关键词
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN111447575A (zh) 短信息推送方法、装置、设备及存储介质
Bhardwaj et al. Web scraping using summarization and named entity recognition (ner)
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
Arora et al. Big data: A review of analytics methods & techniques
CN111882368B (zh) 一种在线广告dpi加密埋点及透传跟踪的方法
Cagliero et al. Twitter data analysis by means of strong flipping generalized itemsets
Milić et al. Framework for open data mining in e-government
CN116049243A (zh) 企业知识产权大数据情报分析***、方法及存储介质
CN111581533B (zh) 目标对象的状态识别方法、装置、电子设备和存储介质
Jung Discovering social bursts by using link analytics on large-scale social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201102

Address after: No. 2-3167, zone a, Nonggang City, No. 2388, Donghuan Avenue, Hongjia street, Jiaojiang District, Taizhou City, Zhejiang Province

Applicant after: Taizhou Jiji Intellectual Property Operation Co.,Ltd.

Address before: 201616 Shanghai city Songjiang District Sixian Road No. 3666

Applicant before: Phicomm (Shanghai) Co.,Ltd.