CN109583472A - 一种web日志用户识别方法和*** - Google Patents

一种web日志用户识别方法和*** Download PDF

Info

Publication number
CN109583472A
CN109583472A CN201811276191.9A CN201811276191A CN109583472A CN 109583472 A CN109583472 A CN 109583472A CN 201811276191 A CN201811276191 A CN 201811276191A CN 109583472 A CN109583472 A CN 109583472A
Authority
CN
China
Prior art keywords
user
log
behavior
user action
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811276191.9A
Other languages
English (en)
Inventor
张梦菲
方金云
肖茁建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811276191.9A priority Critical patent/CN109583472A/zh
Publication of CN109583472A publication Critical patent/CN109583472A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种web日志用户识别方法和***。该方法包括:从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。本发明的方法和***能够根据web日志准确有效地进行用户识别。

Description

一种web日志用户识别方法和***
技术领域
本发明涉及信息技术领域,尤其涉及一种web日志用户识别方法和***。
背景技术
用户识别技术作为Web日志挖掘的基础,是从大量无序的数据中分析出匿名用户的独立行为轨迹和特征,并最终识别出唯一的用户个体。在现有技术中,通常利用启发式方法,根据用户的IP、cookie标识和user-agent等信息来追踪用户,而由于用户在登陆internet时,互联网服务提供商往往会随机分配IP地址给用户,使得一个用户拥有很多IP地址,因此这种方法面临着以下问题:1)、“多用户问题”和“单用户问题”,“多用户问题”是指同一个用户在不同的时间内通过在地址栏输入URL或从收藏夹中进入网页会被识别为多个用户,“单用户问题”是指多个用户共享一个IP甚至使用同种设备和浏览器可能会被识别为一个用户。2)、效率问题,对于web用户访问量在百万级别以上的情况,目前的用户识别算法的效率不高。
因此,需要对现有技术进行改进,以提供一种处理效率高并且识别准确率高的用户识别方法和***。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种web日志用户识别方法和***。
根据本发明的第一方面,提供了一种web日志用户识别方法,该方法包括以下步骤:
步骤1:从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;
步骤2:从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;
步骤3:根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。
在一个实施例中,所述多个行为特征包括访问类型、访问网站版块、访问商铺行为、访问商品行为、搜索行为中的至少一项。
在一个实施例中,步骤3进一步包括:
步骤31:基于从所述用户行为日志中提取的所述日志关键字段识别是否是同一个用户;
步骤32:对于没有识别出用户的用户行为日志,进一步基于所述用户行为动机相似度来进行识别。
在一个实施例中,所述日志关键字段还至少包括上一个访问页面的统一资源定位符referrer URL、用户标识、user-agent、cookie标识和session标识,在步骤31中,将满足以下条件中任一项的两条用户行为日志判定为同一个用户:
该两条用户行为日志的用户标识不是空字段并且相同;
该两条用户行为两条日志的cookie标识不是空字段并且相同;
该两条用户行为日志的session标识不是空字段并且相同;或者
该两条用户行为日志的统一资源定位符URL和上一个访问页面的统一资源定位符referrer URL符合网站的拓扑结构。
在一个实施例中,对于两条用户行为日志,步骤32包括:
步骤321:如果从该两条用户行为日志中提取的多个行为特征包含访问商铺行为,则提取主营业务描述,如果包含访问商品行为,则提取商品标题,如果包含搜索行为,则提取搜索关键词;
步骤322:对于从该两条用户行为日志中提取的主营业务描述、商品标题或搜索关键词进行用户行为动机相似度计算,如果相似度差值小于阈值,则判定该两条用户行为日志为同一个用户。
在一个实施例中,步骤32还包括:
步骤323,如果从该两条用户行为日志中提取的多个行为特征包括访问类型和访问网站版块,则将该两条用户行为日志的访问类型和访问网站版块进行联合对比,如果两者相同则判定该两条用户行为日志为同一个用户。
在一个实施例中,在步骤322中,将利用word2vec计算的第一条用户行为日志的主营业务描述或商品标题或搜索关键词中任一项的词嵌入向量和第二条用户行为日志的所述主营业务描述或商品标题或搜索关键词中任一项的词嵌入向量的余弦相似度作为所述用户行为动机相似度,如果所述用户行为动机相似度小于阈值,则判定是同一个用户。
根据本发明的第二方面,提供了一种用户识别***。该***包括:
用户行为日志采集模块:用于从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;
用户行为特征提取模块:用于从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;
用户识别模块:用于根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户
在一个实施例中,该***还包括:
用户行为日志预处理模块:用于对所采集的用户行为日志进行过滤或格式化;
桶划分模块:用于按照所述日志关键字段将所用户行为日志划分为大小不同的数据桶;
标识生成模块:用户对识别出的用户生成用户标识。
在一个实施例中,所述***为基于spark平台的***。
与现有技术相比,本发明的优点在于:通过从web日志中提取用户的行为特征来表示用户行为动机,利用用户行为动机的相似度来识别用户,提高了用户识别的准确性,此外,基于利用Spark平台来实现本发明的方法提高了数据处理效率,能够更好的满足数据处理的实时性要求。
附图说明
以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的范围,其中:
图1示出了根据本发明一个实施例的web日志用户识别方法的流程图;
图2示出了根据本发明一个实施例的web日志用户识别***的示意图。
具体实施方式
为了使本发明的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供了一种web日志用户识别方法,该方法以web服务器上的日志文件作为分析的依据,根据用户行为动机的相似性来识别用户,具体地,参见图1所述,该方法包括以下步骤:
步骤S110,对用户行为日志进行预处理以得到日志关键字段。
用户行为日志可从记录用户行为的web服务器上采集,其中包含用户的行为轨迹,例如,IP地址,上网时刻、目的网站IP、URL、流量、连接方式等。
通过对日志进行预处理获得需要的日志关键字段,预处理过程包括过滤日志中的爬虫以删除无关网页信息、过滤异常数据以避免影响用户识别的准确率、对过滤之后的日志进行格式化以便于提取所需的字段等。
在一个实施例中,从web日志中提取的日志关键字段包括用户IP地址、统一资源定位符URL、上一个访问页面的统一资源定位符(referer URL)、日志访问时间、用户标识、user-agent(用户代理)、cookie标识、session标识等。
需要说明的是,对于每条日志,用户标识、cookie标识、session标识等可能是空字段,通过后面的描述可以看出,本发明的目标之一即是识别出标识信息为空的日志,并为其填充唯一的标志符。
步骤S120,基于日志关键字段获得用户行为动机。
在一个实施例中,基于日志关键字段中的URL构建出五个行为特征来表示用户行为动机,该五个特征分别是访问类型、访问网站版块、访问商铺行为、访问商品行为、搜索行为。
根据本发明的一个实施例,通过分析URL中以“/”为分隔符的各个组成部分能够得到访问的类型和访问网站板块。访问类型可以是网站外面的页面、网站首页、搜索页面、网站版块、购物车页面、订单页面、商铺详情页面、商品详情页面等类型;网站版块可以是网站的不同版块,例如论坛、商品版块、地图、众筹、采购、转租等版块。进一步地,如果URL中包括访问商铺行为,则提取商铺ID及其对应的主营业务描述;如果URL中包括访问商品行为,则提取商品ID及其对应的商品标题,以及商品所在商铺的商铺主营业务描述;如果URL中包括搜索行为,则反解码URL中的搜索字符串,得到搜索关键词。
例如,一条日志的URL是“/product/detail2.htm?productId=928685056”,通过分析该URL可知,用户访问类型是商品详情页面,访问网站的版块是商品版块,访问商品ID是928685056,该商品标题是“批发眼镜促销儿童款太阳镜墨镜椭圆形儿童镜”,访问商铺ID是056034,商铺主营业务描述是“批发太阳镜,平光镜眼镜框、偏光镜、儿童眼镜”;又如,另一条日志的URL是“/search/s.html?q=%e7%ba%a2%e9%85%92”,访问类型表示用户的搜索行为,访问网站的版块是搜索版块,提取出的搜索关键词是“太阳镜”。
在该实施例中,从日志关键字段URL所提取的五个特征反映了用户的行为动机,例如,用户对浏览、搜索等行为的兴趣等。通过这种方式能够获得每条日志所反映的用户行为动机。
步骤130,通过计算用户行为动机相似度来识别用户。
在此步骤中,通过计算不同日志的用户行为动机相似度来识别用户。
在一个实施例中,用户识别过程包括基于日志关键字段的初步匹配识别过程和基于用户行为动机相似度的二次匹配识别过程。
具体地,在初步匹配识别过程,将满足以下任一条件的两条日志判定为属于同一用户:
两条日志的用户标识不是空字段并且相同;
两条日志的cookie标识不是空字段并且相同;
两条日志的session标识不是空字段并且相同;
两条日志的URL和referer URL符合网站的拓扑结构,即一条日志的URL能从另一条日志的URL到达。
在经过初步匹配识别之后,将没有识别出用户的日志放入候选池中,以进一步基于用户行为动机相似度来识别用户,例如,根据提取的五个行为特征计算用户行为动机相似度,将相似度小于设定阈值的日志判定为同一个用户。
根据本发明的一个实施例,用户行为动机相似度计算是对一定时间段内提取的URL特征进行计算,以所提取的上述五个特征为例,计算过程包括:判定如果两条URL均包含访问商铺行为、访问商品行为、搜索行为中的任意一种,则对提取的主营业务描述或商品标题或搜索关键词进行文本相似度计算,得到相似度值,将相似度值小于阈值的两条日志判定为同一个用户;否则,对上述五个特征中的访问类型和访问网站版块进行联合对比,如果访问类型和访问网站板块两者相同,则两条日志为同一个用户,否则为不同用户。
在一个实施例中,上述的文本相似度计算可采用word2vec算法,例如,对中文***的分词数据和已经建立的小商品词库合并训练词向量,对提取的所述主营业务描述或商品标题或搜索关键词进行分词,并去除停用词,得到URL的词嵌入,并计算其余弦相似度。例如,对于上述URL为"/product/detail2.htm?productId=928685056”的日志和URL为“/search/s.html?q=%e7%ba%a2%e9%85%92”的日志,word2vec算法分别计算第一条URL对应的商品标题分词后的词嵌入向量和第二条URL对应的搜索关键词对应的词嵌入向量的余弦相似度,如果二者的相似度小于阈值,则反映了相同的用户动机,表示是同一个用户。
步骤140,生成用户标识。
在进行用户识别之后,还包括为缺失的cookie标识生成新的cookie标识,并按照cookie标识生成用户标识。
在一个实施例中,对于判定为相同的用户的两条日志,生成新的cookie标识的规则是:如果两条日志的cookie标识都存在则直接忽略,如果只有一条日志的cookie标识缺失,则用另一条日志的cookie标识赋给该条日志,否则按照日志的IP、user-agent、访问时间三个关键字段来生成独特的密钥赋给两条缺失cookie标识的日志。最后,为相同的用户生成相同的用户标识,为不同的用户根据IP、user-agent、访问时间三个关键字段来生成密钥为用户生成独特的用户标识。关于用户标识的具体生成方法属于现有技术,在此不再赘述。
根据本发明的第二方面,提供了一种用户识别***,该***基于spark平台实现本发明的用户识别方法。Spark是一种可扩展的数据分析平台,其使用弹性分布式数据集RDD,提供了分布式内存并行计算引擎,支持快速的迭代计算,Spark平台的计算通过操作RDD(弹性分布式数据集)来进行,对RDD的操作包括Map、mapPartition、flatMap、join、Repartition、Filter、Union、GroupBy等算子。
参见图2所示的用户识别***200,该***包括用户行为日志采集模块210、用户行为日志预处理模块220、用户行为特征提取模块230、桶划分模块240和用户识别模块250以及标识生成模块260。
用户行为日志采集模块210,用于从web日志服务器上采集用户行为日志。例如,可将日志存储到计算集群的HDFS(分布式文件***)上,并通过Spark读取用户行为日志到内存中形成RDD。
用户行为日志预处理模块220,用于对用户行为日志进行预处理,得到规格化的日志关键字段。例如,使用Spark的filter算子来过滤用户行为日志,以过滤掉爬虫和异常数据,以进一步得到日志关键字段,包括IP、统一资源定位符URL、上一个访问页面的统一资源定位符(referer URL)、日志访问时间、用户标识、user-agent、cookie标识、session标识等。
用户行为特征提取模块230,用于从日志关键字段中提取反映用户行为的特征。例如,从日志关键字段中的URL构建出五个特征来表示用户行为动机,该五个特征分别是访问类型、访问网站版块、访问商铺行为、访问商品行为、搜索行为。此外,用户行为特征提取模块还用于,如果URL中包括访问商铺行为,则提取出商铺ID及其对应的主营业务描述;如果URL中包括访问商品行为,则提取出商品ID及其对应的商品标题以及商品所在商铺的商铺主营业务描述;如果URL中包括搜索行为,则反解码URL中的搜索字符串,得到搜索关键词。
桶划分模块240,用于将用户行为日志按照规格化的日志关键字段划分成大小不同的数据桶。
在一个实施例中,所述桶划分模块利用分布式技术以所述日志关键字段中的IP和user-agent拼接的字符串为key值,以用户行为日志为value,将用户行为日志划分为大小不同的数据桶。例如,使用Spark的mapPartitionsToPair算子将用户行为日志转换为key为IP和user-agent字符串拼接的pairRDD结构作为大小不同的数据桶。
用户识别模块250,对于桶划分模块240得到的每个数据桶根据本发明的用户识别方法进行识别。
例如,使用Spark中的groupBykey算子和mapValues算子对所述桶划分模块得到的每个数据桶进行用户识别。用户识别的具体过程以及文本相似度的计算可参见上文关于用户识别方法的描述,其中,可采用SparkML来计算文本相似度。
标识生成模块260,用于对识别后的每条日志生成用户标识,标识生成过程可参见上文。
综上所述,本发明采集Web用户行为日志,过滤掉爬虫和干扰记录,将日志格式化为规范的关键日志字段,并提取出每条日志的多个URL特征表示用户的行为动机,利用分布式技术将用户行为日志按照IP和user-agent划分成大小不同的数据桶,再按照用户标识、cookie标识、session标识以及URL和referer URL进行初步的用户匹配,然后通过计算用户行为动机相似度来判定相同的用户,最后,为相同的用户生成相同的用户标识,为不同的用户根据IP、user-agent和访问时间三者生成的密钥为用户生成独特的用户标识。利用本发明提供的方法和***,能够有效解决cookie缺失或来源URL缺失的情况下传统算法会错误识别为多个用户的问题以及多个用户共享一个IP甚至相同设备时传统算法无法有效区分的问题,从而提高用户识别的准确率,此外本发明采用基于Spark的分布式内存技术能够快速识别用户,具有较高的效率。
以上实施例仅表示本发明的优选实施例,并不用于限制本发明的专利范围,该技术领域人员可以对各个模块进行等效拆分或合并变换,凡在本发明的思路下,作出的等效变更,均在本发明的专利保护范围内。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (12)

1.一种web日志用户识别方法,包括以下步骤:
步骤1:从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;
步骤2:从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;
步骤3:根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。
2.根据权利要求1所述的方法,其中,所述多个行为特征包括访问类型、访问网站版块、访问商铺行为、访问商品行为、搜索行为中的至少一项。
3.根据权利要求1所述的方法,其中,步骤3进一步包括:
步骤31:基于从所述用户行为日志中提取的所述日志关键字段识别是否是同一个用户;
步骤32:对于没有识别出用户的用户行为日志,进一步基于所述用户行为动机相似度来进行识别。
4.根据权利要求3所述的方法,其中,所述日志关键字段还至少包括上一个访问页面的统一资源定位符referrer URL、用户标识、user-agent、cookie标识和session标识,在步骤31中,将满足以下条件中任一项的两条用户行为日志判定为同一个用户:
该两条用户行为日志的用户标识不是空字段并且相同;
该两条用户行为两条日志的cookie标识不是空字段并且相同;
该两条用户行为日志的session标识不是空字段并且相同;或者
该两条用户行为日志的统一资源定位符URL和上一个访问页面的统一资源定位符referrer URL符合网站的拓扑结构。
5.根据权利要求3所述的方法,其中,对于两条用户行为日志,步骤32包括:
步骤321:如果从该两条用户行为日志中提取的多个行为特征包含访问商铺行为,则提取主营业务描述,如果包含访问商品行为,则提取商品标题,如果包含搜索行为,则提取搜索关键词;
步骤322:对于从该两条用户行为日志中提取的主营业务描述、商品标题或搜索关键词进行用户行为动机相似度计算,如果相似度差值小于阈值,则判定该两条用户行为日志为同一个用户。
6.根据权利要求5所述的方法,其中,步骤32还包括:
步骤323,如果从该两条用户行为日志中提取的多个行为特征包括访问类型和访问网站版块,则将该两条用户行为日志的访问类型和访问网站版块进行联合对比,如果两者相同则判定该两条用户行为日志为同一个用户。
7.根据权利要求6所述的方法,其中,在步骤322中,将利用word2vec计算的第一条用户行为日志的主营业务描述或商品标题或搜索关键词中任一项的词嵌入向量和第二条用户行为日志的所述主营业务描述或商品标题或搜索关键词中任一项的词嵌入向量的余弦相似度作为所述用户行为动机相似度,如果所述用户行为动机相似度小于阈值,则判定是同一个用户。
8.一种用户识别***,包括:
用户行为日志采集模块:用于从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;
用户行为特征提取模块:用于从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;
用户识别模块:用于根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。
9.根据权利要求8所述的***,其特征在于,还包括:
用户行为日志预处理模块:用于对所采集的用户行为日志进行过滤或格式化;
桶划分模块:用于按照所述日志关键字段将所用户行为日志划分为大小不同的数据桶;
标识生成模块:用户对识别出的用户生成用户标识。
10.根据权利要求8或9所述的***,其特征在于,所述***为基于spark平台的***。
11.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至7中任一项所述方法的步骤。
12.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法的步骤。
CN201811276191.9A 2018-10-30 2018-10-30 一种web日志用户识别方法和*** Pending CN109583472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811276191.9A CN109583472A (zh) 2018-10-30 2018-10-30 一种web日志用户识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811276191.9A CN109583472A (zh) 2018-10-30 2018-10-30 一种web日志用户识别方法和***

Publications (1)

Publication Number Publication Date
CN109583472A true CN109583472A (zh) 2019-04-05

Family

ID=65921317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811276191.9A Pending CN109583472A (zh) 2018-10-30 2018-10-30 一种web日志用户识别方法和***

Country Status (1)

Country Link
CN (1) CN109583472A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059141A (zh) * 2019-04-22 2019-07-26 珠海网博信息科技股份有限公司 一种通过日志轨迹对不同采集特征进行关系分析的方法
CN110096499A (zh) * 2019-04-10 2019-08-06 华南理工大学 一种基于行为时间序列大数据的用户对象识别方法及***
CN110602038A (zh) * 2019-08-01 2019-12-20 中国科学院信息工程研究所 一种基于规则的异常ua检测和分析的方法及***
WO2021012483A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 信息识别方法、装置、计算机设备和存储介质
CN113556368A (zh) * 2020-04-23 2021-10-26 北京达佳互联信息技术有限公司 用户识别方法、装置、服务器及存储介质
CN117708863A (zh) * 2024-02-05 2024-03-15 四川集鲜数智供应链科技有限公司 一种基于物联网的设备数据加密处理方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1804844A (zh) * 2006-01-10 2006-07-19 西安交通大学 一种基于Web页面元数据的用户访问行为形式化描述方法
CN103051637A (zh) * 2012-12-31 2013-04-17 北京亿赞普网络技术有限公司 用户识别方法与装置
US20130346447A1 (en) * 2012-06-21 2013-12-26 Xerox Corporation Systems and methods for behavioral pattern mining
CN104217030A (zh) * 2014-09-28 2014-12-17 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN104731914A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种基于行为相似度的用户异常行为检测方法
CN105574200A (zh) * 2015-12-29 2016-05-11 成都陌云科技有限公司 基于历史记录的用户兴趣提取方法
CN105786965A (zh) * 2016-01-27 2016-07-20 久远谦长(北京)技术服务有限公司 一种基于url的用户行为分析方法和装置
US9998598B1 (en) * 2017-02-02 2018-06-12 Conduent Business Services, Llc Methods and systems for automatically recognizing actions in a call center environment using screen capture technology
CN108200101A (zh) * 2018-03-13 2018-06-22 河南工学院 一种计算机***及其用户的身份识别方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1804844A (zh) * 2006-01-10 2006-07-19 西安交通大学 一种基于Web页面元数据的用户访问行为形式化描述方法
US20130346447A1 (en) * 2012-06-21 2013-12-26 Xerox Corporation Systems and methods for behavioral pattern mining
CN103051637A (zh) * 2012-12-31 2013-04-17 北京亿赞普网络技术有限公司 用户识别方法与装置
CN104217030A (zh) * 2014-09-28 2014-12-17 北京奇虎科技有限公司 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN104731914A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种基于行为相似度的用户异常行为检测方法
CN105574200A (zh) * 2015-12-29 2016-05-11 成都陌云科技有限公司 基于历史记录的用户兴趣提取方法
CN105786965A (zh) * 2016-01-27 2016-07-20 久远谦长(北京)技术服务有限公司 一种基于url的用户行为分析方法和装置
US9998598B1 (en) * 2017-02-02 2018-06-12 Conduent Business Services, Llc Methods and systems for automatically recognizing actions in a call center environment using screen capture technology
CN108200101A (zh) * 2018-03-13 2018-06-22 河南工学院 一种计算机***及其用户的身份识别方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
周三多: "基于大数据平台的搜索日志分析技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
周松松等: "基于URL相似度的会话识别方法", 《计算机***应用》 *
汤伟等: "基于行为分析的web日志用户识别算法", 《软件产业与工程》 *
肖慧等: "Web日志挖掘中的用户识别算法", 《计算机***应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096499A (zh) * 2019-04-10 2019-08-06 华南理工大学 一种基于行为时间序列大数据的用户对象识别方法及***
CN110096499B (zh) * 2019-04-10 2021-08-10 华南理工大学 一种基于行为时间序列大数据的用户对象识别方法及***
CN110059141A (zh) * 2019-04-22 2019-07-26 珠海网博信息科技股份有限公司 一种通过日志轨迹对不同采集特征进行关系分析的方法
WO2021012483A1 (zh) * 2019-07-23 2021-01-28 平安科技(深圳)有限公司 信息识别方法、装置、计算机设备和存储介质
CN110602038A (zh) * 2019-08-01 2019-12-20 中国科学院信息工程研究所 一种基于规则的异常ua检测和分析的方法及***
CN113556368A (zh) * 2020-04-23 2021-10-26 北京达佳互联信息技术有限公司 用户识别方法、装置、服务器及存储介质
CN117708863A (zh) * 2024-02-05 2024-03-15 四川集鲜数智供应链科技有限公司 一种基于物联网的设备数据加密处理方法
CN117708863B (zh) * 2024-02-05 2024-04-19 四川集鲜数智供应链科技有限公司 一种基于物联网的设备数据加密处理方法

Similar Documents

Publication Publication Date Title
CN109583472A (zh) 一种web日志用户识别方法和***
US11463476B2 (en) Character string classification method and system, and character string classification device
US8190621B2 (en) Method, system, and computer readable recording medium for filtering obscene contents
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN105183781B (zh) 信息推荐方法及装置
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与***
KR101029160B1 (ko) 이미지 데이터베이스에 신규 이미지 및 이에 대한 정보를 추가하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
WO2008106668A1 (en) User query mining for advertising matching
WO2017084205A1 (zh) 一种网络用户身份认证方法及***
CN105574200A (zh) 基于历史记录的用户兴趣提取方法
Katragadda et al. Framework for real-time event detection using multiple social media sources
CN103530429A (zh) 一种网页正文抽取的方法
CN110825941A (zh) 一种内容管理***识别方法、装置和存储介质
CN108292408A (zh) 检测web跟踪服务的方法
KR102091633B1 (ko) 연관법령 제공 방법
CN107527289B (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及***
Chen et al. Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors
CN110795613A (zh) 商品搜索方法、装置、***及电子设备
CN105404697A (zh) 社交网站交互行为收集检测方法
CN103595747A (zh) 用户信息推荐方法和***
CN105512334A (zh) 基于搜索词的数据挖掘方法
CN113065329A (zh) 数据的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination