CN111581512B - 一种网页访客数量统计方法及装置 - Google Patents

一种网页访客数量统计方法及装置 Download PDF

Info

Publication number
CN111581512B
CN111581512B CN202010383637.9A CN202010383637A CN111581512B CN 111581512 B CN111581512 B CN 111581512B CN 202010383637 A CN202010383637 A CN 202010383637A CN 111581512 B CN111581512 B CN 111581512B
Authority
CN
China
Prior art keywords
bloom filter
array
target
new
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010383637.9A
Other languages
English (en)
Other versions
CN111581512A (zh
Inventor
孙颐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010383637.9A priority Critical patent/CN111581512B/zh
Publication of CN111581512A publication Critical patent/CN111581512A/zh
Application granted granted Critical
Publication of CN111581512B publication Critical patent/CN111581512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网页访客数量统计方法及装置。该网页访客数量统计方法包括如下步骤:实时获取针对目标网页的用户操作行为;从记录数据中提取出用户唯一身份标识数据;将用户唯一身份标识数据中的前N个比特位点与已有的M个布隆过滤器一级数组标识进行匹配,若匹配成功,则遍历目标布隆过滤器一级数组中的所有布隆过滤器,并将用户唯一身份标识数据中的所有比特位点与目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,若匹配成功,则判定用户唯一身份标识数据已存在对应的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将用户唯一身份标识数据映射至一个新布隆过滤器中。

Description

一种网页访客数量统计方法及装置
技术领域
本发明涉及金融科技技术领域,尤其涉及一种网页访客数量统计方法及装置。
背景技术
金融科技涉及的技术具有更新迭代快、跨界、混业等特点,是大数据、人工智能、区块链技术等前沿颠覆性科技与传统金融业务与场景的叠加融合。人工智能金融主要借用人工智能技术处理金融领域的问题,包括股票价格预测、评估消费者行为和支付意愿、信用评分、智能投顾与聊天机器人、保险业的承保与理赔、风险管理与压力测试、金融监管与识别监测等。
目前,人工智能金融领域中,通常会在网页上展示不同类型的金融产品,而网页的访客数量也在一定程度上反应了用户的兴趣点以及产品价值等,而访客数量则涉及到网页的访客数量统计技术。
目前,网页的访客数量统计技术为,抽取网页的日志数据并解析,加载一个布隆过滤器,通过判断每条日志数据是否映射为布隆过滤器的比特位点,来判断该数据是否已经出现过,从而对网页访客数量进行统计。然而,当数据量很大时,也需要很大的布隆过滤器来对访客数量进行统计,从而造成内存占用很大。因此,现有技术中,对访客数量进行统计时,布隆过滤器错误率较高,是一个亟待解决的问题。
发明内容
本发明的一个目的是要提高网页访客数量统计速率。
本发明的一个进一步的目的是解决现有技术中在对网页访客数量进行统计时,存在着布隆过滤器的错误率较高的问题。
特别地,本发明提供了一种网页访客数量统计方法,包括如下步骤:
实时获取针对目标网页的用户操作行为,所述用户操作行为包括用户点击所述目标网页的包含用户唯一身份标识数据的记录数据,所述用户唯一身份标识数据包含多个比特位点;
从所述记录数据中提取出所述用户唯一身份标识数据;
将所述用户唯一身份标识数据中的前N个比特位点与已有的M个布隆过滤器一级数组标识进行匹配,其中,所述布隆过滤器一级数组标识具有N个比特位点,所述朗过滤器一级数组标识中的N个比特位点与所述用户唯一身份标识数据中的所述前N个比特位点的位置一一对应,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配成功,则将该某个布隆过滤器一级数组标识对应的布隆过滤器数组作为目标布隆过滤器一级数组,并遍历所述目标布隆过滤器一级数组中的所有布隆过滤器,并将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,
若所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的某个布隆过滤器匹配成功,则判定所述用户唯一身份标识数据已存在对应的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
可选地,所述新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中之后,还包括如下步骤:
提取所述新布隆过滤器中前N个比特位点;
将所述新布隆过滤器中前N个比特位点与所述已有的多个布隆过滤器一级数组标识进行对比,
若与所述已有的多个布隆过滤器一级数组标识中的其中一个布隆过滤器一级数组标识相同,则将所述新布隆过滤器纳入该布隆过滤器一级数组标识对应的布隆过滤器一级数组中,
否则,新建一个新布隆过滤器一级数组。
可选地,所述新建一个新布隆过滤器一级数组的步骤中,还包括如下步骤:
提取所述新布隆过滤器一级数组中的前N个比特位点;
将所述新布隆过滤器一级数组中的前N个比特位点作为一个新的布隆过滤器一级数组标识。
可选地,M个所述布隆过滤器一级数组中的部分布隆过滤器一级数组包括布隆过滤器多级数组;
其中,所述布隆过滤器多级数组包括至少两个布隆过滤器二级数组,所述布隆过滤器二级数组具有布隆过滤器二级数组标识,所述布隆过滤器二级数组标识具有N+X个比特位点,其中,X≥1。
可选地,所述将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,包括如下步骤:
判断所述目标布隆过滤器一级数组中是否存在所述目标布隆过滤器多级数组,若存在,则将所述用户唯一身份标识数据中的前N+X个比特位点与所述目标布隆过滤器多级数组标识进行匹配,
若与所述目标布隆过滤器多级数组标识中的某个布隆过滤器二级数组匹配成功,则将所述用户唯一身份标识数据中的所有比特位点与该布隆过滤器二级数组中的所有布隆过滤器进行匹配,
若匹配成功,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
可选地,若与所述目标布隆过滤器多级数组标识中的所有布隆过滤器二级数组匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
可选地,若所述目标布隆过滤器一级数组中不存在所述目标布隆过滤器多级数组,则将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,
若匹配成功,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
特别地,本发明还提供了一种网页访客数量统计装置,包括:
获取模块,用于实时获取针对目标网页的用户操作行为,所述用户操作行为包括用户点击所述目标网页的包含用户唯一身份标识数据的记录数据,所述用户唯一身份标识数据包含多个比特位点;
提取模块,用于从所述记录数据中提取出所述用户唯一身份标识数据;
处理模块,用于将所述用户唯一身份标识数据中的前N个比特位点与已有的M个布隆过滤器一级数组标识进行匹配,其中,所述布隆过滤器一级数组标识具有N个比特位点,所述朗过滤器一级数组标识中的N个比特位点与所述用户唯一身份标识数据中的所述前N个比特位点的位置一一对应,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配成功,则将该某个布隆过滤器一级数组标识对应的布隆过滤器数组作为目标布隆过滤器一级数组,并遍历所述目标布隆过滤器一级数组中的所有布隆过滤器,并将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,
若所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的某个布隆过滤器匹配成功,则判定所述用户唯一身份标识数据已存在对应的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
可选地,所述处理模块包括:
提取单元,用于提取所述新布隆过滤器中前N个比特位点;
第一处理单元,用于将所述新布隆过滤器中前N个比特位点与所述已有的多个布隆过滤器一级数组标识进行对比,
若与所述已有的多个布隆过滤器一级数组标识中的其中一个布隆过滤器一级数组标识相同,则将所述新布隆过滤器纳入该布隆过滤器一级数组标识对应的布隆过滤器一级数组中,否则,新建一个新布隆过滤器一级数组。
可选地,所述第一处理单元包括:
提取子单元,用于提取所述新布隆过滤器一级数组中的前N个比特位点;
处理子单元,用于将所述新布隆过滤器一级数组中的前N个比特位点作为一个新的布隆过滤器一级数组标识。
可选地,所述处理模块还包括:
判断单元,用于判断所述目标布隆过滤器一级数组中是否存在所述目标布隆过滤器多级数组;
第一匹配单元,用于在判断所述目标布隆过滤器一级数组中存在所述目标布隆过滤器多级数组时,将所述用户唯一身份标识数据中的前N+X个比特位点与所述目标布隆过滤器多级数组标识进行匹配;
第二匹配单元,用于在所述用户唯一身份标识数据中的前N+X个比特位点与所述目标布隆过滤器多级数组标识中的某个布隆过滤器二级数组匹配成功,则将所述用户唯一身份标识数据中的所有比特位点与该布隆过滤器二级数组中的所有布隆过滤器进行匹配;
第二处理单元,用于在所述用户唯一身份标识数据中的所有比特位点与该布隆过滤器二级数组中的所有布隆过滤器匹配成功时,保持当前访客数量不变,并在匹配失败时新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
根据本发明的方案,在获取到用户唯一身份标识数据后,并不是直接将用户唯一身份标识数据与已有的所有布隆过滤器进行一一比对,而是首先将用户唯一身份标识数据中的前N个比特位点与已有的M个布隆过滤器一级数组标识进行匹配,在与某个布隆过滤器一级数组标识匹配成功之后,再将用户唯一身份标识数据中的所有比特位点与目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,在与某个布隆过滤器匹配成功,则判定所述用户唯一身份标识数据已存在对应的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中,并且,用户唯一身份标识数据中的前N个比特位点与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。由此,在进行比对时,首先比对布隆过滤器一级数组标识,然后再比对目标布隆过滤器一级数组标识对应的目标布隆过滤器一级数组中的所有布隆过滤器即可,从而缩小匹配范围,提高网页访客数量统计速率。并且,由于一个访客对应一个布隆过滤器,在后期进行匹配时极大降低了错误率。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1示出了根据本发明一个实施例的网页访客数量统计方法的是示意性流程图;
图2示出了根据本发明另一个实施例的网页访客数量统计方法的是示意性流程图;
图3所示了根据本发明一个实施例的网页访客数量统计装置的示意性结构图;
图4所示了根据本发明另一个实施例的网页访客数量统计装置的示意性结构图;
图中:1-获取模块,2-提取模块,3-处理模块,31-提取单元,32-第一处理单元,321-提取子单元,322-处理子单元,33-判断单元,34-第一匹配单元,35-第二匹配单元,36-第二处理单元。
具体实施方式
图1示出了根据本发明一个实施例的网页访客数量统计方法的是示意性流程图。如图1所示,该网页访客数量统计方法包括:
步骤S100,实时获取针对目标网页的用户操作行为,用户操作行为包括用户点击目标网页的包含用户唯一身份标识数据的记录数据,用户唯一身份标识数据包含多个比特位点;
步骤S200,从记录数据中提取出用户唯一身份标识数据;
步骤S300,将用户唯一身份标识数据中的前N个比特位点与已有的M个布隆过滤器一级数组标识进行匹配,其中,布隆过滤器一级数组标识具有N个比特位点,朗过滤器一级数组标识中的N个比特位点与用户唯一身份标识数据中的前N个比特位点的位置一一对应,
若与已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配成功,则将该某个布隆过滤器一级数组标识对应的布隆过滤器数组作为目标布隆过滤器一级数组,并遍历目标布隆过滤器一级数组中的所有布隆过滤器,并将用户唯一身份标识数据中的所有比特位点与目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,
若用户唯一身份标识数据中的所有比特位点与目标布隆过滤器一级数组中的某个布隆过滤器匹配成功,则判定用户唯一身份标识数据已存在对应的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将用户唯一身份标识数据映射至一个新布隆过滤器中,
若与已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配失败,则新增一个访客数量,并将用户唯一身份标识数据映射至一个新布隆过滤器中。
根据本发明的方案,在获取到用户唯一身份标识数据后,并不是直接将用户唯一身份标识数据与已有的所有布隆过滤器进行一一比对,而是首先将用户唯一身份标识数据中的前N个比特位点与已有的M个布隆过滤器一级数组标识进行匹配,在与某个布隆过滤器一级数组标识匹配成功之后,再将用户唯一身份标识数据中的所有比特位点与目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,在与某个布隆过滤器匹配成功,则判定所述用户唯一身份标识数据已存在对应的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中,并且,用户唯一身份标识数据中的前N个比特位点与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。由此,在进行比对时,首先比对布隆过滤器一级数组标识,然后再比对目标布隆过滤器一级数组标识对应的目标布隆过滤器一级数组中的所有布隆过滤器即可,从而缩小匹配范围,提高网页访客数量统计速率。并且,由于一个访客对应一个布隆过滤器,在后期进行匹配时极大降低了错误率。
图2示出了根据本发明另一个实施例的网页访客数量统计方法的是示意性流程图。参见图2,在步骤S300中,所述新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中之后,还包括如下步骤:
提取所述新布隆过滤器中前N个比特位点;
将所述新布隆过滤器中前N个比特位点与所述已有的多个布隆过滤器一级数组标识进行对比,
若与所述已有的多个布隆过滤器一级数组标识中的其中一个布隆过滤器一级数组标识相同,则将所述新布隆过滤器纳入该布隆过滤器一级数组标识对应的布隆过滤器一级数组中,
否则,新建一个新布隆过滤器一级数组。
其中,所述新建一个新布隆过滤器一级数组的步骤中,还包括如下步骤:
提取所述新布隆过滤器一级数组中的前N个比特位点;
将所述新布隆过滤器一级数组中的前N个比特位点作为一个新的布隆过滤器一级数组标识。
其中,M个所述布隆过滤器一级数组中的部分布隆过滤器一级数组包括布隆过滤器多级数组;
其中,所述布隆过滤器多级数组包括至少两个布隆过滤器二级数组,所述布隆过滤器二级数组具有布隆过滤器二级数组标识,所述布隆过滤器二级数组标识具有N+X个比特位点,其中,X≥1。
其中,所述将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,包括如下步骤:
判断所述目标布隆过滤器一级数组中是否存在所述目标布隆过滤器多级数组,若存在,则将所述用户唯一身份标识数据中的前N+X个比特位点与所述目标布隆过滤器多级数组标识进行匹配,
若与所述目标布隆过滤器多级数组标识中的某个布隆过滤器二级数组匹配成功,则将所述用户唯一身份标识数据中的所有比特位点与该布隆过滤器二级数组中的所有布隆过滤器进行匹配,
若匹配成功,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
其中,若与所述目标布隆过滤器多级数组标识中的所有布隆过滤器二级数组匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
其中,若所述目标布隆过滤器一级数组中不存在所述目标布隆过滤器多级数组,则将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,
若匹配成功,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
具体地,例如,有M个布隆过滤器一级数组,每个布隆过滤器一级数组表示为:
Figure GDA0002529970370000081
Di为M个布隆过滤器一级数组标识中第i个布隆过滤器一级数组,di j表示第i个布隆过滤器一级数组中第j个布隆过滤器。M个布隆过滤器一级数组中所包含的布隆过滤器的数量可能不同,但是也有可能相同。
假设U>V,V=W,且设定标准布隆过滤器一级数组中所包含的布隆过滤器的数量为V,则M个布隆过滤器一级数组中只要数量大于V的布隆过滤器一级数组均具有布隆过滤器多级数组。为简便描述,假设只有第一个布隆过滤器一级数组具有布隆过滤器多级数组,且具体为三个布隆过滤器二级数组,则D1由三个布隆过滤器二级数组D11、D12和D13组成,其中,D11、D12和D13表示为:
Figure GDA0002529970370000091
假设M个布隆过滤器一级数组标识为:
Figure GDA0002529970370000092
三个布隆过滤器二级数组D11、D12和D13的布隆过滤器二级数组标识分别为C11、C12和C13,表示为:
Figure GDA0002529970370000093
假设用户唯一身份标识数据表示为:
Figure GDA0002529970370000094
/>
那么,该用户唯一身份标识数据可以与布隆过滤器二级数组标识C11匹配成功,而布隆过滤器二级数组标识C11则对应布隆过滤器二级数组D11,因此,可以遍历布隆过滤器二级数组D11中的所有布隆过滤器,若布隆过滤器二级数组D11中有与该A匹配的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将用户唯一身份标识数据A映射至一个新布隆过滤器中。
图3所示了根据本发明一个实施例的网页访客数量统计装置的示意性结构图。如图3所示,该网页访客数量统计装置包括:
获取模块1,用于实时获取针对目标网页的用户操作行为,所述用户操作行为包括用户点击所述目标网页的包含用户唯一身份标识数据的记录数据,所述用户唯一身份标识数据包含多个比特位点;
提取模块2,用于从所述记录数据中提取出所述用户唯一身份标识数据;
处理模块3,用于将所述用户唯一身份标识数据中的前N个比特位点与已有的M个布隆过滤器一级数组标识进行匹配,其中,所述布隆过滤器一级数组标识具有N个比特位点,所述朗过滤器一级数组标识中的N个比特位点与所述用户唯一身份标识数据中的所述前N个比特位点的位置一一对应,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配成功,则将该某个布隆过滤器一级数组标识对应的布隆过滤器数组作为目标布隆过滤器一级数组,并遍历所述目标布隆过滤器一级数组中的所有布隆过滤器,并将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,
若所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的某个布隆过滤器匹配成功,则判定所述用户唯一身份标识数据已存在对应的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
图4所示了根据本发明另一个实施例的网页访客数量统计装置的示意性结构图。参见图4,所述处理模块3包括:提取单元31,用于提取所述新布隆过滤器中前N个比特位点;第一处理单元32,用于将所述新布隆过滤器中前N个比特位点与所述已有的多个布隆过滤器一级数组标识进行对比,若与所述已有的多个布隆过滤器一级数组标识中的其中一个布隆过滤器一级数组标识相同,则将所述新布隆过滤器纳入该布隆过滤器一级数组标识对应的布隆过滤器一级数组中,否则,新建一个新布隆过滤器一级数组。
所述第一处理单元32包括:提取子单元321,用于提取所述新布隆过滤器一级数组中的前N个比特位点;处理子单元322,用于将所述新布隆过滤器一级数组中的前N个比特位点作为一个新的布隆过滤器一级数组标识。
所述处理模块3还包括:判断单元33,用于判断所述目标布隆过滤器一级数组中是否存在所述目标布隆过滤器多级数组;第一匹配单元34,用于在判断所述目标布隆过滤器一级数组中存在所述目标布隆过滤器多级数组时,将所述用户唯一身份标识数据中的前N+X个比特位点与所述目标布隆过滤器多级数组标识进行匹配;第二匹配单元35,用于在所述用户唯一身份标识数据中的前N+X个比特位点与所述目标布隆过滤器多级数组标识中的某个布隆过滤器二级数组匹配成功,则将所述用户唯一身份标识数据中的所有比特位点与该布隆过滤器二级数组中的所有布隆过滤器进行匹配;第二处理单元36,用于在所述用户唯一身份标识数据中的所有比特位点与该布隆过滤器二级数组中的所有布隆过滤器匹配成功时,保持当前访客数量不变,并在匹配失败时新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
所述处理模块3还用于若与所述目标布隆过滤器多级数组标识中的所有布隆过滤器二级数组匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
所述处理模块3还用于若所述目标布隆过滤器一级数组中不存在所述目标布隆过滤器多级数组,则将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,若匹配成功,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims (11)

1.一种网页访客数量统计方法,其特征在于,包括如下步骤:
实时获取针对目标网页的用户操作行为,所述用户操作行为包括用户点击所述目标网页的包含用户唯一身份标识数据的记录数据,所述用户唯一身份标识数据包含多个比特位点;
从所述记录数据中提取出所述用户唯一身份标识数据;
将所述用户唯一身份标识数据中的前N个比特位点与已有的M个布隆过滤器一级数组标识进行匹配,其中,所述布隆过滤器一级数组标识具有N个比特位点,朗过滤器一级数组标识中的N个比特位点与所述用户唯一身份标识数据中的所述前N个比特位点的位置一一对应,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配成功,则将该某个布隆过滤器一级数组标识对应的布隆过滤器数组作为目标布隆过滤器一级数组,并遍历所述目标布隆过滤器一级数组中的所有布隆过滤器,并将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,
若所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的某个布隆过滤器匹配成功,则判定所述用户唯一身份标识数据已存在对应的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
2.根据权利要求1所述的网页访客数量统计方法,其特征在于,所述新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中之后,还包括如下步骤:
提取所述新布隆过滤器中前N个比特位点;
将所述新布隆过滤器中前N个比特位点与所述已有的多个布隆过滤器一级数组标识进行对比,
若与所述已有的多个布隆过滤器一级数组标识中的其中一个布隆过滤器一级数组标识相同,则将所述新布隆过滤器纳入该布隆过滤器一级数组标识对应的布隆过滤器一级数组中,
否则,新建一个新布隆过滤器一级数组。
3.根据权利要求2所述的网页访客数量统计方法,其特征在于,所述新建一个新布隆过滤器一级数组的步骤中,还包括如下步骤:
提取所述新布隆过滤器一级数组中的前N个比特位点;
将所述新布隆过滤器一级数组中的前N个比特位点作为一个新的布隆过滤器一级数组标识。
4.根据权利要求1-3中任一项所述的网页访客数量统计方法,其特征在于,M个所述布隆过滤器一级数组中的部分布隆过滤器一级数组包括布隆过滤器多级数组;
其中,所述布隆过滤器多级数组包括至少两个布隆过滤器二级数组,所述布隆过滤器二级数组具有布隆过滤器二级数组标识,所述布隆过滤器二级数组标识具有N+X个比特位点,其中,X≥1。
5.根据权利要求4所述的网页访客数量统计方法,其特征在于,所述将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,包括如下步骤:
判断所述目标布隆过滤器一级数组中是否存在目标布隆过滤器多级数组,若存在,则将所述用户唯一身份标识数据中的前N+X个比特位点与所述目标布隆过滤器多级数组标识进行匹配,
若与所述目标布隆过滤器多级数组标识中的某个布隆过滤器二级数组匹配成功,则将所述用户唯一身份标识数据中的所有比特位点与该布隆过滤器二级数组中的所有布隆过滤器进行匹配,
若匹配成功,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
6.根据权利要求5所述的网页访客数量统计方法,其特征在于,若与所述目标布隆过滤器多级数组标识中的所有布隆过滤器二级数组匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
7.根据权利要求6所述的网页访客数量统计方法,其特征在于,若所述目标布隆过滤器一级数组中不存在所述目标布隆过滤器多级数组,则将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,
若匹配成功,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
8.一种网页访客数量统计装置,其特征在于,包括:
获取模块,用于实时获取针对目标网页的用户操作行为,所述用户操作行为包括用户点击所述目标网页的包含用户唯一身份标识数据的记录数据,所述用户唯一身份标识数据包含多个比特位点;
提取模块,用于从所述记录数据中提取出所述用户唯一身份标识数据;
处理模块,用于将所述用户唯一身份标识数据中的前N个比特位点与已有的M个布隆过滤器一级数组标识进行匹配,其中,所述布隆过滤器一级数组标识具有N个比特位点,朗过滤器一级数组标识中的N个比特位点与所述用户唯一身份标识数据中的所述前N个比特位点的位置一一对应,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配成功,则将该某个布隆过滤器一级数组标识对应的布隆过滤器数组作为目标布隆过滤器一级数组,并遍历所述目标布隆过滤器一级数组中的所有布隆过滤器,并将所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的所有布隆过滤器进行匹配,
若所述用户唯一身份标识数据中的所有比特位点与所述目标布隆过滤器一级数组中的某个布隆过滤器匹配成功,则判定所述用户唯一身份标识数据已存在对应的布隆过滤器,则保持当前访客数量不变,否则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中,
若与所述已有的多个布隆过滤器一级数组标识中的某个布隆过滤器一级数组标识匹配失败,则新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
9.根据权利要求8所述的网页访客数量统计装置,其特征在于,所述处理模块包括:
提取单元,用于提取所述新布隆过滤器中前N个比特位点;
第一处理单元,用于将所述新布隆过滤器中前N个比特位点与所述已有的多个布隆过滤器一级数组标识进行对比,
若与所述已有的多个布隆过滤器一级数组标识中的其中一个布隆过滤器一级数组标识相同,则将所述新布隆过滤器纳入该布隆过滤器一级数组标识对应的布隆过滤器一级数组中,否则,新建一个新布隆过滤器一级数组。
10.根据权利要求9所述的网页访客数量统计装置,其特征在于,所述第一处理单元包括:
提取子单元,用于提取所述新布隆过滤器一级数组中的前N个比特位点;
处理子单元,用于将所述新布隆过滤器一级数组中的前N个比特位点作为一个新的布隆过滤器一级数组标识。
11.根据权利要求9所述的网页访客数量统计装置,其特征在于,所述处理模块还包括:
判断单元,用于判断所述目标布隆过滤器一级数组中是否存在目标布隆过滤器多级数组;
第一匹配单元,用于在判断所述目标布隆过滤器一级数组中存在所述目标布隆过滤器多级数组时,将所述用户唯一身份标识数据中的前N+X个比特位点与所述目标布隆过滤器多级数组标识进行匹配;
第二匹配单元,用于在所述用户唯一身份标识数据中的前N+X个比特位点与所述目标布隆过滤器多级数组标识中的某个布隆过滤器二级数组匹配成功,则将所述用户唯一身份标识数据中的所有比特位点与该布隆过滤器二级数组中的所有布隆过滤器进行匹配;
第二处理单元,用于在所述用户唯一身份标识数据中的所有比特位点与该布隆过滤器二级数组中的所有布隆过滤器匹配成功时,保持当前访客数量不变,并在匹配失败时新增一个访客数量,并将所述用户唯一身份标识数据映射至一个新布隆过滤器中。
CN202010383637.9A 2020-05-08 2020-05-08 一种网页访客数量统计方法及装置 Active CN111581512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010383637.9A CN111581512B (zh) 2020-05-08 2020-05-08 一种网页访客数量统计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010383637.9A CN111581512B (zh) 2020-05-08 2020-05-08 一种网页访客数量统计方法及装置

Publications (2)

Publication Number Publication Date
CN111581512A CN111581512A (zh) 2020-08-25
CN111581512B true CN111581512B (zh) 2023-06-02

Family

ID=72120451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010383637.9A Active CN111581512B (zh) 2020-05-08 2020-05-08 一种网页访客数量统计方法及装置

Country Status (1)

Country Link
CN (1) CN111581512B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504077A (zh) * 2014-12-22 2015-04-08 北京国双科技有限公司 网页访问数据的统计方法和装置
CN107888659A (zh) * 2017-10-12 2018-04-06 北京京东尚科信息技术有限公司 用户请求的处理方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909811B (zh) * 2015-12-23 2020-07-03 腾讯科技(深圳)有限公司 用户标识处理的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504077A (zh) * 2014-12-22 2015-04-08 北京国双科技有限公司 网页访问数据的统计方法和装置
CN107888659A (zh) * 2017-10-12 2018-04-06 北京京东尚科信息技术有限公司 用户请求的处理方法及***

Also Published As

Publication number Publication date
CN111581512A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111460312A (zh) 空壳企业识别方法、装置及计算机设备
CN107274291B (zh) 跨平台的估值表解析方法、存储介质及应用服务器
CN103455542A (zh) 多类识别器以及多类识别方法
CN105719045A (zh) 留任风险确定器
CN113807940B (zh) 信息处理和欺诈行为识别方法、装置、设备及存储介质
CN111723856A (zh) 一种图像数据处理方法、装置、设备及可读存储介质
CN113486983A (zh) 一种用于反欺诈处理的大数据办公信息分析方法及***
CN106933919A (zh) 数据表的连接方法及装置
CN108197795A (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN111581512B (zh) 一种网页访客数量统计方法及装置
CN113630495B (zh) 涉诈订单预测模型训练方法和装置,订单预测方法和装置
CN113138906A (zh) 一种调用链数据采集方法、装置、设备及存储介质
CN110991241B (zh) 异常识别方法、设备及计算机可读介质
CN112069269A (zh) 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN116821087A (zh) 输电线路故障数据库构建方法、装置、终端及存储介质
CN113569005B (zh) 一种基于数据内容的大规模数据特征智能化提取方法
CN115834231A (zh) 一种蜜罐***的识别方法、装置、终端设备及存储介质
CN113269179B (zh) 数据处理方法、装置、设备及存储介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN114465875A (zh) 故障处理方法及装置
CN114726880B (zh) 一种基于云计算的信息存储方法
CN114780711B (zh) 基于智慧档案平台的证照申办识别方法、***及介质
CN113362151B (zh) 金融业务的数据处理方法、装置、电子设备及存储介质
CN111046012B (zh) 巡检日志的抽取方法、装置、存储介质和电子设备
CN111369352B (zh) 联合建模方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant