CN108292408A - 检测web跟踪服务的方法 - Google Patents
检测web跟踪服务的方法 Download PDFInfo
- Publication number
- CN108292408A CN108292408A CN201680066807.2A CN201680066807A CN108292408A CN 108292408 A CN108292408 A CN 108292408A CN 201680066807 A CN201680066807 A CN 201680066807A CN 108292408 A CN108292408 A CN 108292408A
- Authority
- CN
- China
- Prior art keywords
- key
- client
- service
- party
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000000694 effects Effects 0.000 claims abstract description 7
- 235000014510 cooky Nutrition 0.000 claims description 20
- 230000000750 progressive effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000013459 approach Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 10
- 230000003993 interaction Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000011835 investigation Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0613—Third-party assisted
- G06Q30/0619—Neutral agent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Paper (AREA)
- Controlling Rewinding, Feeding, Winding, Or Abnormalities Of Webs (AREA)
- Fixing For Electrophotography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Computer And Data Communications (AREA)
Abstract
用于在由具有相关联的客户端标识符的客户端执行的浏览活动期间检测web跟踪服务的方法,该方法包括以下步骤:提取包含在导航数据中的键‑值对,寻找所述客户端标识符与包含在所述键中的值之间的一一对应关系,以及选择对于其观察至少预定数量的客户端的至少客户端‑值一一对应关系的键,所述键将相关联的服务识别为执行跟踪活动的服务。
Description
技术领域
本发明涉及用于检测web跟踪服务的方法,特别是用于检测第一方和第三方跟踪服务的方法。
背景技术
跟踪服务业务基于关于用户的信息的收集。在用户浏览时,用户始终被其业务建立在收集到的数据的价值上的各方跟踪。跟踪服务通常是链接到web门户网站的卫星服务。当用户访问门户网站时,跟踪服务说服用户的浏览器下载人工(artificial)信息,例如,页面的像素或广告条。
当用户生成对跟踪服务的HTTP请求时,跟踪服务将访问记录在它自己的数据库中,有时与在HTTP级别(例如,链接到用户设备的IP地址、设备和客户端类型等)和***级别(例如,CPU负载、使用的存储器量等)的所有可获得的信息一起记录。
近年来见证了这些web跟踪服务的悄然发展:收集关于用户的在线活动的信息是互联网中最有利可图的活动之一。存在数百家其全部业务基于此的公司。无数数量的web跟踪技术正在被使用,并且围绕web跟踪已经开发了数十种商业模式。这种现象无处不在,其中主要的以及大多数未知的公司都参与其中。
由于跟踪服务通常链接到许多门户网站的事实,因此同一用户可以被各种站点监视和跟踪。
一旦数据被收集,跟踪服务就使用数据以用于商业目的,例如用于创建用于市场营销或用于制作定制的商业广告的用户简档,或将数据出售给分析人员和***。
尽管事实上跟踪服务非常普遍并且在web经济中发挥着重要作用,但是用户几乎完全不知道它们,并且不知道有人可以从他们的在线活动期间留下的数据中赚钱。
隐私影响是严重的。消费者和企业确实担心他们不知不觉地暴露给外界的信息,并且他们要求有机制来遏制这种泄漏。
使用web跟踪做法导致泄露用户和公司希望保持私密的信息:从性倾向或宗教偏好到简单的浏览历史记录。许多调查已经表明,消费者和企业希望控制他们暴露给web***的信息。政府和决策者已经采取措施介入并倡导新的技术方法来增强消费者关于网络跟踪的选择。
因此,目前正在努力构建针对web跟踪的技术对策。例如,大公司已经提出了它们自己的反跟踪特征。已经引入了许多插件来阻止浏览器和跟踪服务之间的交互。到目前为止,研究团体已经关注于揭示和量化问题的广泛性,但只有少数的解决方案被提出来遏制这种现象。
Web跟踪的首要对策基于跟踪服务和内容的黑名单。随着web跟踪已经引起关于它可能如何影响用户隐私的许多担忧,许多***阻止应用(多数是浏览器插件)都可用。基本上,它们过滤所生成的对跟踪服务的HTTP请求。这些应用依靠离线构建的黑名单来防止浏览器生成对web***的HTTP请求。但是,这些黑名单如何生成是不可能知道的,并且随着时间的推移它们难以维护。
在不同的方法中,存在浏览器插件,该浏览器插件分析cookie如何***纵以及来自哪些服务。简而言之,这种方法将处理cookie的代码段和包含用户标识符的Adobe Flash插件的所有者标记为***。这种方法基于对网页中包含的Javascript或Flash代码的分析。
但是,简单的动作(诸如阻止cookie)容易被web跟踪服务绕过。例如,常见的变通方案(workaround)是在HTTP请求中包含的URL查询中嵌入用户标识符。
另一种方法基于图形分析技术:将网页的结构模型化为图形,并且使用机器学习技术来分析网页代码的结构并发现被怀疑收集用户信息的代码的部分,从而识别web***。在这种情况下,同样,跟踪服务的检测基于对网页本身的分析。
这些方法的主要缺点是它们需要来自分析人员的监督,分析人员研究网页并使用静态的并且必须不时改变的、预定义的分类模型。
因此,我们需要一种用于检测运行某种跟踪活动的服务的方法。该方法需要易于使用并且自动检测这些服务,而不需要操作员的帮助,从而生成可以被任何浏览器采用以阻止用户遇到的web跟踪服务的策划黑名单(curated blacklist)。
发明内容
本发明的实施例涉及用于检测跟踪服务的方法,该方法克服了现有技术的缺点。
在一个实施例中,本发明的用于在由具有相关联的客户端标识符的客户端执行的浏览活动期间检测web跟踪服务的方法包括以下步骤:提取包含在导航数据中的键-值对;寻找(4)所述客户端标识符与包含在所述键中的值之间的一一对应关系;选择对于其观察到至少预定数量的客户端的至少客户端值一一对应关系的键,所述键将相关联的服务识别为执行跟踪活动的服务。
在另一实施例中,对于每个客户端,跨相同导航数据的不同和渐进(progress)使用来观察一一对应关系。
在另一实施例中,导航数据是HTTP或HTTPS GET请求或经由POST请求传送的数据或嵌入在cookie中的数据。
在另一实施例中,检测到第一方跟踪服务。
在另一实施例中,检测到第三方跟踪服务。
在另一实施例中,检测到其值展现出与客户端的一一对应关系的键的组合。
在另一实施例中,确定预定数量的客户端,使得既不对包含其它类型信息的键进行错误分类,也不削减与可能不总是存在的第三方对象的大集合相关联的合法阳性键(legit positive key)。
附图说明
本发明的其它特性、目的和优点将从下面的描述中变得清楚,下面的描述纯粹是说明性的而非限制性的,并且要参考附图来阅读,其中:
图1是根据本发明的用于检测跟踪服务的方法的步骤的框图;
图2是在用户对网站的不同访问中检测到的键的示例;
图3是示出根据用户数量的检测到的键的数量的图,这些键对于这些用户要相同;
图4是在由不同服务使用的用户识别键之间的交互的第一示例的框图;以及
图5是用户识别键之间的交互的另一示例的框图。
具体实施方式
简而言之,本发明涉及利用应用级流量日志来自动检测运行某种跟踪活动的服务,从而使得能够生成策划黑名单的无监督方法。该方法基于以下算法而建立,该算法查明包含以下客户端标识符的信息片段,该客户端标识符在HTTP(或HTTPS)事务中的URL查询中暴露。因此,它的分析是被动的,并且只需要HTTP(或HTTPS)事务日志的可用性。除此之外,由于本发明的方法不需要事先知道包含由跟踪服务采用的客户端标识符的字段或键集合,因此本发明的方法是无监督的。分类的结果可以用来阻止朝向跟踪服务的流量,从而保护用户的隐私。
本发明的方法适用于检测第一方服务和第三方服务。在下面的描述中,将参考在HTTP事务中的URL查询中存在的客户端标识符或键,但是本发明的方法也适用于HTTPS GET请求或经由POST请求传送的或者嵌入在cookie中的信息或数据。
本发明的方法建立在应用级流量日志的可用性上,即,流量跟踪报告HTTP事务的头部中包含的信息。这种日志可以通过浏览机器人(bots)或爬虫程序(crawlers)自动生成,或可以由众包***中的用户共享。考虑到跟踪服务依赖于浏览器在URL查询中暴露的每个用户的唯一标识符,本发明的方法分析HTTP请求头部中的URL并寻找展现出与生成请求的客户端简档的一一映射的信息片段。这些信息片段是包含在cookie、指纹等中的标识符。
图1示出了根据本发明的用于检测跟踪服务的方法的步骤的框图。
给定由客户端的预定集合(爬虫程序或用户的浏览器)和目标网站域W生成的聚合HTTP事务的日志HS的集合,该方法开始于步骤2,其中提取在引导到或引用W(即,在通信的“主机(host)”字段中具有W)的每个HTTP请求中所包含的所有HTTP键-值对。如果W与通信的“引用页(Referer)”字段中所包含的W相同,或者如果“引用页”字段为空,则W是第一方服务;否则,如果“主机”字段中的W域与在“引用页”字段中存在的域不同,则W是第三方服务。
在本说明书中,当提及“客户端”时,其意味着单个设备(PC、智能电话、平板电脑等)而不是单个用户。
考虑例如:
http://www.W.com/query?key1=X&key2=Y,
在步骤2处,提取分别具有值X和Y的key1(键1)和key2(键2)。
然后,在步骤4处,对于每个键,调查生成请求的客户端的本身已知标识符(例如,浏览器简档)与包含在键中的值之间的双向唯一性(biuniqueness)。该方法寻找其值与客户端唯一关联的任何键,即,该值i)对于每个不同的客户端是不同的,但是ii)对于相同的客户端是相同的。
最后,在步骤6处,选择对于至少预定数量的客户端(minClient,参见下文)对其观察到至少客户端-值双向唯一性(一一对应关系)的键。所述键识别执行跟踪活动的服务(相关联的服务)。
图2示出了键的示例:key1、key2和key3。考虑key1,对于不同的客户端(即,client1、client2、...、clientn),它采用不同的值,但这些值在不同访问Visit-1(访问-1)、Visit-2(访问-2)和Visit-3(访问-3)之间并不相等,从而使key1成为可能的会话标识符。Key2在不同的客户端和访问之间维持相同的值。本发明的方法选择作为客户端-跟踪的键是key3,因为它是其值对于不同的客户端是不同的,但不会在不同的和渐进的访问之间改变的唯一的键。
作为替代实施例,不是关注嵌入在HTTP GET请求的URL查询中嵌入的客户端-跟踪键,而是可以处理客户端经由POST请求传送给服务器的数据或嵌入在cookie中的数据。
类似地,不是关注检测单个客户端-识别键(即,其值单独示出与生成请求的客户端的一一映射的键),而是可以检测其值展现出与客户端的双向惟一性的键的组合。当考虑cookie或POST请求时,使用键的组合尤其是合适的。
在描述的以下部分中,将公开参数选择对本发明的方法的影响。MinClients是该方法为了将键标记为客户端标识符而需要观察的、唯一客户端-值对的最小数量。特别地,检查在增加minClients时该方法分类的返回的键的数量如何变化是重要的。
一种可能性是将minClients设置为大,因为如果太低,则预计会将那些可能反而包含其它类型信息(诸如会话标识符)的键错误分类。换句话说,小的minClients可能会增加假阳性(false positive)的数量。
另一方面,太大的minClients可能削减与嵌入了可能并不总是存在的第三方对象的大集合的门户网站相关联的合法阳性。例如,一些用户可以使用给定的客户端-识别键ki在新门户网站嵌入第三方广告adi的时刻访问新门户网站,但访问相同门户网站的其它客户端可能遇到不同的广告服务adj并因此不同的键kj。在这种情况下,客户端的群(population)被分为两半,并且太大的minClients会将这两半从真阳性集合中过滤出。
已经完成了实验以评估minClients的折衷值,该值保证合理的准确性,同时不会削减合法真阳性。
图3报告了当不同的minClients值被设置以处理数据集中的所有请求HS时,本发明的方法识别的客户端-识别键的数量。
考虑这两种情况,其中该方法仅处理对第三方服务的HTTP请求的集合-在其HTTP请求示出在主机和引用页字段中所包含的主机名之间的不匹配的网站中所嵌入的服务-(第一曲线50),以及数据集中的所有请求(即,考虑第一方和第三方)(第二曲线52)。如所预期的,当minClients小时,键的数量增加。
可以观察到的是,当minClients增加时,键的数量不断减少。对于第三方而言,在minClients等于14时,标记为客户端-跟踪的键的数量减少到210,并且在考虑第一方和第三方两者时,标记为客户端-跟踪的键的数量减少到328。
已经观察到,与同一网站相关联的第三方web服务池实际上在不同的访问之间改变。因此,作为抗衡措施,已经运行了第二实验:首先,已经选择了已由预定数量(例如14)的客户端中的每一个完成了访问的服务的集合。给定结果产生的服务子集,初始HS聚集(collection)已被过滤以仅保留指向这些服务的请求,从而获得较小的数据集HSclients_small。然后,通过改变minClients,使用数据集HSclients_small再次执行步骤2至6。
已经观察到,当minClients≥6时,键的数量稳定在328,而对于minClients<6的值,发现一些假阳性(键与处于HSclients_small中但大多数携带会话标识符的服务相关联)。影响最小但存在。
设置minClients=6,该方法可以将键正确地标记为客户端-识别,而另一方面,实际上实现某个用户-跟踪特征的太动态的web服务未被过滤掉。
图3中呈现的结果示出,第一方和第三方两者采用键来跟踪客户端,并因此跟踪其后面的用户。实际上,当minClients等于6时,已经观察到,多于130个键被121个不同的第一方服务采用,并且多于300个客户端-识别键与第三方服务相关联。
该方法已经在整个人工数据集上执行,并且已经找到包含使用某个客户端-识别键的多于100个第三方服务的列表。已经发现,前10个第三方***似乎与(已经针对分析而考虑的200个中的)20个或更多的第一方相关联,并且大多数第三方***涵盖非常有限数量的第一方服务。多于40个***仅涵盖一个服务。
在下文中,呈现一些有趣的发现,这些发现在分析由当前方法返回的客户端-识别键和它们包含的值时出现。更详细地说,已经观察到,在许多情况下,相同的值(即,与客户端相关联的唯一信息片段)被包含在由不同服务使用的客户端-识别键中。
为了表示这些交互,已经采用了图4中的模式:www.W.com是访问过的网站;tracker.WA.com和tracker.WB.com两者是通过本方法被标记为***的服务;key1和key2是它们分别用来识别客户端的跟踪键;X是从数据集中拾取并被包含在key1和key2中的客户端标识符键值(例如,包含在cookie中的散列值)。令人惊讶的是,key1=x并且key2=x,尽管key1和key2是由WA和WB独立生成的。很清楚,这查明了两者之间的一些冲突。
已经观察到其中客户端标识符在若干服务之间被共享的三种主要情景。
最简单的情景与图5(a)中绘出的示例类似。在这种情况下,访问由同一公司Z管理的第一方服务www.W1.com、www.W2.com和www.W3.com的用户被分别使用不同的键key1、key2和key3来交换相同的客户端标识符值的服务c1.W3.com、a4.W1.com和c.W2.com(仍由Z管理)跟踪。作为在同一公司保护伞Z下的服务之间共享的客户端标识符,这表明由同一组织管理的跟踪平台。从隐私的角度来看,这种情况并不存在争议。
第二交互示例与图4中的模式示例非常相似,并且为了简洁起见不再图示。在这种情况下,访问第一方服务www.Y.com的客户端被分配由第三方服务s和t采用并包含在键t1中的标识符。
关于图5(a)中绘出的情景存在两个实质性的差异:首先,相同的客户端标识符在不属于同一个所有者的两个不同的第三方服务s和t之间共享。第二,第三方服务s采用由t提供的键,其可能是众所周知的跟踪公司。这种交互是允许两个单独的参与方同步其用户标识符(Cookie匹配)的做法的典型结果。
例如,典型地,客户端被分配来自她在其浏览活动期间遇到的若干方的Cookie。因此,两个***通常将其自己独特的cookie分配给同一客户端。由于Cookie匹配机制,它们中的一个或两者将把这些cookie映射到彼此。Cookie匹配构成实时竞价(RTB)机制的基础部分,该机制是实现实时自动拍卖的常见web广告技术。
典型地,启用RTB的网站(在RTB术语中称为卖家(seller))旨在以最佳报价出售其页面上可用的广告空间。为了实现拍卖,涉及另外两种第三方:协调拍卖的拍卖人(auctioneer),以及为广告空间生成竞价的买家(buyer)。当用户访问卖家网站时,拍卖人服务收集在来自不同买家的cookies中包含的标识符并运行Cookie匹配做法。一旦客户端标识符在拍卖参与者之间同步,拍卖人就收集买家的竞价并选择获胜的买家。因此,后者将被授权提供内容以填充广告空间。
图5(b)中绘出了交互的最后一个示例。这种情景暗示了组合Cookie匹配和RTB的做法。已经观察到,相同的客户端标识符(m.net和r.com 8)在两个卖家www.f.com和www.g.com(由同一所有者管理)、拍卖人和五个不同的买家之间共享。虽然RTB和Cookie匹配受到广告行业的称赞,但是它们的实现导致其中客户端标识符由不受共同机构管理的不同各方处理的情景。人们认为,这种跨各方对用户数据的访问看起来使人顾虑,并且引起人们对关于其对用户隐私的影响的很大担忧。
总之,本发明涉及一种新颖的无监督方法,其检查HTTP请求中的URL查询,并寻找展现出与生成请求的客户端的一一映射的信息片段。该方法输出采用任何客户端-跟踪键的第一方和第三方web服务的列表。
该方法在自动侦查跟踪服务方面是有效的,它简单并且可以被研究人员、开发人员和从业人员采用来查明web中的跟踪服务。而且,当它寻找由web***采用的用户标识符时,它适用于其它的环境。
书面描述使用示例来公开各种实施例,包括最佳模式,并且还使得本领域技术人员能够实践实施例,包括制作和使用任何设备或***以及执行任何合并的方法。实施例的可授予专利权的范围由权利要求限定,并且可以包括本领域技术人员想到的其它示例。如果这些其它示例具有不与权利要求的字面语言不同的结构元件,或者如果它们包括与权利要求的字面语言无实质区别的等同结构元件,则这些其它示例意图在权利要求的范围内。
Claims (7)
1.一种用于在由具有相关联的客户端标识符的客户端执行的浏览活动期间检测web跟踪服务的方法,所述方法包括以下步骤:
-提取(2)包含在导航数据中的键-值对;
-寻找(4)所述客户端标识符与包含在所述键中的值之间的一一对应关系;
-选择以下键:对于所述键观察到至少预定数量的客户端的至少客户端-值一一对应关系,所述键将相关联的服务识别为执行跟踪活动的服务。
2.如权利要求1所述的方法,其中,对于每个客户端,跨相同导航数据的不同和渐进使用来观察所述一一对应关系。
3.如权利要求1或2所述的方法,其中所述导航数据是HTTP或HTTPS GET请求或经由POST请求传送的数据或嵌入在cookie中的数据。
4.如权利要求1或2所述的方法,其中检测到第一方跟踪服务。
5.如权利要求1或2所述的方法,其中检测到第三方跟踪服务。
6.如前述权利要求中任一项所述的方法,其中检测到以下键的组合:所述键的值展现出与客户端的一一对应关系。
7.如前述权利要求中任一项所述的方法,其中确定所述预定数量的客户端,使得既不对包含其它类型信息的键进行错误分类,也不消减与可能不总是存在的第三方对象的大集合相关联的合法阳性键。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ITUB2015A006079A ITUB20156079A1 (it) | 2015-12-02 | 2015-12-02 | Metodo per individuare i servizi di web tracking |
IT102015000079272 | 2015-12-02 | ||
PCT/IB2016/057246 WO2017093924A1 (en) | 2015-12-02 | 2016-12-01 | Method for detecting web tracking services |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108292408A true CN108292408A (zh) | 2018-07-17 |
Family
ID=55410138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680066807.2A Pending CN108292408A (zh) | 2015-12-02 | 2016-12-01 | 检测web跟踪服务的方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US11308502B2 (zh) |
EP (1) | EP3384451A1 (zh) |
JP (1) | JP2019505865A (zh) |
KR (1) | KR20180088655A (zh) |
CN (1) | CN108292408A (zh) |
IL (1) | IL259139B2 (zh) |
IT (1) | ITUB20156079A1 (zh) |
RU (1) | RU2018120870A (zh) |
WO (1) | WO2017093924A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10475084B2 (en) * | 2012-03-30 | 2019-11-12 | Rewardstyle, Inc. | System and method for dynamic creation of product links from a web browser application |
US11843675B2 (en) * | 2018-10-10 | 2023-12-12 | Nec Corporation | Method and system for synchronizing user identities |
US10826920B1 (en) * | 2018-11-29 | 2020-11-03 | Microsoft Technology Licensing, Llc | Signal distribution score for bot detection |
US11093644B2 (en) * | 2019-05-14 | 2021-08-17 | Google Llc | Automatically detecting unauthorized re-identification |
US11979334B2 (en) | 2019-07-22 | 2024-05-07 | International Business Machines Corporation | Internet activity compartmentalization |
US11457034B2 (en) | 2020-03-31 | 2022-09-27 | Microsoft Technology Licensing, Llc | Distribution-based detection of abusive requests |
US11418550B1 (en) * | 2021-07-12 | 2022-08-16 | Sap Se | Service-mesh session prioritization |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101459548A (zh) * | 2007-12-14 | 2009-06-17 | 北京启明星辰信息技术股份有限公司 | 一种脚本注入攻击检测方法和*** |
CN102571547A (zh) * | 2010-12-29 | 2012-07-11 | 北京启明星辰信息技术股份有限公司 | 一种http流量的控制方法及装置 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060106793A1 (en) | 2003-12-29 | 2006-05-18 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US8078607B2 (en) | 2006-03-30 | 2011-12-13 | Google Inc. | Generating website profiles based on queries from webistes and user activities on the search results |
US20080195462A1 (en) * | 2006-10-24 | 2008-08-14 | Swooge, Llc | Method And System For Collecting And Correlating Data From Information Sources To Deliver More Relevant And Effective Advertising |
US7818396B2 (en) | 2007-06-21 | 2010-10-19 | Microsoft Corporation | Aggregating and searching profile data from multiple services |
US20100042487A1 (en) * | 2008-08-12 | 2010-02-18 | Yosef Barazani | Apparatus and Method of Monetizing Hyperlinks |
US9208453B2 (en) * | 2009-02-13 | 2015-12-08 | Paypal, Inc. | Targeted multi-dimension data extraction for real-time analysis |
US8856869B1 (en) * | 2009-06-22 | 2014-10-07 | NexWavSec Software Inc. | Enforcement of same origin policy for sensitive data |
US20110035288A1 (en) * | 2009-08-10 | 2011-02-10 | Visa U.S.A. Inc. | Systems and Methods for Targeting Offers |
CA2791568C (en) * | 2010-03-23 | 2018-10-16 | Google Inc. | Conversion path performance measures and reports |
US8838767B2 (en) * | 2010-12-30 | 2014-09-16 | Jesse Lakes | Redirection service |
US20140025509A1 (en) * | 2012-07-18 | 2014-01-23 | Media6Degrees Inc. | Methods and apparatus for bid optimization and inventory scoring |
US9571555B2 (en) * | 2012-10-20 | 2017-02-14 | Tomodo Ltd. | Methods circuits devices systems and associated computer executable code for web augmentation |
US10628858B2 (en) * | 2013-02-11 | 2020-04-21 | Facebook, Inc. | Initiating real-time bidding based on expected revenue from bids |
US20140282036A1 (en) * | 2013-03-15 | 2014-09-18 | Turn Inc. | Universal tag for page analytics and campaign creation |
US10193993B2 (en) * | 2013-05-30 | 2019-01-29 | Ebay Inc. | Systems and methods of token piggybacking |
US10204358B2 (en) * | 2013-06-07 | 2019-02-12 | Zeta Global Corp. | Systems and methods for text message alerts and referrals |
US10437903B2 (en) * | 2013-09-20 | 2019-10-08 | Jesse Lakes | Redirection service profiling |
US9219787B1 (en) * | 2014-11-26 | 2015-12-22 | Ensighten, Inc. | Stateless cookie operations server |
US10872355B2 (en) * | 2015-06-22 | 2020-12-22 | Xandr Inc. | Controlling user data visibility in online ad auctions |
US9798896B2 (en) * | 2015-06-22 | 2017-10-24 | Qualcomm Incorporated | Managing unwanted tracking on a device |
US10715612B2 (en) * | 2015-09-15 | 2020-07-14 | Oath Inc. | Identifying users' identity through tracking common activity |
US20170083941A1 (en) * | 2015-09-22 | 2017-03-23 | Facebook, Inc. | Media Planning Tool |
US20170091815A1 (en) * | 2015-09-28 | 2017-03-30 | Facebook, Inc. | Restricting targeted advertising across multiple environments |
-
2015
- 2015-12-02 IT ITUB2015A006079A patent/ITUB20156079A1/it unknown
-
2016
- 2016-12-01 JP JP2018517781A patent/JP2019505865A/ja active Pending
- 2016-12-01 RU RU2018120870A patent/RU2018120870A/ru not_active Application Discontinuation
- 2016-12-01 EP EP16815655.2A patent/EP3384451A1/en not_active Ceased
- 2016-12-01 KR KR1020187015212A patent/KR20180088655A/ko unknown
- 2016-12-01 CN CN201680066807.2A patent/CN108292408A/zh active Pending
- 2016-12-01 WO PCT/IB2016/057246 patent/WO2017093924A1/en active Application Filing
- 2016-12-01 US US15/771,003 patent/US11308502B2/en active Active
-
2018
- 2018-05-03 IL IL259139A patent/IL259139B2/en unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101459548A (zh) * | 2007-12-14 | 2009-06-17 | 北京启明星辰信息技术股份有限公司 | 一种脚本注入攻击检测方法和*** |
CN102571547A (zh) * | 2010-12-29 | 2012-07-11 | 北京启明星辰信息技术股份有限公司 | 一种http流量的控制方法及装置 |
Non-Patent Citations (1)
Title |
---|
STEVEN ENGLEHARDT等: ""Cookies That Give You Away: The Surveillance Implications of Web Tracking"", 《PROCEEDINGS OF THE 24TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
Also Published As
Publication number | Publication date |
---|---|
RU2018120870A (ru) | 2020-01-09 |
US11308502B2 (en) | 2022-04-19 |
IL259139A (en) | 2018-07-31 |
JP2019505865A (ja) | 2019-02-28 |
IL259139B2 (en) | 2023-08-01 |
IL259139B1 (en) | 2023-04-01 |
KR20180088655A (ko) | 2018-08-06 |
EP3384451A1 (en) | 2018-10-10 |
WO2017093924A1 (en) | 2017-06-08 |
US20180332126A1 (en) | 2018-11-15 |
RU2018120870A3 (zh) | 2020-06-11 |
ITUB20156079A1 (it) | 2017-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108292408A (zh) | 检测web跟踪服务的方法 | |
Bashir et al. | Tracing information flows between ad exchanges using retargeted ads | |
CN105302845B (zh) | 数据信息交易方法和*** | |
US10628858B2 (en) | Initiating real-time bidding based on expected revenue from bids | |
Gomer et al. | Network analysis of third party tracking: User exposure to tracking cookies through search | |
US8955066B1 (en) | Knowledge based authentication using recent user internet activity | |
Minkus et al. | I know what you’re buying: Privacy breaches on ebay | |
CN102710770A (zh) | 一种上网设备识别方法及其实现*** | |
EP2013845A1 (en) | System for online contents marketplace and the operation method thereof | |
US20210320914A1 (en) | System, Method, and Program Product Using Ephemeral Identity for Digital User Identification | |
US10692103B2 (en) | Systems and methods for hashtag embedding based on user generated content for creating user specific loyalty identifiers | |
JP7106086B1 (ja) | マッチング装置、マッチング方法、コンピュータプログラム | |
Shekhawat et al. | Algorithmic privacy and gender bias issues in *** ad settings | |
CN109829593B (zh) | 目标对象的信用度确定方法、装置、存储介质及电子装置 | |
Bailey et al. | Look Who's Tracking-An analysis of the 500 websites most-visited by Finnish web users | |
Pons | Biometric marketing: targeting the online consumer | |
WO2016115264A1 (en) | Price mining prevention systems and related methods | |
Yau et al. | Understanding consumer behavior by big data visualization in the smart space laboratory | |
Mowla et al. | Analysis of web server logs to understand internet user behaviour and develop digital marketing strategies | |
US20210117991A1 (en) | Merchant Advertisement Informed Item Level Data Predictions | |
KR102327510B1 (ko) | 온라인 쇼핑몰 위젯 제공 방법 및 장치 | |
Roshini et al. | An efficient SecureU application to detect malicious applications in social media networks | |
US20170287002A1 (en) | Targeting content for users of external websites | |
US20230259981A1 (en) | Smart contract system and method for managing digital user engagement | |
Sano et al. | Social Media Marketing for Regional Activation: Case Study on the Onomichi Vacant Housing Renewal Project |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180717 |