CN103699546B - 一种生成网吧ip数据库的方法及装置 - Google Patents
一种生成网吧ip数据库的方法及装置 Download PDFInfo
- Publication number
- CN103699546B CN103699546B CN201210367803.1A CN201210367803A CN103699546B CN 103699546 B CN103699546 B CN 103699546B CN 201210367803 A CN201210367803 A CN 201210367803A CN 103699546 B CN103699546 B CN 103699546B
- Authority
- CN
- China
- Prior art keywords
- address
- cookie
- internet
- time
- internet bar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种生成网吧IP数据库的方法及装置,该方法包括:从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内统计各IP地址的网吧IP特征;判断各IP地址的网吧IP特征是否满足预设的判决策略,如果满足则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。该方法及装置简单且不需要专业人员经过长时间通过多种手段的收集,并能够保证网吧IP数据库数据的可靠性和时效性。
Description
技术领域
本发明涉及通信领域,具体涉及一种生成网吧IP数据库的方法及装置。
背景技术
IP(Internet Protocol,网络协议)是为计算机网络相互连接进行通信而设计的协议,是为了使连接到因特网上的所有计算机实现相互通信的一套规则。每个连接在因特网上的一台计算机都会被分配一个或多个IP地址用于在网络上进行通讯。全球的IP地址在从国家往下逐级分配的过程中产生了很强的地域性,因此IP地址经常被用于地域定位,例如互联网广告的地域定向投放,用户定制的本地新闻推送或其他地域定向服务。
网吧是面向公众的营利性上网服务提供场所,社会公众可利用网吧内的电脑及其他上网接入设备等进行网页浏览、学习、网游、聊天、视频或其他网络活动。网吧上网的人群结构具有鲜明的特点,例如以年轻人为主、男性较多、上网时间较稳定、兴趣爱好相近、喜爱游戏、消费取向集中等等。因此,针对网吧的商业定向,例如网吧定向的广告投放,是非常具有价值的。目前,国内绝大部分正规网吧在向网络运营商申请连接因特网时,都会申请使用固定的外网IP地址。这使得网吧定向的解决方案可以参考地域定向,基于上网行为发生时的IP地址来实现。
基于IP地址的网吧定向需要使用网吧IP数据库,网吧IP数据库是一张存放了大量的网吧IP地址的列表,每个IP地址代表着使用这个IP上网的电脑属于某个网吧。网吧IP数据库一般是由专业技术人员经过长时间通过多种手段收集而来的,例如,在运营商处申请网络服务时登记的网吧IP地址,正在网吧上网的人即时分享的IP地址以及其他获取方式。然而,由于中国各级网络运营商构成的复杂性,想从所有运营商处获取所有的网吧IP地址几乎是不可能的。而互联网用户分享的网吧IP地址也局限于愿意分享IP地址和地理信息的用户的数量,并且这种由非专业人员提供的信息的可靠性也有不足。此外,由于现实生活中旧网吧的不断关闭和新网吧的不断开启,网吧IP地址还存在时效性的问题。
所以,急需提出一种生成网吧IP数据库的方法,简单且不需要专业人员经过长时间通过多种手段的收集,并能够保证网吧IP数据库数据的可靠性和时效性。
发明内容
本发明需要解决的技术问题是提供一种生成网吧IP数据库的方法及装置,简单且不需要专业人员经过长时间通过多种手段的收集,并能够保证网吧IP数据库数据的可靠性和时效性。
为了解决上述技术问题,本发明提供了一种生成网吧IP数据库的方法,包括:
从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;
根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征;
对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
进一步地,所述IP地址的网吧IP特征,包括以下一个或多个:
曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
进一步地,所述根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址的步骤包括以下一种或多种情况:
如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨1点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的Cookie。
进一步地,所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
进一步地,所述方法还包括:
每隔一段固定的时间,重新在所述全部行为日志时间范围内提取Cookie,按照如权利要求1所述的方法重新生成新的网吧IP数据库。
为了解决上述技术问题,本发明还提供了一种生成网吧IP数据库的装置,包括:
Cookie网络行为信息获取模块,用于从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;
IP地址特征统计模块,用于根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征;
网吧IP数据库生成模块,用于对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
进一步地,所述IP地址的网吧IP特征,包括以下一个或多个:
曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
进一步地,所述网吧IP数据库生成模块,用于根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,包括以下一种或多种情况:
如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨1点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的Cookie。
进一步地,所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
与现有技术相比,本发明提供的生成网吧IP数据库的方法及装置,简单且不需要专业人员经过长时间通过多种手段的收集,并能够保证网吧IP数据库数据的可靠性和时效性。
附图说明
图1是实施例中生成网吧IP数据库的方法流程图;
图2是一个应用示例中基于机器学习来判断所述IP地址是否为网吧IP地址的流程图;
图3是实施例中生成网吧IP数据库的装置的结构图;
图4是一个应用示例中生成网吧IP数据库的方法图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
实施例:
如图1所示,本实施例提供了一种生成网吧IP数据库的方法,包括以下步骤:
S101:从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;
Cookie本身是存储在电脑硬盘的文件之中的。当一台电脑访问某个被监测了的网页时,监测使用的日志服务器会通过网络接收到一条网络行为日志,而这条日志里面能包含这台电脑的Cookie文件里面的信息(例如Cookie的ID或编号等等)。因此服务器存储的网络行为日志里面已经包含了Cookie的ID或编号,在分析网络行为日志数据的时候,并不需要去每台上网的电脑上读取Cookie。
这里的Cookie指的是浏览器Cookie或Flash Cookie;全部行为日志时间范围是指观察Cookie进行网络行为的一段时间,例如一个月,以便从Cookie在一段时间内的网络行为信息(Cookie每次访问互联网所使用的IP地址及相应的访问时间)统计出IP地址的网吧IP特征。
S102:根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各所述IP地址的网吧IP特征;
一般来说,网吧电脑在上网时具有如下特点:
1)网吧电脑一般会有多人使用,并且被其中一人连续使用的时间较短。此外,大部分的网吧电脑都安装了自动还原***,在单人使用结束后浏览器Cookie或Flash Cookie立即会被清除。因此,在网络行为日志中,使用网吧IP地址上网的Cookie的存活时间,即单人连续上网的时间,大部分情况下都在数个小时之内。
2)目前绝大部分网吧在连接因特网时申请的都是固定IP,因此一台网吧电脑使用的IP地址会集中在几个固定的IP地址上,因此,使用网吧IP地址上网的Cookie所使用的IP地址相对较少,使用固定的一个或几个IP地址的可能性相对较高。
3)网吧电脑深夜使用的可能性更高,大部分的家庭/公司电脑的使用时间集中在早上9点到凌晨1点之间,在深夜休息时间的使用概率较小;但网吧电脑的用户更多,且有***优惠等增值服务,所以网吧电脑的深夜使用可能性更高。因此,使用网吧IP地址的深夜网络行为的占比更高。
4)网吧电脑的使用频率更高:由于网吧用户众多,网吧电脑被经常使用的可能性较高。因此,在一段较长的时间(例如一个月))的数据中,网吧的IP地址在每天的日志中都有活跃记录的可能性相对较高。
基于如上思想,在本实施例中用于判别IP地址为网吧IP的特征,包括以下一个或多个的组合:
(1)曾经使用过该IP地址的每个Cookie的存活时间的分布;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
例如,可以统计Cookie的存活时间分别为1小时以内,1~2小时,2~3小时,......24小时以上的个数分布情况。
(2)曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
(3)曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
例如,一个Cookie只使用过此IP地址,则比例为100%,又比如,一个Cookie使用过2个IP地址,但是使用此IP地址5次,使用另一个5次,则比例为50%,如果使用过此IP地址9次,使用另一个1次,则比例为90%。
(4)在所述全部行为日志时间范围内,所有曾经使用过此IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
例如,全部行为日志时间范围位一个月,那么,在一个月内每天的0点~1点、1点~2点、2点~3点、......23点~0点时间段内,统计使用过此IP地址访问互联网的次数占这一个月内使用过此IP地址的所有Cookie访问互联网的次数的比例。
(5)在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
这里统计的是用该IP地址上网的总时间长度。
S103:对于各IP地址,分别根据所述IP地址的网吧IP特征是否满足预设的判决策略来判断所述IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
在本实施例中,根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址的步骤包括以下一种或多种情况:
(1)如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
(2)如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
(3)如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
(4)如果曾经使用过该IP地址的所有Cookie在凌晨1点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
(5)如果曾经使用过该IP地址的所有Cookie中,第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
(6)如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的Cookie。
其中,第(6)种判别方式中,机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
在一个应用示例中,如图2所示,基于机器学习来判断所述IP地址是否为网吧IP地址,具体包括以下步骤:
S201:收集真实的网吧IP地址和非网吧IP地址;
其中,真实的网络IP地址可以通过多种方法收集,例如从网吧的电脑上直接获取网吧的IP地址,从网络运营商处获取在此运营商处申请了固定IP的网吧列表,获取正在网吧上网的用户的IP地址信息以及其他方法。而非网吧IP地址可以通过收集在家庭或公司的上网用户的IP地址信息来获取。
S202:根据所述IP地址的网吧IP特征应用机器学习法从所述真实的网吧IP地址和非网吧IP地址中训练出IP分类模型;
在IP分类模型的构建过程中,IP分类模型中的IP地址分类分为正类和负类,将真实网吧IP地址作为正类,将非网吧IP地址作为负类,从网络行为日志中提取Cookie,根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各个IP地址(包括两部分IP地址)的网吧IP特征。根据两部分IP地址的特征计算结果,利用机器学习法自动地构建出机器学习分类模型。下面以支持向量机分类模型作为机器学习模型的一个样例来描述分类模型的训练过程。本发明并不局限于支持向量机这一种机器学习模型。
本实例利用步骤S201获得的数据,使用线性支持向量机算法来训练分类模型。线性支持向量机采用特征的线性组合来判别正类和负类。将S103步骤中描述的5个特征的计算结果分别记为特征值1-5,那么线性支持向量机的分类函数可表示为权重1×特征值1+权重2×特征值2+权重3×特征值3+权重4×特征值4+权重5×特征值5+权重6,其中权重1-6通过模型的训练过程获得。
根据这个分类函数的判别正类和负类的方法为:对于任意一个IP地址,计算出5个特征的特征值后,将5个特征值代入到上述函数之中,若函数值大于等于0,线性支持向量机将其判别为正类;若干函数值小于0,则线性支持向量机将其判别为负类。
在机器学习模型的训练过程中,最优的权重根据步骤S201获得的真实数据来计算。当为某个真实的网吧IP地址计算出特征值后,如果代入到分类函数中发现函数值小于0,则应相应地调整权重1-6,使得这个网吧IP地址对应的函数值大于0;反之,对于真实的非网吧IP,应尽可能保证其所对应的函数值小于0。进一步地,最优的权重应根据如下准则来计算:
优化准则:最小化∑i数据集中第i个IP地址的误差,
其中IP地址取遍S201中获取的数据集中的每一个IP地址,一个IP地址的误差的定义为:当根据网吧IP特征计算出来的类别与IP地址的真实类别一致时,此IP地址的误差为0;当根据网吧IP特征计算出来的类别与IP地址的真实类别不一致时,此IP地址的误差为1。
根据如上准则,求解最优权重的问题被表达为标准的约束优化问题。约束优化问题可以采用梯度下降、模拟退火等多种数值优化的方法进行求解,从而获取最优的权重。
记数值优化求出的最优的6个权重为w1、w2、w3、w4、w5、w6,则训练出来的线性支持向量机分类模型对应的分类函数可表示为
w1×特征值1+w2×特征值2+w3×特征值3+w4×特征值4+w5×特征值5+w6。
S203:判断该IP地址是否为机器学习得到的正类IP地址,如果是,则判断该IP地址是网吧IP地址。
在判断一个IP地址是否为正类IP地址时,首先从网络行为日志中提取Cookie,根据Cookie的网络行为统计出该IP地址所有的网吧IP特征,然后将该IP地址的网吧IP特征通过S202构建出的机器学习分类模型中的函数计算出该IP地址为正类IP地址还是负类IP地址。
具体地,对于待判断类别的IP地址,首先根据其行为日志计算出S201中所述的5类网吧特征的特征值,再将计算出来的特征值代入到S202步骤训练出来的分类函数中。
记此IP地址的5个特征值分别为特征值1-5,相应的判别标准为:
若w1×特征值1+w2×特征值2+w3×特征值3+w4×特征值4+w5×特征值5+w6大于等于0,判别为正类;
若w1×特征值1+w2×特征值2+w3×特征值3+w4×特征值4+w5×特征值5+w6小于0,判别为负类;
除了上述操作步骤外,为了保证网吧IP数据库的时效性,在实际应用中,每隔一段固定的时间,重新在所述全部行为日志时间范围内提取Cookie,重新运行上述所有步骤,以实时地生成最新的网吧IP数据库。
如图3所示,本实施例提供了一种生成网吧IP数据库的装置,包括:
Cookie网络行为信息获取模块,用于从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及相应的访问时间;
IP地址特征统计模块,用于根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征;
网吧IP数据库生成模块,用于对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
其中,所述IP地址的网吧IP特征,包括以下一个或多个:
曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
所述网吧IP数据库生成模块,用于根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,包括以下一种或多种情况:
如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨1点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的Cookie。
如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
其中,所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
下面,在一个应用示例中,以根据所述IP地址的网吧IP特征是否满足预设的判决策略来判断所述IP地址是否为网吧IP地址为例,对本发明进一步作详细描述,如图4所示,包括以下步骤:
S301:记录Cookie每次访问互联网所使用的IP地址及相应的访问时间;
例如,如下表1所示,给出了来访Cookie的信息记录表:
Cookie ID | 上网行为信息(时间,IP地址) |
10889560 | 2012-2-29-12:38,202.111.202.3;2012-2-29-23:21,58.104.23.37 |
10889561 | 2012-2-1-00:38,58.104.23.37;2012-2-1-8:15,58.104.23.37 |
表1:来访的Cookie的信息记录表
S302:根据所述Cookie每次访问互联网所使用的IP地址及相应的访问时间,在全部行为日志时间范围内统计每个IP地址的网吧IP特征;
在下表2中,以IP地址为58.104.23.37,全部行为日志时间范围为2012-2-1-00:00到2012-2-29-23:59为例,给出了用于判别该IP地址是否为网吧IP地址的统计结果:
表2:一个IP地址的特征统计结果
S303:根据所述IP地址的网吧IP特征是否满足预设的判决策略来判断所述IP地址是否为网吧IP地址;
这里,根据上述实施例中的5个判决策略来判断,即:
(1)如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
(2)如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
(3)如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
(4)如果曾经使用过该IP地址的所有Cookie在凌晨1点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
(5)如果曾经使用过该IP地址的所有Cookie中,第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
(6)如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
其中,判决策略中使用的阈值可以根据实际情况进行调整。机器学习分类模型中的分类函数的各权重由实际收集到的真实网吧IP地址和非网吧IP地址决定。在本实例中,我们为前5条判决策略选择的阈值分别设为:80%、80%、80%、5%和90%。在本实例中,训练出来的机器学习分类模型中的分类函数的各权重分别为0.1、0.2、0.1、0.15、0.3、-0.5。下面,根据表2中的统计结果,按照上述判决策略来判断IP地址58.104.23.37是否为网吧IP。
(1)由表2可知,此IP的Cookie存活时间在24小时之内的Cookie总数为1151-11=1140,占Cookie总数1151的比例为99%,大于阈值80%;
(2)使用过不同的IP地址为预设个数可以根据实际情况进行调整,这里,由于使用网吧IP地址上网的Cookie所使用的IP地址相对较少,使用固定的一个或几个IP地址的可能性相对较高,因此,预设个数不会设置很多,例如1个、2个或3个,在本应用示例中,假设统计只使用过本IP地址,即只使用过1个IP地址的Cookie总数,如表2中所示,只使用过1个IP地址的Cookie个数为1077,占所有Cookie总数1151的比例为93%,大于阈值80%;
(3)由表2可知,超过50%的Cookie的个数为1077+42=1119,占所有Cookie总数1151的比例为97%,大于阈值80%;
(4)由表2可知,在一个月中,每天在1点使用该IP地址上网的Cookie占所有Cookie上网总次数的比例为4%,在凌晨2点为2%,也就是说,凌晨1-7点的上网比例4%+2%......一定超过了5%,也大于了预设阈值;
(5)由表2可知,曾经使用过此IP地址的所有Cookie中,第一次和最后一次访问互联网的时间间隔为2012-2-29-22:30减去2012-2-1-00:30,活跃时间的时间范围总共为28天22小时,占全部数据的时间范围29天比例超过90%。
(6)训练出来的机器学习分类模型中的分类函数的各权重分别为0.1、0.2、0.1、0.15、0.3、-0.5,则对应的分类函数为
0.1×特征值1+0.2×特征值2+0.1×特征值3+0.15×特征值4+0.3×特征值5-1.0。
对于实例中的IP地址,此IP地址的特征值对应计算得到的函数值不小于0.1×99%+0.2×93%+0.1×97%+0.15×5%+0.3×99%-0.5=0.1865
因此,分类函数的函数值大于0,分类模型判别此IP地址属于正类,即网吧IP地址类。
由上述分析可知,根据该判决策略,此IP地址是一个网吧IP。
S304:将所有被步骤S303判定为网吧IP的IP地址汇总到网吧IP数据库进行保存。
从上述实施例可以看出,相对于现有技术,上述实施例中提供的生成网吧IP数据库的方法及装置,能够自动地从包含IP地址信息的Cookie网络行为日志中提取出具有网吧IP特征的IP地址,生成网吧IP数据库,简单且不需要专业人员经过长时间通过多种手段的收集,并能够保证网吧IP数据库数据的可靠性和时效性。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并非用于限定本发明的保护范围。根据本发明的发明内容,还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种生成网吧IP数据库的方法,包括:
从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及所述Cookie该次访问互联网的访问时间;
根据所述Cookie每次访问互联网所使用的IP地址及所述Cookie该次访问互联网的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征;
对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
2.如权利要求1所述的方法,其特征在于:
所述IP地址的网吧IP特征,包括以下一个或多个:
曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天的每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
3.如权利要求2所述的方法,其特征在于:
所述根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址的步骤包括以下一种或多种情况:
如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨1点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的Cookie。
4.如权利要求3所述的方法,其特征在于:
所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
5.如权利要求1~4任一项权利要求所述的方法,其特征在于:所述方法还包括:
每隔一段固定的时间,重新在所述全部行为日志时间范围内提取Cookie,按照如权利要求1所述的方法重新生成新的网吧IP数据库。
6.一种生成网吧IP数据库的装置,包括:
Cookie网络行为信息获取模块,用于从服务器的网络行为日志中提取Cookie,在全部行为日志时间范围内,记录该Cookie每次访问互联网所使用的IP地址及所述Cookie该次访问互联网的访问时间;
IP地址特征统计模块,用于根据所述Cookie每次访问互联网所使用的IP地址及所述Cookie该次访问互联网的访问时间,在全部行为日志时间范围内分别统计各IP地址的网吧IP特征;
网吧IP数据库生成模块,用于对于各IP地址,分别根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,如果满足预设的判决策略则判断该IP地址为网吧IP地址,并将所有判断为网吧IP地址的IP地址生成网吧IP数据库。
7.如权利要求6所述的装置,其特征在于:
所述IP地址的网吧IP特征,包括以下一个或多个:
曾经使用过该IP地址的每个Cookie的存活时间;其中,每个Cookie的存活时间为每个Cookie在全部行为日志数据中第一次和最后一次访问互联网的时间间隔;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中曾经使用过的不同的IP地址的个数;
曾经使用过该IP地址的每个Cookie在全部行为日志数据中使用此IP地址访问互联网的次数占此Cookie访问互联网的总次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie在每天的每一小时内访问互联网的次数占所有Cookie访问互联网的次数的比例;
在所述全部行为日志时间范围内,所有曾经使用过该IP地址的Cookie第一次和最后一次访问互联网的时间间隔。
8.如权利要求7所述的装置,其特征在于:
所述网吧IP数据库生成模块,用于根据该IP地址的网吧IP特征是否满足预设的判决策略来判断该IP地址是否为网吧IP地址,包括以下一种或多种情况:
如果曾经使用过该IP地址的所有Cookie中,存活时间在24小时之内的Cookie总数占所有Cookie的比例大于第一预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用过不同的IP地址为预设个数的Cookie总数占所有Cookie的比例大于第二预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie中,使用此IP地址访问互联网的次数占访问互联网的总次数的比例超过50%的Cookie的总数占所有Cookie的比例大于第三预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie在所述全部行为日志时间范围内从凌晨1点到7点访问互联网的比例大于第四预设阈值,则判断该IP地址是网吧IP地址;
如果曾经使用过该IP地址的所有Cookie第一次和最后一次访问互联网的时间间隔占全部行为日志时间范围的比例大于第五预设阈值,则判断该IP地址是网吧IP地址;
如果该IP地址为机器学习得到的IP分类模型中的正类IP地址,则判断该IP地址是网吧IP地址;
其中,所有Cookie是指在所述全部行为日志时间范围内曾经使用过此IP地址的所有的Cookie。
9.如权利要求8所述的装置,其特征在于:
所述机器学习得到的IP分类模型中的正类IP地址是指:根据所述IP地址的网吧IP特征应用机器学习法从真实的网吧IP地址中训练出的IP分类模型中的IP地址分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210367803.1A CN103699546B (zh) | 2012-09-28 | 2012-09-28 | 一种生成网吧ip数据库的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210367803.1A CN103699546B (zh) | 2012-09-28 | 2012-09-28 | 一种生成网吧ip数据库的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103699546A CN103699546A (zh) | 2014-04-02 |
CN103699546B true CN103699546B (zh) | 2016-12-21 |
Family
ID=50361077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210367803.1A Active CN103699546B (zh) | 2012-09-28 | 2012-09-28 | 一种生成网吧ip数据库的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103699546B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103812961B (zh) | 2013-11-01 | 2016-08-17 | 北京奇虎科技有限公司 | 识别指定类别ip地址的方法及设备、防御方法及*** |
CN105025115B (zh) * | 2014-04-29 | 2018-06-15 | 北京秒针信息咨询有限公司 | 一种生成集体宿舍ip库的方法和装置 |
CN105100295B (zh) * | 2014-05-21 | 2019-01-15 | 北京秒针信息咨询有限公司 | 一种识别独立用户的方法和装置 |
CN105550248B (zh) * | 2015-11-26 | 2019-07-16 | 小米科技有限责任公司 | 用户信息挖掘方法及装置 |
CN108173714B (zh) * | 2017-12-27 | 2020-10-02 | 北京奇艺世纪科技有限公司 | 公共出口ip地址的检测方法、检测装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101188521A (zh) * | 2007-12-05 | 2008-05-28 | 北京金山软件有限公司 | 一种挖掘用户行为数据的方法和网站服务器 |
CN101572629A (zh) * | 2009-05-31 | 2009-11-04 | 腾讯科技(深圳)有限公司 | 一种ip数据的处理方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7254642B2 (en) * | 2003-01-30 | 2007-08-07 | International Business Machines Corporation | Method and apparatus for local IP address translation |
CN1332535C (zh) * | 2004-06-14 | 2007-08-15 | 深圳市傲天通信有限公司 | 用户上网行为控制*** |
US7761558B1 (en) * | 2006-06-30 | 2010-07-20 | Google Inc. | Determining a number of users behind a set of one or more internet protocol (IP) addresses |
KR100944724B1 (ko) * | 2007-08-21 | 2010-03-03 | 엔에이치엔비즈니스플랫폼 주식회사 | Ip 주소를 이용한 사용자 인증 시스템 및 그 방법 |
CN101990003B (zh) * | 2010-10-22 | 2012-11-28 | 西安交通大学 | 一种基于ip地址属性的用户行为监控***与方法 |
-
2012
- 2012-09-28 CN CN201210367803.1A patent/CN103699546B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101188521A (zh) * | 2007-12-05 | 2008-05-28 | 北京金山软件有限公司 | 一种挖掘用户行为数据的方法和网站服务器 |
CN101572629A (zh) * | 2009-05-31 | 2009-11-04 | 腾讯科技(深圳)有限公司 | 一种ip数据的处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103699546A (zh) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101990003B (zh) | 一种基于ip地址属性的用户行为监控***与方法 | |
CN103699546B (zh) | 一种生成网吧ip数据库的方法及装置 | |
CN104915879B (zh) | 基于金融数据的社会关系挖掘的方法及装置 | |
CN110462604A (zh) | 基于设备使用关联互联网设备的数据处理***和方法 | |
CN108090652A (zh) | 构建基于大数据技术的电力交易指标体系的方法 | |
US20120303552A1 (en) | Techniques to track users and user metrics for a website | |
Blaauboer et al. | Distances between couples and the man's and woman's parents | |
CN106980929A (zh) | 一种基于随机森林的停电投诉风险预测方法 | |
CN105095411B (zh) | 一种基于app质量的app排名预测方法及*** | |
CN107730310A (zh) | 电子装置、构建零售网点评分模型的方法及存储介质 | |
CN107592296A (zh) | 垃圾账户的识别方法和装置 | |
CN106846163A (zh) | 一种电力缴费渠道综合分析*** | |
CN109359686A (zh) | 一种基于校园网流量的用户画像方法及*** | |
CN106327211A (zh) | 一种基于社交媒体的scrm***及其开发方法 | |
CN110046174A (zh) | 一种基于大数据的人口迁移分析方法和*** | |
CN102184176A (zh) | 在网络中用于分析动态热点的方法 | |
CN108921425A (zh) | 一种资产项目投资分类的方法、***及服务器 | |
Li | Study on the development model of rural smart tourism based on the background of Internet of Things | |
Polymeni et al. | Findeas: a fintech-based approach on designing and assessing Iot systems | |
CN103179205B (zh) | 一种基于互联网的广告推送*** | |
CN112836137B (zh) | 人物网络支持度计算***及方法、终端、设备、存储介质 | |
CN105025115B (zh) | 一种生成集体宿舍ip库的方法和装置 | |
CN104200106B (zh) | 广义负荷建模中基于季节性的纵向时间轴聚类方法 | |
CN105491167A (zh) | 一种实时感知浏览器终端用户操作体验的实现方法 | |
Zhou et al. | User interest acquisition by adding home and work related contexts on mobile big data analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100102 Beijing, Chaoyang District Fu Tong East Street, building 1, room 5, room 321008 Applicant after: The second hand information technology Co. Ltd. Address before: 100012 Chaoyang District, Beiyuan Road, No. 32, a security building, No. 1, A District, Room 202, room two Applicant before: Beijing Sibotu Information Technology Co., Ltd. |
|
COR | Change of bibliographic data | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |