CN110401727B

CN110401727B - 一种ip地址分析方法和装置

Info

Publication number: CN110401727B
Application number: CN201810374614.4A
Authority: CN
Inventors: 刘鑫琪; 丛磊; 陈�峰
Original assignee: Beijing Shuan Xinyun Information Technology Co ltd
Current assignee: Beijing Shuan Xinyun Information Technology Co ltd
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2022-04-19
Anticipated expiration: 2038-04-24
Also published as: CN110401727A

Abstract

本发明提供了一种IP地址分析方法和装置。该方法包括：收集IP地址数据；根据所述IP地址数据得到训练样本；使用所述训练样本生成至少一个属性对应的训练模型；通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率。本发明提高了运算效率及准确性。

Description

一种IP地址分析方法和装置

技术领域

本发明涉及云计算领域，尤其涉及一种IP地址分析方法和装置。

背景技术

现有技术中，常常通过收集IP地址库中的信息分析、或通过IP反向解析获取信息分析、或通过分析IP访问日志进行人工建模分析对IP地址身份及属性进行分析，预测IP地址行为，此种应用方法存在如下问题：

1、通过收集IP地址库中的信息分析、或通过IP反向解析获取信息分析可获得的信息有限，无法进行大量的属性判断。

2、通过收集IP地址库中的信息分析获取具时效性的历史数据更新需要较大的成本支出。

3、通过分析IP访问日志进行人工建模分析需要大量人工建模，工作量大，且对因周期选取不同导致的特征向量群体性变化无法较好地适应，会产生在当期预测较准，但其他周期预测不准的问题。

4、通过分析IP访问日志进行人工建模分析对各属性分析结果的划分不科学，不同结果之间可能存在矛盾，导致分析结果欠准确。

5、现有技术对于无数据IP地址等情况无法给出详细的分析结果。

发明内容

本发明旨在解决上面描述的问题。

根据本发明的第一方面，提供了一种IP地址分析方法，包括：

收集IP地址数据；

根据所述IP地址数据得到训练样本；

使用所述训练样本生成至少一个属性对应的训练模型；

通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率。

优选的，所述IP地址数据至少包含以下数据中的任一种或任意多种：

IP地址库，云分发网络CDN原始日志，IP地址的标签数据，

其中，所述IP地址的标签数据描述了所述IP地址的各种属性，所述IP地址的标签数据周期性更新。

优选的，所述根据所述IP地址数据得到训练样本的步骤包括：

按照预置的第一周期，计算各个第一周期内的所述IP地址数据中各IP地址对应的特征，每个第一周期对应一工作日或一休息日，所述特征包含：

工作时段请求数，休息时段请求数，睡眠时段请求数，工作时段请求文件大小，休息时段请求文件大小，睡眠时段请求文件大小，工作时段用户客户端用户代理UserAgent数，休息时段UserAgent数，睡眠时段UserAgent数，移动端UserAgent数，PC端UserAgent数，访问来源数量，访问域名数量，出现小时数；

计算预置的第二周期内的各第一周期特征的统计特征，所述第二周期为所述第一周期的整数倍，所述统计特征包含：

对应工作日的第一周期各特征的最大值、最小值、平均值和标准差，对应休息日的第一周期各特征的最大值，最小值，平均值，标准差；

统计所述第二周期内IP地址的工作日移动端UserAgent排重后的数量平均值A、休息日移动端UserAgent排重后的数量平均值B、工作日PC端UserAgent排重后的数量平均值C、休息日PC端UserAgent排重后的数量平均值D，取A、B、C、D中的最大值作为所述第二周期内使用所述IP地址的人数；

以所述第二周期的统计特征和人数，以及各个IP地址的标签数据作为训练样本。

优选的，所述使用所述训练样本生成至少一个属性对应的训练模型的步骤包括：

选择待生成的训练模型对应的属性；

提取各个IP地址与所述属性对应的标签数据，以确定各个IP地址是否具备所述属性；

以所述统计特征、人数和所述标签数据作为随机森林模型的输入，进行模型训练，得到所述属性对应的训练模型。

优选的，所述通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率的步骤之后，还包括：

在所述IP地址的属性概率与IP地址库中的信息一致时，生成新的属性概率值，所述新的属性概率值为所述属性概率开方值，以调高该属性的概率值；

在所述IP地址的属性概率与IP地址库中的信息相反时，生成新的属性概率值，所述新的属性概率值为所述属性概率平方值，以调低该属性的概率值；

在所述IP地址的属性概率低于预置的概率范围的下限值时，生成新的属性概率值，所述新的属性概率值为所述概率范围的下限值；

在所述IP地址的属性概率高于所述概率范围的上限值时，生成新的属性概率值为握权概率范围的上限值。

优选的，该方法还包括：

将计算得到的属性概率与历史数据合并得到新的历史数据，所述历史数据包含之前的所述IP地址的各个属性概率，根据以下表达式计算各个属性概率的新的历史数据：

新的历史数据中的属性概率＝属性概率*更新率+所述历史数据中的属性概率(1-更新率)。

优选的，该方法还包括：

对于不存在于所述CDN原始日志中的IP地址，选择距离所述IP地址最近的IP地址的属性概率作为参照值，推算本IP地址的属性概率。

根据本发明的另一方面，提供了一种IP地址分析装置，包括：

数据采集模块，用于收集IP地址数据；

训练样本提取模块，用于根据所述IP地址数据得到训练样本；

模型生成模块，用于使用所述训练样本生成至少一个属性对应的训练模型；

概率预测模块，用于通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率。

优选的

IP地址库，内容分发网络CDN原始日志，IP地址的标签数据，

其中，所述IP地址的标签数据描述了所述IP地址的各种属性，所述IP地址的标签数据周期性更新，

所述训练样本提取模块包括：

第一周期统计单元，用于按照预置的第一周期，计算各个第一周期内的所述IP地址数据中各IP地址对应的特征，每个第一周期对应一工作日或一休息日，所述特征包含：

第二周期统计单元，用于计算预置的第二周期内的各第一周期特征的统计特征，所述第二周期为所述第一周期的整数倍，所述统计特征包含：

人数统计单元，用于统计所述第二周期内IP地址的工作日移动端UserAgent排重后的数量平均值A、休息日移动端UserAgent排重后的数量平均值B、工作日PC端UserAgent排重后的数量平均值C、休息日PC端UserAgent排重后的数量平均值D，取A、B、C、D中的最大值作为所述第二周期内使用所述IP地址的人数；

样本数据生成单元，用于以所述第二周期的统计特征和人数，以及各个IP地址的标签数据作为训练样本。

优选的，该装置还包括：

概率修正模块，用于：

优选的，该装置还包括：

历史数据更新模块，用于将计算得到的属性概率与历史数据合并得到新的历史数据，所述历史数据包含之前的所述IP地址的各个属性概率，根据以下表达式计算各个属性概率的新的历史数据：

本发明提供了一种IP地址分析方法和装置。收集IP地址数据，根据所述IP地址数据得到训练样本，再使用所述训练样本生成至少一个属性对应的训练模型，最后通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率。解决了现有IP地址分析方法分析结果欠准确、内容不够详尽的问题，实现了准确、覆盖全面的IP地址分析方案。

参照附图来阅读对于示例性实施例的以下描述，本发明的其他特性特征和优点将变得清晰。

附图说明

并入到说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于解释本发明的原理。在这些附图中，类似的附图标记用于表示类似的要素。下面描述中的附图是本发明的一些实施例，而不是全部实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。

图1示例性的示出了本发明的实施例一提供的一种IP地址分析方法的流程；

图2示例性的示出了本发明的实施例一中对IP地址的属性分类；

图3示例性的示出了图1中步骤102的具体流程；

图4示例性的示出了图1中步骤103的具体流程；

图5示例性的示出了本发明的实施例二提供的一种IP地址分析装置的结构；

图6示例性的示出了图5中训练样本提取模块502的结构。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

为了解决上述问题，本发明的实施例提供了一种IP地址分析方法和装置。收集包含CDN原始日志的IP地址数据，使用随机森林模型生成各个属性对应的训练模型，根据训练模型对IP地址进行分析得到IP地址的属性概率。解决了现有IP地址分析方法分析结果欠准确、内容不够详尽的问题，实现了准确、覆盖全面的IP地址分析方案。

首先结合附图，对本发明的实施例一进行说明。

本发明实施例提供了一种IP地址分析方法，使用该方法完成对IP地址属性分析的流程如图1所示，包括：

步骤101、收集IP地址数据。

本发明实施例中，IP地址数据的数据源包括以下几种：

1、IP地址库：IP或IP段及其对应信息，包括国家，省，市，运营商等信息。

2、CDN原始日志：主要包括客户端IP地址，客户端用户名称，访问时间，请求URI，请求状态，文件大小，页面链接来源，客户端浏览器等信息。

3、标签数据：IP地址及其对应标签，标签包括例如真人，机器，办公出口，教育网，移动基站，住宅出口等。标签数据中包含对IP地址所有属性的标注，如为真人，非机器，为办公出口，非教育网，非移动基站，非住宅出口(转为属性标签则为真人属性标签为1，办公出口属性标签为1，教育网属性标签为0，移动基站属性标签为0，住宅出口属性标签为0)。

4、假期对照表：日期及其为工作日、休息日或假期的对照关系。

5、IP地址属性的历史数据：为前一个第二周期更新的各属性概率数据。

其中，CDN原始日志作为主要数据源，IP地址库作为进行IP地址属性分类的辅助信息。例如，IP地址库中可能标注某IP地址为**公司，但：

1、这种标注信息未将所有IP都进行标注；2、不是所有属性都标注。

因此，采用上述综合的数据源解决了部分IP库信息局限性问题。

本发明实施例中对IP地址的属性分类如图2所示，为层级结构，不同层级的属性具有父子关系，同级的属性具有互斥关系。IP属性可根据实际应用需求配置，同极的不同属性之间互斥，既对于同一IP地址来说，在同一级别只能具有其中一种属性。

步骤102、根据所述IP地址数据得到训练样本。

本步骤具体如图3所示，包括：

步骤1021、按照预置的第一周期，计算各个第一周期内的所述IP地址数据中各IP地址对应的特征，每个第一周期对应一工作日或一休息日，所述特征包含：

工作时段请求数，休息时段请求数，睡眠时段请求数，工作时段请求文件大小，休息时段请求文件大小，睡眠时段请求文件大小，工作时段用户客户端用户代理UserAgent数，休息时段UserAgent数，睡眠时段UserAgent数，移动端UserAgent数，PC端UserAgent数，访问来源数量，访问域名数量，出现小时数。

具体的，按第一周期计算特征，包括但不限于：

工作时段请求数，休息时段请求数，睡眠时段请求数，工作时段请求文件大小，休息时段请求文件大小，睡眠时段请求文件大小，工作时段用户客户端UserAgent数，休息时段UserAgent数，睡眠时段UserAgent数，移动端UserAgent数，PC端UserAgent数，访问来源数量，访问域名数量，出现小时数。构成n维向量。

步骤1022、计算预置的第二周期内的各第一周期特征的统计特征，所述第二周期为所述第一周期的整数倍，所述统计特征包含：

对应工作日的第一周期各特征的最大值、最小值、平均值和标准差，对应休息日的第一周期各特征的最大值，最小值，平均值，标准差。

第一周期一般为一天，第二周期一般为一个自然月。

步骤1023、统计所述第二周期内IP地址的工作日移动端UserAgent数量平均值A、休息日移动端UserAgent数量平均值B、工作日PC端UserAgent数量均值C、休息日PC端UserAgent数量平均值D，取A、B、C、D中的最大值作为所述第二周期内使用所述IP地址的人数。

步骤1024、以所述第二周期的统计特征和人数，以及各个IP地址的标签数据作为训练样本。

具体的，按第二周期计算特征：将统计周期内的第一周期分为工作日和休息日。统计第一周期计算出来的所有特征分别在第二周期的工作日和休息日的最大值，最小值，平均值，标准差等m种统计特征，则构成m*n为新的高维特征，记full_n＝m*n*2。人数计算：统计所述第二周期内IP地址的工作日移动端UserAgent排重后的数量平均值A、休息日移动端UserAgent排重后的数量平均值B、工作日PC端UserAgent排重后的数量平均值C、休息日PC端UserAgent排重后的数量平均值D，取A、B、C、D中的最大值作为所述第二周期内使用所述IP地址的人数；

步骤103、使用所述训练样本生成至少一个属性对应的训练模型。

本发明实施中，需要通过模型预测的属性概率包括：真人概率，办公出口概率，住宅出口概率，教育网概率，移动基站概率。

对于服务器概率，通过1-真人概率获取。

内网、保留IP地址的属性概率，为已知数据。

出口概率可在真人概率达到一定程度下通过人数计算的对应关系获取。

本步骤具体如图4所示，包括：

步骤1031、选择待生成的训练模型对应的属性。

步骤1032、提取各个IP地址与所述属性对应的标签数据，以确定各个IP地址是否具备所述属性。

获取当前训练模型对应的标签数据，记标签数据数量为labeled_n。标签数据将IP地址的任一项属性映射为0或者1，比如IP地址具有一属性为办公出口，则训练办公出口属性的训练模型时标签数据为1，训练教育网出口属性的训练模型时标签数据为0。

根据当前选择的属性及其对应的标签数据，筛选本次训练模型所使用的样本，一般某属性的正反例数量大体持平有利于模型准确性。(也就是说从全量样本数据中抽取部分样本数据作为本次训练数据，标签为0和1的比例基本持平)，抽取方法可以为随机抽样也可以为人工抽样等各种抽样方法。

随机森林模型的参数设置，包括但不限于森林内树的数量，某节点内最少样本量，可以切分的节点最少样本量等。

使用抽样后的训练样本根据上述参数设置进行该属性的模型训练。根据当前选择的属性及其给的标签数据，筛选本次训练模型所使用的样本，一般某属性的正反例数量大体持平有利于模型准确性(也就是说从全量样本数据中抽取部分样本数据作为本次训练数据，标签为0和1的比例基本持平)。抽取方法可以为随机抽样也可以为人工抽样等各种抽样方法。

步骤1033、以所述统计特征、人数和所述标签数据作为随机森林模型的输入，进行模型训练，得到所述属性对应的训练模型。

使用随机森林(Random Forest)进行模型训练，并保存模型model_n。

步骤104、通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率。

本步骤进行如下参数设置：

1、真人概率阈值。

2、出口概率阈值。

3、人数和出口概率对应关系。

4、概率默认值。

5、概率范围，例如[5％，95％]。

6、概率调整公式：

在所述IP地址的属性概率高于所述概率范围的上限值时，生成新的属性概率值为所述概率范围的上限值。

例如IP库返回信息命中某属性，则该属性新概率＝该属性原概率的开方；无相关信息，则该属性新概率＝该属性原概率；如IP库返回信息与该属性相反，则该属性新概率＝该属性原概率的平方。注意如低于概率范围的最低值则返回最低值，高于最高值则返回最高值。

根据该概率调整公式，在排除内网、保留IP地址后剩下的其他所有IP地址的full_n维特征向量数据中遍历所有IP地址，进行以下步骤：

1、预测真人概率，应用属性为真人的随机森林模型，输入该IP地址的特征向量进行预测。

2、出口概率预测：获取该IP地址的人数和真人概率，应用公式计算出口概率。例如设初始出口概率为人数和出口概率对应关系返回的出口概率，如1中预测的真人概率高于真人概率阈值，应用概率调整公式上调概率；否则如真人概率超过真人概率阈值且出口概率超过出口概率阈值，则执行3，否则执行4。

3、如该IP地址的真人概率超过真人概率阈值及出口概率超过出口概率阈值，则分别对办公出口概率、教育网概率、移动基站概率和住宅出口概率属性进行预测，预测过程为分别加载每个属性的训练模型，返回各属性对应的属性概率。

4、如该IP地址的真人概率不超过真人概率阈值或出口概率不超过出口概率阈值，则对办公出口概率、教育网概率、移动基站概率和住宅出口概率赋值默认值(此概率默认值一般偏低)。

5、每个IP地址查询IP地址库，如IP地址库返回信息中包含特殊字符串，则按照6的公式增加或减少某属性相应概率。例如，返回信息中包含“教育网”，则增加教育网概率，减少互斥的其他三种属性概率。

6、汇总每个IP的数据，包括IP地址，真人概率，出口概率，办公出口概率，教育网概率，移动基站概率，住宅出口概率等信息。

步骤105、合并历史数据。

本步骤需要配置的参数为更新率。

对于不存在于所述CDN原始日志中的IP地址，选择距离所述IP地址最近的IP地址的属性概率作为参照值，推算本IP地址的属性概率。例如某IP地址不在CDN原始日志数据中，则根据在IP地址库中距离该IP距离最近的，且在相同C段(例如1.2.3.4则其c段为1.2.3.*)的IP地址(记为相邻IP地址)的各属性进行推测。推测方法为，根据该IP地址与其相邻IP地址的距离(IP地址转为长整型后的差值),应用某公式对各个属性进行推测。例如本IP地址的某属性概率为相邻IP地址某属性概率/距离。

下面结合附图，对本发明的实施例二进行说明。

本发明实施例提供了一种IP地址分析装置，其结构如图5所示，包括：

数据采集模块501，用于收集IP地址数据；

训练样本提取模块502，用于根据所述IP地址数据得到训练样本；

模型生成模块503，用于使用所述训练样本生成至少一个属性对应的训练模型；

概率预测模块504，用于通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率。

IP地址库，内容分发网络CDN原始日志，IP地址的标签数据，

所述训练样本提取模块502的结构如图6所示，包括：

第一周期统计单元5021，用于按照预置的第一周期，计算各个第一周期内的所述IP地址数据中各IP地址对应的特征，每个第一周期对应一工作日或一休息日，所述特征包含：

第二周期统计单元5022，用于计算预置的第二周期内的各第一周期特征的统计特征，所述第二周期为所述第一周期的整数倍，所述统计特征包含：

人数统计单元5023，用于统计所述第二周期内IP地址的工作日移动端UserAgent排重后的数量平均值A、休息日移动端UserAgent排重后的数量平均值B、工作日PC端UserAgent排重后的数量平均值C、休息日PC端UserAgent排重后的数量平均值D，取A、B、C、D中的最大值作为所述第二周期内使用所述IP地址的人数；

样本数据生成单元5024，用于以所述第二周期的统计特征和人数，以及各个IP地址的标签数据作为训练样本。

优选的，该装置还包括：

概率修正模块505，用于：

优选的，该装置还包括：

历史数据更新模块506，用于将计算得到的属性概率与历史数据合并得到新的历史数据，所述历史数据包含之前的所述IP地址的各个属性概率，根据以下表达式计算各个属性概率的新的历史数据：

本发明的实施例提供了一种IP地址分析方法和装置。收集IP地址数据，根据所述IP地址数据得到训练样本，再使用所述训练样本生成至少一个属性对应的训练模型，最后通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率。解决了现有IP地址分析方法分析结果欠准确、内容不够详尽的问题，实现了准确、覆盖全面的IP地址分析方案。应用随机森林选取IP每个属性的重要特征向量而不需要人工经验挑选，应用随机森林进行预测而不需要人工大量建模，每个第二周期虽采用相同的标签IP，但每类的IP在每个月的各个特征向量为获取当期特征向量进行预测；而相似技术采取人工建模方式，对因周期选取不同导致的特征向量群体性变化，无法较好地适应，会产生在当期预测较准，但其他周期预测不准的问题，本发明的实施例提供的技术方案有效避免了这一问题，提高了运算效率及准确性。加入新老数据更新率，通过调整更新率，可以使新数据以指定的权重更新全量数据。

由于在整个计算过程中加入了前置判断，使父子关系的属性具有继承关系，例如某两个IP地址的人数相同，则为真人IP的出口概率会高于非真人IP。同时由于训练模型中互斥的属性，标签是相反的，则减少属性互斥问题，例如标签数据中某IP为办公出口IP，则训练办公出口模型时其为正例，而在训练教育网、移动基站、住宅出口模型时，此IP地址为反例。

本发明的实施例还加入了对无数据IP地址的属性推测，使IP地址分析的覆盖更全面。

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种IP地址分析方法，其特征在于，包括：

收集IP地址数据；

根据所述IP地址数据得到训练样本；

使用所述训练样本生成至少一个属性对应的训练模型；

通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率；

其中，所述IP地址的属性分类为层级结构，不同层级的属性具有父子关系，同级的属性具有互斥关系。

2.根据权利要求1所述的IP地址分析方法，其特征在于，所述IP地址数据至少包含以下数据中的任一种或任意多种：

IP地址库，云分发网络CDN原始日志，IP地址的标签数据，

3.根据权利要求1所述的IP地址分析方法，其特征在于，所述根据所述IP地址数据得到训练样本的步骤包括：

4.根据权利要求3所述的IP地址分析方法，其特征在于，所述使用所述训练样本生成至少一个属性对应的训练模型的步骤包括：

选择待生成的训练模型对应的属性；

5.根据权利要求4所述的IP地址分析方法，其特征在于，所述通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率的步骤之后，还包括：

6.根据权利要求5所述的IP地址分析方法，其特征在于，该方法还包括：

新的历史数据中的属性概率＝属性概率*更新率+所述历史数据中的属性概率*(1-更新率)。

7.根据权利要求5所述的IP地址分析方法，其特征在于，该方法还包括：

对于不存在于CDN原始日志中的IP地址，选择距离所述IP地址最近的IP地址的属性概率作为参照值，推算本IP地址的属性概率。

8.一种IP地址分析装置，其特征在于，包括：

数据采集模块，用于收集IP地址数据；

概率预测模块，用于通过所述训练模型对IP地址进行分析，得到所述IP地址的属性概率；

9.根据权利要求8所述的IP地址分析装置，其特征在于，所述IP地址数据至少包含以下数据中的任一种或任意多种：

IP地址库，内容分发网络CDN原始日志，IP地址的标签数据，

所述训练样本提取模块包括：

10.根据权利要求9所述的IP地址分析装置，其特征在于，该装置还包括：

概率修正模块，用于：

11.根据权利要求10所述的IP地址分析装置，其特征在于，该装置还包括：