CN110913033A

CN110913033A - 基于cnn卷积神经网络学习的idcip地址分配方法

Info

Publication number: CN110913033A
Application number: CN201911138529.9A
Authority: CN
Inventors: 陈守明; 梁运德; 王飞鸣; 卢妍倩; 钱扬; 尚艳伟; 王甜; 李雪武; 李凯; 刘梓健; 占力超
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-03-24

Abstract

本发明涉及通讯技术领域，尤其是基于CNN卷积神经网络学习的IDCIP地址分配方法；它包括以下步骤：步骤001数据准备步骤，步骤002数据整理步骤，步骤003数据特征化步骤，步骤004建立模型步骤，步骤005训练验证步骤；针对该核心问题进行数据的获取和标定、以及进行数据整合和特征工程，明确数据定义并进行初步处理，通过预定义的规则进行特征和标签的定义。最后是进行模型训练和评估，通过数据导入，利用机器学习的不同模型，选择不同算法进行匹配验证，并进行发布，成为结构化的产品，并随着时间累积和数据丰富，模型的预测准确性会不断提升。

Description

基于CNN卷积神经网络学习的IDCIP地址分配方法

技术领域

本发明涉及通讯技术领域，尤其是基于CNN卷积神经网络学习的IDCIP地址分配方法。

背景技术

互联网数据中心(Intemet Data Center，简称IDC)是指一种拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、专业化的管理、完善的应用的服务平台。在这个平台基础上，IDC服务商为客户提供互联网基础平台服务(服务器托管、虚拟主机、邮件缓存、虚拟邮件等)以及各种增值服务(场地的租用服务、域名***服务、负载均衡***、数据库***、数据备份服务等)。

IDCIP地址分配的实质就是各个地区IDC机房IP地址的增量预估。

鉴于且业务量巨大，故其IP段或者IP地址的分配是繁复且枯燥的工作。传统的做法是客户向服务商申请后由代理商指定固定IP地址，代理商向服务商申请固定IP段。现有技术的弊端在于：我国各行各业发展迅猛，且更新换代非常快，原本对于IP需求旺盛的地区可能在短时间后又进入沉寂，而其他新兴地区又产生了巨大的IP地址需求，现有技术难以有效利用资源，且对未来某个区域的需求进行预测。另外，现有技术对于需求只能通过申请量来判断，对于某个IDC机房的负荷也仅仅以分配出去的IP地址作为参考，难以真实计算现有IDC机房是否能有效应对接入量。

发明内容

针对现有技术的不足，本发明提供一种在依赖于机房数据采集的长周期情况下，从机房的额定信息和状态监测数据(下载数、上传数、带宽、温度、空闲IP地址等)挖掘其中隐含的IDC机房的状态信息及其演变规律，实现IP地址的分配预测。

本发明的技术方案为：

基于CNN卷积神经网络学习的IDCIP地址分配方法，它包括以下步骤：

步骤001数据准备步骤，获取与IDC机房使用相关的数据；所述IDC机房的使用数据和环境数据；所述IDC机房的使用数据包括在正常使用时与IDC机房相关的自身数据以及状态数据；所述环境数据是指环境温度和空闲IP地址的信息；

步骤002数据整理步骤，对所述IDC机房使用相关的数据进行清洗并将清洗后的所述IDC机房使用相关的数据基于时间单元进行数据构建；所述对数据进行清洗包括，采用取一段行程该变量的平均值或中间值或相邻插值进行空余变量的赋值；通过设定IDC机房使用相关数据的每个变量的阈值检查数据是否合乎要求将超出正常范围的数据予以删除或纠正；通过设定IDC机房使用相关数据的相互约束和依赖关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正；所述数据构建包括，按照时间的顺序将搜集到的数据进行整合；

步骤003数据特征化步骤，将通过数据整理步骤得到的数据进行总结和抽取，获取特征化后的数据；对于数据的总结和抽取包括滚动聚合，所述滚动聚合是指设定一个时间窗口，计算在预定的变量在该时间窗口内的聚合值，所述聚合值可以是数据的总和、平均值或者是标准差；所述总结和抽取还包括将特征变量进行扩展，所述扩展包括对初始的特征变量根据滚动聚合的均值增加相应的个数，以及对初始的特征变量根据滚动聚合的标准差增加相应的个数；

步骤004建立模型步骤，基于特征化后的数据建立IDC机房增量预测的模型，模型包括CNN卷积神经网络模型和深度学习模型；

步骤005训练验证步骤，对CNN卷积神经网络模型和深度学***均；基于所述实验结果确定最佳的数据分类；步骤006算法评估步骤，评估数据的预测结果。

本发明的有益效果为：针对该核心问题进行数据的获取和标定、以及进行数据整合和特征工程，明确数据定义并进行初步处理，通过预定义的规则进行特征和标签的定义。最后是进行模型训练和评估，通过数据导入，利用机器学习的不同模型，选择不同算法进行匹配验证，并进行发布，成为结构化的产品，并随着时间累积和数据丰富，模型的预测准确性会不断提升。

具体实施方式

下面结合具体实施方式作进一步说明：

基于CNN卷积神经网络学习的IDCIP地址分配方法：

步骤S001数据准备步骤，获取与IDC机房使用相关的数据。

在本步骤中，所述IDC机房使用的数据包括IDC机房的监控数据和环境数据，监控数据每70毫秒(根据实际情况也有可能为其他采集频率)采集一次，所述IDC机房的监控数据包括在正常使用时与IDC机房相关的自身数据以及状态数据，一共超过200个数据变量。

S002数据整理步骤，对所述IDC机房使用相关的数据进行清洗并将清洗后的所述IDC机房使用相关的数据基于时间单元进行数据构建。

清理规则：

空余赋值：IDC机房数据在传输过程中，很容易发生掉包导致变量缺失，在本发明中，主要采用取一段行程该变量的平均值或中间值或相邻插值进行空余变量的赋值。

错值去除：通过设定IDC机房使用相关数据的每个变量的合理取值范围，即阈值，检查数据是否合乎要求，将超出正常范围的数据予以删除或纠正。

交叉检验：通过设定IDC机房使用相关数据的相互约束和依赖关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正。

清洗数据之后，基于时间单元进行数据构建，即按照时间的顺序将搜集到的数据进行整合。时间单元可以基于毫秒、秒、分钟等，时间单元可以和收集的频率可以不一致。

完成数据构建之后，需要对基于时间单元进行构建的数据进行评估以及修正。所述评估包括筛选出错误数据，即数据本身存在错误的那些数据。例如，包括但不限于，缺失值、异常值、时间周期错误和计算规格错误等。在评估之后，对于所述错误数据进行校正。例如对于缺失值，将存在null的值设置为0，补充缺失的数据；对于异常值，将负值设置为0，避免训练过程中出现错误；对于时间周期错误的数值，明确应该取得时间周期，调整并重新运行数据；对于计算规格错误的数值，明确口径调整并重新运行数据。

S003数据特征化步骤，将通过数据整理步骤得到的数据进行总结和抽取，获取特征化后的数据。

由于在后续的处理步骤中需要对数据进行处理和计算，为了便于计算和识别数据的特征，首先需要对整理后的数据进行特征化以便于显现所述数据的各种特征从而便于计算和识别。

在本步骤中，特征化的工作主要方法有功能特征和滚动聚合特征。

滚动聚合是指设定一个时间窗口，计算在预定的变量在该时间窗口内的聚合值，所述聚合值可以是数据的总和、平均值或者是标准差。

S004目标确定步骤。

对于每一条IDC机房数据的采集记录，经过特征化后，可以获得IDC机房运行信息。

S005数据计算步骤，基于特征化后的数据建立IDC机房增量预测的模型。

训练神经网络：使用上一步骤构建的人流数据训练生成对抗网络，模型设置两个部分，分别为生成部和判别部，他们的输入分别是历史数据张量矩阵X1∶n和真实人流张量矩阵Xn+1∶n+k，G(X1∶n)是生成部通过学习样本分布所产生的样本，判别部输入源于真实数据，那么它的输出值为真，如果来源于G(X1∶n)，那么它的输出值为假，神经网络模型采用WGAN生成对抗网络，Xi代表真实数据，X^_i代表生成的虚假数据，给定N对真假数据张量，结合均方差损失，对抗网络的目标函数为：

利用Seq2Seq模型作为生成部，在生成对抗网络的训练中，训练判别部最大化对其数据来源的判别精度，同时通过训练生成部来最小化判别部的精度，通过使用RMSProp算法和反向传播算法分别对两者进行优化，最终当算法收敛时，得到最优解。

S3生成预测结果；

S006训练验证步骤，对模型进行训练和验证以优化该自适应模型。

在建立上述模型的基础上，需要进行训练和验证的工作来优化模型。以便提高模型的准确性。

在本具体实施方式中，所述训练验证步骤优选包括交叉验证和少数类采样。

所述交叉验证方法中对于各个模型的参数框架进行优化。算法的可靠性依赖参数框架，就是说哪些数据对于产生的结果是最有效的。

在本具体实施方式中，为了提高参数框架的质量，首先把原始的数据随机分成K个部分。在这K个部分中，选择其中一个部分作为测试数据，剩下的K-1个部分作为训练数据得到相应的实验结果。然后，挑选另外一个部分作为测试数据，剩下的K-1个部分作为训练数据，以此类推，重复进行K次交叉检验的。每次实验都从K个部分中选择一个不同的部分作为测试数据，保证K个部分的数据都分别做过测试数据，剩下的K-1个当作训练数据进行实验。最后把得到的K个实验结果平均，所述实验结果可以为预测值和校验值的差值，使得差值越小越好，从而确定最佳的分类，实现模型的训练。在本应用中，可以将获得电动汽车的数据随即分成K个部分，首先将其中K-1个部分的数据用于建立增量预测模型，然后利用新建模型去验证剩下最后一部分的数据是否满足该模型。以此类推。

所述少数类采样是针对一类数据仅仅有很少数量的训练样本时，数据集不平衡的情况时采用的。当一类数据仅仅有少量的训练样本时，本具体实施方式中可以通过将少数的故障样本数据合成新的少数类样本数据来进行模型的训练。例如在电池的数据收集中，当只采集到少量样本时，为了从少量数据中产生更多进行机器学***衡导致的过拟合或者扭曲。

S007算法评估步骤，评估数据在不同算法下的预测结果，基于评估选择最优的算法。

在IDC机房增量预测中，基于不同的预测目标或者是不同的数据源，采用不同的算法所得到的结果也是不同的，这样就需要针对不同的情况选择较佳的算法。

通常在IDC机房增量预测中，可以使用预测值和S004中的校验值的差值，评估预测结果，比较在不同情况下采用不同的算法所得到的结果是否最优，从而选择最优的算法。

其中，差值是针对预测结果而言所述模型预测IDC机房增量程度和校验值的差距是多少，一般是越低越好。

S008算法模拟，将最优算法封装并提供友好的用户界面。

这次专利中会提供增量问题预测的模拟器，能够让使用者方便的通过参数的选定来获得具体的增量预测数值，并能通过参数之间的调整，反映对增量的影响。因为实际运行过程中影响增量预测的数量很多，为了能够在较短的时间能给出一个相对精确的数据，根据目前的牵引力选择，制动力选择，环境温度和湿度的选择，并且依据S005建立好的模型，能够给出计算结果。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.基于CNN卷积神经网络学习的IDCIP地址分配方法，其特征在于：

步骤S001数据准备步骤，获取与IDC机房使用相关的数据；

S002数据整理步骤，对/所述IDC机房使用相关的数据进行清洗并将清洗后的所述IDC机房使用相关的数据基于时间单元进行数据构建；

S003数据特征化步骤，将通过数据整理步骤得到的数据进行总结和抽取，获取特征化后的数据；

S004目标确定步骤；

S005数据计算步骤，基于特征化后的数据建立IDC机房增量预测的模型；

S006训练验证步骤，对模型进行训练和验证以优化该自适应模型；

S007算法评估步骤，评估数据在不同算法下的预测结果，基于评估选择最优的算法；

S008算法模拟，将最优算法封装并提供友好的用户界面。

2.根据权利要求1所述的基于CNN卷积神经网络学习的IDCIP地址分配方法，其特征在于：在本步骤中，所述IDC机房使用的数据包括IDC机房的监控数据和环境数据，监控数据每70毫秒采集一次，所述IDC机房的监控数据包括在正常使用时与IDC机房相关的自身数据以及状态数据，一共超过200个数据变量。

3.根据权利要求2所述的基于CNN卷积神经网络学习的IDCIP地址分配方法，其特征在于：清理规则：

错值去除：通过设定IDC机房使用相关数据的每个变量的合理取值范围，即阈值，检查数据是否合乎要求，将超出正常范围的数据予以删除或纠正；

交叉检验：通过设定IDC机房使用相关数据的相互约束和依赖关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正；

清洗数据之后，基于时间单元进行数据构建，即按照时间的顺序将搜集到的数据进行整合。时间单元可以基于毫秒、秒、分钟等，时间单元可以和收集的频率可以不一致；

完成数据构建之后，需要对基于时间单元进行构建的数据进行评估以及修正；所述评估包括筛选出错误数据，即数据本身存在错误的那些数据。

4.根据权利要求3所述的基于CNN卷积神经网络学习的IDCIP地址分配方法，其特征在于：训练神经网络：使用上一步骤构建的人流数据训练生成对抗网络，模型设置两个部分，分别为生成部和判别部，他们的输入分别是历史数据张量矩阵X1：n和真实人流张量矩阵Xn+1：n+k，G(X1：n)是生成部通过学习样本分布所产生的样本，判别部输入源于真实数据，那么它的输出值为真，如果来源于G(X1：n)，那么它的输出值为假，神经网络模型采用WGAN生成对抗网络，Xi代表真实数据，X^_i代表生成的虚假数据，给定N对真假数据张量，结合均方差损失，对抗网络的目标函数为：

利用Seq2Seq模型作为生成部，在生成对抗网络的训练中，训练判别部最大化对其数据来源的判别精度，同时通过训练生成部来最小化判别部的精度，通过使用RMSProp算法和反向传播算法分别对两者进行优化，最终当算法收敛时，得到最优解；

S3生成预测结果。

5.根据权利要求4所述的基于CNN卷积神经网络学习的IDCIP地址分配方法，其特征在于：在建立上述模型的基础上，进行训练和验证的工作来优化模型；所述训练验证步骤优选包括交叉验证和少数类采样；

首先把原始的数据随机分成K个部分。在这K个部分中，选择其中一个部分作为测试数据，剩下的K-1个部分作为训练数据得到相应的实验结果。然后，挑选另外一个部分作为测试数据，剩下的K-1个部分作为训练数据，以此类推，重复进行K次交叉检验的。每次实验都从K个部分中选择一个不同的部分作为测试数据，保证K个部分的数据都分别做过测试数据，剩下的K-1个当作训练数据进行实验。最后把得到的K个实验结果平均，所述实验结果可以为预测值和校验值的差值，使得差值越小越好，从而确定最佳的分类，实现模型的训练。在本应用中，可以将获得电动汽车的数据随即分成K个部分，首先将其中K-1个部分的数据用于建立增量预测模型，然后利用新建模型去验证剩下最后一部分的数据是否满足该模型。以此类推。

6.根据权利要求5所述的基于CNN卷积神经网络学习的IDCIP地址分配方法，其特征在于：在IDC机房增量预测中，使用预测值和S004中的校验值的差值，评估预测结果，比较在不同情况下采用不同的算法所得到的结果是否最优，从而选择最优的算法。