CN110474844B

CN110474844B - 高性能智能路由器学习型索引数据结构的训练方法和芯片

Info

Publication number: CN110474844B
Application number: CN201910571831.7A
Authority: CN
Inventors: 李卓; 闫柳; 刘开华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-06-08
Anticipated expiration: 2039-06-28
Also published as: CN110474844A

Abstract

本发明公开了一种高性能智能路由器学习型索引数据结构，包含输入单元、模型单元和输出单元。输入单元将每一条索引数据拆分为若干子向量，然后对所有子向量中相同位置的元素执行按位异或运算，得到对应的输入向量。模型单元用于训练、预测累积分布函数值，并设计为由小型简单的神经网络组成的塔式两级结构。输出单元则将已预测的累积分布函数值乘映射表中槽的总个数，得到映射表中的映射位置，随后根据该位置所在部分对应的基地址和该位置中记录的实际存储器地址偏移量，求得最终索引地址。该索引数据结构能够在保证数据检索速度的基础上提升存储效率，其训练方法能够针对路由表数据特点实现快速稳定的神经网络训练。

Description

高性能智能路由器学习型索引数据结构的训练方法和芯片

技术领域

本发明属于高性能路由器索引数据结构设计领域，特别针对路由器中索引数据的快速检索和高效存储问题。

背景技术

随着互联网用户数量的不断扩大，虚拟现实、全息通信等新的互联网应用在传统行业的不断呈现，雾计算、人工智能等创新技术和计算模式的不断发展，当今互联网单位时间内需要处理的数据量急剧增加。这一现状为高性能路由器的设计带来了巨大的挑战，国内外许多研究机构都在积极探索路由器新型索引数据结构的设计问题。

路由器新型索引数据结构的设计需要坚持以下两个原则。首先，所设计的索引数据结构应支持基本的路由数据快速检索，所有的***、查找、更新等操作均应以线速执行。第二，所设计的索引数据结构应实现路由数据压缩存储，以应对路由表数据量日益增长的现状。

目前，哈希表、布隆过滤器、查找树、跳表及其衍生数据结构被广泛用作路由器中的索引。其中，哈希表操作速度快，但需要消耗更多的存储空间以减少冲突；布隆滤波器无法定位元素的地址；查找树和跳表的查找速度均较慢。总之，目前主要研究成果都在存储消耗和查找速度之间进行权衡，不能满足高性能路由器数据检索的所有要求。因此，迫切需要提出新的解决方案，设计全新的路由器索引数据结构，以适应当今互联网发展的现状。

发明内容

针对上述现有技术，本发明设计了一种高性能智能路由器学习型索引数据结构及其训练方法。该索引数据结构能够在保证数据检索速度的基础上提升存储效率，其训练方法能够针对路由表数据特点实现快速稳定的神经网络训练。

为了解决上述技术问题，本发明提出的一种高性能智能路由器学习型索引数据结构，包括输入单元、模型单元和输出单元；所述输入单元用于将路由表索引数据转变为输入向量，将每一条索引数据拆分为若干子向量，然后对所有子向量中相同位置的元素执行按位异或运算，最终得到该索引数据对应的输入向量；所述模型单元用于训练、预测累积分布函数值，该模型单元为塔式两级结构，包括第一级的一个神经网络和第二级的若干神经网络；所述输出单元将所述模型单元已预测的累积分布函数值乘以映射表中槽的总个数，得到映射表中的映射位置，随后根据该映射位置所在部分对应的基地址和该映射位置中记录的实际存储器地址偏移量，求得最终索引地址。

同时，本发明还提出了关于上述高性能智能路由器学习型索引数据结构的训练方法，具体步骤如下：

步骤一、第一次训练集标定：由实际路由表索引数据构成的训练集数据经所述输入单元转变为输入向量，然后将这些输入向量排序、分类，并标定为编号从小到大的若干区域；

步骤二、第一级神经网络训练：利用步骤一中标定完成的训练集数据和标签，对所述模型单元中的第一级神经网络进行训练，第一级神经网络训练结果的每个区域值对应一个所述模型单元中的第二级神经网络；

步骤三、第二次训练集标定：将步骤一经所述输入单元转变为的输入向量全部标定为其累积分布函数值；

步骤四、第二级神经网络训练：利用步骤三中标定完成的训练集数据和标签，分别训练所述模型单元中的第二级每个神经网络，分别经过学习得到累积分布函数的一个部分；

步骤五、训练过程结束：训练完成后，所述模型单元中的所有第二级神经网络的预测范围覆盖整个累积分布函数，即训练后的塔式神经网络是一个累积分布函数的预测函数。

与现有技术相比，本发明的有益效果是：

将本发明的高性能智能路由器学习型索引数据结构及其训练方法在一台配置为Intel Xeon E5-1650v2 3.50GHz、DDR3 24GB SDRAM的小型工作站上进行软件部署测试。考虑到实际路由表索引数据量，实验中利用一亿个路由表索引数据进行训练，训练完成后输入一百万个新路由表索引数据进行测试。实验结果表明，在误判概率为1％的条件下，该索引数据结构的存储消耗仅为19.13MB，是传统哈希表存储消耗的20％，且可直接部署于一个高速片内存储器上。至于查找速度，其远高于MD5和SHA1等传统哈希函数，在实际应用中是切实可行的。由此表明，本发明中设计的高性能智能路由器学习型索引数据结构，能够在保证数据检索速度的基础上提升存储效率，具有优良的综合性能。

附图说明

图1为本发明高性能智能路由器学习型索引数据结构的结构设计图；

图2为本发明高性能智能路由器学习型索引数据结构的基本原理图；

图3为本发明高性能智能路由器学习型索引数据结构的训练方法的流程框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

本发明提出高性能智能路由器学习型索引数据结构，包含输入单元、模型单元和输出单元。所述输入单元用于将路由表索引数据转变为输入向量，对于每一条索引数据，将其拆分为若干子向量，然后对所有子向量中相同位置的元素执行按位异或运算，最终得到该索引数据对应的输入向量。所述模型单元用于训练、预测累积分布函数值，并设计为塔式两级结构，包括第一级一个神经网络和第二级若干神经网络，考虑到路由器查找速度和存储消耗等需求，利用小型简单的神经网络作为塔式结构的基本单元。所述输出单元则将已预测的累积分布函数值乘以映射表中槽的总个数，得到映射表中的映射位置，随后根据该位置所在部分对应的基地址和该位置中记录的实际存储器地址偏移量，求得最终索引地址。

本发明同时提出上述高性能智能路由器学习型索引数据结构的训练方法，首先，将训练集分类标定为编号从小到大的若干区域，对第一级的神经网络进行训练。第一级神经网络训练结果的每个区域值对应一个第二级的神经网络。随后，将训练集中的每一项数据标定为其累积分布函数值，分别训练第二级的每个神经网络，分别经过学习得到累积分布函数的一个部分。最终，当训练完成后，所有第二级神经网络的预测范围覆盖整个累积分布函数，即训练后的塔式神经网络是一个累积分布函数的预测函数。

如图1所示，本发明提出的高性能智能路由器学习型索引数据结构，包括输入单元、模型单元和输出单元。所述输入单元用于将路由表索引数据转变为输入向量，对于每一条索引数据，将其拆分为若干子向量，然后对所有子向量中相同位置的元素执行按位异或运算，最终得到该索引数据对应的输入向量。所述模型单元用于训练、预测累积分布函数值，并设计为塔式两级结构，包括第一级一个神经网络和第二级若干神经网络，考虑到路由器查找速度和存储消耗等需求，利用小型简单的神经网络作为塔式结构的基本单元。所述输出单元则将已预测的累积分布函数值乘以映射表中槽的总个数，得到映射表中的映射位置，随后根据该位置所在部分对应的基地址和该位置中记录的实际存储器地址偏移量，求得最终索引地址。

该索引数据结构的基本原理如图2所示。首先，利用大量路由表索引数据构建神经网络模型的训练数据集，按照字符串值对其进行排序，并将排序后的序号作为标签与内容名称一一标记。其次，利用该训练集训练神经网络，学习出能反映索引内容在静态存储器中分布情况的累积分布函数。将累积分布函数的计算值乘以索引空间大小得到索引偏移地址，累积分布函数的均匀分布特性将使得存储器偏移地址的映射必将服从均匀分布。因此，利用已合理训练的该索引数据结构，实际数据包转发信息即可更均匀地存储在存储器中。

如图3所示，针对上述高性能智能路由器学习型索引数据结构的训练方法，具体步骤如下：

实施例：

本发明中，训练完成后通过该索引数据结构进行地址映射的一个实例如图1所示，其中箭头线标示了一个实际索引数据获得索引地址的过程。对于输入的索引数据 /NDN/TJU/maps，首先将其拆分为三个子向量(47,78,68,78,47)、(84,74,85,47,109)和(97,112,115,0,0)，并执行按位异或运算，获得对应的输入向量(26,116,98,97,66)，然后输入到模型单元中。在模型单元，假设NN_j.k代表第j级的第k个神经网络，由NN_1.0计算得到区域编号为2，则接下来选择NN_2.2。由NN_2.2计算得到的累积分布函数值假设为0.2，则映射表中的映射位置为0.2×15＝3，其中15为映射表槽个数。因为位置3中序号为2，且处在映射表第一部分，所以最终的索引地址等于第一部分对应的基地址加地址偏移量2。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种高性能智能路由器学习型索引数据结构的训练方法，其特征在于，具体步骤如下：

步骤一、第一次训练集标定：由实际路由表索引数据构成的训练集数据经输入单元转变为输入向量，然后将这些输入向量排序和分类，并标定为编号从小到大的若干区域；

步骤二、第一级神经网络训练：利用步骤一中标定完成的训练集数据和标签，对模型单元中的第一级神经网络进行训练，第一级神经网络训练结果的每个区域值对应一个模型单元中的第二级神经网络；

2.一种实现权利要求1所述的训练方法的高性能智能路由器学习型索引数据结构芯片，包括输入单元、模型单元和输出单元；其特征在于：

所述输入单元用于将路由表索引数据转变为输入向量，将每一条索引数据拆分为若干子向量，然后对所有子向量中相同位置的元素执行按位异或运算，最终得到该索引数据对应的输入向量；

所述模型单元用于训练和预测累积分布函数值，该模型单元为塔式两级结构，包括第一级的一个神经网络和第二级的若干神经网络；

所述输出单元将所述模型单元已预测的累积分布函数值乘以映射表中槽的总个数，得到映射表中的映射位置，随后根据该映射位置所在部分对应的基地址和该映射位置中记录的实际存储器地址偏移量，求得最终索引地址。