CN115526300B

CN115526300B - 一种基于循环神经网络的序列重排方法

Info

Publication number: CN115526300B
Application number: CN202211417807.6A
Authority: CN
Inventors: 陈兴国; 李扬
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-06-02
Anticipated expiration: 2042-11-14
Also published as: CN115526300A

Abstract

本发明公开了一种基于循环神经网络的序列重排方法，包括训练过程和排序过程两部分。通过在正确序列的相关数据集上学习知识，由于乱序数据依旧保留序列特征，因此选择循环神经网络模型学习序列信息；将训练好的循环神经网络模型应用在乱序数据集上，首先固定第一个时间步的数据顺序并输入模型中，得到相应的预测结果后，基于预先定义的评价指标，搜索输入时间步的下一个时间步的在样本维度上的所有顺序组合，找出指标最优的组合将其作为对应时刻重排之后的正确顺序，以此类推直到最后一个时刻被排序好为止。相较于现有技术，本发明能够尽可能的将乱序数据重新排序成接近原始数据的形式。

Description

一种基于循环神经网络的序列重排方法

技术领域

本发明涉及一种基于循环神经网络的序列重排方法，属于时间序列分析和神经网络领域。

背景技术

循环神经网络(Recurrent Neural Network)通常被应用于序列相关任务，用来学习序列规律，识别序列模式，总结序列信息等。RNN类网络之所以能够完成这些任务，是因为其模型独特的设计所决定的，RNN通过递归地逐个输入序列元素，在输入的过程中保存序列信息，这使得网络做预测时，能够使用得上这些历史信息，但RNN只是将历史序列简单叠加起来，这就使得旧信息容易被新信息所覆盖，这对带有长期依赖(long-term dependency)的序列预测任务来说，会带来巨大的损失，同时，RNN的训练过程也因其朴素的设计而变得困难，容易出现梯度消失和梯度***。LSTM便针对RNN的缺点做出一系列改进，其通过引入“门”机制，一方面能够用来学习哪些信息应该被保存，哪些信息应该被删除，哪些信息应该被输出；另一方面，在反向传播更新参数的过程中，梯度***和梯度消失问题也被缓解。LSTM针对隐向量也做出了一些改变，LSTM设计两种隐向量：细胞向量和隐藏向量。细胞向量贯穿整个递归过程，保存序列的全局信息；隐藏向量是细胞向量经过输出门得到的，包含序列的即时信息。GRU简化了LSTM网络的设计，减少了门的数量，同时将两种隐藏向量合并为一个，加速训练过程的同时还能保证与LSTM媲美的效果。

在实际的生产科研中，时常能够遇到由于各种原因导致记录数据出现异常，最致命便是乱序，数据乱序将直接导致数据集失效。特别地，对于天然带有某些特征的数据来说，乱序带来的影响更为严重，例如对一些序列数据来说，其本身会被序列元素的顺序所左右，若元素的顺序发生了变化，则序列将变得不可用。具体来说，假如需要记录小鼠体内细菌的数量变化过程，生物实验通常会周期性地记录不同细菌的数量，正确的记录方式是为每只小鼠做标记，每次记录都将细菌数量记录在对应的小鼠上，但如果没有做标记，则每次记录的数据大概率是乱序的，因为没有标记就并不知道该如何将数据按照小鼠对齐。一般的，这类实验周期性长且实验成本高，若因乱序而使得记录数据失效，这将是时间和金钱上的浪费。

本发明便是针对这种情况而设计的，用于重排乱序数据。

发明内容

本发明的主要目的是提供一种基于循环神经网络的序列重排方法，以尽可能的将乱序数据重新排序成接近原始数据的形式。

为实现上述目的，本发明提供了一种基于循环神经网络的序列重排方法，包括训练过程和排序过程：

训练过程包括如下步骤：

步骤1.1选择一序列正确的数据集，该数据集可以是同类型数据集或相似任务下得到的数据集，也可以是相接近的数据集；

步骤1.2将序列正确的数据集组织成监督数据集形式；

步骤1.3对监督数据集中的数据做预处理；

步骤1.4选择特定的循环神经网络模型并使用深度学习框架构造，同时构造优化器，损失函数以及训练过程的监督和保存代理；

步骤1.5对循环神经网络模型进行训练；

步骤1.6选用不同的参数配置，分别训练循环神经网络模型，并将训练好的循环神经网络模型在测试集上运行，评估模型效果；

排序过程包括如下步骤：

步骤2.1固定乱序数据中所有序列的第一个时间步样本数据；

步骤2.2将第一个时间步样本数据输入循环神经网络模型，得到对未来一个时间步的预测；

步骤2.3搜索乱序数据中对应于预测时间步数据的所有可能组合，对比不同组合下数据序列和预测数据序列之间的差距，选择差距最小的排序组合作为重排序列；

步骤2.4重复上述排序步骤，直到最后一个时间步。

作为本发明的进一步改进，步骤1.2中针对不同的序列正确的数据集，具有不同的处理方式：

若数据量足够，则监督数据集的输入为历史一个时间步的数据，输出为该时间步之后一个时间步的数据，序列数据则变为一系列数据项，随后根据比例将监督数据集划分为训练集和测试集，其中，训练集保持正确顺序，测试集需要被打乱并记录能够将乱序整理为正序的下标用于之后评价模型重排的效果；

若数据量有限，则需要将序列正确的数据集组织成不同预测尺度的监督数据集。

作为本发明的进一步改进，步骤1.5具体包括：

对于数据量足够的情况，使用正常的训练过程即可；

对于数据量有限的情况，采取课程学习的方式，将历史一个时间步数据预测未来一时间步时刻视为难度最低的任务，历史k个时间步数据预测未来一时间步数据视为难度最高的任务，将模型依次在k个任务上训练，直到模型收敛，则训练结束。

作为本发明的进一步改进，步骤2.1中的乱序数据在样本维度上乱序，时间维度上并不乱序。

作为本发明的进一步改进，步骤1.3中对监督数据集中的数据做预处理的方法包括最大最小值标准化、归一化方法及z-score方法。

作为本发明的进一步改进，步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，可以根据硬相似度HS＝II(I_true,I_rearange)获得，其中，I_true表示能将乱序数据恢复成正序的样本下标矩阵，I_reorange表示模型重排得到的样本下标矩阵，II(·)函数对比输入是否相等，并统计相等下标个数。

作为本发明的进一步改进，步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，可以根据软相似度MHS＝II(D_true,D_rearange)获得，其中，D_true表示真实数据集，D_rearange表示重排后的数据集，II(·)表示两个数据集中每个值是否对应相等，并统计相等值个数。

作为本发明的进一步改进，步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，可以根据L1相似度

获得，

其中，D_true表示真实数据集，D_rearange表示重排后的数据集，S_L1计算真实数据集和重排数据集逐元素相减绝对值之和。

作为本发明的进一步改进，步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，可以根据L2相似度

获得，

其中，D_true表示真实数据集，D_rearange表示重排后的数据集，S_L2计算真实数据集和重排数据集逐元素相减平方和。

作为本发明的进一步改进，步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，可以根据inf范数相似度S_inf＝|max(D_true)-max(F_rearange)|获得，其中，D_true表示真实数据集，D_rearange表示重排后的数据集，S_inf计算真实数据集和重排数据集中最大值差距的绝对值。

本发明的有益效果如下：本发明提供的基于循环神经网络的序列重排方法，目的是尽量将乱序数据重新排序成接近原始数据的形式。针对已有的序列性数据，使用循环神经网络在序列正确的相关数据集上训练，再将训练好的模型应用到乱序数据上，通过遍历或剪枝的方式搜索最佳序列，最终达到重排数据的效果。

附图说明

图1为发明中循环神经网络的训练过程图。

图2为发明中模型训练完毕后，使用模型重排乱序数据的过程图。

图3为发明整体的执行流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在科学研究过程中，保存和记录实验数据是最后一步，同时也是最关键的一步。对于大部分实验来说，其数据往往由研究人员手工记录保存，这就意味着会面对由于人为疏忽等原因，造成数据乱序现象。针对一些具有序列特征的数据来说，数据乱序会导致所记录的数据集失效。对于时间周期长且成本高的实验，例如记录细菌数量变化或者记录大气污染物浓度的变化等，这种失效所带来的将会是时间和金钱上的损失。因此，本发明提供了一种基于循环神经网络的序列重排方法，针对已有的序列性数据，使用循环神经网络在序列正确的相关数据集上训练，再将训练好的模型应用到乱序数据上，通过遍历或剪枝的方式搜索最佳序列，最终达到重排数据的效果，即核心目的是尽量将乱序数据重新排序成接近原始数据的形式。

如图1至图3所示，通过在正确序列(简称正序)的相关数据集上学习知识，由于乱序数据依旧保留序列特征，因此选择循环神经网络模型学习序列信息；将训练好的循环神经网络模型应用在乱序数据集上，首先固定第一个时间步的数据顺序并输入模型中，得到相应的预测结果后，基于预先定义的评价指标，搜索输入时间步的下一个时间步的在样本维度上的所有顺序组合，找出指标最优的组合将其作为对应时刻重排之后的正确顺序，以此类推直到最后一个时刻被排序好为止。

具体来讲，该序列重排方法可以分为两个部分，分别为训练过程和排序过程。

步骤1、首先需要在序列正确的相关数据集上训练模型，训练过程包括如下步骤：

步骤1.2将序列正确的数据集组织成监督数据集形式；针对不同的正序数据集，具有不同的处理方式：

若数据量足够，则监督数据集的输入为历史一个时间步的数据，输出为该时间步之后一个时间步的数据，序列数据则变为一系列数据项，随后根据一定比例将监督数据集划分为训练集和测试集，其中，训练集保持正确顺序，测试集需要被打乱并记录能够将乱序整理为正序的下标用于之后评价模型重排的效果；

若数据量有限，则需要将序列正确的数据集组织成不同预测尺度的监督数据集；例如：将时间步长为N的序列数据集组织成k个不同的任务，其中，第k个任务对应的数据集输入为历史k时间步数据，输出为第k+1时间步数据，同理，第k-1个任务的输入为历史k-1时间步数据，输出为第k时间步数据，以此类推；

步骤1.3对监督数据集中的数据做预处理；

步骤1.5对循环神经网络模型进行训练；针对不同的任务，训练的方式有所不同：

对于数据量足够的情况，使用正常的训练过程即可；

步骤2、选择最好的参数配置，将对应模型应用在排序过程中，排序过程包括如下步骤：

步骤2.1固定乱序数据中所有序列的第一个时间步样本数据；

步骤2.4重复上述排序步骤，直到最后一个时间步。

需要说明的是：步骤2.1中的乱序数据在样本维度上乱序，时间维度上并不乱序。具体来说，对于m个具有长度为t时间步的序列样本，乱序数据的每个样本中各个时间步的数据并不一定是其对应的真实数据，可能是来自于同时间步上其他样本的数据。例如：在生物实验中周期性记录细菌在小鼠体内的数量变化，但每次记录时并没有按照小鼠编号保存对应实验数据。重排算法的目标便是将此类数据尽可能恢复成原有顺序。

步骤1.2中所说的将序列正确的数据集组织成监督数据集形式，其特点是使用滑动窗口构造输入输出，对于长度为w的滑动窗口，第1到w-1个时间步为输入，第w个时间步为输出。通常，滑动窗口移动步距为1，故长度为t的序列可以产生t-w-1个输入-输出对。

步骤1.3中对监督数据集中的数据做预处理的方法有很多种，例如：最大最小值标准化、各种归一化方法及z-score等方法。需要注意的是：最大最小值标准化后，所有数据被限定在最大最小值区间中，预测结果可能也会被一定程度限制。

步骤1.4中所说的构造循环神经网络，其特点是有多种循环神经网络模型可以选择，例如RNN(Recurrent Neural Network)、LSTM(Long-short Term Memory)和GRU(GateRecurrent Unit)等。不同的模型有其各自的优缺点，且具体效果需要在实验中验证。

步骤1.5中，当数据量足够时使用正常训练方式，这里可以使用一些训练技巧，包括但不限于使用早停法、dropout或者正则化等防止过拟合、使用teacher forcing加快收敛、使用梯度截断防止梯度***等。而当数据量有限时使用课程学习的方式训练模型，其特点是课程学习通过构造难度阶梯式增加的任务组，将模型依次从简单任务应用到困难任务，模型的能力将会随着训练任务难度的提高而变好。由于数据量少，此处最好使用防止过拟合的方法。

步骤1.6中在测试集上测试模型效果，其特点是：模型效果取决于乱序重排后数据与正序数据之间的差距，可以使用以下几种评价指标来进行评价。

1)硬相似度(hard similarity)：

HS＝II(I_true,I_rearange)

其中，I_true表示能将乱序数据恢复成正序的样本下标矩阵，I_reorange表示模型重排得到的样本下标矩阵，II(·)函数对比输入是否相等，并统计相等下标个数。

2)软相似度(soft similarity)：

MHS＝II(D_true,D_rearange)

其中，D_true表示真实数据集，D_rearange表示重排后的数据集，II(·)表示两个数据集中每个值是否对应相等，并统计相等值个数，该指标弱于硬相似度是因为值相等时，重排下标可能不相等。

3)L1相似度(L1 similarity)：

4)L2相似度(L2 similarity)：

5)inf范数相似度(inf similarity)：

S_inf＝|max(D_true)-max(D_rearange)|

其中，D_true表示真实数据集，D_rearange表示重排后的数据集，S_inf计算真实数据集和重排数据集中最大值差距的绝对值。

步骤2.3中所说的搜索乱序数据所有组合并考察其与模型预测结果之间的差距来找到最优组合，其特点是：在样本量较小的情况下，搜索方式可以是遍历所有可能的组合；在数据量比较大的情况下，搜索方式可以使用树相关的算法，配合剪枝等方式节约计算量。衡量不同组合与预测结果之间差距的指标同样可以使用上述的相似度评价指标。

以下将举一个具体的例子对本发明的技术方案进行说明。

将实际问题设置为：考虑重排小鼠体内细菌数量的周期性变化序列，此处有10只小鼠，对每只小鼠周期性记录门、纲、目、科、属、种每类数量前十的细菌数据和其他所有的总和，因此每只小鼠体内细菌变化过程可视为一条序列，每条序列长度为8，每个时间步数据可以视为66维的向量，故为向量序列。

现由于某些原因，数据在样本维度上被打乱，即同一样本序列内相邻两时间步的数据可能来自于不同样本序列。除此之外，有来自同一任务的另一个同等维度的数据集，该数据集的顺序是正确的。本发明的目标便是通过该正序数据集尽可能重排乱序数据，具体操作步骤如下：

1.将正序数据集整理成监督数据集形式，由于此处数据量较少(8*10＝80)，故直接使用课程学习的方式训练；

2.执行课程学习需要将数据集组织成不同预测时间尺度的数据集(任务)，并做归一化；此处，不同时间尺度指的是从过去一个时间步预测未来一个时间步到过去四个时间步预测未来一个时间步，总共四个任务；

3.依次应用模型在四个数据集上，切换任务时并不初始化模型，而是让其继续训练下去；

4.模型训练好后，将其应用在乱序数据集上，进行重排；

5.固定所有十只小鼠细菌序列的第一个时间步的顺序，这里可以固定是因为第一时刻的顺序如何并不会影响排序的正确性，只会影响整个序列的排序；换句话说，只是影响小鼠的编号；

6.将第一个时间步的数据依次输入模型中，得到对应的下一时间步预测；

7.基于第二个时间步的数据，搜索对样本的所有可能组合，对比组合对应数据和预测数据之间的距离；

8.选择距离最小的排列作为当前时刻的预测排列；

9.若当前时间步不是最后一个时间步，则继续重排，此时固定上一步得到的预测排序，并将对应数据输入模型中，重复上述操作直到最后一个时间步，程序结束。

综上所述，本发明提供的基于循环神经网络的序列重排方法，目的是尽量将乱序数据重新排序成接近原始数据的形式。针对已有的序列性数据，使用循环神经网络在序列正确的相关数据集上训练，再将训练好的模型应用到乱序数据上，通过遍历或剪枝的方式搜索最佳序列，最终达到重排数据的效果。

此外，循环神经网络使用LSTM和GRU等神经网络，该类网络通常用于处理序列相关问题，两者均为RNN网络的延伸。数据重排涉及数据管理相关领域，能够提高数据利用率，大大减少时间和金钱上的浪费。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于循环神经网络的序列重排方法，用于对小鼠体内细菌数量的周期性变化序列进行重排，其特征在于，包括训练过程和排序过程：

训练过程包括如下步骤：

步骤1.1 对每只小鼠周期性记录门、纲、目、科、属、种每类数量前十的细菌数据和其他所有的总和，此时每只小鼠体内细菌变化过程视为一条序列，选择一序列正确的数据集，该数据集是同类型数据集或相似任务下得到的数据集或相接近的数据集；

步骤 1.2 将序列正确的数据集整理成监督数据集形式；

步骤 1.3 对监督数据集中的数据做预处理，以形成不同预测时间尺度的数据集；所述不同预测时间尺度指的是从过去一个时间步预测未来一个时间步到过去四个时间步预测未来一个时间步；

步骤 1.4 选择循环神经网络模型并使用深度学习框架构造，同时构造优化器，损失函数以及训练过程的监督和保存代理；

步骤 1.5 对循环神经网络模型进行训练；

步骤 1.6 选用不同的参数配置，分别训练循环神经网络模型，并将训练好的循环神经网络模型在测试集上运行，评估模型效果；

排序过程包括如下步骤：

步骤 2.1 固定乱序数据中所有小鼠细菌序列的第一个时间步样本数据的顺序；此处，固定第一个时间步样本数据的顺序不会影响排序的正确性，只会影响整个序列的排序，即只影响小鼠的编号；

步骤 2.2 将第一个时间步样本数据依次输入循环神经网络模型，得到对未来一个时间步的预测；

步骤 2.3 基于第二个时间步的数据，搜索乱序数据中对应于预测时间步数据的所有可能组合，对比不同组合下数据序列和预测数据序列之间的差距，选择差距最小的排序组合作为重排序列，即当前时刻的预测排序；

步骤 2.4 若当前时间步不是最后一个时间步，则继续重排，此时固定上一步得到的预测排序，并将对应数据输入循环神经网络模型中，重复上述排序步骤，直到最后一个时间步。

2.根据权利要求1所述的基于循环神经网络的序列重排方法，其特征在于：步骤1.2中针对不同的序列正确的数据集，具有不同的处理方式：

3.根据权利要求2所述的基于循环神经网络的序列重排方法，其特征在于，步骤 1.5具体包括：

对于数据量足够的情况，使用正常的训练过程即可；

4.根据权利要求1所述的基于循环神经网络的序列重排方法，其特征在于：步骤2.1中的乱序数据在样本维度上乱序，时间维度上并不乱序。

5.根据权利要求1所述的基于循环神经网络的序列重排方法，其特征在于：步骤1.3中对监督数据集中的数据做预处理的方法包括最大最小值标准化、归一化方法及z-score方法。

6.根据权利要求1所述的基于循环神经网络的序列重排方法，其特征在于：步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，能够根据硬相似度

获得，其中，/>

表示能将乱序数据恢复成正序的样本下标矩阵，/>

表示模型重排得到的样本下标矩阵，/>

函数对比输入是否相等，并统计相等下标个数。

7.根据权利要求1所述的基于循环神经网络的序列重排方法，其特征在于：步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，能够根据软相似度

获得，其中，/>

表示真实数据集，/>

表示重排后的数据集，/>

表示两个数据集中每个值是否对应相等，并统计相等值个数。

8.根据权利要求1所述的基于循环神经网络的序列重排方法，其特征在于：步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，能够根据L1相似度

其中，

表示真实数据集，/>

表示重排后的数据集，/>

计算真实数据集和重排数据集逐元素相减绝对值之和。

9.根据权利要求1所述的基于循环神经网络的序列重排方法，其特征在于：步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，能够根据L2相似度

其中，

表示真实数据集，/>

表示重排后的数据集，/>

计算真实数据集和重排数据集逐元素相减平方和。

10.根据权利要求1所述的基于循环神经网络的序列重排方法，其特征在于：步骤1.6中的模型效果取决于乱序重排后数据与正序数据之间的差距，能够根据inf 范数相似度

获得，其中，/>

表示真实数据集，

表示重排后的数据集，/>

计算真实数据集和重排数据集中最大值差距的绝对值。/>