CN108108475A

CN108108475A - 一种基于深度受限玻尔兹曼机的时间序列预测方法

Info

Publication number: CN108108475A
Application number: CN201810004236.0A
Authority: CN
Inventors: 马千里; 曲怡茹
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-01-03
Filing date: 2018-01-03
Publication date: 2018-06-01
Anticipated expiration: 2038-01-03
Also published as: CN108108475B

Abstract

本发明公开了一种基于深度受限玻尔兹曼机的时间序列预测方法，该时间序列预测方法包括训练过程和测试过程，其中，训练过程：重构网络结构，引入结构化遮蔽矩阵，对于每一层基于结构化递归时序的Spike‑and‑Slab玻尔兹曼机进行参数更新，下一层的训练以上一层隐单元作为输入；测试过程：在训练得到的模型下初始化各层，从最高层开始逐层预测，下一层隐单元的值由上层显单元决定，第一层显单元的值就是模型预测值。通过实验验证了本发明所提方法的有效性，实验结果表明该方法可以提高对动作序列数据的预测。

Description

一种基于深度受限玻尔兹曼机的时间序列预测方法

技术领域

本发明涉及时间序列的数据挖掘技术领域，具体涉及一种基于深度受限玻尔兹曼机的时间序列预测方法。

背景技术

数据挖掘领域里一个重要的问题是研究数据和时间维度的关系，也就是时序数据的基本问题。时序数据随处可见，比如一段动作视频，一段时间的天气记录，股票指数序列等。常用的模型有隐马尔科夫模型、贝叶斯模型等，这些模型在捕捉长时间范围的数据依赖关系存在困难；另一类时序模型是结合递归神经网络(RNN)和受限的玻尔兹曼机变体(RBM)实现的。玻尔兹曼机模型(BM)能够描述变量之间的高阶相互作用，对于时序数据这种复杂性很高的高维数据***来说，玻尔兹曼机模型是一个很有力的工具。而受限玻尔兹曼机模型(RBM)由于其结构上的进一步简化，使玻尔兹曼机模型的应用得到了进一步的加强，该类模型可以更好的捕捉长期的依赖关系。时序玻尔兹曼机(TRBM)是由一系列的受限玻尔兹曼机组成的有向图模型，但是这种时序玻尔兹曼机的精确推导并不容易，每一次吉布斯采样的更新都是指数代价。为此Ilya Sutskever，Geoffrey Hinton等人对原来的时序受限玻尔兹曼机进行了改进，他们称作递归受限波尔兹曼机(RTRBM)，与原来的时序受限玻尔兹曼机(TRBM)相比可以更好的通过隐单元之间的连接传递来的信息进行学习；Roni Mittelman等人在对上述RTRBM的时序模型研究发现，这个模型是假设所有可见单元和隐单元是全连接的，即忽略了单元间的依赖结构或者说不能识别出重要的依赖结构，然而对于数据集来说，学习其依赖结构可以更好的学习到其模式及提高预测能力，因此Roni Mittelman等人提出了采用结构化的方式来学习时序受限玻尔兹曼机参数的模型SRTRBM，即基于图模型原理通过使用图拓扑为数据集依赖关系建模构建遮蔽矩阵，再用逻辑方程代替遮蔽矩阵来学习图结构以及参数，可以更能好的揭示数据集潜在的结构与模式，提高预测效果。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于深度受限玻尔兹曼机的时间序列预测方法。

本发明的目的可以通过采取如下技术方案达到：

一种基于深度受限玻尔兹曼机的时间序列预测方法，是基于结构化Spike-and-Slab递归时序受限玻尔兹曼机实现的，其中，没有加入结构化之前的Spike-and-Slab递归时序受限玻尔兹曼机的每个时间步概率分布、能量方程表示如下：

上述公式中，

其中，模型参数包括{W,U,b_i,b_init,Φ,μ,λ,α}，W_i表示矩阵W的第i行，Φ_i表示矩阵Φ的第i行(其他同理)，v_t表示第t个时间步的显单元，h_t表示第t个时间步的隐单元，第t个时间步的实值变量Slab表示为s_t，r_t表示第t个时间步的递归隐输入，I是单位矩阵，diag(·)表示为对角矩阵，表示为逐元素相乘，σ(·)表示逻辑方程，能量方程可化为如下形式：

其中，

条件概率分布如下：

p(h_i＝1|v)＝σ(0.5α^-1(W_i,·v)²+μ_iW_i,·v)-0.5v^Tdiag(Φ_i,·)v+b_i)

p(s_i|v,h_i)＝N((α^-1W_i,·v+μ_i)h_iα^-1)

上式中，C_v|s,h是条件协方差矩阵。

结构化Spike-and-Slab递归时序受限玻尔兹曼机是在Spike-and-Slab递归时序受限玻尔兹曼机中假设存在显隐单元以及隐隐单元连接的真正结构，并通过在显隐单元以及隐隐单元之间的连接矩阵上加了遮蔽矩阵模拟这种图结构，训练时只需要使用结构化后的链接矩阵代替原来的矩阵，这样除结构化引入的参数之外的所有参数训练过程与Spike-and-Slab递归时序受限玻尔兹曼机完全相同。本发明是在每一层中使用上述模型的训练及推导方式，并在此基础上添加深层结构实现的，包括训练过程和预测过程，其中，训练过程：重构网络结构，引入结构化遮蔽矩阵，对于每一层基于结构化递归时序的spike-and-slab玻尔兹曼机进行参数更新，下一层的训练以上一层隐单元作为输入；预测过程：在训练得到的模型下初始化各层，从最高层开始逐层预测，下一层隐单元的值由上层显单元决定，第一层显单元的值就是模型预测值。

所述的训练过程如下：

S1、重构网络结构。假设存在这样的无向图结构代表显隐单元之间以及隐输入与隐单元之间的真正连接结构，假设这个图为G＝(V,E)，V＝{1,…,|V|},V表示节点的数目，E表示无向图的边。将显单元分配到节点中去，每个单元都要分配且一个单元只能被分到一个节点，每个节点可以只有一个显单元或者有关联的一组显单元，对应的隐单元同理，新得到的显隐单元节点数目分别为N_v和N_h。

S2、输入训练集的观测序列v₁,…v_T，设置模型层数n及Spike-and-Slab递归时序受限玻尔兹曼机需要的训练参数。

S3、通过添加遮蔽矩阵添加结构化。设置节点间的遮蔽矩阵M_w和隐输入和隐单元间的遮蔽矩阵M_U并初始化为全1矩阵,并将W,U和Φ参数分别使用和代替，分别记为其中W是显单元和隐单元之间的权重参数，U是显单元和递归隐输入之间的权重参数，Φ是隐状态参数，表示逐元素相乘运算。

S4、对于t＝1,…,T的每个时间步，首先对所有重构网络中的隐单元i＝1,2,…,N_h，使用如下公式计算当前时间步的隐单元的偏移值以及上一个时间步传来的隐输入

其中，r_t,i表示时刻t的第i个隐单元的输入，v_t表示第t个时间步的显单元，α，是参数，Φ_i表示矩阵Φ的第i行(其他同理)，diag(·)表示为对角矩阵，σ()表示逻辑方程，表示为逐元素相乘；

然后对于这个时间步根据Spike-and-Slab递归玻尔兹曼机的条件概率分布公式进行吉布斯采样得到显隐单元以及Slab的估计值n＝0,…,N_CD；

S5、为计算Spike-and-Slab递归时序受限玻尔兹曼机Q₂，需先根据公式使用步骤S4得到的t＝T,…,2递归计算D_t，其中，D_t+1是递归项，v_t表示第t个时间步的显单元，r_t表示第t个时间步的隐单元输入，h_t表示第t个时间步的隐单元，E表示能量，U是参数，表示为逐元素相乘；

S6、计算Spike-and-Slab递归时序受限玻尔兹曼机对模型参数W,μ,U,b,b_init的梯度，分别如下：

其中，表示参数W对Q₂的梯度(其他同理)，D_t+1是递归项，r_t表示第t个时间步的隐单元输入，v_t表示第t个时间步的显单元，h_t表示第t个时间步的隐单元，E表示能量，α是超参数，表示为逐元素相乘。

S7、对于每个参数Θ∈{W,U,b,b_init,Φ,μ,λ}使用如下参数更新公式：

其中，

其中，其中，表示参数θ对H+Q₂的梯度，表示参数θ对Q₂的梯度(其他同理)，W是权重参数，b是偏置项参数，v_t表示第t个时间步的显单元，h_t表示第t个时间步的隐单元，α、μ是超参数，I是单位矩阵，表示为逐元素相乘。

S8、将负值的Φ设为0。

S9、使用逻辑方程σ_δ(v_ij),σ_δ(v)＝(1+exp{-δv})^-1代替遮蔽矩阵M_W和M_U的第ji^th块，将求图结构转换为求参数v_ji，使用如下公式更新v_ji：

S10、将每一层N_CD次吉布斯采样得到的隐单元值保存作为下一层的观测序列，对于每一层都是用步骤S3-S9训练完毕后保存这层的训练的参数结果；

所述的预测过程如下：

S11、读入每一层训练得到的参数来准备构建n层的预测模型,设置需要生成的预测序列的时间步长T；

S12、输入预测序列的初试值并使用该值初始化第一层显单元；

S13、从第一层开始到第n-1层，每一层都使用该层的模型参数表示的条件概率分布及显单元的初始值通过N_CD步吉布斯采样得到第一个时间步隐单元的值，并将这个值作为下一层的显单元的初始值；

S14、对于第n层t＝1,…,T的每个预测的时间步中，从初始值开始使用和步骤S4同样的方法，使用吉布斯采样得到每个时间步显隐单元的估计值；

S15、对于t＝1,…,T的每个时间步，从n-1层到1层的每一层，都将上一层的显层预测值作为这一层的隐值，并基于这一层的模型参数表示的概率分布使用吉布斯采样得到这一层的显层预测值。第一层的T个时间步的显层预测值就是生成的T个时间步长的预测序列。

本发明相对于现有技术具有如下的优点及效果：

综上所述，本发明提出一种有效提高时间序列预测效果的基于结构化Spike-and-Slab递归时序受限玻尔兹曼机的多层模型构造方法。训练过程逐层训练，测试时自顶向下进行预测。实验发现，通过构造的深层模型具有较好的预测效果。

附图说明

图1是本发明实施例利用基于结构化递归时序受限玻尔兹曼机的深度模型进行时间序列预测的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本发明针对时间序列预测问题，基于spike-and-slab递归时序受限玻尔兹曼机模型，结合结构化的思路，提出了一种深层的提高时间序列预测的有效方法。

本发明实施例以CMU人物运动数据库的动作序列数据集为具体示例。CMU人物运动数据库是通过12个红外线MX-40相机组成的Vicon光学运动捕捉***捕捉获得，其中每个相机都以120赫兹、4兆像素的分辨率进行记录。这些相机被放置在3*8米矩形区域四周，只有在这个区域内的人物运动才会被捕捉到。为了方便捕捉，被捕捉的对象穿着弹性黑色的衣服上面标有标记，光学相机就是通过红外线捕捉这些标记来完成记录作业。CMU的人物运动数据库中将这些捕捉到的数据以多种形式存放，本发明使用的本文实验使用的是asf/amc的文件格式，这种格式有Acclaim游戏公司为捕捉研究人物运动并应用在游戏中创建的文件格式。Acclaim公司提出的这种人物运动格式有两个文件组成，一个是骨骼文件ASF，一个是运动文件AMC。这样做的目的是出于通常只需要存储一副骨骼结构来完成不同的动作，而没有必要在每个动作文件中都存储同一副骨骼。asf/amc文件遵循ascii编码很容易转换，记录的数据是欧拉角的形式，CMU图像实验室就提供了很多工具包可以方便的将asf/amc格式的文件转换为c++和matlab使用的形式，本发明的实验将使用是由Lawrence提供的人物运动工具包，该工具包是matlab版本的运动捕捉工具包，该包可通过简单的命令加载以asf/amc为格式的人物运动数据并可以将这些数据还原为运动的小人视频。本发明具体使用的CMU人物运动数据库中的subject35数据集的33个跑和走的数据记录记录。完整的人物35的数据集一共有34条记录，其中23条走的记录，10条跑的记录，还有一条记录是navigatearound obstacles，这里只取走和跑的数据记录。

基于以上CMU人物运动数据库的subject35数据集，实施例通过以下步骤对该数据集进行训练建模，同时检测本发明提出方法的预测效果并与其他模型进行对比：

步骤S00、数据预处理，去除不变的关节并进行正则化，结果CMU数据集从96个观测点减少到62个，同时并记录删除的位置，方便后期产生人物运动时进行数据还原；

步骤S01、CMU数据集中取第1个和第16个记录这两组数据作为测试集，剩下的31条记录作为训练集进行训练；

步骤S1、重构网络结构，将表示同一个关节点的数据分配到同一个节点，对应的隐单元同理；

步骤S2、输入训练集的观测序列组，每组的时间步长即就是这31组数据的实际数据时间步长，设置模型层数为2，CD递归的次数为1，学习率设为0.001，隐单元是显单元的10倍，其中使用Spike-and-Slab的模型中α设为1，β设为0.01；

步骤S3、添加结构化，设置节点间的遮蔽矩阵M_W和隐输入和隐单元间的遮蔽矩阵M_U并初始化为全1矩阵,并将W,U和Φ参数分别使用和代替，分别记为

步骤S4、对训练集每组数据的每个时间步长下隐单元i＝1,…,N_h，计算得到每个时间步的隐输入，其中然后根据条件概率分布公式进行1次吉布斯采样得到n＝0,1；

步骤S5、使用训练集的每组数据及步骤S3得到的t＝T,…,2根据公式使用递归计算计算D_t；

步骤S6、使用训练集的每组数据计算对模型参数的梯度：

步骤S7、使用训练集的每组数据训练模型的每个参数Θ∈{W,U,b,b_init,Φ,μ,λ}。使用如下参数更新公式更新：

其中，

步骤S8、对目前训练得到的模型中负值的Φ设为0。

步骤S9、学习结构化，使用逻辑方程σ_δ(v_ji),σ_δ(v)＝(1+exp{-δv})^-1代替遮蔽矩阵M_W和M_U的第ji^th块，将求图结构转换为求参数v_ji，这里取δ＝8，使用如下公式更新v_ji：

步骤S10、对第一层使用步骤S4-S9训练完毕后，保存好第一层训练好的参数以及隐单元的值，并将这组隐值作为第二层显单元的观测值输入第二层，对第二层使用同样的步骤S4-S10进行训练并保存第二层训练好的参数。

然后，预测过程如下：

步骤S11、分别读入第一层和第二层训练得到的参数准备构建预测模型，对于两组数据分别进行测试，每组数据的预测时间步数设为这组数据的实际时间步长。

步骤S12、对每组测试数据，使用该组数据的第一个时间步的值来初始化模型第一层显单元的第一个时间步。

步骤S13、对每组测试数据，使用第一层的模型参数表示的条件概率分布及步骤S12得到的显单元的初始值通过1步吉布斯采样得到第一个时间步隐单元的值，并将这个值作为第二层的显单元的初始值。

步骤S14、对每组测试数据，使用第2层的模型参数求出每个时间步从上个单元获得的隐输入并使用其概率分布进行1步吉布斯采样得到这层每个时间步的显隐单元估计值。

步骤S15、对于每组预测数据，将第二层的显层预测值作为第一层的隐层，然后基于第一层的模型参数表示的概率分布使用1步吉布斯采样得到这一层的显层预测值，即得到这组数据的预测值。

最后，使用均方误差来评估模型效果，缩写表示为MSE，公式为

即对于每组数据，求每个时间步得到的预测值predicted_i与实际值observed_i相减后平方的平均值；综合的结果需要再将这两组数据的得到均方误差求平均值，所得结果如表1。

表1.实验结果表

类型	测试集MSE
		ss-RTRBM	39.88±2.278
ss-RTRBM_ss-RTRBM	21.05±0.7162
		ss-SRTRBM	20.18±0.4041
ss-SRTRBM_ss-SRTRBM	19.64±0.213
		ss-SRTRBM_ss-RTRBM	19.63±0.3281

表2.类型解释表

表1的各模型类型含义见表2，表1实验结果中单层的结构化spike-and-slab的递归时序受限玻尔兹曼机(ss-SRTRBM)预测值的均方误差大于双层的结构化spike-and-slab的递归时序受限玻尔兹曼机(ss-SRTRBM_ss-SRTRBM)的预测值，可证明使用本发明提供的方法对结构化spike-and-slab的递归时序受限玻尔兹曼机添加层数后的模型的预测效果好于单层的模型。除此之外，将双层的结构化spike-and-slab的递归时序受限玻尔兹曼机的第一层保留，第二层换为spike-and-slab的递归时序受限玻尔兹曼机表得到的新模型ss-SRTRBM_ss-RTRBM也提高了预测效果。表1也展示了使用本发明提供的加深层的方法得到的双层spike-and-slab的递归时序受限玻尔兹曼机(ss-RTRBM-ssRTRBM)预测效果也好于单层的spike-and-slab的递归时序受限玻尔兹曼机(ss-RTRBM)。

综上所述，本发明提出一种有效提高时间序列预测效果的基于结构化Spike-and-Slab递归时序受限玻尔兹曼机的多层模型构造方法。训练时，将每层层当作单独的结构化Spike-and-Slab递归时序受限玻尔兹曼机训练，层间的数据联系是通过将本层的隐单元的值作为下一层的显单元的值实现的；预测时，最高层按照独立模型预测，最高层以下的各层的隐单元都是由上层显单元值决定而不是由各自层在显单元条件下的条件概率决定，遵照这样的原则得到的第一层的显单元值就是预测值；这种方式构造的深层模型具有较好的预测效果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度受限玻尔兹曼机的时间序列预测方法，其特征在于，所述的时间序列预测方法包括训练过程和预测过程，其中，训练过程：重构网络结构，引入结构化遮蔽矩阵，对于每一层基于结构化递归时序的spike-and-slab玻尔兹曼机进行参数更新，下一层的训练以上一层隐单元作为输入；预测过程：在训练得到的模型下初始化各层，从最高层开始逐层预测，下一层隐单元的值由上层显单元决定，第一层显单元的值就是模型预测值；

所述的训练过程包括下列步骤：

S1、重构网络结构，假设存在这样的无向图结构代表显隐单元之间以及隐输入与隐单元之间的真正连接结构，假设这个图为G＝(V,E)，V＝{1,…,|V|},V表示节点的数目，E表示无向图的边，将显单元分配到节点中去，每个单元都要分配且一个单元只能被分到一个节点，每个节点可以只有一个显单元或者有关联的一组显单元，对应的隐单元同理，新得到的显隐单元节点数目分别为N_v和N_h；

S2、输入训练集的观测序列v₁,…v_T，设置模型层数n及Spike-and-Slab递归时序受限玻尔兹曼机需要的训练参数；

S3、通过添加遮蔽矩阵添加结构化，设置节点间的遮蔽矩阵M_w和隐输入和隐单元间的遮蔽矩阵M_U并初始化为全1矩阵,并将W,U和Φ参数分别使用W⊙M_W,U⊙M_U和Φ⊙M_w代替，分别记为其中W是显单元和隐单元之间的权重参数，U是显单元和递归隐输入之间的权重参数，Φ是隐状态参数，⊙表示逐元素相乘运算；

S4、对于每个时间步，计算当前时间步的隐单元的偏移值以及上一个时间步传来的隐输入，对于这个时间步根据Spike-and-Slab递归玻尔兹曼机的条件概率分布公式进行步吉布斯采样得到显隐单元以及Slab的估计值；

S5、计算Spike-and-Slab递归时序受限玻尔兹曼机Q₂；

S6、计算Spike-and-Slab递归时序受限玻尔兹曼机对模型参数W,μ,U,b,b_init的梯度；

S7、对模型的每个参数使用参数更新公式更新；

S8、将负值的隐状态参数Φ设为0；

S9、使用逻辑方程σ_δ(v_ji),σ_δ(v)＝(1+exp{-δv})^-1代替遮蔽矩阵M_w和M_U的第ji^th块，将求图结构转换为求参数v_ji并使用其更新公式更新v_ji，其中，δ是参数，v是显单元输入；

所述的预测过程包括下列步骤：

S15、对于t＝1,…,T的每个时间步，从n-1层到1层的每一层，都将上一层的显层预测值作为这一层的隐值，并基于这一层的模型参数表示的概率分布使用吉布斯采样得到这一层的显层预测值，第一层的T个时间步的显层预测值就是生成的T个时间步长的预测序列。

2.根据权利要求1所述的一种基于深度受限玻尔兹曼机的时间序列预测方法，其特征在于，所述的步骤S4过程如下：

对于t＝1,…,T的每个时间步，首先对所有重构网络中的隐单元i＝1,2,…,N_h，使用如下公式计算当前时间步的隐单元的偏移值以及上一个时间步传来的隐输入

b`_1,i＝b_init,i(t＝1)

其中，r_t,i表示时刻t的第i个隐单元的输入，v_t表示第t个时间步的显单元，b`_i,i，α，是参数，Φ_i表示矩阵Φ的第i行，diag(·)表示为对角矩阵，σ()表示逻辑方程，⊙表示为逐元素相乘；

然后对于这个时间步根据Spike-and-Slab递归玻尔兹曼机的条件概率分布公式进行吉布斯采样得到显隐单元以及Slab的估计值

3.根据权利要求1所述的一种基于深度受限玻尔兹曼机的时间序列预测方法，其特征在于，所述的步骤S5过程如下：

为计算Spike-and-Slab递归时序受限玻尔兹曼机Q₂，需先根据公式使用步骤S4得到的递归计算D_t，其中，D_t+1是递归项，v_t表示第t个时间步的显单元，r_t表示第t个时间步的隐单元输入，h_t表示第t个时间步的隐单元，E表示能量，U是参数，⊙表示为逐元素相乘。

4.根据权利要求1所述的一种基于深度受限玻尔兹曼机的时间序列预测方法，其特征在于，所述的步骤S6中模型参数W,μ,U,b,b_init的梯度分别如下：

其中，表示参数W对Q₂的梯度，D_t+1是递归项，r_t表示第t个时间步的隐单元输入，v_t表示第t个时间步的显单元，h_t表示第t个时间步的隐单元，E表示能量，α是超参数，⊙表示为逐元素相乘。

5.根据权利要求1所述的一种基于深度受限玻尔兹曼机的时间序列预测方法，其特征在于，所述的步骤S7过程如下：

对于每个参数Θ∈{W,U,b,b_init,Φ,μ,λ}使用如下参数更新公式：

其中，

其中，M_Φ＝M_W,表示参数θ对H+Q₂的梯度，表示参数θ对Q₂的梯度，W是权重参数，b是偏置项参数，v_t表示第t个时间步的显单元，h_t表示第t个时间步的隐单元，α、μ是超参数，I是单位矩阵，⊙表示为逐元素相乘。