CN113420868A

CN113420868A - 一种基于深度强化学习的旅行商问题求解方法及求解***

Info

Publication number: CN113420868A
Application number: CN202110716587.6A
Authority: CN
Inventors: 路松峰; 舒民豪
Original assignee: Nanjing Souwen Information Technology Co ltd
Current assignee: Nanjing Souwen Information Technology Co ltd
Priority date: 2021-06-26
Filing date: 2021-06-26
Publication date: 2021-09-21

Abstract

本发明提供一种基于深度强化学习的旅行商问题求解方法，首先随机生成满足一定数据分布的节点特征序列作为训练集及验证集，结合Transformer网络及图注意力网络构建编码器模块，利用上下文节点及多头注意力算法构建解码器模块，引入掩码机制使得网络输出的解满足旅行商问题的解约束，最后设计快速高效的强化学习训练算法提高模型的泛化能力及精确度。本发明引入了Transformer网络结构及图注意力算法，使得模型对输入的节点特征序列具有极强的学习能力，在充分提取节点本身的特征之外还充分利用了边的结构，提高了模型的求解精度，引入上下文节点机制，使得模型可以有效地学习局部及全局节点的特征信息，解决了局部最优和全局最优之间的矛盾，极大地提高了模型的性能。

Description

一种基于深度强化学习的旅行商问题求解方法及求解***

技术领域

本发明涉及人工智能的深度学习、强化学习和组合优化等技术领域，具体涉及一种基于深度强化学习的旅行商问题求解方法及求解***。

背景技术

随着现代工业信息技术和计算机网络技术的飞速发展，特别是目前电商、交通、物流等相关产业、行业的快速发展，组合优化问题已经越来越多且越来越广泛地被应用在工业生产及日常生活服务上。旅行商问题作为组合优化问题中的经典代表，自其1930年首次被形式化以来，成为了组合优化问题中研究的最为深入的问题之一。发展到今天，已经出现了各种侧重点不同的有效算法，但传统算法缺乏可拓展性及可移植性，即传统算法存在对具体问题需要具体设计的问题，因为传统算法中类启发式算法的结果取决于算法状态更新方式，而类启发式算法更新方式存在很大程度的随机性，这决定了类启发式算法并不能很好地适用于现如今情况越来越复杂，限制条件越来越多的组合优化问题，因此在今天针对组合优化问题的求解算法需要一定程度上的创新及变革来适应如今日益复杂和多样化的问题。

传统的TSP问题的算法主要分为两种：精确算法及近似算法，其中精确算法在TSP问题刚被提出时得到学者的广泛关注和研究，因其具备数学理论性及严谨性因而在当时被认为是主流解法。期间提出了分支界定算法、线性规划算法、动态规划算法等经典算法求解此类问题，但随着问题规模的逐渐扩大、人们对算法复杂度的认识逐渐提高，大规模NP困难问题的精确算法所附带的巨量计算开销给理论研究和实际应用带来了巨大的挑战，此时针对TSP问题的研究方向开始从精确算法转向近似算法的研究。传统的近似算法以各种启发式算法为主，随着复杂计算理论的日渐完备以及计算机科学的不断发展，众多学者针对特定问题对相关的启发式算法进行了不同程度的改进和优化，使其更能满足不同种问题的特点。

近年来随着机器学习算法的飞速发展，也有不少学者将深度学习算法初步用于组合优化领域，提出一些基于机器学习算法的近似算法，最具代表性的基于机器学习的近似算法有三种架构：1）Seq2Seq特征序列架构，直接输入节点特征序列；2）图神经网络模型架构，将原始数据嵌入到图结构中再进行特征学习；3）辅助启发式算法，利用深度网络进行启发式算子的选择，精度较高但是效率较低。

目前的Seq2Seq算法没有结合节点的图信息导致算法精度不高、泛化能力不强，而图神经网络则在计算速度上存在一定的局限，所以寻找一种可以将两者结合的算法具有重要的研究意义。

发明内容

本发明要解决的技术问题是提供一种基于深度强化学习的旅行商问题求解方法及求解***，能够有效解决现有技术对旅行商问题求解的误差大、效率低问题。

为解决上述技术问题，本发明的实施例提供一种基于深度强化学习的旅行商问题求解方法，包括如下步骤：

S1、构建训练样本数据集并进行预处理，所述训练样本数据集包括满足数学概率分布特点的节点特征序列；

S2、将步骤S1中预处理后的节点特征序列输入到自注意力模块进行节点特征提取和维度提升，通过设计好的多层注意力模块提取节点高维特征，对高维特征进行学习并嵌入到图结构中，利用图注意力网络进一步提取邻点及邻边的特征信息，获得高维特征序列；

S3、将步骤S2中获得的高维特征序列送入解码器中进行解码，利用上下文节点结构对节点全局特征及当前局部特征进行统筹考虑，并利用掩码机制对不满足度约束的解节点进行屏蔽，通过多头注意力网络模块输出当前时间片所选择的访问节点直至完成所有节点的遍历，得到旅行商问题的解；

S4、将得到的旅行商问题的解利用强化学习的训练方法摆脱对标注数据的依赖，实现半监督式的基于深度强化学习网络的旅行商问题求解方案。

其中，步骤S1中根据实际情况所需要的节点概率分布，设计最契合实际情况的数学概率分布节点特征序列，满足在实际应用中的特定要求，提高模型在实际应用中的准确性。

其中，步骤S2中，将维度提升、序列化特征及图结构特征进行深度融合，有效学习节点不同层级的特征结构，得到最终深度融合的特征信息；所述多层注意力模块包括基础特征嵌入层、与基础特征嵌入层的输出连接的序列注意力层、与注意力层相连接的图注意力层。本步骤中，将序列注意力网络与图注意力网络模型之间的关联建模，通过将高维扩展序列特征整合后的输出特征结合先验邻接矩阵输入到图注意力网络模块，考虑到所有特征节点之间的联系，得到关联后的高度融合特征。

其中，步骤S3中，将当前提取到的深度融合特征输入至上下文节点模块，通过上下文节点模块及注意力模块对当前编码器模块输出的深度融合特征信息进行处理，得到旅行商问题遍历顺序序列结果。本步骤中，将深度融合特征通过构建上下文节点，计算出全局深度融合整体特征，再通过时间片之前若干时间片进行统筹计算，送入多头注意力模块之后计算出当前选择的访问节点的概率。

其中，步骤S4中，将当前深度网络模型输入强化训练模块，对输入的当前网络模型进行验证处理，得到当前网络模型求解精度信息，利用贪婪策略及基线策略优化当前模型精度。

本发明还提供一种基于深度强化学习的旅行商问题求解***，包括：节点获取模块、成本设定模块、序列求解模块及成本计算模块；其中，

所述节点获取模块，用于从实际项目中获取节点相关信息，并进行预处理后，得到待输入特征序列；

所述成本设定模块，用于从当前输入特征序列中设定实际需要计算的特征成本，以满足各式不同成本计算方式的实际项目要求；

所述序列求解模块，用于将输入特征序列经过编码器模块的Transformer网络模块及图神经网络模块之后，再经由解码器的上下文节点结构及多头注意力机制的处理，得到特征序列的遍历顺序序列；

所述成本计算模块，用于计算序列求解结果信息，并提供管理员接口以管理和查询统计信息。

其中，所述序列求解模块包括编码器模块、解码器模块和注意力模块，其中，

所述编码器模块，用于对当前输入特征序列做特征提取操作，得到输入序列在不同层的特征信息；

所述解码器模块，用于从上层编码器中解析高维度的特征信息，得到增强后的特征信息；

所述注意力模块，用于将对应的序列特征和注意力矩阵相乘，得到加权之后的特征矩阵。

进一步，所述编码器模块包括Transformer网络模块、图神经网络模块和输出模块，其中，

所述Transformer网络模块用于将当前特征序列分为几个部分，对每个部分进行引导，得到不同层次的更细粒度的特征信息，之后再将部分进行深度整合；

所述图神经网络模块，用于将输入的序列特征信息和图结构特征信息进行关联建模，使不同特征之间相互关联，最终得到深度融合特征的结果；

所述输出模块，用于将当前深度融合特征的结果根据解码器需要的形式进行处理，得到能被解码器模块直接利用的结果。

其中，所述上下文节点结构包括全局整体特征提取模块和局部特征提取模块，其中，

所述全局整体特征提取模块，用于将当前深度融合特征进行数学变换，得到当前特性在全局视角下的特征信息；

所述局部特征提取模块，用于通过构建所选节点的时空特征信息在时间片传播时对当前节点的影响因子，得到当前应当访问节点的局部序列特征，从而影响当前应当访问节点的概率。

其中，所述解码器利用掩码机制对不满足度约束的解节点进行屏蔽，所述掩码机制对当前时间片之前的时间片已访问的节点进行概率屏蔽，使得所得到的解序列满足旅行商问题的求解约束。

本发明的上述技术方案的有益效果如下：

本发明提供的旅行商问题深度强化学习的建立方法、序列求解方法和***，通过对原始序列数据做数据增强，并基于增强后的数据训练序列求解模型，能够有效提升模型对不同情况的节点特征分布的准确率，并在编码器模块中使用图神经网络方法使不同特征之间关联起来，进一步减少序列预测的误差值。本发明提供的技术方案，能够有效解决现有技术对旅行商问题求解的误差大、效率低问题。

附图说明

图1为本发明实施例提供的旅行商问题求解模型的建立方法的流程示意图。

图2为本发明实施例提供的特征序列数据集数据增强方法的流程示意图。

图3为本发明实施例提供的旅行商问题识别方法的流程示意图。

图4为本发明实施例提供的编码器模块的结构示意图。

图5为本发明实施例提供的解码器模块的结构示意图。

图6为本发明实施例提供的强化学习训练算法的流程示意图。

图7为本发明实施例提供的旅行商问题求解***的结构示意图。

具体实施方式

本发明提供一种基于深度强化学习的旅行商问题求解方法，包括如下步骤：

S1、构建训练样本数据集并进行预处理，所述训练样本数据集包括满足一定数学概率分布特点的节点特征序列；具体操作方法为：获得不同数学分布的各种节点特征序列，构建第一样本节点序列数据集并进行预处理，节点特征序列以若干个节点的特征信息为一组，构建若干组不同种子不同分布的特征序列；

根据不同数学分布的节点特征序列，结合实际项目采样若干节点特征项目样本，将实际节点采样及生成的数据集按照一定比例随机组合，得到最终输入模型的训练及测试样本数据。

本步骤根据实际情况所需要的节点概率分布，设计最契合实际情况的数学概率分布节点特征序列，满足在实际应用中的特定要求，提高模型在实际应用中的准确性。

S2、将步骤S1中预处理后的节点特征序列输入到自注意力模块进行节点特征提取和维度提升，通过设计好的多层注意力模块提取节点高维特征，对高维特征进行学习并嵌入到图结构中，利用图注意力网络进一步提取邻点及邻边的特征信息，获得高维特征序列。本步骤中，将维度提升、序列化特征及图结构特征进行深度融合，有效学习节点不同层级的特征结构，得到最终深度融合的特征信息；所述多层注意力模块包括基础特征嵌入层、与基础特征嵌入层的输出连接的序列注意力层、与注意力层相连接的图注意力层。

本步骤所用维度提升模块用于将数据增强后的最终样本数据集进行升维处理，其中，最终样本数据集包括不同数学分布的节点特征数据集及实际节点数据随机混合得到。

序列编码模块，将扩维之后的训练序列送入多头自注意力模块及前馈神经网络模块进行特征信息的提取和学习。

将维度提升模块输出的特征信息输入到Transformer模块，首先使用多头注意力算法提取信息的多层维度特征，然后对上面的特征进行综合计算，再送入前馈神经网络进行信息的进一步学习和提取。

将得到的各个属性的特征输入到各个分支的图注意力网络模块，生成各个属性的注意力特征图，将特征图的输出进行叠加，输入到前馈网络层，得到最后的遍历顺序序列。

S3、将步骤S2中获得的高维特征序列送入解码器中进行解码，利用上下文节点结构对节点全局特征及当前局部特征进行统筹考虑，并利用掩码机制对不满足度约束的解节点进行屏蔽，通过多头注意力网络模块输出当前时间片所选择的访问节点直至完成所有节点的遍历，得到旅行商问题的解。本步骤中，将当前提取到的深度融合特征输入至上下文节点模块，通过上下文节点模块及注意力模块对当前编码器模块输出的深度融合特征信息进行处理，得到旅行商问题遍历顺序序列结果。

具体的，本步骤所用序列解码模块，用于分析编码器模块提取的深度特征序列信息。将深度融合特征序列信息进行信息解码，通过构建上下文节点模型分析全局特征及局部特征，再利用多头注意力机制进行信息的解析和提取。

将深度融合特征信息，通过解码模块，将输入的特征信息和全局特征信息进行时空关联建模，使不同特征之间相互关联，通过掩码机制实现遍历约束，最终得到旅行商问题的序列结果。

将序列预测结果输入强化学习训练模块，利用贪婪机制及基线准则保证模型的逐步优化及有效收敛，最终实现旅行商问题的半监督求解模型。

步骤S3中，掩码机制对当前时间片之前的时间片已访问的节点进行概率屏蔽，使得所得到的解序列满足旅行商问题的求解约束。

S4、将得到的旅行商问题的解利用强化学习的训练方法摆脱对标注数据的依赖，实现半监督式的基于深度强化学习网络的旅行商问题求解方案。本步骤中，将当前深度网络模型输入强化训练模块，对输入的当前网络模型进行验证处理，得到当前网络模型求解精度信息，利用贪婪策略及基线策略优化当前模型精度。

所述序列求解模块，用于将输入特征序列经过编码器模块的Transformer网络模块及图神经网络模块之后，再经由解码器的上下文节点结构及多头注意力机制的处理，得到特征序列的遍历顺序序列。所述序列求解模块包括编码器模块、解码器模块和注意力模块，其中，

所述解码器模块，用于从上层编码器中解析高维度的特征信息，得到增强后的特征信息。所述编码器模块包括Transformer网络模块、图神经网络模块和输出模块，其中，

所述上下文节点结构包括全局整体特征提取模块和局部特征提取模块，其中，

为了更好地解释本发明的目的、技术方案及优点，下面结合实施例及附图，进一步对本发明进行详细说明。其中包括本发明实施例的各种细节以助于理解，此处所描述的具体实施例仅仅用于示范性，并不用于限定本发明。

如图1所示，本发明实施例提供的旅行商问题求解模型的建立方法的流程示意图，包括：

将随机生成满足各种数学分布的特征序列数据集与真实采样的实际项目真实数据按照一定的比例随机混合，得到数据增强后的训练数据集；

将增强数据集输入至编码器及解码器模型进行学习，经过编码器注意力网络的特征提取及解码器网络的解码，生成满足旅行商问题的解约束的节点遍历序列。

利用增强的特征序列输入编码器-解码器模型，采用基于强化学习基线算法，对编码器-解码器模型进行训练，获取训练完毕的旅行商问题求解模型。

具体的，在本步骤中，当增强得到每个特征序列的增强数据，将其分别输入到编码器模块获得每个特征序列的高维序列特征，将高维序列特征通过解码器进行节点选择，得到旅行商问题求解结果。

在上述过程中，图注意力网络会将旅行商问题的邻接矩阵信息输入到模型中，得到图论中边相关的信息，并将边相关的信息与序列信息进行融合，以得到最终的深度融合特征结果。

对于原始地点信息数据集，在输入模型训练之前，需要对数据进行预处理，预处理包括地点-特征转换、随机生成满足不同数学分布的数据、真实项目数据采样、多来源随机混合对原始数据进行增强。通过数据增强方法，生成样本比例更加均衡的增强数据集。

如图2所示，本发明实施例提供的特征序列数据集数据增强方法的流程示意图，包括：

根据需要求解的问题类型设计输入数据的特征向量，并根据所设计的特征向量确定需要的数据集的大小、均值及方差等要素。

通过设计的数据的各种要素，利用计算机随机生成各种满足不同数学分布的特征数据集以提供较为广泛的数据样本，同时，为提高实际应用中的效率和准确度，将实际项目中采样得到的样本较少的实际数据与生成数据按比例随机混合，得到增强的数据集。

具体的，如图3所示，本发明实施例提供的旅行商问题识别方法的流程示意图，包括：

对节点原始地点位置进行特征建模及数据增强，获得用于训练的增强后的特征序列，并将增强后的特征序列进行训练集与验证集的数据划分。

将增强训练数据输入编码器模块，通过解码器模块的维度提升模块将输入数据中的维度较低的数据通过映射操作变为维度较高的序列数据，使后续编码器、解码器的能更好地处理数据信息， Transformer层用于提取高维数据中的序列特征，获得基于序列特征的注意力特征信息。

图注意力层用于将经过Transformer层处理的特征序列进行图结构层面上的处理，利用邻接矩阵的节点信息，分析节点之间的相似度及邻接关心，有助于模型更好地分析节点序列之间的关联，从而获得更好的旅行商问题的解。

如图4所示，本发明实施例提供的编码器模块的结构示意图，包括以下步骤：

步骤一、将增强后的输入数据送入维度提升模块，对数据的维度进行提升，提高了特征的表达信息，使得模型能从高维数据中获取更多的有用信息。

步骤二、将维度提升后的特征序列交由Transformer层处理，Transformer层由多头注意力网络、前馈神经网络、残差及归一化模块组成，多头注意力网络用于分析特征序列中的序列特征，前馈神经网络负责将提取中的序列特征进一步解析，并维持维度与输入维度一直，再通过残差及归一化提升模型的学习能力。通过Transformer层可以得到增强数据集的高维序列特征。

步骤三、将通过Transformer层得到的高维序列特征经过图注意力网络进行进一步的特征提取和融合，图注意力网络为提高计算的效率采用了多头降维的策略，将输入的高维数据降维为多头图注意力，并结合邻接矩阵进行计算，得到多头图注意力之后，再由维度合并模块将低位多头的图注意力特征进行合并，保持原有的维度不变。

步骤四、将Transformer层及图注意力层的模型进行残差计算及归一化操作之后，得到深度融合特征序列，并将其输出。

如图5所示，本发明实施例提供的解码器模块的结构示意图，包括：上下文节点模块、多头注意力模块和掩码模块。

具体地，得到编码器输出的深度融合特征序列之后，利用全连接矩阵对深度融合特征序列进行向量构建，构建K、Q、V三个待处理向量，利用Q向量构建结合全局特征及局部特征的上下文节点。

上下文节点利用对输入深度融合特征向量构建的Q向量进行取均值的操作构建全局特征估计，并结合当前时间片的前两步时间片决策构建当前时间片的局部特征估计，通过结合全局特征及局部特征提高模型的求解精确度。

多头注意力模块与Transformer网络中的多头注意力算法一致，利用K、Q、V三个向量进行点积并进行归一化、Softmax等操作，实现对深度融合特征的解码。

掩码机制用于保证模型计算出的解满足旅行商问题的求解约束，首先将计算过程按照时间片划分，每一个时间片确定一个节点的访问，则当时间片的数量等于问题节点规模时解码完成，为防止出现同一城市遍历两次，将当前时间片之前的时间片所遍历的节点选择概率置为0，则在当前时间片选择遍历节点时不会选择已经遍历的节点。

如图6所示，本发明实施例提供的强化学习训练算法的流程示意图。

具体地，强化学习训练算法的目的是提高深度神经网络对旅行商问题的求解精度，并摆脱有监督学习中的训练算法对标注数据的依赖性，提升模型的求解精度及适用性。

首先对深度神经网络进行随机初始化，利用参数初始化之后的模型对增强后的训练数据进行求解，得到一组求解结果，之后利用求解结果及最大似然函数对模型进行优化，再利用验证数据集对优化之后的模型进行评估，选出其中效果最好的模型作为基准模型。

基准模型是当前已知效果最好的模型，用于在不改变参数的均值的前提下有效减少训练过程中的方差，对模型的收敛速度有较大的帮助。在每轮训练完毕之后，利用t检验校验当前轮次优化的最优模型与原有基准模型之间的优劣，如果当前最优模型的求解结果优于原有基准模型5%以上则用当前最优模型替换原有基准模型。

强化学习训练利用Adam优化算法对模型当前参数进行优化调整，学习率根据当前的轮次进行动态的调整，满足前期收敛较快、后期慢慢调整的期望。

图7为本发明提供的一种旅行商问题求解***的结构示意图。本发明实施例提供的基于深度强化学习的旅行商问题求解***包括：

特征序列获取模块，用于将原始节点地点名称转换成特征序列，再根据实际需要设定需要计算的成本函数。

模型工作流程模块，用于从待求解序列求解旅行商问题最优序列。首先从对输入的特征序列进行维度提升，再将维度提升后的特征序列送入编码器中，利用Transformer网络及图注意力网络对升维后的特征序列进行特征提取及融合处理，最终通过编码器得到最优遍历序列，成本计算模块根据相应的成本计算设定计算得到的序列耗费成本。

信息统计模块，用于储存、管理和查询旅行商问题求解的结果。包含有数据库用来储存统计信息，提供接口以供管理员操作和按条件查询统计信息。

本发明旨在提供一种基于深度强化学习的旅行商问题求解方法，在旅行商问题的求解上达到较高的精度。针对现有的旅行商问题求解方法在精度和速度上求解效率低等问题，本发明提出通过对生成数据集进行数据增强并结合真实数据构建最终数据集，基于增强后的数据训练Transformer模型和图注意力网络模型，能够有效提升模型对旅行商问题的求解速度和精度。本发明提出的旅行商问题深度强化学习的建立方法、序列求解方法和***，通过在编码器中使用图神经网络方法使不同特征之间关联起来，考虑全局特征属性和局部特征属性的相关性，进一步提升旅行商问题的求解精度。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的旅行商问题求解方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度强化学习的旅行商问题求解方法，其特征在于，步骤S1中根据实际情况所需要的节点概率分布，设计最契合实际情况的数学概率分布节点特征序列。

3.根据权利要求1所述的基于深度强化学习的旅行商问题求解方法，其特征在于，步骤S2中，将维度提升、序列化特征及图结构特征进行深度融合，有效学习节点不同层级的特征结构，得到最终深度融合的特征信息；所述多层注意力模块包括基础特征嵌入层、与基础特征嵌入层的输出连接的序列注意力层、与注意力层相连接的图注意力层。

4.根据权利要求1所述的基于深度强化学习的旅行商问题求解方法，其特征在于，步骤S3中，将当前提取到的深度融合特征输入至上下文节点模块，通过上下文节点模块及注意力模块对当前编码器模块输出的深度融合特征信息进行处理，得到旅行商问题遍历顺序序列结果。

5.根据权利要求1所述的基于深度强化学习的旅行商问题求解方法，其特征在于，步骤S4中，将当前深度网络模型输入强化训练模块，对输入的当前网络模型进行验证处理，得到当前网络模型求解精度信息，利用贪婪策略及基线策略优化当前模型精度。

6.一种基于深度强化学习的旅行商问题求解***，其特征在于，包括：节点获取模块、成本设定模块、序列求解模块及成本计算模块；其中，

7.根据权利要求6所述的基于深度强化学习的旅行商问题求解***，其特征在于，所述序列求解模块包括编码器模块、解码器模块和注意力模块，其中，

8.根据权利要求7所述的基于深度强化学习的旅行商问题求解***，其特征在于，所述编码器模块包括Transformer网络模块、图神经网络模块和输出模块，其中，

9.根据权利要求6所述的基于深度强化学习的旅行商问题求解***，其特征在于，所述上下文节点结构包括全局整体特征提取模块和局部特征提取模块，其中，

10.根据权利要求6所述的基于深度强化学习的旅行商问题求解***，其特征在于，所述解码器利用掩码机制对不满足度约束的解节点进行屏蔽，所述掩码机制对当前时间片之前的时间片已访问的节点进行概率屏蔽，使得所得到的解序列满足旅行商问题的求解约束。