CN112381211A

CN112381211A - 基于异构平台执行深度神经网络的***及方法

Info

Publication number: CN112381211A
Application number: CN202011305477.2A
Authority: CN
Inventors: 王泉; 杨鹏飞; 张�诚; 王振翼; 杨柳
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-19
Anticipated expiration: 2040-11-20
Also published as: CN112381211B

Abstract

本发明提出了一种基于异构平台执行深度神经网络的***及方法，用于解决现有技术中存在的基于异构平台执行深度神经网络的速度较低和对于模型的兼容性较差的技术问题，实现步骤为：(1)模型解析模块对DNN模型进行解析；(2)分析模块根据解析结果构建计算图；(3)平台检测模块检测异构平台中的异构计算单元的硬件参数；(4)任务分配模块构建任务分配策略并进行优化；(5)推理模块根据最优任务分配策略对异构计算单元进行任务分配，得到执行DNN模型的结果。本发明解析模块支持解析主流深度学习框架的模型格式，提高了***对于不同框架模型的兼容性，任务分配模块提供最优任务分配策略，提高了深度神经网络的执行速度。

Description

基于异构平台执行深度神经网络的***及方法

技术领域

本发明属于深度神经网络技术领域，涉及一种执行深度神经网络的***及方法，具体涉及一种基于异构平台执行深度神经网络的***及方法，可用于目标检测、人脸识别和语音识别等领域。

背景技术

随着人工智能的飞速发展，以深度神经网络为代表的深度学习技术取得了显著的成果，深度神经网络技术在目标检测、人脸识别和语音识别等领域都已经有了非常广泛的应用，而随着大数据领域的兴起，深度神经网络对硬件设备的计算能力的需求也在不断提升。深度神经网络模型的训练阶段需要喂入大量的训练数据集，在训练的循环过程中，通常需要对一个输入进行上亿次计算，对硬件设备的算力有很高的需求，而在深度神经网络的推理阶段不仅对算力有着高要求，还对推理速度有较高的要求，在通用处理器CPU有限的计算资源下实现计算密集型的深度神经网络的效率非常低，在很多具有高实时性要求的应用场景下存在很大的限制性。而针对深度神经网络计算任务单一，计算密度大，数据重复计算量大的特点，通用处理器和专用处理器组合起来进行异构计算成为了大趋势，相较于单一计算设备，异构计算能够提供更高的算力和能效比，专用处理器包括图形处理器GPU，现场可编程逻辑门阵列FPGA,嵌入式神经网络处理器NPU等。

深度神经网络中的算子在不同的硬件计算单元上的执行性能和功耗有时存在很大的差异，比如CPU适合处理逻辑性较强的任务，GPU、NPU执行计算密集、高并行型的算子的运行性能更好，FPGA能够很好地满足低功耗高性能的需求等，通过将算子分配给适合的异构计算单元，由每个异构计算单元执行各自分配到的算子。如今，由多个异构计算单元组成的异构平台已经被广泛应用于执行深度神经网络。例如，申请公开号为CN111143051A，名称为“通过异构资源执行人工神经网络来执行任务的***和方法”的专利申请，公开了一种通过异构资源执行人工神经网络来执行任务的***和方法，通过接收人工神经网络模型并输出基于包括至少一个子图的人工神经网络模型生成的子图信息，检测多个异构资源的感知信息，基于子图信息和感知信息将用于针对人工神经网络中每个网络层执行任务的请求信号输出到多个异构资源，最终完成人工神经网络的推理。

该发明存在的不足之处在于，接收神经网络模型过程中不能接收不同框架训练得到的模型，对模型的兼容性较差。此外，在将神经网络的执行任务分配到异构资源的过程中没有提供分配策略，需要人工根据经验将神经网络切分后生成的子图分配到合适的异构资源上，没有考虑到神经网络模型中算子之间有时存在并行的特点，不能充分地发挥异构计算的并行性优势，随着计算量的增加，执行神经网络速度较低。

发明内容

本发明的目的在于克服上述现有技术的不足，提出了一种基于异构平台执行深度神经网络的***及方法，用于解决现有技术中存在的执行神经网络速度较低和对模型的兼容性较差的技术问题。

为实现上述目的，本发明采取的技术方案为：

一种基于异构平台执行深度神经网络的***，包括模型解析模块、分析模块、平台检测模块、任务分配模块和推理模块，所述平台检测模块、任务分配模块和推理模块是通过包含R个异构计算单元的异构平台O实现的，R≥1，其中：

所述模型解析模块，用于对基于深度学习训练的深度神经网络DNN模型进行序列化解析，将得到的包含N个算子的描述文件M和包含N'个算子间数据流向关系的描述文件M'发送至分析模块，同时对M中的N个算子进行遍历，并将遍历得到的N个算子的属性参数发送至任务分配模块；

所述分析模块，用于构建用于存储N个算子的结构体集合G和用于存储N'个算子间数据流向关系的结构体集合G'，将M存储到G中，将M'存储到G'中，然后通过G和G'构建计算图，并将计算图发送至推理模块；

所述平台检测模块，用于检测异构平台O包含的R个异构计算单元的硬件参数，并将检测结果发送至任务分配模块；

所述任务分配模块，包括参数处理模块和任务预测模块；所述参数处理模块，用于对N个算子的属性参数与R个异构计算单元的硬件参数进行合并，同时对每个算子与每个异构计算单元进行组合，并将合并及组合结果发送至任务预测模块；所述任务预测模块，用于对合并结果进行扩充，然后根据扩充、合并及组合结果生成最优任务分配策略A'，并将A'发送至推理模块；

所述推理模块，用于根据最优任务分配策略A'将计算图中的G中存储的M和G'中存储M'发送到异构平台O的R个异构计算单元上，通过每个异构计算单元执行接收到的算子并根据算子间数据流向关系进行计算。

一种基于异构平台执行深度神经网络的方法，包括以下步骤：

(1)模型解析模块对DNN模型进行解析：

(1a)模型解析模块采用protobuf库对基于深度学习训练的深度神经网络DNN模型进行序列化解析，得到包含N个算子的描述文件M＝{M_n|1≤n≤N}和包含N'个算子间数据流向关系的描述文件M'＝{M'_uv|u,v∈[1,N]}，并将M和M'发送至分析模块，其中，DNN模型包括个N_conv卷积算子、N_pool个池化算子和N_fc个全连接算子，N_conv≥1，N_pool≥1，N_fc≥1，N_conv+N_pool+N_fc＝N，M_n表示第n个算子，M'_uv表示任意两个算子之间的数据流向关系；

(1b)模型解析模块对描述文件中M的N个算子进行遍历，得到N个算子的属性参数S，包括每个卷积算子的属性参数S_conv＝{C₁,C₂,C₃}、每个池化算子的属性参数S_pool＝{P₁,P₂}和每个全连接算子的属性参数S_fc＝{F₁,F₂}，并将S发送到任务分配模块，其中，C₁、C₂和C₃分别表示卷积核的大小、卷积层的通道数和卷积步长，P₁和P₂分别表示池化层的尺寸和步长，F₁和F₂分别表示全连接层的长度和宽度；

(2)分析模块构建计算图：

分析模块构建用于存储N个算子的结构体集合G＝{G_n|1≤n≤N}和用于存储N'个算子间的数据流向关系的结构体集合G'＝{G'_uv|u,v∈[1,N]}，并将每个算子M_n存储到对应的结构体G_n中，将算子间的数据流向关系M'_uv存储到对应的结构体G'_uv中，同时以每个G_n为节点，以每个G'_uv为边构建有向无环的计算图，并将计算图发送至推理模块，其中，G_n表示储存第n个算子的结构体，G'_uv表示储存M'_uv对应数据流向关系的结构体；

(3)平台检测模块检测异构平台O中的异构计算单元的硬件参数：

平台检测模块对异构平台O＝{O_r|1≤r≤R}中的每个异构计算单元O_r包括芯片核心数目、芯片架构和主频的硬件参数进行检测，得到硬件参数集合D＝{D_r|1≤r≤R}，并将D发送至任务分配模块，其中，O_r表示第r个异构计算单元，D_r表示第r个异构计算单元O_r对应的硬件参数；

(4)任务分配模块构建任务分配策略并进行优化：

(4a)参数处理模块对解析模块发送的N个算子的属性参数S和平台检测模块发送的D进行合并，得到参数集合S'＝{S,D}，同时对每个算子M_n与每个异构计算单元O_r进行组合，并将组合得到的N×R个组合体作为任务分配策略A＝{A_rn|1≤r≤R,1≤n≤N}，然后将参数集合S'和分配策略A发送至任务预测模块，其中，A_rn表示第n个算子M_n和第r个异构计算单元O_r形成的组合体对应的任务分配策略；

(4b)任务预测模块按照算子运算规则，对参数集合S'＝{S,D}所包含的属性参数S添加H组属性参数值，实现对S的扩充，得到扩充后的参数集合S*＝{{S,D},{S₁,D},…,{S_h,D},…,{S_H,D}}，其中，H≥100，S_h表示扩充的第h组属性参数值，算子运算规则规定了卷积核的大小为奇数以及卷积层的通道数与卷积核的数量相等；

(4c)任务预测模块将扩充后的参数集合S*和分配策略A作为基于深度Q网络的预测模型的输入进行训练，得到训练好的预测模型，并将参数集合S'和分配策略A作为训练好的预测模型输入进行预测，得到最优任务分配策略A'＝{A'_rn|1≤r≤R,1≤n≤N}，然后将A'发送至推理模块，其中，A'_rn表示A_rn对应的最优任务分配策略；

(5)推理模块对计算图进行推理：

推理模块根据最优任务分配策略A'将计算图中每个G_n中存储的算子M_n和每个G'_uv中存储的算子间的数据流向关系M'_uv发送到异构平台O中的异构计算单元O_r，并通过每个异构计算单元O_r执行接收到的M_n，同时根据M'_uv对算子间流动的数据进行计算，得到执行深度神经网络的结果。

本发明与现有技术相比，具有如下优点：

第一，本发明模型解析模块通过对基于深度学习训练的深度神经网络DNN模型进行序列化解析，分析模块根据解析结果构建计算图，解决了不能接收不同框架训练得到的模型的问题，提高了对于不同框架模型的兼容性；

第二，本发明任务分配模块构建任务分配策略并进行优化，将最优任务分配策略发送到推理模块，推理模块根据最优任务分配策略将每个算子分配到执行时间最短的异构计算单元，避免了人工根据经验制定分配策略，有效地提高了深度神经网络的执行速度。

附图说明

图1为本发明基于异构平台执行深度神经网络的***的结构示意图；

图2为本发明基于异构平台执行深度神经网络的方法的实现流程图；

图3为本发明分析模块构建的计算图的网络结构示意图。

具体实施方式

下面将结合附图和具体实施案例，对本发明作进一步的详细描述。

参照图1，本发明基于异构平台执行深度神经网络的***，包括模型解析模块、分析模块、平台检测模块、任务分配模块和推理模块，本实施例中，所述平台检测模块、任务分配模块和推理模块是通过包含4个异构计算单元的异构平台O实现的，其中：

所述模型解析模块，用于对基于深度学习训练的深度神经网络DNN模型进行序列化解析，将得到的包含12个算子的描述文件M和包含16个算子间数据流向关系的描述文件M'发送至分析模块，同时对M中的12个算子进行遍历，并将遍历得到的12个算子的属性参数发送至任务分配模块；

所述分析模块，用于构建用于存储12个算子的结构体集合G和用于存储16个算子间数据流向关系的结构体集合G'，将M存储到G中，将M'存储到G'中，然后通过G和G'构建计算图，并将计算图发送至推理模块；

所述平台检测模块，用于检测异构平台O包含的4个异构计算单元的硬件参数，并将检测结果发送至任务分配模块；

所述任务分配模块，包括参数处理模块和任务预测模块；所述参数处理模块，用于对12个算子的属性参数与4个异构计算单元的硬件参数进行合并，同时对每个算子与每个异构计算单元进行组合，并将合并及组合结果发送至任务预测模块；所述任务预测模块，用于对合并结果进行扩充，然后根据扩充、合并及组合结果生成最优任务分配策略A'，并将A'发送至推理模块；

所述推理模块，用于根据最优任务分配策略A'将计算图中的G中存储的M和G'中存储M'发送到异构平台O的4个异构计算单元上，通过每个异构计算单元执行接收到的算子并根据算子间数据流向关系进行计算。

参照图2，本发明基于异构平台执行深度神经网络的方法的实现流程图，包括如下步骤：

步骤1)模型解析模块对DNN模型进行解析：

步骤1a)模型解析模块采用protobuf库对基于深度学习训练的深度神经网络DNN模型进行序列化解析，得到包含12个算子的描述文件M＝{M_n|1≤n≤12}和包含14个算子间数据流向关系的描述文件M'＝{M'_uv|u,v∈[1,12]}，并将M和M'发送至分析模块，其中，DNN模型包括个7卷积算子、4个池化算子和1个全连接算子，M_n表示第n个算子，M'_uv表示任意两个算子之间的数据流向关系；

本实施例中，对基于Caffe训练的DNN模型进行序列化解析，通过读取prototxt文件中每个网络层的参数和模型的网络结构，得到包含算子的描述文件M和包含算子间数据流向关系的描述文件M'；

步骤1b)模型解析模块对描述文件中M的12个算子进行遍历，得到7个卷积算子的属性参数S_conv＝{{5,3,1}，{5,1,1}，{3,1,1}，{3,1,1}，{3,1,1}，{5,1,1}，{5,1,1}}、3个池化算子的属性参数S_pool＝{{2,2}，{2,2}，{2,2}}和1个全连接算子的属性参数S_fc＝{1,8}，并将12个算子的属性参数S发送到任务分配模块；

步骤2)分析模块构建计算图：

分析模块构建用于存储12个算子的结构体集合G＝{G_n|1≤n≤12}和用于存储14个算子间的数据流向关系的结构体集合G'＝{G'_uv|u,v∈[1,12]}，并将每个算子M_n存储到对应的结构体G_n中，将算子间的数据流向关系M'_uv存储到对应的结构体G'_nv中，同时以每个G_n为节点，以每个G'_uv为边构建有向无环的计算图，并将计算图发送至推理模块，其中，G_n表示储存第n个算子的结构体，G'_uv表示储存M'_uv对应数据流向关系的结构体；

本实施例中，计算图的网络结构如图3所示，{G₁,G₂,G₃,G₄,G₅,G₆,G₈,G₁₀}为存储卷积算子的结构体，{G₇,G₉,G₁₁}为存储池化算子的结构体，{G₁₂}为存储全连接算子的结构体；

步骤3)平台检测模块检测异构平台O中的异构计算单元的硬件参数：

平台检测模块对异构平台O＝{O_r|1≤r≤4}中的每个异构计算单元O_r包括芯片核心数目、芯片架构和主频的硬件参数进行检测，得到硬件参数集合D＝{D_r|1≤r≤4}，并将D发送至任务分配模块，其中，O_r表示第r个异构计算单元，D_r表示第r个异构计算单元O_r对应的硬件参数；

步骤4)任务分配模块构建任务分配策略并进行优化：

步骤4a)参数处理模块对解析模块发送的12个算子的属性参数和平台检测模块发送的D进行合并，得到参数集合S'＝{S,D}，同时对每个算子M_n与每个异构计算单元O_r进行组合，并将组合得到的48个组合体作为任务分配策略A＝{A_rn|1≤r≤4,1≤n≤12}，然后将参数集合S'和分配策略A发送至任务预测模块，其中，A_rn表示第n个算子M_n和第r个异构计算单元O_r形成的组合体对应的任务分配策略；

步骤4b)任务预测模块按照算子运算规则，对参数集合S'＝{S,D}所包含的属性参数S添加500组属性参数值，实现对S'的扩充，得到扩充后的参数集合S*＝{{S,D},{S₁,D},…,{S_h,D},…,{S₅₀₀,D}}，其中，S_h表示扩充的第h组属性参数值，本实施例中，扩充的属性参数值中C₁取值为{1,3,5,7}，C₃取值为{1,2,3}，P₁取值为{2,4}，P₂取值为{1,2}，F₁取值为{1,2}，F₂取值为{1,2,…,300}；

任务预测模块中为了给训练预测模型提供足够多的样本，对S'进行扩充，扩充后的属性参数尽可能的覆盖了算子的所有参数取值，从而有效地消除了不同模型对结果的影响；

步骤4c)任务预测模块将扩充后的参数集合S*和分配策略A作为基于深度Q网络的预测模型的输入进行训练，得到训练好的预测模型，并将参数集合S'和分配策略A作为训练好的预测模型的输入进行预测，得到最优任务分配策略A'＝{A'_rn|1≤r≤4,1≤n≤12}，然后将A'发送至推理模块，其中，A'_rn表示A_rn对应的最优任务分配策略：

步骤4c1)任务预测模块构建包括依次级联的输入层、隐藏层和输出层的深度Q网络的预测模型，其中，输入层包括15个神经元，输入向量为X＝{x_i|i＝1,2,…,15}，x_i表示输入层第i个神经元的输入值，隐藏层包括24个神经元，输出向量为Y＝{y_j|j＝1,2,…,24}，y_j表示隐藏层第j个神经元的输出值，输出层包括4个神经元，输出向量为Z＝{z_k|k＝1,2,3,4}，z_k表示输出层第k个神经元的输出值，输入层到隐藏层的权值矩阵为W₁＝{w_ij|i＝1,2,…,15,j＝1,2,…,24}，w_ij表示输入层第i个神经元到隐藏层第j个神经元的权值，隐藏层到输出层的权值矩阵为W₂＝{w_jk|j＝1,2,…,24,k＝1,2,3,4}，w_jk表示隐藏层第j个神经元到输出层第k个神经元的权重，其中：

其中，net_j表示隐藏层第j个神经元的输入值，net_k表示输出层第k个神经元的输入值，θ_j表示输出层第j个神经元的输出阈值，θ_k表示隐藏层第k个神经元的输出阈值，θ_j＝0.5，θ_k＝0.5；

输入层的输入向量为算子的属性参数和异构计算单元的硬件参数，深度Q网络用于模拟不同分配策略下的执行速度并将其作为输出；

步骤4c2)任务预测模块初始化迭代次数为t，最大迭代次数为T，并令T＝5000，t＝1；

步骤4c3)任务预测模块在参数集合S*中随机选取一组参数s_t＝{S_h,D}作为状态空间，同时将分配策略集合A中随机选取的4个分配策略{a_k|k＝1,2,3,4}作为行为空间；

步骤4c4)任务预测模块将s_t和a_k作为深度Q网络的输入对a_k的价值进行预测，得到价值集合Q＝{Q(s_t,a_k)|k＝1,2,…,4}，并将其中数值最大的价值作为最高价值Q^*，其中，Q(s_t,a_k)表示状态空间为s_t时a_k的价值；

步骤4c5)任务预测模块采用TD时序差分算法，并通过Q^*对Q(s_t,a_k)进行更新，更新公式为：

Q(s_t,a_k)'＝Q(s_t,a_k)+λ(r(s_t,a_k)+γQ^*-Q(s_t,a_k))

其中，Q(s_t,a_k)'表示Q(s_t,a_k)的更新结果，r(s_t,a_k)表示Q(s_t,a_k)的报酬值，λ表示学习因子，γ表示折扣系数，λ＝0.8,γ＝0.4；

步骤4c6)任务预测模块采用梯度下降法，同时根据Q(s_t,a_k)'对深度Q网络各层间的权值矩阵进行更新，其计算公式为；

w'_jk＝w_jk+αδ_kz_k

w'_ij＝w_ij+αδ_jy_j

δ_k＝y_j(1-y_j)(Q(s_t,a_k)'-z_k)

其中，w'_jk表示w_jk更新后的权值，w'_ij表示w_ij更新后的权值，δ_k表示输出层第k个神经元的一般误差，δ_j表示隐藏层第j个神经元的一般误差，α表示学习速率，α＝0.4；

步骤4c7)任务预测模块判断t＝T是否成立，若是，得到训练好的预测模型，然后执行步骤(4c8)，否则，令t＝t+1，并执行步骤(4c3)；

步骤4c8)任务预测模块将S'和A作为训练好的预测模型输入进行检测，得到价值函数集合Q＝{Q(s_t,a_rn)|1≤r≤4,1≤n≤12}，通过选取Q中的每一列价值{Q(s_t,a_1n),Q(s_t,a_2n),Q(s_t,a_3n),Q(s_t,a_4n)}中的数值最大的价值得到12个最大值，并将12个最大值对应的12个分配策略{a_rn|1≤r≤4,1≤n≤12}作为最优任务分配策略A'；

预测模型输出每个分配策略对应的价值，并将每个算子分配给4个异构计算单元的4个分配策略中选择数值最大的价值对应的分配策略作为最优任务分配策略，实现每个算子在被分配到的异构计算单元上的执行速度最快，从而提高了深度神经网络的执行速度；

步骤5)推理模块对计算图进行推理：

Claims

1.一种基于异构平台执行深度神经网络的***，包括模型解析模块、分析模块、平台检测模块、任务分配模块和推理模块，其特征在于，所述平台检测模块、任务分配模块和推理模块是通过包含R个异构计算单元的异构平台O实现的，R≥1，其中：

2.一种基于异构平台执行深度神经网络的方法，其特征在于，包括以下步骤：

(1)模型解析模块对DNN模型进行解析：

(1a)模型解析模块采用protobuf库对基于深度学习训练的深度神经网络DNN模型进行序列化解析，得到包含N个算子的描述文件M＝{M_n|1≤n≤N}和包含N'个算子间数据流向关系的描述文件M'＝{M'_uv|u,v∈[1,N]}，并将M和M'发送至分析模块，其中，DNN模型包括N_conv个卷积算子、N_pool个池化算子和N_fc个全连接算子，N_conv≥1，N_pool≥1，N_fc≥1，N_conv+N_pool+N_fc＝N，M_n表示第n个算子，M'_uv表示任意两个算子之间的数据流向关系；

(1b)模型解析模块对描述文件M中的N个算子进行遍历，得到N个算子的属性参数S，包括每个卷积算子的属性参数S_conv＝{C₁,C₂,C₃}、每个池化算子的属性参数S_pool＝{P₁,P₂}和每个全连接算子的属性参数S_fc＝{F₁,F₂}，并将S发送到任务分配模块，其中，C₁、C₂和C₃分别表示卷积核的大小、卷积层的通道数和卷积步长，P₁和P₂分别表示池化层的尺寸和步长，F₁和F₂分别表示全连接层的长度和宽度；

(2)分析模块构建计算图：

(4)任务分配模块构建任务分配策略并进行优化：

(4b)任务预测模块按照算子运算规则，对参数集合S'＝{S,D}所包含的属性参数S添加H组属性参数值，实现对S'的扩充，得到扩充后的参数集合S*＝{{S,D},{S₁,D},…,{S_h,D},…,{S_H,D}}，其中，H≥100，S_h表示扩充的第h组属性参数值；

(4c)任务预测模块将扩充后的参数集合S*和分配策略A作为基于深度Q网络的预测模型的输入进行训练，得到训练好的预测模型，并将参数集合S'和分配策略A作为训练好的预测模型的输入进行预测，得到最优任务分配策略A'＝{A'_rn|1≤r≤R,1≤n≤N}，然后将A'发送至推理模块，其中，A'_rn表示A_rn对应的最优任务分配策略；

(5)推理模块对计算图进行推理：

3.根据权利要求2所述的基于异构平台执行深度神经网络的方法，其特征在于，步骤(4c)中所述的最优任务分配策略A'，其获取步骤为：

(4c1)任务预测模块构建包括依次级联的输入层、隐藏层和输出层的深度Q网络的预测模型，其中，输入层包括η个神经元，输入向量为X＝{x_i|i＝1,2,…,η}，x_i表示输入层第i个神经元的输入值，η≥5，隐藏层包括l个神经元，输出向量为Y＝{y_j|j＝1,2,…,l}，y_j表示隐藏层第j个神经元的输出值，l≥10，输出层包括m个神经元，输出向量为Z＝{z_k|k＝1,2,…,m}，z_k表示输出层第k个神经元的输出值，m≥1，输入层到隐藏层的权值矩阵为W₁＝{w_ij|i＝1,2,…,η,j＝1,2,…,l}，w_ij表示输入层第i个神经元到隐藏层第j个神经元的权值，隐藏层到输出层的权值矩阵为W₂＝{w_jk|j＝1,2,…,l,k＝1,2,…,m}，w_jk表示隐藏层第j个神经元到输出层第k个神经元的权重，其中：

其中，net_j表示隐藏层第j个神经元的输入值，net_k表示输出层第k个神经元的输入值，θ_j表示输出层第j个神经元的输出阈值，θ_k表示隐藏层第k个神经元的输出阈值，θ_j,θ_k∈(0,1)；

(4c2)任务预测模块初始化迭代次数为t，最大迭代次数为T，T≥1000，并令t＝1；

(4c3)任务预测模块在参数集合S*中随机选取一组参数s_t＝{S_h,D}作为状态空间，同时将分配策略集合A中随机选取的m个分配策略{a_k|k＝1,2,…,m}作为行为空间；

(4c4)任务预测模块将s_t和a_k作为深度Q网络的输入对a_k的价值进行预测，得到价值集合Q＝{Q(s_t,a_k)|k＝1,2,…,m}，并将其中数值最大的价值作为最高价值Q^*，其中，Q(s_t,a_k)表示状态空间为s_t时a_k的价值；

(4c5)任务预测模块采用TD时序差分算法，并通过Q^*对Q(s_t,a_k)进行更新，更新公式为：

Q(s_t,a_k)'＝Q(s_t,a_k)+λ(r(s_t,a_k)+γQ^*-Q(s_t,a_k))

其中，Q(s_t,a_k)'表示Q(s_t,a_k)的更新结果，r(s_t,a_k)表示Q(s_t,a_k)的报酬值，λ表示学习因子，γ表示折扣系数，λ,γ∈[0,1]；

(4c6)任务预测模块采用梯度下降法，同时根据Q(s_t,a_k)'对深度Q网络各层间的权值矩阵进行更新，更新公式为；

w'_jk＝w_jk+αδ_kz_k

w'_ij＝w_ij+αδ_jy_j

δ_k＝y_j(1-y_j)(Q(s_t,a_k)'-z_k)

其中，w'_jk表示w_jk更新后的权值，w'_ij表示w_ij更新后的权值，δ_k表示输出层第k个神经元的误差，δ_j表示隐藏层第j个神经元的误差，α表示学习速率，α∈[0,1]；

(4c7)任务预测模块判断t＝T是否成立，若是，得到训练好的预测模型，然后执行步骤(4c8)，否则，令t＝t+1，并执行步骤(4c3)；

(4c8)任务预测模块将S'和A作为训练好的预测模型的输入进行预测，得到价值集合Q＝{Q(s_t,a_rn)|1≤r≤R,1≤n≤N}，通过选取Q中的每一列价值{Q(s_t,a_1n),Q(s_t,a_2n),…,Q(s_t,a_rn),…,Q(s_t,a_Rn)}中的数值最大的价值，得到N个最大值，并将N个最大值对应的N个分配策略{a_rn|1≤r≤R,1≤n≤N}作为最优任务分配策略A'。