CN110673840A

CN110673840A - 一种基于标签图嵌入技术的自动代码生成方法及***

Info

Publication number: CN110673840A
Application number: CN201910898025.0A
Authority: CN
Inventors: 吕晨; 张菡文; 王汝芸; 高学剑; 吕蕾; 刘弘
Original assignee: Shandong Normal University
Current assignee: Shenzhen Datong Information Technology Co ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-10
Anticipated expiration: 2039-09-23
Also published as: CN110673840B

Abstract

本公开提供了一种基于标签图嵌入技术的自动代码生成方法及***，读取自然语言描述并将其转化为对应语句的二维one‑hot向量序列，读取目标代码中的方法调用序列并将方法转化为初始化的二维one‑hot向量序列，对提取出的方法调用序列进行标签图建模，并合并标签图中邻居节点的同类节点，再利用标签图嵌入方法将合并节点后的图模型中的节点信息转化为代码片段的二维图嵌入向量序列；对上述二维向量序列进行训练得到自然语言描述与目标代码相对应的神经网络参数，得到训练好的序列到序列神经网络模型；根据序列到序列神经网络模型，基于自然语言描述的特征值并进行解码，生成对应目标代码；通过将自然语言描述与目标代码转换为对应的向量序列，并通过深度学习技术训练出一个序列到序列的模型，能够将给定的自然语言描述自动转化为目标代码，从而减轻了程序人员的工作负担并提高软件的开发效率。

Description

一种基于标签图嵌入技术的自动代码生成方法及***

技术领域

本公开涉及软件开发与自动化维护技术领域，特别涉及一种基于标签图嵌入技术的自动代码生成方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

伴随着互联网的发展，特别是移动互联网的大规模普及，程序人员面临越来越多的软件需求。

本公开发明人发现：(1)由于自然语言描述的不同，程序人员在面对相同的软件需求时，往往会书写大量重复的代码，不仅会对程序人员带来繁重的工作量，而且难以提高效率；(2)现存的自动代码生成的方法往往是针对一项特定的任务或需求，这样的方法难以处理程序语言的灵活性以及随机性。

发明内容

为了解决现有技术的不足，本公开提供了一种基于标签图嵌入技术的自动代码生成方法及***，通过将自然语言描述与目标代码转换为对应的向量序列，并通过深度学习技术训练出一个序列到序列的模型，能够将给定的自然语言描述自动转化为目标代码，从而减轻程序人员的工作负担并提高软件的开发效率。

为了实现上述目的，本公开采用如下技术方案：

第一方面，本公开提供了一种基于标签图嵌入技术的自动代码生成方法，步骤如下：

读取自然语言描述并将其转化为对应语句的二维one-hot向量序列，读取目标代码中的方法调用序列并将方法转化为初始化的二维one-hot向量序列；

对提取出的方法调用序列进行标签图建模，并合并标签图中邻居节点的同类节点，再利用标签图嵌入方法将合并后图模型中的节点信息转化为代码片段的二维图嵌入向量序列；

对自然语言描述的二维one-hot向量序列和目标代码的二维图嵌入向量序列进行训练得到自然语言描述与目标代码相对应的神经网络参数，构建序列到序列神经网络模型；

根据序列到序列神经网络模型，基于自然语言描述的特征值并进行解码，生成对应目标代码。

作为可能的一些实现方式，利用one-hot编码对自然语言描述所形成的语料库进行处理，将语料库所属的每一个词汇映射为一个一维one-hot向量后，对当前读取的自然语言描述片段中包含的词汇向量序列进行合并得到当前读取自然语言描述语句的二维one-hot向量序列。

作为可能的一些实现方式，利用one-hot编码对目标代码中提取出的方法调用序列进行初始化，对方法调用序列所形成的语料库进行编码，将语料库所属的每个方法名称映射为一个一维one-hot向量，合并得到初始化后所有节点对应的二维one-hot向量序列。

作为可能的一些实现方式，所述标签图建模的方法具体为：利用程序依赖分析工具提取目标代码的方法依赖关系，根据方法之间的输入输出关系构造标签图，并将标签图存放在邻接矩阵中。

作为可能的一些实现方式，所述标签图嵌入方法具体为：当目标代码转化为标签图后，根据节点的调用关系，将节点的后向节点按照相同的标签进行分组，分组完成后，按照组别对该节点的后向节点进行均值聚合，得到虚拟节点，根据合并节点后的图模型中节点调用关系产生的时序序列，对节点特征进行融合，将融合邻居节点特征后的每个节点映射到一个一维图嵌入向量，对当前读取的自然语言描述片段对应的目标代码片段包含的节点向量序列进行合并得到当前对应目标代码片段的二维图嵌入向量序列。

作为可能的一些实现方式，所述序列到序列神经网络模型包括编码器、基于标签图嵌入方法的解码器和注意力机制模型，所述编码器利用长短时记忆网络进行自然语言描述特征的训练；所述基于标签图嵌入方法的解码器利用长短时记忆网络对标签图嵌入方法生成的代码片段的节点向量特征进行训练；所述注意力机制模型利用匹配函数与正切变化计算自然语言描述特征与目标代码特征之间对应的权重值。

第二方面，本公开提供了一种基于标签图嵌入技术的自动代码生成***，包括：

预处理模块，被配置为：读取自然语言描述并将其转化为对应语句的二维one-hot向量序列，读取目标代码并对目标代码中的方法调用序列进行提取，将提取出方法调用序列中的方法初始化为二维one-hot向量序列；

模型构建模块，被配置为：对目标代码中提取出的方法调用序列进行标签图建模，并对该标签图中邻居节点的同类节点进行合并，将标签图嵌入方法应用于合并节点后的图模型，得到代码片段对应的二维图嵌入向量序列；对得到的自然语言描述和目标代码的二维向量序列进行训练得到自然语言描述与目标代码相对应的神经网络参数，得到训练好的序列到序列神经网络模型；

预测模块，被配置为：根据序列到序列神经网络模型，基于自然语言描述的特征值并进行解码，生成对应目标代码。

作为可能的一些实现方式，所述预处理模块利用one-hot编码对自然语言描述所形成的语料库进行处理，将语料库所属的每一个词汇映射为一个一维one-hot向量后，对当前读取的自然语言描述片段中包含的词汇向量序列进行合并得到当前读取自然语言描述语句的二维one-hot向量序列。。

作为可能的一些实现方式，所述预处理模块利用one-hot编码对目标代码中提取出的方法调用序列进行初始化，对方法调用序列所形成的语料库进行编码，将语料库所属的每个方法名称映射为一个一维one-hot向量，合并得到初始化后所有节点对应的二维one-hot向量序列。

第三方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开所述的基于标签图嵌入技术的自动代码生成方法中的步骤。

第四方面，本公开提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本公开所述的基于标签图嵌入技术的自动代码生成方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开改善了前人使用抽象语法树(Abstract Syntax Tree，AST)对于程序结构表达不足的问题，将目标程序代码库进行图建模，可以捕捉完整的程序结构以及目标代码所含方法在整个类库中的调用依赖关系，促进了模型对程序全局结构的表达能力。

2、本公开首次将标签图嵌入技术应用于代码生成领域，考虑了构建的标签图中节点的特殊可达性以及程序代码中方法调用的时序信息，弥补了传统的图嵌入技术只能无差别聚合邻居节点特征信息的缺陷。

3、本公开利用注意力机制模型，根据当前的目标代码序列对自然语言描述特征进行权重值的计算，强调对于当前影响最大的部分，改善了目前基于序列到序列神经网络的自动代码生成方法中只能依赖内部固定长度的限制，大大提高了开发效率。

4、通过将自然语言描述与目标代码转换为对应的向量序列，并通过深度学习技术训练出一个序列到序列的模型，可以将给定的自然语言描述自动转化为目标代码，从而减轻程序人员的工作负担并提高软件的开发效率。

附图说明

图1为本公开实施例1所述的基于标签图嵌入技术的自动代码生成方法流程示意图。

图2为本公开实施例1所述的图建模示意图。

图3为本公开实施例1所述的用于提取标签图节点特征信息的标签图嵌入技术示意图。

图4为本公开实施例1所述的用于特征学习的序列到序列神经网络示意图。

图5为本公开实施例1所述的长短期记忆网络结构图，包括输入门、遗忘门和输出门三个输入部分。

图6为本公开实施例1所述的用于语义相似度计算的注意力机制模型示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1：

如图1所示，本公开实施例1提供了一种基于标签图嵌入技术的自动代码生成方法，步骤如下：

利用one-hot编码对自然语言描述所形成的语料库进行处理，将语料库所属的每一个词汇映射为一个一维one-hot向量后，对当前读取的自然语言描述片段中包含的词汇向量序列进行合并得到当前读取自然语言描述语句的二维one-hot向量序列。

利用one-hot编码对目标代码中提取出的方法调用序列进行初始化，对方法调用序列所形成的语料库进行编码，将语料库所属的每个方法名称映射为一个一维one-hot向量，合并得到初始化后所有节点对应的二维one-hot向量序列。

所述标签图建模的方法具体为：利用程序依赖分析工具提取目标代码的方法依赖关系，根据方法之间的输入输出关系构造标签图，并将标签图存放在邻接矩阵中。

所述标签图嵌入方法具体为：当目标代码转化为标签图后，根据节点的调用关系，将节点的后向节点按照相同的标签进行分组，分组完成后，按照组别对该节点的后向节点进行均值聚合，得到虚拟节点，根据合并节点后的图模型中节点调用关系产生的时序序列，对节点特征进行融合，将融合邻居节点特征后的每个节点映射到一个一维图嵌入向量，对当前读取的自然语言描述片段对应的目标代码片段包含的节点向量序列进行合并得到当前对应目标代码片段的二维图嵌入向量序列。

所述序列到序列神经网络模型包括编码器、基于标签图嵌入方法的解码器和注意力机制模型，所述编码器利用长短时记忆网络进行自然语言描述特征的训练；所述基于标签图嵌入方法的解码器利用长短时记忆网络对标签图嵌入方法生成的代码片段的节点向量特征进行训练；所述注意力机制模型利用匹配函数与正切变化计算自然语言描述特征与目标代码特征之间对应的权重值，权重值代表注意力机制模型分配给不同自然语言描述特征的注意力大小的概率分布，具体为：目标代码中的每个方法名都对应一个或几个对其影响力最大的自然语言描述特征，代表每个自然语言描述特征对当前所对应目标代码中方法名的贡献是不同的，体现出自然语言描述特征对于生成当前目标代码不同的影响程度。

所述的目标代码为开源在GitHub上的程序代码片段或程序代码库。

本实施例针对的目标代码为Java语言和Python语言。

将自然语言描述和目标代码分别转化成为二维向量序列，自然语言描述的预处理过程具体为：为自然语言描述进行one-hot编码，将自然语言描述中的全部词汇使用二进制向量来表示，向量维度为全部词汇数，其中第i个词汇的表示方法为，第i索引被标记为值1，其他索引被标记为值0，即{0,...,0,1,0,...,0}，将当前输入的自然语言描述语句中所对应的词汇的向量序列进行合并，组成代表当前自然语言描述语句的二维one-hot向量序列，即{{1,0,...,0,0,...,0},...,{0,...,0,0,...,0,1}}；目标代码的初始化具体过程同样对目标代码提取出的方法调用序列进行one-hot编码，将方法调用序列中的全部方法名使用二进制向量来表示，向量维度为全部方法名数，其中第i个方法名的表示方法为，第i索引被标记为值1，其他索引被标记为值0，即{0,...,0,1,0,...,0}，将当前读取的自然语言描述片段对应的目标代码片段包含的节点向量序列进行合并得到当前对应目标代码片段的初始化二维one-hot向量序列，即{{1,0,...,0,0,...,0},...,{0,...,0,0,...,0,1}}。

所述的图建模过程如图2所示，将标签图定义为：

其中M表示标签图中节点的集合，也表示目标代码中方法的集合，E表示标签图中边的集合，定义的该标签图为有向无环图，m_k表示标签图中的节点，也表示目标代码中的方法，e_k表示标签图中的边，表示每一条边用于的标签，也表示目标代码库中的输入输出参数。在标签图中，每个节点m_k存在多个输入参数I，代表多个前置条件，并且只存在一个输出参数o，对应目标代码中，只有方法m_k多个输入参数全部满足，才可以调用该方法。

图建模的具体过程如下：

步骤(1)：利用Javaassist和Spoon工具提取目标代码库中的方法m_k和方法的输入输出参数类型以及输入输出参数。

步骤(2)：根据方法的输入输出参数确定方法之间的调用关系，确定过程如下：

步骤(2-1)：假设存在两个方法m_i和m_j，对应标签图中的两个节点，如果在这两个方法中存在调用关系，那么我们可以确定节点m_i和m_j之间存在边e_i,j。

步骤(2-2)：为标签图中的每条边e_k分配一个标签

例如，节点m_i和m_j之间存在边e_i,j，那么我们可以确定在边e_i,j上存在标签

步骤(2-3)：如果两个方法之间存在这样的联系，调用方法m_j的前提条件是获取方法m_i的输出参数，那么可以得到节点m_i和m_j之间存在由m_i指向m_j的边e_i,j。

步骤(3)：根据方法的调用关系，构造表示目标代码库的标签图，并将标签图存储在邻接矩阵中。

所述的标签图嵌入技术如图3所示，标签图嵌入技术的动机基于两方面：首先考虑标签图中每个节点的特殊可达性，如果节点的某一个前置条件没有满足，则无法调用该节点；其次是考虑节点调用之间的时序关系，根据时序关系构造时序序列。

针对标签图G＝(M,E)的标签图嵌入技术如图3所示，具体过程包括：

步骤(1)：对标签图G＝(M,E)中的每个节点进行初始化，采用one-hot编码，节点初始化后的向量为x_m,

并且定义权重参数W_k,

通过训练权重参数更新节点的特征值。

步骤(2)：对k＝1时节点m的后向节点进行分组，其中前向节点指m指向的节点，后向节点指指向m的节点，分组方式为：根据标签

进行分组，标签相同的节点分为一组，并对分组后的后向节点进行均值聚合，得到虚拟节点，并生成k＝1时对应的合并节点后的图模型。如果节点m的前向节点存在标签相同的两个及两个以上节点，则同样划为一组，对该组节点也进行均值聚合，得到虚拟节点。

步骤(3)：对节点m虚拟化后生成的合并节点后的图模型中的后向节点、前向节点以及当前节点m进行拓扑排序，构造有序集，有序集表示以节点m为例的时序序列。

步骤(4)：通过长短时记忆网络聚合器对节点m生成的有序集中的时序序列进行聚合，融合节点m的时序关系，得到表示节点m特征的中间向量。利用全连接神经网络对中间向量进行训练并利用非线性函数σ进行激活，激活过程为

其中W^k表示第k次迭代时的权重参数，

表示通过长短时网络聚合器对节点m生成的有序集中的时序序列进行聚合之后得到的表示节点m特征的中间向量，通过该过程得到k＝1时表示当前节点m的中间向量

用于输入到解码器中。之后更新k＝2时节点m的前向节点和后向节点，重复步骤2，得到k＝2时对应的合并节点后的图模型，用于下一次迭代使用。

步骤(5)：对步骤(3)至步骤(4)循环k,

次，循环结束得到的向量表示节点m最终向量表示。

序列到序列神经网络模型的训练如图4所示，具体包括：

步骤(1)：训练编码器，用于自然语言描述特征的训练，内容如下：

通过长短时记忆网络作为编码器进行自然语言描述特征的训练，如图5所示。

具体地，将输入的自然语言描述预处理为二维向量序列输入到1层长短时记忆网络中进行训练，最终得到的隐含层向量用于输入到下一步注意力机制模型和解码器进行训练。

这一过程可以被定义为：

H_t＝LSTM_enc(X_t,H_t-1) (2)

其中X_t表示自然语言描述特征向量，H_t-1为神经网络隐含层状态。

在长短时记忆网络中，当时间步为t时，遗忘门F_t、输入门I_t和和输出门O_t的计算公式为：

F_t＝σ(X_tW_xf+H_t-1W_hf+b_f) (3)

I_t＝σ(X_tW_xi+H_t-1W_hi+b_i) (4)

O_t＝σ(X_tW_xo+H_t-1W_ho+b_o) (5)

其中W_xi、W_xf、W_xo、W_hi、W_hf和W_ho分别为对应的权重参数，b_i、b_f和b_o分别为对应的偏差，σ为激活函数，目的是为神经网络引入非线性因素。

步骤(2)：训练基于标签图嵌入方法的解码器，实现从自然语言描述到目标代码的解码工作。与编码器相同，该部分同样使用1层长短时记忆网络来实现解码器的工作，内容如下：

步骤(2-1)：通过编码器的长短时记忆网络训练得到自然语言描述的隐含层向量H_t，使用注意力机制模型给每个自然语言描述特征赋予一个权重C_it，如图6所示，权重C_it的计算公式为：

α_it＝W_tσ(W_hH_t-1+b) (6)

其中W_t和W_h表示权重，b表示偏差，H_t-1表示编码器中长短时记忆网络生成的隐含层向量。

步骤(2-2)：第一轮训练，将初始化得到的目标代码特征和使用注意力模型得到的上下文权重向量进行拼接Y'_t＝Y_t⊕C_it输入到解码器的长短时记忆网络中进行训练，时间步t的遗忘门F'_t、输入门I'_t和和输出门O'_t的计算公式为：

F'_t＝σ(Y'_tW'_xf+S_t-1W'_hf+b'_f) (8)

I'_t＝σ(Y'_tW'_xi+S_t-1W'_hi+b'_o) (9)

O'_t＝σ(Y'_tW'_xo+S_t-1W'_ho+b'_o) (10)

其中S_t-1表示基于标签图嵌入方法的解码器中长短时记忆网络生成的隐含层向量，得到表示目标代码中对应的节点向量的one-hot编码。

定义序列模型的损失函数为：

其中，y_t表示t时刻输入真实特征值，H_t表示t时刻长短时记忆网络的预测值，采用交叉熵损失函数对序列模型中的神经网络参数以及标签图嵌入算法中的权重参数进行调整。

步骤(2-3)：利用交叉熵损失函数计算第一轮训练得到的损失值，所有训练集重复步骤(2-2)的过程，计算所有数据的聚合损失值，利用该损失值进行梯度下降，同时调整序列模型以及标签图嵌入方法中的网络参数。

步骤(2-4)：利用调整后的网络参数对标签图嵌入方法下的节点向量进行更新。

步骤(2-5)：迭代执行步骤(2-2)至(2-4)直至计算出的损失值达到期望值，彼时完成整个训练过程。

将自然语言描述特征输入到编码器模块由长短时记忆网络进行特征提取，利用解码器的长短时记忆网络对目标代码的方法名进行预测，即可得到相应的目标代码。

实施例2：

本公开实施例2提供了一种基于标签图嵌入技术的自动代码生成***，包括：

模型构建模块，被配置为：对目标代码中提取出的方法调用序列进行标签图建模，生成标签图，并对该标签图中邻居节点的同类节点进行合并，将标签图嵌入方法应用于合并节点后的图模型，得到代码片段对应的二维图嵌入向量序列。对得到自然语言描述和目标代码的二维向量序列进行训练得到自然语言描述与目标代码相对应的神经网络参数，得到训练好的序列到序列神经网络模型；

所述预处理模块利用one-hot编码对自然语言描述所形成的语料库进行处理，将语料库所属的每一个词汇映射为一个一维one-hot向量后，对当前读取的自然语言描述片段中包含的词汇向量序列进行合并得到当前读取自然语言描述语句的二维one-hot向量序列。

所述预处理模块利用one-hot编码对目标代码中提取出的方法调用序列进行初始化，对方法调用序列所形成的语料库进行编码，将语料库所属的每个方法名称映射为一个一维one-hot向量，合并得到初始化后所有节点对应的二维one-hot向量序列。

所述序列到序列神经网络模型包括编码器、基于标签图嵌入方法的解码器和注意力机制模型，所述编码器利用长短时记忆网络进行自然语言描述特征的训练；所述基于标签图嵌入方法的解码器利用长短时记忆网络对标签图嵌入方法生成的代码片段的节点向量特征进行训练；所述注意力机制模型利用匹配函数与正切变化计算自然语言描述特征与目标代码特征之间对应的权重值。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实施例1所述的基于标签图嵌入技术的自动代码生成方法中的步骤。

实施例4：

本公开实施例4提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本公开实施例1所述的基于标签图嵌入技术的自动代码生成方法中的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于标签图嵌入技术的自动代码生成方法，其特征在于，步骤如下：

2.如权利要求1所述的基于标签图嵌入技术的自动代码生成方法，其特征在于，利用one-hot编码对自然语言描述所形成的语料库进行处理，将语料库所属的每一个词汇映射为一个一维one-hot向量后，对当前读取的自然语言描述片段中包含的词汇向量序列进行合并得到当前读取自然语言描述语句的二维one-hot向量序列。

3.如权利要求1所述的基于标签图嵌入技术的自动代码生成方法，其特征在于，利用one-hot编码对目标代码中提取出的方法调用序列进行初始化，对方法调用序列所形成的语料库进行编码，将语料库所属的每个方法名称映射为一个一维one-hot向量，合并得到初始化后所有节点对应的二维one-hot向量序列。

4.如权利要求1所述的基于标签图嵌入技术的自动代码生成方法，其特征在于，所述标签图建模的方法具体为：利用程序依赖分析工具提取目标代码的方法依赖关系，根据方法之间的输入输出关系构造标签图，并将标签图存放在邻接矩阵中。

5.如权利要求1所述的基于标签图嵌入技术的自动代码生成方法，其特征在于，所述标签图嵌入方法具体为：当目标代码转化为标签图后，根据节点的调用关系，将节点的后向节点按照相同的标签进行分组，分组完成后，按照组别对该节点的后向节点进行均值聚合，得到虚拟节点，根据合并节点后的图模型中节点调用关系产生的时序序列，对节点特征进行融合，将融合邻居节点特征后的每个节点映射到一个一维图嵌入向量，对当前读取的自然语言描述片段对应的目标代码片段包含的节点向量序列进行合并得到当前对应目标代码片段的二维图嵌入向量序列。

6.如权利要求1所述的基于标签图嵌入技术的自动代码生成方法，其特征在于，所述序列到序列神经网络模型包括编码器、基于标签图嵌入方法的解码器和注意力机制模型，所述编码器利用长短时记忆网络进行自然语言描述特征的训练；所述基于标签图嵌入方法的解码器利用长短时记忆网络对标签图嵌入方法生成的代码片段的节点向量特征进行训练；所述注意力机制模型利用匹配函数与正切变化计算自然语言描述特征与目标代码特征之间对应的权重值。

7.一种基于标签图嵌入技术的自动代码生成***，其特征在于，包括：

模型构建模块，被配置为：对目标代码中提取出的方法调用序列进行图建模，生成标签图，并对该标签图中邻居节点的同类节点进行合并，将标签图嵌入方法应用于合并节点后的图模型，得到代码片段对应的二维图嵌入向量序列。对得到自然语言描述和目标代码的二维向量序列进行训练得到自然语言描述与目标代码相对应的神经网络参数，得到训练好的序列到序列神经网络模型；

8.如权利要求7所述的基于标签图嵌入技术的自动代码生成***，其特征在于，利用one-hot编码对自然语言描述所形成的语料库进行处理，将语料库所属的每一个词汇映射为一个一维one-hot向量后，对当前读取的自然语言描述片段中包含的词汇向量序列进行合并得到当前读取自然语言描述语句的二维one-hot向量序列；

或，所述预处理模块利用one-hot编码对目标代码中提取出的方法调用序列进行初始化，对方法调用序列所形成的语料库进行编码，将语料库所属的每个方法名称映射为一个一维one-hot向量，合并得到初始化后所有节点对应的二维one-hot向量序列；

或，所述标签图建模的方法具体为：利用程序依赖分析工具提取目标代码的方法依赖关系，根据方法之间的输入输出关系构造标签图，并将标签图存放在邻接矩阵中；

或，所述标签图嵌入方法具体为：当目标代码转化为标签图后，根据节点的调用关系，将节点的后向节点按照相同的标签进行分组，分组完成后，按照组别对该节点的后向节点进行均值聚合，得到虚拟节点，根据合并节点后的图模型中节点调用关系产生的时序序列，对节点特征进行融合，将融合邻居节点特征后的每个节点映射到一个一维图嵌入向量，对当前读取的自然语言描述片段对应的目标代码片段包含的节点向量序列进行合并得到当前对应目标代码片段的二维图嵌入向量序列；

或，所述序列到序列神经网络模型包括编码器、基于标签图嵌入方法的解码器和注意力机制模型，所述编码器利用长短时记忆网络进行自然语言描述特征的训练；所述基于标签图嵌入方法的解码器利用长短时记忆网络对标签图嵌入方法生成的代码片段的节点向量特征进行训练；所述注意力机制模型利用匹配函数与正切变化计算自然语言描述特征与目标代码特征之间对应的权重值。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的基于标签图嵌入技术的自动代码生成方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任一项所述的基于标签图嵌入技术的自动代码生成方法中的步骤。