CN111090860A

CN111090860A - 一种基于深度学习的代码漏洞检测方法及装置

Info

Publication number: CN111090860A
Application number: CN201911257500.2A
Authority: CN
Inventors: 李小勇; 郭宁; 高雅丽; 尹慧; 苑洁
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-05-01

Abstract

本发明实施例提供了一种基于深度学习的代码漏洞检测方法及装置，其中方法包括：获取样本代码及待检测代码，利用预设关键词提取样本代码中的漏洞特征信息，根据漏洞特征信息生成漏洞特征样本向量，再生成待检测特征向量，将漏洞特征样本向量以及待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息，从而提高对代码漏洞检测的准确性。

Description

一种基于深度学习的代码漏洞检测方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于深度学习的代码漏洞检测方法及装置。

背景技术

漏洞是指***中存在的一些功能性或安全性的逻辑缺陷，由于种种原因，漏洞的存在不可避免，主动发掘并分析***安全漏洞，对网络攻防战具有重要的意义。

现有技术在进行漏洞检测时，先获取已知漏洞代码及对应的补丁代码，补丁代码为修复漏洞代码的代码，然后利用切片技术对该漏洞代码及补丁代码进行切分，得到与漏洞特征相关的切片及含有补丁信息的切片，切片技术是一种用于分解程序的程序分析技术，再对与漏洞特征相关的切片及含有补丁信息的切片进行归一化处理，归一化处理具体包括变量名归一化、变量类型归一化以及函数名调用归一化，利用哈希算法及TF-IDF算法将经过归一化处理后的与漏洞特征相关的切片及含有补丁信息的切片映射为特征向量，得到漏洞特征向量及补丁特征向量，之后利用余弦相似度计算公式计算待测代码的特征向量与漏洞特征向量的相似度，将结果按照相似度排序形成候选漏洞结果，再将候选结果中的待测代码的特征向量与补丁特征向量进行相似度计算，除去候选漏洞结果中不含漏洞的误报，留下的候选漏洞即为检测出的漏洞。

现有技术在计算待测代码的特征向量与漏洞特征向量的相似度时，采用简单的余弦相似度计算公式进行计算，仅考虑两个向量中处于同一维度的特征的相似性，而没有考虑到两个向量中处于不同维度的特征的相似性，也就是说该余弦相似度计算公式没有考虑到待检测代码的特征向量中各维度之间的逻辑关系，将各维度切分开孤立地与漏洞特征向量的维度进行计算，而各维度间的逻辑关系就是代码间的逻辑关系，因此，对于代码间具有复杂逻辑关系的漏洞就很难检测出来，导致对代码漏洞检测的准确性降低。

发明内容

本发明实施例的目的在于提供一种基于深度学习的代码漏洞检测方法及装置，用以解决具有复杂逻辑关系的漏洞难以检测的问题。具体技术方案如下：

第一方面，本发明实施例提供了一种基于深度学习的代码漏洞检测方法，所述方法包括：

获取样本代码及待检测代码；

利用预设关键词提取所述样本代码中的漏洞特征信息；

根据所述漏洞特征信息生成漏洞特征样本向量；

生成待检测特征向量，其中，所述待检测特征向量中携带有所述待检测代码中各代码行之间的逻辑关系信息；

将所述漏洞特征样本向量以及所述待检测特征向量输入预先训练的双向长短时记忆神经网络，得到所述待检测特征向量的漏洞信息，其中，所述双向长短时记忆神经网络是根据所述漏洞特征样本向量以及非漏洞特征样本向量训练得到的，所述漏洞信息包括是否存在漏洞、漏洞类型、漏洞位置以及漏洞危害程度信息。

可选的，所述提取所述样本代码中的漏洞特征信息的步骤，包括：

从所述样本代码中获取包含所述预设关键词的第一样本代码，并将所述预设关键词所在的代码行作为该第一样本代码的可疑漏洞触发点；

对所述第一样本代码进行分析，得到数据流图DFD和控制流图CFG，所述DFD和CFG的开始部分为所述第一样本代码开始部分，结束部分为所述可疑漏洞触发点，所述DFD用于表示所述可疑漏洞触发点中的变量的流动情况，所述CFG用于表示所述第一样本代码控制流的结构；

在所述DFD和所述CFG中提取漏洞代码片段，所述漏洞代码片段为与所述漏洞触发点中的变量在所述DFD和所述CFG中传递过程相关的代码，其中，所述变量为所述漏洞触发点中与漏洞信息相关的关键词。

可选的，所述根据所述漏洞特征信息生成漏洞特征样本向量的步骤，包括：

将所述漏洞代码片段转换为漏洞字节码；

将所述漏洞字节码进行切分，得到漏洞符号特征向量，其中，所述漏洞符号特征向量以所述漏洞字节码中的不同的关键词为不同的维度生成；

利用预设的编码规则对所述漏洞符号特征向量进行编码，得到初始漏洞特征样本向量，其中，所述初始漏洞特征样本向量为数字特征向量；

根据预设的向量长度对所述初始漏洞特征样本向量进行处理，得到所述漏洞特征样本向量。

可选的，所述生成待检测特征向量的步骤，包括：

将所述待检测代码转换为待检测字节码；

将所述待检测字节码进行切分，得到待检测符号特征向量，其中，待检测符号特征向量以待检测字节中的不同的关键词为不同的维度生成；

利用预设的编码规则对所述待检测符号特征向量进行编码，得到初始待检测特征向量，其中，所述待检测特征向量为数字特征向量；

根据预设的向量长度对所述初始待检测特征向量进行处理，得到所述待检测特征向量。

可选的，所述长短时记忆神经网络的训练过程包括：

构建初始双向长短时记忆神经网络，其中，所述初始双向长短时记忆神经网络包括至少一层双向长短时记忆层、至少一层融合层、至少一层全连接层以及至少一层映射层；

将所述漏洞特征样本向量以及非漏洞特征样本向量输入所述初始双向长短时记忆神经网络，训练得到双向长短时记忆神经网络，其中，所述非漏洞特征样本向量通过第二样本代码生成，所述第二样本代码为所述样本代码中未包含所述预设关键词的所述样本代码。

可选的，所述将所述漏洞特征样本向量以及所述待检测特征向量输入预先训练的双向长短时记忆神经网络，得到所述待检测特征向量的漏洞信息的步骤后，所述方法还包括：

展示所述待检测特征向量的漏洞信息。

第二方面，本发明实施例提供了一种基于深度学习的代码漏洞检测装置，所述装置包括：

获取模块，用于获取样本代码及待检测代码；

提取模块，用于利用预设关键词提取所述样本代码中的漏洞特征信息；

第一生成模块，用于根据所述漏洞特征信息生成漏洞特征样本向量；

第二生成模块，用于生成待检测特征向量，其中，所述待检测特征向量中携带有所述待检测代码中各代码行之间的逻辑关系信息；

输入模块，用于将所述漏洞特征样本向量以及所述待检测特征向量输入预先训练的双向长短时记忆神经网络，得到所述待检测特征向量的漏洞信息，其中，所述双向长短时记忆神经网络是根据所述漏洞特征样本向量以及非漏洞特征样本向量训练得到的，所述漏洞信息包括是否存在漏洞、漏洞类型、漏洞位置以及漏洞危害程度信息。

可选的，所述提取模块，包括：

获取子模块，用于从所述样本代码中获取包含所述预设关键词的第一样本代码，并将所述预设关键词所在的代码行作为该第一样本代码的可疑漏洞触发点；

分析子模块，用于对所述第一样本代码进行分析，得到数据流图DFD和控制流图CFG，所述DFD和CFG的开始部分为所述第一样本代码开始部分，结束部分为所述可疑漏洞触发点，所述DFD用于表示所述可疑漏洞触发点中的变量的流动情况，所述CFG用于表示所述第一样本代码控制流的结构；

提取子模块，用于在所述DFD和所述CFG中提取漏洞代码片段，所述漏洞代码片段为与所述漏洞触发点中的变量在所述DFD和所述CFG中传递过程相关的代码，其中，所述变量为所述漏洞触发点中与漏洞信息相关的关键词。

可选的，所述第一生成模块，包括：

第一转换子模块，用于将所述漏洞代码片段转换为漏洞字节码；

第一切分子模块，用于将所述漏洞字节码进行切分，得到漏洞符号特征向量，其中，所述漏洞符号特征向量以所述漏洞字节码中的不同的关键词为不同的维度生成；

第一编码子模块，用于利用预设的编码规则对所述漏洞符号特征向量进行编码，得到初始漏洞特征样本向量，其中，所述初始漏洞特征样本向量为数字特征向量；

第一处理子模块，用于根据预设的向量长度对所述初始漏洞特征样本向量进行处理，得到所述漏洞特征样本向量。

可选的，所述第二生成模块，包括：

第二转换子模块，用于将所述待检测代码转换为待检测字节码；

第二切分子模块，用于将所述待检测字节码进行切分，得到待检测符号特征向量，其中，待检测符号特征向量以待检测字节中的不同的关键词为不同的维度生成；

第二编码子模块，用于利用预设的编码规则对所述待检测符号特征向量进行编码，得到初始待检测特征向量，其中，所述待检测特征向量为数字特征向量；

第二处理子模块，用于根据预设的向量长度对所述初始待检测特征向量进行处理，得到所述待检测特征向量。

可选的，所述装置还包括：

构建模块，用于构建初始双向长短时记忆神经网络，其中，所述初始双向长短时记忆神经网络包括至少一层双向长短时记忆层、至少一层融合层、至少一层全连接层以及至少一层映射层；

训练模块，用于将所述漏洞特征样本向量以及非漏洞特征样本向量输入所述初始双向长短时记忆神经网络，训练得到双向长短时记忆神经网络，其中，所述非漏洞特征样本向量通过第二样本代码生成，所述第二样本代码为所述样本代码中未包含所述预设关键词的所述样本代码。

可选的，所述装置还包括：

展示模块，用于展示所述待检测特征向量的漏洞信息。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。

本发明实施例有益效果：

本发明实施例提供的一种基于深度学习的代码漏洞检测方法及装置，可以获取样本代码以及待检测代码，利用预设关键词提取样本代码中的漏洞特征信息，根据漏洞特征信息生成漏洞特征样本向量，再生成待检测特征向量，并将漏洞特征样本向量与待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息。本发明以预先训练的双向长短时记忆神经网络对代码进行检测，由于双向长短时记忆神经网络中的神经元能够学习具有复杂的逻辑关系的代码的特征，因此可以追踪到具有复杂逻辑关系的代码的漏洞，从而提高对代码漏洞检测的准确性。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于深度学习的代码漏洞检测方法的流程图；

图2为本发明实施例中步骤S102的一种流程示意图；

图3为应用本发明实施例在DFD和CFG中获取漏洞代码片段示意图；

图4为本发明实施例中步骤S103的一种流程示意图；

图5为本发明实施例中步骤S104的一种流程示意图；

图6为本发明实施例提供的一种训练长短时记忆神经网络方法的流程图；

图7为本发明实施例提供的另一种基于深度学习的代码漏洞检测方法的流程图；

图8为本发明实施例提供的一种基于深度学习的代码漏洞检测装置的结构示意图；

图9为本发明实施例中的提取模块的一种结构示意图；

图10为本发明实施例中的第一生成模块的一种结构示意图；

图11为本发明实施例中的第二生成模块的一种结构示意图；

图12为本发明实施例提供的一种训练长短时记忆神经网络装置的结构示意图；

图13为本发明实施例提供的另一种基于深度学习的代码漏洞检测装置的结构示意图；

图14为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于深度学习的代码漏洞检测方法，该过程可以包括以下步骤：

S101，获取样本代码及待检测代码。

本发明实施例提供的方法可以应用于电子设备。具体地，该电子设备可以为台式计算机、便携式计算机、智能移动终端等。

在本发明实施例中，样本代码中的一部分代码包含漏洞特征信息，一部分不包含漏洞特征信息。电子设备可以从数据库中读取样本代码，可以从存储的文件数据中读取样本代码，文件的类型可以为文字、图片等，也可以从http通信接收的数据中获取样本代码。待检测代码为需要进行检测的代码，待检测代码可能包含漏洞，也可能不包含漏洞，电子设备可以获取用户在Web界面输入的代码作为待检测代码，也可以获取用户通过API接口上传的代码作为待检测代码。

S102，利用预设关键词提取样本代码中的漏洞特征信息。

电子设备可以通过搜索预设的关键词来获取样本代码中包含漏洞的代码，在本发明实施例中可能在样本代码中搜索到多个相同的预设关键词，电子设备将搜索到的预设关键词作为可疑的漏洞触发点，漏洞触发点是漏洞最终发生的位置。电子设备可以从可疑的漏洞触发点向前溯源直到样本代码的开始部分，获取这部分代码，构建控制流图和数据流图，再从数据流图和控制流图中提取漏洞代码片段，即提取到了样本代码中的漏洞信息，包含同一个预设关键词的代码为同一种类型的漏洞代码片段，示例性地，mysql_connect和mysql_pconnect为同一类型的漏洞，需要说明的是，上述预设关键词可以由程序员根据实际业务需求设置，本发明实施例不做具体限定。

S103，根据漏洞特征信息生成漏洞特征样本向量。

在本发明实施例中，可以先利用预设的编码规则将漏洞代码片段转换为漏洞字节码。需要说明的是，上述预设的编码规则可以由程序员根据实际业务需求设置，本发明实施例不做具体限定。再将漏洞字节码切分构成漏洞符号特征向量，然后对漏洞符号特征向量进行编码得到漏洞特征样本向量。

S104，生成待检测特征向量。

在本发明实施例中，可以先利用预设的编码规则将待检测代码转换为待检测字节码。需要说明的是，上述预设的编码规则可以由程序员根据实际业务需求设置，本发明实施例不做具体限定。再将待检测字节码切分构成待检测符号特征向量，然后对待检测符号特征向量进行编码得到待检测特征向量。

S105，将漏洞特征样本向量以及待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息。

在本发明实施例中，将一个待检测特征向量与一个漏洞特征样本向量输入预先训练的双向长短时记忆神经网络进行检测，可以得到一个概率值，将一个待检测特征向量与一种类型的多个漏洞特征样本向量分别输入预先训练的双向长短时记忆神经网络进行检测，可以得到多个概率值，将这些概率值求均值可以得到一个最终概率值，若该概率值超过50％，则说明该待检测特征向量含有漏洞，同时可以得到该待检测特征向量中的漏洞信息，漏洞信息包括是否存在漏洞、漏洞类型、漏洞位置以及漏洞危害程度信息。若该概率值不超过50％，则说明该待检测特征向量不含漏洞。

本发明实施例提供的一种基于深度学习的代码漏洞检测方法，可以获取样本代码以及待检测代码，利用预设关键词提取样本代码中的漏洞特征信息，根据漏洞特征信息生成漏洞特征样本向量，再生成待检测特征向量，并将漏洞特征样本向量与待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息。本发明以预先训练的双向长短时记忆神经网络对代码进行检测，由于双向长短时记忆神经网络中的神经元能够学习具有复杂的逻辑关系的代码的特征，因此可以追踪到具有复杂逻辑关系的代码的漏洞，从而提高对代码漏洞检测的准确性。

作为本发明实施例一种可选的实施方式，如图2所示，上述步骤S102具体包括：

S1021，从样本代码中获取包含预设关键词的第一样本代码，并将预设关键词所在的代码行作为该第一样本代码的可疑漏洞触发点。

电子设备可以在样本代码中搜索预设关键词，获取包含该预设关键词的样本代码，该样本代码为第一样本代码，并将搜索到的预设关键词所在的代码行作为可疑的漏洞触发点，漏洞触发点是漏洞最终发生的位置。如表1所示，表1提供了SQL(Structured QueryLanguage，结构化查询语言)注入类型的漏洞的预设关键词以及CSS(Cross-SiteScripting，跨站脚本攻击)漏洞的预设关键词，SQL注入类型的漏洞包含mysql_connect(表示数据库连接命令)，mysql_change_user(表示数据库改变用户命令)，mysql_query(表示数据库查询命令)，mysql_error(表示数据库错误信息)，mysql_set_charset(表示数据库字符设置函数)，pg_connect(表示数据库连接命令)，pg_pconnect(表示数据库持久连接命令)，pg_execute(数据库执行命令)，pg_insert(数据库***命令)，pg_put_line(表示数据库发送字符串命令)，pg_query(表示数据库查询命令)，pg_select(表示数据库选择命令)，pg_send_query(表示数据库发送查询命令)pg_set_client_encoding(表示数据库设置客户端编码命令)，pg_update(表示数据库更新命令)，sqlite_open(表示数据库打开文件命令)，sqlite_query(表示数据库查询命令)，sqlite_array_query(表示数据库执行查询命令)，sqlite_create_function(表示数据库自定义函数命令)，sqlite_exec(表示数据库回调函数)，mssql_connect(表示数据库连接命令)，mssql_query(表示数据库查询命令)，sqlsrv_connect(表示数据库连接命令)，sqlsrv_query(表示数据库查询命令)，odbc_connect(表示数据库互联连接命令)和odbc_exec(表示数据库互联回调函数)等预设关键词。CSS漏洞包含Echo(表示回声命令)，print(表示输出命令)，printf(表示式样化输出函数)，print_r(表示打印变量函数)，var_dump(表示输出变量函数)和HTML_tags(表示超文本标记语言标签函数)等预设关键词。SQL注入是通过把SQL命令***到Web表单提交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。CSS漏洞为***在Web界面里的html恶意代码漏洞，需要说明的是，上述预设关键词可以由程序员根据实际业务需求设置，本发明实施例不做具体限定。

表1 SQL注入类型及CSS漏洞的预设关键词

S1022，对第一样本代码进行分析，得到数据流图DFD和控制流图CFG。

在本发明实施例中，在搜索到可疑的漏洞触发点后，可以从该点向前溯源，直到样本代码的开始部分结束，可以获取从漏洞触发点到样本代码的开始部分这一部分代码，并对该代码进行语法分析构建AST(abstract syntax tree，抽象语法树)，AST是样本代码的抽象语法结构的树状表现形式，再对AST进行结构化分析，构建DFD(Data Flow Diagram，数据流图)和CFG(Gontrol Flow Graph，控制流图)，DFD和CFG的开始部分为第一样本代码开始部分，结束部分为可疑漏洞触发点，DFD用于表示可疑漏洞触发点中的变量的流动情况，CFG用于表示第一样本代码控制流的结构。

S1023，在DFD和CFG中提取漏洞代码片段。

在本发明实施例中，可以遍历DFD和CFG，提取漏洞代码片段，漏洞代码片段为漏洞触发点中的变量在DFD和CFG中传递过程相关的代码，变量为漏洞触发点中与漏洞信息相关的关键词。由于与变量传递相关的语句可以是包含漏洞的具有逻辑关系的语句，因此电子设备可以从漏洞触发点开始向前溯源该漏洞触发点中的变量的传递过程，将涉及到变量传递的语句都提取。而由于漏洞触发点之前的与变量传递无关的语句或用于判断的语句与漏洞关系不大，因此可以不用提取。

示例性地，图3为利用DFD和CFG提取漏洞代码的示意图，在图3中，箭头左侧表示DFD和CFG，其中第一行的“$id＝$_GET(‘id’)表示将id参数对应的值赋给id变量，第二行的“$sql＝“SELECT”FROM users WHERE id＝“$id”表示将变量id合并到字符串＝“SELECT”FROM users WHERE”之后，第三行中的“$result＝mysql_query(“…”)；表示在数据库中查询括号中的指令并将查询结果赋给变量$result，括号中的指令为不具有漏洞的指令，在此不作具体限定，第三行中的“$result＝mysql_query($sql)”表示在数据库中查询sql指令并将查询结果赋给变量$result，第四行的“$row＝mysql_fetch_array($result)”表示将变量result进行解析并将结果赋给变量row，第五行的“echo$row”表示输出；箭头右侧表示提取的漏洞代码片段，代码前的序号表示该代码在原来的代码中所在的行数，其中，第一行<？php表示该代码使用的是php语言，2、3、9、11和12行表示的含义与在DFD和CFG中表示的含义相同，8行//exploit表示该行之后的代码为漏洞利用链，13行？>表示代码结束。

作为本发明实施例一种可选的实施方式，如图4所示，上述步骤S103具体包括：

S1031，将漏洞代码片段转换为漏洞字节码。

在本发明实施例中，可以利用预设的编码规则将漏洞代码片段转换为漏洞字节码。需要说明的是，上述预设的编码规则可以由程序员根据实际业务需求设置，本发明实施例不做具体限定。漏洞字节码是一种底层的代码，可以更好地表示漏洞特征，对于神经网络来说是一种更容易学习的代码，由此神经网络可以通过漏洞字节码训练出更精确的权重参数，从而避免出现过拟合问题。

S1032，将漏洞字节码进行切分，得到漏洞符号特征向量。

在本发明实施例中，在对漏洞字节码进行切分之前，可以对漏洞字节码进行一系列处理，处理步骤可以包括：去除分号，去除注释等字符以及换行等，然后以空格为分隔符对漏洞字节码进行切分，让每一个关键词作为一个维度，生成漏洞符号特征向量。

S1033，利用预设的编码规则对漏洞符号特征向量进行编码，得到初始漏洞特征样本向量。

由于双向长短时记忆神经网络接收等长数字向量作为输入向量，因此需要将漏洞符号特征向量转换为数字特征向量。在本发明实施例中，可以利用预设的编码规则，将漏洞符号特征向量中的每一维度转换为数字，得到初始漏洞特征样本向量，该初始漏洞特征样本向量为数字特征向量。需要说明的是，上述预设的编码规则可以由技术人员根据实际业务需求设置，本发明实施例不做具体限定。

S1034，根据预设的向量长度对初始漏洞特征样本向量进行处理，得到漏洞特征样本向量。

在本发明实施例中，可以预设一个向量长度L，电子设备将初始漏洞特征样本向量的长度与L进行比较，若初始漏洞特征样本向量的长度小于L，则将该向量的长度填充至L，若初始漏洞特征样本向量的长度大于L，则将该向量的长度截断至L。无论是填充还是截断操作，都是在初始漏洞特征样本向量的前端进行，由于初始漏洞特征样本向量的由漏洞代码片段生成的，而漏洞代码片段是由漏洞触发点向前溯源生成的，因此，初始漏洞特征样本向量的后端与漏洞信息关联程度更大，更重要，因此，电子设备需要对初始漏洞特征样本向量的前端进行处理。需要说明的是，上述预设的向量长度可以由技术人员根据实际业务需求设置，本发明实施例不做具体限定。

作为本发明实施例一种可选的实施方式，如图5所示，上述步骤S104具体包括：

S1041，将待检测代码转换为待检测字节码。

S1042，将待检测字节码进行切分，得到待检测符号特征向量。

S1043，利用预设的编码规则对待检测符号特征向量进行编码，得到初始待检测特征向量。

S1044，根据预设的向量长度对初始待检测特征向量进行处理，得到待检测特征向量。

上述步骤S1041～S1044的处理原理与步骤S1031～S1034相同，因此其具体处理过程在此不再赘述，不同之处在于，上述步骤S1041～S1044针对的处理对象是待检测代码。

如图6所示，作为本发明实施例一种可选的实施方式，上述长短时记忆神经网络的训练过程具体包括：

S201，构建初始双向长短时记忆神经网络。

在本发明实施例中，需要构建一个初始双向长短时记忆神经网络，其中，初始双向长短时记忆神经网络包括至少一层双向长短时记忆层、至少一层融合层、至少一层全连接层以及至少一层映射层。该初始双向长短时记忆神经网络还可以包含一层输入层和一层输出层，输入层的节点数需要与漏洞特征样本向量的维数相同，双向长短时记忆层、融合层、全连接层以及映射的节点数可以由程序员根据实际业务需求设置，本发明实施例不做具体限定。

上述双向长短时记忆层用于学习漏洞特征样本向量以及非漏洞特征样本向量中的信息，融合层用于将漏洞特征样本向量以及非漏洞特征样本向量融合为一个张量，全连接层用于减少上一层得到的张量的维度，融合层和全连接层都是为了提高信息有效性，映射层用于将上一层输出的张量映射成一个概率，该初始长短时记忆神经网络还包含一组预设权重参数，预设权重参数在训练过程中会不断变化，需要说明的是，上述预设权重参数可以由程序员根据实际业务需求设置，本发明实施例不做具体限定。

S202，将漏洞特征样本向量以及非漏洞特征样本向量输入初始双向长短时记忆神经网络，训练得到双向长短时记忆神经网络。

在本发明实施例中，可以将漏洞特征样本向量以及非漏洞特征样本向量输入初始双向长短时记忆神经网络进行训练，上述非漏洞特征样本向量通过第二样本代码生成，第二样本代码为样本代码中未包含预设关键词的样本代码。在训练过程中可以实时观察初始双向长短时记忆神经网络的F₁值的变化情况，F₁值取决于该双向长短时记忆神经网络的准确率、精确率和召回率。当F₁值趋于稳定时，说明得到了一组稳定的权重参数，权重参数稳定即得到训练好的双向长短时记忆神经网络，电子设备可以将该组权重参数进行存储，用户也可以对该组权重参数进行修改。

如图7所示，作为本发明实施例一种可选的实施方式，在图1所示流程基础上，本发明实施例的一种基于深度学习的代码漏洞检测方法还可以包括：

S106，展示待检测特征向量的漏洞信息。

在本发明实施例中，电子设备可以将待检测特征向量的漏洞信息通过Web界面进行展示，漏洞信息包括是否存在漏洞、漏洞类型、漏洞位置以及漏洞危害程度信息，用户也可以选择只展示其中的一种或几种。

本发明实施例提供的一种基于深度学习的代码漏洞检测方法，可以获取样本代码以及待检测代码，利用预设关键词提取样本代码中的漏洞特征信息，根据漏洞特征信息生成漏洞特征样本向量，再生成待检测特征向量，并将漏洞特征样本向量与待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息，展示待检测特征向量的漏洞信息。本发明可以向用户展示待检测特征向量的漏洞信息，以便用户了解到代码是否具有漏洞，漏洞的具***置等信息，从而可以及时对漏洞进行修复，避免损失。

相应于方法实施例，本发明实施例还提供了一种基于深度学习的代码漏洞检测装置，与图1所示流程对应，如图8所示，该装置包括：

获取模块301，用于获取样本代码及待检测代码。

提取模块302，用于利用预设关键词提取样本代码中的漏洞特征信息。

第一生成模块303，用于根据漏洞特征信息生成漏洞特征样本向量。

第二生成模块304，用于生成待检测特征向量。

输入模块305，用于将漏洞特征样本向量以及待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息。

本发明实施例提供的一种基于深度学习的代码漏洞检测装置，可以获取样本代码以及待检测代码，利用预设关键词提取样本代码中的漏洞特征信息，根据漏洞特征信息生成漏洞特征样本向量，再生成待检测特征向量，并将漏洞特征样本向量与待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息。本发明以预先训练的双向长短时记忆神经网络对代码进行检测，由于双向长短时记忆神经网络中的神经元能够学习具有复杂的逻辑关系的代码的特征，因此可以追踪到具有复杂逻辑关系的代码的漏洞，从而提高对代码漏洞检测的准确性。

作为本发明实施例一种可选的实施方式，如图9所示，上述提取模块302包括：

获取子模块3021，用于从样本代码中获取包含预设关键词的第一样本代码，并将预设关键词所在的代码行作为该第一样本代码的可疑漏洞触发点。

分析子模块3022，用于对第一样本代码进行分析，得到数据流图DFD和控制流图CFG。

提取子模块3023，用于在DFD和CFG中提取漏洞代码片段。

作为本发明实施例一种可选的实施方式，如图10所示，上述第一生成模块303包括：

第一转换子模块3031，用于将漏洞代码片段转换为漏洞字节码。

第一切分子模块3032，用于将漏洞字节码进行切分，得到漏洞符号特征向量。

第一编码子模块3033，用于利用预设的编码规则对漏洞符号特征向量进行编码，得到初始漏洞特征样本向量。

第一处理子模块3034，用于根据预设的向量长度对初始漏洞特征样本向量进行处理，得到漏洞特征样本向量。

作为本发明实施例一种可选的实施方式，如图11所示，上述第二生成模块304包括：

第二转换子模块3041，用于将待检测代码转换为待检测字节码。

第二切分子模块3042，用于将待检测字节码进行切分，得到待检测符号特征向量。

第二编码子模块3043，用于利用预设的编码规则对待检测符号特征向量进行编码，得到初始待检测特征向量。

第二处理子模块3044，用于根据预设的向量长度对初始待检测特征向量进行处理，得到待检测特征向量。

如图12所示，作为本发明实施例一种可选的实施方式，本发明实施例的一种基于深度学习的代码漏洞检测装置，还可以包括：

构建模块401，用于构建初始双向长短时记忆神经网络。

训练模块402，用于将漏洞特征样本向量以及非漏洞特征样本向量输入初始双向长短时记忆神经网络，训练得到双向长短时记忆神经网络。

作为本发明实施例一种可选的实施方式，在图8所示装置结构的基础上，如图13所示，本发明实施例的一种基于深度学习的代码漏洞检测装置，还可以包括：

展示模块306，用于展示待检测特征向量的漏洞信息。

本发明实施例提供的一种基于深度学习的代码漏洞检测装置，可以获取样本代码以及待检测代码，利用预设关键词提取样本代码中的漏洞特征信息，根据漏洞特征信息生成漏洞特征样本向量，再生成待检测特征向量，并将漏洞特征样本向量与待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息，展示待检测特征向量的漏洞信息。本发明可以向用户展示待检测特征向量的漏洞信息，以便用户了解到代码是否具有漏洞，漏洞的具***置等信息，从而可以及时对漏洞进行修复，避免损失。

本发明实施例还提供了一种电子设备，如图14所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

获取样本代码及待检测代码；

利用预设关键词提取样本代码中的漏洞特征信息；

根据漏洞特征信息生成漏洞特征样本向量；

生成待检测特征向量；

将漏洞特征样本向量以及待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的一种电子设备，获取样本代码以及待检测代码，可以获取样本代码以及待检测代码，利用预设关键词提取样本代码中的漏洞特征信息，根据漏洞特征信息生成漏洞特征样本向量，再生成待检测特征向量，并将漏洞特征样本向量与待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息。本发明以预先训练的双向长短时记忆神经网络对代码进行检测，由于双向长短时记忆神经网络中的神经元能够学习具有复杂的逻辑关系的代码的特征，因此可以追踪到具有复杂逻辑关系的代码的漏洞，从而提高对代码漏洞检测的准确性。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一一种电子设备的处理方法的步骤。

本发明实施例提供的一种计算机可读存储介质，可以获取样本代码以及待检测代码，利用预设关键词提取样本代码中的漏洞特征信息，根据漏洞特征信息生成漏洞特征样本向量，再生成待检测特征向量，并将漏洞特征样本向量与待检测特征向量输入预先训练的双向长短时记忆神经网络，得到待检测特征向量的漏洞信息。本发明以预先训练的双向长短时记忆神经网络对代码进行检测，由于双向长短时记忆神经网络中的神经元能够学习具有复杂的逻辑关系的代码的特征，因此可以追踪到具有复杂逻辑关系的代码的漏洞，从而提高对代码漏洞检测的准确性。

对于装置/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，本发明实施例的装置及存储介质分别是应用上述一种电子表格的处理方法的装置及存储介质，则上述基于深度学习的代码漏洞检测方法的所有实施例均适用于该装置及存储介质，且均能达到相同或相似的有益效果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于深度学习的代码漏洞检测方法，其特征在于，所述方法包括：

获取样本代码及待检测代码；

利用预设关键词提取所述样本代码中的漏洞特征信息；

根据所述漏洞特征信息生成漏洞特征样本向量；

2.根据权利要求1所述的方法，其特征在于，所述提取所述样本代码中的漏洞特征信息的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述漏洞特征信息生成漏洞特征样本向量的步骤，包括：

将所述漏洞代码片段转换为漏洞字节码；

4.根据权利要求1所述的方法，其特征在于，所述生成待检测特征向量的步骤，包括：

将所述待检测代码转换为待检测字节码；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述长短时记忆神经网络的训练过程包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述将所述漏洞特征样本向量以及所述待检测特征向量输入预先训练的双向长短时记忆神经网络，得到所述待检测特征向量的漏洞信息的步骤后，所述方法还包括：

展示所述待检测特征向量的漏洞信息。

7.一种基于深度学习的代码漏洞检测装置，其特征在于，所述装置包括：

获取模块，用于获取样本代码及待检测代码；

8.根据权利要求7所述的装置，其特征在于，所述提取模块，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的计算机程序时，实现权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。