CN110414229B

CN110414229B - 操作命令检测方法、装置、计算机设备及存储介质

Info

Publication number: CN110414229B
Application number: CN201910250265.XA
Authority: CN
Inventors: 陈洁远; 关塞; 于洋; 曾凡; 李家昌; 聂利权; 王伟; 阮华; 万志颖; 李航
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2023-12-12
Anticipated expiration: 2039-03-29
Also published as: CN110414229A

Abstract

本申请是关于一种操作命令检测方法、装置、计算机设备及存储介质。该方法包括：获取在操作***中输入的目标命令会话，所述目标命令会话中包含至少一条操作命令；获取所述至少一条操作命令中包含的各个命令词的词向量；根据所述各个命令词的词向量获取所述目标命令会话的命令会话向量；通过分类模型对所述命令会话向量进行处理，获得分类结果，所述分类结果用于指示所述目标会话命令中是否包含指定类型命令。本申请所示方案不需要人工进行特征提取，能够自适应学习命令的向量化表达，并且自动识别出指定类型命令，从而提高恶意命令等指定类型命令的检测准确性。

Description

操作命令检测方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机安全技术领域，特别涉及一种操作命令检测方法、装置、计算机设备及存储介质。

背景技术

在计算机领域中，恶意命令是入侵者在入侵操作***时使用的终端指令。如何准确识别恶意命令，是计算机安全领域急需解决的问题。

在相关技术中，通常需要计算机安全领域的专家人员凭借个人经验抓取重要的命名，以生成重要命令表。在检测命令会话中是否包含恶意命令时，结合重要命令表检测该命令会话中是否包含恶意命令。

然而，相关技术中的方案依赖于人工经验，有很多人工执行的特征提取过程，对于新型的恶意命令，需要重新构造重要命令表，泛化能力较差，从而导致恶意命令检测的准确性不高。

发明内容

本申请实施例提供了一种操作命令检测方法、装置、计算机设备及存储介质，可以提高恶意命令检测的准确性，该技术方案如下：

一方面，提供了一种操作命令检测方法，所述方法包括：

获取在操作***中输入的目标命令会话，所述目标命令会话中包含至少一条操作命令；

获取所述至少一条操作命令中包含的各个命令词的词向量；

根据所述各个命令词的词向量获取所述目标命令会话的命令会话向量；

通过分类模型对所述命令会话向量进行处理，获得分类结果，所述分类结果用于指示所述目标命令会话中是否包含指定类型命令；所述分类模型是通过命令会话样本以及标注信息训练获得的机器学习模型，所述标注信息用于指示所述命令会话样本中是否包含所述指定类型命令。

另一方面，提供了一种操作命令检测装置，所述装置包括：

会话获取模，用于获取在操作***中输入的目标命令会话，所述目标命令会话中包含至少一条操作命令；

词向量获取模块，用于获取所述至少一条操作命令中包含的各个命令词的词向量；

会话向量获取模块，用于根据所述各个命令词的词向量获取所述目标命令会话的命令会话向量；

分类模块，用于通过分类模型对所述命令会话向量进行处理，获得分类结果，所述分类结果用于指示所述目标命令会话中是否包含指定类型命令；所述分类模型是通过命令会话样本以及标注信息训练获得的机器学习模型，所述标注信息用于指示所述命令会话样本中是否包含所述指定类型命令。

可选的，所述会话向量获取模块，用于，

获取所述各个命令词分别在词向量训练集中出现的频率，所述词向量训练集是用于训练命令会话对应的词向量的集合；

根据所述各个命令词分别在词向量训练集中出现的频率，对所述各个命令词的词向量进行加权求和，获得所述目标命令会话的命令会话向量。

可选的，在根据所述各个命令词分别在词向量训练集中出现的频率，对所述各个命令词的词向量进行加权求和，获得所述目标命令会话的命令会话向量时，所述会话向量获取模块，用于，

对所述各个命令词分别在词向量训练集中出现的频率对应的倒频率进行平滑处理，获得所述各个命令词分别对应的权重；

根据所述各个命令词分别对应的权重，对所述各个命令词的词向量进行加权求和，获得所述目标命令会话的命令会话向量。

可选的，所述装置还包括：

公共部分去除模块，用于在分类模块通过分类模型对所述命令会话向量进行处理，获得分类结果之前，去除所述命令会话向量中的公共部分，所述公共部分是通过主成分分析方式获得的；

所述分类模块，用于通过所述分类模型对去除所述公共部分之后的命令会话向量进行处理，获得所述分类结果。

可选的，所述装置还包括：

替换模块，用于在所述词向量获取模块获取所述至少一条操作命令中包含的各个命令词的词向量之前，将所述至少一条操作命令中包含的指定类型元素替换为指定命令词。

可选的，所述指定类型元素包括以下类型元素中的至少一项：

由连续数字组成的字段、互联网协议IP地址以及命令结束语。

可选的，所述词向量获取模块，用于当所述目标命令会话满足过滤条件时，执行获取所述至少一条操作命令中包含的各个命令词的词向量的步骤。

可选的，所述过滤条件包括以下条件中的至少一项：

对应的命令会话中不包含乱码、对应的命令会话具有正确的来源、以及对应的命令会话的采集时间处于指定时间段内。

可选的，所述分类模型包括n个分类子模型，n为大于或者等于2的整数，所述分类模块，用于，

通过所述n个分类子模型分别对所述命令会话向量进行处理，获得所述n个分类子模型各自输出的分类子结果；

根据所述n个分类子模型各自输出的分类子结果获取的所述分类结果。

可选的，在根据所述n个分类子模型各自输出的分类子结果获取的所述分类结果时，所述分类模块，用于，

对所述n个分类子模型各自输出的分类子结果进行二值化处理，获得n个二值化数值；

将所述n个二值化数值的平均值获取为所述分类结果。

可选的，所述分类子结果用于指示所述目标命令会话中包含所述指定类型命令的概率；在根据所述n个分类子模型各自输出的分类子结果获取的所述分类结果时，所述分类模块，用于将所述n个分类子模型各自指示的概率的平均值获取为所述分类结果。

可选的，所述指定类型命令包括恶意命令。

另一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的操作命令检测方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的操作命令检测方法。

本申请提供的技术方案可以包括以下有益效果：

通过词向量来表征操作命令中的各个词的特征，并基于词向量生成目标命令会话的命令会话向量，再通过命令会话向量与训练好的分类模型检测目标命令会话中是否包含指定类型命令(比如恶意命令)，该方案不需要人工进行特征提取，能够自适应学习命令的向量化表达，并且自动识别出指定类型命令，从而提高恶意命令等指定类型命令的检测准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种操作命令检测***的结构示意图；

图2是根据一示例性实施例示出的一种操作命令检测方法的流程图；

图3是图2所示实施例涉及的指定类型命令检测的流程示意图；

图4是根据一示例性实施例示出的一种操作命令检测方法的流程图；

图5是根据一示例性实施例示出的一种恶意命令检测的流程图；

图6是根据一示例性实施例示出的操作命令检测装置的结构方框图；

图7是根据一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例提出了一种操作命令检测方案，该方案能够提供更加准确的检测出恶意命令效果。为了便于理解，下面对本申请涉及的几个名词进行解释。

1)词向量

在自然语言处理(Natural Language Processing，NLP)技术中，将句子中的词映射成一个高维的向量，便于后续的计算，每个词对应的向量即为词向量(Word Embedding)。

2)命令会话向量

一个命令会话中通常会包含多段命令。在本申请实施例中，可以将每段命令当作由多个词组成的句子，从而将整个命令会话映射成的一个高维向量，该整个命令会话映射成的高维即为命令会话向量。

图1是根据一示例性实施例示出的一种操作命令检测***的结构示意图。该***包括：检测设备120以及若干个终端140。

检测设备120可以是一台计算机设备(比如服务器)，或者由若干台计算机设备组成的计算集群，或者是一个虚拟化平台，或者是一个云计算服务中心。

终端140可以是安装有操作***(比如unix***、linux***以及windows***等)，且能够根据输入的命令会话执行相关操作的终端设备，比如，终端140可以是台式计算机、膝上型便携计算机(又称笔记本电脑)、手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器等等。

终端140与检测设备120之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，该***还可以包括管理设备160，该管理设备160与检测设备120之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图2是根据一示例性实施例示出的一种操作命令检测方法的流程图，该操作命令检测方法可以用于计算机设备，比如上述图1所示***的检测设备120，或者其它计算机设备(比如台式电脑、笔记本电脑、个人工作站或者其它服务器)中。如图2所示，该操作命令检测方法可以包括如下步骤：

步骤21，获取在操作***中输入的目标命令会话，该目标命令会话中包含至少一条操作命令。

步骤22，获取该至少一条操作命令中包含的各个命令词的词向量。

步骤23，根据该各个命令词的词向量获取该目标命令会话的命令会话向量。

步骤24，通过分类模型对该命令会话向量进行处理，获得分类结果，该分类结果用于指示该目标命令会话中是否包含指定类型命令。

其中，该分类模型是通过命令会话样本以及标注信息训练获得的机器学习模型，该标注信息用于指示该命令会话样本中是否包含该指定类型命令。

在自然语言处理技术中，主要的处理对象是文字构成的词，而文字无法给计算机直接处理，因此，需要将文字构成的词转换成计算机可以处理的编码。而通过多维向量来表示文字构成的词，则是自然语言处理中对文字进行编码的常用手段。

而本申请所示的方案，则是对命令会话中的各个命令词构建词向量，并根据各个命令词的词向量获得命令会话向量，从而以向量的形式来表示命令会话，继而通过预先训练好的机器学习模型来处理命令会话向量，实现对命令会话中的指定类型命令的检测。比如，请参考图3，其示出了本申请实施例涉及的指定类型命令检测的流程示意图。如图3所示，检测设备预先存储有分类模型34，该分类模型34是由命令会话样本36，以及命令会话样本36对应的标注信息37训练获得的，该训练过程可以在检测设备中完成，也可以在其它计算机设备中实现。对于目标命令会话31，检测设备首先获取目标命令会话31中的各个命令词的词向量32，然后根据各个命令词的词向量32生成命令会话向量33，之后，检测设备将命令会话向量33输入至预先训练好的分类模型34，分类模型34对命令会话向量33进行处理后输出分类结果35。后续若分类结果35指示该目标命令会话31中包含指定类型命令，则检测设备可以展示相关的提示，比如，当指定类型命令是恶意命令时，若分类结果35指示该目标命令会话31中包含恶意命令，则检测设备可以发出警告。

由于本申请实施例提供的方案通过机器学习的方式进行特征提取和分类，不需要人工进行特征提取，能够自适应学习命令的向量化表达，并且自动识别出指定类型命令，从而提高恶意命令等指定类型命令的检测准确性。

图4是根据一示例性实施例示出的一种操作命令检测方法的流程图，该操作命令检测方法可以应用于计算机设备，比如上述图1所示***的检测设备120，或者其它计算机设备(比如台式电脑、笔记本电脑、个人工作站或者其它服务器)中。如图4所示，该操作命令检测方法可以包括如下步骤：

步骤401，获取在操作***中输入的目标命令会话，该目标命令会话中包含至少一条操作命令。

在本申请实施例中，检测设备可以定期获取***中各个终端接收到的各个命令会话，其中，每条命令会话由若干条操作命令组成，每条操作命令中包含一个或多个命令词。

在本申请实施例中，命令词可以是一条命令中包含的单词、标点以及特殊符号等。

步骤402，将该至少一条操作命令中包含的指定类型元素替换为指定命令词。

可选的，该指定类型元素包括以下类型元素中的至少一项：由连续数字组成的字段、互联网协议IP地址以及命令结束语。

由于操作命令相比于自然语言来说，灵活性更大，具有更多的自定义命令或参数，而不同的自定义命令或者参数说表示的信息类似，因此，为了避免操作命令中的自定义命令或参数对后续检测结果造成影响，在本申请实施例中，可以预先对各个命令会话包含的操作命令中的自定义命令或者参数进行处理，以提高后续识别准确性。

其中，对操作命令中的自定义命令或者参数进行处理，可以是将操作命令中属于相同类型(内容可以不同)的自定义命令或者参数替换为相同的命令词。

比如，检测设备可以将操作命令中所有的由连续数字组成的字段替换成同一个特殊符号(比如单词SIGNNUMBER)，将操作命令中所有的IP地址替换成同一个特殊符号(比如单词SIGNIP)，并将操作命令中所有的命令结束语替换成同一个特殊符号(比如单词SIGNEND)。

步骤403，获取该至少一条操作命令中包含的各个命令词的词向量。

可选的，在获取该至少一条操作命令中包含的各个命令词的词向量时，若该目标命令会话满足过滤条件，则执行获取该至少一条操作命令中包含的各个命令词的词向量的步骤。

可选的，该过滤条件包括以下条件中的至少一项：

在获取目标命令会话时，检测设备可以会出现未正确获取到命令会话的情况，因此，在本申请实施例中，在对各个命令会话进行后续识别之前，可以首先对各个命令会话中未正确获取/采集的会话进行过滤，过滤过程可以如下：

1)过滤掉各个命令会话中，包含乱码的命令会话。

当一个命令会话被错误获取时，命令会话中可能会出现乱码，说明命令会话中部分或者全部的命令词获取不正确，此时，检测设备可以丢弃存在乱码的命令会话，或者，丢弃乱码比例大于预设比例阈值的命令会话。其中，乱码比例可以是命令会话中乱码的字符数量占命令会话的全部字符数量的比例。

2)过滤掉各个命令会话中，不具有正确的来源的命令会话。

在本申请实施例中，检测设备可以对指定的一个或多个终端中的命令会话进行检测，因此，在进行后续步骤之前，检测设备首先判断获取到的各个命令会话是否具有正确的命令来源(即来源与哪一个终端)，如果判断出某一个命令会话的来源不属于指定的一个或多个终端中的一个，或者，某一个命令会话没有命令来源，则检测设备可以丢弃该命令会话。

3)过滤掉各个命令会话中，命令会话的采集时间不处于指定时间段内的命令会话。

在本申请实施例中，检测设备可以分时间段对命令会话进行检测。比如，检测设备每隔24小时，对24小时内在各个终端中输入的命令会话进行检测。因此，在进行后续步骤之前，检测设备首先判断获取到的各个命令会话是否是当前时刻之前的24小时内采集的命令会话，若某一个命令会话的采集时间不处于当前时刻之前的24小时内，或者，某一个命令会话没有对应的采集时间，则检测设备可以丢弃该命令会话。

在本申请实施例中，检测设备可以对各个命令会话进行分词，并根据分词结果进行词向量训练，即根据各个命令会话生成词向量训练集，该词向量训练集中包含各个命令会话中包含的命令词，通过预设的词向量训练模型对词向量训练集进行训练，获得词向量训练集中各个命令词的词向量。

可选的，在进行词向量训练之后，检测设备可以对词向量训练集中的命令词进行筛选，去除其中出现次数较少的命令词，比如，去除其中出现次数小于预设次数阈值的命令词。

其中，在通过词向量训练集训练词向量时，训练设备可以通过word2vec模型训练词向量。其中，word2vec是一种从大量文本中以无监督学习的方式学习语义知识的模型，其本质就是通过学习文本来用词向量的方式表征词的语义信息，通过嵌入空间将语义上相似的单词映射到距离相近的地方，即将词从原先所属的空间映射到新的多维空间中。

其中，上述的训练设备可以是检测设备，也可以是检测设备之外的其它设备。

步骤404，根据该各个命令词的词向量获取该目标命令会话的命令会话向量。

可选的，在根据该各个命令词的词向量获取该目标命令会话的命令会话向量时，检测设备可以获取该各个命令词分别在词向量训练集中出现的频率，该词向量训练集是用于训练命令会话对应的词向量的集合；根据该各个命令词分别在词向量训练集中出现的频率，对该各个命令词的词向量进行加权求和，获得该目标命令会话的命令会话向量。

在本申请实施例中，检测设备可以直接将命令词对应的频率作为该命令词的权重，或者，检测设备也可以根据命令词对应的频率，结合预设的权重计算方法获得命令词对应的权重。

可选的，在根据该各个命令词分别在词向量训练集中出现的频率，对该各个命令词的词向量进行加权求和，获得该目标命令会话的命令会话向量时，检测设备可以对该各个命令词分别在词向量训练集中出现的频率对应的倒频率进行平滑处理，获得该各个命令词分别对应的权重；根据该各个命令词分别对应的权重，对该各个命令词的词向量进行加权求和，获得该目标命令会话的命令会话向量。

比如，在本申请实施例中，检测设备可以对命令词的频率的倒数(即倒频率)进行平滑处理，以获得命令词对应的权重。例如，对于目标命令词，检测设备可以将平滑系数除以该平滑系数与目标命令词的频率之和，并将获得的结果作为目标命令词的权重。

步骤405，去除该命令会话向量中的公共部分，该公共部分是通过主成分分析方式获得的。

在本申请实施例中，检测设备可以对各个命令会话对应的命令会话向量进行公共部分剔除，以去除各个命令会话对应的命令会话向量中的公共部分，该公共部分可以通过主成分分析(Principal Component Analysis，PCA)方式获得。

步骤406，通过分类模型对去除该公共部分之后的命令会话向量进行处理，获得分类结果，该分类结果用于指示该目标命令会话中是否包含指定类型命令。

可选的，该分类模型包括n个分类子模型，n为大于或者等于2的整数，在通过分类模型对该命令会话向量进行处理，获得分类结果时，检测设备可以通过该n个分类子模型分别对该命令会话向量进行处理，获得该n个分类子模型各自输出的分类子结果；根据该n个分类子模型各自输出的分类子结果获取的该分类结果。

在另一种示例中，在根据该n个分类子模型各自输出的分类子结果获取的该分类结果时，检测设备可以对该n个分类子模型各自输出的分类子结果进行二值化处理，获得n个二值化数值；并将该n个二值化数值的平均值获取为该分类结果。

或者，在另一种示例中，该分类子结果用于指示该目标命令会话中包含该指定类型命令的概率；在根据该n个分类子模型各自输出的分类子结果获取的该分类结果时，检测设备可以将该n个分类子模型各自指示的概率的平均值获取为该分类结果。

可选的，检测设备还可以根据分类模型输出的分类结果展示提示信息，以提示目标命令会话中是否包含指定类型命令。

比如，当分类结果指示目标命令会话中包含恶意命令时，检测设备可以展示提醒信息，该提醒信息用于提示该目标命令会话中存在恶意命令，以便管理人员及时做出对应的处理。

综上所述，本申请实施例提供的方案，通过词向量来表征操作命令中的各个词的特征，并基于词向量生成目标命令会话的命令会话向量，再通过命令会话向量与训练好的分类模型检测目标命令会话中是否包含指定类型命令(比如恶意命令)，该方案不需要人工进行特征提取，能够自适应学习命令的向量化表达，并且自动识别出指定类型命令，从而提高恶意命令等指定类型命令的检测准确性。

以上述指定类型命令是恶意命令为例，请参考图5，是根据一示例性实施例示出的一种恶意命令检测的流程图。以对某局域网内的各个终端接收到的命令会话进行恶意命令检测为例，如图5所示，该恶意命令检测的过程可以如下：

S1，获取命令会话。

检测设备可以采集当前局域网内的各个终端中输入的命令会话，并按照时间对采集到的命令会话进行整理和存储，以便定期进行恶意命令检测。

比如，检测设备可以每隔24小时进行一次恶意命令检测，在进行恶意命令检测时，检测设备可以获取最近24小时内采集并存储的各个命令会话。

S2，命令预处理。

这一步主要包括以下两个步骤：

1)脏数据过滤；

在本申请实施例中，脏数据过滤是指过滤未正确采集的命令数据；其中，未正确采集的命令数据可以是指采集到的命令会话中，包含乱码的命令会话(或者包含的乱码的比例大于预设比例阈值的命令会话)、包含不正确的来源的命令会话、不包含来源的命令会话、包含的采集时间不处于最近24小时以内的命令会话以及不包含采集时间的命令会话等等。

2)符号替换；

在本申请实施例中，符号替换可以是指对脏数据过滤之后的命令会话进行以下替换处理方式：

a)将所有连续数字变成特殊符号SIGNNUMBER；

b)将所有IP地址变成特殊符号SIGNIP；

c)将命令会话中每行命令的结尾替换成特殊符号SIGNEND。

S3，提取命令词向量。

其中，命令词向量的提取包括两个步骤：

a)分词；

为了更好的利用所有数据以及上下文学习词向量，分词时不仅以空格作为单词间的分隔符，同时会将标点符号和特殊符号都作为单独的词，例如文件路径：/etc/hosts会被分为/、etc、/、hosts四个词。

b)词向量训练；

为了减少各种自定义的参数及文件名对模型的影响，首先过滤了出现次数较少的词。词向量的训练方式很多，本方案利用了Word2Vec中的skip-gram模型进行词向量的训练，比如，词向量的维度可以为200维，窗口大小为10。

Skip-gram模型的原理是假设当前词为w_t，句子中w_t窗口长度为2L的前后单词为w_t-L,…,w_t-1,w_t+1,…,w_t+L，那么模型的目标就是最大化w_t的上下文出现的联合概率：

∏_ip(w_t+i|w_t),i∈[-L,L]且i≠0；

单个词的概率计算方式为：

其中v_w为单词w的输入向量表示，v^′ _w为单词w的输出向量表示，即同一个单词，在作为窗口中心词w_t时，用输入向量表示，而作为被预测词时，使用输出向量。

训练过程即将每个单词的输入、输出向量作为参数，寻找到最大化语料库的平均概率的向量，即：

S4，提取命令会话向量。

其中，命令会话向量的提取包含两个步骤：

a)词向量组合；

假设命令会话s由|s|个词组成，每个词w_i的词向量为在整个训练集中出现的频率为/>那么会话向量：

其中，a为平滑参数，比如，本方案中可以取a＝10^-3。

b)公共向量去除；

命令会话中会包含公共的语义，去除公共语义可以更好的区分不同命令会话，因此利用PCA取得最主要的公共向量，并将其减去，作为最终的命令会话向量。

即令所有的会话向量集合为那么/>的PCA成分为{v₁,v₂,…}，其中v₁为第一主成分，则公共向量V_c＝v₁。最终，命令会话向量V′_s＝V_s-V_c。

S5，命令会话分类。

以V′_s作为命令会话s的特征向量，利用分类器进行训练、分类。本方案采用了多分类器融合的方式，预先训练了包括支持向量机(Support Vector Machine，SVM)，逻辑回归(Logistic Regression，LR)，随机森林(Random Forest)多种模型进行投票融合，取多数分类器的结果作为最终的判断结果。该判断方式为：

单个分类器c输出命令会话s是否恶意命令，比如，这里以3种分类器为例，3种分类器分别为LR、SVM、Random Forest。

LR：逻辑回归

p_lr(s＝1|x)＝φ(x^Ts+b)，其中为sigmoid函数。当p_lr(s＝1|x)≥0.5时，判断为恶意命令。

SVM：支持向量机

通过支持向量建立超平面，当y＝∑_iy_iα_ik(x_i,x)+b≥0时，判断为恶意命令，其中y_i＝1或-1为支持向量x_i的标签，α_i为支持向量x_i的系数，k(x_i,x)为待测向量x与x_i在核空间上的内积。

Random Forest：随机森林

通过建立多棵随机树，以少数服从多数的投票方式决定最终的分类结果。

S6，模型融合。

如果分类器c判断命令s是恶意命令，则L_c＝1，反之为0。假设共有N个分类器(本申请中N＝3)，则令若L≥0.5，则最终认为s为恶意命令，触发告警。

S7，发出警告。

当上述步骤中确认s为恶意命令，则检测设备可以发出告警信息，以提示命令会话s中存在恶意命令，以便管理人员及时进行处理。

本申请参考NLP的词向量技术进行恶意命令的检测，可应用于unix***、linux***、windows***。本申请首先通过大量命令会话，利用词向量技术提取命令的词向量(比如Word2Vec，GLOVE等)，之后通过平滑倒频率(Smooth Inverse Frequency)以及PCA，组合命令会话中的各个命令词向量变成命令会话向量，最后通过分类器基于命令会话向量对命令会话进行分类，判断是否有入侵嫌疑。本申请所示的方案具有以下优点：

一、省去人工提取特征的时间，命令的分析不再依赖专家经验，使得模型的泛化能力更强，适应性更好。

二、采用平滑倒频率+PCA的词向量组合方式，简单快速的计算出命令会话向量，比起利用卷积神经网络等深度学习方式更加节省资源，并且准确率足够高。

提供了一种基于命令向量进行恶意命令检测的算法框架，且框架中的词向量训练、分类器选择均不限于方案中提到的模型，任何可以结合上下文获得词向量以及利用特征向量进行分类的更有效、更准确的算法均可使用。

图6是根据一示例性实施例示出的一种操作命令检测装置的结构方框图。该操作命令检测装置可以用于计算机设备中，以执行图2或图4所示实施例中的全部或者部分步骤。该操作命令检测装置可以包括：

会话获取模块601，用于获取在操作***中输入的目标命令会话，所述目标命令会话中包含至少一条操作命令；

词向量获取模块602，用于获取所述至少一条操作命令中包含的各个命令词的词向量；

会话向量获取模块603，用于根据所述各个命令词的词向量获取所述目标命令会话的命令会话向量；

分类模块604，用于通过分类模型对所述命令会话向量进行处理，获得分类结果，所述分类结果用于指示所述目标命令会话中是否包含指定类型命令；所述分类模型是通过命令会话样本以及标注信息训练获得的机器学习模型，所述标注信息用于指示所述命令会话样本中是否包含所述指定类型命令。

可选的，所述会话向量获取模块603，用于，

可选的，在根据所述各个命令词分别在词向量训练集中出现的频率，对所述各个命令词的词向量进行加权求和，获得所述目标命令会话的命令会话向量时，所述会话向量获取模块603，用于，

可选的，所述装置还包括：

公共部分去除模块，用于在分类模块604通过分类模型对所述命令会话向量进行处理，获得分类结果之前，去除所述命令会话向量中的公共部分，所述公共部分是通过主成分分析方式获得的；

所述分类模块604，用于通过所述分类模型对去除所述公共部分之后的命令会话向量进行处理，获得所述分类结果。

可选的，所述装置还包括：

替换模块，用于在所述词向量获取模块602获取所述至少一条操作命令中包含的各个命令词的词向量之前，将所述至少一条操作命令中包含的指定类型元素替换为指定命令词。

可选的，所述词向量获取模块602，用于当所述目标命令会话满足过滤条件时，执行获取所述至少一条操作命令中包含的各个命令词的词向量的步骤。

可选的，所述过滤条件包括以下条件中的至少一项：

可选的，所述分类模型包括n个分类子模型，n为大于或者等于2的整数，所述分类模块604，用于，

可选的，在根据所述n个分类子模型各自输出的分类子结果获取的所述分类结果时，所述分类模块604，用于，

将所述n个二值化数值的平均值获取为所述分类结果。

可选的，所述分类子结果用于指示所述目标命令会话中包含所述指定类型命令的概率；在根据所述n个分类子模型各自输出的分类子结果获取的所述分类结果时，所述分类模块604，用于将所述n个分类子模型各自指示的概率的平均值获取为所述分类结果。

可选的，所述指定类型命令包括恶意命令。

图7是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备可以实现为上述图1所示的实施环境中的检测设备120或者其它计算机设备。所述计算机设备700包括中央处理单元(CPU)701、包括随机存取存储器(RAM)702和只读存储器(ROM)703的***存储器704，以及连接***存储器704和中央处理单元701的***总线705。所述计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)706，和用于存储操作***713、应用程序714和其他程序模块715的大容量存储设备707。

所述基本输入/输出***706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到***总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出***706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备707通过连接到***总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说，所述大容量存储设备707可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器704和大容量存储设备707可以统称为存储器。

计算机设备700可以通过连接在所述***总线705上的网络接口单元711连接到互联网或者其它计算机设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器701通过执行该一个或一个以上程序来实现图2或4所示的方法中，由检测设备所执行的步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法的全部或者部分步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种操作命令检测方法，其特征在于，所述方法包括：

将所述至少一条操作命令中包含的指定类型元素替换为指定命令词；所述指定类型元素包括以下类型元素中的至少一项：由连续数字组成的字段、互联网协议IP地址以及命令结束语；

获取所述至少一条操作命令中包含的各个命令词的词向量；

获取所述各个命令词分别在词向量训练集中出现的频率，所述词向量训练集是用于训练命令会话对应的词向量的集合；所述词向量训练集用于通过预设的词向量训练模型进行训练，以获得所述词向量训练集中的命令词的词向量；

对所述各个命令词分别在词向量训练集中出现的频率对应的倒频率进行平滑处理，获得所述各个命令词分别对应的权重；根据所述各个命令词分别对应的权重，对所述各个命令词的词向量进行加权求和，获得所述目标命令会话的命令会话向量；其中，所述对所述各个命令词分别在词向量训练集中出现的频率对应的倒频率进行平滑处理，获得所述各个命令词分别对应的权重，包括：对于所述各个命令词中的目标命令词，将平滑系数除以所述平滑系数与目标命令词的频率之和，获得所述目标命令词对应的权重；

2.根据权利要求1所述的方法，其特征在于，所述通过分类模型对所述命令会话向量进行处理，获得分类结果之前，还包括：

去除所述命令会话向量中的公共部分，所述公共部分是通过主成分分析方式获得的；

所述通过分类模型对所述命令会话向量进行处理，获得分类结果，包括：

通过所述分类模型对去除所述公共部分之后的命令会话向量进行处理，获得所述分类结果。

3.根据权利要求1所述的方法，其特征在于，所述获取所述至少一条操作命令中包含的各个命令词的词向量，包括：

当所述目标命令会话满足过滤条件时，执行获取所述至少一条操作命令中包含的各个命令词的词向量的步骤。

4.根据权利要求3所述的方法，其特征在于，所述过滤条件包括以下条件中的至少一项：

5.根据权利要求1所述的方法，其特征在于，所述分类模型包括n个分类子模型，n为大于或者等于2的整数，所述通过分类模型对所述命令会话向量进行处理，获得分类结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述n个分类子模型各自输出的分类子结果获取的所述分类结果，包括：

将所述n个二值化数值的平均值获取为所述分类结果。

7.根据权利要求5所述的方法，其特征在于，所述分类子结果用于指示所述目标命令会话中包含所述指定类型命令的概率；所述根据所述n个分类子模型各自输出的分类子结果获取的所述分类结果，包括：

将所述n个分类子模型各自指示的概率的平均值获取为所述分类结果。

8.根据权利要求1所述的方法，其特征在于，所述指定类型命令包括恶意命令。

9.一种操作命令检测装置，其特征在于，所述装置包括：

会话获取模块，用于获取在操作***中输入的目标命令会话，所述目标命令会话中包含至少一条操作命令；

替换模块，用于将所述至少一条操作命令中包含的指定类型元素替换为指定命令词；所述指定类型元素包括以下类型元素中的至少一项：由连续数字组成的字段、互联网协议IP地址以及命令结束语；

会话向量获取模块，用于获取所述各个命令词分别在词向量训练集中出现的频率，所述词向量训练集是用于训练命令会话对应的词向量的集合；所述词向量训练集用于通过预设的词向量训练模型进行训练，以获得所述词向量训练集中的命令词的词向量；对所述各个命令词分别在词向量训练集中出现的频率对应的倒频率进行平滑处理，获得所述各个命令词分别对应的权重；根据所述各个命令词分别对应的权重，对所述各个命令词的词向量进行加权求和，获得所述目标命令会话的命令会话向量；其中，所述对所述各个命令词分别在词向量训练集中出现的频率对应的倒频率进行平滑处理，获得所述各个命令词分别对应的权重，包括：对于所述各个命令词中的目标命令词，将平滑系数除以所述平滑系数与目标命令词的频率之和，获得所述目标命令词对应的权重；

10.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的操作命令检测方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的操作命令检测方法。