CN108734011A

CN108734011A - 软件链接检测方法及装置

Info

Publication number: CN108734011A
Application number: CN201710250473.0A
Authority: CN
Inventors: 张峰; 胡向东; 李林乐; 杨子明; 梁业裕; 付俊; 郭智慧; 魏琴芳; 刘可; 林家富; 陈国军; 白银; 刘玥
Original assignee: China Mobile Communications Group Co Ltd; Chongqing University of Post and Telecommunications; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; Chongqing University of Post and Telecommunications; China Mobile Communications Co Ltd
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2018-11-02

Abstract

本发明实施例公开了一种软件链接检测方法及装置，所述方法包括：提取预定信息中用于下载软件的下载链接和所述下载链接以外的文本；提取所述下载链接的链接特征；提取所述文本的文本特征；根据所述链接特征及所述文本特征，判断所述下载链接是否为满足恶意软件下载链接判断条件的恶意链接。在本发明实施例中会同时提取预定信息中的文本和下载链接，并分别获得链接特征和与文本相关的文本特征，综合判断对应的下载链接是否为恶意链接，从下载链接自身及与其一起构成预定信息的信息内容的文本，这两个方面来判断对应的下载链接是否为提供恶意软件下载的恶意链接，具有判断正确率高的特点。与此同时，还具有实现简便及检测速度快的特点。

Description

软件链接检测方法及装置

技术领域

本发明涉及信息技术领域，尤其涉及一种软件链接检测方法及装置。

背景技术

随着信息及软件技术的发展，出现了一些为了盗取他人的钱财或信息的恶意软件。常见的恶意软件可博阿凯病毒、僵尸网络、蠕虫和特洛伊木马等。这些恶意软件的下载链接可能隐藏在短信等信息中，用户若点击了该信息或该连接，则会使得终端下载恶意软件，从而导致用户的财产和信息安全问题。

在现有技术中提出了一些对恶意软件的检测方法，但是都是针对恶意软件本身的可执行文件的检测，这样的话，只有恶意软件被下载之后才能进行检测，但是有很多恶意软件具有自启动行为且很难删除干净，这种检测恶意软件的方式，还是有非常大的概率会导致用户的资金和信息被窃取的不安全性问题。

发明内容

有鉴于此，本发明实施例期望提供一种软件链接检测方法及装置，至少部分解决上述问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例第一方面提供一种软件链接检测方法，包括：

提取预定信息中用于下载软件的下载链接和所述下载链接以外的文本；

提取所述下载链接的链接特征；

提取所述文本的文本特征；

根据所述链接特征及所述文本特征，判断所述下载链接是否为满足恶意软件下载链接判断条件的恶意链接。

基于上述方案，所述方法还包括：

获取所述下载链接的下载域名；

将所述下载域名与域名库中的域名进行匹配；

所述提取所述下载链接的链接特征，包括：

当所述下载域名位于所述域名库的白名单中时，提取所述下载链接的链接特征。

基于上述方案，所述根据所述链接特征及所述文本特征，判断所述下载链接是否为满足恶意软件下载链接判断条件的恶意链接，包括：

利用逻辑回归模型对所述特征向量进行处理，得到表征所述下载链接为所述恶意链接的概率；

当所述概率大于概率阈值时，确定所述下载链接为所述恶意链接；

当所述概率不大于所述概率阈值时，利用朴素贝叶斯模型，对所述特征向量处理，输出所述下载链接分别为恶意链接或正常链接的概率；

当所述下载链接分别为所述恶意链接的概率大于所述下载概率为正常链接的概率时，确定出所述下载链接是否为所述恶意链接。

基于上述方案，所述特征向量包括以下至少其中之一：

所述下载链接的链接长度、所述下载链接的路径级数、所述下载链接的对应链接路径中包括的数字个数、所述下载链接的对应的软件安装包的数据量，所述下载链接的域名级数、指示所述下载链接是否包括预定顶级域名的第一指示信息，指示所述下载链接对应的域名注册时间与当前时间的时差是否小于时间阈值的第二指示信息、指示相似度是否大于相似度阈值的第三指示信息及指示所述下载链接中是否包括预定类型字符的第四指示信息，其中，所述相似度为所述文本特征中所述文本与敏感信息的相似程度。

基于上述方案，所述方法还包括：

当确定出所述下载链接为所述恶意链接时，将所述文本存储为敏感信息；

和/或，

将所述下载链接添加到链接库的黑名单中。

本发明实施例第二方面提供一种软件链接检测装置，包括：

第一提取单元，用于提取预定信息中用于下载软件的下载链接和所述下载链接以外的文本；

第二提取单元，用于提取所述下载链接的链接特征；

第三提取单元，用于提取所述文本的文本特征；

判断单元，用于根据所述链接特征及所述文本特征，判断所述下载链接是否为满足恶意软件下载链接判断条件的恶意链接。

基于上述方案，所述装置还包括：

获取单元，用于获取所述下载链接的下载域名；

匹配单元，用于将所述下载域名与域名库中的域名进行匹配；

所述第二提取单元，具体用于当所述下载域名位于所述域名库的白名单中时，提取所述下载链接的链接特征；

所述第三提取单元，具体用于当所述下载域名位于所述域名库的白名单中时，提取所述文本的文本特征。

基于上述方案，所述判断单元，具体用于当所述概率大于概率阈值时，确定所述下载链接为恶意链接；

当所述下载链接分别为恶意链接的概率大于所述下载概率为正常链接的概率时，确定出所述下载链接是否为所述恶意链接。

基于上述方案，所述特征向量包括以下至少其中之一：

基于上述方案，所述装置还包括：

存储单元，用于当确定出所述下载链接为所述恶意链接时，将所述文本存储为敏感信息；和/或，将所述下载链接添加到链接库的黑名单中。

在本发明实施例提供的技术方案，会同时提取预定信息中的文本和下载链接，并分别获得链接特征和与文本相关的文本特征，综合判断对应的下载链接是否为恶意链接，从下载链接自身及与其一起构成预定信息的信息内容的文本，这两个方面来判断对应的下载链接是否为提供恶意软件下载的恶意链接，一方面简便确定了哪些下载链接为恶意链接，另一方面还具有判断正确率高的特点。与此同时，还具有实现简便及检测速度快的特点。

附图说明

图1为本发明实施例提供的第一种软件链接检测方法的流程示意图；

图2为本发明实施例提供的第二种软件链接检测方法的流程示意图；

图3为本发明实施例提供的软件链接检测装置的结果示意图；

图4为本发明实施例提供的第三种软件链接检测方法的流程示意图；

图5为本发明实施例提供的文本特征的提取流程示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示，本实施例提供一种软件链接检测方法，包括：

步骤S110：提取预定信息中用于下载软件的下载链接和所述下载链接以外的文本；

步骤S120：提取所述下载链接的链接特征；

步骤S130：提取所述文本的文本特征；

步骤S140：根据所述链接特征及所述文本特征，判断所述下载链接是否为满足恶意软件下载链接判断条件的恶意链接。

本实施例所述的软件链接检测方法可为应用于各种电子设备中，例如各种终端或服务器中的方法。所述终端可包括移动终端和固定终端。所述移动终端可包括手机、平板电脑或可穿戴式设备、笔记本或电子书等。所述固定终端可包括个人电脑等设备。

在本实施例中所述软件可为各种应用(Application，APP)，或操作***的软件。在本实施例中所述应用可包括安卓***的应用。

当一个电子设备接收到一个预定信息之后，用户可能会点击查看该预定信息，在本实施例中所述电子设备会在用户点击查看之前或用户点击查看之后，执行上述步骤S110至步骤S140，可选为在用户点击查看之后执行上述步骤S110至步骤S140，这样的话，若用户对某些预定信息不点击不查看，则没有必要检测。

所述预定信息可包括短信、微博等网页信息，还可包括微信或QQ等各种即时通信消息。

在本实施例中所述步骤S110中，可以利用正则表达式从上述预定信息的信息内容中提取出下载链接，区分出文本。这里的提取下载链接和文本的正在表达式在本实施例中可称为第一正则表达式。

在提取出下载链接之后，对所述下载链接进行处理，获取链接特征。例如，利用正则表达式对所述下载链接进行处理，这里直接用于对下载链接进行处理的正则表达式可称为第二正则表达式。

下载链接可分为标准链接和短链接；通常所述短链接对应的字符串长度是短于所述标准链接的，利用短链接进行信息下载或网页登陆时，则需要先根据标准连接和短链接之间的转换关系，转换成标准链接，再利用标准链接链接到对应网址或下载对应的资源。

当提取出的所述下载链接为短链接时，在本实施例中首先会将所述短链接还原成标准链接，再提取所述链接特征。

在一些情况下，从所述预定信息中提取的下载链接也许并非软件的下载链接，而可能仅是登录到某一个网页等其他链接。在本实施例中在执行所述下载链接的链接特征提取之前，所述方法还包括：

利用超文本传输协议(Hyper Text Transfer Protocol,HTTP)头部得到请求资源的文件类型，再根据文件类型判断是否为软件的下载链接。若是软件的下在链接之后才继续进行后续的步骤S120至步骤S140。

在本实施例中所述步骤S130为提取文本的文本特征。例如，通过词袋法等方式，确定所述文本中是否包含敏感词汇，再例如，确定所述文本中包括的敏感词汇占总文本提供的词词汇的比例等信息。这里的敏感信息可为与提供恶意软件下载有关的信息，例如，黄色信息或钓鱼代码等。

在本实施例中所述步骤S130具体还可包括：

对所述文本进行敏感信息处理，确定所述文本与敏感信息的相似度。

计算所述相似度的方式又有多种，以下提供几种可选方式：

方式一：

将所述文本与敏感信息中的敏感词汇进行匹配，这里的匹配可包括精确匹配或模糊匹配，根据匹配程度确定所述相似度。例如，对所述文本进行分词处理，假设得到的分词词组n组，如与敏感信息的文本库中的文本信息进行多模式匹配，假设有m组词语匹配成功，则所述相似度A＝(m/n)*100％。

方式二：

提取文本信息的信息主题，判断该信息主题是否为敏感信息中的一种，根据赋值模型，给出所述相似度。

方式三：

提取文本信息的信息主题，计算该信息主题与敏感信息进行匹配，根据匹配程度，得到所述相似度。这里的相似度的计算可以参见方式一。

总之在本实施例中确定所述文本与敏感信息之间的相似度的方式有很多种，不局限于上述任意一种。

在本实施例中为了加速所述下载链接是否为恶意软件的恶意链接的判断，在本实施例中，如图2所示，所述方法还包括：

步骤S111：获取所述下载链接的下载域名；

步骤S112：将所述下载域名与域名库中的域名进行匹配；

所述步骤S120可包括：

所述步骤S130可包括：当所述下载域名位于所述域名库的白名单中时，提取所述文本的文本特征。

在本实施例中首先获取下载链接的下载域名，在本实施例中可以通过第三正则表达式提取所述下载链接对应于域名的部分。

在本实施例中将所述下载链接与域名库中的域名进行比对。若所述域名库中的域名均可视为是位于白名单中的域名，则若所述下载域名与域名库中的域名匹配成功，则可认为该下载域名是正常域名，暂时不可以直接排除该下载链接就为恶意链接。若所述域名库中不仅包括白名单，还包括黑名单时，若所述下载域名与黑名单中的恶意域名匹配成功，则可以直接确定所述下载域名为恶意域名。在本实施例中所述白名单中包括的域名为正常域名，所述黑名单中的域名为恶意域名。

若域名库中同时包括白名单和黑名单，则在所述步骤S112中可包括：同时将所述下载域名与白名单和黑名单中的域名并行进行匹配，若所述下载域名与白名单或黑名单中的域名一旦匹配上，则停止与另一个名单中域名的匹配，减少匹配操作次数，提升匹配效率。当然，在所述步骤S112中还可包括：依次将所述下载链接，与所述白名单及黑名单匹配，或依次与所述黑名单及白名单匹配。

所述步骤S140的可实现方式有多种，例如，可利用各种分类器对所述特征向量进行处理，通过概率计算的方式确定对应的下载链接是否为恶意链接。

例如，所述步骤S140可包括：

当所述下载链接分别为所述恶意链接的概率大于所述下载概率为正常链接的概率时，确定出所述下载链接为所述恶意链接。

在本实施例中首先利用逻辑回归模型进行第一次概率计算，通过与概率阈值的比较，可以筛选出部分恶意链接，进一步的利用未被确定为恶意链接的特征向量，再次利用朴素贝叶斯模型对特征向量进行再次处理，输出两个概率，一个概率表示所述下载链接为正常链接，另一个概率表示该下载链接为恶意链接。若该下载链接为恶意链接的概率大于为正常链接的概率，则确定该下载链接最终为恶意链接，否则为正常链接。

在本实施例中为了加速检测，并提升检测的正确率，所述概率阈值需要设置为合适的取值，具体如0.7、0.8或0.6等，具体实现时不局限于这些值。

在一些实施例中，所述特征向量包括以下至少其中之一：

所述下载链接的链接长度、所述下载链接的路径级数、所述下载链接的对应链接路径中包括的数字个数、所述下载链接的对应的软件安装包的数据量，所述下载链接的域名级数、指示所述下载链接是否包括预定顶级域名的第一指示信息，指示所述下载链接对应的域名注册时间与当前时间的时差是否小于时间阈值的第二指示信息、指示所述相似度是否大于相似度阈值的第三指示信息及指示所述下载链接中是否包括预定类型字符的第四指示信息。

所述链接长度可为下载链接的字符串的长度，具体可为下载链接对应的字符串中包括的字符个数等。

所述下载链接的路径级数，通常可等于下载链接针对的提供下载源的设备的目录级数。

一般情况下，下载链接是由各种字符组成的有含义的字符串，若采用数字组成，则可能是恶意链接。故在本实施例中还会提取所述下载链接的对应链接路径中包括的数字个数。

在本实施例中在提取下载链接的链接特征时，可以采用下载链接连接到下载的目标设备，查看提供的下载的软件安装包的数据量。一般情况下若数据量过大或过小都有可能是恶意链接。

所述下载链接的域名级数，等于下载链接中“/”之前和“//”之间字符串中包括的“.”的个数加1。例如，以链接https://www.***.com/为例，该链接的“www.***.com”中包括2个“.”，该链接的域名级数为3，下载链接的域名级数可以采用这种方式进行确定。

有一些顶级域名已经被判断出是不合法的恶意顶级域名，则可以直接通过顶级域名的匹配，得到指示所述下载链接是否包括预定顶级域名的第一指示信息。所述第一指示信息通常可以采用一个比特，利用该比特的“0”和“1”的两种状态，来指示上述下载链接是否包括预定顶级域名的状态。

指示所述下载链接对应的域名注册时间与当前时间的时差是否小于时间阈值的第二指示信息。若一个域名注册是正常的域名，一般都会长时间的使用。一般恶意链接对应的域名，为了避免被查处，有可能是临时注册的。故在本实施例中还可以根据域名的注册时间与当前时间的时差的提取，并与时间阈值的比较，得到第二指示信息。当然，这里的第二指示信息也可以是1个或多个比特来描述上述信息。

指示所述相似度是否大于相似度阈值的第三指示信息。在本实施例中的步骤S130中会计算出文本与敏感信息的相似度；在形成特征向量时，可以直接利用相似度作为特征向量的一个元素。在本实施例中将所述相似度与相似度阈值进行比较，根据比较的结果形成所述第三指示信息。这里的第三指示信息同样可为1或多个比特来表示。

指示所述下载链接中是否包括预定类型字符的第四指示信息。这里的预定类型字符，例如，包括：汉字或藏文等其他非字母、标点符号等字符。一般情况下若包括预定类型的字符，则有可能是恶意链接的可能性较大。

总之，本实施例提供的特征向量的各个元素，还可以是上述信息以外的其他信息，在本实施例中为了方便特征向量的处理，会将上述信息转换为逻辑判断值或具有数字值。

在一些实施例中，所述方法还包括：当确定出所述下载链接为所述恶意链接时，将所述文本存储为敏感信息；和/或，将所述下载链接添加到链接库的黑名单中。

例如，根据顶级域名或链接特征确定出对应的下载链接为恶意链接，则可将文本作为后续判断是否为恶意链接的文本作为敏感信息添加到敏感信息的文本库中。

再例如，根据文本的相似度，确定出对应的下载链接为恶意链接时，可以将该下载链接添加到链接库的黑名单中。

在本实施例中在执行所述步骤S110之前，所述方法还可包括：

判断所述预定信息的信息来源，若所述信息来源为合法来源，则不执行所述步骤S110至步骤S140，若所述信息来源不是指定的合法来源，则进入所述步骤S110。在本实施例中合法来源为指定的信息来源，例如，来自各大通信运营商的下载短息或推送的及时消息。若利用消息来源确定是否执行后续的步骤S110至步骤S140时，在判断预定信息的信息来源时，还需要确定为判断所述信息来源的参数进行验证，以免伪基站等仿造合法来源发送的信息导致的误判。

如图3所示，本实施例提供一种软件链接检测装置，包括：

第一提取单元110，用于提取预定信息中用于下载软件的下载链接和所述下载链接以外的文本；

第二提取单元120，用于提取所述下载链接的链接特征；

第三提取单元130，用于对所述文本进行敏感信息处理，确定所述文本与敏感信息的相似度；

判断单元140，用于根据所述链接特征及所述文本特征，判断所述下载源是否为满足恶意软件下载源判断条件的恶意链接。

本实施例提供一种软件链接检测装置，可为应用于各种终端设备。

所述第一提取单元110、第二提取单元120、第三提取单元130及判断单元140都可对应于处理器或处理电路。所述处理器可包括中央处理器、微处理器、数字信号处理器、应用处理器或可编程阵列等。所述处理电路可包括专用集成电路。所述处理器或处理电路，可通过执行可执行代码或程序的执行，实现上述各个单元的操作。

在本实施例所述软件链接检测装置，会综合提取预定信息中的文本和下载链接的特征，综合判断出该下载链接是否为用于恶意软件下载的下载链接；具有恶意链接判断精确度高、实现简便及检测速度快的特点。

在一些实施例中，所述装置还包括：

获取单元，用于获取所述下载链接的下载域名；

所述第二提取单元120，具体用于当所述下载域名位于所述域名库的白名单中时，提取所述下载链接的链接特征；

所述第三提取单元130，具体用于当所述下载域名位于所述域名库的白名单中时，提取所述文本的文本特征。

在本实施例中所述装置还包括获取单元及匹配单元同样可对应于处理器或处理电路，所述处理器或处理电路可通过代码的执行，实现上述操作。

在本实施例中通过获取单元，可利用正则表达式获取下载链接的下载域名；根据下载域名的匹配，先筛选出一部分恶意链接，减少链接特征及相似度等信息等后续操作的处理。

在一些实施例中，所述判断单元140，具体用于利用逻辑回归模型对所述特征向量进行处理，得到表征所述下载链接为所述恶意链接的概率；

在本实施例中所述判断单元140，可通过逻辑回归算法及朴素贝叶斯模型的引入，计算特征向量中的元素为计算参数，计算得到一个为恶意链接的概率；且通过概率与概率阈值的比较，或表示为正常链接或恶意链接的概率的比较，最终简便快速确定出对应的下载链接是否就是恶意链接。

在一些实施例中，所述特征向量包括以下至少其中之一：所述下载链接的链接长度、所述下载链接的路径级数、所述下载链接的对应链接路径中包括的数字个数、所述下载链接的对应的软件安装包的数据量，所述下载链接的域名级数、指示所述下载链接是否包括预定顶级域名的第一指示信息，指示所述下载链接对应的域名注册时间与当前时间的时差是否小于时间阈值的第二指示信息、指示所述相似度是否大于相似度阈值的第三指示信息及指示所述下载链接中是否包括预定类型字符的第四指示信息。

在本实施例中所述特征向量各个组成内容的相关描述可以详细参见前述实施例部分，此处就不再重复了。

在还有一些实施例中，所述装置还包括：

在本实施例中所述存储单元可对应于存储介质，可用于直接在本地存储所述敏感信息或下载链接。所述存储单元，还可对应于通信接口，该通信接口可用于将所述文本和/或下载链接发送到网络侧的数据库中进行远程存储。

以下结合上述实施例给出几个具体示例：

示例一：

本示例以安卓手机的手机软件下载为例，对上述实施例提供的软件下载链接检测方法，做进一步说明，具体可包括：所述方法包括：

A1、提取短信等信息中所载链接与文本，判定所载链接是否为手机软件的下载链接，例如，可通过HTTP头部得到请求资源的文件类型进行判断是否为安卓***手机软件下载链接。

A2、如果是下载链接，将提取短信等信息中的文本，并交由文本敏感信息处理模块处理；

A3、提取链接特征，与文本敏感信息处理模块得出的文本主题相似度，共同形成特征向量；

A4、通过逻辑回归算法、朴素贝叶斯模型进行分类训练；

A5、根据分类训练检测的结果判断链接是否为手机恶意软件下载链接，若是，更新文本敏感信息处理模块。

所述步骤A1可包括：

通过设置不同正则匹配表达式提取链接和文本；

若链接为短链接，则首先恢复成原始链接，

若所述链接不是软件下载链接，则检测结束，否则执行后续操作。

所述步骤A2前还包括：

通过设置正则表达式提取链接的域名，将域名与已存储的域名库进行比对；

若所述链接域名在白名单中，则判断所述链接为正常软件下载链接；

若所述链接域名在黑名单中，则判断所述链接为恶意软件下载链接。

可选地，所述步骤A2中的文本敏感信息处理模块是指利用已有的中文纠错技术对所述文本进行错别字纠正，将已纠错后的文本利用现有的分词技术进行分词处理，与文本敏感信息处理模块中的文本库进行多模式匹配，并计算主题相似度。

可选地，所述步骤A3中的特征向量包括：

链接的长度、链接中的路径级数、链接路径中的数字个数、下载软件安装包的数据量、域名级数、链接中是否含有中文字符、链接域名是否为不常用顶级域名、域名注册时间与当前时间的时间差是否小于一定阈值以及主题相似度是否大于一定阈值。

可选地，所述步骤A4包括：对链接特征分别用逻辑回归算法、朴素贝叶斯模型进行分类训练。特别地，为了降低链接的误判率，逻辑回归模型在训练过程中将设置较高的阈值。

可选地，所述步骤A5包括：提取所述链接的特征以及文本主题相似度特征，形成特征向量，根据逻辑回归分类器检测得到预测结果，若判定所述链接为恶意链接，将所述文本更新到文本敏感信息处理模块中的文本库中。若结论判定所述链接为正常链接，则再进行朴素贝叶斯分类器检测得到预测结果，若判定所述链接为恶意链接，则返回恶意链接，并将所述文本更新到文本敏感信息处理模块中的文本库中。若判定所述链接为正常链接，则返回正常链接，检测结束。

在步骤A2中对文本进行处理，具体可采用如下方式：

通过正则表达式提取文本，并通过现有中文纠错技术处理，将处理后的文本再通过现有分词技术处理，将得到的多组词语与文本敏感信息模块中的文本库进行多模式匹配，通过计算得到文本主题相似度。其中所述的文本库是基于携带恶意软件链接的信息文本构成。其中所述的文本主题相似度含义为：假设某文本通过分词处理得到n组词语，与所述文本库的m组词语匹配，因此文本主题相似度为文本主题相似度作为一项特征作用于特征分类器的构建。

以下分别对利用逻辑回归算法、朴素贝叶斯模型进行分类，确定下载链接是否为恶意链接做进一步详细描述。

特征向量中的链接特征包括链接的长度、链接中的路径级数、链接路径中的数字数、下载软件安装包大小、域名级数、链接中是否含有中文字符、链接域名是否为不常用顶级域名、域名注册时间与当前时间的时间差是否小于一定阈值。此外，特征向量中的文本特征为文本主题相似度是否大于一定阈值，将链接特征与文本特征一起构成特征变量。

具体特征向量中的特征(对应于向量元素)描述如表1所示。

表1

对所述的逻辑回归模型做具体介绍：待测链接为手机恶意软件下载链接的可能性与自变量(即指特征X₁、X₂、X₃、X₄、X₅、X₆、X₇、X₈、X₉)的关系可以用式(1)来表示。

Z＝θ₀+θ₁X₁+θ₂X₂+...+θ_nX_n (1)

为了得到待测链接为手机恶意软件下载链接的可能性，基于式(2)计算待测链接是恶意链接的概率，概率值的范围是[0,1]。

p＝1/(1+e^-Z) (2)式中：p——待测的下载链接为恶意链接的概率；

Z——基于权重的所有特征变量之和；

θ_i(i＝0,1,…,n)——基于训练样本得到的回归系数；

n——参与回归分析的自变量个数；

X_i(i＝1,2,…,n)——自变量；

在构建逻辑回归模型训练样本过程时，将样本为恶意链接时设置为1，正常链接设置为0。在设置决策函数时，这里为了保证正常链接的误判率将设置较高的阈值。当获得待测样本的概率值，根据决策函数得到该待测样本为恶意链接或正常链接的结论。

对所述的朴素贝叶斯模型做具体介绍：据前面描述，类别的特征属性X＝{X₁,X₂,…,X_m}(即指特征X₁、X₂、X₃、X₄、X₅、X₆、X₇、X₈、X₉)，有类别集合C＝{y₁,y₂,…,y_n}(即恶意链接y₁和正常链接y₂)，分别计算P(y₁|X)、P(y₂|X)，…，P(y_n|X)，通过计算P(y_k|X)＝max{P(y₁|X),P(y₂|X),…,P(y_n|X)}，则X∈y_k。根据贝叶斯定理即公式(3)所示得到P(y_k|X)。

通过统计以及高斯概率分布得到在各类别下各个特征属性的条件概率估计。由于P(X)为常数，又因为各特征是条件独立的，则可根据到公式(4)计算得到链接的类别。

根据公式(4)，若则为恶意链接，否则，待测链接判定为正常链接。

将上述构建的逻辑回归模型、朴素贝叶斯模型以串行的方式依次进行检测，可以分别判断链接是否为手机恶意软件下载链接。将逻辑回归分类器放在朴素贝叶斯分类器之前，通过设置逻辑回归模型的决策函数，可以降低下载链接的误判率。

在本示例中可以分别利用两种逻辑回归模型、朴素贝叶斯模型进行所述概率计算，仅有两种模型计算得到的概率都不大于所述概率阈值时，方可确定对应的下载链接为合法链接，否则均可为非法链接。

示例二：

如图4所示，本示例提供一种下载链接检测方法，包括：

步骤S1：获取待测样本；

步骤S2：提取链接和文本；

步骤S3：判断链接是否为软件下载链接，若是进入步骤S4，否则判断是正常链接；

步骤S4：提取链接域名；

步骤S5：判断所述链接域名是否与黑名单中的域名匹配，若是判断是恶意链接，否则进入步骤S6；

步骤S6：判断所述链接域名是否与白名单中的域名匹配，若是判断是正常链接，若否进入步骤S7；

步骤S7：提取文本特征；

步骤S8：提取链接特征；

步骤S9：构建分类模型；这里的分类模型，用于对提取的文本特征和链接特征共同构成的特征向量进行处理，得到用于判断的概率，再结合概率阈值判断对应的链接是否为恶意链接。这里的分类模型可包括：逻辑回归模型和朴素贝叶斯模型，但是不局限于这两个分类模型，具体还可以是向量机或神经网络等各种具有分类功能的模型。

步骤S10：判断逻辑回归模型输出的概率是否大于概率阈值，若是判定为恶意链接，若否进入步骤S11。

步骤S11：判断朴素贝叶斯模型输出结果是否满足恶意链接判断条件，若是则判定为恶意链接，若否则判定为正常链接。

示例三：

如图5所示，本示例提供一种文本特征的方法，包括：

提取预定信息的文本；

对提取的文本进行文本纠错处理；

对纠错后的文本进行文本分词处理；

对分词处理之后的来自文本的分词进行多模式匹配，

根据匹配结果，计算文本主题归属于会导致恶意软件下载的敏感信息的相似度。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种软件链接检测方法，其特征在于，包括：

提取所述下载链接的链接特征；

提取所述文本的文本特征；

2.根据权利要求1所述的方法，其特征在于，

所述方法还包括：

获取所述下载链接的下载域名；

将所述下载域名与域名库中的域名进行匹配；

所述提取所述下载链接的链接特征，包括：

当所述下载域名位于所述域名库的白名单中时，提取所述下载链接的链接特征；

所述提取所述文本的文本特征，包括：

当所述下载域名位于所述域名库的白名单中时，提取所述文本的文本特征。

3.根据权利要求1或2所述的方法，其特征在于，

所述根据所述链接特征及所述文本特征，判断所述下载链接是否为满足恶意软件下载链接判断条件的恶意链接，包括：

4.根据权利要求1或2所述的方法，其特征在于，

所述特征向量包括以下至少其中之一：

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

和/或，

将所述下载链接添加到链接库的黑名单中。

6.一种软件链接检测装置，其特征在于，包括：

第二提取单元，用于提取所述下载链接的链接特征；

第三提取单元，用于提取所述文本的文本特征；

7.根据权利要求6所述的装置，其特征在于，

所述装置还包括：

获取单元，用于获取所述下载链接的下载域名；

8.根据权利要求6或7所述的装置，其特征在于，

所述判断单元，具体用于利用逻辑回归模型对所述特征向量进行处理，得到表征所述下载链接为所述恶意链接的概率；

9.根据权利要求6或7所述的装置，其特征在于，

所述特征向量包括以下至少其中之一：

10.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：