CN110198292B

CN110198292B - 域名识别方法和装置、存储介质及电子装置

Info

Publication number: CN110198292B
Application number: CN201810277462.6A
Authority: CN
Inventors: 邓永; 林智鑫; 廖湘平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-12-07
Anticipated expiration: 2038-03-30
Also published as: CN110198292A

Abstract

本发明公开了一种域名识别方法和装置、存储介质及电子装置。其中，该方法包括：获取各个终端所发送的域名访问日志，其中，所述域名访问日志用于记录使用所述终端的用户账号与所访问的域名之间的映射关系；使用局部敏感哈希法对所述域名访问日志中的所述域名进行分组映射处理，得到映射结果，其中，在所述映射结果中，每一组所包含的对象域名之间具有关联性；依次对每一组中所述对象域名的域名类型执行以下识别处理：在当前组中包含已知的域名类型的情况下，根据所述已知的域名类型识别所述当前组中未知的域名类型。本发明解决了目前采用逆向分析方法识别出的恶意域名存在滞后性的技术问题。

Description

域名识别方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种域名识别方法和装置、存储介质及电子装置。

背景技术

用于进行恶意行为的恶意域名往往会严重威胁到用户的网络信息安全。其中，恶意域名包括：恶意软件下载域名、非法网站域名、钓鱼网站域名、连接恶意软件控制与命令服务器的域名等。

目前为了维护网络安全，通常是由网络安全专家对使用恶意域名的软件进行逆向分析，从而达到识别出恶意域名的目的。但这种方式需要在获取到恶意软件的样本后才能进行分析，不仅分析成本较高，而且识别结果还存在滞后性，无法保证及时识别出恶意域名。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种域名识别方法和装置、存储介质及电子装置，以至少解决目前采用逆向分析方法识别出的恶意域名存在滞后性的技术问题。

根据本发明实施例的一个方面，提供了一种域名识别方法，包括：获取各个终端所发送的域名访问日志，其中，上述域名访问日志用于记录使用上述终端的用户账号与所访问的域名之间的映射关系；使用局部敏感哈希(Local Sensitive Hashing，简称LSH)法对上述域名访问日志中的上述域名进行分组映射处理，得到映射结果，其中，在上述映射结果中，每一组所包含的对象域名之间具有关联性；依次对每一组中上述对象域名的域名类型执行以下识别处理：在当前组中包含已知的域名类型的情况下，根据上述已知的域名类型识别上述当前组中未知的域名类型。

根据本发明实施例的另一方面，还提供了一种域名识别装置，包括：获取单元，用于获取各个终端所发送的域名访问日志，其中，上述域名访问日志用于记录使用上述终端的用户账号与所访问的域名之间的映射关系；处理单元，用于使用局部敏感哈希法对上述域名访问日志中的上述域名进行分组映射处理，得到映射结果，其中，在上述映射结果中，每一组所包含的对象域名之间具有关联性；识别单元，用于依次对每一组中上述对象域名的域名类型执行以下识别处理：在当前组中包含已知的域名类型的情况下，根据上述已知的域名类型识别上述当前组中未知的域名类型。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述域名识别方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的域名识别方法。

在本发明实施例中，获取到各个终端发送的域名访问日志，其中，域名访问日志中包含使用该终端的用户账号与该用户账号所访问的域名的映射关系。在获取到上述访问日志之后，可以使用局部敏感哈希法对上述域名访问日志中的域名进行分组映射处理，得到映射结果，其中该映射结果中每一组中所包含的对象域名之间具有关联性，利用该关联性对每一组中的对象域名的域名类型为未知的情况进行识别处理，以实现根据当前组中已知的域名类型，识别当前组中未知的域名类型。从而达到提前识别出域名的域名类型，而不再需要专家进行人为地逆向分析，进而克服了相关技术中存在的识别结果存在滞后性的问题，以避免恶意域名造成的安全威胁。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的域名识别方法的应用环境示意图；

图2是根据本发明实施例的一种可选的域名识别方法的流程图；

图3是根据本发明实施例的一种可选的域名识别方法的示意图；

图4是根据本发明实施例的另一种可选的域名识别方法的示意图；

图5是根据本发明实施例的另一种可选的域名识别方法的流程图；

图6是根据本发明实施例的又一种可选的域名识别方法的示意图；

图7是根据本发明实施例的又一种可选的域名识别方法的示意图；

图8是根据本发明实施例的一种可选的域名识别装置的示意图；

图9是根据本发明实施例的一种可选的电子装置的示意图；

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种域名识别方法，可选地，作为一种可选的实施方式，上述域名识别方法可以但不限于应用于如图1所示的环境中。终端在发起域名***(Domain Name System，简称DNS)请求进行数据访问的过程中，会生成并存储域名访问日志。如图1所示服务器106通过网络104可以获取到终端102所发送的域名访问日志，其中，上述域名访问日志中包含有使用终端的用户账号与所访问的域名之间的映射关系。服务器106在获取到上述域名访问日志后，将使用局部敏感哈希法对域名访问日志中的域名进行分组映射处理，得到映射结果，其中，上述映射结果中，每一组所包含的对象域名之间存在关联性。然后，服务器106可以依次获取映射结果中每一组中对象域名的域名类型，并执行以下识别处理：根据当前组中已知的域名类型识别当前组中未知的域名类型。

在本实施例中，通过局部哈希法对终端所发送的域名访问日志中的域名进行分组映射，映射结果中的每一组中所包含的对象域名之间具有关联性，利用该关联性对每一组中的对象域名实现：根据已知的域名类型来识别未知的域名类型，从而实现利用同一组中已知的对象域名的域名类型，来提前准确预测出未知的域名类型，而不再需要通过对域名进行逆向分析才能得到域名类型，提高了对域名进行识别的及时性，进而解决了相关技术中采用逆向分析方法识别出恶意域名所导致的滞后性的问题。

需要说明的是，上述终端为可以用于访问域名的终端，例如移动终端(手机)、平板电脑、笔记本电脑、台式PC等，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网，上述服务器为可以用于数据计算与存储的服务器，例如笔记本电脑、PC机等。

需要说明的是，图1中仅示出的终端102与终端104仅为举例，具体终端的数量本实施例不做具体限定。

可选地，作为一种可选的实施方式，如图2所示，上述域名识别方法包括：

S202，获取各个终端所发送的域名访问日志，其中，所述域名访问日志用于记录使用所述终端的用户账号与所访问的域名之间的映射关系；

S204，使用局部敏感哈希法(Local Sensitive Hashing，简称LSH)对所述域名访问日志中的所述域名进行分组映射处理，得到映射结果，其中，在所述映射结果中，每一组所包含的对象域名之间具有关联性；

S206，依次对每一组中所述对象域名的域名类型执行以下识别处理：当前组中包含已知的域名类型的情况下，根据所述已知的域名类型识别所述当前组中未知的域名类型。

可选地，在本实施例中，上述域名识别方法可以但不限于应用于网络安全维护过程中，其中，上述域名的域名类型可以包括但不限于：恶意域名、正常域名，上述恶意域名可以为执行恶意行为的域名。例如，恶意软件下载域名，非法色情、赌博网站域名、钓鱼网站域名、连接恶意软件控制与命令服务器的域名等。上述仅是一种示例，本实施例中对此不做任何限定。

例如，通过本实施例中所提供的域名识别方法来识别恶意域名，将避免恶意域名威胁到用户的网络信息安全。具体的，以识别域名的域名类型是否为恶意域名为例进行说明。服务器获取到各个终端发送的域名访问日志，其中，域名访问日志中包含使用该终端的用户账号与该用户账号所访问的域名的映射关系。在获取到上述访问日志之后，服务器可以使用局部敏感哈希法对上述域名访问日志中的域名进行分组映射处理，得到映射结果，其中该映射结果中每一组中所包含的对象域名之间具有关联性，例如对象域名的域名相似度越高，被分为同一组的概率越大。利用该关联性对每一组中的对象域名的域名类型为未知的情况进行识别处理，以实现根据当前组中已知的域名类型，识别当前组中未知的域名类型。从而达到提前识别出域名的域名类型(如域名是否为恶意域名)，而不再需要专家进行人为地逆向分析，进而克服了相关技术中存在的识别结果存在滞后性的问题，以避免恶意域名造成的安全威胁。

需要说明的是，上述LSH可以但不限于用于指示在高维数据空间中的两个相邻的数据，被映射到低维数据空间中后，将会有很大的概率仍然相邻；而在高维数据空间中原本不相邻的两个数据，在低维空间中也将有很大的概率不相邻。在本实施例中，利用LSH对域名进行分组映射，分组后同一组中所包含的对象域名的域名类型属于相同类型的概率很大，从而有利于实现利用同一组中已知的域名类型，来识别未知的域名类型，达到及时提前识别出域名类型的目的。可选地，在本实施例中，使用局部敏感哈希法对域名访问日志中的域名进行分组映射处理，得到映射结果可以包括但不限于：将从域名访问日志中提取出的用户账号和域名转化为关系矩阵；使用局部敏感哈希法对关系矩阵进行分组映射处理，得到关系图；将关系图作为映射结果。

可选地，在本实施例中，使用局部敏感哈希法对关系矩阵进行分组映射处理，得到关系图可以包括但不限于：获取关系矩阵中待分组的域名之间的域名相似度，根据该域名相似度确定待分组的域名所要映射的组别。其中，上述关系图可以包括但不限于二分图。例如，如图3所示，以域名B和域名C为例进行说明，在域名B和域名C的域名相似度大于阈值的情况下，域名B和域名C被分组映射到同一组(如组3)中的概率很大。

可选地，在本实施例中，在当前组中包含已知的域名类型的情况下，可以但不限于利用已知的域名类型识别同一组中未知的域名类型时，可以但不限于利用边缘概率分布对已知的域名类型进行统计计算。

假设已知的域名类型包括：恶意域名、正常域名，为恶意域名配置类型指示值1，为正常域名配置类型指示值0。进一步以图4中所示组3为例进行说明，假设所要识别的为恶意域名，其中，图4中域名B为恶意域名(如图斜线阴影表示)，域名C为恶意域名(如图斜线阴影表示)，域名D为未知域名(如图对应显示“？”)，则可以通过边缘概率分布，对上述类型指示值进行加权求和，得到目标域名类型指示值；在目标域名类型指示值大于阈值(满足阈值条件)的情况下，则可以确定域名D未知的域名类型与已知的域名类型属于同一类型，均为恶意域名。在目标域名类型指示值小于阈值(不满足阈值条件)的情况下，则可以确定域名D未知的域名类型与已知的域名类型不属于同一类型，为正常域名。

需要说明的是，上述恶意域名也可以配置类型指示值0，上述正常域名也可以配置类型指示值1，则在判定域名类型时，可以对应调整阈值条件。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，在当前组中未包含已知的域名类型(即当前组中均为未知的域名类型)的情况下，可以但不限于对未知的域名类型进行聚类，得到类簇域名，通过将其与已知的类簇域名的域名类型进行比对，来确定该当前组中未知的域名类型。

需要说明的是，获取预先统计出的类簇域名分布情况，通过将聚类后的类簇域名与已知类簇域名进行比对，从而实现根据类簇的比对结果来确定未知的域名类型是否为已知类簇(已知家族)中可疑类簇中的恶意域名。进一步，还可以对可疑程度较大的类簇域名进行逆向分析，以确定是否存在恶意域名。

可选地，在使用局部敏感哈希法对域名访问日志中的域名进行分组映射处理，得到映射结果之前，还包括：删除域名访问日志中所包含的热点域名，其中，热点域名用于指示访问数量大于第二阈值的正常域名。

也就是说，在本实施例中，可以但不限于在分组映射之前，删除热点域名(也可以称作著名域名)，以避免对正常域名进行再次识别，导致影响识别效率的问题。

具体结合图5所示示例进行说明，各步骤执行如下：

S502，确定执行周期，获取该周期内的域名访问日志。这里可以删除域名访问日志中的热点域名(如著名域名)等；

S504，构建用户账号与域名之间的关系矩阵。其中，可以但不限于根据域名访问日志获取用户账号所访问的域名，在用户账号范围对应域名时，在该关系矩阵中对应位置记录数值为1，否则为0；

S506，使用局部敏感哈希法映射得到二分图。例如，可以根据局部敏感哈希法，利用待分组的域名之间的域名相似度，把待分组的域名映射到不同组别(bucket)中，其中，在二分图中具有以下特点：1)域名相似度高于一定阈值的情况下，域名落在相同bucket的概率较高，反之亦然；2)属于相同类簇(也可以称作家族)的域名落在相同的bucket的概率高于属于不同家族的域名。例如，恶意域名会以较高概率落在相同的bucket中，正常域名也会以较高概率落在相同的bucket中。

S508，对映射结果进行识别处理。例如，对二分图中的每一组进行关联性分析：如果每一组中的对象域名中包含已知的域名类型(如已知为恶意域名或正常域名)，则执行步骤S510-1；如果每一组中的对象域名都是未知域名，则执行步骤S510-2。

S510-1，在当前组中包含已知的域名类型的情况下，根据已知的域名类型对未知的域名类型进行推测识别。根据上述内容可知，域名相似度高于一定阈值的情况下，域名落在相同bucket的概率较高，则可利用属于相同bucket的关联性，对未知的域名类型进行预测识别；

S510-2，在当前组中未包含已知的域名类型的情况下，对当前组中的对象域名进行聚类。根据上述内容可知，相同类簇域名落在相同bucket的概率也较高，因而对于当前组中均是未知的域名类型的对象域名的情况下，可以通过聚类得到类簇域名。可以获取预先统计出的类簇域名分布情况，通过将聚类后的类簇域名与已知类簇域名进行比对，从而实现根据类簇的比对结果来确定未知的域名类型是否为已知类簇(已知家族)中可疑类簇中的恶意域名。进一步，还可以对可疑程度较大的类簇域名进行逆向分析，以确定是否存在恶意域名。

通过本实施例，服务器可以使用局部敏感哈希法对上述域名访问日志中的域名进行分组映射处理，得到映射结果，其中该映射结果中每一组中所包含的对象域名之间具有关联性，例如对象域名的域名相似度越高，被分为同一组的概率越大。利用该关联性对每一组中的对象域名的域名类型为未知的情况进行识别处理，以实现根据当前组中已知的域名类型，识别当前组中未知的域名类型。从而达到提前识别出域名的域名类型，而不再需要专家进行人为地逆向分析，进而克服了相关技术中存在的识别结果存在滞后性的问题。

作为一种可选的实施方案，在当前组中包含已知的域名类型的情况下，根据已知的域名类型识别当前组中未知的域名类型包括：

S1，为已知的域名类型匹配域名类型指示值；

S2，对已知的域名类型的域名类型指示值进行加权求和，得到目标域名类型指示值；

S3，在目标域名类型指示值达到阈值条件的情况下，确定未知的域名类型与已知的域名类型属于同一类型。

具体结合以下示例进行说明，假设已知的域名类型包括：恶意域名、正常域名，为恶意域名配置类型指示值1，为正常域名配置类型指示值0。进一步以图6中所示组3为例进行说明，假设图6中域名B为恶意域名(如图斜线阴影表示)，域名C为恶意域名(如图斜线阴影表示)，域名D为未知域名(如图对应显示“？”)，域名E为正常域名(如图网格表示)。则可以通过边缘概率分布，对上述类型指示值进行加权求和，得到目标域名类型指示值。假设在本实施例中阈值条件用于识别恶意域名，则可以判断目标域名类型指示值是否大于阈值，在大于该阈值的情况下，则可以确定域名D未知的域名类型为与已知的所要识别的恶意域名属于同一类型，为恶意域名。

通过本申请提供的实施例，通过为已知的域名类型匹配域名类型指示值，根据已知的域名类型匹配域名类型指示值，获取该组别的目标域名类型指示值，利用该目标域名类型指示值来提前推测未知的域名类型，从而实现及时对可能出现的恶意域名进行及时预防，以克服相关技术中存在的识别滞后的问题。

作为一种可选的实施方案，在依次获取每一组中对象域名的域名类型之后，还包括：

S1，在当前组中未包含已知的域名类型的情况下，对当前组中的对象域名进行聚类，得到目标类簇域名；

S2，将目标类簇域名与已知类簇域名进行比对；

S3，根据比对的结果确定当前组中对象域名的域名类型。

需要说明的是，相同类簇(家族)的域名落在相同的组别(bucket)中的概率高于不同类簇(家族)的域名。因而通过聚类，可以利用类簇(家族)进行比对，以确定未知的域名类型。

具体结合以下示例进行说明，假设当前组中均为未知的域名类型的情况下，为了识别恶意域名，则可以获取预先统计出的类簇域名分布情况，通过将聚类后的类簇域名与已知类簇域名进行比对，从而实现根据类簇的比对结果，来确定未知的域名类型是否为已知类簇(已知家族)中可疑类簇中的恶意域名。进一步，还可以对可疑程度较大的类簇域名进行逆向分析，以确定是否存在恶意域名。

通过本申请提供的实施例，在当前组中未包含已知的域名类型的情况下，通过对当前组中的对象域名进行聚类，得到类簇域名，从而实现利用类簇域名与统计后的已知类簇域名进行比对，利用类簇特性，确定未知的域名类型是否属于可疑类簇，以达到提前识别出恶意域名的目的，保证识别的及时性。

作为一种可选的实施方案，使用局部敏感哈希法对域名访问日志中的域名进行分组映射处理，得到映射结果包括：

S1，将从域名访问日志中提取出的用户账号和域名转化为关系矩阵；

S2，使用局部敏感哈希法对关系矩阵进行分组映射处理，得到关系图；

S3，将关系图作为映射结果。

具体结合以下示例进行说明，如图7所示，从域名访问日志中提取出用户账号和域名转化为如图所示的关系矩阵。例如，在用户账号u1通过域名访问请求访问域名B时，则在关系矩阵中设置对应数值为1，否则空置或设置为0。

进一步，使用LSH对关系矩阵进行分组映射处理，假设以上述图7所示为例说明，域名B、域名C、域名D、域名E使用LSH根据域名相似度分别映射到组3，得到二分图，利用二分图中的关联性对组别中所包含的对象域名进行域名类型识别。其中，域名B为恶意域名(如图斜线阴影表示)，域名C为恶意域名(如图斜线阴影表示)，域名D为未知域名(如图对应显示“？”)，域名E为正常域名(如图网格表示)。在组3中包含已知的域名类型，则可以利用已知的域名类型(如域名B为恶意域名(如图斜线阴影表示)，域名C为恶意域名(如图斜线阴影表示)和域名E为正常域名(如图网格表示))来识别未知的域名类型。如图7所示，根据边缘概率分布，对已知的域名类型的域名类型指示值确定目标域名类型指示值，进而根据该目标域名类型指示值与阈值之间的关系确定域名D的域名类型为恶意域名(如图斜线阴影表示)。

通过本申请提供的实施例，将从域名访问日志中提取出的用户账号和域名转化为关系矩阵；使用局部敏感哈希法对关系矩阵进行分组映射处理，得到关系图，从而利用关系图中每一组中对象域名之间的关联性来提前识别未知的域名类型，进而克服相关技术中只能通过逆向分析来识别所导致的滞后的问题。

作为一种可选的实施方案，使用局部敏感哈希法对关系矩阵进行分组映射处理，得到关系图包括：

S1，获取关系矩阵中待分组的域名分别对应的户账号集合；

S2，根据用户账号集合获取待分组的域名之间的域名相似度；

S3，在域名相似度大于第一阈值的情况下，待分组的域名被映射到关系图中同一组的概率越大，其中，关系图包括二分图。

可选地，在本实施例中，根据用户账号集合获取待分组的域名之间的域名相似度包括：

S21，获取用户账号集合的交集，及用户账号集合的并集；

S22，获取交集中的第一用户账号数量与并集中的第二用户账号数量之间的比值；

S23，将比值作为待分组的域名之间的域名相似度。

具体结合以下示例进行说明，假设待分组的域名包括：域名A和B，通过域名A和域名B之间的域名相似度来确定二者是否映射到同一组(bucket)中。具体的，可以获取访问域名A的用户账号集合S，访问域名B的用户账号集合T，然后，获取用户账号集合S和用户账号集合T之间的交集U和并集V，将上述交集U和并集V之间的比值作为域名A和域名B之间的域名相似度。

需要说明的是，在域名A和域名B之间的域名相似度超过阈值情况下，则域名A和域名B至少映射到同一个bucket的概率较高。此外，如果域名A和域名B的域名相似度越高，那么域名A和域名B会存在越多的bucket里，反之亦然。

通过本申请提供的实施例，使用局部敏感哈希法根据域名相似度，对从关系矩阵中提取的域名进行分组映射，从而利用属于同一组中的对象域名之间的关联性，来达到***未知的域名类型，避免恶意域名造成的安全威胁。

作为一种可选的实施方案，在使用局部敏感哈希法对域名访问日志中的域名进行分组映射处理，得到映射结果之前，还包括：

S1，删除域名访问日志中所包含的热点域名，其中，热点域名用于指示访问数量大于第二阈值的正常域名。

需要说明的是，上述第二阈值可以但不限于根据场景设置的阈值，这里热点域名可以但不限于为正常的著名域名。

通过本申请提供的实施例，在对域名进行分组映射之前，通过删除热点域名(也可以称作著名域名)，从而避免了对正常域名的重复分组映射与识别，提高了对域名的分组映射与识别效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述域名识别方法的域名识别装置，如图8所示，该装置包括：

(1)获取单元802，用于获取各个终端所发送的域名访问日志，其中，域名访问日志用于记录使用终端的用户账号与所访问的域名之间的映射关系；

(2)处理单元804，用于使用局部敏感哈希法对域名访问日志中的域名进行分组映射处理，得到映射结果，其中，在映射结果中，每一组所包含的对象域名之间具有关联性；

(3)识别单元806，用于依次对每一组中对象域名的域名类型执行以下识别处理：在当前组中包含已知的域名类型的情况下，根据已知的域名类型识别当前组中未知的域名类型。

可选地，在本实施例中，上述域名识别装置可以但不限于应用于网络安全维护过程中，其中，上述域名的域名类型可以包括但不限于：恶意域名、正常域名，上述恶意域名可以为执行恶意行为的域名。例如，恶意软件下载域名，非法色情、赌博网站域名、钓鱼网站域名、连接恶意软件控制与命令服务器的域名等。上述仅是一种示例，本实施例中对此不做任何限定。

例如，通过本实施例中所提供的域名识别装置来识别恶意域名，将避免恶意域名威胁到用户的网络信息安全。具体的，以识别域名的域名类型是否为恶意域名为例进行说明。服务器获取到各个终端发送的域名访问日志，其中，域名访问日志中包含使用该终端的用户账号与该用户账号所访问的域名的映射关系。在获取到上述访问日志之后，服务器可以使用局部敏感哈希法对上述域名访问日志中的域名进行分组映射处理，得到映射结果，其中该映射结果中每一组中所包含的对象域名之间具有关联性，例如对象域名的域名相似度越高，被分为同一组的概率越大。利用该关联性对每一组中的对象域名的域名类型为未知的情况进行识别处理，以实现根据当前组中已知的域名类型，识别当前组中未知的域名类型。从而达到提前识别出域名的域名类型(如域名是否为恶意域名)，而不再需要专家进行人为地逆向分析，进而克服了相关技术中存在的识别结果存在滞后性的问题，以避免恶意域名造成的安全威胁。

具体结合图5所示示例进行说明，各步骤执行如下：

作为一种可选的实施方式，上述识别单元806包括：

(1)匹配模块，用于为已知的域名类型匹配域名类型指示值；

(2)加权求和模块，用于对已知的域名类型的域名类型指示值进行加权求和，得到目标域名类型指示值；

(3)第一确定模块，用于在目标域名类型指示值达到阈值条件的情况下，确定未知的域名类型与已知的域名类型属于同一类型。

作为一种可选的实施方式，上述装置还包括：

(1)聚类单元，用于在依次获取每一组中对象域名的域名类型之后，在当前组中未包含已知的域名类型的情况下，对当前组中的对象域名进行聚类，得到目标类簇域名；

(2)比对单元，用于将目标类簇域名与已知类簇域名进行比对；

(3)确定单元，用于根据比对的结果确定当前组中对象域名的域名类型。

作为一种可选的实施方式，上述处理单元804包括：

(1)提取模块，用于将从域名访问日志中提取出的用户账号和域名转化为关系矩阵；

(2)处理模块，用于使用局部敏感哈希法对关系矩阵进行分组映射处理，得到关系图；

(3)第二确定模块，用于将关系图作为映射结果。

作为一种可选的实施方式，上述处理模块包括：

(1)第一获取子模块，用于获取关系矩阵中待分组的域名分别对应的户账号集合；

(2)第二获取子模块，用于根据用户账号集合获取待分组的域名之间的域名相似度；

(3)映射子模块，用于在域名相似度大于第一阈值的情况下，待分组的域名被映射到关系图中同一组的概率越大，其中，关系图包括二分图。

可选地，在本实施例中，上述第二获取子模块还用于执行以下步骤：

S1，获取用户账号集合的交集，及用户账号集合的并集；

S2，获取交集中的第一用户账号数量与并集中的第二用户账号数量之间的比值；

S3，将比值作为待分组的域名之间的域名相似度。

作为一种可选的实施方式，上述装置还包括：

(2)删除单元，用于在使用局部敏感哈希法对域名访问日志中的域名进行分组映射处理，得到映射结果之前，删除域名访问日志中所包含的热点域名，其中，热点域名用于指示访问数量大于第二阈值的正常域名。

根据本发明实施例的又一个方面，还提供了一种用于实施上述域名识别的电子装置，如图9所示，该电子装置包括存储器902、处理器904，传输装置906。该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器904可以被设置为通过计算机程序执行以下步骤：

S1，获取各个终端所发送的域名访问日志，其中，域名访问日志用于记录使用终端的用户账号与所访问的域名之间的映射关系；

S2，使用局部敏感哈希法对域名访问日志中的域名进行分组映射处理，得到映射结果，其中，在映射结果中，每一组所包含的对象域名之间具有关联性；

S3，依次对每一组中对象域名的域名类型执行以下识别处理：在当前组中包含已知的域名类型的情况下，根据已知的域名类型识别当前组中未知的域名类型。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本发明实施例中的域名识别方法与装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的域名识别方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器902用于存储域名的访问日志、域名的映射结果与域名的识别结果等内容。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，为已知的域名类型匹配域名类型指示值；

S2，将目标类簇域名与已知类簇域名进行比对；

S3，根据比对的结果确定当前组中对象域名的域名类型。

S3，将关系图作为映射结果。

S1，获取关系矩阵中待分组的域名分别对应的户账号集合；

S1，获取用户账号集合的交集，及用户账号集合的并集；

S3，将比值作为待分组的域名之间的域名相似度。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种域名识别方法，其特征在于，包括：

获取各个终端所发送的域名访问日志，其中，所述域名访问日志用于记录使用所述终端的用户账号与所访问的域名之间的映射关系；

使用局部敏感哈希法对所述域名访问日志中的所述域名进行分组映射处理，得到映射结果，其中，在所述映射结果中，每一组所包含的对象域名之间具有关联性；

依次对每一组中所述对象域名的域名类型执行以下识别处理：

在当前组中包含已知的域名类型的情况下，根据所述已知的域名类型识别所述当前组中未知的域名类型；

在所述当前组中未包含所述已知的域名类型的情况下，对所述当前组中的所述对象域名进行聚类，得到目标类簇域名；将所述目标类簇域名与已知类簇域名进行比对；根据比对的结果确定所述当前组中所述对象域名的域名类型。

2.根据权利要求1所述的方法，其特征在于，所述在当前组中包含已知的域名类型的情况下，根据所述已知的域名类型识别所述当前组中未知的域名类型包括：

为所述已知的域名类型匹配域名类型指示值；

对所述已知的域名类型的所述域名类型指示值进行加权求和，得到目标域名类型指示值；

在所述目标域名类型指示值达到阈值条件的情况下，确定所述未知的域名类型与所述已知的域名类型属于同一类型。

3.根据权利要求1所述的方法，其特征在于，所述使用局部敏感哈希法对所述域名访问日志中的所述域名进行分组映射处理，得到映射结果包括：

将从所述域名访问日志中提取出的所述用户账号和所述域名转化为关系矩阵；

使用所述局部敏感哈希法对所述关系矩阵进行分组映射处理，得到关系图；

将所述关系图作为所述映射结果。

4.根据权利要求3所述的方法，其特征在于，所述使用所述局部敏感哈希法对所述关系矩阵进行分组映射处理，得到关系图包括：

获取所述关系矩阵中待分组的域名分别对应的户账号集合；

根据所述用户账号集合获取所述待分组的域名之间的域名相似度；

在所述域名相似度大于第一阈值的情况下，所述待分组的域名被映射到所述关系图中同一组的概率越大，其中，所述关系图包括二分图。

5.根据权利要求4所述的方法，其特征在于，所述根据所述用户账号集合获取所述待分组的域名之间的域名相似度包括：

获取所述用户账号集合的交集，及所述用户账号集合的并集；

获取所述交集中的第一用户账号数量与所述并集中的第二用户账号数量之间的比值；

将所述比值作为所述待分组的域名之间的域名相似度。

6.根据权利要求1至5中任一项所述的方法，其特征在于，在所述使用局部敏感哈希法对所述域名访问日志中的所述域名进行分组映射处理，得到映射结果之前，还包括：

删除所述域名访问日志中所包含的热点域名，其中，所述热点域名用于指示访问数量大于第二阈值的正常域名。

7.一种域名识别装置，其特征在于，包括：

获取单元，用于获取各个终端所发送的域名访问日志，其中，所述域名访问日志用于记录使用所述终端的用户账号与所访问的域名之间的映射关系；

处理单元，用于使用局部敏感哈希法对所述域名访问日志中的所述域名进行分组映射处理，得到映射结果，其中，在所述映射结果中，每一组所包含的对象域名之间具有关联性；

识别单元，用于依次对每一组中所述对象域名的域名类型执行以下识别处理：

8.根据权利要求7所述的装置，其特征在于，所述识别单元包括：

匹配模块，用于为所述已知的域名类型匹配域名类型指示值；

加权求和模块，用于对所述已知的域名类型的所述域名类型指示值进行加权求和，得到目标域名类型指示值；

第一确定模块，用于在所述目标域名类型指示值达到阈值条件的情况下，确定所述未知的域名类型与所述已知的域名类型属于同一类型。

9.根据权利要求7所述的装置，其特征在于，所述处理单元包括：

提取模块，用于将从所述域名访问日志中提取出的所述用户账号和所述域名转化为关系矩阵；

处理模块，用于使用所述局部敏感哈希法对所述关系矩阵进行分组映射处理，得到关系图；

第二确定模块，用于将所述关系图作为所述映射结果。

10.根据权利要求9所述的装置，其特征在于，所述处理模块包括：

第一获取子模块，用于获取所述关系矩阵中待分组的域名分别对应的户账号集合；

第二获取子模块，用于根据所述用户账号集合获取所述待分组的域名之间的域名相似度；

映射子模块，用于在所述域名相似度大于第一阈值的情况下，所述待分组的域名被映射到所述关系图中同一组的概率越大，其中，所述关系图包括二分图。

11.根据权利要求7至10中任一项所述的装置，其特征在于，所述装置还包括：

删除单元，用于在所述使用局部敏感哈希法对所述域名访问日志中的所述域名进行分组映射处理，得到映射结果之前，删除所述域名访问日志中所包含的热点域名，其中，所述热点域名用于指示访问数量大于第二阈值的正常域名。

12.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。