CN103581347B - 泛滥子域的识别方法和*** - Google Patents
泛滥子域的识别方法和*** Download PDFInfo
- Publication number
- CN103581347B CN103581347B CN201210256109.2A CN201210256109A CN103581347B CN 103581347 B CN103581347 B CN 103581347B CN 201210256109 A CN201210256109 A CN 201210256109A CN 103581347 B CN103581347 B CN 103581347B
- Authority
- CN
- China
- Prior art keywords
- domain
- effective
- segment group
- segment
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明实施例公开了一种泛滥子域的识别方法和***,涉及计算机技术领域,应用于搜索引擎,根据子域名的任一有效片段组的片段长度的离散度或集中度来识别泛滥子域,可有效提高泛滥子域识别程度。本发明实施例提供的方法包括:收集具有相同主域名的子域名;若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域,其中,所述有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和右侧域名部分分别相同的片段集合。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及泛滥子域的识别方法和***。
背景技术
计算机网络技术的发展极大的提高了人们获取信息的便利性,计算机网络中存储了海量的信息,为了使人们查找到自己所需的信息,搜索引擎被广泛使用,搜索引擎对网站的收录、质量控制是按照子域名为单位的。子域名是指根据业务的不同,站长在主域名的基础上,扩展出的多个域名,例如bbs.163.com提供论坛服务,blog.163.com是网易博客的子域名。子域名可以任意取名,甚至可以是多级子域名,例如twocold.blog.sina.com.cn。子域名是由左侧域名部分加主域名组合而成的,排除掉主域名部分,子域名剩下的部分按照符号“.”可以分割为多级片段。比如www.163.com可以分割“www”一级片段,twocold.blog.sina.com.cn可以分割成”twocold”、“blog”两级片段。
但是有些站长会故意生成数量庞大的、且内容、质量是很接近的子域名,给搜索引擎造成这个主域名的业务很庞大的假象,这种批量造出的子域名叫做泛滥子域,由于泛滥子域的内容、质量是很接近的,如果像对普通子域一样对进行常规的更新、质量评估,则大大增加了搜索引擎的负担,所以,识别泛滥子域并采取相应的调度手段可以使资源分配更合理,且大大减小搜索引擎的负担。
现有技术常用的识别泛滥子域的方法是通过统计相同主域名包含的子域名的数量,当数量超过一定的阈值,则认为是泛滥子域。
发明人发现现有技术至少存在以下缺点:现有技术单纯根据数量来判断是否为泛滥子域,只能解决最严重的泛滥子域问题,对泛滥子域的识别程度低。
发明内容
本发明的实施例提供一种泛滥子域的识别方法和***,根据子域名的任一有效片段组的片段长度的离散度或集中度进行泛滥子域的识别,可有效提高泛滥子域识别程度。
为达到上述目的,本发明实施例采用的技术方案是,
一方面,本发明实施例提供一种泛滥子域的识别方法,包括:
获取具有相同主域名的子域名;
若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域,其中,所述有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同的片段集合。
优选的,所述判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布,包括:
获取平均片段数量,其中,所述平均片段数量由所述任一有效片段组包含的片段总数量除以所述任一有效片段组包含的不同的片段长度总数得到;
若所述平均片段数量小于第一离散度阈值,则判断所述任一有效片段组的片段长度为离散分布。
优选的,所述判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布,还包括:
若所述平均片段数量不小于所述第一离散度阈值,则统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
若所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述平均片段数量小于第二离散度阈值,则判断所述任一有效片段组的片段长度为离散分布。
优选的,所述判断所述具有相同主域名的子域名的任一有效片段组的片段长度为集中分布,包括:
获取平均片段数量,其中,所述平均片段数量由所述任一有效片段组包含的片段总数量除以所述任一有效片段组包含的不同的片段长度总数得到;
获取所述任一有效片段组包含的有效长度数量,其中,包含的片段数量大于所述平均片段数量与调整因子乘积的片段长度为所述有效长度;
若所述有效长度数量与所述片段长度总数的比值小于第一集中度阈值,则判断所述任一有效片段组的片段长度为集中分布。
优选的,所述判断所述具有相同主域名的子域名的任一有效片段组的片段长度为集中分布,还包括:
若所述有效长度数量与所述片段长度总数的比值不小于所述第一集中度阈值,则统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
若所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述有效长度数量与所述片段长度总数的比值小于第二集中度阈值,则判断所述任一有效片段组的片段长度为集中分布。
优选的,所述方法还包括:
若判断所述具有相同主域名的子域名的每一有效片段组的片段长度均不为离散分布或集中分布,且所述具有相同主域名的子域名具有至少两级片段时,则将所述具有相同主域名的子域名的相邻的至少两有效片段组合并成一级片段;
根据所述合并后的一级片段组获取新的有效片段组,若判断所述新的有效片段组的片段长度为离散分布或集中分布,则将所述新的有效片段组对应的子域名识别为泛滥子域。
优选的,在若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域之前,所述方法还包括:
根据预先设定的豁免规则,将符合所述豁免规则的片段或者子域名过滤,不进行泛滥子域的识别。
优选的,所述方法还包括,设置更新周期,相应的,
所述收集具有相同主域名的子域名,包括:根据所述设置的更新周期,在每个更新周期内收集具有相同主域名的子域名;
所述若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域,包括:根据所述设置的更新周期,在每个更新周期内若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域。
一方面,本发明实施例提供一种泛滥子域的识别***,其特征在于,包括:
获取单元,用于获取具有相同主域名的子域名;
判断单元,用于判断所述获取单元获取的所述具有相同主域名的子域名的任一有效片段组的片段长度是否为离散分布或集中分布,其中,所述有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同的片段集合;
识别单元,用于在所述判断单元判断所述任一有效片段组的片段长度为离散分布或集中分布后,将所述任一有效片段组对应的子域名识别为泛滥子域。
优选的,所述判断单元包括,包括:
获取模块,用于获取平均片段数量,其中,所述平均片段数量由所述任一有效片段组包含的片段总数量除以所述任一有效片段组包含的不同的片段长度总数得到;
第一判断模块,用于在确定所述获取模块获取的所述平均片段数量小于第一离散度阈值后,判断所述任一有效片段组的片段长度为离散分布。
优选的,所述判断单元,还包括:
统计模块,用于在所述第一判断模块判断所述平均片段数量不小于所述第一离散度阈值后,统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
第二判断模块,用于在确定所述统计模块统计的所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述第一判断模块确定所述平均片段数量小于第二离散度阈值后,判断所述任一有效片段组的片段长度为离散分布。
优选的,所述判断单元,包括:
第一获取模块,用于获取平均片段数量,其中,所述平均片段数量由所述任一有效片段组包含的片段总数量除以所述任一有效片段组包含的不同的片段长度总数得到;
第二获取模块,用于获取所述任一有效片段组包含的有效长度数量,其中,包含的片段数量大于所述平均片段数量与调整因子乘积的片段长度为所述有效长度;
第一判断模块,用于在确定所述第二获取模块获取的所述有效长度数量与所述片段长度总数的比值小于第一集中度阈值后,判断所述任一有效片段组的片段长度为集中分布。
优选的,所述判断单元,还包括:
统计模块,用于在所述第一判断模块确定所述有效长度数量与所述片段长度总数的比值不小于所述第一集中度阈值后,统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
第二判断模块,用于在确定所述统计模块统计的所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述第一判断模块确定所述有效长度数量与所述片段长度总数的比值小于第二集中度阈值后,判断所述任一有效片段组的片段长度为集中分布。
优选的,所述***还包括:
合并单元,用于在所述判断单元判断所述具有相同主域名的子域名的每一有效片段组的片段长度均不为离散分布或集中分布后,且所述具有相同主域名的子域名具有至少两级片段后,将所述具有相同主域名的子域名的相邻的至少两级片断合并成一级片段;
所述判断单元还用于,根据所述合并后的一级片段获取新的有效片段组,判断所述新的有效片段组的片段长度是否为离散分布或集中分布;
所述识别单元还用于,在所述判断单元判断所述新的有效片段组的片段长度为离散分布或集中分布后,将所述新的有效片段组对应的子域名识别为泛滥子域。
优选的,所述***还包括:
过滤单元,用于根据预先设定的豁免规则,将符合所述豁免规则的片段或者子域名过滤,以便于所述判断单元和识别单元不针对符合所述豁免规则的片段或者子域名进行泛滥子域的识别。
优选的,所述***还包括,更新周期设置单元,用于设置更新周期,相应的,
所述获取单元还用于:根据所述更新周期设置单元设置的更新周期,在每个更新周期内获取具有相同主域名的子域名;
所述判断单元还用于:根据所述更新周期设置单元设置的更新周期,在每个更新周期内若判断所述具有相同主域名的子域名的任一有效片段组的片段长度是否为离散分布或集中分布;
所述识别单元还用于:根据所述更新周期设置单元设置的更新周期,在每个更新周期内,在所述判断单元判断所述任一有效片段组的片段长度为离散分布或集中分布后,将所述任一有效片段组对应的子域名识别为泛滥子域。
本发明实施例提供的泛滥子域的识别方法和***,根据具有相同主域名的子域名的任一有效片段组的片段长度的离散度或者集中度来识别泛滥子域,若任一有效片段组的片段长度为离散分布或集中分布,则将该任一有效片段组对应的子域名识别为泛滥子域。提高了泛滥子域的识别程度,解决了现有技术单纯根据子域数量来判断是否为泛滥子域,只能解决最严重的泛滥子域,对泛滥子域的识别程度低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种泛滥子域的识别方法流程图;
图2为本发明实施例提供的一种泛滥子域的识别***图;
图3为本发明实施例提供的泛滥子域的识别***图中的判断单元的一种结构图;
图4为本发明实施例提供的泛滥子域的识别***图中的判断单元的另一种结构图;
图5为本发明实施例提供的另一种泛滥子域的识别***图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种泛滥子域的识别方法,参见图1,包括,
S101:获取具有相同主域名的子域名;
示例性的,可以收集搜索引擎在网络上收录的所有子域名,子域名可以以列表形式表示,也可以以其它形式表示,收集的所有子域名按照主域名进行分类,每一组具有相同主域名的子域名分别作为泛滥域名识别的数据源。本实施例以针对一个主域名包含的子域名为例进行泛滥域名识别的说明,所以下文出现的主域名的含义指同一个特定的主域名,其他主域名包含的子域名的泛滥域名识别过程和原理相同。
优选的,在步骤S101中,可以设定一个更新周期,在每个更新周期获取具有相同主域名的子域名并进行更新。
S102:若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域,其中,所述有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同的片段集合。
示例性的,本实施例称与主域名相邻的片段为第一级片段,与第一级片段相邻的为第二级片段,依次类推,例如,域名twocold.blog.sina.com.cn主域名为“sina.com.cn”,第一级片段为“blog”,第二级片段为“twocold”、“twocold”为第一级片段的左侧域名部分,“sina.com.cn”为第一级片段的右侧域名部分。有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同的片段集合。
其中,当所述同一级片段不是所述具有相同主域名的子域名的最高一级片段时,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同包括:所述同一级片段的左侧域名部分和右侧域名部分分别相同;
以下述子域名的第二级片段为例进行说明,
www.cid-3c148c1cd8599f5e.profile.live.com
www.cid-fc56648fc658c405.profile.live.com
www.cid-f4bd27e168f86267.profile.live.com
www.51senv.space.live.com
上述域名的第二级片段包括“cid-3c148c1cd8599f5e”,“cid-fc56648fc658c405”,“cid-f4bd27e168f86267”以及“51senv”,其中“cid-3c148c1cd8599f5e”,“cid-fc56648fc658c405”,“cid-f4bd27e168f86267”的左侧域名部分和右侧域名部分均相同,且属于同一级片段,所以构成有效片段组,而片段“51senv”与片段“cid-3c148c1cd8599f5e”等虽属于同一级片段,但是右侧域名部分不相同,所以不能和“cid-3c148c1cd8599f5e”等片段属于同一有效片段组。
当所述同一级片段是所述具有相同主域名的子域名的最高一级片段时,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同包括:所述同一级片段右侧域名部分分别相同。
例如,当根据子域名的最高一级片段进行泛滥识别时,最高一级片段只有右侧域名部分,所以,只要右侧域名部分相同即可认为构成有效片段组,以下述子域名的第***段为例进行说明,
ihazo.qh.gzszyl.go.cn
fidoo.qh.gzszyl.go.cn
npvny.qh.gzszyl.go.cn
tmtmk.ne.gzszyl.go.cn
上述域名的第***段为最高一级片段,包括“ihazo”,“fidoo”,“npvny”以及“tmtmk”,其中“ihazo”,“fidoo”,“npvny”的右侧域名部分均相同,所以构成有效片段组,而片段“tmtmk”与片段“ihazo”等虽属于同一级片段,但是右侧域名部分不相同,所以不能和“ihazo”等片段属于同一有效片段组。
具有相同主域名的子域名可以包含多个有效片段组,本实施例以根据第一有效片段组的片段长度的离散度或集中度进行泛滥识别为例进行说明,根据其他有效片段组的片段长度的离散度或集中度进行泛滥识别额度原理和过程相同。其中,有效片段组的片段长度的集中度:指的是有效片段组包含的片段长度,在分布上集中在少数几个长度上的程度;有效片段组的片段长度的离散度:指的是有效片段组包含的片段长度的数量比较多,并且每个长度分布的域名数量比例很低的程度。
示例性的,根据第一有效片段组包含的片段总数量,以及每一个片段的片段长度可以统计第一有效片段组包含的不同的片段长度总数。
另外,在步骤S102中,可以设定一个更新周期,在每个更新周期中判断第一有效片段组的片段长度是否为离散分布或者是否为集中分布。
下面分别简单介绍判断第一有效片段组的片段长度是否为离散分布和是否为集中分布的方法。
一、判断第一有效片段组的片段长度是否为离散分布,可以包括:
a、获取平均片段数量,其中,所述平均片段数量由所述有效片段组包含的片段总数量除以所述有效片段组包含的不同的片段长度总数得到;
示例性的,本实施例以第一有效片段组包含的片段总数量为1000为例进行说明;
每一个片段的片段长度是指每一个片段的包含的字符数,例如,
cid-3c148c1cd8599f5e.profile.live.com的第二级片段的片段长度是20;
www.thhhhshhh.live.com的第一级片段的片段长度是9;
www.live.com的第一级片段的片段长度是3;
第一有效片段组包含的不同的片段长度总数指第一有效片段组包含多少种片段长度;平均片段数量指第一有效片段组的总数量与第一有效片段组包含的不同的片段长度总数的比值。
本实施例以第一片段包含4种片段长度为例进行说明,假设四种片段长度分别为:
片段长度(len)=2,该片段长度包含的片段数量为500个,
len=3,该片段长度包含的片段数量为200个;
len=8,该片段长度包含的片段数量为250个;
len=11,该片段长度包含的片段数量为50个。
那么,平均片段数量为1000/4=250个。
b、若所述平均片段数量小于第一离散度阈值,则判断所述任一有效片段组的片段长度为离散分布。
示例性的,可以预先设置第一离散度阈值,第一离散度阈值的取值范围可以通过根据现阶段泛滥子域的离散程度特点进行确定,如果现阶段经常出现的泛滥子域的离散程度出现新的趋势,可对第一离散度阈值进行调整。其中现阶段泛滥子域的离散程度特点可通过统计的方式获取,此处不进行限定。
例如,第一离散度阈值可以取12-40,优选的可以取12。
当平均片段数量小于第一离散度阈值时,可以认为第一片段长度为离散分布。
例如,第一离散度阈值取40,当平均片段数量为250时,不能判断第一片段长度为离散分布,当平均片段数量为25时,可以判断第一片段长度为离散分布。
优选的,当只根据第一有效片段组的平均判断数量判断第一有效片段组的片段长度不为离散分布时,为了提高泛滥域名的识别程度,还可以结合第一有效片段组的命名信息辅助判断第一有效片段组的片段长度为离散分布,所以,还可以包括:
c、若平均片段数量不小于第一离散度阈值,则统计第一有效片段组包含分隔符的片段数量或者第一有效片段组的命名模式;
示例性的,假设第一离散度阈值取40,平均片段数量为250,不能判断第一片段长度为离散分布,则进一步统计第一有效片段组包含分隔符的片段数量或者第一有效片段组的命名模式;
下面分别对统计第一有效片段组包含分隔符的片段数量和统计第一有效片段组的命名模式进行说明。
1)统计第一有效片段组包含分隔符的片段数量。
示例性的,分隔符可根据域名中允许出现的符号预先设定,例如,若域名中允许出现中划线“-”,则分隔符可以预先设置为“-”,第一有效片段组包含分隔符的片段数量即为包含分隔符“-”的片段的数量;若域名中可以出现“-”、“_”等符号,则分隔符可以预先设置为“-”、“_”等符号,第一有效片段组包含分隔符的片段数量即为包含分隔符“-”、“_”等符号的片段的数量和。
另外,可以预设分隔符阈值,以分析第一有效片段组包含分隔符的片段是否普遍存在,例如,预设分隔符阈值可以设置为60%,优选的,可以设置为80%。
例如,预设分隔符阈值设置为60%,当第一有效片段组包含分隔符的片段数量占第一有效片段组总量的60%以上时,可以认为第一有效片段组包含分隔符的片段是普遍存在的,当第一有效片段组包含分隔符的片段数量占第一有效片段组总量的不高于60%时,可以认为第一有效片段组包含分隔符的片段不是普遍存在的。
2)统计第一有效片段组的命名模式。
示例性的,可以预设命名模式,例如可以包含4种命名模式(全部是数字、全部是字母、全部是数字加字母、全部是子域加数字),当然根据域名命名规则的改变,预设的命名模式也可以进行更新,此处不进行限定。
示例性的,可以预设比例阈值,以判断第一片段的命名模式是否统一,例如,预设比例阈值可以设置为60%,优选的,可以设置为80%。
例如,预设比例阈值设置为60%,当第一有效片段组包含的任何一种模式的片段数量占第一有效片段组总量的60%以上时,可以认为第一有效片段组命名模式是统一的,当第一有效片段组包含的每一种模式的片段数量占第一有效片段组总量均小于60%时,可以认为第一有效片段组的命名模式是不统一的。
d、若第一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者第一有效片段组的任意一种命名模式的比例大于预设比例阈值,且平均片段数量小于第二离散度阈值,则判断第一有效片段组的片段长度为离散分布。
示例性的,当平均片段数量小于第二离散度阈值,且第一片段至少满足包含分隔符的片段是普遍存在的、命名模式是统一的中的一种情况时,可以判断第一有效片段组的片段长度为离散分布。其中,第一片段是否满足包含分隔符的片段是普遍存在的、命名模式是统一的判断同上述c所述,此处不再赘述。
第二离散度阈值可以预先设置,第二离散度阈值的取值范围可以通过根据现阶段泛滥子域的离散程度特点进行确定,例如可以为15-50。但是第二离散阈值应该大于第一离散阈值。例如,第一离散度阈值取40时,第二离散度阈值可以取50,优选的,第一离散度阈值取12时,第二离散度阈值可以取15。
二、判断第一有效片段组的片段长度是否为集中分布,可以包括:
a、获取平均片段数量,其中,所述平均片段数量由所述有效片段组包含的片段总数量除以所述有效片段组包含的不同的片段长度总数得到;
示例性的,此处仍以第一有效片段组的总数量为1000为例进行说明;假设第一片段包含4种片段长度,例如四种片段长度分别为:
片段长度(len)=2,该片段长度包含的片段数量为500个,
len=3,该片段长度包含的片段数量为200个;
len=8,该片段长度包含的片段数量为250个;
len=11,该片段长度包含的片段数量为50个。
那么,平均片段数量为1000/4=250个。
b、获取第一有效片段组包含的有效长度数量,其中,包含的片段数量大于所述平均片段数量与调整因子乘积的片段长度为所述有效长度;
示例性的,调整因子的取值范围可以为0.9-1.5,优选的的取值为0.9。
例如,当调整因子为0.9时,平均片段数量与调整因子乘积为250*0.9=225,包含的片段数量大于225的片段长度有len=2(包含500个片段)和len=8(包含300个片段)。所以,有效长度数量为2。
c、若有效长度数量与片段长度总数的比值小于第一集中度阈值,则判断所述第一有效片段组的片段长度为集中分布。
示例性的,可以预先设置第一集中度阈值,第一集中度阈值的取值范围可以通过根据现阶段泛滥子域的集中程度特点进行确定,如果现阶段经常出现的泛滥子域的集中程度出现新的趋势,可对第一集中度阈值进行调整。其中现阶段泛滥子域的集中程度特点可通过统计的方式获取,此处不进行限定。
例如,第一集中度阈值可以取0.45-0.6,优选的可以取0.45。
当有效长度数量与片段长度总数的比值小于第一集中度阈值时,可以认为第一片段长度为集中分布。
例如,当第一集中度阈值取0.45,有效长度数量为2,片段长度总数为4,则2/4=0.5,大于0.45,不能判断第一片段长度为集中分布,当第一集中度阈值取0.6时,可以判断第一片段长度为集中分布。
优选的,当根据有效长度数量与片段长度总数的比值判断第一有效片段组的片段长度不为集中分布时,为了提高泛滥域名的识别程度,还可以结合第一有效片段组的命名信息辅助判断第一有效片段组的片段长度为集中分布,所以,还可以包括:
c、若所述有效长度数量与所述片段长度总数的比值不小于所述第一集中度阈值,则统计所述第一有效片段组包含分隔符的片段数量或者第一有效片段组的命名模式;
示例性的,分隔符的片段数量和命名模式的统计和应用同上所述,此处不再赘述。
d、若第一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者第一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述有效长度数量与所述片段长度总数的比值小于第二集中度阈值,则判断第一有效片段组的片段长度为集中分布。
示例性的,当有效长度数量与所述片段长度总数的比值小于第二集中度阈值,且第一片段至少满足包含分隔符的片段是普遍存在的、命名模式是统一的中的一种情况时,可以判断第一有效片段组的片段长度为集中分布。
第二集中度阈值可以预先设置,第二集中度阈值的取值范围可以通过根据现阶段泛滥子域的集中程度特点进行确定,例如,第二集中度阈值的取值范围可以为0.6-0.7,但是第二集中阈值应该大于第一集中阈值。例如,第一集中度阈值取0.6时,第二集中度阈值可以取0.7,优选的,第一集中度阈值取0.45时,第二集中度阈值可以取0.6。
优选的,为了提高识别的效率和可靠度,可以先根据第一级片段的有效片段组进行识别,然后将被识别为泛滥子域的子域名删除后再根据第二级片段的有效片段组进行识别,依次类推。
优选的,当子域名包含多级片段时,在利用上述方法根据每一个有效片段组均不能识别泛滥子域的情况下,为了提高识别程度,该方法还可以包括,
若判断具有相同主域名的子域名的每一有效片段组的片段长度均不为离散分布或集中分布,则将所述具有相同主域名的子域名的相邻的至少两级片断合并为一级片段;
示例性的,合并的步骤可以将片段间的“.”去除。去除“.”的步骤可以逐步加大,第一步去除一个“.”,然后尝试识别,如果还是不能识别,则加大为两个”.”,这样依次进行。
例如,对于下述域名:
www.ihazo.qh.gzszyl.go.cn
www.fidoo.edu.gzszyl.go.cn
www.npvny.hb.gzszyl.go.cn
www.tmtmk.ne.gzszyl.go.cn
将第二级片段和第***段合并后,变为:
www.ihazoqh.gzszyl.go.cn
www.fidooedu.gzszyl.go.cn
www.npvnyhb.gzszyl.go.cn
www.tmtmkne.gzszyl.go.cn
www.tlekafj.gzszyl.go.cn
则得到的新的一级片段为上述合并后域名的第二级片段。
根据所述合并后的一级片段组获取新的有效片段组,若判断所述新的有效片段组的片段长度为离散分布或集中分布,则将所述新的有效片段组对应的子域名识别为泛滥子域。
示例性的,可根据上述合并后域名的第二级片段获取新的有效片段组,根据新的有效片段组的片段长度分布进行泛滥子域的识别的原理和过程同上述方法,此处不再赘述。
优选的,在步骤S102之前,所述方法还包括:
判断所述任一有效片段组的数量是否大于预设阈值,若大于预设阈值,则进行泛滥子域的识别。
示例性的,因为泛滥子域一般是批量的产生,所以数目比较大,所以为了减化识别的过程,可以设置一预设阈值,当某一有效片段组的数量大于该预设阈值时,采利用上述方法进行泛滥子域的识别。预设阈值的取值范围可以根据现阶段泛滥域名的数量特点进行设置,现阶段泛滥域名的数量特点可以利用统计的方法获取,例如,预设阈值的取值范围可以为大于等于50,对于第一级片段的有效片段组,预设阈值可优选为500,对于第二级片段的有效片段组,预设阈值可优选为100。
优选的,步骤S102根据预先设定的豁免规则,将符合所述豁免规则的片段或者子域名过滤,不进行泛滥子域的识别。
示例性的,作为对重要子域名的保护,可以根据豁免规则可以根据实际需要进行设定,符合豁免规则的子域名,将不会被识别为泛滥域名。
例如,根据统计不同主域间的子域片段,将一些有含义的,或者是普遍存在的片段预存为豁免片段。例如“bbs”、“blog”、“www”等。
再例如,通过分析子域的质量,用户访问量,统计特别重要的子域名作为豁免子域。例如qzone.163.com、bbs.163.com等。
优选的,在步骤S102之后,还可以包括:将每一有效片段组对应的被识别的泛滥子域作为一个子域进行调度。
示例性的,因为泛滥子域的质量和内容差不多,所以可以将泛滥子域用一个虚拟子域进行调度,节约宽带资源。
例如,可以保留有效片段组的左侧域名部分和右侧域名部分,将有效片段用“*”表示。
如,cid-3c148c1cd8599f5e.profile.live.com
cid-fc56648fc658c405.profile.live.com
cid-f4bd27e168f86267.profile.live.com
等符合*.profile.live.com规则描述的子域名,可以虚拟为一个子域名:*.prifile.live.com。
本实施例提供的泛滥子域的识别方法,根据具有相同主域名的子域名的任一有效片段组的片段长度的离散度或者集中度来识别泛滥子域,若任一有效片段组的片段长度为离散分布或集中分布,则将该任一有效片段组对应的子域名识别为泛滥子域。提高了泛滥子域的识别程度,解决了现有技术单纯根据子域数量来判断是否为泛滥子域,只能解决最严重的泛滥子域,对泛滥子域的识别程度低的问题。
本发明另一实施例提供一种泛滥子域的识别***,应用于图1所示的方法,参见图2,该***包括:
获取单元201,用于获取具有相同主域名的子域名;
示例性的,获取单元201可以收集搜索引擎在网络上收录的所有子域名,子域名可以以列表形式表示,也可以以其它形式表示,收集的所有子域名按照主域名进行分类,可以分别统计不同主域名包含的子域名,每一个主域名包含的子域名分别作为泛滥域名识别的数据源。本实施例以针对一个主域名包含的子域名为例进行泛滥域名识别的说明,其他主域名包含的子域名的泛滥域名识别过程和原理相同。
判断单元202,用于判断所述获取单元201获取的所述具有相同主域名的子域名的任一有效片段组的片段长度是否为离散分布或集中分布,其中,所述有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同的片段集合;
示例性的,本实施例中有效片段组的含义同方法实施例,此处不再赘述。具有相同主域名的子域名可以包含多个有效片段组,本实施例以根据第一有效片段组的片段长度的离散度或集中度进行泛滥识别为例进行说明,根据其他有效片段组的片段长度的离散度或集中度进行泛滥识别额度原理和过程相同。
下面分两种情况进行说明。
第一种情况,
所述判断单元可以包括:
获取模块301,用于获取平均片段数量,其中,所述平均片段数量由所述任一有效片段组包含的片段总数量除以所述任一有效片段组包含的不同的片段长度总数得到;
示例性的,本实施例以第一有效片段组为例进行说明,假设第一有效片段组包含的片段总数量为1000;
每一个片段的片段长度是指每一个片段的包含的字符数,例如,
cid-3c148c1cd8599f5e.profile.live.com的第二级片段的片段长度是20;
www.thhhhshhh.live.com的第一级片段的片段长度是9;
www.live.com的第一级片段的片段长度是3;
第一有效片段组包含的不同的片段长度总数指第一有效片段组包含多少种片段长度;平均片段数量指第一有效片段组的总数量与第一有效片段组包含的不同的片段长度总数的比值。
本实施例以第一片段包含4种片段长度为例进行说明,假设四种片段长度分别为:
片段长度(len)=2,该片段长度包含的片段数量为500个,
len=3,该片段长度包含的片段数量为200个;
len=8,该片段长度包含的片段数量为250个;
len=11,该片段长度包含的片段数量为50个。
那么,平均片段数量为1000/4=250个。
第一判断模块302,用于在确定所述获取模块获取的所述平均片段数量小于第一离散度阈值后,判断所述任一有效片段组的片段长度为离散分布。
示例性的,***可以预先设置第一离散度阈值,第一离散度阈值的取值范围可以通过根据现阶段泛滥子域的离散程度特点进行确定,如果现阶段经常出现的泛滥子域的离散程度出现新的趋势,可对第一离散度阈值进行调整。其中现阶段泛滥子域的离散程度特点可通过统计的方式获取,此处不进行限定。
例如,第一离散度阈值可以取12-40,优选的可以取12。
当平均片段数量小于第一离散度阈值时,可以认为第一片段长度为离散分布。
例如,第一离散度阈值取40,当平均片段数量为250时,不能判断第一片段长度为离散分布,当平均片段数量为25时,可以判断第一片段长度为离散分布。
统计模块303,用于在所述第一判断模块302判断所述平均片段数量不小于所述第一离散度阈值后,统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
示例性的,当只根据第一有效片段组的平均片段数量判断第一有效片段组的片段长度不为离散分布时,为了提高泛滥域名的识别程度,还可以结合第一有效片段组的命名信息辅助判断第一有效片段组的片段长度为离散分布。
下面分别对统计第一有效片段组包含分隔符的片段数量和统计第一有效片段组的命名模式进行说明。
1)统计第一有效片段组包含分隔符的片段数量。
示例性的,分隔符可根据域名中允许出现的符号预先设定,例如,若域名中允许出现中划线“-”,则分隔符可以预先设置为“-”,第一有效片段组包含分隔符的片段数量即为包含分隔符“-”的片段的数量;若域名中可以出现“-”、“_”等符号,则分隔符可以预先设置为“-”、“_”等符号,第一有效片段组包含分隔符的片段数量即为包含分隔符“-”、“_”等符号的片段的数量和。
另外,可以预设分隔符阈值,以分析第一有效片段组包含分隔符的片段是否普遍存在,例如,预设分隔符阈值可以设置为60%,优选的,可以设置为80%。
例如,预设分隔符阈值设置为60%,当第一有效片段组包含分隔符的片段数量占第一有效片段组总量的60%以上时,可以认为第一有效片段组包含分隔符的片段是普遍存在的,当第一有效片段组包含分隔符的片段数量占第一有效片段组总量的不高于60%时,可以认为第一有效片段组包含分隔符的片段不是普遍存在的。
2)统计第一有效片段组的命名模式。
示例性的,可以预设命名模式,例如可以包含4种命名模式(全部是数字、全部是字母、全部是数字加字母、全部是子域加数字),当然根据域名命名规则的改变,预设的命名模式也可以进行更新,此处不进行限定。
示例性的,可以预设比例阈值,以判断第一片段的命名模式是否统一,例如,预设比例阈值可以设置为60%,优选的,可以设置为80%。
例如,预设比例阈值设置为60%,当第一有效片段组包含的任何一种模式的片段数量占第一有效片段组总量的60%以上时,可以认为第一有效片段组命名模式是统一的,当第一有效片段组包含的每一种模式的片段数量占第一有效片段组总量均小于60%时,可以认为第一有效片段组的命名模式是不统一的。
第二判断模块304,用于在确定所述统计模块统计的所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述第一判断模块确定所述平均片段数量小于第二离散度阈值后,判断所述任一有效片段组的片段长度为离散分布。
示例性的,***可以预先设置第二离散度阈值,第二离散度阈值的取值范围可以通过根据现阶段泛滥子域的离散程度特点进行确定,例如可以为15-50。但是第二离散阈值应该大于第一离散阈值。例如,第一离散度阈值取40时,第二离散度阈值可以取50,优选的,第一离散度阈值取12时,第二离散度阈值可以取15。
第二种情况,参见图4,
所述判断单元,包括:
第一获取模块401,用于获取平均片段数量,其中,所述平均片段数量由所述任一有效片段组包含的片段总数量除以所述任一有效片段组包含的不同的片段长度总数得到;
示例性的,此处仍以第一有效片段组为例进行说明,假设第一有效片段组的总数量为1000;假设第一片段包含4种片段长度,例如四种片段长度分别为:
片段长度(len)=2,该片段长度包含的片段数量为500个,
len=3,该片段长度包含的片段数量为200个;
len=8,该片段长度包含的片段数量为250个;
len=11,该片段长度包含的片段数量为50个。
那么,平均片段数量为1000/4=250个。
第二获取模块402,用于获取所述任一有效片段组包含的有效长度数量,其中,包含的片段数量大于所述平均片段数量与调整因子乘积的片段长度为所述有效长度;
示例性的,调整因子的取值范围可以为0.9-1.5,优选的的取值为0.9。
例如,当调整因子为0.9时,平均片段数量与调整因子乘积为250*0.9=225,包含的片段数量大于225的片段长度有len=2(包含500个片段)和len=8(包含300个片段)。所以,有效长度数量为2。
第一判断模块403,用于在确定所述第二获取模块获取的所述有效长度数量与所述片段长度总数的比值小于第一集中度阈值后,判断所述任一有效片段组的片段长度为集中分布。
示例性的,可以预先设置第一集中度阈值,第一集中度阈值的取值范围可以通过根据现阶段泛滥子域的集中程度特点进行确定,如果现阶段经常出现的泛滥子域的集中程度出现新的趋势,可对第一集中度阈值进行调整。其中现阶段泛滥子域的集中程度特点可通过统计的方式获取,此处不进行限定。
例如,第一集中度阈值可以取0.45-0.6,优选的可以取0.45。
当有效长度数量与片段长度总数的比值小于第一集中度阈值时,可以认为第一片段长度为集中分布。
例如,当第一集中度阈值取0.45,有效长度数量为2,片段长度总数为4,则2/4=0.5,大于0.45,不能判断第一片段长度为集中分布,当第一集中度阈值取0.6时,可以判断第一片段长度为集中分布。
统计模块404,用于在所述第一判断模块403确定所述有效长度数量与所述片段长度总数的比值不小于所述第一集中度阈值后,统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
示例性的,分隔符的片段数量和命名模式的统计和应用同第一种情况所述,此处不再赘述。
第二判断模块405,用于在确定所述统计模块404统计的所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述第一判断模块403确定所述有效长度数量与所述片段长度总数的比值小于第二集中度阈值后,判断所述任一有效片段组的片段长度为集中分布。
第二集中度阈值可以预先设置,第二集中度阈值的取值范围可以通过根据现阶段泛滥子域的集中程度特点进行确定,例如,第二集中度阈值的取值范围可以为0.6-0.7,但是第二集中阈值应该大于第一集中阈值。例如,第一集中度阈值取0.6时,第二集中度阈值可以取0.7,优选的,第一集中度阈值取0.45时,第二集中度阈值可以取0.6。
识别单元203,用于在所述判断单元202判断所述任一有效片段组的片段长度为离散分布或集中分布后,将所述任一有效片段组对应的子域名识别为泛滥子域。
优选的,为了提高识别的效率和可靠度,判断单元202与识别单元203可以先根据第一级片段的有效片段组进行识别,然后将被识别为泛滥子域的子域名删除后再根据第二级片段的有效片段组进行识别,依次类推。
进一步的,参见图5,
所述***还包括:
合并单元204,用于在所述判断单元202判断所述具有相同主域名的子域名的每一有效片段组的片段长度均不为离散分布或集中分布后,将所述具有相同主域名的子域名的相邻的至少两级片断合并成一级片段;
示例性的,合并的步骤可以将片段间的“.”去除。去除“.”的步骤可以逐步加大,第一步去除一个“.”,然后尝试识别,如果还是不能识别,则加大为两个”.”,这样依次进行。
例如,对于下述域名:
www.ihazo.qh.gzszyl.go.cn
www.fidoo.edu.gzszyl.go.cn
www.npvny.hb.gzszyl.go.cn
www.tmtmk.ne.gzszyl.go.cn
将第二级片段和第***段合并后,变为:
www.ihazoqh.gzszyl.go.cn
www.fidooedu.gzszyl.go.cn
www.npvnyhb.gzszyl.go.cn
www.tmtmkne.gzszyl.go.cn
则得到的新的一级片段为上述合并后域名的第二级片段。
相应的,所述判断单元202还用于,根据所述合并后的一级片段获取新的有效片段组,判断所述新的有效片段组的片段长度是否为离散分布或集中分布;
所述识别单元203还用于,在所述判断单元判断所述新的有效片段组的片段长度为离散分布或集中分布后,将所述新的有效片段组对应的子域名识别为泛滥子域。
比较单元205,用于比较所述任一有效片段组的数量是否大于预设阈值,以便于所述判断单元202和识别单元203在所述比较单元205确定所述任一有效片段组的数量大于预设阈值后,进行泛滥子域的识别。
示例性的,因为泛滥子域一般是批量的产生,所以数目比较大,所以为了减化识别的过程,***可以设置一预设阈值,当某一有效片段组的数量大于该预设阈值时,再进行泛滥子域的识别。预设阈值的取值范围可以根据现阶段泛滥域名的数量特点进行设置,现阶段泛滥域名的数量特点可以利用统计的方法获取,例如,预设阈值的取值范围可以为大于等于50,对于第一级片段的有效片段组,预设阈值可优选为500,对于第二级片段的有效片段组,预设阈值可优选为100。
过滤单元206,用于根据预先设定的豁免规则,将符合所述豁免规则的片段或者子域名过滤,以便于所述判断单元202和识别单元203不针对符合所述豁免规则的片段或者子域名进行泛滥子域的识别。
示例性的,作为对重要子域名的保护,可以根据豁免规则可以根据实际需要进行设定,符合豁免规则的子域名,将不会被识别为泛滥域名。
例如,根据统计不同主域间的子域片段,将一些有含义的,或者是普遍存在的片段预存为豁免片段。例如“bbs”、“blog”、“www”等。
再例如,通过分析子域的质量,用户访问量,统计特别重要的子域名作为豁免子域。例如qzone.163.com、bbs.163.com等。
更新周期设置单元207,用于设置更新周期,相应的,
所述获取单元201还用于:根据所述更新周期设置单元207设置的更新周期,在每个更新周期内获取具有相同主域名的子域名;
所述判断单元202还用于:根据所述更新周期设置单元207设置的更新周期,在每个更新周期内若判断所述具有相同主域名的子域名的任一有效片段组的片段长度是否为离散分布或集中分布;
所述识别单元203还用于:根据所述更新周期设置单元207设置的更新周期,在每个更新周期内,在所述判断单元202判断所述任一有效片段组的片段长度为离散分布或集中分布后,将所述任一有效片段组对应的子域名识别为泛滥子域。
调度单元208,用于将所述识别单元203识别的每一有效片段组对应的泛滥子域作为一个子域进行调度。
示例性的,因为泛滥子域的质量和内容差不多,所以可以将泛滥子域用一个虚拟子域进行调度,节约宽带资源。
例如,可以保留有效片段组的左侧域名部分和右侧域名部分,将有效片段用“*”表示。
如,cid-3c148c1cd8599f5e.profile.live.com,
cid-fc56648fc658c405.profile.live.com,
cid-f4bd27e168f86267.profile.live.com,
等符合*.profile.live.com规则描述的子域名,可以虚拟为一个子域名:*.prifile.live.com。
本实施例提供的泛滥子域的识别***,通过判断具有相同主域名的子域名的任一有效片段组的片段长度的离散度或者集中度来识别泛滥子域,若任一有效片段组的片段长度为离散分布或集中分布,则将该任一有效片段组对应的子域名识别为泛滥子域。提高了泛滥子域的识别程度,解决了现有技术单纯根据子域数量来判断是否为泛滥子域,只能解决最严重的泛滥子域,对泛滥子域的识别程度低的问题。
本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种泛滥子域的识别方法,其特征在于,包括:
获取具有相同主域名的子域名;
若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域,其中,所述有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同的片段集合,具有相同主域名的子域名包含多个有效片段组,所述有效片段组中每一个片段的片段长度是指每一个片段包含的字符数;
其中,所述判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布,包括:
获取平均片段数量,其中,所述平均片段数量由所述任一有效片段组包含的片段总数量除以所述任一有效片段组包含的不同的片段长度总数得到;若所述平均片段数量小于第一离散度阈值,则判断所述任一有效片段组的片段长度为离散分布;
所述判断所述具有相同主域名的子域名的任一有效片段组的片段长度为集中分布,包括:
获取所述任一有效片段组包含的有效长度数量,其中,包含的片段数量大于所述平均片段数量与调整因子乘积的片段长度为所述有效长度;若所述有效长度数量与所述片段长度总数的比值小于第一集中度阈值,则判断所述任一有效片段组的片段长度为集中分布。
2.根据权利要求1所述的泛滥子域的识别方法,其特征在于,
当所述同一级片段不是所述具有相同主域名的子域名的最高一级片段时,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同包括:所述同一级片段的左侧域名部分和右侧域名部分分别相同;
当所述同一级片段是所述具有相同主域名的子域名的最高一级片段时,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同包括:所述同一级片段右侧域名部分分别相同。
3.根据权利要求1所述的泛滥子域的识别方法,其特征在于,所述判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布,还包括:
若所述平均片段数量不小于所述第一离散度阈值,则统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
若所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述平均片段数量小于第二离散度阈值,则判断所述任一有效片段组的片段长度为离散分布。
4.根据权利要求1所述的泛滥子域的识别方法,其特征在于,所述判断所述具有相同主域名的子域名的任一有效片段组的片段长度为集中分布,还包括:
若所述有效长度数量与所述片段长度总数的比值不小于所述第一集中度阈值,则统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
若所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述有效长度数量与所述片段长度总数的比值小于第二集中度阈值,则判断所述任一有效片段组的片段长度为集中分布。
5.根据权利要求1-4任一项所述的泛滥子域的识别方法,其特征在于,所述方法还包括:
若判断所述具有相同主域名的子域名的每一个有效片段组的片段长度均不为离散分布或集中分布,且所述具有相同主域名的子域名具有至少两级片段时,则将所述具有相同主域名的子域名的相邻的至少两级片断合并为一级片段;
根据所述合并后的一级片段组获取新的有效片段组,若判断所述新的有效片段组的片段长度为离散分布或集中分布,则将所述新的有效片段组对应的子域名识别为泛滥子域。
6.根据权利要求5所述的泛滥子域的识别方法,其特征在于,在若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域之前,所述方法还包括:
根据预先设定的豁免规则,将符合所述豁免规则的片段或者子域名过滤,不进行泛滥子域的识别。
7.根据权利要求6所述的泛滥子域的识别方法,其特征在于,所述方法还包括,设置更新周期;
所述获取具有相同主域名的子域名,包括:根据所述设置的更新周期,在每个更新周期内获取具有相同主域名的子域名;
所述若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域,包括:根据所述设置的更新周期,在每个更新周期内若判断所述具有相同主域名的子域名的任一有效片段组的片段长度为离散分布或集中分布,则将所述任一有效片段组对应的子域名识别为泛滥子域。
8.一种泛滥子域的识别***,其特征在于,包括:
获取单元,用于获取具有相同主域名的子域名;
判断单元,用于判断所述获取单元获取的所述具有相同主域名的子域名的任一有效片段组的片段长度是否为离散分布或集中分布,其中,所述有效片段组为:在所述具有相同主域名的子域名的同一级片段中,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同的片段集合,具有相同主域名的子域名包含多个有效片段组,所述有效片段组中每一个片段的片段长度是指每一个片段包含的字符数;
识别单元,用于在所述判断单元判断所述任一有效片段组的片段长度为离散分布或集中分布后,将所述任一有效片段组对应的子域名识别为泛滥子域;
其中,所述判断单元包括:
第一获取模块,用于获取平均片段数量,其中,所述平均片段数量由所述任一有效片段组包含的片段总数量除以所述任一有效片段组包含的不同的片段长度总数得到;
第一判断模块,用于在确定所述获取模块获取的所述平均片段数量小于第一离散度阈值后,判断所述任一有效片段组的片段长度为离散分布;
第二获取模块,用于获取所述任一有效片段组包含的有效长度数量,其中,包含的片段数量大于所述平均片段数量与调整因子乘积的片段长度为所述有效长度;
所述第一判断模块还用于,在确定所述第二获取模块获取的所述有效长度数量与所述片段长度总数的比值小于第一集中度阈值后,判断所述任一有效片段组的片段长度为集中分布。
9.根据权利要求8所述的泛滥子域的识别***,其特征在于,
当所述同一级片段不是所述具有相同主域名的子域名的最高一级片段时,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同包括:所述同一级片段的左侧域名部分和右侧域名部分分别相同;
当所述同一级片段是所述具有相同主域名的子域名的最高一级片段时,所述同一级片段的左侧域名部分和/或右侧域名部分分别相同包括:所述同一级片段右侧域名部分分别相同。
10.根据权利要求8所述的泛滥子域的识别***,其特征在于,所述判断单元,还包括:
统计模块,用于在所述第一判断模块判断所述平均片段数量不小于所述第一离散度阈值后,统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
第二判断模块,用于在确定所述统计模块统计的所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述第一判断模块确定所述平均片段数量小于第二离散度阈值后,判断所述任一有效片段组的片段长度为离散分布。
11.根据权利要求8所述的泛滥子域的识别***,其特征在于,所述判断单元,还包括:
统计模块,用于在所述第一判断模块确定所述有效长度数量与所述片段长度总数的比值不小于所述第一集中度阈值后,统计所述任一有效片段组包含分隔符的片段数量或者所述任一有效片段组的命名模式;
第二判断模块,用于在确定所述统计模块统计的所述任一有效片段组包含分隔符的片段数量大于预设分隔符阈值或者所述任一有效片段组的任意一种命名模式的比例大于预设比例阈值,且所述第一判断模块确定所述有效长度数量与所述片段长度总数的比值小于第二集中度阈值后,判断所述任一有效片段组的片段长度为集中分布。
12.根据权利要求11所述的泛滥子域的识别***,其特征在于,所述***还包括:
合并单元,用于在所述判断单元判断所述具有相同主域名的子域名的每一有效片段组的片段长度均不为离散分布或集中分布,且所述具有相同主域名的子域名具有至少两级片段后,将所述具有相同主域名的子域名的相邻的至少两级片断合并成一级片段;
所述判断单元还用于,根据所述合并后的一级片段获取新的有效片段组,判断所述新的有效片段组的片段长度是否为离散分布或集中分布;
所述识别单元还用于,在所述判断单元判断所述新的有效片段组的片段长度为离散分布或集中分布后,将所述新的有效片段组对应的子域名识别为泛滥子域。
13.根据权利要求12所述的泛滥子域的识别***,其特征在于,所述***还包括:
过滤单元,用于根据预先设定的豁免规则,将符合所述豁免规则的片段或者子域名过滤,以便于所述判断单元和识别单元不针对符合所述豁免规则的片段或者子域名进行泛滥子域的识别。
14.根据权利要求13所述的泛滥子域的识别***,其特征在于,所述***还包括,更新周期设置单元,用于设置更新周期;
所述获取单元还用于:根据所述更新周期设置单元设置的更新周期,在每个更新周期内获取具有相同主域名的子域名;
所述判断单元还用于:根据所述更新周期设置单元设置的更新周期,在每个更新周期内若判断所述具有相同主域名的子域名的任一有效片段组的片段长度是否为离散分布或集中分布;
所述识别单元还用于:根据所述更新周期设置单元设置的更新周期,在每个更新周期内,在所述判断单元判断所述任一有效片段组的片段长度为离散分布或集中分布后,将所述任一有效片段组对应的子域名识别为泛滥子域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210256109.2A CN103581347B (zh) | 2012-07-23 | 2012-07-23 | 泛滥子域的识别方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210256109.2A CN103581347B (zh) | 2012-07-23 | 2012-07-23 | 泛滥子域的识别方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103581347A CN103581347A (zh) | 2014-02-12 |
CN103581347B true CN103581347B (zh) | 2019-03-26 |
Family
ID=50052255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210256109.2A Active CN103581347B (zh) | 2012-07-23 | 2012-07-23 | 泛滥子域的识别方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103581347B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108933846B (zh) * | 2018-06-21 | 2021-08-27 | 北京谷安天下科技有限公司 | 一种泛解析域名的识别方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101650715A (zh) * | 2008-08-12 | 2010-02-17 | 厦门市美亚柏科信息股份有限公司 | 一种筛选网页上链接的方法和装置 |
CN102158427A (zh) * | 2011-03-23 | 2011-08-17 | 陈伟强 | 一种邮件地址结构和邮件收发*** |
CN102523311A (zh) * | 2011-11-25 | 2012-06-27 | 中国科学院计算机网络信息中心 | 非法域名识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101702660B (zh) * | 2009-11-12 | 2011-12-14 | 中国科学院计算技术研究所 | 异常域名检测方法及*** |
-
2012
- 2012-07-23 CN CN201210256109.2A patent/CN103581347B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101650715A (zh) * | 2008-08-12 | 2010-02-17 | 厦门市美亚柏科信息股份有限公司 | 一种筛选网页上链接的方法和装置 |
CN102158427A (zh) * | 2011-03-23 | 2011-08-17 | 陈伟强 | 一种邮件地址结构和邮件收发*** |
CN102523311A (zh) * | 2011-11-25 | 2012-06-27 | 中国科学院计算机网络信息中心 | 非法域名识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103581347A (zh) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6742518B2 (ja) | バスルート推薦方法、装置、デバイス及びコンピュータ記憶媒体 | |
CN104462121B (zh) | 数据处理方法、装置及*** | |
CN109145934A (zh) | 基于日志的用户行为数据处理方法、介质、设备及装置 | |
CN105741134A (zh) | 跨数据源的营销人群在市场营销中应用的方法及装置 | |
CN106301980B (zh) | 一种刷量工具检测方法和装置 | |
CN102929961A (zh) | 基于构建快速数据分级通道的数据处理方法及其装置 | |
CN108038130A (zh) | 虚假用户的自动清理方法、装置、设备及存储介质 | |
CN106779608B (zh) | 一种基于微信平台的信息处理方法及信息处理*** | |
CN110033302A (zh) | 恶意账户识别方法及装置 | |
CN106372977B (zh) | 一种虚拟账户的处理方法和设备 | |
CN106445690A (zh) | 虚拟机资源的动态调配方法及装置 | |
CN111045808A (zh) | 一种分布式网络任务调度方法及装置 | |
CN107766446A (zh) | 资讯信息的推送方法、装置、存储介质及处理器 | |
CN106649363A (zh) | 数据查询方法及装置 | |
CN109658129A (zh) | 一种用户画像的生成方法及装置 | |
CN111340380A (zh) | 客户资源分配方法、装置以及存储介质 | |
CN103581347B (zh) | 泛滥子域的识别方法和*** | |
CN111291018B (zh) | 数据管理方法、装置、设备及存储介质 | |
CN105718524A (zh) | 确定视频正本的方法和装置 | |
CN104809109A (zh) | 一种社交信息展示方法、装置及服务器 | |
EP2616963A1 (en) | Method and arrangement for segmentation of telecommunication customers | |
CN114443246B (zh) | 智能调度方法、装置、设备及计算机可读存储介质 | |
CN106933934A (zh) | 数据表的连接方法和装置 | |
CN106708880A (zh) | 话题关联词的获取方法和装置 | |
CN112788768A (zh) | 一种通信资源分配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |