CN113157997A - 域名特征的提取方法和特征提取装置 - Google Patents

域名特征的提取方法和特征提取装置 Download PDF

Info

Publication number
CN113157997A
CN113157997A CN202010077051.XA CN202010077051A CN113157997A CN 113157997 A CN113157997 A CN 113157997A CN 202010077051 A CN202010077051 A CN 202010077051A CN 113157997 A CN113157997 A CN 113157997A
Authority
CN
China
Prior art keywords
domain name
common
application domain
application
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010077051.XA
Other languages
English (en)
Inventor
曹自刚
赵咏
翟祥志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010077051.XA priority Critical patent/CN113157997A/zh
Publication of CN113157997A publication Critical patent/CN113157997A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种域名特征的提取方法和特征提取装置。用于提高特征提取装置提取的应用域名特征与目标应用的相关性。本申请实施例方法包括:特征提取装置从目标应用的待分析流量中获取至少一个应用域名;所述特征提取装置根据所述至少一个应用域名生成至少一个应用域名集合,第一公共字段和第二公共字段与所述至少一个应用域名集合中的第一应用域名集合对应,所述第一公共字段至少包括一个所述用点号分隔出的字符或字符串,所述第二公共字段至少包括一个所述用点号分隔出的字符或字符串;所述特征提取装置分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征。

Description

域名特征的提取方法和特征提取装置
技术领域
本申请实施例涉及通信技术领域,尤其涉及一种域名特征的提取方法和特征提取装置。
背景技术
流量特征提取技术是业务感知、流量分类、应用识别、流量识别的基础技术之一。流量特征提取是指特征提取装置对流量进行分析,提取有代表性、区分度高的流量特征集合。
目前,特征提取装置首先在运行应用的主机上,通过抓包软件获取应用相关进程生成的流量,其中应用相关进程是指应用运行后创建的进程;然后,该特征装置从流量提取多个报文,并获取多个报文的第一字段中重复性最高的内容和第二字段中重复性最高的内容,再将提取到的内容作为该应用对应的流量特征。
但是,由上述方案中,特征提取装置将该应用对应的流量中第一字段中重复性较高的内容和第二字段中重复性较高的内容作为该应用对应的流量特征。但是,对于应用域名层级较多的应用,则难以抽取到该应用对应的流量特征,导致特征提取装置提取到的流量特征相关性较低。例如,123.v.qq.com,film.qq.com,video.qq.com等分别代表腾讯公司的多种应用对应的域名,如果特征提取装置提取重复性较高的内容,则特征提取装置提取到的应用域名特征为qq.com,即无法提取到更为具体的腾讯应用对应的域名特征。
发明内容
本申请实施例提供了一种域名特征的提取方法和特征提取装置,用于提高特征提取装置提取的应用域名特征与目标应用的相关性。
第一方面,提供了一种域名特征的提取方法,该方法中所述特征提取装置从目标应用的待分析流量中获取至少一个应用域名。所述特征提取装置根据所述至少一个应用域名生成至少一个应用域名集合,归属于同一个所述应用域名集合的至少两个应用域名之间具有至少两个相同的用点号分隔出的字符或字符串。第一公共字段和第二公共字段与所述至少一个应用域名集合中的第一应用域名集合对应。所述第一应用域名集合中包括所述第一公共字段的应用域名的数量与所述第一应用域名集合所包括的应用域名的总数量的比值大于第一预设阈值。所述第一应用域名集合中包括所述第二公共字段的应用域名数量与所述第一应用域名集合所包括的应用域名的总数量大于第二预设阈值。所述第一公共字段至少包括一个所述用点号分隔出的字符或字符串。所述第二公共字段至少包括一个所述用点号分隔出的字符或字符串。所述特征提取装置分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征。
本申请实施例中,该至少一个应用域名集合中的第一应用域名集合对应第一公共字段和第二公共字段。那么特征提取装置从该第一应用域名集合提取的应用域名特征包括至少两个公共字段。因此,应用域名特征的提取粒度较小,特征提取装置提取到的应用域名特征与目标应用的相关性较高。例如,针对腾讯视频这一目标应用,通过本申请实施例的技术方案中从123.v.qq.com,film.qq.com,video.qq.com提取到video.qq.com,从而获取到与腾讯视频更为相关的应用域名特征。
在第一方面的一种可能的实现方式中,所述第一公共字段或所述第二公共字段的特征类型包括以下任一种特征类型。第一种特征类型是所述第一应用域名集合中的应用域名的前缀。第二种特征类型是所述第一应用域名集合中的应用域名的后缀,所述后缀至少包括所述每个应用域名的二级域名。第三种特征类型是所述第一应用域名集合中的应用域名的子串。第四种特征类型是所述第一应用域名集合中的应用域名的目标级域名字段。
在该可能的实现方式中,提供了第一公共字段和第二公共字段的多种可能的特征类型的形式。在实际应用中,提升了方案的可实现性和多样性。
在第一方面的一种可能的实现方式中,所述至少一个应用域名集合中还包括第二应用域名集合时,第三公共字段和第四公共字段与所述第二应用域名集合对应。所述第二应用域名集合中包括所述第三公共字段的应用域名的数量与所述第二应用域名集合所包括的应用域名的总数量的比值大于第三预设阈值。所述第二应用域名集合中包括所述第四公共字段的应用域名的数量与所述第二应用域名集合所包括的应用域名的总数量的比值大于第四预设阈值。所述第一应用域名集合对应的至少两个公共字段与所述第二应用域名集合对应的至少两个公共字段之间部分或全部不同。
在该可能的实现方式中,该至少一个应用域名集合包括至少两个应用域名集合。该至少一个应用域名集合中每个应用域名集合都具有至少两个公共字段,且不同的应用域名集合之间所具有的至少两个公共字段之间部分或全部不同。这样,特征提取装置可以分别从该至少一个应用域名集合中的每个应用域名集合提取至少两个公共字段作为目标应用的应用域名特征。特征提取装置提取应用域名特征的提取粒度较小,特征提取装置提取到的应用域名特征与目标应用的相关性较高。
在第一方面的一种可能的实现方式中,所述特征提取装置采用以下方式提取待分析流量的第一应用域名特征。所述特征提取装置对所述第一应用域名集合执行操作:所述特征提取装置根据公共前缀算法、公共后缀算法和公共子串算法中的任一种或任多种算法确定所述第一应用域名集合对应的至少两个公共字段。所述特征提取装置确定所述第一公共域名特征包括所述第一应用域名集合对应的至少两个公共字段。所述至少两个公共字段中的每个公共字段包括至少一个所述用点号分隔的字符或字符串。所述特征提取装置将所述第一公共域名特征作为所述待分析流量的第一应用域名特征。
在该可能的实现方式中,为了提高特征提取装置提取到的应用域名特征与目标应用的相关性,特征提取装置从该至少一个应用域名集合中的每个应用域名集合提取该待分析流量的第一应用域名特征。该第一应用域名特征包括至少两个公共字段。由此可知,特征提取装置提取应用域名特征的提取粒度较小,特征提取装置提取到的应用域名特征与目标应用的相关性较高。
在第一方面的一种可能的实现方式中,特征提取装置使用的算法提取到的第一公共域名特征的形式包括以下任一种形式。第一种形式是所述第一公共域名特征是根据所述公共前缀算法确定得到时,所述第一公共域名特征的形式包括第一公共前缀。所述第一公共前缀包括至少两个公共字段。第二种形式是所述第一公共域名特征是根据所述公共后缀算法确定得到时,所述第一公共域名特征的形式包括第一公共后缀。所述第一公共后缀包括至少两个公共字段。第三种形式是所述第一公共域名特征是根据所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第一公共子串。所述第一公共子串包括至少两个公共字段。第四种形式是所述第一公共域名特征是根据所述公共前缀算法和所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第二公共前缀加上第二公共子串。所述第二公共前缀包括至少一个公共字段,所述第二公共子串包括至少一个公共字段。第五种形式是所述第一公共域名特征是根据所述公共后缀算法和所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第三公共子串加上第二公共后缀。所述第三公共子串包括至少一个公共字段。所述第二公共后缀包括至少一个公共字段。第六种形式是所述第一公共域名特征是根据所述公共前缀算法和所述公共后缀算法确定得到时,所述第一公共域名特征的形式包括第三公共前缀加上第三公共后缀。所述第三公共前缀包括至少一个公共字段。所述第三公共后缀包括至少一个公共字段。第七种形式是所述第一公共域名特征是根据所述公共前缀算法、公共后缀算法和所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第四公共前缀加上第四公共子串加上第四公共后缀。所述第四公共前缀包括至少一个公共字段。所述第四公共子串包括至少一个公共字段。所述第四公共后缀包括至少一个公共字段。
在该可能的实现方式中,示出了特征提取装置通过不同算法提取到的第一应用域名特征的形式,提升了方案的可实现性和多样性。
在第一方面的一种可能的实现方式中,所述特征提取装置采用以下方式提取待分析流量的第一应用域名特征。所述特征提取装置确定第二公共域名特征。所述第二公共域名特征满足以下条件:所述第二公共域名特征是所述第一应用域名集合和所述第二应用域名集合之间具有的至少两个相同的公共字段。所述至少两个相同的公共字段中的每个公共字段包括至少一个用点号分隔出的字符或字符串。所述特征提取装置提取所述第二公共域名特征作为所述待分析流量的第一应用域名特征。
在该可能的实现方式中,为了提高特征提取装置提取到的应用域名特征与目标应用的相关性,特征提取装置从该至少一个应用域名集合中的每个应用域名集合提取该待分析流量的第一应用域名特征。针对该至少一个应用域名集合包括至少两个应用域名集合时,特征提取装置从至少两个应用域名集合提取该至少两个应用域名集合都具有的至少两个相同的公共字段作为该待分析流量的第一应用域名特征。从而使得特征提取装置提取的该待分析流量的第一应用域名特征更具有代表性和区分度。并且,特征提取装置提取应用域名特征的提取粒度较小,特征提取装置提取到的应用域名特征与目标应用的相关性较高。
在第一方面的一种可能的实现方式中,所述至少两个相同的公共字段包括第五公共字段和第六公共字段。所述第一应用域名集合中包括所述第五公共字段的应用域名的数量占所述第一应用域名集合所包括的应用域名的总数量的比值大于第五预设阈值。所述第一应用域名集合中包括所述第六公共字段的应用域名的数量占所述第一应用域名集合所包括的应用域名的总数量的比值大于第六预设阈值。所述第二应用域名集合中包括所述第五公共字段的应用域名的数量占所述第二应用域名集合所包括的应用域名的总数量大于第七预设阈值。所述第二应用域名集合中包括所述第六公共字段的应用域名的数量占所述第二应用域名集合所包括的应用域名的总数量大于第八预设阈值。
在该可能的实现方式中,第一应用域名集合中出现该至少两个相同的公共字段所包含的公共字段的频繁度应当分别大于对应的预设阈值。第二应用域名集合中出现该至少两个相同的公共字段所包含的公共字段的频繁度应当分别大于对应的预设阈值。在本申请实施例中,频繁率应当理解为该应用域名集合包含有该公共字段的应用域名的数量与该应用域名集合包括的应用域名的总数量的比值。从而使得特征提取装置提取的该待分析流量的第一应用域名特征更具有代表性和区分度,以提高特征提取装置提取的应用域名特征的准确性和相关性。
在第一方面的一种可能的实现方式中,所述特征提取装置采用以下方式提取待分析流量的第一应用域名特征。所述特征提取装置根据公共前缀算法、公共后缀算法和公共子串算法中的任一种或任多种算法确定所述第一应用域名集合对应的至少两个公共字段,将确定的至少两个公共字段作为第一公共域名特征。所述第一应用域名集合对应的至少两个公共字段中的每个公共字段包括至少一个用点号分隔的字符或字符串。所述特征提取装置根据所述公共前缀算法、所述公共后缀算法和所述公共子串算法中的任一种或任多种算法确定所述第二应用域名集合对应的至少两个公共字段,将确定的至少两个公共字段作为第三公共域名特征。所述第二应用域名集合对应的至少两个公共字段中的每个公共字段包括至少一个用点号分隔的字符或字符串。所述特征提取装置将所述第一公共域名特征和所述第三公共域名特征作为所述待分析流量的第一应用域名特征。
在该可能的实现方式中,特征提取装置将第一公共域名特征和第三公共域名特征作为该待分析流量的第一应用域名特征。该第一公共域名特征包括至少两个公共字段。该第三公共域名特征包括至少两个公共字段。由此可知,特征提取装置提取应用域名特征的提取粒度较小,特征提取装置提取到的应用域名特征与目标应用的相关性较高。
在第一方面的一种可能的实现方式中,所述第一公共域名特征与所述第三公共域名特征之间存在重叠的第四公共域名特征。所述特征提取装置从所述第一公共域名特征中排除第四公共域名特征,得到第五公共域名特征。所述特征提取装置将所述第三公共域名特征和所述第五公共域名特征作为所述待分析流量的第二应用域名特征。
在该可能的实现方式中,特征提取装置可以从第一公共域名特征中排除第一公共域名特征与第三公共域名特征之间存在重叠的第四公共域名特征。从而使得特征提取装置提取的该待分析流量的第二应用域名特征更具有代表性和区分度,以提高特征提取装置提取的应用域名特征的准确性和相关性。
在第一方面的一种可能的实现方式中,在所述特征提取装置分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征之前,所述特征提取装置根据所述目标应用的应用名称或者所述目标应用的应用类别生成所述目标应用的关键词集合。那么,所述特征提取装置采用以下方式提取第一应用域名特征。所述特征提取装置根据关键词集合分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征。
在该可能的实现方式中,特征提取装置通过该目标应用的名称或目标应用的应用类别生成与该目标应用相关的关键集合,再结合该关键词集合分别从该至少一个应用域名集合中的每个应用域名集合提取第一应用域名特征。从而使得特征提取装置有效地提取待分析流量的核心应用域名特征,提高特征提取装置提取的应用域名特征与目标应用的相关性和准确性。
在第一方面的一种可能的实现方式中,所述关键词集合包括第一关键词。特征提取装置根据所述关键词集合分别从所述至少一个应用域名集合中的每个应用域名集合提取所述待分析流量的第一应用域名特征可以采用以下方式。所述特征提取装置确定所述第一关键词在所述至少一个应用域名集合所包括的第一应用域名中存在。所述特征提取装置将所述第一关键词加上所述第一应用域名的后缀作为所述待分析流量的第一应用域名特征。
在该可能的实现方式中,提供了特征提取装置根据关键词集合从所述至少一个应用域名集合中的每个应用域名集合提取所述待分析流量的第一应用域名特征的具体提取方式。
在第一方面的一种可能的实现方式中,特征提取装置生成目标应用的应用域名的关键词集合采用以下任一种方式。第一种方式是所述特征提取装置生成与所述应用名称关联的所述关键词集合。第二种方式是所述特征提取装置根据所述应用名称所对应的多语言译文生成关键词集合。第三种方式是所述特征提取装置生成与所述目标应用的应用类别关联的关键词集合。
在该可能的实现方式中,提供了特征提取装置生成关键词集合的多种实现方式,提高了方案的可实现性和多样性。
在第一方面的一种可能的实现方式中,所述第一应用域名特征包括多个不同特征类型的应用域名特征,所述特征类型包括前缀、后缀、子串、前缀加上后缀、前缀加上子串、子串加上子串、子串加上后缀以及前缀加上子串加上后缀。每个特征类型分别对应一个优先级。所述特征提取装置按照预设的特征类型优先级从高到低的顺序,从所述多个不同特征类型的应用域名特征中选择应用域名特征作为所述待分析流量的第三应用域名特征。
在该可能的实现方式中,特征提取装置可以根据预设的特征类型优先级从多个不同特征类型的应用域名特征选择第三应用域名特征。从而使得特征提取装置提取的该待分析流量的第三应用域名特征更具有代表性和区分度,以提高特征提取装置提取的应用域名特征的准确性和相关性。
在第一方面的一种可能的实现方式中,在所述特征提取装置按照预设的特征类型优先级从高到低的顺序,从所述多个不同特征类型的应用域名特征中选择应用域名特征作为所述待分析流量的第三应用域名特征之后,所述特征提取装置输出所述至少一个应用域名中包括的所述第三应用域名特征所对应的应用域名的数量、所述待分析流量中包括的与所述第三应用域名特征对应的流量的五元组个数和所述第三应用域名特征所对应的域名的流量的字节数。
在该可能的实现方式中,特征提取装置输出第三应用域名特征的相关信息。这样用户可以结合第三应用域名特征所对应的流量的字节数和第三应用域名所对应的流量的五元组评估该第三应用域名特征与目标应用的相关性。
在第一方面的一种可能的实现方式中,在所述特征提取装置从目标应用的待分析流量中获取至少一个应用域名之前,所述特征提取装置获取用户提交的所述待分析流量的流量分析任务。所述流量分析任务携带所述待分析流量和所述目标应用的应用名称。
在该可能的实现方式中,提供了特征提取装置从目标应用的待分析流量中获取至少一个应用域名的一个具体的应用场景。
在第一方面的一种可能的实现方式中,在所述特征提取装置从目标应用的待分析流量中获取至少一个应用域名之前,所述特征提取装置获取用户提交的应用流量自动测试任务,所述应用流量自动测试任务携带所述目标应用的应用名称。所述特征提取装置根据所述应用流量自动测试任务下载所述目标应用;所述特征提取装置通过运行所述目标应用抓取所述待分析流量。
在该可能的实现方式中,提供了特征提取装置从目标应用的待分析流量中获取至少一个应用域名的另一个具体的应用场景。
在第一方面的一种可能的实现方式中,在所述特征提取装置根据所述目标应用的应用名称或者所述目标应用的应用类别生成所述目标应用的应用域名的关键词集合之前,所述特征提取装置通过以下任一种方式获取该目标应用的应用名称或该目标应用的应用类别。第一种方式是所述特征提取装置根据所述至少一个应用域名获取所述目标应用的应用名称或者所述目标应用的应用类别。第二种方式所述特征提取装置根据所述待分析流量的地址信息获取所述目标应用的应用名称或者所述目标应用的应用类别。
在该可能的实现方式中,提供了在无人工参与的情况下,提供了特征提取装置获取目标应用的应用名称或者目标应用的应用类别的两种可能的实现方式。
在第一方面的一种可能的实现方式中,在所述特征提取装置从目标应用的待分析流量中获取至少一个应用域名之前,特征提取装置通过以下任一种方式获取待分析流量。第一种方式是所述特征提取装置按照预设时间片的时长对所述特征提取装置接收到的第一流量进行划分,得到所述待分析流量。第二种方式是所述特征提取装置根据所述预设时间片的时长和所述第一流量的地址信息对所述第一流量进行划分,得到所述待分析流量。
在该可能的实现方式中,本申请实施例提供了对第一流量进行划分处理的具体方式,以支持特征提取装置持续接收输入的流量的应用场景。
第二方面,提供了一种特征提取装置。该特征提取装置包括网络接口、存储器和与所述存储器连接的处理器。所述存储器用于存储指令;所述处理器用于执行所述指令,以使所述特征提取装置执行上述第一方面或上述第一方面的任意一种可能的实现方式中的方法,具体参见上面的详细描述,此处不再赘述。
第三方面,提供了一种域名特征的提取装置,该装置具有实现上述第一方面所述方法或上述第一方面的任意一种可能的实现方式的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
第四方面,本申请实施例提供了一种计算机存储介质,用于储存为上述特征提取装置所用的计算机软件指令,其包含用于执行上述第一方面或上述第一方面的任意一种可能的实现方式所设计的程序。
第五方面,本申请的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
第六方面,本申请实施例提供了一种芯片,包括存储器和处理器,存储器用于存储计算机指令,处理器用于从存储器中调用并运行该计算机指令,以执行上述第一方面及其上述第一方面任意可能的实现方式中的方法。
其中,第二方面、第三方面、第四方面、第五方面以及第六方面或者其中任一种可能实现方式所带来的技术效果可参见上述第一方面或上述第一方面中不同的可能实现方式所带来的技术效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本申请的一些实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本申请实施例域名特征的提取方法的一个应用场景示意图;
图1B为本申请实施例域名特征的提取方法的另一个应用场景示意图;
图1C为本申请实施例域名特征的提取方法的另一个应用场景示意图;
图2A为本申请实施例域名特征的提取方法的一个实施例示意图;
图2B为本申请实施例域名特征的提取方法的一个流量划分示意图;
图3为本申请实施例域名特征的提取方法的另一个实施例示意图;
图4为本申请实施例域名特征的提取方法的另一个实施例示意图;
图5为本申请实施例域名特征的提取方法的另一个实施例示意图;
图6为本申请实施例域名特征的提取方法的另一个实施例示意图;
图7为本申请实施例特征提取装置的结构示意图;
图8为本申请实施例域名特征的提取装置的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述,本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
本申请实施例提供了一种域名特征的提取方法和特征提取装置,用于提高特征提取装置提取的应用域名特征与目标应用的相关性。
为了便于读者理解本申请实施例的方案,下面对本申请实施例涉及的一些技术术语进行说明。
1、公共字段:指应用域名中的至少一个用点号分隔出的字符或字符串。公共字段是针对一个应用域名集合而言的。应用域名集合中包括该公共字段的应用域名的数量与该应用域名集合所包括的应用域名的总数量大于预设阈值。例如,至少一个应用域名集合中的第一应用域名集合对应的第一公共字段为video.qq.com,这里是以包括三个用点号分隔出的字符串作为一个公共字段的长度。该预设阈值为50%,则该第一应用域名集合包括第一公共字段的应用域名的数量与第一应用域名集合包括的应用域名的总数量大于50%。
2、至少一个应用域名集合中的每个应用域名集合:指具有至少两个公共字段的应用域名集合。例如,该至少一个应用域名集合包括第一应用域名集合。该第一应用域名集合对应的第一公共字段video和第二公共字段qq.com。
3、目标应用:指的是一种特定的应用,该特定应用作为特征提取装置提取应用域名特征的对象。在本申请实施例中,应用是指网络应用,网站服务器指基于动态网页等技术向终端用户提供类似于桌面软件应用程序或移动应用程序的功能。应用的实现技术包括客户端到服务器(Client/Server)架构,或浏览器到服务器(Browser/Server)架构。在采用B/S架构时客户端就是网页浏览器。常见的应用包括Webmail、网络购物、网络游戏、网络视频等等多个大类。网络视频大类中又包括腾讯视频、爱奇艺、youtube等等。
例如,当目标应用是腾讯视频时,特征提取装置提取腾讯视频的应用域名特征。
4、前缀:指应用域名中的首个字符或首个字符串;或者,指包括应用域名中的首个字符或首个字符串且包括与该首个字符或首个字符串连续的至少一个用点号分隔出的字符或字符串。例如:针对应用域名www.123.***.com,以后缀为包括应用域名中的首个字符串的一个用点号分隔出的字符串为粒度,则该应用域名的前缀为www.。再例如:应用域名www.123.***.com,前缀为包括该应用域名中的首个字符串的两个用点号分隔出的连续字符串为粒度,则该应用域名的前缀为www.123.。具体应当结合前缀的定义粒度理解该应用域名中的前缀。在后续的实施例中,应当结合所在的实施例或所在的实现方式中对前缀的定义粒度理解应用域名中的前缀。
5、后缀:指应用域名的二级域名加上该应用域名的一级域名;或者,指包括应用域名的二级域名和该应用域名的一级域名且包括与应用域名的二级域名连续的至少一个用点号分隔出的字符或字符串。例如:针对应用域名123.video.qq.com,以后缀包括应用域名的二级域名加上该应用域名的二级域名为粒度,则该应用域名的后缀为qq.com。再例如:针对应用域名123.video.qq.com,后缀包括三个用点号分隔出的三个连续字符串为粒度且这三个连续字符串为应用域名的三级域名加上该应用域名的二级域名加上该应用域名的一级域名,则该应用域名的后缀为video.qq.com。特别地,当域名包含至少两个顶级域(toplevel domain)时,本申请实施例中的后缀应当理解为至少包括至少一个与该至少两个顶级域名连续的非顶级域名和该至少两个顶级域名。比如应用域名www.icbc.com.cn,该应用域名的后缀为.icbc.com.cn。具体应当结合后缀的定义粒度理解该应用域名中的后缀。在后续的实施例中,应当结合所在的实施例或所在的实现方式中对后缀的定义粒度理解应用域名中的后缀。
6、子串:指应用域名中的至少一个用点号分隔出的字符或字符串。例如:针对应用域名123.video.qq.com,以应用域名中一个用点号分隔出的字符串作为子串粒度,那么该应用域名包括子串123和子串video。针对该应用域名123.video.qq.com,以应用域名中的两个用点号分隔出的字符串为子串粒度,那么该应用域名可以包括子串123.video。具体应当结合子串的定义粒度理解该应用域名中的子串。在后续的实施例中,应当结合所在的实施例或所在的实现方式中对子串的定义粒度理解该应用域名中的子串。
图1A为本申请实施例域名特征的提取方法的一个应用场景示意图。请参阅图1A,本申请实施例提供的特征提取装置包括应用测试模块、引擎识别模块、流量解析模块、应用域名特征提取模块和存储模块。应用测试模块与引擎识别模块的一端连接。引擎识别模块的另一端与流量解析模块的一端连接。流量解析模块的另一端与应用域名特征提取模块的一端连接。应用域名特征提取模块的另一端与存储模块连接。
应用测试模块具有对应用相关进程的流量进行抓包的功能。应用相关进程指的是指应用运行后创建的进程。例如,应用测试模块接收用户提交的应用自动测试任务。其中,该应用自动测试任务携带目标应用的应用名称。该应用测试模块根据应用自动测试任务下载该目标应用。然后,该应用测试模块运行该目标应用,并通过该目标应用的相关进程获取该目标应用的待分析流量。
引擎识别模块具有识别应用的流量的功能。可选的,引擎识别模块接收应用测试模块发送的该目标应用的待分析流量,并对该待分析流量进行识别。或者,引擎识别模块接收用户输入的流量自动测试任务,并对该流量自动测试任务携带该目标应用的待分析流量进行识别。可选的,引擎识别模块向流量解析发送该目标应用的待分析流量发送给流量解析模块;或者,引擎识别模块向流量解析模块发送该待分析流量中包括的该引擎识别模块未识别成功的流量。在后续的本申请实施例中,以引擎识别模块将该目标应用的待分析流量全部发送给流量解析模块为例进行说明。
流量解析模具有解析应用的流量的应用域名的功能。可选的,流量解析模块接收引擎识别模块发送的该目标应用的待分析流量。流量解析模块对该目标应用的待分析流量进行域名解析,得到该待分析流量的应用域名。或者是,该流量解析模块接收用户输入的该目标应用的待分析流量。然后,该流量解析模块对该待分析流量进行域名解析,得到该待分析流量的应用域名。
应用域名特征提取模块具有提取应用的应用域名特征的功能。该应用域名特征提取模块接收流量解析模块发送的该待分析流量的应用域名,从该应用域名中提取具有代表性和区分度高的应用域名特征作为该应用的应用域名特征。其中,该待分析流量的应用域名可以包含在该待分析流量的流量日志中。其次,应用域名特征提取模块还用于接收用户输入的该目标应用的应用名称,以便于应用域名特征提取模块根据该应用名称生成与该目标应用的应用域名的关键词集合。
存储模块存储有流量样本库、应用特征库和资源知识库等。
该流量样本库存储有该特征提取装置已收集的应用的流量,以及已收集的应用的流量的相关信息。例如,流量的五元组、流量的域名、流量所对应的应用名称和应用类别、流量所对应的字节数等。该流量样本库可用于特征提取装置分析每个应用类别的应用的应用域名中的常见关键词。
该应用特征库存储有多种应用类别的应用的应用域名中的常见关键词。该多种应用类别的应用包括视频类应用、直播类应用、导航类应用、地图类应用和游戏类应用等。其次,该应用域名特征库还用于评估应用域名特征提取装置提取的应用域名特征与目标应用的相关性和准确度。
该资源知识库存储有IP地址所对应的地理位置信息和归属信息、IP地址与应用域名的映射关系、IP地址与服务器证书的映射关系等。其中,归属信息包括公司信息、机构信息等。在应用域名特征提取模块无法获取目标应用的应用信息的情况下,应用域名特征提取模块通过该资源知识库和目标应用的待分析流量中的IP地址和/或目标应用的待分析流量的应用域名确定与该待分析流量关联的服务信息、公司信息或机构信息。然后,应用域名特征提取模块根据该服务信息、公司信息或机构信息预估该目标应用的应用名称或者该目标应用的应用类别等。
应用域名特征提取模块通过该存储模块调用流量样本库、应用特征库和资源知识库。然后,应用域名特征提取模块生成与目标应用的应用类别关联的关键词集合。
需要说明的是,上述图1A中的特征提取装置为云服务器,或者,该特征提取装置为计算机设备,或者为其他形式的设备,具体本申请不做限定。上述图1A中引擎识别模块和流量解析模块也可以是集成在一个模块中。可选地,图1A中的上述各模块是云服务器或计算机设备中的处理器读取存储器中的程序代码并运行后生成的功能模块。上述图1A仅仅是一种示例,并不对本申请实施例所适用的应用场景起到限定作用。
图1B为本申请实施例的另一个应用场景示意图。请参阅图1B,本申请实施例提供的特征提取装置包括引擎识别模块、流量切片模块、流量解析模块、应用域名特征提取模块、存储模块以及特征融合和应用命名模块。引擎识别模块的一端与流量切片模块的一端连接。流量切片模块的另一端与流量解析模块的一端连接。流量解析模块的另一端与应用域名特征提取模块的第一端连接。应用域名特征模块的第二端与存储模块连接。应用域名特征模块的第三段与特征融合和应用命名模块的一端连接。
引擎识别模块具有识别应用的流量的功能。例如,引擎识别模块接收第一流量。然后,引擎识别模块对该第一流量进行识别。
流量切片模块用于对接收到的引擎识别模块的流量进行划分,得到多部分流量。流量切片模块向流量解析模块发送该多部分流量,以便于流量解析模块在对流量进行解析时,以每部分流量为单位进行处理。
其中,需要说明的是,引擎识别模块向流量切片模块发送流量的方式有多种,下面举例说明。
第一种方式:引擎识别模块向流量切片模块发送该引擎识别模块接收到的流量中所包括的该引擎识别模块未识别成功的流量。
第二种方式:引擎识别模块对该引擎识别模块接收到的流量进行采样,得到采样流量;然后,引擎识别模块向该流量切片模块发送该采样流量。
第三种方式:引擎识别模块对该引擎识别模块接收到的流量进行镜像处理,得到镜像流量;然后,引擎识别模块向该流量切片模块发送该镜像流量。
在后续的实施例中,仅以第三种方式为例进行说明。
流量解析模块具有解析流量的应用域名的功能。流量解析模块接收流量切片模块发送多部分流量。例如,该多部分流量包括第一部分流量,第二部分流量和第三部分流量,这里以对第一部分流量解析来介绍流量解析模块的功能。流量解析模块对该第一部分流量进行解析,得到第一部分流量的应用域名。流量解析模块向该应用域名特征提取模块发送该第一部分流量的应用域名。
应用域名特征提取模块具有提取应用域名特征的功能。该应用域名特征提取模块接收流量解析模块发送的应用域名。该应用域名特征提取模块从该应用域名中提取具有代表性和区分度高的应用域名特征作为该应用的应用域名特征。
存储模块用于存储流量样本库、应用特征库和资源知识库等。对于流量样本库、应用特征库和资源知识库的相关介绍请参阅前述图1A中的相关介绍,这里不再赘述。
特征融合和应用命名模块接收应用域名特征提取模块发送的应用的域名特征。该特征融合和应用命名模块对应用的域名特征进行融合。例如,该特征融合和应用命名模块根据预设的特征类型优先级对目标应用的域名特征进行融合。其次,该特征融合和应用命名模块根据该应用的域名特征预估该目标应用的应用名称,并向用户输出该目标应用的域名特征和该目标应用的应用名称等。
在本申请实施例中,可选的,图1B所示的特征提取装置为路由器、具有防火墙功能的网络设备、个人计算机、移动终端设备等支持流量分析功能的设备。该特征提取装置能够实时对接收到的流量进行分析,得到该流量所对应的应用的应用域名特征。可选地,图1B中的上述各模块是上述设备中的处理器读取存储器中的程序代码并运行后生成的功能模块。
图1C为本申请实施例的另一个应用场景示意图。请参阅图1C,本申请实施例提供的特征提取装置为安装有特征提取工具应用的设备。例如,该特征提取装置为安装有该特征提取工具应用的服务器,或者为安装有该特征提取工具应用的个人计算机或移动终端设备等。
该特征提取工具应用包括流量解析模块和应用域名特征提取模块。该流量解析模块与该应用域名特征提取模块的一端连接,该应用域名特征提取模块的另一端与该存储模块连接。
流量解析模块具有解析流量的应用域名的功能。例如,流量解析模块接收用户输入的目标应用的待分析流量。流量解析模块对该待分析流量进行解析,得到该目标应用的应用域名。流量解析模块向该应用域名特征提取模块发送该目标应用的应用域名。
应用域名特征提取模块具有提取应用的应用域名特征的功能。例如,该应用域名特征提取模块接收流量解析模块或者用户输入的该目标应用的至少一个应用域名。该应用域名特征提取模块对该目标应用的至少一个应用域名进行分析,提取该至少一个应用域名中具有代表性和区分度高的应用域名特征作为该目标应用的应用域名特征。
存储模块用于存储流量样本库、应用特征库和资源知识库等。对于流量样本库、应用特征库和资源知识库的相关介绍请参阅前述图1A中的相关介绍,这里不再赘述。
图1C所示的应用场景中,特征提取装置上安装有特征提取工具软件。该特征提取工具软件可以部署在服务器,个人计算机或者移动终端设备等。不依赖于具体的某种类型的设备,适用于日常流量的应用域名特征的提取。例如,在日常或应急情况下通过特征提取装置的特征提取工具软对流量的应用域名特征进行提取。可选地,图1C中的上述各模块是服务器、计算机设备或者移动终端设备中的处理器读取存储器中的程序代码并运行后生成的功能模块。
可选地,图1A至图1C所示的应用场景中示出的流量样本库、应用特征库和资源知识库部署在该特征提取装置中。可替换地,在实际应用中,特征提取装置也可以通过外部接口从其他外部设备调用流量样本库、应用特征库和资源知识库,具体本申请不做限定。
请参阅图2A,图2A为本申请实施例域名特征的提取方法的一个实施例示意图。在图2A中,该方法包括步骤201至步骤203。
201、特征提取装置从目标应用的待分析流量中获取至少一个应用域名。
本申请实施例中,步骤201具有具体的应用场景,具体通过后续场景一至场景五进行介绍,这里不再赘述。
202、特征提取装置根据该至少一个应用域名生成至少一个应用域名集合。
在本申请实施例中,归属于同一应域名集合中的至少两个应用域名之间具有至少两个相同的用点号分隔出的字符或字符串。例如,该至少一个应用域名集合中的第一应用域名集合包括应用域名123.video.qq.com和video.qq.com,那么该至少两个相同的用点号分隔出的字符或字符串分别为video和qq.com。
在本申请实施例中,该至少一个应用域名集合中的每个应用域名集合都对应有至少两个公共字段。该至少两个公共字段之间部分或全部不同。该公共字段至少包括一个用点号分隔出的字符或字符串。
例如,该至少一个应用域名集合包括第一应用域名集合。第一应用域名集合对应的至少两个公共字段分别为123和***1.com。那么可知,123和***1.com之间部分不同。再例如:该第一应用域名集合对应的至少两个公共字段分别为video和qq.com,则可知video和qq.com之间完全不相同。
在本申请实施例中,对于同一应用域名集合来说,不同的公共字段在该应用域名集合中出现的频繁率可以不同,也可以相同,具体本申请不做限定。在本申请实施例中,频繁率应当理解为该应用域名集合包含有该公共字段的应用域名的数量与该应用域名集合包括的应用域名的总数量的比值。
例如,该至少一个应用域名集合包括第一应用域名集合。第一应用域名集合对应的至少两个公共字段分别为123和***.com。其中,公共字段123在该第一应用域名集合出现的频繁率为60%,公共字段***.com在该第一应用域名集合中出现的频繁率为70%。
可选的,公共字段的特征类型包括以下任一种。
1、应用域名中的前缀。
2、应用域名中的后缀。
3、应用域名中的子串。
其中前缀、后缀和子串的具体含义请参阅前述对前缀、后缀和子串的具体解释,这里不再赘述。
4、应用域名中目标级域名字段。
可选的,该目标级域名字段为应用域名的二级域名,或者,为三级域名,或者为其他级域名字段,具体本申请不做限定。
例如,应用域名为www.***.com,目标级域名字段为二级域名字段,则该公共字段为***。
下面分别从该至少一个应用域名集合包括一个应用域名集合和该至少一个应用域名集合包括至少两个应用域名集合这两种可能的形式来介绍应用域名集合。
当该至少一个应用域名集合包括一个应用域名集合时,这里以该至少一个应用域名集合包括第一应用域名集合为例进行说明。该第一应用域名集合对应至少两个公共字段。这里以该至少两个公共字段包括第一公共字段和第二公共字段为例进行说明。该第一应用域名集合中包括第一公共字段的应用域名的数量与该第一应用域名集合中包括的应用域名的总数量的比值大于第一预设阈值,该第一应用域名集合中包括第二公共字段的应用域名的数量与该第一应用域名集合中包括的应用域名的总数量的比值大于第二预设阈值。
可选的,该第一预设阈值和第二预设阈值相同或者不同。
例如,第一公共字段为video,第二公共字段为qq.com。第一预设阈值为50%,第二预设阈值为60%。该第一应用域名集合中包括video的应用域名的数量与该第一应用域名集合中包括的应用域名的总数量的比值大于50%。该第一应用域名集合中包括qq.com的应用域名的数量与该一应用域名集合中包括的应用域名的总数量的比值大于60%。
当该至少一个应用域名集合包括至少两个应用域名集合时,这里以该至少一个应用域名集合包括第一应用域名集合和第二应用域名集合为例进行说明。其中,该第一应用域名集合对应的至少两个公共字段与该第二应用域名集合对应的至少两个公共字段之间部分或全部不同。
例如,该第一应用域名集合包括的至少两个公共字段分别为video和qq.com。该第二应用域名集合包括的至少两个公共字段分别为v和qq.com。由此可知,video和qq.com与v和qq.com之间部分不同。再例如,第一应用域名集合对应的至少两个公共字段分别为123和video。第二应用域名集合对应的至少两个公共字段分别为film和45。则可知123和video与film和45之间完全不同。
可选的,这里以该第二应用域名集合对应的至少两个公共字段包括第三公共字段和第四公共字段。该第二应用域名集合中包括第三公共字段的应用域名的数量与该第二应用域名集合中包括的应用域名的总数量的比值大于第三预设阈值,该第二应用域名集合中包括第四公共字段的应用域名的数量与该第二应用域名集合中包括的应用域名的总数量的比值大于第四预设阈值。可选的,第三预设阈值与第四预设阈值相同或不相同。
203、特征提取装置分别从该至少一个应用域名集合中的每个应用域名集合中提取应用域名特征作为该待分析流量的第一应用域名特征。
本申请实施例的该至少一个应用域名集合可以包括一个应用域名集合,也可以包括至少两个应用域名集合。针对这两种情况,特征提取装置提取该第一应用域名特征的方式通过图3、图4、图5和图6所示的实施例分别进行详细说明。
本申请实施例中,特征提取装置从目标应用的待分析流量中获取至少一个应用域名。该特征提取装置根据该至少一个应用域名生成至少一个应用域名集合。其中,属于同一个应用域名集合的至少两个应用域名之间具有至少两个相同的用点号分隔出的字符或字符串。第一公共字段和第二公共字段与该至少一个应用域名集合中的第一应用域名集合对应的。该第一应用域名集合中包括第一公共字段的应用域名的数量与该第一应用域名集合所包括的应用域名的总数量的比值大于第一预设阈值。该第一应用域名集合中包括第二公共字段的应用域名数量与第一应用域名集合所包括的应用域名的总数量大于第二预设阈值。该第一公共字段至少包括一个用点号分隔出的字符或字符串。该第二公共字段至少包括一个用点号分隔出的字符或字符串。然后,特征提取装置分别从该至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为该待分析流量的第一应用域名特征。由此可知,本申请实施例的技术方案中,该至少一个应用域名集合中的第一应用域名集合对应第一公共字段和第二公共字段。那么特征提取装置从该第一应用域名集合提取的应用域名特征包括至少两个公共字段。因此,应用域名特征的提取粒度较小,特征提取装置提取到的应用域名特征与目标应用的相关性较高。例如,针对腾讯视频,通过本申请实施例的技术方案中特征提取装置从123.v.qq.com,film.qq.com和video.qq.com提取到video.qq.com,从而获取到与腾讯视频更为相关的应用域名特征。
本申请实施例中,上述图2A所示的实施例的步骤201中,特征提取装置从目标应用的待分析流量中获取至少一个应用域名具有具体的应用场景。下面通过举例的方式进行详细介绍。对于本申请实施例中未示出且具有类似需求或相同需求的场景同样适用,本申请不做限定。
场景一:特征提取装置接收用户提交的流量分析任务。
可选的,在场景一的情况下,上述图2A所示的实施例还包括步骤201a。该步骤201a在步骤201之前执行。
步骤201a:特征提取装置获取用户提交该待分析流量的流量分析任务。
其中,该流量分析任务携带有该目标应用的应用名称和目标应用的待分析流量。
如图1A所示,特征提取装置通过应用测试模块接收用户提交的流量分析任务。特征提取装置通过引擎识别模块对用户提交的待分析流量进行识别,并向该流量解析模块发送给该待分析流量。那么上述步骤201包括:特征提取装置通过流量解析模块对该待分析流量进行域名解析,得到该待分析流量的至少一个应用域名。
场景二:特征提取装置接收用户提交的应用流量自动测试任务。
可选的,在场景二的情况下,上述图2A所示的实施例还包括步骤201b、步骤201c和步骤201d。该步骤201b至步骤201d在步骤201之前执行。
步骤201b:特征提取装置获取用户提交的应用流量自动测试任务。
其中,该应用流量自动测试任务用于请求特征提取装置提取目标应用的应用域名特征。该应用流量自动测试任务携带该目标应用的应用名称。
步骤201c:特征提取装置根据该应用流量自动测试任务下载目标应用。
步骤201d:特征提取装置通过运行该目标应用抓取该待分析流量。
如图1A所示,特征提取装置根据该目标应用的应用名称下载该目标应用。特征提取装置通过应用测试模块运行该目标应用。然后,该应用测试模块通过该目标应用的相关进程生成的流量获取该目标应用的待分析流量。那么上述步骤201包括:特征提取装置通过流量解析模块对该待分析流量进行域名解析,得到该待分析流量的至少一个应用域名。
场景三:特征提取装置接收该目标应用的第一流量,并对该第一流量进行划分,得到该待分析流量。
可选的,在场景三的情况下,上述图2A所示的实施例还包括步骤201e和步骤201f。该步骤201e和步骤201f在步骤201之前执行。
步骤201e:特征提取装置接收该目标应用的第一流量。
步骤201f:特征提取装置该目标应用的第一流量进行划分,得到该目标应用的待分析流量。
可选的,特征提取装置对第一流量进行划分的方式有多种,下面进行介绍。
1、特征提取装置按照预设时间片的时长对该第一流量进行划分,得到该待分析流量。
如图1B所示,由于第一流量是持续输入的,而特征提取装置对该第一流量的域名特征提取结果需要及时反馈。因此,特征提取装置按照预设的时间片对第一流量进行划分,得到该待分析流量。然后,特征提取装置再对该待分析流量进行域名特征提取。
例如,如图2B所示,特征提取装置通过该预设时间片的时长将第一流量划分为四部分流量。这四部分流量分别为第一部分流量、第二部分流量、第三部分流量和第四部分流量。这里以第一部分流量为该待分析流量为例。即特征提取装置将划分得到的第一部分流量作为本申请实施例中的待分析流量。
其中,该预设的时间片的时长是预先配置的,或者是协议规定的,或者是特征提取装置根据第一流量的传输情况动态配置的,具体本申请不做限定。
可选的,特征提取装置根据第一流量的传输情况配置该预设的时间片的时长包括以下多种方式,下面举例说明。
a、特征提取装置将该特征提取装置接收第一流量中包括M条数据流的该待分析流量的接收时长作为该预设的时间片的时长。其中,M为大于等于1的正整数。
b、特征提取装置将该特征提取装置接收第一流量中包含N个应用域名的该待分析流量的接收时长作为该预设的时间片的长度。其中,N为大于等于1的正整数。
c、特征提取装置将该特征提取装置接收第一流量中包含S个字节数的该待分析流量的时长作为该预设的时间片的长度。其中,S为大于等于1的正整数。
2、特征提取装置按照预设时间片的时长和第一流量的地址信息对该第一流量进行划分,得到该待分析流量。
可选的,第一流量的地址信息包括第一流量的IP地址或者第一流量的IP地址段。特征提取装置根据预设时间片的时长将第一流量中包括的相同IP地址或相同IP地址段流量划分为待分析流量。
例如,如图2B所示,特征提取装置通过该预设时间片的时长和该第一流量的IP地址段将第一流量划分为四部分流量。这四部分流量分别为第一部分流量、第二部分流量、第三部分流量和第四部分流量。其中,第一部分流量的IP地址段为61.163.111.0/24。第二部分流量的IP地址段为58.251.150.0/24。第三部分流量的IP地址段为203.119.207.0/24。第四部分流量的IP地址段为60.205.90.0/24。这里以第一部分流量为该待分析流量为例。即特征提取装置将划分得到的第一部分流量作为本申请实施例中的待分析流量。
在场景三下,上述步骤201包括:特征提取装置通过流量解析模块对该待分析流量进行域名解析,得到该待分析流量的至少一个应用域名。
场景四:特征提取装置为安装有特征提取工具应用的设备。特征提取装置通过该特征提取工具应用接收该目标应用的待分析流量。
如图1C所示,特征提取装置安装有特征提取工具应用。该特征提取装置通过该特征提取工具应用的流量解析模块接收目标应用的待分析流量。那么上述步骤201包括:特征提取装置通过该流量解析模块对该待分析流量进行域名解析,得到该待分析流量的至少一个应用域名。
可选的,上述场景一至场景四中流量解析模块在对待分析流量进行域名解析具体过程为:流量解析模块按照待分析流量所对应的五元组将该待分析流量分为多条数据流的流量,流量解析模块分别提取该多条数据流的流量所对应的至少一个应用域名。其中,每条数据流的流量对应一个五元组。其中,该待分析流量所对应的五元组包括待分析流量所包括的报文的源IP地址、目标IP地址、目的端口和传输层协议。
场景五:特征提取装置为安装有特征提取工具应用的设备。特征提取装置通过该特征提取工具应用接收该目标应用的待分析流量的至少一个应用域名。
如图1C所示,特征提取装置安装有特征提取工具应用。上述步骤201包括:该特征提取装置通过该应用域名特征提取模块接收该目标应用的待分析流量的至少一个应用域名。
上述图2A所示的实施例步骤202中,特征提取装置根据该至少一个应用域名生成至少一个应用域名集合。特征提取装置可以采取多种方式,下面通过举例进行介绍。
方式1、特征提取装置根据该至少一个应用域名的公共前缀生成该至少一个应用域名集合。
例如,该至少一个应用域名包括taobao.com,taobao.1626.com,taobao.lazada.co.th和taobao.apilocate.amap.com。首先,特征提取装置将包含公共前缀taobao的该至少一个应用域名归为一个应用域名集合,即应用域名集合1。然后,特征提取装置将该应用域名集合1中包含公共前缀taobao.com的应用域名划分到应用域名集合2。特征提取装置将该应用域名集合1中包含公共前缀taobao.1626的应用域名划分到应用域名集合3。特征提取装置将该应用域名集合1中包含公共前缀taobao.lazada的应用域名划分到应用域名集合4。特征提取装置将该应用域名集合1中包含公共前缀taobao.apilocate的应用域名划分到应用域名集合5。这样就得到四个包含不同公共前缀的应用域名集合。
方式2、特征提取装置根据该至少一个应用域名的公共后缀生成该至少一个应用域名集合。
例如,该至少一个应用域名包括123.v.qq.com,***.v.qq.com,tengxun.video.qq.com,456.fp.qq.com。首先,特征提取装置将包含公共后缀qq.com的该至少一个应用域名归为一个应用域名集合,即应用域名集合1。然后,特征提取装置将该应用域名集合1中包含公共后缀.v.qq.com的应用域名划分到应用域名集合2;特征提取装置将该应用域名集合1中包含公共后缀.video.qq.com的应用域名划分到应用域名集合3;特征提取装置将该应用域名集合1包含公共后缀.fp.qq.com的应用域名划分到应用域名集合4。这样就得到三个包含不同公共后缀的应用域名集合。
方式3、特征提取装置根据该至少一个应用域名的公共子串生成该至少一个应用域名集合。
例如,该至少一个应用域名包括jdvod.300hu.com,vod.300hu.com,jdvodoss.jcloudcache.com,jdvod.jcloudcache.com和jdvodimg.jcloudcache.com。首先,特征提取装置将包含公共子串vod的该至少一个应用域名归为一个应用域名集合,即应用域名集合1。然后,特征提取装置将该应用域名集合1中包含公共子串vod和公共子串300hu的应用域名划分到应用域名集合2;特征提取装置将该应用域名集合1中包含公共子串vod和公共子串jcloudcache的应用域名划分到应用域名集合3。这样就得到两个包含不同公共子串的应用域名集合。
方式4、特征提取装置根据该至少一个应用域名的目标级域名生成该至少一个应用域名集合。
例如,该至少一个应用域名包括v.qq.com,video.qq.com,qvideo.qq.com,film.qq.com和live.qq.com。首先,该至少一个应用域名中每个应用域名的二级域名和一级域名都相同,即qq.com。特征提取装置将该至少一个应用域名归为一个应用域名集合,即应用域名集合1。然后,特征提取装置将该应用域名集合1中三级域名为v的应用域名划分到应用域名集合2。特征提取装置将该应用域名集合1中三级域名为video的应用域名划分到应用域名集合3。特征提取装置将该应用域名集合1中三级域名为q.video的应用域名划分到应用域名集合3。特征提取装置将应用域名集合1中三级域名为film的应用域名划分到应用域名集合4。特征提取装置将应用域名集合1中三级域名为live的应用域名划分到应用域名集合5。
可选的,特征提取装置在生成该至少一个应用域名集合之前,可以对该至少一个应用域名按照域名的来源字段进行分类,然后再生成该至少一个应用域名集合。
可选的,特征提取装置生成该至少一个应用域名集合之前,特征提取装置按照该至少一个应用域名的来源字段将该至少一个域名进行分类,得到第一类型的应用域名和第二类型的应用域名。然后,特征提取装置按照上述示出的方式和每种类型的应用域名生成至少一个应用域名集合。其中,该至少一个应用域名的来源字段包括该待分析流量所包括的超文本传输协议(hyperText transfer protocol,HTTP)报文的Host字段或该待分析流量所包括的传输层安全(transport layer security,TLS)协议报文的服务器名称标识(server name indication,SNI)字段。例如,第一类型的应用域名为特征提取装置从该HTTP报文中获取到的应用域名,第二类型的应用域名为特征提取装置从该TLS协议报文的SNI字段中获取到的应用域名。
在本申请实施例中,上述图2A所示的实施例的步骤203,特征提取装置分别从该至少一个应用域名集合中的每个应用域名集合中提取应用域名特征作为该待分析流量的第一应用域名特征。特征提取装置提取应用域名特征的方式有多种,下面分别进行介绍。
首先,以该至少一个应用域名集合包括一个应用域名集合说明步骤203。这里以该至少一个应用域名集合包括第一应用域名集合为例进行说明。
下面结合图3进行说明上述步骤203。如图3所示,本申请实施例提供的特征提取装置分别从该至少一个应用域名集合中的每个应用域名集合中提取应用域名特征作为该待分析流量的第一应用域名特征的过程包括步骤3001和步骤3002。
3001、特征提取装置对第一应用域名集合执行的操作为:特征提取装置根据公共前缀算法、公共后缀算法和公共子串算法中的任一种或任多种算法确定该第一应用域名集合对应的至少两个公共字段,确定该第一公共域名特征包括该第一应用域名集合对应的至少两个公共字段。
该至少两个公共字段中的每个公共字段包括至少一个用点号分隔的字符或字符串。
下面结合特征提取装置使用的算法说明第一公共域名特征的形式。
a、第一公共域名特征是特征提取装置根据公共前缀算法确定得到时,该第一公共域名特征包括第一公共前缀,该第一公共前缀包括至少两个公共字段。
例如,该第一应用域名集合包括应用域名video.123.com和应用域名video.123.shipin.com。那么该第一公共前缀为video.123.。其中,第一公共前缀包括两个公共字段。这两个公共字段分别为公共字段video和公共字段123。该第一公共域名特征包括公共字段video和公共字段123。
b、第一公共域名特征是特征提取装置根据公共后缀算法确定得到时,第一公共域名特征包括第一公共后缀,该第一公共后缀包括至少两个公共字段。
例如,该第一应用域名集合包括tengxun.video.qq.com和123.video.qq.com,那么该第一公共后缀为.video.qq.com。其中,第一公共后缀包括两个公共字段,这两个公共字段分别为公共字段video和公共字段qq.com。第一公共域名特征包括公共字段video和公共字段qq.com。
例如,第一应用域名集合包括static.xx.fb.cdn.net和scontent.xx.fb.cdn.net,该第一公共后缀为.xx.fb.cdn.net。其中,第一公共后缀包括三个公共字段,这三个公共字段分别为公共字段xx、公共字段fb和公共字段cdn.net。
c、第一公共域名特征是特征提取装置根据公共子串算法确定得到时,第一公共域名特征包括第一公共子串,该第一公共子串包括至少两个公共字段。
例如,该第一应用域名集合包括dhxy.res.netease.com和dhxy.fp.ps.netease.com。那么,该第一公共子串包括dhxy.+.netease.com。其中,该第一公共子串包括两个公共字段。这两个公共字段分别为公共字段dhxy和公共字段netease.com。
d、第一公共域名特征是特征提取装置根据公共前缀算法和公共子串算法确定得到时,第一公共域名特征的形式包括第二公共前缀加上第二公共子串。该第二公共前缀包括至少一个公共字段,该第二公共子串包括至少一个公共字段。
例如,该第一应用域名集合包括dhxy.res.netease.com和dhxy.fp.ps.netease.com。那么,该第一公共前缀为dhxy.,第二公共子串为.netease.com。其中,第一公共前缀包括一个公共字段,即公共字段dhxy。第二公共子串包括一个公共字段,即公共字段netease.com。
e、第一公共域名特征是特征提取装置根据公共后缀算法和公共子串算法确定得到时,第一公共域名特征的形式包括第三公共子串加上第二公共后缀。该第三公共子串包括至少一个公共字段,该第二公共后缀包括至少一个公共字段。
例如,第一应用域名集合包括jdvod.300hu.com和vod.300hu.com。那么该第三公共子串为vod.,该第二公共后缀为.300hu.com。其中,该第三公共子串包括一个公共字段,即公共字段vod,该第二公共后缀包括一个公共字段,即公共字段300hu.com。
f、第一公共域名特征是特征提取装置根据公共前缀算法和公共后缀算法确定得到时,第一公共域名特征包括第三公共前缀和第三公共后缀。
例如,该第一应用域名集合包括dhxy.chatbot.nie.163.com和dhxy.res.163.com。那么,该第三公共前缀为dhxy.,第三公共后缀为.163.com。其中,第三公共前缀包括一个公共字段,即公共字段dhxy。第三公共后缀包括一个公共字段,即公共字段163.com。
e、第一公共域名特征是特征提取装置根据公共前缀算法、公共子串算法和公共后缀算法确定得到时,第一公共域名特征包括第四公共前缀加上第四公共子串和第四公共后缀。
例如,第一应用域名集合包括123.video.qq.com和123.tengxun.video.qq.com,第四公共前缀为123,第四公共子串为video,第四公共后缀为qq.com。其中,第四公共前缀包括一个公共字段,即公共字段123。第四公共子串包括一个公共字段,即公共字段video。第四公共后缀包括一个公共字段,即公共字段qq.com。即第一公共域名特征包括公共字段123、公共字段video和公共字段qq.com。
3002、特征提取装置将该第一公共域名特征作为该待分析流量的第一应用域名特征。
例如,该第一公共域名特征为video.123.。那么,特征提取装置将该video.123.作为该待分析流量的第一应用域名特征。
下面以该至少一个应用域名集合包括至少两个应用域名集合说明上述步骤203。这里以该至少一个应用域名集合包括第一应用域名集合和第二应用域名集合为例进行说明。上述步骤203中,特征提取装置分别从该至少一个应用域名集合提取应用域名特征作为该待分析流量的第一应用域名特征。特征提取装置采取以下方式,下面进行介绍。
第一种方式:特征提取装置确定第二公共域名特征,并将该第二公共域名特征作为该待分析流量的第一应用域名特征。
下面结合图4说明第一种方式。如图4所示,本申请实施例提供的特征提取装置分别从该至少一个应用域名集合中的每个应用域名集合中提取应用域名特征作为该待分析流量的第一应用域名特征的过程包括步骤4001和步骤4002。
4001、特征提取装置确定第二公共域名特征。
本申请实施例中,该第一公共域名特征是该第一应用域名集合和该第二应用域名集合之间具有的至少两个相同的公共字段。该至少两个相同的公共字段中的每个公共字段包括至少一个用点号分隔出的字符或字符串。
例如,第一应用域名集合所对应的至少两个公共字段分别为video、123和qq.com,而第二应用域名集合所对应的至少两个公共字段分别为v、123和qq.com。则可知,第一应用域名集合和第二应用域名集合之间具有的至少两个相同的公共字段分别为123和qq.com。
可选的,该至少两个相同的公共字段包括第五公共字段和第六公共字段。其中,第一应用域名集合中包括第五公共字段的应用域名的数量与该第一应用域名集合包括的应用域名的总数量的比值大于第五预设阈值。第一应用域名集合中包括第六公共字段的应用域名的数量与该第一应用域名集合包括的应用域名的总数量的比值大于第六预设阈值。第二应用域名集合中包括第五公共字段的应用域名的数量与该第二应用域名集合包括的应用域名的总数量的比值大于第七预设阈值。第二应用域名集合中包括第六公共字段的应用域名的总数量的比值大于第八预设阈值。
可选的,第五预设阈值与第六预设阈值相等或不相等,具体本申请不做限定。第七预设阈值与第八预设阈值相等或不相等,具体本申请不做限定。
例如,第一应用域名集合和第二应用域名集合之间具有的至少两个相同的公共字段分别为123和qq.com。第五预设阈值为50%,第六预设阈值为70%。第七预设阈值为60%,第八预设阈值为70%。则第一应用域名集合中包括公共字段123的应用域名的数量与该第一应用域名集合包括的应用域名的总数量的比值大于50%。第一应用域名集合中包括公共字段qq.com的应用域名的数量与该第一应用域名集合包括的应用域名的总数量的比值大于70%。该第二应用域名集合中包括公共字段123的应用域名的数量与该第二应用域名集合包括的应用域名的总数量的比值大于60%。第二应用域名集合中包括公共字段qq.com的应用域名的数量与该第二应用域名集合包括的应用域名的总数量的比值大于70%。
4002、特征提取装置将该第二公共域名特征作为该待分析流量的第一应用域名特征。
例如,在步骤4001中的示例中,第二公共域名特征为.123.qq.com。特征提取装置将该.123.qq.com作为该第一应用域名特征。
第二种方式:特征提取装置将从第一应用域名集合中提取的第一公共域名特征和从第二应用域名集合中提取的第二公共域名特征作为该待分析流量的第一应用域名特征。
下面结合图5说明第二种方式。如图5所示的,本申请实施例提供的特征提取装置分别从该至少一个应用域名集合中的每个应用域名集合中提取应用域名特征作为该待分析流量的第一应用域名特征的过程包括步骤5001至步骤5003。
5001、特征提取装置根据公共前缀算法、公共后缀算法和公共子串算法中的任一种或任多种算法确定第一应用域名集合对应的至少两个公共字段,将确定的至少两个公共字段作为第一公共域名特征。
步骤3001与前述图3所示的实施例中的步骤3001类似,具体请参阅前述图3所示的实施例中的步骤3001中的详细介绍,这里不再赘述。
5002、特征提取装置根据公共前缀算法、公共后缀算法和公共子串算法中的任一种或任多种算法确定第二应用域名集合对应的至少两个公共字段,将确定的至少两个公共字段作为第三公共域名特征。
步骤5002与前述图3所示的实施例中的步骤3001类似,具体请参阅前述图3所示的实施例中的步骤3001中的详细介绍,这里不再赘述。
5003、特征提取装置将该第一公共域名特征和第三公共域名特征作为该待分析流量的第一应用域名特征。
例如,第一公共域名特征为.video.123.com,第二公共域名特征为.video.tengxun.com。那么,特征提取装置将该.video.123.com和.video.tengxun.com作为该第一应用域名特征。
可选的,当该第一公共域名特征与该第二公共域名之间存在重叠的第四公共域名特征时,上述图5所示的实施例还包括步骤5004和步骤5005。
步骤5004、特征提取装置从第一公共域名特征中排除第四公共域名特征,得到第五公共域名特征。
例如,第一公共域名特征为.video.123.com,第二公共域名特征为.video.tengxun.com。那么,第一公共域名特征与第二公共域名特征重叠的第四公共域名特征为.video。特征提取装置排除.video.123.com中的.video,得到.123.com。
步骤5005、特征提取装置将第三公共域名特征和第五公共域名特征作为该待分析流量的第二应用域名特征。
例如,特征提取装置将.123.com和.video.tengxun.com作为该待分析流量的第二应用域名特征。
第三种方式:特征提取装置根据该关键词集合分别从该至少一个应用域名集合中的每个应用域名集合中提取应用域名特征作为该待分析流量的第一应用域名特征。其中,该关键词集合为特征提取装置根据目标应用的应用名称或该目标应用的应用类别生成的。
在第三种方式下,上述图2A所示的实施例中还包括步骤203a,且步骤203a在步骤203之前执行。
步骤203a、特征提取装置根据目标应用的应用名称或该目标应用的应用类别生成目标应用的关键词集合。
可选的,特征提取装置生成关键词集合的方式有多种,下面进行介绍说明。
1、特征提取装置生成与该目标应用的应用名称关联的关键词集合。
由于应用域名的主要语言形式为英文,所以特征提取装置可以将非英语形式的应用名称转换为英语形式的应用名称。例如,将中文形式的应用名称转换为拼音形式的应用名称。然后,特征提取装置根据该拼音形式的应用名称生成与该应用名称关联的关键词集合。
特征提取装置生成与该应用名称关联的关键词集合的方式可以有多种,下面举例说明:
a、特征提取装置通过开源工具生成与该应用名称关联的关键词集合。
b、特征提取装置通过拼音音节库或单词库生成与该应用名称关联的关键词集合。
其中,关键词集合包括该拼音形式的应用名称、该拼音形式的应用名称中的单词、单词之间的组合、该拼音形式的应用名称的首字母缩写以及该首字母缩写之间的组合等关键词。
例如,针对腾讯视频,特征提取装置生成tengxunshipin、tengxun,shipin、txsp等关键词。即该关键词集合为[tengxunshipin、tengxun,shipin、txsp]。
2、特征提取装置根据该目标应用的应用名称所对应的多语言译文生成关键词集合。
由于应用域名的主要语言形式为英文,这里以多语言译文为英文为例说明该方式。特征提取装置通过中英文名称对照分析app或者翻译网站确定该应用名称所对应的英文译文。特征提取装置根据该英文译文生成与该应用名称的英文译文关联的关键词集合。例如,针对腾讯视频,特征提取装置生成的关键词包括tengxunvideo和video等。例如,针对百度地图,特征提取装置生成的关键词包括***map和map等。特征提取装置再将生成的关键词进行整合,形成关键词集合。
3、特征提取装置生成与该目标应用的应用类别关联的关键词集合。
例如,结合图1A至图1C所示的应用场景示意图,特征提取装置通过应用特征库生成该关键词集合。例如,腾讯视频属于视频类应用,特征提取装置通过应用特征库生成video,vod,live,film,tv等关键词。特征提取装置再将这些关键词进行整合,形成关键词集合。
那么结合图6所示,本申请实施例提供的特征提取装置分别从该至少一个应用域名集合中的每个应用域名集合中提取应用域名特征作为该待分析流量的第一应用域名特征的过程包括步骤6001。
6001、特征提取装置根据该关键词集合分别从该至少一个应用域名集合中的每个应用域名集合中提取应用域名特征作为该待分析流量的第一应用域名特征。
特征提取装置根据该关键词集合从该至少一个应用域名集合中提取该第一应用域名特征具体过程包括:特征提取装置确定关键词集合中的第一关键词在该至少一个应用域名集合所包括的第一应用域名中存在,特征提取装置将该第一关键词加上该第一应用域名的后缀作为该第一应用域名特征。
例如,关键词集合中包括video,该至少一个应用域名集合中包括123.video.qq.com。那么,特征提取装置将该.video.qq.com作为该第一应用域名特征。再例如,关键词集合包括live,该至少一个应用域名集合中包括live01.xx.qq.com、live02.xx.qq.com和livep.qq.com。那么,特征提取装置将该live.加上.xx.qq.com作为该第一应用域名特征。
在本申请实施例中,在上述步骤203a之前,特征提取装置获取该目标应用的应用名称或该目标应用的应用类别。其中,特征提取装置的获取方式需要结合具体的应用场景进行说明。在前述对步骤201具有的具体应用场景示出的场景一至场景五中,场景一、场景二、场景四和场景五中,特征提取装置通过接收用户输入的目标应用的应用名称或目标应用的应用类别。而在场景三种,特征提取装置的获取方式包括以下两种,下面进行说明。
a、特征提取装置根据该待分析流量的至少一个应用域名获取该目标应用的应用名称或者该目标应用的应用类别。
结合上述图1A至图1C进行说明,特征提取装置根据资源知识库确定该至少一个应用域名所关联的服务信息、公司信息或机构信息。特征提取装置根据该服务信息、公司信息或机构信息预估该目标应用的应用信息或者该目标应用的应用类别。
b、特征提取装置根据该待分析流量的地址信息获取该目标应用的应用的应用名称或者该目标应用的应用类别。
其中,该待分析流量的地址信息包括该待分析流量的IP地址。
结合上述图1A至图1C进行说明,特征提取装置根据资源知识库获取该IP地址所关联的服务信息、公司信息或机构信息。特征提取装置根据该服务信息、公司信息或机构信息预估该目标应用的应用信息或者该目标应用的应用类别。
本申请实施例中,可选的,上述图2A所示的实施例的步骤203中的第一应用域名特征包括多个不同特征类型的应用域名特征。那么,上述图2A所示的实施例还包括步骤203b。步骤203b在步骤203之后执行。
步骤203b、特征提取装置按照预设的特征类型优先级从高到低的顺序,从多个不同特征类型的应用域名特征中选择应用域名特征作为待分析流量的第三应用域名特征。
其中,特征类型包括前缀、后缀、子串、前缀加上后缀、前缀加上子串、子串加上子串、子串加上后缀和前缀加上子串加上后缀。
针对腾讯视频这一目标应用,通过本申请实施例的域名特征的提取方法提取到的第一应用域名特征包括:公共后缀.v.qq.com和公共后缀.video.qq.com,公共前缀加上公共后缀apd-+.v.smtcdns.com和公共前缀加上公共后缀live.加上.l.qq.com。若公共后缀的优先级高于公共前缀加上公共后缀的优先级,那么特征提取装置将该.v.qq.com和.video.qq.com作为该待分析流量的第三应用域名特征。
需要说明的是,在前述当该至少一个应用域名集合包括至少两个应用域名集合时,本申请示出了上述第一种方式至第三种方式等三种提取第一应用域名特征的实现方式。第一应用域名特征包括多种提取方式提取到的应用域名特征。可选的,在步骤203b之前,特征提取装置还可以预设的提取方式优先级按照高到低的顺序,从多个提取方式提取到的应用域名特征中选择第四应用域名特征。其中,第四应用域名特征包括多个不同特征类型的应用域名特征。则上述步骤203b包括:特征提取装置按照预设的特征类型优先级从高到低的顺序,从多个不同特征类型的应用域名特征中选择应用域名特征作为待分析流量的第三应用域名特征。
例如:针对腾讯视频这一目标应用,特征提取装置通过第一种方式提取出.v.qq.com,.video.qq.com公共后缀型特征。特征提取装置通过第二种方式提取出apd-+.v.smtcdns.com,live+.l.qq.com等前缀+后缀类型特征。特征提取装置通过第三种方式提取出video.qq.com,live.qq.com,vod.qq.com等关键词特征。若第三种方式的优先级高于第二种方式的优先级,第二种方式的优先级高于第一种方式的优先级。特征提取装置将选择video.qq.com,live.qq.com,vod.qq.com,apd-+.v.smtcdns.com,live.加上.l.qq.com作为该第四应用域名特征。若公共后缀的优先级高于公共前缀加上公共后缀的优先级,那么特征提取装置将该video.qq.com,live.qq.com,vod.qq.com作为该待分析流量的第三应用域名特征。
可选的,图2A所示的实施例中还包括步骤203c。且步骤203c在步骤203b之后执行。
步骤203c、特征提取装置输出该至少一个应用域名中包括的与第三应用域名特征所对应的应用域名的数量、该待分析流量中包括的与该第三应用域名特征对应的流量的五元组个数和该第三应用域名特征所对应的域名的流量的字节数。
例如,针对“秒拍”这一目标应用,特征提取装置提取到的“秒拍”应用的应用域名特征为.miaopai.com。该应用的待分析流量的至少一个应用域名中有8个包含有.miaopai.com的应用域名。该待分析流量中包含有.miaopai.com的应用域名所对应的流量的五元组为116个(即116条数据流)。该待分析流量中包含有.miaopai.com的应用域名所对应的流量的字节数为51593048。具体见表1所示。
表1
Figure BDA0002378740290000231
Figure BDA0002378740290000241
可选的,在上述图1B所示的应用场景中,该特征提取装置根据该第三应用域名特征预估该目标应用的应用名称。该特征提取装置向用户输出该目标应用的应用名称。具体的,该特征融合和应用命名模块调用该资源知识库,并集合该第三应用域名特征确定该待分析流量的关联的服务信息、公司信息或机构信息。该特征融合和应用命名模块根据该服务信息、公司信息或机构信息预估该目标应用的应用名称。
由此可知,通过本申请实施例的技术方案,用户可以结合第三应用域名特征所对应的流量的字节数和第三应用域名所对应的流量的五元组评估该第三应用域名特征与目标应用的相关性。其次,通过本申请实施例的技术方案,特征提取装置可以将更多相关的应用域名的流量聚合在一起,并从该相关的应用域名的流量中提取更具代表性的应用域名特征。
相应地,本申请实施例提供了一种特征提取装置,用以执行上述各个实施例提供的域名特征的提取方法。图7是本申请实施例提供的特征提取装置的结构示意图。可选地,图7所示的特征提取装置是图1A至图1C所示应用场景中的特征提取装置、图2A、图3、图4、图5至图6所示流程中的特征提取装置。特征提取装置包括处理器701、存储器702和网络接口703。
处理器701可以是一个或多个CPU,该CPU可以是单核CPU,也可以是多核CPU。
存储器702包括但不限于是随机存取存储器(random access memory,RAM)、只读存储器(Read only Memory,ROM)、可擦除可编程只读存储器(erasable programmableread-only memory,EPROM或者快闪存储器)、快闪存储器、或光存储器等。存储器702中保存有操作***的代码。
网络接口703可以是有线接口,例如光纤分布式数据接口(Fiber DistributedData Interface,FDDI)、千兆以太网(Gigabit Ethernet,GE)接口;网络接口703也可以是无线接口。网络接口703用于接收来自于内部网络和/或外部网络的数据流,根据处理器701的指示与流量设备进行通信。其中,流量设备为提供目标应用的待分析流量的设备。
可选地,处理器701通过读取存储器702中保存的指令实现上述实施例中的方法,或者,处理器701也可以通过内部存储的指令实现上述实施例中的方法。在处理器701通过读取存储器702中保存的指令实现上述实施例中的方法的情况下,存储器702中保存实现本申请上述实施例提供的方法的指令。
处理器701执行存储器702中存储的指令后,使得特征提取装置执行以下操作:从目标应用的待分析流量中获取至少一个应用域名;根据该至少一个应用域名生成至少一个应用域名集合;分别从该至少一个应用域名集合中的每个应用域名集合中提取应用域名特征作为该待分析流量的第一应用域名特征。
所述至少一个处理器701进一步根据存储器702保存的指令来执行上述方法实施例所描述的域名特征的提取方法。例如,处理器701用于执行上述图2A所示的实施例中的步骤201至步骤203、图3所示的实施例中的步骤3001至步骤3002、图4所示的实施例中的步骤4001和步骤4002、图5所示的实施例中的步骤5001至步骤5003和图6所示的实施例中的步骤6001。处理器701实现上述功能的更多细节请参考前面各个方法实施例中的描述,在这里不再重复。
可选地,特征提取装置还包括总线704,上述处理器701、存储器702通常通过总线704相互连接,也可以采用其他方式相互连接。
可选地,特征提取装置还包括输入输出接口705,该输入输出接口705与输出设备连接,用于通过输出设备向用户输出待分析流量的至少一个应用域名中包括的与第三应用域名特征所对应的应用域名的数量、该待分析流量中包括的与该第三应用域名特征对应的流量的五元组个数和该第三应用域名特征所对应的域名的流量的字节数。输出设备包括但不限于显示器、打印机等等。
输入输出接口705还用于与输入设备连接。可选的,该输入输出接口705用于接收用户通过输入设备输入的目标应用的应用名称或该目标应用的应用类别。输入设备包括但不限于键盘、触摸屏、麦克风、蓝牙模块等等。
图8为本申请实施例域名特征的提取装置的结构示意图。该提取装置800与上述各个方法实施例中的特征提取装置耦合连接,例如,集合在特征提取装置中,是特征提取装置中的一个软件或硬件组件。附图8所示的提取装置800应用于方法实施例附图1A至附图1C所示的场景中,实现特征提取装置的功能。
请参阅图8,该提取装置800包括处理模块801。可选的,该提取装置800包括发送模块802和接收模块803。处理模块801用于执行图2A所示的实施例中的步骤201至步骤203、上述步骤201c至步骤201d、上述步骤201f、上述步骤203a、上述步骤203b、图3所示的实施例中的步骤3001至步骤3002、图4所示的实施例中的步骤4001至步骤4002、图5所示的实施例中的步骤5001至步骤5003、图6所示的实施例中的步骤6001。该发送模块802用于执行上述步骤203c。该接收模块803用于执行上述步骤201a、上述步骤201b以及上述步骤201e。具体执行过程请参考上述图2A、图3、图4、图5和图6所示实施例中相应步骤的详细描述,这里不再赘述。
附图8所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。附图8中上述各个模块既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。例如,采用软件实现时,处理模块801、发送模块802和接收模块803可以是由附图7中的处理器701读取存储器中存储的程序代码后,生成的软件功能模块来实现。图8中上述各个模块也可以由特征提取装置中的不同硬件分别实现,例如发送模块802和接收模块803由附图7中的网络接口703实现,而处理模块801由附图7中处理器701中的部分处理资源(例如多核处理器中的其他核),或者采用现场可编程门阵列(Field-Programmable Gate Array,FPGA)、或协处理器等可编程器件来完成。显然上述功能模块也可以采用软件硬件相结合的方式来实现,例如发送模块802和接收模块803由网络接口703实现,而处理模块801是由CPU读取存储器中存储的指令后生成的软件功能模块。
附图8所示的提取装置与其他设备(例如,流量设备)的交互过程、以及能够实现的技术效果、以及处理模块801、发送模块802和接收模块803实现上述功能的更多细节请参考前面各个方法实施例中对于特征提取装置的描述,在这里不再赘述。
本申请实施例还提供了一种域名特征的提取***,该提取***包括特征提取装置。特征提取装置连接流量设备。该提取***中特征提取装置实现功能的更多细节、以及相互之间的交互过程的更多细节请参考前面各个方法实施例中对于特征提取装置的描述,在这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员将会理解,当使用软件实现本申请实施例的各个方面、或各个方面的可能实现方式时,上述各个方面、或各个方面的可能实现方式可以全部或部分地以计算机程序产品的形式实现。计算机程序产品是指存储在计算机可读介质中的计算机可读指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。
计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质包括但不限于电子、磁性、光学、电磁、红外或半导体***、设备或者装置,或者前述的任意适当组合。如计算机可读存储介质为随机存取存储器(Random Access Memory,RAM)、只读存储器(read only memory,ROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)或便携式只读存储器(Compact Disc Read-OnlyMemory,CD-ROM)。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的范围。这样,倘若本申请的这些修改和变型属于本发明权利要求的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (17)

1.一种域名特征的提取方法,其特征在于,所述方法包括:
特征提取装置从目标应用的待分析流量中获取至少一个应用域名;
所述特征提取装置根据所述至少一个应用域名生成至少一个应用域名集合,归属于同一个所述应用域名集合的至少两个应用域名之间具有至少两个相同的用点号分隔出的字符或字符串,第一公共字段和第二公共字段与所述至少一个应用域名集合中的第一应用域名集合对应,所述第一应用域名集合中包括所述第一公共字段的应用域名的数量与所述第一应用域名集合所包括的应用域名的总数量的比值大于第一预设阈值,所述第一应用域名集合中包括所述第二公共字段的应用域名数量与所述第一应用域名集合所包括的应用域名的总数量大于第二预设阈值,所述第一公共字段至少包括一个所述用点号分隔出的字符或字符串,所述第二公共字段至少包括一个所述用点号分隔出的字符或字符串;
所述特征提取装置分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征。
2.根据权利要求1所述的方法,其特征在于,所述第一公共字段或所述第二公共字段的特征类型包括以下任一种:
所述第一应用域名集合中的应用域名的前缀;
所述第一应用域名集合中的应用域名的后缀,所述后缀至少包括所述每个应用域名的二级域名;
所述第一应用域名集合中的应用域名的子串;
所述第一应用域名集合中的应用域名的目标级域名字段。
3.根据权利要求1或2所述的方法,其特征在于,所述至少一个应用域名集合中还包括第二应用域名集合时,第三公共字段和第四公共字段与所述第二应用域名集合对应,所述第二应用域名集合中包括所述第三公共字段的应用域名的数量与所述第二应用域名集合所包括的应用域名的总数量的比值大于第三预设阈值,所述第二应用域名集合中包括所述第四公共字段的应用域名的数量与所述第二应用域名集合所包括的应用域名的总数量的比值大于第四预设阈值,所述第一应用域名集合对应的至少两个公共字段与所述第二应用域名集合对应的至少两个公共字段之间部分或全部不同。
4.根据权利要求1或2所述的方法,其特征在于,所述特征提取装置分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征包括:
对所述第一应用域名集合执行操作:
所述特征提取装置根据公共前缀算法、公共后缀算法和公共子串算法中的任一种或任多种算法确定所述第一应用域名集合对应的至少两个公共字段,确定所述第一公共域名特征包括所述第一应用域名集合对应的至少两个公共字段,所述至少两个公共字段中的每个公共字段包括至少一个所述用点号分隔的字符或字符串;
所述特征提取装置将所述第一公共域名特征作为所述待分析流量的第一应用域名特征。
5.根据权利要求4所述的方法,其特征在于,
所述第一公共域名特征是根据所述公共前缀算法确定得到时,所述第一公共域名特征的形式包括第一公共前缀,所述第一公共前缀包括至少两个公共字段;
所述第一公共域名特征是根据所述公共后缀算法确定得到时,所述第一公共域名特征的形式包括第一公共后缀,所述第一公共后缀包括至少两个公共字段;
所述第一公共域名特征是根据所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第一公共子串,所述第一公共子串包括至少两个公共字段;
所述第一公共域名特征是根据所述公共前缀算法和所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第二公共前缀加上第二公共子串,所述第二公共前缀包括至少一个公共字段,所述第二公共子串包括至少一个公共字段;
所述第一公共域名特征是根据所述公共后缀算法和所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第三公共子串加上第二公共后缀,所述第三公共子串包括至少一个公共字段,所述第二公共后缀包括至少一个公共字段;
所述第一公共域名特征是根据所述公共前缀算法和所述公共后缀算法确定得到时,所述第一公共域名特征的形式包括第三公共前缀加上第三公共后缀,所述第三公共前缀包括至少一个公共字段,所述第三公共后缀包括至少一个公共字段;
所述第一公共域名特征是根据所述公共前缀算法、公共后缀算法和所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第四公共前缀加上第四公共子串加上第四公共后缀,所述第四公共前缀包括至少一个公共字段,所述第四公共子串包括至少一个公共字段,所述第四公共后缀包括至少一个公共字段。
6.根据权利要求3所述的方法,其特征在于,所述特征提取装置分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征包括:
所述特征提取装置确定第二公共域名特征,所述第二公共域名特征满足以下条件:所述第二公共域名特征是所述第一应用域名集合和所述第二应用域名集合之间具有的至少两个相同的公共字段,所述至少两个相同的公共字段中的每个公共字段包括至少一个用点号分隔出的字符或字符串;
所述特征提取装置提取所述第二公共域名特征作为所述待分析流量的第一应用域名特征。
7.根据权利要求3所述的方法,其特征在于,所述特征提取装置分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征包括:
所述特征提取装置根据公共前缀算法、公共后缀算法和公共子串算法中的任一种或任多种算法确定所述第一应用域名集合对应的至少两个公共字段,将确定的至少两个公共字段作为第一公共域名特征,所述第一应用域名集合对应的至少两个公共字段中的每个公共字段包括至少一个用点号分隔的字符或字符串;
所述特征提取装置根据所述公共前缀算法、所述公共后缀算法和所述公共子串算法中的任一种或任多种算法确定所述第二应用域名集合对应的至少两个公共字段,将确定的至少两个公共字段作为第三公共域名特征,所述第二应用域名集合对应的至少两个公共字段中的每个公共字段包括至少一个用点号分隔的字符或字符串;
所述特征提取装置将所述第一公共域名特征和所述第三公共域名特征作为所述待分析流量的第一应用域名特征。
8.根据权利要求1至7中的任一项所述的方法,其特征在于,所述方法还包括:
所述特征提取装置根据所述目标应用的应用名称或者所述目标应用的应用类别生成所述目标应用的关键词集合;
所述特征提取装置分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征包括:
所述特征提取装置根据关键词集合分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征。
9.一种特征提取装置,其特征在于,包括网络接口、存储器和与所述存储器连接的处理器,
所述存储器用于存储指令;
所述处理器用于执行所述指令,以使所述特征提取装置执行以下操作:
从目标应用的待分析流量中获取至少一个应用域名;
根据所述至少一个应用域名生成至少一个应用域名集合,归属于同一个所述应用域名集合的至少两个应用域名之间具有至少两个相同的用点号分隔出的字符或字符串,第一公共字段和第二公共字段与所述至少一个应用域名集合中的第一应用域名集合对应,所述第一应用域名集合中包括所述第一公共字段的应用域名的数量与所述第一应用域名集合所包括的应用域名的总数量的比值大于第一预设阈值,所述第一应用域名集合中包括所述第二公共字段的应用域名数量与所述第一应用域名集合所包括的应用域名的总数量大于第二预设阈值,所述第一公共字段至少包括一个所述用点号分隔出的字符或字符串,所述第二公共字段至少包括一个所述用点号分隔出的字符或字符串;
分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征。
10.根据权利要求9所述的特征提取装置,其特征在于,所述第一公共字段或所述第二公共字段的特征类型包括以下任一种:
所述第一应用域名集合中的应用域名的前缀;
所述第一应用域名集合中的应用域名的后缀,所述后缀至少包括所述每个应用域名的二级域名;
所述第一应用域名集合中的应用域名的子串;
所述第一应用域名集合中的应用域名的目标级域名字段。
11.根据权利要求9或10所述的特征提取装置,其特征在于,所述至少一个应用域名集合中还包括第二应用域名集合时,第三公共字段和第四公共字段与所述第二应用域名集合对应,所述第二应用域名集合中包括所述第三公共字段的应用域名的数量与所述第二应用域名集合所包括的应用域名的总数量的比值大于第三预设阈值,所述第二应用域名集合中包括所述第四公共字段的应用域名的数量与所述第二应用域名集合所包括的应用域名的总数量的比值大于第四预设阈值,所述第一应用域名集合对应的至少两个公共字段与所述第二应用域名集合对应的至少两个公共字段之间部分或全部不同。
12.根据权利要求9或10所述的特征提取装置,其特征在于,所述处理器具体用于:
对所述第一应用域名集合执行操作:
根据公共前缀算法、公共后缀算法和公共子串算法中的任一种或任多种算法确定所述第一应用域名集合对应的至少两个公共字段,确定所述第一公共域名特征包括所述第一应用域名集合对应的至少两个公共字段,所述至少两个公共字段中的每个公共字段包括至少一个所述用点号分隔的字符或字符串;
将所述第一公共域名特征作为所述待分析流量的第一应用域名特征。
13.根据权利要求12所述的特征提取装置,其特征在于,
所述第一公共域名特征是根据所述公共前缀算法确定得到时,所述第一公共域名特征的形式包括第一公共前缀,所述第一公共前缀包括至少两个公共字段;
所述第一公共域名特征是根据所述公共后缀算法确定得到时,所述第一公共域名特征的形式包括第一公共后缀,所述第一公共后缀包括至少两个公共字段;
所述第一公共域名特征是根据所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第一公共子串,所述第一公共子串包括至少两个公共字段;
所述第一公共域名特征是根据所述公共前缀算法和所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第二公共前缀加上第二公共子串,所述第二公共前缀包括至少一个公共字段,所述第二公共子串包括至少一个公共字段;
所述第一公共域名特征是根据所述公共后缀算法和所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第三公共子串加上第二公共后缀,所述第三公共子串包括至少一个公共字段,所述第二公共后缀包括至少一个公共字段;
所述第一公共域名特征是根据所述公共前缀算法和所述公共后缀算法确定得到时,所述第一公共域名特征的形式包括第三公共前缀加上第三公共后缀,所述第三公共前缀包括至少一个公共字段,所述第三公共后缀包括至少一个公共字段;
所述第一公共域名特征是根据所述公共前缀算法、公共后缀算法和所述公共子串算法确定得到时,所述第一公共域名特征的形式包括第四公共前缀加上第四公共子串加上第四公共后缀,所述第四公共前缀包括至少一个公共字段,所述第四公共子串包括至少一个公共字段,所述第四公共后缀包括至少一个公共字段。
14.根据权利要求11所述的特征提取装置,其特征在于,所述处理器具体用于:
确定第二公共域名特征,所述第二公共域名特征满足以下条件:所述第二公共域名特征是所述第一应用域名集合和所述第二应用域名集合之间具有的至少两个相同的公共字段,所述至少两个相同的公共字段中的每个公共字段包括至少一个用点号分隔出的字符或字符串;
提取所述第二公共域名特征作为所述待分析流量的第一应用域名特征。
15.根据权利要求11所述的特征提取装置,其特征在于,所述处理器具体用于:
根据公共前缀算法、公共后缀算法和公共子串算法中的任一种或任多种算法确定所述第一应用域名集合对应的至少两个公共字段,将确定的至少两个公共字段作为第一公共域名特征,所述第一应用域名集合对应的至少两个公共字段中的每个公共字段包括至少一个用点号分隔的字符或字符串;
根据所述公共前缀算法、所述公共后缀算法和所述公共子串算法中的任一种或任多种算法确定所述第二应用域名集合对应的至少两个公共字段,将确定的至少两个公共字段作为第三公共域名特征,所述第二应用域名集合对应的至少两个公共字段中的每个公共字段包括至少一个用点号分隔的字符或字符串;
将所述第一公共域名特征和所述第三公共域名特征作为所述待分析流量的第一应用域名特征。
16.根据权利要求9至15中的任一项所述的特征提取装置,其特征在于,所述处理器还用于:
根据所述目标应用的应用名称或者所述目标应用的应用类别生成所述目标应用的关键词集合;
所述处理器具体用于:
根据关键词集合分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征。
17.一种域名特征的提取装置,其特征在于,所述提取装置包括:
处理模块,用于从目标应用的待分析流量中获取至少一个应用域名;根据所述至少一个应用域名生成至少一个应用域名集合,归属于同一个所述应用域名集合的至少两个应用域名之间具有至少两个相同的用点号分隔出的字符或字符串,第一公共字段和第二公共字段与所述至少一个应用域名集合中的第一应用域名集合对应,所述第一应用域名集合中包括所述第一公共字段的应用域名的数量与所述第一应用域名集合所包括的应用域名的总数量的比值大于第一预设阈值,所述第一应用域名集合中包括所述第二公共字段的应用域名数量与所述第一应用域名集合所包括的应用域名的总数量大于第二预设阈值,所述第一公共字段至少包括一个所述用点号分隔出的字符或字符串,所述第二公共字段至少包括一个所述用点号分隔出的字符或字符串;分别从所述至少一个应用域名集合中的每个应用域名集合提取应用域名特征作为所述待分析流量的第一应用域名特征。
CN202010077051.XA 2020-01-23 2020-01-23 域名特征的提取方法和特征提取装置 Pending CN113157997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010077051.XA CN113157997A (zh) 2020-01-23 2020-01-23 域名特征的提取方法和特征提取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010077051.XA CN113157997A (zh) 2020-01-23 2020-01-23 域名特征的提取方法和特征提取装置

Publications (1)

Publication Number Publication Date
CN113157997A true CN113157997A (zh) 2021-07-23

Family

ID=76882235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010077051.XA Pending CN113157997A (zh) 2020-01-23 2020-01-23 域名特征的提取方法和特征提取装置

Country Status (1)

Country Link
CN (1) CN113157997A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105610830A (zh) * 2015-12-30 2016-05-25 山石网科通信技术有限公司 域名的检测方法及装置
CN106385407A (zh) * 2016-09-01 2017-02-08 北京神州绿盟信息安全科技股份有限公司 一种应用识别待分析数据包去噪声的方法和装置
CN108712403A (zh) * 2018-05-04 2018-10-26 哈尔滨工业大学(威海) 基于域名构造相似性的非法域名挖掘方法
CN109495475A (zh) * 2018-11-19 2019-03-19 中国联合网络通信集团有限公司 域名检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105610830A (zh) * 2015-12-30 2016-05-25 山石网科通信技术有限公司 域名的检测方法及装置
CN106385407A (zh) * 2016-09-01 2017-02-08 北京神州绿盟信息安全科技股份有限公司 一种应用识别待分析数据包去噪声的方法和装置
CN108712403A (zh) * 2018-05-04 2018-10-26 哈尔滨工业大学(威海) 基于域名构造相似性的非法域名挖掘方法
CN109495475A (zh) * 2018-11-19 2019-03-19 中国联合网络通信集团有限公司 域名检测方法及装置

Similar Documents

Publication Publication Date Title
US9973521B2 (en) System and method for field extraction of data contained within a log stream
US10567409B2 (en) Automatic and scalable log pattern learning in security log analysis
KR100848319B1 (ko) 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
CN110602269B (zh) 一种转换域名的方法
WO2011032094A1 (en) Extracting information from unstructured data and mapping the information to a structured schema using the naive bayesian probability model
CN110768875A (zh) 一种基于dns学习的应用识别方法及***
CN112733057A (zh) 网络内容安全检测方法、电子装置和存储介质
CN110727417A (zh) 一种数据处理方法和装置
KR20190058141A (ko) 문서로부터 추출되는 데이터를 생성하는 방법 및 그 장치
CN109714406A (zh) 资源描述文件的处理、页面资源的获取方法及设备
Hubballi et al. KeyClass: efficient keyword matching for network traffic classification
CN114598597A (zh) 多源日志解析方法、装置、计算机设备及介质
CN110245314A (zh) 一种网页指纹生成方法
CN109791563B (zh) 信息收集***、信息收集方法和记录介质
KR102169143B1 (ko) 유해 콘텐츠 웹 페이지 url 필터링 장치
CN114697066A (zh) 网络威胁检测方法和装置
US10419351B1 (en) System and method for extracting signatures from controlled execution of applications and application codes retrieved from an application source
CN116467607B (zh) 信息匹配方法和存储介质
JP6823205B2 (ja) 収集装置、収集方法及び収集プログラム
CN111552783A (zh) 内容分析查询方法、装置、设备和计算机存储介质
CN113157997A (zh) 域名特征的提取方法和特征提取装置
CN105677827B (zh) 一种表单的获取方法及装置
CN110263082B (zh) 数据库的数据分布分析方法、装置、电子设备及存储介质
Su et al. Mobile traffic identification based on application's network signature
CN113434792B (zh) 网络地址匹配模型的训练方法和网络地址匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination