CN110020037A - 应用特征库生成方法和装置 - Google Patents

应用特征库生成方法和装置 Download PDF

Info

Publication number
CN110020037A
CN110020037A CN201710620842.0A CN201710620842A CN110020037A CN 110020037 A CN110020037 A CN 110020037A CN 201710620842 A CN201710620842 A CN 201710620842A CN 110020037 A CN110020037 A CN 110020037A
Authority
CN
China
Prior art keywords
feature database
corpus
word
deep
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710620842.0A
Other languages
English (en)
Inventor
关迎晖
刘春�
向勇
陈翀
陈康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201710620842.0A priority Critical patent/CN110020037A/zh
Publication of CN110020037A publication Critical patent/CN110020037A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种应用特征库生成方法和装置,涉及大数据领域。其中按照预定周期对深度包检测数据进行预处理,以提取出具有预定权重的词,根据具有预定权重的词,通过搜索引擎抓取相关语料,以生成语料库,根据语料库生成应用特征库。本发明利用DPI数据通过自学习以生成应用APP特征库,从而可基于该APP特征库自动识别出DPI数据中的APP应用,有效解决了APP识别的准确性和时效性问题。

Description

应用特征库生成方法和装置
技术领域
本发明涉及大数据领域,特别涉及一种应用特征库生成方法和装置。
背景技术
DPI(Deep Packet Inspection,深度包检测)数据中包含丰富的应用APP使用信息,不同APP在DPI中会留下其特征指纹(如特定端口、特定字符串等)。通过对APP的识别,发现用户的APP使用行为,进而为用户行为分析、APP应用分析提供有效手段。
目前APP识别多采用规则或模糊匹配的方法,需要人工维护规则库或APP特征库,特征库多来源自各大APP应用市场。针对不断涌现的新应用,难以保证识别的时效性和准确性。
发明内容
本发明实施例提供一种应用特征库生成方法和装置,利用DPI数据通过自学习以生成应用APP特征库,从而可基于该APP特征库自动识别出DPI数据中的APP应用,有效解决了APP识别的准确性和时效性问题。
根据本发明的一个方面,提供一种应用特征库生成方法,包括:
按照预定周期对深度包检测数据进行预处理,以提取出具有预定权重的词;
根据具有预定权重的词,通过搜索引擎抓取相关语料,以生成语料库;
根据语料库生成应用特征库。
在一个实施例中,对深度包检测数据进行预处理包括:
对深度包检测数据进行分词处理,并去除停用词;
计算词权重;
提取出具有预定权重的词。
在一个实施例中,应用特征库包括关键词、关键词出现个数字典和关键词出现频率字典中的至少一个。
在一个实施例中,在根据语料库生成应用特征库后,还包括:
对于要识别的深度包检测数据,通过应用特征库提取相应的应用特征;
利用应用特征库,识别出与应用特征相对应的应用名称。
在一个实施例中,标注应用名称的中文名称。
根据本发明的另一方面,提供一种应用特征库生成装置,包括:
预处理模块,用于按照预定周期对深度包检测数据进行预处理,以提取出具有预定权重的词;
语料库生成模块,用于根据具有预定权重的词,通过搜索引擎抓取相关语料,以生成语料库;
特征库生成模块,用于根据语料库生成应用特征库。
在一个实施例中,预处理模块用于对深度包检测数据进行分词处理,并去除停用词,计算词权重,提取出具有预定权重的词。
在一个实施例中,应用特征库包括关键词、关键词出现个数字典和关键词出现频率字典中的至少一个。
在一个实施例中,上述装置还包括:
应用识别模块,用于在特征库生成模块根据语料库生成应用特征库后,对于要识别的深度包检测数据,通过应用特征库提取相应的应用特征,利用应用特征库,识别出与应用特征相对应的应用名称。
在一个实施例中,上述装置还包括:
标注模块,用于标注应用名称的中文名称。
根据本发明的另一方面,提供一种应用特征库生成装置,包括:
存储器,用于存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现上述任一实施例涉及的方法。
根据本发明的另一方面,提供一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现上述任一实施例涉及的方法。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明应用特征库生成方法一个实施例的示意图。
图2为本发明应用特征库生成方法另一实施例的示意图。
图3为本发明应用特征库生成装置一个实施例的示意图。
图4为本发明应用特征库生成装置另一实施例的示意图。
图5为本发明应用特征库生成装置又一实施例的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明应用特征库生成方法一个实施例的示意图。可选地,本实施例的方法步骤可由应用特征库生成装置执行。其中:
步骤101,按照预定周期对深度包检测数据进行预处理,以提取出具有预定权重的词。
其中,对深度包检测数据进行预处理可包括:对深度包检测数据进行分词处理,并去除停用词,计算词权重,提取出具有预定权重的词。
例如,可提取出权重值大于预定门限的高权重词。
步骤102,根据具有预定权重的词,通过搜索引擎抓取相关语料,以生成语料库。
步骤103,根据语料库生成应用特征库。
可选地,应用特征库包括关键词、关键词出现个数字典和关键词出现频率字典中的至少一个。
当然,应用特征库所包括的内容不局限于此。
基于本发明上述实施例提供的应用特征库生成方法,利用DPI数据通过自学习以生成应用APP特征库,从而可基于该APP特征库自动识别出DPI数据中的APP应用,有效解决了APP识别的准确性和时效性问题。
在上述实施例中,APP特征库的更新周期可根据应用分析的需求进行合理设置。
图2为本发明应用特征库生成方法另一实施例的示意图。在该实施例中,在生成APP特征库的基础上,进一步对APP进行识别。
步骤201,按照预定周期对深度包检测数据进行预处理,以提取出具有预定权重的词。
步骤202,根据具有预定权重的词,通过搜索引擎抓取相关语料,以生成语料库。
步骤203,根据语料库生成应用特征库。
步骤204,对于要识别的深度包检测数据,通过应用特征库提取相应的应用特征。
步骤205,利用应用特征库,识别出与应用特征相对应的应用名称。
可选地,在识别应用APP的英文名称后,还可进一步标注该应用名称的中文名称。
图3为本发明应用特征库生成装置一个实施例的示意图。如图3所示,该应用特征库生成装置包括预处理模块31、语料库生成模块32和特征库生成模块33,其中:
预处理模块31用于按照预定周期对深度包检测数据进行预处理,以提取出具有预定权重的词。
可选地,预处理模块31可用于对深度包检测数据进行分词处理,并去除停用词,计算词权重,提取出具有预定权重的词。
语料库生成模块32用于根据具有预定权重的词,通过搜索引擎抓取相关语料,以生成语料库。
特征库生成模块33用于根据语料库生成应用特征库。
其中,应用特征库可包括关键词、关键词出现个数字典和关键词出现频率字典中的至少一个。
当然,应用特征库所包括的内容不局限于此。
基于本发明上述实施例提供的应用特征库生成装置,利用DPI数据通过自学习以生成应用APP特征库,从而可基于该APP特征库自动识别出DPI数据中的APP应用,有效解决了APP识别的准确性和时效性问题。
图4为本发明应用特征库生成装置另一实施例的示意图。与图3所示实施例相比,在图4所示实施例中,除预处理模块41、语料库生成模块42和特征库生成模块43之外,还包括应用识别模块44。其中:
应用识别模块44用于在特征库生成模块43根据语料库生成应用特征库后,对于要识别的深度包检测数据,通过应用特征库提取相应的应用特征,利用应用特征库,识别出与应用特征相对应的应用名称。
可选地,在图4所示实施例中,还可进一步包括标注模块45。
其中:
标注模块45用于标注应用名称的中文名称。
图5为本发明应用特征库生成装置又一实施例的示意图。如图5所示,应用特征库生成装置包括存储器51和处理器52。其中:
存储器51用于存储指令,处理器52耦合到存储器51,处理器52被配置为基于存储器存储的指令执行实现如图1至图2中任一实施例涉及的方法。
如图5所示,应用特征库生成装置还包括通信接口53,用于与其它设备进行信息交互。同时,该装置还包括总线54,处理器52、通信接口53、以及存储器51通过总线54完成相互间的通信。
存储器51可以包含高速RAM存储器,也可还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。存储器51也可以是存储器阵列。存储器51还可能被分块,并且块可按一定的规则组合成虚拟卷。
此外,处理器52可以是一个中央处理器CPU,或者可以是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还公开一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图1至图2中任一实施例涉及的方法。
通过实施本发明,可以得到以下有益效果:
1)APP特征库的生成来源自DPI数据,凡是DPI中存在特征指纹的APP均被纳入特征库,保证识别的全面准确。
2)自动生成APP特征库,无需人工参与,可及时发现新出现的APP应用。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (12)

1.一种应用特征库生成方法,其特征在于,包括:
按照预定周期对深度包检测数据进行预处理,以提取出具有预定权重的词;
根据所述具有预定权重的词,通过搜索引擎抓取相关语料,以生成语料库;
根据所述语料库生成应用特征库。
2.根据权利要求1所述的方法,其特征在于,
对深度包检测数据进行预处理包括:
对所述深度包检测数据进行分词处理,并去除停用词;
计算词权重;
提取出具有预定权重的词。
3.根据权利要求1所述的方法,其特征在于,
所述应用特征库包括关键词、关键词出现个数字典和关键词出现频率字典中的至少一个。
4.根据权利要求1-3中任一项所述的方法,其特征在于,
在根据所述语料库生成应用特征库后,还包括:
对于要识别的深度包检测数据,通过所述应用特征库提取相应的应用特征;
利用所述应用特征库,识别出与所述应用特征相对应的应用名称。
5.根据权利要求4所述的方法,其特征在于,还包括:
标注所述应用名称的中文名称。
6.一种应用特征库生成装置,其特征在于,包括:
预处理模块,用于按照预定周期对深度包检测数据进行预处理,以提取出具有预定权重的词;
语料库生成模块,用于根据所述具有预定权重的词,通过搜索引擎抓取相关语料,以生成语料库;
特征库生成模块,用于根据所述语料库生成应用特征库。
7.根据权利要求6所述的装置,其特征在于,
预处理模块用于对所述深度包检测数据进行分词处理,并去除停用词,计算词权重,提取出具有预定权重的词。
8.根据权利要求6所述的装置,其特征在于,
所述应用特征库包括关键词、关键词出现个数字典和关键词出现频率字典中的至少一个。
9.根据权利要求6-8中任一项所述的装置,其特征在于,所述装置还包括:
应用识别模块,用于在特征库生成模块根据所述语料库生成应用特征库后,对于要识别的深度包检测数据,通过所述应用特征库提取相应的应用特征,利用所述应用特征库,识别出与所述应用特征相对应的应用名称。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
标注模块,用于标注所述应用名称的中文名称。
11.一种应用特征库生成装置,其特征在于,包括:
存储器,用于存储指令;
处理器,耦合到所述存储器,所述处理器被配置为基于所述存储器存储的指令执行实现如权利要求1-5中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN201710620842.0A 2017-07-27 2017-07-27 应用特征库生成方法和装置 Pending CN110020037A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710620842.0A CN110020037A (zh) 2017-07-27 2017-07-27 应用特征库生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710620842.0A CN110020037A (zh) 2017-07-27 2017-07-27 应用特征库生成方法和装置

Publications (1)

Publication Number Publication Date
CN110020037A true CN110020037A (zh) 2019-07-16

Family

ID=67185880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710620842.0A Pending CN110020037A (zh) 2017-07-27 2017-07-27 应用特征库生成方法和装置

Country Status (1)

Country Link
CN (1) CN110020037A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112839004A (zh) * 2019-11-22 2021-05-25 中国电信股份有限公司 应用识别方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090213858A1 (en) * 2008-02-27 2009-08-27 Alcatel Lucent Application-aware MPLS tunnel selection
US20090252148A1 (en) * 2008-04-03 2009-10-08 Alcatel Lucent Use of DPI to extract and forward application characteristics
CN102420701A (zh) * 2011-11-28 2012-04-18 北京邮电大学 一种互联网业务流特征的提取方法
CN102739457A (zh) * 2012-07-23 2012-10-17 武汉大学 一种基于dpi和svm技术的网络流量识别***及方法
CN102752218A (zh) * 2012-07-16 2012-10-24 北京国创富盛通信股份有限公司 网络优化***和网络优化方法
CN103841616A (zh) * 2013-12-16 2014-06-04 华为技术有限公司 一种应用数据包处理方法、装置及***
CN104750760A (zh) * 2013-12-31 2015-07-01 ***通信集团上海有限公司 一种推荐应用软件的实现方法及装置
CN105657001A (zh) * 2015-12-28 2016-06-08 中国联合网络通信集团有限公司 一种分析通信大数据的方法及装置
CN105740242A (zh) * 2014-12-08 2016-07-06 华为技术有限公司 基于二维码的信息搜索装置与方法及移动终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090213858A1 (en) * 2008-02-27 2009-08-27 Alcatel Lucent Application-aware MPLS tunnel selection
US20090252148A1 (en) * 2008-04-03 2009-10-08 Alcatel Lucent Use of DPI to extract and forward application characteristics
CN102420701A (zh) * 2011-11-28 2012-04-18 北京邮电大学 一种互联网业务流特征的提取方法
CN102752218A (zh) * 2012-07-16 2012-10-24 北京国创富盛通信股份有限公司 网络优化***和网络优化方法
CN102739457A (zh) * 2012-07-23 2012-10-17 武汉大学 一种基于dpi和svm技术的网络流量识别***及方法
CN103841616A (zh) * 2013-12-16 2014-06-04 华为技术有限公司 一种应用数据包处理方法、装置及***
CN104750760A (zh) * 2013-12-31 2015-07-01 ***通信集团上海有限公司 一种推荐应用软件的实现方法及装置
CN105740242A (zh) * 2014-12-08 2016-07-06 华为技术有限公司 基于二维码的信息搜索装置与方法及移动终端
CN105657001A (zh) * 2015-12-28 2016-06-08 中国联合网络通信集团有限公司 一种分析通信大数据的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112839004A (zh) * 2019-11-22 2021-05-25 中国电信股份有限公司 应用识别方法和装置
CN112839004B (zh) * 2019-11-22 2022-09-06 中国电信股份有限公司 应用识别方法和装置

Similar Documents

Publication Publication Date Title
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
US10777192B2 (en) Method and apparatus of recognizing field of semantic parsing information, device and readable medium
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN108052509B (zh) 一种文本相似度计算方法、装置及服务器
CN109446328A (zh) 一种文本识别方法、装置及其存储介质
CN112990035B (zh) 一种文本识别的方法、装置、设备以及存储介质
CN112784589B (zh) 一种训练样本的生成方法、装置及电子设备
CN111061837A (zh) 话题识别方法、装置、设备及介质
Kang et al. Tibetan word segmentation based on word-position tagging
CN102984242B (zh) 一种应用协议的自动识别方法和装置
CN110362673A (zh) 基于摘要语义分析的计算机视觉类论文内容判别方法及***
CN103823868A (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
CN110020037A (zh) 应用特征库生成方法和装置
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质
CN105183806A (zh) 一种不同平台间识别同一用户的方法与***
CN110489514B (zh) 提升事件抽取标注效率的***及方法、事件抽取方法及***
US20170185578A1 (en) Information analysis system, information analysis method, and information analysis program
CN112015895A (zh) 一种专利文本分类方法及装置
CN111090996B (zh) 一种分词的方法、装置及存储介质
CN106815592B (zh) 文本数据处理方法及装置和错别字识别方法及装置
CN112541557B (zh) 生成式对抗网络的训练方法、装置及电子设备
CN107066623A (zh) 一种文章合并方法及装置
CN107590163B (zh) 文本特征选择的方法、装置和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716

RJ01 Rejection of invention patent application after publication