CN113191149B - 一种自动化提取物联网设备信息的方法 - Google Patents

一种自动化提取物联网设备信息的方法 Download PDF

Info

Publication number
CN113191149B
CN113191149B CN202110516557.0A CN202110516557A CN113191149B CN 113191149 B CN113191149 B CN 113191149B CN 202110516557 A CN202110516557 A CN 202110516557A CN 113191149 B CN113191149 B CN 113191149B
Authority
CN
China
Prior art keywords
equipment
information
internet
things
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110516557.0A
Other languages
English (en)
Other versions
CN113191149A (zh
Inventor
***
黄敏
万上锋
张雅鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202110516557.0A priority Critical patent/CN113191149B/zh
Publication of CN113191149A publication Critical patent/CN113191149A/zh
Application granted granted Critical
Publication of CN113191149B publication Critical patent/CN113191149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自动化提取物联网设备信息的方法,包括:步骤一:使用深度神经网络模型,训练得到设备类型分类器。给定一个应用层报文,通过训练好的分类器,得到设备类型信息。步骤二:在步骤一的应用层报文的基础上,利用命名实体识别技术,提取报文中物联网设备厂商的文字,作为设备厂商信息。步骤三:基于步骤二获得的设备厂商信息,在其周围文字,利用相似度计算,提取超过阈值的文字,作为产品型号信息。步骤四:针对物联网设备的不同种类信息的不同特点,本方法自动提取应用层报文中的设备类型、设备厂商以及产品型号。本方法部署方便,无需人工编写规则,是一种低成本、高效的物联网设备信息提取技术。

Description

一种自动化提取物联网设备信息的方法
技术领域
本发明涉及信息安全领域,特别涉及一种自动化提取物联网设备信息的方法。
背景技术
网络空间中接入了数以亿计的物联网设备,且种类繁多,包括办公设备、监控设备、网络设备、工业控制设备等。物联网设备是网络空间中最重要的资产,探测、发现和识别网络空间中的物联网设备,已经成为保障网络空间关键基础设施安全的有效手段。物联网设备信息记录着某设备属于哪种类型、来自于哪个厂商以及属于具体的产品型号等相关信息,这些物联网信息对于安全审计和安全防御至关重要。目前,现有提取物联网设备信息的方法要么依赖于人工编写规则,要么提取信息范围受限,在大规模应用和实地部署方面,存在着一定局限。
因此,当网络空间存在各种物联网设备,包括路由器、网络摄像头和网络打印机等,如何有效、自动化提取应用层报文信息中的三元组(设备类型,设备厂商,产品型号),具有应用价值。
发明内容
本发明的目的在于提供一种自动化提取物联网设备信息的方法,以解决上述背景讨论中技术存在的问题。
本发明的技术方案是:
一种自动化提取物联网设备信息的方法,包括:
步骤一:设备类型信息的确定,包括:步骤a,针对一个应用层报文信息进行预处理,删除干扰内容,预处理模块完成后,将标语转换为文本格式,作为后续所有步骤的输入;步骤b,将纯文本格式的文字转化为词向量,并训练得到设备类型分类器;步骤c,对应用层报文进行处理,得到设备类型信息;
步骤二:设备厂商信息的确认,包括:步骤d,利用命名实体识别技术,识别文本所属的实体;步骤e,利用循环神经网络模型,得到设备厂商信息;
步骤三:产品型号信息的确认,包括:在设备厂商文字信息附近,利用相似度计算,提取超过阈值的文字,得到产品型号信息;
步骤四,物联网设备信息的确认,包括:结合以上三个步骤,得到物联网设备信息,即(设备类型,设备厂商,产品型号)。
步骤a中预处理包括步骤:a1,删除应用层的错误状态码;a2,删除超文件标示语言的无关内容;a3,去除特殊字符;a4,删除时间戳、数字、标点和停用词;a5,在剩下的报文内容中,提取纯文本并将其拆分为单个文字,进行词标记化;
步骤b具体包括:使用Word2Vec处理训练数据,得到一个预先训练的模型,将纯文本格式的文字转化为词向量,利用基于注意力机制的双向长短期记忆网络模型,以词向量作为输入,训练得到设备类型的分类器;
步骤c具体包括:给定一个应用层报文信息,将其转换为文本标记和向量标式,作为模型的输入;而分类器给出物联网设备类型的判定,并提供设备类型的标签:(设备类型,#,#)。
步骤d具体包括:经过步骤一处理后的应用层报文信息,成为纯文本,识别每个字所属的类别,并标记为V,O,其中V表示设备厂商类别,O表示其他类别;
步骤e具体包括:将步骤一的纯文本信息,进行三种不同的向量化,包括词向量、字母向量和混合向量;利用门控循环单元模型进行单词的字母向量表示,最后将词向量与字母向量结合起来作为一个单独的序列向量,即混合向量表示;将混合向量表示作为每一个门控循环单元的输入,训练循环神经网络模型,从而将步骤一的纯文本信息中的每一个字,进行标记;查找标记为V的文本,作为物联网设备的厂商,提供设备厂商的标签:(#,设备厂商,#)。
优选地,步骤三具体为:基于步骤二的设备厂商类别V,设置一个长度为W的窗口,在该窗口找到所有出现的文字,生成候选集合B;对集合B中的每一个文字,进行字母级别词向量表示和通用的词向量表示;已知的物联网产品型号名称,作为集合A,比较集合B中的文字的向量表示和集合A中的文字的向量表示,如果相似度超过阈值T,那么就将文字作为此设备的产品型号,得到产品型号的标签:(#,#,产品型号)。
本发明的有益效果在于:本方法提出了一种有效的自动化技术,自动从应用层报文,有效的提取(设备类型,设备厂商,产品型号)的物联网设备信息。本方法部署方便,无需人工编写规则,是一种低成本、高效的物联网设备信息提取技术。
附图说明
图1为本发明实施例提供的一种自动化提取物联网设备信息方法的流程图;
图2为本发明实施例提供的一种利用分类器提取设备类型的流程图;
图3为本发明实施例提供的一种物联网设备类型的模型结构图;
图4为本发明实施例提供的一种利用命名实体识别技术提取物联网设备厂商信息。
图5为本发明实施例提供的一种基于设备厂商及现有产品信息集合提取产品型号的流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
图1为自动化提取物联网设备信息方法的流程图。具体而言,一种自动化提取物联网设备信息的方法,包括:
步骤一:使用深度神经网络模型,训练得到设备类型分类器。给定一个应用层报文,通过训练好的分类器,得到设备类型信息。
步骤二:在步骤一的应用层报文的基础上,利用命名实体识别技术,提取报文中物联网设备厂商的文字,作为设备厂商信息。
步骤三:基于步骤二获得的设备厂商信息,在其周围文字,利用相似度计算,提取超过阈值的文字,作为产品型号信息。
步骤四:针对物联网设备的不同种类信息的不同特点,本方法自动提取应用层报文中的设备类型、设备厂商以及产品型号。
图2为利用分类器提取设备类型的流程图。
步骤一具体包括:
针对一个应用层报文信息,本方法需要进行预处理,删除干扰内容,包括:(1)删除应用层的错误状态码,如4XX、5XX。400表示一个错误的请求,500表示内部服务器错误;(2)删除超文件标示语言(HTML)的无关内容,如标签、CSS和JS。具体来说,这些标签被尖括号包围,如<br>;(3)去除特殊字符,如“$”、“%”;(4)删除时间戳、数字、标点和停用词;(5)在剩下的报文内容中,提取纯文本并将其拆分为单个文字,称为词标记化。预处理模块完成后,将标语转换为文本格式,作为后续所有步骤的输入。
对于纯文本格式的文字,本步骤会将它转化为词向量。具体来说,本方法使用Word2Vec处理训练数据,得到一个预先训练的模型,将纯文本格式的文字转化为词向量。本步骤利用利用基于注意力机制的双向长短期记忆网络模型(全称为Attention-BasedBidirectional Long Short-Term Memory Networks),以词向量作为输入,训练得到设备类型的分类器。给定一个应用层报文信息,本步骤将其转换为文本标记和向量标式,作为模型的输入;而分类器给出物联网设备类型的判定,即为其提供了一种形式为(设备类型,#,#)的标签。
图3为本发明实施例中的物联网设备类型的模型结构图。注意力机制模型包含5个部分:(1)输入层:通过本层将语句输入该模型;(2)嵌入层:将每个词语映射到一个低维向量。给定一个由T个词语组成的语句:s={x1,x2,……,xT},通过公式ei=Wwrdvi,将每个词语xi转化成对应的词向量ei,其中Wwrd是通过学习得到的矩阵,vi是一个以词语总量为维度的向量;(3)LSTM层:利用双向长短期记忆网络从嵌入层获得高级特性,其中模型使用按元素求和的方式来组合前向和后向传递的输出;(4)注意力层:产生一个权重向量w,将每个时间步的词级特征乘上权重向量,合并成一个句子级特征向量。最终得到用于分类的语句表示:h*=tanh(r)。其中r=HαT,a=softmax(wTM),M=tanh(H),H是LSTM层的输出向量H=[h1,h2,…,hT];(5)输出层:将句子级特征向量最终用于分类,并使用了激活函数softmax得到属于每种设备类型的概率,将概率最大的设备类型作为该物联网设备的类型。
图4为本发明利用命名实体识别技术提取物联网设备厂商信息。即步骤二具体包括:
命名实体识别技术是用于识别自然语言文本中特定含义的实体。应用层报文信息,经过步骤一,成为纯文本,本方法利用命名实体识别技术,识别每个字所属的类别。本步骤分别将这两类分别标记为V,O,其中V表示设备厂商类别,O表示其他类别。
在命名实体识别任务中,本步骤首先将步骤一的纯文本信息,进行三种不同的向量化,包括词向量、字母向量和混合向量。本步骤将利用门控循环单元(GRU,全称GateRecurrent Unit)模型进行单词的字母向量表示,最后将词向量与字母向量结合起来作为一个单独的序列向量,即混合向量表示,作为每一个门控循环单元(GRU)的输入,训练循环神经网络模型,从而将步骤一的纯文本信息中的每一个字,进行标记。本步骤找到标记为V的文本,作为物联网设备的厂商,即为设备提供了一种形式为(#,设备厂商,#)的标签。
图5为本发明实施例中的基于设备厂商及现有产品信息集合提取产品型号的流程图,即步骤三具体包括:
基于步骤二的设备厂商类别V,本步骤设置一个长度为W的窗口,在该窗口找到所有出现的文字,生成候选集合B。本步骤,对集合B中的每一个文字,进行字母级别词向量(character embedding)表示和通用的词向量(word embedding)表示。本步骤利用已知的物联网产品型号名称,作为集合A,比较集合B中的文字的向量表示和集合A中的文字的向量表示,如果相似度超过阈值T,那么就将文字(集合B中的信息,且其与集合A中信息,相似度超过阈值T的信息)作为此设备的产品型号,即为设备提供了一种形式为(#,#,产品型号)的标签。
字母级别词向量和通用的词向量就是character-level和word-level的词向量。具体来说,字母级别词向量就是先将词中的字母进行向量化,再得到这个词的向量;通用的词向量就是直接得到词的向量。前者有利于低频词的表示,后者有利于高频词的表示。

Claims (2)

1.一种自动化提取物联网设备信息的方法,其特征在于,包括:
步骤一:设备类型信息的确定,包括:步骤a,针对一个应用层报文信息进行预处理,删除干扰内容,预处理模块完成后,将标语转换为文本格式,作为后续所有步骤的输入;步骤b,将纯文本格式的文字转化为词向量,并训练得到设备类型分类器;步骤c,对应用层报文进行处理,得到设备类型信息;
步骤二:设备厂商信息的确认,包括:步骤d,利用命名实体识别技术,识别文本所属的实体;步骤e,利用循环神经网络模型,得到设备厂商信息;
步骤三:产品型号信息的确认,包括:在设备厂商信息附近,利用相似度计算,提取超过阈值的文字,得到产品型号信息;
步骤四,物联网设备信息的确认,包括:结合以上三个步骤,得到物联网设备信息,即(设备类型,设备厂商,产品型号);
所述步骤a中预处理包括步骤:a1,删除应用层的错误状态码;a2,删除超文件标示语言的无关内容;a3,去除特殊字符;a4,删除时间戳、数字、标点和停用词;a5,在剩下的报文内容中,提取纯文本并将其拆分为单个文字,进行词标记化;
所述步骤b具体包括:使用Word2Vec处理训练数据,得到一个预先训练的模型,将纯文本格式的文字转化为词向量,利用基于注意力机制的双向长短期记忆网络模型,以词向量作为输入,训练得到设备类型的分类器;
所述步骤c具体包括:给定一个应用层报文信息,将其转换为文本标记和向量标式,作为模型的输入;而分类器给出物联网设备类型的判定,并提供设备类型的标签:(设备类型,#,#);
所述步骤d具体包括:经过步骤一处理后的应用层报文信息,成为纯文本,识别每个字所属的类别,采用V,O来标记,其中V表示设备厂商类别,O表示其他类别;
所述步骤e具体包括:将步骤一的纯文本信息,进行三种不同的向量化,包括词向量、字母向量和混合向量;利用门控循环单元模型进行单词的字母向量表示,最后将词向量与字母向量结合起来作为一个单独的序列向量,即混合向量表示;将混合向量表示作为每一个门控循环单元的输入,训练循环神经网络模型,从而将步骤一的纯文本信息中的每一个字,进行标记;查找标记为V的文本,作为物联网设备的厂商,提供设备厂商的标签:(#,设备厂商,#)。
2.根据权利要求1所述的一种自动化提取物联网设备信息的方法,其特征在于,所述步骤三具体为:基于所述步骤二的设备厂商类别V,设置一个长度为W的窗口,在该窗口找到所有出现的文字,生成候选集合B;对集合B中的每一个文字,进行字母级别词向量表示和通用的词向量表示;已知的物联网产品型号名称,作为集合A,比较集合B中的文字的向量表示和集合A中的文字的向量表示,如果相似度超过阈值T,那么就将文字作为此设备的产品型号,得到产品型号的标签:(#,#,产品型号)。
CN202110516557.0A 2021-05-12 2021-05-12 一种自动化提取物联网设备信息的方法 Active CN113191149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110516557.0A CN113191149B (zh) 2021-05-12 2021-05-12 一种自动化提取物联网设备信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110516557.0A CN113191149B (zh) 2021-05-12 2021-05-12 一种自动化提取物联网设备信息的方法

Publications (2)

Publication Number Publication Date
CN113191149A CN113191149A (zh) 2021-07-30
CN113191149B true CN113191149B (zh) 2023-04-07

Family

ID=76981573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110516557.0A Active CN113191149B (zh) 2021-05-12 2021-05-12 一种自动化提取物联网设备信息的方法

Country Status (1)

Country Link
CN (1) CN113191149B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111726336A (zh) * 2020-05-14 2020-09-29 北京邮电大学 一种联网智能设备识别信息提取方法及***
CN111783466A (zh) * 2020-07-15 2020-10-16 电子科技大学 一种面向中文病历的命名实体识别方法
CN111897962A (zh) * 2020-07-27 2020-11-06 绿盟科技集团股份有限公司 一种物联网资产标记方法及装置
CN112564974A (zh) * 2020-12-08 2021-03-26 武汉大学 一种基于深度学习的物联网设备指纹识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111726336A (zh) * 2020-05-14 2020-09-29 北京邮电大学 一种联网智能设备识别信息提取方法及***
CN111783466A (zh) * 2020-07-15 2020-10-16 电子科技大学 一种面向中文病历的命名实体识别方法
CN111897962A (zh) * 2020-07-27 2020-11-06 绿盟科技集团股份有限公司 一种物联网资产标记方法及装置
CN112564974A (zh) * 2020-12-08 2021-03-26 武汉大学 一种基于深度学习的物联网设备指纹识别方法

Also Published As

Publication number Publication date
CN113191149A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN110457689B (zh) 语义处理方法及相关装置
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN116416480B (zh) 一种基于多模板提示学习的视觉分类方法和装置
CN108829823A (zh) 一种文本分类方法
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
Sheshikala et al. Natural language processing and machine learning classifier used for detecting the author of the sentence
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN111401064A (zh) 一种命名实体识别方法、装置及终端设备
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN112417887A (zh) 敏感词句识别模型处理方法、及其相关设备
CN115718792A (zh) 一种基于自然语义处理和深度学习的敏感信息提取方法
CN109446299A (zh) 基于事件识别的搜索电子邮件内容的方法及***
CN112257425A (zh) 一种基于数据分级模型的电力数据分析方法及***
CN115130613A (zh) 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN112134858B (zh) 敏感信息检测方法、装置、设备及存储介质
CN112084783B (zh) 基于民航不文明旅客的实体识别方法及***
CN113342935A (zh) 语义识别方法、装置、电子设备及可读存储介质
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN112445862A (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant