CN113094703B - 针对web入侵检测的输出内容过滤方法及*** - Google Patents

针对web入侵检测的输出内容过滤方法及*** Download PDF

Info

Publication number
CN113094703B
CN113094703B CN202110267964.2A CN202110267964A CN113094703B CN 113094703 B CN113094703 B CN 113094703B CN 202110267964 A CN202110267964 A CN 202110267964A CN 113094703 B CN113094703 B CN 113094703B
Authority
CN
China
Prior art keywords
data
similarity
url
idf
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110267964.2A
Other languages
English (en)
Other versions
CN113094703A (zh
Inventor
丰竹勃
安韬
王智民
王高杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 6Cloud Technology Co Ltd
Beijing 6Cloud Information Technology Co Ltd
Original Assignee
Beijing 6Cloud Technology Co Ltd
Beijing 6Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 6Cloud Technology Co Ltd, Beijing 6Cloud Information Technology Co Ltd filed Critical Beijing 6Cloud Technology Co Ltd
Priority to CN202110267964.2A priority Critical patent/CN113094703B/zh
Publication of CN113094703A publication Critical patent/CN113094703A/zh
Application granted granted Critical
Publication of CN113094703B publication Critical patent/CN113094703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种针对web入侵检测的输出内容过滤方法及***,属于网络信息安全领域。所述方法包括:对待告警数据进行分词,得到待告警数据对应的数据词条;使用训练好的TF‑IDF模型提取所述数据词条的TF‑IDF特征矩阵;计算数据词条的TF‑IDF特征矩阵与训练集的TF‑IDF特征矩阵的相似度;若相似度大于或等于相似度阈值,则降低告警分数,否则保持告警分数不变。使用训练好的TF‑IDF模型计算待告警数据的TF‑IDF特征矩阵与历史数据的TF‑IDT特征矩阵比较相似度,相似度越大是入侵行为的概率越小,需要被过滤,可以快速进行过滤,不影响整体程序的进程。

Description

针对web入侵检测的输出内容过滤方法及***
技术领域
本发明涉及网络信息安全领域,具体地涉及一种针对web入侵检测的输出内容过滤方法以及一种针对web入侵检测的输出内容过滤***。
背景技术
通常正常流量是大量重复性存在的,因此,在web入侵检测中,无论是用户访问非法网站,还是检测出现误报,都将导致大量相似的警告,而入侵行为则相对稀少。因此,通过url的聚类分析,可以识别大量相似行为,剩下的小部分的异常行为,再进行web入侵检测过滤。将相似数据过滤,留下不同且更可能是入侵行为的url,提高用户的使用体验。
url相似度计算不同于字符串相似度,路径相同的两个url,可能具体的参数有很大的区别,又或者是不同的站点但是里面的结构是相同的,都需要判定为相似。并且流量是大量重复性存在的,需要计算大量数据。因此,如何选取url的特征,计算url的相似程度,并根据相似程度快速有效的进行过滤,是非常必要的。
申请号为201611182696.X的发明专利公开了《一种基于相似度比较的URL去重方法和***》专利中,将URL目录深度特征、URL一级目录特征、URL尾页特征等特征存储到布隆过滤器,通过查询布隆过滤器中对应类型的特征的bit位信息,若二者均为1,则认为二者为相似特征。但是只有目录深度、一级目录、尾页特征不够准确,很多url这几个特征可能相同但未必是相似的url,因此过滤效果不佳。
目前对于url相似度的计算方法中,存在以下几个缺点:
1、通常为两个url的比较,将特征值简单的设为0和1,当url数量较大时,比较更容易出现误差;
2、计算相似度大多采用编辑距离进行计算,复杂度比较高,当计算量较大时,效率较低,耗费大量时间和空间。
发明内容
本发明实施方式的目的是提供一种针对web入侵检测的输出内容过滤方法及***,本方法使用训练好的TF-IDF模型计算待告警数据的TF-IDF特征矩阵来与历史数据的TF-IDT特征矩阵比较相似度,相似度越大说明待告警数据与历史数据越相似,是入侵行为的概率越小,需要被过滤,可以快速进行过滤,不影响整体程序的进程。
为了实现上述目的,本发明第一方面提供一种针对web入侵检测的输出内容过滤方法,所述方法包括:
对待告警数据进行分词,得到待告警数据对应的数据词条;
使用训练好的TF-IDF模型提取所述数据词条的TF-IDF特征矩阵;
计算所述数据词条的TF-IDF特征矩阵与训练集的TF-IDF特征矩阵的相似度;
若相似度大于或等于相似度阈值,则降低告警分数,否则保持告警分数不变;
所述告警分数表示所述待告警数据的告警等级。
进一步地,所述训练好的TF-IDF模型的训练步骤包括:
计算第一训练集中的URL数据间的相似度,得到不同类URL的对应的相似度矩阵;
逐一对各个所述相似度矩阵进行聚类,得到各个所述相似度矩阵对应的公共URL;
将各个所述相似度矩阵对应的公共URL合并为第二训练集;
使用第二训练集训练基础TF-IDF模型,得到训练好的TF-IDF模型;
所述训练集的TF-IDF特征矩阵通过以下方式得到:
使用训练好的TF-IDF模型从所述第二训练集中提取得到训练集的TF-IDF特征矩阵。TF-IDF特征矩阵表征了关键词在文档或者语料中的重要程度,将各种类型的URL提取出的公共URL用于训练TF-IDF模型,并提取TF-IDF特征矩阵,提取出的特征矩阵表征了不同类的重复流量的特性,待告警数据的TF-IDF特征矩阵也表征了待告警数据的特性。通过分类、聚类等步骤对URL进行多轮特征选择,得到的公共URL更具又代表性,更加准确。
进一步地,所述第一训练集包括设定数量的相似告警数据。
可选的,所述计算第一训练集中的URL数据间的相似度,得到不同类URL的对应的相似度矩阵,包括:
对第一训练集中的各URL数据进行分词,得到各URL数据对应的URL数据词条;
将各URL数据的URL数据词条个数和首字母对应的ASCII码值保存为特征;
将各URL数据的每个URL数据词条对应的ASCII码值相加,得到各URL数据对应的一维向量;
通过所述特征建立字典,将特征相同的URL数据划分为一类;
根据各URL数据对应的一维向量计算各类URL数据的相似度;
将同一类URL数据的相似度组成该类URL数据对应的相似度矩阵。通过分词个数,首个字符和ascii码值可以快速找到可能相似的数据,再将过滤后的数据进行进一步计算,这样避免数据过大导致的分词较多,造成后续计算得到的TF-IDF特征矩阵过大,计算困难的问题,也可以在初期就过滤掉一些没有很多相似url的数据,提高整体的效率。
可选的,所述逐一对各个所述相似度矩阵进行聚类,得到各个所述相似度矩阵对应的公共URL,包括:
逐一将各个相似度矩阵依据预设的密度值进行密度聚类;
记录同一相似度矩阵中密度大于密度阈值的所有URL数据的索引;
根据索引确定相似度矩阵对应URL簇的相同词条;
将所述相同词条合并为相似度矩阵对应的公共URL。根据同一个相似度矩阵内的数据在空间分布上的稠密程度划分为相似簇,再提取出该簇的公共URL,提取出的公共URL表征了该类URL的特征。
可选的,所述相似度包括余弦相似度、皮尔森相关系数、欧几里得距离。
本发明第二方面提供一种针对web入侵检测的输出内容过滤***,所述***包括:
分词单元,用于对待告警数据进行分词,得到待告警数据对应的数据词条;
TF-IDF特征矩阵提取单元,用于使用训练好的TF-IDF模型提取所述数据词条的TF-IDF特征矩阵;
过滤计算单元,用于计算所述数据词条的TF-IDF特征矩阵与训练集的TF-IDF特征矩阵的相似度,并降低相似度大于相似度阈值的待告警数据的告警分数,否则保持告警分数不变;所述告警分数表示所述待告警数据的告警等级。本***能够快速进行过滤,不影响整体程序的进程。
可选的,所述***还包括训练数据处理单元,用于对第一训练集中的URL数据进行处理得到第二训练集。训练数据处理单元用于处理训练数据,对于不同的用户,可以通过更新训练数据,重新训练得到更符合需求的TF-IDF模型和TF-IDF特征矩阵,***适用性更强。
进一步地,所述训练数据处理单元包括:
分词模块,用于对第一训练集中的各URL数据进行分词,得到各URL数据对应的URL数据词条;
分类模块,用于将各URL数据的URL数据词条个数和首字母对应的ASCII码值相同的URL数据划分为同一类;
相似度矩阵计算模块,用于根据各URL数据的每个URL数据词条对应的ASCII码值相加得到的各URL数据对应的一维向量计算各类URL数据的相似度,将同一类URL数据的相似度组成该类URL数据对应的相似度矩阵;
聚类模块,用于逐一将各个相似度矩阵依据预设的密度值进行密度聚类,确定相似度矩阵对应URL簇的相同词条,以及将所述相同词条合并为相似度矩阵对应的公共URL;
第二训练集生成模块,用于将各个所述相似度矩阵对应的公共URL合并为第二训练集。
另一方面,本发明提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请所述的针对web入侵检测的输出内容过滤方法。
通过上述技术方案,本方法通过对历史数据的聚类提取出大量相似URL的公共URL用于训练TF-IDF模型,提取TF-IDF特征矩阵,使用训练好的TF-IDF模型计算待告警数据的TF-IDF特征矩阵来与历史数据的TF-IDT特征矩阵比较相似度,相似度越大说明待告警数据与历史数据越相似,是入侵行为的概率越小,需要被过滤,可以快速进行过滤,不影响整体程序的进程。
本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对本发明实施方式的限制。在附图中:
图1是本发明一种实施方式提供的针对web入侵检测的输出内容过滤方法流程图;
图2是本发明一种实施方式提供的TF-IDF模型训练流程图;
图3是本发明一种实施方式提供的针对web入侵检测的输出内容过滤***框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是本发明一种实施方式提供的针对web入侵检测的输出内容过滤方法流程图。如图1所示,所述方法包括:
对待告警数据进行分词,得到待告警数据对应的数据词条;
使用训练好的TF-IDF模型提取所述数据词条的TF-IDF特征矩阵;
计算所述数据词条的TF-IDF特征矩阵与训练集的TF-IDF特征矩阵的相似度;
若相似度大于或等于相似度阈值,则降低告警分数,否则保持告警分数不变;
所述告警分数表示所述待告警数据的告警等级。通过对历史数据的聚类,提取大量相似的URL特征,训练模型,提取用于参考的TF-IDF特征矩阵,实现在web入侵检测时,过滤掉大量相似的告警,提高入侵检测效率。
需要说明的是,告警分数表示了待告警数据的告警等级,当检测到相似度大于等于相似度阈值时,说明当前告警为重复告警,因此可以相对的减低告警分数,减少告警。
如图2所示,所述训练好的TF-IDF模型的训练步骤包括:
计算第一训练集中的URL数据间的相似度,得到不同类URL的对应的相似度矩阵,所述第一训练集包括设定数量的相似告警数据;
逐一对各个所述相似度矩阵进行聚类,得到各个所述相似度矩阵对应的公共URL;
将各个所述相似度矩阵对应的公共URL合并为第二训练集;
使用第二训练集训练基础TF-IDF模型,得到训练好的TF-IDF模型;
所述训练集的TF-IDF特征矩阵通过以下方式得到:
使用训练好的TF-IDF模型从所述第二训练集中提取得到训练集的TF-IDF特征矩阵。TF-IDF特征矩阵表征了关键词在文档或者语料中的重要程度,将各种类型的URL提取出的公共URL用于训练TF-IDF模型,并提取TF-IDF特征矩阵,提取出的特征矩阵表征了不同类的重复流量的特性,待告警数据的TF-IDF特征矩阵也表征了待告警数据的特性。通过分类、聚类等步骤对URL进行多轮特征选择,得到的公共URL更具又代表性,更加准确。
可选的,所述计算第一训练集中的URL数据间的相似度,得到不同类URL的对应的相似度矩阵,包括:
对第一训练集中的各URL数据进行分词,得到各URL数据对应的URL数据词条;
将各URL数据的URL数据词条个数和首字母对应的ASCII码值保存为特征;
将各URL数据的每个URL数据词条对应的ASCII码值相加,得到各URL数据对应的一维向量;
通过所述特征建立字典,将特征相同的URL数据划分为一类;
根据各URL数据对应的一维向量计算各类URL数据的相似度;
将同一类URL数据的相似度组成该类URL数据对应的相似度矩阵。通过分词个数,首个字符和ascii码值可以快速找到可能相似的数据,再将过滤后的数据进行进一步计算,这样避免数据过大导致的分词较多,造成后续计算得到的TF-IDF特征矩阵过大,计算困难的问题,也可以在初期就过滤掉一些没有很多相似url的数据,提高整体的效率。
在本发明的一个实施例中,通过特殊字符对URL数据进行分词。特殊字符如”/”,”.”,””,”:”,”?”等,例如:/ni123/fsdfs/123.jpg?name:1,分词结果为“ni123”“fsdfs”“123”“jpg”“name”“1”。
可选的,所述逐一对各个所述相似度矩阵进行聚类,得到各个所述相似度矩阵对应的公共URL,包括:
逐一将各个相似度矩阵依据预设的密度值进行密度聚类,预设的密度值根据需要的过滤效果来设定;
记录同一相似度矩阵中密度大于密度阈值的所有URL数据的索引;
根据索引确定相似度矩阵对应URL簇的相同词条;
将所述相同词条合并为相似度矩阵对应的公共URL。根据同一个相似度矩阵内的数据在空间分布上的稠密程度划分为相似簇,再提取出该簇的公共URL,提取出的公共URL表征了该类URL的特征,通过分类、聚类等步骤对URL进行多轮特征选择,得到的公共URL更具又代表性,更加准确。
在一些实施例中采用DBSCAN聚类算法进行密度聚类,在其他一些实施例中,采用MDCA聚类算法进行聚类。
TF-IDF是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。本发明利用TF-IDF模型计算得到的特征矩阵中的词频特征,TF-IDF特征矩阵记录了训练集中的大量重复正样本都有哪些词,依据TF-IDF特征矩阵对待告警数据进行去重过滤,提升去重准确性,降低重复数据量。
可选的,所述相似度包括余弦相似度、皮尔森相关系数、欧几里得距离。
在本发明的一个最优方案中,采用余弦相似度来表征第一训练集中的URL数据间的相似度。
余弦相似度,是通过计算两个向量的夹角余弦值来评估他们的相似度。与欧几里德距离类似,基于余弦相似度的计算方法也是把特征作为n-维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个url之间的相似度值就是两条直线(向量)间夹角的余弦值。因为连接代表url的点与原点的直线都会相交于原点,夹角越小代表两个url越相似,夹角越大代表两个url的相似度越小。
相比于莱文斯坦距离,余弦相似度计算速度快,复杂度低,不会被词的顺序影响。更适用于url可能存在的路径相同的两个url,具体的参数有很大的区别或者参数顺序不用,不同的站点但是里面的结构是相同的等情况。并且训练好模型后可以快速在输出时进行过滤,不影响整体程序的进程。
本发明第二方面提供一种针对web入侵检测的输出内容过滤***,如图3所示,所述***包括:
分词单元,用于对待告警数据进行分词,得到待告警数据对应的数据词条;
TF-IDF特征矩阵提取单元,用于使用训练好的TF-IDF模型提取所述数据词条的TF-IDF特征矩阵;
过滤计算单元,用于计算所述数据词条的TF-IDF特征矩阵与训练集的TF-IDF特征矩阵的相似度,并降低相似度大于相似度阈值的待告警数据的告警分数,否则保持告警分数不变;所述告警分数表示所述待告警数据的告警等级。本***能够快速进行过滤,不影响整体程序的进程。
在一些实施例中,所述***还包括训练数据处理单元,用于对第一训练集中的URL数据进行处理得到第二训练集。训练数据处理单元用于处理训练数据,对于不同的用户,可以通过更新训练数据,重新训练得到更符合需求的TF-IDF模型和TF-IDF特征矩阵,***适用性更强。
可选的,所述训练数据处理单元包括:
分词模块,用于对第一训练集中的各URL数据进行分词,得到各URL数据对应的URL数据词条;
分类模块,用于将各URL数据的URL数据词条个数和首字母对应的ASCII码值相同的URL数据划分为同一类;
相似度矩阵计算模块,用于根据各URL数据的每个URL数据词条对应的ASCII码值相加得到的各URL数据对应的一维向量计算各类URL数据的相似度,将同一类URL数据的相似度组成该类URL数据对应的相似度矩阵;
聚类模块,用于逐一将各个相似度矩阵依据预设的密度值进行密度聚类,确定相似度矩阵对应URL簇的相同词条,以及将所述相同词条合并为相似度矩阵对应的公共URL;
第二训练集生成模块,用于将各个所述相似度矩阵对应的公共URL合并为第二训练集。
另一方面,本发明提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请所述的针对web入侵检测的输出内容过滤方法。
本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上结合附图详细描述了本发明的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。

Claims (6)

1.一种针对web入侵检测的输出内容过滤方法,其特征在于,所述方法包括:
对待告警数据进行分词,得到待告警数据对应的数据词条;
使用训练好的TF-IDF模型提取所述数据词条的TF-IDF特征矩阵;
计算所述数据词条的TF-IDF特征矩阵与训练集的TF-IDF特征矩阵的相似度,包括:
对第一训练集中的各URL数据进行分词,得到各URL数据对应的URL数据词条;
将各URL数据的URL数据词条个数和首字母对应的ASCII码值保存为特征;
将各URL数据的每个URL数据词条对应的ASCII码值相加,得到各URL数据对应的一维向量;
通过所述特征建立字典,将特征相同的URL数据划分为一类;
根据各URL数据对应的一维向量计算各类URL数据的相似度;
将同一类URL数据的相似度组成该类URL数据对应的相似度矩阵;
若相似度大于或等于相似度阈值,则降低告警分数,否则保持告警分数不变;
所述告警分数表示所述待告警数据的告警等级;
所述训练好的TF-IDF模型的训练步骤包括:
计算第一训练集中的URL数据间的相似度,得到不同类URL的对应的相似度矩阵;
逐一对各个所述相似度矩阵进行聚类,得到各个所述相似度矩阵对应的公共URL;
将得到的各个公共URL合并为第二训练集;
使用第二训练集训练基础TF-IDF模型,得到训练好的TF-IDF模型;
所述训练集的TF-IDF特征矩阵通过以下方式得到:
使用训练好的TF-IDF模型从所述第二训练集中提取得到训练集的TF-IDF特征矩阵。
2.根据权利要求1所述的针对web入侵检测的输出内容过滤方法,其特征在于,所述第一训练集包括设定数量的相似告警数据。
3.根据权利要求1所述的针对web入侵检测的输出内容过滤方法,其特征在于,所述逐一对各个所述相似度矩阵进行聚类,得到各个所述相似度矩阵对应的公共URL,包括:
逐一将各个相似度矩阵依据预设的密度值进行密度聚类;
记录同一相似度矩阵中密度大于密度阈值的所有URL数据的索引;
根据索引确定相似度矩阵对应URL簇的相同词条;
将所述相同词条合并为相似度矩阵对应的公共URL。
4.根据权利要求1所述的针对web入侵检测的输出内容过滤方法,其特征在于,所述相似度包括余弦相似度、皮尔森相关系数、欧几里得距离。
5.一种针对web入侵检测的输出内容过滤***,其特征在于,所述***包括:
分词单元,用于对待告警数据进行分词,得到待告警数据对应的数据词条;
TF-IDF特征矩阵提取单元,用于使用训练好的TF-IDF模型提取所述数据词条的TF-IDF特征矩阵;
过滤计算单元,用于计算所述数据词条的TF-IDF特征矩阵与训练集的TF-IDF特征矩阵的相似度,并降低相似度大于相似度阈值的待告警数据的告警分数,否则保持告警分数不变;所述告警分数表示所述待告警数据的告警等级;
所述***还包括训练数据处理单元,用于对第一训练集中的URL数据进行处理得到第二训练集;
所述训练数据处理单元包括:
分词模块,用于对第一训练集中的各URL数据进行分词,得到各URL数据对应的URL数据词条;
分类模块,用于将各URL数据的URL数据词条个数和首字母对应的ASCII码值相同的URL数据划分为同一类;
相似度矩阵计算模块,用于根据各URL数据的每个URL数据词条对应的ASCII码值相加得到的各URL数据对应的一维向量计算各类URL数据的相似度,将同一类URL数据的相似度组成该类URL数据对应的相似度矩阵;
聚类模块,用于逐一将各个相似度矩阵依据预设的密度值进行密度聚类,确定相似度矩阵对应URL簇的相同词条,以及将所述相同词条合并为相似度矩阵对应的公共URL;
第二训练集生成模块,用于将各个所述相似度矩阵对应的公共URL合并为第二训练集。
6.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请权利要求1-4中任一项所述的针对web入侵检测的输出内容过滤方法。
CN202110267964.2A 2021-03-11 2021-03-11 针对web入侵检测的输出内容过滤方法及*** Active CN113094703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110267964.2A CN113094703B (zh) 2021-03-11 2021-03-11 针对web入侵检测的输出内容过滤方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110267964.2A CN113094703B (zh) 2021-03-11 2021-03-11 针对web入侵检测的输出内容过滤方法及***

Publications (2)

Publication Number Publication Date
CN113094703A CN113094703A (zh) 2021-07-09
CN113094703B true CN113094703B (zh) 2024-06-21

Family

ID=76667240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110267964.2A Active CN113094703B (zh) 2021-03-11 2021-03-11 针对web入侵检测的输出内容过滤方法及***

Country Status (1)

Country Link
CN (1) CN113094703B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN106708929B (zh) * 2016-11-18 2020-06-26 广州视源电子科技股份有限公司 视频节目的搜索方法和装置
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN110191096B (zh) * 2019-04-30 2023-05-09 安徽工业大学 一种基于语义分析的词向量网页入侵检测方法
KR102246405B1 (ko) * 2019-07-25 2021-04-30 호서대학교 산학협력단 Tf-idf 기반 벡터 변환 및 데이터 분석 장치 및 방법
CN110442873A (zh) * 2019-08-07 2019-11-12 云南电网有限责任公司信息中心 一种基于cbow模型的热点工单获取方法及装置
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、***及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于奇异值分解的新闻标题聚类研究;文晓艺;郝程程;;计算机技术与发展(第02期);全文 *
基于文本聚类的新闻采集分析***设计与应用;高兆远;程珂;张燕平;段震;;电脑知识与技术(第11期);全文 *

Also Published As

Publication number Publication date
CN113094703A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN110188223B (zh) 图像处理方法、装置及计算机设备
US8630972B2 (en) Providing context for web articles
Lu et al. Document retrieval from compressed images
CN105335422B (zh) 舆情信息的告警方法及装置
CN106909575B (zh) 文本聚类方法和装置
CN112732655B (zh) 针对无格式日志的在线解析方法及***
CN113807073B (zh) 文本内容异常检测方法、装置以及存储介质
CN110909540A (zh) 短信垃圾新词识别方法、装置及电子设备
CN109359481B (zh) 一种基于bk树的反碰撞搜索约减方法
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
Cui et al. Robust shoeprint retrieval method based on local‐to‐global feature matching for real crime scenes
Yu et al. An improved classifier chain algorithm for multi-label classification of big data analysis
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
CN113094703B (zh) 针对web入侵检测的输出内容过滤方法及***
CN117633780A (zh) 一种结合注意力与CNN-BiLSTM的入侵检测方法
CN112199388A (zh) 陌电识别方法、装置、电子设备及存储介质
CN114745155B (zh) 一种网络异常流量检测方法、装置及存储介质
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及***
CN115834156A (zh) 一种基于web访问日志的异常行为检测方法
CN115757896A (zh) 向量检索方法、装置、设备及可读存储介质
CN106202562B (zh) 一种降低敏感信息误判率的方法
CN112528021B (zh) 一种模型训练方法、模型训练装置及智能设备
CN113326688A (zh) 一种基于思想政治词语查重处理方法和装置
CN113590436A (zh) 一种告警方法及装置
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant