CN105049247B - 一种网络安全日志模板抽取方法及装置 - Google Patents

一种网络安全日志模板抽取方法及装置 Download PDF

Info

Publication number
CN105049247B
CN105049247B CN201510391607.1A CN201510391607A CN105049247B CN 105049247 B CN105049247 B CN 105049247B CN 201510391607 A CN201510391607 A CN 201510391607A CN 105049247 B CN105049247 B CN 105049247B
Authority
CN
China
Prior art keywords
log
template
word
format
network security
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510391607.1A
Other languages
English (en)
Other versions
CN105049247A (zh
Inventor
亚静
柳厅文
张浩亮
时金桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201510391607.1A priority Critical patent/CN105049247B/zh
Publication of CN105049247A publication Critical patent/CN105049247A/zh
Application granted granted Critical
Publication of CN105049247B publication Critical patent/CN105049247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种网络安全日志模板抽取方法及装置。该方法的步骤包括:1)对原始的网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;2)对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;3)对于每一类中的日志,提取出日志中描述格式的模板词,得到日志格式的模板。具体地,采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类,利用LDA Gibbs sampling算法提取出日志中描述格式的模板词。该装置包括数据清洗单元、信息聚类单元、模板提取单元。本发明不需要任何先验知识,可以自动获取网络安全日志格式的模板,能够减小***负载,提高运算效率和准确性。

Description

一种网络安全日志模板抽取方法及装置
技术领域
本发明涉及信息安全领域,尤其涉及一种网络安全日志模板抽取方法及装置,该方案不依赖于任何先验知识,可以自动抽取出描述未知网络安全日志格式的模板。
背景技术
网络安全日志,包括操作***产生的***日志和网络安全设备产生的报警日志,记录了网络环境中发生的各种安全事件,为网络异常诊断和网络攻击威胁的发现提供重要的线索。在网络安全日志分析***中,日志格式解析是一个必不可少的步骤。因此,抽取网络安全日志模板,对日志分析有着重要的意义。目前,在一些比较成熟的网络安全日志分析产品中,如OSSIM、Snort、OSSEC等,通常采集基于正则表达式的日志解析方法。它们获取日志模板的方法包括两种:一种是通过阅读相关技术文档,获得源日志的格式模板说明;另一种是通过人工去分析源日志的格式,手工编写日志格式模板。这种日志模板提取的方法,只适用于已知格式模板的日志。当大量格式未知的日志混杂在一起,并且没有相关技术文档说明时,很难通过人工分析的方法得到描述日志格式的模板。
随着网络通信技术的发展,部署在网络环境中的设备和***服务都越来越多,越来越复杂化,从而导致网络中产生的日志呈现“海量”、“异构”的特点。虽然很多日志格式可以通过相关的技术文档获得,日志格式可能会随着***的更新或升级而改变。并且很多安全产品厂商的日志格式并不对外公开,对于网络中海量未知格式的日志,分析人员很难人工去抽取出所有的日志模板。
发明内容
本发明的目的在于提供一种网络安全日志模板抽取方法及装置,使得日志分析人员能够不需要任何先验知识,可以自动获取网络安全日志格式的模板。从而,解决前面提到的在网络安全日志格式提取中遇到的问题。
为实现上述目的,本发明采用的技术方案如下:
一种网络安全日志模板抽取方法,包括如下步骤:
1)对原始的网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;
2)对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;
3)对于每一类中的日志,提取出日志中描述格式的模板词,得到日志格式的模板。
进一步地,步骤1)在数据清洗时,根据时间和IP地址具有的特定的格式,采用正则表达式匹配去掉对应的字段。
进一步地,步骤2)采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类。
进一步地,步骤3)利用LDA Gibbs sampling算法提取出日志中描述格式的模板词,仅保留原始日志中的模板词,得到日志格式。
进一步地,步骤3)将每个主题中分布最大的单词作为模板词,用来描述日志的格式;在得到模板词后,把原始日志中不属于模板词的单词用**代替,得到描述日志格式的正则表达式。
一种网络安全日志模板抽取装置,其包括:
数据清洗单元,用于对原始的网络安全日志进行数据清洗,过滤其中的时间和IP地址;
信息聚类单元,用于对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;
模板提取单元,用于提取每一类的日志中描述格式的模板词,得到日志格式的模板。
进一步地,所述信息聚类单元采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类。
进一步地,所述模板提取单元利用LDA Gibbs sampling算法提取出日志中描述格式的模板词,仅保留原始日志中的模板词,得到日志格式。
利用本发明提供的方法提取网络安全日志的格式,具有以下优点:
1、该方法不需要任何网络安全领域的先验知识,就可以得到描述未知网络安全日志格式的模板;
2、该方法解决了对包含不同格式的海量多源异构网络安全日志模板的提取,为日志分析预处理提供有力的支撑;
3、在提取描述日志格式的模板单词之前,先进行聚类处理,然后对每一类网络安全日志进行模板提取,从而减小***负载,提高运算效率;
4、该方法得到的网络安全日志模板可以用于日志分析中的日志解析,比查阅技术说明文档或手工分析准确率更高。
附图说明
图1是本发明方法的数据流处理流程图。
图2是具体实例中网络安全日志模板抽取方法的流程图。
图3是SSH进程日志信息示意图。
图4是进行数据清洗后的日志信息示意图。
图5是聚类结果示意图。
图6是模板抽取后得到的描述日志格式的正则表达式示意图。
图7是具体实例中不同主题数量的召回率曲线图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
本发明提供的网络安全日志模板抽取方法,其主要步骤包括数据清洗、信息聚类和模板提取,如图1所示。其中,数据清洗是首先对日志数据中具有特定格式的字段,包括日期、IP地址等,进行过滤;信息聚类是对清洗之后的数据,利用聚类算法把具有相似格式的日志划分到一个类中;模板提取是对于每一个类中的日志,提取出日志中描述格式的模板词,仅保留原始日志中的模板词,得到日志格式。
1.数据清洗
该方法中的数据清洗,主要是为了过滤掉具有特定格式的字段,包括时间和IP地址。该方法主要是对数据清洗后剩余的信息部分进行模板提取。
在自然语言中,时间和IP地址具有特定的格式,本方法中采用正则表达式匹配去掉对应的字段。
IP地址的正则表达式可以是:
((?:(?:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d)))\.){3}(?:25[0-5]|2[0-4]\d|((1\d{2})|([1-9]?\d))))
时间2015-12-2112:21:10.的正则表达式可以是:
(\d{4})-(0\d{1}|1[0-2])-(0\d{1}|[12]\d{1}|3[01])(0\d{1}|1\d{1}|2[0-3]):[0-5]\d{1}:([0-5]\d{1})
下表中列出几种常用的正则表达式:
表1 常用正则表达式
数据清洗的输入是原始的网络安全日志,输出的是过滤掉时间和IP地址的日志信息。
2.信息聚类
该方法中提到的信息聚类,输入是清洗之后不包含时间和IP地址的日志信息,输出是包含相似格式的多个日志信息聚类。
优选地,该方法采用DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)聚类算法,对相似格式的日志进行聚类;选取日志中的单词组成作为日志特征向量,把每一条日志转化为多维空间里的一个点,进行聚类。
DBSCAN算法是一种基于密度的聚类算法,不需要事先知道要形成的簇类的数量,并且可以发现噪音点。还可以采用的聚类方法有OPTICS算法(Ordering Points toidentify the clustering structure),OPTICS并不显示的产生结果类簇,而是为聚类分析生成一个增广的簇排序,可以得到基于任何半径Ε和minPts的DBSCAN算法的聚类结果。
原始日志中出现的每个单词作为一个特征,假设输入的M条日志中共有W个不同的单词,0表示不存在该特征,1表示存在该特征。每一条日志信息可以转化为由0和1组成的W维特征向量,表示空间的一个点。得到空间的M个点,利用DBSCAN算法把M个点进行聚类,得到的每一个聚类中都包含格式相似的日志。
上面以单词作为日志的特征,在其它实施例中,还可以采用N-Gram(汉语语言模型)把日志划分为由长度为N的字段组成的有序队列,每一个长度为N的字段作为日志的特征,最终得到的模板词就是由多个长度为N的字段组成的单词序列。
3.模板提取
对于每一个类中的日志,利用LDA(Latent Dirichlet allocation,隐含狄利克雷分布)Gibbs sampling吉布斯采样算法提取出日志中描述格式的模板词,仅保留原始日志中的模板词,得到日志格式。
该方法中提到的模板提取,输入是信息聚类得到的一个包含相似格式的聚类。利用LDA Gibbs sampling算法提取出一类日志中的模板单词(主题),得到的模板单词用来描述日志的格式。优选地,采用LDA算法得到每个主题中分布最大的单词作为模板单词。得到模板单词后,将原始日志中不属于模板单词的词用**代替,即可得到表示原始日志格式的正则表达式。
下面提供一个具体应用实例。该实例以Linux***中的SSH进程日志为例,抽取SSH进程产生的不同格式的网络日志模板。图2是该实例的方法流程图。图3是SSH进程日志信息示意图,图4是进行数据清洗后的日志信息示意图,图5是聚类结果示意图,图6是模板抽取后得到的描述日志格式的正则表达式示意图。下面具体说明各个步骤。
1)首先对输入的包含多种格式的日志进行数据清洗,利用正则表达式,匹配正则表达式:^(?:(((Jan(uary)?|Ma(r(ch)?|y)|Jul(y)?|Aug(ust)?|Oct(ober)?|Dec(ember)?)\31)|((Jan(uary)?|Ma(r(ch)?|y)|Apr(il)?|Ju((ly?)|(ne?))|Aug(ust)?|Oct(ober)?|(Sept|Nov|Dec)(ember)?)\(0?[1-9]|([12]\d)|30))|(Fe b(ruary)?\(0?[1-9]|1\d|2[0-8]|(29(?=,\((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00)))))))\(([0-1]?[0-9])|([2][0-3])):([0-5]?[0-9])(:([0-5]?[0-9]))?表示日期,例如:Mar 1209:08:31,和\d+\.\d+\.\d+\.\d+表示IP地址,如:192.168.120.11,
对于匹配成功的字段进行过滤,剩下部分输出到步骤2)。
2)假设输入的数据为M条日志记录,包含W个不同的单词,定义每个单词表示日志格式的一个特征,把输入的数据转换为M个W维的向量,表示空间的M个点;
利用DBSCAN算法对M个点进行信息聚类,设定DBSCAN算法中的参数半径Ε=2.5,minPts=10,得到10个聚类,20个噪音数据,10个聚类输出到步骤4),噪音数据去掉;DBSCAN算法的伪代码如下:
3)对输入的每一个聚类中的日志,进行LDA模板词提取,本方法采用LDA模型的Gibbs Sampling算法,算法公式为:
其中,zi表示要提取的模板词,w为日志中的单词,W为单词的个数,K为模板词的个数,α、β为LDA算法中需要设定的两个参数,k为模板词zi对应的主题,m为每一条日志数据,为主题k对应的单词数量,为一条日志数据中包含的主题个数。
设定LDA算法中的参数α=0.1,β=0.01,使得算法的perplexity值(复杂度)最小,迭代次数为1500,使得算法达到收敛;
复杂度越小,算法越收敛,计算复杂度perplexity的公式:
其中,Dtest为测试的日志数据集,M为日志数据的条数,m为每一条日志数据,p为该单词在所有主题分布值和该单词所在文本的主题分布的乘积,wm为一个单词,Nm为一条日志数据中包含的单词数量。
对于LDA算法得到的每一个主题中,选取分布最大的词作为模板词,用来描述日志的格式;将原始日志中不属于模板词的单词替换为**,得到描述日志格式的正则表达式。
本发明的作用在于不依赖于任何先验知识,自动抽取出描述未知网络安全日志格式的模板。为了验证本发明的技术效果,利用已知格式模板的SSH进程日志作为实验数据,验证该方法的有效性。
在真实运行使用的网络环境中采集SSH进程日志1746条,经过人工分析,其中包含了13种格式,20个模板词。采用本发明中的方法和装置对日志进行模板提取,利用DBSCAN算法对1746条日志进行信息聚类,设定DBSCAN算法中的参数半径Ε=2.5,minPts=10,得到10个聚类,20个噪音数据。对每一个聚类中的日志,进行LDA模板词提取,设定不同的主题数量,计算召回率recall=Nre/Nr,其中Nre表示实验中得到的模板词个数,Nr表示实际的模板词个数,即20。召回率如图7所示,可以看到当取到合适的主题个数时,召回率可以达到1,即可以得到日志中所有的模板词。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (5)

1.一种网络安全日志模板抽取方法,其特征在于,包括如下步骤:
1)对原始的包含不同格式的海量多源异构网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;
2)采用DBSCAN算法或者OPTICS算法对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;在聚类时,选取日志中的单词组成日志特征向量,把每一条日志转化为多维空间里的一个点,进行聚类;或者利用N-Gram模型,把日志划分为由多个长度为N的字段组成的序列,选取长度为N的字段组成日志特征向量,把每一条日志转化为多维空间里的一个点,进行聚类;
3)对于每一类中的日志,利用LDA Gibbs sampling算法,将每个主题中分布最大的单词作为模板词,用来描述日志的格式,提取出日志中描述格式的模板词,得到日志格式的模板。
2.如权利要求1所述的方法,其特征在于:步骤1)在数据清洗时,根据时间和IP地址具有的特定的格式,采用正则表达式匹配去掉对应的字段。
3.如权利要求1所述的方法,其特征在于:步骤3)在得到模板词后,把原始日志中不属于模板词的单词用**代替,得到描述日志格式的正则表达式。
4.一种网络安全日志模板抽取装置,其特征在于,包括:
数据清洗单元,用于对原始的包含不同格式的海量多源异构网络安全日志进行数据清洗,过滤其中的时间和IP地址;
信息聚类单元,用于对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;所述信息聚类单元采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类;在聚类时,选取日志中的单词组成日志特征向量,把每一条日志转化为多维空间里的一个点,进行聚类;或者利用N-Gram模型,把日志划分为由多个长度为N的字段组成的序列,选取长度为N的字段组成日志特征向量,把每一条日志转化为多维空间里的一个点,进行聚类;
模板提取单元,用于利用LDA Gibbs sampling算法,将每个主题中分布最大的单词作为模板词,用来描述日志的格式,提取每一类的日志中描述格式的模板词,得到日志格式的模板。
5.如权利要求4所述的装置,其特征在于:所述模板提取单元在得到模板词后,把原始日志中不属于模板词的单词用**代替,得到描述日志格式的正则表达式。
CN201510391607.1A 2015-07-06 2015-07-06 一种网络安全日志模板抽取方法及装置 Active CN105049247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510391607.1A CN105049247B (zh) 2015-07-06 2015-07-06 一种网络安全日志模板抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510391607.1A CN105049247B (zh) 2015-07-06 2015-07-06 一种网络安全日志模板抽取方法及装置

Publications (2)

Publication Number Publication Date
CN105049247A CN105049247A (zh) 2015-11-11
CN105049247B true CN105049247B (zh) 2019-04-26

Family

ID=54455469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510391607.1A Active CN105049247B (zh) 2015-07-06 2015-07-06 一种网络安全日志模板抽取方法及装置

Country Status (1)

Country Link
CN (1) CN105049247B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9973521B2 (en) * 2015-12-28 2018-05-15 International Business Machines Corporation System and method for field extraction of data contained within a log stream
CN107493275A (zh) * 2017-08-08 2017-12-19 北京盛华安信息技术有限公司 异构网络安全日志信息的自适应提取和分析方法及***
CN107465691A (zh) * 2017-09-14 2017-12-12 西安电子科技大学 基于路由器日志分析的网络攻击检测***及检测方法
CN108717461B (zh) * 2018-05-25 2021-03-26 平安科技(深圳)有限公司 海量数据结构化方法、装置、计算机设备及存储介质
CN110659175A (zh) * 2018-06-30 2020-01-07 中兴通讯股份有限公司 日志的主干提取方法、分类方法、设备及存储介质
CN109064179B (zh) * 2018-07-11 2022-05-20 成都理工大学 移动支付安全态势感知***
CN110858206B (zh) * 2018-08-21 2023-06-16 苏州迈科网络安全技术股份有限公司 基于hostname数据的终端特征提取方法
CN109842612B (zh) * 2018-12-18 2021-09-03 中国科学院计算机网络信息中心 基于图库模型的日志安全分析方法、装置及存储介质
CN109981625B (zh) * 2019-03-18 2021-08-27 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于在线层次聚类的日志模板抽取方法
CN110096411A (zh) * 2019-03-22 2019-08-06 西安电子科技大学 基于关联分析和时间窗的日志模板快速提取方法及***
CN111160021A (zh) * 2019-10-12 2020-05-15 华为技术有限公司 日志模板提取方法及装置
CN111221702B (zh) * 2019-11-18 2024-02-27 上海维谛信息科技有限公司 基于日志分析的异常处理方法、***、终端及介质
CN111143312A (zh) * 2019-12-24 2020-05-12 广东电科院能源技术有限责任公司 一种电力日志的格式解析方法、装置、设备和存储介质
CN113128213A (zh) * 2019-12-30 2021-07-16 华为技术有限公司 日志模板提取方法及装置
CN111708860A (zh) * 2020-06-15 2020-09-25 北京优特捷信息技术有限公司 信息提取方法、装置、设备及存储介质
US11366712B1 (en) 2020-12-02 2022-06-21 International Business Machines Corporation Adaptive log analysis
CN112463772B (zh) * 2021-02-02 2022-05-27 北京信安世纪科技股份有限公司 日志处理方法、装置、日志服务器及存储介质
CN113159971A (zh) * 2021-05-20 2021-07-23 中国工商银行股份有限公司 信息提取方法、装置、电子设备及可读存储介质
CN113590421B (zh) * 2021-07-27 2024-04-26 招商银行股份有限公司 日志模板提取方法、程序产品及存储介质
CN115686853A (zh) * 2022-11-03 2023-02-03 北京优特捷信息技术有限公司 一种日志要素提取方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645336A (zh) * 2005-01-20 2005-07-27 上海复旦光华信息科技股份有限公司 基于模板的异构日志信息自动提取与分析方法
CN101521606A (zh) * 2009-04-10 2009-09-02 北京星网锐捷网络技术有限公司 日志信息处理方法、日志服务器与通信***
CN103577307A (zh) * 2013-11-07 2014-02-12 浙江中烟工业有限责任公司 基于xml规则模型的防火墙日志自动提取与分析方法
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机***故障诊断方法及装置
CN104104734A (zh) * 2014-08-04 2014-10-15 浪潮(北京)电子信息产业有限公司 日志分析方法和装置
CN104539626A (zh) * 2015-01-14 2015-04-22 中国人民解放军信息工程大学 一种基于多源报警日志的网络攻击场景生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104461842B (zh) * 2013-09-23 2018-02-16 伊姆西公司 基于日志相似性来处理故障的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645336A (zh) * 2005-01-20 2005-07-27 上海复旦光华信息科技股份有限公司 基于模板的异构日志信息自动提取与分析方法
CN101521606A (zh) * 2009-04-10 2009-09-02 北京星网锐捷网络技术有限公司 日志信息处理方法、日志服务器与通信***
CN103577307A (zh) * 2013-11-07 2014-02-12 浙江中烟工业有限责任公司 基于xml规则模型的防火墙日志自动提取与分析方法
CN103761173A (zh) * 2013-12-28 2014-04-30 华中科技大学 一种基于日志的计算机***故障诊断方法及装置
CN104104734A (zh) * 2014-08-04 2014-10-15 浪潮(北京)电子信息产业有限公司 日志分析方法和装置
CN104539626A (zh) * 2015-01-14 2015-04-22 中国人民解放军信息工程大学 一种基于多源报警日志的网络攻击场景生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Towards Query Log Based Personalization Using Topic Models;Mark J. Carman等;《CIKM"10》;20101231;第1849-1852页 *

Also Published As

Publication number Publication date
CN105049247A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN105049247B (zh) 一种网络安全日志模板抽取方法及装置
CN106055608B (zh) 自动采集和分析交换机日志的方法和装置
US10567409B2 (en) Automatic and scalable log pattern learning in security log analysis
CN109902297B (zh) 一种威胁情报生成方法及装置
CN107766318B (zh) 一种关键词的抽取方法、装置及电子设备
CN110413864A (zh) 一种网络安全情报采集方法、装置、设备及存储介质
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
US20140019586A1 (en) Methods for format preserving and data masking and devices thereof
CN105786950A (zh) 一种处理数据的方法及装置
US20150205862A1 (en) Method and device for recognizing and labeling peaks, increases, or abnormal or exceptional variations in the throughput of a stream of digital documents
CN108228664B (zh) 非结构化数据处理方法及装置
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
CN107391684B (zh) 一种威胁情报生成的方法及***
EP3009942A1 (en) Social contact message monitoring method and device
CN110414229A (zh) 操作命令检测方法、装置、计算机设备及存储介质
CN108241611B (zh) 一种关键词提取方法以及提取设备
CN106294689B (zh) 一种基于文本类特征选择进行降维的方法和装置
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测***、电子设备
Jabeen et al. Divided we stand out! Forging Cohorts fOr Numeric Outlier Detection in large scale knowledge graphs (CONOD)
CN105786929A (zh) 一种信息监测方法及装置
Shah et al. Automated log analysis and anomaly detection using machine learning
EP4208804A1 (en) Using neural networks to process forensics and generate threat intelligence information
CN108920676B (zh) 一种处理图数据的方法及***
CN109284507A (zh) 一种过滤垃圾用户和抽取短文本话题的方法
KR101865317B1 (ko) 데이터 분산처리 시스템을 위한 빅 데이터의 전처리 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant