CN110086749A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN110086749A
CN110086749A CN201810075020.3A CN201810075020A CN110086749A CN 110086749 A CN110086749 A CN 110086749A CN 201810075020 A CN201810075020 A CN 201810075020A CN 110086749 A CN110086749 A CN 110086749A
Authority
CN
China
Prior art keywords
network
data area
data
access
acquisition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810075020.3A
Other languages
English (en)
Inventor
刘添龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810075020.3A priority Critical patent/CN110086749A/zh
Publication of CN110086749A publication Critical patent/CN110086749A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请实施例提供了一种数据处理方法及装置。所述方法包括:获取表征网络访问的数据集合,识别所述数据集合中满足预设条件的数据区域,根据所述数据区域,确定是否阻止所述数据区域对应的网络访问。本申请能够通过化整为零的方式对表征网络访问的数据集合进行初步筛选,再根据筛选得到的具有网络攻击风险的数据区域对网络访问进行进一步的精准识别,与通过单一地将访问地址与白名单或黑名单中的访问地址进行精准匹配来对网络访问进行识别相比,避免了不精准匹配就难以对网络访问进行识别的问题,同时也不需要人工对白名单或黑名单进行维护,提高了对网络攻击进行检测的准确性和可靠性。

Description

数据处理方法及装置
技术领域
本申请涉及互联网技术领域,特别是涉及一种数据处理方法及装置。
背景技术
网络技术的发展给用户的生产和生活带来了极大的便利。用户可以通过电脑或手机等终端,对远程的服务器进行网络访问,从而获取从网络中获取各项服务。但在实际应用中,网络访问也可能会被恶意利用,对网络中的网络设备进行网络攻击,给进行网络访问的用户带来损失或导致网络设备损坏,因此,亟需一种数据处理方法来对网络访问进行检测。
现有技术中,可以事先收集并存储网络访问的访问地址至白名单或黑名单,其中,白名单中包括安全的访问地址,黑名单中包括可能存在网络攻击的网络访问的访问地址,并能够将用于网络访问的访问地址与黑名单或白名单中存储的访问地址进行比较,从而确定该网络访问是否包括网络攻击。但由于白名单和黑名单中包括的访问地址有限,且需要将进行网络访问的访问地址与白名单或黑名单中的访问地址精准匹配才能够对网络访问进行检测,因此识别的可靠性和准确性较低,很可能会造成误报和漏报的问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置。
本申请提供了一种数据处理方法,包括:
获取表征网络访问的数据集合;
识别所述数据集合中满足预设条件的数据区域;
根据所述数据区域,确定是否阻止所述数据区域对应的网络访问。
可选的,所述获取表征网络访问的数据集合包括:
提取网络访问的访问地址;
确定所述访问地址所映射的数据集合。
可选的,所述确定所述访问地址所映射的数据集合包括:
确定所述访问地址中各个字符对应的字符向量;
将多个字符对应的字符向量组合为访问地址对应的数据矩阵作为所述数据集合。
可选的,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
采用第二神经网络模型对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型;
采用所述目标攻击风险类型对应的第三神经网络模型对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
可选的,在所述确定所述访问地址中各个字符对应的字符向量之前,所述确定所述访问地址所映射的数据集合还包括:
去除所述访问地址中的无意义字符。
可选的,所述获取表征网络访问的数据集合包括:
获取表征多个网络访问的数据集合;
所述识别所述数据集合中满足预设条件的数据区域包括:
识别所述数据集合中满足预设条件的对应多个网络访问的数据区域。
可选的,所述识别所述数据集合中满足预设条件的数据区域包括:
将数据在所述数据集合中所处位置划分为多个数据区域;
从所述多个数据区域中识别满足所述预设条件的数据区域。
可选的,所述识别所述数据集合中满足预设条件的数据区域还包括:
根据所处位置信息,对满足所述预设条件的数据区域进行合并。
可选的,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型;
对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
可选的,在所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问之前,所述方法还包括:
确定所述数据区域在网络访问对应的访问地址中映射的地址片段,作为具有网络攻击风险的地址片段;
所述对所述数据区域进行语义识别包括:
对所述具有网络攻击风险的地址片段进行语义识别;
所述对所述数据区域进行语法识别包括:
对所述具有网络攻击风险的地址片段进行语法识别,确定所述具有网络攻击风险的地址片段是否符合所述目标攻击风险类型具有的语法规则。
可选的,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
若确定所述网络访问包括网络攻击,则阻断所述网络访问。
可选的,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
若确定所述网络访问不包括网络攻击,则放行所述网络访问。
本申请还提供了一种数据处理装置,包括:
数据集合获取模块,用于获取表征网络访问的数据集合;
数据区域识别模块,用于识别所述数据集合中满足预设条件的数据区域;
网络访问识别模块,用于根据所述数据区域,确定是否阻止所述数据区域对应的网络访问。
本申请还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述一个或多个的方法。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述一个或多个的方法。
在本申请实施例中,能够获取得到表征网络访问的数据集合,该数据集合能够说明与该网络访问的相关信息,识别该数据集合中是否包括满足预设条件的数据区域,即可识别该数据集合中具有网络攻击风险的数据区域,进而根据该数据区域确定是否阻止该数据区域对应的网络访问,也即是,能够通过化整为零的方式对说明该相关信息的数据集合进行初步筛选,再根据筛选得到的具有网络攻击风险的数据区域对网络访问进行进一步的精准识别,与通过单一地将访问地址与白名单或黑名单中的访问地址进行精准匹配来对网络访问进行识别相比,避免了不精准匹配就难以对网络访问进行识别的问题,同时也不需要人工对白名单或黑名单进行维护,提高了对网络攻击进行检测的准确性和可靠性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其它的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例一的一种数据处理方法流程图;
图2示出了根据本申请一个实施例二的一种数据处理方法流程图;
图3示出了根据本申请一个实施例的一种数据处理方法流程图;
图4示出了根据本申请一个实施例三的一种数据处理装置的结构框图;
图5示出了根据本申请一个实施例的一种示例性***的结构框图。
具体实施方式
下面将参照附图更详细地描述本申请示例性实施例。虽然附图中显示了本申请示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
为了便于本领域技术人员深入理解本申请实施例,以下将首先介绍本申请实施例中所涉及的专业术语的定义。
网络访问,又称互联网访问,指两台或以上的网络设备(比如计算机)通过互联网链接或传输数据至对方的过程。
网络访问的数据集合可以体现为字符序列或矩阵,能够用于表征被访问的网络设备的域名、IP(Internet Protocol,网络协议)地址、MAC(Media Access Control媒体访问控制)地址、URI(Uniform Resource Identifier,统一资源标识符)、URL(UniformResource Locator,统一资源定位符)或URN(Uniform Resource Name,统一资源名称)等信息中的至少一种。其中,URI用于唯一的标识一个资源,URL和URN为URI的子集,URL用于用过获取路径的形式标识一个资源,URN用于通过名字来表示资源,且该资源的URN不会因为存储该资源的位置改变而发生变化。当然,在实际应用中,还可以用于表征其它与网络访问有关的信息。
数据集合可以包括上述域名、IP地址、MAC地址、URI、URL或URN等信息,或者包括由上述信息进行归约或映射等形式转换之后所得到的信息,从而表征一个或以上的网络访问。比如,该数据集合可以对应多个URL,从而表征多个网络访问。数据区域为数据集合中部分数据所在的区域,在本申请实施例中,若该数据区域满足预设条件,则该数据可能包括具有网络攻击风险的数据,相应的,该数据集合所表征的网络访问可能会包括网络攻击。
其中,由于数据集合可以表征一个或多个网络访问,也即是该数据集合中所包括的数据可以对应一个或多个的网络访问,相应的,数据区域包括该数据集合中的部分数据,因此,数据区域也可以对应多个网络访问指令。也即是,在本申请实施例中,可以通过对一个数据集合来对一个或多个的网络访问进行检测。
归约是一种解决问题的方式,能够将一个复杂或未知的问题转换为一个或多个简单或已知的问题,比如将一个较长或较为复杂的字符序列转换另一较短或较为简单的字符序列。映射用于将一种形式的数据转换为另一种形式的数据。当然,在实际应用中,还可以通过其它方式对上述信息进行形式转换。
网络攻击可以用于窃取数据或者对网络设备造成损坏,常见的网络攻击可以包括CSS(Cross Site Scripting,跨站脚本)攻击、CSRF(Cross-Site Request Forgeries,跨站点请求伪造)攻击、SQL(Structured Query Language,结构式查询语言)注入攻击、DoS(Denial of Service,拒绝服务)攻击或重定向攻击等。因此网络攻击的识别具有重要意义,通过识别网络访问是否为网络攻击,可以预防或减少所受到网络攻击的可能,提高网络设备和网络的安全性,确保用户的数据安全。
网络设备可以包括手机、智能手表、VR(Virtual Reality,虚拟现实)设备、平板电脑、电子书阅读器、MP3(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。该网络设备可以包括下图3或4的任一装置,实施1-3的任一方式,从而对网络访问进行检测。
客户端可以包括至少一个应用程序。该客户端能够运行在定位设备中,从而实现本申请实施例提供的数据处理方法。
插件可以包括在运行于定位设备的应用程序中,从而实现本申请实施例提供的数据处理方法。
本申请实施例可以应用于对网络访问进行检测的场景中。由于在现有技术中单一地依赖白名单或黑名单的检测方式很容易造成误报或漏报,检测的准确性和可靠性较低,因此为了解决这一问题,本申请实施例提供了一种数据处理方法,能够获取表征网络访问的数据集合,包括前述中的域名、IP地址、MAC地址、URI、URL和URN中的至少一个,对该数据集合进行识别,以得到该数据集合中满足预设条件的数据区域,对于符合该预设条件的数据区域,由于该数据区域中可能包括具有网络攻击风险的数据,且该数据集合所表征的网络访问可能包括网络攻击,因此,可以根据该数据区域,进一步判断是否阻止该数据区域对应的网络访问。即能够通过化整为零的方式,按照预设条件对表征网络访问的数据集合进行初步筛选,从而筛选得到可能包括具有网络攻击风险的数据的数据区域,再根据筛选得到的数据区域确定是否阻止该数据区域对应的网络访问,与通过单一地将访问地址与白名单或黑名单中的访问地址进行精准匹配来对网络访问进行识别相比,避免了不精准匹配就难以对网络访问进行识别的问题,同时也不需要人工对白名单或黑名单进行维护,提高了对网络攻击进行检测的准确性和可靠性。
当然,在实际应用中,本申请实施例所提供的数据处理方法,也可以不仅仅局限于识别网络访问是否包括网络攻击,进而确定是否阻止该网络访问的,而是能够识别用于任何目的的网络访问,或者,本申请实施例所提供的的数据处理方法还能够用于对表征其它信息的数据集合进行处理,比如识别一篇文章中是否包括某些特定含义的文字片段等。
本申请实施例可以实现为客户端或插件,网络设备可以从远程服务器获取并安装该客户端或插件,从而通过该客户端或插件来实施本申请实施例所提供的数据处理方法。当然,本申请实施例也可以以数据处理软件的形式部署在远程服务器上,定位设备可以通过访问该远程服务器从而获取数据处理服务。
实施例一
参照图1,示出了根据本申请一个实施例的一种数据处理方法流程图,具体步骤包括:
步骤101,获取表征网络访问的数据集合。
网络访问可能会包括网络攻击,给网络设备、网络和用户带来损失,由于网络访问的数据集合能够说明该网络访问的相关信息,因此,为了便于后续根据表征网络访问的数据集合,对网络访问进行识别,从而减少受到网络攻击的可能,提高网络设备和网络的安全性,可以获取表征网络访问的数据集合。
网络设备可以从网络请求中获取表征网络访问的数据集合。网络设备可以对发出的网络请求和/或接收到的网络请求进行监听,从而获取得到网络请求以及该网络请求中所携带的数据作为表征网络访问的数据集合。
其中,对于个人电脑等网络设备,可以作为终端发起网络访问,因此,该网络设备可以只对发出的网络请求进行监听;而对于服务器等网络设备,能够作为被访问的对象,即可能会接收到来自多个终端的网络访问,因此该网络设备可以只对接收到的网络请求进行监听。
网络请求基于网络传输协议,可以包括基于HTTP(Hyper Text TransferProtocol,超文本传输协议)、FTP(File Transfer Protocol,文件传输协议)或ICMP(Internet Control Message Protocol,互联网控制报文协议)的请求,当然,在实际应用中,该网络请求还可以包括基于其它网络传输协议的请求。
步骤102,识别所述数据集合中满足预设条件的数据区域。
由前述可知,网络访问可以通过数据集合来表征,则通过分析数据集合是否具有网络攻击风险对应的特征即可识别网络访问是否包括网络攻击,因此,可以事先根据数据集合中具有网络攻击风险的数据所具有的特征,和/或不具有网络攻击风险的数据所具有的特征,设置预设条件,然后按照预设条件对该数据集合进行识别,从而得到满足该预设条件的数据区域,该数据区域中即包括可能具有网络攻击风险的数据,以便于后续进一步根据该区域内的数据识别网络访问是否包括网络攻击,确定是否阻止网络访问,实现了通过化整为零的方式对数据集合进行初步筛选,便于通过后续直接根据筛选得到的数据区域确定是否对阻止网络访问,与通过单一地将访问地址与白名单或黑名单中的访问地址进行精准匹配来对网络访问识别相比,避免了不精准匹配就难以对网络访问进行识别的问题,即能够对网络访问进行更加精准的识别,同时也不需要人工对白名单或黑名单进行维护,因此提高了对网络攻击进行检测的准确性和可靠性。
预设条件为包括具有网络攻击风险的数据的数据区域所具有的特征,比如,该预设条件可以为包括特定字符构成的特定顺序的字符序列,或者,特定字符按照特定位置构成的排布方式。若数据区域满足该预设条件,则该数据区域即包括具有网络攻击风险的数据,否则,该数据区域不包括具有网络攻击风险的数据。
网络设备可以直接对数据集合中的数据进行识别,从而在该数据集合中识别出满足预设条件的数据区域;或者,可以先将数据集合划分为多个数据区域,对各数据区域进行识别,从而确定该数据区域是否满足该预设条件。
网络设备可以按照数据集合包括的字符序列中的字符在该字符序列中的次序,将该字符序列中字符划分为多个数据区域,然后对数据区域进行识别,以确定该数据区域是否满足预设条件。
网络设备可以将字符序列中相邻的特定数目的字符划分为一个数据区域,且连续的至少一个数据区域中可以包括小于该特定数目的重叠字符。
其中,特定数目可以由网络设备事先确定,比如接收提交的数值确定。
当然,在实际应用中,网络设备可以按照多个特定数目对数据集合包括的字符序列进行划分,从而得到多个包括字符数目不同的数据区域,对便于对数据集合进行更加精细的识别,提高识别数据集合中包括具有网络攻击风险的数据区域的准确性。
例如,数据集合包括b.php?name=&id=1’and 1=1,划分得到的数据区域可以包括“id=1’and 1=1”,“php?name=&id”,“ame=&id=1’and”。
例如,数据集合中包括的字符序列为asdfghjkl,特定数目包括3和4,因此,网络设备按照特定数目3对字符序列进行划分,得到数据区域包括asd、sdf、dfg、fgh、ghj、hjk和jkl,按照特定数目4对该字符序列进行划分,得到数据区域包括asdf、sdfg、dfgh、fghj、ghjk和hjkl。
网络设备可以通过神经网络模型等模型识别数据集合中是否存在满足预设条件的数据区域。该神经网络模型可以接收数据集合或由该数据集合划分得到的数据区域作为输入,并输出满足该预设条件的数据区域、携带与该预设条件的匹配程度标记的数据区域、或者输出满足该预设条件和不满足该预设条件的数据区域。
匹配程度用于说明数据区域满足预设条件的程序,从而说明该数据区域可能包括具有网络攻击风险的数据的概率,当该匹配程度越高,则该数据区域包括具有网络攻击风险的数据的概率也越高。
可以事先将数据集合或由数据集合划分得到的数据区域作为样本,其中具有网络攻击风险(即满足预设条件)的数据区域或包括具有网络攻击风险的数据区域的数据集合标记为正样本,不具有网络攻击风险的数据区域或包括不具有网络攻击风险的数据区域的数据集合标记为负样本,通过该正样本和负样本对神经网络模型识别数据集合中是否具有满足该预设条件的数据区域进行训练。当然,在实际应用中,也可以不是简单地将所有样本标记为正样本和负样本,而是按照与预设条件的匹配程度对各样本进行标记,并通过标记后的样本对该神经网络模型进行训练。
其中,神经网络模型是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络***,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习***。神经网络具有大规模并行、分布式存储和处理、自组织、自适应、自学和泛化能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题,且与分类器相比,能够提供更加丰富的输出结果,且该预设条件可以通过训练得到,用户可以不感知该预设条件,也就不需要添加规则以及人工参与,因此,基于上述神经网络模型的优点,能够使识别过程无需人工参与或添加规则,提高识别的效率和准确性。
当然,在实际应用中,还可以通过其它方式识别数据集合中是否具有满足预设条件的数据区域,比如通过YOLO(You Only Look Once)或SSD(Single Shot multiBoxDetector)对数据区域进行识别,或者,通过分类器对数据区域进行识别,或者,将各数据区域与白名单和/或黑名单进行比较,从而确定该数据区域是否满足预设条件。
其中,YOLO和SSD分别为一种目标识别模型的名称。
步骤103,根据所述数据区域,确定是否阻止所述数据区域对应的网络访问。
由于表征网络访问的数据集合中包括可能存在满足预设条件的数据区域,则该网络访问很可能也是包括网络攻击的,因此,可以根据该数据区域,对所对应的网络访问进行识别,确定是否阻止该网络访问。
其中,基于前述中神经网络模型所具有的优点,为了提高识别的准确性和效率,网络设备可以通过神经网络模型根据具有网络攻击风险的数据区域对网络访问进行识别,以确定是否阻止该数据区域对应的网络访问。该神经网络模型可以接收数据区域作为输入,并输出关于网络访问的识别结果,包括阻止或放行网络访问,当然,在实际应用中,识别结果可以包括阻止或放行网络访问、是否包括网络攻击、具有网络攻击的概率、网络攻击风险类型、该网络攻击风险类型中具体的某一种网络攻击等中的至少一种。
可以将表征网络访问的数据集合中数据区域作为样本,其中来自包括网络攻击的数据集合中的数据区域标记为正样本,不包括网络攻击的数据集合中的数据区域标记为负样本,通过正样本和负样本对神经网络根据具有网络攻击风险的数据区域识别网络访问是否包括网络攻击进行训练。当然,在实际应用中,也可以不是简单地将所有样本标记为正负样本,而是通过是否包括网络攻击、具有网络攻击的概率、网络攻击风险类型、该网络攻击风险类型中具体的某一种网络攻击等中的至少一种来对样本进行标记,并通过标记后的样本对神经网络模型进行训练。
由前述可知,能够通过神经网络模型等模型识别数据集合中具有网络攻击风险的数据区域,因此,在本申请实施例中,可以通过两个模型来对网络攻击进行检测,其中一个用于识别数据集合中具有满足预设条件的数据区域,另一个用于根据识别得到的数据区域确定是否阻止该数据区域所对应的网络访问,当然,在实际应用中,也可以通过一个模型来识别数据集合中具有满足预设条件的数据区域,并根据识别得到的数据区域确定是否阻止该数据区域所对应的网络访问。其中,若通过多个模型对网络访问进行识别,便于通过各模型,对识别的各步骤进行精准控制,包括根据各步骤中的识别结果对相应的模型进行校准等,能够进一步提高对网络攻击进行检测的准确性;若通过一个模型对网络访问进行识别,能够减少所需训练的模型的数量以及针对各模型收集训练所需的样本,能够进一步提高识别的效率,减少人工参与。
当然,在实际应用中,还可以通过其它方式来对该数据区域内的数据进行识别,进而识别该数据区域对应的网络访问是否包括网络攻击,比如通过分类器、黑名单和/或白名单等中的至少一种进行识别。其中,若通过基于机器学习的分类器进行识别,当识别结果为1时确定该数据会造成攻击行为,该网络访问包括网络攻击,当识别结果为0时确定该数据不会造成攻击行为,该网络访问不包括网络攻击。
另外,若确定表征网络访问的数据集合中包括满足预设条件的数据区域,网络设备也可以按照与前述中根据数据区域确定是否阻止网络访问的方式,根据数据集合确定是否阻止该数据集合所表征的网络访问,即对表征网络访问的数据集合中的所有数据进行识别,以全面根据该数据集合中的所有数据对网络访问进行识别,能够提高对网络进行检测的可靠性。
在本申请实施例中,能够获取得到表征网络访问的数据集合,该数据集合能够说明与该网络访问的相关信息,识别该数据集合中是否包括满足预设条件的数据区域,即可识别该数据集合中具有网络攻击风险的数据区域,进而根据该数据区域确定是否阻止该数据区域对应的网络访问,也即是,能够通过化整为零的方式对说明该相关信息的数据集合进行初步筛选,再根据筛选得到的具有网络攻击风险的数据区域对网络访问进行进一步的精准识别,与通过单一地将访问地址与白名单或黑名单中的访问地址进行精准匹配来对网络访问进行识别相比,避免了不精准匹配就难以对网络访问进行识别的问题,同时也不需要人工对白名单或黑名单进行维护,提高了对网络攻击进行检测的准确性和可靠性。
实施例二
参照图2,示出了根据本申请一个实施例的一种数据处理方法流程图,具体步骤包括:
步骤201,提取网络访问的访问地址,确定所述访问地址所映射的数据集合。
访问地址包括字母、数字和标点符号等多种字符的字符序列,可以提取网络访问的访问地址,通过映射对提取到的访问地址进行形式转换,从而得到数据集合。
网络访问地址可以包括前述中的域名、IP地址、MAC地址或URL等,可以通过监听到的网络请求中提取用于网络访问的访问地址。
可以通过事先确定的映射关系,将访问地址中包括的多个字符进行映射,从而到数据集合。
其中,映射关系用于对访问地址中包括的字符进行转换,包括将访问地址中的一个字符映射为同种类或其它种类中的一个字符或多个字符组合。该映射关系可以事先确定,比如,接收提交的规则等。该映射关系可以体现为公式、数学模型或列表。
在本申请实施例中,可选的,为了便于后续可以通过机器视觉对数据矩阵进行识别,进而达到对网络访问进行识别的目的,可以确定所述访问地址中各个字符对应的字符向量,将多个字符对应的字符向量组合为访问地址对应的数据矩阵作为所述数据集合。
对访问地址进行向量化处理,也即是将字符序列进行数学化。字符序列可以被拆分为多个字符,字符向量就是用向量把字符序列中的字符进行数学化的一种常用形式,字符向量就是把一个字符表示成一个向量。
具体的,可以通过VSM(Vector Space Model,向量空间模型)或词向量计算工具word2vec,对访问地址中包括的字符进行向量化运算,从而将该访问地址转换为由字符向量构成的数据矩阵。之后即可通过对数据矩阵的识别来达到对访问地址所表示的意义进行识别的目的。
其中,可以按照设定的字符向量的维数初始化每个字符对应的字符向量,字符向量的维数表示分向量的个数,且每个字符向量的维度是相同的,具体可以是随机为各字符生成字符向量各维度上的数值。
例如,对于一个访问地址,字符向量的维数为20,包括有:“h”表示为字符向量(d1=0.001,d2=-0.077,d3=-0.907,d4=0.189,d5=-0.456,…,d20=0.354)、“a”表示为字符向量(d1=0.335,d2=-0.125,d3=-0.110,d4=0.136,d5=-0.590,…,d20=0.248)、“l”表示为字符向量(d1=0.223,d2=-0.345,d3=-0.456,d4=0.567,d5=-0.567,…,d20=-0.423)。
例如,访问地址中包括字母e,通过VSM模型对访问地址进行向量化处理,得到字母e对应的向量即可以为[0.1,0.21,0.13,0.3]。
当然,在实际应用中,也可以通过其它的方式,确定访问地址中的字符所对应的字符向量,将所得到字符向量按照所对应的字符在访问地址中的顺序排列,从而得到与该访问地址对应的数据矩阵。
在本申请实施例中,可选的,由于访问地址中可能会包括多种多个字符,其中某些字符可能只是具有形式上的作用,而不具有实际的语义,即无意义字符,比如访问地址中包括的“HTTP://”、“=”等,因此为了减少处理的数据量,提高对网络攻击进行检测的效率,同时也降低这些无意义字符可能对检测过程造成干扰,即为了提高对网络攻击进行检测的准确性,在所述确定所述访问地址中各个字符对应的字符向量之前,可以去除所述访问地址中的无意义字符。
无意义字符指在访问地址中只具有形式上的作用,而不具有实际语义的字符。
可以事先接收提交的字符来作为无意义字符的样本,从而能够根据该无意义字符样本,对访问地址进行过滤,以将该访问地址中无意义字符删除。
在本申请实施例中,可选的,为了批量检测网络访问,提高对网络访问进行检测的效率,可以获取表征多个网络访问的数据集合。
其中,可以按照前述方式获取多个分别表征一个网络访问的数据集合,然后将获取到的数据集合合并,从而得到表征多个网络访问的数据集合。
步骤202,识别所述数据集合中满足预设条件的数据区域。
其中,识别数据集合中满足预设条件的数据区域的方式,可以参见前述中的相关描述,此处不再一一赘述。
在本申请实施例中,可选的,由于数据集合中可以包括字符序列,该字符序列中的字符依次排列可能会具有某些特定的语义,比如构成域名名称或者构成一个URN等,因此,为了便于保持该数据集合中各字符在该数据集合中所表示的语义,与在所属的数据区域中所表示的语义相同,同时实现对数据集合进行更加精细的识别,减少后续所需识别的数据量,即提高了从数据集合中划分数据区域的准确性和效率,从而提高对数据区域进行识别的准确性和效率,可以将数据在所述数据集合中所处位置划分为多个数据区域,从所述多个数据区域中识别满足所述预设条件的数据区域。
若数据集合包括字符序列,数据在数据集合中所处位置可以体现为字符在字符序列中的次序,相应的,将数据集合划分为数据区域的方式,可以参见前述中的相关描述,此处不再一一赘述。
若数据集合包括前述中的数据矩阵,数据在数据集合中所处位置体现可以为字符在矩阵中的位置坐标,相应的,可以将该数据矩阵中处于至少一个连续的行和至少一个连续的列中的区域作为一个数据区域。当然,在实际应用中,为了能够对数据集合进行识别的准确性,还可以通过其它方式来将该数据矩阵划分为多个数据区域,比如,可以将该数据矩阵的子矩阵作为数据区域。
其中,由前述可知,数据集合可以表征多个网络访问,因此,对数据集合进行划分所得到的数据区域,也可以对应一个或以上的网络访问。
在本申请实施例中,可选的,由于在对数据矩阵进行划分之后,可能会将表示一个完整语义的多个字符划分至不同的数据区域,比如,构成一个单词的几个字母,或者构成一条指令的几个单词中的字母等,因此,若多个数据区域都具有网络攻击风险,则该多个数据区域中的字符可能表示一个完整的用户网络攻击的语义;或者,也有可能两个数据区域中包括重叠字符,因此,为了提高检测到网络攻击的准确性和可靠性,可以根据所处位置信息,对满足所述预设条件的数据区域进行合并。
所处位置信息可以包括数据区域中的字符在数据矩阵中的位置坐标。
可以在确定得到多个具有网络攻击风险的数据区域时,根据各数据区域中的字符在数据矩阵中的位置坐标,判断任意两个数据区域中是否有重叠位置的字符,若是则按照该重叠位置,将该两个数据区域进行合并。
在本申请实施例中,可选的,由前述可知,神经网络模型具有大规模并行、分布式存储和处理、自组织、自适应和自学能力等优点,能够提供更加丰富的输出结果,不需要添加规则以及人工参与,因此,为了提高识别的准确性和效率,可以通过神经网络模型(记为第一神经网络模型),来识别数据集合中满足预设条件的数据区域。
其中,第一神经网络模型可以接收提交的作为数据集合的数据矩阵,输出得到与预设条件匹配程度最高的数据区域或者匹配程度高于第一阈值的数据区域。若确定输出的数据区域多于一个,还可以判断所要输出的多个数据区域是否能够合并,并对能够合并的多个数据区域进行合并,然后输出合并后的数据区域。当然,在实际应用中,还可以在接收提交的作为数据集合的数据矩阵之后,将该数据矩阵划分为多个数据区域,从而对各数据区域进行识别,确定该数据区域与预设条件的匹配程度。
可以事先获取包括多个作为表征网络访问的数据集合的数据矩阵,其中包括具有网络攻击风险的数据区域的数据矩阵作为正样本,不包括具有网络攻击风向的数据区域的数据矩阵作为负样本,通过该正负样本,对第一神经网络模型识别数据矩阵进行训练。
第一阈值可以事先确定,比如接收提交的数值确定。例如,第一阈值可以为50%。
在本申请实施例中,可选的,为了便于相关技术人员根据识别结果对第一神经网络模型进行纠正,进而提高对识别具有网络攻击风险的数据区域的准确性和可靠性,可以对确定的满足预设条件的数据区域进行高亮显示,从而直观地显示识别结果。
当然,在实际应用中,还可以通过其它方式对满足预设条件的数据区域进行突出显示,比如对该数据区域的数据添加下划线或加粗显示等。
另外,先从数据集合中提取具有网络攻击风险的数据区域,在通过下述方式根据该数据区域对网络访问进行识别,能够实现精准地发现攻击所在数据集合中的位置,并对该位置的数据进行识别,避免了对数据集合中正常数据的检测过程,提高了对网络攻击的检测效率和准确性。
在本申请实施例中,可选的,由前述可知,数据集合可以表征多个网络访问,因此,为了确保能够对多个网络访问进行检测,提高对网络攻击进行检测的可靠性,可以识别所述数据集合中满足预设条件的对应多个网络访问的数据区域。
其中,由于数据集合可以表征多个网络访问,则按照前述方式对该数据集合进行识别所得到的数据区域即可以对应多个网络访问。
步骤203,根据所述数据区域识别对应的网络访问是否包括网络攻击,若是则执行步骤204,否则执行步骤205。
其中,根据具有网络攻击风险的数据区域识别网络访问是否网络攻击的方式,可以参见前述中的相关描述,此处不再一一赘述。
在本申请实施例中,可选的,由于网络访问的访问地址包括字符序列,该字符序列可能会说明所访问或获取的对象、所访问的目的,即具有不同的语义,当网络访问包括网络攻击时,该网络访问的访问地址可能会说明网络攻击的攻击对象或攻击目的,因此,为了能够通过化整为零的方式,精准地检测多种类型的网络攻击,提高检测网络攻击的准确性和可靠性,便于后续针对不同的网络攻击采取相应的防护方式,对于确定的满足预设条件的数据区域,可以对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型。
在本申请实施例中,可选的,由前述可知,神经网络模型具有大规模并行、分布式存储和处理、自组织、自适应和自学能力等优点,能够提供更加丰富的输出结果,不需要添加规则以及人工参与,因此,为了提高识别的准确性和效率,可以采用神经网络模型(即为第二神经网络模型)对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型。
其中,通过第二神经网络模型对数据区域进行语义识别,可以包括确定数据区域针对多个攻击风险类型的概率,将概率最大的攻击风险类型确定为该数据区域对应的目标攻击风险类型,或者,将概率大于第二阈值的攻击风险类型确定该数据区域对应的目标攻击风险类型。
可以事先获取得到多个对应于不同的攻击风险类型的数据区域作为样本,对第二神经网络模型识别数据区域进行训练。
第二阈值可以由事先确定,比如接收用户提交的数值确定。
当然,在实际应用中,也可以通过分类器对数据区域进行语义识别,从而确定对应的目标攻击风险类型。
在本申请实施例中,可选的,可以确定所述数据区域在网络访问对应的访问地址中映射的地址片段,作为具有网络攻击风险的地址片段;相应的,可以对所述具有网络攻击风险的地址片段进行语义识别。
地址片段包括访问地址中的部分连续的字符。由前述可知,可以根据事先确定的映射关系,将访问地址中包括的多个字符进行映射,得到转换后的数据集合,因此,可以按照该映射关系,将数据区域中包括的字符进行还原,得到对应在访问地址中的地址片段。
对于映射得到的地址片段,可以通过将该地址片段与事先确定的黑名单和/或白名单进行比较,从而确定该地址片段是否包括网络攻击,若是则确定对应的网络访问包括网络攻击;或者,也可以通过基于分类器或者神经网络模型对该地址片段是否包括网络攻击进行判断。
其中,通过第二神经网络模型对地址片段进行语义识别,可以包括确定地址片段针对多个攻击风险类型的概率,将概率最大的攻击风险类型确定为该地址片段对应的目标攻击风险类型,或者,将概率大于第二阈值的攻击风险类型确定该地址片段对应的目标攻击风险类型。
可以事先获取得到多个对应于不同的攻击风险模型的地址片段作为样本,对第二神经网络模型识别地址片段进行训练。
在本申请实施例中,可选的,由于网络访问地址包括字符序列,该字符序列也可能会说明访问或获取的对象的方式,即具有不同的语法,当网络访问包括网络攻击时,该网络访问的访问地址可能会说明网络攻击的攻击方式,因此,为了能够通过化整为零的方式,精准地检测多种类型的网络攻击,提高检测网络攻击的准确性和可靠性,同时便于后续针对不同的网络攻击采取相应的防护方式,对于确定的满足预设条件的数据区域,可以对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
在本申请实施例中,可选的,由前述可知,神经网络模型具有大规模并行、分布式存储和处理、自组织、自适应和自学能力等优点,能够提供更加丰富的输出结果,不需要添加规则以及人工参与,因此,为了提高识别的准确性和效率,可以采用所述目标攻击风险类型对应的神经网络模型(即为第二神经网络模型)对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
其中,通过第三神经网络模型对数据区域进行语法识别,若运算结果为1则确定该数据区域是否包括目标攻击风险类型的网络攻击,进而确定该网络访问是否包括网络攻击;若确定运算结果为0则确定该数据区域不包括目标攻击风险类型的网络攻击。当然,在实际应用中,也可以通过第三神经网络模型运算数据区域可能包括目标攻击风险类型的概率,展示该概率由用户确定该数据区域是否包括目标攻击风险类型,或通过其它方式根据该概率确定该数据区域是否包括目标攻击风险类型。
可以事先获取多个数据区域,将其中包括目标攻击风险类型的数据区域作为正样本、不包括目标攻击风险类型的数据区域作为负样本,通过正负样本,对第三神经网络模型识别数据区域是否包括目标攻击风险类型的网络攻击进行训练。
当然,在实际应用中,也可以通过分类器对数据区域进行语法识别,从而确定该数据区域是否符合该目标攻击风险类型所具有的语法规则。
在本申请实施例中,可选的,可以确定所述数据区域在网络访问对应的访问地址中映射的地址片段,作为具有网络攻击风险的地址片段;相应的,对所述具有网络攻击风险的地址片段进行语法识别,确定所述具有网络攻击风险的地址片段是否符合所述目标攻击风险类型具有的语法规则。
其中,通过第三神经网络模型对地址片段进行语法识别,若运算结果为1则确定该地址片段是否包括目标攻击风险类型的网络攻击,进而确定该网络访问是否包括网络攻击;若确定运算结果为0则确定该地址片段不包括目标攻击风险类型的网络攻击。当然,在实际应用中,也可以通过第三神经网络模型运算地址片段可能包括目标攻击风险类型的概率,展示该概率由用户确定该地址片段是否包括目标攻击风险类型,或通过其它方式根据该概率确定该地址片段是否包括目标攻击风险类型。
可以事先获取多个地址片段,将其中包括目标攻击风险类型的地址片段作为正样本、不包括目标攻击风险类型的地址片段作为负样本,通过正负样本,对第三神经网络模型识别地址片段是否包括目标攻击风险类型的网络攻击进行训练。
另外,由前述可知,本申请实施例可以通过三个神经网络模型对网络访问进行识别,从而判断该网络访问是否包括网络攻击,其中,第一神经网络模型用于在表征网络访问的数据集合中识别出满足预设条件,即具有网络攻击风险的数据区域,第二神经网络模型用于识别该数据区域中的数据对应的目标攻击风险类型,第三神经网络模型用于识别该数据区域中的数据是否符合目标攻击风险类型具有的语法规则。当然,在实际应用中,为了提高识别的准确性或效率,也可以通过更多或更少的神经网络模型对该网络访问进行识别,比如,可以通过第四神经网络模型来对该数据区域中的数据进行语义和语法识别,以同时实现第二神经网络模型和第三神经网络模型的功能。
步骤204,阻断所述网络访问。
由于网络访问包括网络攻击,则该网络访问可能会对造成损坏或者窃取用户数据,因此,为了确保、网络和用户财产的安全性,可以阻断该网络访问。
可以通过断开网络连接、通过防火墙拦截该网络访问等方式,阻断所述网络访问继续进行。
步骤205,放行所述网络访问。
由于网络访问不包括网络攻击,则该网络访问是安全的,因此,为了确保和网络中的各项业务能够正常处理,提高和网络的可靠性,可以放行该网络访问。
在本申请实施例中,首先,能够获取得到表征网络访问的数据集合,该数据集合能够说明与该网络访问的相关信息,识别该数据集合中是否包括满足预设条件的数据区域,即可识别该数据集合中具有网络攻击风险的数据区域,进而根据该数据区域确定是否阻止该数据区域对应的网络访问,也即是,能够通过化整为零的方式对说明该相关信息的数据集合进行初步筛选,再根据筛选得到的具有网络攻击风险的数据区域对网络访问进行进一步的精准识别,与通过单一地将访问地址与白名单或黑名单中的访问地址进行精准匹配来对网络访问进行识别相比,避免了不精准匹配就难以对网络访问进行识别的问题,同时也不需要人工对白名单或黑名单进行维护,提高了对网络攻击进行检测的准确性和可靠性。
其次,能够提取网络访问的访问地址,并确定访问地址所映射的数据集合,因此能够将访问地址中包括的繁杂的或较难处理的字符序列转换为单一的或易于处理的字符序列或矩阵,便于对数据集合进行识别,提高了对网络攻击进行检测的准确性和可靠性。
另外,能够将访问地址包括的字符序列进行向量化处理,从而将字符序列转换为数据矩阵以作为该数据集合,从而以便于后续可以通过机器视觉对数据矩阵进行识别,进而达到对网络访问进行识别的目的。
另外,能够根据数据在数据集合中所处位置划分为多个数据区域,从而对各数据区域进行识别,确保了各数据区域中的字符能够表达在与数据集合中相同的语义,同时也实现了对数据集合精细划分,减少后续所需识别的数据量,即提高了所划分的数据区域的准确性和效率,进而也提高了从数据集合中识别是否包括具有网络攻击风险的数据区域的准确性和效率。
另外,能够通过神经网络模型对数据集合进行识别得到具有网络攻击风险的数据区域、以及根据对网络访问进行识别,确保了能够提供较为丰富的识别结果,且识别过程不需要人工参与或添加规则,提高了对网络攻击进行检测的准确性和效率。
本领域的技术人员应可理解,上述实施例中的方法步骤并非每一个都必不可少,在具体状况下,可以省略其中的一个或多个步骤,只要能够实现对网络攻击进行检测的技术目的。本发明并不限定的实施例中步骤的数量及其顺序,本发明的保护范围当以权利要求书的限定为准。
为了便于本领域技术人员更好地理解本申请,以下通过具体的示例对本申请实施例的一种数据处理方法进行说明,具体包括如下步骤:
示例一:步骤S1,对HTTP原始请求进行预处理,包括剔除其中的无效字符,并对原始字符序列进行归约得到新的字符序列seq1,例如http://www.a.com/b.php?name=张三&id=123’and 1=1,其中域名(www.a.com)处无法构建攻击内容,中文不能构成攻击,整形序列(123)规约为1,得到的新序列seq1为b.php?name=&id=1’and 1=1;步骤S2,对字符序列seq1进行向量化,生成数据矩阵mat1,由于只有英文字符(A-Z,a-z)、数字(0-9)及一些特定符号(如+、-、=、\、,、.、/、;、’、?、!、@、#、$、%、^、&、*、(、)、等)可以构造攻击,因此可以构造一个只包含这些字符的字典D,字典内容的个数为这些字符的个数M,假设每个字符映射为一个N维的向量,那字典D就为一个M*N的二维矩阵,如下表1所示,因此,对于一个归约后的请求(比如前述中的b.php?name=&id=1’and 1=1),其每个字符就可以与字典中对应字符向量进行映射,得到该请求对应的二维向量矩阵mat1;
表1
步骤S3,通过区域识别模型对数据矩阵mat1进行识别,提取得到至少一个可疑的攻击区域,所对应的原始序列片段分比为r1,r2,…,rN,其中,区域识别模型可以为基于神经网络的模型,该区域识别模型可以用于在数据矩阵中提取候选的区域,对候选的区域进行重叠区域过滤和置信度筛选,得到可疑的攻击区域,例如对b.php?name=&id=1’and 1=1来说,提取出的N个片段(1≤N≤5)可以包括“id=1’and 1=1”,“php?name=&id”,“ame=&id=1’and”;步骤S4,对于提取到的可以攻击区域,通过深度神经网络预测,判断该区域对应的原始序列片段是否属于攻击。
示例二:一种数据处理方法流程图参见图3。首先,获取HTTP请求,其中包括访问地址为http:/www.a.com/b.php?id=1&name=tom’and 1=1;对获取到的访问地址进行向量转换得到向量矩阵;对向量区域进行区域感知得到至少一个的疑似区域;通过分类器对疑似区域进行分类;根据分类结果对访问地址进行阻断或通过。
实施例三
参照图4,示出了根据本申请一个实施例的一种数据处理装置的结构框图,该装置包括:
数据集合获取模块401,用于获取表征网络访问的数据集合;
数据区域识别模块402,用于识别所述数据集合中满足预设条件的数据区域;
网络访问识别模块403,用于根据所述数据区域,确定是否阻止所述数据区域对应的网络访问。
可选的,所述数据集合获取模块包括:
访问地址提取子模块,用于提取网络访问的访问地址;
数据集合确定子模块,用于确定所述访问地址所映射的数据集合。
可选的,所述数据集合确定子模块还用于:
确定所述访问地址中各个字符对应的字符向量;
将多个字符对应的字符向量组合为访问地址对应的数据矩阵作为所述数据集合。
可选的,所述网络访问识别模块包括:
第一语义识别子模块,用于采用第二神经网络模型对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型;
第一语法识别子模块,用于采用所述目标攻击风险类型对应的第三神经网络模型对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
可选的,所述数据集合确定子模块还用于:
去除所述访问地址中的无意义字符。
可选的,所述数据集合获取模块包括:
数据集合获取子模块,用于获取表征多个网络访问的数据集合;
所述数据区域识别模块包括:
第一数据区域识别子模块,用于识别所述数据集合中满足预设条件的对应多个网络访问的数据区域。
可选的,所述数据区域识别模块包括:
数据区域划分子模块,用于将数据在所述数据集合中所处位置划分为多个数据区域;
第二数据区域识别子模块,用于从所述多个数据区域中识别满足所述预设条件的数据区域。
可选的,所述数据区域识别模块还包括:
数据区域合并模块,用于根据所处位置信息,对满足所述预设条件的数据区域进行合并。
可选的,所述网络访问识别模块包括:
第二语义识别子模块,用于对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型;
第二语法识别子模块,用于对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
可选的,所述装置还包括:
地址片段确定模块,用于确定所述数据区域在网络访问对应的访问地址中映射的地址片段,作为具有网络攻击风险的地址片段;
所述第二语义识别子模块还用于:
对所述具有网络攻击风险的地址片段进行语义识别;
所述第二语法识别子模块还用于:
对所述具有网络攻击风险的地址片段进行语法识别,确定所述具有网络攻击风险的地址片段是否符合所述目标攻击风险类型具有的语法规则。
可选的,所述装置还包括:
网络访问阻断模块,用于若确定所述网络访问包括网络攻击,则阻断所述网络访问。
可选的,所述装置还包括:
网络访问放行模块,用于若确定所述网络访问不包括网络攻击,则放行所述网络访问。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本申请实施例中,能够获取得到表征网络访问的数据集合,该数据集合能够说明与该网络访问的相关信息,识别该数据集合中是否包括满足预设条件的数据区域,即可识别该数据集合中具有网络攻击风险的数据区域,进而根据该数据区域确定是否阻止该数据区域对应的网络访问,也即是,能够通过化整为零的方式对说明该相关信息的数据集合进行初步筛选,再根据筛选得到的具有网络攻击风险的数据区域对网络访问进行进一步的精准识别,与通过单一地将访问地址与白名单或黑名单中的访问地址进行精准匹配来对网络访问进行识别相比,避免了不精准匹配就难以对网络访问进行识别的问题,同时也不需要人工对白名单或黑名单进行维护,提高了对网络攻击进行检测的准确性和可靠性。
本申请实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的***。图5示意性地示出了可被用于实现本申请中所述的各个实施例的示例性***(或装置)500。
对于一个实施例,图5示出了示例性***500,该***具有一个或多个处理器502、被耦合到(一个或多个)处理器502中的至少一个的***控制模块(芯片组)504、被耦合到***控制模块504的***存储器506、被耦合到***控制模块504的非易失性存储器(NVM)/存储设备508、被耦合到***控制模块504的一个或多个输入/输出设备510,以及被耦合到***控制模块506的网络接口512。
处理器502可包括一个或多个单核或多核处理器,处理器502可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,***500能够作为本申请实施例中所述的网络设备。
在一些实施例中,***500可包括具有指令的一个或多个计算机可读介质(例如,***存储器506或NVM/存储设备508)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器502。
对于一个实施例,***控制模块504可包括任意适当的接口控制器,以向(一个或多个)处理器502中的至少一个和/或与***控制模块504通信的任意适当的设备或组件提供任意适当的接口。
***控制模块504可包括存储器控制器模块,以向***存储器506提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
***存储器506可被用于例如为***500加载和存储数据和/或指令。对于一个实施例,***存储器506可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,***存储器506可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,***控制模块504可包括一个或多个输入/输出控制器,以向NVM/存储设备508及(一个或多个)输入/输出设备510提供接口。
例如,NVM/存储设备508可被用于存储数据和/或指令。NVM/存储设备508可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备508可包括在物理上作为***500被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备508可通过网络经由(一个或多个)输入/输出设备510进行访问。
(一个或多个)输入/输出设备510可为***500提供接口以与任意其他适当的设备通信,输入/输出设备510可以包括通信组件、音频组件、传感器组件等。网络接口512可为***500提供接口以通过一个或多个网络通信,***500可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器502中的至少一个可与***控制模块504的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器502中的至少一个可与***控制模块504的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP)。对于一个实施例,(一个或多个)处理器502中的至少一个可与***控制模块504的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器502中的至少一个可与***控制模块504的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC)。
在各个实施例中,***500可以但不限于是:工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,***500可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,***500包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,如果显示器包括触摸面板,显示屏可以被实现为触屏显示器,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
在一个示例中提供了一种装置,包括:一个或多个处理器;和,其上存储的有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如本申请实施例中网络设备执行的方法。
在一个示例中还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如本申请实施例中网络设备执行的方法。
本申请实施例公开了一种数据处理方法和装置。
示例1、一种数据处理方法,包括:
获取表征网络访问的数据集合;
识别所述数据集合中满足预设条件的数据区域;
根据所述数据区域,确定是否阻止所述数据区域对应的网络访问。
示例2可包括示例1所述的方法,所述获取表征网络访问的数据集合包括:
提取网络访问的访问地址;
确定所述访问地址所映射的数据集合。
示例3可包括示例2所述的方法,所述确定所述访问地址所映射的数据集合包括:
确定所述访问地址中各个字符对应的字符向量;
将多个字符对应的字符向量组合为访问地址对应的数据矩阵作为所述数据集合。
示例4可包括示例3所述的方法,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
采用第二神经网络模型对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型;
采用所述目标攻击风险类型对应的第三神经网络模型对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
示例5可包括示例3所述的方法,在所述确定所述访问地址中各个字符对应的字符向量之前,所述确定所述访问地址所映射的数据集合还包括:
去除所述访问地址中的无意义字符。
示例6可包括示例1所述的方法,所述获取表征网络访问的数据集合包括:
获取表征多个网络访问的数据集合;
所述识别所述数据集合中满足预设条件的数据区域包括:
识别所述数据集合中满足预设条件的对应多个网络访问的数据区域。
示例7可包括示例1所述的方法,所述识别所述数据集合中满足预设条件的数据区域包括:
将数据在所述数据集合中所处位置划分为多个数据区域;
从所述多个数据区域中识别满足所述预设条件的数据区域。
示例8可包括示例7所述的方法,所述识别所述数据集合中满足预设条件的数据区域还包括:
根据所处位置信息,对满足所述预设条件的数据区域进行合并。
示例9可包括示例1所述的方法,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型;
对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
示例10可包括示例9所述的方法,在所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问之前,所述方法还包括:
确定所述数据区域在网络访问对应的访问地址中映射的地址片段,作为具有网络攻击风险的地址片段;
所述对所述数据区域进行语义识别包括:
对所述具有网络攻击风险的地址片段进行语义识别;
所述对所述数据区域进行语法识别包括:
对所述具有网络攻击风险的地址片段进行语法识别,确定所述具有网络攻击风险的地址片段是否符合所述目标攻击风险类型具有的语法规则。
示例11可包括示例1所述的方法,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
若确定所述网络访问包括网络攻击,则阻断所述网络访问。
示例12可包括示例1所述的方法,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
若确定所述网络访问不包括网络攻击,则放行所述网络访问。
示例13、一种数据处理装置,包括:
数据集合获取模块,用于获取表征网络访问的数据集合;
数据区域识别模块,用于识别所述数据集合中满足预设条件的数据区域;
网络访问识别模块,用于根据所述数据区域,确定是否阻止所述数据区域对应的网络访问。
示例14、一种装置,包括:一个或多个处理器;和其上存储的有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如示例1-示例12一个或多个的方法。
示例15、一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如示例1-示例12一个或多个的方法。
虽然某些实施例是以说明和描述为目的的,各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现,不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此,显然本文描述的实施例仅由权利要求和它们的等同物来限定。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取表征网络访问的数据集合;
识别所述数据集合中满足预设条件的数据区域;
根据所述数据区域,确定是否阻止所述数据区域对应的网络访问。
2.根据权利要求1所述的方法,其特征在于,所述获取表征网络访问的数据集合包括:
提取网络访问的访问地址;
确定所述访问地址所映射的数据集合。
3.根据权利要求2所述的方法,其特征在于,所述确定所述访问地址所映射的数据集合包括:
确定所述访问地址中各个字符对应的字符向量;
将多个字符对应的字符向量组合为访问地址对应的数据矩阵作为所述数据集合。
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
采用第二神经网络模型对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型;
采用所述目标攻击风险类型对应的第三神经网络模型对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
5.根据权利要求3所述的方法,其特征在于,在所述确定所述访问地址中各个字符对应的字符向量之前,所述确定所述访问地址所映射的数据集合还包括:
去除所述访问地址中的无意义字符。
6.根据权利要求1所述的方法,其特征在于,所述获取表征网络访问的数据集合包括:
获取表征多个网络访问的数据集合;
所述识别所述数据集合中满足预设条件的数据区域包括:
识别所述数据集合中满足预设条件的对应多个网络访问的数据区域。
7.根据权利要求1所述的方法,其特征在于,所述识别所述数据集合中满足预设条件的数据区域包括:
将数据在所述数据集合中所处位置划分为多个数据区域;
从所述多个数据区域中识别满足所述预设条件的数据区域。
8.根据权利要求7所述的方法,其特征在于,所述识别所述数据集合中满足预设条件的数据区域还包括:
根据所处位置信息,对满足所述预设条件的数据区域进行合并。
9.根据权利要求1所述的方法,其特征在于,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
对所述数据区域进行语义识别,获得所述数据区域对应的目标攻击风险类型;
对所述数据区域进行语法识别,并根据语法识别结果确定是否阻止所述数据区域对应的网络访问。
10.根据权利要求9所述的方法,其特征在于,在所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问之前,所述方法还包括:
确定所述数据区域在网络访问对应的访问地址中映射的地址片段,作为具有网络攻击风险的地址片段;
所述对所述数据区域进行语义识别包括:
对所述具有网络攻击风险的地址片段进行语义识别;
所述对所述数据区域进行语法识别包括:
对所述具有网络攻击风险的地址片段进行语法识别,确定所述具有网络攻击风险的地址片段是否符合所述目标攻击风险类型具有的语法规则。
11.根据权利要求1所述的方法,其特征在于,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
若确定所述网络访问包括网络攻击,则阻断所述网络访问。
12.根据权利要求1所述的方法,其特征在于,所述根据所述数据区域,确定是否阻止所述数据区域对应的网络访问包括:
若确定所述网络访问不包括网络攻击,则放行所述网络访问。
13.一种数据处理装置,其特征在于,包括:
数据集合获取模块,用于获取表征网络访问的数据集合;
数据区域识别模块,用于识别所述数据集合中满足预设条件的数据区域;
网络访问识别模块,用于根据所述数据区域,确定是否阻止所述数据区域对应的网络访问。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-12一个或多个的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-12一个或多个的方法。
CN201810075020.3A 2018-01-25 2018-01-25 数据处理方法及装置 Pending CN110086749A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810075020.3A CN110086749A (zh) 2018-01-25 2018-01-25 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810075020.3A CN110086749A (zh) 2018-01-25 2018-01-25 数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN110086749A true CN110086749A (zh) 2019-08-02

Family

ID=67412081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810075020.3A Pending CN110086749A (zh) 2018-01-25 2018-01-25 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN110086749A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110768969A (zh) * 2019-10-14 2020-02-07 深圳Tcl数字技术有限公司 基于网络数据监控的测试方法、装置及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699687A (zh) * 2014-01-03 2014-04-02 复旦大学 一种基于枚举的网络实体爬取方法
US20150106123A1 (en) * 2013-10-15 2015-04-16 Parkland Center For Clinical Innovation Intelligent continuity of care information system and method
CN104994091A (zh) * 2015-06-30 2015-10-21 东软集团股份有限公司 异常流量的检测方法及装置、防御Web攻击的方法和装置
US20170163663A1 (en) * 2015-12-02 2017-06-08 Salesforce.Com, Inc. False positive detection reduction system for network-based attacks
CN107294993A (zh) * 2017-07-05 2017-10-24 重庆邮电大学 一种基于集成学习的web异常流量监测方法
CN107483458A (zh) * 2017-08-29 2017-12-15 杭州迪普科技股份有限公司 网络攻击的识别方法及装置、计算机可读存储介质
CN107992741A (zh) * 2017-10-24 2018-05-04 阿里巴巴集团控股有限公司 一种模型训练方法、检测url的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150106123A1 (en) * 2013-10-15 2015-04-16 Parkland Center For Clinical Innovation Intelligent continuity of care information system and method
CN103699687A (zh) * 2014-01-03 2014-04-02 复旦大学 一种基于枚举的网络实体爬取方法
CN104994091A (zh) * 2015-06-30 2015-10-21 东软集团股份有限公司 异常流量的检测方法及装置、防御Web攻击的方法和装置
US20170163663A1 (en) * 2015-12-02 2017-06-08 Salesforce.Com, Inc. False positive detection reduction system for network-based attacks
CN107294993A (zh) * 2017-07-05 2017-10-24 重庆邮电大学 一种基于集成学习的web异常流量监测方法
CN107483458A (zh) * 2017-08-29 2017-12-15 杭州迪普科技股份有限公司 网络攻击的识别方法及装置、计算机可读存储介质
CN107992741A (zh) * 2017-10-24 2018-05-04 阿里巴巴集团控股有限公司 一种模型训练方法、检测url的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110768969A (zh) * 2019-10-14 2020-02-07 深圳Tcl数字技术有限公司 基于网络数据监控的测试方法、装置及可读存储介质
CN110768969B (zh) * 2019-10-14 2023-10-17 深圳Tcl数字技术有限公司 基于网络数据监控的测试方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
US11171977B2 (en) Unsupervised spoofing detection from traffic data in mobile networks
CN106713371B (zh) 一种基于DNS异常挖掘的Fast Flux僵尸网络检测方法
CN105471823B (zh) 一种敏感信息处理方法、装置、服务器及安全判定***
CN107749859B (zh) 一种面向网络加密流量的恶意移动应用检测方法
Zhao et al. A review of computer vision methods in network security
WO2016201938A1 (zh) 一种多阶段钓鱼网站检测方法与***
KR102007809B1 (ko) 이미지를 이용한 신경망 기반 익스플로잇킷 탐지 시스템
CN109005145A (zh) 一种基于自动特征抽取的恶意url检测***及其方法
CN112163638A (zh) 图像分类模型后门攻击的防御方法、装置、设备及介质
CN107204956B (zh) 网站识别方法及装置
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
CN108090351A (zh) 用于处理请求消息的方法和装置
CN113918526B (zh) 日志处理方法、装置、计算机设备和存储介质
US11475323B2 (en) Systems and methods for crowdsourcing device recognition
EP2779520A1 (en) A process for obtaining candidate data from a remote storage server for comparison to a data to be identified
Juvonen et al. An efficient network log anomaly detection system using random projection dimensionality reduction
CN108470126A (zh) 数据处理方法、装置及存储介质
CN110086749A (zh) 数据处理方法及装置
US20230328101A1 (en) Systems and methods of detecting anomalous websites
CN116778306A (zh) 伪造对象检测方法、相关装置及存储介质
Wan et al. DevTag: A benchmark for fingerprinting IoT devices
CN115314239A (zh) 基于多模型融合的隐匿恶意行为的分析方法和相关设备
CN114422207A (zh) 基于多模态的c&c通信流量检测方法及装置
JP7140268B2 (ja) 警告装置、制御方法、及びプログラム
CN110417744B (zh) 网络访问的安全判定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40010988

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190802