CN108183831A - 一种p2p传输中的信息处理方法及装置 - Google Patents

一种p2p传输中的信息处理方法及装置 Download PDF

Info

Publication number
CN108183831A
CN108183831A CN201611121244.0A CN201611121244A CN108183831A CN 108183831 A CN108183831 A CN 108183831A CN 201611121244 A CN201611121244 A CN 201611121244A CN 108183831 A CN108183831 A CN 108183831A
Authority
CN
China
Prior art keywords
information
link informations
preset
files
filtered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611121244.0A
Other languages
English (en)
Inventor
安宁宇
粟栗
檀鹏
王焕如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201611121244.0A priority Critical patent/CN108183831A/zh
Publication of CN108183831A publication Critical patent/CN108183831A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种P2P传输中的信息处理方法及装置,涉及信息安全技术领域,用以准确的识别P2P传输信息中的待过滤信息。本发明的P2P传输中的信息处理方法,包括:获取待处理P2P传输信息;对所述待处理P2P传输信息进行还原,获取P2P链接信息;其中,所述P2P链接信息包括:种子文件和/或ED2K链接信息;根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息。本发明主要用于P2P技术中。

Description

一种P2P传输中的信息处理方法及装置
技术领域
本发明涉及信息安全技术领域,尤其涉及一种P2P传输中的信息处理方法及装置。
背景技术
P2P(peer to peer,点对点)技术可以简单的定义成通过直接交换来共享计算机资源和服务。在P2P网络环境,计算机处于对等的地位,不需要依赖专用的集中服务器。每台计算机既可以当网络服务的请求者,又能对其他计算机的请求做出响应、提供资源与服务。
根据目前不同的统计,P2P流量在整个网络流量中占比比较高,并且是互联网流量的主要增长点。从某运营商的统计数据显示,P2P流量在白天占国内总带宽的35%到60%,而晚上则达到50%到90%。而据国外媒体报道,国外一家研究机构日前对全球互联网流量分布进行了研究,夜间带宽的95%被P2P应用所消耗。
根据对P2P流量进行分析、检测发现,P2P流量中含有大量的违规信息。现有技术中针对P2P进行监控以及违规网站进行封堵的方法,主要有以下两种:
第一种方法是,通过对P2P的网络数据包进行镜像还原,可以对P2P包中的业务类型进行识别,并在此基础上对P2P的业务类型进行过滤,从而对P2P的业务流量进行显示、监控。第二种方法是针对违规网站进行监控并封堵,采取的手段主要是对网络流量进行还原,然后对流量中网站内的违规文本或违规图片(可统称为违规信息或者待过滤信息)做出判定。若网站中出现违规文本或者违规图片的次数达到违规判定的阈值,则将网站的域名交由流控***进行封堵。
但是,上述第一种方法中,只能对P2P的业务类型进行还原、业务流量进行监控,但无法判定通过P2P方式进行传输的流量中是否有违规信息,即无法对P2P流量中的内容进行真正监控。上述第二种方法不适用于P2P业务。原因在于,在P2P服务中,P2P的传播流量过大,并且是多源头传输数据,很多时候无法对完整的数据进行还原;另外提供数据的主体是普通用户,而普通用户首先是没有固定的IP地址,其次是数量过大,占据互联网使用者的相当大一部分。因此上述第二种方法无法对P2P传输的数据流量进行还原,更无法对提供传输数据的用户主体进行封堵。因此,现有技术中的方法无法实现对P2P传输中违规信息的准确识别。
发明内容
有鉴于此,本发明提供一种P2P传输中的信息处理方法及装置,用以准确的识别P2P传输信息中的待过滤信息。
为解决上述技术问题,本发明提供一种P2P传输中的信息处理方法,包括:
获取待处理P2P传输信息;
对所述待处理P2P传输信息进行还原,获取P2P链接信息;其中,所述P2P链接信息包括:种子文件和/或ED2K链接信息;
根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息。
其中,所述根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息的步骤包括:
将所述P2P链接信息和预设的P2P参考链接信息进行匹配;
若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
其中,所述根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息的步骤,还包括:
若所述预设的P2P参考链接信息中未包括所述P2P链接信息,解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;
若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
其中,所述根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息的步骤包括:
解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;
若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
其中,所述根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息的步骤,还包括:
若所述待检测敏感词未位于所述预设的敏感词库中,将所述P2P链接信息和预设的P2P参考链接信息进行匹配;
若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
其中,若所述P2P链接信息包括种子文件,所述解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词的步骤包括:
获取所述种子文件的文件名称和/或文件描述信息,并从所述文件名称和/或文件描述信息中获取所述待检测敏感词;
若所述P2P链接信息包括ED2K链接信息,所述解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词的步骤包括:
对所述ED2K链接信息进行解码,从解码后的ED2K链接信息中获取所述待检测敏感词。
其中,若根据所述P2P链接信息确定所述P2P传输信息中包括待过滤信息,所述方法还包括:
获取传输所述P2P传输信息的P2P服务器的信息;
根据所述P2P服务器的信息将所述P2P服务器设置为禁用。
其中,若所述P2P链接信息包括种子文件,所述获取传输所述P2P传输信息的P2P服务器的信息的步骤包括:
读取所述种子文件的“announce”和/或“announce-list”字段,获取传输所述P2P传输信息的P2P服务器的信息;
若所述P2P链接信息包括ED2K链接信息,所述获取传输所述P2P传输信息的P2P服务器的信息的步骤包括:
根据所述ED2K链接信息下载P2P文件,根据对所述P2P文件的下载获取传输所述P2P传输信息的P2P服务器的信息。
其中,若根据所述P2P链接信息确定所述P2P传输信息中包括待过滤信息,所述方法还包括:
根据所述P2P链接信息下载P2P文件;
对所述P2P文件进行分析,确定所述P2P文件是否包括待过滤信息;
若确定所述P2P文件包括待过滤信息,则利用所述P2P链接信息更新预设的敏感词库和/或预设的P2P参考链接信息。
其中,所述方法还包括:
设置敏感词库;和/或设置P2P参考链接信息。
其中,所述设置敏感词库的步骤,包括:
获取待训练敏感词和待训练P2P文件,其中所述待训练P2P文件包括:含有待过滤信息的第一类P2P文件和含有待过滤信息的第二类P2P文件;
利用所述待训练敏感词分别和所述第一类P2P文件、所述第二类P2P文件进行训练;
将所述待训练敏感词命中的第一类P2P文件的数量,除以所述待训练敏感词命中的第一类P2P文件的数量和所述待训练敏感词命中的第二类P2P文件的数量的和,获得一结果;
若所述结果超过预设值,则将所述待训练敏感词添加到所述预设的敏感词库中。
第二方面,本发明提供一种P2P传输中的信息处理装置,包括:
第一信息获取模块,用于获取待处理P2P传输信息;
信息处理模块,用于对所述待处理P2P传输信息进行还原,获取P2P链接信息;其中,所述P2P链接信息包括:种子文件和/或ED2K链接信息;
信息分析模块,用于根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息。
其中,所述信息分析模块包括:
第一匹配子模块,用于将所述P2P链接信息和预设的P2P参考链接信息进行匹配;
第一确定子模块,用于若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
其中,所述信息分析模块还包括:
第一信息解析子模块,用于若所述预设的P2P参考链接信息中未包括所述P2P链接信息,解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;
第二确定子模块,用于若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
其中,所述信息分析模块包括:
第二信息解析子模块,用于解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;
第三确定子模块,用于若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
其中,所述信息分析模块还包括:
第二匹配子模块,用于若所述待检测敏感词未位于所述预设的敏感词库中,将所述P2P链接信息和预设的P2P参考链接信息进行匹配;
第四确定子模块,用于若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
其中,若所述P2P链接信息包括种子文件,所述第二信息解析子模块具体用于:获取所述种子文件的文件名称和/或文件描述信息,并从所述文件名称和/或文件描述信息中获取所述待检测敏感词;
若所述P2P链接信息包括ED2K链接信息,所述第二信息解析子模块具体用于:对所述ED2K链接信息进行解码,从解码后的ED2K链接信息中获取所述待检测敏感词。
其中,所述装置还包括:
第二信息获取模块,用于获取传输所述P2P传输信息的P2P服务器的信息;
处理模块,用于根据所述P2P服务器的信息将所述P2P服务器设置为禁用。
其中,若所述P2P链接信息包括种子文件,所述第二信息获取模块具体用于,读取所述种子文件的“announce”和/或“announce-list”字段,获取传输所述P2P传输信息的P2P服务器的信息;
若所述P2P链接信息包括ED2K链接信息,所述第二信息获取模块具体用于,根据所述ED2K链接信息下载P2P文件,根据对所述P2P文件的下载获取传输所述P2P传输信息的P2P服务器的信息。
其中,所述装置还包括:
下载模块,用于根据所述P2P链接信息下载P2P文件;
信息确定模块,用于对所述P2P文件进行分析,确定所述P2P文件是否包括待过滤信息;
更新模块,用于若确定所述P2P文件包括待过滤信息,则利用所述P2P链接信息更新预设的敏感词库和/或预设的P2P参考链接信息。
其中,所述装置还包括:
设置模块,用于设置敏感词库和/或设置P2P参考链接信息。
其中,所述设置模块包括:
获取子模块,用于获取待训练敏感词和待训练P2P文件,其中所述待训练P2P文件包括:含有待过滤信息的第一类P2P文件和含有待过滤信息的第二类P2P文件;
训练子模块,用于利用所述待训练敏感词分别和所述第一类P2P文件、所述第二类P2P文件进行训练;
处理子模块,用于将所述待训练敏感词命中的第一类P2P文件的数量,除以所述待训练敏感词命中的第一类P2P文件的数量和所述待训练敏感词命中的第二类P2P文件的数量的和,获得一结果;
添加子模块,用于若所述结果超过预设值,则将所述待训练敏感词添加到所述预设的敏感词库中。
本发明的上述技术方案的有益效果如下:
在本发明实施例中,对待处理P2P传输信息进行还原,获取其中的P2P链接信息;其中,所述P2P链接信息包括:种子文件和/或ED2K链接信息。然后,根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息。由此,利用本发明实施例的方案实现了对P2P中待过滤信息的准确识别。
附图说明
图1为P2P下载原理的示意图;
图2为本发明实施例一的P2P传输中的信息处理方法的流程图;
图3为本发明实施例二的P2P传输中的信息处理方法的流程图;
图4为本发明实施例三的P2P传输中的信息处理装置的示意图;
图5为本发明实施例三的P2P传输中的信息处理装置的结构图;
图6为本发明实施例三的P2P传输中的信息处理装置的又一结构图。
具体实施方式
下面将结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
首先,对P2P的下载原理做一简单介绍。
如图1所示,在P2P下载过程中,与传统的“用户-服务器”下载方式不同,P2P服务器不再担任以前的HTTP/TCP下载中服务器的角色,它本身并未存放任何文件内容信息,只负责将具有该文件的用户信息在客户端(用户)之间中转。而P2P的用户,既是下载者又是分享者,下载文件的内容信息在P2P用户之间进行传播。
在图1中,下载的过程包括:(1)用户1向P2P服务器请求下载;(2)P2P服务器将所有包含该文件信息的用户地址(如用户2、用户3)返回给用户1;(3)用户1逐一连接上述用户并请求下载,同时用户1加入到P2P服务器维护的具有该文件的用户地址列表中。同理,其他用户的上传、下载过程类似。
用户通过P2P传输获取文件内容,需要由其他用户那里获取;但获取其他用户的列表等此类信息,则需要从P2P服务器处获得。通常情况,用户需要下载一个种子文件和/或ED2K(eDonkey2000network,一种文件共享网络)链接,通过该种子文件和/或ED2K链接来访问P2P服务器的地址,从而进行下一步操作。
如图2所示,本发明实施例一的P2P传输中的信息处理方法,包括:
步骤101、获取待处理P2P传输信息。
其中,所述待处理P2P传输信息可以指的是任意一个P2P传输中的信息。
步骤102、对所述待处理P2P传输信息进行还原,获取P2P链接信息。
在此,对网络流量中的HTTP(Hyper Text Transfer Protocol,超文本传输协议)协议流量进行还原,获取P2P链接信息。其中,所述P2P链接信息包括:种子文件和/或ED2K链接信息。
其中,种子(Torrent)文件是一个文本文件,通常很小,一般几十K~几百K大小,文件名以“.torrent”后缀结尾。ED2K链接是一种以“ed2k://”开头的字符串,它指示浏览器或客户端连接到ED2K服务器,并通过ED2K服务器解析ED2K地址。通常,在P2P传输中,利用对这两类文件的格式分析,来专门抓取种子文件与ED2K链接。
步骤103、根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息。
其中,所述待过滤信息包括违规文字或者图片等。在本发明实施例中,可通过以下方式确定所述P2P传输信息中是否包括待过滤信息。
方式一、将所述P2P链接信息和预设的P2P参考链接信息进行匹配。若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息。否则,可确定所述P2P传输信息中不包括待过滤信息。
其中,所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。该种子文件黑名单存储的是被认为含有违规信息的种子文件的信息,ED2K链接信息黑名单中存储的是被认为含有违规信息的ED2K链接的信息。
在方式一中,为了进一步提高准确性,如果确定所述预设的P2P参考链接信息中未包括所述P2P链接信息,还可进一步解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。否则,可确定所述P2P传输信息中不包括待过滤信息。
所述待检测敏感词指的是有可能被认为是违规信息的词语、句子等。预设的敏感词库可以通过训练的方式预先设置。具体的,可获取所述种子文件的文件名称和/或文件描述信息,并从所述文件名称和/或文件描述信息中获取所述待检测敏感词。或者,对所述ED2K链接信息进行解码,从解码后的ED2K链接信息中获取所述待检测敏感词。
方式二、解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词。若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。否则,可确定所述P2P传输信息中不包括待过滤信息。
在方式二中,为了进一步提高准确性,如果确定所述待检测敏感词未位于所述预设的敏感词库中,还可将所述P2P链接信息和预设的P2P参考链接信息进行匹配。若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息。否则,可确定所述P2P传输信息中不包括待过滤信息。
由上可以看出,在本发明实施例中,对待处理P2P传输信息进行还原,获取其中的P2P链接信息;其中,所述P2P链接信息包括:种子文件和/或ED2K链接信息。然后,根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息。由此,利用本发明实施例的方案实现了对P2P中待过滤信息的准确识别。
实施例二
如图3所示,本发明实施例二的P2P传输中的信息处理方法,包括:
步骤201、设置敏感词库以及设置P2P参考链接信息。
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
在设置敏感词库时,获取待训练敏感词和待训练P2P文件,其中所述待训练P2P文件包括:含有待过滤信息的第一类P2P文件和含有待过滤信息的第二类P2P文件。其中该第一类P2P文件指的是被认为是违规的P2P文件,该第二类文件被认为是正常的P2P文件。利用所述待训练敏感词分别和所述第一类P2P文件、所述第二类P2P文件进行训练。根据训练结果,按照下述公式获得一结果。
Kr表示该结果,Jillegal表示所述待训练敏感词命中的第一类P2P文件的数量,Jnormal表示所述待训练敏感词命中的第二类P2P文件的数量。若所述结果超过预设值,则将所述待训练敏感词添加到所述预设的敏感词库中。其中,该预设值可任意设定。
此外,在实际应用中,还可定期(如一周)对所有敏感词重新进行筛选,构建新的敏感词库,来进行P2P违规信息的判定。
对于预设的种子文件黑名单和预设的ED2K链接信息黑名单,可利用已判定为违规的P2P文件,可以建立黑名单库,保留违规P2P文件的哈希值,并在一个周期内对此黑名单库进行更新,只保留命中次数前1000的黑名单。
步骤202、获取待处理P2P传输信息。
步骤203、对所述待处理P2P传输信息进行还原,获取P2P链接信息。
其中,所述P2P链接信息包括:种子文件、ED2K链接信息。
步骤204、将所述P2P链接信息和预设的P2P参考链接信息进行匹配。
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。在此步骤中,可确定获取的种子文件、ED2K链接信息是否在预设的种子文件黑名单和预设的ED2K链接信息黑名单中。若所述预设的P2P参考链接信息中未包括所述P2P链接信息,执行步骤205;否则执行步骤207。
步骤205、解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词。
以文本格式打开一个种子文件,该文件如下所示:
d8:announce27:udp://open.demonii.com:133713:announce-listll27:udp://open.demonii.com:1337el34:udp://tracker.publichd.eu/announceel35:udp://tracker.openbittorrent.com:80el26:udp://tracker.istole.it:80el28:udp://exodus.desync.com:6969el40:udp://tracker.yify-torrents.com/announceel31:udp://9.rarbg.com:2710/announceel29:udp://tracker.publicbt.com:80ee7:comment40:Cached and downloaded from iStoreTor.com10:created by13:
mktorrent1.013:creation
datei1400202622e4:infod5:filesld6:lengthi92e4:pathl31:Downloaded FromPublicHD.SE.txteed6:lengthi552212276e4:pathl55:The.Big.Bang.Theory.S07E24.720p.HDTV.X264-DIMENSION.mkveee4:name62:The.Big.Bang.Theory.S07E24.720p.HDTV.X264-DIMENSION[PublicHD]12:piecelengthi4194304eee
以上是一个以Bencode格式编码的文件,该格式有四种编码类型:字符串型、数值型、列表型、字典型。
可利用算法对种子文件进行解析,该种子文件解析结果如下格式:
从在该解析过程中,可以看到’announce’以及’announce-list’字段为该种子文件需要连接的种子服务器地址。而在’info’字段与’name字段则为种子文件的文件描述以及文件名称。利用种子文件的文件名称与文件描述,可以对种子文件进行敏感词判定。
ED2K链接是一种以“ed2k://”开头的字符串,它指示浏览器或客户端连接到ED2K服务器,并通过ED2K服务器解析ED2K地址;依据文件名查询可提供资源的用户列表,并将该列表提供给请求用户。
典型的ED2K链接如下:
ed2k://|file(EKDV273)%20%A5%CD%A5%B3%B6%FA%A4%C4%A4%DC%A4%DF%A4%CE%A5%CB%A5%E3%A5%F3%A5%CB%A5%E3%A5%F3%A4%B7%A4%C1%A4%E3%A4%A6%A4%BE%20%A4%C4%A4%DC%A4%DF%20EKDV273.avi|1013666746|0A71853E8A26FDD902D040F34B0322BF|/
它的格式为:
ed2k://|file|<文件名称>|<文件大小>|<文件哈希值>|/
可以解析为:
从上述内容中,解码后的文件名中包括该文件的部分内容信息。因此,可以利用解码后的ED2K链接确定其中包括的待检测敏感词,进而进行判断。
步骤206、确定待检测敏感词是否位于预设的敏感词库中。
若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息,执行步骤207。否则认为不包括待过滤信息,为正常的P2P传输信息。
步骤207、根据所述P2P链接信息下载P2P文件。
在此,根据所述P2P链接信息模拟下载P2P文件。
步骤208、对所述P2P文件进行分析,确定所述P2P文件是否包括待过滤信息。若确定所述P2P文件包括待过滤信息,则执行步骤209,否则可认为是正常的P2P文件。
步骤209、获取传输所述P2P传输信息的P2P服务器的信息。
如上所述,对于种子文件,读取所述种子文件的“announce”和/或“announce-list”字段,获取传输所述P2P传输信息的P2P服务器的信息。而对于ED2K链接信息,则需要在下载P2P文件的过程中,监听提供下载文件的服务器IP、域名以及端口地址。
步骤210、根据所述P2P服务器的信息将所述P2P服务器设置为禁用。
在此,即将所述P2P服务器封堵。
步骤211、若确定所述P2P文件包括待过滤信息,则利用所述P2P链接信息更新预设的敏感词库和/或预设的P2P参考链接信息。
如果所述P2P文件包括待过滤信息,可利用获得的P2P文件中的敏感词对已有的敏感词库进行再训练,更新上述的黑名单等,以进一步提高准确率。
由上可以看出,在本发明实施例中,对P2P传输信息中的种子文件(Torrent)文件以及ED2K链接分别进行内容比对,对疑似违规信息进行判定并再次进行审核,通过种子文件内容提取与服务器IP抓包的方法对提供用户/文件信息的服务器地址进行封堵。此外,本实施例可建立哈希值黑名单库,对已判定信息直接进行比对判定,降低判定的工作量;本实施例还可基于已有的判定结果对判定条件进行训练,减少提交无效的违规信息,提高判定准确率。
实施例三
如图4所示,本发明实施例三的P2P传输中的信息处理装置,包括:
第一信息获取模块301,用于获取待处理P2P传输信息;信息处理模块302,用于对所述待处理P2P传输信息进行还原,获取P2P链接信息;其中,所述P2P链接信息包括:种子文件和/或ED2K链接信息;信息分析模块303,用于根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息。
其中,在一个实施例中,所述信息分析模块303包括:
第一匹配子模块,用于将所述P2P链接信息和预设的P2P参考链接信息进行匹配;第一确定子模块,用于若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
进一步的,为了提高准确率,所述信息分析模块303还包括:
第一信息解析子模块,用于若所述预设的P2P参考链接信息中未包括所述P2P链接信息,解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;第二确定子模块,用于若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
或者,在另一个实施例中,所述信息分析模块303包括:
第二信息解析子模块,用于解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;第三确定子模块,用于若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
进一步的,为了提高准确率,所述信息分析模块303还包括:第二匹配子模块,用于若所述待检测敏感词未位于所述预设的敏感词库中,将所述P2P链接信息和预设的P2P参考链接信息进行匹配;第四确定子模块,用于若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
其中,若所述P2P链接信息包括种子文件,所述第二信息解析子模块具体用于:获取所述种子文件的文件名称和/或文件描述信息,并从所述文件名称和/或文件描述信息中获取所述待检测敏感词;
若所述P2P链接信息包括ED2K链接信息,所述第二信息解析子模块具体用于:对所述ED2K链接信息进行解码,从解码后的ED2K链接信息中获取所述待检测敏感词。
如图5所示,所述装置还包括:
第二信息获取模块304,用于获取传输所述P2P传输信息的P2P服务器的信息;处理模块305,用于根据所述P2P服务器的信息将所述P2P服务器设置为禁用。
若所述P2P链接信息包括种子文件,所述第二信息获取模块304具体用于,读取所述种子文件的“announce”和/或“announce-list”字段,获取传输所述P2P传输信息的P2P服务器的信息;若所述P2P链接信息包括ED2K链接信息,所述第二信息获取模块304具体用于,根据所述ED2K链接信息下载P2P文件,根据对所述P2P文件的下载获取传输所述P2P传输信息的P2P服务器的信息。
再如图5所示,所述装置还包括:下载模块306,用于根据所述P2P链接信息下载P2P文件;信息确定模块307,用于对所述P2P文件进行分析,确定所述P2P文件是否包括待过滤信息;更新模块308,用于若确定所述P2P文件包括待过滤信息,则利用所述P2P链接信息更新预设的敏感词库和/或预设的P2P参考链接信息。
如图6所示,所述装置还包括:设置模块309,用于设置敏感词库和/或设置P2P参考链接信息。
其中,所述设置模块包括:获取子模块,用于获取待训练敏感词和待训练P2P文件,其中所述待训练P2P文件包括:含有待过滤信息的第一类P2P文件和含有待过滤信息的第二类P2P文件;训练子模块,用于利用所述待训练敏感词分别和所述第一类P2P文件、所述第二类P2P文件进行训练;处理子模块,用于将所述待训练敏感词命中的第一类P2P文件的数量,除以所述待训练敏感词命中的第一类P2P文件的数量和所述待训练敏感词命中的第二类P2P文件的数量的和,获得一结果;添加子模块,用于若所述结果超过预设值,则将所述待训练敏感词添加到所述预设的敏感词库中。
本发明所述装置的工作原理可参照前述方法实施例的描述。
由上可以看出,在本发明实施例中,对P2P传输信息中的种子文件(Torrent)以及ED2K链接分别进行内容比对,对疑似违规信息进行判定并再次进行审核,通过种子文件内容提取与服务器IP抓包的方法对提供用户/文件信息的服务器地址进行封堵。此外,本实施例可建立哈希值黑名单库,对已判定信息直接进行比对判定,降低判定的工作量;本实施例还可基于已有的判定结果对判定条件进行训练,减少提交无效的违规信息,提高判定准确率。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (22)

1.一种P2P传输中的信息处理方法,其特征在于,包括:
获取待处理P2P传输信息;
对所述待处理P2P传输信息进行还原,获取P2P链接信息;其中,所述P2P链接信息包括:种子文件和/或ED2K链接信息;
根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息的步骤,包括:
将所述P2P链接信息和预设的P2P参考链接信息进行匹配;
若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
3.根据权利要求2所述的方法,其特征在于,所述根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息的步骤,还包括:
若所述预设的P2P参考链接信息中未包括所述P2P链接信息,解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;
若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息的步骤,包括:
解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;
若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息的步骤,还包括:
若所述待检测敏感词未位于所述预设的敏感词库中,将所述P2P链接信息和预设的P2P参考链接信息进行匹配;
若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
6.根据权利要求4所述的方法,其特征在于,若所述P2P链接信息包括种子文件,所述解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词的步骤,包括:
获取所述种子文件的文件名称和/或文件描述信息,并从所述文件名称和/或文件描述信息中获取所述待检测敏感词;
若所述P2P链接信息包括ED2K链接信息,所述解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词的步骤,包括:
对所述ED2K链接信息进行解码,从解码后的ED2K链接信息中获取所述待检测敏感词。
7.根据权利要求1所述的方法,其特征在于,若根据所述P2P链接信息确定所述P2P传输信息中包括待过滤信息,所述方法还包括:
获取传输所述P2P传输信息的P2P服务器的信息;
根据所述P2P服务器的信息将所述P2P服务器设置为禁用。
8.根据权利要求7所述的方法,其特征在于,若所述P2P链接信息包括种子文件,所述获取传输所述P2P传输信息的P2P服务器的信息的步骤,包括:
读取所述种子文件的“announce”和/或“announce-list”字段,获取传输所述P2P传输信息的P2P服务器的信息;
若所述P2P链接信息包括ED2K链接信息,所述获取传输所述P2P传输信息的P2P服务器的信息的步骤包括:
根据所述ED2K链接信息下载P2P文件,根据对所述P2P文件的下载获取传输所述P2P传输信息的P2P服务器的信息。
9.根据权利要求1所述的方法,其特征在于,若根据所述P2P链接信息确定所述P2P传输信息中包括待过滤信息,所述方法还包括:
根据所述P2P链接信息下载P2P文件;
对所述P2P文件进行分析,确定所述P2P文件是否包括待过滤信息;
若确定所述P2P文件包括待过滤信息,则利用所述P2P链接信息更新预设的敏感词库和/或预设的P2P参考链接信息。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:
设置敏感词库;和/或设置P2P参考链接信息。
11.根据权利要求10所述的方法,其特征在于,所述设置敏感词库的步骤,包括:
获取待训练敏感词和待训练P2P文件,其中所述待训练P2P文件包括:含有待过滤信息的第一类P2P文件和含有待过滤信息的第二类P2P文件;
利用所述待训练敏感词分别和所述第一类P2P文件、所述第二类P2P文件进行训练;
将所述待训练敏感词命中的第一类P2P文件的数量,除以所述待训练敏感词命中的第一类P2P文件的数量和所述待训练敏感词命中的第二类P2P文件的数量的和,获得一结果;
若所述结果超过预设值,则将所述待训练敏感词添加到所述预设的敏感词库中。
12.一种P2P传输中的信息处理装置,其特征在于,包括:
第一信息获取模块,用于获取待处理P2P传输信息;
信息处理模块,用于对所述待处理P2P传输信息进行还原,获取P2P链接信息;其中,所述P2P链接信息包括:种子文件和/或ED2K链接信息;
信息分析模块,用于根据所述P2P链接信息确定所述P2P传输信息中是否包括待过滤信息。
13.根据权利要求12所述的装置,其特征在于,所述信息分析模块包括:
第一匹配子模块,用于将所述P2P链接信息和预设的P2P参考链接信息进行匹配;
第一确定子模块,用于若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
14.根据权利要求13所述的装置,其特征在于,所述信息分析模块还包括:
第一信息解析子模块,用于若所述预设的P2P参考链接信息中未包括所述P2P链接信息,解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;
第二确定子模块,用于若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
15.根据权利要求12所述的装置,其特征在于,所述信息分析模块包括:
第二信息解析子模块,用于解析所述P2P链接信息,获取所述P2P链接信息中的待检测敏感词;
第三确定子模块,用于若所述待检测敏感词位于预设的敏感词库中,则确定所述P2P传输信息中包括待过滤信息。
16.根据权利要求15所述的装置,其特征在于,所述信息分析模块还包括:
第二匹配子模块,用于若所述待检测敏感词未位于所述预设的敏感词库中,将所述P2P链接信息和预设的P2P参考链接信息进行匹配;
第四确定子模块,用于若所述预设的P2P参考链接信息中包括所述P2P链接信息,则确定所述P2P传输信息中包括待过滤信息;
所述预设的P2P参考链接信息包括:预设的种子文件黑名单和预设的ED2K链接信息黑名单。
17.根据权利要求15所述的装置,其特征在于,若所述P2P链接信息包括种子文件,所述第二信息解析子模块具体用于:获取所述种子文件的文件名称和/或文件描述信息,并从所述文件名称和/或文件描述信息中获取所述待检测敏感词;
若所述P2P链接信息包括ED2K链接信息,所述第二信息解析子模块具体用于:对所述ED2K链接信息进行解码,从解码后的ED2K链接信息中获取所述待检测敏感词。
18.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第二信息获取模块,用于获取传输所述P2P传输信息的P2P服务器的信息;
处理模块,用于根据所述P2P服务器的信息将所述P2P服务器设置为禁用。
19.根据权利要求18所述的装置,其特征在于,若所述P2P链接信息包括种子文件,所述第二信息获取模块具体用于,读取所述种子文件的“announce”和/或“announce-list”字段,获取传输所述P2P传输信息的P2P服务器的信息;
若所述P2P链接信息包括ED2K链接信息,所述第二信息获取模块具体用于,根据所述ED2K链接信息下载P2P文件,根据对所述P2P文件的下载获取传输所述P2P传输信息的P2P服务器的信息。
20.根据权利要求12所述的装置,其特征在于,所述装置还包括:
下载模块,用于根据所述P2P链接信息下载P2P文件;
信息确定模块,用于对所述P2P文件进行分析,确定所述P2P文件是否包括待过滤信息;
更新模块,用于若确定所述P2P文件包括待过滤信息,则利用所述P2P链接信息更新预设的敏感词库和/或预设的P2P参考链接信息。
21.根据权利要求12-20任一项所述的装置,其特征在于,所述装置还包括:
设置模块,用于设置敏感词库和/或设置P2P参考链接信息。
22.根据权利要求21所述的装置,其特征在于,所述设置模块包括:
获取子模块,用于获取待训练敏感词和待训练P2P文件,其中所述待训练P2P文件包括:含有待过滤信息的第一类P2P文件和含有待过滤信息的第二类P2P文件;
训练子模块,用于利用所述待训练敏感词分别和所述第一类P2P文件、所述第二类P2P文件进行训练;
处理子模块,用于将所述待训练敏感词命中的第一类P2P文件的数量,除以所述待训练敏感词命中的第一类P2P文件的数量和所述待训练敏感词命中的第二类P2P文件的数量的和,获得一结果;
添加子模块,用于若所述结果超过预设值,则将所述待训练敏感词添加到所述预设的敏感词库中。
CN201611121244.0A 2016-12-08 2016-12-08 一种p2p传输中的信息处理方法及装置 Pending CN108183831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611121244.0A CN108183831A (zh) 2016-12-08 2016-12-08 一种p2p传输中的信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611121244.0A CN108183831A (zh) 2016-12-08 2016-12-08 一种p2p传输中的信息处理方法及装置

Publications (1)

Publication Number Publication Date
CN108183831A true CN108183831A (zh) 2018-06-19

Family

ID=62544766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611121244.0A Pending CN108183831A (zh) 2016-12-08 2016-12-08 一种p2p传输中的信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN108183831A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995184A (zh) * 2021-03-05 2021-06-18 中电积至(海南)信息技术有限公司 一种多源网络流量内容完整还原方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567811A (zh) * 2009-05-26 2009-10-28 西北工业大学 基于BitTorrent的主动式特定信息传播监测方法
CN101853300A (zh) * 2010-05-26 2010-10-06 中国科学技术大学 一种视频下载服务网站的识别、评估方法及***
CN101997901A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 P2p文件传输管理方法与***
CN102387151A (zh) * 2011-11-01 2012-03-21 天津大学 一种p2p网络中基于块的病毒检测方法
US20130013583A1 (en) * 2011-05-30 2013-01-10 Lei Yu Online video tracking and identifying method and system
CN103384240A (zh) * 2012-12-21 2013-11-06 北京安天电子设备有限公司 一种p2p主动防御方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567811A (zh) * 2009-05-26 2009-10-28 西北工业大学 基于BitTorrent的主动式特定信息传播监测方法
CN101997901A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 P2p文件传输管理方法与***
CN101853300A (zh) * 2010-05-26 2010-10-06 中国科学技术大学 一种视频下载服务网站的识别、评估方法及***
US20130013583A1 (en) * 2011-05-30 2013-01-10 Lei Yu Online video tracking and identifying method and system
CN102387151A (zh) * 2011-11-01 2012-03-21 天津大学 一种p2p网络中基于块的病毒检测方法
CN103384240A (zh) * 2012-12-21 2013-11-06 北京安天电子设备有限公司 一种p2p主动防御方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EGGACHER: ""讨论下百度云盘如何过滤***种子的?"", 《HTTPS://WWW.V2EX.COM/T/138243》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995184A (zh) * 2021-03-05 2021-06-18 中电积至(海南)信息技术有限公司 一种多源网络流量内容完整还原方法和装置
CN112995184B (zh) * 2021-03-05 2022-07-12 中电积至(海南)信息技术有限公司 一种多源网络流量内容完整还原方法和装置

Similar Documents

Publication Publication Date Title
US20210258791A1 (en) Method for http-based access point fingerprint and classification using machine learning
Luo et al. Position-based automatic reverse engineering of network protocols
CN103179132B (zh) 一种检测和防御cc攻击的方法及装置
WO2018121331A1 (zh) 攻击请求的确定方法、装置及服务器
CN111277570A (zh) 数据的安全监测方法和装置、电子设备、可读介质
US9660833B2 (en) Application identification in records of network flows
CN112468520B (zh) 一种数据检测方法、装置、设备及可读存储介质
CN105933268A (zh) 一种基于全量访问日志分析的网站后门检测方法及装置
US20120173712A1 (en) Method and device for identifying p2p application connections
CN105321108A (zh) 一种用于在对等网络上创建共享信息列表的***和方法
CN103297270A (zh) 应用类型识别方法及网络设备
CN109756501A (zh) 一种基于http协议的高隐匿网络代理方法及***
CN102307123A (zh) 基于传输层流量特征的nat流量识别方法
KR102129375B1 (ko) 딥러닝 모델 기반 토르 사이트 액티브 핑거프린팅 시스템 및 방법
CN102130791B (zh) 一种在网关上检测代理的方法、装置及网关服务器
US20090290492A1 (en) Method and apparatus to index network traffic meta-data
CN104301180B (zh) 一种业务报文处理方法和设备
KR101250899B1 (ko) 응용계층 분산 서비스 거부 공격 탐지 및 차단 장치 및 그 방법
US9055113B2 (en) Method and system for monitoring flows in network traffic
CN112019508A (zh) 基于Web日志分析检测DDos攻击的方法、***和电子装置
Oluwabukola et al. A Packet Sniffer (PSniffer) application for network security in Java
US10419351B1 (en) System and method for extracting signatures from controlled execution of applications and application codes retrieved from an application source
CN105100246A (zh) 一种基于下载资源名称的网络流量管控方法
CN108183831A (zh) 一种p2p传输中的信息处理方法及装置
CN107948022A (zh) 一种对等网络流量的识别方法及识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180619

RJ01 Rejection of invention patent application after publication