CN107943954A - 网页敏感信息的检测方法、装置及电子设备 - Google Patents
网页敏感信息的检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN107943954A CN107943954A CN201711200493.3A CN201711200493A CN107943954A CN 107943954 A CN107943954 A CN 107943954A CN 201711200493 A CN201711200493 A CN 201711200493A CN 107943954 A CN107943954 A CN 107943954A
- Authority
- CN
- China
- Prior art keywords
- keyword
- association
- web page
- page contents
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种网页敏感信息的检测方法、装置及电子设备,涉及信息安全技术领域,获取待检测网站的网页内容;判断网页内容中是否包含目标关键词,目标关键词为与预设敏感信息相关的关键词;如果是,提取网页内容中在目标关键词预设范围内的目标网页内容;判断目标网页内容中是否包含关联关键词,关联关键词为预设关联关键词库中与目标关键词相关联的关键词;如果是,求取关联关键词的加权和,得到加权分值;当该分值大于预设阈值时,确定待检测网站中包含待检测信息。该方法能够对待检测网站的网页内容进行目标关键词和关联关键词的双重判断,降低网页敏感信息自动化检测的误报率,从而减少人工审核的工作量,提高工作效率和降低人工成本。
Description
技术领域
本发明涉及信息安全技术领域,尤其是涉及一种网页敏感信息的检测方法、装置及电子设备。
背景技术
随着信息技术和互联网的飞速发展,网页已经成为各类组织、单位以及个人发布和获取信息的重要途径之一,每天都有亿级别的网页被更新和浏览。然而,网页上的信息并不都是合法的或者文明的。由于黑客入侵、信息泄露、网民的不道德行为等原因,使网页上也存在着各种不文明的信息,以及一些非法泄露的敏感信息(如商业机密等)。
为了保障信息不被非法泄露和互联网内容的绿色健康,许多网站内容审计人员和企业需要对大量的网页做人工核查,发现敏感信息立刻通报相关单位整改。但是纯人工核查效率低下,并且人工方式难免会有遗漏。因此,需要进行自动化处理。
现有的检测方法中,首先对网页内容进行简单的关键词查找匹配,发现关键词后再后人工审核。此种方式由于会将含有关键词的非敏感内容,也当作敏感信息来处理,因此,会在人工审核前过滤掉大量的正常网页,导致误报率居高不下,进而导致人工作业量大大增加。
发明内容
有鉴于此,本发明的目的在于提供一种网页敏感信息的检测方法、装置及电子设备,能够对待检测网站的网页内容进行目标关键词和关联关键词的双重判断,降低网页敏感信息自动化检测的误报率,从而减少人工审核的工作量,提高工作效率和降低人工成本。
第一方面,本发明实施例提供了一种网页敏感信息的检测方法,包括:
获取待检测网站的网页内容;
判断网页内容中是否包含目标关键词,其中,目标关键词为与待检测信息相关的关键词;待检测信息为预设敏感信息;
如果是,提取网页内容中在目标关键词预设范围内的目标网页内容;
判断目标网页内容中是否包含关联关键词,其中,关联关键词为预设关联关键词库中与目标关键词相关联的关键词;
如果是,求取关联关键词的加权和,得到加权分值;
当加权分值大于预设阈值时,确定待检测网站中包含待检测信息。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,判断网页内容中是否包含目标关键词,具体包括:
对网页内容进行分词处理,得到第一分词片段;
对第一分词片段进行目标关键词匹配,判断第一分词片段中是否包含目标关键词。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,判断目标网页内容中是否包含关联关键词,具体包括:
将目标网页内容进行分词处理,得到第二分词片段;
对第二分词片段进行关联关键词匹配,判断第二分词片段中是否包含关联关键词。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,在将目标网页内容进行分词处理,得到第二分词片段之后,还包括:
遍历第二分词片段,统计分词片段的词频,形成词频集合;
从预设关联关键词库中查找关联关键词,形成关联关键词集合;
判断词频集合与关联关键词集合是否存在相同词;
如果是,则更新相同词在关联关键词集合中的词频;
如果否,则将词频集合中的词及其词频存入关联关键词集合中。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,更新相同词在关联关键词集合中的词频,具体包括:
将相同的词在词频集合中的词频与其在关联关键词集合中的词频进行叠加;
将叠加后的词频作为新的词频存入关联关键词集合中。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,获取待检测网站的网页内容,具体包括:
获取待检测网站的页面地址;
将页面地址保存在***数据库模块中;
根据页面地址进行页面访问,提取页面内容作为网页内容。
第二方面,本发明实施例提供一种网页敏感信息的检测装置,包括:
第一网页内容获取模块,用于获取待检测网站的网页内容;
第一判断模块,用于判断网页内容中是否包含目标关键词,其中,目标关键词为与待检测信息相关的关键词;待检测信息为预设敏感信息;
第二网页内容获取模块,用于在第一判断模块的判断结果为是时,提取网页内容中在目标关键词预设范围内的目标网页内容;
第二判断模块,用于判断目标网页内容中是否包含关联关键词,其中,关联关键词为预设关联关键词库中与目标关键词相关联的关键词;
计算模块,用于在第二判断模块的判断结果为是时,求取关联关键词的加权和,得到加权分值;
确定模块,用于在加权分值大于预设阈值时,确定待检测网站中包含待检测信息。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,第一判断模块包括:
第一分词模块,用于对网页内容进行分词处理,得到第一分词片段;
第一匹配模块,用于对第一分词片段进行目标关键词匹配,判断第一分词片段中是否包含目标关键词。
第二判断模块包括:
第二分词模块,用于将目标网页内容进行分词处理,得到第二分词片段;
第二匹配模块,用于对第二分词片段进行关联关键词匹配,判断第二分词片段中是否包含关联关键词。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器,存储器上存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行第一方面所述的方法。
本发明实施例带来了以下有益效果:
在本发明实施例提供的网页敏感信息的检测方法中,首先获取待检测网站的网页内容;判断该网页内容中是否包含目标关键词,该目标关键词为与待检测信息,也就是预设敏感信息相关的关键词;如果该网页内容中包含上述目标关键词,则提取网页内容中在目标关键词预设范围内的目标网页内容;进一步判断目标网页内容中是否包含关联关键词,该关联关键词为预设关联关键词库中与目标关键词相关联的关键词;如果包含关联关键词,则求取上述关联关键词的加权和,得到加权分值;当加权分值大于预设阈值时,确定待检测网站中包含待检测信息,也就是该网站包含敏感信息。该方法能够对待检测网站的网页内容,进行目标关键词和关联关键词的双重判断,以及通过关联关键词的分值来确定待检测网站是否包含敏感信息,可以降低网页敏感信息自动化检测的误报率,从而减少人工审核的工作量,提高工作效率和降低人工成本。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网页敏感信息的检测方法的流程图;
图2为本发明实施例提供的另一种网页敏感信息的检测方法的流程图;
图3为本发明实施例提供的另一种网页敏感信息的检测方法的流程图;
图4为本发明实施例提供的另一种网页敏感信息的检测方法的流程图;
图5为本发明实施例提供的另一种网页敏感信息的检测方法的流程图;
图6为本发明实施例提供的另一种网页敏感信息的检测方法的流程图;
图7为本发明实施例提供的一种网页敏感信息的检测装置的示意图;
图8为本发明实施例提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前现有的网页敏感信息检测方法中,会将含有关键词的非敏感内容,也当作敏感信息来处理,因此,会在人工审核前过滤掉大量的正常网页,导致误报率居高不下,进而导致人工作业量大大增加。
基于此,本发明实施例提供一种网页敏感信息的检测方法、装置及电子设备,,能够对待检测网站的网页内容,进行目标关键词和关联关键词的双重判断,以及通过关联关键词的分值来确定待检测网站是否包含敏感信息,可以降低网页敏感信息自动化检测的误报率,从而减少人工审核的工作量,提高工作效率和降低人工成本。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种网页敏感信息的检测方法进行详细介绍。
实施例一:
本发明实施例提供了一种网页敏感信息的检测方法,参见图1所示,该方法包括以下几个步骤:
S101:获取待检测网站的网页内容。
具体的网页内容获取过程包括以下几个步骤,参见图2所示:
S201:获取待检测网站的页面地址。
S202:将页面地址保存在***数据库模块中。
S203:根据页面地址进行页面访问,提取页面内容作为网页内容。
具体实现的时候,从待检测网站的初始页面开始解析,获取待检测网站的页面地址(网页链接),然后将页面链接存入***数据库模块,并保证相同页面链接不重复存入,再从***数据库模块中提取已保存的并且未经过页面抓取步骤处理的页面链接,进行页面访问,并提取新的页面链接存入到***数据库模块,直至抓取完待检测网站的所有页面。具体网站爬取可以采用网络爬虫、正则表达式、模拟解析等多种方式,或多种方式相结合来进行,也可以采用目前现有开源的网络爬虫,如webmagic、scrapy等目前较为成熟的开源网络爬虫。
迭代所有上述抓取到的页面,对每个迭代到的页面,进行内容提取,页面内容提取可采用正则、Dom解析、浏览器内核提取等手段进行。
S102:判断网页内容中是否包含目标关键词。
其中,目标关键词为与待检测信息相关的关键词,待检测信息为预设敏感信息,具体的判断过程参见图3所示:
S301:对网页内容进行分词处理,得到第一分词片段。
在提取出网页内容后,需要对网页内容进行分词处理,得到分词片段,为了与下文的分词片段进行区分,这里的分词片段为第一分词片段,具体包括多个分词。分词处理过程可采用的技术有最大正向匹配、最大逆向匹配、双向最大匹配、基于统计的匹配等。
S302:对第一分词片段进行目标关键词匹配,判断第一分词片段中是否包含目标关键词。
在对网页内容进行分词处理,得到第一分词片段后,进一步对第一分词片段进行目标关键词的匹配,判断第一分词片段中的多个分词中是否有与目标关键词相匹配的分词。
如果是,则执行步骤S103:提取网页内容中在目标关键词预设范围内的目标网页内容。否则跳过该网页,对下一个网页进行检测,直到该待检测网站的所有网页被检测完。
上述预设范围可以是一个配置的值,例如配置为100的话,就提取该网页内容中在目标关键词前面的最多100个字和后面的最多100个字作为目标网页内容,也就是该目标关键词前后相邻的上下文内容。当然,预设范围可以根据实际情况进行不同的设定,提高敏感信息检测的准确性,减少误报率。
S104:判断目标网页内容中是否包含关联关键词。
其中,关联关键词为预设关联关键词库中与目标关键词相关联的关键词,具体的判断过程参见图4所示:
S401:将目标网页内容进行分词处理,得到第二分词片段。
在提取出目标网页内容后,同样需要对目标网页内容进行分词处理,得到分词片段,为了与上文的分词片段进行区分,这里的分词片段为第二分词片段,具体包括多个分词。分词处理过程可采用的技术有最大正向匹配、最大逆向匹配、双向最大匹配、基于统计的匹配等。
S402:对第二分词片段进行关联关键词匹配,判断第二分词片段中是否包含关联关键词。
在对目标网页内容进行分词处理,得到第二分词片段后,进一步对第二分词片段进行关联关键词的匹配,判断第二分词片段中的多个分词中是否有与关联关键词相匹配的分词。
如果是,则执行步骤S105:求取关联关键词的加权和,得到加权分值。否则跳过该网页,对下一个网页进行检测,直到该待检测网站的所有网页被检测完。
如果在目标网页内容中存在与关联关键词相匹配的分词,那么就将各个分词在关联关键词库中的权值做加权分值计算,也就是求取关联关键词的加权和。
S106:当加权分值大于预设阈值时,确定待检测网站中包含待检测信息。
在服务器中,预先设置有加权分值的阈值,当计算出的加权分值超过该阈值,则确定待检测网站中包含待检测信息,也就是包含敏感信息。
为了提高网页敏感信息的检测准确率,该方法在确定待检测网站中包含有敏感信息后,还会对关联关键词库进行训练,不断地对关联关键词库进行更新,具体的实现过程如下:
在步骤S401:将目标网页内容进行分词处理,得到第二分词片段之后,还包括以下步骤,参见图5所示:
S501:遍历第二分词片段,统计分词片段的词频,形成词频集合。
在对第二分词片段进行分词处理后,遍历第二分词片段中的每个分词,并进行词频统计,得到词频集合S0。
S502:从预设关联关键词库中查找关联关键词,形成关联关键词集合。
从预设关联关键词库中查找到与目标关键词相关的关联关键词,得到关联关键词集合S1。
S503:判断词频集合与关联关键词集合是否存在相同词。
遍历词频集合S0,查找是否有与关联关键词集合S1中相同的词。
如果是,则执行步骤S504:更新相同词在关联关键词集合中的词频。
如果否,则执行步骤S505:将词频集合中的词及其词频存入关联关键词集合中。
具体的更新词频过程参见图6所示:
S601:将相同的词在词频集合中的词频与其在关联关键词集合中的词频进行叠加。
S602:将叠加后的词频作为新的词频存入关联关键词集合中。
本发明实施例所提供的网页敏感信息的检测方法,能够对待检测网站的网页内容进行目标关键词和关联关键词的双重判断,降低网页敏感信息自动化检测的误报率,从而减少人工审核的工作量,提高工作效率和降低人工成本。此外,还可以对关联关键词库不断地进行更新,进一步提高网页敏感信息的检测准确性,降低误报率。
实施例二:
本发明实施例提供一种网页敏感信息的检测装置,参见图7所示,该装置包括:
第一网页内容获取模块71,用于获取待检测网站的网页内容;
第一判断模块72,用于判断网页内容中是否包含目标关键词,其中,目标关键词为与待检测信息相关的关键词;待检测信息为预设敏感信息;
第二网页内容获取模块73,用于在第一判断模块的判断结果为是时,提取网页内容中在目标关键词预设范围内的目标网页内容;
第二判断模块74,用于判断目标网页内容中是否包含关联关键词,其中,关联关键词为预设关联关键词库中与目标关键词相关联的关键词;
计算模块75,用于在第二判断模块的判断结果为是时,求取关联关键词的加权和,得到加权分值;
确定模块76,用于在加权分值大于预设阈值时,确定待检测网站中包含待检测信息。
其中,第一判断模块72包括:
第一分词模块721,用于对网页内容进行分词处理,得到第一分词片段;
第一匹配模块722,用于对第一分词片段进行目标关键词匹配,判断第一分词片段中是否包含目标关键词。
第二判断模块74包括:
第二分词模块741,用于将目标网页内容进行分词处理,得到第二分词片段;
第二匹配模块742,用于对第二分词片段进行关联关键词匹配,判断第二分词片段中是否包含关联关键词。
本发明实施例所提供的网页敏感信息的检测装置中,各个模块的工作过程与前述网页敏感信息的检测方法具有相同的技术特征,因此,同样可以实现上述功能,在此不再赘述。
实施例三:
本发明实施例提供一种电子设备,参见图8所示,该电子设备包括:处理器80,存储器81,总线82和通信接口83,所述处理器80、通信接口83和存储器81通过总线82连接;处理器80用于执行存储器81中存储的可执行模块,例如计算机程序。处理器执行计算机程序时实现如方法实施例所述的方法的步骤。
其中,存储器81可能包含高速随机存取存储器(RAM,RandomAccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口83(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线82可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器81用于存储程序,所述处理器80在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器80中,或者由处理器80实现。
处理器80可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器80中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器80可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器81,处理器80读取存储器81中的信息,结合其硬件完成上述方法的步骤。
网页敏感信息的检测方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置及电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本发明的多个实施例方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种网页敏感信息的检测方法,其特征在于,包括:
获取待检测网站的网页内容;
判断所述网页内容中是否包含目标关键词,其中,目标关键词为与待检测信息相关的关键词;所述待检测信息为预设敏感信息;
如果是,提取所述网页内容中在所述目标关键词预设范围内的目标网页内容;
判断所述目标网页内容中是否包含关联关键词,其中,所述关联关键词为预设关联关键词库中与所述目标关键词相关联的关键词;
如果是,求取所述关联关键词的加权和,得到加权分值;
当所述加权分值大于预设阈值时,确定所述待检测网站中包含所述待检测信息。
2.根据权利要求1所述的方法,其特征在于,所述判断所述网页内容中是否包含目标关键词,具体包括:
对所述网页内容进行分词处理,得到第一分词片段;
对所述第一分词片段进行目标关键词匹配,判断所述第一分词片段中是否包含所述目标关键词。
3.根据权利要求1所述的方法,其特征在于,所述判断所述目标网页内容中是否包含关联关键词,具体包括:
将所述目标网页内容进行分词处理,得到第二分词片段;
对所述第二分词片段进行关联关键词匹配,判断所述第二分词片段中是否包含所述关联关键词。
4.根据权利要求3所述的方法,其特征在于,在所述将所述目标网页内容进行分词处理,得到第二分词片段之后,还包括:
遍历所述第二分词片段,统计分词片段的词频,形成词频集合;
从所述预设关联关键词库中查找所述关联关键词,形成关联关键词集合;
判断所述词频集合与所述关联关键词集合是否存在相同词;
如果是,则更新所述相同词在所述关联关键词集合中的词频;
如果否,则将所述词频集合中的词及其词频存入所述关联关键词集合中。
5.根据权利要求4所述的方法,其特征在于,所述更新所述相同词在所述关联关键词集合中的词频,具体包括:
将所述相同的词在所述词频集合中的词频与其在所述关联关键词集合中的词频进行叠加;
将叠加后的词频作为新的词频存入所述关联关键词集合中。
6.根据权利要求1所述的方法,其特征在于,所述获取待检测网站的网页内容,具体包括:
获取待检测网站的页面地址;
将所述页面地址保存在***数据库模块中;
根据所述页面地址进行页面访问,提取页面内容作为所述网页内容。
7.一种网页敏感信息的检测装置,其特征在于,包括:
第一网页内容获取模块,用于获取待检测网站的网页内容;
第一判断模块,用于判断所述网页内容中是否包含目标关键词,其中,目标关键词为与待检测信息相关的关键词;所述待检测信息为预设敏感信息;
第二网页内容获取模块,用于在所述第一判断模块的判断结果为是时,提取所述网页内容中在所述目标关键词预设范围内的目标网页内容;
第二判断模块,用于判断所述目标网页内容中是否包含关联关键词,其中,所述关联关键词为预设关联关键词库中与所述目标关键词相关联的关键词;
计算模块,用于在所述第二判断模块的判断结果为是时,求取所述关联关键词的加权和,得到加权分值;
确定模块,用于在所述加权分值大于预设阈值时,确定所述待检测网站中包含所述待检测信息。
8.根据权利要求7所述的装置,其特征在于,
所述第一判断模块包括:
第一分词模块,用于对所述网页内容进行分词处理,得到第一分词片段;
第一匹配模块,用于对所述第一分词片段进行目标关键词匹配,判断所述第一分词片段中是否包含所述目标关键词。
所述第二判断模块包括:
第二分词模块,用于将所述目标网页内容进行分词处理,得到第二分词片段;
第二匹配模块,用于对所述第二分词片段进行关联关键词匹配,判断所述第二分词片段中是否包含所述关联关键词。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711200493.3A CN107943954B (zh) | 2017-11-24 | 2017-11-24 | 网页敏感信息的检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711200493.3A CN107943954B (zh) | 2017-11-24 | 2017-11-24 | 网页敏感信息的检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107943954A true CN107943954A (zh) | 2018-04-20 |
CN107943954B CN107943954B (zh) | 2020-07-10 |
Family
ID=61948878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711200493.3A Active CN107943954B (zh) | 2017-11-24 | 2017-11-24 | 网页敏感信息的检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107943954B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109302383A (zh) * | 2018-08-31 | 2019-02-01 | 平安科技(深圳)有限公司 | 一种url监控方法及装置 |
CN109409091A (zh) * | 2018-09-28 | 2019-03-01 | 深信服科技股份有限公司 | 检测Web页面的方法、装置、设备以及计算机存储介质 |
CN109447469A (zh) * | 2018-10-30 | 2019-03-08 | 阿里巴巴集团控股有限公司 | 一种文本检测方法、装置及设备 |
CN109614608A (zh) * | 2018-10-26 | 2019-04-12 | 平安科技(深圳)有限公司 | 电子装置、文本信息检测方法及存储介质 |
CN109712612A (zh) * | 2018-12-28 | 2019-05-03 | 广东亿迅科技有限公司 | 一种语音关键词检测方法及装置 |
CN110413866A (zh) * | 2018-04-27 | 2019-11-05 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN110516156A (zh) * | 2019-08-29 | 2019-11-29 | 深信服科技股份有限公司 | 一种网络行为监控装置、方法、设备和存储介质 |
CN110619103A (zh) * | 2019-09-18 | 2019-12-27 | 珠海格力电器股份有限公司 | 网页图文检测方法、装置及存储介质 |
CN110750710A (zh) * | 2019-09-03 | 2020-02-04 | 深圳壹账通智能科技有限公司 | 风控协议预警方法、装置、计算机设备和存储介质 |
CN110929129A (zh) * | 2018-08-31 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 一种信息检测方法、设备及机器可读存储介质 |
CN111782986A (zh) * | 2019-05-17 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 一种监控基于短链接进行访问的方法和装置 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN111984891A (zh) * | 2020-08-07 | 2020-11-24 | 游艺星际(北京)科技有限公司 | 页面展示方法、装置、电子设备和存储介质 |
CN112328942A (zh) * | 2020-11-25 | 2021-02-05 | 杭州安恒信息安全技术有限公司 | 基于网站的目标行为识别方法、装置和电子装置 |
CN112508361A (zh) * | 2020-11-24 | 2021-03-16 | 江苏省质量和标准化研究院 | 产品出口受阻信息处理方法、装置、电子设备及存储介质 |
CN112532624A (zh) * | 2020-11-27 | 2021-03-19 | 深信服科技股份有限公司 | 一种黑链检测方法、装置、电子设备及可读存储介质 |
CN113378172A (zh) * | 2020-02-25 | 2021-09-10 | 奇安信科技集团股份有限公司 | 用于识别敏感网页的方法、装置、计算机***和介质 |
CN113806732A (zh) * | 2020-06-16 | 2021-12-17 | 深信服科技股份有限公司 | 一种网页篡改检测方法、装置、设备及存储介质 |
CN113824804A (zh) * | 2021-11-24 | 2021-12-21 | 飞狐信息技术(天津)有限公司 | 一种关键词检测的方法及相关装置 |
CN115186657A (zh) * | 2022-07-28 | 2022-10-14 | 北京网景盛世技术开发中心 | 错敏信息检测方法、装置、计算机设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055621A (zh) * | 2006-04-10 | 2007-10-17 | 中国科学院自动化研究所 | 基于内容的敏感网页识别方法 |
CN101101599A (zh) * | 2007-06-20 | 2008-01-09 | 精实万维软件(北京)有限公司 | 一种从网页中提取广告主信息的方法 |
US20150074289A1 (en) * | 2011-12-28 | 2015-03-12 | Google Inc. | Detecting error pages by analyzing server redirects |
CN105468684A (zh) * | 2015-11-17 | 2016-04-06 | 贵阳朗玛信息技术股份有限公司 | 敏感词过滤***及其通信方法 |
CN105574090A (zh) * | 2015-12-10 | 2016-05-11 | 北京中科汇联科技股份有限公司 | 一种敏感词过滤方法及*** |
CN105956180A (zh) * | 2016-05-30 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 一种敏感词过滤方法 |
CN106156017A (zh) * | 2015-03-23 | 2016-11-23 | 北大方正集团有限公司 | 信息识别方法和信息识别*** |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN106528731A (zh) * | 2016-10-27 | 2017-03-22 | 新疆大学 | 一种敏感词过滤方法及*** |
CN106874253A (zh) * | 2015-12-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 识别敏感信息的方法及装置 |
CN107277055A (zh) * | 2017-08-03 | 2017-10-20 | 杭州安恒信息技术有限公司 | 一种基于离线缓存的网站防护技术 |
-
2017
- 2017-11-24 CN CN201711200493.3A patent/CN107943954B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055621A (zh) * | 2006-04-10 | 2007-10-17 | 中国科学院自动化研究所 | 基于内容的敏感网页识别方法 |
CN101101599A (zh) * | 2007-06-20 | 2008-01-09 | 精实万维软件(北京)有限公司 | 一种从网页中提取广告主信息的方法 |
US20150074289A1 (en) * | 2011-12-28 | 2015-03-12 | Google Inc. | Detecting error pages by analyzing server redirects |
CN106156017A (zh) * | 2015-03-23 | 2016-11-23 | 北大方正集团有限公司 | 信息识别方法和信息识别*** |
CN105468684A (zh) * | 2015-11-17 | 2016-04-06 | 贵阳朗玛信息技术股份有限公司 | 敏感词过滤***及其通信方法 |
CN105574090A (zh) * | 2015-12-10 | 2016-05-11 | 北京中科汇联科技股份有限公司 | 一种敏感词过滤方法及*** |
CN106874253A (zh) * | 2015-12-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 识别敏感信息的方法及装置 |
CN105956180A (zh) * | 2016-05-30 | 2016-09-21 | 北京京东尚科信息技术有限公司 | 一种敏感词过滤方法 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN106528731A (zh) * | 2016-10-27 | 2017-03-22 | 新疆大学 | 一种敏感词过滤方法及*** |
CN107277055A (zh) * | 2017-08-03 | 2017-10-20 | 杭州安恒信息技术有限公司 | 一种基于离线缓存的网站防护技术 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413866A (zh) * | 2018-04-27 | 2019-11-05 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN110413866B (zh) * | 2018-04-27 | 2024-02-02 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN110929129A (zh) * | 2018-08-31 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 一种信息检测方法、设备及机器可读存储介质 |
CN109302383B (zh) * | 2018-08-31 | 2022-04-29 | 平安科技(深圳)有限公司 | 一种url监控方法及装置 |
CN110929129B (zh) * | 2018-08-31 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 一种信息检测方法、设备及机器可读存储介质 |
CN109302383A (zh) * | 2018-08-31 | 2019-02-01 | 平安科技(深圳)有限公司 | 一种url监控方法及装置 |
CN109409091A (zh) * | 2018-09-28 | 2019-03-01 | 深信服科技股份有限公司 | 检测Web页面的方法、装置、设备以及计算机存储介质 |
CN109409091B (zh) * | 2018-09-28 | 2021-11-19 | 深信服科技股份有限公司 | 检测Web页面的方法、装置、设备以及计算机存储介质 |
CN109614608A (zh) * | 2018-10-26 | 2019-04-12 | 平安科技(深圳)有限公司 | 电子装置、文本信息检测方法及存储介质 |
CN109447469B (zh) * | 2018-10-30 | 2022-06-24 | 创新先进技术有限公司 | 一种文本检测方法、装置及设备 |
CN109447469A (zh) * | 2018-10-30 | 2019-03-08 | 阿里巴巴集团控股有限公司 | 一种文本检测方法、装置及设备 |
CN109712612A (zh) * | 2018-12-28 | 2019-05-03 | 广东亿迅科技有限公司 | 一种语音关键词检测方法及装置 |
CN111782986A (zh) * | 2019-05-17 | 2020-10-16 | 北京京东尚科信息技术有限公司 | 一种监控基于短链接进行访问的方法和装置 |
CN110516156A (zh) * | 2019-08-29 | 2019-11-29 | 深信服科技股份有限公司 | 一种网络行为监控装置、方法、设备和存储介质 |
CN110750710A (zh) * | 2019-09-03 | 2020-02-04 | 深圳壹账通智能科技有限公司 | 风控协议预警方法、装置、计算机设备和存储介质 |
CN110619103A (zh) * | 2019-09-18 | 2019-12-27 | 珠海格力电器股份有限公司 | 网页图文检测方法、装置及存储介质 |
CN113378172A (zh) * | 2020-02-25 | 2021-09-10 | 奇安信科技集团股份有限公司 | 用于识别敏感网页的方法、装置、计算机***和介质 |
CN113378172B (zh) * | 2020-02-25 | 2023-12-29 | 奇安信科技集团股份有限公司 | 用于识别敏感网页的方法、装置、计算机***和介质 |
CN113806732A (zh) * | 2020-06-16 | 2021-12-17 | 深信服科技股份有限公司 | 一种网页篡改检测方法、装置、设备及存储介质 |
CN113806732B (zh) * | 2020-06-16 | 2023-11-03 | 深信服科技股份有限公司 | 一种网页篡改检测方法、装置、设备及存储介质 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN111984891A (zh) * | 2020-08-07 | 2020-11-24 | 游艺星际(北京)科技有限公司 | 页面展示方法、装置、电子设备和存储介质 |
CN112508361A (zh) * | 2020-11-24 | 2021-03-16 | 江苏省质量和标准化研究院 | 产品出口受阻信息处理方法、装置、电子设备及存储介质 |
CN112508361B (zh) * | 2020-11-24 | 2024-03-29 | 江苏省质量和标准化研究院 | 产品出口受阻信息处理方法、装置、电子设备及存储介质 |
CN112328942A (zh) * | 2020-11-25 | 2021-02-05 | 杭州安恒信息安全技术有限公司 | 基于网站的目标行为识别方法、装置和电子装置 |
CN112532624A (zh) * | 2020-11-27 | 2021-03-19 | 深信服科技股份有限公司 | 一种黑链检测方法、装置、电子设备及可读存储介质 |
CN112532624B (zh) * | 2020-11-27 | 2023-09-05 | 深信服科技股份有限公司 | 一种黑链检测方法、装置、电子设备及可读存储介质 |
CN113824804A (zh) * | 2021-11-24 | 2021-12-21 | 飞狐信息技术(天津)有限公司 | 一种关键词检测的方法及相关装置 |
CN115186657A (zh) * | 2022-07-28 | 2022-10-14 | 北京网景盛世技术开发中心 | 错敏信息检测方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107943954B (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107943954A (zh) | 网页敏感信息的检测方法、装置及电子设备 | |
CN108959383A (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
US9531751B2 (en) | System and method for identifying phishing website | |
CN105488023B (zh) | 一种文本相似度评估方法及装置 | |
CN107437038A (zh) | 一种网页篡改的检测方法及装置 | |
CN103838798B (zh) | 页面分类***及页面分类方法 | |
CN103077250B (zh) | 一种网页内容抓取方法及装置 | |
US9262536B2 (en) | Direct page view measurement tag placement verification | |
CN110427628A (zh) | 基于神经网络算法的web资产分类检测方法及装置 | |
CN109104421A (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
CN106446179A (zh) | 热点话题的生成方法及装置 | |
CN106803039A (zh) | 一种恶意文件的同源判定方法及装置 | |
CN108228546A (zh) | 一种文本特征提取方法、装置、设备及可读存储介质 | |
CN107241350A (zh) | 网络安全防御方法、装置及电子设备 | |
CN109064067B (zh) | 基于互联网的金融风险运营主体判定方法及装置 | |
CN110532784A (zh) | 一种暗链检测方法、装置、设备及计算机可读存储介质 | |
CN103324641A (zh) | 信息记录推荐方法和装置 | |
CN113010785B (zh) | 用户推荐方法及设备 | |
CN114297665A (zh) | 基于深度学习的智能合约漏洞检测方法和装置 | |
CN103838865B (zh) | 用于挖掘时效性种子页的方法及装置 | |
CN108270754A (zh) | 一种钓鱼网站的检测方法及装置 | |
CN108694192B (zh) | 网页类型的判断方法及装置 | |
CN105095203B (zh) | 同义词的确定、搜索方法及服务器 | |
WO2015149550A1 (zh) | 确定网站内链接等级的方法及装置 | |
CN108875050A (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 310000 No. 188 Lianhui Street, Xixing Street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: DBAPPSECURITY Ltd. Address before: Zhejiang Zhongcai Building No. 68 Binjiang District road Hangzhou City, Zhejiang Province, the 310051 and 15 layer Applicant before: DBAPPSECURITY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |