CN111541683B - 风险网站宣传主体检测方法、装置、设备、介质 - Google Patents
风险网站宣传主体检测方法、装置、设备、介质 Download PDFInfo
- Publication number
- CN111541683B CN111541683B CN202010311366.6A CN202010311366A CN111541683B CN 111541683 B CN111541683 B CN 111541683B CN 202010311366 A CN202010311366 A CN 202010311366A CN 111541683 B CN111541683 B CN 111541683B
- Authority
- CN
- China
- Prior art keywords
- target
- main body
- determining
- propaganda
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种风险网站宣传主体检测方法、装置、设备、介质,该方法包括:利用网络爬虫技术爬取目标风险网站的网页信息;利用去标签技术,从所述网页信息中确定出目标文本信息;利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;根据所述新词集和所述目标文本信息,确定出宣传主体清单;从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。这样能够检测出风险网站的实际宣传主体,且风险网站宣传主体检测效率高,有利于维护网络安全。
Description
技术领域
本申请涉及网络安全技术领域,特别涉及一种风险网站宣传主体检测方法、装置、设备、介质。
背景技术
风险网站泛指互联网空间中存在潜在风险的一系列网站,例如:钓鱼网站、赌博网站以及网贷平台网站等,在互联网技术日益发展的同时,***逐渐结合互联网演变出一些新型犯罪,由于线上操作隐秘、扩散便利以及可快速复制等,使得发现和打击风险网站变得十分困难。现有技术主要是通过将待检测网站的网站备案以及备案的服务器IP去获取网站的运营主体信息,但在实际情况下,运营主体与实际的宣传主体往往不一致,宣传主题是指风险网站宣传的主题对象,网贷平台网站中的平台名称,钓鱼网站模拟的目标网站名称等。这就导致检测不到实际的宣传主体,宣传主体检测效率低,影响网络安全。
发明内容
有鉴于此,本申请的目的在于提供一种风险网站宣传主体检测方法、装置、设备、介质,能够检测出风险网站的实际宣传主体,且风险网站宣传主体检测效率高,有利于维护网络安全。其具体方案如下:
第一方面,本申请公开了一种风险网站宣传主体检测方法,包括:
利用网络爬虫技术爬取目标风险网站的网页信息;
利用去标签技术,从所述网页信息中确定出目标文本信息;
利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;
根据所述新词集和所述目标文本信息,确定出宣传主体清单;
从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。
可选的,所述利用去标签技术,从所述网页信息中确定出目标文本信息,包括:
利用XML解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息。
可选的,所述利用XML解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息,包括:
利用DOM工具,从所述网页信息中确定出相应的所述标题、所述网页描述以及所述标签内的目标信息。
可选的,所述利用DOM工具,从所述网页信息中确定出相应的所述标题、所述网页描述以及所述标签内的目标信息,包括:
利用DOM工具对所述网页信息进行结构化;
对结构化后网页信息进行XML元素遍历,以确定出相应的所述标题以及所述网页描述;
对所述结构化后网页信息中的所述标签中的标识进行识别,以确定出所述标签内的目标信息。
可选的,所述根据所述新词集和所述目标文本信息,确定出宣传主体清单,包括:
对所述目标文本信息进行预处理,得到目标词集;
利用关键词提取算法、所述目标词集以及所述新词集,确定出宣传主体清单。
可选的,所述利用关键词提取算法、所述目标词集以及所述新词集,确定出宣传主体清单,包括:
利用TF-IDF算法从所述目标词集中确定出关键词集;
将所述关键词集和所述新词集确定为宣传主体清单。
可选的,所述从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体,包括:
将所述宣传主体清单与预设黑名单词库进行比对,得到目标宣传主体清单;
利用预设公式,确定所述目标宣传主体清单中各个词的目标分数,其中,所述预设公式为:
score=a*x+b*y+c*z
其中,score表示所述目标宣传主体清单中一个词的目标分数,a、b、c均为预设系数,当前词属于所述标题时取x=1,当前词不属于所述标题时取x=0,当前词属于所述新词集时取y=1,当前词不属于所述新词集时取y=0,z表示当前词在所述目标文本信息中的重要度值;
根据所述目标宣传主体清单中各个词的所述目标分数,确定出目标宣传主体。
第二方面,本申请公开了一种风险网站宣传主体检测装置,包括:
第一信息确定模块,用于利用网络爬虫技术爬取目标风险网站的网页信息;
第二信息确定模块,用于利用去标签技术,从所述网页信息中确定出目标文本信息;
新词识别模块,用于利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;
宣传主体清单确定模块,用于根据所述新词集和所述目标文本信息,确定出宣传主体清单;
宣传主体确定模块,用于从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。
第三方面,本申请公开了一种风险网站宣传主体检测设备,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现前述公开的风险网站宣传主体检测方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的风险网站宣传主体检测方法。
可见,本申请先利用网络爬虫技术爬取目标风险网站的网页信息;再利用去标签技术,从所述网页信息中确定出目标文本信息;然后利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;再根据所述新词集和所述目标文本信息,确定出宣传主体清单;并从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。由此可见,本申请先利用网络爬虫技术爬取目标风险网站的网站信息,再利用去标签技术,从所述网站信息中确定出目标文本信息,接着利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集,并根据所述新词集和所述目标文本信息,确定出宣传主体清单,再从所述宣传主体清单中确定出所述目标网站对应的目标宣传主体,这样能够检测出风险网站的实际宣传主体,且风险网站宣传主体检测效率高,有利于维护网络安全。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种风险网站宣传主体检测方法流程图;
图2为本申请公开的一种具体的风险网站宣传主体检测方法流程图;
图3为本申请公开的一种具体的风险网站宣传主体检测方法流程图;
图4为本申请公开的一种风险网站宣传主体检测装置结构示意图;
图5为本申请公开的一种风险网站宣传主体检测设备结构图;
图6为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术主要是通过将待检测网站的网站备案以及备案的服务器IP去获取网站的运营主体信息,但在实际情况下,运营主体与实际的宣传主体往往不一致。这就导致检测不到实际的宣传主体,宣传主体检测效率低,影响网络安全。有鉴于此,本申请提出了一种风险网站宣传主体检测方法,能够检测出风险网站的实际宣传主体,且风险网站宣传主体检测效率高,有利于维护网络安全。
参见图1所示,本申请实施例公开了一种风险网站宣传主体检测方法,该方法包括:
步骤S11:利用网络爬虫技术爬取目标风险网站的网页信息。
在具体的实施过程中,需要先利用网络爬虫技术爬取目标风险网站的网页信息,其中,所述网页信息为所述目标风险网站的HTML(Hyper Text Markup Language,超文本标记语言),所述目标风险网站为监测到或从第三方获取到的风险网站。
步骤S12:利用去标签技术,从所述网页信息中确定出目标文本信息。
可以理解的是,在获取到所述网页信息之后,还需要利用去标签技术,从所述网页信息中确定出目标文本信息,其中,所述目标文本信息包括但不限于所述网页信息中的标题、网页描述以及标签内的目标信息,所述标签内的目标信息包括所述标签内的中文文本和所述标签上的中文内容,所述标签上的中文内容为所述标签上的HTML和JavaScript上的中文内容,一般是要经过特殊处理才会显示在浏览器页面上,所述标签内的中文文本,是直接能够显示在浏览器页面上的。
步骤S13:利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集。
在确定出所述目标信息之后,还需要利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集,其中,新词识别是指通过对目标文本的特征提取,发现预设词典中没有,但是结合紧密的字或词有可能组成一个新词。所述新词识别技术包括基于规则的新词识别技术和基于统计的新词识别技术。在得到所述新词集之后,还包括:将所述新词集添加到所述预设词典中,以便在检测其它风险网站的宣传主体时,将所述新词集中的词作为现有词。
步骤S14:根据所述新词集和所述目标文本信息,确定出宣传主体清单。
在具体的实施过程中,得到所述新词集之后,还需要根据所述新词集和所述目标文本信息,确定出宣传主体清单,其中,所述宣传主体清单包括多个有较高概率成为所述目标风险网站的宣传主体的词语。
步骤S15:从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。
可以理解的是,在确定出所述宣传主体清单之后,还需要从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。所述从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体,包括:利用预设黑名单词库、所述新词集以及所述标题,从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。
可见,本申请先利用网络爬虫技术爬取目标风险网站的网页信息;再利用去标签技术,从所述网页信息中确定出目标文本信息;然后利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;再根据所述新词集和所述目标文本信息,确定出宣传主体清单;并从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。由此可见,本申请先利用网络爬虫技术爬取目标风险网站的网站信息,再利用去标签技术,从所述网站信息中确定出目标文本信息,接着利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集,并根据所述新词集和所述目标文本信息,确定出宣传主体清单,再从所述宣传主体清单中确定出所述目标网站对应的目标宣传主体,这样能够检测出风险网站的实际宣传主体,且风险网站宣传主体检测效率高,有利于维护网络安全。
参见图2所示,本申请实施例公开了一种具体的风险网站宣传主体检测方法,该方法包括:
步骤S21:利用网络爬虫技术爬取目标风险网站的网页信息。
步骤S22:利用XML解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息。
在具体的实施过程中,所述利用去标签技术,从所述网页信息中确定出目标文本信息,包括:利用XML(Extensible Markup Language,可扩展标记语言)解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息。所述利用XML解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息,包括:利用DOM(Document Object Model,文件对象模型)工具,从所述网页信息中确定出相应的所述标题、所述网页描述以及所述标签内的目标信息,其中,所述DOM工具为一种具体的XML解析工具。所述利用DOM工具,从所述网页信息中确定出相应的所述标题、所述网页描述以及所述标签内的目标信息,包括:利用DOM工具对所述网页信息进行结构化;对结构化后网页信息进行XML元素遍历,以确定出相应的所述标题以及所述网页描述;对所述结构化后网页信息中的所述标签中的标识进行识别,以确定出所述标签内的目标信息。也即,先利用DOM工具对所述网页信息进行结构化,再对结构化后网页信息进行XML元素遍历,以确定出所述目标网页信息对应的所述标题以及所述网页描述,再识别所述结构化后网页信息中的所述标签中的标识进行识别,以确定出所述标签中的目标信息。
步骤S23:利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集。
步骤S24:对所述目标文本信息进行预处理,得到目标词集。
可以理解的是,在得到所述新词集之后,还需要对所述目标文本进行预处理,得到目标词集,所述预处理包括但不限于分句、分词以及去停用词等。具体的,可以对所述目标文本信息进行分词以及去停用词等,得到所述目标词集。
步骤S25:利用关键词提取算法、所述目标词集以及所述新词集,确定出宣传主体清单。
可以理解的是,在得到所述目标词集之后,需要利用关键词提取算法、所述目标词集以及所述新词集,确定宣传主体清单。所述关键词提取算法包括但不限于TF-IDF算法以及TextRank算法。所述TextRank算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元,也即句子,构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后提取排名高的句子组合成文本摘要。所述TF-IDF算法是一种用于信息检索与文本挖掘的常用加权技术。所述TF-IDF算法是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的某一份文件的重要程度。字词的重要性随着它在文件中出现次数的增加而增加,但会随着它在相应的文件集或语料库中出现频率的增加而下降。
在具体的实施过程中,所述利用关键词提取算法、所述目标词集以及所述新词集,确定出宣传主体清单,包括:利用TF-IDF算法从所述目标词集中确定出关键词集;将所述关键词集和所述新词集确定为宣传主体清单。具体的,利用TF-IDF算法计算所述目标词集中各个词的TF-IDF值,将所述TF-IDF值大于预设TF-IDF阈值的词确定为关键词,得到所述关键词集,再将所述关键词及所述新词集确定为宣传主体清单。例如,将所述目标词集中的所述TF-IDF值大于0.1的词确定为关键词,得到关键词集。
步骤S26:将所述宣传主体清单与预设黑名单词库进行比对,得到目标宣传主体清单。
在确定出所述宣传主体清单之后,需要将所述宣传主体清单与预设黑名单词库进行比对,得到目标宣传主体清单。具体的,将所述目标宣传主体清单与预设黑名单词库进行比对,如果所述宣传主体清单中的词出现在所述预设黑名单词库中,则将出现在黑名单词库中的词从所述宣传主体清单中剔除,得到目标宣传主体清单。所述将所述宣传主体清单与预设黑名单词库进行比对也即利用黑名单词库过滤对所述宣传主体清单进行过滤。
步骤S27:利用预设公式,确定所述目标宣传主体清单中各个词的目标分数,其中,所述预设公式为:
score=a*x+b*y+c*z
其中,score表示所述目标宣传主体清单中一个词的目标分数,a、b、c均为预设系数,当前词属于所述标题时取x=1,当前词不属于所述标题时取x=0,当前词属于所述新词集时取y=1,当前词不属于所述新词集时取y=0,z表示当前词在所述目标文本信息中的重要度值。
在确定出所述目标宣传主体清单之后,利用预设公式确定所述目标宣传主体清单中各个词的目标分数。其中,所述重要度值可以为TF-IDF值。例如,“网贷”属于所述目标宣传主体清单中的词,且属于相应的标题,但不属于所述新词集,经计算到“网贷”在对应的目标文本信息中的重要度值为0.2,预设a=0.5,b=0.3,c=10,则“网贷”的目标分数为score(“网贷”)=0.5*1+0.3*0+0.2*10=2.5。
步骤S28:根据所述目标宣传主体清单中各个词的所述目标分数,确定出目标宣传主体。
在确定出所述目标宣传主体清单之后,根据所述目标宣传主体清单中各个词的所述目标分数,确定出目标宣传主体。具体的,可以在确定出所述目标宣传主体中各个词的所述目标分数之后,将最大的所述目标分数对应的词确定为所述目标宣传主体。
参见图3所示,为风险网站宣传主体检测方法流程图。先利用网络爬虫技术进行网页信息爬取,再对爬取到的所述网页信息进行页面去标签化处理,得到目标文本信息,对所述目标文本信息进行新词提取,再将新词添加到相应的词典,对所述目标文本信息进行分词处理,对分词之后的词进行关键词提取,得到宣传主体清单,利用预设黑名单词库对所述宣传主体清单进行过滤,以及网站标题加权验证以及核心度比较,提取出网站宣传主体。
参见图4所示,本申请实施例公开了一种风险网站宣传主体检测装置,包括:
第一信息确定模块11,用于利用网络爬虫技术爬取目标风险网站的网页信息;
第二信息确定模块12,用于利用去标签技术,从所述网页信息中确定出目标文本信息;
新词识别模块13,用于利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;
宣传主体清单确定模块14,用于根据所述新词集和所述目标文本信息,确定出宣传主体清单;
宣传主体确定模块15,用于从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。
可见,本申请先利用网络爬虫技术爬取目标风险网站的网页信息;再利用去标签技术,从所述网页信息中确定出目标文本信息;然后利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;再根据所述新词集和所述目标文本信息,确定出宣传主体清单;并从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。由此可见,本申请先利用网络爬虫技术爬取目标风险网站的网站信息,再利用去标签技术,从所述网站信息中确定出目标文本信息,接着利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集,并根据所述新词集和所述目标文本信息,确定出宣传主体清单,再从所述宣传主体清单中确定出所述目标网站对应的目标宣传主体,这样能够检测出风险网站的实际宣传主体,且风险网站宣传主体检测效率高,有利于维护网络安全。
进一步的,参见图5所示,本申请实施例还公开了一种风险网站宣传主体检测设备,包括:处理器21和存储器22。
其中,所述存储器22,用于存储计算机程序;所述处理器21,用于执行所述计算机程序,以实现前述实施例中公开的风险网站宣传主体检测方法。
其中,关于上述风险网站宣传主体检测方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,如图6所示,本申请还公开了一种电子设备20。该电子设备20具体可以包括但不限于平板电脑、笔记本电脑或台式电脑等。
通常,本实施例中的电子设备20包括:处理器21和存储器22。
其中,处理器21可以包括一个或多个处理核心,比如四核心处理器、八核心处理器等。处理器21可以采用DSP(digital signal processing,数字信号处理)、FPGA(field-programmable gate array,现场可编程们阵列)、PLA(programmable logic array,可编程逻辑阵列)中的至少一种硬件来实现。处理器31也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(central processing unit,中应处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有GPU(graphics processing unit,图像处理器),GPU用于负责显示屏所需要显示的图像的渲染和绘制。一些实施例中,处理器21可以包括AI(artificialintelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器22可以包括一个或多个计算机可读存储介质,计算机可读存储介质可以是非暂态的。存储器22还可以包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器22至少用于存储以下计算机程序221,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例中公开的风险网站宣传主体检测方法步骤。另外,存储器22所存储的资源还可以包括操作***222和数据223等,存储方式可以是短暂存储也可以是永久存储。其中,操作***222可以是Windows、Unix、Linux等。数据223可以包括各种各样的数据。
在一些实施例中,电子设备20还可包括有显示屏23、输入输出接口24、通信接口25、传感器26、电源27以及通信总线28。
本技术领域人员可以理解,图5中示出的结构并不构成对电子设备20的限定,可以包括比图示更多或更少的组件。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现以下步骤:
利用网络爬虫技术爬取目标风险网站的网页信息;利用去标签技术,从所述网页信息中确定出目标文本信息;利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;根据所述新词集和所述目标文本信息,确定出宣传主体清单;从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。
可见,本申请先利用网络爬虫技术爬取目标风险网站的网页信息;再利用去标签技术,从所述网页信息中确定出目标文本信息;然后利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;再根据所述新词集和所述目标文本信息,确定出宣传主体清单;并从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体。由此可见,本申请先利用网络爬虫技术爬取目标风险网站的网站信息,再利用去标签技术,从所述网站信息中确定出目标文本信息,接着利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集,并根据所述新词集和所述目标文本信息,确定出宣传主体清单,再从所述宣传主体清单中确定出所述目标网站对应的目标宣传主体,这样能够检测出风险网站的实际宣传主体,且风险网站宣传主体检测效率高,有利于维护网络安全。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:利用XML解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:利用DOM工具,从所述网页信息中确定出相应的所述标题、所述网页描述以及所述标签内的目标信息。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:利用DOM工具对所述网页信息进行结构化;对结构化后网页信息进行XML元素遍历,以确定出相应的所述标题以及所述网页描述;对所述结构化后网页信息中的所述标签中的标识进行识别,以确定出所述标签内的目标信息。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:对所述目标文本信息进行预处理,得到目标词集;利用关键词提取算法、所述目标词集以及所述新词集,确定出宣传主体清单。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:利用TF-IDF算法从所述目标词集中确定出关键词集;将所述关键词集和所述新词集确定为宣传主体清单。
本实施例中,所述计算机可读存储介质中保存的计算机子程序被处理器执行时,可以具体实现以下步骤:将所述宣传主体清单与预设黑名单词库进行比对,得到目标宣传主体清单;利用预设公式,确定所述目标宣传主体清单中各个词的目标分数,其中,所述预设公式为:
score=a*x+b*y+c*z
其中,score表示所述目标宣传主体清单中一个词的目标分数,a、b、c均为预设系数,当前词属于所述标题时取x=1,当前词不属于所述标题时取x=0,当前词属于所述新词集时取y=1,当前词不属于所述新词集时取y=0,z表示当前词在所述目标文本信息中的重要度值;根据所述目标宣传主体清单中各个词的所述目标分数,确定出目标宣传主体。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得一系列包含其他要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种风险网站宣传主体检测方法、装置、设备、介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种风险网站宣传主体检测方法,其特征在于,包括:
利用网络爬虫技术爬取目标风险网站的网页信息;
利用去标签技术,从所述网页信息中确定出目标文本信息;
利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;
根据所述新词集和所述目标文本信息,确定出宣传主体清单;
从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体;
其中,所述从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体,包括:将所述宣传主体清单与预设黑名单词库进行比对,得到目标宣传主体清单;利用预设公式,确定所述目标宣传主体清单中各个词的目标分数,其中,所述预设公式为:score=a*x+b*y+c*z;其中,score表示所述目标宣传主体清单中一个词的目标分数,a、b、c均为预设系数,当前词属于标题时取x=1,当前词不属于所述标题时取x=0,当前词属于所述新词集时取y=1,当前词不属于所述新词集时取y=0,z表示当前词在所述目标文本信息中的重要度值;根据所述目标宣传主体清单中各个词的所述目标分数,确定出目标宣传主体。
2.根据权利要求1所述的风险网站宣传主体检测方法,其特征在于,所述利用去标签技术,从所述网页信息中确定出目标文本信息,包括:
利用XML解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息。
3.根据权利要求2所述的风险网站宣传主体检测方法,其特征在于,所述利用XML解析工具,从所述网页信息中确定出相应的标题、网页描述以及标签内的目标信息,包括:
利用DOM工具,从所述网页信息中确定出相应的所述标题、所述网页描述以及所述标签内的目标信息。
4.根据权利要求3所述的风险网站宣传主体检测方法,其特征在于,所述利用DOM工具,从所述网页信息中确定出相应的所述标题、所述网页描述以及所述标签内的目标信息,包括:
利用DOM工具对所述网页信息进行结构化;
对结构化后网页信息进行XML元素遍历,以确定出相应的所述标题以及所述网页描述;
对所述结构化后网页信息中的所述标签中的标识进行识别,以确定出所述标签内的目标信息。
5.根据权利要求2所述的风险网站宣传主体检测方法,其特征在于,所述根据所述新词集和所述目标文本信息,确定出宣传主体清单,包括:
对所述目标文本信息进行预处理,得到目标词集;
利用关键词提取算法、所述目标词集以及所述新词集,确定出宣传主体清单。
6.根据权利要求5所述的风险网站宣传主体检测方法,其特征在于,所述利用关键词提取算法、所述目标词集以及所述新词集,确定出宣传主体清单,包括:
利用TF-IDF算法从所述目标词集中确定出关键词集;
将所述关键词集和所述新词集确定为宣传主体清单。
7.一种风险网站宣传主体检测装置,其特征在于,包括:
第一信息确定模块,用于利用网络爬虫技术爬取目标风险网站的网页信息;
第二信息确定模块,用于利用去标签技术,从所述网页信息中确定出目标文本信息;
新词识别模块,用于利用新词识别技术,从所述目标文本信息中识别出新词,得到新词集;
宣传主体清单确定模块,用于根据所述新词集和所述目标文本信息,确定出宣传主体清单;
宣传主体确定模块,用于从所述宣传主体清单中确定出所述目标风险网站对应的目标宣传主体;
其中,所述宣传主体确定模块,用于将所述宣传主体清单与预设黑名单词库进行比对,得到目标宣传主体清单;利用预设公式,确定所述目标宣传主体清单中各个词的目标分数,其中,所述预设公式为:score=a*x+b*y+c*z;其中,score表示所述目标宣传主体清单中一个词的目标分数,a、b、c均为预设系数,当前词属于标题时取x=1,当前词不属于所述标题时取x=0,当前词属于所述新词集时取y=1,当前词不属于所述新词集时取y=0,z表示当前词在所述目标文本信息中的重要度值;根据所述目标宣传主体清单中各个词的所述目标分数,确定出目标宣传主体。
8.一种风险网站宣传主体检测设备,其特征在于,包括:
存储器和处理器;
其中,所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以实现权利要求1至6任一项所述的风险网站宣传主体检测方法。
9.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的风险网站宣传主体检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311366.6A CN111541683B (zh) | 2020-04-20 | 2020-04-20 | 风险网站宣传主体检测方法、装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010311366.6A CN111541683B (zh) | 2020-04-20 | 2020-04-20 | 风险网站宣传主体检测方法、装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111541683A CN111541683A (zh) | 2020-08-14 |
CN111541683B true CN111541683B (zh) | 2022-04-19 |
Family
ID=71970986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010311366.6A Active CN111541683B (zh) | 2020-04-20 | 2020-04-20 | 风险网站宣传主体检测方法、装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111541683B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103428307A (zh) * | 2013-08-09 | 2013-12-04 | 中国科学院计算机网络信息中心 | 仿冒域名检测方法及设备 |
CN103646078A (zh) * | 2013-12-11 | 2014-03-19 | 北京启明星辰信息安全技术有限公司 | 一种实现互联网宣传监测目标评估的方法及装置 |
US9386037B1 (en) * | 2015-09-16 | 2016-07-05 | RiskIQ Inc. | Using hash signatures of DOM objects to identify website similarity |
CN106453351A (zh) * | 2016-10-31 | 2017-02-22 | 重庆邮电大学 | 基于Web页面特征的金融类钓鱼网页检测方法 |
CN109543089A (zh) * | 2018-11-30 | 2019-03-29 | 南方电网科学研究院有限责任公司 | 一种网络安全情报数据的分类方法、***及相关装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281320B (zh) * | 2013-05-23 | 2016-12-07 | 中国科学院计算机网络信息中心 | 基于网页图标匹配的品牌仿冒网站检测方法 |
US10880330B2 (en) * | 2017-05-19 | 2020-12-29 | Indiana University Research & Technology Corporation | Systems and methods for detection of infected websites |
-
2020
- 2020-04-20 CN CN202010311366.6A patent/CN111541683B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103428307A (zh) * | 2013-08-09 | 2013-12-04 | 中国科学院计算机网络信息中心 | 仿冒域名检测方法及设备 |
CN103646078A (zh) * | 2013-12-11 | 2014-03-19 | 北京启明星辰信息安全技术有限公司 | 一种实现互联网宣传监测目标评估的方法及装置 |
US9386037B1 (en) * | 2015-09-16 | 2016-07-05 | RiskIQ Inc. | Using hash signatures of DOM objects to identify website similarity |
CN106453351A (zh) * | 2016-10-31 | 2017-02-22 | 重庆邮电大学 | 基于Web页面特征的金融类钓鱼网页检测方法 |
CN109543089A (zh) * | 2018-11-30 | 2019-03-29 | 南方电网科学研究院有限责任公司 | 一种网络安全情报数据的分类方法、***及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111541683A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897970B (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
Sun et al. | Dom based content extraction via text density | |
CN107437038B (zh) | 一种网页篡改的检测方法及装置 | |
CN108777674B (zh) | 一种基于多特征融合的钓鱼网站检测方法 | |
CN102436563B (zh) | 一种检测页面篡改的方法及装置 | |
Urvoy et al. | Tracking web spam with html style similarities | |
WO2021227831A1 (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
US20200004792A1 (en) | Automated website data collection method | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
JPWO2019224891A1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
CN102591965A (zh) | 一种黑链检测的方法及装置 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN111522919A (zh) | 一种文本处理方法、电子设备和存储介质 | |
CN104036190A (zh) | 一种检测页面篡改的方法及装置 | |
Wang et al. | Cyber threat intelligence entity extraction based on deep learning and field knowledge engineering | |
Sharma et al. | Machine learning methods to identify hindi fake news within social-media | |
CN104036189A (zh) | 页面篡改检测方法及黑链数据库生成方法 | |
CN111079042B (zh) | 一种基于文本主题的网页暗链检测方法和装置 | |
CN111538893B (zh) | 一种从非结构化数据中提取网络安全新词的方法 | |
CN104077353B (zh) | 一种黑链检测的方法及装置 | |
CN111541683B (zh) | 风险网站宣传主体检测方法、装置、设备、介质 | |
CN113742785A (zh) | 一种网页分类方法、装置、电子设备及存储介质 | |
CN111797904A (zh) | 网页页面特征的篡改检测方法及装置 | |
Mathur et al. | Machine-Learning directed Article Detection on the Web using DOM and text-based features | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |