CN111401416B - 异常网站的识别方法、装置和异常对抗行为的识别方法 - Google Patents

异常网站的识别方法、装置和异常对抗行为的识别方法 Download PDF

Info

Publication number
CN111401416B
CN111401416B CN202010147052.7A CN202010147052A CN111401416B CN 111401416 B CN111401416 B CN 111401416B CN 202010147052 A CN202010147052 A CN 202010147052A CN 111401416 B CN111401416 B CN 111401416B
Authority
CN
China
Prior art keywords
text
feature
webpage
network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010147052.7A
Other languages
English (en)
Other versions
CN111401416A (zh
Inventor
蒋晨之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010147052.7A priority Critical patent/CN111401416B/zh
Publication of CN111401416A publication Critical patent/CN111401416A/zh
Application granted granted Critical
Publication of CN111401416B publication Critical patent/CN111401416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本说明书提供了异常网站的识别方法、装置和异常对抗行为的识别方法。在一个实施例中,异常网站的识别方法通过利用事先训练好的预设的对抗行为识别模型先从目标网站的网页的html文本数据、网页的页面OCR文本数据和网页的页面截图中,分别提取得到与网页的html文本对应的第一文本特征、与页面的OCR文本对应的第二文本特征,和与页面截图对应的图像特征;再综合根据上述三种不同类型的数据特征,通过识别目标网站的网页是否存在异常对抗行为,来确定目标网站是否是异常网站。从而能够较为精准地通过识别异常对抗行为找到可能隐藏有违规信息或敏感信息的异常网站。

Description

异常网站的识别方法、装置和异常对抗行为的识别方法
技术领域
本说明书属于互联网技术领域,尤其涉及异常网站的识别方法、装置和异常对抗行为的识别方法。
背景技术
在互联网领域,常常有些违规的异常网站会通过对与网站的网页数据进行篡改,来隐藏网站上的违规信息或敏感信息,逃避网络监管。
因此,亟需一种能够精准地识别出隐藏有违规信息或敏感信息的异常网站。
发明内容
本说明书提供了一种异常网站的识别方法、装置和异常对抗行为的识别方法,能够较为精准地通过识别发现网站网页的异常对抗行为来找到可能隐藏有违规信息或敏感信息的异常网站。
本说明书提供的一种异常网站的识别方法、装置和异常对抗行为的识别方法是这样实现的:
一种异常网站的识别方法,包括:获取目标网站的网页的html文本数据,和网页的页面截图;从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,确定所述目标网站是否为异常网站。
一种异常对抗行为的识别方法,包括:获取目标网站的网页的html文本数据、网页的页面截图和页面的文本数据;从所述网页的html文本数据中提取出第一文本特征,从所述页面的文本数据中提取出第二文本特征,从所述页面截图中提取出图像特征;根据所述第一文本特征、第二文本特征和图像特征,确定所述目标网站是否存在异常对抗行为。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取目标网站的网页的html文本数据,和网页的页面截图;从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,确定所述目标网站是否为异常网站。
一种异常网站的识别装置,包括:获取模块,用于获取目标网站的网页的html文本数据,和网页的页面截图;提取模块,用于从所述网页的页面截图中提取得到页面的OCR文本数据;处理模块,用于利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;确定模块,用于根据所述识别处理结果,确定所述目标网站是否为异常网站。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取目标网站的网页的html文本数据,和网页的页面截图;从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,确定所述目标网站是否为异常网站。
本说明书提供的一种异常网站的识别方法、装置和异常对抗行为的识别方法,通过利用事先训练好的预设的对抗行为识别模型先从目标网站的网页的html文本数据、网页的页面OCR文本数据和网页的页面截图中,分别提取得到与网页的html文本对应的第一文本特征、与页面的OCR文本对应的第二文本特征,和与页面截图对应的图像特征;再综合根据上述三种不同类型维度的数据特征,通过识别目标网站的网页是否存在异常对抗行为,来确定目标网站是否是异常网站。从而能够较为精准地通过识别异常对抗行为找到可能隐藏有违规信息或敏感信息的异常网站,有效地协助对互联网网站的监管。
附图说明
为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是应用本说明书实施例提供的异常网站的识别方法的***结构组成的一个实施例的示意图;
图2是在一个场景示例中,应用本说明书实施例提供的异常网站的识别方法的一种实施例的示意图;
图3是在一个场景示例中,应用本说明书实施例提供的异常网站的识别方法的一种实施例的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的异常网站的识别方法的一种实施例的示意图;
图5是本说明书的一个实施例提供的异常网站的识别方法的流程示意图;
图6是本说明书的一个实施例提供的异常对抗行为的识别方法的流程示意图;
图7是本说明书的一个实施例提供的服务器的结构组成示意图;
图8是本说明书的一个实施例提供的异常网站的识别装置的结构组成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供一种异常网站的识别方法,该方法具体可以应用于包含有监控服务器和监控终端的网络监控***中。
具体的,可以参阅图1所示。监控终端可以用于采集互联网中目标网站的网页的html文本数据,和网页的页面截图,并将所采集的目标网站的网页的html文本数据,和网页的页面截图发送至监控服务器。监控服务器用于从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,通过识别目标网站的网页中是否存在异常对抗行为,确定所述目标网站是否为异常网站。
在本实施例中,所述监控服务器具体可以包括一种应用于业务处理平台一侧,能够实现数据传输、数据处理等功能的负责数据处理的服务器。具体的,所述监控服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,所述监控服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述服务器的数量。所述监控服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
在本实施例中,所述监控终端具体可以包括一种布设于网络一侧,能够针对网络中的网站实现数据采集、数据传输等功能的前端设备或者插件程序等。
在一个具体的场景示例中,可以参阅图2所示,TX网络安全平台需要对互联网中的网站进行监测管理,以便能及时地发现在网上散布违规信息或敏感信息的违规异常网站,并对这类异常网站及时进行处理,以维护好网络环境的健康、安全。
在本场景示例中,具体实施时,TX网络安全平台的监控终端可以通过爬虫程序等,实时地爬取网络中各个网站网页的html文本数据(例如,网页的html原码数据),以及网站网页的页面截图。进一步,监控终端可以将上述获取的各个网站网页的html文本数据,以及网站网页的页面截图通过有线或无线的方式发送至TX网络安全平台的监控服务器,以便服务器可以根据上述各个网站网页的html文本数据,以及网站网页的页面截图来确定各个网站中是否存在违规的异常网站。
其中,上述异常网站具体可以包括一种违反互联网规范的,在网络中散布违规信息或敏感信息的网站。例如,在网络中散布赌博、色情等违规信息的网站。这类异常网站往往会对正常的网络环境造成污染,会对用户正常上网造成干扰和影响。因此,需要TX网络安全平台及时发现并进行关闭等处理,以减少这类异常网站对网络环境所产生的负面影响。
这类异常网站为了避免被例如TX网络安全平台等机构或平台发现,往往会对网站的网页数据进行篡改,将一些违规信息或敏感信息以相对较隐蔽的方式隐藏在正常的网页数据中。例如,可以通过对网页数据的篡改,使得这类异常网站可能在某些监管平台或机构较为关注的网页数据(例如,网页上的图片,或者html文本等)中大部分数据是正常、符合规范要求的,但在网站中的其他的网页数据(例如,网页上的部分文本等)中却隐藏有违规信息或敏感信息,具有较大的迷惑性。从而可以将异常网站伪装成正常合规的网站,躲避监管平台或机构的识别监管,继续在网上散布违规信息或敏感信息。
针对上述情况,TX网络安全平台的监控服务器考虑正常合规的网站由于不需要伪装,不需要隐藏违规信息或敏感信息,因此对于一个正常合规的网站而言,与网页相关的不同类型维度的数据特征所表征的信息内容往往是相互匹配,趋于一致的。而违规的异常网站,由于一方面要将网页伪装成正常合规的网站网页,另一方面又要在网页中隐藏想要散布的违规信息或敏感信息,导致这类网站会存在与网页相关的某一个类型维度的数据特征所表征出的信息内容与其他类型维度的数据特征所表征的信息内容出现差异,形成对抗行为。
正是注意上述区别,监控服务器在接收到监控终端采集发送来的各个网站的网页的html文数据,和网页的页面截图后,可以根据上述数据,获取与各个网站的网页的相关的多个不同类型维度的特征,再融合上述多个不同类型维度的特征,通过识别是网页中是否存在类似的对抗行为来较为精准地判断所对应的网站是否是违规的异常网站。
在本场景示例中,监控服务器可以根据监控终端所采集的网站网页的相关数据,从网站网页的html文本、网页页面的OCR文本,以及网页的页面图像这三个不同类型维度的特征出发,来检测网站网页是否存在对抗行为。
具体实施时,以检测网络中的A网站的网页是否存在对抗行为为例。监控服务器在获取了监控终端采集的A网站的网页的html文本数据,和A网站的页面截图后,考虑到上述页面截图中除了包含有A网站的网页页面上的图片信息外,还包含有页面中的文本信息。因此,监控服务可以先对上述页面截图进行OCR识别,以提取出包含有页面中的文本信息的OCR文本数据记为页面的OCR文本数据。
具体的,可以参阅图3所示,监控服务器可以将上述页面截图输入至已经训练好的能够针对网页的页面截图提取页面截图中所包含的页面中的文本信息的OCR识别模型,利用并运行上述OCR识别模型对页面截图进行处理,提取得到对应的页面的OCR文本数据。当然,需要说明的是,上述所列举的从页面截图中提取页面的OCR文本数据的方式只是一种示意性说明。具体实施时,根据具体情况,也可以采用其他合适的方式来获取网站网页页面上的文本数据。
进一步,监控服务器可以将上述A网站的网页的html文本数据、页面的OCR文本数据,和页面截图作为一组针对A网站的网页数据,并将上述A网站的网页数据输入至事先训练好的预设的对抗行为识别模型中,进行相应处理,得到对应的模型输出作为识别处理结果。
其中,上述预设的对抗行为识别模型具体可以包括一种事先训练好的能够先从网页的html文本数据中提取对应的html文本特征、从页面的OCR文本数据中提取对应网页页面的OCR文本特征、从页面截图中提取对应网页页面的图像特征,再根据上述不同类型维度的数据特征,通过计算网站网页中不同类型维度的数据特征之间的差异来表征不同类型维度的数据所反映页面内容之间的差异情况,作为的识别处理结果的模型。
在本场景示例中,参阅图4所示,上述预设的对抗行为识别模型的模型结构具体可以包括以下模型网络结构:第一文本特征提取子网络、第二文本特征提取子网络、图像特征提取子网络,以及特征转化层,并且上述第一文本特征提取子网络、第二文本特征提取子网络、图像特征提取子网络分别与特征转化层相连。
其中,上述第一文本特征提取子网络用于接入并对网页的html文本数据进行相应处理,以从网页的html文本数据中提取得到与网页的html文本数据对应的第一文本特征,作为基于网页的html文本维度的数据特征。上述第二文本特征提取子网络用于接入并对网页的页面的OCR文本数据进行相应处理,以从页面的OCR文本数据中提取得到与页面的OCR文本数据对应的第二文本特征,作为基于网页的页面的OCR文本维度的数据特征。上述图像特征提取子网络用于接入并对网页的页面截图进行相应处理,以从网页的页面截图中提取得到与网页的页面截图对应的图像特征,作为基于网页的页面图像维度的数据特征。
上述特征转化层用于接收通过不同的特征提取子网络所提取得到的基于不同类型维度的数据特征,进而可以通过上述转化层将不同类型维度的数据特征通过映射处理统一到同一个特征度量空间中,进而可以位于同一个特征度量空间中的处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征。
虽然上述第一文本特征、第二文本特征和图像特征是基于不同类型维度的不同数据特征,但是由于处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征已经统一到了同一个特征度量空间中,因此可以将上述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征融合到一起进行处理,来得到不同类型维度的特征之间的特征距离作为对应的识别处理结果,输出模型。
在本场景示例中,具体实施时,监控服务器可以调用预设的对抗行为模型中的多个特征提取子网络分别对A网站的网页的html文本数据、页面的OCR文本数据,和页面截图进行特征提取,得到对应A网站网页的第一文本特征、第二文本特征和图像特征。再调用预设的对抗行为模型中的特征转化层对上述基于不同类型维度的多种特征进行映射处理,得到统一在同一个特征度量空间中的A网站的处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征。进一步,可以通过调用预设的对抗行为识别模型通过利用特征距离度量函数来计算衡量不同维度类型的数据特征之间的差异值,得到不同维度类型的特征之间的特征距离。具体的,可以通过利用特征距离度量函数来计算分别计算处理后的第一文本特征和处理后的图像特征之间的cosine距离作为第一类特征距离,计算处理后的第一文本特征和处理后的第二文本特征之间的cosine距离作为第二类特征距离,计算处理后的图像特征和处理后的第二文本特征之间的cosine距离作为第三类特征距离。从而可以得到不同类型维度的数据特征之间的特征距离,并将上述特征距离作为模型输出的针对A网站网页的识别处理结果。
需要补充的是,上述所列举的通过计算cosine距离作为不同类型维度的数据特征之间的特征距离只是一种示意性说明。具体实施时,根据具体情况也可以采用其他类型的距离来计算不同类型维度的数据特征之间的特征距离。例如,还可以通过计算不同类型维度的数据特征之间的欧式距离作为特征距离等。对此,本说明书不作限定。
在通过上述预设的对抗行为识别模型得到针对A网站网页的识别处理结果后,进一步监控服务器可以根据上述识别处理结果,检测A网站网页是否存在对抗行为,进而判断A网站是否是违规的异常网站。
具体的,监控服务器可以根据所述识别处理结果,通过检测第一类特征距离是否大于第一类的预设距离阈值,来确定所述A网站的网页的html文本数据和页面截图所表征的内容信息之间是否存在不匹配或不一致的对抗行为,记为第一类异常对抗行为。通过检测第二类特征距离是否大于第二类的预设距离阈值,来确定A网站的网页的html文本数据和页面的OCR文本数据所表征的内容信息之间是否存在不匹配或不一致的对抗行为,记为第二类异常对抗行为。通过检测第三类特征距离是否大于等于第三类的预设距离阈值,来确定A网站网页的页面截图和页面的OCR文本数据之间是否存在不匹配或不一致的对抗行为,记为第三类异常对抗行为。
按照上述方式,如果监控服务器在确定A网站存在上述三类对抗行为中的一种对抗行为,或多种对抗行为的情况,可以判断A网站具有较大的概率是违规的隐藏有违规信息或敏感信息的异常网站。进一步,可以通过监控终端针对A网站进行更加严密地监控,采集相对更加全面、细致的网页数据,以便根据监控结果和网页数据确认A网站是否针对为异常网站。在确认A网站真的为异常网站的情况下,TX网络安全平台监控服务器可以向A网站的服务器发送警示信息,并关闭A网站以组织A网站继续在网络散布违规信息或敏感信息,维护网络环境。
如果按照上述方式,监控服务器确定A网站不存在上述三类对抗行为的任何一种对抗行为,则可以确定A网站是正常网站。进而,监控服务器可以对监控终端所提供的下一个网站,例如B网站的网页的html文本数据,和网页的页面截图进行处理,以确定B网站是否是违规的异常网站。
由上述场景示例可见,本说明书提供的异常网站的识别方法,通过利用事先训练好的预设的对抗行为识别模型先从目标网站的网页的html文本数据、网页的页面OCR文本数据和网页的页面截图中,分别提取得到与网页的html文本对应的第一文本特征、与页面的OCR文本对应的第二文本特征,和与页面截图对应的图像特征;再综合根据上述三种不同类型维度的数据特征,通过识别目标网站的网页是否存在异常对抗行为,来确定目标网站是否是异常网站。从而能够较为精准地通过识别异常对抗行为找到可能隐藏有违规信息或敏感信息的异常网站,进而可以协助有效地对互联网网站进行监管。
参阅图5所示,本说明书实施例提供了一种异常网站的识别方法,其中,该方法具体应用于服务器一侧。具体实施时,该方法可以包括以下内容。
S51:获取目标网站的网页的html文本数据,和网页的页面截图。
在一些实施例中,上述目标网站具体可以包括一种待检测确定是否存在散布违规信息或敏感信息等违规操作的网站。
在一些实施例中,上述网页的html文本数据具体可以包括目标网站的网页的html原码数据(一种用于编写网页的源代码)。通常上述网页的html文本数据中会包含有与网页内容相关的文本信息。具体实施时,服务器可以通过爬虫程序爬取得到目标网站的网页的html文本数据。
在一些实施例中,上述网页的页面截图具体可以包括服务器通过截图工具等程序等在某个时间点截取得到的目标网站的网页页面。其中,上述页面截图中具体可以包含有与该目标网站网页的页面上出现的与页面内容相关的图片信息,也可以包含有该目标网站网页页面上出现与页面内容相关的文本信息。
在一些实施例中,服务器可以每隔预设的时间间隔(例如,每隔5分钟)获取目标网站的网页的html文本数据,和网页的页面截图作为一种针对目标网站的页面数据,并根据上述页面数据进行后续处理,进而可以每隔预设的时间间隔在一段时间内对目标网站进行多次检测,以便识别、发现某些为了规避监管只在某几个时间点才散布违规信息或敏感信息的行为的违规异常网站。
在一些实施例中,上述获取目标网站的网页的html文本数据,和网页的页面截图,具体实施时可以包括:通过爬虫程序等爬取目标网站的网页的html文本数据;通过网页页面的截图工具等截取获得目标网站的页面截图。
S53:从所述网页的页面截图中提取得到页面的OCR文本数据。
在一些实施例中,由于所获取的网页的页面截图中往往会同时包含有网页页面上两种不同类型(或模态)数据。例如,许多网站的网页页面上会同时存在图片和文本两种不同类型数据。而上述两种不同类型的数据作为不同的类型的内容信息的载体,往往都可能包含有与网页的页面内容相关的数据信息。
在一些实施例中,可以通过对网页的页面截图进行OCR(Optical CharacterRecognition,光学字符识别)识别,提取得到包含有与页面内容相关的文本信息的OCR文本数据,作为页面的OCR文本数据。
在一些实施例中,具体实施时,可以调用事先训练好的针对页面截图的OCR识别模型,对上述网页的页面截图进行OCR识别,从中提取得到页面的OCR文本数据。当然,上述所列举的提取页面的OCR文本数据的方式只是一种示意性说明。具体实施时,根据具体情况和处理要求,也可以采用其他合适的方式从页面截图中提取到对应的页面的OCR文本数据。对此,本说明书不作限定。
S55:利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定。
在一些实施例中,上述预设的对抗行为识别模型具体可以包括一种事先训练好的能够先从网页的html文本数据中提取对应的html文本特征、从页面的OCR文本数据中提取对应网页页面的OCR文本特征、从页面截图中提取对应网页页面的图像特征,再根据上述不同类型维度的数据特征,通过计算网站网页中不同类型维度的数据特征之间的差异来表征不同类型维度的数据所反映页面内容之间的差异情况,作为的识别处理结果的模型。
在一些实施例中,上述预设的对抗行为识别模型的模型结构具体可以包括以下模型网络结构:第一文本特征提取子网络、第二文本特征提取子网络、图像特征提取子网络,以及特征转化层,并且上述第一文本特征提取子网络、第二文本特征提取子网络、图像特征提取子网络分别与特征转化层相连。
其中,上述第一文本特征提取子网络用于接入并针对模型输入的网页的html文本数据进行相应的特征提取处理,以从网页的html文本数据中提取得到与网页的html文本数据对应的第一文本特征,作为基于网页的html文本维度的数据特征。上述第二文本特征提取子网络用于接入并针对模型输入的网页的页面的OCR文本数据进行相应的特征提取处理,以从页面的OCR文本数据中提取得到与页面的OCR文本数据对应的第二文本特征,作为基于网页的页面的OCR文本维度的数据特征。上述图像特征提取子网络用于接入并针对模型输入的网页的页面截图进行相应的特征提取处理,以从网页的页面截图中提取得到与网页的页面截图对应的图像特征,作为基于网页的页面图像维度的数据特征。
其中,上述第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络具体可以采用以下所列举的网络结构构建得到:BERT、Transformer或ResNet等等。当然,上述所列举用于构建特征提取子网络的网络结构只是一种示意性说明。具体实施时,根据具体情况和处理要求,还可以引入除上述所列举的网络结构以外的其他合适的类型的网络结构来构建上述特征提取子网络。对此,本说明书不作限定。
上述特征转化层用于接收通过相连的不同的特征提取子网络(包括第一文本特征提取子网络、第二文本特征提取子网络、图像特征提取子网络)所提取得到的基于不同类型维度的数据特征,进而可以通过转化层对不同类型维度的数据特征进行映射处理,将不同维度类型的特征(包括第一文本特征、第二文本特征和图像特征)统一到同一个特征度量空间中,得到位于同一个特征度量空间中的处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征。
其中,上述特征转化层的网络结构具体可以包括以下所列举的网络层中的一种或多种组合:全连层、激活层、池化层、attention层。当然,上述所列举的特征转化层所包含的网络层只是一种示意性说明。具体实施时,根据具体情况和处理要求,上述特征转化层还可以包含其他类型的网络层。对此,本说明书不作限定。
在一些实施例中,对于上述预设的对抗行为识别模型而言,虽然通过不同的特征提取子网络直接得到的第一文本特征、第二文本特征和图像特征是基于不同类型维度的不同数据特征;但是上述特征由于通过特征转化层的处理,得到的处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征实际上已经统一到了同一个特征度量空间中。因此,后续预设的对抗行为识别模型可以将上述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征这些不同类型维度的数据特征融合到一起进行具体的处理,以得到不同类型维度的特征之间的特征距离,作为模型输出的识别处理结果。
在一些实施例中,具体实施时,服务器可以控制预设的对抗行为识别模型调用相应的特征距离度量函数量分别计算处理后的不同类型维度的数据特征之间的特征距离;再将上述处理后的不同类型维度的数据特征之间的特征距离作为识别处理结果。
具体的,服务器可以控制预设的对抗行为识别模型调用基于cosine距离的特征距离度量函数来计算分别计算处理后的第一文本特征和处理后的图像特征之间的cosine距离作为第一类特征距离,计算处理后的第一文本特征和处理后的第二文本特征之间的cosine距离作为第二类特征距离,计算处理后的图像特征和处理后的第二文本特征之间的cosine距离作为第三类特征距离。将上述第一类特征距离、第二类特征距离和第三类特征距离作为模型输出的识别处理结果。当然,需要说明的是,上述所列举的通过计算cosine距离作为不同类型维度的数据特征之间的特征距离只是一种示意性说明。具体实施时,根据具体情况也可以采用其他类型的距离来计算不同类型维度的数据特征之间的特征距离。例如,还可以通过计算不同类型维度的数据特征之间的欧式距离作为特征距离等。对此,本说明书不作限定。
其中,上述第一类特征距离可以反映出网页的html文本数据所包含的网页内容信息与网页的页面截图中的页面图片所包含的网页内容信息之间的差异,从而能够表现出目标网站在网页的html文本数据和网页的页面截图中的页面图片这两个不同维度之间存在的对抗情况。上述第二类特征距离可以反映出网页的html文本数据所包含的网页内容信息与网页的页面截图中的页面文本所包含的网页内容信息之间的差异,从而能够表现出目标网站在网页的html文本数据和网页的页面截图中的页面文本这两个不同维度之间存在的对抗情况。上述第三类特征距离可以反映出网页的页面截图中的页面文本所包含的网页内容信息与网页的页面截图中的页面图片所包含的网页内容信息之间的差异,从而能够表现出目标网站在网页的页面截图中的页面文本所包含的网页内容信息和网页的页面截图中的页面图片这两个不同维度之间存在的对抗情况。
在一些实施例中,考虑到基于html文本数据得到的第一文本特征,与基于页面的OCR文本数据得到的第二文本特征都属于文本类的数据特征。因此,为了减少第一文本特征提取子网络和第二文本特征提取子网络在分别提取第一文本特征和第二文本特征这两种同类的数据特征时,由于特征提取子网络的网络结构差异引入的误差,使得后续能够更加准确地计算特征距离。在构建上述预设的对抗行为识别模型时,可以有针对性地选择使用网络结构相近,或者差异较小(例如网络结构之间的差异值小于预设的差异值)的两个特征提取网络作为预设的对抗行为识别模型中第一文本特征提取子网络和第二文本特征提取子网络。这样可以使得通过上述第一文本特征提取子网络和第二文本特征提取子网络处理后输出的第一文本特征和第二文本特征这两种同类的数据特征的特征分布空间相近,减少了误差。
在一些实施例中,在训练构建预设的对抗行为识别模型时,具体可以选用相同的初始网络结构建立初始的第一文本特征提取子网络、初始的第二文本特征提取子网络。这样后续通过学习训练得到的预设的对抗行为识别模型中的第一文本特征提取子网络的网络结构和第二文本特征提取子网路的网络结构的差异会相对较小,能够减少第一文本特征和第二文本特征之间的误差。
在一些实施例中,具体实施时,服务器可以将目标网站的网页的html文本数据、页面的OCR文本数据,和页面截图作为模型输入,输入至上述预设的对抗行为识别模型中,并运行该模型,以对上述输入的目标网站的页面数据进行相应的识别处理,得到对应的包含有第一类特征距离、第二类特征距离和第三类特征距离的识别处理结果,作为模型输出。
在一些实施例中,在预设的对抗行为识别模型具体运行对上述目标网站的页面数据进行具体识别处理时,预设的对抗行为识别模型可以先通过第一文本特征提取子网络对网页的html文本数据进行特征提取处理得到对应的第一文本特征;通过第二文本特征提取子网络对页面的OCR文本数据进行特征提取处理得到对应的第二文本特征;通过图像特征提取子网络对页面截图进行特征提取处理得到对应的图像特征。进一步,可以将上述第一文本特征、第二文本特征和图像特征输入至特征转化层,通过特征转化层对上述三种数据特征进行映射处理,转化成位于同一特征度量空间的处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征。最后,预设的对抗行为模型通过调用相应的特征距离度量函数,分别计算上述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征相互之间的特征距离,得到对应的第一类特征距离、第二类特征距离和第三类特征距离作为识别处理结果。从而完成了针对上述目标网站的网页数据的识别处理,并输出得到的识别处理结果。
S57:根据所述识别处理结果,确定所述目标网站是否为异常网站。
在一些实施例中,上述异常网站具体可以包括一种违反互联网规范的,在网络中散布违规信息或敏感信息的网站。例如,在网络中散布赌博、色情等违规信息的网站。这类异常网站往往会对正常的网络环境造成污染,会对用户正常上网造成干扰和影响。
具体的,上述这类异常网站为了躲避监管往往会对网站的网页数据进行篡改,常常会将一些违规信息或敏感信息以相对较隐蔽的方式隐藏在正常的网页数据中。例如,会通过对网页数据的篡改,使得这类异常网站可能在某些监管平台或机构较为关注的部分网页数据(例如,网页上的图片,或者html文本等)中大部分数据显示的是正常、符合规范要求的,但在网站中的其他部分的网页数据(例如,网页上的部分文本等)中却会隐藏有违规信息或敏感信息,具有较大的迷惑性。这也使得上述异常网站的不同维度类型的网页数据之间也可能出现所表征的内容信息不一致、不匹配的现象。
例如,网页的页面图文不符,页面上的图片显示的内容都是正常、符合规范的风景照片,而在页面上文本中却存在一些与风景无关的涉及赌博广告这类违规信息的文字语句,使得该网站的页面上的文本和图片所表征的内容信息存在不一致、不匹配的地方,形成一种对抗行为。
在一些实施例中,服务器可以根据识别处理结果,通过检测目标网站的网页是否存在对抗行为来确定目标网站是否属于异常网站。
在一些实施例中,服务器具体实施时,可以先根据所述识别处理结果,确定所述目标网站的网页的html文本数据和页面截图之间是否存在不匹配的第一类异常对抗行为、网页的html文本数据和页面的OCR文本数据之间是否存在不匹配的第二类异常对抗行为、网页的页面截图和页面的OCR文本数据之间是否存在不匹配的第三类异常对抗行为。
具体的,服务器可以根据所述识别处理结果,通过检测第一类特征距离是否大于第一类的预设距离阈值,来确定所述目标网站的网页的html文本数据和页面截图所表征的内容信息之间是否存在不匹配或不一致的对抗行为,即是否存在第一类异常对抗行为。通过检测第二类特征距离是否大于第二类的预设距离阈值,来确定目标网站的网页的html文本数据和页面的OCR文本数据所表征的内容信息之间是否存在不匹配或不一致的对抗行为,即是否存在第二类异常对抗行为。通过检测第三类特征距离是否大于等于第三类的预设距离阈值,来确定目标网站网页的页面截图和页面的OCR文本数据之间是否存在不匹配或不一致的对抗行为,即是否存在第三类异常对抗行为。
进一步,服务器在通过上述检测,确定目标网站存在第一类型异常对抗行为、第二类异常对抗行为和第三类异常对抗行为这类对抗行为中的至少一种异常对抗行为的情况下,可以确定所述目标网站为异常网站。
在一些实施例中,服务器在按照上述方式确定目标网站为异常网站后,可以对目标网站进行进一步针对性的监控和数据采集;并根据进一步监控和数据采集的结果确定目标网站是否真的为散布违规信息或敏感信息的违规异常网站。在确定目标网站真的为异常网站的情况下,可以及时地对目标网站进行关停等处理,以阻止目标网站继续散布违规或敏感信息,降低目标网站对网络环境的影响。
在一些实施例中,服务器在按照上述方式确定目标网站不是异常网站后,可以获取下一个网站的网页的html文本数据,以及网页的页面截图等页面数据,进而可以根据下一个网站的上述页面数据对该网站是否为异常网站进行识别判断。
在本实施例中,通过利用事先训练好的预设的对抗行为识别模型先从目标网站的网页的html文本数据、网页的页面OCR文本数据和网页的页面截图中,分别提取得到与网页的html文本对应的第一文本特征、与页面的OCR文本对应的第二文本特征,和与页面截图对应的图像特征;再综合根据上述三种不同类型维度的数据特征,通过识别目标网站的网页是否存在异常对抗行为,来确定目标网站是否是异常网站。从而能够较为精准地通过识别异常对抗行为找到可能隐藏有违规信息或敏感信息的异常网站,进而可以协助有效地对互联网网站进行监管。
在一些实施例中,上述根据所述识别处理结果,确定所述目标网站是否为异常网站,具体实施时,可以包括以下内容:根据所述识别处理结果,确定所述目标网站的网页的html文本数据和页面截图之间是否存在不匹配的第一类异常对抗行为、网页的html文本数据和页面的OCR文本数据之间是否存在不匹配的第二类异常对抗行为、网页的页面截图和页面的OCR文本数据之间是否存在不匹配的第三类异常对抗行为;在确定目标网站存在第一类型异常对抗行为、第二类异常对抗行为和第三类异常对抗行为中的至少一种异常对抗行为的情况下,确定所述目标网站为异常网站。
在一些实施例中,所述预设的对抗行为识别模型具体还可以包括特征转化层,其中,上述特征转化层具体可以用于将所述第一文本特征、第二文本特征和图像特征映射到同一个特征度量空间。
在一些实施例中,上述根据所述第一文本特征、第二文本特征和图像特征来确定出对应的识别处理结果,具体实施时,可以包括以下内容:利用所述特征转化层对所述第一文本特征、第二文本特征和图像特征进行特征映射处理,得到处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征;根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,确定对应的识别处理结果。
在一些实施例中,上述根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,确定对应的识别处理结果,具体实施时可以包括以下内容:根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,分别计算处理后的第一文本特征和处理后的图像特征之间的第一类特征距离、处理后的第一文本特征和处理后的第二文本特征之间的第二类特征距离、处理后的图像特征和处理后的第二文本特征之间的第三类特征距离;根据所述第一类特征距离、第二类特征距离、第三类特征距离,确定对应的识别处理结果。
在一些实施例中,所述第一文本特征提取子网络和所述第二文本特征提取子网络之间的网络结构的差异值具体可以小于预设的差异值。具体的,上述第一文本特征提取子网络和第二文本特征提取子网络的网络结构相同或相近。
在一些实施例中,所述第一文本特征提取子网络的初始网络结构和所述第二文本特征提取子网络的初始网络结构相同。具体的,上述第一文本特征提取子网络和第二文本特征提取子网络可以是通过使用基于同一个初始网络结构所建立的初始网络,训练得到的。
在一些实施例中,具体实施时,可以按照以下方式训练建立上述预设的对抗行为识别模型:获取样本网页的html文本数据、网页的页面截图、页面的OCR文本数据作为样本数据;标注出所样本网页是否存在异常对抗行为,得到标注后的样本数据;构建初始的对抗行为识别模型,其中,所述初始的对抗行为识别模型至少包括初始的第一文本特征提取子网络、初始的第二文本特征提取子网络和初始的图像特征提取子网络;通过利用所述标注后的样本数据训练所述初始的对抗行为识别模型,得到所述预设的对抗行为识别模型。
在一些实施例中,具体实施时,可以通过检测样本网页是存在例如html文本数据和页面截图,或者html数据和页面的OCR文本数据,或者页面截图和页面的OCR文本数据所表征内容信息是否存在不一致或不匹配的地方。如果存在,则可以认为该样本网页存在异常对抗行为,进而可以在该样本数据上设置用于指示异常对抗行为的数据标签进行标注,得到标注后的样本数据。
在一些实施例中,具体标注时,还可以根据样本网页出现的对抗行为的具体类型,进一步标注出样本数据所对应的对抗行为的类型。例如,是第一类对抗行为,或者第二类对抗行为,或者第三类对抗行为。
在一些实施例中,上述初始的第一文本特征提取子网络、初始的第二文本特征提取子网络可以是基于相同的网络结构建立得到的。
在一些实施例中,具体训练时,可以利用初始的对抗行为识别模型对标注后的样本数据进行识别处理,得到对应的识别处理结果;再根据识别处理结果和标注后的样本数据所携带的数据标签有针对性地调整初始的对抗行为识别模型的网络参数。按照上述方式,不断地进行多次调整,得到符合要求的预设的对抗行为识别模型。
在一些实施例中,上述初始的对抗行为识别模型具体还可以包括loss结构。具体训练时,可以利用模型根据标注后的样本数据,进行识别处理得到的对应的识别处理结果;再通过loss结构根据所得到的识别处理结果和标注后的样本数据所携带的数据标签之间的差异值,来确定相应的损耗参数;再利用该损耗参数调整初始的对抗行为识别模型中网络参数。按照上述方式,进行多次训练迭代,使得识别处理结果和标注后的样本数据所携带的数据标签之间的差异值变得越来越小,直到小于预设的差异阈值,从而可以得到精度符合要求的预设的对抗行为识别模型。此外,还可以通过loss结构进行监督训练,以提高模型训练效率。
在一些实施例中,在具体训练时,针对上述初始的对抗行为识别模型中的初始的第一文本特征提取子网络、初始的第二文本特征提取子网络和初始的图像特征提取子网络,可以有针对性地利用标注后的样本数据进行微调。例如,可以通过finetune对上述三种特征提取子网络的网络参数进行小幅度的调整,以便能够更高效地获得符合要求的预设的对抗行为识别模型。
在一些实施例中,还可以将上述异常网站的识别方法拓展应用到针对异常应用程序识别的应用场景中,来为用户识别出可能存在违规行为,或存在风险的异常应用程序。
在一些实施例中,上述异常应用程序具体可以包括图文描述与应用程序功能不相符的APP等。具体实施时,利用上述异常网站的识别方法,可以获取目标应用程序的下载页面的html文本数据,和下载页面的页面截图;从下载页面的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述下载页面的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;再根据所述识别处理结果,确定所述目标应用程序是否为异常应用程序。
具体的,例如,某个聊天APP的下载页面中除了包含有聊天、社交等特征信息外,还包含了与上述特征信息存在对抗的金融类的特征信息。通过利用异常网站的识别方法对该聊天APP的下载页面进行处理,可以发现下载页面中存在的上述对抗行为,进而识别出该APP为异常应用程序。进一步,可以向用户发出提示信息,提示用户该APP存在风险,谨慎下载。
由上可见,本说明书实施例提供的异常网站的识别方法,通过利用事先训练好的预设的对抗行为识别模型先从目标网站的网页的html文本数据、网页的页面OCR文本数据和网页的页面截图中,分别提取得到与网页的html文本对应的第一文本特征、与页面的OCR文本对应的第二文本特征,和与页面截图对应的图像特征;再综合根据上述三种不同类型维度的数据特征,通过识别目标网站的网页是否存在异常对抗行为,来确定目标网站是否是异常网站。从而能够较为精准地通过识别异常对抗行为找到可能隐藏有违规信息或敏感信息的异常网站,进而可以协助有效地对互联网网站进行监管。还通过利用预设的对抗行为识别模型中的特征转化层先将所提取到的不同类型的第一文本特征、第二文本特征和图像特征先进行映射处理,映射到同一个特征度量空间,得到处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,以消除不同类型特征之间的由于类型不同而引入的差异;再融合上述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,从所表征的内容上去判断目标网站的网页是否存在异常对抗,来确定出目标网站是否是异常网站,从而减少了误差、干扰,进一步提高了识别异常网站的准确度。
参阅图6所示,本说明书实施例还提供了一种异常对抗行为的识别方法。其中,该方法具体实施时,可以包括以下内容。
S61:获取目标网站的网页的html文本数据、网页的页面截图和页面的文本数据。
S63:从所述网页的html文本数据中提取出第一文本特征,从所述页面的文本数据中提取出第二文本特征,从所述页面截图中提取出图像特征。
S65:根据所述第一文本特征、第二文本特征和图像特征,确定所述目标网站是否存在异常对抗行为。
在一些实施例中,上述异常对抗行为具体可以理解为网页的html文本数据和网页的页面图片所表征的内容信息之间,或者网页的html文本数据和网页的页面文本所表征的内容信息之间,或网页的页面图片和网页的页面文本所表征的内容信息之间存在较为明显的不一致或不匹配的行为。
在一些实施例中,上述页面的文本数据可以通过对网页的页面截图进行OCR识别获得。
在一些实施例中,上述根据所述第一文本特征、第二文本特征和图像特征,确定所述目标网站是否存在异常对抗行为,具体实施时,可以包括以下内容:根据所述第一文本特征、第二文本特征和图像特征,确定所述目标网站的网页的html文本数据和页面截图之间、网页的html文本数据和页面的文本数据之间、或网页的页面截图和页面的文本数据之间,是否存在不匹配的异常对抗行为;在确定所述目标网站的网页的html文本数据和页面截图之间、网页的html文本数据和页面的文本数据之间、或网页的页面截图和页面的文本数据之间,存在不匹配的异常对抗行为的情况下,确定所述目标网站存在异常对抗行为。
在一些实施例中,具体实施时,可以通过计算第一文本特征、第二文本特征和图像特征三种不同类型维度的数据特征之间的特征距离是否较大,来判断所述目标网站的网页的html文本数据和页面截图之间、网页的html文本数据和页面的文本数据之间、或网页的页面截图和页面的文本数据之间,是否存在不匹配的异常对抗行为。
在一些实施例中,具体实施时,提取第一文本特征、第二文本特征和图像特征,以及计算上述三种不同类型维度的数据特征之间的特征距离可以利用事先训练好的预设的对抗行为识别模型实现。
在一些实施例中,具体实施时,按照上述方式如果确定目标网站存在异常对抗行为,则可以进一步去判断该目标网站是否是违规的异常网站。
由上可见,本说明书实施例提供的异常对抗行为的识别方法,通过获取并融合网站网页的不同类型维度的数据特征,能够较为精准地识别、发现网站中存在的异常对抗行为。
本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取目标网站的网页的html文本数据,和网页的页面截图;从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,确定所述目标网站是否为异常网站。
为了能够更加准确地完成上述指令,参阅图7所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口701、处理器702以及存储器703,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口701,具体可以用于获取目标网站的网页的html文本数据,和网页的页面截图。
所述处理器702,具体可以用于从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,确定所述目标网站是否为异常网站。
所述存储器703,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口701可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器702可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器703可以包括多个层次,在数字***中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在***中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述异常网站的识别方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取目标网站的网页的html文本数据,和网页的页面截图;从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,确定所述目标网站是否为异常网站。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图8所示,在软件层面上,本说明书实施例还提供了一种异常网站的识别装置,该装置具体可以包括以下的结构模块。
获取模块801,具体可以用于获取目标网站的网页的html文本数据,和网页的页面截图。
提取模块802,具体可以用于从所述网页的页面截图中提取得到页面的OCR文本数据。
处理模块803,具体可以用于利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定。
确定模块804,具体可以用于根据所述识别处理结果,确定所述目标网站是否为异常网站。
在一些实施例中,所述确定模块804包括具体可以包括以下结构单元:
第一确定单元,具体可以用于根据所述识别处理结果,确定所述目标网站的网页的html文本数据和页面截图之间是否存在不匹配的第一类异常对抗行为、网页的html文本数据和页面的OCR文本数据之间是否存在不匹配的第二类异常对抗行为、网页的页面截图和页面的OCR文本数据之间是否存在不匹配的第三类异常对抗行为;
第二确定单元,具体可以用于在确定目标网站存在第一类型异常对抗行为、第二类异常对抗行为和第三类异常对抗行为中的至少一种异常对抗行为的情况下,确定所述目标网站为异常网站。
在一些实施例中,所述预设的对抗行为识别模型具体还可以包括特征转化层,用于将所述第一文本特征、第二文本特征和图像特征映射到同一个特征度量空间。
在一些实施例中,所述处理模块803具体可以用于利用所述特征转化层对所述第一文本特征、第二文本特征和图像特征进行特征映射处理,得到处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征;根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,确定对应的识别处理结果。
在一些实施例中,所述处理模块803具体还可以用于根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,分别计算处理后的第一文本特征和处理后的图像特征之间的第一类特征距离、处理后的第一文本特征和处理后的第二文本特征之间的第二类特征距离、处理后的图像特征和处理后的第二文本特征之间的第三类特征距离;根据所述第一类特征距离、第二类特征距离、第三类特征距离,确定对应的识别处理结果。
在一些实施例中,所述第一文本特征提取子网络和所述第二文本特征提取子网络之间的网络结构的差异值小于预设的差异值。
在一些实施例中,所述第一文本特征提取子网络的初始网络结构和所述第二文本特征提取子网络的初始网络结构相同。
在一些实施例中,所述装置具体还可以包括模型训练模块,用于训练建立预设的对抗行为识别模型。其中,该模型训练模块具体可以包括以下结构单元:
获取单元,具体可以用于获取样本网页的html文本数据、网页的页面截图、页面的OCR文本数据作为样本数据;
标注单元,具体可以用于标注出所样本网页是否存在异常对抗行为,得到标注后的样本数据;
构建单元,具体可以用于构建初始的对抗行为识别模型,其中,所述初始的对抗行为识别模型至少包括初始的第一文本特征提取子网络、初始的第二文本特征提取子网络和初始的图像特征提取子网络;
训练单元,具体可以用于通过利用所述标注后的样本数据训练所述初始的对抗行为识别模型,得到所述预设的对抗行为识别模型。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的异常网站的识别装置,通过处理模块利用事先训练好的预设的对抗行为识别模型先从目标网站的网页的html文本数据、网页的页面OCR文本数据和网页的页面截图中,分别提取得到与网页的html文本对应的第一文本特征、与页面的OCR文本对应的第二文本特征,和与页面截图对应的图像特征;再综合根据上述三种不同类型维度的数据特征,得到对应的识别处理结果;通过确定模块根据识别处理结果检测目标网站的网页是否存在异常对抗行为,来确定目标网站是否是异常网站。从而能够较为精准地通过识别异常对抗行为找到可能隐藏有违规信息或敏感信息的异常网站,进而可以协助有效地对互联网网站进行监管。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (20)

1.一种异常网站的识别方法,包括:
获取目标网站的网页的html文本数据,和网页的页面截图;其中,所述html文本数据包括html原码数据;
从所述网页的页面截图中提取得到页面的OCR文本数据;
利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;
根据所述识别处理结果,确定所述目标网站是否为异常网站。
2.根据权利要求1所述的方法,根据所述识别处理结果,确定所述目标网站是否为异常网站,包括:
根据所述识别处理结果,确定所述目标网站的网页的html文本数据和页面截图之间是否存在不匹配的第一类异常对抗行为、网页的html文本数据和页面的OCR文本数据之间是否存在不匹配的第二类异常对抗行为、网页的页面截图和页面的OCR文本数据之间是否存在不匹配的第三类异常对抗行为;
在确定目标网站存在第一类型异常对抗行为、第二类异常对抗行为和第三类异常对抗行为中的至少一种异常对抗行为的情况下,确定所述目标网站为异常网站。
3.根据权利要求1所述的方法,所述预设的对抗行为识别模型还包括特征转化层,用于将所述第一文本特征、第二文本特征和图像特征映射到同一个特征度量空间。
4.根据权利要求3所述的方法,根据所述第一文本特征、第二文本特征和图像特征来确定出对应的识别处理结果,包括:
利用所述特征转化层对所述第一文本特征、第二文本特征和图像特征进行特征映射处理,得到处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征;
根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,确定对应的识别处理结果。
5.根据权利要求4所述的方法,根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,确定对应的识别处理结果,包括:
根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,分别计算处理后的第一文本特征和处理后的图像特征之间的第一类特征距离、处理后的第一文本特征和处理后的第二文本特征之间的第二类特征距离、处理后的图像特征和处理后的第二文本特征之间的第三类特征距离;
根据所述第一类特征距离、第二类特征距离、第三类特征距离,确定对应的识别处理结果。
6.根据权利要求1所述的方法,所述第一文本特征提取子网络和所述第二文本特征提取子网络之间的网络结构的差异值小于预设的差异值。
7.根据权利要求6所述的方法,所述第一文本特征提取子网络的初始网络结构和所述第二文本特征提取子网络的初始网络结构相同。
8.根据权利要求1所述的方法,所述预设的对抗行为识别模型按照以下方式训练得到:
获取样本网页的html文本数据、网页的页面截图、页面的OCR文本数据作为样本数据;
标注出所样本网页是否存在异常对抗行为,得到标注后的样本数据;
构建初始的对抗行为识别模型,其中,所述初始的对抗行为识别模型至少包括初始的第一文本特征提取子网络、初始的第二文本特征提取子网络和初始的图像特征提取子网络;
通过利用所述标注后的样本数据训练所述初始的对抗行为识别模型,得到所述预设的对抗行为识别模型。
9.一种异常对抗行为的识别方法,包括:
获取目标网站的网页的html文本数据、网页的页面截图和页面的文本数据;其中,所述html文本数据包括html原码数据;
从所述网页的html文本数据中提取出第一文本特征,从所述页面的文本数据中提取出第二文本特征,从所述页面截图中提取出图像特征;
根据所述第一文本特征、第二文本特征和图像特征,确定所述目标网站是否存在异常对抗行为。
10.根据权利要求9所述的方法,根据所述第一文本特征、第二文本特征和图像特征,确定所述目标网站是否存在异常对抗行为,包括:
根据所述第一文本特征、第二文本特征和图像特征,确定所述目标网站的网页的html文本数据和页面截图之间、网页的html文本数据和页面的OCR文本数据之间、或网页的页面截图和页面的OCR文本数据之间,是否存在不匹配的异常对抗行为;
在确定所述目标网站的网页的html文本数据和页面截图之间、网页的html文本数据和页面的OCR文本数据之间、或网页的页面截图和页面的OCR文本数据之间,存在不匹配的异常对抗行为的情况下,确定所述目标网站存在异常对抗行为。
11.一种异常网站的识别装置,包括:
获取模块,用于获取目标网站的网页的html文本数据,和网页的页面截图;其中,所述html文本数据包括html原码数据;
提取模块,用于从所述网页的页面截图中提取得到页面的OCR文本数据;
处理模块,用于利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;
确定模块,用于根据所述识别处理结果,确定所述目标网站是否为异常网站。
12.根据权利要求11所述的装置,所述确定模块包括:
第一确定单元,用于根据所述识别处理结果,确定所述目标网站的网页的html文本数据和页面截图之间是否存在不匹配的第一类异常对抗行为、网页的html文本数据和页面的OCR文本数据之间是否存在不匹配的第二类异常对抗行为、网页的页面截图和页面的OCR文本数据之间是否存在不匹配的第三类异常对抗行为;
第二确定单元,用于在确定目标网站存在第一类型异常对抗行为、第二类异常对抗行为和第三类异常对抗行为中的至少一种异常对抗行为的情况下,确定所述目标网站为异常网站。
13.根据权利要求11所述的装置,所述预设的对抗行为识别模型还包括特征转化层,用于将所述第一文本特征、第二文本特征和图像特征映射到同一个特征度量空间。
14.根据权利要求13所述的装置,所述处理模块具体用于利用所述特征转化层对所述第一文本特征、第二文本特征和图像特征进行特征映射处理,得到处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征;根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,确定对应的识别处理结果。
15.根据权利要求14所述的装置,所述处理模块具体还用于根据所述处理后的第一文本特征、处理后的第二文本特征和处理后的图像特征,分别计算处理后的第一文本特征和处理后的图像特征之间的第一类特征距离、处理后的第一文本特征和处理后的第二文本特征之间的第二类特征距离、处理后的图像特征和处理后的第二文本特征之间的第三类特征距离;根据所述第一类特征距离、第二类特征距离、第三类特征距离,确定对应的识别处理结果。
16.根据权利要求11所述的装置,所述第一文本特征提取子网络和所述第二文本特征提取子网络之间的网络结构的差异值小于预设的差异值。
17.根据权利要求16所述的装置,所述第一文本特征提取子网络的初始网络结构和所述第二文本特征提取子网络的初始网络结构相同。
18.根据权利要求11所述的装置,所述装置还包括模型训练模块,包括:
获取单元,用于获取样本网页的html文本数据、网页的页面截图、页面的OCR文本数据作为样本数据;
标注单元,用于标注出所样本网页是否存在异常对抗行为,得到标注后的样本数据;
构建单元,用于构建初始的对抗行为识别模型,其中,所述初始的对抗行为识别模型至少包括初始的第一文本特征提取子网络、初始的第二文本特征提取子网络和初始的图像特征提取子网络;
训练单元,用于通过利用所述标注后的样本数据训练所述初始的对抗行为识别模型,得到所述预设的对抗行为识别模型。
19.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至8中任一项所述方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至8中任一项所述方法的步骤。
CN202010147052.7A 2020-03-05 2020-03-05 异常网站的识别方法、装置和异常对抗行为的识别方法 Active CN111401416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010147052.7A CN111401416B (zh) 2020-03-05 2020-03-05 异常网站的识别方法、装置和异常对抗行为的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010147052.7A CN111401416B (zh) 2020-03-05 2020-03-05 异常网站的识别方法、装置和异常对抗行为的识别方法

Publications (2)

Publication Number Publication Date
CN111401416A CN111401416A (zh) 2020-07-10
CN111401416B true CN111401416B (zh) 2022-10-21

Family

ID=71432211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010147052.7A Active CN111401416B (zh) 2020-03-05 2020-03-05 异常网站的识别方法、装置和异常对抗行为的识别方法

Country Status (1)

Country Link
CN (1) CN111401416B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052366A (zh) * 2020-09-08 2020-12-08 河南工业职业技术学院 一种计算机大数据存储***
CN112565250B (zh) * 2020-12-04 2022-12-06 ***通信集团内蒙古有限公司 一种网站识别方法、装置、设备及存储介质
CN113222022A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种网页分类识别方法及装置
CN113836365A (zh) * 2021-07-16 2021-12-24 成都无糖信息技术有限公司 一种异常行为网站的识别预警方法
CN113783858A (zh) * 2021-08-31 2021-12-10 上海微问家信息技术有限公司 一种非法网站检测方法、装置、计算机设备及存储介质
CN114021064A (zh) * 2022-01-06 2022-02-08 北京微步在线科技有限公司 网站分类方法、装置、设备及存储介质
CN115459946A (zh) * 2022-08-02 2022-12-09 广州市玄武无线科技股份有限公司 一种异常网页的识别方法、装置、设备和计算机存储介质
CN114996103A (zh) * 2022-08-03 2022-09-02 平安银行股份有限公司 页面异常检测方法、装置、电子设备和存储介质
CN115221523B (zh) * 2022-09-20 2022-12-27 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备
CN115495693B (zh) * 2022-10-28 2023-04-28 中科雨辰科技有限公司 一种网站页面处理方法
CN115796145B (zh) * 2022-11-16 2023-09-08 珠海横琴指数动力科技有限公司 一种网页文本的采集方法、***、服务器及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及***
WO2018086476A1 (zh) * 2016-11-10 2018-05-17 腾讯科技(深圳)有限公司 网页处理方法、装置和存储介质
CN108563963A (zh) * 2018-04-16 2018-09-21 深信服科技股份有限公司 网页篡改检测方法、装置、设备及计算机可读存储介质
CN109901968A (zh) * 2019-01-31 2019-06-18 阿里巴巴集团控股有限公司 一种自动化页面数据校验方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844685B (zh) * 2017-01-26 2020-07-28 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN109885446A (zh) * 2018-12-25 2019-06-14 北京互金新融科技有限公司 确定网站页面显示状态的方法及装置
CN110147817B (zh) * 2019-04-11 2021-08-27 北京搜狗科技发展有限公司 训练数据集生成方法及装置
CN110825998A (zh) * 2019-08-09 2020-02-21 国家计算机网络与信息安全管理中心 一种网站识别方法及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332028A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种面向网页的不良Web内容识别方法
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及***
WO2018086476A1 (zh) * 2016-11-10 2018-05-17 腾讯科技(深圳)有限公司 网页处理方法、装置和存储介质
CN108563963A (zh) * 2018-04-16 2018-09-21 深信服科技股份有限公司 网页篡改检测方法、装置、设备及计算机可读存储介质
CN109901968A (zh) * 2019-01-31 2019-06-18 阿里巴巴集团控股有限公司 一种自动化页面数据校验方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Content-Based Methodology for Anomaly Detection on the Web;Mark Last等;《ResearchGate》;20150901;第1-10页 *
支持页面特征伪造识别的钓鱼网页检测方法;王伟平 等;《山东大学学报(理学版)》;20140930;第49卷(第9期);第90-96页 *

Also Published As

Publication number Publication date
CN111401416A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401416B (zh) 异常网站的识别方法、装置和异常对抗行为的识别方法
KR101767454B1 (ko) 다양한 웹 서비스 환경에서 사용자의 행위 패턴 분석을 통한 이상행위 탐지 방법과 그를 위한 장치
KR20180082504A (ko) 애플리케이션 정보 위험 관리를 위한 방법 및 장치
CN107948199B (zh) 一种对终端共享接入进行快速检测的方法及装置
US10505986B1 (en) Sensor based rules for responding to malicious activity
CN103279710A (zh) Internet信息***恶意代码的检测方法和***
CN112839014B (zh) 建立识别异常访问者模型的方法、***、设备及介质
CN104852916A (zh) 一种基于社会工程学的网页验证码识别方法及***
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
CN109995751B (zh) 上网设备标记方法、装置及存储介质、计算机设备
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN113987508A (zh) 一种漏洞处理方法、装置、设备及介质
KR101464736B1 (ko) 정보보호 관리 시스템 및 이를 통한 홈페이지 위변조 탐지 방법
CN112087455B (zh) 一种waf站点防护规则生成方法、***、设备及介质
CN117609992A (zh) 一种数据泄密检测方法、装置及存储介质
CN110460620B (zh) 网站防御方法、装置、设备及存储介质
CN107995167B (zh) 一种设备识别方法及服务器
CN115643044A (zh) 数据处理方法、装置、服务器及存储介质
CN113364766B (zh) 一种apt攻击的检测方法及装置
CN110401639B (zh) 网络访问的异常判定方法、装置、服务器及其存储介质
CN114817928A (zh) 网络空间数据融合分析方法、***、电子设备及存储介质
US11716350B2 (en) Systems and methods of detecting anomalous websites
CN113238971A (zh) 基于状态机的自动化渗透测试***及方法
CN112822200A (zh) 一种物联网数据安全防护方法、装置及服务器
CN109495538B (zh) 一种共享接入终端数量的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40033176

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant