CN110336790B - 一种网站检测的方法和*** - Google Patents

一种网站检测的方法和*** Download PDF

Info

Publication number
CN110336790B
CN110336790B CN201910457676.6A CN201910457676A CN110336790B CN 110336790 B CN110336790 B CN 110336790B CN 201910457676 A CN201910457676 A CN 201910457676A CN 110336790 B CN110336790 B CN 110336790B
Authority
CN
China
Prior art keywords
analysis result
target
picture
edge device
picture analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910457676.6A
Other languages
English (en)
Other versions
CN110336790A (zh
Inventor
陈潜森
林汉荣
秦诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aijieyun Technology Co ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN201910457676.6A priority Critical patent/CN110336790B/zh
Priority to PCT/CN2019/096173 priority patent/WO2020237799A1/zh
Priority to EP19917522.5A priority patent/EP3771171A4/en
Publication of CN110336790A publication Critical patent/CN110336790A/zh
Priority to US17/028,807 priority patent/US20210004628A1/en
Application granted granted Critical
Publication of CN110336790B publication Critical patent/CN110336790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/302Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1036Load balancing of requests to servers for services different from user content provisioning, e.g. load balancing across domain name servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种网站检测的方法和***,属于计算机技术领域。所述方法包括:所述云平台接收携带有目标URL的网站检测请求,将所述网站检测请求转发至所述目标URL对应的目标边缘设备;所述目标边缘设备获取所述目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果;所述目标边缘设备向所述网站检测请求的发送端反馈所述分析结果。采用本发明,可以有效降低网站检测的成本,提高网站检测的效率,减少带宽流量的消耗,以及缩短网站检测的延时。

Description

一种网站检测的方法和***
技术领域
本发明涉及计算机技术领域,特别涉及一种网站检测的方法和***。
背景技术
近几年伴随着互联网的飞速发展,互联网上的网站也越来越多,网站的内容也越来越丰富、多样,而很多包含违法违规内容的网站也频繁出现,或者网站受恶意攻击导致网页被劫持、被篡改而出现了违法违规内容。因此,网站监管已成为当前互联网领域的热门需求。
目前网站监管大多采用人工检测的方式进行,当需要对某个网站是否包含违法违规内容进行检测时,网站方可以将网站的文本图片上传至网站监管方,然后由网络管理员对上述文本图片内容进行人工检测,从而判断相应网站中是否包含有违法违规内容。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于目前网站的数量、内容均不断的增加,需要人工检测的文本及图片数量众多,首先针对大量文本及图片的审核需要消耗大量的人力、时间成本;其次将大量文本及图片上传给网站监管方,带宽流量消耗和检测延时均较高,因此目前网站检测的难度大、效率低、速度慢、成本高。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种网站检测的方法和***。所述技术方案如下:
第一方面,提供了一种网站检测的方法,所述方法应用于边缘计算***,所述边缘计算***包括云平台和分布式部署的多台边缘设备,其中:
所述云平台接收携带有目标URL的网站检测请求,将所述网站检测请求转发至所述目标URL对应的目标边缘设备;
所述目标边缘设备获取所述目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果;
所述目标边缘设备向所述网站检测请求的发送端反馈所述分析结果。
可选的,所述基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果,包括:
所述目标边缘设备基于OCR技术识别所述页面截图中的文字,并基于AC 自动机算法将识别出的文字与违规文本库进行比对,生成文本分析结果;和/或,
所述目标边缘设备基于图片分析模型检测所述页面截图中是否包含违规图片,生成图片分析结果。
可选的,所述方法还包括:
所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练,以更新所述图片分析模型的模型参数。
可选的,所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练,包括:
如果接收到所述发送端发送的结果确认消息,所述目标边缘设备则根据所述图片分析结果对所述图片分析模型进行训练,否则丢弃所述图片分析结果。
可选的,所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练之前,还包括:
所述目标边缘设备基于预设的图片信息检测算法对所述图片分析结果进行检测,根据检测结果调整所述图片分析结果;或者,
所述目标边缘设备接收针对所述图片分析结果的人工调整指令,根据所述人工调整指令调整所述图片分析结果。
可选的,所述方法还包括:
所述目标边缘设备周期性向所述云平台发送所述图片分析模型的模型参数;
所述云平台周期性基于每台边缘设备最新上传的图片分析模型的模型参数,更新每台边缘设备对应的图片分析模型的模型参数;
所述云平台向每台边缘设备反馈对应的更新后的图片分析模型的模型参数。
可选的,所述边缘计算***包括负载均衡设备和多个云平台;
所述云平台接收携带有目标URL的网站检测请求之前,还包括:
所述负载均衡设备接收携带有目标URL的网站检测请求,根据多个所述云平台的运行状态,将所述网站检测请求转发至目标云平台。
第二方面,提供了一种网站检测的***,所述***包括云平台和分布式部署的多台边缘设备,其中:
所述云平台,用于接收携带有目标URL的网站检测请求,将所述网站检测请求转发至所述目标URL对应的目标边缘设备;
所述目标边缘设备,用于获取所述目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果;
所述目标边缘设备,用于向所述网站检测请求的发送端反馈所述分析结果。
可选的,所述目标边缘设备,具体用于:
基于OCR技术识别所述页面截图中的文字,并基于AC自动机算法将识别出的文字与违规文本库进行比对,生成文本分析结果;和/或,
基于图片分析模型检测所述页面截图中是否包含违规图片,生成图片分析结果。
可选的,所述目标边缘设备,还用于:
根据所述图片分析结果对所述图片分析模型进行训练,以更新所述图片分析模型的模型参数。
可选的,所述目标边缘设备,具体用于:
如果接收到所述发送端发送的结果确认消息,则根据所述图片分析结果对所述图片分析模型进行训练,否则丢弃所述图片分析结果。
可选的,所述目标边缘设备,还用于:
在根据所述图片分析结果对所述图片分析模型进行训练之前,基于预设的图片信息检测算法对所述图片分析结果进行检测,根据检测结果调整所述图片分析结果;或者,
在根据所述图片分析结果对所述图片分析模型进行训练之前,接收针对所述图片分析结果的人工调整指令,根据所述人工调整指令调整所述图片分析结果。
可选的,所述目标边缘设备,还用于周期性向所述云平台发送所述图片分析模型的模型参数;
所述云平台,还用于周期性基于每台边缘设备最新上传的图片分析模型的模型参数,更新每台边缘设备对应的图片分析模型的模型参数,向每台边缘设备反馈对应的更新后的图片分析模型的模型参数。
可选的,所述***包括负载均衡设备和多个云平台;
所述负载均衡设备,用于接收携带有目标URL的网站检测请求,根据多个所述云平台的运行状态,将所述网站检测请求转发至目标云平台。
第三方面,提供了一种网络设备,所述网络设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的网站检测的方法中边缘设备的处理。
第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的网站检测的方法中边缘设备的处理。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,云平台接收携带有目标URL的网站检测请求,将网站检测请求转发至目标URL对应的目标边缘设备;目标边缘设备获取目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析页面截图,生成分析结果;目标边缘设备向网站检测请求的发送端反馈分析结果。这样,当需要对网站进行检测时,可以由分布式部署的边缘设备基于机器算法来执行,相对于统一由人工检测的方式,可以有效降低检测成本、提高检测效率,并且减少中心负载和检测压力;同时由于边缘设备距离网站的源站较近,可以进一步的减少带宽流量的消耗,缩短检测延时。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种边缘计算***的网络架构示意图;
图2是本发明实施例提供的一种网站检测的方法流程图;
图3是本发明实施例提供的一种边缘计算***的网络架构示意图;
图4是本发明实施例提供的一种网络设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种网站检测的方法,该方法可以应用于边缘计算***,如图1所示,该边缘计算***可以包括云平台和分布式部署的多台边缘设备。其中,云平台可以与用户对接,统一接收用户发来的网站检测请求,并且可以在对网站检测请求进行解析、封装等处理后,将网站检测请求转发至边缘设备。边缘设备可以是具备截图功能和截图识别功能的任意设备,其中具体可以设置有用于实现截图功能的截图代理模块,和用于实现截图识别功能的截图分析模块。边缘设备可以分布式部署在不同区域和/或不同运营商网络内,每台边缘设备可以负责对其所属区域/或运营商网络内的用户提供服务。边缘设备可以包括处理器、存储器、收发器,处理器可以用于进行下述流程中执行网站检测的处理,存储器可以用于存储处理过程中需要的数据以及产生的数据,收发器可以用于接收和发送处理过程中的相关数据。
下面将结合具体实施方式,对图2所示的处理流程进行详细的说明,内容可以如下:
步骤201,云平台接收携带有目标URL(Uniform Resource Locator,统一资源定位符)的网站检测请求,将网站检测请求转发至目标URL对应的目标边缘设备。
在实施中,用户需要检测网站中是否包含违法违规内容时,可以向边缘计算***发送网站检测请求,并在该网站检测请求中添加需要检测的网站页面的 URL(即目标URL,可以是一个网站页面URL,也可以是多个网站页面的多个 URL)。故而,边缘计算***的云平台可以接收到上述用户发送的携带有目标 URL的网站检测请求,然后对该网站检测请求进行解析、封装等处理。同时,针对每个目标URL,云平台在获取到目标URL后,可以确定目标URL的源站所属的目标区域和目标运营商网络,然后可以根据目标区域和目标运营商网络选取与目标URL的源站距离小于预设阈值,且属于同一运营商网络的目标边缘设备,进而,云平台可以将网站检测请求转发至目标URL对应的目标边缘设备。值得一提的是,边缘计算***中不同边缘设备还可以用于负责不同类型的网站检测处理,如边缘设备A用于检测网购类网站,边缘设备B用于检测在线阅读类网站,边缘设备C用于检测新闻类网站等,这样,云平台在选取目标边缘设备时,还可以先根据目标URL对应的目标网站类型,确定用于检测目标网站类型的所有可选边缘设备,然后再在这些可选边缘设备中根据上述目标区域和目标运营商网络选取目标边缘设备。
步骤202,目标边缘设备获取目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析页面截图,生成分析结果。
在实施中,目标边缘设备在接收到云平台发来的网站检测请求后,可以提取其中携带的目标URL,然后通过内置的截图代理模块从目标URL的源站截取目标URL对应的页面截图。同时,目标边缘设备也可以基于预设的文字识别算法和图片分析模型,对该页面截图进行分析,以判断页面截图中是否存在违法违规的文字或者图片,从而生成分析结果。
可选的,对页面截图的分析可以主要包括文字分析和图片分析,相应的,步骤202的处理可以如下:目标边缘设备基于OCR(Optical Character Recognition,光学字符识别)技术识别页面截图中的文字,并基于AC自动机算法将识别出的文字与违规文本库进行比对,生成文本分析结果;和/或,目标边缘设备基于图片分析模型检测页面截图中是否包含违规图片,生成图片分析结果。
在实施中,目标边缘设备在获取到目标URL对应的页面截图后,可以对页面截图中的文字和图片内容分别进行分析,以判断该页面截图中是否存在违法违规文字或违法违规图片。一方面,目标边缘设备可以采用OCR技术对页面截图中的文字进行识别,然后再通过AC自动机算法将识别出的文字与违规文本库进行比对,从而生成文本分析结果。不难理解,违规文本库中可以记录有违法违规的文字,当违规文本库中的文字出现与识别出的文字相同的文字时,则可以判定该页面截图中包含有违法违规文字。进一步的,目标边缘设备还可以不断根据网站检测结果来更新违规文本库中的内容,而针对用于检测各类型网站的边缘设备,云平台可以定期汇总该类所有边缘设备的违规文本库的内容,然后利用汇总内容更新该类每台边缘设备的违规文本库。另一方面,目标边缘设备可以调用预设的图片分析模型,利用该图片分析模型对页面截图进行机器视觉分析,以检测页面截图中是否有涉及色情、涉政敏感、暴力恐怖等违法违规图片内容,从而生成图片分析结果。
步骤203,目标边缘设备向网站检测请求的发送端反馈分析结果。
在实施中,目标边缘设备分析目标URL对应的页面截图,生成分析结果后,可以将分析结果反馈至网站检测请求的发送端。当然,用户可以在网站检测请求中指定分析结果的接收端,使得目标边缘设备在生成分析结果后可以将分析结果发送至该接收端。进一步的,为了保证网站检测的准确性,步骤201中云平台可以选取多台目标边缘设备共同对目标URL进行检测,这样,目标边缘设备生成分析结果后,还可以将分析结果先反馈给云平台,云平台可以对所有目标边缘设备反馈的分析结果进行汇总整理,然后向网站检测请求的发送端反馈汇总整理后的分析结果。
可选的,边缘设备还可以利用图片分析结果对图片分析模型进行模型强化训练,以优化更新图片分析模型,相应的处理可以如下:目标边缘设备根据图片分析结果对图片分析模型进行训练,以更新图片分析模型的模型参数。
在实施中,每台边缘设备上均可以设置有模型训练模块,通过该模型训练模块边缘设备可以不断优化其上的图片分析模型。以目标边缘设备为例,目标边缘设备在通过图片分析模型生成图片分析结果之后,可以将该图片分析结果输入上述模型训练模块,从而可以根据图片分析结果对图片分析模型进行强化训练,以更新图片分析模型的模型参数。当然,在另一实施例中,模型训练模块的功能可以由另一独立的模型训练设备来实现,模型训练设备可以通过与边缘设备交互的方式实现上述图片分析模型的训练处理。
可选的,为了保证模型训练有效,可以仅选取正确的图片分析结果对图片分析模型进行训练,相应的处理可以如下:如果接收到发送端发送的结果确认消息,目标边缘设备则根据图片分析结果对图片分析模型进行训练,否则丢弃图片分析结果。
在实施中,目标边缘设备向网站检测请求的发送端反馈分析结果之后,可以检测发送端是否反馈有结果确认消息。如果接收到发送端发送的结果确认消息,目标边缘设备则可以确定本次图片分析正确,进而可以根据图片分析结果对图片分析模型进行训练,而如果未接收到结果确认消息,或者接收到结果错误消息,目标边缘设备则可以丢弃本次图片分析结果。同时,目标边缘设备还可以在接收到结果错误消息后,更新图片分析错误的总次数,当总次数到达预设次数阈值时,可以主动暂停网站检测服务。
可选的,在利用图片分析结果对图片分析模型进行强化训练前,可以对图片分析结果进行一定调整,以确保模型训练的有效性,相应的处理可以如下:目标边缘设备基于预设的图片信息检测算法对图片分析结果进行检测,根据检测结果调整图片分析结果;或者,目标边缘设备接收针对图片分析结果的人工调整指令,根据人工调整指令调整图片分析结果。
在实施中,目标边缘设备在利用生成的图片分析结果对图片分析模型进行训练之前,可以先对图片分析结果进行调整,保证图片分析结果的正确性。一种方式下,目标边缘设备上可以预先设置有图片信息检测算法,用于对违法违规图片进行检测,以确认图片中是否确实存在违法违规内容。这样,目标边缘设备可以基于预设的图片信息检测算法对图片分析结果进行检测,然后根据检测结果调整图片分析结果。在另一种方式下,边缘计算***的技术人员可以人工对图片分析结果进行检验,为了降低人工检验任务量,考虑到违法违规图片占总数的比例较低,技术人员可以仅对分析出存在违法违规内容的图片分析结果进行人工检验,然后以人工调整指令的方式控制边缘设备调整图片分析结果。这样,目标边缘设备在接收到针对图片分析结果的人工调整指令之后,可以根据人工调整指令调整图片分析结果。
可选的,云平台还可以定期聚合并更新所有边缘节点的图片分析模型的模型参数,相应的处理可以如下:目标边缘设备周期性向云平台发送图片分析模型的模型参数;云平台周期性基于每台边缘设备最新上传的图片分析模型的模型参数,更新每台边缘设备对应的图片分析模型的模型参数;云平台向每台边缘设备反馈对应的更新后的图片分析模型的模型参数。
在实施中,边缘计算***中包含目标边缘设备在内的所有边缘设备可以周期性地向云平台发送图片分析模型的模型参数。这样,云平台可以周期性地基于每台边缘设备最新上传的图片分析模型的模型参数,更新每台边缘设备对应的图片分析模型的模型参数,然后向每台边缘设备反馈对应的更新后的图片分析模型的模型参数,从而可以保证每台边缘设备上的图片分析模型的模型参数的准确性。值得一提的是,如果边缘计算***中不同边缘设备用于负责不同类型的网站检测处理,则云平台在更新图片分析模型的模型参数时,可以按照负责的类型对同一类型下的图片分析模型进行统一更新,这样,使得图片分析模型可以更能针对性地准确检测对应类型下的网站页面。
可选的,如图3所示,边缘计算***中可以包括负载均衡设备和多个云平台,其中,负载均衡设备接收携带有目标URL的网站检测请求,根据多个云平台的运行状态,将网站检测请求转发至目标云平台。
在实施中,边缘计算***中可以设置有多个云平台,已经用于在多个云平台间进行负载均衡的负载均衡设备。负载均衡设备可以实时获取多个云平台的运行状态,然后可以根据该运行状态将接收到该网站检测请求在多个云平台间进行分发。以步骤201中携带有目标URL的网站检测请求为例,用户可以向边缘计算***发送该网站检测请求,该网站检测请求可以被引导至上述负载均衡设备。这样,负载均衡设备在接收到网站检测请求后,可以根据多个云平台的运行状态,将网站检测请求转发至目标云平台。此处选取目标云平台的处理可以是选择负载最低的云平台,或者选择性能最佳的云平台,或者按照其它选取原则,本实施例不进行限定。
本发明实施例中,云平台接收携带有目标URL的网站检测请求,将网站检测请求转发至目标URL对应的目标边缘设备;目标边缘设备获取目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析页面截图,生成分析结果;目标边缘设备向网站检测请求的发送端反馈分析结果。这样,当需要对网站进行检测时,可以由分布式部署的边缘设备基于机器算法来执行,相对于统一由人工检测的方式,可以有效降低检测成本、提高检测效率,并且减少中心负载和检测压力;同时由于边缘设备距离网站的源站较近,可以进一步的减少带宽流量的消耗,缩短检测延时。
基于相同的技术构思,本发明实施例还提供了一种网站检测的***,所述***包括云平台和分布式部署的多台边缘设备,其中:
所述云平台,用于接收携带有目标URL的网站检测请求,将所述网站检测请求转发至所述目标URL对应的目标边缘设备;
所述目标边缘设备,用于获取所述目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果;
所述目标边缘设备,用于向所述网站检测请求的发送端反馈所述分析结果。
可选的,所述目标边缘设备,具体用于:
基于OCR技术识别所述页面截图中的文字,并基于AC自动机算法将识别出的文字与违规文本库进行比对,生成文本分析结果;和/或,
基于图片分析模型检测所述页面截图中是否包含违规图片,生成图片分析结果。
可选的,所述目标边缘设备,还用于:
根据所述图片分析结果对所述图片分析模型进行训练,以更新所述图片分析模型的模型参数。
可选的,所述目标边缘设备,具体用于:
如果接收到所述发送端发送的结果确认消息,则根据所述图片分析结果对所述图片分析模型进行训练,否则丢弃所述图片分析结果。
可选的,所述目标边缘设备,还用于:
在根据所述图片分析结果对所述图片分析模型进行训练之前,基于预设的图片信息检测算法对所述图片分析结果进行检测,根据检测结果调整所述图片分析结果;或者,
在根据所述图片分析结果对所述图片分析模型进行训练之前,接收针对所述图片分析结果的人工调整指令,根据所述人工调整指令调整所述图片分析结果。
可选的,所述目标边缘设备,还用于周期性向所述云平台发送所述图片分析模型的模型参数;
所述云平台,还用于周期性基于每台边缘设备最新上传的图片分析模型的模型参数,更新每台边缘设备对应的图片分析模型的模型参数,向每台边缘设备反馈对应的更新后的图片分析模型的模型参数。
可选的,所述***包括负载均衡设备和多个云平台;
所述负载均衡设备,用于接收携带有目标URL的网站检测请求,根据多个所述云平台的运行状态,将所述网站检测请求转发至目标云平台。
本发明实施例中,云平台接收携带有目标URL的网站检测请求,将网站检测请求转发至目标URL对应的目标边缘设备;目标边缘设备获取目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析页面截图,生成分析结果;目标边缘设备向网站检测请求的发送端反馈分析结果。这样,当需要对网站进行检测时,可以由分布式部署的边缘设备基于机器算法来执行,相对于统一由人工检测的方式,可以有效降低检测成本、提高检测效率,并且减少中心负载和检测压力;同时由于边缘设备距离网站的源站较近,可以进一步的减少带宽流量的消耗,缩短检测延时。
图4是本发明实施例提供的网络设备的结构示意图。该网络设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器422 (例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序 442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430 的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对网络设备400中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在网络设备400上执行存储介质430中的一系列指令操作。
网络设备400还可以包括一个或一个以上电源429,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,一个或一个以上键盘456,和/或,一个或一个以上操作***441,例如Windows Server,Mac OS X,Unix, Linux,FreeBSD等等。
网络设备400可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行上述网站检测中边缘设备的指令。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种网站检测的方法,其特征在于,所述方法应用于边缘计算***,所述边缘计算***包括云平台和分布式部署的多台边缘设备,其中:
所述云平台接收携带有目标URL的网站检测请求,将所述网站检测请求转发至与所述目标URL的源站距离小于预设阈值且属于同一运营商的目标边缘设备;
所述目标边缘设备获取所述目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果,所述分析结果包括文本分析结果和图片分析结果;所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练,以更新所述图片分析模型的模型参数;
所述目标边缘设备向所述网站检测请求的发送端反馈所述分析结果;
所述方法还包括:
所述云平台选取多台目标边缘设备共同对所述目标URL进行检测;
所述目标边缘设备生成分析结果后,将所述分析结果反馈给所述云平台;
所述云平台对所有目标边缘设备反馈的分析结果进行汇总整理,向所述网站检测请求的发送端反馈汇总整理后的分析结果。
2.根据权利要求1所述的方法,其特征在于,所述基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果,包括:
所述目标边缘设备基于OCR技术识别所述页面截图中的文字,并基于AC自动机算法将识别出的文字与违规文本库进行比对,生成文本分析结果;和/或,
所述目标边缘设备基于图片分析模型检测所述页面截图中是否包含违规图片,生成图片分析结果。
3.根据权利要求2所述的方法,其特征在于,所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练,包括:
如果接收到所述发送端发送的结果确认消息,所述目标边缘设备则根据所述图片分析结果对所述图片分析模型进行训练,否则丢弃所述图片分析结果。
4.根据权利要求2所述的方法,其特征在于,所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练之前,还包括:
所述目标边缘设备基于预设的图片信息检测算法对所述图片分析结果进行检测,根据检测结果调整所述图片分析结果;或者,
所述目标边缘设备接收针对所述图片分析结果的人工调整指令,根据所述人工调整指令调整所述图片分析结果。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
所述目标边缘设备周期性向所述云平台发送所述图片分析模型的模型参数;
所述云平台周期性基于每台边缘设备最新上传的图片分析模型的模型参数,更新每台边缘设备对应的图片分析模型的模型参数;
所述云平台向每台边缘设备反馈对应的更新后的图片分析模型的模型参数。
6.根据权利要求1所述的方法,其特征在于,所述边缘计算***包括负载均衡设备和多个云平台;
所述云平台接收携带有目标URL的网站检测请求之前,还包括:
所述负载均衡设备接收携带有目标URL的网站检测请求,根据多个所述云平台的运行状态,将所述网站检测请求转发至目标云平台。
7.一种网站检测的***,其特征在于,所述***包括云平台和分布式部署的多台边缘设备,其中:
所述云平台,用于接收携带有目标URL的网站检测请求,将所述网站检测请求转发至与所述目标URL的源站距离小于预设阈值且属于同一运营商的目标边缘设备;
所述目标边缘设备,用于获取所述目标URL对应的页面截图,基于预设的文字识别算法和/或图片分析模型分析所述页面截图,生成分析结果,所述分析结果包括文本分析结果和图片分析结果;所述目标边缘设备根据所述图片分析结果对所述图片分析模型进行训练,以更新所述图片分析模型的模型参数;
所述目标边缘设备,用于向所述网站检测请求的发送端反馈所述分析结果;
所述云平台,还用于选取多台目标边缘设备共同对所述目标URL进行检测;
所述目标边缘设备,还用于生成分析结果后,将所述分析结果反馈给所述云平台;
所述云平台,还用于对所有目标边缘设备反馈的分析结果进行汇总整理,向所述网站检测请求的发送端反馈汇总整理后的分析结果。
8.根据权利要求7所述的***,其特征在于,所述目标边缘设备,具体用于:
基于OCR技术识别所述页面截图中的文字,并基于AC自动机算法将识别出的文字与违规文本库进行比对,生成文本分析结果;和/或,
基于图片分析模型检测所述页面截图中是否包含违规图片,生成图片分析结果。
9.根据权利要求8所述的***,其特征在于,所述目标边缘设备,具体用于:
如果接收到所述发送端发送的结果确认消息,则根据所述图片分析结果对所述图片分析模型进行训练,否则丢弃所述图片分析结果。
10.根据权利要求8所述的***,其特征在于,所述目标边缘设备,还用于:
在根据所述图片分析结果对所述图片分析模型进行训练之前,基于预设的图片信息检测算法对所述图片分析结果进行检测,根据检测结果调整所述图片分析结果;或者,
在根据所述图片分析结果对所述图片分析模型进行训练之前,接收针对所述图片分析结果的人工调整指令,根据所述人工调整指令调整所述图片分析结果。
11.根据权利要求8所述的***,其特征在于,所述目标边缘设备,还用于周期性向所述云平台发送所述图片分析模型的模型参数;
所述云平台,还用于周期性基于每台边缘设备最新上传的图片分析模型的模型参数,更新每台边缘设备对应的图片分析模型的模型参数,向每台边缘设备反馈对应的更新后的图片分析模型的模型参数。
12.根据权利要求7所述的***,其特征在于,所述***包括负载均衡设备和多个云平台;
所述负载均衡设备,用于接收携带有目标URL的网站检测请求,根据多个所述云平台的运行状态,将所述网站检测请求转发至目标云平台。
13.一种网络设备,其特征在于,所述网络设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的网站检测的方法中边缘设备的处理。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的网站检测的方法中边缘设备的处理。
CN201910457676.6A 2019-05-29 2019-05-29 一种网站检测的方法和*** Active CN110336790B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910457676.6A CN110336790B (zh) 2019-05-29 2019-05-29 一种网站检测的方法和***
PCT/CN2019/096173 WO2020237799A1 (zh) 2019-05-29 2019-07-16 一种网站探测的方法和***
EP19917522.5A EP3771171A4 (en) 2019-05-29 2019-07-16 WEBSITE DETECTION METHOD AND SYSTEM
US17/028,807 US20210004628A1 (en) 2019-05-29 2020-09-22 Method and system for website detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910457676.6A CN110336790B (zh) 2019-05-29 2019-05-29 一种网站检测的方法和***

Publications (2)

Publication Number Publication Date
CN110336790A CN110336790A (zh) 2019-10-15
CN110336790B true CN110336790B (zh) 2021-05-25

Family

ID=68140584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910457676.6A Active CN110336790B (zh) 2019-05-29 2019-05-29 一种网站检测的方法和***

Country Status (4)

Country Link
US (1) US20210004628A1 (zh)
EP (1) EP3771171A4 (zh)
CN (1) CN110336790B (zh)
WO (1) WO2020237799A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368529B (zh) * 2020-03-17 2022-07-01 重庆邮电大学 基于边缘计算的移动终端敏感词识别方法、装置及***
CN111783159A (zh) * 2020-07-07 2020-10-16 杭州安恒信息技术股份有限公司 网页篡改的验证方法、装置、计算机设备和存储介质
CN112565250B (zh) * 2020-12-04 2022-12-06 ***通信集团内蒙古有限公司 一种网站识别方法、装置、设备及存储介质
CN113688346A (zh) * 2021-08-16 2021-11-23 杭州安恒信息技术股份有限公司 一种违法网站识别方法、装置、设备及存储介质
CN114598623B (zh) * 2022-03-04 2024-04-05 北京沃东天骏信息技术有限公司 测试任务管理方法、装置、电子设备和存储介质
CN115277566B (zh) * 2022-05-20 2024-03-22 鸬鹚科技(深圳)有限公司 数据访问的负载均衡方法、装置、计算机设备及介质
CN115277694B (zh) * 2022-06-29 2023-12-08 北京奇艺世纪科技有限公司 一种数据获取方法、装置、***、电子设备及存储介质
US11790031B1 (en) * 2022-10-31 2023-10-17 Content Square SAS Website change detection
CN117541269B (zh) * 2023-12-08 2024-07-02 北京中数睿智科技有限公司 基于智能大模型的第三方模块数据实时监控方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938716A (zh) * 2012-12-06 2013-02-20 网宿科技股份有限公司 内容分发网络加速测试方法和装置
CN106888270A (zh) * 2017-03-30 2017-06-23 网宿科技股份有限公司 回源选路调度的方法和***
CN108574685A (zh) * 2017-03-14 2018-09-25 华为技术有限公司 一种流媒体推送方法、装置及***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2418568C (en) * 2003-02-10 2011-10-11 Watchfire Corporation Method and system for classifying content and prioritizing web site content issues
US20050097189A1 (en) * 2003-10-30 2005-05-05 Avaya Technology Corp. Automatic detection and dialing of phone numbers on web pages
EP2877956B1 (en) * 2012-07-24 2019-07-17 Webroot Inc. System and method to provide automatic classification of phishing sites
CN103902889A (zh) * 2012-12-26 2014-07-02 腾讯科技(深圳)有限公司 一种恶意消息云检测方法和服务器
CN103685575B (zh) * 2014-01-06 2018-09-07 洪高颖 一种基于云架构的网站安全监控方法
CN106657228A (zh) * 2016-09-27 2017-05-10 山东浪潮云服务信息科技有限公司 一种利用云端进行并发采集的爬虫实现方法
CN106874487B (zh) * 2017-02-21 2020-08-18 国信优易数据有限公司 一种分布式爬虫管理***及其方法
CN106951484B (zh) * 2017-03-10 2020-10-30 百度在线网络技术(北京)有限公司 图片检索方法及装置、计算机设备及计算机可读介质
US10601866B2 (en) * 2017-08-23 2020-03-24 International Business Machines Corporation Discovering website phishing attacks
CN107911360A (zh) * 2017-11-13 2018-04-13 哈尔滨工业大学(威海) 一种被黑网站检测方法及***
CN108197465B (zh) * 2017-11-28 2020-12-08 中国科学院声学研究所 一种网址检测方法及装置
CN108768982B (zh) * 2018-05-17 2021-04-27 江苏通付盾信息安全技术有限公司 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
CN108965245B (zh) * 2018-05-31 2021-04-13 国家计算机网络与信息安全管理中心 基于自适应异构多分类模型的钓鱼网站检测方法和***
CN109255356B (zh) * 2018-07-24 2022-02-01 创新先进技术有限公司 一种文字识别方法、装置及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102938716A (zh) * 2012-12-06 2013-02-20 网宿科技股份有限公司 内容分发网络加速测试方法和装置
CN108574685A (zh) * 2017-03-14 2018-09-25 华为技术有限公司 一种流媒体推送方法、装置及***
CN106888270A (zh) * 2017-03-30 2017-06-23 网宿科技股份有限公司 回源选路调度的方法和***

Also Published As

Publication number Publication date
WO2020237799A1 (zh) 2020-12-03
EP3771171A4 (en) 2021-06-02
US20210004628A1 (en) 2021-01-07
EP3771171A1 (en) 2021-01-27
CN110336790A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110336790B (zh) 一种网站检测的方法和***
WO2016173200A1 (zh) 用于检测恶意网址的方法和***
CN105553769A (zh) 一种数据采集分析***和方法
CN108667840B (zh) 注入漏洞检测方法及装置
CN109996201B (zh) 一种网络访问方法及网络设备
CN110768875A (zh) 一种基于dns学习的应用识别方法及***
CN111049786A (zh) 一种网络攻击的检测方法、装置、设备及存储介质
CN104023046B (zh) 移动终端识别方法和装置
CN106547683A (zh) 一种冗余代码检测方法及装置
CN113568626B (zh) 动态打包、应用程序包开启方法、装置和电子设备
Trivedi et al. A fully automated deep packet inspection verification system with machine learning
CN109450844B (zh) 触发漏洞检测的方法及装置
CN112232881A (zh) 一种数据检测方法、装置、电子设备及存储介质
CN107766224B (zh) 测试方法和测试装置
CN108804501B (zh) 一种检测有效信息的方法及装置
CN110826062B (zh) 恶意软件的检测方法及装置
CN112256557A (zh) 程序回归测试方法、装置、***、计算机设备及存储介质
CN116800518A (zh) 一种网络防护策略的调整方法及装置
CN116361584A (zh) 页面数据的处理方法、装置、计算机设备及存储介质
EP3552115B1 (en) Reducing redirects
CN114510717A (zh) 一种elf文件的检测方法、装置、存储介质
JP6219621B2 (ja) 通信照合装置
CN113055890A (zh) 一种面向移动恶意网页的多设备组合优化的实时检测***
CN114510409A (zh) 一种应用程序代码检测方法和计算机可读存储介质
CN111158654A (zh) 算法调用方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210805

Address after: 518000 b1-1302, building B, Kexing Science Park, No. 15, Keyuan Road, Science Park community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee after: Shenzhen aijieyun Technology Co.,Ltd.

Address before: 5 / F, building a, Guangqi Cultural Plaza, 2899 Xietu Road, Xuhui District, Shanghai 200030

Patentee before: WANGSU SCIENCE & TECHNOLOGY Co.,Ltd.