CN109992737A - 第三方网页内容审核方法、装置及电子设备 - Google Patents

第三方网页内容审核方法、装置及电子设备 Download PDF

Info

Publication number
CN109992737A
CN109992737A CN201910263886.1A CN201910263886A CN109992737A CN 109992737 A CN109992737 A CN 109992737A CN 201910263886 A CN201910263886 A CN 201910263886A CN 109992737 A CN109992737 A CN 109992737A
Authority
CN
China
Prior art keywords
party
resource
webpage
moment
legal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910263886.1A
Other languages
English (en)
Inventor
钱宝坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201910263886.1A priority Critical patent/CN109992737A/zh
Publication of CN109992737A publication Critical patent/CN109992737A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种第三方网页内容审核方法、装置及电子设备、装置及电子设备。其中的方法包括:在第一时刻,模仿用户访问行为,将第三方网页的链接所对应的内容,自动加载在第三方浏览器中;解析所述第三方浏览器的资源获取记录,获取所述第三方网页的资源路径列表并存储;依据所述资源路径列表,获取第一时刻所述第三方网页所对应的资源;所述资源被审核后,若非法,则所述第三方网页的链接被下架。本发明实施例能够对嵌入的第三方网页链接所对应的内容进行审核,确保第三方网页内容的健康与安全,为当前应用的运营商避免可能产生的不良影响甚至法律风险,保障顺利运营。

Description

第三方网页内容审核方法、装置及电子设备
技术领域
本发明涉及网络安全技术领域,尤其涉及一种第三方网页内容审核方法、装置及电子设备、装置及电子设备。
背景技术
在某一网页中,经常会嵌入第三方网页的链接,但是,这些链接对应的网页内容是当前网页运行商所不好控制的。若第三方网页的内容违背相关法律法规的要求,有可能会对该当前网页运营商造成不良影响,甚至带来一些法律风险。
故,如何高效的对嵌入的第三方网页内容进行审核,是本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本发明实施例提供了一种提升第三方网页打开速度的方法、装置及电子设备,至少部分的解决现有技术中存在的问题。
第一方面,本发明实施例提供了一种第三方网页内容审核方法,包括:
在第一时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容,自动加载在第三方浏览器中;
解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表;
基于所述资源路径列表,获取所述第一时刻所述第三方网页所对应的资源;
响应于所述资源被确定为非法,移除所述第三方网页的链接。
根据本发明实施例的一种具体实现方式,所述资源通过机器被确定是否合法。
根据本发明实施例的一种具体实现方式,响应于所述资源被确定为合法,还包括如下步骤:
在第二时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容再次自动加载在所述第三方浏览器中;
解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表;
基于所述资源路径列表,获取所述第二时刻所述第三方网页所对应的资源;
判断所述第二时刻所述第三方网页所对应的资源是否合法;
响应于所述第二时刻所述第三方网页所对应的资源非法,移除所述第三方网页的链接。
根据本发明实施例的一种具体实现方式,判断所述第二时刻所述第三方网页所对应的资源是否合法包括:确定所述第一时刻所述第三方网页所对应的资源的大小和所述第二时刻所述第三方网页所对应的资源的大小是否相同;
响应于所述第一时刻所述第三方网页所对应的资源与所述第二时刻所述第三方网页所对应的资源大小相同,确定所述第二时刻所述第三方网页所对应的资源合法。
根据本发明实施例的一种具体实现方式,响应于所述第一时刻所述第三方网页所对应的资源与所述第二时刻所述第三方网页所对应的资源大小不同,通过机器审核的方式,判断所述第二时刻所述第三方网页所对应的资源是否合法。
根据本发明实施例的一种具体实现方式,判断所述第二时刻所述第三方网页所对应的资源是否合法包括:
采用机器学习方式判断所述第二时刻所述第三方网页所对应的资源是否合法。
根据本发明实施例的一种具体实现方式,所述第一时刻和所述第二时刻之间的时间间隔预先指定。
根据本发明实施例的一种具体实现方式,所述第三方网页的资源路径列表包括以下至少一项:Javascript的URL、样式文件的URL、图片的URL以及外部资源的URL,所述外部资源包括字体文件、音频、视频和页内文档中的至少一个。
根据本发明实施例的一种具体实现方式,所述机器通过以下方式确定所述资源是否合法:
从所述资源中进行基于预置关键字的搜索;以及
基于搜索结果确定所述资源是否合法。
第二方面,本发明实施例还提供了一种第三方网页内容审核装置,包括:
第一加载模块,用于在第一时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容,自动加载在第三方浏览器中;
第一解析模块,用于解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表;
第一资源获取模块,用于基于所述资源路径列表,获取所述第一时刻所述第三方网页所对应的资源;
第一移除模块,用于响应于所述资源被确定为非法,移除所述第三方网页的链接。
根据本发明实施例的一种具体实现方式,所述资源通过机器被确定是否合法。
根据本发明实施例的一种具体实现方式,所述装置还包括:
第二加载模块,用于响应于所述资源被确定为合法,在第二时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容再次自动加载在所述第三方浏览器中;
第二解析模块,用于解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表;
第二资源获取模块,用于基于所述资源路径列表,获取所述第二时刻所述第三方网页所对应的资源;
第二移除模块,用于判断所述第二时刻所述第三方网页所对应的资源是否合法;并响应于所述第二时刻所述第三方网页所对应的资源非法,移除所述第三方网页的链接。
根据本发明实施例的一种具体实现方式,所述第二移除模块中还包括:
比较单元,用于确定所述第一时刻所述第三方网页所对应的资源的大小和所述第二时刻所述第三方网页所对应的资源的大小是否相同;
第一响应单元,用于响应于所述第一时刻所述第三方网页所对应的资源与所述第二时刻所述第三方网页所对应的资源大小相同,确定所述第二时刻所述第三方网页所对应的资源合法。
根据本发明实施例的一种具体实现方式,第二移除模块还包括:
第二响应单元,用于响应于所述第一时刻所述第三方网页所对应的资源与所述第二时刻所述第三方网页所对应的资源大小不同,通过机器审核的方式,判断所述第二时刻所述第三方网页所对应的资源是否合法。
根据本发明实施例的一种具体实现方式,第二移除模块中,判断所述第二时刻所述第三方网页所对应的资源是否合法包括:采用机器学习方式判断所述第二时刻所述第三方网页所对应的资源是否合法。
根据本发明实施例的一种具体实现方式,所述第一时刻和所述第二时刻之间的时间间隔预先指定。
根据本发明实施例的一种具体实现方式,所述第三方网页的资源路径列表包括以下至少一项:Javascript的URL、样式文件的URL、图片的URL以及外部资源的URL,所述外部资源包括字体文件、音频、视频和页内文档中的至少一个。
根据本发明实施例的一种具体实现方式,所述机器通过以下方式确定所述资源是否合法:从所述资源中提取关键字;以及,基于所述关键字来确定所述资源是否合法。第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述任第一方面或第一方面的任一实现方式中的第三方网页内容审核方法。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的第三方网页内容审核方法。
第五方面,本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的第三方网页内容审核方法。
本发明实施例提供的第三方网页内容审核方法、装置及电子设备、非暂态计算机可读存储介质及计算机程序中:
第三方网页以某一形式的链接嵌入当前网页时,可以通过第三方浏览器(也可以成为自定义浏览器)模仿用户点击行为,将第三方网页的内容,自动加载在该浏览器中。第三方网页的内容包括,html(网页的主体)、javascript的文件(决定网页的行为,例如各种事件响应,比如click)、样式文件(决定元素的属性,例如,外观、大小),以及,图片、frame、iframe等。在第三方网页内加载的行为完成后,自动分析第三方网页的请求资源路径列表,形成对应该嵌入链接所对应的资源列表,并对该资源列表进行存储。接下来,根据资源列表,获取该列表所对应的内容。最后,对所述内容,进行审核。若审核结果非法,比如,违规或违法或违背公序良俗,则下架该链接。
在一个优选的实施例中,因为资源列表对应的内容具有时效性,也就是说,第三方网页的开发方其可以实时或定期更新,因此,为了保持审核的持续有效,则需要定期对嵌入的第三方网页的内容进行检查,定期检查的方式如下:优先比较两个时刻的文件大小,若文件大小一致,一般可认为list所对应的内容没有变化,则无需考虑是否下架;若文件大小不一致,则要获取该list对应的具体内容,再重新审核后,考虑是否下架。
在一个优选的实施例中,若嵌入的第三方网页(可以理解为“二跳”)也嵌入了另一方的网页(可以理解为三跳),甚至还有“四跳”,也可以采用这个原理进行内容的审核。
显然,本发明实施例能够对嵌入的第三方网页链接所对应的内容进行审核,确保第三方网页内容的健康与安全,为当前应用的运营商避免可能产生的不良影响甚至法律风险,保障顺利运营。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种第三方网页内容审核方法的步骤流程图;
图2为本发明另一实施例提供的一种第三方网页内容审核方法的步骤流程图;
图3为本发明另一实施例提供的一种第三方网页内容审核方法中,第二时刻第三方网页内容是否合法的判断的步骤流程图;
图4为本发明实施例提供的第三方网页内容审核装置的结构框图;
图5为本发明另一实施例提供的第三方网页内容审核装置的结构框图;
图6为本发明另一实施例提供的第三方网页内容审核装置中,实现第二时刻第三方网页内容是否合法的结构的框图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一个或多个之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本公开实施例提供一种网页关联视频的生成方法。本实施例提供的网页关联视频的生成方法可以由一计算装置来执行,该计算装置可以实现为软件,或者实现为软件和硬件的组合,该计算装置可以集成设置在服务器、终端设备等中。
图1为本发明实施例提供的一种第三方网页内容审核方法的步骤流程图。
本实施例的应用场景为:在当前网页中,嵌入了第三方网页链接。例如,在“内容平台”中,嵌入了一个“让分享知识成为***台上需要显示的链接的形式交付给内容平台的开发人员,希望通过将其网页链接放置在流量较大的内容平台上扩大平台的知名度,以及用户浏览量。
对于内容平台的运营商来说,嵌入其平台的第三方网页的内容若非法,可能会给其的平台带来不良的影响,甚至也可能产生法律风险,导致运营的不顺利。这里的非法包括第三方网页传播道德上违背公序良俗的内容,或者,第三方网页的内容存在著作权上的风险等法律问题,虽然避风港原则给出了一定的豁免,但是,提前能获知,早发现,早处理显然更好。
为了避免上述缺陷,本发明实施例意欲采用第三方浏览器,预先对链接中第三方网页的内容进行预先加载,然后分析第三方浏览器的资源请求列表,然后通过这些列表,获得对应的资源,进而,通过人工或机器对上述获得资源进行审核。
首先说明作为第三方网页的网页资源如何获得,参照图1中的S101、S102和S103。
S101,在第一时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容,自动加载在第三方浏览器中。
因为第三方很可能只是将其网址以及网页链接交付给该内容平台,对于其网页中涉及的资源,并没有交付。比如,网页中涉及的资源包括:
1)html语言文件,其为网页的主体;
2)javascript的文件,其决定网页的行为,例如各种事件响应,比如click;、
3)样式文件,其决定元素的属性,例如,外观、大小。样式文件一般用于网页,一般都是CSS的,文件以.css为后缀。样式表是关于文件如下元素的定义:
a、标题和正文的默认字体、大小和颜色;
b、前页外观;
c、单个部分的排列间隔;
d、行间距、四周页边距、标题间距离等;
e、任何自动生成的内容表该包含多少级标题;
f、相应页中包含的任何样板文件内容等。
4)图片、frame、iframe等。
这些资源,需要通过本实施例中创建的第三方义浏览器来获取。
本实施例中的第三方浏览器,是基于现有的浏览器的内核,进行功能的修改、调整和扩展后得到的。对于本领域的技术人员来说,基于现有的浏览器,根据本实施例中自定义浏览器需要完成的功能进行修改、调整或者是功能的扩展,是习知的,本发明在此不再赘述。
当第三方浏览器构建完成后,通过模仿用户的触发第三方网站链接行为的方式,比如点击网页链接(但本发明不限于此,点击仅仅是本实施例的一种实现形式),将第三方网页的资源,加载在第三方浏览器中,如前所述,这里的资源包括html语言文件、javascript的文件、样式文件,以及,图片、frame、iframe等等。
S102,解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表。
在该步骤中,在第三方浏览器中将第三方网页加载的完成后,自动分析第三方网页的资源路径列表,该第三方网页的资源路径列表包括以下至少一项:Javascript的URL、样式文件的URL、图片的URL以及外部资源的URL,所述外部资源包括字体文件、音频、视频和页内文档中的至少一个。
S103,基于所述资源路径列表,获取所述第一时刻所述第三方网页所对应的资源。
依据第三方网页的资源路径列表中的Javascript的URL、样式文件的URL、图片的URL,以及,字体文件、音视频、页内文档的外部资源的URL等信息,获取第三方网页所对应的资源,然后将这些资源存储于当前应用本地的缓存中,用于后续审核。
S104,响应于所述资源被确定为非法,移除所述第三方网页的链接。
首先说明审核的主体。
在一个实施例中,审核资源可以基于程序,由机器自动审核。例如,预先设置某些关键字作为机器搜索目标,然后,基于搜索结果,确定上述资源是否合法。具体来说,就是在资源中搜索是否存在作为搜索目标的关键字,若出现,则非法,若没有出现,则可认定为合法。当然,也可以是人工审核,但这个效率就非常低了。假设某个内容平台上有很多第三方链接,那么,人工审核也将形成沉重的工作负担。在另外一些情况下,也可以由机器审核做初检,对筛出来的网页内容,由人工进行复检,以避免误判,兼顾了效率和准确。
显然,本实施例能够对嵌入的第三方网页链接所对应的内容进行审核,确保第三方网页内容的健康与安全,为当前应用的运营商避免可能产生的不良影响甚至法律风险,保障顺利运营。
下面结合图2对本发明另一实施例做进一步地说明。
资源列表对应的内容具有时效性,这是因为,第三方网页可以定期更新,因此,为了审核更加有效,则需要定期检查,
参照图2,图2为本发明实施例提供的第三方网页内容审核方法的步骤流程图,包括如下步骤:
S201,在第一时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容,自动加载在第三方浏览器中。
S202,解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表。
在该步骤中,在第三方浏览器中将第三方网页加载的完成后,自动分析第三方网页的资源路径列表,该第三方网页的资源路径列表包括Javascript的URL、样式文件的URL、图片的URL,以及,字体文件、音视频、页内文档的外部资源的URL。
S203,基于所述资源路径列表,获取所述第一时刻所述第三方网页所对应的资源。
依据作为第三方网页的“得到”网页中的资源路径列表中的Javascript的URL、样式文件的URL、图片的URL,以及,字体文件、音视频、页内文档的外部资源的URL等信息,获取第三方网页所对应的资源,然后将这些资源存储于当前应用本地的缓存中,用于后续审核。
响应于所述资源被确定为合法,还包括如下操作。
S204,对所述资源进行审核:
若非法,则执行:
S205,移除第三方网页的链接;
若合法,执行S206~S210
S206,经指定时间间隔后,在第二时刻,模仿用户访问行为,将第三方网页的链接所对应的内容,再次自动加载在第三方浏览器中;
与上述步骤S201类似,再次进行第三方网页的内容加载。
需要说明的是,也可以不指定的时间间隔,也可以根据实际情况进行核查。本发明对此不做限定。
S207,解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表。
与上述实施例中的S202类似。
S208,依据所述资源路径列表,获取第二时刻所述第三方网页所对应的资源。
与上述实施例中的S203类似。
S209,判断所述第二时刻所述第三方网页所对应的资源是否合法,
这里的合法,是看第三方网页的内容是否明显违背公序良俗或者法律规定。在一个实施例中,审核资源可以基于程序,由机器自动审核。该审核可以是基于某些关键字的搜索。当然,也可以是人工审核,但这个效率就非常低了。假设某些内容平台上有很多第三方链接,那么,人工的审核也是工作负担。在另外一些情况下,也可以由机器审核做初检,对筛出来的网页内容,由人工进行复检,以避免误判,兼顾了效率和准备。
若不合法,则执行S210,则响应于所述第二时刻所述第三方网页所对应的资源非法,移除所述第三方网页的链接。
若合法:则等待以一个指定时间间隔后,继续获取第三发网页内容进行审核。
这里需要对第一时刻和第二时刻做出进一步的说明。
第一,并非是只在两个时刻进行第三方网页内容的审核;
第二、第二时刻只是用来区别第一时刻的一个时刻,表明的是,在一个时刻之后的,经过预定的时间间隔的另外一个时刻;
第三、从第二点的解释可以看出,第二时刻也可以看做下一个时间间隔的“第一时刻”,在第二时刻后,还可以有第三时刻的审核。
第四、第一时刻和第二时刻的时间间隔预先通过经验指定。
本实施例能够对第三方网页的内容进行持续动态审核,动态保证第三方网页内容的健康合法。
下面结合图3对本发明另一实施例做进一步地说明。
参照图3,给出了本发明第三方网页内容审核方法一个实施例中,在第三方网页的内容进行了一次审核后,若其审核结果为合法,那么在判断第二时刻获得的网页内容是否合法时,可以包括如下步骤:
S301,确定所述第一时刻第三方网页所对应的资源的大小;
S302,确定所述第二时刻第三方网页所对应的资源的大小;
S303,将两个时刻第三方网页资源大小进行比较,判断:
S304,若第一时刻的第三方网页所对应的资源与第二时刻的第三方网页所对应的资源大小相同,则第二时刻第三方网页所对应的资源合法。
S305若第一时刻的第三方网页所对应的资源与第二时刻的第三方网页所对应的资源大小不同,则
S306,通过机器审核的方式,判断所述第二时刻所述第三方网页所对应的资源是否合法。
通过该实施例,在不进行实质内容的分析的情况下,能够以较高的效率完成网页内容的判断。
第二方面,本发明实施例还提供了一种第三方网页内容审核装置。
本实施例的应用场景为:在当前网页中,嵌入了第三方网页链接。例如,在某个内容平台中,嵌入了一个“让分享知识成为***台上需要显示的链接的形式交付给这个内容平台的开发人员,希望通过将其网页链接放置在流量较大的内容平台上扩大平台的知名度,以及平台网页的用户浏览量。
对于内容平台的运营商说,嵌入其平台的第三方网页的内容若非法,可能会给其带来不良的影响,甚至也可能产生法律风险,导致运营的不顺利。这里的非法包括第三方网页传播道德上违背公序良俗的内容,或者,第三方网页的内容存在著作权上的风险等法律问题,虽然避风港原则给出了一定的豁免,但是,提前能获知,早发现,早处理显然更好。
为了避免上述缺陷,本发明实施例意欲采用第三方浏览器,预先对链接中第三方网页的内容进行预先加载,然后分析第三方浏览器的资源请求列表,然后通过这些列表,获得对应的资源,进而,通过人工或机器对上述获得资源进行审核。
首先说明第三方网页网页资源如何获得,参照图4,图4示出了本发明实施例第三方网页内容审核装置的结构框图。下面对其中的第一加载模41、第一解析模块42和第一资源获取模块43。
第一加载模41,用于在第一时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容,自动加载在第三方浏览器中。
因为第三方很可能只是将其网址以及网页链接交付给这个内容平台,对于其网页中涉及的资源,并没有交付。比如,网页中涉及的资源包括:
1)html语言文件,其为网页的主体;
2)javascript的文件,其决定网页的行为,例如各种事件响应,比如click;、
3)样式文件,其决定元素的属性,例如,外观、大小。样式文件一般用于网页,一般都是CSS的,文件以.css为后缀。样式表是关于文件如下元素的定义:
a、标题和正文的默认字体、大小和颜色;
b、前页外观;
c、单个部分的排列间隔;
d、行间距、四周页边距、标题间距离等;
e、任何自动生成的内容表该包含多少级标题;
f、相应页中包含的任何样板文件内容等。
4)图片、frame、iframe等。
这些资源,需要通过本实施例中创建的第三方义浏览器来获取。
本实施例中的第三方浏览器,是基于现有的浏览器的内核,进行功能的修改、调整和扩展后得到的。对于本领域的技术人员来说,基于现有的浏览器,根据本实施例中自定义浏览器需要完成的功能进行修改、调整或者是功能的扩展,是习知的,本发明在此不再赘述。
当第三方浏览器构建完成后,通过模仿用户的触发第三方网站链接行为的方式,比如点击网页链接(但本发明不限于此,点击仅仅是本实施例的一种实现形式),将第三方网页的资源,加载在第三方浏览器中,如前所述,这里的资源包括html语言文件、javascript的文件、样式文件,以及,图片、frame、iframe等等。
第一解析模块42,用于解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表。
在该步骤中,在第三方浏览器中将第三方网页加载的完成后,自动分析第三方网页的资源路径列表,该第三方网页的资源路径列表包括Javascript的URL、样式文件的URL、图片的URL,以及,字体文件、音视频、页内文档的外部资源的URL。
第一资源获取模块43,用于基于所述资源路径列表,获取所述第一时刻所述第三方网页所对应的资源。
依据第三方网页的资源路径列表中的Javascript的URL、样式文件的URL、图片的URL,以及,字体文件、音视频、页内文档的外部资源的URL等信息,获取第三方网页所对应的资源,然后将这些资源存储于当前应用本地的缓存中,用于后续审核。
第一移除模块44,用于响应于所述资源被确定为非法,移除所述第三方网页的链接。
在一个实施例中,审核资源可以基于程序,由机器自动审核。例如,预先设置某些关键字作为机器搜索目标,然后,基于搜索结果,确定上述资源是否合法。具体来说,就是在资源中搜索是否存在作为搜索目标的关键字,若出现,则非法,若没有出现,则可认定为合法。当然,也可以是人工审核,但这个效率就非常低了。假设某个内容平台上有很多第三方链接,那么,人工审核也将形成沉重的工作负担。在另外一些情况下,也可以由机器审核做初检,对筛出来的网页内容,由人工进行复检,以避免误判,兼顾了效率和准确。
显然,本实施例能够对嵌入的第三方网页链接所对应的内容进行审核,确保第三方网页内容的健康与安全,为当前应用的运营商避免可能产生的不良影响甚至法律风险,保障顺利运营。
参照图5,图5为本发明另一实施例提供的第三方网页内容审核装置的结构框图。包括:
第一加载模51,用于在第一时刻,模仿用户访问行为,将第三方网页的链接所对应的内容,自动加载在第三方浏览器中。
第一解析模块52,用于解析所述第三方浏览器的资源获取记录,获取所述第三方网页的资源路径列表。
第一资源获取模块53,用于依据所述资源路径列表,获取第一时刻所述第三方网页所对应的资源。
第一移除模块54,用于对所述资源进行审核,若非法,则移除所述第三方网页的链接。
第二加载模块55,用于经指定时间间隔后,在第二时刻,模仿用户访问行为,将第三方网页的链接所对应的内容,再次自动加载在第三方浏览器中;
第二解析模块56,用于解析所述第三方浏览器的资源获取记录,获取所述第三方网页的资源路径列表;
第二资源获取模块57,用于依据所述资源路径列表,获取第二时刻所述第三方网页所对应的资源;
第二移除模块58,用于判断所述第二时刻所述第三方网页所对应的资源是否合法,若否,则删除所述第三方网页的链接。
这里需要对第一时刻和第二时刻做出进一步的说明。
第一,并非是只在两个时刻进行第三方网页内容的审核;
第二、第二时刻只是用来区别第一时刻的一个时刻,表明的是,在一个时刻之后的,经过预定的时间间隔的另外一个时刻;
第三、从第二点的解释可以看出,第二时刻也可以看做下一个时间间隔的“第一时刻”,在第二时刻后,还可以有第三时刻的审核。
第四、第一时刻和第二时刻的时间间隔预先通过经验指定。
本实施例能够对第三方网页的内容进行持续动态审核,动态保证第三方网页内容的健康合法。
参照图6,图6为本发明另一实施例提供的第三方网页内容审核装置中,第二移除模块的结构框图。包括:比较单元60,用于确定所述第一时刻所述第三方网页所对应的资源的大小和所述第二时刻所述第三方网页所对应的资源的大小是否相同;
第一响应单元61,用于响应于所述第一时刻所述第三方网页所对应的资源与所述第二时刻所述第三方网页所对应的资源大小相同,确定所述第二时刻所述第三方网页所对应的资源合法。
第二响应单元62,用于响应于所述第一时刻所述第三方网页所对应的资源与所述第二时刻所述第三方网页所对应的资源大小不同,通过机器审核的方式,判断所述第二时刻所述第三方网页所对应的资源是否合法。
优选地,判断所述第二时刻所述第三方网页所对应的资源是否合法时具体采用:采用机器学习方式判断所述第二时刻所述第三方网页所对应的资源是否合法。此外,在一个实施例中,第一时刻和所述第二时刻之间的时间间隔可以预先指定。
通过该实施例,在不进行实质内容的分析的情况下,能够以较高的效率完成网页内容的判断。
根据本发明实施例的一种具体实现方式,所述第一时刻和所述第二时刻的时间间隔预先指定,以对所述第三方网页的内容定期审核。
图7示出了本发明实施例提供的电子设备70的结构示意图,电子设备70包括至少一个处理器701(例如CPU),至少一个输入输出接口704,存储器702,和至少一个通信总线703,用于实现这些部件之间的连接通信。至少一个处理器701用于执行存储器702中存储的计算机指令,以使所述至少一个处理器701能够执行前述任一第三方网页内容审核方法方法的实施例。存储器702为非暂态存储器(non-transitory memory),其可以包含易失性存储器,例如高速随机存取存储器(RAM:Random Access Memory),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个输入输出接口704(可以是有线或者无线通信接口)实现与至少一个其他设备或单元之间的通信连接。
在一些实施方式中,存储器702存储了程序7021,处理器701执行程序7021,用于执行前述任一提升第三方网页打开速度的方法实施例中的内容。
该电子设备可以以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)特定服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种第三方网页内容审核方法,其特征在于,包括:
在第一时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容,自动加载在第三方浏览器中;
解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表;
基于所述资源路径列表,获取所述第一时刻所述第三方网页所对应的资源;
响应于所述资源被确定为非法,移除所述第三方网页的链接。
2.根据权利要求1所述的方法,其特征在于,
所述资源通过机器被确定是否合法。
3.根据权利要求1所述的方法,其特征在于,响应于所述资源被确定为合法,还包括如下步骤:
在第二时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容再次自动加载在所述第三方浏览器中;
解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表;
基于所述资源路径列表,获取所述第二时刻所述第三方网页所对应的资源;
判断所述第二时刻所述第三方网页所对应的资源是否合法;
响应于所述第二时刻所述第三方网页所对应的资源非法,移除所述第三方网页的链接。
4.根据权利要求3所述的方法,其特征在于,判断所述第二时刻所述第三方网页所对应的资源是否合法包括:确定所述第一时刻所述第三方网页所对应的资源的大小和所述第二时刻所述第三方网页所对应的资源的大小是否相同;
响应于所述第一时刻所述第三方网页所对应的资源与所述第二时刻所述第三方网页所对应的资源大小相同,确定所述第二时刻所述第三方网页所对应的资源合法。
5.根据权利要求4所述的方法,其特征在于,
响应于所述第一时刻所述第三方网页所对应的资源与所述第二时刻所述第三方网页所对应的资源大小不同,通过机器审核的方式,判断所述第二时刻所述第三方网页所对应的资源是否合法。
6.根据权利要求3所述的方法,其特征在于,判断所述第二时刻所述第三方网页所对应的资源是否合法包括:
采用机器学习方式判断所述第二时刻所述第三方网页所对应的资源是否合法。
7.根据权利要求3至6中任一项所述的方法,其特征在于,
所述第一时刻和所述第二时刻之间的时间间隔预先指定。
8.根据权利要求1所述的方法,其特征在于,
所述第三方网页的资源路径列表包括以下至少一项:Javascript的URL、样式文件的URL、图片的URL以及外部资源的URL,所述外部资源包括字体文件、音频、视频和页内文档中的至少一个。
9.根据权利要求2所述的方法,其特征在于,所述机器通过以下方式确定所述资源是否合法:
从所述资源中进行基于预置关键字的搜索;以及
基于搜索结果确定所述资源是否合法。
10.一种第三方网页内容审核装置,其特征在于,包括:
第一加载模块,用于在第一时刻,通过模仿用户访问行为,将第三方网页的链接所对应的内容,自动加载在第三方浏览器中;
第一解析模块,用于解析所述第三方浏览器的资源获取记录,以获取所述第三方网页的资源路径列表;
第一资源获取模块,用于基于所述资源路径列表,获取所述第一时刻所述第三方网页所对应的资源;
第一移除模块,用于响应于所述资源被确定为非法,移除所述第三方网页的链接。
11.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一权利要求1-9所述的第三方网页内容审核方法。
12.一种机器可读介质,其上存储有计算机可执行指令,所述计算机可执行指令在被机器执行时使得所述机器执行根据权利要求1-9中任一项所述的第三方网页内容审核方法。
CN201910263886.1A 2019-04-03 2019-04-03 第三方网页内容审核方法、装置及电子设备 Pending CN109992737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910263886.1A CN109992737A (zh) 2019-04-03 2019-04-03 第三方网页内容审核方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910263886.1A CN109992737A (zh) 2019-04-03 2019-04-03 第三方网页内容审核方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN109992737A true CN109992737A (zh) 2019-07-09

Family

ID=67132097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910263886.1A Pending CN109992737A (zh) 2019-04-03 2019-04-03 第三方网页内容审核方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109992737A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110740126A (zh) * 2019-09-23 2020-01-31 紫光云(南京)数字技术有限公司 接入智慧城市应用程序的方法、装置及***、计算机存储介质
CN111327609A (zh) * 2020-02-14 2020-06-23 北京奇艺世纪科技有限公司 数据审核方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571783A (zh) * 2011-12-29 2012-07-11 北京神州绿盟信息安全科技股份有限公司 钓鱼网站检测方法、装置及***、网络站点
CN103428183A (zh) * 2012-05-23 2013-12-04 北京新媒传信科技有限公司 恶意网址的识别方法和装置
US20140283038A1 (en) * 2013-03-15 2014-09-18 Shape Security Inc. Safe Intelligent Content Modification
CN106209579A (zh) * 2016-06-28 2016-12-07 武汉斗鱼网络科技有限公司 弹幕网站聊天过程中快速生成超链接的***及方法
CN107294918A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种钓鱼网页检测方法及装置
CN108228818A (zh) * 2017-12-29 2018-06-29 网易(杭州)网络有限公司 网页资源加载方法及装置、电子设备、以及存储介质
CN108304584A (zh) * 2018-03-06 2018-07-20 百度在线网络技术(北京)有限公司 非法页面检测方法、装置、入侵检测***及存储介质
CN109246139A (zh) * 2018-10-25 2019-01-18 北京城市网邻信息技术有限公司 一种网站劫持的监控方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571783A (zh) * 2011-12-29 2012-07-11 北京神州绿盟信息安全科技股份有限公司 钓鱼网站检测方法、装置及***、网络站点
CN103428183A (zh) * 2012-05-23 2013-12-04 北京新媒传信科技有限公司 恶意网址的识别方法和装置
US20140283038A1 (en) * 2013-03-15 2014-09-18 Shape Security Inc. Safe Intelligent Content Modification
CN107294918A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种钓鱼网页检测方法及装置
CN106209579A (zh) * 2016-06-28 2016-12-07 武汉斗鱼网络科技有限公司 弹幕网站聊天过程中快速生成超链接的***及方法
CN108228818A (zh) * 2017-12-29 2018-06-29 网易(杭州)网络有限公司 网页资源加载方法及装置、电子设备、以及存储介质
CN108304584A (zh) * 2018-03-06 2018-07-20 百度在线网络技术(北京)有限公司 非法页面检测方法、装置、入侵检测***及存储介质
CN109246139A (zh) * 2018-10-25 2019-01-18 北京城市网邻信息技术有限公司 一种网站劫持的监控方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110740126A (zh) * 2019-09-23 2020-01-31 紫光云(南京)数字技术有限公司 接入智慧城市应用程序的方法、装置及***、计算机存储介质
CN111327609A (zh) * 2020-02-14 2020-06-23 北京奇艺世纪科技有限公司 数据审核方法及装置
CN111327609B (zh) * 2020-02-14 2022-09-30 北京奇艺世纪科技有限公司 数据审核方法及装置

Similar Documents

Publication Publication Date Title
Iqbal et al. Adgraph: A graph-based approach to ad and tracker blocking
CN102483698B (zh) 动态web应用的客户端层验证
Courtois et al. Challenging Google Search filter bubbles in social and political information: Disconforming evidence from a digital methods case study
CN104766014A (zh) 用于检测恶意网址的方法和***
US20130132851A1 (en) Sentiment estimation of web browsing user
WO2012030730A2 (en) Systems and methods for ruled based inclusion of pixel retargeting in campaign management
CN105677654B (zh) 广告过滤方法及装置
CN106126747A (zh) 基于爬虫的数据获取方法及装置
CN103279516B (zh) 网络爬虫识别方法
CN107807937B (zh) 一种网站seo处理方法、装置及***
US20140164296A1 (en) Chatbot system and method with entity-relevant content from entity
CN105027123B (zh) 以基于代理的偏好指示为基础来推荐内容
CN106503907B (zh) 一种业务评估信息确定方法以及服务器
CN110909229A (zh) 一种基于模拟浏览器访问的网页数据获取和存储的***
US20180176117A1 (en) Method and program product for a private performance network with geographical load simulation
Wohlgenannt et al. Crowd-based ontology engineering with the uComp Protégé plugin
CN108846286A (zh) 跨站脚本漏洞检测方法及装置
CN109992737A (zh) 第三方网页内容审核方法、装置及电子设备
CN108898009A (zh) 一种反爬虫方法、终端及计算机可读介质
CN109814868A (zh) 网络传输模拟方法、装置、计算机设备及存储介质
CN114553555B (zh) 恶意网址识别方法、装置、存储介质及电子设备
CN103336693B (zh) refer链的创建方法、装置及安全检测设备
CN106233284A (zh) 针对信息资源内可能包括主要内容的节点生成稳定标识符的方法和***
CN109857959A (zh) 第三方网页可访问性优劣评价方法、装置及电子设备
Bonavero et al. Reconciling user and designer preferences in adapting web pages for people with low vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination