CN109784038A - 黑链检测方法、装置、***和计算机可读存储介质 - Google Patents

黑链检测方法、装置、***和计算机可读存储介质 Download PDF

Info

Publication number
CN109784038A
CN109784038A CN201811653703.9A CN201811653703A CN109784038A CN 109784038 A CN109784038 A CN 109784038A CN 201811653703 A CN201811653703 A CN 201811653703A CN 109784038 A CN109784038 A CN 109784038A
Authority
CN
China
Prior art keywords
chain
exterior chain
exterior
black
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811653703.9A
Other languages
English (en)
Inventor
顾鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qianxin Technology Co Ltd
Original Assignee
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qianxin Technology Co Ltd filed Critical Beijing Qianxin Technology Co Ltd
Priority to CN201811653703.9A priority Critical patent/CN109784038A/zh
Publication of CN109784038A publication Critical patent/CN109784038A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种黑链检测方法,包括获得待检测的外链,基于所述外链,确定与外链相关联的内容信息,以及在内容信息满足预设条件的情况下,确定外链为黑链。本公开还提供了一种黑链检测装置、一种黑链检测***以及一种计算机可读存储介质。

Description

黑链检测方法、装置、***和计算机可读存储介质
技术领域
本公开涉及一种黑链检测方法、装置、***和计算机可读存储介质。
背景技术
黑链是指一些人为用非正常手段获取的其他网站的反向链接,从而提高黑链对应的网站在搜索引擎中的排名。在第一网站上导入第二网站的链接,该链接称为第一网站上的外链。
目前,检测网页中的外链是否为黑链主要是根据网页中外接的视觉属性,如隐藏、位置偏移等。但是这种黑链检测方法会存在很多误报和漏报,检测结果不准确。
发明内容
本公开的一个方面提供了一种黑链检测方法,包括获得待检测的外链,基于所述外链,确定与所述外链相关联的内容信息,以及在所述内容信息满足预设条件的情况下,确定所述外链为黑链。
可选地,基于所述外链确定与所述外链相关联的内容信息包括,基于所述外链,确定所述外链所对应的网页中的内容或者所述外链的标签是否包括黑词,其中,所述黑词为在黑链中出现频率大于第一阈值的词。
可选地,基于所述外链确定与所述外链相关联的内容信息包括,基于所述外链,确定所述外链的互联网协议地址是否被标记为黑站,或者所述外链的互联网协议地址是否在预设地址范围内,其中,所述黑站为对网页植入过黑链的服务器,所述预设地址范围为与所述黑站对应的互联网协议地址范围。
可选地,基于所述外链确定与所述外链相关联的内容信息包括,基于所述外链,确定所述外链所在的网站被植入黑链的历史数据,和/或基于所述外链,确定所述外链所对应的网页中的内容与所述外链所在的网页中的内容的相关性。
可选地,获得待检测的外链包括,获得多个网页的内容的变化信息,在所述变化信息表明所述多个网页中出现至少一个外链的情况下,判断是否存在未被检测过的外链,在存在未被检测过的外链的情况下,将所述未被检测过的外链作为待检测的外链。
可选地,未被检测过的外链包括多个,在存在未被检测过的外链的情况下,将所述未被检测过的外链作为待检测的外链包括,确定多个所述未被检测过的外链的相似度,将相似度大于第二阈值的多个所述未被检测过的外链作为待检测的外链。
可选地,在所述内容信息满足预设条件的情况下,确定所述外链为黑链包括,获得机器学习模型,将所述内容信息输入到所述机器学习模型中,获得输出结果,以及在所述输出结果满足预设条件的情况下,确定所述外链为黑链。
本公开的另一个方面提供了一种黑链检测装置,包括获得模块、第一确定模块和第二确定模块。获得模块用于获得待检测的外链。第一确定模块用于基于所述外链,确定与所述外链相关联的内容信息。第二确定模块用于在所述内容信息满足预设条件的情况下,确定所述外链为黑链。
可选地,获得模块包括第一获得子模块、判断子模块以及确定子模块。第一获得子模块用于获得多个网页的内容的变化信息。判断子模块用于在所述变化信息表明所述多个网页中出现至少一个外链的情况下,判断是否存在未被检测过的外链。确定子模块用于在存在未被检测过的外链的情况下,将所述未被检测过的外链作为待检测的外链。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开的实施例的黑链检测方法的应用场景;
图2示意性示出了根据本公开实施例的黑链检测方法的流程图;
图3示意性示出了根据本公开实施例的获得待检测的外链的流程图;
图4示意性示出了根据本公开实施例的在内容信息满足预设条件的情况下,确定外链为黑链的流程图;
图5示意性示出了根据本公开另一实施例的黑链检测方法的流程图;
图6示意性示出了根据本公开实施例的黑链检测装置的框图;
图7示意性示出了根据本公开实施例的获得模块的框图;
图8示意性示出了根据本公开实施例的第二确定模块的框图;以及
图9示意性示出了根据本公开实施例的黑链检测***的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行***使用或者结合指令执行***使用。
本公开的实施例提供了一种黑链检测方法,包括获得待检测的外链,基于所述外链,确定与外链相关联的内容信息,以及在内容信息满足预设条件的情况下,确定外链为黑链。
图1示意性示出了根据本公开的实施例的黑链检测方法的应用场景。需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,该应用场景中包括电子设备100,电子设备100能够访问网页110。
电子设备100可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
如图1所示,网页101中包括黑链111,黑链111是指隐藏于网页101上的、用户不可视并且能够提高自身在搜索引擎中的排名的链接。
黑链通常是一些游戏网站、盗号木马网站、钓鱼网站、广告网站等不安全网站。如果电子设备没有做好安全防护工作,容易感染病毒。因此需要准确地将网站上的黑链检测出来,以防止对用户带来经济或者身心的伤害。
根据本公开实施例的检测方法能够准确地将网站中的黑链检测出来,防止黑链的漏报和误报。根据本公开的实施例,黑链检测方法包括获得待检测的外链,确定与该外链相关联的内容信息,根据内容信息确定该外链是否为黑链。
图2示意性示出了根据本公开实施例的黑链检测方法的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210,获得待检测的外链。
在操作S220,基于所述外链,确定与所述外链相关联的内容信息。
在操作S203,在所述内容信息满足预设条件的情况下,确定所述外链为黑链。
根据本公开的实施例,该方法能够根据与外链相关联的内容信息判断外链是否为黑链,使得检测黑链的过程更加全面,得到的结果也更加准确,减少了漏报和误报的概率。
根据本公开的实施例,在操作S210,例如可以对某网站进行爬虫,以获得该网站上待检测的外链。
图3示意性示出了根据本公开实施例的获得待检测的外链的流程图。
如图3所示,该方法包括操作S211~S213。
在操作S211,获得多个网页的内容的变化信息。
在操作S212,在所述变化信息表明所述多个网页中出现至少一个外链的情况下,判断是否存在未被检测过的外链。
在操作S213,在存在未被检测过的外链的情况下,将所述未被检测过的外链作为待检测的外链。
根据本公开的实施例,该方法能够监控多个网页的内容变化,从而及时地发现网页中出现的黑链,提高了黑链检测的实时性。
根据本公开的实施例,在操作S211,例如可以对网页执行爬虫操作,通过对比前后两次的爬虫结果,获得网页的内容变化信息。当然,本领域技术人员也可以通过其他方法来获得网页的内容变化。
根据本公开的实施例,在操作S212,例如,当本次的爬虫结果比前一次的爬虫结果多了至少一个外链时,对多出来的至少一个外链进行判断。例如可以是,依次查看至少一个外链是否在黑链库中,其中,黑链库是检测出的黑链的集合。若至少一个外链都能够在黑链库中找到,则不存在未被检测过的黑链,若存在黑链库中没有的外链,则存在未被检测过的外链。
根据本公开的实施例,在操作S213,例如可以是将在操作S212中得到未被检测过的外链作为待检测的外链。
根据本公开的实施例,若未被检测过的外链有多个,将未被检测过的外链作为待检测的外链包括,确定多个未被检测过的外链的相似度,将相似度大于第二阈值的多个未被检测过的外链作为待检测的外链。该方法能够将监控的多个网页联系起来,从而综合多个网页的内容变化信息,对多个外链进行筛选,选出最有可能是黑链的外链,在保证准确检测的基础上,提高了检测的效率。
根据本公开的实施例,确定多个所述未被检测过的外链的相似度,例如可以是根据外链的计算因子给外链打分,根据得分的接近程度来确定外链的相似度。其中,计算因子例如可以是域名、外链的格式、外链中的文本等等。根据本公开的实施例,可以通过给不同的计算因子分配不同的权重来给外链打分。
返回参考图2,根据本公开的实施例,在操作S220,例如可以是确定外链所对应的网页中的内容,和/或外链的标签是否包括黑词。其中,黑词为在黑链中出现频率大于第一阈值的词。外链所对应的网页,例如可以是在点击到外链时跳转至的网页。根据本公开的实施例,黑词例如可以是本领域技术人员统计出来的在黑链中出现频率大于第一阈值的词。
根据本公开的实施例,在操作S220,例如可以是确定所述外链的互联网协议地址(IP地址)是否被标记为黑站,或者外链的IP地址是否在预设地址范围内。其中,黑站为对网页植入过黑链的服务器,预设地址范围为与黑站对应的IP地址范围。例如,外链http://www.example.com/foo/bar的IP地址是1.1.1.1,该IP地址曾经对其他网页植入过黑链。根据本公开的实施例,对网页植入过黑链的服务器的IP地址通常在一定的地址范围内,本领域技术人员可以根据经验设定预设地址范围,从而判断外链的IP地址是否在预设地址范围内。
根据本公开的实施例,在操作S220,例如可以是确定所述外链所在的网站被植入黑链的历史数据。历史数据例如可以是该网站是否被植入过黑链、被植入黑链的频率等待。例如,为了判断图1所示的网页110中的另一外链是否为黑链,确定网页110曾经被植入黑链的情况。
根据本公开的实施例,在操作S220,例如可以是确定所述外链所对应的网页中的内容与所述外链所在的网页中的内容的相关性。例如,在图1所示的情景中的网页110包括的内容都是与教育有关的,而网页110上的另一外链所对应的网页的内容是娱乐城广告,则确定两者的相关性较低。
根据本公开的实施例,在操作S230,例如可以是在上述操作S220中描述的至少一个内容信息满足预设条件的情况下,确定外链为黑链。
图4示意性示出了根据本公开实施例的在内容信息满足预设条件的情况下,确定外链为黑链的流程图。
如图4所示,该方法包括操作S231~S233。
在操作S231,获得机器学习模型。
在操作S232,将所述内容信息输入到所述机器学习模型中,获得输出结果。
在操作S233,在所述输出结果满足预设条件的情况下,确定所述外链为黑链。
根据本公开的实施例,在操作S231,机器学习模型例如可以是根据大量的黑链训练样本训练的机器学习模型。
根据本公开的实施例,在操作S232,例如可以是将“外链包括黑词”、“外链所对应的网页中的内容与外链所在的网页中的内容的相关性非常低”等等内容信息输入到所述机器学习模型中。机器学习模型根据输入的内容信息,计算输出结果。输出结果例如可以是一个数值。
根据本公开的实施例,在操作S232,例如预设条件可以是超过阈值0.4,假设输出结果为0.9,则输出结果满足预设条件,从而确定外链为黑链。
根据本公开的实施例,在判断根据机器学习模型确定外链为黑链的结果正确的情况下,可以将该外链的特征数据继续用于训练机器学习模型。
图5示意性示出了根据本公开另一实施例的黑链检测方法的流程图。
如图5所示,该方法包括操作S501~S507。
在操作S501,监测多个网页的内容变化信息。例如可以执行上文参考图3所描述的操作S211。
在操作S502,在网页中出现新增加的外链时,获得新增加的外链。
在操作S503,判断是否存在未被检测过的外链。例如可以执行上文参考图3所描述的操作S212。若存在未被检测过的外链,则执行操作S504。若不存在未被检测过的外链,在执行S507,结束检测,继续检测内容变化。
在操作S504,确定与其中一个外链相关联的内容信息。例如可以执行上文参考图2所描述的操作S220。例如,确定外链的IP地址是否被标记为黑站、外链的IP地址是否在预设地址范围内、外链所对应的网页中的内容是否包括黑词、外链的标签是否包括黑词、包含该外链的大部分网站曾经被植入黑链、外链所对应的网页内容与外链所在的网页的网页内容无关。
在操作S505,判断操作S504确定的内容信息的分数是否达到阈值。若达到阈值,执行操作S506,确定外链为黑链,并且再返回操作S503,以继续判断下一个新出现的外链。若未达到阈值,执行操作S503,以继续判断下一个新出现的外链。
图6示意性示出了根据本公开实施例的黑链检测装置600的框图。
如图6所示,黑链检测装置600包括获得模块610、第一确定模块620以及第二确定模块630。
获得模块610,例如执行上文参考图2描述的操作S210,用于获得待检测的外链。
第一确定模块620,例如执行上文参考图2描述的操作S220,用于基于所述外链,确定与所述外链相关联的内容信息。
第二确定模块630,例如执行上文参考图2描述的操作S230,用于在所述内容信息满足预设条件的情况下,确定所述外链为黑链。
根据本公开的实施例,基于外链,确定与外链相关联的内容信息包括,基于外链确定外链所对应的网页中的内容,和/或者外链的标签是否包括黑词,其中,黑词为在黑链中出现频率大于第一阈值的词。
根据本公开的实施例,基于外链,确定与外链相关联的内容信息包括,基于外链确定外链的互联网协议地址是否被标记为黑站,或者外链的互联网协议地址是否在预设地址范围内,其中,黑站为对网页植入过黑链的服务器,预设地址范围为与述黑站对应的互联网协议地址范围。
根据本公开的实施例,基于所述外链,确定与所述外链相关联的内容信息包括,基于外链确定外链所在的网站被植入黑链的历史数据,和/或基于外链,确定外链所对应的网页中的内容与外链所在的网页中的内容的相关性。
图7示意性示出了根据本公开实施例的获得模块610的框图。
如图7所示,获得模块610包括第一获得子模块611、判断子模块612以及确定子模块613。
第一获得子模块611,例如执行上文参考图3描述的操作S211,用于获得多个网页的内容的变化信息。
判断子模块612,例如执行上文参考图3描述的操作S212,用于在所述变化信息表明所述多个网页中出现至少一个外链的情况下,判断是否存在未被检测过的外链。
确定子模块613,例如执行上文参考图3描述的操作S213,用于在存在未被检测过的外链的情况下,将所述未被检测过的外链作为待检测的外链。
根据本公开的实施例,确定子模块613包括第一确定单元和第二确定单元。其中,第一确定单元用于确定多个所述未被检测过的外链的相似度。第二确定单元用于将相似度大于第二阈值的多个所述未被检测过的外链作为待检测的外链。
图8示意性示出了根据本公开实施例的第二确定模块630的框图。
如图8所示,第二确定模块630包括第二获得子模块631、第三获得子模块632以及确定黑链子模块633。
第二获得子模块631,例如执行上文参考图4描述的操作S231,用于获得机器学习模型。
第三获得子模块632,例如执行上文参考图4描述的操作S232,用于将所述内容信息输入到所述机器学习模型中,获得输出结果。
确定黑链子模块633,例如执行上文参考图4描述的操作S233,用于在所述输出结果满足预设条件的情况下,确定所述外链为黑链。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获得模块610、第一确定模块620以及第二确定模块630中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获得模块610、第一确定模块620以及第二确定模块630中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获得模块610、第一确定模块620以及第二确定模块630中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图9示意性示出了根据本公开实施例的适于实现上文描述的方法的黑链检测***的方框图。图9示出的黑链检测***仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,黑链检测***900包括处理器910、计算机可读存储介质920。黑链检测***900可以执行根据本公开实施例的方法。
具体地,处理器910例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器910还可以包括用于缓存用途的板载存储器。处理器910可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质920,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质920可以包括计算机程序921,该计算机程序921可以包括代码/计算机可执行指令,其在由处理器910执行时使得处理器910执行根据本公开实施例的方法或其任何变形。
计算机程序921可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序921中的代码可以包括一个或多个程序模块,例如包括921A、模块921B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器910执行时,使得处理器910可以执行根据本公开实施例的方法或其任何变形。
根据本公开的实施例,处理器910可以执行根据本公开实施例的方法或其任何变形。
根据本发明的实施例,获得模块610、第一确定模块620以及第二确定模块630中的至少一个可以实现为参考图9描述的计算机程序模块,其在被处理器910执行时,可以实现上面描述的相应操作。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (11)

1.一种黑链检测方法,包括:
获得待检测的外链;
基于所述外链,确定与所述外链相关联的内容信息;以及
在所述内容信息满足预设条件的情况下,确定所述外链为黑链。
2.根据权利要求1所述的方法,其中,所述基于所述外链,确定与所述外链相关联的内容信息包括:
基于所述外链,确定所述外链所对应的网页中的内容,和/或者所述外链的标签是否包括黑词,其中,所述黑词为在黑链中出现频率大于第一阈值的词。
3.根据权利要求1所述的方法,其中,所述基于所述外链,确定与所述外链相关联的内容信息包括:
基于所述外链,确定所述外链的互联网协议地址是否被标记为黑站,或者所述外链的互联网协议地址是否在预设地址范围内,
其中,所述黑站为对网页植入过黑链的服务器,所述预设地址范围为与所述黑站对应的互联网协议地址范围。
4.根据权利要求1所述的方法,其中,所述基于所述外链,确定与所述外链相关联的内容信息包括:
基于所述外链,确定所述外链所在的网站被植入黑链的历史数据;和/或
基于所述外链,确定所述外链所对应的网页中的内容与所述外链所在的网页中的内容的相关性。
5.根据权利要求1所述的方法,其中,所述获得待检测的外链包括:
获得多个网页的内容的变化信息;
在所述变化信息表明所述多个网页中出现至少一个外链的情况下,判断是否存在未被检测过的外链;
在存在未被检测过的外链的情况下,将所述未被检测过的外链作为待检测的外链。
6.根据权利要求5所述的方法,其中,所述未被检测过的外链包括多个,所述在存在未被检测过的外链的情况下,将所述未被检测过的外链作为待检测的外链包括:
确定多个所述未被检测过的外链的相似度;
将相似度大于第二阈值的多个所述未被检测过的外链作为待检测的外链。
7.根据权利要求1所述的方法,其中,所述在所述内容信息满足预设条件的情况下,确定所述外链为黑链包括:
获得机器学习模型;
将所述内容信息输入到所述机器学习模型中,获得输出结果;以及
在所述输出结果满足预设条件的情况下,确定所述外链为黑链。
8.一种黑链检测装置,包括:
获得模块,用于获得待检测的外链;
第一确定模块,用于基于所述外链,确定与所述外链相关联的内容信息;以及
第二确定模块,用于在所述内容信息满足预设条件的情况下,确定所述外链为黑链。
9.根据权利要求8所述的装置,其中,所述获得模块包括:
第一获得子模块,用于获得多个网页的内容的变化信息;
判断子模块,用于在所述变化信息表明所述多个网页中出现至少一个外链的情况下,判断是否存在未被检测过的外链;
确定子模块,用于在存在未被检测过的外链的情况下,将所述未被检测过的外链作为待检测的外链。
10.一种黑链检测***,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1~7所述任意一项的方法。
11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1~7所述任意一项的方法。
CN201811653703.9A 2018-12-29 2018-12-29 黑链检测方法、装置、***和计算机可读存储介质 Pending CN109784038A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811653703.9A CN109784038A (zh) 2018-12-29 2018-12-29 黑链检测方法、装置、***和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811653703.9A CN109784038A (zh) 2018-12-29 2018-12-29 黑链检测方法、装置、***和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109784038A true CN109784038A (zh) 2019-05-21

Family

ID=66499799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811653703.9A Pending CN109784038A (zh) 2018-12-29 2018-12-29 黑链检测方法、装置、***和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109784038A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680252A (zh) * 2020-06-05 2020-09-18 腾讯科技(深圳)有限公司 外链识别方法、装置、设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622435A (zh) * 2012-02-29 2012-08-01 百度在线网络技术(北京)有限公司 一种检测黑链的方法和装置
CN103856442A (zh) * 2012-11-30 2014-06-11 腾讯科技(深圳)有限公司 一种黑链检测方法、装置和***
CN105488402A (zh) * 2014-12-23 2016-04-13 哈尔滨安天科技股份有限公司 一种暗链的检测方法及***
CN107273416A (zh) * 2017-05-05 2017-10-20 深信服科技股份有限公司 网页暗链检测方法、装置及计算机可读存储介质
CN107370718A (zh) * 2016-05-12 2017-11-21 深圳市深信服电子科技有限公司 网页中黑链的检测方法和装置
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622435A (zh) * 2012-02-29 2012-08-01 百度在线网络技术(北京)有限公司 一种检测黑链的方法和装置
CN103856442A (zh) * 2012-11-30 2014-06-11 腾讯科技(深圳)有限公司 一种黑链检测方法、装置和***
CN105488402A (zh) * 2014-12-23 2016-04-13 哈尔滨安天科技股份有限公司 一种暗链的检测方法及***
CN107370718A (zh) * 2016-05-12 2017-11-21 深圳市深信服电子科技有限公司 网页中黑链的检测方法和装置
CN107273416A (zh) * 2017-05-05 2017-10-20 深信服科技股份有限公司 网页暗链检测方法、装置及计算机可读存储介质
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680252A (zh) * 2020-06-05 2020-09-18 腾讯科技(深圳)有限公司 外链识别方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107729475B (zh) 网页元素采集方法、装置、终端与计算机可读存储介质
US20150082280A1 (en) Automatic verification by comparing user interface images
JP6036100B2 (ja) ウェブ・ブラウザー画面の段階的な視覚的比較
CN105868096B (zh) 用于在浏览器中显示web页面测试结果的方法、装置及设备
CN106022123A (zh) 多文件恶意软件分析
CN106385640B (zh) 视频标注方法及装置
CN103617213B (zh) 识别新闻网页属性特征的方法和***
US11580444B2 (en) Data visualization machine learning model performance
EP3064133B1 (en) Specifying apparatus and specifying method
CN109905385A (zh) 一种webshell检测方法、装置及***
CN103077254B (zh) 网页获取方法和装置
CA3120833C (en) Identifying equivalent links on a page
KR102224731B1 (ko) 선택적 인덱싱을 통한 검색 엔진 최적화
CN107622008A (zh) 一种应用页面的遍历方法和装置
CN108959550B (zh) 用户关注点挖掘方法、装置、设备及计算机可读介质
JP7236694B2 (ja) 情報処理方法、及び情報処理システム
CN107992402A (zh) 日志管理方法及日志管理装置
US10671456B2 (en) Method and device for acquiring application information
CN109784038A (zh) 黑链检测方法、装置、***和计算机可读存储介质
US20160239552A1 (en) Data Display System
CN104699843B (zh) 在搜索结果中提供产品对比信息的方法及装置
CN108052927A (zh) 基于视频数据的手势处理方法及装置、计算设备
CN108369647A (zh) 基于图像的质量控制
KR20180015491A (ko) 키워드를 기초로 접속 기록을 저장하는 방법 및 장치
CN110990558B (zh) 电子书内容展示方法、计算设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant after: Qianxin Technology Group Co.,Ltd.

Address before: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521

RJ01 Rejection of invention patent application after publication