CN111224923B - 一种仿冒网站的检测方法、装置及*** - Google Patents

一种仿冒网站的检测方法、装置及*** Download PDF

Info

Publication number
CN111224923B
CN111224923B CN201811417426.1A CN201811417426A CN111224923B CN 111224923 B CN111224923 B CN 111224923B CN 201811417426 A CN201811417426 A CN 201811417426A CN 111224923 B CN111224923 B CN 111224923B
Authority
CN
China
Prior art keywords
webpage
information
website
fingerprint information
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811417426.1A
Other languages
English (en)
Other versions
CN111224923A (zh
Inventor
杨文学
王康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811417426.1A priority Critical patent/CN111224923B/zh
Publication of CN111224923A publication Critical patent/CN111224923A/zh
Application granted granted Critical
Publication of CN111224923B publication Critical patent/CN111224923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开一种仿冒网站的检测方法,根据获取第一网站的信息以及以网站信息为索引的网站信息数据库,获得与第一网站的信息对应的第一网页指纹信息;从以网页指纹信息为索引的网页指纹信息数据库中,获得与第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,根据第二网页指纹信息以及网页指纹信息数据库,获得与第二网页指纹信息对应的第二网站的信息;根据第一网站与第二网站之间的相似度,确定第一网站和第二网站中是否存在仿冒网站。采用本申请的仿冒网站的检测方法,可以通过提取网页指纹和预先建立存储对应关系数据库得方式,快速检索是否存在仿冒网站,减少繁琐的操作步骤,从而提升用户的使用体验。

Description

一种仿冒网站的检测方法、装置及***
技术领域
本申请涉及大数据分析领域,具体涉及一种仿冒网站的检测方法、装置及***。另外涉及一种仿冒网页的检测方法、装置及***。
背景技术
随着网络技术的发展,网络安全成为人们不得不重视的问题,正规网站被仿冒的趋势越来越严重。通过仿冒网站欺诈用户,骗取个人机密信息,已成为网络安全的重大威胁。如何快速识别正规网站是否有相应的仿冒网站出现,从而减少用户以及正规网站的损失,成为亟待解决的问题。
目前,现有技术中存在的发现仿冒网站的技术方案都是根据客户举报或舆情监控等手段发现疑似仿冒网站,再根据该疑似仿冒网站和相应的正规网站的标签关键字、关键图片等网页特征,判断是否为仿冒网站。上述方法在实际应用过程中往往不够准确,且存在滞后性,从而不能满足用户的预期。
发明内容
本申请提供一种仿冒网站的检测方法、装置及***,以解决现有技术中存在的发现仿冒网站的方法难以满足用户需求,由此导致用户的使用体验较差的问题。本申请另外提供一仿冒网页的检测方法、装置及***。
本申请提供的一种仿冒网站的检测方法,包括:获得第一网站的信息;根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
可选的,所述的仿冒网站的检测方法,还包括:获得网站信息;根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;根据所述网页信息生成网页指纹信息;建立以所述网站信息为索引、包括所述网站信息与所述网页指纹信息之间的对应关系的网站信息数据库。
可选的,所述根据所述网页信息生成网页指纹信息,包括:从所述网页信息对应的网页中提取网页要素信息;根据所述网页要素信息,生成网页要素指纹信息;根据所述网页要素指纹信息,获得网页指纹信息。
可选的,所述根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,包括:以所述第一网站的信息为索引,在所述网站信息数据库包括的网站信息与网页指纹信息之间的对应关系中,查找与所述第一网站的信息对应的第一网页指纹信息。
可选的,所述的仿冒网站的检测方法,还包括:获得网站信息;根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;根据所述网页信息生成网页指纹信息;建立以所述网页指纹信息为索引、包括所述网页指纹信息与所述网站信息之间的对应关系的网页指纹信息数据库。
可选的,所述从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,包括:计算所述第一网页指纹信息与所述网页指纹信息数据库中的网页指纹信息之间的相似度;将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息。
可选的,与同一个第一网页指纹信息之间的相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息为多个网页指纹信息;所述将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息,包括:从所述多个网页指纹信息中选择相似度最高的网页指纹信息作为与所述同一个第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。
可选的,所述根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息,包括:以所述第二网页指纹信息为索引,在所述网页指纹信息数据库包括的网页指纹信息与网站信息之间的对应关系中,查找与所述第二网页指纹信息对应的第二网站的信息。
可选的,所述的仿冒网站的检测方法,还包括:计算所述第一网站包括的网页与所述第二网站包括的网页之间的相似度;根据所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,计算所述第一网站与所述第二网站之间的相似度。
可选的,所述计算所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,包括:计算所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度;所述根据所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,计算所述第一网站与所述第二网站之间的相似度,包括:针对所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度进行深度学习融合计算,得到所述第一网站与所述第二网站之间的相似度。
可选的,所述根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站,包括:如果所述第一网站与所述第二网站之间的相似度达到或超过第二相似度阈值,则确定所述第一网站和所述第二网站中存在仿冒网站。
可选的,所述第一网页指纹信息包括第一URL指纹信息、第一HTML指纹信息、第一文本指纹信息以及第一网页资源指纹信息中的至少一种指纹信息;所述第二网页指纹信息包括第二URL指纹信息、第二HTML指纹信息、第二文本指纹信息以及第二网页资源指纹信息中的至少一种指纹信息;所述从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,包括以下至少一种方式:从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一URL指纹信息的相似度达到或超过第一相似度阈值的第二URL指纹信息;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一HTML指纹信息的相似度达到或超过第一相似度阈值的第二HTML指纹信息;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一文本指纹信息的相似度达到或超过第一相似度阈值的第二文本指纹信息;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页资源指纹信息的相似度达到或超过第一相似度阈值的第二网页资源指纹信息。
可选的,所述第一网站的信息为疑似仿冒网站的信息,所述第二网站的信息为正规网站的信息;或者,所述第一网站的信息为正规网站的信息,所述第二网站的信息为疑似仿冒网站的信息;所述根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站,包括:根据所述疑似仿冒网站与所述正规网站之间的相似度,判断所述疑似仿冒网站是否为所述正规网站的仿冒网站。
可选的,所述第一网站的信息为所述第一网站的域名信息,所述第二网站的信息为所述第二网站的域名信息。
可选的,所述根据所述网页要素信息,生成网页要素指纹信息,包括:根据所述网页要素信息,获得所述网页要素信息的片段信息;根据所述网页要素信息的片段信息,生成所述网页要素信息对应的片段指纹信息;所述根据所述网页要素指纹信息,获得网页指纹信息,包括:根据所述网页要素信息对应的片段指纹信息,获得所述网页指纹信息。
相应的,本申请还提供一种仿冒网站的检测装置,包括:第一获得单元,用于获得第一网站的信息;第二获得单元,用于根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;第三获得单元,用于从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;第四获得单元,用于根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;确定单元,用于根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
可选的,所述的仿冒网站的检测装置,还包括:第五获得单元,用于获得网站信息;第六获得单元,用于根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;第一生成单元,用于根据所述网页信息生成网页指纹信息;第一建立单元,用于建立以所述网站信息为索引、包括所述网站信息与所述网页指纹信息之间的对应关系的网站信息数据库。
可选的,所述第一生成单元具体用于:从所述网页信息对应的网页中提取网页要素信息;根据所述网页要素信息,生成网页要素指纹信息;根据所述网页要素指纹信息,获得网页指纹信息。
可选的,所述第二获得单元具体用于,以所述第一网站的信息为索引,在所述网站信息数据库包括的网站信息与网页指纹信息之间的对应关系中,查找与所述第一网站的信息对应的第一网页指纹信息。
可选的,所述的仿冒网站的检测装置,还包括:第七获得单元,用于获得网站信息;第八获得单元,用于根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;第二生成单元,用于根据所述网页信息生成网页指纹信息;第二建立单元,用于建立以所述网页指纹信息为索引、包括所述网页指纹信息与所述网站信息之间的对应关系的网页指纹信息数据库。
可选的,所述第三获得单元具体用于:计算所述第一网页指纹信息与所述网页指纹信息数据库中的网页指纹信息之间的相似度;将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息。
可选的,与同一个第一网页指纹信息之间的相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息为多个网页指纹信息;所述第四获得单元具体用于,从所述多个网页指纹信息中选择相似度最高的网页指纹信息作为与所述同一个第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。
可选的,所述第四获得单元具体用于,以所述第二网页指纹信息为索引,在所述网页指纹信息数据库包括的网页指纹信息与网站信息之间的对应关系中,查找与所述第二网页指纹信息对应的第二网站的信息。
可选的,所述的仿冒网站的检测装置,还包括:第一计算单元,用于计算所述第一网站包括的网页与所述第二网站包括的网页之间的相似度;第二计算单元,用于根据所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,计算所述第一网站与所述第二网站之间的相似度。
可选的,所述第一计算单元具体用于,计算所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度;所述第一计算单元具体用于,针对所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度进行深度学习融合计算,得到所述第一网站与所述第二网站之间的相似度。
可选的,所述确定单元具体用于,如果所述第一网站与所述第二网站之间的相似度达到或超过第二相似度阈值,则确定所述第一网站和所述第二网站中存在仿冒网站。
可选的,所述第一网页指纹信息包括第一URL指纹信息、第一HTML指纹信息、第一文本指纹信息以及第一网页资源指纹信息中的至少一种指纹信息;所述第二网页指纹信息包括第二URL指纹信息、第二HTML指纹信息、第二文本指纹信息以及第二网页资源指纹信息中的至少一种指纹信息;所述第三获得单元具体用于:从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一URL指纹信息的相似度达到或超过第一相似度阈值的第二URL指纹信息;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一HTML指纹信息的相似度达到或超过第一相似度阈值的第二HTML指纹信息;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一文本指纹信息的相似度达到或超过第一相似度阈值的第二文本指纹信息;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页资源指纹信息的相似度达到或超过第一相似度阈值的第二网页资源指纹信息。
可选的,所述第一网站的信息为疑似仿冒网站的信息,所述第二网站的信息为正规网站的信息;或者,所述第一网站的信息为正规网站的信息,所述第二网站的信息为疑似仿冒网站的信息;所述确定单元具体用于,根据所述疑似仿冒网站与所述正规网站之间的相似度,判断所述疑似仿冒网站是否为所述正规网站的仿冒网站。
可选的,所述第一网站的信息为所述第一网站的域名信息,所述第二网站的信息为所述第二网站的域名信息。
可选的,所述第一生成单元具体用于:根据所述网页要素信息,获得所述网页要素信息的片段信息;根据所述网页要素信息的片段信息,生成所述网页要素信息对应的片段指纹信息;所述根据所述网页要素指纹信息,获得网页指纹信息,包括:根据所述网页要素信息对应的片段指纹信息,获得所述网页指纹信息。
相应的,本申请还提供一种电子设备,包括:处理器;以及存储器用于存储仿冒网站的检测方法的程序,该设备通电并通过所述处理器运行该仿冒网站的检测方法的程序后,执行下述步骤:获得第一网站的信息;根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
相应的,本申请还提供一种存储设备,存储有仿冒网站的检测方法的程序,该程序被处理器运行,执行下述步骤:获得第一网站的信息;根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
相应的,本申请还提供一种仿冒网页的检测方法,包括:获得第一网页的信息;根据所述第一网页的信息以及以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
相应的,本申请还提供一种仿冒网页的检测装置,包括:第一获得单元,用于获得第一网页的信息;第二获得单元,用于根据所述第一网页的信息以及以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;第三获得单元,用于从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;第四获得单元,用于根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;确定单元,用于根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
相应的,本申请还提供一种仿冒网页的检测***,包括:所述的仿冒网站的检测装置以及所述的仿冒网页的检测装置中的至少一种装置。
相应的,本申请还提供一种电子设备,包括:处理器;以及存储器用于存储仿冒网页的检测方法的程序,该设备通电并通过所述处理器运行该仿冒网页的检测方法的程序后,执行下述步骤:获得第一网页的信息;根据所述第一网页的信息以及以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
相应的,本申请还提供一种存储设备,存储有仿冒网页的检测方法的程序,该程序被处理器运行,执行下述步骤:获得第一网页的信息;根据所述第一网页的信息以及以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
相应的,本申请还提供一种数据处理方法,包括:获取待处理的第一网站的网页信息;从所述网页信息对应的网页中提取网页要素信息;根据所述网页要素信息,生成网页要素指纹信息;根据所述网页要素指纹信息,获得第一网页指纹信息;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站信息;输出包括所述第二网站信息的目标信息。与现有技术相比,本申请具有以下优点:
采用本申请提供的仿冒网站的检测方法,可以通过提取网页指纹和预先建立存储对应关系数据库得方式,快速检索是否存在仿冒网站,减少繁琐的操作步骤,从而提升用户的使用体验。
附图说明
图1为本申请实施例提供的一种仿冒网站的检测方法的流程图;
图2为本申请实施例提供的一种仿冒网站的检测装置的示意图;
图3为本申请实施例提供的一种仿冒网站检测的电子设备示意图;
图4为本申请实施例提供的一种仿冒网页的检测方法的流程图;
图5为本申请实施例提供的一种仿冒网站的检测装置的示意图;
图6为本申请实施例提供的一种仿冒网站检测的电子设备示意图;
图7为本申请实施例提供的一种仿冒网站的检测方法的完整流程图;
图8为本申请实施例提供的一种数据处理方法的流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此,本申请不受下面公开的具体实施的限制。
下面基于本申请提供的仿冒网站的检测方法,对其实施例进行详细描述。请参考图1所示,其为本申请实施例提供的一种仿冒网站的检测方法的流程图。
本申请实施例提供的仿冒网站的检测方法具体包括以下步骤:
步骤S101,获得第一网站的信息。
在本申请实施例中,当检测正规网站是否存在相应的疑似仿冒网站或者发现疑似仿冒网站后需要检测该疑似仿冒网站对应的正规网站时,首先要获得第一网站的信息,该第一网站信息可以为待检测的正规网站的信息和待检测的疑似仿冒网站的信息中的一种。
另外,根据本申请至少一个实施例,采用的第一网站的信息包括相应待检测网站的域名信息。
步骤S102,根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征。
在本申请实施例中,若要获得与第一网站的信息对应的第一网页指纹信息,首先需要建立以网站信息为索引得,包含预先设置的网站信息与网页指纹信息之间的对应关系数据的网站信息数据库。具体的,通过万网或站长之家等获取互联网上现有注册的网站信息,根据获取的网站信息得到各个网站相应的网页信息,根据该网页信息,利用指纹生成算法(aimhash、phash等算法)进行网页指纹提取,生成大量标识各个网站相应的网页信息的网页指纹信息。将这些网页指纹信息进行整合处理,获得分别对应各个网站的网页指纹信息集合。从而可以预先设置网站信息与网页指纹信息之间的对应关系,将预先设置的网站信息与网页指纹信息之间的对应关系数据存储至所述网站信息数据库中。
获得网站信息数据库之后,利用正向索引技术原理,构建以网站信息为索引,并且基于该网站信息数据库的网站信息搜索引擎。
将获取的第一网站的信息输入至网站信息搜索引擎,可以获得与第一网站的信息对应的第一网页指纹信息,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征。需要说明的是,获得根据网页信息生成的网页指纹信息,具体为,首先从网页信息对应的网页中提取网页要素信息。该网页要素信息至少包括URL信息,HTML信息,文本信息,资源信息等重要属性中的至少一种。根据提取的网页要素信息分别利用指纹生成算法(aimhash、phash等算法)进行指纹提取,生成用于标识网页要素信息的网页要素指纹信息,所述的网页要素指纹信息为用于唯一标识网页中各个网页要素的特征集合。根据该网页要素指纹信息,通过组织、整合可以得到用于标识网页信息的网页指纹信息,所述的网页指纹信息为用于唯一标识网站所包含网页的特征集合。
同样,该网页要素指纹信息至少包括提取的URL指纹,HTML指纹,文本指纹以及网页资源指纹信息中的至少一种指纹信息。当然,需要进一步说明的是,URL指纹,HTML指纹,文本指纹以及网页资源指纹信息为通过指纹提取算法分别从URL信息,HTML信息,文本信息以及资源信息中提取的,用于唯一标识URL信息,HTML信息,文本信息以及资源信息的特征集合。
针对网页信息进行网页要素指纹信息提取,除了所列举的提取URL信息,HTML信息,文本信息,资源信息等属性信息的指纹信息,也可以提取网页信息中的其他属性信息的指纹信息,例如:图片信息等。通过提取重要属性信息URL信息,HTML信息,文本信息,资源信息等对应的网页要素指纹信息,能够通过网站信息搜索引擎,快速、准确的在网站信息数据库中查找第一网站对应的第一网页指纹信息,所述的第一网页指纹信息为用于标识第一网站所包含网页的网页指纹信息集合。
当从网页信息中提取的网页要素信息内容比较复杂时,可以将网页要素信息进行拆解,例如:当网页要素信息是文本时,可以根据文本信息包含的多个段落信息,以段落为原子单位进行拆分,根据拆分的网页要素信息可以获得的多个文本片段信息,利用指纹生成算法(aimhash、phash等算法)进行指纹提取,得到对应的文本片段指纹信息,通过组织、整合进一步得到获得网页要素指纹信息。
在本申请实施例中,网站信息主要是指网站的域名信息,获取网络上现有注册的网站信息的方式可以通过针对每个网站在万网或站长之家查找对应的WHOIS(WHO IS)信息。其中,WHOIS信息具体包括域名注册时长,域名距离过期时间,域名创建时长,注册email信息,域名长度信息,域名IP地理信息,域名传播热度等域名信息。
建立以网站信息为索引的网站信息数据库之后,以第一网站的信息为索引,在所述网站信息数据库包括的网站信息与网页指纹信息之间的对应关系中,查找与第一网站的信息对应的第一网页指纹信息,从而得到第一网页指纹信息。
步骤S103,从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系。
在本申请实施例中,若要获得第二网页指纹信息,首先需要利用倒排索引技术原理构建以网页指纹信息为索引的网页指纹信息数据库,利用网页爬虫技术顺着网页中的超链接,从一个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页,在互联网中搜集尽量多的网页信息,同时对搜集的网页信息利用指纹生成算法(aimhash、phash等算法)进行网页指纹提取,生成相应网页指纹信息,进而组织、整合获得相应的网页指纹库,基于网页指纹库构建网页指纹信息为索引、包括网页指纹信息与网站信息之间的对应关系的网页指纹信息数据库。
进一步的,当用户将上述第一网页指纹信息输入至网页指纹信息数据库中,通过算法计算第一网页指纹信息与网页指纹信息数据库中的网页指纹信息之间的相似度,将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为第二网页指纹信息,从而得到相应的第二网页指纹信息。
需要说明的是,与同一个第一网页指纹信息之间的相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息为多个网页指纹信息。所以将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息具体包括:从多个网页指纹信息中选择相似度最高的网页指纹信息作为与同一个第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。
在本申请实施例中,所述第一网页指纹信息包括第一URL指纹信息、第一HTML指纹信息、第一文本指纹信息以及第一网页资源指纹信息中的至少一种属性的指纹信息。所述第二网页指纹信息也包括第二URL指纹信息、第二HTML指纹信息、第二文本指纹信息以及第二网页资源指纹信息中的至少一种属性的指纹信息。从以网页指纹信息为索引的网页指纹信息数据库中,获得与第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息具体包括:从以网页指纹信息为索引的网页指纹信息数据库中,获得与第一URL指纹信息的相似度达到或超过第一相似度阈值的第二URL指纹信息;或者,获得与第一HTML指纹信息的相似度达到或超过第一相似度阈值的第二HTML指纹信息;或者,从以网页指纹信息为索引的网页指纹信息数据库中,获得与第一文本指纹信息的相似度达到或超过第一相似度阈值的第二文本指纹信息;或者,从以网页指纹信息为索引的网页指纹信息数据库中,获得与第一网页资源指纹信息的相似度达到或超过第一相似度阈值的第二网页资源指纹信息。
步骤S104,根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息。
在本申请实施例中,所述根据第二网页指纹信息以及网页指纹信息数据库,获得与第二网页指纹信息对应的第二网站的信息具体包括:以第二网页指纹信息为索引值,在网页指纹信息数据库包括的网页指纹信息与网站信息之间的对应关系中进行检索,查找与第二网页指纹信息对应的第二网站的信息。
步骤S105,根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
在本申请实施例中,计算第一网站与所述第二网站之间的相似度具体为计算第一网站包括的网页与第二网站包括的网页之间的相似度,即:通过深度学习融合算法计算第一网站包括的网页与第二网站包括的网页之间的相似度。
需要进一步说明的是,通过深度学习融合算法计算第一网站包括的网页与第二网站包括的网页之间的相似度,具体为,通过深度学习融合算法针对第一网站包括的每个网页与第二网站包括的每个网页之间对应的各自网页的指纹信息的相似度进行计算,得到第一网站与第二网站之间的相似度。在本申请实施例中,第一网站可以是待检测的疑似仿冒网站,也可以是待检测的正规网站。
请参考图7所示,其为本申请实施例提供的一种仿冒网站的检测方法完整流程图。本申请实施例所述的仿冒网站的检测方法包括两部分:一部分是为双向搜索引擎构建,另一部分是利用构建的双向搜索引擎检索是否存在仿冒网站。
双向搜索引擎构建部分:根据URL,从万网、站长之家或WHOIS中获取网站域名信息。根据获取的网站域名信息得到各个网站相应的网页信息,根据该网页信息,从网页信息对应的网页中提取网页要素信息,该网页要素信息至少包括URL信息,HTML信息,文本信息,资源信息等重要属性中的至少一种。根据提取的网页要素信息分别利用指纹生成算法(aimhash、phash等算法)进行指纹提取,生成网页要素指纹信息。根据该网页要素指纹信息,通过组织、整合得到网页指纹信息,从而获得包含网站信息与网页指纹信息之间的对应关系的网站信息数据库。利用正向索引技术原理,构建以网站信息为索引,并且包含大量预先设置的网站信息与网页指纹信息之间的对应关系的网站信息数据库B。
利用网页爬虫技术获取各个网站的网页信息,将获取的网页信息利用指纹生成算法(aimhash、phash等算法)进行网页指纹提取,生成相应网页指纹信息,进而组织、整合获得相应的网页指纹库,基于网页指纹库和倒排索引技术原理构建包含网页指纹信息与网站信息之间的对应关系的网页指纹信息数据库A。
利用分别基于网站信息数据库B构建的搜索引擎B和网页指纹信息数据库A构建的搜索引擎检索A是否存在仿冒网站。具体的,用户输入待检测的网站信息S1,利用搜索引擎B从网站信息数据库B中获取相应的网页指纹信息列表,进而获得每个网页的网页指纹信息F1;再根据网页指纹信息F1在网页指纹信息数据库A中获取类似的网页指纹信息F2;根据网页指纹信息F2获得相应的网站信息S2,通过深度学习融合算法计算判断网站SI、S2之间的相似度,从而确定是否存在仿冒网站。
采用本申请提供的仿冒网站的检测方法,能够通过精确的分析,快速识别仿冒网站,减少繁琐的操作步骤,可以提前在用户受损失之前识别出仿冒网站,减少用户以及正规网站的损失,从而提升用户的使用体验。
与上述提供的一种仿冒网站的检测方法相对应,本申请还提供一种仿冒网站的检测装置。由于本装置实施例相似于上述方法实施例,所以描述的比较简单,相关之处请参见上述方法实施例部分说明即可,下面描述装置实施例仅是示意性的。请参考图2所示,其为本申请实施例提供的一种仿冒网站的检测装置的示意图。
本申请实施例所述的仿冒网站的检测装置包括如下部分:
第一获得单元201,用于获得第一网站的信息。
在本申请提供的装置实施例中,当需要检测正规网站是否存在相应的疑似仿冒网站,或者发现疑似仿冒网站后,需要检测该疑似仿冒网站对应的正规网站时,首先需要获得第一网站的信息,该第一网站信息可以为待检测的正规网站的信息和待检测的疑似仿冒网站的信息中的一种。
第二获得单元202,用于根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征。
在本申请实施例中,若要获得与第一网站的信息对应的第一网页指纹信息,首先需要建立以网站信息为索引得,包含预先设置的网站信息与网页指纹信息之间的对应关系数据的网站信息数据库。具体的,通过万网或站长之家等获取互联网上现有注册的网站信息,根据获取的网站信息得到各个网站相应的网页信息,根据该网页信息,利用指纹生成算法(aimhash、phash等算法)进行网页指纹提取,生成大量标识各个网站相应的网页信息的网页指纹信息。将这些网页指纹信息进行整合处理,获得分别对应各个网站的网页指纹信息集合。从而可以预先设置网站信息与网页指纹信息之间的对应关系,将预先设置的网站信息与网页指纹信息之间的对应关系数据存储至所述网站信息数据库中。
获得网站信息数据库之后,利用正向索引技术原理,构建以网站信息为索引,并且基于该网站信息数据库的网站信息搜索引擎。
将获取的第一网站的信息输入至网站信息搜索引擎,可以获得与第一网站的信息对应的第一网页指纹信息,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征。需要说明的是,获得根据网页信息生成的网页指纹信息,具体为,首先从网页信息对应的网页中提取网页要素信息。该网页要素信息至少包括URL信息,HTML信息,文本信息,资源信息等重要属性中的至少一种。根据提取的网页要素信息分别利用指纹生成算法(aimhash、phash等算法)进行指纹提取,生成用于标识网页要素信息的网页要素指纹信息,所述的网页要素指纹信息为用于标识网页中各个网页要素的特征。根据该网页要素指纹信息,通过组织、整合可以得到用于标识网页信息的网页指纹信息,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征。
同样,该网页要素指纹信息至少包括提取的URL指纹,HTML指纹,文本指纹以及网页资源指纹信息中的至少一种指纹信息。当然,需要进一步说明的是,URL指纹,HTML指纹,文本指纹以及网页资源指纹信息为通过指纹提取算法分别从URL信息,HTML信息,文本信息以及资源信息中提取的,用于唯一标识URL信息,HTML信息,文本信息以及资源信息的特征集合。
第三获得单元203,用于从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系。
在本申请提供的装置实施例中,若要获得第二网页指纹信息,首先需要利用倒排索引技术原理构建以网页指纹信息为索引的网页指纹信息数据库,利用网页爬虫技术顺着网页中的超链接,从一个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页,在互联网中搜集尽量多的网页信息,同时对搜集的网页信息利用指纹生成算法(aimhash、phash等算法)进行网页指纹提取,生成相应网页指纹信息,进而组织、整合获得相应的网页指纹库,基于网页指纹库构建网页指纹信息为索引、包括网页指纹信息与网站信息之间的对应关系的网页指纹信息数据库。
进一步的,当用户将上述第一网页指纹信息输入至网页指纹信息数据库中,通过算法计算第一网页指纹信息与网页指纹信息数据库中的网页指纹信息之间的相似度,将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为第二网页指纹信息,从而得到相应的第二网页指纹信息。
第四获得单元204,用于根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息。
在本申请提供的装置实施例中,所述根据第二网页指纹信息以及网页指纹信息数据库,获得与第二网页指纹信息对应的第二网站的信息具体包括:以第二网页指纹信息为索引值,在网页指纹信息数据库包括的网页指纹信息与网站信息之间的对应关系中进行检索,查找与第二网页指纹信息对应的第二网站的信息。
确定单元205,用于根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
在本申请提供的装置实施例中,计算第一网站与所述第二网站之间的相似度具体为计算第一网站包括的网页与第二网站包括的网页之间的相似度,即:通过深度学习融合计算第一网站包括的网页与第二网站包括的网页之间的相似度,获得第一网站与所述第二网站之间的相似度。
与上述提供的一种仿冒网站的检测方法相对应的,本申请实施例还提供一种仿冒网站检测的电子设备,请参见图3,其为本申请实施例提供的一种仿冒网站检测的电子设备示意图。
本申请实施例所述的仿冒网站检测的电子设备包括如下部分:
处理器301;以及
存储器302,用于存储仿冒网站的检测方法的程序,该设备通电并通过所述处理器运行该仿冒网站的检测方法的程序后,执行下述步骤:
获得第一网站的信息;
根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;
根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
需要说明的是,对于本申请实施例提供的一种仿冒网站检测的电子设备的详细描述,可以参考对本申请实施例提供的一种仿冒网站的检测方法的相关描述,这里不再赘述。
与上述提供的一种仿冒网站的检测方法相对应的,本申请实施例还提供一种仿冒网站检测的存储设备。本申请实施例所述的仿冒网站检测的存储设备包括如下部分:存储有仿冒网站的检测方法的程序,该程序被处理器运行,执行下述步骤:
获得第一网站的信息;
根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;
根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
需要说明的是,对于本申请实施例提供的一种仿冒网站检测的存储设备的详细描述,可以参考对本申请实施例提供的一种仿冒网站的检测方法的相关描述,这里不再赘述。
与上述的仿冒网站的检测方法相对应,本申请还提供一种仿冒网页的检测方法。请参见图4所示,其为本申请实施例提供的一种仿冒网页的检测方法的流程图。
本申请提供的仿冒网页的检测方法包括如下步骤:
步骤S401:获得第一网页的信息;
步骤S402:根据所述第一网页的信息以及以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;
步骤S403:从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;
步骤S404:根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;
步骤S405:根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
需要说明的是,对于本申请实施例提供的一种仿冒网页的检测方法的详细描述,可以参考对本申请实施例提供的一种仿冒网站的检测方法的相关描述,这里不再赘述。
与上述的仿冒网站的检测方法相对应,本申请还提供一种仿冒网页的检测方法。请参见图5所示,其为本申请实施例提供的一种仿冒网页的检测装置的示意图。
本申请提供的仿冒网页的检测装置包括如下部分:
第一获得单元501,用于获得第一网页的信息;
第二获得单元502,用于根据所述第一网页的信息以及以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;
第三获得单元503,用于从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;
第四获得单元504,用于根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;
确定单元505,用于根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
需要说明的是,对于本申请实施例提供的一种仿冒网页的检测装置的详细描述,可以参考对本申请实施例提供的一种仿冒网站的检测装置的相关描述,这里不再赘述。
与上述的仿冒网站的检测方法相对应,本申请还提供一种仿冒网页的检测方法。请参见图6所示,其为本申请实施例提供的一种仿冒网页检测的电子设备示意图。
本申请提供的仿冒网页检测电子设备包括如下部分:
处理器601;以及
存储器602,用于存储仿冒网页的检测方法的程序,该设备通电并通过所述处理器运行该仿冒网页的检测方法的程序后,执行下述步骤:
获得第一网页的信息;
根据所述第一网页的信息以及以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;
根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
需要说明的是,对于本申请实施例提供的一种仿冒网页检测的电子设备的详细描述,可以参考对本申请实施例提供的一种仿冒网页的检测方法的相关描述,这里不再赘述。
与上述提供的一种仿冒网页的检测方法相对应的,本申请实施例还提供一种仿冒网页检测的存储设备。本申请实施例所述的仿冒网页检测的存储设备包括如下部分:存储有仿冒网页的检测方法的程序,该程序被处理器运行,执行下述步骤:
获得第一网页的信息;
根据所述第一网页的信息以及以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;
根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
需要说明的是,对于本申请实施例提供的一种仿冒网页检测的存储设备的详细描述,可以参考对本申请实施例提供的一种仿冒网页的检测方法的相关描述,这里不再赘述。
与上述的仿冒网站的检测装置相对应,本申请还提供一种仿冒网站的检测***。由于本***实施例相似于上述仿冒网页的检测装置和仿冒网站的检测装置的实施例,相关之处请参见上述装置实施例部分说明即可。
与上述提供的一种仿冒网页的检测方法相对应的,本申请实施例还提供一种数据处理方法,包括:获取待处理的第一网站的网页信息,从网页信息对应的网页中提取网页要素信息,根据网页要素信息,生成网页要素指纹信息;根据网页要素指纹信息,获得第一网页指纹信息。从以网页指纹信息为索引的网页指纹信息数据库中,获得与第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。其中,网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系,根据第二网页指纹信息以及网页指纹信息数据库,获得与第二网页指纹信息对应的第二网站信息,输出包括第二网站信息的目标信息。
所述的从以网页指纹信息为索引的网页指纹信息数据库中,获得与第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息具体包括:计算第一网页指纹信息与网页指纹信息数据库中的网页指纹信息之间的相似度,将相似度达到或超过第一相似度阈值的网页指纹信息数据库中的网页指纹信息确定为第二网页指纹信息。其中,与同一个第一网页指纹信息之间的相似度达到或超过第一相似度阈值的网页指纹信息数据库中的网页指纹信息为多个网页指纹信息。所述的将相似度达到或超过第一相似度阈值的网页指纹信息数据库中的网页指纹信息确定为第二网页指纹信息,具体包括:从多个网页指纹信息中选择相似度最高的网页指纹信息作为与同一个第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (40)

1.一种仿冒网站的检测方法,其特征在于,包括:
获得第一网站的信息;
根据所述第一网站的信息以及,通过正向索引技术原理构建的以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;
根据倒排索引技术原理,构建以网页指纹信息为索引的网页指纹信息数据库,从所述以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;
根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
2.根据权利要求1所述的仿冒网站的检测方法,其特征在于,还包括:
获得网站信息;
根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;
根据所述网页信息生成网页指纹信息;
建立以所述网站信息为索引、包括所述网站信息与所述网页指纹信息之间的对应关系的网站信息数据库。
3.根据权利要求2所述的仿冒网站的检测方法,其特征在于,所述根据所述网页信息生成网页指纹信息,包括:
从所述网页信息对应的网页中提取网页要素信息;
根据所述网页要素信息,生成网页要素指纹信息;
根据所述网页要素指纹信息,获得网页指纹信息。
4.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,包括:
以所述第一网站的信息为索引,在所述网站信息数据库包括的网站信息与网页指纹信息之间的对应关系中,查找与所述第一网站的信息对应的第一网页指纹信息。
5.根据权利要求1所述的仿冒网站的检测方法,其特征在于,还包括:
获得网站信息;
根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;
根据所述网页信息生成网页指纹信息;
建立以所述网页指纹信息为索引、包括所述网页指纹信息与所述网站信息之间的对应关系的网页指纹信息数据库。
6.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,包括:
计算所述第一网页指纹信息与所述网页指纹信息数据库中的网页指纹信息之间的相似度;
将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息。
7.根据权利要求6所述的仿冒网站的检测方法,其特征在于,与同一个第一网页指纹信息之间的相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息为多个网页指纹信息;
所述将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息,包括:从所述多个网页指纹信息中选择相似度最高的网页指纹信息作为与所述同一个第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。
8.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息,包括:
以所述第二网页指纹信息为索引,在所述网页指纹信息数据库包括的网页指纹信息与网站信息之间的对应关系中,查找与所述第二网页指纹信息对应的第二网站的信息。
9.根据权利要求1所述的仿冒网站的检测方法,其特征在于,还包括:
计算所述第一网站包括的网页与所述第二网站包括的网页之间的相似度;
根据所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,计算所述第一网站与所述第二网站之间的相似度。
10.根据权利要求9所述的仿冒网站的检测方法,其特征在于,所述计算所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,包括:计算所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度;
所述根据所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,计算所述第一网站与所述第二网站之间的相似度,包括:针对所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度进行深度学习融合计算,得到所述第一网站与所述第二网站之间的相似度。
11.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站,包括:
如果所述第一网站与所述第二网站之间的相似度达到或超过第二相似度阈值,则确定所述第一网站和所述第二网站中存在仿冒网站。
12.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述第一网页指纹信息包括第一URL指纹信息、第一HTML指纹信息、第一文本指纹信息以及第一网页资源指纹信息中的至少一种指纹信息;
所述第二网页指纹信息包括第二URL指纹信息、第二HTML指纹信息、第二文本指纹信息以及第二网页资源指纹信息中的至少一种指纹信息;
所述从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,包括以下至少一种方式:
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一URL指纹信息的相似度达到或超过第一相似度阈值的第二URL指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一HTML指纹信息的相似度达到或超过第一相似度阈值的第二HTML指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一文本指纹信息的相似度达到或超过第一相似度阈值的第二文本指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页资源指纹信息的相似度达到或超过第一相似度阈值的第二网页资源指纹信息。
13.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述第一网站的信息为疑似仿冒网站的信息,所述第二网站的信息为正规网站的信息;或者,所述第一网站的信息为正规网站的信息,所述第二网站的信息为疑似仿冒网站的信息;
所述根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站,包括:根据所述疑似仿冒网站与所述正规网站之间的相似度,判断所述疑似仿冒网站是否为所述正规网站的仿冒网站。
14.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述第一网站的信息为所述第一网站的域名信息,所述第二网站的信息为所述第二网站的域名信息。
15.根据权利要求3所述的仿冒网站的检测方法,其特征在于,所述根据所述网页要素信息,生成网页要素指纹信息,包括:
根据所述网页要素信息,获得所述网页要素信息的片段信息;
根据所述网页要素信息的片段信息,生成所述网页要素信息对应的片段指纹信息;
所述根据所述网页要素指纹信息,获得网页指纹信息,包括:根据所述网页要素信息对应的片段指纹信息,获得所述网页指纹信息。
16.一种仿冒网站的检测装置,其特征在于,包括:
第一获得单元,用于获得第一网站的信息;
第二获得单元,用于根据所述第一网站的信息以及,通过正向索引技术原理构建的以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;
第三获得单元,用于根据倒排索引技术原理,构建以网页指纹信息为索引的网页指纹信息数据库,从所述以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;
第四获得单元,用于根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;
确定单元,用于根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
17.根据权利要求16所述的仿冒网站的检测装置,其特征在于,还包括:
第五获得单元,用于获得网站信息;
第六获得单元,用于根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;
第一生成单元,用于根据所述网页信息生成网页指纹信息;
第一建立单元,用于建立以所述网站信息为索引、包括所述网站信息与所述网页指纹信息之间的对应关系的网站信息数据库。
18.根据权利要求17所述的仿冒网站的检测装置,其特征在于,所述第一生成单元具体用于:
从所述网页信息对应的网页中提取网页要素信息;
根据所述网页要素信息,生成网页要素指纹信息;
根据所述网页要素指纹信息,获得网页指纹信息。
19.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述第二获得单元具体用于,以所述第一网站的信息为索引,在所述网站信息数据库包括的网站信息与网页指纹信息之间的对应关系中,查找与所述第一网站的信息对应的第一网页指纹信息。
20.根据权利要求16所述的仿冒网站的检测装置,其特征在于,还包括:
第七获得单元,用于获得网站信息;
第八获得单元,用于根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;
第二生成单元,用于根据所述网页信息生成网页指纹信息;
第二建立单元,用于建立以所述网页指纹信息为索引、包括所述网页指纹信息与所述网站信息之间的对应关系的网页指纹信息数据库。
21.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述第三获得单元具体用于:计算所述第一网页指纹信息与所述网页指纹信息数据库中的网页指纹信息之间的相似度;
将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息。
22.根据权利要求21所述的仿冒网站的检测装置,其特征在于,与同一个第一网页指纹信息之间的相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息为多个网页指纹信息;
所述第四获得单元具体用于,从所述多个网页指纹信息中选择相似度最高的网页指纹信息作为与所述同一个第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。
23.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述第四获得单元具体用于,以所述第二网页指纹信息为索引,在所述网页指纹信息数据库包括的网页指纹信息与网站信息之间的对应关系中,查找与所述第二网页指纹信息对应的第二网站的信息。
24.根据权利要求16所述的仿冒网站的检测装置,其特征在于,还包括:
第一计算单元,用于计算所述第一网站包括的网页与所述第二网站包括的网页之间的相似度;
第二计算单元,用于根据所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,计算所述第一网站与所述第二网站之间的相似度。
25.根据权利要求24所述的仿冒网站的检测装置,其特征在于,所述第一计算单元具体用于,计算所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度;
所述第一计算单元具体用于,针对所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度进行深度学习融合计算,得到所述第一网站与所述第二网站之间的相似度。
26.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述确定单元具体用于,如果所述第一网站与所述第二网站之间的相似度达到或超过第二相似度阈值,则确定所述第一网站和所述第二网站中存在仿冒网站。
27.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述第一网页指纹信息包括第一URL指纹信息、第一HTML指纹信息、第一文本指纹信息以及第一网页资源指纹信息中的至少一种指纹信息;
所述第二网页指纹信息包括第二URL指纹信息、第二HTML指纹信息、第二文本指纹信息以及第二网页资源指纹信息中的至少一种指纹信息;
所述第三获得单元具体用于:从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一URL指纹信息的相似度达到或超过第一相似度阈值的第二URL指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一HTML指纹信息的相似度达到或超过第一相似度阈值的第二HTML指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一文本指纹信息的相似度达到或超过第一相似度阈值的第二文本指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页资源指纹信息的相似度达到或超过第一相似度阈值的第二网页资源指纹信息。
28.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述第一网站的信息为疑似仿冒网站的信息,所述第二网站的信息为正规网站的信息;或者,所述第一网站的信息为正规网站的信息,所述第二网站的信息为疑似仿冒网站的信息;
所述确定单元具体用于,根据所述疑似仿冒网站与所述正规网站之间的相似度,判断所述疑似仿冒网站是否为所述正规网站的仿冒网站。
29.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述第一网站的信息为所述第一网站的域名信息,所述第二网站的信息为所述第二网站的域名信息。
30.根据权利要求18所述的仿冒网站的检测装置,其特征在于,所述第一生成单元具体用于:
根据所述网页要素信息,获得所述网页要素信息的片段信息;
根据所述网页要素信息的片段信息,生成所述网页要素信息对应的片段指纹信息;
所述根据所述网页要素指纹信息,获得网页指纹信息,包括:根据所述网页要素信息对应的片段指纹信息,获得所述网页指纹信息。
31.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储仿冒网站的检测方法的程序,该设备通电并通过所述处理器运行该仿冒网站的检测方法的程序后,执行下述步骤:
获得第一网站的信息;
根据所述第一网站的信息以及,通过正向索引技术原理构建的以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系;
根据倒排索引技术原理,构建以网页指纹信息为索引的网页指纹信息数据库,从所述以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;
根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
32.一种计算机可读存储介质,其特征在于,存储有仿冒网站的检测方法的程序,该程序被处理器运行,执行下述步骤:
获得第一网站的信息;
根据所述第一网站的信息以及,通过正向索引技术原理构建的以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;
根据倒排索引技术原理,构建以网页指纹信息为索引的网页指纹信息数据库,从所述以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;
根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
33.一种仿冒网页的检测方法,其特征在于,包括:
获得第一网页的信息;
根据所述第一网页的信息以及,通过正向索引技术原理构建的以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;
根据倒排索引技术原理,构建以网页指纹信息为索引的网页指纹信息数据库,从所述以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;
根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
34.一种仿冒网页的检测装置,其特征在于,包括:
第一获得单元,用于获得第一网页的信息;
第二获得单元,用于根据所述第一网页的信息以及,通过正向索引技术原理构建的以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;
第三获得单元,用于根据倒排索引技术原理,构建以网页指纹信息为索引的网页指纹信息数据库,从所述以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;
第四获得单元,用于根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;
确定单元,用于根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
35.一种仿冒网页的检测***,其特征在于,包括:上述权利要求16所述的仿冒网站的检测装置以及上述权利要求34所述的仿冒网页的检测装置中的至少一种装置。
36.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储仿冒网页的检测方法的程序,该设备通电并通过所述处理器运行该仿冒网页的检测方法的程序后,执行下述步骤:
获得第一网页的信息;
根据所述第一网页的信息以及,通过正向索引技术原理构建的以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;
根据倒排索引技术原理,构建以网页指纹信息为索引的网页指纹信息数据库,从所述以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;
根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
37.一种计算机可读存储介质,其特征在于,存储有仿冒网页的检测方法的程序,该程序被处理器运行,执行下述步骤:
获得第一网页的信息;
根据所述第一网页的信息以及,通过正向索引技术原理构建的以网页信息为索引的网页信息数据库,获得与所述第一网页的信息对应的第一网页指纹信息,其中,所述网页信息数据库包括网页信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网页的特征;
根据倒排索引技术原理,构建以网页指纹信息为索引的网页指纹信息数据库,从所述以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网页信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网页的信息;
根据所述第一网页与所述第二网页之间的相似度,确定所述第一网页和所述第二网页中是否存在仿冒网页。
38.一种数据处理方法,其特征在于,包括:
获取待处理的第一网站的网页信息;
从所述网页信息对应的网页中提取网页要素信息;
根据所述网页要素信息,生成网页要素指纹信息;
根据所述网页要素指纹信息,获得第一网页指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站信息;
输出包括所述第二网站信息的目标信息。
39.根据权利要求38所述的数据处理方法,其特征在于,所述从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,包括:
计算所述第一网页指纹信息与所述网页指纹信息数据库中的网页指纹信息之间的相似度;
将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息。
40.根据权利要求39所述的数据处理方法,其特征在于,与同一个第一网页指纹信息之间的相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息为多个网页指纹信息;
所述将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息,包括:从所述多个网页指纹信息中选择相似度最高的网页指纹信息作为与所述同一个第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。
CN201811417426.1A 2018-11-26 2018-11-26 一种仿冒网站的检测方法、装置及*** Active CN111224923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811417426.1A CN111224923B (zh) 2018-11-26 2018-11-26 一种仿冒网站的检测方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811417426.1A CN111224923B (zh) 2018-11-26 2018-11-26 一种仿冒网站的检测方法、装置及***

Publications (2)

Publication Number Publication Date
CN111224923A CN111224923A (zh) 2020-06-02
CN111224923B true CN111224923B (zh) 2022-07-22

Family

ID=70830240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811417426.1A Active CN111224923B (zh) 2018-11-26 2018-11-26 一种仿冒网站的检测方法、装置及***

Country Status (1)

Country Link
CN (1) CN111224923B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254844B (zh) * 2021-07-07 2021-09-24 成都无糖信息技术有限公司 一种基于知识图谱和图片特征的诈骗网站识别方法与***
CN114401115B (zh) * 2021-12-20 2024-04-05 浙江乾冠信息安全研究院有限公司 对反检测的网页篡改进行检测的方法、***、装置和介质
CN115801455B (zh) * 2023-01-31 2023-05-26 北京微步在线科技有限公司 一种基于网站指纹的仿冒网站检测方法及装置
CN116723050B (zh) * 2023-08-02 2023-10-27 北京微步在线科技有限公司 基于图数据库的仿冒网站检测方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN102611691A (zh) * 2012-01-12 2012-07-25 深信服网络科技(深圳)有限公司 一种用于检测钓鱼网站的方法、***及网关设备
CN103136251A (zh) * 2011-11-29 2013-06-05 星云融创(北京)科技有限公司 识别网页的方法和装置
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN104050257A (zh) * 2014-06-13 2014-09-17 百度国际科技(深圳)有限公司 钓鱼网页的检测方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630987B1 (en) * 2004-11-24 2009-12-08 Bank Of America Corporation System and method for detecting phishers by analyzing website referrals
US8291065B2 (en) * 2004-12-02 2012-10-16 Microsoft Corporation Phishing detection, prevention, and notification
US8205255B2 (en) * 2007-05-14 2012-06-19 Cisco Technology, Inc. Anti-content spoofing (ACS)
CN103428183B (zh) * 2012-05-23 2017-02-08 北京新媒传信科技有限公司 恶意网址的识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN103136251A (zh) * 2011-11-29 2013-06-05 星云融创(北京)科技有限公司 识别网页的方法和装置
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN102611691A (zh) * 2012-01-12 2012-07-25 深信服网络科技(深圳)有限公司 一种用于检测钓鱼网站的方法、***及网关设备
CN104050257A (zh) * 2014-06-13 2014-09-17 百度国际科技(深圳)有限公司 钓鱼网页的检测方法和装置

Also Published As

Publication number Publication date
CN111224923A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111224923B (zh) 一种仿冒网站的检测方法、装置及***
US8719308B2 (en) Method and system to process unstructured data
US7779001B2 (en) Web page ranking with hierarchical considerations
US8832102B2 (en) Methods and apparatuses for clustering electronic documents based on structural features and static content features
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN106095979B (zh) Url合并处理方法和装置
US8560519B2 (en) Indexing and searching employing virtual documents
US8515986B2 (en) Query pattern generation for answers coverage expansion
US20120297025A1 (en) Detection of boilerplate content
US20090259649A1 (en) System and method for detecting templates of a website using hyperlink analysis
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN110619075B (zh) 一种网页识别方法与设备
CN112231598A (zh) 网页路径导航方法、装置、电子设备及存储介质
CN105786936A (zh) 用于对搜索数据进行处理的方法及设备
CN108280102B (zh) 上网行为记录方法、装置及用户终端
CN110008393B (zh) 一种用于获取网站信息的方法及设备
Liu et al. Discovering homogenous service communities through web service clustering
CN114003799A (zh) 事件推荐方法、装置和设备
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
US9684661B2 (en) Method for correlating data
Jung Discovering social bursts by using link analytics on large-scale social networks
SalahEldeen et al. Reading the correct history? Modeling temporal intention in resource sharing
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining
Renteria-Agualimpia et al. Identifying geospatial inconsistency of web services metadata using spatial ranking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant