CN106127042A - 网页视觉相似度识别方法 - Google Patents

网页视觉相似度识别方法 Download PDF

Info

Publication number
CN106127042A
CN106127042A CN201610529933.9A CN201610529933A CN106127042A CN 106127042 A CN106127042 A CN 106127042A CN 201610529933 A CN201610529933 A CN 201610529933A CN 106127042 A CN106127042 A CN 106127042A
Authority
CN
China
Prior art keywords
data
characteristic vector
webpage
recognition method
snapshot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610529933.9A
Other languages
English (en)
Inventor
王碧波
董雪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Miracle Network Technology Co Ltd
Original Assignee
Suzhou Miracle Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Miracle Network Technology Co Ltd filed Critical Suzhou Miracle Network Technology Co Ltd
Priority to CN201610529933.9A priority Critical patent/CN106127042A/zh
Publication of CN106127042A publication Critical patent/CN106127042A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种网页视觉相似度识别方法,其包括如下步骤:S1、确认目标网站是否存在,如存在,执行步骤S2;S2、根据网站的网页生成快照,并将快照数据保存于数据库中;S3、对所述快照数据中的文字数据和图像数据进行分离,根据分离的文字数据和图像数据分别生成文字数据的特征向量和和图像数据的特征向量;S4、将得到的文字数据的特征向量和和图像数据的特征向量,与数据库中的已保存的页面图片的特征向量进行两两对比,获得两张图片之间的相似度信息。本发明的网页视觉相似度识别方法鉴别快速,且结果准确,有效避免了网站的伪造和仿冒,维护了网络的安全,有利于互联网技术的发展。

Description

网页视觉相似度识别方法
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页视觉相似度识别方法。
背景技术
目前,对于网页相似度的评估方法一般有三种,一种是通过分析网页的代码DOM结构,来判断网页的相似性,但这种判断方法因为网页的编程语言不同,会相应增加判断难度。另一个问题是大量的网页会采用相同的开源框架搭建,这些网页有可能具有相似的DOM结构,但其外观和业务可能完全不同。
第二种方法是分析网站url特征信息,来判断网站的仿冒,但这只适用于分析仿冒或钓鱼网站,并不能适用于网页视觉相似度的相似性判断。
第三种方法是通过网页视觉特征生成模块生成待检测网页的视觉特征,然后通过网页相似性计算模块计算其与特征库中网页视觉特征的相似度,最后根据相似度值分析给出网页是否为钓鱼网站的检测结果。但是,这种方法适用于页面图片很多的情况,而且必须要有一个可供对比的特征库,使用场景也只是限于进行钓鱼网站的识别,并不能进行页面变化追踪。
因此,针对上述问题,有必要提出进一步的解决方案。
发明内容
本发明的目的在于提供一种网页视觉相似度识别方法,以克服现有技术中存在的问题。
为实现上述发明目的,本发明提供一种网页视觉相似度识别方法,其包括如下步骤:
S1、确认目标网站是否存在,如存在,执行步骤S2;
S2、根据网站的网页生成快照,并将快照数据保存于数据库中;
S3、对所述快照数据中的文字数据和图像数据进行分离,根据分离的文字数据和图像数据分别生成文字数据的特征向量和和图像数据的特征向量;
S4、将得到的文字数据的特征向量和和图像数据的特征向量,与数据库中的已保存的页面图片的特征向量进行两两对比,获得两张图片之间的相似度信息。
作为本发明的网页视觉相似度识别方法的改进,步骤S1中,通过网址或ip的扫描方式确认目标网站是否存在。
作为本发明的网页视觉相似度识别方法的改进,步骤S2中,通过网站的网页url,获得网页的页面,对页面生成快照,并将快照数据保存于数据库中。
作为本发明的网页视觉相似度识别方法的改进,步骤S3中,对所述快照数据进行ocr文字识别,根据文字识别的结果,将文字数据提取出来。
作为本发明的网页视觉相似度识别方法的改进,所述文字数据包括文字内容和位置信息。
作为本发明的网页视觉相似度识别方法的改进,步骤S3中,根据网页页面的特征,对快照进行切割,根据切割后的子图片,生成图像数据的特征向量。
作为本发明的网页视觉相似度识别方法的改进,根据网页页面的特征,对快照进行切割,针对切割后的任一子图片,获得其像素点信息以及其与相邻子图片之间的边界变化信息组成的数组,根据所述像素点信息和边界变化信息组成的数组,生成图像数据的特征向量。
作为本发明的网页视觉相似度识别方法的改进,步骤S4中,将得到的文字数据的特征向量和和图像数据的特征向量,与数据库中的已保存的页面图片的特征向量进行两两对比,判断二者特征向量差的模是否大于阈值,根据判断结果,获得两张图片之间的相似度信息。
与现有技术相比,本发明的有益效果是:本发明的网页视觉相似度识别方法鉴别快速,且结果准确,有效避免了网站的伪造和仿冒,维护了网络的安全,有利于互联网技术的发展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的网页视觉相似度识别方法一具体实施方式的方法流程示意图;
图2为步骤S3一具体实施方式中对图片进行分割的原理示意图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
如图1所示,本发明的网页视觉相似度识别方法包括:
S1、确认目标网站是否存在,如存在,执行步骤S2。
其中,通过网址或ip的扫描方式确认目标网站是否存在。如存在,执行步骤S2。
S2、根据网站的网页生成快照,并将快照数据保存于数据库中。
其中,通过网站的网页url,获得网页的页面,对页面生成快照,并将快照数据保存于数据库中。所述快照的格式可以为jpg或其他易于处理的标准图片格式。
S3、对所述快照数据中的文字数据和图像数据进行分离,根据分离的文字数据和图像数据分别生成文字数据的特征向量和和图像数据的特征向量。
由于页面主要由文字和图像(如颜色区块、其他图片等)组成,从而,将图片中的文字部分和图像部分进行分离。分离后,单独对文字部分和图像部分进行对比,既可以提高判断的准确率,也不需要对页面的进行代码层的分析,从而大大提高了检测效率和准确率。
具体地,分离快照数据中的文字数据按照如下方式进行:对所述快照数据进行ocr文字识别,根据文字识别的结果,将文字数据提取出来。所述文字数据包括文字内容和位置信息。然后,根据所述文字内容和位置信息生成文字数据的特征向量。
分离快照数据中的图像数据按照如下方式进行:根据网页页面的特征,对快照进行切割,根据切割后的子图片,生成图像数据的特征向量。
进一步地,上述实施方式中,根据网页页面的特征,对快照进行切割,针对切割后的任一子图片,获得其像素点信息以及其与相邻子图片之间的边界变化信息组成的数组,根据所述像素点信息和边界变化信息组成的数组,生成图像数据的特征向量。
下面针对分离快照数据中的图像数据的方式进行举例说明。
如图2所示,假设图片分割为A、B、C、D四个子图片,为了获取A区域的特征向量,首先,对A区域进行位置分割,得到A区域占据页面图片的位置点信息,每个位置点处的像素值记录下来。同时,A区域的邻域B和D与A有两条接壤的边界,从A到B的边界两边各取4个像素点,计算出变化值,如此一组边界上的变化值组成一个数组。同理,获得A到D的变化值数组。从而,A区域的像素点信息和A到B、D的边界变化信息组成的数组可以得到A的特征向量。依此类推,获得B、C、D区域的特征向量。
S4、将得到的文字数据的特征向量和和图像数据的特征向量,与数据库中的已保存的页面图片的特征向量进行两两对比,获得两张图片之间的相似度信息。
其中,将得到的文字数据的特征向量和和图像数据的特征向量,与数据库中的已保存的页面图片的特征向量进行两两对比,判断二者特征向量差的模是否大于阈值,根据判断结果,获得两张图片之间的相似度信息。具体地,如大于阈值,则判定两张图片不相似,否则,两张图片相似。
综上所述,本发明的网页视觉相似度识别方法鉴别快速,且结果准确,有效避免了网站的伪造和仿冒,维护了网络的安全,有利于互联网技术的发展。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (8)

1.一种网页视觉相似度识别方法,其特征在于,所述网页视觉相似度识别方法包括如下步骤:
S1、确认目标网站是否存在,如存在,执行步骤S2;
S2、根据网站的网页生成快照,并将快照数据保存于数据库中;
S3、对所述快照数据中的文字数据和图像数据进行分离,根据分离的文字数据和图像数据分别生成文字数据的特征向量和和图像数据的特征向量;
S4、将得到的文字数据的特征向量和和图像数据的特征向量,与数据库中的已保存的页面图片的特征向量进行两两对比,获得两张图片之间的相似度信息。
2.根据权利要求1所述的网页视觉相似度识别方法,其特征在于,步骤S1中,通过网址或ip的扫描方式确认目标网站是否存在。
3.根据权利要求1所述的网页视觉相似度识别方法,其特征在于,步骤S2中,通过网站的网页url,获得网页的页面,对页面生成快照,并将快照数据保存于数据库中。
4.根据权利要求1所述的网页视觉相似度识别方法,其特征在于,步骤S3中,对所述快照数据进行ocr文字识别,根据文字识别的结果,将文字数据提取出来。
5.根据权利要求4所述的网页视觉相似度识别方法,其特征在于,所述文字数据包括文字内容和位置信息。
6.根据权利要求1所述的网页视觉相似度识别方法,其特征在于,步骤S3中,根据网页页面的特征,对快照进行切割,根据切割后的子图片,生成图像数据的特征向量。
7.根据权利要求6所述的网页视觉相似度识别方法,其特征在于,根据网页页面的特征,对快照进行切割,针对切割后的任一子图片,获得其像素点信息以及其与相邻子图片之间的边界变化信息组成的数组,根据所述像素点信息和边界变化信息组成的数组,生成图像数据的特征向量。
8.根据权利要求1所述的网页视觉相似度识别方法,其特征在于,步骤S4中,将得到的文字数据的特征向量和和图像数据的特征向量,与数据库中的已保存的页面图片的特征向量进行两两对比,判断二者特征向量差的模是否大于阈值,根据判断结果,获得两张图片之间的相似度信息。
CN201610529933.9A 2016-07-06 2016-07-06 网页视觉相似度识别方法 Pending CN106127042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610529933.9A CN106127042A (zh) 2016-07-06 2016-07-06 网页视觉相似度识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610529933.9A CN106127042A (zh) 2016-07-06 2016-07-06 网页视觉相似度识别方法

Publications (1)

Publication Number Publication Date
CN106127042A true CN106127042A (zh) 2016-11-16

Family

ID=57282869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610529933.9A Pending CN106127042A (zh) 2016-07-06 2016-07-06 网页视觉相似度识别方法

Country Status (1)

Country Link
CN (1) CN106127042A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844685A (zh) * 2017-01-26 2017-06-13 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN108427881A (zh) * 2018-03-16 2018-08-21 北京知道创宇信息技术有限公司 网页篡改监控方法、装置、监控设备及可读存储介质
CN110035075A (zh) * 2019-04-03 2019-07-19 北京奇安信科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN111353397A (zh) * 2020-02-22 2020-06-30 郑州铁路职业技术学院 基于大数据和ocr的网络课堂中文板书结构化分享***
CN112307239A (zh) * 2020-10-29 2021-02-02 泰康保险集团股份有限公司 一种图像检索方法、装置、介质和设备
CN114124564A (zh) * 2021-12-03 2022-03-01 北京天融信网络安全技术有限公司 一种仿冒网站检测方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728655A (zh) * 2004-11-25 2006-02-01 刘文印 一种检测鉴别假冒网页的方法及***
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN102662959A (zh) * 2012-03-07 2012-09-12 南京邮电大学 利用空间混合索引机制检测钓鱼网页的方法
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN104133870A (zh) * 2014-07-22 2014-11-05 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728655A (zh) * 2004-11-25 2006-02-01 刘文印 一种检测鉴别假冒网页的方法及***
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
CN102170446A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于空间布局与视觉特征的钓鱼网页检测方法
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN102662959A (zh) * 2012-03-07 2012-09-12 南京邮电大学 利用空间混合索引机制检测钓鱼网页的方法
CN104133870A (zh) * 2014-07-22 2014-11-05 哈尔滨工业大学(威海) 一种网页相似度计算方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844685A (zh) * 2017-01-26 2017-06-13 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN106844685B (zh) * 2017-01-26 2020-07-28 百度在线网络技术(北京)有限公司 用于识别网站的方法、装置及服务器
CN108427881A (zh) * 2018-03-16 2018-08-21 北京知道创宇信息技术有限公司 网页篡改监控方法、装置、监控设备及可读存储介质
CN110035075A (zh) * 2019-04-03 2019-07-19 北京奇安信科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN111353397A (zh) * 2020-02-22 2020-06-30 郑州铁路职业技术学院 基于大数据和ocr的网络课堂中文板书结构化分享***
CN111353397B (zh) * 2020-02-22 2021-01-01 郑州铁路职业技术学院 基于大数据和ocr的网络课堂中文板书结构化分享***
CN112307239A (zh) * 2020-10-29 2021-02-02 泰康保险集团股份有限公司 一种图像检索方法、装置、介质和设备
CN112307239B (zh) * 2020-10-29 2024-02-02 泰康保险集团股份有限公司 一种图像检索方法、装置、介质和设备
CN114124564A (zh) * 2021-12-03 2022-03-01 北京天融信网络安全技术有限公司 一种仿冒网站检测方法、装置、电子设备及存储介质
CN114124564B (zh) * 2021-12-03 2023-11-28 北京天融信网络安全技术有限公司 一种仿冒网站检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106127042A (zh) 网页视觉相似度识别方法
JP6000899B2 (ja) テキストを自動的に検出する方法
US20160371256A1 (en) Techniques for machine language translation of text from an image based on non-textual context information from the image
US9218322B2 (en) Producing web page content
US8898296B2 (en) Detection of boilerplate content
DE202011110876U1 (de) Identifizieren von Betrieben in Bildern
US8676814B2 (en) Automatic face annotation of images contained in media content
KR20160132842A (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
US8249356B1 (en) Physical page layout analysis via tab-stop detection for optical character recognition
Pang et al. A robust panel extraction method for manga
CN103052950A (zh) 用于过滤网页内容的***和方法
CA2656425A1 (en) Recognizing text in images
Arai et al. Method for automatic e-comic scene frame extraction for reading comic on mobile devices
Shivakumara et al. Fractals based multi-oriented text detection system for recognition in mobile video images
Khare et al. Arbitrarily-oriented multi-lingual text detection in video
US20130124684A1 (en) Visual separator detection in web pages using code analysis
CN106529492A (zh) 面向网络查询基于多图融合视频主题分类与描述方法
CN113361462B (zh) 视频处理和字幕检测模型的方法及装置
CN102073678A (zh) 一种网站信息分析***及其方法
EP3564833B1 (en) Method and device for identifying main picture in web page
US20150331886A1 (en) Determining images of article for extraction
CN112396060A (zh) 基于身份证分割模型的身份证识别方法及其相关设备
US20170220857A1 (en) Image-based quality control
Carpineto et al. Automatic assessment of website compliance to the European cookie law with CooLCheck
Sano et al. A web page segmentation method based on page layouts and title blocks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116

RJ01 Rejection of invention patent application after publication