CN106294535B - 网站的识别方法和装置 - Google Patents

网站的识别方法和装置 Download PDF

Info

Publication number
CN106294535B
CN106294535B CN201610571258.6A CN201610571258A CN106294535B CN 106294535 B CN106294535 B CN 106294535B CN 201610571258 A CN201610571258 A CN 201610571258A CN 106294535 B CN106294535 B CN 106294535B
Authority
CN
China
Prior art keywords
website
verified
page
comentropy
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610571258.6A
Other languages
English (en)
Other versions
CN106294535A (zh
Inventor
邹红建
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610571258.6A priority Critical patent/CN106294535B/zh
Publication of CN106294535A publication Critical patent/CN106294535A/zh
Application granted granted Critical
Publication of CN106294535B publication Critical patent/CN106294535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种网站的识别方法和装置。所述方法包括:在设定时间段内,获取与待验证网站关联的至少两个历史更新页面;对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域;根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵;根据信息熵计算结果,对所述待验证网站进行异常识别。本发明的技术方案使用的信息熵特征的区分度好,计算简单、时效性高,可以解决现有作弊网站识别技术所带来的识别率不高、实时性差以及需要引入额外的人工标注或者数据整理工作的技术问题,优化了现有的网站识别技术,提高了异常网站的识别准确率。

Description

网站的识别方法和装置
技术领域
本发明实施例涉及计算机处理技术,尤其涉及一种网站的识别方法和装置。
背景技术
信息检索是指从信息资源的集合中查找所需文献或查找所需文献中包含的信息内容的过程。搜索引擎就是用于查找互联网信息的信息检索工具。搜索引擎的出现让人们从海量资源中获取信息变得便捷。搜索引擎出现后,随之而来的是网页作弊问题。为了经济利益或其他利益,作弊网站通过各种方法误导搜索引擎,以提高其页面在搜索引擎排序结果中的位序。由于作弊网站质量普遍不高,常常包含广告尤其是色情、赌博等方面的广告,会严重影响用户体验,因此作弊网站识别属于信息检索中的一个重要问题。作弊网站识别技术的提升,对提升搜索引擎的效果具有重要意义。
目前,作弊网站的作弊方法变化频繁,但是一般可以总结为内容作弊以及链接作弊两大类。内容作弊一般是通过在页面中堆砌热门查询(也称为Query)的方式以提高页面在搜索引擎结果中的排序;链接作弊主要针对的是计算页面重要性的页面评分算法(也称为PageRank)为原型的图算法,通过构建链接关系以提高网站权重,链接作弊还包括通过页面重定向的作弊方式。作弊网站识别技术一直是业界研究热点之一,包括朴素贝叶斯、Logistic Regression(也称逻辑回归)、SVM(Support Vector Machine,支持向量机)、集成学习、深度学习等多种机器学习方法都有应用,使用的特征包括内容特征、链接特征等。也有利用用户点击行为等外部信息进行识别。
现有的作弊网站识别技术的主要缺陷在于:对于页面结构特征不显著、文本内容上未进行作弊词语堆砌的作弊页面,难以及时识别。依赖链接关系特征的图模型算法复杂,难以满足实时识别的需求;新出现的普通网站以及比较小众网站,如何与新出现的作弊网站相区分,也是困难之一;另外,作弊网站识别任务面临一大挑战就是作弊网站更新速度快,现有的作弊识别方案或者识别模型效果随时间推移逐渐失效。增强学习和主动学习能够部分解决这一问题,但是需要引入额外的人工标注或者数据整理工作。
发明内容
有鉴于此,本发明实施例提供了一种网站的识别方法和装置,以优化现有的网站识别技术,提高异常网站的识别准确率。
在第一方面,本发明实施例提供了一种网站的识别方法,包括:
在设定时间段内,获取与待验证网站关联的至少两个历史更新页面;
对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域;
根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵;
根据信息熵计算结果,对所述待验证网站进行异常识别。
在第二方面,本发明实施例还提供了一种网站的识别装置,包括:
历史更新页面获取模块,用于在设定时间段内,获取与待验证网站关联的至少两个历史更新页面;
内容域获取模块,用于对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域;
内容域信息熵计算模块,用于根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵;
异常识别模块,用于根据信息熵计算结果,对所述待验证网站进行异常识别。
本发明实施例在设定时间段内,获取与待验证网站关联的至少两个历史更新页面;对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域;根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵;根据信息熵计算结果,对所述待验证网站进行异常识别,由于信息熵特征的区分度好、计算简单、时效性高,可以解决现有作弊网站识别技术所带来的识别率不高、实时性差以及需要引入额外的人工标注或者数据整理工作的技术问题,优化了现有的网站识别技术,提高了异常网站的识别准确率。
附图说明
图1是本发明实施例一提供的一种网站的识别方法的流程图;
图2是本发明实施例二提供的一种网站的识别方法的流程图;
图3是本发明实施例三提供的一种网站的识别方法的流程图;
图4是本发明实施例四提供的一种网站的识别装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
为了后文便于理解,首先将本发明的发明构思进行简单介绍:
发明人通过研究发现:从目的上看,作弊网站是为了获取较高排序,让网站中内嵌的广告内容获得更高访问量。其中,作弊网站的广告类别一般较为集中,多数为赌博、色情、美容医疗、***器械等。作弊网站的作弊行为是有迹可循的。为了让搜索引擎收录并获得高的排序位置,作弊网站经常更新页面内容,在页面中添加当前热门高频的查询;由于成本问题,作弊网站一般会复制相同页面内容。为了应对搜索引擎的反作弊策略,作弊网站的内容、样式、网址也需要频繁更新。
由上述分析可知:作弊网站更新频繁,且作弊网站含有广告信息,而这些广告信息在某个时段内,更新并不频繁。即,作弊网站在一些重要的位置存在不合理的冗余信息,而正常网站尤其是高质量网站不需要制作这种冗余信息,因为那样并不能多提供有价值的信息。
信息论的创始人香农将熵的概念引入信息论,作为对信息量大小的度量。信息量的大小与其不确定性的大小相关,熵值越高,不确定性越高,要描述清楚所需要的其他信息量就越大。
也即:从信息论的角度看,正常网站如果更新频繁,说明其提供的信息量大,其熵值会较大;如果更新不频繁,说明网站提供的信息量小,则熵值较小。作弊网站经常更新,预期其熵值较大,但是某些内容域或某些对象因包含了广告信息,这些广告信息更新速度慢,导致其熵值变小,即某些内容域的实际熵值与预期熵值直接存在差异。通过计算作弊网站不同内容域的熵值及其差异程度,能帮助有效识别出作弊网站。
通过上述分析,发明人创造性的提出,将信息熵这一概念引入异常网站的识别过程中,通过计算一个网站中一个或者多个内容域的信息熵,来对该网站进行异常识别。
实施例一
图1为本发明实施例一提供的一种网站的识别方法的流程图,本实施例的方法可以由网站的识别装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于用于实现异常网站识别功能的服务器中。本实施例的方法具体包括:
110、在设定时间段内,获取与待验证网站关联的至少两个历史更新页面。
在本实施例中,所述待验证网站具体是指需要进行异常识别的网站。其中,可以将搜索引擎中收录的全部网站均作为待验证网站进行异常识别,但是,考虑到异常网站(典型的,作弊网站)为了获得在搜索引擎中位序更高的排序结果,会经常更新页面内容,因此可以选取有新产生页面或者有更新页面的网站作为待验证网站,这也有助于减少计算量。
如前所述,本发明的核心即为通过分析一个待验证网站中各个内容域的信息熵来对该网站进行异常识别,而信息熵主要是衡量内容域中出现的内容的不确定程度,因此需要获取设定时间段内(例如,1小时、1天或者1周等),与待验证网站关联的至少两个历史更新页面,通过分析该历史更新页面中更新的内容,确定所述待验证网站中各个内容域的信息熵。
其中,所述与待验证网站关联的至少两个历史更新页面可以包括:与所述待验证网站的网站域名对应的至少两个历史更新页面;和/或与所述待验证网站中的同一网页地址对应的至少两个历史更新页面。
在一个具体例子中,一个待验证网站的网站域名为www.A.com,可以获取设定时间段内与该网站域名对应的全部历史更新页面作为与所述待验证网站关联的历史更新页面;进一步的,考虑到一个网站中可以同时包括有多个不同类型的子页面(例如,一个新闻网站中同时包括了“时事”、“娱乐”以及“体育”等子页面),为了进行更细粒度的分析,还可以获取所述待验证网站中与同一网页地址(例如:www.A.com/B)对应的全部历史更新页面,作为与所述待验证网站关联的历史更新页面。
120、对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域。
一般来说,一个页面中包括有不同类型的数据内容,在本实施例中,将上述不同类型的数据内容定义为域。例如:文本标题、文本正文、图片标题、图片以及图片的精准描述文本等。通过页面解析,也即对页面的HTML(HyperText Markup Language,超文本标记语言)文件进行分析,可以将一个页面将页面分为不同的域并提取这些域中包含的文本、图片等内容。
考虑到后续信息熵的计算复杂度,在本实施例中,计算信息熵时选取的所述内容域可以包括下述至少一项:文本标题域、图片域、图片标题域、图片描述文本域。
其中,所述文本标题域具体是指一个或者多个文本标题所在的页面位置,所述图片域具体是指一个或者多个图片所在的页面位置,所述图片标题域具体是指与图片对应的一个或者多个图片标题所在的页面位置,所述图片描述文本域具体是指与图片对应的一个或者多个图片精准描述文本所在的页面位置。
130、根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵。
通过信息熵的相关概念可知,一个内容域中的内容变化越频繁,该内容域中内容的不确定性越大,则该内容域的信息熵也就越大;反之,一个内容域中的内容越固定,该内容域中的内容的不确定性越小,则该内容域的信息熵也就越小。
其中,信息熵的计算公式具体为:
其中,x有n种取值:x1…xi…xn,对应概率为:P(x1)…P(xi)…P(xn)。
典型的,可以根据内容域中不同内容在各历史更新页面中的出现频次,计算各内容域的信息熵。
140、根据信息熵计算结果,对所述待验证网站进行异常识别。
在本实施例的一个优选的实施方式中,可以将待验证网站中各内容域的信息熵计算结果与一个可信网站的各内容域的信息熵进行比对,进而对所述待验证网站进行异常识别;
在本实施例的另一个优选的实施方式中,还可以将待验证网站中不同内容域的信息熵进行比对,进而对所述待验证网站进行异常识别;
在本实施例的另一个优选的实施方式中,还可以将所述信息熵计算结果作为至少一个信息熵特征值,将所述信息熵特征值与其他异常网站识别特征值进行结合,对所述待验证网站进行异常识别。
一般来说,现有技术主要使用分类器来对一个待验证网站进行异常识别,通过在该分类器中加入一个或者多个异常网站识别特征值(典型的,内容特征、链以及接特征等)完成对异常网站的识别。在本实施例中,除了可以直接使用信息熵对进行异常网站识别之外,还可以在现有的异常网站识别技术的基础上,将待验证网站中的各内容域的信息熵计算结果作为一个或者多个信息熵特征值,将所述信息熵特征值与其他异常网站识别特征值一起输入至分类器中,与现有的异常网站识别技术结合后,对所述待验证网站进行异常识别,以进一步提高异常网站的识别准确率。
本发明实施例在设定时间段内,获取与待验证网站关联的至少两个历史更新页面;对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域;根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵;根据信息熵计算结果,对所述待验证网站进行异常识别,由于信息熵特征的区分度好,计算简单、时效性高,可以解决现有作弊网站识别技术所带来的识别率不高、实时性差以及需要引入额外的人工标注或者数据整理工作的技术问题,优化了现有的网站识别技术,提高了异常网站的识别准确率。
实施例二
图2是本发明实施例二提供的一种网站的识别方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将在设定时间段内,获取与待验证网站关联的至少两个历史更新页面具体优化为:在设定时间段内,通过网络爬虫抓取网络中新产生的,和/或有更新的页面;将抓取的页面按照网站域名进行聚簇后,将与聚类簇对应的网站作为所述待验证网站;根据所述聚类簇中包括的页面,获取与所述待验证网站关联的至少两个历史更新页面;
同时,将根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵具体优化为:分别在各所述历史更新页面的相同目标内容域中,提取至少一个比对对象;根据所述比对对象在各所述历史更新页面的目标内容域中的出现频次,计算所述比对对象的出现概率;根据所述比对对象的出现概率,计算与所述目标内容域对应的信息熵。
相应的,本实施例的方法具体包括:
210、在设定时间段内,通过网络爬虫抓取网络中新产生的,和/或有更新的页面。
在本实施例中,考虑到异常网站,尤其是作弊网站一般为更新的比较频繁的网站。因此,可以首先获取通过网络爬虫抓取网络中新产生的,以及有更新的页面,通过对这些页面进行合并按照网站聚簇,可以进而确定出相应的待验证网站。
220、将抓取的页面按照网站域名进行聚簇后,将与聚类簇对应的网站作为所述待验证网站。
230、根据所述聚类簇中包括的页面,获取与所述待验证网站关联的至少两个历史更新页面。
其中,如果所述与待验证网站关联的至少两个历史更新页面具体为与所述待验证网站的网站域名对应的至少两个历史更新页面,则根据所述聚类簇中包括的页面,获取与所述待验证网站关联的至少两个历史更新页面具体可以包括:
将所述聚类簇中包括的全部页面,直接作为与所述待验证网站关联的历史更新页面;
如果所述与待验证网站关联的至少两个历史更新页面具体为与所述待验证网站中的同一网页地址对应的至少两个历史更新页面,则根据所述聚类簇中包括的页面,获取与所述待验证网站关联的至少两个历史更新页面具体可以包括:
将所述聚类簇中包括的页面按照URL(Uniform Resource Locator,统一资源定位符)地址进行分组,其中,同一分组中的页面对应于一个相同的URL地址;获取同一分组中包括的页面作为与所述待验证网站关联的历史更新页面。
240、对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域。
250、分别在各所述历史更新页面的相同目标内容域中,提取至少一个比对对象。
在本实施例中,如果所述目标内容域中的内容包括文本,则所述比对对象可以包括:原始文本、语义签名或者语义类别;如果所述目标内容域中的内容包括图片,则所述比对对象可以包括:原始图片或者图片类别。
其中,所述原始文本具体是指某个内容域中直接出现的文本内容,例如:文本标题域中的文本内容为:“2016.6.17日,XX公司在美国上市”,则上述文本内容即为原始文本;
语义签名是对原始文本的改进,即对原始文本进行语义识别和处理,保留原始文本中的核心语义内容,并表示为若干核心词语的组合,这种核心词语的组合,称之为语义签名。续前例,针对“2016.6.17日,XX公司在美国上市”这一原始文本,其所对应的语义签名为“XX公司、美国、上市”;
语义类别指原始文本内容的语义类别。续前例,针对“2016.6.17日,XX公司在美国上市”这一原始文本,其所对应的语义类别为“财经”。
可以理解的是,原始文本、语义签名以及语义类别代表粗细粒度不同的信息类型,相应的,通过计算这三种信息类型的信息熵,可以得到粗细粒度不同的信息量度量结果。在实际应用时,本领域技术人员可以根据实际的异常网站识别精度,选取不同粗细粒度的信息类型作为所述比对对象。
相类似的,所述原始图片具体是指某个内容域中直接出现的图片内容,所述图片类别,具体是指图片在某分类体系下的类别。
当前,本领域技术人员可以理解的是,还可以在内容域中获取其他形式的比对对象,实际上,凡是能够清晰界定和识别的页面版块或页面信息类型的数据均可以作为所述比对对象,本实施例对此并不进行限制。
260、根据所述比对对象在各所述历史更新页面的目标内容域中的出现频次,计算所述比对对象的出现概率。
在一个具体例子中,在一天之内,待验证网站对应于三个历史更新页面,历史更新页面1、历史更新页面2以及历史更新页面3,选取的目标内容域为文本标题域,选取的比对对象为原始文本。
其中,在历史更新页面1的文本标题域中出现的原始文本包括:文本标题1、文本标题2以及文本标题3;在历史更新页面2中的文本标题域中出现的原始文本包括:文本标题1、文本标题3以及文本标题4;在历史更新页面3中的文本标题域中出现的原始文本包括:文本标题3以及文本标题5。
相应的,在上述三个历史更新页面中一共出现了8个文本标题,文本标题1在上述三个历史更新页面中共出现2次,进而可以确定与文本标题对应的出现概率为2/8;文本标题2在上述三个历史更新页面中共出现1次,进而可以确定与文本标题对应的出现概率为1/8;文本标题3在上述三个历史更新页面中共出现3次,进而可以确定与文本标题对应的出现概率为3/8;文本标题4在上述三个历史更新页面中共出现1次,进而可以确定与文本标题对应的出现概率为1/8;文本标题5在上述三个历史更新页面中共出现1次,进而可以确定与文本标题5对应的出现概率为1/8。
270、根据所述比对对象的出现概率,计算与所述目标内容域对应的信息熵。
根据信息熵计算公式,可以得到上述与所述目标内容域对应的信息熵H为:
H=(1/4)log24+(1/8)log28+(3/8)log23/8+(1/8)log28+(1/8)log28。
280、根据信息熵计算结果,对所述待验证网站进行异常识别。
发明人通过分析各种作弊网站的特点后发现:如果在与同一网站对应的多个历史更新页面中,页面主要图片大量重复(图片的信息熵小),而图片描述文本或文本标题却鲜见重复(图片描述文本或者文本标题的信息熵大),则该网站有较大概率为作弊网站;此外,如果图片类别的信息熵与图片标题的信息熵存在明显差异,则该网站也有较大概率为作弊网站。
据此,在本实施例的一个优选的实施方式中,根据信息熵计算结果,对所述待验证网站进行异常识别可以包括:
如果与所述待验证网站对应的各内容域的信息熵的总和小于设定第一门限值,则确定所述待验证网站为异常网站;或者
如果与所述待验证网站对应的至少一个目标内容域的信息熵小于设定第二门限值,则确定所述待验证网站为异常网站;或者
如果与所述待验证网站对应的至少两个目标内容域的比值小于设定第三门限值,则确定所述待验证网站为异常网站。
其中,所述第一门限值、第二门限值以及第三门限值可以根据实际情况进行预设,本实施例对此并不进行限制。
本实施例的技术方案通过筛选某个时段内新产生或者有更新的页面,将来自相同网站的页面聚合在一起,并根据聚合结果选取待验证网站进行异常识别的方式,相比于将搜索引擎收录的全部网站均进行异常识别的方式,在不显著增加漏检率的前提下,可以大大减少计算量;此外,通过根据一个网站中各个内容域的信息熵差异对网站进行异常识别的方式,不需要引入任何参考网站,仅仅根据待验证网站中不同内容域的信息熵差异特点,即可实现简单、准确的识别出异常网站的技术效果。
在上述各实施例的基础上,在根据所述比对对象在各所述目标内容域中的出现频次,计算所述比对对象的出现概率之前,还可以包括:
如果确定所述比对对象为时效性简单重复文本,则在各所述历史更新页面中,分别获取与所述比对对象关联的正文内容;如果在不同历史更新页面中,与相同目标比对对象对应的正文内容不相同,则将所述目标比对对象标记为不同的比对对象。
这样设置的原因是:在计算信息熵时,对具有时效性的形式相同的文本需要特殊处理。例如,像“一周快讯”、“国内要闻”这种新闻标题,在不同时间对应的正文内容不同,在计算信息熵时,需要结合正文内容进行判断。也即:在历史更新页面1以及历史更新页面2中均出现了“一周快讯”这一比对对象,如果仅统计“一周快讯”的出现频次的话,则该比对对象的出现概率为1。但是,考虑到“一周快讯”是一个具有时效性的文本,还要继续在历史更新页面1以及历史更新页面2中比对与“一周快讯”对应的正文内容,如果二者不同,则会将历史更新页面1中的“一周快讯”以及历史更新页面2中的“一周快讯”识别为不同的比对对象,进而可以确定该比对对象的出现概率为1/2。
通过上述设置,可以提高信息熵的计算准确度,进而可以提高异常网站的识别准确度。
实施例三
图3是本发明实施例二提供的一种网站的识别方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,将根据信息熵计算结果,对所述待验证网站进行异常识别具体优化为:根据所述待验证网站的数据特征,在可信网站列表中获取与所述待验证网站关联的参考网站;获取与所述参考网站对应的至少一个内容域的信息熵;在所述待验证网站以及所述参考网站中,选取至少一个关键内容域;根据所述待验证网站以及所述参考网站中,与所述关键内容域分别对应的信息熵,计算所述待验证网站与所述参考网站之间的差异度因子;如果所述差异度因子满足设定阈值条件,则确定所述待验证网站为异常网站。
相应的,本实施例的方法具体包括:
310、在设定时间段内,获取与待验证网站关联的至少两个历史更新页面。
320、对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域。
330、根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵。
340、根据所述待验证网站的数据特征,在可信网站列表中获取与所述待验证网站关联的参考网站。
在本实施例中,所述待验证网站的数据特征可以包括下述至少一项:设定时间段内的网站更新频率、设定时间段内的新增页面数量以及内容主题等。
其中,所述可信网站列表具体是指:通过用户行为日志挖掘或者人工整理等方法,确定出的一批可信网站。
在本实施例中,考虑到更新频率相似、设定时间段内的新增页面数量相似或者内容主题相似的可信网站,其网页中各个内容域的信息熵之间也会具有一定的相似性。因此,通过在可信网站列表中获取与所述待验证网站在所述数据特征上相类似的参考网站,并通过所述参考网站以及所述待验证网站中各个域的信息熵差异,可以对异常网站进行识别。
350、获取与所述参考网站对应的至少一个内容域的信息熵。
360、在所述待验证网站以及所述参考网站中,选取至少一个关键内容域。
其中,可以获取所述待验证网站以及所述参考网站中均包括的全部内容域作为所述关键内容域,也可以获取上述两者均包括的一个或者多个重要的内容域(例如,图片域以及文本标题域等)作为所述关键内容域,本实施例对此并不进行限制。
370、根据所述待验证网站以及所述参考网站中,与所述关键内容域分别对应的信息熵,计算所述待验证网站与所述参考网站之间的差异度因子。
在本实施例的一个优选的实施方式中,根据所述待验证网站以及所述参考网站中,与所述关键内容域分别对应的信息熵,计算所述待验证网站与所述参考网站之间的差异度因子具体可以包括:
在所述待验证网站以及所述参考网站中,获取与同一关键内容域对应的信息熵差值作为所述差异度因子。
例如,在待验证网站中,与关键内容域1对应的信息熵为A,与关键内容域2对应的信息熵为B;在参考网站中,与关键内容域1对应的信息熵为C,与关键内容域2对应的信息熵为D;
则可以将|A-C|以及|B-D|作为所述差异度因子。其中,||代表取绝对值符号。
在本实施例的另一个优选的实施方式中,根据所述待验证网站以及所述参考网站中,与所述关键内容域分别对应的信息熵,计算所述待验证网站与所述参考网站之间的差异度因子具体可以包括:
在所述待验证网站中,将与至少两个关键内容域分别对应的信息熵构成第一信息向量;
在所述参考网站中,将与所述至少两个关键内容域分别对应的信息熵构成第二信息向量;
计算所述第一信息向量与所述第二信息向量之间的距离值作为所述差异度因子。
续前例,在待验证网站中,与关键内容域1对应的信息熵为A,与关键内容域2对应的信息熵为B;在参考网站中,与关键内容域1对应的信息熵为C,与关键内容域2对应的信息熵为D;
则与待验证网站对应的第一信息向量为[A,B],与参考网站对应的第二信息向量为[C,D]。
其中,可以通过各种方式计算两个向量之间的距离值,典型的,计算两者的余弦夹角的方式,并将计算得到的距离值作为所述差异度因子。
380、判断所述差异度因子是否满足设定阈值条件,若是,执行390。否则,执行3100。
其中,如果所述差异度因子为信息熵差值,则所述如果所述差异度因子满足设定阈值条件,则确定所述待验证网站为异常网站具体可以包括:
如果设定数量的信息熵差值超过设定阈值,和/或与设定关键内容域对应的信息熵差值超过设定阈值,则确定所述待验证网站为异常网站;或者
如果对至少两个信息熵差值进行加权求和得到的差异累加值超过设定阈值,则确定所述待验证网站为异常网站。
如果所述差异度因子为所述距离值,则所述如果所述差异度因子满足设定阈值条件,则确定所述待验证网站为异常网站具体可以包括:
如果所述距离值超过设定门限值,则确定所述待验证网站为异常网站。
390、确定所述待验证网站为异常网站。
3100、确定所述待验证网站为正常网站。
本实施例的技术方案通过在计算得到待验证网站中各内容域的信息熵之后,获取与该待验证网站数据特征相似的可信网站中各内容域的信息熵,基于两者的信息熵,计算得到两者的差异度因子,进而对待验证网站进行异常识别的技术手段,可以实现根据异常网站与可信网站之间的信息熵差别,简单、快速的识别出异常网站的技术效果,识别准确度高,实时性好。
实施例四
图4是本发明实施例四提供的一种网站的识别装置的结构图。如图4所示,所述装置包括:历史更新页面获取模块41、内容域获取模块42、内容域信息熵计算模块43以及异常识别模块44,其中:
历史更新页面获取模块41,用于在设定时间段内,获取与待验证网站关联的至少两个历史更新页面。
内容域获取模块42,用于对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域。
内容域信息熵计算模块43,用于根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵。
异常识别模块44,用于根据信息熵计算结果,对所述待验证网站进行异常识别。
本发明实施例通过在设定时间段内,获取与待验证网站关联的至少两个历史更新页面;对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域;根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵;根据信息熵计算结果,对所述待验证网站进行异常识别的技术手段,由于信息熵特征的区分度好,计算简单、时效性高,可以解决现有作弊网站识别技术所带来的识别率不高、实时性差以及需要引入额外的人工标注或者数据整理工作的技术问题,优化了现有的网站识别技术,提高了异常网站的识别准确率。
在上述各实施例的基础上,所述与待验证网站关联的至少两个历史更新页面可以包括:
与所述待验证网站的网站域名对应的至少两个历史更新页面;和/或
与所述待验证网站中的同一网页地址对应的至少两个历史更新页面。
在上述各实施例的基础上,所述历史更新页面获取模块,具体可以用于:
在设定时间段内,通过网络爬虫抓取网络中新产生的,和/或有更新的页面;
将抓取的页面按照网站域名进行聚簇后,将与聚类簇对应的网站作为所述待验证网站;
根据所述聚类簇中包括的页面,获取与所述待验证网站关联的至少两个历史更新页面。
在上述各实施例的基础上,所述内容域可以包括下述至少一项:
文本标题域、图片域、图片标题域、图片描述文本域。
在上述各实施例的基础上,所述内容域信息熵计算模块,具体可以用于:
分别在各所述历史更新页面的相同目标内容域中,提取至少一个比对对象;
根据所述比对对象在各所述历史更新页面的目标内容域中的出现频次,计算所述比对对象的出现概率;
根据所述比对对象的出现概率,计算与所述目标内容域对应的信息熵。
在上述各实施例的基础上,如果所述目标内容域中的内容包括文本,则所述比对对象可以包括:原始文本、语义签名或者语义类别;
如果所述目标内容域中的内容包括图片,则所述比对对象可以包括:原始图片或者图片类别。
在上述各实施例的基础上,还可以包括:正文内容关联比对模块,用于:
在根据所述比对对象在各所述目标内容域中的出现频次,计算所述比对对象的出现概率之前,如果确定所述比对对象为时效性简单重复文本,则在各所述历史更新页面中,分别获取与所述比对对象关联的正文内容;
如果在不同历史更新页面中,与相同目标比对对象对应的正文内容不相同,则将所述目标比对对象标记为不同的比对对象。
在上述各实施例的基础上,所述异常识别模块,具体可以包括:
参考网站获取单元,用于根据所述待验证网站的数据特征,在可信网站列表中获取与所述待验证网站关联的参考网站;
参考网站信息熵获取单元,用于获取与所述参考网站对应的至少一个内容域的信息熵;
关键内容域选取单元,用于在所述待验证网站以及所述参考网站中,选取至少一个关键内容域;
差异度因子计算单元,用于根据所述待验证网站以及所述参考网站中,与所述关键内容域分别对应的信息熵,计算所述待验证网站与所述参考网站之间的差异度因子;
异常网站识别子单元,用于如果所述差异度因子满足设定阈值条件,则确定所述待验证网站为异常网站。
在上述各实施例的基础上,差异度因子计算单元具体可以用于:
在所述待验证网站以及所述参考网站中,获取与同一关键内容域对应的信息熵差值作为所述差异度因子;
异常网站识别子单元具体可以用于:
如果设定数量的信息熵差值超过设定阈值,和/或与设定关键内容域对应的信息熵差值超过设定阈值,则确定所述待验证网站为异常网站;或者
如果对至少两个信息熵差值进行加权求和得到的差异累加值超过设定阈值,则确定所述待验证网站为异常网站。
在上述各实施例的基础上,差异度因子计算单元具体可以用于:
在所述待验证网站中,将与至少两个关键内容域分别对应的信息熵构成第一信息向量;
在所述参考网站中,将与所述至少两个关键内容域分别对应的信息熵构成第二信息向量;
计算所述第一信息向量与所述第二信息向量之间的距离值作为所述差异度因子;
所述异常网站识别子单元具体可以用于:
如果所述距离值超过设定门限值,则确定所述待验证网站为异常网站。
在上述各实施例的基础上,所述待验证网站的数据特征可以包括下述至少一项:
设定时间段内的网站更新频率、设定时间段内的新增页面数量以及内容主题。
在上述各实施例的基础上,所述异常识别模块,具体可以包括:
如果与所述待验证网站对应的各内容域的信息熵的总和小于设定第一门限值,则确定所述待验证网站为异常网站;或者
如果与所述待验证网站对应的至少一个目标内容域的信息熵小于设定第二门限值,则确定所述待验证网站为异常网站;或者
如果与所述待验证网站对应的至少两个目标内容域的比值小于设定第三门限值,则确定所述待验证网站为异常网站。
在上述各实施例的基础上,所述异常识别模块,具体可以包括:
将所述信息熵计算结果作为至少一个信息熵特征值,将所述信息熵特征值与其他异常网站识别特征值进行结合,对所述待验证网站进行异常识别。
本发明实施例所提供的网站的识别装置可用于执行本发明任意实施例提供的网站的识别方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种网站的识别方法,其特征在于,包括:
在设定时间段内,获取与待验证网站关联的至少两个历史更新页面;
对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域;
根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵;
根据信息熵计算结果,对所述待验证网站进行异常识别;
其中,根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵包括:
分别在各所述历史更新页面的相同目标内容域中,提取至少一个比对对象;
根据所述比对对象在各所述历史更新页面的目标内容域中的出现频次,计算所述比对对象的出现概率;
根据所述比对对象的出现概率,计算与所述目标内容域对应的信息熵。
2.根据权利要求1所述的方法,其特征在于,所述与待验证网站关联的至少两个历史更新页面包括:
与所述待验证网站的网站域名对应的至少两个历史更新页面;和/或
与所述待验证网站中的同一网页地址对应的至少两个历史更新页面。
3.根据权利要求1或2所述的方法,其特征在于,在设定时间段内,获取与待验证网站关联的至少两个历史更新页面包括:
在设定时间段内,通过网络爬虫抓取网络中新产生的,和/或有更新的页面;
将抓取的页面按照网站域名进行聚簇后,将与聚类簇对应的网站作为所述待验证网站;
根据所述聚类簇中包括的页面,获取与所述待验证网站关联的至少两个历史更新页面。
4.根据权利要求1所述的方法,其特征在于,所述内容域包括下述至少一项:
文本标题域、图片域、图片标题域、图片描述文本域。
5.根据权利要求1所述的方法,其特征在于:
如果所述目标内容域中的内容包括文本,则所述比对对象包括:原始文本、语义签名或者语义类别;
如果所述目标内容域中的内容包括图片,则所述比对对象包括:原始图片或者图片类别。
6.根据权利要求1或5所述的方法,其特征在于,在根据所述比对对象在各所述目标内容域中的出现频次,计算所述比对对象的出现概率之前,还包括:
如果确定所述比对对象为时效性简单重复文本,则在各所述历史更新页面中,分别获取与所述比对对象关联的正文内容;
如果在不同历史更新页面中,与相同目标比对对象对应的正文内容不相同,则将所述目标比对对象标记为不同的比对对象。
7.根据权利要求1所述的方法,其特征在于,根据信息熵计算结果,对所述待验证网站进行异常识别包括:
根据所述待验证网站的数据特征,在可信网站列表中获取与所述待验证网站关联的参考网站;
获取与所述参考网站对应的至少一个内容域的信息熵;
在所述待验证网站以及所述参考网站中,选取至少一个关键内容域;
根据所述待验证网站以及所述参考网站中,与所述关键内容域分别对应的信息熵,计算所述待验证网站与所述参考网站之间的差异度因子;
如果所述差异度因子满足设定阈值条件,则确定所述待验证网站为异常网站。
8.根据权利要求7所述的方法,其特征在于,根据所述待验证网站以及所述参考网站中,与所述关键内容域分别对应的信息熵,计算所述待验证网站与所述参考网站之间的差异度因子具体包括:
在所述待验证网站以及所述参考网站中,获取与同一关键内容域对应的信息熵差值作为所述差异度因子;
所述如果所述差异度因子满足设定阈值条件,则确定所述待验证网站为异常网站具体包括:
如果设定数量的信息熵差值超过设定阈值,和/或与设定关键内容域对应的信息熵差值超过设定阈值,则确定所述待验证网站为异常网站;或者
如果对至少两个信息熵差值进行加权求和得到的差异累加值超过设定阈值,则确定所述待验证网站为异常网站。
9.根据权利要求7所述的方法,其特征在于,根据所述待验证网站以及所述参考网站中,与所述关键内容域分别对应的信息熵,计算所述待验证网站与所述参考网站之间的差异度因子具体包括:
在所述待验证网站中,将与至少两个关键内容域分别对应的信息熵构成第一信息向量;
在所述参考网站中,将与所述至少两个关键内容域分别对应的信息熵构成第二信息向量;
计算所述第一信息向量与所述第二信息向量之间的距离值作为所述差异度因子;
所述如果所述差异度因子满足设定阈值条件,则确定所述待验证网站为异常网站具体包括:
如果所述距离值超过设定门限值,则确定所述待验证网站为异常网站。
10.根据权利要求7-9任一项所述的方法,其特征在于,所述待验证网站的数据特征包括下述至少一项:
设定时间段内的网站更新频率、设定时间段内的新增页面数量以及内容主题。
11.根据权利要求1所述的方法,其特征在于,根据信息熵计算结果,对所述待验证网站进行异常识别包括:
如果与所述待验证网站对应的各内容域的信息熵的总和小于设定第一门限值,则确定所述待验证网站为异常网站;或者
如果与所述待验证网站对应的至少一个目标内容域的信息熵小于设定第二门限值,则确定所述待验证网站为异常网站;或者
如果与所述待验证网站对应的至少两个目标内容域的比值小于设定第三门限值,则确定所述待验证网站为异常网站。
12.根据权利要求1所述的方法,其特征在于,根据信息熵计算结果,对所述待验证网站进行异常识别包括:
将所述信息熵计算结果作为至少一个信息熵特征值,将所述信息熵特征值与其他异常网站识别特征值进行结合,对所述待验证网站进行异常识别。
13.一种网站的识别装置,其特征在于,包括:
历史更新页面获取模块,用于在设定时间段内,获取与待验证网站关联的至少两个历史更新页面;
内容域获取模块,用于对各所述历史更新页面进行内容解析,获取与各所述历史更新页面对应的至少一个内容域;
内容域信息熵计算模块,用于根据各所述历史更新页面中相同内容域中的内容变化,计算各所述内容域的信息熵;
异常识别模块,用于根据信息熵计算结果,对所述待验证网站进行异常识别;
其中,所述内容域信息熵计算模块,具体用于:
分别在各所述历史更新页面的相同目标内容域中,提取至少一个比对对象;
根据所述比对对象在各所述历史更新页面的目标内容域中的出现频次,计算所述比对对象的出现概率;
根据所述比对对象的出现概率,计算与所述目标内容域对应的信息熵。
14.根据权利要求13所述的装置,其特征在于,所述历史更新页面获取模块,具体用于:
在设定时间段内,通过网络爬虫抓取网络中新产生的,和/或有更新的页面;
将抓取的页面按照网站域名进行聚簇后,将与聚类簇对应的网站作为所述待验证网站;
根据所述聚类簇中包括的页面,获取与所述待验证网站关联的至少两个历史更新页面。
15.根据权利要求13所述的装置,其特征在于,还包括:正文内容关联比对模块,用于:
在根据所述比对对象在各所述目标内容域中的出现频次,计算所述比对对象的出现概率之前,如果确定所述比对对象为时效性简单重复文本,则在各所述历史更新页面中,分别获取与所述比对对象关联的正文内容;
如果在不同历史更新页面中,与相同目标比对对象对应的正文内容不相同,则将所述目标比对对象标记为不同的比对对象。
16.根据权利要求13所述的装置,其特征在于,所述异常识别模块,具体包括:
参考网站获取单元,用于根据所述待验证网站的数据特征,在可信网站列表中获取与所述待验证网站关联的参考网站;
参考网站信息熵获取单元,用于获取与所述参考网站对应的至少一个内容域的信息熵;
关键内容域选取单元,用于在所述待验证网站以及所述参考网站中,选取至少一个关键内容域;
差异度因子计算单元,用于根据所述待验证网站以及所述参考网站中,与所述关键内容域分别对应的信息熵,计算所述待验证网站与所述参考网站之间的差异度因子;
异常网站识别子单元,用于如果所述差异度因子满足设定阈值条件,则确定所述待验证网站为异常网站。
17.根据权利要求13所述的装置,其特征在于,所述异常识别模块,具体包括:
如果与所述待验证网站对应的各内容域的信息熵的总和小于设定第一门限值,则确定所述待验证网站为异常网站;或者
如果与所述待验证网站对应的至少一个目标内容域的信息熵小于设定第二门限值,则确定所述待验证网站为异常网站;或者
如果与所述待验证网站对应的至少两个目标内容域的比值小于设定第三门限值,则确定所述待验证网站为异常网站。
18.根据权利要求13所述的装置,其特征在于,所述异常识别模块,具体包括:
将所述信息熵计算结果作为至少一个信息熵特征值,将所述信息熵特征值与其他异常网站识别特征值进行结合,对所述待验证网站进行异常识别。
CN201610571258.6A 2016-07-19 2016-07-19 网站的识别方法和装置 Active CN106294535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610571258.6A CN106294535B (zh) 2016-07-19 2016-07-19 网站的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610571258.6A CN106294535B (zh) 2016-07-19 2016-07-19 网站的识别方法和装置

Publications (2)

Publication Number Publication Date
CN106294535A CN106294535A (zh) 2017-01-04
CN106294535B true CN106294535B (zh) 2019-06-25

Family

ID=57651792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610571258.6A Active CN106294535B (zh) 2016-07-19 2016-07-19 网站的识别方法和装置

Country Status (1)

Country Link
CN (1) CN106294535B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280110A (zh) * 2017-05-15 2018-07-13 广州市动景计算机科技有限公司 网站差异对比方法、装置及客户端
CN107451180B (zh) * 2017-06-13 2021-02-19 百度在线网络技术(北京)有限公司 识别站点同源关系的方法、装置、设备和计算机存储介质
CN109150817B (zh) * 2017-11-24 2020-11-27 新华三信息安全技术有限公司 一种网页请求识别方法及装置
CN109800378A (zh) * 2019-01-23 2019-05-24 北京字节跳动网络技术有限公司 基于自定义浏览器的内容处理方法、装置及电子设备
CN109818828A (zh) * 2019-02-20 2019-05-28 成都嗨翻屋科技有限公司 一种分布式爬虫***监控方法及装置
CN113841156B (zh) * 2019-05-27 2024-06-28 西门子股份公司 基于图像识别的控制方法与装置
CN110716778B (zh) * 2019-09-10 2023-09-26 创新先进技术有限公司 应用兼容性测试方法、装置及***
CN111460763A (zh) * 2020-03-02 2020-07-28 南京南瑞继保电气有限公司 文件差异的标注方法、装置、设备及计算机可读存储介质
CN113554131B (zh) * 2021-09-22 2021-12-03 四川大学华西医院 医学图像处理和分析方法、计算机设备、***和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100565523C (zh) * 2007-04-05 2009-12-02 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及***
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控***及方法
CN105205061B (zh) * 2014-06-12 2018-08-10 ***股份有限公司 一种电商网站的页面信息获取方法

Also Published As

Publication number Publication date
CN106294535A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106294535B (zh) 网站的识别方法和装置
US11023513B2 (en) Method and apparatus for searching using an active ontology
US9449271B2 (en) Classifying resources using a deep network
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
US6735578B2 (en) Indexing of knowledge base in multilayer self-organizing maps with hessian and perturbation induced fast learning
US7917514B2 (en) Visual and multi-dimensional search
CN108965245A (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和***
CN107220386A (zh) 信息推送方法和装置
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN101281521A (zh) 一种基于多分类器融合的敏感网页过滤方法及***
EP2038775A1 (en) Visual and multi-dimensional search
CN105843796A (zh) 一种微博情感倾向分析方法及装置
US20100211533A1 (en) Extracting structured data from web forums
CN113722478B (zh) 多维度特征融合相似事件计算方法、***及电子设备
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN110119478A (zh) 一种结合多种用户反馈数据的基于相似度的物品推荐方法
CN113821592A (zh) 一种数据处理方法、装置、设备以及存储介质
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN103425767B (zh) 一种提示数据的确定方法和***
CN104123321B (zh) 一种确定推荐图片的方法及装置
Wei et al. Online education recommendation model based on user behavior data analysis
CN114328913A (zh) 一种文本分类方法、装置、计算机设备和存储介质
CN106776910A (zh) 一种搜索结果的显示方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant