CN107491453B - 一种识别作弊网页的方法及装置 - Google Patents

一种识别作弊网页的方法及装置 Download PDF

Info

Publication number
CN107491453B
CN107491453B CN201610412719.5A CN201610412719A CN107491453B CN 107491453 B CN107491453 B CN 107491453B CN 201610412719 A CN201610412719 A CN 201610412719A CN 107491453 B CN107491453 B CN 107491453B
Authority
CN
China
Prior art keywords
webpage
cheating
web page
content
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610412719.5A
Other languages
English (en)
Other versions
CN107491453A (zh
Inventor
李健
许静芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201610412719.5A priority Critical patent/CN107491453B/zh
Publication of CN107491453A publication Critical patent/CN107491453A/zh
Application granted granted Critical
Publication of CN107491453B publication Critical patent/CN107491453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种识别作弊网页的方法及装置,所述方法包括:获取用于生成目标网页的源文件数据;利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。对于经页面渲染得到的网页内容,本发明实施例能够确定其中是否嵌入作弊信息,从而能够提高作弊网页的识别率。

Description

一种识别作弊网页的方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种识别作弊网页的方法及装置。
背景技术
随着网络信息的不断增长,人们通常利用搜索引擎从网络上查询信息,而一个网页能否在搜索引擎的排名中占有比较靠前的位置,这在很大程度上决定了该网页的被访问量,因此,一些网站不是通过提高网页质量来提高其在搜索引擎中的排名,而是根据搜索引擎对网页的排序特点,采用欺骗手段来提高网页排名,这就是网页作弊,而采用了欺骗手段的网页被称为作弊网页。
网页作弊方式主要分为内容作弊、链接作弊、以及欺骗爬虫作弊。其中,所述内容作弊,是在作弊网页中添加一些热门的查询词,这些热门词汇被添加在作弊网页的各个不同的域里面,使得作弊网页能够在用户进行热门查询时被检索到,并且获得较高的相关性评分,从而达到提升作弊网页排名的目的;所述链接作弊,是通过构建链接关系来误导网页排名(PageRank)算法和超文本敏感标题搜索(Hypertext-Induced Topic Search,简称HITS)算法,从而提高作弊网页的重要性评分,进而达到提升作弊网页排名的目的;所述欺骗爬虫作弊,是在搜索引擎要进行页面抓取的时候,作弊网页向搜索引擎发送一个包含有用资源的高质量页面,从而使搜索引擎认为它是一个有价值的页面,并在用户进行查询时,将其排在比较靠前的位置,但在用户点击时,作弊网页会向用户浏览器发送与用户查询不相关的内容。
一个网页通常包括静态页面内容和动态页面内容,静态页面内容是利用网页源文件中存在的网页内容直接生成的,动态页面内容是通过解析网页源文件、且利用解析得到的网页数据进行页面渲染后生成的,而现有的作弊网页识别方法,只利用搜索引擎抓取静态页面,通过分析静态页面内容来判断网页是否采用了上述网页作弊方式,但是,如果作弊者在生成动态页面的网页数据中引入作弊信息,现有作弊识别方法将无法对网页中的动态页面内容进行作弊识别,导致作弊网页的识别率较低。
发明内容
有鉴于此,本发明实施例的主要目的在于提供一种识别作弊网页的方法及装置,对于经页面渲染得到的网页内容,本发明实施例能够确定其中是否嵌入作弊信息,从而能够提高作弊网页的识别率。
一方面,本发明实施例提供了一种识别作弊网页的方法,包括:
获取用于生成目标网页的源文件数据;
利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;
如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。
可选的,所述作弊方式库可以通过以下方式建立:
获取测试样本集中每一测试样本网页中的测试网页内容,所述测试网页内容是通过解析所述测试样本网页的源文件、且利用解析得到的测试网页数据进行页面渲染后生成的网页内容;
根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页;
如果所述测试样本网页被判断为作弊网页,则分析所述解析得到的测试网页数据,确定所述测试样本网页用于实现网页作弊的至少一种网页作弊方式,保存在作弊方式库中。
可选的,所述根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页,包括:
确定所述测试网页内容中关于网页特征集中各个网页特征的测试特征向量,将确定的各个测试特征向量作为作弊分类器的输入参数,以利用所述作弊分类器判断所述测试样本网页是否为作弊网页;
所述作弊分类器通过以下步骤获得:
获取训练样本集中每一训练样本网页的完整网页内容;所述训练样本集中的训练样本网页包括已确定的作弊网页和已确定的非作弊网页;
确定每一训练样本网页的完整网页内容中关于所述网页特征集中各个网页特征的训练特征向量;
利用所有训练样本网页的所述训练特征向量训练得到一个用于识别作弊网页的作弊分类器。
可选的,所述网页特征集中包括以下一个或多个网页特征:
网页中嵌入了用于网页作弊的框架Iframe;
网页具有重定向一个作弊网页的功能;
网页动态页面中包含了与网页静态页面无关的内容,所述网页动态页面是通过解析网页源文件、且利用解析得到的网页数据进行页面渲染后生成的,所述网页静态页面是利用网页源文件中存在的网页内容直接生成的;
网页中包含有非法内容和/或违禁内容。
可选的,所述网页中嵌入了用于网页作弊的框架Iframe,包括:
网页中嵌入的Iframe遮挡了网页的部分或全部内容,和/或,所述Iframe中嵌入的网页为作弊网页。
可选的,所述将所述目标网页识别为作弊网页之后,还包括:
确定所述目标网页的网页作弊程度;
根据所述网页作弊程度,删除所述目标网页或降低所述目标网页在搜索引擎中的网页评分。
可选的,所述确定所述目标网页的网页作弊程度,包括:
根据所述目标网页中的作弊信息量、和/或所述目标网页中的作弊信息在所述目标网页中的分布位置,确定所述目标网页的网页作弊程度。
另一方面,本发明实施例还提供了一种识别作弊网页的装置,包括:
源数据获取单元,用于获取用于生成目标网页的源文件数据;
作弊方式匹配单元,用于利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;
作弊网页识别单元,用于如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。
可选的,所述装置还包括方式库建立单元;
所述方式库建立单元包括:测试内容获取模块、作弊网页判断模块和方式库建立模块;
所述测试内容获取模块,用于获取测试样本集中每一测试样本网页中的测试网页内容,所述测试网页内容是通过解析所述测试样本网页的源文件、且利用解析得到的测试网页数据进行页面渲染后生成的网页内容;
所述作弊网页判断模块,用于根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页;
所述方式库建立模块,用于如果所述测试样本网页被判断为作弊网页,则分析所述解析得到的测试网页数据,确定所述测试样本网页用于实现网页作弊的至少一种网页作弊方式,保存在作弊方式库中。
另一方面,本发明实施例还提供了一种用于识别作弊网页的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用于生成目标网页的源文件数据;
利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;
如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。
本发明实施例提供的识别作弊网页的方法及装置,预先建立一个作弊方式库,该作弊方式库中存储有各种网页作弊方式,所述网页作弊方式是通过在解析网页源文件得到的网页数据中嵌入作弊信息的方式。后续在识别一个目标网页是否是作弊网页时,首先获取目标网页的源文件数据,再通过分析所述源文件数据,确定所述目标网页是否采用了所述作弊方式库中的网页作弊方式,如果是,则说明所述目标网页的动态页面内容中引入了作弊信息,因此可判定所述目标网页是一个作弊网页,其中,所述目标网页的动态页面内容是通过解析目标网页的源文件、且利用解析得到的网页数据进行页面渲染后生成的。可见,对于一个目标网页中的动态页面,通过本发明实施例可以识别其中是否引入了作弊信息,从而在现有技术的基础上提高了作弊网页的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例作弊方式库的建立方法的流程示意图;
图2为本发明实施例训练样本网页在二维平面中的划分示意图;
图3为本发明实施例识别作弊网页的方法的流程示意图;
图4为本发明实施例识别作弊网页的装置示意图;
图5为本发明实施例用于识别作弊网页的装置示意图;
图6为本发明实施例服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一个网页通常包括静态页面内容和动态页面内容,其中,静态页面内容是利用网页源文件中存在的网页内容直接生成的,动态页面内容是通过解析网页源文件、且利用解析得到的网页数据进行页面渲染后生成的。具体地,浏览器在生成一个网页时,首先生成网页中的静态页面内容,具体是利用服务器返回的源文件,使源文件中存在的网页内容直接按照源文件中指定的网页格式生成,然后生成网页中的动态页面内容,具体是利用解析源文件得到的网页数据(其中,解析得到的网页数据包括解析源文件直接得到的数据、或者包括解析源文件直接得到的数据以及根据解析结果再次从服务器请求的数据),在静态页面内容的基础上进行页面渲染得到的网页内容。
其中,浏览器渲染页面的方法,具体为:
用户在查询网页时,会在浏览器的网址输入栏中输入一个网页网址或直接点击显示的链接,此时浏览器会向服务器发出加载该网页的请求,假设请求被加载的网页是html(HyperText Markup Language,超级文本标记语言)页面,服务器在接收到请求后,会向浏览器返回一个html文件,浏览器开始对载入的html文件进行语法解析,在解析过程中,还需要向服务器请求JavaScript文件、CSS(Cascading Style Sheets,层叠样式表)文件、图象等网页资源,以利用这些网页资源构建渲染树,即计算每个网页元素的位置、样式等,根据渲染树对网页进行渲染,从而生成了网页中的动态页面内容。
本发明实施例提供的作弊网页识别方法,需要获取一个测试样本集,并获取测试样本集中每一测试样本网页中的动态页面内容,从中找出实现网页作弊的网页作弊方式,并利用这些网页作弊方式形成作弊方式库,以便后续对目标网页的源文件数据进行分析,确定目标网页是否采用了作弊方式库中的网页作弊方式,当确定采样了网页作弊方式中的至少一种网页作弊方式时,便认为目标网页是作弊网页。
为了对作弊方式库的建立过程有一个详细的认识,下面首先介绍依据测试样本集建立作弊方式库的过程。
参见图1,为本发明实施例提供的作弊方式库的建立方法的流程示意图,包括以下步骤:
步骤101:获取测试样本集中每一测试样本网页中的测试网页内容,所述测试网页内容是通过解析所述测试样本网页的源文件、且利用解析得到的测试网页数据进行页面渲染后生成的网页内容。
在本实施例中,需要预先形成一个由一批测试样本网页组成的测试样本集,这些测试样本网页应涵盖比较丰富的作弊信息,这样才能从中提取出更为全面的网页作弊方式。且,所述训练样本集中包括的训练样本网页均已明确是否存在作弊行为;即为所述训练样本集中的训练样本网页包括已确定的作弊网页和已确定的非作弊网页。
比如,所述测试样本集中的测试样本网页,可以是搜索引擎在搜索网页时排序靠前的一批热门搜索网页、也可以是利用现有作弊识别方法识别出的一批已确定作弊网页、还可以是包含了所述热门搜索网页和/或所述已确定作弊网页的一批网页,其中,所述已确定作弊网页是通过对网页的静态页面内容进行作弊分析而被确定的作弊网页。
需要说明的是,采用所述热门搜索网页形成测试样本集,是由于所述热门搜索网页通常容易被作弊者植入作弊信息,还由于所述热门搜索网页本身可能就是作弊者采用作弊手段而构成的热搜网页,因此,使一批热门搜索网页包含在测试样本集中,可以从中提取到更为齐全的网页作弊方式;而采用所述已确定作弊网页形成测试样本集,是由于所述已确定作弊网页的静态页面内容中已经被作弊者植入作弊信息,所以所述已确定作弊网页的动态页面内容有很大几率也被作弊者植入了作弊信息,因此,使一批已确定作弊网页包含在测试样本集中,也可以从中提取到更为齐全的网页作弊方式。
步骤101中,在获取所述测试样本网页中的测试网页内容时,可以通过对所述测试样本网页进行网页渲染获取得到,具体的,首先可以从网页数据库中存储的每个网页的静态页面(这些静态页面是用户进行网页搜索时搜索引擎抓取得到的)中,提取每一测试样本网页中的静态页面,或者利用每一测试样本网页的源文件形成每一测试样本网页中的静态页面,然后利用上述浏览器渲染页面的方法对每一测试样本网页的静态页面内容进行渲染,得到每一测试样本网页中的动态页面内容,该动态页面内容,也就是在测试样本网页的静态页面的基础上,经页面渲染后得到的新增部分,该新增部分即为所述测试网页内容。
步骤102:根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页。
对于通过页面渲染得到的所述测试样本网页中的测试网页内容,对该测试网页内容进行分析,从中提取主要的网页特征,比如,网页特征可以是关键字、链接、页面布局等等,根据提取的各个网页特征对测试样本网页是否作弊进行判断。
在本实施例中,为了实现步骤102,可以预先训练得到一个作弊分类器,利用作弊分类器来判断所述测试样本网页是否为作弊网页。下面首先介绍作弊分类器的形成过程,该形成过程包括步骤A1至A3:
步骤A1:获取训练样本集中每一训练样本网页的完整网页内容,所述训练样本集中的训练样本网页包括已确定的作弊网页和已确定的非作弊网页。
在本实施例中,除了需要形成上述测试样本集外,还需要形成一个由一批训练样本网页组成的训练样本集,训练样本集中通常包括正样本和负样本,正样本是指作弊网页(即实现网页作弊的训练样本网页),负样本是指非作弊网页(即未实现网页作弊的训练样本网页),利用这些训练样本训练得到一个作弊分类器。
步骤A1中,在获取所述训练样本网页中的完整网页内容时,可以通过对所述训练样本网页进行网页渲染获取得到,具体的,首先可以从网页数据库中存储的每个网页的静态页面(这些静态页面是用户进行网页搜索时搜索引擎抓取得到的)中,提取每一训练样本网页中的静态页面,或者利用每一测试样本网页的源文件生成每一测训练本网页中的静态页面,然后利用上述浏览器渲染页面的方法对每一训练样本网页的静态页面内容进行渲染,得到每一训练样本网页中的动态页面内容,得到的静态页面内容和动态页面内容即为所述训练样本网页的完整网页内容。
步骤A2:确定每一训练样本网页的完整网页内容中关于所述网页特征集中各个网页特征的训练特征向量。
在本实施例中,需要预先建立一个包括各种网页特征的网页特征集,具体地,所述网页特征集中可以包括以下一个或多个网页特征:
网页特征1:网页中嵌入了用于网页作弊的框架Iframe。其中,所述网页中嵌入了用于网页作弊的框架Iframe,可以包括:网页中嵌入的Iframe遮挡了网页的部分或全部内容,和/或,所述Iframe中嵌入的网页为作弊网页。具体地,对于Iframe遮挡了网页的部分或全部内容,可以划分为多种情况,比如,Iframe遮挡了网页中静态页面的全部或部分内容、Iframe覆盖了网页首屏内容等等。
网页特征2:网页具有重定向一个作弊网页的功能。其中,这里的网页重定向功能,是指浏览器加载一个正常网页之后,会跳转到另外一个作弊网页。
网页特征3:网页动态页面中包含了与网页静态页面无关的内容,其中,所述网页动态页面是通过解析网页源文件、且利用解析得到的网页数据进行页面渲染后生成的,所述网页静态页面是利用网页源文件中存在的网页内容(即不需要解析获得)直接生成的。
网页特征4:网页中包含有非法内容和/或违禁内容。比如,非法内容可以是非法集资视频,违禁内容可以是赌博类视频,等等。
在步骤A2中,需要分析所述训练样本网页的完整网页内容,确定所述训练样本网页中是否存在所述网页特征集中的网页特征以及存在的网页特征的实际情况,根据确定结果,针对所述网页特征集中的各个网页特征,分别为每个网页特征赋予一个特征向量,在本实施例中,该特征向量被称为训练特征向量,在确定所述训练样本集中每个训练样本网页对应的各个训练特征向量之后,便可以利用这些训练特征向量训练得到一个分类器。
在确定所述训练样本网页对应的各个训练特征向量时,可以使作弊程度与特征向量的大小成正比,下面举例说明:
对于上述网页特征1,当所述训练样本网页中没有嵌入Iframe、或者嵌入了Iframe且嵌入的Iframe不是用来网页作弊时,可以使网页特征1的特征向量为0;当所述训练样本网页中嵌入了Iframe且嵌入的Iframe是用来网页作弊时,可以使网页特征1的特征向量在(0,1)的范围内。在具体确定网页特征1的特征向量大小时,可以进一步确认采用Iframe进行网页作弊的具体方式,比如,当通过Iframe覆盖网页内容进行网页作弊时,可以根据覆盖的范围、覆盖的位置等因素对该网页特征1的特征向量赋予一个数值,其中,Iframe的覆盖范围越大,说明作弊程度越大,对应的特征向量可以越大;Iframe的覆盖位置越重要,说明作弊程度越大,对应的特征值可以越大。
对于上述网页特征2,当所述训练样本网页不具有网页重定向功能、或者所述训练样本网页具有重定向功能且重定向功能不是用来网页作弊(比如,因所述训练样本网页被移到了一个新的地址、或因所述训练样本网页的扩展名改变等原因使用了网页重定向功能)时,可以使网页特征2的特征向量为0;当所述训练样本网页具有重定向一个作弊网页的功能时,可以使网页特征2的特征向量在(0,1)的范围内。在确定网页特征2的特征向量大小时,可以进一步确认所述训练样本网页是否一直都重定向一个作弊网页,比如,一种情况是,所述训练样本网页开始是不具有重定向作弊网页的功能的,其本身是一个质量较好的网页,后来因黑客对所述训练样本网页进行篡改,对其添加了重定向作弊网页的功能;另一种情况是,所述训练样本网页从始至终都具有重定向作弊网页的功能;对于这两种情况,第一种情况的作弊程度低于第二种情况的作弊程度,可以使第一种情况的特征向量小于第二种情况的特征向量。
对于上述网页特征3,当所述训练样本网页的动态页面中没有包含与静态页面无关的内容时,可以使网页特征3的特征向量为0;当所述训练样本网页的动态页面中包含与静态页面无关的内容时,可以使网页特征3的特征向量在(0,1)的范围内。在确定网页特征3的特征向量大小时,可以进一步确认所述训练样本网页中的动态页面内容与静态页面内容的相关性,相关性越大,说明作弊程度越小,对应的特征向量可以越小;反之,相关性越小,说明作弊程度越大,对应的特征向量可以越大。
对于上述网页特征4,当所述训练样本网页中不包含有非法内容和/或违禁内容时,可以使网页特征4的特征向量为0;当所述训练样本网页中包含有非法内容和/或违禁内容时,可以使网页特征4的特征向量在(0,1)的范围内。比如,违禁内容是一个视频时,在确定网页特征4的特征向量大小时,可以进一步确认视频内容是否全部是违禁内容,如果违禁内容在视频中的比重较大,说明作弊程度越大,对应的特征向量可以越大,反之,如果违禁内容在视频中的比重较小,说明作弊程度越小,对应的特征向量可以越小。
步骤A3:利用所有训练样本网页的所述训练特征向量训练得到一个用于识别作弊网页的作弊分类器。
在训练作弊分类器时,使每一个训练样本网页对应一个n维向量和一个分类结果,其中,n代表了样本空间的维数,n具体是所述网页特征集中网页特征的个数,n维向量则是由一个训练样本网页关于n个网页特征的训练特征向量组成的,分类结果是作弊网页或非作弊网页,可以用1表示训练样本网页是作弊网页,用-1表示训练样本网页是非作弊网页。
在选择分类方法时,可以采用SVM(Support Vector Machine,支持向量机)、或Bagging(套袋)或AdaBoost等分类算法,本实施例不限制分类器所采用的分类方法。
作弊分类器训练结束后,使用训练好的作弊分类器,判断所述测试样本集中的每个测试样本网页是否为作弊网页,因此,步骤102可以包括步骤B1和步骤B2:
步骤B1:确定所述测试网页内容中关于网页特征集中各个网页特征的测试特征向量。
具体如何确定所述测试样本网页的各个测试特征向量,可以参见步骤A2中关于确定所述训练样本网页的各个训练特征向量的相关方法,在此不再赘述。
步骤B2:将确定的各个测试特征向量作为所述作弊分类器的输入参数,以利用所述作弊分类器判断所述测试样本网页是否为作弊网页。
为更方便的理解步骤B2,下面以SVM分类器作为所述作弊分类器为例,介绍本实施例对所述测试样本网页的分类原理:
本实施例中的SVM分类器,其作用是识别一个测试样本网页是否是作弊网页,因此该SVM分类器有两个分类结果,假设C1代表的分类结果是作弊网页,C2代表的分类结果是非作弊网页,如果样本空间的维数为2且样本是线性可分的,那么所述训练样本集中各个训练样本网页在二维平面中的划分可以如图2所示,中间的直线就是一个分类函数,它可以将作弊的训练样本网页和非作弊的训练样本网页完全分开。其中,分类函数在一维空间里就是一个点,在二维空间里就是一条直线,在三维空间里就是一个平面,等等,这种分类函数被称为超平面。
实际上,一个分类函数是一个实值函数(即函数的输出值是连续的实数),而分类器的输出值是离散值,每一输出值代表一种分类结果,例如,SVM分类器的输出值是1和-1,用1表示测试样本网页属于类别C1,而用-1表示测试样本网页属于类别C2。基于分类函数与SVM分类器的输出不同,需要预先为分类函数配置一个阈值,将测试样本网页对应的n个网页特征的特征向量带入这个分类函数中,根据分类函数的输出值与该阈值之间的比较结果来确定测试样本网页的类别。
假设分类函数为g(x)=wx+b,其中,x代表测试样本网页对应的n个网页特征的特征向量,w和b是常数。可以取阈值为0,比如,当g(xi)>0时,就判别测试样本网页为作弊网页,使SVM分类器输出1,当g(xi)<0时,则判别测试样本网页为非作弊网页,使SVM分类器输出-1。
步骤103:如果所述测试样本网页被判断为作弊网页,则分析所述解析得到测试网页数据,确定所述测试样本网页用于实现网页作弊的至少一种网页作弊方式,保存在作弊方式库中。
在本实施例中,形成所述测试样本集的作用,就是从所述测试样本集的各个测试样本网页中提取网页作弊方式,当判断出一个测试样本网页为作弊网页时,便可以对通过解析所述测试样本网页的源文件得到的解析数据(即所述解析得到的测试网页数据)进行分析,确定解析数据中所涉及的网页作弊方式,当分析得到所述测试样本集中每个作弊网页所采用的网页作弊方式后,便可以将重复的网页作弊方式进行合并后,形成一个包含不同网页作弊方式的作弊方式库。此外,为了避免所述作弊方式库中所包含的网页作弊方式不全面的问题,可以搜集一批已经确定的作弊网页,通过分析作弊网页的解析数据,从中提取网页作弊方式,来补足所述作弊方式库中的网页作弊方式。
上述内容介绍了所述作弊方式库的建立过程,下面具体介绍基于所述作弊方式库进行识别作弊网页的方法。参见图3,为本发明实施例提供的识别作弊网页的方法的流程示意图,该方法包括:
步骤301:获取用于生成目标网页的源文件数据。
在步骤301中,所述源文件数据用于生成整个目标网页,该目标网页同样包括静态页面内容和动态页面内容,因此,所述源文件数据包括直接存在于目标网页源文件中的静态页面内容,还包括通过解析目标网页源文件得到的解析数据,该解析数据是用于通过页面渲染生成动态页面内容的网页数据,该解析数据可以包括JavaScript数据、CSS数据、图像数据等等。所述源文件数据具体可以直接从存储所述目标网页的源文件数据的数据库中获取。
步骤302:利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式。
由于互联网每天产生的新网页有上百亿,老网页也同时在不断更新,因此,在对一个网页中的动态页面内容进行作弊信息的识别时,搜索引擎很难将全部网页进行渲染,再根据渲染后所呈现出的整个网页内容来判断是否是作弊网页,因为网页渲染不但会占用较多的网络资源还会花费大量的时间,这将影响搜索引擎进行网页识别的速度。因此,本发明实施例利用小样本集合(即所述测试样本集)构建作弊方式库,然后利用作弊方式库对每一目标网页进行网页作弊方式的匹配,从而实现对作弊网页的识别。
在步骤302中,由于所述源文件数据中包含了所述目标网页中每一网页元素的位置、样式、内容等信息,所以,通过分析所述源文件数据,可以确定所述目标网页是否采用了所述作弊方式库中的网页作弊方式,具体可以针对所述作弊方式库中的每个网页作弊方式,对所述源文件数据进行逐一匹配。
具体如何对所述源文件数据进行作弊方式的匹配,下面举例说明:
例如,假设所述作弊方式库中的其中一种网页作弊方式是:网页中嵌入了用于网页作弊的框架Iframe、且具体是利用Iframe覆盖网页中的静态页面内容来进行网页作弊。针对这种网页作弊方式,在对所述源文件数据进行作弊方式的匹配时,可以通过分析所述源文件数据,首先分析确定所述目标网页中是否嵌入了Iframe,当确定所述目标网页中嵌入了Iframe时,则进一步分析确认该Iframe在所述目标网页中的位置,即确定该Iframe的生成位置是否置于所述目标网页的静态页面内容之上,如果是,则说明该Iframe覆盖了所述目标网页中的有用信息,进而说明所述目标网页采用了该网页作弊方式。可见,作弊者采用这种网页作弊方式时,使得浏览器加载所述目标网页时,用户将无法浏览到所述目标网页中的有用信息。
又例如,假设所述作弊方式库中的另一种网页作弊方式是:网页中包含有非法内容和/或违禁内容、且具体是采用视频方式嵌入了非法内容和/或违禁内容,针对这种网页作弊方式,在对所述源文件数据进行作弊方式的匹配时,可以对所述源文件数据中的视频数据进行分析,分析确定其中是否包含非法内容和/或违禁内容,如果是,则说明所述目标网页采用了该网页作弊方式。可见,作弊者采用这种网页作弊方式时,使得浏览器加载所述目标网页时,会加载包含非法内容和/或违禁内容的视频。
步骤303:如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。
对于所述作弊方式库中的各个网页作弊方式,如果所述目标网页使用了其中的一种或多种网页作弊方式,便可以将所述目标网页识别为作弊网页。
本发明实施例提供的识别作弊网页的方法,预先建立一个作弊方式库,该作弊方式库中存储有各种网页作弊方式,所述网页作弊方式是通过在解析网页源文件得到的网页数据中嵌入作弊信息的方式。后续在识别一个目标网页是否是作弊网页时,首先获取目标网页的源文件数据,再通过分析所述源文件数据,确定所述目标网页是否采用了所述作弊方式库中的网页作弊方式,如果是,则说明所述目标网页的动态页面内容中引入了作弊信息,因此可判定所述目标网页是一个作弊网页,其中,所述目标网页的动态页面内容是通过解析目标网页的源文件、且利用解析得到的网页数据进行页面渲染后生成的。可见,对于一个目标网页中的动态页面,通过本发明实施例可以识别其中是否引入了作弊信息,从而在现有技术的基础上提高了作弊网页的识别率。
进一步地,在判断一个目标网页是作弊网页之后,还可以进一步确定所述目标网页的作弊程度,以便搜索用户通过搜索引擎搜索信息时,如果搜索引擎搜索到所述目标网页,则可以根据所述目标网页的作弊程度,降低所述目标网页在搜索引擎中的网页评分,如果所述目标网页存在严重的作弊情况,还可以删除所述目标网页。基于此,在步骤203之后,还可以包括步骤B1和步骤B2:
步骤B1:确定所述目标网页的网页作弊程度。
在本实施例中,在步骤B1可以包括:根据所述目标网页中的作弊信息量、和/或所述目标网页中的作弊信息在所述目标网页中的分布位置,确定所述目标网页的网页作弊程度。具体需要识别出所述目标网页中的所有作弊信息,并可以在获取到作弊信息量G、或分布位置值M、或作弊信息量G与分布位置值M之和后,利用获取结果来表征所述目标网页的网页作弊程度。
其中,在确定所述目标网页中的作弊信息量G时,一方面可以确定作弊信息在所述目标网页中的占据空间,占用空间越大,说明作弊程度越高,另一方可以确定作弊信息占非作弊信息的比重,作弊信息的比重越大,说明作弊程度越高,等等。可以将上述每一方面作为确定作弊信息量的决定因子,并为每一决定因子设置一个取值范围,以及为每一决定因子配置一个权重值,可以按照下述公式计算作弊信息量G:
Figure BDA0001015330270000151
其中,Xi为第i个决定因子的取值,Ti为第i个决定因子的权重值。
在为决定因子取值时,可以使决定因子的作弊程度与决定因子的取值正比,即决定因子的作弊程度越高,该决定因子的取值越大,反之亦然。同样的,在为决定因子配置权重值时,可以使决定因子对作弊程度的重要性与决定因子的权重值成正比,即决定因子对作弊程度的重要性越高,该决定因子的权重值越大,反之亦然。
其中,在确定作弊信息在所述目标网页中的分布位置值M时,可以预先划分出几个位置属性,比如位置属性包括为:页面上部、页面中部、页面底部,等等,当作弊信息置于所述目标网页的页面上部时,认为作弊程度最高,当作弊信息置于所述目标网页的页面中部时,认为作弊程度居中,当作弊信息置于所述目标网页的页面下部时,认为作弊程度最低。可以根据作弊信息的位置属性,预置不同的分布位置值,这样根据作弊信息在所述目标网页中的分布位置,从预置的分布位置值中取一个数值M。
步骤B2:根据所述网页作弊程度,删除所述目标网页或降低所述目标网页在搜索引擎中的网页评分。
在步骤B2中,假设表征所述目标网页的网页作弊程度的数值与网页作弊程度成正比时,可以预先设定一个阈值,如果表征所述目标网页的网页作弊程度的数值超过该设定阈值,则删除所述目标网页,如果表征所述目标网页的网页作弊程度的数值不超过该设定阈值,则降低所述目标网页在搜索引擎中的网页评分,使网页评分的降低程度与网页作弊程度正成本。
参见图4,为本发明实施例提供的识别作弊网页的装置示意图,该装置400包括:
源数据获取单元401,用于获取用于生成目标网页的源文件数据;
作弊方式匹配单元402,用于利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;
作弊网页识别单元403,用于如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。
在一种实现方式中,所述装置400还包括方式库建立单元;所述方式库建立单元可以包括:测试内容获取模块、作弊网页判断模块和方式库建立模块。
测试内容获取模块,用于获取测试样本集中每一测试样本网页中的测试网页内容,所述测试网页内容是通过解析所述测试样本网页的源文件、且利用解析得到的测试网页数据进行页面渲染后生成的网页内容;
作弊网页判断模块,用于根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页;
方式库建立模块,用于如果所述测试样本网页被判断为作弊网页,则分析所述解析得到的测试网页数据,确定所述测试样本网页用于实现网页作弊的至少一种网页作弊方式,保存在作弊方式库中。
在一种实现方式中,所述装置400还包括分类器建立单元,基于此,所述作弊网页判断模块可以包括:向量确定子模块和作弊判断子模块。
向量确定子模块,用于确定所述测试网页内容中关于网页特征集中各个网页特征的测试特征向量;
作弊判断子模块,用于将确定的各个测试特征向量作为所述分类器建立单元建立的作弊分类器的输入参数,以利用所述作弊分类器判断所述测试样本网页是否为作弊网页。
在一种实现方式中,所述分类器建立单元,可以包括:训练内容获取模块、特征向量确定模块和分类器建立模块。
训练内容获取模块,用于获取训练样本集中每一训练样本网页的完整网页内容,所述训练样本集包括实现网页作弊的训练样本网页和未实现网页作弊的训练样本网页;
特征向量确定模块,用于确定每一训练样本网页的完整网页内容中关于所述网页特征集中各个网页特征的训练特征向量;
分类器建立模块,用于利用所有训练样本网页的所述训练特征向量训练得到一个用于识别作弊网页的作弊分类器。
在一种实现方式中,所述网页特征集中可以包括以下一个或多个网页特征:
网页中嵌入了用于网页作弊的框架Iframe;
网页具有重定向一个作弊网页的功能;
网页动态页面中包含了与网页静态页面无关的内容,所述网页动态页面是通过解析网页源文件、且利用解析得到的网页数据进行页面渲染后生成的,所述网页静态页面是利用网页源文件中存在的网页内容直接生成的;
网页中包含有非法内容和/或违禁内容。
在一种实现方式中,所述网页中嵌入了用于网页作弊的框架Iframe,可以包括:
网页中嵌入的Iframe遮挡了网页的部分或全部内容,和/或,所述Iframe中嵌入的网页为作弊网页。
进一步地,所述装置400还可以包括:作弊程度确定单元和目标网页处理单元。
作弊程度确定单元,用于在所述作弊网页识别单元404将所述目标网页识别为作弊网页之后,确定所述目标网页的网页作弊程度;
目标网页处理单元,用于根据所述网页作弊程度,删除所述目标网页或降低所述目标网页在搜索引擎中的网页评分。
在一种实现方式中,所述作弊程度确定单元,可以具体用于根据所述目标网页中的作弊信息量、和/或所述目标网页中的作弊信息在所述目标网页中的分布位置,确定所述目标网页的网页作弊程度。
参见图5,为本发明实施例提供的用于识别作弊网页的装置示意图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理部件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理***,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到设备500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,本发明实施例还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种识别作弊网页的方法,所述方法包括:
获取用于生成目标网页的源文件数据;
利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;
如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页。
图6是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本发明各个实施例或者实施例的某些部分所述的方法。
需要说明的是,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种识别作弊网页的方法,其特征在于,用于对网页中的动态页面内容进行作弊识别,包括:
获取用于生成目标网页的源文件数据;所述源文件数据,包括:直接存在于所述目标网页的源文件的静态页面内容、解析所述目标网页的源文件得到的解析数据,该解析数据用于通过页面渲染生成动态页面内容的网页数据;
利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;
如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页;
所述作弊方式库通过以下方式建立:
获取测试样本集中每一测试样本网页中的测试网页内容,所述测试网页内容是通过解析所述测试样本网页的源文件、且利用解析得到的测试网页数据进行页面渲染后生成的网页内容;
根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页;所述网页特征至少包括关键词、链接以及页面布局;
如果所述测试样本网页被判断为作弊网页,则分析所述解析得到的测试网页数据,确定所述测试样本网页用于实现网页作弊的至少一种网页作弊方式,保存在作弊方式库中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页,包括:
确定所述测试网页内容中关于网页特征集中各个网页特征的测试特征向量,将确定的各个测试特征向量作为作弊分类器的输入参数,以利用所述作弊分类器判断所述测试样本网页是否为作弊网页;
所述作弊分类器通过以下步骤获得:
获取训练样本集中每一训练样本网页的完整网页内容;所述训练样本集中的训练样本网页包括已确定的作弊网页和已确定的非作弊网页;
确定每一训练样本网页的完整网页内容中关于所述网页特征集中各个网页特征的训练特征向量;
利用所有训练样本网页的所述训练特征向量训练得到一个用于识别作弊网页的作弊分类器。
3.根据权利要求2所述的方法,其特征在于,所述网页特征集中包括以下一个或多个网页特征:
网页中嵌入了用于网页作弊的框架Iframe;
网页具有重定向一个作弊网页的功能;
网页动态页面中包含了与网页静态页面无关的内容,所述网页动态页面是通过解析网页源文件、且利用解析得到的网页数据进行页面渲染后生成的,所述网页静态页面是利用网页源文件中存在的网页内容直接生成的;
网页中包含有非法内容和/或违禁内容。
4.根据权利要求3所述的方法,其特征在于,所述网页中嵌入了用于网页作弊的框架Iframe,包括:
网页中嵌入的Iframe遮挡了网页的部分或全部内容,和/或,所述Iframe中嵌入的网页为作弊网页。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述将所述目标网页识别为作弊网页之后,还包括:
确定所述目标网页的网页作弊程度;
根据所述网页作弊程度,删除所述目标网页或降低所述目标网页在搜索引擎中的网页评分。
6.根据权利要求4所述的方法,其特征在于,所述确定所述目标网页的网页作弊程度,包括:
根据所述目标网页中的作弊信息量、和/或所述目标网页中的作弊信息在所述目标网页中的分布位置,确定所述目标网页的网页作弊程度。
7.一种识别作弊网页的装置,其特征在于,用于对网页中的动态页面内容进行作弊识别,包括:
源数据获取单元,用于获取用于生成目标网页的源文件数据;所述源文件数据,包括:直接存在于所述目标网页的源文件的静态页面内容、解析所述目标网页的源文件得到的解析数据,该解析数据用于通过页面渲染生成动态页面内容的网页数据;
作弊方式匹配单元,用于利用方式库建立单元预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;
作弊网页识别单元,用于如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页;
所述装置还包括方式库建立单元;
所述方式库建立单元包括:测试内容获取模块、作弊网页判断模块和方式库建立模块;
所述测试内容获取模块,用于获取测试样本集中每一测试样本网页中的测试网页内容,所述测试网页内容是通过解析所述测试样本网页的源文件、且利用解析得到的测试网页数据进行页面渲染后生成的网页内容;
所述作弊网页判断模块,用于根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页;所述网页特征至少包括关键词、链接以及页面布局;
所述方式库建立模块,用于如果所述测试样本网页被判断为作弊网页,则分析所述解析得到的测试网页数据,确定所述测试样本网页用于实现网页作弊的至少一种网页作弊方式,保存在作弊方式库中。
8.根据权利要求7所述的识别作弊网页的装置,其特征在于,所述装置还包括分类器建立单元,所述作弊网页判断模块包括:向量确定子模块和作弊判断子模块;
向量确定子模块,用于确定所述测试网页内容中关于网页特征集中各个网页特征的测试特征向量;
作弊判断子模块,用于将确定的各个测试特征向量作为所述分类器建立单元建立的作弊分类器的输入参数,以利用所述作弊分类器判断所述测试样本网页是否为作弊网页;
所述分类器建立单元,包括:训练内容获取模块、特征向量确定模块和分类器建立模块;
训练内容获取模块,用于获取训练样本集中每一训练样本网页的完整网页内容,所述训练样本集包括实现网页作弊的训练样本网页和未实现网页作弊的训练样本网页;
特征向量确定模块,用于确定每一训练样本网页的完整网页内容中关于所述网页特征集中各个网页特征的训练特征向量;
分类器建立模块,用于利用所有训练样本网页的所述训练特征向量训练得到一个用于识别作弊网页的作弊分类器。
9.根据权利要求8所述的识别作弊网页的装置,其特征在于,所述网页特征集中包括以下一个或多个网页特征:
网页中嵌入了用于网页作弊的框架Iframe;
网页具有重定向一个作弊网页的功能;
网页动态页面中包含了与网页静态页面无关的内容,所述网页动态页面是通过解析网页源文件、且利用解析得到的网页数据进行页面渲染后生成的,所述网页静态页面是利用网页源文件中存在的网页内容直接生成的;
网页中包含有非法内容和/或违禁内容。
10.根据权利要求9所述的识别作弊网页的装置,其特征在于,所述网页中嵌入了用于网页作弊的框架Iframe,包括:
网页中嵌入的Iframe遮挡了网页的部分或全部内容,和/或,所述Iframe中嵌入的网页为作弊网页。
11.根据权利要求7-10任一项所述的识别作弊网页的装置,其特征在于,所述装置还包括:作弊程度确定单元和目标网页处理单元;
作弊程度确定单元,用于在所述作弊网页识别单元将所述目标网页识别为作弊网页之后,确定所述目标网页的网页作弊程度;
目标网页处理单元,用于根据所述网页作弊程度,删除所述目标网页或降低所述目标网页在搜索引擎中的网页评分。
12.根据权利要求11所述的识别作弊网页的装置,其特征在于,所述作弊程度确定单元,具体用于根据所述目标网页中的作弊信息量、和/或所述目标网页中的作弊信息在所述目标网页中的分布位置,确定所述目标网页的网页作弊程度。
13.一种用于识别作弊网页的装置,其特征在于,用于对网页中的动态页面内容进行作弊识别,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用于生成目标网页的源文件数据;所述源文件数据,包括:直接存在于所述目标网页的源文件的静态页面内容、解析所述目标网页的源文件得到的解析数据,该解析数据用于通过页面渲染生成动态页面内容的网页数据;
利用预先建立的作弊方式库中的各个网页作弊方式,对所述源文件数据进行作弊方式的匹配,所述网页作弊方式是指在解析网页源文件得到的网页数据中嵌入作弊信息的方式;
如果从所述作弊方式库中匹配出至少一种网页作弊方式,则将所述目标网页识别为作弊网页;
所述作弊方式库通过以下方式建立:
获取测试样本集中每一测试样本网页中的测试网页内容,所述测试网页内容是通过解析所述测试样本网页的源文件、且利用解析得到的测试网页数据进行页面渲染后生成的网页内容;
根据所述测试网页内容中的至少一个网页特征判断所述测试样本网页是否为作弊网页;所述网页特征至少包括关键词、链接以及页面布局;
如果所述测试样本网页被判断为作弊网页,则分析所述解析得到的测试网页数据,确定所述测试样本网页用于实现网页作弊的至少一种网页作弊方式,保存在作弊方式库中。
14.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-6任一所述的识别作弊网页的方法。
CN201610412719.5A 2016-06-13 2016-06-13 一种识别作弊网页的方法及装置 Active CN107491453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610412719.5A CN107491453B (zh) 2016-06-13 2016-06-13 一种识别作弊网页的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610412719.5A CN107491453B (zh) 2016-06-13 2016-06-13 一种识别作弊网页的方法及装置

Publications (2)

Publication Number Publication Date
CN107491453A CN107491453A (zh) 2017-12-19
CN107491453B true CN107491453B (zh) 2022-09-02

Family

ID=60642997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610412719.5A Active CN107491453B (zh) 2016-06-13 2016-06-13 一种识别作弊网页的方法及装置

Country Status (1)

Country Link
CN (1) CN107491453B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800378A (zh) * 2019-01-23 2019-05-24 北京字节跳动网络技术有限公司 基于自定义浏览器的内容处理方法、装置及电子设备
CN110992214B (zh) * 2019-11-29 2022-08-16 成都中科大旗软件股份有限公司 一种基于旅游名县和示范区的服务管理***和方法
CN111881398B (zh) * 2020-06-29 2024-02-09 腾讯科技(深圳)有限公司 页面类型确定方法、装置和设备及计算机存储介质
CN114218516B (zh) * 2021-12-27 2023-03-10 北京百度网讯科技有限公司 网页处理方法、装置、电子设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050204133A1 (en) * 2004-03-09 2005-09-15 Robert LaLonde Reduction in unwanted e-mail (spam) through the use of portable unique utilization of public key infrastructure (PKI)
US20080147669A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Detecting web spam from changes to links of web sites
US7974970B2 (en) * 2008-10-09 2011-07-05 Yahoo! Inc. Detection of undesirable web pages
CN101534306B (zh) * 2009-04-14 2012-01-11 深圳市腾讯计算机***有限公司 一种钓鱼网站的检测方法及装置
CN102902686A (zh) * 2011-07-27 2013-01-30 腾讯科技(深圳)有限公司 一种网页检测的方法及***
CN103150369A (zh) * 2013-03-07 2013-06-12 人民搜索网络股份公司 作弊网页识别方法及装置
CN103679053B (zh) * 2013-11-29 2017-03-15 北京奇安信科技有限公司 一种网页篡改的检测方法及装置
CN104158828B (zh) * 2014-09-05 2018-05-18 北京奇虎科技有限公司 基于云端内容规则库识别可疑钓鱼网页的方法及***
CN104168293B (zh) * 2014-09-05 2017-11-07 北京奇虎科技有限公司 结合本地内容规则库识别可疑钓鱼网页的方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Research on Web Spam Detection Based on Support Vector Machine;Zhiyang Jia等;《2012 International Conference on Communication Systems and Network Technologies》;20120517;第517-520页 *
基于关键词的垃圾网页判别研究;杜明明;《中国优秀硕士学位论文全文数据库信息科技辑》;20160215(第2期);第I138-2153页 *

Also Published As

Publication number Publication date
CN107491453A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
US11520824B2 (en) Method for displaying information, electronic device and system
CN109614482B (zh) 标签的处理方法、装置、电子设备及存储介质
CN107526744B (zh) 一种基于搜索的信息展示方法和装置
CN108121736B (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN107491453B (zh) 一种识别作弊网页的方法及装置
CN110399548A (zh) 一种搜索处理方法、装置、电子设备以及存储介质
CN106815291B (zh) 搜索结果项展现方法、装置和用于搜索结果项展现的装置
CN111382339A (zh) 一种搜索处理方法、装置和用于搜索处理的装置
CN110309324B (zh) 一种搜索方法及相关装置
KR101777035B1 (ko) 주소 필터링 방법, 장치, 프로그램 및 기록매체
US11546663B2 (en) Video recommendation method and apparatus
CN112711723A (zh) 一种恶意网址检测方法、装置及电子设备
CN104572848B (zh) 基于浏览器的搜索方法及装置
CN107870721B (zh) 搜索结果展现方法、装置及用于搜索结果展现的装置
CN111368161B (zh) 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN106960026B (zh) 搜索方法、搜索引擎和电子设备
US20190026380A1 (en) Method and apparatus for processing bookmark and terminal device
CN108268507B (zh) 一种基于浏览器的处理方法、装置及电子设备
CN107784037B (zh) 信息处理方法和装置、用于信息处理的装置
CN110110046B (zh) 同名实体推荐方法及装置
CN112598016A (zh) 图像分类方法及装置、通信设备及存储介质
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN108572980B (zh) 一种网页分屏显示方法和装置
CN111382295B (zh) 一种图像搜索结果的排序方法和装置
CN113918661A (zh) 知识图谱生成方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant