CN103761257A - 基于移动浏览器的网页处理方法及*** - Google Patents

基于移动浏览器的网页处理方法及*** Download PDF

Info

Publication number
CN103761257A
CN103761257A CN201310744595.7A CN201310744595A CN103761257A CN 103761257 A CN103761257 A CN 103761257A CN 201310744595 A CN201310744595 A CN 201310744595A CN 103761257 A CN103761257 A CN 103761257A
Authority
CN
China
Prior art keywords
website
web page
pseudo
static
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310744595.7A
Other languages
English (en)
Other versions
CN103761257B (zh
Inventor
梁捷
董洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Ucweb Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ucweb Inc filed Critical Ucweb Inc
Priority to CN201310744595.7A priority Critical patent/CN103761257B/zh
Publication of CN103761257A publication Critical patent/CN103761257A/zh
Application granted granted Critical
Publication of CN103761257B publication Critical patent/CN103761257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于移动浏览器的网页处理方法及***,其中的方法包括:根据用户发送的网站访问请求中所含有的更新时间参数,确定网站的结构类型为伪静态网站时,通过判断伪静态网站中的伪静态网页的title标签和meta标签是否含有预设的关键字,确定伪静态网页是否符合重建要求;当伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素,并根据所抽取的核心元素,对伪静态网页进行转码重建。通过本发明能够自动和准确找到使用模板***所搭建的特定内容的伪静态网页,并保证将其进行转码重建,重建后的网页给用户提供无广告、清爽的差异化视觉体验,并且还能降低网站的维护成本,提高重建的效率。

Description

基于移动浏览器的网页处理方法及***
技术领域
本发明涉及移动浏览器技术领域,更为具体地,涉及一种基于移动浏览器的网页处理方法及***。
背景技术
随着网络的高速发展,人们通过访问网站,可以随时随地获取自己想要的资讯或者服务。在目前的网站建设过程中,大多数的中小型网站都采用模板***搭建而成,例如视频网站、小说网站等。
但是,采用模板***搭建而成的网站会不可避免地存在以下问题:由于广告是网站的主要营收手段,因此,采用模板***所搭建的网站广告多,使网站页面不清爽,这是其一;其二,由于网站采用模板***搭建而成,即使是不同的网站也有可能采用同一模板***,因此,采用同一模板***生成的网站,其用户界面结构基本一致,相似度如此高的网站不利于用户的体验;其三,为了搜索引擎优化,方便爬虫的抓取和收录,采用模板***搭建的网站均采用伪静态化的页面,造成网站承受力低、伪静态页面和动态页面重复等,并且网站数据的更新也非实时更新,而是使用定时更新或者手动后台更新,造成数据更新不及时等问题。
针对上述采用模板***搭建而成的网站所存在的问题,现有的处理方法是基于域名进行判断,即直接把网站的网址加到域名白名单中。其中,一个域名白名单对应一个网页。用户在访问网站时,服务器只要判断出用户所请求访问的网址存在于白名单中,即可将进行单独转码后的新页面提供给用户。
然而,由于采用模板***所搭建的网站会经常发生域名变换,因此,在基于域名白名单方式进行转码时,一旦网站的域名发生变化,那么该网站的网址就不会在白名单中出现,服务器也就不会对该网站进行转码转换并生成新的页面提供给用户。如果要保证服务器能将网站进行转码并生成新的页面提供给用户,则需要人工及时更新域名白名单,这不仅工作效率低、人工维护成本高,并且用户的体验也不好。
发明内容
鉴于上述问题,本发明的目的是提供一种基于移动浏览器的网页处理方法及***,以解决服务器在使用模板***所搭建的网站进行转码并生成新页面提供给用户时,受域名白名单影响的问题,降低网站的维护成本,提高工作效率和用户体验。
根据本发明的一个方面,提供一种基于移动浏览器的网页处理方法,包括:
根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定网站的结构类型;其中,
当确定网站的结构类型为伪静态网站时,通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定伪静态网站中的伪静态网页是否符合重建要求;其中,当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定所述伪静态网页符合重建要求;
当伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素,并根据所抽取的核心元素,对伪静态网页进行转码重建。
其中,在根据用户发送的网站访问请求中所含有的该网站的更新时间参数确定网站的结构类型的过程中,中间件截获用户发送的网站访问请求,当网站访问请求中含有Last Modified参数时,即确定网站的结构类型为伪静态网站;或者,中间件截获用户发送的网站访问请求,通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间,如果网站服务器的最后更新时间不是当前时间,则确定网站的结构类型为伪静态网站。
其中,网页元素白名单由伪静态网页的标签下的核心元素构成,其中,标签包括body标签中的div标签和/或table标签。
根据本发明的另一方面,提供一种基于移动浏览器的网页处理***,包括:
网站结构类型确定单元,用于根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定网站的结构类型;
网页重建确定单元,用于当网站结构类型确定单元,确定网站的结构类型为伪静态网站时,通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定伪静态网站中的伪静态网页是否符合重建要求;其中,当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定伪静态网页符合重建要求;
网页核心元素抽取单元,用于当网页重建确定单元确定伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素;
页面重建单元,用于根据核心元素抽取单元所抽取的核心元素,对伪静态网页进行转码重建。
利用上述根据本发明的基于移动浏览器的网页处理方法及***,通过选择特定参数自动对特定类型的网站进行筛选和抽取,能够自动和准确找到使用模板***所搭建的特定内容的伪静态网站,方便进行资源聚合和网页转码,且不受域名白名单影响,保证将使用模板***所搭建的网站进行转码处理,并形成新页面提供给用户,从而降低网站的维护成本,提高工作效率和用户体验。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于移动浏览器的网页处理方法的第一流程示意图;
图2为根据本发明实施例的基于移动浏览器的网页处理方法的第二流程示意图;
图3为根据本发明实施例的基于移动浏览器的网页处理***逻辑结构框图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
以下将结合附图对本发明的具体实施例进行详细描述。
为了更为清楚地描述本发明的技术方案,下面先对本发明中所涉及的某些概念进行说明:
伪静态:伪静态是相对真实静态来讲的,通常为了增强搜索引擎的友好面,都将文章内容生成静态页面,但是有时为了实时的显示一些信息,或者还想运用动态脚本解决一些问题,则不能用静态的方式来展示网站内容,但不用静态的方式便会损失对搜索引擎的友好面。伪静态则是这两者之间的中间方法,既能增强搜索引擎的友好面,又能展现动态脚本的优势。
伪静态网站:使用模板建站***建立的,通过模板后台生成的,前端是静态的,以方便搜索引擎收录的站点。
伪静态网页:伪静态网站中的某一张网页。
网站的结构类型:包括动态网站和伪静态网站。
网站的内容类型:具有某种内容的网站,如视频网站,小说网站,图片网站。
为了说明本发明提供的基于移动浏览器的网页处理方法,图1示出了根据本发明实施例的基于移动浏览器的网页处理方法的第一流程。
如图1所示,本发明提供的基于移动浏览器的网页处理方法包括:
S110:根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定网站的结构类型。
由于动态网页的最后更新时间是当前服务器时间,伪静态网页的最后更新时间一般不是当前服务器时间。因此,根据动态网页与伪静态网页的最后更新时间的差异性,通过更新时间参数能够准确判断出网站的结构类型。
其中,在根据用户发送的网站访问请求中所含有的更新时间参数确定网站的结构类型的过程中,中间件截获用户发送的网站访问请求,当该网站访问请求中含有Last Modified参数(其中,该参数一般在网站访问请求的请求头中)时,即确定该网站的结构类型为伪静态网站;或者,中间件截获用户发送的网站访问请求,通过调用JS接口的document.lastmodified参数,获取网站服务器的最后更新时间,如果网站服务器的最后更新时间不是当前时间,则进行验证,确定该网站的结构类型为伪静态网站。
具体地,一般模板***所搭建的网站都是在后台采集资源,为了方便搜索引擎收录,通过动态页面(例如ASP页面)生成静态页面(即HTML页面)。因此,手动生成或定时生成的伪静态网页的修改时间,和需要与数据库实时交互的动态页面的时间会有时间差,如此便造成模板***生成的页面的时间一般不会是当前服务器的时间,利用这一特征便能够判断网站的结构类型是否属于伪静态网页。
通过步骤S110,能够实现过滤大量动态网站的目的,留下的站点一般包含有模板***所搭建的伪静态网站。即该步骤能够确定网站的结构类型是伪静态网站还是动态网站。
S120:当确定网站的结构类型为伪静态网站时,通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定伪静态网站中的伪静态网页是否符合重建要求;其中,当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定该伪静态网页符合重建要求。
为了能够使用户看到干净清爽的网页内容,需要去除网页中其他不必要的元素,例如网页中所嵌入的广告元素,只留下用户想要看到的网页的主要元素,如此便需要对网页进行定制(即重建)。通常情况下,需要定制的网页,其内容一般都会与某些特定的关键字相关,例如“视频”、“小说”等,其可以根据定制的需要进行预设。
具体地,将某些特定的关键字预先存入关键字库中,以作为判断网页是否符合重建要求的依据。例如,预先将“视频”、“笑话”、“小说”等特定关键字存入关键字库中,当用户想要定制一个视频网站的内容时,则只需要将所访问的视频网站中的伪静态网页的head标签下的title标签和meta标签(含keywords、description)所含的关键字与关键字库进行匹配,如果该关键字与关键字库匹配成功,则可以确定用户所访问的视频网站中的伪静态网页符合重建的要求。
另外,为了搜索引擎优化,方便爬虫的抓取和收录,网站的站长通常会将网站的核心关键字放进网站首页的title标签和meta标签。因此,通过伪静态网站中的伪静态网页的head标签下的title标签和meta标签所含的关键字,确定伪静态网站中的伪静态网页的内容类型,以将含有该关键字的同一内容类型的伪静态网页进行资源聚合。由于模板***所搭建的网站其页面结构基本相似,因此,将同一内容类型的伪静态网页进行资源聚合有利于更有针对性的对资源进行收集和分发。
也就是说,通过对所访问的伪静态网站中的伪静态网页的内容类型的确定,能够进一步提高命中网站的精准度。如此既实现了判断用户所访问的伪静态网站中的伪静态网页是否符合重建要求,又能够将同一内容类型的网站进行聚合,以方便同类型网站的收集。
S130:当伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素,并根据所抽取的核心元素,对伪静态网页进行转码重建。
网页的核心元素作为网页的关键识别码,其可以避免域名改变所导致的网站无法识别的情况。因为网页的域名虽然改变的,但网页的核心元素却始终不会改变。因此在抽取伪静态网页的核心元素时,通过网页元素白名单,能够提高对网页元素抽取的精准度。网页元素白名单与现有的域名白名单相比,其优势在于不必担心因为域名变换而导致网页元素抽取失败的情况发生。
其中,网页元素白名单由伪静态网页的标签下的核心元素构成。其中,该标签包括body标签中的div标签和/或table标签。另外,一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。
需要说明的是,一个网页元素白名单指的是针对网页的关键所定义的,其也可以称作class id白名单。网页元素白名单可以有多个,其中,在区分多个网页元素白名单时,可以用class和id的值来进行区分。也就是说,一个网页元素白名单对应的是同一内容类型的网页。
具体地,根据网页中是否含有设定的核心元素确认是否对网页元素进行抽取,如果网页中没有设定的核心元素,则不对网页元素进行抽取,在后续则只能展示原网页给用户;如果网页中含有设定的核心元素,则对网页元素进行抽取。
也就是说,首先应判断网页元素白名单中是否含有伪静态网页的核心元素,如果有,抽取该伪静态网页的核心元素,即只要网页的核心元素存在于网页元素白名单中的同一类网站,都能够抽取其网页的核心元素。
例如,网页导航标签的写法有<div class="menu">,<div class="nav">、<divclass="navigation">、<div class="dh">等,将class作为网页的核心元素,将menu、nav、navigation、dh加入到网页元素白名单,凡是网页结构中含有这些class的,均可认为该网页是类型为导航的相似结构,可以进行抽取。
需要说明的是,一个网页元素白名单对应同一内容类型的一类网页,即是一个网页元素白名单可以对应多个网页,如此便能够有效地从结构本质上对域名经常变换的一类网站进行定位,从而减少域名白名单的人工维护成本。
由于该重建的伪静态网页只是抽取的网页的核心元素进行转码重建,因此过滤了广告,只含有原网页的核心内容,可以给用户提供无广告、清爽的差异化视觉体验。
本发明利用特定参数自动筛选出网站的结构类型,当确定网站的结构类型为伪静态网站时,通过伪静态网站中的伪静态网页的head标签内的title标签确定该伪静态网站中的伪静态网页符合重建要求,然后通过网页元素白名单机制,抽取伪静态网页的核心元素进行转码重建。
通过上述流程可以看出,本发明提供的基于移动浏览器的网页处理方法能够自动和准确找到使用模板***所搭建的特定内容的伪静态网站,且能够保证将使用模板***所搭建的网站进行转码处理,并形成新页面提供给用户,从而实现这类站点的识别并进行重新排版展示,不仅人工维护成本低、重建网页的效率高,还能使电脑页面更适合手机用户浏览,还能提升用户的体验。
为了更为清楚地说明本发明提供的基于移动浏览器的网页处理方法,图2示出了根据本发明实施例的基于移动浏览器的网页处理方法的第二流程。如图2所示:
S210:在用户访问网站时,中间件截获用户访问网站的请求。
S220:判断该请求的HTTP请求头中是否含有Last Modified参数,以确定用户所访问的网站的结构类型是否属于伪静态网页。如果该请求的HTTP请求头中含有Last Modified参数,则进入步骤S230,否则进入步骤S260。
具体地,如果该请求的HTTP请求头中不含有Last Modified参数,则说明用户所访问的网站的结构类型不属于伪静态网页,那么只能将原网页内容展示给用户。
S230:判断网页的head标签下的title标签和mtea标签是否含有预设关键字,以确定用户所访问的伪静态网页是否符合重建的要求。如果title标签和mtea标签包含预设关键字,则进入步骤S240,否则进入步骤S260。
具体地,该预设关键字可保存在关键字库中,在判断用户所访问的伪静态网页是否符合重建的要求时,只需将网页的head标签下的title标签和meta标签所含的关键字与关键字库进行匹配,如果匹配成功,则可以确定用户所访问的伪静态网页满足重建的要求,接下来则对网页元素白名单进行校验;如果匹配不成功,则说明该伪静态网页不符合重建要求,那么只能将原网页内容展示给用户。
S240:判断网页元素白名单中是否含有伪静态网页的核心元素,如果有则进入步骤S250,否则进入步骤S260。
S250:抽取该伪静态网页的核心元素,通过中间件给出定制的新页面(即重建后的页面)展示给用户,然后将重建后的网页的域名记录至域名白名单。
具体地,在对网页元素白名单进行校验时,即在判断网页元素白名单中是否含有伪静态网页的核心元素时,如果网页元素白名单中含有伪静态网页的核心元素(例如class或id),则抽取该伪静态网页的核心元素,通过中间件给出定制的新页面(即重建后的页面)展示给用户,然后将重建后的网页的域名记录至域名白名单。
S260:将原网页内容展示给用户。
下述以基于移动浏览器的视频网站为例,对本发明提供的网页处理方法作详细说明。
用户在使用移动浏览器请求访问某视频网站时,中间件截获该请求,判断该网站的结构类型是否为伪静态网页;其中,当该请求中含有Last Modified参数时,确定该视频网站的结构类型为伪静态网站;然后通过判断该伪静态网站的伪静态网页的title标签和meta标签是否含有“视频”这一预设关键字,确定该伪静态网页是否符合重建要求。其中,当该伪静态网页的title标签和meat标签含有“视频”这一预设关键字时,确定该伪静态网页符合重建要求。
由于同一内容类型的网站具有相似的网页结构,因此当确定该伪静态网页符合重建要求时,采用网页元素白名单的抽取规则,抽取视频网站中的网页标签下的核心元素,根据所抽取的核心元素,对该伪静态网页进行重新排版后呈现给用户。
重新排版后的页面效果为:一级页面为资源导航页,二级页面为视频、专区页,三级页面为视频内容展示页。
与上述方法相对应,本发明还提供一种基于移动浏览器的网页处理***。图3示出了根据本发明实施例的基于移动浏览器的网页处理***逻辑结构。
如图3所示,本发明提供的基于移动浏览器的网页处理***包括:网站结构类型确定单元310、网站内容类型确定单元320、网页核心元素抽取单元330和页面重建单元340。
其中,网站结构类型确定单元310用于根据用户发送的网站访问请求中所含有的更新时间参数,确定网站的结构类型。
其中,网站结构类型确定单元310,在根据用户发送的访问网站的请求中所含有的网页的更新时间参数,确定网站的结构类型的过程中,中间件截获用户发送的网站访问请求,当网站访问请求中含有Last Modified参数时,即确定网站的结构类型为伪静态网站;或者中间件截获用户发送的访问网站的请求,通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间,如果网站服务器的最后更新时间不是当前时间,则确定网站的结构类型为伪静态网页。
通过网站结构类型确定单元310能够过滤大量动态网站,留下的站点一般包含有模板***所搭建的伪静态网站。
网页重建确定单元320用于当网站结构类型确定单元310确定出网站的结构类型为伪静态网页时,通过判断伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定伪静态网站中的伪静态网页是否符合重建要求;其中,当伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定伪静态网页符合重建要求。
其中,网页重建确定单元320通过伪静态网站中的伪静态网页的head标签下的title标签和meta所含的关键字,能够进一步提高命中网站的精准度。如此既实现了判断用户所访问的伪静态网站中的伪静态网页是否符合重建要求,还能够将同一内容类型的网站进行聚合,方便同类型网站的收集。
网页核心元素抽取单元330用于当网页重建确定单元320确定伪静态网页符合重建要求时,抽取网页元素白名单中含有的伪静态网页的核心元素。
其中,在网页核心元素抽取单元330中,网页元素白名单由伪静态网页的标签下的核心元素构成,其中,标签包括body标签中的div标签和/或table标签。并且一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。
页面重建单元340用于根据网页核心元素抽取单元330所抽取的核心元素,对伪静态网页进行转码重建。
通过上述可以看出,本发明提供的基于移动浏览器的网页处理方法及***通过选择特定参数自动对特定类型的网站进行筛选,自动和准确找到使用模板***所搭建的特定内容的伪静态网站,并对其网页核心元素进行抽取,且不受域名白名单影响,保证将使用模板***所搭建的网站进行转码重建。重建后的网页过滤了广告,只含有原网页的核心内容,在给用户提供无广告、清爽的差异化视觉体验的同时,还能够降低网站的维护成本,提高重建的效率。
如上参照附图以示例的方式描述了根据本发明的基于移动浏览器的网页处理方法及***。但是,本领域技术人员应当理解,对于上述本发明所提出的基于移动浏览器的网页处理方法及***,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (8)

1.一种基于移动浏览器的网页处理方法,包括:
根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定所述网站的结构类型;其中,
当确定所述网站的结构类型为伪静态网站时,通过判断所述伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定所述伪静态网站中的伪静态网页是否符合重建要求;其中,当所述伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定所述伪静态网页符合重建要求;
当所述伪静态网页符合重建要求时,抽取网页元素白名单中含有的所述伪静态网页的核心元素,并根据所抽取的核心元素,对所述伪静态网页进行转码重建。
2.如权利要求1所述的基于移动浏览器的网页处理方法,其中,在所述根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定所述网站的结构类型的过程中,
中间件截获用户发送的网站访问请求,当所述网站访问请求中含有LastModified参数时,即确定所述网站的结构类型为伪静态网站;或者,
中间件截获用户发送的网站访问请求,通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间,如果所述网站服务器的最后更新时间不是当前时间,则确定所述网站的结构类型为伪静态网站。
3.如权利要求1或2所述的基于移动浏览器的网页处理方法,其中,所述网页元素白名单由所述伪静态网页的标签下的核心元素构成,其中,所述标签包括body标签中的div标签和/或table标签。
4.如权利要求3所述的基于移动浏览器的网页处理方法,其中,一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。
5.一种基于移动浏览器的网页处理***,包括:
网站结构类型确定单元,用于根据用户发送的网站访问请求中所含有的该网站的更新时间参数,确定所述网站的结构类型;
网页重建确定单元,用于当所述网站结构类型确定单元,确定所述网站的结构类型为伪静态网站时,通过判断所述伪静态网站中的伪静态网页的head标签下的title标签和meta标签是否含有预设的关键字,确定所述伪静态网站中的伪静态网页是否符合重建要求;其中,当所述伪静态网页的head标签下的title标签和meta标签含有预设的关键字时,确定所述伪静态网页符合重建要求;
网页核心元素抽取单元,用于当所述网页重建确定单元确定所述伪静态网页符合重建要求时,抽取网页元素白名单中含有的所述伪静态网页的核心元素;
页面重建单元,用于根据所述核心元素抽取单元所抽取的核心元素,对所述伪静态网页进行转码重建。
6.如权利要求5所述的基于移动浏览器的网页处理***,其中,所述网站结构类型确定单元,在根据用户发送的网站访问请求中所含有的该网站的更新时间参数确定所述网站的结构类型的过程中,
中间件截获用户发送的网站访问请求,当所述网站访问请求中含有LastModified参数时,即确定所述网站的结构类型为伪静态网站;或者,
中间件截获用户发送的网站访问请求,通过调用JS接口的document.lastmodified参数获取网站服务器的最后更新时间,如果所述网站服务器的最后更新时间不是当前时间,则确定所述网站的结构类型为伪静态网站。
7.如权利要求5或6所述的基于移动浏览器的网页处理***,其中,在所述网页核心元素抽取单元中,所述网页元素白名单由所述伪静态网页的标签下的核心元素构成,其中,所述标签包括body标签中的div标签和/或table标签。
8.如权利要求7所述的基于移动浏览器的网页处理***,其中,一个网页元素白名单包含同一内容类型的网站下的所有伪静态网页的核心元素。
CN201310744595.7A 2013-12-30 2013-12-30 基于移动浏览器的网页处理方法及*** Active CN103761257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310744595.7A CN103761257B (zh) 2013-12-30 2013-12-30 基于移动浏览器的网页处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310744595.7A CN103761257B (zh) 2013-12-30 2013-12-30 基于移动浏览器的网页处理方法及***

Publications (2)

Publication Number Publication Date
CN103761257A true CN103761257A (zh) 2014-04-30
CN103761257B CN103761257B (zh) 2017-09-22

Family

ID=50528495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310744595.7A Active CN103761257B (zh) 2013-12-30 2013-12-30 基于移动浏览器的网页处理方法及***

Country Status (1)

Country Link
CN (1) CN103761257B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899219A (zh) * 2014-03-06 2015-09-09 携程计算机技术(上海)有限公司 伪静态url的筛除方法、***及网页爬取方法、***
CN106897452A (zh) * 2017-03-07 2017-06-27 四川驹马企业管理有限公司 动态网页数据读取装置与***
CN106921741A (zh) * 2017-03-07 2017-07-04 四川驹马企业管理有限公司 动态网页数据读取方法
CN108280013A (zh) * 2018-02-05 2018-07-13 中国银行股份有限公司 一种环境资源监测页面的展示方法及装置
CN109218270A (zh) * 2017-07-06 2019-01-15 北京京东尚科信息技术有限公司 一种处理被劫持请求的方法和装置
CN110147478A (zh) * 2017-10-20 2019-08-20 中国电信股份有限公司 网页主题词获取方法和***、服务器与用户终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6938073B1 (en) * 1997-11-14 2005-08-30 Yahoo! Inc. Method and apparatus for re-formatting web pages
CN102479181A (zh) * 2010-11-22 2012-05-30 中国电信股份有限公司 基于div位置的网页正文抽取方法和装置
CN102622382A (zh) * 2011-03-14 2012-08-01 北京小米科技有限责任公司 一种网页重排版的方法
CN102789471A (zh) * 2011-05-17 2012-11-21 富士通株式会社 混搭服务器和提供混搭服务的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6938073B1 (en) * 1997-11-14 2005-08-30 Yahoo! Inc. Method and apparatus for re-formatting web pages
CN102479181A (zh) * 2010-11-22 2012-05-30 中国电信股份有限公司 基于div位置的网页正文抽取方法和装置
CN102622382A (zh) * 2011-03-14 2012-08-01 北京小米科技有限责任公司 一种网页重排版的方法
CN102789471A (zh) * 2011-05-17 2012-11-21 富士通株式会社 混搭服务器和提供混搭服务的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899219A (zh) * 2014-03-06 2015-09-09 携程计算机技术(上海)有限公司 伪静态url的筛除方法、***及网页爬取方法、***
CN104899219B (zh) * 2014-03-06 2019-06-18 上海携程商务有限公司 伪静态url的筛除方法、***及网页爬取方法、***
CN106897452A (zh) * 2017-03-07 2017-06-27 四川驹马企业管理有限公司 动态网页数据读取装置与***
CN106921741A (zh) * 2017-03-07 2017-07-04 四川驹马企业管理有限公司 动态网页数据读取方法
CN109218270A (zh) * 2017-07-06 2019-01-15 北京京东尚科信息技术有限公司 一种处理被劫持请求的方法和装置
CN109218270B (zh) * 2017-07-06 2021-08-10 北京京东尚科信息技术有限公司 一种处理被劫持请求的方法和装置
CN110147478A (zh) * 2017-10-20 2019-08-20 中国电信股份有限公司 网页主题词获取方法和***、服务器与用户终端
CN110147478B (zh) * 2017-10-20 2021-06-29 中国电信股份有限公司 网页主题词获取方法和***、服务器与用户终端
CN108280013A (zh) * 2018-02-05 2018-07-13 中国银行股份有限公司 一种环境资源监测页面的展示方法及装置
CN108280013B (zh) * 2018-02-05 2021-07-23 中国银行股份有限公司 一种环境资源监测页面的展示方法及装置

Also Published As

Publication number Publication date
CN103761257B (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN103761257A (zh) 基于移动浏览器的网页处理方法及***
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
WO2015196907A1 (zh) 一种挖掘用户需求的搜索推送方法和装置
CN102156737B (zh) 一种中文网页主题内容的提取方法
KR20190039230A (ko) 프레젠테이션을 위한 네이티브 콘텐츠의 서버측 렌더링 방법 및 시스템
CN103428076A (zh) 向多类型终端或应用发送信息的方法和装置
CN102651021B (zh) 一种图标内容更新方法及更新装置
CN102521232B (zh) 一种互联网元数据的分布式采集处理***及方法
CN107145556B (zh) 通用的分布式采集***
CN103686244A (zh) 视频数据的管理方法及其***
CN103164525A (zh) Web应用发布方法和装置
CN103034722A (zh) 一种网络视频评论聚合装置及方法
CN102663078A (zh) 一种用于生成网络社区中的待发布信息的方法与设备
CN102999511B (zh) 一种页面快速转换方法、装置和***
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN103544150A (zh) 为移动终端浏览器提供推荐信息的方法及***
CN104199893A (zh) 一种快速将全媒体内容发布的***和方法
CN104426863B (zh) 一种页面请求方法、页面请求装置、中转服务器及终端
CN105204806A (zh) 移动终端网页个性化显示方法及装置
CN103605742A (zh) 识别网络资源实体目录页的方法及装置
CN103354546A (zh) 报文过滤方法与装置
CN108108381B (zh) 页面的监测方法及装置
CN105468746B (zh) 网页多媒体内容处理方法及装置
CN102289479A (zh) 一种确定图像展现方式并展现图像的方法、装置和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200723

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 building 16, building 1610-1620, building 18, Building 29, Suzhou Street, Beijing, Haidian District

Patentee before: UC MOBILE Ltd.