CN103136259A - 一种基于内容块标识处理网页内容的方法与设备 - Google Patents

一种基于内容块标识处理网页内容的方法与设备 Download PDF

Info

Publication number
CN103136259A
CN103136259A CN2011103908289A CN201110390828A CN103136259A CN 103136259 A CN103136259 A CN 103136259A CN 2011103908289 A CN2011103908289 A CN 2011103908289A CN 201110390828 A CN201110390828 A CN 201110390828A CN 103136259 A CN103136259 A CN 103136259A
Authority
CN
China
Prior art keywords
processing rule
identification information
content blocks
content
block identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103908289A
Other languages
English (en)
Other versions
CN103136259B (zh
Inventor
钱海祥
辛昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110390828.9A priority Critical patent/CN103136259B/zh
Priority to PCT/CN2012/075044 priority patent/WO2013078829A1/zh
Publication of CN103136259A publication Critical patent/CN103136259A/zh
Application granted granted Critical
Publication of CN103136259B publication Critical patent/CN103136259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种基于内容块标识处理网页内容的方法与设备。首先,获取待处理的原始网页;接着,从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;随后,根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;随后,根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。与现有技术相比,本发明实现快速地对页面内容进行处理;由此提高页面转换效率与质量,从而提升用户使用体验,同时由于页面的标记语言文件中仅需包括块标识信息而无需包括相应的处理规则,由此减轻网站进行网页维护的负担。

Description

一种基于内容块标识处理网页内容的方法与设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于内容块标识处理网页内容的技术。
背景技术
现有技术在进行网页内容处理时,例如,将在台式计算机上显示的网页转换为适于在移动终端上显示的网页时,通常从解析后的互联网网页中提取主题内容,并根据提取的主题内容生成新的网页,以实现将适合于台式计算机展示的原始网页转换为适合于移动设备展示的目标网页,但利用该方法进行网页转换的效率较低,处理的时间成本高,从而影响来自移动终端用户的页面访问请求的响应速度,降低用户体验。
因此,如何有效地实现快速地对页面内容进行处理,成为目前亟待解决的问题之一。
发明内容
本发明的目的是提供一种基于内容块标识处理网页内容的方法与设备。
根据本发明的一个方面,提供了一种计算机实现的基于内容块标识处理网页内容的方法,该方法包括以下步骤:
a获取待处理的原始网页;
b从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;
c根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;
d根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。
根据本发明的另一方面,还提供了一种基于内容块标识处理网页内容的设备,该设备包括:
原始网页获取装置,用于获取待处理的原始网页;
标识信息提取装置,用于从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;
处理规则获取装置,用于根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;
目标网页获取装置,用于根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。
与现有技术相比,本发明根据所获取原始网页的标记语言文件,如HTML、XHTML文件,的各内容块相对应的块标识信息,在处理规则库中进行匹配查询以获得与该块标识信息相对应的内容块处理规则,进而对各内容块进行相应的诸如折叠、删除、格式化等处理,从而实现快速地对页面内容进行处理;由此提高页面转换效率与质量,从而提升用户使用体验,同时由于页面的标记语言文件中仅需包括块标识信息而无需包括相应的处理规则,由此减轻网站进行网页维护的负担。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的基于内容块标识处理网页内容的设备示意图;
图2示出根据本发明一个优选实施例的基于内容块标识处理网页内容的设备示意图;
图3示出根据本发明另一个方面的基于内容块标识处理网页内容的方法流程图;
图4示出根据本发明一个优选实施例的基于内容块标识处理网页内容的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面基于内容块标识处理网页内容的设备示意图。其中,处理设备1包括原始网页获取装置11、标识信息提取装置12、处理规则获取装置13和目标网页获取装置14。
在此,处理设备1可为网络设备,包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云,在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;处理设备1也可为移动终端,所述移动终端意指可以在移动中使用的计算机设备,包括但不限于手机、笔记本、POS机、车载电脑等,其显示屏尺寸通常远远小于台式电脑的显示器尺寸。
以下参照图1来对处理设备1处理网页内容的过程进行详细描述:
具体地,原始网页获取装置11获取待处理的原始网页。
在此,所述获取待处理的原始网页的方式包括但不限于以下情形:
1)根据来自移动终端的页面访问请求,从该页面访问请求中的统一资源定位符(URL)所指向的网站服务器处获取相应的原始网页;
在一示例中,首先,用户借助移动终端的交互装置,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,与移动终端的浏览器软件或客户端软件进行交互,以键盘为例,用户在移动终端的浏览器软件的地址栏输入框中进行输入时,该移动终端实时地获取用户输入的按键序列,例如用户输入的一条统一资源定位符(URL),并记录为与该用户输入操作相对应的页面访问请求,其中,该页面访问请求中包括该URL,然后将该页面访问请求通过约定的通信方式发送至处理设备1;接着,原始网页获取装置11实时地接收该页面访问请求,并从中提取页面URL,并向该URL所指向网页所在的网络服务器发送获取该网页的请求,例如,可将其封装为一请求消息,如http请求消息,并通过相应的通信协议,如http、https通信协议,发送至该网络服务器;接着,原始网页获取装置11接收该网络服务器响应于该请求而反馈的网页,并将该网页作为所述待处理的原始网页。
2)从第三方设备获取待处理的原始网页。
在另一示例中,处理设备1为网络设备。原始网页获取装置11根据第三方设备提供的应用编程接口(API),受预定条件或事件触发地、或定期地向该第三方设备发送接收待处理的原始网页的请求消息,并接收该第三方设备响应于该请求消息返回的待处理的原始网页;或第三方设备主动向处理设备1推送待处理的原始网页,原始网页获取装置11接收该待处理的原始网页。
本领域技术人员应能理解上述获取待处理的原始网页的方式仅为举例,其他现有的或今后可能出现的获取待处理的原始网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,标识信息提取装置12从原始网页获取装置11获取的原始网页的标记语言文件中例如利用字符串匹配等方式提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块。
在此,所述标记语言文件包括但不限于:
1)HTML(超文本标记语言)文件,其是用于描述网页文档的一种标准通用标记语言;
2)XML(可扩展标记语言)文件,其是一种简单的用于数据存储的标准通用标记语言;
3)XHTML(可扩展超文本标记语言)文件,其是一种基于XML的具有严格语法的标记语言;
4)WML(无线标记语言)文件,其是用于创建可显示在WAP浏览器中的页面的一种描述性标记语言。
本领域技术人员应能理解上述标记语言文件仅为举例,其他现有的或今后可能出现的标记语言文件如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述块标识信息包括但不限于标识名称、标识ID等;其中,标识名称的命名可根据其标识的内容块的类型,如标题、导航、正文、图片、内嵌对象(如Java applet、ActiveX、Flash)等。
在此,所述内容块意为标记语言文件中的由一个或多个标签组成的内容区域,其与网页中显示的特定内容相对应,如,标题内容块、正文内容块、导航内容块、图片内容块、内嵌对象(如Java applet、ActiveX、Flash)块等。
在此,所述块标识信息在标记语言文件中的存储方式包括但不限于:
1)标记语言文件中的注释;例如,利用JSON格式,标识信息可存储于HTML文件注释中,如<!--tc block_begin:{type:″context″}-->,其中,JSON格式是一种轻量级的数据交换格式,其一般采用“名称/值”对的方式表示数据,名称和值之间使用“:”隔开;
2)标记语言文件中的定制标签;例如,在HTML文件中,定制标签可为<tc></tc>,标识信息可存储于该定制标签中;
3)标记语言文件中的标签属性;例如,在XHTML文件中,标识信息可存储于内容块标签的属性中,如<div markName=″标题″>,其中属性markName的属性值即为用于标识此div标签所对应的内容块的标识信息。
本领域技术人员应能理解上述存储方式仅为举例,其他现有的或今后可能出现的存储方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一示例中,当标识信息提取装置12获取的原始网页的标识语言文件为XHTML文件时,如:
Figure BSA00000625400300061
其中,此XHTML文件预先定义利用属性名为markName的标签属性来存储内容块标识信息,据此,标识信息提取装置12通过对该XHTML文件进行解析,并根据关键字“markName”进行字符串匹配以从中获得div标签属性中的markName属性及其属性值“标题”,该属性值即为该div标签所对应内容块的标识名称,以及img标签属性中的markName属性及其属性值“图片”,该属性值即为该img标签所对应内容块的标识名称。
本领域技术人员应能理解上述提取块标识信息的方式仅为举例,其他现有的或今后可能出现的提取块标识信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,处理规则获取装置13根据标识信息提取装置12获取的块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则。
具体地,处理规则获取装置13根据块标识信息,在本地或第三方设备的处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则。
在此,所述处理规则包括但不限于:
1)对内容块中的内容进行格式化;其中,所述格式化包括但不限于:
i改变所述内容块中的文字属性,如字体、大小、颜色,内容的背景色等;
ii对所述内容块中包含的图片按预定比例进行缩小等;
2)对内容块进行展示;
3)对内容块进行删除;
4)对内容块进行折叠;其中,所述折叠意指该内容块设置为其内容缺省是折叠隐藏的,但可通过特定的触发方式,将该内容展开来显示;
5)对内容块的显示位置进行调整。
本领域技术人员应能理解上述处理规则仅为举例,其他现有的或今后可能出现的处理规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述处理规则库中包含各块标识信息及其所对应的处理规则,其包括但不限于关系数据库、Key-Value存储***、文件***等。
在一示例中,块标识信息为“标题”,处理规则获取装置13根据该块标识信息,通过处理设备1提供的应用编程接口(API),在本地的处理规则库中进行匹配查询,以获取与“标题”块标识信息相对应的内容块处理规则为“show”,即将该块标识信息所标识的内容块进行展示处理。
在另一示例中,块标识信息为“图片”,处理规则获取装置13根据该块标识信息,向第三方设备发送处理规则获取请求,其中,该处理规则获取请求包括该块标识信息;例如,可将其封装为一请求消息,如http请求消息,并通过相应的通信协议,如http、https通信协议,发送至第三方设备;第三方设备以实时监听地方式接收并解析该请求信息,进而根据所提取的该块标识信息在其处理规则库中进行匹配查询,以获取与该块标识信息相对应的内容块处理规则为“zoomin”,即将该块标识信息所标识的内容块中的图片进行预定的缩小处理。
本领域技术人员应能理解上述获取处理规则的方式仅为举例,其他现有的或今后可能出现的获取处理规则的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,处理规则获取装置13根据所述块标识信息和所述原始网页所属网站的标识信息,在处理规则库中进行匹配查询,以获得为该网站的网页定制的内容块处理规则。在此,所述原始网页所属网站的标识信息包括但不限于网站域名、网站IP地址、网站名称等。
具体地,处理规则获取装置13例如根据原始网页获取装置11获取待处理的原始网页的URL,确定该网页所属网站的标识信息,如网站域名、网站IP地址等;接着,处理规则获取装置13根据标识信息提取装置12获取的块标识信息和该原始网页所属网站的标识信息,在处理规则库中进行匹配查询,若匹配获得为该网站的网页预定的处理规则,则将该预定的处理规则作为该网页的内容块处理规则。
在一示例中,当块标识信息为“内嵌对象”,原始网页的URL为“www.abc.com/sport/101.htm”,处理规则获取装置13根据该URL,提取该网页所在网站的网站域名为“www.abc.com”;处理规则获取装置13根据该块标识信息在处理规则库中进行匹配查询,获得相应的处理规则为“delete”,即删除该标识信息所标识的内容块,但据该块标识信息和该原始网页所述网站的网站域名在处理规则库中进行匹配查询,获得为该网站预定的对“内嵌对象”块标识信息的处理规则为“show”,即展示该标识信息所标识的内容块,则处理规则获取装置13忽略与该块标识信息所对应的删除处理规则,将为该网站预定的处理规则作为该内容块处理规则。
本领域技术人员应能理解上述获取处理规则的方式仅为举例,其他现有的或今后可能出现的获取处理规则的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,目标网页获取装置14根据处理规则获取装置13获取的内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。
在此,所述对内容块进行相应的处理包括但不限于:对内容块中的内容进行格式化、展示、删除、折叠、调序。
在一示例中,当标识信息提取装置12解析并获取某网页的HTML文件中的两个块标识信息分别为“正文”和“图片”,且处理规则获取装置13获取与“正文”块标识信息相对应的内容块处理规则为将该标识信息所标识的内容块折叠,而与“图片”块标识信息相对应的内容块处理规则为将该标识信息所标识的内容块中的图片按预定缩小比例进行缩小;则目标网页获取装置14根据上述标识信息,在该HTML文件中获取各标识信息所标识的内容块,然后,根据相应的处理规则,将“正文”块标识信息所标识的内容块中的内容折叠隐藏,并设置预定的触发方式,以实现将来可对该正文内容展开来显示,并将“图片”块标识信息所标识的内容块中的图片按预定比例进行缩小并展示,进而将处理后的网页作为目标网页。
本领域技术人员应能理解上述获取目标网页的方式仅为举例,其他现有的或今后可能出现的获取目标网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,原始网页获取装置11、标识信息提取装置12、处理规则获取装置13和目标网页获取装置14之间是持续不断地工作。具体地,原始网页获取装置11持续地获取待处理的原始网页;接着,标识信息提取装置12也持续地从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;随后,处理规则获取装置13也持续地根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;随后,目标网页获取装置14也持续地根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。在此,本领域技术人员应理解“持续”是指各装置不断进行上述原始网页的获取、块标识信息的提取、处理规则的获取及目标网页的获取,直至满足预定停止条件,例如原始网页获取装置11在较长时间内停止获取待处理的原始网页。
优选地(参照图1),当未从所述处理规则库获得所述内容块处理规则时,处理规则获取装置13可根据所述块标识信息所标识的内容块的内容相关信息,确定所述内容块处理规则。
在此,所述内容块的内容相关信息包括但不限于:
1)内容块的内容在所述原始网页中的位置信息;
2)内容块的内容所包含的文字字符数量;
3)内容块所包含的标签信息。
本领域技术人员应能理解上述内容相关信息仅为举例,其他现有的或今后可能出现的内容相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述确定内容块处理规则的方式包括但不限于以下情形:
1)处理规则获取装置13根据内容块在原始网页中的位置确定处理规则;例如,若块标识信息所标识的内容块位于原始网页的中心处,即说明该内容块在该原始网页中的重要等级高,则可确定该内容块处理规则为对该内容块进行展示处理。
2)处理规则获取装置13根据内容块中的文字字符的数量确定处理规则;例如,若块标识信息所标识的内容块字符数量超过预定字符数量阈值时,则可确定其处理规则为将该内容块中文字内容进行折叠处理;
3)处理规则获取装置13根据该内容块中包含的标签对象确定处理规则;例如,若块标识信息在原始网页的标记语言文件中所标识的内容块中包括标签<object>,且该标签<object>包含在移动设备中预定限制使用的对象,如ActiveX,则确定其处理规则为对该内容块进行删除。
在一示例中,在原始网页的HTML文件存在以下代码片段:
Figure BSA00000625400300101
Figure BSA00000625400300111
其中存在的块标识信息为“内嵌对象”,处理规则获取装置13根据该块标识信息未能从处理规则库中查询匹配获得相应的内容块处理规则,且从该标签<object>中解析获得该标签具有属性clsid,进而确定其中包括ActiveX内嵌对象,由此确定该块标识信息所对应的处理规则为将该标识信息所标识的内容块删除。
本领域技术人员应能理解上述确定处理规则的方式仅为举例,其他现有的或今后可能出现的确定处理规则的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图2示出根据本发明一个优选实施例的基于内容块标识处理网页内容的设备示意图。其中,处理设备1还包括更新装置15’。更新装置15’根据所述新确定的内容块处理规则,建立或更新所述处理规则库。
在此,图2中所示装置11’、12’、13’和14’的功能与前面参照图1所描述的装置11、12、13和14的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。
具体地,当处理规则获取装置13’根据标识信息未从处理规则库获得相应的内容块处理规则时,其为标识信息新确定内容块处理规则,则更新装置15’根据该标识信息及其对应的该新确定的处理规则写入到该处理规则库中,以更新该处理规则库;若检测到该处理规则库未建立,则先行初始化该处理规则库,然后将上述信息写入到该处理规则库中。
在一示例中,处理规则获取装置13’获得的标记名称为“内嵌对象”所对应的新处理规则为删除处理时,则更新装置15’在处理规则库中***一条该标记名称及其对应的处理规则的数据记录。
本领域技术人员应能理解上述建立或更新处理规则库的方式仅为举例,其他现有的或今后可能出现的建立或更新处理规则库的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图1),处理设备1还包括提供装置(未示出)。其中,原始网页获取装置11根据用户通过移动终端输入的页面访问请求,获取所述原始网页;提供装置将所述目标网页提供给所述用户。
以下参照图1对该另一优选实施例进行详细描述,其中,标识信息提取装置12从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;随后,处理规则获取装置13根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;随后,目标网页获取装置14地根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页;其具体过程与前述参照图1所描述的实施例中标识信息提取装置12、处理规则获取装置13和目标网页获取装置14所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
在一示例中,首先,用户在移动终端的浏览器软件的地址栏输入框中进行输入时,该移动终端实时地获取用户输入的一条网页URL,并记录为与该用户输入操作相对应的页面访问请求,其中,该页面访问请求中包括该URL,然后将该页面访问请求通过约定的通信方式发送至处理设备1;接着,原始网页获取装置11实时地接收该页面访问请求,并从中提取页面URL,并向该URL所指向网页所在的网络服务器发送获取该网页的请求,然后,接收该网络服务器响应于该请求而反馈的网页,并将该网页作为所述待处理的原始网页。
提供装置将目标网页获取装置14获取的目标网页,采用任何已知的移动终端提供人可读信息的技术手段,例如屏幕显示、扬声器播放等,将该目标网页通过移动终端提供给该用户。例如,以屏幕显示为例,提供装置将目标网页获取装置14获取的目标网页,通过页面技术,如JSP、ASP或PHP等,按一定顺序和格式提供给移动终端,例如以链接、页面显示等方式提供给该移动终端,供用户进行浏览。
本领域技术人员应能理解上述获取原始网页的方式和/或提供目标网页的方式仅为举例,其他现有的或今后可能出现的获取原始网页的方式和/或提供目标网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地(参照图1),处理设备1还包括参数获取装置(未示出)和优选规则获取装置(未示出)。其中,参数获取装置获取所述移动终端的显示参数信息;优选规则获取装置根据所述显示参数信息对所述内容块处理规则进行优化,以获得优选内容块处理规则;目标网页获取装置14根据所述优选内容块处理规则,对所述内容块进行相应的处理,以获得所述目标网页。
具体地,参数获取装置按照约定的方式通过调用待显示该目标网页的移动终端提供的API(应用编程接口),获取该移动终端的显示参数信息;在此,所述显示参数信息包括但不限于:
1)移动终端支持的图片格式,如JPEG、PNG、GIF格式等,
2)移动终端的屏幕分辨率,如像素的物理大小,色彩位数,
3)移动终端是否支持插件,如Flash插件等;
接着,优选规则获取装置根据参数获取装置获取的该移动终端的显示参数信息,对处理规则获取装置13为各标识信息所获取的内容块处理规则进行优化处理,以获得优选内容块处理规则。随后,目标网页获取装置14根据该优选内容块处理规则,对所述内容块进行相应的处理,以获得所述目标网页。
在一示例中,当标识信息获取装置12获取的标记语言文件中的块标识信息为“Flash”,其所标识的内容块中包含Flash动画,且处理规则获取装置13在处理规则库中获取的相应处理规则为将该标识信息所标识的Flash动画删除,但参数获取装置获取的显示参数信息示出该移动终端支持FLASH插件运行,则优选规则获取装置据此将该标识信息所对应的原始处理规则优化为保留内容块中的Flash动画,即为优选内容块处理规则;进而目标网页获取装置14对该内容块进行相应处理时保留其中的FLASH动画,以获得包含该FLASH动画的目标网页。
本领域技术人员应能理解上述获取显示参数信息的方式和/或获取优选内容块处理规则的方式和/或获取目标网页的方式仅为举例,其他现有的或今后可能出现的获取显示参数信息的方式和/或获取优选内容块处理规则的方式和/或获取目标网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图3示出根据本发明一个方面基于内容块标识处理网页内容的方法流程图。
在此,处理设备1可为网络设备,包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云,在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;处理设备1也可为移动终端,所述移动终端意指可以在移动中使用的计算机设备,包括但不限于手机、笔记本、POS机、车载电脑等,其显示屏尺寸通常远远小于台式电脑的显示器尺寸。
以下参照图3来对处理设备1处理网页内容的过程进行详细描述:
具体地,在步骤S1中,处理设备1获取待处理的原始网页。
在此,所述获取待处理的原始网页的方式包括但不限于以下情形:
1)根据来自移动终端的页面访问请求,从该页面访问请求中的统一资源定位符(URL)所指向的网站服务器处获取相应的原始网页;
在一示例中,首先,用户借助移动终端的交互装置,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,与移动终端的浏览器软件或客户端软件进行交互,以键盘为例,用户在移动终端的浏览器软件的地址栏输入框中进行输入时,该移动终端实时地获取用户输入的按键序列,例如用户输入的一条统一资源定位符(URL),并记录为与该用户输入操作相对应的页面访问请求,其中,该页面访问请求中包括该URL,然后将该页面访问请求通过约定的通信方式发送至处理设备1;接着,在步骤S1中,处理设备1实时地接收该页面访问请求,并从中提取页面URL,并向该URL所指向网页所在的网络服务器发送获取该网页的请求,例如,可将其封装为一请求消息,如http请求消息,并通过相应的通信协议,如http、https通信协议,发送至该网络服务器;接着,处理设备1接收该网络服务器响应于该请求而反馈的网页,并将该网页作为所述待处理的原始网页。
2)从第三方设备获取待处理的原始网页。
在另一示例中,处理设备1为网络设备。在步骤S1中,处理设备1根据第三方设备提供的应用编程接口(API),受预定条件或事件触发地、或定期地向该第三方设备发送接收待处理的原始网页的请求消息,并接收该第三方设备响应于该请求消息返回的待处理的原始网页;或第三方设备主动向处理设备1推送待处理的原始网页,在步骤S1中,处理设备1接收该待处理的原始网页。
本领域技术人员应能理解上述获取待处理的原始网页的方式仅为举例,其他现有的或今后可能出现的获取待处理的原始网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,在步骤S2中,处理设备1从其在步骤S1中获取的原始网页的标记语言文件中例如利用字符串匹配等方式提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块。
在此,所述标记语言文件包括但不限于:
1)HTML(超文本标记语言)文件,其是用于描述网页文档的一种标准通用标记语言;
2)XML(可扩展标记语言)文件,其是一种简单的用于数据存储的标准通用标记语言;
3)XHTML(可扩展超文本标记语言)文件,其是一种基于XML的具有严格语法的标记语言;
4)WML(无线标记语言)文件,其是用于创建可显示在WAP浏览器中的页面的一种描述性标记语言。
本领域技术人员应能理解上述标记语言文件仅为举例,其他现有的或今后可能出现的标记语言文件如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述块标识信息包括但不限于标识名称、标识ID等;其中,标识名称的命名可根据其标识的内容块的类型,如标题、导航、正文、图片、内嵌对象(如Java applet、ActiveX、Flash)等。
在此,所述内容块意为标记语言文件中的由一个或多个标签组成的内容区域,其与网页中显示的特定内容相对应,如,标题内容块、正文内容块、导航内容块、图片内容块、内嵌对象(如Java applet、ActiveX、Flash)块等。
在此,所述块标识信息在标记语言文件中的存储方式包括但不限于:
1)标记语言文件中的注释;例如,利用JSON格式,标识信息可存储于HTML文件注释中,如<!--tc block_begin:{type:″context″}-->,其中,JSON格式是一种轻量级的数据交换格式,其一般采用“名称/值”对的方式表示数据,名称和值之间使用“:”隔开;
2)标记语言文件中的定制标签;例如,在HTML文件中,定制标签可为<tc></tc>,标识信息可存储于该定制标签中;
3)标记语言文件中的标签属性;例如,在XHTML文件中,标识信息可存储于内容块标签的属性中,如<div markName=″标题″>,其中属性markName的属性值即为用于标识此div标签所对应的内容块的标识信息。
本领域技术人员应能理解上述存储方式仅为举例,其他现有的或今后可能出现的存储方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一示例中,当处理设备1在步骤S2中获取的原始网页的标识语言文件为XHTML文件时,如:
Figure BSA00000625400300161
Figure BSA00000625400300171
其中,此XHTML文件预先定义利用属性名为markName的标签属性来存储内容块标识信息,据此,在步骤S2中,处理设备1通过对该XHTML文件进行解析,并根据关键字“markName”进行字符串匹配以从中获得div标签属性中的markName属性及其属性值“标题”,该属性值即为该div标签所对应内容块的标识名称,以及img标签属性中的markName属性及其属性值“图片”,该属性值即为该img标签所对应内容块的标识名称。
本领域技术人员应能理解上述提取块标识信息的方式仅为举例,其他现有的或今后可能出现的提取块标识信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S3中,处理设备1根据其在步骤S2中获取的块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则。
具体地,在步骤S3中,处理设备1根据块标识信息,在本地或第三方设备的处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则。
在此,所述处理规则包括但不限于:
1)对内容块中的内容进行格式化;其中,所述格式化包括但不限于:
i改变所述内容块中的文字属性,如字体、大小、颜色,内容的背景色等;
ii对所述内容块中包含的图片按预定比例进行缩小等;
2)对内容块进行展示;
3)对内容块进行删除;
4)对内容块进行折叠;其中,所述折叠意指该内容块设置为其内容缺省是折叠隐藏的,但可通过特定的触发方式,将该内容展开来显示;
5)对内容块的显示位置进行调整。
本领域技术人员应能理解上述处理规则仅为举例,其他现有的或今后可能出现的处理规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述处理规则库中包含各块标识信息及其所对应的处理规则,其包括但不限于关系数据库、Key-Value存储***、文件***等。
在一示例中,块标识信息为“标题”,在步骤S3中,处理设备1根据该块标识信息,通过处理设备1提供的应用编程接口(API),在本地的处理规则库中进行匹配查询,以获取与“标题”块标识信息相对应的内容块处理规则为“show”,即将该块标识信息所标识的内容块进行展示处理。
在另一示例中,块标识信息为“图片”,在步骤S3中,处理设备1根据该块标识信息,向第三方设备发送处理规则获取请求,其中,该处理规则获取请求包括该块标识信息;例如,可将其封装为一请求消息,如http请求消息,并通过相应的通信协议,如http、https通信协议,发送至第三方设备;第三方设备以实时监听地方式接收并解析该请求信息,进而根据所提取的该块标识信息在其处理规则库中进行匹配查询,以获取与该块标识信息相对应的内容块处理规则为“zoomin”,即将该块标识信息所标识的内容块中的图片进行预定的缩小处理。
本领域技术人员应能理解上述获取处理规则的方式仅为举例,其他现有的或今后可能出现的获取处理规则的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在步骤S3中,处理设备1根据所述块标识信息和所述原始网页所属网站的标识信息,在处理规则库中进行匹配查询,以获得为该网站的网页定制的内容块处理规则。在此,所述原始网页所属网站的标识信息包括但不限于网站域名、网站IP地址、网站名称等。
具体地,在步骤S3中,处理设备1例如根据其在步骤S1中获取待处理的原始网页的URL,确定该网页所属网站的标识信息,如网站域名、网站IP地址等;接着,处理设备1根据其在步骤S2中获取的块标识信息和该原始网页所属网站的标识信息,在处理规则库中进行匹配查询,若匹配获得为该网站的网页预定的处理规则,则将该预定的处理规则作为该网页的内容块处理规则。
在一示例中,当块标识信息为“内嵌对象”,原始网页的URL为“www.abc.com/sport/101.htm”,在步骤S3中,处理设备1根据该URL,提取该网页所在网站的网站域名为“www.abc.com”;处理设备1根据该块标识信息在处理规则库中进行匹配查询,获得相应的处理规则为“delete”,即删除该标识信息所标识的内容块,但据该块标识信息和该原始网页所述网站的网站域名在处理规则库中进行匹配查询,获得为该网站预定的对“内嵌对象”块标识信息的处理规则为“show”,即展示该标识信息所标识的内容块,则处理设备1忽略与该块标识信息所对应的删除处理规则,将为该网站预定的处理规则作为该内容块处理规则。
本领域技术人员应能理解上述获取处理规则的方式仅为举例,其他现有的或今后可能出现的获取处理规则的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S4中,处理设备1根据其在步骤S3中获取的内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。
在此,所述对内容块进行相应的处理包括但不限于:对内容块中的内容进行格式化、展示、删除、折叠、调序。
在一示例中,当在步骤S2中,处理设备1解析并获取某网页的HTML文件中的两个块标识信息分别为“正文”和“图片”,且在步骤S3中,处理设备1获取与“正文”块标识信息相对应的内容块处理规则为将该标识信息所标识的内容块折叠,而与“图片”块标识信息相对应的内容块处理规则为将该标识信息所标识的内容块中的图片按预定缩小比例进行缩小;则在步骤S4中,处理设备1根据上述标识信息,在该HTML文件中获取各标识信息所标识的内容块,然后,根据相应的处理规则,将“正文”块标识信息所标识的内容块中的内容折叠隐藏,并设置预定的触发方式,以实现将来可对该正文内容展开来显示,并将“图片”块标识信息所标识的内容块中的图片按预定比例进行缩小并展示,进而将处理后的网页作为目标网页。
本领域技术人员应能理解上述获取目标网页的方式仅为举例,其他现有的或今后可能出现的获取目标网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,处理设备1在步骤S1、步骤S2、步骤S3和步骤S4中是持续不断地工作。具体地,在步骤S1中,处理设备1持续地获取待处理的原始网页;接着,在步骤S2中,处理设备1也持续地从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;随后,在步骤S3中,处理设备1也持续地根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;随后,在步骤S4中,处理设备1也持续地根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。在此,本领域技术人员应理解“持续”是指处理设备1在各步骤中不断进行上述原始网页的获取、块标识信息的提取、处理规则的获取及目标网页的获取,直至满足预定停止条件,例如处理设备1在较长时间内停止获取待处理的原始网页。
优选地(参照图3),当未从所述处理规则库获得所述内容块处理规则时,在步骤S3中,处理设备1可根据所述块标识信息所标识的内容块的内容相关信息,确定所述内容块处理规则。
在此,所述内容块的内容相关信息包括但不限于:
1)内容块的内容在所述原始网页中的位置信息;
2)内容块的内容所包含的文字字符数量;
3)内容块所包含的标签信息。
本领域技术人员应能理解上述内容相关信息仅为举例,其他现有的或今后可能出现的内容相关信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述确定内容块处理规则的方式包括但不限于以下情形:
1)在步骤S3中,处理设备1根据内容块在原始网页中的位置确定处理规则;例如,若块标识信息所标识的内容块位于原始网页的中心处,即说明该内容块在该原始网页中的重要等级高,则可确定该内容块处理规则为对该内容块进行展示处理。
2)在步骤S3中,处理设备1根据内容块中的文字字符的数量确定处理规则;例如,若块标识信息所标识的内容块字符数量超过预定字符数量阈值时,则可确定其处理规则为将该内容块中文字内容进行折叠处理;
3)在步骤S3中,处理设备1根据该内容块中包含的标签对象确定处理规则;例如,若块标识信息在原始网页的标记语言文件中所标识的内容块中包括标签<object>,且该标签<object>包含在移动设备中预定限制使用的对象,如ActiveX,则确定其处理规则为对该内容块进行删除。
在一示例中,在原始网页的HTML文件存在以下代码片段:
Figure BSA00000625400300211
Figure BSA00000625400300221
其中存在的块标识信息为“内嵌对象”,在步骤S3中,处理设备1根据该块标识信息未能从处理规则库中查询匹配获得相应的内容块处理规则,且从该标签<object>中解析获得该标签具有属性clsid,进而确定其中包括ActiveX内嵌对象,由此确定该块标识信息所对应的处理规则为将该标识信息所标识的内容块删除。
本领域技术人员应能理解上述确定处理规则的方式仅为举例,其他现有的或今后可能出现的确定处理规则的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图4示出根据本发明一个优选实施例的基于内容块标识处理网页内容的方法流程图。其中,该过程还包括步骤S5’。在步骤S5’中,处理设备1根据所述新确定的内容块处理规则,建立或更新所述处理规则库。
在此,图4中所示处理设备1在步骤S1’、步骤S2’、步骤S3’和步骤S4’中的功能与前面参照图1所描述的处理设备1在步骤S1、步骤S2、步骤S3和步骤S4中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。
具体地,当在步骤S3’中,处理设备1根据标识信息未从处理规则库获得相应的内容块处理规则时,其为标识信息新确定内容块处理规则,则在步骤S5’中,处理设备1根据该标识信息及其对应的该新确定的处理规则写入到该处理规则库中,以更新该处理规则库;若检测到该处理规则库未建立,则先行初始化该处理规则库,然后将上述信息写入到该处理规则库中。
在一示例中,在步骤S3’中,处理设备1获得的标记名称为“内嵌对象”所对应的新处理规则为删除处理时,则在步骤S5’中,处理设备1在处理规则库中***一条该标记名称及其对应的处理规则的数据记录。
本领域技术人员应能理解上述建立或更新处理规则库的方式仅为举例,其他现有的或今后可能出现的建立或更新处理规则库的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在另一个优选实施例中(参照图3),该过程还包括步骤S6(未示出)。其中,在步骤S1中,处理设备1根据用户通过移动终端输入的页面访问请求,获取所述原始网页;在步骤S6中,处理设备1将所述目标网页提供给所述用户。
以下参照图3对该另一优选实施例进行详细描述,其中,在步骤S2中,处理设备1从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;随后,在步骤S3中,处理设备1根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;随后,在步骤S4中,处理设备1地根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页;其具体过程与前述参照图3所描述的实施例中处理设备1在步骤S2、步骤S3和步骤S4中所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
在一示例中,首先,用户在移动终端的浏览器软件的地址栏输入框中进行输入时,该移动终端实时地获取用户输入的一条网页URL,并记录为与该用户输入操作相对应的页面访问请求,其中,该页面访问请求中包括该URL,然后将该页面访问请求通过约定的通信方式发送至处理设备1;接着,在步骤S1中,处理设备1实时地接收该页面访问请求,并从中提取页面URL,并向该URL所指向网页所在的网络服务器发送获取该网页的请求,然后,接收该网络服务器响应于该请求而反馈的网页,并将该网页作为所述待处理的原始网页。
在步骤S6中,处理设备1将其在步骤S4中获取的目标网页,采用任何已知的移动终端提供人可读信息的技术手段,例如屏幕显示、扬声器播放等,将该目标网页通过移动终端提供给该用户。例如,以屏幕显示为例,在步骤S6中,处理设备1将其在步骤S4中获取的目标网页,通过页面技术,如JSP、ASP或PHP等,按一定顺序和格式提供给移动终端,例如以链接、页面显示等方式提供给该移动终端,供用户进行浏览。
本领域技术人员应能理解上述获取原始网页的方式和/或提供目标网页的方式仅为举例,其他现有的或今后可能出现的获取原始网页的方式和/或提供目标网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地(参照图3),该过程还包括步骤S7(未示出)和步骤S8(未示出)。其中,在步骤S7中,处理设备1获取所述移动终端的显示参数信息;在步骤S8中,处理设备1根据所述显示参数信息对所述内容块处理规则进行优化,以获得优选内容块处理规则;在步骤S4中,处理设备1根据所述优选内容块处理规则,对所述内容块进行相应的处理,以获得所述目标网页。
具体地,在步骤S7中,处理设备1按照约定的方式通过调用待显示该目标网页的移动终端提供的API(应用编程接口),获取该移动终端的显示参数信息;在此,所述显示参数信息包括但不限于:
1)移动终端支持的图片格式,如JPEG、PNG、GIF格式等,
2)移动终端的屏幕分辨率,如像素的物理大小,色彩位数,
3)移动终端是否支持插件,如Flash插件等;
接着,在步骤S8中,处理设备1根据其在步骤S7中获取的该移动终端的显示参数信息,对其在步骤S3中为各标识信息所获取的内容块处理规则进行优化处理,以获得优选内容块处理规则。随后,在步骤S4中,处理设备1根据该优选内容块处理规则,对所述内容块进行相应的处理,以获得所述目标网页。
在一示例中,当处理设备1在步骤S2中获取的标记语言文件中的块标识信息为“Flash”,其所标识的内容块中包含Flash动画,且在步骤S3中,处理设备1在处理规则库中获取的相应处理规则为将该标识信息所标识的Flash动画删除,但在步骤S7中,处理设备1获取的显示参数信息示出该移动终端支持FLASH插件运行,则在步骤S8中,处理设备1据此将该标识信息所对应的原始处理规则优化为保留内容块中的Flash动画,即为优选内容块处理规则;进而在步骤S4中,处理设备1对该内容块进行相应处理时保留其中的FLASH动画,以获得包含该FLASH动画的目标网页。
本领域技术人员应能理解上述获取显示参数信息的方式和/或获取优选内容块处理规则的方式和/或获取目标网页的方式仅为举例,其他现有的或今后可能出现的获取显示参数信息的方式和/或获取优选内容块处理规则的方式和/或获取目标网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种计算机实现的基于内容块标识处理网页内容的方法,其中,该方法包括以下步骤:
a获取待处理的原始网页;
b从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;
c根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;
d根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。
2.根据权利要求1所述的方法,其中,所述步骤c包括:
-根据所述块标识信息和所述原始网页所属网站的标识信息,在处理规则库中进行匹配查询,以获得所述内容块处理规则。
3.根据权利要求1或2所述的方法,其中,所述内容块处理规则包括以下至少任一项:
-对所述内容块中的内容进行格式化;
-对所述内容块进行展示;
-对所述内容块进行删除;
-对所述内容块进行折叠。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤c包括:
-当未从所述处理规则库获得所述内容块处理规则时,根据所述块标识信息所标识的内容块的内容相关信息,确定所述内容块处理规则。
5.根据权利要求4所述的方法,其中,所述内容相关信息包括以下至少任一项:
-所述内容块的内容在所述原始网页中的位置信息;
-所述内容块的内容所包含的文字字符数量;
-所述内容块所包含的标签信息。
6.根据权利要求4或5所述的方法,其中,该方法还包括:
-根据所述新确定的内容块处理规则,建立或更新所述处理规则库。
7.根据权利要求1至5中任一项所述的方法,其中,所述步骤a包括:
-根据用户通过移动终端输入的页面访问请求,获取所述原始网页;
其中,该方法还包括:
-将所述目标网页提供给所述用户。
8.根据权利要求7所述的方法,其中,该方法还包括:
-获取所述移动终端的显示参数信息;
-根据所述显示参数信息对所述内容块处理规则进行优化,以获得优选内容块处理规则;
其中,所述步骤d包括:
-根据所述优选内容块处理规则,对所述内容块进行相应的处理,以获得所述目标网页。
9.根据权利要求1至8中任一项所述的方法,其中,所述块标识信息在所述标记语言文件中的存储方式包括以下至少任一项:
-所述标记语言文件中的注释;
-所述标记语言文件中的定制标签;
-所述标记语言文件中的标签属性。
10.根据权利要求1至9中任一项所述的方法,其中,所述标记语言文件包括以下至少任一项:
-HTML文件;
-XML文件;
-XHTML文件;
-WML文件。
11.一种基于内容块标识处理网页内容的设备,其中,该设备包括:
原始网页获取装置,用于获取待处理的原始网页;
标识信息提取装置,用于从所述原始网页的标记语言文件中提取块标识信息,其中,所述块标识信息用于标识所述标记语言文件中的各内容块;
处理规则获取装置,用于根据所述块标识信息,在处理规则库中进行匹配查询,以获得与该块标识信息相对应的内容块处理规则;
目标网页获取装置,用于根据所述内容块处理规则,对该块标识信息所标识的内容块进行相应的处理,以获得目标网页。
12.根据权利要求11所述的设备,其中,所述处理规则获取装置用于根据所述块标识信息和所述原始网页所属网站的标识信息,在处理规则库中进行匹配查询,以获得所述内容块处理规则。
13.根据权利要求11或12所述的设备,其中,所述内容块处理规则包括以下至少任一项:
-对所述内容块中的内容进行格式化;
-对所述内容块进行展示;
-对所述内容块进行删除;
-对所述内容块进行折叠。
14.根据权利要求11至13中任一项所述的设备,其中,所述处理规则获取装置用于当未从所述处理规则库获得所述内容块处理规则时,根据所述块标识信息所标识的内容块的内容相关信息,确定所述内容块处理规则。
15.根据权利要求14所述的设备,其中,所述内容相关信息包括以下至少任一项:
-所述内容块的内容在所述原始网页中的位置信息;
-所述内容块的内容所包含的文字字符数量;
-所述内容块所包含的标签信息。
16.根据权利要求14或15所述的设备,其中,该设备还包括:
更新装置,用于根据所述新确定的内容块处理规则,建立或更新所述处理规则库。
17.根据权利要求11至15中任一项所述的设备,其中,所述原始网页获取装置用于根据用户通过移动终端输入的页面访问请求,获取所述原始网页;
其中,该设备还包括:
提供装置,用于将所述目标网页提供给所述用户。
18.根据权利要求17所述的设备,其中,该设备还包括:
参数获取装置,用于获取所述移动终端的显示参数信息;
优化装置,用于根据所述显示参数信息对所述内容块处理规则进行优化,以获得优选内容块处理规则;
其中,所述目标网页获取装置用于根据所述优选内容块处理规则,对所述内容块进行相应的处理,以获得所述目标网页。
19.根据权利要求11至18中任一项所述的设备,其中,所述块标识信息在所述标记语言文件中的存储方式包括以下至少任一项:
-所述标记语言文件中的注释;
-所述标记语言文件中的定制标签;
-所述标记语言文件中的标签属性。
20.根据权利要求11至19中任一项所述的设备,其中,所述标记语言文件包括以下至少任一项:
-HTML文件;
-XML文件;
-XHTML文件;
-WML文件。
CN201110390828.9A 2011-11-30 2011-11-30 一种基于内容块标识处理网页内容的方法与设备 Active CN103136259B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110390828.9A CN103136259B (zh) 2011-11-30 2011-11-30 一种基于内容块标识处理网页内容的方法与设备
PCT/CN2012/075044 WO2013078829A1 (zh) 2011-11-30 2012-05-03 一种基于内容块标识处理网页内容的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110390828.9A CN103136259B (zh) 2011-11-30 2011-11-30 一种基于内容块标识处理网页内容的方法与设备

Publications (2)

Publication Number Publication Date
CN103136259A true CN103136259A (zh) 2013-06-05
CN103136259B CN103136259B (zh) 2018-03-23

Family

ID=48496093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110390828.9A Active CN103136259B (zh) 2011-11-30 2011-11-30 一种基于内容块标识处理网页内容的方法与设备

Country Status (2)

Country Link
CN (1) CN103136259B (zh)
WO (1) WO2013078829A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473004A (zh) * 2013-09-29 2013-12-25 小米科技有限责任公司 一种显示消息的方法、装置及终端设备
CN103544320A (zh) * 2013-11-05 2014-01-29 从兴技术有限公司 一种网页生成方法及装置
CN104834685A (zh) * 2015-04-17 2015-08-12 百度国际科技(深圳)有限公司 一种对评论类网页中的评论信息块进行处理的方法与装置
CN108595697A (zh) * 2018-05-09 2018-09-28 上海陆家嘴国际金融资产交易市场股份有限公司 网页集成方法、装置及***
CN109710863A (zh) * 2018-11-27 2019-05-03 平安科技(深圳)有限公司 信息转换方法、装置、计算机设备及存储介质
CN111125605A (zh) * 2019-12-31 2020-05-08 北京创鑫旅程网络技术有限公司 页面元素获取方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126485A (zh) * 2016-06-14 2016-11-16 北京金山安全软件有限公司 一种文本格式生成方法、服务器及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040054973A1 (en) * 2000-10-02 2004-03-18 Akio Yamamoto Method and apparatus for transforming contents on the web
CN101039357A (zh) * 2006-03-17 2007-09-19 陈晓月 一种手机浏览现有网站的方法
CN101526953A (zh) * 2009-01-19 2009-09-09 北京跳网无限科技发展有限公司 Www转换技术
CN101815093A (zh) * 2010-03-11 2010-08-25 深圳市嘉讯软件有限公司 一种网页到移动终端的适配方法及移动终端页面适配装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163233A (zh) * 2011-04-18 2011-08-24 北京神州数码思特奇信息技术股份有限公司 一种网页标记语言格式转换方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040054973A1 (en) * 2000-10-02 2004-03-18 Akio Yamamoto Method and apparatus for transforming contents on the web
CN101039357A (zh) * 2006-03-17 2007-09-19 陈晓月 一种手机浏览现有网站的方法
CN101526953A (zh) * 2009-01-19 2009-09-09 北京跳网无限科技发展有限公司 Www转换技术
CN101815093A (zh) * 2010-03-11 2010-08-25 深圳市嘉讯软件有限公司 一种网页到移动终端的适配方法及移动终端页面适配装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王永飞: "浅议WEB页面到WAP页面转换过程", 《铜陵财经专科学校学报》 *
胥晓欢: "面向移动终端的Web内容转换工具的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
路松峰等: "基于网页格局的内容分块算法", 《计算机工程与科学》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473004A (zh) * 2013-09-29 2013-12-25 小米科技有限责任公司 一种显示消息的方法、装置及终端设备
CN103544320A (zh) * 2013-11-05 2014-01-29 从兴技术有限公司 一种网页生成方法及装置
CN104834685A (zh) * 2015-04-17 2015-08-12 百度国际科技(深圳)有限公司 一种对评论类网页中的评论信息块进行处理的方法与装置
CN108595697A (zh) * 2018-05-09 2018-09-28 上海陆家嘴国际金融资产交易市场股份有限公司 网页集成方法、装置及***
CN108595697B (zh) * 2018-05-09 2021-02-02 未鲲(上海)科技服务有限公司 网页集成方法、装置及***
CN109710863A (zh) * 2018-11-27 2019-05-03 平安科技(深圳)有限公司 信息转换方法、装置、计算机设备及存储介质
CN111125605A (zh) * 2019-12-31 2020-05-08 北京创鑫旅程网络技术有限公司 页面元素获取方法和装置

Also Published As

Publication number Publication date
CN103136259B (zh) 2018-03-23
WO2013078829A1 (zh) 2013-06-06

Similar Documents

Publication Publication Date Title
EP2987088B1 (en) Client side page processing
EP3518124A1 (en) Webpage rendering method and related device
CN109145078B (zh) 对本机应用的应用页面建索引
US8707164B2 (en) Integrated document viewer
AU2006294603B2 (en) System and method for image processing
US8196035B2 (en) Adaptation of a website to mobile web browser
CN103136259A (zh) 一种基于内容块标识处理网页内容的方法与设备
US9443014B2 (en) Custom web page themes
KR20190039230A (ko) 프레젠테이션을 위한 네이티브 콘텐츠의 서버측 렌더링 방법 및 시스템
US8924251B2 (en) Systems and methods for providing one or more pages from an electronic document
KR20130065710A (ko) 사이트 메모리 프로세싱 및 클리핑 제어
CN103365862A (zh) 一种用于生成与页面对应的图片的方法与设备
US11907644B2 (en) Detecting compatible layouts for content-based native ads
WO2014029173A1 (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN103345493B (zh) 用于移动终端上的文本内容显示的方法、装置及***
US20150058711A1 (en) Presenting fixed format documents in reflowed format
CN102314494B (zh) 一种用于处理网页内容的方法和设备
CN103336794B (zh) 用于在目标页面中提供对应呈现信息的方法与设备
CN103246678A (zh) 一种网页内容预览方法和装置
CN103559194B (zh) 一种搜索方法、服务器、***
CN102314499A (zh) 一种用于处理网页内容的方法与设备
CN103246699A (zh) 一种基于浏览器的数据访问控制方法和装置
WO2023155712A1 (zh) 页面生成方法、显示方法、装置、电子设备和存储介质
CN101963992A (zh) 提高网页显示速度的方法及浏览器
CN109635223A (zh) 页面显示方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant