CN102880707A - 网页主体内容识别方法和装置 - Google Patents

网页主体内容识别方法和装置 Download PDF

Info

Publication number
CN102880707A
CN102880707A CN2012103713105A CN201210371310A CN102880707A CN 102880707 A CN102880707 A CN 102880707A CN 2012103713105 A CN2012103713105 A CN 2012103713105A CN 201210371310 A CN201210371310 A CN 201210371310A CN 102880707 A CN102880707 A CN 102880707A
Authority
CN
China
Prior art keywords
node
webpage
score value
body matter
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103713105A
Other languages
English (en)
Other versions
CN102880707B (zh
Inventor
梁捷
俞永福
何小鹏
朱顺炎
陈德志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Dongjing Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dongjing Computer Technology Co Ltd filed Critical Guangzhou Dongjing Computer Technology Co Ltd
Priority to CN201210371310.5A priority Critical patent/CN102880707B/zh
Publication of CN102880707A publication Critical patent/CN102880707A/zh
Application granted granted Critical
Publication of CN102880707B publication Critical patent/CN102880707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种网页主体内容识别方法和装置,其中的方法包括:解析待装载的网页,构建DOM树;对所述DOM树中的每个节点进行评分;根据DOM树中每个节点的分值确定所述网页中所有块元素的分值;查找出所述DOM树中最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。利用上述网页主体内容识别方法,可以很快的判断出网页的真正的主体内容,从而使用户以更快的速度和更加节省的流量阅读到所请求网页的主体内容。

Description

网页主体内容识别方法和装置
技术领域
本发明涉及无线网络的网页浏览技术领域,更为具体地,涉及一种网页主体内容识别方法和装置。
背景技术
当前互联网的网页内容越来越多,网页的排版越来越复杂,网页主体内容中包含的广告、视频、Flash动画、嵌入式对象等非主体内容也越来越多。从网页中一目了然地直接了解需要的信息变得越来越困难。特别是如手机、PDA等屏幕较小的终端设备,由于终端硬件的限制,屏幕较小,在通过手机等浏览器浏览WWW网页的时候,一次性只能展现少量的网页内容,网页中非主体内容对用户浏览体验的不良影响更加严重。
通常的网页在手机上展现的时候都会经过一个缩放甚至重排版的过程。当前比较流行的PC的屏幕的分辨率为480*800和240*320等,而通常一个网页的大小为1024*768,或者800*600,不同的网页的宽高是不一样的。当如此大分辨率的网页在分辨率相对很小的手机上显示时,通常是采用缩放的模式来进行缩放,将一个大网页进行缩小,然后以手机分辨率的方式进行显示。但由于网页中包含现有的单纯的缩放展现模式已经不适应目前用户的网页浏览需求,而且用户上网希望能够马上看到他所期望的内容,而非网页的无关内容的结构、广告等。
另外一种网页在手机上展现时的重排版方式为适应屏幕的排版方式。这种适应屏幕的排版方式虽然可以以当前的手机屏幕为参照进行排版,但排版后展现的网页仍然包含了网页的相关结构、网页广告等信息,并非全部都是用户所期望的阅读内容,对用户的网页浏览体验应存在不良影响。
发明内容
鉴于上述问题,本发明的目的是提供一种能够方便地识别出网页主体内容的网页主体内容识别方法和装置,以便在手机等移动终端设备上浏览信息时直接获取网页的信息,而无需左右拉动。
根据本发明的一个方面,提供了一种网页主体内容识别方法,包括:
解析待装载的网页,构建DOM树;
对所述DOM树中的每个节点进行评分;
根据所述DOM树中每个节点的分值确定所述网页中所有块元素的分值;
查找出所述DOM树中最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。
其中,在对DOM树中的每个节点进行评分的过程中,
评分的依据是每个节点下面的孩子节点的评分的总和,不同类型的孩子节点的分值根据其节点类型而定,其中,
文本节点的分值为所述文本节点的字符串的长度;
对于元素节点,如果所述元素为行内元素,则所述元素节点的分值为0;如果所述元素节点为块元素,则判断所述块元素所包含的文本的长度是否超过预设阈值,如果超过预设阈值,则根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值。
其中,在根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值的过程中,
如果根据所述块元素div下的innerText属性确定所述块元素所包含的文本的长度T,T=Length(innerText),其分值相应的为T,则对于节点类型属于网页主体内容的元素,在T的基础上增加分值;对于节点类型不属于网页主体内容的元素,在T的基础上减去分值。
根据本发明的另一方面,提供了一种网页主体内容识别装置,包括:
网页解析单元,用于解析待装载的网页,构建DOM树;
节点评分单元,用于对所述网页解析单元构建的DOM树中的每个节点进行评分;
块元素评分单元,用于根据所述DOM树中每个节点的分值确定所述网页中所有块元素的分值;
网页主体内容确定单元,用于查找出DOM树中的最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。
其中,所述节点评分单元进一步包括:
节点类型判断单元,用于判断节点的类型;
节点分值计算单元,用于根据节点的类型计算所述节点的分值,其中,
所述节点评分单元评分的依据是每个节点下面的孩子节点的评分的总和,不同类型的孩子节点的分值根据其节点类型而定;其中,
文本节点的分值为所述文本节点的字符串的长度;
对于元素节点,如果所述元素为行内元素,则所述元素节点的分值为0;如果所述元素节点为块元素,则判断所述块元素所包含的文本的长度是否超过预设阈值,如果超过预设阈值,则根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值。
利用上述根据本发明的网页主体内容识别方法及装置,可以很快的判断出网页的真正的主体内容,从而使用户以更快的速度和更加节省的流量阅读到所请求网页的主体内容。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为一个HTML网页DOM树的结构示意图;
图2为根据本发明的网页主体内容识别方法的流程图;
图3为根据本发明的网页主体内容识别装置的方框示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
由于目前作为移动互联网载体的主要为手机,因此,在下面对比本发明具体实施方式的表述中,“移动终端”、“手机”均是指用户访问移动互联网所使用的目标载体,同时可以将“手机”理解为“移动终端”的一种但不是唯一的一种具体表现形式。
互联网网页结构可以用DOM(Document Object Model,文档对象模型)来进行描述,DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。DOM的设计是以对象管理组织(OMG)的规约为基础的,因此可以用于任何编程语言。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系,因此,可以把DOM认为是页面上数据和结构的一个树形表示。
整个网页由页面元素、属性和文本构成,形成一个树状的结构,网页的每个元素称为一个节点(Node),每个标签对应一个元素(Element),标签之间的文本字符串对应一个文本(Text)。例如:下面的HTML网页就可以用如图1所示的DOM树表示如下:
<html><head><title>太阳云</title></head><body><h1>什么是太阳星云?</h1><p>太阳星云是形成太阳系内各天体的原始物质,主要由气体云和尘埃组成。</p></body></html>
整个网页的元素可以分为块元素(Block元素)和行内元素(Inline元素)。块元素之间可以嵌套层叠排版,也可以平铺排版,可以任意地进行排版。网页主体内容就是一种包含最多连续内容信息的块元素。
通常文本节点处于叶子节点上。作为网页元素中最小的单元,节点包括文本节点,元素节点,属性节点,注释节点等;元素节点是元素所在的节点。
基于上述分析,本发明提出一种基于节点评分的方式来进行网页主体内容识别的方法。该网页主体内容识别方法对表示HTML网页的DOM树进行分析,对DOM树中的每个节点进行评分,对于倾向于网页主体内容的节点,根据其文本长度和节点类型确定正分值;对于倾向于非网页主体内容的节点,则根据其文本长度和节点类型确定负分值,最终以分值最高的块元素所包含的内容作为最终识别出的网页主体内容。
图2示出了根据本发明的网页主体内容识别方法的流程图。
如图2所示,在用户输入网址,请求加载一个网页至终端浏览器时,对网页内容进行识别的流程包括如下步骤:
S210:解析浏览器待装载的网页,构建DOM树。
S220:对DOM树中的每个节点进行评分;评分的依据是根据该节点下面的孩子节点的评分的总和。假如一个节点下面有三个孩子节点,则该节点的分值为三个孩子节点的分值的总和。
S230:根据DOM树中每个节点的分值确定所述网页中所有块元素的分值。
由于不同类型的节点在HTML网页中所起的作用不同,因此,在评分过程中,不同的类型的节点有不同的分值。总体而言,对于节点内容偏重于网页主体内容的节点(如文本、段落划分等),其分值为正,即给该节点加分;对于节点内容偏重于非网页主体内容的节点(如超连接、广告等),其分值为负,即给该节点减分。其中,判断一个节点内容是否偏重于网页主体内容,可以根据节点的类型及其所包含的文本长度来判断,比如,文本节点、段落划分节点(p元素节点)、换行节点(br元素节点)等,节点的作用决定了这些节点是网页主体内容中常用的节点,就可以认为这些节点内容偏重于网页主体内容。
具体地,对于文本节点,由于此节点表示的是包含在HTML元素中的文本,即该节点中包含的内容全部为文本,一般可理解为属于网页主体内容,因此,文本节点的分值为此文本节点的字符串的长度。对于元素节点,则根据元素节点的具体内容确定其分值。
如果该元素是行内元素(Inline元素),由于通常行内元素的节点的作用是修饰文本的样式、颜色、字体的样式和大小,并不增加额外的内容,因此该节点的分值为0。
如果元素节点为块元素(Block元素),则需要首先计算该元素所包含的文本的长度(通过innerText属性可以获取此元素及其所有孩子元素的文本的长度)。此时可以设定一个阀值,假如阀值设定为200(根据一般新闻网站,例如新浪新闻的新闻文章一行的字数约为40个,阀值为200可显示5行),例如innerText的文本长度低于200,则认为所包含的信息量太少,视为非网页主体内容。
如果innerText文本长度超过200,也还不能确定该节点所包含的信息是否网页主体内容。因为此块元素还可能包含嵌入式对象、嵌入的Flash、嵌入的表格或者表单元素等,这些元素也可能是广告信息,或者此块元素包含的全部是超链接文本等。因此必须根据该块元素的孩子元素来扣除不同标签元素的分值,从而得到真正的分值。只要块元素包含一种表示非网页主体内容的标签元素,就根据该标签元素为非网页主体内容的可能性扣除一定比例的分值,该分值可以根据基础分值和预置的标签元素对应的权值确定。
对于其他节点,例如注释节点,处理指令节点,文档类型节点等,由于这些节点属于结构一部分,因此它们的分值均设定为0。
块元素中的标签元素包括<div>、<p>、<br>、<a>、<h1>、<form>、<ul>、<li>、<dl>等,下面举例说明几个标签元素的分值计算以及这些标签元素对块元素分值计算的影响。
例如,在块元素div下面,首先根据该块元素的innerText示出的文本的长度,计算出其基本分值为T。在此基础上,对于节点类型属于网页主体内容的元素,在T的基础上增加分值;对于节点类型不属于网页主体内容的元素,在T的基础上减去分值。
如果此块元素div下面的所有<p>标签对应的p元素的个数为Count(p),由于p元素通常用于文本的段落划分,因此p元素越多,越表明此内容信息是属于整体内容的段落划分的一部分。因此该块元素div下的分值必须加上p元素的个数所带来的分值:
T+Count(p)*Wp
其中,Wp为预置的p元素的权值,该权值称为W(weight),权值的大小根据该元素对于网页主体内容的贡献而定,P是段落,通常认为是多于两行的文字,因此其取值通常为20。
同样,<br>标签是整体内容的段落划分的一部分,因此该块元素div下的分值必须是:
T+Count(br)*Wbr
其中,Wbr为预置的br元素的权值,该元素用了换行,其取值通常为10~20。
<a>标签作为锚点,也属于网页内容部分,但是过多的超链接,起到仅仅网页导航的作用,因此,<a>标签对应的a元素是要减分的,其分值为:
T-Count(a)*Wa
其中Wa为a元素的权值,a元素属于Inline元素,其取值通常为10~20。
如果块元素是<li>标签的li元素,由于其为一种列表导航使用,因此<li>标签对应的li元素在节点的分值计算中也要减分,其分值为:
T-Count(li)*Wli
其中Wli为li元素的权值,li是列表项,通常一行10个字可以表达,因此其取值通常为10。
可以看出,上述预置权值的具体取值是根据具体的标签的承载范围而定的,不同的标签其预置权值的取值不一定相同。
对于块元素div下面的object元素、form元素、table元素、embed元素、script元素、style元素、dl元素、ul元素等,由于它们均不属于网页主体内容的一部分,因此必须在基本分值T中减去相应的分值,假如这些对应应该减去分值的块元素对应的innerText的文本长度为a(a=Length(innerText)),则对于每个不属于网页主体内容的元素,均要从通过块元素的innerText确定的基本分值T中减去该不属于网页主体内容的元素对应的分值,即T-a。
最后,在步骤S240中,查找出DOM树中的最高分值的块元素,并以该最高分值的块元素作为所述网页的主体内容。
通过循环遍历所有的块元素div的分值,可以确定分值最高的块元素,该分值最高的块元素所包含的内容就是最终确定的网页主体内容。根据最高分的计算原则,能够确保在循环遍历之后确定一个网页的唯一的网页主体内容。
获取到分值最高的块元素,可以通过多种方式记录或者标记出该表示网页主体内容的最高分值的块元素,如在最高分值的块元素周围添加边框围住,直接截取该最高分值的块元素等,通过点击边框或者截取部分即可以打开网页主体内容。另外一个还可以调节此内容的背景图案,内容的字体大小以及页面亮度调节,以提高用户体验。用户可以通过这种对网页内容的预处理,跳过无关的广告、Flash、超链接等非主体内容部分,直接进入对网页主体内容的浏览,便捷、快速,而且能够有效节省用户的流量支出。
作为改善体验的一部分,还可以在移动终端对确定的网页主体内容进行自适应屏幕进行重排版,以便能够适应屏幕,无需左右拉动,方便用户单手操作。
另外,在应用过程中,如果把上述进行网页主体内容识别的方法应用在中间件(该中间件指的是为移动终端提供数据处理服务的服务器),主体内容识别之后,仅仅只需要发送网页主体内容给移动终端。如此操作下,移动终端所接受的网页主体内容远远小于用户请求浏览的原始网页,该数据会更快地到达用户的终端浏览器,对用户流量的节省和响应时间的提高更加明显。
如上参照图1和图2描述了根据本发明的网页主体内容识别方法。本发明的上述网页主体内容识别方法,可以采用软件实现,也可以采用硬件实现,或采用软件和硬件组合的方式实现。
图3示出了根据本发明的网页主体内容识别装置300的方框示意图。
如图3所示,网页主体内容识别装置300包括网页解析单元310、节点评分单元320、块元素评分单元330和网页主体内容确定单元340。其中,节点评分单元320可以包括节点类型判断单元321和节点分值计算单元322。
在用户输入网址请求加载一个网页至终端浏览器时,为了对网页内容进行识别,网页解析单元310首先解析待装载的网页,构建DOM树;节点评分单元320网页解析单元310构建的DOM树中的每个节点进行评分,评分的依据是根据该节点下面的孩子节点的评分的总和;块元素评分单元330根据所述DOM树中每个节点的分值确定所述网页中所有块元素的分值;网页主体内容确定单元340查找出DOM树中的最高分值的块元素,并以该最高分值的块元素作为所述网页的主体内容。
其中,节点评分单元320进一步包括节点类型判断单元321和节点分值计算单元322,节点类型判断单元321用于判断节点的类型;节点分值计算单元322用于根据节点的类型计算所述节点的分值,其中,节点评分单元320评分的依据是每个节点下面的孩子节点的评分的总和,不同类型的孩子节点的分值根据其节点类型而定;文本节点的分值为所述文本节点的字符串的长度;对于元素节点,如果所述元素为行内元素,则所述元素节点的分值为0;如果所述元素节点为块元素,则判断所述块元素所包含的文本的长度是否超过预设阈值,如果超过预设阈值,则根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值。
另外,网页主体内容识别装置300还可以包括网页主体内容标记单元(图中未示出),用于在网页主体内容确定单元查找出DOM树中的最高分值的块元素之后,记录或者标记出该表示网页主体内容的最高分值的块元素。
通过上述网页主体内容识别方法和装置,能够在中间件或者移动终端对要加载的网页进行主体判断,如果是在移动终端加载网页后判断出网页主体内容,可以以显式方框的形式圈主判断出的网页主体内容,用户通过点击方框包围的部分就可以打开网页主体内容,浏览器根据用户的点击操作可以使该网页主体内容适应屏幕显示,没有任何杂乱的广告和图片等影响用户浏览的信息,非常适合用户阅读。
另一方面,如果在移动终端加载网页之前、在中间件进行网页主体内容的识别,则可以在主体内容识别之后直接将该识别出的网页主体内容发送至用户移动终端,此时移动终端所接受的网页主体内容远远小于用户请求浏览的原始网页,从而使用户请求网页的网页主体内容以更加节省的流量和更快的速度到达用户的终端浏览器。
上述实施例所描述的节点评分依据是根据每个节点下面的孩子节点的评分的总和,不同类型的孩子节点的分值根据其节点类型而定。由于判断网页主体内容的方式不是唯一的,因此,对节点的评分依据也可以根据网页结构中的其他特征来确定,比如,另外一种可选的评分方法是:根据不同元素类型和孩子节点的密度来进行计算,这种方法是对元素的所有的孩子节点进行评分,然后将分值进行合并,除以孩子节点的个数,得到节点密度值。节点的密度越大,表明其孩子节点的越密集,节点的密度越小,表明其孩子节点稀疏,节点密度最小的那个就是其网页主体内容。
如上参照附图以示例的方式描述根据本发明的网页主体内容识别方法和装置。但是,本领域技术人员应当理解,对于上述本发明所提出的网页主体内容识别方法及装置,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (9)

1.一种网页主体内容识别方法,包括:
解析待装载的网页,构建DOM树;
对所述DOM树中的每个节点进行评分;
根据所述DOM树中每个节点的分值确定所述网页中所有块元素的分值;
查找出所述DOM树中最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。
2.如权利要求1所述的网页主体内容识别方法,其中,在对DOM树中的每个节点进行评分的过程中,
评分的依据是每个节点下面的孩子节点的评分的总和,不同类型的孩子节点的分值根据其节点类型而定,其中,
文本节点的分值为所述文本节点的字符串的长度;
对于元素节点,如果所述元素为行内元素,则所述元素节点的分值为0;如果所述元素节点为块元素,则判断所述块元素所包含的文本的长度是否超过预设阈值,如果超过预设阈值,则根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值。
3.如权利要求2所述的网页主体内容识别方法,其中,在根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值的过程中,
如果根据所述块元素div下的innerText属性确定所述块元素所包含的文本的长度T,T=Length(innerText),其分值相应的为T,则对于节点类型属于网页主体内容的元素,在T的基础上增加分值;对于节点类型不属于网页主体内容的元素,在T的基础上减去分值。
4.如权利要求3所述的网页主体内容识别方法,其中,
所述块元素div下的所有<p>标签对应的p元素的个数为Count(p),则所述块元素的分值为T+Count(p)*Wp,其中,Wp为p元素节点的权值;
如果所述块元素div下的所有<br>标签对应的br元素的个数为Count(br),则所述块元素的分值为T+Count(br)*Wbr,其中,Wbr为br元素节点的权值;
如果所述块元素div下的所有<a>标签对应的a元素的个数为Count(a),则所述块元素的分值为T-Count(a)*Wa,其中,Wa为a元素节点的权值;
如果所述块元素div下的所有<li>标签对应的li元素的个数为Count(li),则所述块元素的分值为T-Count(li)*Wli,其中,Wli为li元素节点的权值;
对于所述块元素div下面的object元素、form元素、table元素、embed元素、script元素、style元素、dl元素、ul元素、li元素,如果其对应的innerText的文本长度为a,其中,a=Length(innerText),则所述块元素的分值为T-a。
5.如权利要求1所述的网页主体内容识别方法,其中,在查找出DOM树中的最高分值的块元素之后,
记录或者标记出该表示网页主体内容的最高分值的块元素,通过对所述最高分值的块元素的展现显示所述网页的网页主体内容。
6.如权利要求1所述的网页主体内容识别方法,其中,所述方法在中间件实现,所述中间件在识别出网页主体内容之后,将识别出的网页主体内容发送至用户终端。
7.一种网页主体内容识别装置,包括:
网页解析单元,用于解析待装载的网页,构建DOM树;
节点评分单元,用于对所述网页解析单元构建的DOM树中的每个节点进行评分;
块元素评分单元,用于根据所述DOM树中每个节点的分值确定所述网页中所有块元素的分值;
网页主体内容确定单元,用于查找出DOM树中的最高分值的块元素,并以所述最高分值的块元素作为所述网页的主体内容。
8.如权利要求7所述的网页主体内容识别装置,其中,所述节点评分单元进一步包括:
节点类型判断单元,用于判断节点的类型;
节点分值计算单元,用于根据节点的类型计算所述节点的分值,其中,
所述节点评分单元评分的依据是每个节点下面的孩子节点的评分的总和,不同类型的孩子节点的分值根据其节点类型而定;其中,
文本节点的分值为所述文本节点的字符串的长度;
对于元素节点,如果所述元素为行内元素,则所述元素节点的分值为0;如果所述元素节点为块元素,则判断所述块元素所包含的文本的长度是否超过预设阈值,如果超过预设阈值,则根据所述块元素所包含的文本的长度和所述块元素的节点类型确定所述块元素的真正分值。
9.如权利要求7所述的网页主体内容识别装置,进一步包括:
网页主体内容标记单元,用于在所述网页主体内容确定单元查找出DOM树中的最高分值的块元素之后,记录或者标记出该表示网页主体内容的最高分值的块元素。
CN201210371310.5A 2012-09-27 2012-09-27 网页主体内容识别方法和装置 Active CN102880707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210371310.5A CN102880707B (zh) 2012-09-27 2012-09-27 网页主体内容识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210371310.5A CN102880707B (zh) 2012-09-27 2012-09-27 网页主体内容识别方法和装置

Publications (2)

Publication Number Publication Date
CN102880707A true CN102880707A (zh) 2013-01-16
CN102880707B CN102880707B (zh) 2016-03-16

Family

ID=47482033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210371310.5A Active CN102880707B (zh) 2012-09-27 2012-09-27 网页主体内容识别方法和装置

Country Status (1)

Country Link
CN (1) CN102880707B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484449A (zh) * 2014-12-25 2015-04-01 北京国双科技有限公司 网页页面的正文提取方法和装置
CN104820722A (zh) * 2015-05-26 2015-08-05 广州神马移动信息科技有限公司 页面展示方法和装置
CN104951445A (zh) * 2014-03-25 2015-09-30 小米科技有限责任公司 一种网页处理方法及装置
CN105354292A (zh) * 2015-10-30 2016-02-24 东莞酷派软件技术有限公司 一种页面输出方法及装置
CN105718522A (zh) * 2016-01-15 2016-06-29 北京傲游天下科技有限公司 一种呈现浏览器主体内容的方法
CN110163688A (zh) * 2019-05-30 2019-08-23 复旦大学 商品网络舆情检测***
CN114817811A (zh) * 2022-05-07 2022-07-29 盐城金堤科技有限公司 一种网站解析方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093487A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 基于html特征的文本内容提取方法
CN101246494A (zh) * 2008-03-19 2008-08-20 腾讯科技(深圳)有限公司 一种互联网网页转换方法、***及设备
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
US20120185253A1 (en) * 2011-01-18 2012-07-19 Microsoft Corporation Extracting text for conversion to audio
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093487A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 基于html特征的文本内容提取方法
CN101246494A (zh) * 2008-03-19 2008-08-20 腾讯科技(深圳)有限公司 一种互联网网页转换方法、***及设备
CN101408898A (zh) * 2008-11-07 2009-04-15 北大方正集团有限公司 一种提取网页正文的方法和装置
US20120185253A1 (en) * 2011-01-18 2012-07-19 Microsoft Corporation Extracting text for conversion to audio
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
CN102663023A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种提取网页内容的实现方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951445A (zh) * 2014-03-25 2015-09-30 小米科技有限责任公司 一种网页处理方法及装置
CN104951445B (zh) * 2014-03-25 2020-06-02 小米科技有限责任公司 一种网页处理方法及装置
CN104484449A (zh) * 2014-12-25 2015-04-01 北京国双科技有限公司 网页页面的正文提取方法和装置
CN104484449B (zh) * 2014-12-25 2018-02-23 北京国双科技有限公司 网页页面的正文提取方法和装置
CN104820722A (zh) * 2015-05-26 2015-08-05 广州神马移动信息科技有限公司 页面展示方法和装置
CN105354292A (zh) * 2015-10-30 2016-02-24 东莞酷派软件技术有限公司 一种页面输出方法及装置
CN105718522A (zh) * 2016-01-15 2016-06-29 北京傲游天下科技有限公司 一种呈现浏览器主体内容的方法
CN110163688A (zh) * 2019-05-30 2019-08-23 复旦大学 商品网络舆情检测***
CN114817811A (zh) * 2022-05-07 2022-07-29 盐城金堤科技有限公司 一种网站解析方法和装置
CN114817811B (zh) * 2022-05-07 2024-03-19 盐城天眼察微科技有限公司 一种网站解析方法和装置

Also Published As

Publication number Publication date
CN102880707B (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
CN102880707A (zh) 网页主体内容识别方法和装置
KR102436987B1 (ko) 웹페이지 콘텐츠를 추출하기 위한 방법 및 단말 장치
US7895598B2 (en) Page and device-optimized cascading style sheets
KR102278657B1 (ko) 웹 페이지에 대한 컨텐츠 아이템에 대한 사이즈 자동 결정
CN102902661B (zh) 一种实现电子书超链接的方法
CN102508710B (zh) 一种ie6内核与新型ie内核的切换方法和***
KR20140012664A (ko) 웹페이지 재배치 방법
CN102819561B (zh) 一种基于网页的图片显示方法和装置
CN110235123A (zh) 针对使用选择性加载优先级的网页浏览的内容感知节能
CN104820589B (zh) 一种动态适配网页的方法及其装置
CN109740085A (zh) 一种页面内容的展示方法、装置、设备及存储介质
CN104035753A (zh) 一种双WebView展示定制页面的方法及***
CN104050238A (zh) 一种地图标注方法和装置
CN104750851A (zh) 网页内容的延迟加载方法及***
KR101340588B1 (ko) 웹페이지 구성방법 및 그 장치
CN106462561A (zh) 优化浏览器渲染过程
CN107391534B (zh) 页面显示、页面文件返回方法及装置、计算机存储介质
JP2021512415A (ja) デジタルコンポーネントのバックドロップレンダリング
CN104598571A (zh) 一种多媒体资源的播放方法及装置
CN103942231A (zh) 一种网页的显示方法及电子设备
CN104899217B (zh) 一种自定义功能的实现方法及装置
CN103020179A (zh) 一种网页内容的提取方法、装置和设备
CN102955852A (zh) 一种网页资源处理方法、装置及设备
US10089284B2 (en) Transforming a website for dynamic web content management
CN113421144A (zh) 一种页面显示方法及装置、设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200701

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 2, 16, 301 rooms, 510665 Yun Yun Road, Tianhe District, Guangdong, Guangzhou

Patentee before: GUANGZHOU UCWEB COMPUTER TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right