CN102420842A

CN102420842A - 一种移动网络中网页的发送方法及***

Info

Publication number: CN102420842A
Application number: CN2010105033484A
Authority: CN
Inventors: 陈虓将
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2012-04-18
Anticipated expiration: 2030-09-28
Also published as: CN102420842B

Abstract

本发明适用于互联网及通信领域，本发明提供了一种移动网络中网页的发送方法及***，该方法具体包括：接收通信终端发送的网址，获取该网址对应的网页；对所述网页进行解析，生成dom树；对dom树进行网页分块切割形成由多个分块组成的页面分块池；对所述页面分块池内的多个分块进行网页分块合并和识别分类；将识别出的导航、标题和正文类别的分块保留；将保留的分块重新排版后发送给给通信终端。本发明提供的技术方案具有减少了网络中传输的数据量，具有快速相应用户请求，提高网页浏览速度的优点。

Description

一种移动网络中网页的发送方法及***

技术领域

本发明属于互联网及通信领域，尤其涉及一种移动网络中网页的发送方法及***。

背景技术

随着互联网的发展，越来越多的人通过移动网络来获取信息。目前互联网中网页信息的发送方法具体为：服务器接收终端设备发送的网址，将该网址对应网页的所有内容发送给终端设备。

按照现有技术所提供的技术方案，发现现有技术中存在如下技术问题：

现有技术提供的技术方案将网址对应网页的所有内容发送给终端设备，由于网页的所有内容中有很多噪声信息(例如广告信息、版权信息等)，所以网络中数据传输量大。

发明内容

本发明实施例的目的在于提供一种移动网络中网页的发送方法，旨在解决现有技术的方法在网页信息的发送时，网络数据传输量大的问题。

本发明实施例是这样实现的，一种移动网络中网页的发送方法，所述方法具体包括如下步骤：

接收通信终端发送的网址，获取该网址对应的网页；

对所述网页进行解析，生成dom树；对dom树进行网页分块切割形成由多个分块组成的页面分块池；对所述页面分块池内的多个分块进行网页分块合并和识别分类；将识别出的导航、标题和正文类别的分块保留；

将保留的分块重新排版后发送给给通信终端。

本发明还提供一种移动网络中网页的发送***，所述***具体包括：

网页获取单元，用于接收通信终端发送的网址，获取该网址对应的网页；

解析生成单元，用于对所述网页进行解析，生成dom树；

分块单元，用于对dom树进行网页分块切割形成由多个分块组成的页面分块池；

合并分类单元，用于对所述页面分块池内的多个分块进行网页分块合并和识别分类；

保留单元，用于将识别出的导航、标题和正文类别的分块保留；

排版发送单元，用于将保留的分块重新排版后发送给给通信终端。

本发明实施例与现有技术相比，有益效果在于：本发明的技术方案在接收到通信终端发送的网址后，对该网址对应的网页分块、合并、识别分类和保留处理后，将保留后的导航、标题和正文类别的分块重新排版后发送给通信终端，由于该方法将其它类型的分块删除，所以其减少了网络中传输的数据量，具有快速相应用户请求，提高网页浏览速度的优点。

附图说明

图1是本发明提供一种移动网络中网页的发送方法的流程图；

图2是本发明实施例五提供一种移动网络中网页的发送***的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种移动网络中网页的发送方法，该方法由网络侧设备完成，具体可以为服务器，移动交换中心MSC等设备。当然在实际情况中，该方法如图1所示，具体包括如下步骤：

S11、接收通信终端发送的网址，获取该网址对应的网页；

S12、对网页进行解析，生成dom树；

S13、对dom树进行网页分块切割形成由多个分块组成的页面分块池；

S14、对上述页面分块池内的多分小块进行网页分块合并和识别分类；

S15、将导航、标题和正文类别的分块保留；

S16、将保留的分块重新排版后发送给给通信终端。

本发明提供的方法在接收到通信终端发送的网址后，对该网址对应的网页分块、合并、识别分类和保留处理后，将保留后的导航、标题和正文类别的分块重新排版后发送给通信终端，由于该方法将其它类型的分块删除，所以其减少了网络中传输的数据量，具有快速相应用户请求，提高网页浏览速度的优点。

实施例一

本实施例提供一种移动网络中网页的发送方法，本实施例提供了S13的具体实现方法，该方法具体包括：

查找dom树的一个文本节点和该文本节点的父亲节点；以该父亲节点为基础，依次向上查找到与该父亲节点最近的具有分类tag独立性的节点，如查找到具有tag独立性的节点，则将该文本节点分成一个独立块，否则，将该父亲节点分成一个独立块；

判断分成的独立块的长度是否超过了预定义的阈值，如是，则判断该独立块内的儿子节点在视觉信息以及内容信息是否一致，如一致，则将该独立块作为一个分块，否则，对该儿子节点进行再次分块直至视觉信息以及内容信息完成一致后，将该独立块作为一个分块为止；

搜索下一个文本节点，如搜索到，则对该文本进行S13和S14的操作，如搜索不到则将所有分块分到一个页面分块池内。

当然在实际情况中，上述分块处理的方法还可以采用现有技术中的其它方法，这里不再赘述。

实施例二

本实施例与实施例一的区别点在于，本实施例提供了S14的具体操作方法，该方法包括：从分决池中取出相邻的两个分块A和B以及A和B的共同父亲节点P，分别对A、B、P进行分类识别算法计算得到A的分块类别CA以及该类别的概率值PCA、B的分块类别CB以及该类别的概率值PCB、P的分块类别CP以及该类别的概率值PCP；在满足下述条件甲、乙或丙时，

条件甲、CA＝CB并且同时满足CA等于未知节点和CP不等于未知节点；

条件乙、CA＝CB＝CP并且同时满足CA不等于未知节点；

条件丙、CA＝CB并且同时满足PCP同时大于PCA、PCB；

查找P的最大有效儿子节点，并判断最大有效儿子节点的所有儿子节点的视觉信息以及结构信息上是否相似，如相似，将A、B合并入P，并删除A、B；如页面池内的所有分块遍历完毕则合并操作结束。其中所有分块遍历表示所有分块都完成了合并和识别分类处理。

上述分类识别算法的具体方法可以采用朴素贝叶斯分类器完成分类，它的输入是一个分块的节点，输出是该节点所属的类别以及属于该类别的概率值。其中朴素贝叶斯分类器中的特征点为页面结构特征和页面文字特征两大块。其中，页面结构特征包括：块的长度所占页面长度的比例，块中的中文字数，块中中文字数占总页面字数的比例，块的长度，块中链接个数，决中非锚文本中文字数，块中锚文本字数占该块总字数的比例，块中的英文字数，非锚文本的总字数(中英文字数总和)，块中锚文本字数，该节点的位置(该节点的编号占总节点数的比例)，块的宽度，块中非锚文本中标点符号的个数。分块的标签名称也是一个加权因子。页面文字特征由一系列特征关键字组成。这些关键字通过对分块的文字进行聚合产生。

需要说明的是，上述未知节点是通过朴素贝叶斯分类器计算得到的一个分类。

当然在实际情况中，上述合并和分类处理的方法还可以采用现有技术中的其它方法，这里不再赘述。

实施例三

本实施例与实施例一的区别点在于，本实施例提供了S15中导航、标题和正文类别分块的具体表现形似，其中导航类别分块具体可以为：导航信息块或二级导航块；标题类别分块具体可以为：标题块、副标题块或分标题块；正文类别分块具体可以为：正文块或相关信息块。

实施例四

本实施例与实施例一的区别点在于，本实施例提供了实现S16的具体方法，该重新排版的方法具体包括：

取保留的dom树的一个节点的标签，

若节点的标签类型为img，则删除该节点。若该节点的标签类型为a、abbr、address、b、base、big、body、br、button、caption、div、dl、dt、dd、em、iframe、frame、frameset、fieldset、form、h1、h2、h3、h4、h5、h6、hr、head、html、i、input、label、li、link、meta、object、ol、optgroup、option、p、postfield、p、postfield、select、span、strong、style、table、td、textarea、th、title、tr或ul，则保留该节点，否则将该节点的儿子节点全部取出，并挂到该节点的父节点的儿子节点链表后，删除该节点；若该节点的标签类型是td，则将该节点下的所有儿子节点全部提取出来挂到td的父亲节点的儿子节点链表后，删除td节点；若保留的节点的标签类型为table或tr，则检查该节点的父节点是否是div，如果不是则新建一个div节点，然后将该保留的节点下的所有儿子节点全部取出并挂到新建立的div节点的儿子节点链表中，并将新建的div节点挂到该节点的父节点的儿子节点链表中，然后删除该节点；如果该节点的父节点是div，则将table或者tr元素下的所有儿子节点全部取出并挂到该节点的父节节点的儿子节点链表中，并删除该节点；

遍历dom树的所有节点完成重新排版，并将重新排版后的dom树发送给通信终端。需要说明的是，上述遍历dom树所有的节点的具体操作为，将dom数的所有节点均进行上述重新排版的处理。

实施例五

本实施例提供一种移动网络中网页的发送***，该***如图2所示，具体包括：

网页获取单元21接收通信终端发送的网址，获取该网址对应的网页；

解析生成单元22对所述网页进行解析，生成dom树；

分块单元23对dom树进行网页分块切割形成由多个分块组成的页面分块池；

合并分类单元24对所述页面分块池内的多个分块进行网页分块合并和识别分类；

保留单元25将识别出的导航、标题和正文类别的分块保留；

排版发送单元26将保留的分块重新排版后发送给给通信终端。

可选的，分块单元23具体可以包括：

查找模块231查找dom树的一个文本节点和该文本节点的父亲节点；以该父亲节点为基础，依次向上查找到与该父亲节点最近的具有tag独立性的节点，如查找到具有tag独立性的节点，则将该文本节点分成一个独立块，否则，将该父亲节点分成一个独立块；

信息比较模块232判断分成的独立块的长度是否超过了预定义的阈值，如是，则判断该独立块内的儿子节点在视觉信息以及内容信息是否一致，如一致，则将该独立块作为一个分块，否则，对该儿子节点进行再次分块直至视觉信息以及内容信息完成一致后，将该独立块作为一个分块为止；

搜索模块233搜索下一个文本节点，如搜索到，则对该文本节点执行上述查找步骤和分块步骤，如搜索不到则将所有分块分到一个页面分块池内。

可选的，合并分类单元24具体可以包括：

分类模块241从页面分块池中取出相邻的两个分块A和B以及A和B的共同父亲节点P，分别对A、B、P进行分类识别算法计算得到A的分块类别CA以及该类别的概率值PCA、B的分块类别CB以及该类别的概率值PCB、P的分块类别CP以及该类别的概率值PCP；

合并模块242在满足下述条件甲、乙或丙时，查找P的最大有效儿子节点，并判断该最大有效儿子节点的所有儿子节点的视觉信息以及结构信息上是否相似，如相似，将A、B合并入P，并删除A、B；如页面分块池内的所有分块遍历完毕则合并操作结束；

条件甲、乙或丙可以参见实施例二中的相关描述。

需要说明的是，导航、标题和正文类别具体表现形式可以参见实施例三的相关说明，这里不在赘述。

可选的，排版发送单元26具体可以包括：

标签模块261取保留的dom树的一个节点的标签，

保留模块262在该节点的标签类型为img时，删除该节点，若该节点的标签类型为a、abbr、address、b、base、big、body、br、button、caption、div、dl、dt、dd、em、iframe、frame、frameset、fieldset、form、h1、h2、h3、h4、h5、h6、hr、head、html、i、input、label、li、link、meta、object、ol、optgroup、option、p、postfield、p、postfield、select、span、strong、style、table、td、textarea、th、title、tr或ul，则保留该节点，否则将该节点的儿子节点全部取出，并挂到该节点的父节点的儿子节点链表后，删除该节点；若该节点的标签类型是td，则将该节点下的所有儿子节点全部提取出来挂到td的父节节点的儿子节点链表后，删除td节点；若保留的节点的标签类型为table或tr，则检查该节点的父节点是否是div，如果不是则新建一个div节点，然后将该保留的节点下的所有儿子节点全部取出并挂到新建立的div节点的儿子节点链表中，并将新建的div节点挂到该节点的父节点的儿子节点链表中，然后删除该节点；如果该节点的父节点是div，则将table或者tr元素下的所有子节点全部取出并挂到该节点的父节节点的儿子节点链表中，并删除该节点；

发送模块263遍历dom树的所有节点后完成重新排版，并将重新排版后的dom树发送给通信终端。

本发明提供的***在接收到通信终端发送的网址后，对该网址对应的网页分块、合并、识别分类和保留处理后，将保留后的导航、标题和正文类别的分块重新排版后发送给通信终端，由于该***将其它类型的分块删除，所以其减少了网络中传输的数据量，具有快速相应用户请求，提高网页浏览速度的优点。

值得注意的是，上述***实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

综上所述，本发明提供的技术方案具有减少了网络中传输的数据量，具有快速相应用户请求，提高网页浏览速度的优点。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种移动网络中网页的发送方法，其特征在于，所述方法具体包括如下步骤：

接收通信终端发送的网址，获取该网址对应的网页；

将保留的分块重新排版后发送给通信终端。

2.根据权利要求1所述的方法，其特征在于，所述对dom树进行网页分块切割形成由多个分块组成的页面分块池的步骤具体包括：

搜索下一个文本节点，如搜索到，则对该文本节点执行上述查找步骤和分块步骤，如搜索不到则将所有分块分到一个页面分块池内。

3.根据权利要求1所述的方法，其特征在于，所述对所述页面分块池内的多个分块进行网页分块合并和识别分类的步骤具体包括：

从页面分块池中取出相邻的两个分块A和B以及A和B的共同父亲节点P，分别对A、B、P进行分类识别算法计算得到A的分块类别CA以及该类别的概率值PCA、B的分块类别CB以及该类别的概率值PCB、P的分块类别CP以及该类别的概率值PCP；

在满足下述条件甲、乙或丙时，查找P的最大有效儿子节点，并判断该最大有效儿子节点的所有儿子节点的视觉信息以及结构信息上是否相似，如相似，将A、B合并入P，并删除A、B；如页面分块池内的所有分块遍历完毕则合并操作结束；

条件乙、CA＝CB＝CP并且同时满足CA不等于未知节点；

条件丙、CA＝CB并且同时满足PCP同时大于PCA、PCB。

4.根据权利要求1所述的方法，其特征在于，所述导航、标题和正文类别具体包括：

所述导航类别的分块包括：导航信息块或二级导航块；标题类别的分块包括：标题块、副标题块或分标题块；正文类别分块包括：正文块或相关信息块。

5.根据权利要求1所述的方法，其特征在于，所述将保留的分块重新排版后发送给给通信终端的步骤具体包括：

取保留的dom树的一个节点的标签，

若节点的标签类型为img，则删除该节点，若该节点的标签类型为a、abbr、address、b、base、big、body、br、button、caption、div、dl、dt、dd、em、iframe、frame、frameset、fieldset、form、h1、h2、h3、h4、h5、h6、hr、head、html、i、input、label、li、link、meta、object、ol、optgroup、option、p、postfield、p、postfield、select、span、strong、style、table、td、textarea、th、title、tr或ul，则保留该节点，否则将该节点的儿子节点全部取出，并挂到该节点的父节点的儿子节点链表后，删除该节点；若该节点的标签类型是td，则将该节点下的所有儿子节点全部提取出来挂到td的父节节点的儿子节点链表后，删除td节点；若保留的节点的标签类型为table或tr，则检查该节点的父节点是否是div，如果不是则新建一个div节点，然后将该保留的节点下的所有儿子节点全部取出并挂到新建立的div节点的儿子节点链表中，并将新建的div节点挂到该节点的父节点的儿子节点链表中，然后删除该节点；如果该节点的父节点是div，则将table或者tr元素下的所有子节点全部取出并挂到该节点的父节节点的儿子节点链表中，并删除该节点；

遍历dom树的所有节点完成重新排版，并将重新排版后的dom树发送给通信终端。

6.一种移动网络中网页的发送***，其特征在于，所述***具体包括：

解析生成单元，用于对所述网页进行解析，生成dom树；

7.根据权利要求6所述的***，其特征在于，所述分块单元具体包括：

查找模块，用于查找dom树的一个文本节点和该文本节点的父亲节点；以该父亲节点为基础，依次向上查找到与该父亲节点最近的具有分类tag独立性的节点，如查找到具有tag独立性的节点，则将该文本节点分成一个独立块，否则，将该父亲节点分成一个独立块；

信息比较模块，用于判断分成的独立块的长度是否超过了预定义的阈值，如是，则判断该独立块内的儿子节点在视觉信息以及内容信息是否一致，如一致，则将该独立块作为一个分块，否则，对该儿子节点进行再次分块直至视觉信息以及内容信息完成一致后，将该独立块作为一个分块为止；

搜索模块，用于搜索下一个文本节点，如搜索到，则对该文本节点执行上述查找步骤和分块步骤，如搜索不到则将所有分块分到一个页面分块池内。

8.根据权利要求6所述的***，其特征在于，所述合并分类单元具体包括：

分类模块，用于从页面分块池中取出相邻的两个分块A和B以及A和B的共同父亲节点P，分别对A、B、P进行分类识别算法计算得到A的分块类别CA以及该类别的概率值PCA、B的分块类别CB以及该类别的概率值PCB、P的分块类别CP以及该类别的概率值PCP；

合并模块，用于在满足下述条件甲、乙或丙时，查找P的最大有效儿子节点，并判断该最大有效儿子节点的所有儿子节点的视觉信息以及结构信息上是否相似，如相似，将A、B合并入P，并删除A、B；如页面分块池内的所有分块遍历完毕则合并操作结束；

条件乙、CA＝CB＝CP并且同时满足CA不等于未知节点；

条件丙、CA＝CB并且同时满足PCP同时大于PCA、PCB。

9.根据权利要求6所述的***，其特征在于，所述导航、标题和正文类别具体包括：

10.根据权利要求6所述的***，其特征在于，所述保留单元具体包括：

标签模块，用于取保留的dom树的一个节点的标签，

保留模块，用于在该节点的标签类型为img时，删除该节点，若该节点的标签类型为a、abbr、address、b、base、big、body、br、button、caption、div、dl、dt、dd、em、iframe、frame、frameset、fieldset、form、h1、h2、h3、h4、h5、h6、hr、head、html、i、input、label、li、link、meta、object、ol、optgroup、option、p、postfield、p、postfield、select、span、strong、style、table、td、textarea、th、title、tr或ul，则保留该节点，否则将该节点的儿子节点全部取出，并挂到该节点的父节点的儿子节点链表后，删除该节点；若该节点的标签类型是td，则将该节点下的所有儿子节点全部提取出来挂到td的父节节点的儿子节点链表后，删除td节点；若保留的节点的标签类型为table或tr，则检查该节点的父节点是否是div，如果不是则新建一个div节点，然后将该保留的节点下的所有儿子节点全部取出并挂到新建立的div节点的儿子节点链表中，并将新建的div节点挂到该节点的父节点的儿子节点链表中，然后删除该节点；如果该节点的父节点是div，则将table或者tr元素下的所有子节点全部取出并挂到该节点的父节节点的儿子节点链表中，并删除该节点；

发送模块，用于遍历dom树的所有节点后完成重新排版，并将重新排版后的dom树发送给通信终端。