CN102420842A - 一种移动网络中网页的发送方法及*** - Google Patents

一种移动网络中网页的发送方法及*** Download PDF

Info

Publication number
CN102420842A
CN102420842A CN2010105033484A CN201010503348A CN102420842A CN 102420842 A CN102420842 A CN 102420842A CN 2010105033484 A CN2010105033484 A CN 2010105033484A CN 201010503348 A CN201010503348 A CN 201010503348A CN 102420842 A CN102420842 A CN 102420842A
Authority
CN
China
Prior art keywords
node
piecemeal
child
father
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105033484A
Other languages
English (en)
Other versions
CN102420842B (zh
Inventor
陈虓将
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201010503348.4A priority Critical patent/CN102420842B/zh
Publication of CN102420842A publication Critical patent/CN102420842A/zh
Application granted granted Critical
Publication of CN102420842B publication Critical patent/CN102420842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明适用于互联网及通信领域,本发明提供了一种移动网络中网页的发送方法及***,该方法具体包括:接收通信终端发送的网址,获取该网址对应的网页;对所述网页进行解析,生成dom树;对dom树进行网页分块切割形成由多个分块组成的页面分块池;对所述页面分块池内的多个分块进行网页分块合并和识别分类;将识别出的导航、标题和正文类别的分块保留;将保留的分块重新排版后发送给给通信终端。本发明提供的技术方案具有减少了网络中传输的数据量,具有快速相应用户请求,提高网页浏览速度的优点。

Description

一种移动网络中网页的发送方法及***
技术领域
本发明属于互联网及通信领域,尤其涉及一种移动网络中网页的发送方法及***。
背景技术
随着互联网的发展,越来越多的人通过移动网络来获取信息。目前互联网中网页信息的发送方法具体为:服务器接收终端设备发送的网址,将该网址对应网页的所有内容发送给终端设备。
按照现有技术所提供的技术方案,发现现有技术中存在如下技术问题:
现有技术提供的技术方案将网址对应网页的所有内容发送给终端设备,由于网页的所有内容中有很多噪声信息(例如广告信息、版权信息等),所以网络中数据传输量大。
发明内容
本发明实施例的目的在于提供一种移动网络中网页的发送方法,旨在解决现有技术的方法在网页信息的发送时,网络数据传输量大的问题。
本发明实施例是这样实现的,一种移动网络中网页的发送方法,所述方法具体包括如下步骤:
接收通信终端发送的网址,获取该网址对应的网页;
对所述网页进行解析,生成dom树;对dom树进行网页分块切割形成由多个分块组成的页面分块池;对所述页面分块池内的多个分块进行网页分块合并和识别分类;将识别出的导航、标题和正文类别的分块保留;
将保留的分块重新排版后发送给给通信终端。
本发明还提供一种移动网络中网页的发送***,所述***具体包括:
网页获取单元,用于接收通信终端发送的网址,获取该网址对应的网页;
解析生成单元,用于对所述网页进行解析,生成dom树;
分块单元,用于对dom树进行网页分块切割形成由多个分块组成的页面分块池;
合并分类单元,用于对所述页面分块池内的多个分块进行网页分块合并和识别分类;
保留单元,用于将识别出的导航、标题和正文类别的分块保留;
排版发送单元,用于将保留的分块重新排版后发送给给通信终端。
本发明实施例与现有技术相比,有益效果在于:本发明的技术方案在接收到通信终端发送的网址后,对该网址对应的网页分块、合并、识别分类和保留处理后,将保留后的导航、标题和正文类别的分块重新排版后发送给通信终端,由于该方法将其它类型的分块删除,所以其减少了网络中传输的数据量,具有快速相应用户请求,提高网页浏览速度的优点。
附图说明
图1是本发明提供一种移动网络中网页的发送方法的流程图;
图2是本发明实施例五提供一种移动网络中网页的发送***的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种移动网络中网页的发送方法,该方法由网络侧设备完成,具体可以为服务器,移动交换中心MSC等设备。当然在实际情况中,该方法如图1所示,具体包括如下步骤:
S11、接收通信终端发送的网址,获取该网址对应的网页;
S12、对网页进行解析,生成dom树;
S13、对dom树进行网页分块切割形成由多个分块组成的页面分块池;
S14、对上述页面分块池内的多分小块进行网页分块合并和识别分类;
S15、将导航、标题和正文类别的分块保留;
S16、将保留的分块重新排版后发送给给通信终端。
本发明提供的方法在接收到通信终端发送的网址后,对该网址对应的网页分块、合并、识别分类和保留处理后,将保留后的导航、标题和正文类别的分块重新排版后发送给通信终端,由于该方法将其它类型的分块删除,所以其减少了网络中传输的数据量,具有快速相应用户请求,提高网页浏览速度的优点。
实施例一
本实施例提供一种移动网络中网页的发送方法,本实施例提供了S13的具体实现方法,该方法具体包括:
查找dom树的一个文本节点和该文本节点的父亲节点;以该父亲节点为基础,依次向上查找到与该父亲节点最近的具有分类tag独立性的节点,如查找到具有tag独立性的节点,则将该文本节点分成一个独立块,否则,将该父亲节点分成一个独立块;
判断分成的独立块的长度是否超过了预定义的阈值,如是,则判断该独立块内的儿子节点在视觉信息以及内容信息是否一致,如一致,则将该独立块作为一个分块,否则,对该儿子节点进行再次分块直至视觉信息以及内容信息完成一致后,将该独立块作为一个分块为止;
搜索下一个文本节点,如搜索到,则对该文本进行S13和S14的操作,如搜索不到则将所有分块分到一个页面分块池内。
当然在实际情况中,上述分块处理的方法还可以采用现有技术中的其它方法,这里不再赘述。
实施例二
本实施例与实施例一的区别点在于,本实施例提供了S14的具体操作方法,该方法包括:从分决池中取出相邻的两个分块A和B以及A和B的共同父亲节点P,分别对A、B、P进行分类识别算法计算得到A的分块类别CA以及该类别的概率值PCA、B的分块类别CB以及该类别的概率值PCB、P的分块类别CP以及该类别的概率值PCP;在满足下述条件甲、乙或丙时,
条件甲、CA=CB并且同时满足CA等于未知节点和CP不等于未知节点;
条件乙、CA=CB=CP并且同时满足CA不等于未知节点;
条件丙、CA=CB并且同时满足PCP同时大于PCA、PCB;
查找P的最大有效儿子节点,并判断最大有效儿子节点的所有儿子节点的视觉信息以及结构信息上是否相似,如相似,将A、B合并入P,并删除A、B;如页面池内的所有分块遍历完毕则合并操作结束。其中所有分块遍历表示所有分块都完成了合并和识别分类处理。
上述分类识别算法的具体方法可以采用朴素贝叶斯分类器完成分类,它的输入是一个分块的节点,输出是该节点所属的类别以及属于该类别的概率值。其中朴素贝叶斯分类器中的特征点为页面结构特征和页面文字特征两大块。其中,页面结构特征包括:块的长度所占页面长度的比例,块中的中文字数,块中中文字数占总页面字数的比例,块的长度,块中链接个数,决中非锚文本中文字数,块中锚文本字数占该块总字数的比例,块中的英文字数,非锚文本的总字数(中英文字数总和),块中锚文本字数,该节点的位置(该节点的编号占总节点数的比例),块的宽度,块中非锚文本中标点符号的个数。分块的标签名称也是一个加权因子。页面文字特征由一系列特征关键字组成。这些关键字通过对分块的文字进行聚合产生。
需要说明的是,上述未知节点是通过朴素贝叶斯分类器计算得到的一个分类。
当然在实际情况中,上述合并和分类处理的方法还可以采用现有技术中的其它方法,这里不再赘述。
实施例三
本实施例与实施例一的区别点在于,本实施例提供了S15中导航、标题和正文类别分块的具体表现形似,其中导航类别分块具体可以为:导航信息块或二级导航块;标题类别分块具体可以为:标题块、副标题块或分标题块;正文类别分块具体可以为:正文块或相关信息块。
实施例四
本实施例与实施例一的区别点在于,本实施例提供了实现S16的具体方法,该重新排版的方法具体包括:
取保留的dom树的一个节点的标签,
若节点的标签类型为img,则删除该节点。若该节点的标签类型为a、abbr、address、b、base、big、body、br、button、caption、div、dl、dt、dd、em、iframe、frame、frameset、fieldset、form、h1、h2、h3、h4、h5、h6、hr、head、html、i、input、label、li、link、meta、object、ol、optgroup、option、p、postfield、p、postfield、select、span、strong、style、table、td、textarea、th、title、tr或ul,则保留该节点,否则将该节点的儿子节点全部取出,并挂到该节点的父节点的儿子节点链表后,删除该节点;若该节点的标签类型是td,则将该节点下的所有儿子节点全部提取出来挂到td的父亲节点的儿子节点链表后,删除td节点;若保留的节点的标签类型为table或tr,则检查该节点的父节点是否是div,如果不是则新建一个div节点,然后将该保留的节点下的所有儿子节点全部取出并挂到新建立的div节点的儿子节点链表中,并将新建的div节点挂到该节点的父节点的儿子节点链表中,然后删除该节点;如果该节点的父节点是div,则将table或者tr元素下的所有儿子节点全部取出并挂到该节点的父节节点的儿子节点链表中,并删除该节点;
遍历dom树的所有节点完成重新排版,并将重新排版后的dom树发送给通信终端。需要说明的是,上述遍历dom树所有的节点的具体操作为,将dom数的所有节点均进行上述重新排版的处理。
当然在实际情况中,上述合并和分类处理的方法还可以采用现有技术中的其它方法,这里不再赘述。
实施例五
本实施例提供一种移动网络中网页的发送***,该***如图2所示,具体包括:
网页获取单元21接收通信终端发送的网址,获取该网址对应的网页;
解析生成单元22对所述网页进行解析,生成dom树;
分块单元23对dom树进行网页分块切割形成由多个分块组成的页面分块池;
合并分类单元24对所述页面分块池内的多个分块进行网页分块合并和识别分类;
保留单元25将识别出的导航、标题和正文类别的分块保留;
排版发送单元26将保留的分块重新排版后发送给给通信终端。
可选的,分块单元23具体可以包括:
查找模块231查找dom树的一个文本节点和该文本节点的父亲节点;以该父亲节点为基础,依次向上查找到与该父亲节点最近的具有tag独立性的节点,如查找到具有tag独立性的节点,则将该文本节点分成一个独立块,否则,将该父亲节点分成一个独立块;
信息比较模块232判断分成的独立块的长度是否超过了预定义的阈值,如是,则判断该独立块内的儿子节点在视觉信息以及内容信息是否一致,如一致,则将该独立块作为一个分块,否则,对该儿子节点进行再次分块直至视觉信息以及内容信息完成一致后,将该独立块作为一个分块为止;
搜索模块233搜索下一个文本节点,如搜索到,则对该文本节点执行上述查找步骤和分块步骤,如搜索不到则将所有分块分到一个页面分块池内。
可选的,合并分类单元24具体可以包括:
分类模块241从页面分块池中取出相邻的两个分块A和B以及A和B的共同父亲节点P,分别对A、B、P进行分类识别算法计算得到A的分块类别CA以及该类别的概率值PCA、B的分块类别CB以及该类别的概率值PCB、P的分块类别CP以及该类别的概率值PCP;
合并模块242在满足下述条件甲、乙或丙时,查找P的最大有效儿子节点,并判断该最大有效儿子节点的所有儿子节点的视觉信息以及结构信息上是否相似,如相似,将A、B合并入P,并删除A、B;如页面分块池内的所有分块遍历完毕则合并操作结束;
条件甲、乙或丙可以参见实施例二中的相关描述。
需要说明的是,导航、标题和正文类别具体表现形式可以参见实施例三的相关说明,这里不在赘述。
可选的,排版发送单元26具体可以包括:
标签模块261取保留的dom树的一个节点的标签,
保留模块262在该节点的标签类型为img时,删除该节点,若该节点的标签类型为a、abbr、address、b、base、big、body、br、button、caption、div、dl、dt、dd、em、iframe、frame、frameset、fieldset、form、h1、h2、h3、h4、h5、h6、hr、head、html、i、input、label、li、link、meta、object、ol、optgroup、option、p、postfield、p、postfield、select、span、strong、style、table、td、textarea、th、title、tr或ul,则保留该节点,否则将该节点的儿子节点全部取出,并挂到该节点的父节点的儿子节点链表后,删除该节点;若该节点的标签类型是td,则将该节点下的所有儿子节点全部提取出来挂到td的父节节点的儿子节点链表后,删除td节点;若保留的节点的标签类型为table或tr,则检查该节点的父节点是否是div,如果不是则新建一个div节点,然后将该保留的节点下的所有儿子节点全部取出并挂到新建立的div节点的儿子节点链表中,并将新建的div节点挂到该节点的父节点的儿子节点链表中,然后删除该节点;如果该节点的父节点是div,则将table或者tr元素下的所有子节点全部取出并挂到该节点的父节节点的儿子节点链表中,并删除该节点;
发送模块263遍历dom树的所有节点后完成重新排版,并将重新排版后的dom树发送给通信终端。
本发明提供的***在接收到通信终端发送的网址后,对该网址对应的网页分块、合并、识别分类和保留处理后,将保留后的导航、标题和正文类别的分块重新排版后发送给通信终端,由于该***将其它类型的分块删除,所以其减少了网络中传输的数据量,具有快速相应用户请求,提高网页浏览速度的优点。
值得注意的是,上述***实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
综上所述,本发明提供的技术方案具有减少了网络中传输的数据量,具有快速相应用户请求,提高网页浏览速度的优点。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种移动网络中网页的发送方法,其特征在于,所述方法具体包括如下步骤:
接收通信终端发送的网址,获取该网址对应的网页;
对所述网页进行解析,生成dom树;对dom树进行网页分块切割形成由多个分块组成的页面分块池;对所述页面分块池内的多个分块进行网页分块合并和识别分类;将识别出的导航、标题和正文类别的分块保留;
将保留的分块重新排版后发送给通信终端。
2.根据权利要求1所述的方法,其特征在于,所述对dom树进行网页分块切割形成由多个分块组成的页面分块池的步骤具体包括:
查找dom树的一个文本节点和该文本节点的父亲节点;以该父亲节点为基础,依次向上查找到与该父亲节点最近的具有分类tag独立性的节点,如查找到具有tag独立性的节点,则将该文本节点分成一个独立块,否则,将该父亲节点分成一个独立块;
判断分成的独立块的长度是否超过了预定义的阈值,如是,则判断该独立块内的儿子节点在视觉信息以及内容信息是否一致,如一致,则将该独立块作为一个分块,否则,对该儿子节点进行再次分块直至视觉信息以及内容信息完成一致后,将该独立块作为一个分块为止;
搜索下一个文本节点,如搜索到,则对该文本节点执行上述查找步骤和分块步骤,如搜索不到则将所有分块分到一个页面分块池内。
3.根据权利要求1所述的方法,其特征在于,所述对所述页面分块池内的多个分块进行网页分块合并和识别分类的步骤具体包括:
从页面分块池中取出相邻的两个分块A和B以及A和B的共同父亲节点P,分别对A、B、P进行分类识别算法计算得到A的分块类别CA以及该类别的概率值PCA、B的分块类别CB以及该类别的概率值PCB、P的分块类别CP以及该类别的概率值PCP;
在满足下述条件甲、乙或丙时,查找P的最大有效儿子节点,并判断该最大有效儿子节点的所有儿子节点的视觉信息以及结构信息上是否相似,如相似,将A、B合并入P,并删除A、B;如页面分块池内的所有分块遍历完毕则合并操作结束;
条件甲、CA=CB并且同时满足CA等于未知节点和CP不等于未知节点;
条件乙、CA=CB=CP并且同时满足CA不等于未知节点;
条件丙、CA=CB并且同时满足PCP同时大于PCA、PCB。
4.根据权利要求1所述的方法,其特征在于,所述导航、标题和正文类别具体包括:
所述导航类别的分块包括:导航信息块或二级导航块;标题类别的分块包括:标题块、副标题块或分标题块;正文类别分块包括:正文块或相关信息块。
5.根据权利要求1所述的方法,其特征在于,所述将保留的分块重新排版后发送给给通信终端的步骤具体包括:
取保留的dom树的一个节点的标签,
若节点的标签类型为img,则删除该节点,若该节点的标签类型为a、abbr、address、b、base、big、body、br、button、caption、div、dl、dt、dd、em、iframe、frame、frameset、fieldset、form、h1、h2、h3、h4、h5、h6、hr、head、html、i、input、label、li、link、meta、object、ol、optgroup、option、p、postfield、p、postfield、select、span、strong、style、table、td、textarea、th、title、tr或ul,则保留该节点,否则将该节点的儿子节点全部取出,并挂到该节点的父节点的儿子节点链表后,删除该节点;若该节点的标签类型是td,则将该节点下的所有儿子节点全部提取出来挂到td的父节节点的儿子节点链表后,删除td节点;若保留的节点的标签类型为table或tr,则检查该节点的父节点是否是div,如果不是则新建一个div节点,然后将该保留的节点下的所有儿子节点全部取出并挂到新建立的div节点的儿子节点链表中,并将新建的div节点挂到该节点的父节点的儿子节点链表中,然后删除该节点;如果该节点的父节点是div,则将table或者tr元素下的所有子节点全部取出并挂到该节点的父节节点的儿子节点链表中,并删除该节点;
遍历dom树的所有节点完成重新排版,并将重新排版后的dom树发送给通信终端。
6.一种移动网络中网页的发送***,其特征在于,所述***具体包括:
网页获取单元,用于接收通信终端发送的网址,获取该网址对应的网页;
解析生成单元,用于对所述网页进行解析,生成dom树;
分块单元,用于对dom树进行网页分块切割形成由多个分块组成的页面分块池;
合并分类单元,用于对所述页面分块池内的多个分块进行网页分块合并和识别分类;
保留单元,用于将识别出的导航、标题和正文类别的分块保留;
排版发送单元,用于将保留的分块重新排版后发送给给通信终端。
7.根据权利要求6所述的***,其特征在于,所述分块单元具体包括:
查找模块,用于查找dom树的一个文本节点和该文本节点的父亲节点;以该父亲节点为基础,依次向上查找到与该父亲节点最近的具有分类tag独立性的节点,如查找到具有tag独立性的节点,则将该文本节点分成一个独立块,否则,将该父亲节点分成一个独立块;
信息比较模块,用于判断分成的独立块的长度是否超过了预定义的阈值,如是,则判断该独立块内的儿子节点在视觉信息以及内容信息是否一致,如一致,则将该独立块作为一个分块,否则,对该儿子节点进行再次分块直至视觉信息以及内容信息完成一致后,将该独立块作为一个分块为止;
搜索模块,用于搜索下一个文本节点,如搜索到,则对该文本节点执行上述查找步骤和分块步骤,如搜索不到则将所有分块分到一个页面分块池内。
8.根据权利要求6所述的***,其特征在于,所述合并分类单元具体包括:
分类模块,用于从页面分块池中取出相邻的两个分块A和B以及A和B的共同父亲节点P,分别对A、B、P进行分类识别算法计算得到A的分块类别CA以及该类别的概率值PCA、B的分块类别CB以及该类别的概率值PCB、P的分块类别CP以及该类别的概率值PCP;
合并模块,用于在满足下述条件甲、乙或丙时,查找P的最大有效儿子节点,并判断该最大有效儿子节点的所有儿子节点的视觉信息以及结构信息上是否相似,如相似,将A、B合并入P,并删除A、B;如页面分块池内的所有分块遍历完毕则合并操作结束;
条件甲、CA=CB并且同时满足CA等于未知节点和CP不等于未知节点;
条件乙、CA=CB=CP并且同时满足CA不等于未知节点;
条件丙、CA=CB并且同时满足PCP同时大于PCA、PCB。
9.根据权利要求6所述的***,其特征在于,所述导航、标题和正文类别具体包括:
所述导航类别的分块包括:导航信息块或二级导航块;标题类别的分块包括:标题块、副标题块或分标题块;正文类别分块包括:正文块或相关信息块。
10.根据权利要求6所述的***,其特征在于,所述保留单元具体包括:
标签模块,用于取保留的dom树的一个节点的标签,
保留模块,用于在该节点的标签类型为img时,删除该节点,若该节点的标签类型为a、abbr、address、b、base、big、body、br、button、caption、div、dl、dt、dd、em、iframe、frame、frameset、fieldset、form、h1、h2、h3、h4、h5、h6、hr、head、html、i、input、label、li、link、meta、object、ol、optgroup、option、p、postfield、p、postfield、select、span、strong、style、table、td、textarea、th、title、tr或ul,则保留该节点,否则将该节点的儿子节点全部取出,并挂到该节点的父节点的儿子节点链表后,删除该节点;若该节点的标签类型是td,则将该节点下的所有儿子节点全部提取出来挂到td的父节节点的儿子节点链表后,删除td节点;若保留的节点的标签类型为table或tr,则检查该节点的父节点是否是div,如果不是则新建一个div节点,然后将该保留的节点下的所有儿子节点全部取出并挂到新建立的div节点的儿子节点链表中,并将新建的div节点挂到该节点的父节点的儿子节点链表中,然后删除该节点;如果该节点的父节点是div,则将table或者tr元素下的所有子节点全部取出并挂到该节点的父节节点的儿子节点链表中,并删除该节点;
发送模块,用于遍历dom树的所有节点后完成重新排版,并将重新排版后的dom树发送给通信终端。
CN201010503348.4A 2010-09-28 2010-09-28 一种移动网络中网页的发送方法及*** Active CN102420842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010503348.4A CN102420842B (zh) 2010-09-28 2010-09-28 一种移动网络中网页的发送方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010503348.4A CN102420842B (zh) 2010-09-28 2010-09-28 一种移动网络中网页的发送方法及***

Publications (2)

Publication Number Publication Date
CN102420842A true CN102420842A (zh) 2012-04-18
CN102420842B CN102420842B (zh) 2016-03-02

Family

ID=45945077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010503348.4A Active CN102420842B (zh) 2010-09-28 2010-09-28 一种移动网络中网页的发送方法及***

Country Status (1)

Country Link
CN (1) CN102420842B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779170A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 一种识别网页正文楼层的***和方法
CN102831212A (zh) * 2012-08-14 2012-12-19 优视科技有限公司 页面显示的排版方法及装置
CN103049557A (zh) * 2012-12-31 2013-04-17 百度在线网络技术(北京)有限公司 一种站点资源管理方法及装置
CN103425747A (zh) * 2013-07-19 2013-12-04 百度在线网络技术(北京)有限公司 对网页进行实时编辑的方法、装置与***
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取***
CN103729370A (zh) * 2012-10-15 2014-04-16 腾讯科技(深圳)有限公司 网络小说介绍页的提取方法及装置
CN103942233A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 目录型网页的介绍页识别方法及装置
CN104462394A (zh) * 2012-06-25 2015-03-25 北京奇虎科技有限公司 一种识别网页正文楼层的***和方法
CN104765737A (zh) * 2014-01-03 2015-07-08 易搜比控股公司 撷取超文字标签语言文件内容的方法
CN104794118A (zh) * 2014-01-17 2015-07-22 腾讯科技(深圳)有限公司 一种网页信息处理方法、装置和***
CN108280107A (zh) * 2017-03-08 2018-07-13 广州市动景计算机科技有限公司 网页处理方法、装置及用户终端
CN109492177A (zh) * 2018-11-02 2019-03-19 中国搜索信息科技股份有限公司 一种基于网页语义结构的网页分块方法
US11128621B2 (en) * 2013-08-02 2021-09-21 Alibaba Group Holdings Limited Method and apparatus for accessing website

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050181766A1 (en) * 2002-05-06 2005-08-18 Michael Rooke Method and device for delivering messages to mobile terminal devices in accordance with a user selectable attainability status
CN101446983A (zh) * 2009-01-12 2009-06-03 腾讯科技(深圳)有限公司 一种实现移动终端获取网页的方法、***和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050181766A1 (en) * 2002-05-06 2005-08-18 Michael Rooke Method and device for delivering messages to mobile terminal devices in accordance with a user selectable attainability status
CN101446983A (zh) * 2009-01-12 2009-06-03 腾讯科技(深圳)有限公司 一种实现移动终端获取网页的方法、***和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄文蓓, 杨 静, 顾君忠: "基于分块的网页正文信息提取算法研究", 《计算机应用》, 1 June 2007 (2007-06-01) *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462394A (zh) * 2012-06-25 2015-03-25 北京奇虎科技有限公司 一种识别网页正文楼层的***和方法
WO2014000572A1 (zh) * 2012-06-25 2014-01-03 北京奇虎科技有限公司 一种识别网页正文楼层的***和方法
CN102779170A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 一种识别网页正文楼层的***和方法
CN102779170B (zh) * 2012-06-25 2015-01-07 北京奇虎科技有限公司 一种识别网页正文楼层的***和方法
CN104462394B (zh) * 2012-06-25 2018-05-11 北京奇虎科技有限公司 一种识别网页正文楼层的***和方法
CN102831212A (zh) * 2012-08-14 2012-12-19 优视科技有限公司 页面显示的排版方法及装置
WO2014026509A1 (zh) * 2012-08-14 2014-02-20 优视科技有限公司 页面显示的排版方法及装置
CN103729370A (zh) * 2012-10-15 2014-04-16 腾讯科技(深圳)有限公司 网络小说介绍页的提取方法及装置
CN103049557A (zh) * 2012-12-31 2013-04-17 百度在线网络技术(北京)有限公司 一种站点资源管理方法及装置
CN103942233A (zh) * 2013-01-21 2014-07-23 腾讯科技(深圳)有限公司 目录型网页的介绍页识别方法及装置
CN103942233B (zh) * 2013-01-21 2019-02-26 腾讯科技(深圳)有限公司 目录型网页的介绍页识别方法及装置
CN103425747A (zh) * 2013-07-19 2013-12-04 百度在线网络技术(北京)有限公司 对网页进行实时编辑的方法、装置与***
US11128621B2 (en) * 2013-08-02 2021-09-21 Alibaba Group Holdings Limited Method and apparatus for accessing website
CN103473338B (zh) * 2013-09-22 2016-10-05 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取***
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取***
CN104765737A (zh) * 2014-01-03 2015-07-08 易搜比控股公司 撷取超文字标签语言文件内容的方法
CN104794118A (zh) * 2014-01-17 2015-07-22 腾讯科技(深圳)有限公司 一种网页信息处理方法、装置和***
CN104794118B (zh) * 2014-01-17 2019-03-26 腾讯科技(深圳)有限公司 一种网页信息处理方法、装置和***
CN108280107A (zh) * 2017-03-08 2018-07-13 广州市动景计算机科技有限公司 网页处理方法、装置及用户终端
CN109492177A (zh) * 2018-11-02 2019-03-19 中国搜索信息科技股份有限公司 一种基于网页语义结构的网页分块方法

Also Published As

Publication number Publication date
CN102420842B (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN102420842A (zh) 一种移动网络中网页的发送方法及***
CN101246494B (zh) 一种互联网网页转换方法、***及设备
CN107729480B (zh) 一种限定区域的文本信息抽取方法及装置
CN101251855B (zh) 一种互联网网页清洗方法、***及设备
EP3611631A1 (en) Method, apparatus and device for generating entity relationship data, and storage medium
WO2017113645A1 (zh) 信息提取方法和装置
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
US20110302486A1 (en) Method and apparatus for obtaining the effective contents of web page
US9519718B2 (en) Webpage information detection method and system
US20150067476A1 (en) Title and body extraction from web page
US11055373B2 (en) Method and apparatus for generating information
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
WO2013102396A1 (zh) 一种自动给文档添加标签的方法、装置以及计算机存储介质
US9092480B2 (en) Method and apparatus for performing extended search
US8825856B1 (en) Usage-based content filtering for bandwidth optimization
US20220292160A1 (en) Automated system and method for creating structured data objects for a media-based electronic document
CN113407731A (zh) 一种基于知识图谱和协同过滤的api推荐方法
US20200210467A1 (en) Template generation using directed acyclic word graphs
CN107391650A (zh) 一种文档的结构化拆分方法,装置及***
CN106156262A (zh) 一种搜索信息处理方法及***
CN103118028B (zh) 基于网页解析的安全扫描方法及***
CN103389981A (zh) 网络标签自动识别方法及其***
CN101576933A (zh) 基于标题分隔符的全自动web页面分组法
Gali et al. Extracting representative image from web page

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221116

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518044, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.