CN103309905A - 对网页进行转码后合并阅读的方法以及服务器 - Google Patents

对网页进行转码后合并阅读的方法以及服务器 Download PDF

Info

Publication number
CN103309905A
CN103309905A CN2012100718145A CN201210071814A CN103309905A CN 103309905 A CN103309905 A CN 103309905A CN 2012100718145 A CN2012100718145 A CN 2012100718145A CN 201210071814 A CN201210071814 A CN 201210071814A CN 103309905 A CN103309905 A CN 103309905A
Authority
CN
China
Prior art keywords
page
original web
web page
webpage
page turning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100718145A
Other languages
English (en)
Inventor
张建荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2012100718145A priority Critical patent/CN103309905A/zh
Publication of CN103309905A publication Critical patent/CN103309905A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种对网页进行转码后合并阅读的方法,该方法包括:a.获取原始网页;b.识别出该原始网页中的翻页链接;c.提取所述翻页链接对应的预定内容;d.将所述预定内容添加至所述原始网页内,并对所述原始网页进行转码处理,以生成与该原始网页对应的WAP页面。相应地,本发明还提供了一种对网页进行转码后合并阅读的服务器。实施本发明,可以减少用户阅读多个页面的等待时间,以及提升用户的浏览效率、降低操作难度以及提升用户体验。

Description

对网页进行转码后合并阅读的方法以及服务器
技术领域
本发明涉及互联网技术领域,尤其涉及一种对网页进行转码后合并阅读的方法以及服务器。
背景技术
互联网上融合了WEB和WAP两类网页资源,WEB网页资源占比远多于WAP网页,但目前绝大多数移动终端的浏览器都不能直接浏览WEB网页。因此,为确保WAP可用性,必须对WAP搜索结果中的WEB网页进行格式转换,转换为WAP网页,使其能在移动终端浏览器被浏览。转码技术即是为实现此目的、服务于WAP搜索的附属产品。为了最大程度解决WEB页面在手机上的可用性,转码须去除WEB页面中不能在手机浏览器上浏览的内容,和无法用WAP描述语言描述的部分内容,并将网页布局由2维布局适配为1维布局。
用户使用移动终端网页的时候,期望通过一次网络交互可以阅读到更多的内容。通常在进行转码时要删除网页中的无用信息,只保留页面内的核心内容,使页面得到一定的简化。如果原始网页上有翻页链接,用户则无法在一次网络交互过程中,获得翻页链接指向的页面内包含的信息,再次请求获取该翻页链接指向的页面则需要重新等待转码过程以及页面传输过程,因此造成了用户的浏览效率下降、重复操作增多以及用户体验下降。
发明内容
本发明的目的在于提供一种对网页进行转码后合并阅读的方法以及服务器,可以实现将多个网页进行合并阅读。
为达到上述目的,一方面,本发明提供了一种对网页进行转码后合并阅读的方法,该方法包括:
a.获取原始网页;
b.识别出该原始网页中的翻页链接;
c.提取所述翻页链接对应的预定内容;
d.将所述预定内容添加至所述原始网页内,并对所述原始网页进行转码处理,以生成与该原始网页对应的WAP页面。
另一方面,本发明提供了一种对网页进行转码后合并阅读的服务器,该服务器包括:
获取模块,用于获取原始网页;
识别模块,用于识别出所述原始网页中的翻页链接;
提取模块,用于提取所述翻页链接对应的预定内容;
转码模块,用于将所述预定内容添加至所述原始网页内,并对所述原始网页进行转码处理,以生成与该原始网页对应的WAP页面。
本发明提供的对网页进行转码后合并阅读的方法以及服务器,通过识别原始网页中的翻页链接并提取该翻页链接对应的预定内容,最后生成的与该原始网页对应的WAP页面中既包括预定内容,用户可以在一次网络交互过程中阅读多个页面的内容,因此减少了用户阅读多个页面的等待时间,可以提升用户的浏览效率、降低操作难度以及提升用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明的对网页进行转码后合并阅读的方法的一种具体实施方式的流程图;
图2是根据本发明的对网页进行转码后合并阅读的方法的一种优选具体实施方式的流程图;
图3是图1或图2示出的方法的执行过程的逻辑示意图;
图4和图5是WEB页面中常见的两种翻页链接的示意图;
图6是根据本发明的对网页进行转码后合并阅读的服务器的一种具体实施方式的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施例作详细描述。
首先请参考图1,图1是根据本发明的对网页进行转码后合并阅读的方法的一种具体实施方式的流程图,该方法包括:
步骤S101,获取原始网页;
步骤S102,识别出该原始网页中的翻页链接;
步骤S103,提取所述翻页链接对应的预定内容;
步骤S104,将所述预定内容添加至所述原始网页内,并对所述原始网页进行转码处理,以生成与该原始网页对应的WAP页面。
具体地,步骤S101中获取的原始网页的目的是对其进行页面转码,所述术语“转码”指的是对WEB网页处理使其变为适合在移动设备上显示的WAP网页。典型地,提供所述WEB网页的服务器通常提供HTML格式的页面,常见的个人电脑、平板电脑等终端由于具有较强的数据处理能力和较大的网络接入带宽,能够在短时间内对其进行解析并显示;而手机、PDA等移动终端由于其自身数据处理能力较弱且网络接入带宽有限,更适合于解析并显示WAP页面,例如WML格式或XHTML格式的页面。在步骤S101中获取的所述原始网页通常是HTML格式的页面,本发明提供的方法旨在对该HTML格式的页面进行转码的过程中对处理结果(转码所得的WAP页面)进行优化,使其更为方便易用,以提升用户体验。
步骤S102中,识别该原始网页中的翻页链接,具体地,可以预设一特征值库,该特征值库中存储了网页中的翻页链接的常见特征值。在实现所述识别的过程中,将所述原始网页中的所有链接具有的特征值与所述特征值库中存储的翻页链接的常见特征值进行比对,并将比对后匹配所述特征值库的链接识别为翻页链接。典型地,例如所述翻页链接都具有一些固定特征值,通常所述翻页链接在页面中的显示文字是“下一页”、“翻页”、“下一章”、“下一张”、“继续浏览”等用于引导网页访问者对其点击以进行翻页操作的说明文字,或所述翻页链接在页面中的显示图样是常见的等用于引导网页访问者对其点击以进行翻页操作的符号、字符和图片等;又例如所述翻页链接指向的URL与所述原始网页的URL的相似度高于某一阈值。当然识别出所述原始网页中的翻页链接具有多种方法,上述公开的方法仅是进行示例性说明,并不对本发明中识别所述原始网页中的翻页链接的具体方法进行限定。在更多的实施例中,步骤S102的具体实现方法是使用文本特征计算和/或链接特征计算的方法识别出所述原始网页中的所述翻页链接。
接下来执行步骤S103,提取所述翻页链接对应的预定内容,典型地,其具体步骤是:获取该翻页链接指向的下级网页,并从该下级网页中识别并提取与所述原始网页中核心内容相关的预定内容。例如所述原始网页中包括的核心内容是一篇文章的第一部分,相应地,所述预定内容则应当是所述下级网页中包括的紧接着所述文章的第一部分的后续部分的文字;又例如所述原始网页中包括的核心内容是一个链接列表第一部分,相应地,所述预定内容则应当是所述下级网页中包括的紧接着所述链接列表的第一部分的后续部分的链接;再例如,所述原始网页中包括的核心内容是显示在该原始网页的主***置的图片,相应地,所述预定内容则应当是所述下级网页中包括的对所述图片的说明性文字或显示在所述下级网页的主***置的另一图片(通常该另一图片与所述原始网页中的图片归属于同一系列)。归纳地说来,所述预定内容包括:与所述原始网页的核心内容相关的文章、链接和/或图片。
在步骤S104中,将所述预定内容添加至所述原始网页内,其具体方法是,在所述原始网页的WAP页面中只保留所述原始网页的核心内容,然后将所述预定内容与所述核心内容进行拼接处理,形成连贯的页面内容并嵌入至所述WAP页面内。即根据所述原始网页转码生成的WAP页面内包括了所述核心内容以及所述预定内容。
在一种情况中,所述原始网页中只包括一个翻页链接,例如图5示出了一种WEB页面中常见的翻页链接,此类WEB页面通常是显示连续内容的多个网页中的一个,其翻页链接307对应的下级页面包括的内容与该WEB页面内包括的核心内容隶属于所述连续内容。对此类WEB页面进行处理则是获取翻页链接307对应的下级网页,并从所述下级网页中提取所述预定内容。进一步地,所述下级页面中也可能出现翻页链接,因此对该下级页面重复执行步骤S101至步骤S103,重复上述过程直至遍历到无法从下级网页中再找到翻页链接为止,最后可将从原始网页的翻页链接中引出的一系列下级网页中的预定内容都提取出来。
另一种情况中,所述原始网页内包括多个翻页链接,例如图4示出了一种WEB页面中常见的由多个翻页链接306组成翻页链接列表,每一翻页链接对应一个下级网页,所有的所述下级网页与所述原始网页属于同一级网页目录,例如所述下级页面是一个论坛分版块下的显示帖子列表的网页。对此类WEB页面进行处理则是分别获取其中多个翻页链接对应的下级网页,并分别从所述多个下级网页中提取所述预定内容,最终选择所有所述预定内容中部分或全部添加至所述原始网页中。
在上述方法的实际实施过程中,一些所述原始网页可能不包括翻页链接,此外用户通常期望可以自主选择是否触发图1所示出的方法的流程。请参考图2,图2是根据本发明的对网页进行转码后合并阅读的方法的一种优选具体实施方式的流程图,该方法包括:
步骤S201,获取原始网页;
步骤S202,判断是否触发阅读模式,若是则执行步骤S203,若否则执行步骤S206;
步骤S203,判断所述原始网页内是否存在翻页链接,若是则执行步骤S204,若否则执行步骤S206;
步骤S204,提取所述翻页链接对应的预定内容;
步骤S205,将所述预定内容添加至所述原始网页内;
步骤S206,对所述原始网页进行转码处理,并将生成的WAP页面发送给移动终端。
图2示出的方法中出现的术语可以参考图1示出的具体实施方式中相同术语的说明,在此不再赘述。在步骤S201中,用户操作移动终端向页面转码服务器请求获取所述原始网页,并选择是否触发阅读模式,若选择触发阅读模式,才执行步骤S203及其后续步骤,即判断所述原始网页中是否存在翻页链接并进一步处理;否则将直接对所述原始网页进行转码处理,并不考虑其中存在翻页链接的情况。
在步骤S203中,可以通过将所述原始网页中的链接与所述翻页链接常见的文本特征和/或链接特征进行比对来判断所述原始页面中是否存在翻页链接,当然若该原始网页中不存在翻页链接,则可以直接执行步骤S206。否者依次执行步骤S204至步骤S206。步骤S204和步骤S205其具体实现方法在图1示出的方法流程中已进行说明,在此不再赘述。相应地,最终生成的所述WAP分页在步骤S206中发送至用户使用的移动终端。
由于不同所述移动终端可载入的WAP页面大小是不同的,针对智能手机,所述页面转码服务器可以选择在该WAP页面中尽量包括多个所述预定内容,当然针对特定平台和型号的移动终端,也可以只提取当前原始网页中的翻页链接对应的下级网页中的预定内容,将两个网页的内容拼接起来形成所述WAP即可。
图1示出的方法流程与图2示出的方法流程的一些步骤是相同的,两者不同之处在于图2示出的方法流程相比图1示出的方法流程增加了与用户使用的移动终端进行交互的过程。请参考图3,图3是图1或图2示出的方法的执行过程的逻辑示意图,其中,网页转码服务器首先识别出原始网页301中的翻页链接302,并提取该翻页链接302对应的下级网页303中包括的预定内容304,将其添加至原始网页301内,并对原始网页301进行转码处理,最终生成的WAP页面305中包括原始页面301的核心内容以及所述预定内容304。需要说明的是,根据原始网页301可能生成多个WAP页面305,相应地,所述核心内容和预定内容304可能分布在所述多个WAP页面305内。
另一方面,本发明还提供了一种对网页进行转码后合并阅读的服务器,请参考图6,图6是根据本发明的对网页进行转码后合并阅读的服务器的一种具体实施方式的结构示意图,该服务器500包括:
获取模块510,用于获取原始网页;
识别模块520,用于识别出所述原始网页中的翻页链接;
提取模块530,用于提取所述翻页连接对应的预定内容;
转码模块540,用于将所述预定内容添加至所述原始网页内,并对所述原始网页进行转码处理,以生成与该原始网页对应的WAP页面。
需要说明的是,在本部分出现的术语可以参考前文中对于方法的说明中相关部分的描述,在此不再赘述。
具体地,获取模块510通过互联网与提供所述原始网页的网页服务器600进行数据通信,以获取所述原始网页,而该原始网页通常是移动终端通过服务器500向网页服务器600请求的。
优选地,所述识别模块包括文本特征单元521和链接特征单元522中的一个或全部,其中:文本特征单元521,用于使用文本特征计算的方法识别出所述原始网页中的所述翻页链接;链接特征单元522,用于使用链接特征计算的方法识别出所述原始网页的所述翻页链接。
一种典型情况中,所述原始网页中包括一个所述翻页链接。提取模块530提取所述翻页连接对应的预定内容包括:提取模块530获取所述翻页链接对应的下级网页,并从所述下级网页中提取所述预定内容。
另一种典型情况中,所述原始网页中包括多个所述翻页链接:提取模块530提取所述翻页连接对应的预定内容包括:提取模块530获取所述多个翻页连接对应的下级网页,并分别从所述多个下级网页中提取所述预定内容。
典型地,上述两种情况中,所述预定内容包括与所述原始网页的核心内容相关的文章、链接和/或图片。
优选地,该服务器500还包括阅读模式模块550,用于判断是否触发阅读模式,若是则触发获取模块510工作。进一步地,该服务器500还包括发送模块560,用于将所述WAP页面发送给移动终端400的浏览器。例如发送模块550通过互联网,根据终端400的请求将所述WAP页面发送给终端400。
需要说明的是,上述原始网页通常是HTML格式的页面,所述WAP页面例如WML格式或XHTML格式的页面。
在一个实施例中,服务器500可以实施在一台物理服务器设备中,在另一些实施例中,服务器500可以实施为服务器集群或服务器矩阵结构,其包括的多个服务器设备协同工作以实现服务器500中各个模块的逻辑关系和功能。在另一些实施例中,服务器500实施为一种计算机程序产品,上述计算机程序产品的实施例可以通过使用用于计算机可读信息的任何记录介质来实现,所述记录介质包括磁介质、光介质或其他适合的介质。
本发明提供的对网页进行转码后合并阅读的方法可以使用可编程逻辑器件结合来实现,也可以实施为计算机程序软件,例如根据本发明的实施例可以是一种计算机程序产品,运行该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现上述方法的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如热拔插技术存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如盒带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。
本领域技术人员应当理解,任何具有适当编程装置的计算机***都将能够执行包含在程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序,但是作为固件和硬件实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。
本发明提供的对网页进行转码后合并阅读的方法以及服务器,通过识别原始网页中的翻页链接并提取该翻页链接对应的预定内容,最后生成的与该原始网页对应的WAP页面中既包括预定内容,用户可以在一次网络交互过程中阅读多个页面的内容,因此减少了用户阅读多个页面的等待时间,可以提升用户的浏览效率、降低操作难度以及提升用户体验。
以上所揭露的仅为本发明的一些较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (16)

1.一种对网页进行转码后合并阅读的方法,该方法包括:
a.获取原始网页;
b.识别出该原始网页中的翻页链接;
c.提取所述翻页链接对应的预定内容;
d.将所述预定内容添加至所述原始网页内,并对所述原始网页进行转码处理,以生成与该原始网页对应的WAP页面。
2.根据权利要求1所述的方法,其中,在步骤a之前,该方法还包括:
e.判断是否触发阅读模式,若是则执行步骤a。
3.根据权利要求1所述的方法,其中:
所述原始网页中包括一个所述翻页链接;
步骤c包括:获取所述翻页链接对应的下级网页,并从所述下级网页中提取所述预定内容。
4.根据权利要求1所述的方法,其中:
所述原始网页中包括多个所述翻页链接;
步骤c包括:分别获取所述多个翻页链接对应的下级网页,并分别从所述多个下级网页中提取所述预定内容。
5.根据权利要求4所述的方法,其中:
所述多个网页与所述原始网页属于同一级网页目录。
6.根据权利要求1所述的方法,其中,步骤b包括:
使用文本特征计算和/或链接特征计算的方法识别出所述原始网页中的所述翻页链接。
7.根据权利要求1至5任一项所述的方法,其中,所述预定内容包括:
与所述原始网页的核心内容相关的文章、链接和/或图片。
8.根据权利要求1至5任一项所述的方法,其中:
所述原始网页是HTML格式的页面;
所述WAP页面是WML格式或XHTML格式的页面。
9.一种对网页进行转码后合并阅读的服务器,该服务器包括:
获取模块,用于获取原始网页;
识别模块,用于识别出所述原始网页中的翻页链接;
提取模块,用于提取所述翻页链接对应的预定内容;
转码模块,用于将所述预定内容添加至所述原始网页内,并对所述原始网页进行转码处理,以生成与该原始网页对应的WAP页面。
10.根据权利要求9所述的服务器,其中,该服务器还包括:
阅读模式模块,用于判断是否触发阅读模式,若是则触发所述获取模块工作。
11.根据权利要求9所述的服务器,其中:
所述原始网页中包括一个所述翻页链接;
所述提取模块提取所述翻页链接对应的预定内容包括:所述提取模块获取所述翻页链接对应的下级网页,并从所述下级网页中提取所述预定内容。
12.根据权利要求9所述的服务器,其中:
所述原始网页中包括多个所述翻页链接:
所述提取模块提取所述翻页链接对应的预定内容包括:所述提取模块获取所述多个翻页链接对应的下级网页,并分别从所述多个下级网页中提取所述预定内容。
13.根据权利要求9所述的服务器,所述识别模块包括文本特征单元和链接特征单元中的一个或全部,其中:
所述文本特征单元,用于使用文本特征计算的方法识别出所述原始网页中的所述翻页链接;
所述链接特征单元,用于使用链接特征计算的方法识别出所述原始网页的所述翻页链接。
14.根据权利要求9至13任一项所述的服务器,该服务器还包括:
发送模块,用于将所述WAP页面发送给移动终端的浏览器。
15.根据权利要求9至13任一项所述的服务器,所述预定内容包括:
与所述原始网页的核心内容相关的文章、链接和/或图片。
16.根据权利要求9至14任一项所述的服务器,其中:
所述原始网页是HTML格式的页面;
所述WAP页面是WML格式或XHTML格式的页面。
CN2012100718145A 2012-03-16 2012-03-16 对网页进行转码后合并阅读的方法以及服务器 Pending CN103309905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100718145A CN103309905A (zh) 2012-03-16 2012-03-16 对网页进行转码后合并阅读的方法以及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100718145A CN103309905A (zh) 2012-03-16 2012-03-16 对网页进行转码后合并阅读的方法以及服务器

Publications (1)

Publication Number Publication Date
CN103309905A true CN103309905A (zh) 2013-09-18

Family

ID=49135142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100718145A Pending CN103309905A (zh) 2012-03-16 2012-03-16 对网页进行转码后合并阅读的方法以及服务器

Country Status (1)

Country Link
CN (1) CN103309905A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617229A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页数据库的建立方法和装置
WO2016011879A1 (zh) * 2014-07-24 2016-01-28 广州市动景计算机科技有限公司 网页显示方法和装置
CN105512160A (zh) * 2014-12-31 2016-04-20 广州神马移动信息科技有限公司 网页转码方法、网页转码装置及网页浏览***
CN111259293A (zh) * 2018-12-03 2020-06-09 阿里巴巴集团控股有限公司 内容数据的生成方法、装置、电子设备及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181751A1 (en) * 2003-03-14 2004-09-16 Frumusa Lawrence P. Reference material integration with courses in learning management systems (LMS)
CN101197849A (zh) * 2007-12-21 2008-06-11 腾讯科技(深圳)有限公司 将互联网页面转换为无线应用协议页面的转换方法和装置
CN101237458A (zh) * 2008-03-10 2008-08-06 刘敬 支持个性化定制的网络内容自动化适配方法与***
CN101777068A (zh) * 2009-12-31 2010-07-14 优视科技有限公司 一种用于移动通讯设备终端的网页页面预读及整合浏览***及其应用方法
CN102123168A (zh) * 2011-01-14 2011-07-13 广州市动景计算机科技有限公司 基于中转服务器的网页页面预读及整合方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181751A1 (en) * 2003-03-14 2004-09-16 Frumusa Lawrence P. Reference material integration with courses in learning management systems (LMS)
CN101197849A (zh) * 2007-12-21 2008-06-11 腾讯科技(深圳)有限公司 将互联网页面转换为无线应用协议页面的转换方法和装置
CN101237458A (zh) * 2008-03-10 2008-08-06 刘敬 支持个性化定制的网络内容自动化适配方法与***
CN101777068A (zh) * 2009-12-31 2010-07-14 优视科技有限公司 一种用于移动通讯设备终端的网页页面预读及整合浏览***及其应用方法
CN102123168A (zh) * 2011-01-14 2011-07-13 广州市动景计算机科技有限公司 基于中转服务器的网页页面预读及整合方法和***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617229A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页数据库的建立方法和装置
WO2016011879A1 (zh) * 2014-07-24 2016-01-28 广州市动景计算机科技有限公司 网页显示方法和装置
CN105512160A (zh) * 2014-12-31 2016-04-20 广州神马移动信息科技有限公司 网页转码方法、网页转码装置及网页浏览***
CN111259293A (zh) * 2018-12-03 2020-06-09 阿里巴巴集团控股有限公司 内容数据的生成方法、装置、电子设备及计算机可读介质
CN111259293B (zh) * 2018-12-03 2023-04-28 阿里巴巴集团控股有限公司 内容数据的生成方法、装置、电子设备及计算机可读介质

Similar Documents

Publication Publication Date Title
CN102460432B (zh) 选择性内容提取
CN106293675B (zh) ***静态资源加载方法及装置
CN105677764A (zh) 信息提取方法和装置
US20110302486A1 (en) Method and apparatus for obtaining the effective contents of web page
CN103166981B (zh) 一种无线网页转码方法及装置
CN103443786A (zh) 识别网络浏览器中的并行布局的独立任务的机器学习方法
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
CN102141868B (zh) 快捷操作信息交互页面的方法、输入法***和浏览器插件
CN103853806A (zh) 一种表格转换方法及装置
CN105183912A (zh) 异常日志确定方法和装置
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN101542455A (zh) 过滤可扩展应用程序标记语言(xaml)文件以便于索引
CN103678685A (zh) 一种网页标注方法及装置
CN103365877B (zh) 对网页进行转码后建立目录的方法以及服务器
CN102063456A (zh) 自动定位至网页的视觉中心的方法及设备
CN102207967B (zh) 一种自动提供浏览器新插件的方法和***
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN102664925A (zh) 一种展现搜索结果的方法及装置
CN103309905A (zh) 对网页进行转码后合并阅读的方法以及服务器
CN102314494A (zh) 一种用于处理网页内容的方法和设备
CN107590288B (zh) 用于抽取网页图文块的方法和装置
CN105260459A (zh) 搜索方法和装置
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN105589918A (zh) 一种提取页面信息的方法及装置
CN117423124A (zh) 基于表格图像的表格数据处理方法和装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130918

RJ01 Rejection of invention patent application after publication