CN1592280A - 用于网页概括的网关 - Google Patents
用于网页概括的网关 Download PDFInfo
- Publication number
- CN1592280A CN1592280A CN03156319.8A CN03156319A CN1592280A CN 1592280 A CN1592280 A CN 1592280A CN 03156319 A CN03156319 A CN 03156319A CN 1592280 A CN1592280 A CN 1592280A
- Authority
- CN
- China
- Prior art keywords
- webpage
- gateway
- text
- compression ratio
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
一种用于网页概括的网关,当使用如移动电话等的移动设备请求网页时,该请求将通过网关,该网关检索出相关网页。接收到网页时,网关剥去不需要的信息,如广告和标题,提取出文本和主超级链接并概括该文本。用于概括文本的压缩率是由移动设备的使用者设定并和网页请求一起被传送到网关的。提取和压缩信息被转化为WML(或者其他的相关语言),以便发送回移动设备。
Description
技术领域
本发明涉及网页内容的概括。本发明特别适用于,但并不限于,简化这些网页以便通过WAP网关将他们提供给手持式设备。
背景技术
WAP(无线应用协议)是一套通信协议,用于将如个人数字助理(PDA)、移动电话和无线电收发器等的无线设备访问互连网(包括电子邮件和万维网)的方式标准化。
为了从可以使用WAP的无线设备访问互连网资源,需要WAP网关服务。WAP网关使得执行类似于万维网的服务成为可能。虽然已经有一些主要由WAP设备供应商建立的WAP网站,但是这些网站上的内容有限并且不经常更新。这是因为,一方面目前WAP的用户数量少,因此,没有互连网内容提供商(ICP)愿意投入资金和人力来提供WAP内容,同时,另一方面,由于内容有限,很少有移动用户愿意订阅WAP服务。
无线标志语言(WML)被应用于创建页面,这些页面可以用WAP来传送。一些WAP网关允许WAP使用者使用WML访问数量有限的HTTP服务器。这种语言主要用于窄带无线设备,如PDA和移动电话,并且允许显示Web页面上的文本。
互连网的内容主要是使用超文本标记语言(HTML)的形式来写的。是一个代码(由多个元素或多个标记符组成)的集合,它告诉Web浏览器怎样显示Web页面上的文本和图像。用一个过滤程序来将这些HTML页面转换成WML页面。
然而,HTML页面通常采用这样的方法书写,以至于需要快速连接、大带宽、高速处理器、大容量存储器、大显示屏、音频/视频输出,并且可能需要十分有效的输入机制。另一方面,便携式电话通常具有相对慢的处理器(10-200MHz)、小的存储器(128KB-512KB)、小的屏幕(例如,320×240象素)、间歇式带宽(WAP 3-7KB/s或者更低)和很小的要求高精度操作的小键盘。这样就使得在便携式电话上阅读转换而来的WML网页速度慢、价格昂贵并且不方便。
发明内容
在本说明书,包括权利要求中,术语“包含”、“包括”或类似术语都是非排他性的包含,这样,一种包含一些元素(元件)的方法或者设备并不只包含那些已列出的元素,还可以包含其他没有列出的元素。
根据本发明的一个方面,提供了一种用于概括网页内容的方法,这些网页是在电子设备的请求下要提供给提供电子设备的。这包括接收一个由所述电子设备发送出的压缩率,接收所述网页,从所述网页中提取出文本并且根据接收到的压缩率对提取出的文本进行概括。
根据本发明的另一方面,提供了一种用于响应移动电子设备对网页的请求,将所述网页提供给所述移动电子设备的网关。所述网关被配置成能够接收一个由所述电子设备发送出的压缩率,接收所述网页,从所述网页中提取出文本并且根据接收到的压缩率对提取出的文本进行概括。
根据本发明的又一个方面,提供了一种带有浏览器的移动电子设备,用于通过网关请求和接收网页,该网关可以在这些网页被传送到电子设备之前对网页进行概括。移动电子设备可以设置用于概括网页的压缩率,以便将所设置的压缩率传送到所述网关。
在上述的每一个方面中,压缩率最好由电子设备或多个电子设备的使用者设置。
本发明提供了一种新颖的解决方案,使得无线设备可以通过WML访问任何HTTP服务器。
附图说明
为了更好的理解本发明并且将本发明付诸实践,下面根据附图对优选非限制性实施例进行说明,其中:
图1所示是根据本发明的一个实施例的用于通过WAP下载网页的常规方案的框图;
图2所示是根据本发明的一个实施例的涉及通过WAP下载网页的流程图;
图3所示是根据本发明的一个实施例的涉及网页压缩的流程图;
图4所示是根据本发明的一个实施例的涉及网页分析的流程图;
图5所示是根据本发明的一个实施例的涉及文本概括的流程图;以及
图6所示是根据本发明的一个实施例的用于通过WAP下载网页的移动电话。
优选实施例的详细说明
在优选实施例中,当通过移动设备,如移动电话来请求网页时,请求要通过网关,由网关对相应的网页进行检索。接收到网页时,网关剥去网页中的如广告和标题的不需要的信息,提取出文本和主超级链接并对文本进行概括。用于概括文本的压缩率是由移动设备的使用者设定的,并且同网页请求一同被发送到网关。被提取和压缩的信息被转换成WML(或者其他相应的语言),以便被传送回移动设备。
在附图中,相同的数字来表示相同元件。
参见图1,图中所示是一个根据本发明的用于通过WAP下载网页的常规方案。现在参见图2对其进行说明,图2所示是涉及通过WAP下载网页的流程图。使用本实施例,如果需要可以将被访问的网页的信息量按照要求减少。
电子设备(如:如可以使用WAP的移动电话12的移动设备)的使用者将设备开启并对其进行操作。这就启动了这个过程(步骤S100)。使用者将一个统一资源***(URL)形式的网页地址输入到设备中的浏览器中(步骤S102)。使用者还要设定他所希望的要生成的网页概括的压缩率。移动电话通过无线数据网16用WAP堆栈将HTTP请求传送给WAP网关14(步骤S104)。网关14将网页请求转换成超文本传输协议(HTTP),并且通过互连网20将其传送给服务器18(步骤S106),在服务器18中存储了相关的网页。然后,被请求的网页被下载(步骤S108)并且使用HTTP被发送回网关14,并且网页仍然是HTML形式的。
当接收到HTML网页时,在WAP网关14中的概括引擎对其中的信息进行概括(如后面所描述的)并产生一个WML页(步骤S110)。然后将WML页压缩并被WAP协议堆栈通过无线数据网16传送回移动电话12(步骤S112)。移动电话12上的本地浏览器对WML页进行解析并且进行显示(步骤S114)。如果后面又请求一个新的网页(步骤S116),例如通过一个下载页上的链接,那么将这个过程重复。否则,将终止这个过程(步骤S118)。
本发明特别涉及在网关14减少网页中的信息量,并且涉及WML页的产生(步骤S110)。其目的是使得WAP设备可以浏览几乎任意一个HTTP服务器。下面将参照图3说明一些由概括引擎执行的步骤的子步骤。为了将信息包含进WML页而进行的信息简化有几个阶段。在本实施例中有四个阶段,尽管在本发明的不同实施例中他们的不同部分可以省略。
概括引擎首先执行一个网页清理任务,去除大部分广告、无用链接、标题等形式的无用、不需要的信息和垃圾(步骤S202)。其次,根据多媒体信息,如图片的内容,将他们转换成文本(步骤S204)。第三,用自动HTML轮廓分析从复杂HTML页中提取出主链接和文本信息(步骤S206)。然后用文本概括将文本信息压缩成概括,以便将网页内的长文本内容缩减成几个句子,同时保持原始页面的主要思想(步骤S208)。文本概括功能将长文本信息压缩至更适合于在小屏幕上显示的长度。这样,使得用户可能在移动设备12上设置压缩率,以对整体长度进行一些控制。
一旦概括引擎已经生成了概括,网关就将这个概括转换成WML页并且将WML页压缩为一个更紧凑的形式,以便节省空间中的带宽并且进一步减少电话的处理需求。这最后的压缩是可能的,因为这些WML页都是文本信息。在服务器端采用数据压缩算法和方法来对信息进行编码,并且在移动电话端对信息进行解码。
该实施例中的电子设备12允许使用者决定是否需要概括。这样,这种概括就成为在任何下载中的可选项。如果使用者想浏览HTML页的所有原始文本,WAP网关14也支持这个请求。
网页清理(步骤S202)
HTML页上的某些无关和不需要的信息(例如:广告、无用链接、标题等)可能对无线访问的效果产生严重的有害影响。它花费额外的时间和带宽并且很少被需要(如果有的话)。
因此,在被检索的网页中搜索已知的与这种信息有关的结构。例如:
<!-- -->表示在HTML页中的注释,被删除。
<FORM>...</FROM>“FORMS”通常指公用网关接口(CGI),用于执行使用者互动,如登录、注册、记帐等,被删除。
<SCRIPT>...</SCRIPT>JAVA SCRIPT通常执行没有网页服务器支持的操作,例如取得和显示本地时间或者验证使用者输入的信息,如用户名组成、密码长度等,被删除。
以包含“Copyright”、、或者“All Right Reserved”的标记为形式的著作权信息,还有位于著作权信息附近的电话号码或者网络管理员的电子邮件地址也要被删除。
被看作是可删除垃圾的内容可以是不同的,如果不是上述的一种或几种,那么就可能包含一个或者几个其他的标准。一个使用者甚至可以定制他自己的设置来指定他通常需要拒绝的信息。
将多媒体信息转换成文本(步骤S204)
多媒体信息,例如图片,根据其内容被转换为文本。
在HTML中,任何多媒体部分都必须链接到某一文件。因此就可以根据多媒体信息的文件扩展名决定其类型,如表1中所示。
表1
文件扩展 | 多媒体类型 |
.asf | 音频/视频,通常是FLASH |
.bmp | BMP图片 |
.dv | 数字视频 |
.gif | GIF图像 |
.jfif、.jpe、.jpeg、.jpg | JPEG图像 |
.mid、.midi | MIDI音频文件 |
.mpe、.mpeg、.mpg | MPEG剪辑 |
PDF文档 | |
.ps | PS文档 |
.GIF、.GIFf | TIF图象文档 |
.wav | WAV音频文件 |
.wmv | Windows媒体视频/音频文件 |
这种转换是通过解析整个文件名来完成的,用文件扩展名来判断是哪种信息,并且用具体的文件名来解释内容。例如,如果一个文件被命名为“Great_wall.jpeg”,这将被解释成文本“A JPEG image of Great_wallhere”(“这是一个关于长城得IPEG图像”)。当具体名本身没有意义时,例如,只是一串数字或在字典中没有出现的一串字母,如“003.wav”,那么具体名就被忽略并且文件只被转换成“a WAV audio file here”(“这是一个WAV音频文件”)。
自动HTML轮廓分析(步骤S206)
自动HTML轮廓分析(特别是过滤不需要的信息)可以显著的减少移动使用者寻找和得到他们所需信息所花费的时间和费用。其目的是分析HTML页的轮廓并且找出最重要的内容或超级链接,以便只提供这些内容。
根据本实施例的自动HTML轮廓分析将网页分为两类,主超级链接页和主文本页。对于超级链接页,根据超级链接在页面中的位置和宽度提取出最重要的超级链接。对于主文本页,则只提取出标题和文本。
用于执行轮廓分析功能的程序可以作为动态链接库(DLL)来执行,并在需要时被引入。
图4所示是自动HTML轮廓分析操作的简单流程图。在步骤S302,由于版面的要求,网页被标准化。在步骤S304,网页被分类主超级链接页面或者主文本页。如果网页是主文本页,那么将在步骤S306提取主文本或多个主文本。如果网页是主超级链接页面,那么将在步骤S308提取主超级链接或多个超级链接。在步骤S306或者S308之后,轮廓分析将结束。
标准化Web页(S302)
如果不被标准化,用HTML书写的网页是很难分析的。在本实施例中的网页标准化包括两个步骤:
(i)标记大写;以及
(ii)删除不重要的部分
(i)标记大写-HTML并不要求用大写字母或者小写字母来书写标记。为了减少分析的难度,页面中的每一个标记都被转换成大写字母(如果不是已经为大写字母)。
(ii)删除不重要部分-页面中的(多个)不重要部分,正如表2中所列举的那样,会干扰分析。为了避免这种干扰,在标准化步骤中将它们删除。表2中,在“Begin”和“End”之间的任何内容都被删除。
表2-实例性不重要部分
Begin | End | 注释 |
<SCRIPT | </SCRIPT> | 用Java script语言书写 |
<STYLE | </STYLE> | 我们不需要关于html类型的信息 |
<!-- | --> | 该页中的注释是无用的 |
<IMG | </IMG> | 我们不需要任何图像 |
网页分类(S304)
区别网页类型依赖于将“text”的字节数(长度)和超级链接的字节数(长度)相比较。如果前者较长,则将其分类到主文本页。否则,将其分类到主超级链接页面。为此,用“text”来表示任何没有被标记包含围并且是文本信息主体的一部分的信息。另一方面,如果所有大的文本主体都被从HTML页中提取出去,那么“hyperlink”则指余下的内容。
提取主文本页(S308)
这包括取出所有网页中的文本。这可以包括对剩余在文件中的一些标记的解析,并且删除所有除了新段落标记和回车符外的标记。尽管那样,冗余的回车符、空格和制表符形式的冗余字节也都应该被删除。所生成的最终文本文件也包含已编码的字符转换(例如“&”为“&”、“<”为“<”、“>”为“>”、“&qout”为““”、“ ”为一个空格)。
在本例中,满足如下规则的字符串被看作是“text”:
(a)没有被标记包围;
(b)该文本的字节数大于最小值(例如:100);
(c)只包含特定允许标记(如,<A>、<B>、<BR>、<I>、<P>、<SUB>、<SUP>、<U>、<UL>),即使如此,他们只占一小部分,例如在字符串中所有这些标记的字节总数不超过该字符串字节总数的40%;
(d)如果文本的长度不超过最小长度(例如:500字节),那么在一个文本中的超级链接个数不应超过一个具体数值(例如:5)。
提取主超级链接页面(S310)
主超级链接的提取是根据他们在网页中的位置进行的。不同的相应标记包含宽度属性。如果超级链接具有很多字符(例如:100),并且它位于页面的中心,那么在这个意义上它就是一个主超级链接。对于任何一个这样的主超级链接,将该超级链接取出、标准化为一个具体格式,并且将其与其附加信息一同存储在一个阵列中。对于这样的页面,没有必要提取任何文本主体。相反,通常只有超级链接被提取出并被用来组成一个应用于移动设备的WML页。
提供被提取出的文本和超级链接用于包含于WML页中。如果需要,可以首先用文本概括模块对文本进行概括。
文本概括(S208)
文本概括是由一个能够自动产生网页文本概括的模块来完成的,例如:用前面所述的自动HTML轮廓分析来进行提取。概括步骤能够极大的压缩所显示的网页文本内容,这样就极大的减少了对数百字节数据的转换和移交工作。文本概括为移动环境提供更多的精炼信息。对于移动设备使用者,这样的好处就是他不必阅读小屏幕上的数百行文字就可以得到他想要知道的信息要点,更加快捷和便宜。对于网络来说,由于传送比较少的数据,因此减少了过载的风险。
当文本主体过长时,可以用文本概括来减小文本主体的长度,这样做的前提是该文本是用来在移动设备的小屏幕上显示的。在本实施例中,使用者可以在0至1(与原始文本长度相比)之间选择压缩率,例如:表明文本概括的长度应该是源文本长度的30%。
图5所示是文本概括如何操作的简单流程图。将文本输入(步骤S402)并且预处理(步骤S404),使其尽量规格化。这要考虑到:不同的人进行不同的格式化(用来去除额外的空格和行);双字节字符(如中文文本)和单字节字符(如英文文本)的混和;同一标记的不同用法,如“.”,被用作文本标点(作为句号或者省略号的一部分:“so long...”)、在数字中作为小数点、在IP地址中(10.193.147.254)、在电子邮件地址中([email protected])、在URL地址中(www.motorola.com)、在缩写中(Prof.、Dr.、St.Louis)或者在编号方式中(“1.1.Introduction)作为下标或者间隔符号,可以适当的改变为另外的符号;或者其他的类似的考虑。
对文本结构进行分析(步骤S406),以便识别和标注句和段落,并确定他们的长度和位置。然后对文本进行断字(例如:对于中文来说)或者寻找词干和构词法(例如:对于英文来说)(步骤S408)。例如在中文中,在两个字之间没有看得见的字边界的地方需要进行断字。寻找词干的过程进行两个词的比较,例如:具有相同词干“scien”的“science”和“scientific”就很相似。构词法处理是需要的,因为英文词具有不同的变形,例如“books”是“book”的复数形式、“eating”是“eat”的现在分词。需要恢复基本的“book”和“eat”,以便进行频率统计和词的权重。断字或者寻找词干和构词法(步骤S408)是参考字典和/或辞典数据库30而进行的。在进行断字或者寻找词干和构词法(步骤S408)之后,要对这些通过断字或其他方法识别的字进行计数(步骤S410),以便确定它们的发生频率。
在断字或者寻找词干和构词法(步骤S408),以及对识别出的词进行计数(步骤S410)的同时,还要决定高频字符串统计(步骤S412)。该步骤对文本内的子字符串进行计数并决定它们的频率,以便推测出没有在辞典或字典没有出现过的“新”词,例如:名字。对于这种字,该过程决定它们的频率,以便帮助建立权重。
在断句(或者寻找词干和构词法)(步骤S408)和对已识别字的计数(步骤S410)和高频字符串统计(步骤S412)之后,对文本内的词类进行标记(步骤S414)并提取出关键词(步骤S416)。最后这两步还要参考字典和/或辞典数据库30而进行。置标记是有用的,因为某些词类,例如代词和介词,在文本概括中的使用非常有限。而重点在名词、动词、副词和形容词上。提取关键词(步骤S416)包含查找通常与重要信息有关的词,例如“***”、“杀死”、“谋杀”。
对词和句子进行加权(步骤S418),并且选出用于产生最终概括(步骤S420)的句子。词或句子的权重依赖于早先的分析、断句或者频率确定、词类标记的设置和关键词的提取的结果。更加具体地说,词的权重依赖于其长度、使用频率、是什么词类和在句子中的位置。
一个句子的权重依赖于其长度、其中的词的权重之和、其位置和它是否包含表明其可能相关性的词或短语。如果具有表明它具体的与文本的主题事件(例如:具有如“本文”或者“总之”的短语)相关的词或短语,那么它将具有更大的权重。如果具有表明它并不具体的与文本的主题事件(例如:具有如“例如”的短语)相关的词或短语,那么它将具有更小的权重。
在句子选择中(步骤S420),采用使用者所选择的压缩率。给定某一压缩率R,则目标概括长度L为:
L=R*原始文本长度.
另外,选定句子Si,使句子Si的任意子集将满足下面的两个条件:
(1)L(Si)的和与L之差的绝对值被最小化
|∑L(Si)-L|=min
(2)对于那些相同的句子W(Si)之和被最大化
∑W(Si)=max
其中,L(Si)代表Si的长度,W(Si)代表Si的权重。
将被选句子链接起来以得到一个大致的概括(步骤S422),然后对其进行平滑(步骤S424)和输出(步骤S426)。平滑过程包含将概括分为段落,这样就没有了过长的段落。该过程还可以包括去除相对不重要的形容词、去除在同一句子的结果从句中出现的原因从句,以及类似的东西。
可以设置一个具体的压缩率,例如30%,为默认值,使用者可以根据需要改变。另一个功能允许使用者选择是否总需要文本概括,或者只有当原始文本比某个最小值,例如大于30个词时,才需要。具体概括压缩率还可以被设置成只应用于长度超过产生最小值的文本的长度的文本。例如,如果压缩率是30%,并且最小值是30个词,那么只对100个词或者更长的文本用30%的压缩率进行压缩。对于任何低于这个最小值的文本,在这个例子中就是30个词或者更少,将不会被减少。对于任何介于这个最小值和用现在的压缩率将要产生最小值的文本长度之间的文本,在这个例子中就是31至99个词,概括将把文本减少到最小值,也就是30个词。
最好采用前面所述的文本概括过程,但在这个包含文本概括的发明中,并不是对所有的方面都是必须的。也可以采用其他的概括过程来代替,例如只采用步骤S406、S408、S418、S422和S426。也可以采用其他的组合。概括过程可以如如下任何一个文章所论述:
[1]H.P.Luhn,The automatic creation of literature abstracts.IBMJournal of Research and Development,2(2):159-165,1959;
[2]Edmundson H.P.New methods in automatic abstracting,Journalof the Association for Computing Machinery.16(2):264-285,1969;
[3]Kupiec,J.Pedersen,J.and Chen,F.,A trainable documentsummarizer.In Proceeding of the 18th ACM-SIGIR conference.1995年;
[4]S.Teufel,M.Moens,Sentence Extraction as a Classification Task,Workshop‘Intelligent and scalable Text summarization’,ACL/EACL 1997.July 1997;以及
[5]Hovy,E.,Lin,C-Y。Automated Text Summarization inSUMMARIST.In Advances in Automatic Text Summarization,I Maini andM.T.Maybury(eds.),81-94,Cambridge,Massachusetts:MIT Press,1999.
还可以对已知的过程,如:上面的参考文章[1],进行修改,例如:在步骤S420中讨论的那样,在决定要选的句子时允许使用不同的压缩率。
然后,与任何已转换的多媒体信息、任何提取出的超级链接和任何已经概括和未概括的已提取文本相结合产生WML页面。已转换的多媒体信息来自多媒体信息转换步骤(S204)。已经提取出的超级链接来自主超级链接页面提取步骤(S310)。已经提取出的文本来自主超级链接页面提取步骤(S310)或者主文本页提取步骤(S308),不管是否然后在文本概括步骤(S208)进行概括。然后将这个WML页压缩并发送。
参见图6,其中所示是一个根据本发明至少一个实施例的无线电话51。该无线电话51具有一个与处理器53相连接并与其进行通信的射频通信单元52。屏幕54和小键盘55形式的输入接口也与处理器53相连接并与之通信。小键盘55或屏幕54可以被用于设定在文本压缩步骤(图3中的S208)和图5中的句子选择步骤(S420)使用的压缩率。
处理器53包含一个带有一个只读存储器(ROM)57的编码/解码器56,只读存储器存储用于编码和解码可由无线电话51发送和接收的音频或者其他信号,如WAP信号,的数据。处理器53还包括一个微处理器58,它通过公共数据地址总线59与编码/解码器56、相关字符只读存储器(ROM)60、随机存储器(RAM)61、一个静态可编程存储器62和一个可拆装SIM模块63连接。静态可编程存储器62和可拆装SIM模块63都可以在执行其他功能之外存储一个用于通过WAP网关进行互连网接入的WAP浏览器和已选的输入文本消息以及电话号码的电话本数据库。
微处理器58具有用于和小键盘55、屏幕54、包含振动电机和相关驱动器的报警模块64、麦克风65和扬声器66连接的端口。
字符ROM 60存储用于解码和编码文本消息的数据,这些消息可以是从小键盘55输入,并由通信单元52接收的。字符ROM 60还存储微处理器58的操作码(OC)。
射频通信单元52是一个具有公用天线67的组合接收器和发送器。通信单元52具有一个通过射频放大器69和天线67耦合的发送接收器68。发送接收器68还与将通信单元52和处理器53相连的组合调制/解调器70相连。
本发明使得无线设备可以有效的浏览HTTP网站。它提供了一种新的网关***和一个新的浏览器,使得使用者可以设置文本压缩率。实施例中的新网关不仅具有传统WAP网关的所有特点,还采用了自动HTML轮廓分析功能来虑除不需要的垃圾信息,还采用了文本概括引擎来压缩文本信息。可以将该网关***安装在WAP服务提供商的服务器上。移动设备上的浏览器是一个微型浏览器,它小到可以通过无线数据网将其下载到无线设备上。整个***扩大了移动电话和其它合适的移动设备可以访问的网页范围,同时减少了使用者在无线通信上需要花费的时间和金钱(用于用户得到他所需要的信息)。
实施例中的概括网关是一个独立***,它使得WAP设备可以浏览现在的HTTP服务器。概括引擎还可以被用于其他的基于服务器的应用程序中或者和其他应用程序结合使用。例如,可以和一个电子邮件交换服务器结合来将长电子邮件压缩为短电子邮件。
本发明与现有WAP网关不同的优势还在于它能够提供如下功能:
在WAP和HTTP协议之间进行转换;
滤除潜在的不需要信息;
将非文本信息转换为文本信息;
自动对HTML页的轮廓进行分析;
将长文本压缩为短概括;以及
以WAP形式反馈概括。
上述详细说明只提供了一个优选示范性的实施例,并打算限制本发明的范围、应用、或者配置。相反,该优选示范性的实施例的详细说明给本领域技术人员提供了可以用于实现本发明优选示范性的实施例的描述。应该明白,在不脱离所附权利要求中列出的本发明的精神和范围的前提下,可以对本发明中要素的功能和配置进行不同的修改。
Claims (15)
1.一种用于概括网页内容的方法,该网页是在电子设备的请求下提供的,该方法包括:
从所述电子设备接收一个压缩率;
接收所述网页;
从所述网页中提取出文本;以及
根据接收到的压缩率对提取出的文本进行概括。
2.根据权利要求1的方法,还包括使用者在所述电子设备中设定所述压缩率。
3.根据权利要求1的方法,还包括从所述网页中提取出超级链接。
4.根据权利要求1的方法,还包括清理广告网页的内容。
5.根据权利要求1的方法,还包括清理标题网页的内容。
6.根据权利要求1的方法,还包括将网页中的图像数据转换为文本数据。
7.根据权利要求1的方法,还包括产生包含概括文本的WML页。
8.一种用于响应移动电子设备对网页的请求,将所述网页提供给所述移动电子设备的网关,该网关被配置成:
从所述电子设备接收一个压缩率;
接收所述网页;
从所述网页中提取出文本;以及
根据接收到的压缩率对提取出的文本进行概括。
9.根据权利要求8的网关,其中该网关还被配置成可以从所述网页中提取出超级链接。
10.根据权利要求8的网关,其中该网关还被配置成可以清理所述广告网页的内容。
11.根据权利要求8的网关,其中该网关还被配置成可以清理所述标题网页的内容。
12.根据权利要求8的网关,其中该网关还被配置成可以将网页中的图像数据转换为文本数据。
13.根据权利要求8的网关,其中该网关还被配置成可以接收HTML网页,并提供作为WML页的已概括文本,以便传送给所述移动设备。
14.一种带有一个浏览器的移动电子设备,用于通过网关请求和接收网页,该网关可以在这些网页被传送到电子设备之前对网页进行概括,其中:
所述移动电子设备可以用来设置用于概括网页的压缩率;以及
所述移动电子设备可以将所设置的压缩率传送到所述网关。
15.根据权利要求14的设备,其中所述压缩率可以直接由设备使用者改变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN03156319.8A CN1592280A (zh) | 2003-09-01 | 2003-09-01 | 用于网页概括的网关 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN03156319.8A CN1592280A (zh) | 2003-09-01 | 2003-09-01 | 用于网页概括的网关 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1592280A true CN1592280A (zh) | 2005-03-09 |
Family
ID=34598377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN03156319.8A Pending CN1592280A (zh) | 2003-09-01 | 2003-09-01 | 用于网页概括的网关 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1592280A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100471151C (zh) * | 2006-09-25 | 2009-03-18 | 郭枭业 | 一种在电脑上浏览wml或rss网页的方法及其计算机装置 |
CN101420481A (zh) * | 2008-05-30 | 2009-04-29 | 北京天腾时空信息科技有限公司 | 一种终端分屏显示的方法和装置 |
CN102460432A (zh) * | 2009-06-30 | 2012-05-16 | 惠普开发有限公司 | 选择性内容提取 |
CN101751403B (zh) * | 2008-12-11 | 2012-08-08 | 易搜比控股公司 | 将超文字标签语言文件转换成纯文字文件的方法 |
CN102638580A (zh) * | 2012-03-30 | 2012-08-15 | 奇智软件(北京)有限公司 | 一种网页信息处理方法和装置 |
CN103338268A (zh) * | 2013-07-17 | 2013-10-02 | 马传军 | 实现网络传输信息修改的***、相应的云网络结构及方法 |
CN103443785A (zh) * | 2011-01-28 | 2013-12-11 | 英特尔公司 | 作为上下文信息的函数而概括源文本的方法和*** |
CN106911481A (zh) * | 2015-12-22 | 2017-06-30 | 北京奇虎科技有限公司 | 控制数据流量的方法及装置 |
CN106911737A (zh) * | 2015-12-22 | 2017-06-30 | 北京奇虎科技有限公司 | 控制数据终端上数据流量的方法及装置 |
-
2003
- 2003-09-01 CN CN03156319.8A patent/CN1592280A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100471151C (zh) * | 2006-09-25 | 2009-03-18 | 郭枭业 | 一种在电脑上浏览wml或rss网页的方法及其计算机装置 |
CN101420481A (zh) * | 2008-05-30 | 2009-04-29 | 北京天腾时空信息科技有限公司 | 一种终端分屏显示的方法和装置 |
CN101751403B (zh) * | 2008-12-11 | 2012-08-08 | 易搜比控股公司 | 将超文字标签语言文件转换成纯文字文件的方法 |
CN102460432A (zh) * | 2009-06-30 | 2012-05-16 | 惠普开发有限公司 | 选择性内容提取 |
CN102460432B (zh) * | 2009-06-30 | 2013-11-20 | 惠普开发有限公司 | 选择性内容提取 |
US9032285B2 (en) | 2009-06-30 | 2015-05-12 | Hewlett-Packard Development Company, L.P. | Selective content extraction |
CN103443785A (zh) * | 2011-01-28 | 2013-12-11 | 英特尔公司 | 作为上下文信息的函数而概括源文本的方法和*** |
CN103443785B (zh) * | 2011-01-28 | 2016-11-02 | 英特尔公司 | 作为上下文信息的函数而概括源文本的方法和*** |
CN102638580A (zh) * | 2012-03-30 | 2012-08-15 | 奇智软件(北京)有限公司 | 一种网页信息处理方法和装置 |
CN103338268A (zh) * | 2013-07-17 | 2013-10-02 | 马传军 | 实现网络传输信息修改的***、相应的云网络结构及方法 |
CN106911481A (zh) * | 2015-12-22 | 2017-06-30 | 北京奇虎科技有限公司 | 控制数据流量的方法及装置 |
CN106911737A (zh) * | 2015-12-22 | 2017-06-30 | 北京奇虎科技有限公司 | 控制数据终端上数据流量的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1114878C (zh) | 代理主计算机和用于在一个浏览器和一个代理计算机之间访问和检索信息的方法 | |
EP2023531B1 (en) | Method, apparatus, system, user terminal application server for selecting service | |
CN1296853C (zh) | 网页的预测性浏览的方法和*** | |
US7836396B2 (en) | Automatically collecting and compressing style attributes within a web document | |
CN1211743C (zh) | 服务器端的html定制方法和*** | |
CN1308876C (zh) | 书签管理***和书签管理方法 | |
US6611835B1 (en) | System and method for maintaining up-to-date link information in the metadata repository of a search engine | |
US6654754B1 (en) | System and method of dynamically generating an electronic document based upon data analysis | |
US7543068B2 (en) | Filtering information at a data network based on filter rules associated with consumer processing devices | |
US8078977B2 (en) | Method and system for intelligent processing of electronic information | |
US20110252160A1 (en) | Subscription-based dynamic content optimization | |
KR20030079926A (ko) | 미디어 객체를 통일적으로 추출하기 위한 시스템 | |
CN100442286C (zh) | 数据处理的方法和*** | |
CN1282928A (zh) | 提供本国语言查询服务的方法和*** | |
CN104090929A (zh) | 一种个性化图片推荐方法及装置 | |
CN1766876A (zh) | 用于管理结构化文件的***和方法 | |
CN1592280A (zh) | 用于网页概括的网关 | |
CN1571970A (zh) | 使用实名的搜索***和方法 | |
CN100341273C (zh) | 信息处理方法和信息处理装置 | |
US20070150463A1 (en) | Advanced method of searching, drafting and editing of electronic files | |
CN1512394A (zh) | 结构化文档变换装置、结构化文档变换方法及程序 | |
CN1663273A (zh) | 传输html应用程序的方法 | |
JP2010176387A (ja) | 電子スクラップシステム、電子スクラップ方法、電子スクラップサーバ、および利用者端末 | |
JP2009259248A (ja) | ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体 | |
Gupta et al. | Mobile web: web manipulation for small displays using multi-level hierarchy page segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |