JP2000222398A - Method and system for filtering document - Google Patents

Method and system for filtering document

Info

Publication number
JP2000222398A
JP2000222398A JP2000020499A JP2000020499A JP2000222398A JP 2000222398 A JP2000222398 A JP 2000222398A JP 2000020499 A JP2000020499 A JP 2000020499A JP 2000020499 A JP2000020499 A JP 2000020499A JP 2000222398 A JP2000222398 A JP 2000222398A
Authority
JP
Japan
Prior art keywords
document
parse tree
page
current context
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000020499A
Other languages
Japanese (ja)
Inventor
Timothy W Bickmore
ダブリュー.ビックモア ティモシー
William N Schilit
エヌ.シリット ウィリアム
Gargenshorn Andreas
ガーゲンショーン アンドレアス
Joseph W Sullivan
ダブリュー.スリーヴァン ジョセフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2000222398A publication Critical patent/JP2000222398A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To display a document which is designed for a large display area in a small display area by acquiring a request for a document from a decentralized network and putting the requested document back into a reauthoring-completed version. SOLUTION: A filter memory 690 inputs a requested filter from a user through a communication link 522 or 560 under the control of a controller 610. The requested filter is supplied from a node of the decentralized network through a communication link 580. The filter memory 690 inputs the requested document from the node, and filters out and extracts the elements of a requested page from the original document by using an abstract syntax tree generated by an abstract syntax tree generation memory 633. The filter memory 690 stores the extracted page elements in an original page memory 631 instead of the original document. Then an document authoring system 600 combines the extracted page elements to generate a new version.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ワールドワイドウ
エブからの任意の文書を自動的に再オーサリングしてパ
ーソナルディジタルアシスタント(PDA)及びセルラー
電話のような小さなスクリーン装置上に適切に前記文書
を表示する文書再オーサリングシステム及び方法に関
し、これらのシステム及び方法は、ウエブへの装置独立
アクセスを提供する。
FIELD OF THE INVENTION The present invention automatically re-authorizes any document from the World Wide Web and displays the document appropriately on small screen devices such as personal digital assistants (PDAs) and cellular telephones. Document re-authoring systems and methods that provide device independent access to the web.

【0002】[0002]

【従来の技術】パーソナル電子装置からワールドワイド
ウエブ(WWW)へのアクセスは、1995年3月のカリフォル
ニア州、サンフランシスコにおける、J. Barlettの"Ex
perience with a Wireless World Wide Web Cli
ent",IEEE COMPCON95、1994年10月のイリノイ州、シ
カゴにおける、第2回国際ワールドワイドウエブ会議で
のS. Gessler等の"PDAs Mobile WWW Browsers"、19
94年12月のカリフォルニア州、サンタクルーズにおけ
る、移動体コンピューティングシステム及び応用(Mobi
le Computing System and Application)の研修会
でのG. Voelker等の"Mobisac: An Information Sys
tem for a Mobile Wireless ComputingEnvironmen
t”,及び1994年8月のT. Watsonの1994年移動体コンピ
ューティングシステム及び応用の研究会討議資料の"App
lication Design for WirelessComputing”のような
研究プロジェクトで論証されている。このようなアクセ
スは、現在商業的に現実の物となっている。General M
agicのSony's MagicLinkに対するPresto! Links及びA
llPenのNewtonに対するNetHopper及びShrapのMI-10の全
てが PDAクラス装置に対するWWWブラウザを提供すると
共に、Nokia 9000Communicator及びSamsungのDuett
は、セルラー電話からのウエブアクセスケイパビリティ
(能力)を提供する。
BACKGROUND OF THE INVENTION Access to the World Wide Web (WWW) from personal electronic devices was made by J. Barlett's "Ex" in San Francisco, California in March 1995.
perience with a Wireless World Wide Web Cli
ent ", IEEE COMPCON95," PDAs Mobile WWW Browsers "by S. Gessler et al. at the 2nd International World Wide Web Conference in Chicago, Illinois, October 1994, 19
Mobile Computing Systems and Applications (Mobi, Santa Cruz, CA, December 1994)
le Computing System and Application) at the workshop "Mobisac: An Information Sys."
tem for a Mobile Wireless ComputingEnvironmen
t ", and the" App "in T. Watson's 1994 Mobile Computing Systems and Applications Workshop, August 1994.
lication Design for WirelessComputing ”. Such access is now commercially viable. General M
agic's Presto! Links to Sony's MagicLink and A
All of NetHopper and Shrap's MI-10 for llPen's Newton provide a WWW browser for PDA class devices, while Nokia 9000 Communicator and Samsung's Duett
Provides web access capabilities from cellular telephones.

【0003】残念なことに、ワールドワイドウエブ及び
他の分散形ネットワーク上の多くの文書は、少なくとも
640x480の解像度のカラーモニターを有するデスクトッ
プコンピュータで表示するように設計されている。多く
のページは、一層大きな解像度を持つよう意図されて設
計されている。反対に、多くのPDA(個人用携帯情報最
後末)クラスの装置及びセルラー電話表示は、一層小さ
くなっている。この表示領域における差によって設計表
示領域対利用可能表示領域の比が4対1から100対1
若しくはそれを越え、それによってこれらの小さな装置
上での大部分のワールドワイドウエブ文書の直接表示が
不快感を与えると共にナビゲートできなくなり、最悪の
場合、判読できなくなる。これは、これらの小さな装置
を使用してのワールドワイドウエブページへのアクセス
における主要な問題を提起する。即ち、HTML(ハイパー
テキスト記述言語)文書のような、デスクトップシステ
ム用に設計された任意のウエブ文書を大きく限られた表
示能力しかないパーソナル電子装置上にどのように表示
するかという問題である。
[0003] Unfortunately, many documents on the World Wide Web and other distributed networks have at least
It is designed to display on a desktop computer with a 640x480 resolution color monitor. Many pages are designed to have a higher resolution. Conversely, many personal digital assistant (PDA) class devices and cellular telephone displays are becoming smaller. Due to the difference in the display areas, the ratio of the design display area to the available display area is from 4: 1 to 100: 1.
Or beyond, whereby the direct display of most World Wide Web documents on these small devices is both uncomfortable and non-navigable, and in the worst case unreadable. This poses a major problem in accessing world wide web pages using these small devices. That is, the problem is how to display an arbitrary web document designed for a desktop system, such as an HTML (Hyper Text Description Language) document, on a personal electronic device having a greatly limited display capability.

【0004】このような従来の技術は、コンピュータの
移動性と無線での接続性を提供するが、小さなスクリー
ン上で文書及びウエブページを見るための標準の解決策
は、ユーザが拡大鏡を持ち運ぶ場合は重要である、スク
リーン解像度を上げること、又はファックス又はプリン
トする能力をローカルハードコピー装置へ提供すること
である。しかし、それらは、共に不便であり、最初の場
所で電子文書を有することの合理性と矛盾する。小さな
スクリーン装置上にウエブ文書を表示するための五つの
一般的アプローチがある。それらのアプローチは、装置
指定オーサリング、複数装置オーサリング、クライエン
ト−サイドナビゲーション、自動再オーサリング、及び
ページフィルタリングである。装置指定オーサリング
は、例えば、Nokia 9000のような表示及び通信ソフト
ウエアが外付けされたセルラー電話のような特定の表示
装置のために一セットのウエブ文書をオーサリングする
ことを含む。このアプローチの基本的考え方は、そのよ
うな特別の装置のユーザが選択されたセットのサービス
に対するアクセスを有するのみであることである。この
ように、これらのサービスのための文書は、アクセス装
置の特定の表示システムのためにアップフロント(upfr
ont)で設計されなければならない。情報は、大量に分
散形ネットワークから提供され得るが、望ましいページ
が予め定義されなければならず、且つカスタム情報抽出
及びページフォーマッティングソフトウエアが小さな装
置へその情報を受け渡すために書き込まれなければなら
ない。これは、Unwired Planet's UP. Linkサービス
で取られるアプローチであり、それは、所有権を主張で
きるマークアップ言語(HDML)を使用する。
[0004] While such conventional techniques provide computer mobility and wireless connectivity, the standard solution for viewing documents and web pages on a small screen is that the user carries the magnifying glass. In some cases, it is important to increase the screen resolution or to provide the ability to fax or print to the local hardcopy device. However, they are both inconvenient and contradict the rationality of having an electronic document in the first place. There are five general approaches for displaying web documents on small screen devices. These approaches are device-specific authoring, multiple device authoring, client-side navigation, automatic re-authoring, and page filtering. Device-specific authoring involves authoring a set of web documents for a particular display device, such as, for example, a cellular phone with display and communication software external to the Nokia 9000. The basic idea of this approach is that the user of such a special device only has access to a selected set of services. Thus, the documents for these services are upfront (upfr) for the particular display system of the access device.
ont). The information can be provided in large quantities from a distributed network, but the desired page must be predefined and custom information extraction and page formatting software must be written in order to pass that information to the small device. . This is the approach taken with Unwired Planet's UP. Link service, which uses a proprietary markup language (HDML).

【0005】複数装置オーサリングにおいて、一つの範
囲内の装置が識別される。次に、単一のソース文書から
一セットのレンダリングされた文書へのマッピングが定
義されて、識別された範囲内でそれらの装置をカバーす
る。この一例は、1995年11月のケント大学(University
of Kent)のカンタベリーコンピューティングラボラ
トリWWWページ(Canterbury Computing Laboratory
WWW Page)でのI. Cooper等の"PDA Web Browsers:
Implementation Issues"で論じられているStretchText
アプローチである。StretchTextにおいて、ワードレベ
ルにされる可能性のある文書の部分は、”抽象のレベ
ル”測度でタグ付けされ得る。文書を受信すると、ユー
ザは、それらのユーザが見ることを望む抽象のレベルを
指定でき、対応する詳細又は詳細の欠如をもって提示さ
れる。
In multiple device authoring, devices within a range are identified. Next, a mapping from a single source document to a set of rendered documents is defined to cover those devices within the identified range. An example of this is the November 1995 University of Kent (University
of Kent) Canterbury Computing Laboratory WWW page (Canterbury Computing Laboratory)
"PDA Web Browsers by I. Cooper and others on the WWW Page):
StretchText discussed in "Implementation Issues"
Approach. In StretchText, parts of the document that may be word-level may be tagged with an "abstract level" measure. Upon receipt of the document, users can specify the level of abstraction they want to see and are presented with corresponding details or lack of details.

【0006】複数装置オーサリングの他の例は、HTMLカ
スケーディングスタイルシート(CSS)であり、それ
は、1996年9月のワールドワイドウエブ協会(WWW Cons
ortium)のH. Lie等の"Cascading Style Sheets"で
述べられている。このカスケードスタイルシートにおい
て、一つの単一シートは、文書の異なる構造部分に対し
て一セットの表示属性を定義する。例えば、全てのトッ
プレベルセクションのヘッダーが、赤の18ポイントタイ
ムフォントで表示されるように定義され得る。一連のス
タイルシートは、文書に取り付けられることが出来、各
スタイルシートは、その文書のオーサーに対するこのス
タイルシートの望ましさを述べる重みを備える。また、
ユーザは、ディフォルトスタイルシートを指定できる。
また、分散形ネットワークへアクセスするためにユーザ
によって使用されるブラウザは、”デフォルト”スタイ
ルシートを定義できる。オーサーのスタイルシートは、
通常、ユーザのスタイルシートをオーバーライドする
(無効にする)が、ユーザにユーザの特定の表示への文
書のレンダリングを適合させる能力を提供することによ
って、ユーザは、選択的にオーサーのスタイルシートを
イネーブル又はディスイネーブルできる。
[0006] Another example of multi-device authoring is the HTML Cascading Style Sheet (CSS), which was published in September 1996 by the World Wide Web Association (WWW Constraint).
ortium) in "Cascading Style Sheets" by H. Lie et al. In this cascading style sheet, one single sheet defines a set of display attributes for different structural parts of the document. For example, the header of all top-level sections may be defined to be displayed in a red 18 point time font. A series of style sheets can be attached to the document, each style sheet having a weight that states the desirability of the style sheet for the author of the document. Also,
The user can specify a default style sheet.
Also, the browser used by the user to access the distributed network can define a "default" style sheet. The author's style sheet is
Typically, the user selectively enables the author's style sheet by overriding (disabling) the user's style sheet but providing the user with the ability to adapt the rendering of the document to the user's particular display. Alternatively, it can be disabled.

【0007】クライアントサイドナビゲーションにおい
て、ユーザは、任意の所与の時に表示される単一のウエ
ブページの部分を変更することによって、その単一のウ
エブページ内で対話式にナビゲートする能力が与えられ
る。この非常に些細な例は、文書表示リアでスクロール
バーを使用することである。非常に複雑なアプローチ
は、1994年のACM PRESS(ACMプレス)のACM UIST’94
の会報、B. Bederson等による”Pad++:A Zooming G
raphical Interface for Exploring Alternate In
terface Physics”で述べられているように、PAD++シ
ステムで取られているアプローチである。そのアプロー
チにおいて、ユーザは、無限の解像度で文書上で装置表
示を自由にズーム及びパンすることができる。また、19
94年10月のイリノイ州、シカゴにおける第2回国際ワー
ルドワイドウエブ会議でのJ. Hue等の”Active Outli
ning for HTML Documents:An X−Mosaic Impleme
ntation"で述べられているように、アクティブアウトラ
イン化は、クライアントサイドナビゲーション技術とし
て実行されている。ここにおいて、ユーザは、夫々のセ
クションヘッディング下で、文書のセクションをダイナ
ミックに拡大及び崩壊できる。このカテゴリーに入る他
の技術は、1996年4月のカナダ国BC、バンクーバーでのC
omputer-Human Interaction:CHI96の会報のT. Kamba
等の"Using small screen space more efficientl
y”で述べているような、半透明仕掛け(widgets)、及
び1993年のSIGGRAPH'93 Conference ProceedingsのE.
Bier等の"Toolglass and Magic Lenses:The See
−through Interface”で述べられているようなMagic
Lens(マジックレンズ)システムを含む。
In client-side navigation, a user is provided with the ability to interactively navigate within a single web page by changing the portion of the single web page displayed at any given time. Can be A very trivial example of this is using scrollbars in the document display rear. A very complex approach is ACM UIST'94 from ACM PRESS in 1994.
Newsletter, "Pad ++: A Zooming G" by B. Bederson et al.
raphical Interface for Exploring Alternate In
This is the approach taken in the PAD ++ system, as described in "terface Physics". In that approach, the user can freely zoom and pan the device display on the document at infinite resolution. , 19
"Active Outli" by J. Hue et al. At the Second International World Wide Web Conference in Chicago, Illinois, October 1994.
ning for HTML Documents: An X-Mosaic Impleme
As described in "ntation", active outlining is implemented as a client-side navigation technique, where a user can dynamically expand and collapse sections of a document under their respective section headings. Other technologies that fall into the category include C, Vancouver, BC, Vancouver, April 1996.
omputer-Human Interaction: T. Kamba in CHI96's bulletin
"Using small screen space more efficientl
y ”, translucent widgets, and E. of 1993 SIGGRAPH'93 Conference Proceedings.
"Toolglass and Magic Lenses by Bier: The See
-Through Interface ”
Includes Lens (magic lens) system.

【0008】自動文書再オーサリングは、ターゲット表
示装置の特性と共に、デスクトップサイズのモニターで
表示されるように設計された、HTML文書のような任意の
文書を扱い、一連の変形を介してその任意の文書を再オ
ーサリング出来るソフトウエアを含み、それによって、
その任意の文書は、ターゲット表示装置上で適切に表示
され得る。このプロセスは、クライアントによって、サ
ーバーによって、又はこれらの変形サービスを提供する
ために単独で存在する、HTTP(ハイパーテキスト転送プ
ロトコル)プロキシサーバーのような中間プロキシサー
バーによって実行され得る。この後者のアプローチの例
は、UC Berkeley Pythia プロキシサーバーであり、
それは、1996年5月のフランス、パリでの第5回国際ワー
ルドワイドウエブ会議のA. Fox等の"Reducing WWW L
atency and Bandwidth Requirements by Real−Ti
me Distillation”で述べられている。これは、ウエブ
ページ画像の変形を実行する。しかしながら、Pythia
プロキシサーバーの目的は、単独でページ検索時間を最
小にするためである。Spyglass Prismは、ページタグ
又は埋め込みオブジェクトタイプに関連する一定の変形
を使用して、HTML文書の自動再オーサリングを実行する
市販の製品である。例えば、Prismは、50%全てのJPEG
画像を縮小する。
[0008] Automatic document re-authoring deals with any document, such as an HTML document, designed to be displayed on a desktop-sized monitor, with the characteristics of the target display device, and through a series of transformations to any of the documents. Includes software that can re-author documents,
The optional document can be properly displayed on the target display device. This process may be performed by a client, by a server, or by an intermediate proxy server, such as an HTTP (Hypertext Transfer Protocol) proxy server, that exists alone to provide these variant services. An example of this latter approach is the UC Berkeley Pythia proxy server,
"Reducing WWW L" by A. Fox and others at the 5th International World Wide Web Conference in Paris, France in May 1996
atency and Bandwidth Requirements by Real-Ti
me Distillation ”, which performs transformations on web page images. However, Pythia
The purpose of the proxy server is to minimize page search time by itself. Spyglass Prism is a commercial product that performs automatic re-authoring of HTML documents using certain variants associated with page tags or embedded object types. For example, Prism is 50% all JPEG
Reduce the image.

【0009】最後に、ウエブページフィルタリングは、
ユーザにユーザが興味のあるページの部分のみを見させ
る。フィルタリングは、HTTPプロキシサーバーのような
中間サーバーで実行されることができ、無線バンド幅及
び装置メモリを節約する。しかしながら、フィルタリン
グは、表示管理技術のようなクライアント装置によって
も実行され得る。フィルタの仕様は、キーワード又は正
則表現マッチング、又はページ構造ナビゲーションと抽
出コマンドに基づくことができる。フィルタリングは、
可視ツールを使用して又はスクリプト言語を使用して指
定され得る。
Finally, web page filtering is
Let the user see only the part of the page that the user is interested in. Filtering can be performed on an intermediate server, such as an HTTP proxy server, saving wireless bandwidth and device memory. However, filtering can also be performed by client devices such as display management techniques. Filter specifications can be based on keyword or regular expression matching, or page structure navigation and extraction commands. Filtering is
It can be specified using a visual tool or using a scripting language.

【0010】装置指定オーサリング、マルチプル(複
数)装置オーサリング、クライアントサイドナビゲーシ
ョン、自動再オーサリング、及びページフィルタリング
の五つのアプローチの各々は、独自の利点及び欠点があ
る。装置指定オーサリングは、一般的に人間のデザイナ
ーの直接関与のお陰で最もよく見える結果を生ずる。し
かしながら、装置指定オーサリングは、ユーザのアクセ
スをその指定装置のためにオーサリングされた小さくな
選択セットの文書に制限する。マルチプル装置オーサリ
ングは、装置指定オーサリングよりも文書当りの全体の
労力が少なくてすむが、単一のデスクトッププラットフ
ォームのための単一バージョンの文書を単純にオーサリ
ングする場合に比較してまだかなり多くの手作業による
設計作業が必要である。クライアントサイドナビゲーシ
ョンは、優れたセットのヴューイング(viewing)テク
ニックが開発できる時はうまく働く。しかしながら、ク
ライアントサイドナビゲーションは、全体の文書が一度
にクライアント装置へ転送されなければならず、それ
は、貴重な無線帯域幅及びメモリを消費する。更に、PA
D++で取られた”ピープホール”は、大きな文書に対し
ては非常に使用しにくいように思え、多くのウエブペー
ジが厳格なセクション/サブセクション編成を使用しな
いか、その編成を不正確に使用するので、アクティブア
ウトライニング技術は適用性に制限がある。
Each of the five approaches of device-specific authoring, multiple device authoring, client-side navigation, automatic re-authoring, and page filtering has its own advantages and disadvantages. Device-specific authoring generally produces the best-looking results thanks to the direct involvement of human designers. However, device-specific authoring restricts a user's access to a small selection of documents authored for that specified device. Multiple device authoring requires less overall effort per document than device-specific authoring, but still requires significantly more hands-on than simply authoring a single version of a document for a single desktop platform. Requires design work by work. Client-side navigation works well when a good set of viewing techniques can be developed. However, client-side navigation requires that the entire document be transferred to the client device at one time, which consumes valuable wireless bandwidth and memory. Furthermore, PA
"Peepholes" taken in D ++ seem very difficult to use for large documents, and many web pages do not use strict section / subsection organization or use that organization incorrectly As such, active outlining techniques have limited applicability.

【0011】このように、自動再オーサリングが、情報
を失うことなく、読み易く、ナビゲーション可能で、審
美的に満足な再オーサリング済文書を生成うるように行
われるならば、自動再オーサリングは、広範囲に亘る装
置からウエブ文書や他のウエブ内容への広範囲に亘るア
クセスを提供する理想的なアプローチである。
[0011] If automatic re-authoring is performed in such a way that it can produce an easily readable, navigable, and aesthetically pleasing re-authored document without loss of information, automatic re-authoring is widely used. It is an ideal approach to providing extensive access to web documents and other web content from a variety of devices.

【0012】[0012]

【発明が解決しようとする課題】本発明の目的は、より
大きな表示領域のために設計された文書をより小さな表
示領域上ので表示のために自動的に再オーサリングする
システム及び方法を提供することである。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a system and method for automatically re-authoring a document designed for a larger display area for display on a smaller display area. It is.

【0013】また、本発明の目的は、各サブ文書がより
少ない表示領域を必要とする、複数のリンクされたサブ
文書に文書を自動的に変形するシステム及び方法を提供
することである。
It is also an object of the present invention to provide a system and method for automatically transforming a document into a plurality of linked sub-documents, where each sub-document requires less display space.

【0014】また、本発明の目的は、複数のセットのリ
ンクされたサブ文書を生成するために、複数の異なる変
形を原稿(オリジナル文書)に自動的に適用するシステ
ム及び方法を提供することである。
It is also an object of the present invention to provide a system and method for automatically applying a plurality of different transformations to an original (original document) to generate a plurality of sets of linked sub-documents. is there.

【0015】更に、本発明の目的は、追加のリンクされ
たサブ文書を生成するために、前述の複数の異なる変形
を前記複数のセットのリンクされたサブ文書の少なくと
も一つへ自動的に提供するシステム及び方法を提供する
ことである。
It is a further object of the present invention to automatically provide said plurality of different variants to at least one of said plurality of sets of linked sub-documents to generate additional linked sub-documents. To provide a system and method for doing so.

【0016】更にまた、本発明の目的は、主サブ文書の
最良の一つを決定するために、各セットのリンクされた
サブ文書の主サブ文書を解析するシステム及び方法を提
供することである。
Still further, it is an object of the present invention to provide a system and method for analyzing a main sub-document of each set of linked sub-documents to determine the best one of the main sub-documents. .

【0017】また、本発明の目的は、前述の最良の主サ
ブ文書がより小さな表示領域に表示され得るか否かを決
定して、否の場合、更に要求される表示領域に縮小する
ために、その主サブ文書へ更なる変形を適用するシステ
ム及び方法を提供することである。
It is also an object of the present invention to determine whether said best main sub-document can be displayed in a smaller display area, and if not, to further reduce it to the required display area. , To apply further variations to its main sub-document.

【0018】また、本発明の目的は、より小さな表示領
域に表示可能な文書の望ましい部分を抽出するために、
文書をフィルタリングするシステム及び方法を提供する
ことである。
It is another object of the present invention to extract a desired portion of a document that can be displayed in a smaller display area.
A system and method for filtering documents.

【0019】更に、本発明の目的は、予め定義されたス
クリプトに基づいて、望ましい部分を抽出するために、
文書をフィルタリングするシステム及び方法を提供する
ことである。
Still another object of the present invention is to extract a desired portion based on a predefined script.
A system and method for filtering documents.

【0020】また、本発明の目的は、望ましい部分を抽
出するために文書をフィルタリングするのに使用できる
スクリプトを生成するシステム及び方法を提供すること
である。
It is also an object of the present invention to provide a system and method for generating a script that can be used to filter documents to extract desired portions.

【0021】更に、本発明の目的は、望ましい部分を抽
出するために文書をフィルタリングのためのスクリプト
を書き込むことが出来るスクリプト言語を提供すること
である。
It is a further object of the present invention to provide a scripting language in which a script for filtering a document can be written to extract desired parts.

【0022】[0022]

【課題を解決するための手段】一例示の実施の形態にお
て、本発明の文書再オーサリングシステム及び方法は、
所与の表示サイズのための最良に見える文書を達成する
ために、ヒューリスティックプランニング技術を使用し
て、要求されたウエブページ及び一セットの構造的ペー
ジ変形をダイナミックに再オーサリングするHTTPプロキ
シで実施される。本発明のシステム及び方法に従う自動
文書再オーサリングは、クライアントによって、サーバ
ーによって、又は、一例示の実施の形態において、これ
らの変形サービスを提供するために単独で存在する中間
HTTPプロキシサーバーによって、実行され得る。更に、
本発明に従う自動文書再オーサリングシステム及び方法
は、これらの装置の組合せ上で実行され得る。
SUMMARY OF THE INVENTION In one exemplary embodiment, a document re-authoring system and method according to this invention comprises:
Implemented with an HTTP proxy that dynamically re-authors the requested web page and a set of structural page variants using heuristic planning techniques to achieve the best looking document for a given display size You. Automatic document re-authoring in accordance with the systems and methods of the present invention may be performed by a client, by a server, or, in one exemplary embodiment, an intermediate entity that exists solely to provide these transformation services.
Can be performed by an HTTP proxy server. Furthermore,
An automatic document re-authoring system and method according to the present invention may be implemented on a combination of these devices.

【0023】本発明の自動再オーサリングシステム及び
方法は、PDAで見られる表示で良好に働く。しかしなが
ら、本発明の文書再オーサリングシステム及び方法が、
現在のセルラー電話の非常に限られた表示に適用される
場合、本発明の文書再オーサリングシステム及び方法
は、時々ナビゲートが困難なページを生成する。セルラ
ー電話から、例えば、インターネット又はイントラネッ
トのような、分散形ネットワークにアクセスする時、大
部分のユーザは、主に非常に特定された情報に興味があ
る。本発明の文書フィルタリングシステム及び方法は、
このようなユーザに彼等/彼女らが表示されたい情報を
定義するためにマニュアル制御を提供する。本発明の文
書フィルタリングシステム及び方法は、容易にナビゲー
ション出来るページの小さな部分のみを戻す。本発明の
文書フィルタリングシステム及び方法は、レイアウトが
固定されているが内容が変化している特定のページをユ
ーザがモニターしているこれのらの状態において理想的
である。理由は、これらのユーザがそのページのフォー
マットに対してフィルタを同調できるからである。
The automatic re-authoring system and method of the present invention works well with displays found on PDAs. However, the document re-authoring system and method of the present invention
When applied to the very limited display of current cellular telephones, the document re-authoring system and method of the present invention produces pages that are sometimes difficult to navigate. When accessing a distributed network, such as the Internet or an intranet, from a cellular telephone, most users are primarily interested in very specific information. The document filtering system and method of the present invention include:
Such users are provided with manual controls to define the information they / they want to display. The document filtering system and method of the present invention returns only a small portion of the page that can be easily navigated. The document filtering system and method of the present invention are ideal in these situations where the user is monitoring a particular page with a fixed layout but changing content. The reason is that these users can tune the filter to the format of the page.

【0024】本発明の自動再オーサリング及び文書フィ
ルタリングシステム及び方法は、限られた通信帯域幅及
び小さな表示を有する装置に、インターネットやイント
ラネットのような分散形ネットワーク上の任意の文書へ
のアクセスを提供するために、文書フィルタリングに連
結された自動再オーサリング能力を提供する。
The automatic re-authoring and document filtering system and method of the present invention provides a device having limited communication bandwidth and small display access to any document on a distributed network such as the Internet or an intranet. To provide automatic re-authoring capabilities coupled with document filtering.

【0025】本発明の自動文書再オーサリング及び文書
フィルタリングシステム及び方法は、分散形ネットワー
クから文書に対する要求を捕獲して、元に対する要求さ
れた文書ではなくて要求された文書の再オーサリング済
バージョンを戻す。
The automatic document re-authoring and document filtering system and method of the present invention captures a request for a document from a distributed network and returns a re-authored version of the requested document instead of the requested document for the original. .

【0026】モバイル及びユービキタス(ubiqui
tous)コンピューティングのより大きなコンテキス
ト(文脈)において、本発明の自動文書再オーサリング
及び文書フィルタリングシステム及び方法は、ユーザの
ビューモビリティをプラットフォームに与えるためのキ
ーテクノロジーを提供する。本発明の第1の態様は、文
書の望ましいエレメントを抽出するために前記文書をフ
ィルタリングする方法であって、所定のフィルタを提供
するステップと、フィルタリングされるべき前記文書を
得るステップと、前記得られた文書から解析ツリーを生
成するステップと、前記提供されたフィルタに基づいて
前記解析ツリーを介してナビゲートして抽出されるべき
前記文書の少なくとも一つのエレメントを識別するステ
ップと、前記少なくとも一つの識別されたエレメントを
抽出するステップと、前記少なくとも一つの抽出された
エレメントを組合せて前記文書のフィルタリングされた
バージョンを形成するステップと、を備える文書のフィ
ルタリング方法である。第2の態様は、第1の態様にお
いて、前記所定のフィルタを提供するステップは、分散
形ネットワークのノードから前記所定のフィルタを検索
するステップを有する。第3の態様は、第1の態様にお
いて、前記所定のフィルタを提供するステップは、前記
所定のフィルタに対するユニフォームリソースロケータ
(URL)を分散形ネットワークのホストノードへ提供す
るステップと、前記提供されたURLに対応して、前記分
散形ネットワークのノードから前記所定のフィルタを検
索するステップと、を備える。第4の態様は、第3の態
様において、前記所定のフィルタに対するURLを提供す
るステップは、前記URLを前記分散形ネットワークに接
続されたデータ処理装置から送信するステップを備え
る。第5の態様は、第4の態様において、前記データ処
理装置から前記URLを送信するステップは、前記URLを無
線通信チャネルを介して送信するステップを備える。第
6の態様は、第3の態様において、前記分散形ネットワ
ークの前記ノードから前記所定のフィルタを検索するス
テップは、前記分散形ネットワークの前記ホストノード
から前記所定のフィルタを検索するステップを備える。
第7の態様は、第3の態様において、前記分散形ネット
ワークの前記ノードから前記所定のフィルタを検索する
ステップは、前記分散形ネットワークの遠隔ノードから
前記所定のフィルタを検索するステップを備える。第8
の態様は、第1の態様において、前記フィルタリングさ
れるべき前記文書を得るステップは、分散形ネットワー
クのノードから前記フィルタリングされるべき文書を検
索するステップを備える。第9の態様は、第1の態様に
おいて、フィルタリングされるべき前記文書を得るステ
ップは、前記フィルタリングされるべき文書に対するUR
Lを提供するステップと、前記提供されたURLに対応し
て、分散形ネットワークのノードから前記フィルタリン
グされるべき文書を検索するステップと、を備える。第
10の態様は、第9の態様において、前記フィルタリン
グされるべき文書に対する前記URLを提供するステップ
は、前記フィルタリングされるべき文書に対する前記UR
Lを前記所定のフィルタに埋め込むステップを備える。
第11の態様は、第10の態様において、前記フィルタ
リングされるべき文書に対する前記URLを前記所定のフ
ィルタに埋め込むステップは、前記フィルタに、GO UR
Lコマンドを使用するステップを備える。第12の態様
は、第1の態様において、前記解析ツリーを介してナビ
ゲートするステップは、前記解析ツリーの現在のコンテ
キストに更に移動するステップと前記解析ツリーの現在
のコンテキストから外に移動するステップと前記解析ツ
リー内で現在のコンテキストに相対して前記解析ツリー
の他の構造へ移動するステップの内の少なくとも一つを
含む。第13の態様は、第12の態様において、前記現
在のコンテキストは、前記解析ツリーの現在のノードで
あり、前記解析ツリーの現在のコンテキストに更に移動
するステップは、前記解析ツリーの現在のノードから前
記現在のノードの少なくとも一つの子ノードへ移動する
ステップを備える。第14の態様は、第13の態様にお
いて、前記解析ツリーの現在のノードから前記現在のノ
ードの少なくとも一つの子ノードへ移動するステップを
備える前記解析ツリーの現在のコンテキストに更に移動
するステップは、GO"構造"コマンドを使用するステップ
を備え、前記"構造"は、現在のノードの子孫である前記
解析ツリーのノードである。第15の態様は、第13の
態様において、前記解析ツリーの現在のノードから前記
現在のノードの少なくとも一つの子ノードへ移動するス
テップを備える前記解析ツリーの現在のコンテキストに
更に移動するステップは、GO"正則表現"コマンドを使用
するステップを備え、前記少なくとも子ノードは前記"
正則表現"によって定義されるストリングを含む。第1
6の態様は、第12の態様において、前記現在のコンテ
キストは、前記解析ツリーの現在のノードであり、前記
解析ツリーの前記現在のコンテキストから外へ移動する
ステップは、前記解析ツリーの現在のノードから現在の
ノードの少なくとも一つの親ノードへ移動するステップ
を備える。第17の態様は、第16の態様において、前
記解析ツリーの現在のノードから現在のノードの少なく
とも一つの親ノードへ移動するステップを備える前記解
析ツリーの現在のコンテキストから外へ移動するステッ
プは、GO ENCLOSINGコマンドを使用するステップを備
える。第18の態様は、第17の態様において、前記GO
ENCLOSINGコマンドを使用するステップは、GO ENCLO
SING"構造"コマンドを使用するステップを備え、前記"
構造”は、現在のノードへ導く解析ツリーのノードであ
る。第19の態様は、第17の態様において、前記GO
ENCLOSINGコマンドを使用するステップは、GO ENCLOSI
NG"正則表現"コマンドを使用するステップを備え、前記
少なくとも一つの親ノードは、前記"正則表現"によって
定義されるストリングを含む。第20の態様は、第12
の態様において、前記現在のコンテキストは、前記解析
ツリーの現在のノードであり、前記解析ツリー内で現在
のコンテキストに対して前記解析ツリーの次の構造へ移
動するステップは、現在のノードから前記解析ツリーの
ノードを介して移動するステップを備える。第21の態
様は、第20の態様において、現在のノードから前記解
析ツリーのノードを介して移動するステップは、GO NE
XTコマンド、GO PREVIOUSコマンド、GO FIRSTコマン
ド、GO LINKEDPAGEコマンド、及びこれらのコマンドの
組合せの内の少なくとも一つを使用するステップを備え
る。第22の態様は、第21の態様において、GO NEXT
コマンド、GO PREVIOUSコマンド、GO FIRSTコマン
ド、GO LINKEDPAGEコマンド、及びこれらのコマンドの
組合せの内の少なくとも一つを使用する前記ステップ
は、GO NEXT"構造"コマンド、GO PREVIOUS”構造”コ
マンド、GO FIRST”構造”コマンドの少なくとも一つ
を使用するステップを備え、前記"構造”は、前記解析
ツリーのノードである。第23の態様は、第21の態様
において、GO NEXTコマンド、GO PREVIOUSコマンド、
GO FIRSTコマンド、GO LINKEDPAGEコマンド、及びこ
れらのコマンドの組合せの内の少なくとも一つを使用す
る前記ステップは、GO NEXT"正則表現"コマンド、GO
PREVIOUS”正則表現”コマンド、GO FIRST”正則表
現”コマンドの少なくとも一つを使用するステップを備
え、宛先ノードは、前記”正則表現"によって定義され
るストリングを含む。第24の態様は、第20の態様に
おいて、現在のノードから前記解析ツリーのノードを介
して移動する前記ステップは、現在のノードから前記解
析ツリーを介してシーケンシャルに移動するステップを
備える。第25の態様は、第12の態様において、前記
解析ツリーを介してナビゲートする前記ステップは、前
記検索されたフィルタで定義された正則表現とのマッチ
ングに基づいて、現在のコンテキストへの移動、現在の
コンテキストから外への移動、及び現在のコンテキスト
に相対する移動の内の何れか更にを備える。第26の態
様は、第12の態様において、前記解析ツリーを介して
ナビゲートする前記ステップは、前記検索されたフィル
タで定義された正則表現との反復マッチングに基づい
て、現在のコンテキストへの移動、現在のコンテキスト
から外への移動、及び現在のコンテキストに相対する移
動の内の何れかを更に備える。第27の態様は、第26
の態様において、前記正則表現の反復マッチングは、FO
REACH”正則表現”を使用するステップを備え、宛先ノ
ードは、前記"正則表現"によって定義されるストリング
を含む。第28の態様は、第12の態様において、前記
解析ツリーを介してナビゲートする前記ステップは、前
記検索されたフィルタで定義されたナビゲーションコマ
ンドの反復実行に基づいて、現在のコンテキストへの移
動、現在のコンテキストから外への移動、及び現在のコ
ンテキストに相対する移動の内の何れかを更に備える。
第29の態様は、第28の態様において、前記検索され
たフィルタで定義されたナビゲーションコマンドの反復
実行は、FOREACH”構造"コマンドを使用するステップを
備え、宛先ノードは、前記"構造"によって定義されるス
トリングを含む。第30の態様は、第1の態様におい
て、前記解析ツリーを介してナビゲートする前記ステッ
プは、前記解析ツリー内の各望ましい位置を構造的に記
述することに基づいて、前記解析ツリー内での少なくと
も一つの望ましい位置へ移動するステップを備える。第
31の態様は、第1の態様において、前記解析ツリーを
介してナビゲートする前記ステップは、各望ましい位置
のコンテキスト内に含まれる正則表現を記述することに
基づいて、前記解析ツリー内で少なくとも一つの望まし
い位置へ移動するステップを備える。第32の態様は、
第1の態様において、更に、前記少なくとも一つの前記
抽出されたエレメントを含む文書を生成するステップ
と、前記生成された文書から評価値を生成するステップ
と、前記評価値が少なくとも一つの評価基準を満足する
か否かを決定するステップと、前記評価値が前記一つの
評価基準を満足する場合、前記文書を出力するステップ
と、前記評価値が前記一つの評価基準を満足しない場
合、前記文書を変形済文書へ変形して、前記生成するス
テップ及び前記決定するステップを繰り返すステップ
と、を備える。第33の態様は、文書から少なくとも一
つのエレメントを抽出するために、選択されたフィルタ
に基づいて、前記文書を自動的にフィルタリングする文
書フィルタリングシステムであって、解析ツリー生成メ
モリと、文書フィルタリングメモリと、抽出されたエレ
メント出力メモリと、を備える文書フィルタリングシス
テムである。第34の態様は、第33の態様において、
前記解析ツリー生成メモリは、解析ツリーを生成するた
めに前記文書を解析する。第35の態様は、第34の態
様において、前記解析ツリーは、抽象構文ツリーであ
る。第36の態様は、第34の態様において、前記文書
フィルタリングシステムは、前記選択されたフィルタの
ナビゲーションコマンドに基づいて、前記解析ツリー内
でナビゲートする。第37の態様は、第34の態様にお
いて、前記文書フィルタリングシステムは、前記選択さ
れたフィルタンレポートコマンドと前記解析ツリーの現
在のコンテキストに基づいて、前記文書から文書エレメ
ントを抽出する。第38の態様は、第37の態様におい
て、前記文書フィルタリングシステムは、前記選択され
たフィルタのナビゲーションコマンドに基づいて、前記
解析ツリー内でナビゲートすることによって、前記解析
ツリーの現在のコンテキストを決定する。第39の態様
は、第33の態様において、更に、文書サイズ評価メモ
リと、変形メモリと、を備える。第40の態様は、第3
9の態様において、前記文書サイズ評価メモリは、前記
少なくとも一つの抽出されたエレメントを含むフィルタ
リングされた文書から前記解析ツリー生成メモリによっ
て生成された解析ツリーを評価して、前記文書が少なく
とも一つの評価基準を満足するか否かを決定する。第4
1の態様は、第40の態様において、前記フィルタリン
グされた文書が前記少なくとも一つの評価基準を満足す
る場合、前記フィルタリングされた文書が、デスクトッ
プモニターの表示領域よりも小さい表示領域を有する表
示装置へ出力される。第42の態様は、第41の態様に
おいて、前記フィルタリングされた文書が前記少なくと
も一つの評価基準を満足しない場合、前記変形メモリ
は、第1の変形を使用して前記解析ツリーを変形して第
1の変形済解析ツリーを生成する。第43の態様は、第
42の態様において、前記文書サイズ評価メモリは、前
記変形メモリによって生成された変形済解析ツリーを評
価して前記変形された解析ツリーに対応する変形された
文書が少なくとも一つの評価基準を満足するか否かを決
定する。
Mobile and ubiquitous (ubiquis)
In the larger context of tous computing, the automatic document re-authoring and document filtering system and method of the present invention provides a key technology for providing a platform with user view mobility. A first aspect of the present invention is a method of filtering the document to extract desired elements of the document, comprising providing a predetermined filter; obtaining the document to be filtered; Generating a parse tree from the received document; navigating through the parse tree based on the provided filters to identify at least one element of the document to be extracted; A method for filtering a document, comprising: extracting one identified element; and combining the at least one extracted element to form a filtered version of the document. According to a second aspect, in the first aspect, the step of providing the predetermined filter includes a step of searching for the predetermined filter from a node of the distributed network. In a third aspect, in the first aspect, the step of providing the predetermined filter includes the step of providing a uniform resource locator (URL) for the predetermined filter to a host node of a distributed network; Searching for the predetermined filter from a node of the distributed network in response to a URL. In a fourth aspect based on the third aspect, the step of providing a URL for the predetermined filter includes the step of transmitting the URL from a data processing device connected to the distributed network. In a fifth aspect based on the fourth aspect, the step of transmitting the URL from the data processing device includes the step of transmitting the URL via a wireless communication channel. In a sixth aspect based on the third aspect, the step of searching for the predetermined filter from the node of the distributed network includes the step of searching for the predetermined filter from the host node of the distributed network.
In a seventh aspect based on the third aspect, the step of retrieving the predetermined filter from the node of the distributed network includes the step of retrieving the predetermined filter from a remote node of the distributed network. 8th
In the first aspect, in the first aspect, obtaining the document to be filtered includes retrieving the document to be filtered from a node of the distributed network. In a ninth aspect, in the first aspect, the step of obtaining the document to be filtered includes the step of obtaining a UR for the document to be filtered.
Providing L, and searching for the document to be filtered from a node of the distributed network corresponding to the provided URL. A tenth aspect is the ninth aspect, wherein the step of providing the URL for the document to be filtered includes the step of providing the URL for the document to be filtered.
Embedding L in the predetermined filter.
An eleventh aspect is the tenth aspect, wherein the step of embedding the URL for the document to be filtered in the predetermined filter includes:
And using an L command. In a twelfth aspect, in the first aspect, navigating through the parse tree further comprises moving further to a current context of the parse tree and moving out of the current context of the parse tree. And moving to another structure of the parse tree relative to a current context in the parse tree. A thirteenth aspect is the twelfth aspect, wherein the current context is a current node of the parse tree, and the step of further moving to a current context of the parse tree comprises: Moving to at least one child node of the current node. A fourteenth aspect is a method according to the thirteenth aspect, further comprising: moving from a current node of the parse tree to at least one child node of the current node, to a current context of the parse tree, Using a GO "structure" command, wherein the "structure" is a node of the parse tree that is a descendant of a current node. A fifteenth aspect is the method of the thirteenth aspect, further comprising: moving from a current node of the parse tree to at least one child node of the current node, to a current context of the parse tree, Using a GO "regular expression" command, wherein the at least child node
Including the string defined by "regular expression".
A sixth aspect is the twelfth aspect, wherein the current context is a current node of the parse tree, and the step of moving out of the current context of the parse tree comprises: From the current node to at least one parent node of the current node. A seventeenth aspect is the sixteenth aspect, wherein the step of moving out of a current context of the parse tree comprises moving from a current node of the parse tree to at least one parent node of a current node, Comprising using a GO ENCLOSING command. An eighteenth aspect is the seventeenth aspect, wherein the GO
The step using the ENCLOSING command is GO ENCLO
Using a SING "structure" command, wherein the "
Structure "is a node of the parse tree leading to the current node. The nineteenth aspect is the seventeenth aspect wherein the GO
The steps to use the ENCLOSING command are GO ENCLOSI
Using an NG "regular expression" command, wherein the at least one parent node includes a string defined by the "regular expression". The twentieth aspect is the twelfth aspect.
Wherein the current context is a current node of the parse tree and moving to a next structure of the parse tree for the current context in the parse tree comprises: Navigating through the nodes of the tree. According to a twenty-first aspect, in the twentieth aspect, the step of moving from a current node via a node of the parse tree includes:
Using at least one of an XT command, a GO PREVIOUS command, a GO FIRST command, a GO LINKEDPAGE command, and a combination of these commands. A twenty-second aspect is the twenty-first aspect, wherein the GO NEXT
The steps using at least one of a command, a GO PREVIOUS command, a GO FIRST command, a GO LINKEDPAGE command, and a combination of these commands comprise a GO NEXT "structure" command, a GO PREVIOUS "structure" command, a GO FIRST "command. Using at least one of the "structure" commands, wherein the "structure" is a node of the parse tree. A twenty-third aspect is the twenty-first aspect, wherein the GO NEXT command, the GO PREVIOUS command,
The step of using at least one of a GO FIRST command, a GO LINKED PAGE command, and a combination of these commands comprises a GO NEXT "regular expression" command, a GO
Using at least one of the PREVIOUS "regular expression" command and the GO FIRST "regular expression" command, wherein the destination node includes a string defined by said "regular expression". In a twenty-fourth aspect based on the twentieth aspect, the step of moving from a current node via a node of the parse tree includes a step of sequentially moving from a current node via the parse tree. A twenty-fifth aspect is the twelfth aspect, wherein the step of navigating through the parse tree comprises: moving to a current context based on matching with a regular expression defined in the searched filter; Any further of moving out of the current context and moving relative to the current context. A twenty-sixth aspect is the twelfth aspect, wherein the step of navigating through the parse tree comprises moving to a current context based on iterative matching with a regular expression defined in the searched filter. , Moving out of the current context, and moving relative to the current context. A twenty-seventh aspect is a twenty-sixth aspect.
In the embodiment, the iterative matching of the regular expression is FO
Using a REACH "regular expression", wherein the destination node includes a string defined by said "regular expression". In a twenty-eighth aspect based on the twelfth aspect, the step of navigating through the parse tree includes moving to a current context based on repeated execution of a navigation command defined in the searched filter. The method further comprises any of moving out of the current context and moving relative to the current context.
A twenty-ninth aspect is the twenty-eighth aspect, wherein the iterative execution of the navigation command defined in the retrieved filter comprises using a FOREACH “structure” command, and the destination node is defined by the “structure”. Contains the string to be processed. A thirtieth aspect is the method according to the first aspect, wherein the step of navigating through the parse tree is based on structurally describing each desired location in the parse tree. Moving to at least one desired location. A thirty-first aspect is a method according to the first aspect, wherein the step of navigating through the parse tree is based on describing a regular expression included in the context of each desired location. Moving to one desired position. The thirty-second aspect is
In the first aspect, further, a step of generating a document including the at least one extracted element; a step of generating an evaluation value from the generated document; Deciding whether or not to satisfy, outputting the document if the evaluation value satisfies the one evaluation criterion, and outputting the document if the evaluation value does not satisfy the one evaluation criterion. Transforming the document into a transformed document and repeating the generating step and the determining step. A thirty-third aspect is a document filtering system for automatically filtering a document based on a selected filter to extract at least one element from the document, comprising: a parse tree generation memory; and a document filtering memory. And an extracted element output memory. A thirty-fourth aspect is the thirty-third aspect,
The parse tree generation memory analyzes the document to generate a parse tree. In a thirty-fifth aspect based on the thirty-fourth aspect, the parse tree is an abstract syntax tree. In a thirty-sixth aspect based on the thirty-fourth aspect, the document filtering system navigates in the parse tree based on a navigation command of the selected filter. In a thirty-seventh aspect based on the thirty-fourth aspect, the document filtering system extracts document elements from the document based on the selected filter report command and a current context of the parse tree. In a thirty-eighth aspect based on the thirty-seventh aspect, the document filtering system determines a current context of the parse tree by navigating within the parse tree based on a navigation command of the selected filter. I do. According to a thirty-ninth aspect, in the thirty-third aspect, a document size evaluation memory and a deformation memory are further provided. The fortieth aspect is the third aspect.
In an embodiment, the document size evaluation memory evaluates a parse tree generated by the parse tree generation memory from a filtered document including the at least one extracted element, and the document is evaluated by at least one evaluation. Determine whether the criteria are met. 4th
In one aspect, in the fortieth aspect, when the filtered document satisfies the at least one evaluation criterion, the filtered document has a display area smaller than a display area of a desktop monitor. Is output. In a forty-second aspect, in the forty-first aspect, if the filtered document does not satisfy the at least one evaluation criterion, the deformation memory deforms the parse tree using a first deformation to perform a 1 is generated. In a forty-third aspect, in the forty-fourth aspect, the document size evaluation memory evaluates the transformed analytic tree generated by the transformed memory and determines that at least one transformed document corresponding to the transformed analytic tree is in the form of a transformed document. Decide whether or not one of the two evaluation criteria is satisfied.

【0027】本発明のこれらの及び他の特徴及び利点が
以下の好ましい実施の形態の詳細な説明において述べら
れると共にそれから明らかとなる。
[0027] These and other features and advantages of the present invention are set forth and will be apparent from the following detailed description of the preferred embodiments.

【0028】[0028]

【発明の実施の形態】本発明の文書フィルタリングシス
テム及び方法の以下の説明において、用語”ウエブペー
ジ”、”ウエブ文書”及び”文書”は、イントラネッ
ト、インターネット、インターネットのワールドワイド
ウエブ部分やあらゆる他の既知の或いは将来開発される
分散形ネットワークのような、分散形ネットワークから
の一つのエンティティとして検索されるあらゆるセット
の情報を含むことを意図される。この情報は、テキスト
ストリング、画像、テキストストリングと画像の表、他
のウエブページへのリンク、テキストストリング、画
像、ウエブページ内の表及びリンクのレイアウトを定義
するフォーマット情報を含む。
DETAILED DESCRIPTION OF THE INVENTION In the following description of the document filtering system and method of the present invention, the terms "web page", "web document" and "document" will refer to the intranet, the Internet, the World Wide Web portion of the Internet, and any other. It is intended to include any set of information that is retrieved as one entity from a distributed network, such as a known or later developed distributed network. This information includes text strings, images, tables of text strings and images, links to other web pages, text strings, images, tables within web pages, and format information that defines the layout of the links.

【0029】多くの可能な自動文書再オーサリング技術
があり、それらは、二つのディメンション、即ち、構文
技術対意味技術及び変形技術対省略技術、に沿って分類
される。構文技術は、文書の構造上で働き、意味技術
は、内容のある程度の理解に依存する。省略技術は、基
本的に、ある情報を除去すると共にタッチされないすべ
てを残し、変形技術は、文書の表示又は内容のある態様
を変更することを含む。表1は、各カテゴリの例と共に
これらのディメンションを示す。
There are many possible automatic document re-authoring techniques, which are categorized along two dimensions: syntax versus semantic and transformation versus omission. Syntax techniques operate on the structure of a document, while semantic techniques rely on some understanding of the content. The abbreviated technique basically involves removing some information and leaving everything that is not touched, while the transforming technique involves changing some aspect of the display or content of the document. Table 1 shows these dimensions along with examples for each category.

【表1】 [Table 1]

【0030】自動化された文書再オーサリングシステム
によって必要な処理の理解をするために、一般的なウエ
ブページの特性を評価し、手作業による幾つかのウエブ
ページの再オーサリングの処理を介して候補再オーサリ
ング技術を識別するための研究が行われた。
In order to gain an understanding of the processing required by an automated document re-authoring system, the characteristics of general web pages are evaluated and candidate re-writing through the process of manually re-authoring some web pages. Research has been conducted to identify authoring techniques.

【0031】初めに、”典型的な”ウエブページ、ゼロ
ックスコーポレート(Xerox Corporate)ウエブサイ
ト、の収集が研究の焦点を定めるために選択された。31
88のウエブページのこの収集は、最新の専門的にデザイ
ンしたウエブサイトを代表する。一般的なページの構造
及び内容の理解を得るための助けとして、種々の統計量
は、これらのページに関して、ウエブクローラー(web
crawler)を使用して収集された。これらの統計量は、
全体のウエブに亘って実行された他の大規模な研究と略
一致する。
Initially, a collection of "typical" web pages, the Xerox Corporate website, was selected to focus the study. 31
This collection of 88 web pages is representative of the latest professionally designed websites. As an aid to gaining an understanding of the structure and content of the general page, various statistics are available for these pages,
crawler). These statistics are
Roughly consistent with other large studies performed across the entire web.

【0032】次に、ゼロックスウエブサイトのサブセッ
トのページが手作業での再オーサリングのために選択さ
れた。ゼロックす1995年次報告からの一セットのページ
が選択され、320x240画素スクリーンを有するシャープ
ザウルス(Sharp Zaurus)PDA上に表示するために手作
業で変換された。使用された設計方法及び技術の詳細な
ノート(注記)が維持された。
Next, a subset of the pages of the Xerox website were selected for manual re-authoring. A set of pages from the Xerox 1995 annual report was selected and manually converted for display on a Sharp Zaurus PDA with a 320x240 pixel screen. Detailed notes on the design methods and techniques used have been maintained.

【0033】この処理の間に学習されたデザインヒュー
リスティックス(発見)の幾つかは以下の通りである。 (1)原画像の少なくとも幾つかを維持することは、原
文書の見栄え及び感じを維持するために重要である。共
通の技術は、第1の画像のみ、又は最初及び最後の画
像、即ち、ブックエンド画像、を維持して残りの画像を
省略することを含む。 (2)セクションヘッダ、即ち、HTMLのH1-H6タグは、
正確にはそれほどしばしばは使用されない。それらのヘ
ッダは、使用される場合は、例えば、ボールドのよう
な、特定のフォントサイズ及びスタイルを達成するため
に、かなりしばしば使用される。このように、セクショ
ンヘッダは、大部分の書類のための構造的アウトライン
を提供するためには、信頼できない。代わりに、多くの
テキストブロックを有する文書は、各テキストブロック
を第1のセンテンス又は各ブロックのフレーズで置き換
えること、即ち、第1のセンテンスの削除によって減少
され得る。 (3)画像に対する最初の処理は、標準の割合で全ての
画像のサイズを縮小して、文書がオーサリングされた表
示領域の目標装置の表示領域に対する比率によって記述
することである。 (4)意味省略は、ページに表される主概念に付随する
情報を表すサイドバーに対して実行され得る。ゼロック
スページの多くがそのようなサイドバーを備え、それら
は、単純に減少(縮小)されたバージョンでは削除され
た。 (5)また、意味省略は、情報をそのページに貢献させ
ないが、その審美性を改良するのみに働く画像に実行さ
れ得る。 (6)ページは、カテゴリー化され、次にそれらのカテ
ゴリーに基づいて再オーサリングされ得る。これらの二
つの例は、バナーとリンク表である。バナーは、主に一
セットの画像と、少数ののナビゲーションリンク(これ
は一つのみが多い)とを含み、それらのリンクは、審美
的外観を構築するように働くが、殆ど又は全く内容を含
まない。スペースがプレミアムの場合(額面以上である
場合)、それらは、通常全体的に省略され得る。リンク
表ページは、主に、他のページへのハイパーテキストリ
ンクのセットであり、従って、ほんの僅かな追加の内容
を含む。これらのリンクページは、通常、次のブロック
のそれらのリンクをリストアップする、よりコンパクト
なフォームに再フォーマッティングされ得る。 (7)大きな表示上では価値無い白スペースが小さな装
置では貴重である。幾つかの技術は、ページ中の白スペ
ースの量を減少するために発見された。パラグラフのシ
ーケンス、即ち、HTML "P"タグやブレーク(区切
り)、即ち、HTML "BR"タグ、が一つのそのようなパラ
グラフやブレークに縮小され得る。リスト、即ち、HTL
M"UL"、"OL"及び/又は"DL"タグ、はそれらのインデンテ
ィング(字下げ)及びバレット(黒丸)を有する価値の
ある水平方向スペースを取る。これらのリストは、クー
パー(Cooper)らが述べたように、連続する項目(アイ
テム)間のブレークを備える簡単なテキストブロックに
再フォーマッティングされ得る。
Some of the design heuristics learned during this process are as follows: (1) Maintaining at least some of the original images is important to maintain the look and feel of the original document. Common techniques include maintaining the first image only, or the first and last images, ie, the bookend image, and omitting the remaining images. (2) The section header, that is, HTML H1-H6 tags,
Not exactly that often used. Those headers, if used, are used quite often to achieve a particular font size and style, for example, bold. Thus, section headers are not reliable to provide a structural outline for most documents. Alternatively, a document with many text blocks may be reduced by replacing each text block with the first sentence or phrase of each block, ie, deleting the first sentence. (3) The first process for images is to reduce the size of all images by a standard percentage and describe by the ratio of the display area where the document is authored to the display area of the target device. (4) Meaning omission can be performed on a sidebar representing information accompanying the main concept represented on the page. Many Xerox pages have such sidebars, and they have simply been removed in a reduced (minified) version. (5) Also, semantics omission can be performed on images that do not contribute information to the page but only serve to improve its aesthetics. (6) Pages can be categorized and then re-authored based on those categories. These two examples are a banner and a link table. Banners mainly include a set of images and a small number of navigation links (often only one), which serve to build an aesthetic appearance, but with little or no content. Not included. If the space is premium (above par), they can usually be omitted entirely. A link table page is primarily a set of hypertext links to other pages, and thus contains only a small amount of additional content. These link pages can typically be reformatted into a more compact form that lists those links in the next block. (7) A white space that is not valuable on a large display is valuable for a small device. Several techniques have been discovered to reduce the amount of white space in a page. A sequence of paragraphs, i.e., HTML "P" tags or breaks, i.e., HTML "BR" tags, can be reduced to one such paragraph or break. List, ie HTL
The M "UL", "OL" and / or "DL" tags take up valuable horizontal space with their indentation (indentation) and bullets (solid circles). These lists can be reformatted into simple text blocks with breaks between successive items, as described by Cooper et al.

【0034】結論として、文書再オーサリングを実行す
るためには、二つの事が必要である。即ち、一セットの
再オーサリング技術、即ち、一セットのページ変形と、
ページ変形を適用するための戦略とである。手作業によ
る再オーサリングの研究で使用される技術の内の成文化
のために最も大切な技術は、セクションアウトライン
化、第1センテンス省略及び画像省略を含む構文省略技
術と、画像サイズ縮小及びフォントサイズ縮小を含む構
文変形技術であった。この研究の間に学んだデザイン戦
略は、変形技術のランク付け、即ち、種々のトライア
ル、及び各変形又は変形の組合せが適用されるべき条件
のセットを含んでいる。
In conclusion, two things are necessary to perform document reauthoring. That is, a set of re-authoring techniques, ie, a set of page transformations,
And a strategy for applying page transformation. Among the techniques used in manual re-authoring research, the most important techniques for codification are syntax elimination techniques, including section outlining, first sentence elimination and image elimination, and image size reduction and font size. It was a syntax transformation technique involving reduction. The design strategies learned during this study include ranking of deformation techniques, ie, various trials, and the set of conditions under which each deformation or combination of deformations should be applied.

【0035】上述された研究の結果に続いて、本発明の
文書再オーサリングシステム及び方法に対して二つの大
きな要素がある。即ち、種々の方法で文書を変形する個
々の再オーサリング技術の収集と、所与の文書/表示サ
イズ対のために技術の最良の組合せを選択することによ
ってデザイン戦略を実施する自動化文書再オーサリング
システム及び方法である。
Following the results of the studies described above, there are two major factors to the document re-authoring system and method of the present invention. An automated document re-authoring system that implements a design strategy by collecting individual re-authoring techniques that transform the document in various ways and selecting the best combination of techniques for a given document / display size pair. And method.

【0036】セクションヘッダアウトライン化(Sectio
n Header Outlining)変形は、技術論文及びレポート
のような、構造的文書のために必要な表示サイズを減少
するための優れた方法を提供する。このアウトライン化
処理は図1に示されている。
Section header outline (Sectio
n Header Outlining) variants provide an excellent way to reduce the required display size for structured documents, such as technical articles and reports. This outlining process is shown in FIG.

【0037】図1に示されるように、文書100は、セ
クションページ110のリストに変換され、各セクショ
ンは、ページ111の中に省略される。即ち、文書10
0の各セクション102の内容106は、文書100か
ら省略され、各セクションヘッダ104がハイパーテキ
ストに変換される。何れかのセクションに対するハイパ
ーテキストリンクが選択されると、省略された内容の対
応するページ(セクション112)がブラウザにロード
される。複数のセクションレベル(セクション、サブセ
クション、サブセクションのサブセクション、等)に直
面すると、省略を実行するための二つのアプローチがあ
る。第1のアプローチは、完全なアウトラン化であり、
それは、セクションヘッダのみが維持され、その結果
は、本の目次のように見える。第2のアプローチは、レ
ベルへの(to-level)アウトライン化である。このレベ
ルへのアウトライン化において、セクション階層のカッ
トオフレベルが決定され、より低いレベルのセクション
ヘッダを含む、そのレベルより下のすべての内容が省略
されるが、それより上の全ての内容が維持される。
As shown in FIG. 1, the document 100 is converted into a list of section pages 110, each section being omitted in the page 111. That is, the document 10
0, the content 106 of each section 102 is omitted from the document 100, and each section header 104 is converted to hypertext. When a hypertext link to any section is selected, the corresponding page (section 112) with the omitted content is loaded into the browser. When faced with multiple section levels (sections, subsections, subsections of subsections, etc.), there are two approaches to performing omissions. The first approach is a complete outrun,
It retains only the section headers, and the result looks like a table of contents for the book. The second approach is to-level outlining. Outlining to this level determines the cutoff level of the section hierarchy, omits all content below that level, including the lower level section headers, but preserves all content above it Is done.

【0038】大部分のページがテキストブロックを有す
るので、セクションヘッダが存在しない場合でさえ、第
1センテンス省略(First Sentence Elision)変形
は、必要なスクリーン領域を減少する優れた方法であり
得る。この技術において、各テキストブロックは、その
第1のセンテンス、或いは自然のブレーク点までのその
第1のフレーズで置き換えられる。この第1のセンテン
ス又はフレーズは、またもとのテキストブロックに対す
るハイパーテキストリンクとされる。
Since most pages have text blocks, the First Sentence Elision variant can be a good way to reduce the required screen area, even if there is no section header. In this technique, each block of text is replaced by its first sentence, or its first phrase up to a natural breakpoint. This first sentence or phrase is also a hypertext link to the original text block.

【0039】インデックス付けされたセグメント(Inde
xed Segment)変形は、初めに、順序付けされた或いは
順序付けされていないリスト、パラグラフや表のシーケ
ンスのような、論理的に区分され得るページ要素を見つ
けることを試みる。この変形は、入力ページを受け取
り、項目のある数を各々のサブページに割り当てること
によって、その内容をサブページにセグメント化し、イ
ンデックスページを構築してそれをサブページの集まり
に対して準備する。次に、インデックス付けされたセグ
メント変形は、各ページがクライアントの表示サイズに
対して”完全”であるまで、出力ページにこれらの要素
を順序通りに充填することを開始する。単一の論理要素
が単一の出力ページに当てはまらない場合、次に、イン
デックス付けされたセグメント変形は、パラグラフ又は
センテンス境界上のテキストブロックを区分する第2の
区分化を実行する。
The indexed segment (Inde
The xed Segment) variant first attempts to find a page element that can be logically partitioned, such as an ordered or unordered list, paragraph or sequence of tables. This variant takes an input page and segments its contents into subpages by assigning a certain number of items to each subpage, building an index page and preparing it for a collection of subpages. Next, the indexed segment transformation begins to fill the output page with these elements in order until each page is "perfect" for the client's display size. If a single logical element does not apply to a single output page, then the indexed segment variant performs a second partitioning that partitions text blocks on paragraph or sentence boundaries.

【0040】インデックス付けされたセグメント変形に
おいて、可能な限り多くのスタイル情報は、その祖先区
分のHTMLタグの全ての中に埋め込まれた各エレメント
(要素)を出力することによって、出力エレメントに対
して保持される。次に、インデックス付けされたセグメ
ント変形は、出力されるべき各エレメントからセクショ
ンヘッダ又は第1のセンテンスをコピーし、コピーされ
た部分をインデックスページに連結し、各コピーされた
部分から適切なサブページへのハイパーテキストリンク
を生成することによってインデックスページを構成す
る。インデックスページ自体が、区分化される必要があ
る場合があることを理解すべきである。インデックス付
けされたセグメント変形において、更に、連続するサブ
ページ間の"Next"及び"Previous"ナビゲーションリンク
がナビゲーションの便宜のために追加される。
In the indexed segment transformation, as much style information as possible is output to each output element by outputting each element embedded within all of the ancestor section's HTML tags. Will be retained. Next, the indexed segment variant copies the section header or first sentence from each element to be output, concatenates the copied portion to the index page, and from each copied portion the appropriate subpage Construct an index page by creating a hypertext link to. It should be understood that the index page itself may need to be partitioned. In the indexed segment variant, further, "Next" and "Previous" navigation links between successive subpages are added for navigation convenience.

【0041】表(Table)変形は、ページ上の表、即
ち、矩形格子状に配置された情報の表示、がクライアン
トに直接送られない時に、認められる。これらの場合、
表変形は、上から下への、左から右への順序を使用し
て、表のセル当り一つのサブページを生成する。表内に
入れ子にされた表は、同様に処理される。表コラムが市
販のHTMLウエブページで一般に行われている”ナビゲー
ションサイドバー”として使用されている時を決定する
ために、表変形はヒューリスティックスを使用する。こ
の場合、表変形は、それらのセルがほんの僅かな内容を
支持することを意図するので、これらのセルをサブペー
ジのリストの最後に移動する。
Table deformation is recognized when a table on the page, ie, a display of information arranged in a rectangular grid, is not sent directly to the client. In these cases,
Table transformation uses a top-to-bottom, left-to-right order to create one subpage per table cell. Tables nested within the table are treated similarly. Table transformations use heuristics to determine when a table column is being used as a "navigation sidebar" commonly done on commercial HTML web pages. In this case, the table transformation moves these cells to the end of the list of subpages, since those cells intend to support very little content.

【0042】図2は、入れ子表を示し、表を表セルより
も太い境界でマークする。図2に示される表120にお
いて、セル122は、サイドバーとして識別され、それ
は、セル128の後に配される。他のセルの全ては、そ
れらの自然の順序で配される。サブセル125及び12
6のような、セル124の六つの部分は、それらが白ス
ペースのみしか含まない場合、各々サブセル123及び
127を含むサブページ同士間のそれら自体のサブペー
ジに配される。
FIG. 2 shows a nested table, where the table is marked with a thicker border than the table cells. In the table 120 shown in FIG. 2, cell 122 is identified as a sidebar, which is placed after cell 128. All of the other cells are arranged in their natural order. Subcells 125 and 12
Six portions of cells 124, such as 6, are placed on their own subpage between subpages, each containing subcells 123 and 127, if they only contain white space.

【0043】この例から理解されるように、入れ子テー
ルブ及びサイドバーは、表の処理を複雑にする。これ
は、そのサイドバーが内側の表の部分である場合、特に
当てはまる。この状態で、サイドバーは、何れかの取り
囲む表の最後にではなくて、内側の表の最後へ移動され
るべきである。本発明の文書再オーサリングシステム及
び方法の例示の実施の形態において、表によってセルを
グループ化するのではなくて、サイドバーが一度に一つ
の表に移動されて、次に全ての表セルが一度に処理され
る。
As can be seen from this example, nested tails and sidebars complicate table processing. This is especially true if the sidebar is part of the inner table. In this situation, the sidebar should be moved to the end of the inner table, not to the end of any enclosing tables. In an exemplary embodiment of the document re-authoring system and method of the present invention, rather than grouping cells by table, the sidebar is moved one table at a time and then all table cells are Is processed.

【0044】画像が存在することは、自動文書再オーサ
リングにとって最も困難な問題の一つである。その理由
は、所与の画像を維持、縮小、又は削除されるべきか否
かの決定が、そのページの画像の内容及び役割の理解に
基づくべきであるという点である。しかしながら、画像
縮小(Image Reduction)変形及び画像省略(ImageEli
sion)変形は、ユーザが原画像を検索できるメカニズム
がユーザに提供される限りにおいて、内容の理解無し
に、適用できる。本発明のシステム及び方法の例示の実
施の形態において、画像縮小変形は、25%、50%及
び75%のような一セットの予め定義されたスケーリン
グファクタの一つによって一ページ中の全ての画像を縮
小し、縮小された画像を原画像にリンクするハイパーテ
キストリンクにする。
The presence of an image is one of the most difficult problems for automatic document re-authoring. The reason is that the decision whether to keep, reduce, or delete a given image should be based on an understanding of the content and role of the image on that page. However, image reduction (Image Reduction) and image omission (ImageEli)
sion) deformation can be applied without understanding the content, as long as the user is provided with a mechanism to search the original image. In an exemplary embodiment of the system and method of the present invention, the image reduction deformation is performed on all images in a page by one of a set of predefined scaling factors, such as 25%, 50% and 75%. To a hypertext link that links the reduced image to the original image.

【0045】画像縮小変形に加えて、三つの意味省略
(Syntactic Elision)変形もまた画像のために開発さ
れた。全て省略(Elide All)変形、第1画像のみ(Fi
rst Image Only)変形、及びブックエンド(Bookend
s)変形である。全て省略変形において、その文書から
全ての画像が省略される。第1画像のみ変形において、
第1の画像を除いて全てが文書から省略される。ブック
エンド変形において、第1及び最後の画像以外の全てが
文書から省略される。省略された画像の各々は、利用可
能な場合、それらのHTLM"ALT"テキストで置き換えられ
る。ALTテキスト又は各省略された画像に対する標準の
アイコンもまたその原画像に対するハイパーテキストリ
ンクにされる。
In addition to image reduction variants, three Syntactic Elision variants have also been developed for images. All omitted (Elide All) deformation, only the first image (Fi
rst Image Only) transformation and bookend
s) It is a deformation. In the all-absent transformation, all images are omitted from the document. In the deformation of only the first image,
All but the first image are omitted from the document. In the bookend variant, all but the first and last images are omitted from the document. Each of the omitted images will be replaced with their HTLM "ALT" text, if available. The ALT text or the standard icon for each omitted image is also made a hypertext link to the original image.

【0046】本発明の文書再オーサリングシステム及び
方法の一例示の実施の形態において、スクリーンスペー
スがあまりに制限されている場合又はクライアント装置
が画像を表示できない場合、これらの画像が文書から除
去される。しかしながら、除去された画像は、クライア
ントサイド画像マップを介するハイパーテキストリンク
のためのアンカーとして使用され得る。そのような画像
が除去される場合、HTML文書によって表されるウエブサ
イトがナビゲーション不能にレンダリングされ得ること
が理解されるべきである。これを可能とするために、本
発明の文書再オーサリングシステム及び方法の一例示の
実施の形態において、そのような画像からハイパーテキ
ストリンクを抽出してそれらをリンクアンカーのテキス
トリストにフォーマット化する変形が使用される。この
テキストリストのラベルは、存在する場合、画像マップ
のHTLM"ALT"タグから或いはそのリンクのURL(一様資源
ロケーター)の部分から抽出される。この変形は、画像
を除去する場合、ナビゲーションのために画像に取付ら
れるリンクを保存する。
In one exemplary embodiment of the document re-authoring system and method of the present invention, if screen space is too limited or if the client device cannot display the images, those images are removed from the document. However, the removed image can be used as an anchor for a hypertext link via a client-side image map. It should be understood that if such images are removed, the website represented by the HTML document may be rendered non-navigable. To enable this, in one exemplary embodiment of the document re-authoring system and method of the present invention, a variant that extracts hypertext links from such images and formats them into a text list of link anchors Is used. The label of this text list, if present, is extracted from the HTLM "ALT" tag in the image map or from the URL (uniform resource locator) portion of the link. This variant preserves the links attached to the image for navigation when removing the image.

【0047】所与のクライアント表示のためにどのよう
な組合せの変形を所与のページへ適用するかを決定する
ための全体の処理は、初めに人間の審美能力のあるフォ
ーム(形)を必要とするように思える。しかしながら、
本発明の自動文書再オーサリングシステム及び方法は、
手作業による再オーサリング実行で使用されるヒューリ
スティックス(発見)の多くを捕獲し、所与の表示のた
めの良く見えるページを生成する非常に優れた仕事を行
う。
The overall process for determining what combination of transformations to apply to a given page for a given client display requires first a human aesthetically competent form. It seems to be. However,
The automatic document re-authoring system and method of the present invention comprises:
It captures much of the heuristics (findings) used in manual re-authoring runs and does a very good job of producing a good looking page for a given display.

【0048】個々のページ変形がそれらの好ましさによ
って順序付けされる。変形のどの組合せが所与の文書に
適用されるべきかを決定するために、本発明の文書再オ
ーサリングシステム及び方法は、変形のための予備条件
及び変形の組合せを記述する多くのヒューリスティック
スを使用して、文書変形スペースのデプスファースト
(depth-first)検索を実行する。デプスファースト検
索は、最も望ましい変形の組合せを使用することによっ
て、文書の”十分に良い”バージョンが検出されること
を保証する。より望ましい変形が適用できない場合や文
書を十分に縮小できない場合のみ、あまり好ましくない
変形が使用される。
The individual page variants are ordered by their preference. To determine which combination of transformations should be applied to a given document, the document re-authoring system and method of the present invention uses a number of heuristics that describe the preconditions for transformations and the combination of transformations. And perform a depth-first search of the document transformation space. Depth-first search ensures that a "good enough" version of the document is found by using the most desirable combination of variants. Less preferred variants are used only when more desirable variants cannot be applied or when the document cannot be sufficiently reduced.

【0049】本発明の文書再オーサリングシステム及び
方法は、一番優れた方法で文書変形スペースを検索す
る。この検索スペースの各状態は、文書の一つのバージ
ョンを表し、最初の状態は、”オーサリングされたま
ま”の文書を表す。各状態は、その状態で文書バージョ
ンの質を表すメリットの尺度を表す数値でタグ付けされ
る。各状態に対するメリットの尺度、即ち、評価関数又
は評価値、は、文書がその状態に存在するままに、全体
の文書を表示することを要求されるスクリーン領域の大
まかな推定である。一つの状態は、その状態に存在する
ように単一の変形技術を再オーサリング済文書に適用す
ることによって、後続の状態に拡張される。
The document re-authoring system and method of the present invention retrieves the document deformation space in the best way. Each state of the search space represents one version of the document, and the first state represents the document "as authored". Each state is tagged with a number that represents a measure of the merit that represents the quality of the document version in that state. The measure of merit for each state, the evaluation function or value, is a rough estimate of the screen area required to display the entire document while the document remains in that state. One state is extended to subsequent states by applying a single transformation technique to the re-authored document to exist in that state.

【0050】検索処理の全てのステップにおいて、文書
の最も見込みのある状態、即ち、最も小さい現在の表示
領域要求を有する状態、が選択され、可能な場合は、変
形は、文書の現在の状態からその文書のより見込みのあ
る状態へその文書を変形するために適用される。”十分
に良い”文書バージョンを含む状態が生成されるやいな
や、検索が中断でき、その文書のそのバージョンがレン
ダリングのためにクライアント装置へ戻される。或い
は、検索は、原ページの全ての内容が含まれるか一セッ
トの十分に優れたサブページに表されるまで、続けられ
る。検索が行われ尽くされ、十分に優れた文書バージョ
ンが発見されない場合、この検索の間に発見された最良
の文書が、レンダリングのために、クライアント装置へ
戻される。最良の文書によって満足されない厳しいサイ
ズ制約がある場合、文書をパラグラフの中間でブレーク
アップするより分解的な変形が適用される。
In every step of the search process, the most probable state of the document, ie, the state with the smallest current display area requirement, is selected, and if possible, the transformation is made from the current state of the document. Applied to transform the document into a more promising state of the document. As soon as a state is generated that contains a "good enough" document version, the search can be interrupted and that version of the document is returned to the client device for rendering. Alternatively, the search is continued until the entire content of the original page is included or represented in a set of good sub-pages. If the search is exhausted and a sufficiently good document version is not found, the best document found during this search is returned to the client device for rendering. If there are stringent size constraints that are not satisfied by the best document, a more decomposable deformation that breaks up the document in the middle of a paragraph is applied.

【0051】図3は、文書200に異なる変形を適用し
て異なる結果となる再オーサリング済サブページ21
0,220及び230を生成する方法を示す。ユーザに
よって本発明のシステム及び方法へ供給される情報に依
存して、サブページ210,220及び230の一つ
が”最良の”再オーサリング済ページとして選択され
る。次に、例えば、第1のサブページから除去された内
容のために十分に優れたサブページを生成するために更
なる再オーサリングが必要な場合、或いは最良のサブペ
ージがまだ”十分に良い”でない場合、選択された最良
の再オーサリング済サブページ210,220又は23
0から得られたサブページに或いは選択された最良の再
オーサリング済サブページ210、220又は230を
再オーサリングするために、追加の変形が適用され得
る。
FIG. 3 shows a re-authored sub-page 21 that applies different transformations to the document 200 and produces different results.
The method for generating 0, 220 and 230 is shown. Depending on the information provided by the user to the system and method of the present invention, one of the subpages 210, 220 and 230 is selected as the "best" re-authored page. Then, for example, if further re-authoring is needed to generate a sub-page that is good enough for the content removed from the first sub-page, or the best sub-page is still "good enough" If not, the selected best re-authored subpage 210, 220 or 23
Additional variants may be applied to the subpages obtained from 0 or to re-author the selected best re-authored subpage 210, 220 or 230.

【0052】ヒューリスティック情報が本発明の文書再
オーサリングシステム及び方法によって次の幾つかの場
合に使用される。それらの場合は、種々の変形技術が所
与の状態に適用される順序、各変形技術に対する予備条
件、及び文書のバージョン又はサブページが”十分に良
い”である時の決定を含む。一般に、その文書を僅かに
変化する変形は、より大きな変化を行う変形よりも好ま
しい。例えば、25%だけ画像を減少することは、それ
らの画像を75%縮小することよりも好ましい。
Heuristic information is used by the document re-authoring system and method of the present invention in several cases. These cases include the order in which the various transformation techniques are applied to a given state, the prerequisites for each transformation technique, and the determination when a document version or subpage is "good enough". In general, variations that change the document slightly are preferred over variations that make larger changes. For example, reducing images by 25% is preferable to reducing those images by 75%.

【0053】各変形技術に対する予備条件は、その変形
が組み合わされ得るその他の変形を指定する。例えば、
フルアウトライン化及び第1のセンテンス省略の両方を
同じ文書に適用することは、意味がない。また、予備条
件は、その技術が適用されている文書の内容及び構造に
ついての必要条件を指定する。例えば、フルアウトライ
ン化(Full Outlining)変形は、再オーサリング待ち
その文書又はサブページに少なくとも三つのセクション
ヘッドがある場合にのみ適用されるべきである。”十分
に良い”のための現在の条件は、非常に単純化されてい
る。即ち、検索は、文書又はサブページによって必要と
される領域がクライアント表示の所定のマルチプル(複
数)のスクリーン領域である場合に、停止される。一般
に、この所定のマルチプルは1よりも大きく、一実施の
形態では、2.5である。このより高いマルチプルは、ユ
ーザが一つの方向へほんの僅かでも表示をスクロールし
たくないことを仮定するに過ぎない。
The preconditions for each variant technique specify other variants with which the variant can be combined. For example,
It does not make sense to apply both full outlining and first sentence abbreviation to the same document. The preliminary condition specifies a necessary condition for the content and structure of a document to which the technology is applied. For example, the Full Outlining variant should only be applied if there are at least three section heads in the document or subpage waiting to be re-authored. The current conditions for "good enough" have been greatly simplified. That is, the search is stopped if the area required by the document or subpage is a predetermined multiple screen area of the client display. Generally, this predetermined multiple is greater than one, and in one embodiment, is 2.5. This higher multiple merely assumes that the user does not want to scroll the display in only one direction.

【0054】図2の示されるように、変形が文書に適用
されると、文書が複数のより小さな”サブページ”に分
割され得る。しかしながら、これらのサブページの各々
は、まだ大き過ぎてダウンロードしてクライアント表示
上に表示できないかもしれない。この問題を解決するた
めに、本発明の文書再オーサリングシステム及び方法
は、結果としての文書バージョンを表示する状態に取付
られる各シーケンスの変形によって生成されるサブペー
ジのリストを保つ。実際にはクライアントへ送出される
第1サブページの十分に優れたバージョンのみである文
書の十分に優れたパージョンが選択されると、そのバー
ジョンに対する生成されたサブページのリストが再オー
サリング待ちページの全体のリストへ追加される。次
に、本発明の文書再オーサリングシステム及び方法は、
結果としてのサブページの全てがクライアントへ送出さ
れるまで、これらの再オーサリング待ちページの各々を
再オーサリングする。この手順は、以下の擬似コードで
示されており、そこで”再オーサリング”は、単一の入
力ページに対する上述の最良再オーサリング処理と呼ば
れる。
As shown in FIG. 2, when a transformation is applied to a document, the document may be divided into a plurality of smaller "sub-pages". However, each of these subpages may still be too large to download and display on the client display. To solve this problem, the document re-authoring system and method of the present invention maintains a list of sub-pages generated by each sequence variant that is attached to display the resulting document version. If a sufficiently good version of the document is selected, which is in fact only a sufficiently good version of the first subpage sent to the client, the list of generated subpages for that version will be the number of pages waiting for re-authoring. It is added to the whole list. Next, the document re-authoring system and method of the present invention comprises:
Re-author each of these pending re-authoring pages until all of the resulting sub-pages have been sent to the client. This procedure is illustrated by the following pseudo code, where "re-authoring" is referred to as the best re-authoring process described above for a single input page.

【0055】 Digestor(initial page) to be reauthored={initial page} to deliver={} while(to be reauthored!={}) next page=pop(to be reauthored) best version state=reauthor(next page) to deliver.append(best version state.page) to be reauthored.append(best version state.sub pages) return to deliverDigestor (initial page) to be reauthored = {initial page} to deliver = {} while (to be reauthored! = {}) next page = pop (to be reauthored) best version state = reauthor (next page) to deliver.append (best version state.page) to be reauthored.append (best version state.sub pages) return to deliver

【0056】全ての再オーサリング済サブページは変形
された解析ツリーとしてキャッシュされる。ユーザが変
形された文書をナビゲートしてサブページを要求する
と、対応する解析ツリーがレンダリングされてクライア
ントへ送られる。
All re-authored subpages are cached as a modified parse tree. When the user navigates through the transformed document and requests a subpage, the corresponding parse tree is rendered and sent to the client.

【0057】本発明の文書再オーサリングシステム及び
方法は、最初に文書を解析し、その文書の解析ツリー又
は抽象構文ツリー(AST)表現を構成することによって
文書を再オーサリングする。次に、本発明の文書再オー
サリングシステム及び方法は、一連の変形を解析ツリー
に適用する。次に、本発明の文書再オーサリングシステ
ム及び方法は、各得られる変形された解析ツリーを文書
表現にマッピングし返す。それは、原文書の入力フォー
マットとは異なる文書フォーマット内にあり得る。
The document re-authoring system and method of the present invention re-author a document by first parsing the document and constructing a parse tree or abstract syntax tree (AST) representation of the document. Next, the document re-authoring system and method of the present invention applies a series of transformations to the parse tree. Next, the document re-authoring system and method of the present invention maps each resulting transformed parse tree back to a document representation. It can be in a different document format than the input format of the original document.

【0058】文書バージョンスペース内に一つの状態ノ
ードを取りその変形がその状態に適用されるべき場合に
真に戻る状態関数と、その変形が実際に一つの状態に適
用されて、新たな文書バージョン、新たな品質の尺度、
及び得られるサブページを含む新たな一つの状態を生成
する時に呼び出されるアクション関数と、を含む、標準
の手順を使用して、文書変形が実行される。変形の三つ
のタイプが定義され得る。一つは、プランニング処理が
開始する前に、常にページ上に実行される変形であり、
二つ目は、最良のプランニング処理で使用される変形で
あり、三つ目は、最終の抽象構文ツリーからHTMLのよう
な表面フォームに変形し返される前に、常にページ上で
実行される変形である。
A state function that takes one state node in the document version space and returns true if the transformation is to be applied to that state, and a new document version in which the transformation is actually applied to one state. , A new measure of quality,
The document transformation is performed using standard procedures, including: and an action function that is called when creating a new state including the resulting subpage. Three types of deformation can be defined. One is a variant that is always executed on the page before the planning process starts,
The second is the transformation used in the best planning process, and the third is the transformation that is always performed on the page before the final abstract syntax tree is transformed back into a surface form such as HTML. It is.

【0059】変形は、文書の新たなバージョンを生成す
るために、変形が適用される状態において、解析ツリー
を操作する。それらの操作は、1996年5月、フランスの
パリにおいて、第5回国際ワールドワイドウエブ会議で
のS. Bonhomme等による"Interactively Restructurin
g HTML Documents"に記述されたものと同様である。
解析ツリーの複数の部分が省略又は変形される時は常
に、全ての影響された解析ツリーのサブツリーのノード
識別子を参照するために、HTMLハイパーテキストリンク
は解析ツリーに追加され、ユーザが再オーサリングの間
に変更された文書の原部分を要求することが可能であ
る。
Transforms operate on the parse tree while the transforms are applied to generate a new version of the document. These operations were performed by S. Bonhomme et al. At the 5th International World Wide Web Conference in Paris, France, May 1996, "Interactively Restructurin.
g HTML Documents ".
Whenever parts of the parse tree are omitted or transformed, an HTML hypertext link is added to the parse tree to refer to the node identifiers of all affected parse tree subtrees, and the user has to re-authorize the parse tree. It is possible to request the original part of the document that was changed in the meantime.

【0060】また、本発明の文書再オーサリングシステ
ム及び方法は、全ての変形が交換可能であると仮定する
と、二つの同じ状態が構成されないように、変形のどの
組合せがすでに試みられたかをトラック(追跡)を維持
する。
The document re-authoring system and method of the present invention also tracks which combination of transformations has already been attempted (assuming that all transformations are interchangeable) so that no two identical states are constructed. Tracking) to maintain.

【0061】上述のように、本発明の一例示の文書再オ
ーサリングシステム及び方法は、HTTPプロキシサーバー
として実施された。HTTPプロキシサーバーは、HTML文書
に対する要求を受信し、指定されたHTTPサーバーから文
書を検索し、HTML文書を解析し、検索されたHTML文書か
ら解析ツリー即ち抽象構文ツリーを構成し、独自の識別
子で解析ツリーノードの各々をラベル付けし、そしてあ
らゆる埋め込まれた画像を検索し、必要ならば、検索さ
れた画像のサイズが決定され得る。これが完了すると、
本発明の文書再オーサリングシステム及び方法は、原検
索された文書に対する解析ツリーを含む状態で初期化さ
れる。各再オーサリングサイクルの間、本発明の文書再
オーサリングシステム及び方法は、可能な限り最良の文
書バージョンを有する状態を選択し、次に、最良に適用
できる変形技術を選択し、その選択された変形を適用
し、新たな状態及び新たな文書バージョンが生成され
る。冗長な状態が構成されないように、変形の畳み込み
が絶えず交換可能であり、幾つかのチェックが本発明の
再オーサリングシステム及び方法によって使用されるこ
とが行われ得る。
As described above, one exemplary document reauthoring system and method of the present invention has been implemented as an HTTP proxy server. The HTTP proxy server receives the request for the HTML document, retrieves the document from the designated HTTP server, parses the HTML document, constructs a parse tree or abstract syntax tree from the retrieved HTML document, and uses a unique identifier. Label each of the parse tree nodes and search for any embedded images, if necessary, the size of the searched image can be determined. When this is complete,
The document re-authoring system and method of the present invention is initialized to include a parse tree for the original retrieved document. During each re-authoring cycle, the document re-authoring system and method of the present invention selects the state with the best possible document version, then selects the best applicable deformation technique, and selects the selected deformation. To generate a new state and a new document version. Deformation convolutions are constantly interchangeable so that redundant states are not configured, and some checks may be made to be used by the re-authoring system and method of the present invention.

【0062】本発明の文書再オーサリングシステム及び
方法の一例示の実施の形態において、次の15の変形技
術が実行された。フルアウトライン(FullOutline)、
アウトラインツーH1(OutlineToH1)、アウトラインツ
ーH2(OutlineToH2)、アウトラインツーH3(OutlineTo
H3)、アウトラインツーH4(OutlineToH4)、アウトラ
インツーH5(OutlineToH5)、アウトラインツーH6(Out
lineToH6)、ファーストセンテンス省略(FirstSentenc
eElision)、縮小画像25%(ReduceImages25%)、縮
小画像50%(ReduceImages50%)、縮小画像75%(R
educeImages75%)、省略全画像(ElideAllImages)、第
1画像のみ(FirstImageOnly)、ブックエンド画像(Bo
okendImages)及び縮小フォントサイズ(ReduceFontSiz
e)である。
In one exemplary embodiment of the document re-authoring system and method of the present invention, the following fifteen variations are performed. Full outline (FullOutline),
Outline2 H1 (OutlineToH1), Outline2 H2 (OutlineToH2), Outline2 H3 (OutlineTo
H3), Outline2 H4 (OutlineToH4), Outline2 H5 (OutlineToH5), Outline2 H6 (Out
lineToH6), First sentence omitted (FirstSentenc)
eElision), reduced image 25% (ReduceImages25%), reduced image 50% (ReduceImages50%), reduced image 75% (R
educeImages75%), omitted all images (ElideAllImages), first image only (FirstImageOnly), bookend image (Bo
okendImages) and reduced font size (ReduceFontSiz)
e).

【0063】本発明の文書再オーサリングシステム及び
方法の一例示の実施の形態は、ジャバ(Java)プログラ
ミング言語で実行された。真のプロキシサーバーとして
機能することに加えて、また、このHTTPプロキシサーバ
ーシステムは、HTTPプロキシサーバー自体によって生成
された文書を有する幾つかのURLに対する要求に応答で
きる。これは、HTTPプロキシサーバー及び文書再オーサ
リングシステムと方法へのフォームベースの制御をユー
ザに提供するために使用される。文書再オーサリングシ
ステムのこの例示の実施の形態は、シマンテックジャバ
JIT(Symantec's Java JIT)コンパイラを使用して、
200メガヘルツペンティアム(200MhzPentium)上で2秒
未満で非常に複雑なページでさえ処理できる。
One exemplary embodiment of the document re-authoring system and method of the present invention has been implemented in the Java programming language. In addition to acting as a true proxy server, the HTTP proxy server system can also respond to requests for several URLs with documents generated by the HTTP proxy server itself. It is used to provide users with form-based control over HTTP proxy servers and document re-authoring systems and methods. This exemplary embodiment of the document re-authoring system is based on Symantec Java.
Using the JIT (Symantec's Java JIT) compiler,
Even a very complex page can be processed in less than 2 seconds on a 200 MHz Pentium.

【0064】本発明の文書再オーサリングシステム及び
方法のユーザが行わなければならない第1のことは、使
用される装置の表示のサイズを指定し、使用されるデフ
ォルトブラウザフォントのフォントサイズを指示する。
この情報は、テキストブロックのスクリーン領域要求を
予測するために、必要とされる。これを行うために、ユ
ーザは、HTTPプロキシサーバーから指定の制御URL(一
様資源ロケーター)を要求して、図4に示されるフォー
ム300を送出する。
The first thing the user of the document re-authoring system and method of the present invention must do is specify the size of the device display to be used and indicate the font size of the default browser font to be used.
This information is needed to predict screen area requirements for text blocks. To do this, the user requests a specified control URL (uniform resource locator) from the HTTP proxy server and sends out the form 300 shown in FIG.

【0065】ユーザが文書再オーサリングシステムを構
成すると、ユーザは、ワールドワイドウエブ(WWW)の
ような分散形ネットワークから文書の検索を開始でき
る。図5に示される原ページ400と再オーサリング済
ページ410は、本発明の文書再オーサリングシステム
及び方法の再オーサリング能力を示す。この例におい
て、本発明の文書再オーサリングシステム及び方法のこ
の例示の実施の形態は、原画像400から表示されたペ
ージ410をレンダリングするために、第1のセンテン
ス省略と組み合わされて25%画像縮小を使用すること
を選択する。次に、再オーサリング済ページ410は、
ブラウザウィンドウ420上に表示される。本発明の文
書再オーサリングシステム及び方法のこの例示の実施の
形態において、ページの検索に直ぐ続いて、ユーザは、
HTTPプロキシサーバーから他の制御URLを要求すること
によって、どの変形が適用されたかを決定するために、
再オーサリングされるセッションのトレースを要求する
ことができる。
Once the user has configured the document re-authoring system, the user can begin searching for documents from a distributed network such as the World Wide Web (WWW). The original page 400 and the re-authored page 410 shown in FIG. 5 illustrate the re-authoring capabilities of the document re-authoring system and method of the present invention. In this example, this exemplary embodiment of the document re-authoring system and method of the present invention combines a first sentence omission with a 25% image reduction to render the displayed page 410 from the original image 400. Choose to use. Next, the re-authored page 410
It is displayed on the browser window 420. In this exemplary embodiment of the document reauthoring system and method of the present invention, immediately following the retrieval of the page, the user
By requesting another control URL from the HTTP proxy server, to determine which variant was applied,
You can request a trace of the reauthored session.

【0066】図6は、本発明の自動文書再オーサリング
システムと方法及び/又は自動文書フィルタリングシス
テムと方法が実施され得る環境500の例示の実施の形
態を示す。図6に示されるように、環境500は、デス
クトップ又はラップトップコンピュータのモニターの表
示に比較して非常に限られた(小さい)表示領域を備え
る表示を有する限られた表示領域装置510を含む。図
6に示されるように、更に、環境500は、送受信装置
通信システム550、分散形ネットワークのホストノー
ド570、及びその分散形ネットワークの残りの部分5
90を含む。
FIG. 6 illustrates an exemplary embodiment of an environment 500 in which the automatic document re-authoring system and method and / or automatic document filtering system and method of the present invention may be implemented. As shown in FIG. 6, environment 500 includes a limited display area device 510 having a display with a very limited (small) display area compared to the display on a desktop or laptop computer monitor. As further shown in FIG. 6, the environment 500 further includes a transceiver communication system 550, a host node 570 of the distributed network, and the rest 5 of the distributed network.
90.

【0067】この環境500において、限られた表示領
域装置510は、通常、無線通信チャネル530によっ
て送受信装置通信システム550に接続されるパーソナ
ルディジタルアシスタンス(PDA)、セルラー電話等で
ある。従って、図6に示されるように、限られた表示領
域装置510は、通常アンテナ520を含み、送受信装
置通信システム550は、通常、対応するアンテナ54
0を含む。限られた表示領域装置510は、通常アンテ
ナ520と540との間に送信される無線周波数信号を
使用して、無線通信チャネル530を介して送受信装置
通信システム550と通信する。
In this environment 500, the limited display area device 510 is typically a personal digital assistance (PDA), cellular telephone, or the like, connected to the transceiver communication system 550 via a wireless communication channel 530. Therefore, as shown in FIG. 6, the limited display area device 510 includes the normal antenna 520, and the transmitting / receiving device communication system 550 generally includes the corresponding antenna 54.
Contains 0. Limited display area device 510 communicates with a transceiver communication system 550 via a wireless communication channel 530, typically using a radio frequency signal transmitted between antennas 520 and 540.

【0068】送受信装置通信システム550は、無線通
信チャネル530を介して限られた表示領域装置510
から受信されたアナログ又はディジタル信号を分散形ネ
ットワークのホストノード570によって使用可能なフ
ォームに変換する。次に、送受信装置通信システム55
0は、無線通信チャネル530を介して受信された信号
を通信リンク560を介して分散形ネットワークのホス
トノード570へ出力する。通信リンク560は、送受
信装置通信システム550と送受信装置通信システム5
50との間の適切な信号の送信が可能な既知の或いは将
来開発され得る通信構造であり得る。送受信装置通信シ
ステム550と通信リンク560の正確な構造は、これ
らの構成要素がどのように実施されるかに依存する設計
の選択事項に過ぎないが、そのような設計の選択は、当
業者に容易に明らかとなると共に予測され得るので、こ
れらの構成要素の更なる詳細な記述は省略される。
Transmission / reception device communication system 550 has a limited display area device 510 via wireless communication channel 530.
Converts the analog or digital signals received from the network to a form usable by the host node 570 of the distributed network. Next, the transmitting / receiving device communication system 55
0 outputs the signal received via the wireless communication channel 530 to the host node 570 of the distributed network via the communication link 560. The communication link 560 is connected to the transceiver communication system 550 and the transceiver communication system 5.
There may be known or future developed communication structures capable of transmitting appropriate signals between the two. The exact structure of the transceiver system 550 and the communication link 560 is only a matter of design choice depending on how these components are implemented, but the choice of such designs is within the skill of the art. Further details of these components are omitted as they will be readily apparent and predictable.

【0069】また、限られた表示領域装置510は、通
信リンク522のような無線通信チャネル530以外に
よって分散形ネットワークのホストノード570へ接続
され得る。即ち、通信リンク522は、ローカルエリア
ネットワーク、ワイドエリアネットワーク、公共交換電
話ネットワークを介するモデム接続やケーブルテレビシ
ステム等のあらゆる他の既知の通信構造であり得る。例
えば、限られた表示領域装置510のユーザは、無線通
信チャネル530ではなくて、限られた表示領域装置5
10をモデムを使用して、公共交換電話ネットワークへ
直接接続できる。次に、ユーザは、分散形ネットワーク
のホストノード570へ直接ダイアルする。
Also, the limited display area device 510 can be connected to a host node 570 of a distributed network by means other than a wireless communication channel 530 such as a communication link 522. That is, communication link 522 can be any other known communication structure, such as a modem connection over a local area network, a wide area network, a public switched telephone network, or a cable television system. For example, the user of the limited display area device 510 is not the wireless communication channel 530,
10 can be connected directly to the public switched telephone network using a modem. Next, the user dials directly to the host node 570 of the distributed network.

【0070】分散形ネットワークのホストノード570
が最終的に限られた表示領域装置510にどのように接
続されようと、分散形ネットワークのホストノード57
0が限られた表示領域装置510への文書の送信要求を
受信すると、分散形ネットワークのホストノード570
は、初めに、そに対する要求された文書が分散形ネット
ワークのホストノード570上に局所的に検出されるか
否かを決定する。要求された文書が局所的に検出されな
い場合、分散形ネットワークのホストノード570は、
その文書を要求するために、通信構造580を介して分
散形ネットワークの残りの部分590と通信する。その
文書を格納する分散形ネットワークの残りの部分590
の特定のノードは、最終的に、ホストノード570から
通信構造580を介してそに対する要求を受信し、要求
された文書を通信構造580を介してホストノード57
0へ戻す。通信構造580は、分散形ネットワークの広
く検出されるノードと共にリンクするためのあらゆる既
知の或いは将来開発されるであろう通信構造及びプロト
コルシステムであり得る。
Host Node 570 of Distributed Network
Is connected to the limited display area device 510, the host node 57 of the distributed network.
When a request to send a document to the limited display area device 510 is received, the host node 570 of the distributed network
First determines whether the requested document is locally found on the host node 570 of the distributed network. If the requested document is not detected locally, the host node 570 of the distributed network
It communicates with the rest of the distributed network 590 via the communication structure 580 to request the document. Remaining portion 590 of the distributed network that stores the document
The particular node ultimately receives a request for it from host node 570 via communication structure 580 and passes the requested document to host node 57 via communication structure 580.
Return to 0. Communication structure 580 may be any known or future developed communication structure and protocol system for linking with widely-discovered nodes of a distributed network.

【0071】分散形ネットワークのホストノード570
が、要求された文書を受信すると、分散形ネットワーク
のホストノード570上で実行するHTTPプロキシサーバ
ーは、限られた表示領域装置510についての予め提供
された情報に基づいて、要求された文書を再オーサリン
グする。次に、最初に再オーサリング済ページは、ホス
トノード570によって、無線通信リンク530又は通
信リンク522を介して限られた表示領域装置510に
送信される。ユーザが送出されたページをレビューする
時、ユーザは、再オーサリング済ページから除去された
追加の情報を見る事を要求するを決定してもよい。この
場合、ユーザは、望ましい再オーサリング済サブページ
を得るために、無線通信リンク530又は通信リンク5
22を介して分散形ネットワークのホストノード570
に要求を送信してもよい。こに対する要求に応答して、
ホストノード570は、無線通信リンク530又は通信
リンク522を介して原文書の更なる再オーサリング済
サブページを限られた表示領域装置510に送信する。
Host Node 570 of Distributed Network
However, upon receiving the requested document, the HTTP proxy server running on the distributed network host node 570 re-creates the requested document based on pre-provided information about the limited display area device 510. Author. Next, the initially re-authored page is transmitted by host node 570 to limited display area device 510 via wireless communication link 530 or communication link 522. When the user reviews the submitted page, the user may decide to request to see additional information removed from the re-authored page. In this case, the user may use wireless communication link 530 or communication link 5 to obtain the desired re-authored subpage.
22 via the host node 570 of the distributed network
The request may be sent to In response to this request,
The host node 570 sends further re-authored subpages of the original document to the limited display area device 510 via the wireless communication link 530 or the communication link 522.

【0072】図7は、この情報の流れのより詳細を示
す。図7に示されるように、限られた表示領域装置51
0のユーザが、分散形ネットワーク上に存在する特定の
文書をレビューすることを望む場合、ユーザは、その特
定の文書に対する要求を限られた表示領域装置510か
らその分散形ネットワークのホストノード570に存在
するHTTPプロキシサーバー571へ送る。次に、HTTPプ
ロキシサーバー571は、その特定の文書に対する要求
をそに対する要求されたページを格納する分散形ネット
ワーク上の特定の遠隔ノード591へ送信する。この特
定の遠隔ノード591は、要求された原文書をそのHTTP
プロキシサーバー571に存在する文書再オーサリング
システム600へ戻す。文書再オーサリングシステム6
00は、各々ができるだけぴったり表示可能な、限られ
た表示領域装置510上に表示され得る複数のサブ文書
に原文書を再オーサリングする。次に、文書再オーサリ
ングシステム600は、ページに対して最初に再オーサ
リング済ものを限られた表示領域装置510に送出する
と共に、その他の再オーサリング済サブページは、文書
再オーサリングシステムの再オーサリング済サブページ
のキャッシュ636に格納される。従って、限られた表
示領域装置510のユーザが、再オーサリング済サブペ
ージのキャッシュ636に格納された再オーサリング済
サブページの一つに存在する情報を見ることを望む場
合、ユーザは、限られた表示領域装置510にそのサブ
ページに対する要求を送信させる。要求されキャッシュ
に格納されたサブページは、再オーサリング済サブペー
ジキャッシュ636から限られた表示領域装置510へ
送出される。
FIG. 7 shows this information flow in more detail. As shown in FIG. 7, the limited display area device 51
0 user wants to review a particular document residing on the distributed network, the user can send a request for that particular document from the limited display area device 510 to the host node 570 of the distributed network. Send it to the existing HTTP proxy server 571. The HTTP proxy server 571 then sends a request for that particular document to a particular remote node 591 on the distributed network that stores the requested page for that particular document. This particular remote node 591 sends the requested original document to its HTTP
The process returns to the document re-authoring system 600 existing in the proxy server 571. Document Reauthoring System 6
00 re-authorizes the original document into a plurality of sub-documents, each of which can be displayed on the limited display area device 510, which can be displayed as tightly as possible. Next, the document re-authoring system 600 sends the page first re-authored to the limited display area device 510, and the other re-authored sub-pages are re-authored by the document re-authoring system. It is stored in the subpage cache 636. Thus, if the user of the limited display area device 510 wishes to view information present in one of the re-authored sub-pages stored in the re-authored sub-page cache 636, the user may have a limited The display area device 510 transmits a request for the subpage. The requested subpage stored in the cache is sent from the re-authored subpage cache 636 to the limited display area device 510.

【0073】独立の構成要素として、HTTPプロキシサー
バー571、文書再オーサリングシステム600及び再
オーサリング済サブページキャッシュ636は、図7に
示されると共に、一般に、これらの構成要素は、単一の
ソフトウエアアプリケーションの異なるモジュールのよ
うな、単一のエンティティの異なる部分として実施され
る。
As separate components, the HTTP proxy server 571, the document re-authoring system 600, and the re-authored subpage cache 636 are shown in FIG. 7, and generally these components are Implemented as different parts of a single entity, such as different modules.

【0074】図8は、文書再オーサリングシステム60
0の一実施の形態のより詳細なアウトラインを示す基本
ブロック図である。図8に示されるように、文書再オー
サリングシステム600は、コントローラ610、入出
力インターフェース620、メモリ630、抽象構文ツ
リー生成メモリ640、文書サイズ評価メモリ650、
変形メモリ660及びツリーからの文書再マップ(tree
-to-document remap)メモリ670を含み、各々は、
データ/制御バス680によって相互接続される。図6
に関して、上述された通信リンク522、560及び5
80は、夫々入出力インターフェース620に接続され
る。
FIG. 8 shows a document re-authoring system 60.
0 is a basic block diagram showing a more detailed outline of one embodiment of FIG. As shown in FIG. 8, the document re-authoring system 600 includes a controller 610, an input / output interface 620, a memory 630, an abstract syntax tree generation memory 640, a document size evaluation memory 650,
Document remapping from tree and tree
-to-document remap) memory 670, each of which
Interconnected by a data / control bus 680. FIG.
With respect to the communication links 522, 560 and 5 described above.
80 are connected to the input / output interface 620, respectively.

【0075】メモリ630は、原ページメモリ部分63
1、表示装置サイズメモリ部分632、抽象構文ツリー
メモリ部分633、検索スペース部分634、変形メモ
リ635、図7に関して上述された再オーサリング済ペ
ージキャッシュ636、及び再オーサリング待ちサブペ
ージのリスト637を含む、多数の機能的に分離された
部分を含む。原ページメモリ部分631は、限られた表
示領域装置510によって要求されるページを格納する
分散形ネットワークの遠隔ノード591から戻される戻
された原文書を格納する。
The memory 630 stores the original page memory portion 63
1, including a display device size memory portion 632, an abstract syntax tree memory portion 633, a search space portion 634, a variant memory 635, a re-authored page cache 636 described above with reference to FIG. 7, and a list 637 of sub-pages waiting to be re-authored. Includes a number of functionally separated parts. The original page memory portion 631 stores the returned original document returned from the remote node 591 of the distributed network that stores the pages requested by the limited display area device 510.

【0076】表示装置サイズメモリ632は、文書再オ
ーサリングシステム600によって使用される限られた
表示領域装置510についての種々のパラメータを得て
特定の限られた表示領域装置510のためにページを再
オーサリングするために、文書再オーサリングシステム
600によって使用される多数のフォーム文書を格納す
る。また、表示装置サイズメモリ632は、少なくとも
一つの限られた表示領域装置510のための特定のサイ
ズパラメータを格納する。限られた表示領域装置510
についての種々のパラメータに対する文書再オーサリン
グシステム600を実施する多くの異なる可能な方法が
あることを理解すべきである。一つの例示の実施の形態
において、文書再オーサリングシステム600は、その
限られた表示領域装置510が文書再オーサリングシス
テム600へ連続して接続されたままである限りにおい
て、特定の限られた表示領域装置510のための種々の
パラメータを格納できる。この場合、特定の限られた表
示領域装置510が文書再オーサリングシステム600
に再接続される度に、文書再オーサリングシステム60
0は、表示領域装置510についての種々のパラメータ
を得るために使用される種々のフォームを送り、ユーザ
は、文書再オーサリングシステム600が最初にアクセ
スされる毎に、これらの種々のパラメータを再送出する
ことを要求する。
Display size memory 632 obtains various parameters for limited display area device 510 used by document re-authoring system 600 to re-author a page for a particular limited display area device 510. To store multiple form documents used by the document re-authoring system 600. Also, the display device size memory 632 stores specific size parameters for at least one limited display area device 510. Limited display area device 510
It should be understood that there are many different possible ways of implementing the document re-authoring system 600 for various parameters for. In one exemplary embodiment, the document re-authoring system 600 has a limited display area device 510 as long as the limited display area device 510 remains connected to the document re-authoring system 600 continuously. Various parameters for 510 can be stored. In this case, the specific limited display area device 510 is used by the document re-authoring system 600.
Each time the document is reconnected to the document re-authoring system 60
0 submits various forms used to obtain various parameters for the display area device 510, and the user resubmits these various parameters each time the document reauthoring system 600 is first accessed. To do that.

【0077】これが表示装置サイズメモリ632に対す
る要求されたサイズを縮小し、特定の限られた表示領域
装置510を識別するためのあらゆるシステムを要求し
ない場合、このシステムは、限られた表示領域装置51
0のユーザにより大きな負担を課すか、或いは限られた
表示領域装置510から文書再オーサリングシステム6
00への情報の供給を自動化するための処理を要求す
る。この自動化は、例えば、限られた表示領域装置51
0からの情報を要求する文書再オーサリングシステム6
00によって提供され得る。情報がすでに文書再オーサ
リングシステム600での前のセッションの間にユーザ
によって入力されおり、その情報がその時に限られた表
示領域装置510に格納された場合、ユーザは、その情
報の文書再オーサリングシステム600への再供給に能
動的に関与する必要はないであろう。
If this reduces the required size for the display device size memory 632 and does not require any system to identify the particular limited display area device 510, the system will
0 user, or from the limited display area device 510 to the document re-authoring system 6.
Request processing to automate the supply of information to 00. This automation is performed, for example, by using a limited display area device 51.
Document re-authoring system 6 requesting information from 0
00 may be provided. If the information has already been entered by the user during a previous session with the document re-authoring system 600, and that information was stored in the then limited display area device 510, the user will be prompted by the document re-authoring system for that information. It would not need to be actively involved in resupplying the 600.

【0078】或いは、情報は、文書再オーサリングシス
テム600でセッションをはじめた時、ユーザが限られ
た表示領域装置510から供給され得る識別コードと共
に表示装置サイズメモリ632に格納され得る。識別コ
ードを文書再オーサリングシステム600によって、ユ
ーザは、文書再オーサリングシステム600がアクセス
される毎に、限られた表示領域装置510についての種
々のパラメータの全てを再供給することは要求されな
い。
Alternatively, the information may be stored in the display device size memory 632 along with an identification code that may be supplied by the user from the limited display area device 510 when a session begins with the document re-authoring system 600. With the document re-authoring system 600 for the identification code, the user is not required to re-supply all of the various parameters for the limited display area device 510 each time the document re-authoring system 600 is accessed.

【0079】あらゆる場合において、原ページメモリ6
31に格納された原ページを再オーサリングする時に、
文書再オーサリングシステム600は、上述のように、
限られた表示領域装置510についての種々のパラメー
タを使用して、それによって各再オーサリング済ページ
が、出来る限り近接して、限られた表示領域装置510
の小さな表示領域に当てはまる。
In all cases, the original page memory 6
When re-authoring the original page stored in 31,
The document re-authoring system 600, as described above,
The various parameters for the limited display area device 510 are used so that each re-authored page is as close as possible to the limited display area device 510.
Of small display areas.

【0080】抽象構文ツリーメモリ部分633は、抽象
構文ツリー生成メモリ640によって原ページメモリ6
31に格納された原文書から生成された抽象構文ツリー
を格納する。変形メモリ部分635は、上述の種々の変
形、及び各変形が適用され得る条件とどの変形が種々の
他の変形と共に使用できないかについての条件を格納す
る。また、変形メモリ635は、任意の特定の変形を特
定の原再オーサリング済ページに適用することの望まし
さの指示を格納する。即ち、上述のように、種々の変形
は、少しだけ画像を縮小するような、より大きく限られ
た変形を、大きく画像を縮小又はその画像を完全に除去
するような、よりラジカルな変形上へ適用することを強
調する一般的な命令を有する。
The abstract syntax tree memory portion 633 is stored in the original page memory 6 by the abstract syntax tree generation memory 640.
31 stores an abstract syntax tree generated from the original document stored at 31. The transformation memory portion 635 stores the various transformations described above, and the conditions under which each transformation can be applied and which ones cannot be used with various other transformations. The deformation memory 635 also stores an indication of the desirability of applying any particular deformation to a particular original re-authored page. That is, as described above, the various transformations are performed on a more limited transformation, such as slightly reducing the image, to a more radical transformation, such as greatly reducing the image or completely removing the image. Has general instructions that emphasize applying.

【0081】再オーサリング済ページキャッシュ636
は、文書サイズ評価メモリが、表示装置サイズメモリ6
32に格納された限られた表示領域装置510について
の種々のパラメータに基づいて、特定の再オーサリング
済ページ又はサブページに対する抽象構文ツリーが十分
に良いことを指示すると、各再オーサリング済ページ又
はサブページに対応する抽象構文ツリーを格納する。再
オーサリング待ちサブページのリスト637は、原文書
又はより早いサブページを変形することによって生成さ
れたこれらのサブページに対する抽象構文ツリーを格納
する。これらのサブページは、一般的に、あらゆる縮小
サイズの画像又はあらゆる省略された画像の原画像、及
び内容が省略されたテキストセグメントの完全なテキス
トを含む。
Re-authored page cache 636
Means that the document size evaluation memory is the display device size memory 6
Based on various parameters for the limited display area device 510 stored at 32, indicating that the abstract syntax tree for a particular re-authored page or sub-page is good enough, each re-authored page or sub- Stores the abstract syntax tree corresponding to the page. The list of subpages awaiting reauthoring 637 stores the abstract syntax tree for these subpages generated by transforming the original document or earlier subpages. These sub-pages generally contain the original image of any reduced size image or any truncated image, and the complete text of the truncated text segment.

【0082】最後に、検索スペースメモリ634は、そ
れが、現在操作されている検索スペースの特定の状態に
基づいて、原ページメモリ631に格納されている原文
書又は再オーサリング待ちサブページのリスト637に
格納された種々のサブページに変形メモリ635に格納
された種々の変形を適用する時、変形メモリ660によ
って生成された多くの状態を格納する。
Finally, the search space memory 634 stores a list 637 of the original documents or sub-authorized subpages stored in the original page memory 631, based on the particular state of the search space currently being operated on. When applying the various transformations stored in the transformation memory 635 to the various subpages stored in the sub-pages, many states generated by the transformation memory 660 are stored.

【0083】特に、検索スペース634における各状態
iは、評価値部分、変形された抽象構文ツリー部分及び
サブページリスト部分を含む。評価値部分は、文書サイ
ズ評価メモリ650によって生成されたその状態iに対
応する再オーサリング済ページ又はサブページに対して
生成された評価値を格納する。変形された抽象構文ツリ
ー部分は、変形メモリ635中の変形の一つをその状態
iの親状態へ適用することによって変形メモリ660に
よって生成された状態iに対する変形された抽象構文ツ
リーを格納する。サブページリスト部分は、変形メモリ
660がその状態iを生成するために使用される特定の
変形を適用すると、その状態iに対応するページから除
去されたあらゆる原内容を格納するために生成されたサ
ブページのリストを格納する。
In particular, each state i in the search space 634 includes an evaluation value part, a transformed abstract syntax tree part, and a subpage list part. The evaluation value portion stores the evaluation value generated for the re-authored page or subpage corresponding to the state i generated by the document size evaluation memory 650. The transformed abstract syntax tree portion stores a transformed abstract syntax tree for state i generated by transformation memory 660 by applying one of the transformations in transformation memory 635 to the parent state of state i. The subpage list portion is generated to store any original content removed from the page corresponding to state i, when the deformation memory 660 applies the particular deformation used to generate state i. Stores a list of subpages.

【0084】状態0が原ページメモリ631に格納され
た原文書に対応することが理解されるべきである。特
に、状態0の評価値部分は、あらゆる再オーサリング前
に原文書に対して生成された評価値に対応する。この状
態0において、変形された抽象構文ツリー部分は、原文
書に対する抽象構文ツリー生成メモリによって生成され
た原非変形抽象構文ツリーを格納する。最後に、状態0
の前に、原文書が原情報の全てを含む、従ってサブペー
ジが要求されない場合、サブページリストは空である。
It should be understood that state 0 corresponds to the original document stored in original page memory 631. In particular, the evaluation value portion of state 0 corresponds to the evaluation value generated for the original document before any re-authoring. In this state 0, the transformed abstract syntax tree portion stores the original undeformed abstract syntax tree generated by the abstract syntax tree generation memory for the original document. Finally, state 0
Before, the sub-page list is empty if the original document contains all of the original information and thus no sub-pages are required.

【0085】図9は、検索スペースメモリ部分634に
格納された種々の状態を示す。特に、図9は、セクショ
ンヘッダ、テキストパラグラフ及び画像を含む文書を示
す。図9に示されるように、初期状態、即ち状態0にお
いて、原文書が変形されなかった。また、この初期状態
は、原文書に対して生成された、原レーティング、即
ち、評価値を示す。また、図9は、”全ての画像省略
(elide all images)”変形を状態0の文書を適用す
ることによって状態0から生成された状態1を示す。状
態1に示されるように、状態1の再オーサリング済サブ
ページは、セクションヘッダ及びテキストを含むが、画
像を含まない。むしろ画像の位置に、状態1の再オーサ
リング済サブページは、状態1の再オーサリング済サブ
ページから省略された画像を格納するサブページへ状態
1の再オーサリング済ページをリンクする”IMG"とラベ
ル付けされたリンクを含む。また、状態1は、この再オ
ーサリング済文書の評価値を指示する。図9に示される
ように、再オーサリング済ページのサイズ要求が原再オ
ーサリングされていなページのサイズ要求の4分の1で
ある。
FIG. 9 shows the various states stored in search space memory portion 634. In particular, FIG. 9 shows a document including section headers, text paragraphs and images. As shown in FIG. 9, in the initial state, that is, state 0, the original document was not deformed. The initial state indicates an original rating, that is, an evaluation value generated for the original document. FIG. 9 also shows state 1 generated from state 0 by applying the “elide all images” transformation to the state 0 document. As shown in state 1, the re-authored subpage in state 1 contains a section header and text, but no images. Rather, at the location of the image, the re-authored sub-page of state 1 is labeled "IMG" which links the re-authored page of state 1 to the sub-page containing the omitted image from the re-authored sub page of state 1. Includes attached links. The state 1 indicates the evaluation value of the re-authored document. As shown in FIG. 9, the size request for a re-authored page is one quarter of the size request for a page that has not been originally re-authored.

【0086】また、図9は、二つの追加の状態、即ち、
状態2と状態3は、状態0の文書へ他の変形を適用する
ことによって生成されたことを示す。最後に、図9は、
状態1の再オーサリング済文書を又は状態1のサブペー
ジに追加の変形を適用することによって三つの状態、即
ち、状態4、状態5及び状態6を示す。例えば、画像を
含むサブページが限られた表示領域装置510上に表示
するのにはまだ大き過ぎる場合、”25%縮小”、”5
0%縮小”、又は”75%縮小”変形を画像に適用して
限られた表示領域装置510上に表示するのに十分に優
れた再オーサリング済画像を得ることによって、中間サ
ブページが生成される。
FIG. 9 also shows two additional states, namely:
States 2 and 3 indicate that they were generated by applying another transformation to the state 0 document. Finally, FIG.
Three states are shown, state 4, state 5 and state 6, by applying additional transformations to the state 1 re-authored document or state 1 subpages. For example, if the subpage including the image is still too large to be displayed on the limited display area device 510, “25% reduction”, “5
An intermediate subpage is generated by applying a “0% reduction” or “75% reduction” modification to the image to obtain a re-authored image that is sufficiently good to be displayed on the limited display area device 510. You.

【0087】さて、動作において、図8の文書再オーサ
リングシステム600は、通信リンク580を介して戻
された原文書を受信する。受信された又は一般の文書は
入出力インターフェース620を介して入力され、コン
トローラ610の制御下で原ページメモリ631に格納
される。次に、コントローラ610の制御下で、抽象構
文ツリー生成メモリ640は、原ページメモリ部分63
1から原文書を入力し、その原文書から抽象構文ツリー
を生成する。次に、抽象構文ツリー生成メモリ640に
よって生成された抽象構文ツリーは、コントローラ61
0の制御下で、メモリ630の抽象構文ツリーメモリ部
分633に格納される。
In operation, the document re-authoring system 600 of FIG. 8 receives the returned original document via the communication link 580. The received or general document is input via the input / output interface 620 and stored in the original page memory 631 under the control of the controller 610. Next, under the control of the controller 610, the abstract syntax tree generation memory 640 stores the original page memory portion 63
First, an original document is input, and an abstract syntax tree is generated from the original document. Next, the abstract syntax tree generated by the abstract syntax tree generation memory 640 is stored in the controller 61.
Under the control of 0, it is stored in the abstract syntax tree memory portion 633 of the memory 630.

【0088】次に、コントローラ610の制御下で、文
書サイズ評価メモリ650は、原ページメモリ631に
格納された原文書に対応する抽象構文ツリーと、再オー
サリング済文書が戻されるべき特定の限られた表示領域
装置510についての表示サイズメモリ632からの種
々のパラメータを入力する。次に、文書サイズ評価メモ
リ650は、評価値を生成し、検索スペースメモリ部分
634の状態0にその評価値を格納する。また、文書サ
イズ評価メモリ650は、状態0の文書が通信リンク5
22又は560を介して限られた表示領域装置510に
出力するのに十分に良いであるか否かのコントローラ6
10の指示を出力する。原文書がすでに十分に良いであ
る場合、その原文書は、更なる変形を受けること無く、
直ちに戻される。
Next, under the control of the controller 610, the document size evaluation memory 650 stores an abstract syntax tree corresponding to the original document stored in the original page memory 631, and a specific limited tree to which the re-authored document is to be returned. Various parameters from the display size memory 632 for the display area device 510 are input. Next, document size evaluation memory 650 generates an evaluation value and stores the evaluation value in state 0 of search space memory portion 634. The document size evaluation memory 650 stores the document in the state 0 in the communication link 5.
Controller 6 whether it is good enough to output to limited display area device 510 via 22 or 560
Output 10 instructions. If the original document is already good enough, it will be
Returned immediately.

【0089】次に、コントローラ610の制御下で、変
形メモリ660は、その状態に対する抽象構文ツリーに
よって表されるように、状態0の文書を入力し、変形メ
モリ635に格納された変形の一つを入力状態の抽象構
文ツリーに適用する。特に、最初に変形メモリ660
は、現在の状態iに対して、選択された変形がその文書
の現在の状態iへ適用されるべきか否かを決定する。例
えば、上述のように、文書の現在の状態iが画像を含ま
ない場合、文書のこの状態へ画像縮小や画像省略変形を
適用する点がない。更に、画像の現在の状態iを得るた
めに、”第1を除く全ての画像の省略”変形がすでに適
用されている場合、この現在の状態iへ”第1を除く全
ての画像の省略”変形を適用する点がない。
Next, under the control of the controller 610, the transformation memory 660 inputs the document in state 0 as represented by the abstract syntax tree for that state, and stores one of the transformations stored in the transformation memory 635. Is applied to the input abstract syntax tree. In particular, first the transformation memory 660
Determines, for the current state i, whether the selected transformation should be applied to the current state i of the document. For example, as described above, when the current state i of a document does not include an image, there is no point in applying image reduction or image omission transformation to this state of the document. Furthermore, if the "Skip all images except first" modification has already been applied to obtain the current state i of the image, then "Skip all images except the first" to this current state i There is no point to apply the transformation.

【0090】変形メモリ660で選択された現在の変形
が文書の現在の状態iへ適切に適用できる場合、現在の
状態iに対する変形された抽象構文ツリーによって指示
されるように、変形メモリ660は、その状態に対する
抽象構文ツリーにその変形を適用して子状態jを生成す
る。子状態jは、更に変形された抽象構文ツリー、及び
この子状態jに達するために必要な原文書から省略され
た内容に基づいて変形されたままのサブページを指示す
るサブページリストを含む。最後に、コントローラ61
0の制御下で、文書サイズ評価メモリ650は、その得
られた文書が限られた表示領域装置510への出力のた
めに十分に良いであるか否かを決定するために子状態j
で得られた文書を評価する。次に、その評価値は、新た
に生成された子状態jに格納される。
If the current transformation selected in the transformation memory 660 is properly applicable to the current state i of the document, the transformation memory 660, as indicated by the transformed abstract syntax tree for the current state i, Apply the transformation to the abstract syntax tree for that state to generate child state j. The child state j includes a further modified abstract syntax tree and a subpage list indicating subpages that have been modified based on the contents omitted from the original document necessary to reach the child state j. Finally, the controller 61
Under the control of 0, the document size evaluation memory 650 stores the child state j to determine whether the resulting document is good enough for output to the limited display area device 510.
Evaluate the document obtained in. Next, the evaluation value is stored in the newly generated child state j.

【0091】変形メモリ660が新たな子状態jを生成
した後、その状態jに対する変形抽象構文ツリーは、状
態jに対応する文書のサイズ要求を評価するために、文
書サイズ評価メモリ650に出力される。
After the transformation memory 660 creates a new child state j, the transformation abstract syntax tree for that state j is output to the document size evaluation memory 650 to evaluate the size requirements of the document corresponding to state j. You.

【0092】変形済文書の第1のページに対する抽象構
文ツリーが十分に良いと決定されると、その抽象構文ツ
リーは、ツリーから文書への再マッピングメモリ670
へ出力され、そのメモリは、その抽象構文ツリーから第
1の再オーサリング済サブページをレンダリングする。
その第1の再オーサリング済サブページは、ツリーから
文書への再マッピングメモリ670から入出力インター
フェース620へ出力され、最後に、限られた領域表示
装置520へ送信される。同時に、変形メモリ660
は、原文書を第1の十分に良い再オーサリング済サブペ
ージへ変形することから得られるあらゆるサブページ
へ、追加の変形を適用し続ける。各そのようなサブペー
ジが十分に良いサブページへ変形されると、各そのよう
な十分に良いサブページに対する抽象構文は、そのサブ
ページに対する要求が限られた領域表示装置510から
文書再オーサリングシステム600によって受信される
まで、再オーサリング済ページキャッシュ636に格納
される。
If the abstract syntax tree for the first page of the transformed document is determined to be good enough, the abstract syntax tree is re-mapped from tree to document memory 670.
And the memory renders the first re-authored subpage from the abstract syntax tree.
The first re-authored subpage is output from the tree-to-document remapping memory 670 to the input / output interface 620 and finally transmitted to the limited area display 520. At the same time, the deformation memory 660
Continues to apply additional transformations to any subpages resulting from transforming the original document into a first sufficiently good re-authored subpage. As each such sub-page is transformed into a sufficiently good sub-page, the abstract syntax for each such good sub-page is reduced from the limited area display 510 for that sub-page to the document re-authoring system. Until received by 600, it is stored in re-authored page cache 636.

【0093】そのサブページに対する要求が文書再オー
サリングシステム600によって受信されると、そに対
する要求されたサブページに対する抽象構文ツリーは、
ツリーから文書への再マッピングメモリ670へ出力さ
れ、そのメモリは、その抽象構文ツリーから要求された
再オーサリング済サブページをレンダリングする。そに
対する要求された再オーサリング済サブページは、ツリ
ーから文書への再マッピングメモリ670から入出力イ
ンターフェース620へ出力され、最終的に、限られた
領域表示装置510へ送信される。
When a request for the subpage is received by the document re-authoring system 600, the abstract syntax tree for the requested subpage is
Output to a tree-to-document remapping memory 670, which renders the requested re-authored subpage from the abstract syntax tree. The requested re-authored subpage for it is output from the tree-to-document remapping memory 670 to the input / output interface 620 and finally transmitted to the limited area display device 510.

【0094】図6乃至図8に示されているメモリ及び他
の構成要素の各々は、適切にプログラムされた汎用コン
ピュータの部分として実施され得ることを理解すべきで
ある。或いは、図6乃至図8に示されているメモリの各
々は、一つ又は複数のASIC内の物理的に個別のハードウ
エアメモリとして、FPGA、PDL、PLA又はPALを使用し
て、又は個別の論理エレメント又は別個のメモリ要素を
使用して、実施され得る。図6乃至図8に示されている
メモリの各々が取る特定のフォームは、設計上の選択事
項であり、それらは、当業者にとって自明で予測可能で
ある。
It should be understood that each of the memories and other components shown in FIGS. 6-8 can be implemented as parts of a suitably programmed general purpose computer. Alternatively, each of the memories shown in FIGS. 6-8 may be implemented as a physically separate hardware memory in one or more ASICs, using an FPGA, PDL, PLA or PAL, or a separate It may be implemented using logic elements or separate memory elements. The particular form each of the memories shown in FIGS. 6-8 takes is a design choice, which will be obvious and predictable to those skilled in the art.

【0095】リンク522、560及び580は、限ら
れた表示領域装置510をホストノード570へ又はホ
ストノード570を送受信装置通信システム550又は
分散形ネットワークの残りの部分590へ接続のために
あらゆる既知の又は将来開発されるであろう装置又はシ
ステムによって可能とされる。このように、リンク52
2,560及び580の各々は、直接ケーブル接続、ワ
イドエリアネットワーク又はローカルエリアネットワー
クを介する接続、イントラネットを介する接続、又はイ
ンターネットを介する接続として、実施され得る。一般
に、リンク522、560及び580は、分散形ネット
ワークを介して対応する装置をホストノード570へ接
続するために使用可能なあらゆる既知の又は将来開発さ
れる接続システム又は構造であり得る。
Links 522, 560 and 580 may be used to connect limited display area device 510 to host node 570 or host node 570 to transceiver system 550 or the rest of the distributed network 590. Or by a device or system that will be developed in the future. Thus, link 52
Each of 2,560 and 580 may be implemented as a direct cable connection, a connection over a wide or local area network, a connection over an intranet, or a connection over the Internet. In general, links 522, 560, and 580 can be any known or later developed connection system or structure that can be used to connect corresponding devices to host node 570 via a distributed network.

【0096】更に、文書再オーサリングシステム600
は、プログラムされた汎用コンピュータ上で実施される
ことが好ましい事を理解すべきである。しかしながら、
また、文書再オーサリングシステム600は、特殊目的
コンピュータ、周辺集積メモリ要素のようなプログラム
されたマイクロプロセッサ又はマイクロコントローラ、
及びASICや他の集積メモリ、ディジタル信号プロセッ
サ、個別の要素メモリのようなハードワイヤードエレク
トロニックス又は論理メモリ、PLD、PLA、FPGA、又はPA
L、等で実施され得る。一般に、図11乃至図15に示
されるフロー図を実行することが出来る有限状態マシン
を実施出来るあらゆる装置は、文書再オーサリングシス
テム600を実施するために使用され得る。
Further, the document re-authoring system 600
Should preferably be implemented on a programmed general purpose computer. However,
The document re-authoring system 600 also includes a special purpose computer, a programmed microprocessor or microcontroller such as a peripheral integrated memory element,
And hardwired electronics or logic memory, such as ASICs and other integrated memories, digital signal processors, discrete element memories, PLDs, PLAs, FPGAs, or PAs
L, etc. In general, any device capable of implementing a finite state machine capable of implementing the flow diagrams shown in FIGS. 11-15 can be used to implement the document re-authoring system 600.

【0097】図8に示されるメモリ630は、スタティ
ック又はダイナミックRAMを使用して実施されるのが好
ましい。しかしながら、メモリ630は、フロッピーデ
ィスク及びディスクドライブ、書き込み可能光学ディス
ク及びディスクドライブ、ハードドライブ、フラッシュ
メモリ又はあらゆる既知の又は将来開発される揮発性又
は不揮発性変更可能メモリを使用して実施され得る。更
に、メモリ630は、コントローラ610に対するコン
トロールプログラムを格納する一つ又は複数の部分を含
み得る。一般に、そのようなコントロールプログラム
は、フラッシュメモリ、ROM、PROM、及びEPROM又はEEPR
OM、CD-ROMとディスクドライブ、或いはあらゆる既知の
又は将来開発される変更可能又は変更不能不揮発性メモ
リを使用して格納されることが好ましい。
The memory 630 shown in FIG. 8 is preferably implemented using static or dynamic RAM. However, memory 630 may be implemented using floppy disks and disk drives, writable optical disks and disk drives, hard drives, flash memory, or any known or later developed volatile or non-volatile changeable memory. Further, memory 630 may include one or more portions that store control programs for controller 610. Generally, such control programs include flash memory, ROM, PROM, and EPROM or EEPROM.
It is preferably stored using an OM, CD-ROM and disk drive, or any known or later developed mutable or non-modifiable non-volatile memory.

【0098】図10は、他の例示の原文書及びその文書
から生成される抽象構文ツリーを示す。図10に示され
るように、文書は、画像、各2行3列の表、及びテキス
トを含む。このページから生成された得られた抽象構文
ツリーは、"Page"(ページ)とラベル付け去れた根ノー
ドを含む。三つの中間ノード、即ち、画像、表及びテキ
ストパラグラフの各々に対応する"Image"(画像)、"Ta
ble"(表)及び"Paragraph"(パラグラフ)は、夫々根"
Page"ノードから延出する。更に、図10に示されるよ
うに、二つの行の各々に対応する、二つの中間ノード、
即ち、"Row1"(行1)及び"Row2"(行2)は、夫々中
間"Table"ノードから延出する。最後に、各行の三つの
セルの各々に対応する三つのノードは、夫々"Row1"及
び"Row2"ノードの各々から延出する。
FIG. 10 shows another example original document and an abstract syntax tree generated from the document. As shown in FIG. 10, the document includes an image, a table with 2 rows and 3 columns each, and text. The resulting abstract syntax tree generated from this page contains the root node, which has been labeled "Page". "Image", "Ta" corresponding to each of the three intermediate nodes: image, table and text paragraph
"ble" (table) and "Paragraph" are the roots, respectively.
Extending from the Page "node. Further, as shown in FIG. 10, two intermediate nodes corresponding to each of the two rows,
That is, "Row1" and "Row2" respectively extend from the intermediate "Table" node. Finally, three nodes corresponding to each of the three cells in each row extend from each of the "Row1" and "Row2" nodes, respectively.

【0099】例えば、図10に示されるページを再オー
サリングするために、適用されるべき第1の変形は、一
般に、完全サイズの画像を25%だけ縮小された画像を
表すノードで置き換える。次に、完全サイズ画像に対応
する根ノードを有する新たな抽象構文ツリーが形成さ
れ、変形された抽象構文ツリーの縮小画像ノードにハイ
パーテキストリンクによってリンクされる。25%縮小
された画像を有する再オーサリング済ページがまだ十分
に良くない場合、画像を50%、75%に縮小し及び次
に画像を完全に除去する画像縮小変形は、十分に良い画
像が得られるまで、原文書へ適用する。夫々の場合、抽
象構文ツリーは、画像に対応する変形されたノードから
完全サイズの画像を含む分離の抽象構文ツリーへのリン
クを含む。画像を完全に除去することでは、まだ十分に
良い再オーサリング済文書を得るのに不十分である場
合、上述のように、テールブを一セットのリンクされた
個々のセルに変形するために表変形が適用できるか、或
いはテキストパラグラフを別のサブページに移動するた
めに第1センテンス省略変形が適用出来る。
For example, to re-author the page shown in FIG. 10, the first variant to be applied generally replaces the full size image with a node representing an image reduced by 25%. Next, a new abstract syntax tree having a root node corresponding to the full size image is formed and linked to the reduced image node of the transformed abstract syntax tree by a hypertext link. If the re-authored page with the image reduced by 25% is still not good enough, an image reduction transformation that reduces the image to 50%, 75% and then completely removes the image will give a sufficiently good image. Until it is applied to the original document. In each case, the abstract syntax tree includes a link from the transformed node corresponding to the image to a separate abstract syntax tree containing the full size image. If removing the image completely is still not enough to obtain a re-authored document that is good enough, transform the tail into a set of linked individual cells, as described above. Can be applied, or the first sentence abbreviation can be applied to move a text paragraph to another subpage.

【0100】図11及び図12は、本発明に従うページ
を再オーサリング擦るための例示の方法のアウトライン
を示すフロー図である。図11及び図12に示されるよ
うに、制御は、ステップS100で開始してステップS
110に続き、そこでユーザは、限られた表示領域を有
する装置を本発明の再オーサリングシステムへ接続す
る。次に、ステップS120において、再オーサリング
システムは、限られた表示領域装置上への表示のために
要求されたページを再オーサリング出来ることが必要な
限られた表示領域についての必要な情報を得るために、
一つ又は複数のパラメータフォームをユーザに送信す
る。次に、ステップS130において、再オーサリング
システムは、ユーザからパラメータ情報を入力し、メモ
リに入力されたパラメータ情報を格納する。次に、制御
がステップS140に続く。
FIGS. 11 and 12 are flow diagrams outlining an exemplary method for re-authoring a page in accordance with the present invention. As shown in FIGS. 11 and 12, the control starts at step S100 and starts at step S100.
Following 110, the user connects the device with the limited display area to the re-authoring system of the present invention. Next, in step S120, the re-authoring system obtains the necessary information about the limited display area that must be able to re-author the page requested for display on the limited display area device. To
Send one or more parameter forms to the user. Next, in step S130, the re-authoring system inputs parameter information from the user and stores the input parameter information in the memory. Next, control continues to step S140.

【0101】図6及び7に関連して上述されたように、
ステップS120とS130でアウトラインが示された
パラメータ情報収集処理が自動化でき、それによって、
ユーザは、ステップS120及びS130の実行に積極
的に関与する必要はない。或いは、任意のステップS1
35で示されるように、ステップS120及びS130
は、ステップS135によって置き換えられ得る。ステ
ップS135において、この特定の限られた表示領域装
置のための予め格納されたパラメータ情報を識別する識
別コードを再オーサリングシステムへ、ユーザが積極的
に入力するか、又は限られた表示領域装置が自動的に出
力する。次に、制御がステップS140に続く。
As described above in connection with FIGS. 6 and 7,
The parameter information collection process indicated by the outline in steps S120 and S130 can be automated.
The user does not need to be actively involved in performing steps S120 and S130. Alternatively, an optional step S1
As shown at 35, steps S120 and S130
Can be replaced by step S135. In step S135, the user actively enters an identification code identifying pre-stored parameter information for this particular limited display area device into the re-authoring system, or Output automatically. Next, control continues to step S140.

【0102】ステップS140において、分散形ネット
ワーク上の文書要求は、限られた表示領域装置を使用し
て、ユーザから再オーサリングシステムへ出力される。
次に、ステップS150において、再オーサリングシス
テムが分散形ネットワークから要求された文書を得る。
次に、ステップS160において、得られた文書は、そ
の文書の抽象構文ツリーを作るために解析される。次
に、ステップS170において、得られた原文書のため
の評価値が抽象構文ツリーから生成される。次に、制御
がステップS180に続く。
In step S140, the document request on the distributed network is output from the user to the re-authoring system using the limited display area device.
Next, in step S150, the re-authoring system obtains the requested document from the distributed network.
Next, in step S160, the resulting document is parsed to create an abstract syntax tree for the document. Next, in step S170, an evaluation value for the obtained original document is generated from the abstract syntax tree. Next, control continues to step S180.

【0103】ステップS180において、評価値は、得
られた文書が、何ら再オーサリングされることなく、限
られた表示領域装置上に十分に良いに表示されるか否か
を決定するために解析される。若しそうならば、制御が
ステップS340にジャンプする。そうでない場合、制
御がステップS190に続く。
In step S180, the evaluation values are analyzed to determine whether the resulting document will be displayed sufficiently well on a limited display area device without any re-authoring. You. If so, control jumps to step S340. Otherwise, control continues to step S190.

【0104】ステップS190において、一つ又は複数
の予備再オーサリング変形は、得られた原文書の抽象構
文ツリーに適用される。これらの予備再オーサリング変
形は、例えば、内容は無いが表示領域を消費する原文書
の部分を除去するために使用される。例えば、得られた
文書のそのような部分は、バナー及び他のページやその
ページの他の部分へのリンクを単に識別している他のグ
ラフィカル要素を含む。これらの内容の無い画像は、テ
キストリンクによって置き換えられる。しかしながら、
そのような変形は実際にその画像から何ら内容を除去し
ないので、このようにページを再オーサリングすること
によって、除去された部分を保持する必要がない。原文
書の内容に影響を及ぼすことなく、除去できる他の部分
は、白スペース及び原文書に対する内容の無い審美的フ
ォーマッテリングを追加するフォーマッティングコマン
ドを含む。最後に、大きく複雑なフォントの不必要な表
示領域要求を除去するために、文書の種々のフォントを
単一の標準フォントへ変換する他の変形が適用できる。
In step S190, one or more preliminary re-authoring variants are applied to the resulting abstract syntax tree of the original document. These preliminary re-authoring variants are used, for example, to remove portions of the original document that have no content but consume display space. For example, such portions of the resulting document include banners and other graphical elements that simply identify other pages and links to other portions of the page. These blank images are replaced by text links. However,
By re-authoring the page in this manner, there is no need to preserve the removed portions, as such deformations do not actually remove any content from the image. Other parts that can be removed without affecting the content of the original document include white space and formatting commands that add contentless aesthetic formatting to the original document. Finally, other variants can be applied that convert the various fonts of the document to a single standard font to eliminate unnecessary display area requirements for large and complex fonts.

【0105】ステップS190において、予備再オーサ
リング変形が適用されると、制御がステップS200に
続き、そこで、予備再オーサリング済原文書に対する評
価値が生成される。次に、ステップS210において、
予備再オーサリング済文書の評価値は、予備再オーサリ
ング済文書が限られた表示領域装置上に十分に良いに表
示されるか否かを決定するためにチェックされる。そう
でない場合は、制御がステップS220に続く。
When the preliminary re-authoring transformation is applied in step S190, control continues to step S200, where an evaluation value for the preliminary re-authored original document is generated. Next, in step S210,
The evaluation value of the preliminary re-authored document is checked to determine whether the preliminary re-authored document is displayed sufficiently well on a limited display area device. Otherwise, control continues to step S220.

【0106】ステップS220において、予備に再オー
サリング済文書に対応する検索スペースの状態0が、検
索スペースの現在の状態として選択される。次に、ステ
ップS230において、第1の変形が現在の変形として
選択される。次に、ステップS240において、現在の
変形が現在の状態の抽象構文ツリーに適用出来るか否か
を決定する。上記にアウトラインを示されたように、変
形の種々のものは、その変形が効率的に現在の再オーサ
リング済文書に適用出来るか否か又は現在の変形が前に
適用された変形と適切に組合わされ得るか否かを指示す
る条件を有する。現在の状態に対応する現在の再オーサ
リング済文書は、現在の変形が効率的に適用でき、前に
適用された変形とコンフリクトしない場合、制御がステ
ップS250へ続く。そうでない場合、制御がステップ
S290へジャンプする。
In step S220, search space state 0 corresponding to the pre-reauthorized document is selected as the current state of the search space. Next, in step S230, the first deformation is selected as the current deformation. Next, in step S240, it is determined whether the current transformation is applicable to the current state of the abstract syntax tree. As outlined above, various types of transformations can be used to determine whether the transformation can be efficiently applied to the current re-authored document, or to properly combine the current transformation with a previously applied transformation. It has conditions that indicate whether it can be matched. If the current transformation can be applied efficiently to the current re-authored document corresponding to the current state and does not conflict with a previously applied transformation, control continues to step S250. Otherwise, control jumps to step S290.

【0107】ステップS250において、現在の状態が
現在の変形を使用して子状態へ変形され、変形された抽
象構文ツリー及びあらゆる結果のサブページを含む得ら
れた子状態が検索スペースに追加される。次に、ステッ
プS260において、評価値は、ステップS250にお
いて生成された子状態に対応する変形された抽象構文ツ
リーに対応する文書に対して生成される。次に、ステッ
プS270において、その評価値は、ステップS250
で生成された子状態に対応する文書が限られた表示領域
装置上に十分に良いに表示されるか否かを決定するため
に解析される。その評価値が再オーサリング済文書又は
サブページが十分に良いであることを指示すると、制御
がステップS310にジャンプする。そうでない場合、
制御がステップS280に続く。
In step S250, the current state is transformed into a child state using the current transformation, and the resulting child state including the transformed abstract syntax tree and any resulting subpages is added to the search space. . Next, in step S260, an evaluation value is generated for the document corresponding to the transformed abstract syntax tree corresponding to the child state generated in step S250. Next, in step S270, the evaluation value is stored in step S250.
Is analyzed to determine whether the document corresponding to the child state generated in the above is displayed sufficiently well on the limited display area device. If the evaluation value indicates that the re-authored document or subpage is good enough, control jumps to step S310. If not,
Control continues to step S280.

【0108】ステップS280において、全ての変形が
現在の状態へ適用されたか否かを決定する。変形の全て
が適用されてはいない場合、制御がステップS290に
続く。そうでない場合、制御がステップS300へジャ
ンプする。
In step S280, it is determined whether all deformations have been applied to the current state. If all of the deformations have not been applied, control continues to step S290. Otherwise, control jumps to step S300.

【0109】ステップS290において、次の変形が現
在の変形として選択され、制御がステップS240にジ
ャンプして戻る。反対に、ステップS300において、
最良の評価値を有する検索スペースの状態が現在の状態
として選択される。次に、制御がステップS230にジ
ャンプして戻る。
At step S290, the next deformation is selected as the current deformation, and control jumps back to step S240. Conversely, in step S300,
The state of the search space with the best evaluation value is selected as the current state. Next, control jumps back to step S230.

【0110】ステップS310において、現在の状態に
よって定義された文書又はサブページが、要求される限
られた表示領域装置への送信に適する最初に再オーサリ
ング済ページ又は次の再オーサリング済サブページとし
て再オーサリング済ページキャッシュに追加される。次
に、ステップS320において、再オーサリング済ペー
ジキャッシュへ追加された十分に良いサブページからの
サブページがあるか否かを決定する。まだ再オーサリン
グ待ちのそのようなサブページがある時、制御がステッ
プS330に続く。そうでない場合、制御がステップS
340にジャンプする。
In step S310, the document or subpage defined by the current state is re-created as the first re-authored page or the next re-authored sub-page suitable for transmission to the required limited display area device. Added to the authored page cache. Next, in step S320, it is determined whether there is a subpage from a sufficiently good subpage added to the re-authored page cache. If there are still such subpages awaiting reauthoring, control continues to step S330. If not, control is passed to step S
Jump to 340.

【0111】ステップS330において、再オーサリン
グ待ちサブページの一つに対応する検索スペースの状態
が現在の状態として選択される。次に、制御がステップ
S230へジャンプして戻る。反対に、再オーサリング
待ち更なるサブページが無いので、ステップS340に
おいて、第1の再オーサリング済ページが要求された限
られた表示領域装置へ出力される。次に、ステップS3
50において、制御ルーチンが終了する。
In step S330, the state of the search space corresponding to one of the sub-pages waiting for re-authoring is selected as the current state. Next, control jumps to step S230 and returns. Conversely, since there are no more sub-pages waiting for re-authoring, in step S340, the first re-authored page is output to the requested limited display area device. Next, step S3
At 50, the control routine ends.

【0112】図13は、本発明に従う省略変形の例示の
実施の形態のアウトラインを示す。図13に示されるよ
うに、省略変形ルーチンはステップS400で開始して
ステップS410に続き、そこで除去されるべき現在の
ページ又はサブページの部分が選択される。次に、ステ
ップS420において、選択された部分が新たなサブペ
ージにコピーされる。次に、ステップS430におい
て、その選択された部分のための識別子が生成される。
一般に、その識別子は、選択された部分のある内容を使
用して生成される。例えば、選択された部分がパラグラ
フ又は他のテキストストリングである場合、その識別子
は、選択された部分の最初のセンテンス又は最初のセン
テンスの最初の部分である。選択された部分が画像の場
合、その識別子は、ウエブ文書の画像を識別するために
使用されるテキストの部分であり得る。次に、制御がス
テップS440に続く。
FIG. 13 shows an outline of an exemplary embodiment of the omitted variant according to the invention. As shown in FIG. 13, the abbreviated transformation routine starts at step S400 and continues to step S410, where the portion of the current page or subpage to be removed is selected. Next, in step S420, the selected portion is copied to a new subpage. Next, in step S430, an identifier is generated for the selected portion.
Generally, the identifier is generated using some content of the selected portion. For example, if the selected part is a paragraph or other text string, the identifier is the first sentence of the selected part or the first part of the first sentence. If the selected portion is an image, the identifier may be a portion of text used to identify the image of the web document. Next, control continues to step S440.

【0113】ステップS440において、リンクが現在
のページ又はサブページを生成されたサブページにリン
クするために生成される。次に、ステップS450にお
いて、選択された部分が現在のページ又はサブページか
ら除去されて、その識別子とリンクが現在のページに追
加される。次に、ステップS640において、制御ルー
チンが終了する。
In step S440, a link is created to link the current page or subpage to the created subpage. Next, in step S450, the selected portion is removed from the current page or subpage, and its identifier and link are added to the current page. Next, in step S640, the control routine ends.

【0114】図14は、本発明に従う表変形の例示の実
施の形態のアウトラインを示す。図14に示されるよう
に、表変形はステップS500で開始して、ステップS
505に続き、そこでトップレベル表が現在の表として
選択される。次に、ステップS510において、現在の
表は、現在の表に入れ子表があるか否かを決定するため
にチェックされる。若しそうならば、制御がステップS
515に続く。そうでない場合、制御がステップS52
0にジャンプする。ステップS515において、現在の
表の一つの入れ子表が新たな現在の表として選択され
る。次に、制御がステップS510にジャンプして戻
り、現在の表として選択されたこの入れ子表に入れ子表
があるか否かを決定する。
FIG. 14 shows an outline of an exemplary embodiment of a table transformation according to the present invention. As shown in FIG. 14, the table transformation starts in step S500 and starts in step S500.
Following 505, the top level table is selected as the current table. Next, in step S510, the current table is checked to determine whether the current table has any nested tables. If so, control proceeds to step S
Continue to 515. Otherwise, control is passed to step S52.
Jump to zero. In step S515, one nested table of the current table is selected as a new current table. Next, control jumps back to step S510 to determine whether there is a nested table in the nested table selected as the current table.

【0115】現在の表にもう入れ子表が無い場合、ステ
ップS520において、現在の表は、現在の表にサイド
バーがあるか否かを決定するためにチェックされる。も
しそうならば、制御がステップS525に続く。そうで
ない場合、制御がステップS535へジャンプする。ス
テップS525において、リンクリストが、現在の表の
サイドバーの全てのリンクの全てから生成する。次に、
ステップS530において、リンクリストは、現在の表
の最後に配される。次に、制御がステップS535に続
く。
If there are no more nested tables in the current table, in step S520 the current table is checked to determine if the current table has a sidebar. If so, control continues to step S525. Otherwise, control jumps to step S535. In step S525, a link list is generated from all of the links in the sidebar of the current table. next,
In step S530, the link list is placed at the end of the current table. Next, control continues to step S535.

【0116】ステップS535において、現在の表が二
つ又はそれより多い部分に分割される。特に、上述のよ
うに、現在の表を複数の部分に分割するための一つの方
法は、表の各セルを別の部分に分割することである。次
に、ステップS540において、現在の表の各部分は、
別の新たなサブページにコピーし、"Next"及び"Previou
s"リンクが各サブページに追加される。次に、ステップ
S545において、現在の表は、ステップS540にお
いて生成されたリンクされたサブページのセットで置き
換えられる。次に、制御がステップS550に続く。
In step S535, the current table is divided into two or more parts. In particular, as mentioned above, one way to split the current table into multiple parts is to split each cell of the table into another part. Next, in step S540, each part of the current table is
Copy to another new sub-page, "Next" and "Previou
An s "link is added to each subpage. Next, in step S545, the current table is replaced with the set of linked subpages generated in step S540. Control then continues to step S550. .

【0117】ステップS550において、現在の表は、
それがトップレベル表であるか否かを決定するためにチ
ェックされる。もし否ならば、まだ複数の部分に分割さ
れるべき少なくとも一つのより高いレベル表がある。従
って、制御がステップS555に続く。そうでない場
合、制御がステップS560にジャンプする。
In step S550, the current table is
A check is made to determine if it is a top-level table. If not, there is still at least one higher level table to be divided into parts. Therefore, control continues to step S555. Otherwise, control jumps to step S560.

【0118】ステップS555において、現在の表を含
む表は、新たな現在の表として選択される。次に、制御
がステップS510にジャンプして戻り、現在の表に更
に入れ子表があるか否かを決定する。反対に、ステップ
S560において、制御ルーチンが終了する。
In step S555, the table including the current table is selected as a new current table. Next, control jumps back to step S510 and determines whether the current table has more nested tables. Conversely, in step S560, the control routine ends.

【0119】図15は、本発明に従う画像縮小変形の例
示の実施の形態のアウトラインを示す。ステップS60
0で開始し、画像縮小変形がステップS610に続き、
現在のサブページで縮小されるべき画像が選択される。
次に、ステップS620において、適用される特定の画
像縮小変形と関連する縮小ファクタに基づいて、縮小さ
れた画像が生成される。次に、ステップS630におい
て、現在のサブページは、選択された画像が前に縮小さ
れているか否かを決定するために解析される。その場
合、制御がステップS670にジャンプする。そうでな
い場合、制御がステップS640に続く。
FIG. 15 shows an outline of an exemplary embodiment of the image reduction deformation according to the present invention. Step S60
0, the image reduction transformation continues to step S610,
The image to be reduced on the current subpage is selected.
Next, in step S620, a reduced image is generated based on a reduction factor associated with the particular image reduction deformation to be applied. Next, in step S630, the current subpage is analyzed to determine whether the selected image has been previously reduced. In that case, control jumps to step S670. Otherwise, control continues to step S640.

【0120】ステップS640において、選択された画
像が新たなサブページにコピーされる。次に、ステップ
S650において、この新たなサブページへのリンクが
生成される。次に、ステップS660において、フルサ
イズ画像が現在のページ又はサブページから除去され、
縮小された画像と生成されたリンクは、再オーサリング
済ページを形成するために、現在のページへ追加され
る。次に、制御がステップS680にジャンプする。
[0120] In step S640, the selected image is copied to a new subpage. Next, in step S650, a link to the new subpage is generated. Next, in step S660, the full size image is removed from the current page or subpage,
The reduced image and the generated link are added to the current page to form a re-authored page. Next, control jumps to step S680.

【0121】反対に、ステップS670において、フル
サイズの画像を現在のサブページから移動するのではな
くて、古い前の縮小された画像が、現在のサブページか
ら除去され、その新たな縮小された画像が現在のサブペ
ージに追加される。しかしながら、現在のサブページが
すでにフルサイズの画像を含む前に生成されたサブペー
ジに対するリンクを有するので、再び、現在のサブペー
ジへのリンクを追加したり、そのフルサイズの画像を格
納する新たなサブページを生成する必要はない。次に、
制御がステップS680に続き、そこで制御ルーチンが
終了する。
Conversely, in step S670, rather than moving the full size image from the current subpage, the old previous reduced image is removed from the current subpage and the new reduced image is replaced. The image is added to the current subpage. However, because the current subpage already has a link to the subpage that was generated before containing the full-size image, again adding a link to the current subpage or storing a new full-size image There is no need to create a subpage. next,
Control continues to step S680, where the control routine ends.

【0122】文書の完全な自動再オーサリングを使用し
ても、セルラー電話で使用される非常に小さなテキスト
のみのタイプの表示に起因して、楽しく且つ有益な過去
の上手なセルラー電話ウエブブラウジングを行うために
は、一般的なウエブ文書においてしばしば単に情報があ
まりに多すぎる。一般的に、これらの装置及びサービス
は、ユーザが特に求めている情報を検出し表示するため
に使用される。即ち、これらの装置及びサービスは、目
標とする情報検索及び抽出のために使用される。本発明
の文書フィルタリングシステム及び方法によって、ユー
ザは、構造ページナビゲーションコマンドを正則表現パ
ターンマッチングとレポート生成関数(機能)とに組合
せる簡単なエンドユーザスクリプティング言語を介し
て、彼等/彼女等が興味のある文書の部分のみを抽出す
ることが可能となる。
Even with full automatic re-authoring of documents, still and useful past good cell phone web browsing results due to the very small text-only type of display used on cell phones For this reason, there is often too much information in a typical web document. Generally, these devices and services are used to detect and display information that the user specifically seeks. That is, these devices and services are used for targeted information retrieval and extraction. With the document filtering system and method of the present invention, users are interested in their / their via a simple end-user scripting language that combines structured page navigation commands with regular expression pattern matching and report generation functions. It is possible to extract only a part of a document having a character.

【0123】1998年4月、オーストラリア、ブリスベン
の第7回国際ワールドワイドウエブ会議でのR. MILLER
等による"SPHINX:a framework for creating pers
onal,site-specific Web crawlers"に記述されている
ように、スフィンクス(SPHINX)システムは、本発明の
システム及び方法のフィルタリングメカニズムと機能性
において類似するカスタム”パーソナル”ウエブクロー
ラをユーザに生成させる可視ツールを提供する。1998年
4月、オーストラリア、ブリスベンの第7回国際ワールド
ワイドウエブ会議でのA. Sugiura等による”Internet
Scrapbook:automating Web browsing tasks by
programming-by-demonstration”に記述されているよ
うに、インターネットスクラップブック(Internet Sc
rapbook)によって、ユーザは、ウエブページからエレ
メント(要素)を可視的に選択して、次に、ウエブペー
ジが変化すると"スクラップブック"中のこれらの要素を
更新でき、本発明のシステム及び方法の特定のページに
対するページエレメント検索と類似する機能を提供でき
る。また、幾つかの市販の製品は、例えば、コーポレー
トレポーテリングやデータベースポピュレーションのよ
うな他のアプリケーションのための類似の機能性を提供
する。ラナコム社(Lanacom, Inc.)の HYPERLINK htt
p://www.Headliner.com http://www.headliner.comに述
べられている、ラナコムのヘッドライナー(Lanacom's
Headliner)及びオン表示社(OnDisplay Inc.)の HY
PERLINK http://www.ondisplay.com http://www.ondisp
lay.com)に述べられている、オン表示のセンターステ
ージ(OnDisplay's CenterStage)の両方は、ユーザに
ウエブページの抽出する構造部分を指定させる可視エデ
ィターを提供する。しかしながら、これらのシステムの
何れもユーザに正則表現又はキーワードに基づいて内容
を抽出する能力を提供しない。
R. MILLER at the 7th International World Wide Web Conference in Brisbane, Australia, April 1998
"SPHINX: a framework for creating pers
As described in "onal, site-specific Web crawlers", the SPHINX system allows users to create custom "personal" web crawlers that are similar in functionality to the filtering mechanisms of the systems and methods of the present invention. Providing tools, 1998
"Internet" by A. Sugiura et al. At the 7th International World Wide Web Conference in Brisbane, Australia in April
Scrapbook: automating Web browsing tasks by
programming-by-demonstration ”, as described in the Internet Scrapbook
rapbook) allows a user to visually select elements from a web page, and then update those elements in the "scrapbook" as the web page changes, providing the system and method of the present invention. A function similar to a page element search for a specific page can be provided. Also, some commercially available products provide similar functionality for other applications such as, for example, corporate reporting and database populations. HYPERLINK htt of Lanacom, Inc.
p: //www.Headliner.com Lanacom's headliner, described at http://www.headliner.com
Headliner) and HY of OnDisplay Inc.
PERLINK http://www.ondisplay.com http: //www.ondisp
Both OnDisplay's CenterStage, described at lay.com), provides a visual editor that allows the user to specify the structural portion of the web page to extract. However, none of these systems provide the user with the ability to extract content based on regular expressions or keywords.

【0124】本発明の文書フィルタリングシステム及び
方法は、ユーザによって高レベルスクリプティング言語
で書かれたコマンドに基づいて、文書から部分情報を抽
出する能力を有する。本発明の文書フィルタリングシス
テム及び方法は、上述の本発明の文書再オーサリングシ
ステム及び方法を使用して抽出された情報の再オーサリ
ングに加えて、ページ構造ナビゲーション、正則表現マ
ッチング、サイトトラバーサル(走査)、即ち、ウエブ
クローリング)、及び対話マッチングを組み合わせる。
The document filtering system and method of the present invention has the ability to extract partial information from a document based on commands written in a high-level scripting language by a user. The document filtering system and method of the present invention, in addition to the re-authoring of information extracted using the above-described document re-authoring system and method of the present invention, include page structure navigation, regular expression matching, site traversal (scanning), That is, web crawling) and dialog matching are combined.

【0125】フィルタスクリプトは、単にテキストファ
イルに入力され、ウエブサーバーにセーブされる。フィ
ルタスクリプトは、ユーザがそのURLを要求する時は何
時でも実行される。フィルタスクリプトは、一般的に、
目標のウエブページをロードし、そのウエブページ内の
(構造的に及び/又は正則表現によって記述される)特
定の位置を走査し、これらの位置でその内容を抽出し、
次に、抽出された内容を文書再オーサリングシステムを
介してユーザに戻される前に適切にフォーマッティング
されるために送出される。
[0125] The filter script is simply entered in a text file and saved on a web server. The filter script runs whenever the user requests the URL. Filter scripts are generally
Loading a target web page, scanning specific locations (described structurally and / or by regular expressions) within the web page, extracting its content at those locations,
The extracted content is then sent out to be properly formatted before being returned to the user via the document re-authoring system.

【0126】本発明の文書フィルタリングシステム及び
方法は、HTML文書内の"現在のコンテキスト”の概念を
使用する簡単なセットのHTML文書ナビゲーションオプシ
ョンを提供することによって、本発明の文書再オーサリ
ングシステム及び方法の解析ツリー生成及びナビゲーシ
ョンの利点がある。現在のコンテキストは、HTML文書内
の位置を参照する点において、データベースプログラミ
ングの”カーソル”と類似する。
The document filtering system and method of the present invention provides a simple set of HTML document navigation options using the concept of "current context" within an HTML document, thereby providing the document reauthoring system and method of the present invention. There is an advantage of parse tree generation and navigation. The current context is similar to a database programming "cursor" in that it refers to a location in an HTML document.

【0127】実際に、現在のコンテキストは、HTML解析
ツリーのノードを参照する。ナビゲーションコマンド
は、HTML文書の希望の部分が検出されるまで、この参照
をツリー内で移動するように働く。この時に、希望の部
分が抽出され得る。例えば、図10は、HTML文書及びそ
の対応する解析ツリーを示す。"GO URL"コマンドを実
行する事によって、文書が最初にロードされると、現在
のコンテキストが解析ツリーの根ノードをポインティン
グしている。根ノード、本質的に、全体の文書を参照す
る。
In effect, the current context references a node in the HTML parse tree. Navigation commands act to move this reference in the tree until the desired part of the HTML document is found. At this time, a desired part can be extracted. For example, FIG. 10 shows an HTML document and its corresponding parse tree. When the document is first loaded by executing the "GO URL" command, the current context points to the root node of the parse tree. Root node, essentially referring to the entire document.

【0128】図16は、ここでアウトラインが示された
文書フィルタリングシステム及び方法を実施するフィル
タメモリ690を更に含む文書再オーサリングシステム
600の例示の実施の形態を示す。特に、コントローラ
610の制御下で、フィルタメモリ690は、ユーザに
よって通信リンク522又は560を介して要求された
フィルタを入力する。そに対する要求されたフィルタ
は、通信リンク580を介してそのようなフィルタを格
納する分散形ネットワークのノードから供給される。次
に、このフィルタメモリ690は、要求された文書をそ
に対する要求された文書を格納する分散形ネットワーク
のノードから入力し、そに対する要求された文書をフィ
ルタリングして要求されたページの要素を抽出する。フ
ィルタメモリ690は、最初に格納された原文書の代わ
りに、これらの抽出されたページ要素を原ページメモリ
631に格納する。次に、文書再オーサリングシステム
600は、これらの抽出されたページ要素上に、あたか
もそれらが再オーサリング待ち原文書であるように、働
く。
FIG. 16 illustrates an exemplary embodiment of a document re-authoring system 600 that further includes a filter memory 690 that implements the document filtering systems and methods outlined herein. In particular, under the control of controller 610, filter memory 690 inputs the filters requested by the user via communication link 522 or 560. The required filters are provided over the communication link 580 from the nodes of the distributed network that store such filters. Next, the filter memory 690 inputs the requested document from a node of the distributed network that stores the requested document, and extracts the requested page element by filtering the requested document. I do. The filter memory 690 stores these extracted page elements in the original page memory 631 instead of the original document stored first. Next, the document re-authoring system 600 acts on these extracted page elements as if they were the original documents to be re-authored.

【0129】原文書からのページ要素の抽出において、
フィルタメモリ690は、原文書から抽象構文ツリー生
成メモリによって生成されると共に抽象構文ツリーメモ
リ633に格納される抽象構文ツリーを使用する。
In extracting page elements from the original document,
The filter memory 690 uses the abstract syntax tree generated from the original document by the abstract syntax tree generation memory and stored in the abstract syntax tree memory 633.

【0130】図17は、要求された文書がフィルタリン
グされるべき時、情報の流れの例示の実施の形態を示
す。図17に示されるように、フィルタに対する要求が
限られた表示領域装置510によってHTTPプロキシサー
バー571へ出力された後、フィルタのそに対する要求
は、HTTPプロキシサーバー571によって、要求された
フィルタを格納する新たな分散形ネットワークの遠隔ノ
ード592へ送られる。要求されたフィルタを格納する
遠隔ノード592は、要求されたフィルタを文書フィル
タ690へ戻す。次に、コントローラ610の制御下
で、文書フィルタ690は、要求されたページを格納す
る分散形ネットワークの遠隔ノード591から文書を要
求する。要求されたページを格納する遠隔ノード591
は、文書を文書フィルタ690に戻す。次に、文書フィ
ルタ690は、遠隔ノード592から戻されたフィルタ
及び抽象構文ツリー生成メモリ640によって生成され
た抽象構文ツリーを使用して、戻された文書をフィルタ
リングする。文書フィルタ690は、抽出されたページ
要素を文書再オーサリングシステム600に戻し、そこ
で、抽出されたページ要素が、上述されたように、再オ
ーサリングのための原文書として処理される。
FIG. 17 shows an exemplary embodiment of the information flow when the requested document is to be filtered. As shown in FIG. 17, after a request for a filter is output to the HTTP proxy server 571 by the limited display area device 510, the request for the filter stores the requested filter by the HTTP proxy server 571. It is sent to the remote node 592 of the new distributed network. The remote node 592 storing the requested filter returns the requested filter to the document filter 690. Next, under the control of controller 610, document filter 690 requests a document from remote node 591 of the distributed network that stores the requested page. Remote node 591 storing requested page
Returns the document to the document filter 690. Next, document filter 690 filters the returned documents using the filters returned from remote node 592 and the abstract syntax tree generated by abstract syntax tree generation memory 640. The document filter 690 returns the extracted page elements to the document re-authoring system 600, where the extracted page elements are processed as an original document for re-authoring, as described above.

【0131】ページナビゲーションコマンドは、次の三
つのタイプがある。より指定的な内容を選択するために
現在のコンテキストに入るコマンド、現在のコンテキス
トから閉鎖構造へ出るコマンド、及び、例えば、現在の
コンテキスト内に適切に含まれていても含まれていなく
てもよいある種の次の構造にナビゲートするために、現
在のコンテキストの開始からシーケンシャルにページを
走査するコマンドである。
There are the following three types of page navigation commands. Commands to enter the current context to select more specific content, commands to exit the current context to the closed structure, and, for example, may or may not be properly included in the current context A command that scans a page sequentially from the start of the current context to navigate to some next structure.

【0132】最も単純なタイプのナビゲーションコマン
ドは、現在のコンテキストに入る。例えば、図10に示
される文書と現在のコンテキストが与えられると、コマ
ンド"GO ROW 2"を実行すると、図18に示されるよう
に、現在のコンテキストが現在のコンテキスト内で第2
の表行オブジェクトへ移動される。
[0132] The simplest type of navigation command enters the current context. For example, given the document shown in FIG. 10 and the current context, executing the command “GO ROW 2” causes the current context to become the second in the current context as shown in FIG.
Is moved to the table row object.

【0133】また、現在のコンテキストは、"GO ENCLO
SING"コマンドを使用することによって、拡大される、
即ち、解析ツリーを根ノードに向かって移動することが
出来る。例えば、図18に示される文書とコンテキスト
が与えられると、"GO ENCLOSING TABLE"コマンドによ
って図19に示される現在のコンテキストが得られる。
The current context is "GO ENCLO
Expanded by using the "SING" command,
That is, the parse tree can be moved toward the root node. For example, given the document and the context shown in FIG. 18, the current context shown in FIG. 19 is obtained by the "GO ENCLOSING TABLE" command.

【0134】最後に、現在のコンテキストは、オブジェ
クトがユーザに見えるように、シーケンシャルにページ
中のオブジェクト間で前後に移動され得る。これは、解
析ツリーのプレフィックス走査内で現在のコンテキスト
をその現在の位置から前後に移動することによって完了
される。これによって、最初に現在のコンテキスト内で
実行され、次にそのページ上の現在のコンテキストに従
うオブジェクトが続く検索を実行する。例えば、"GO P
REVIOUS IMAGE"コマンドが現在のコンテキストからシ
ーケンシャルに検出される前の画像に移動する。
Finally, the current context can be moved sequentially back and forth between objects in the page so that the objects are visible to the user. This is accomplished by moving the current context back and forth from its current position within the prefix scan of the parse tree. This causes a search to be performed first in the current context, followed by objects that follow the current context on the page. For example, "GO P
REVIOUS IMAGE command moves from the current context to the image before it was sequentially detected.

【0135】また、ネーム付けされたページ要素に加え
て、正則表現を使用して、ナビゲーションコマンドが指
定され得る。例えば、"GO NEXT""DOW\sJONES\s*(\
d+)\s*POINTS""コマンドは、ページ上のテキストブロ
ックのプレフィックス走査を使用して、現在のコンテキ
ストを指定された正則表現の次のマッチングに移動す
る。本発明のフィルタリングシステム及び方法は、サブ
表現を区分し、それらを出力ストリングに呼び出すこと
ができる。
Also, navigation commands can be specified using regular expressions in addition to named page elements. For example, "GO NEXT""DOW\sJONES\s * (\
The d +) @ s * POINTS "" command moves the current context to the next match of the specified regular expression using a prefix scan of the text block on the page. The filtering system and method of the present invention can partition sub-expressions and invoke them on output strings.

【0136】また、上述の単純なナビゲーションコマン
ドは、"LINKEDPAGE”ページオブジェクトタイプを使用
して、一セットのリンクされたウエブページ間でナビゲ
ートするために使用され得る。例えば、"GO FIRST LI
NKEDPAGE"コマンドは、現在のコンテキスト内で第1の
ハイパーテキストリンクへ移動し、参照されたページを
ロードし、現在のコンテキストをこの文書の解析ツリー
の根へ移動すると共に、"GO ENCLOSING LINKEDPAGE"
コマンドは、現在のコンテキストを現在処理中の文書へ
のハイパーテキストリンクへ戻す。
Also, the simple navigation command described above can be used to navigate between a set of linked web pages using the "LINKEDPAGE" page object type. For example, "GO FIRST LI
The "NKEDPAGE" command navigates to the first hypertext link in the current context, loads the referenced page, moves the current context to the root of the parse tree for this document, and "GO ENCLOSING LINKEDPAGE"
The command returns the current context to a hypertext link to the document currently being processed.

【0137】ページ間の走査は、各々が特定のURLを有
するスクリプト状態情報(現在のコンテキストを含む)
と解析ツリーを対とする、スクリプトアクティベーショ
ンのスタックによって処理される。これは、リンクされ
たページ間で前後に迅速なナビゲーションを促進し、"G
O ENCLOSING LINKEDPAGE"コマンドを支援することを
必要とする。
Scans between pages are script state information, each with a specific URL (including the current context)
It is handled by a stack of script activations, paired with a parse tree. This facilitates quick navigation back and forth between linked pages, and "G
Need to support O ENCLOSING LINKEDPAGE "command.

【0138】現在のコンテキストが、対象となるページ
オブジェクトへ移動されると、"REPORT"コマンドがそれ
を抽出するために使用される。この"REPORT"コマンドフ
ィルタスクリプト内で数回発行されることが出来、その
場合、抽出されたページ要素が連結される。また、"REP
ORT"コマンドは、任意のストリングを出力に挿入するこ
とが出来、それは、正則表現パターンマッチングからの
サブストリングを含むことが出来る。例えば、"REPORT"
Dow:\1”” コマンドは、ストリング”Dow:”+正則
表現マッチングの間に抽出される識別子"1"によって識
別されるサブストリングをフィルタ出力に追加する。
When the current context has been moved to the target page object, a "REPORT" command is used to extract it. It can be issued several times within this "REPORT" command filter script, in which case the extracted page elements are concatenated. Also, "REP
The ORT "command can insert any string into the output, which can include substrings from regular expression pattern matching. For example," REPORT "
The Dow: @ 1 "" command adds to the filter output the substring identified by the string "Dow:" + the identifier "1" extracted during regular expression matching.

【0139】しばしば、ユーザは、ウエブページ上に特
定の種類のページ要素がどのくらい多くあるかを予め知
らない。例えば、日々の電子雑誌(eマガジン)中のニ
ュース記事パラグラフの数を、一般に、予め知ることが
出来ない。”FOREACH”コマンドは、指定された基準を
満足する現在のコンテキスト内で検出された全てのペー
ジ要素に対して一連のコマンドを実行する事によって、
この情報の欠落をアクセスする。”LINKEDPAGE”ターゲ
ットが使用される時、これは、ウエブサイト内でリンク
されたページの全てを訪ねるウエブスパイダーの機能を
提供する。以下の例において、省略符号は、連続する有
効フィルタコマンドを表す。
Often, the user does not know in advance how many page elements of a particular type are on a web page. For example, the number of news article paragraphs in a daily electronic magazine (e-magazine) cannot generally be known in advance. The "FOREACH" command executes a series of commands on all page elements found in the current context that meet the specified criteria,
Access this missing information. When the "LINKEDPAGE" target is used, this provides the functionality of a web spider to visit all linked pages in a website. In the following examples, the ellipsis represents successive valid filter commands.

【0140】”FOREACH PARAGRAPH”コマンドは、現在
のコンテキスト(DO…END)内で各パラグラフに移動
し、指定されたコマンドを実行する。
The “FOREACH PARAGRAPH” command moves to each paragraph within the current context (DO... END) and executes the specified command.

【0141】”FOREACH LINKEDPAGE”コマンドは、DO
…END現在ページからハイパーテキストリンクを介して
到達できる各ページをロードし、指定されたコマンドを
実行する。
The "FOREACH LINKEDPAGE" command is
… END Loads each page reachable from the current page via a hypertext link and executes the specified command.

【0142】フィルタは、ナビゲーションの失敗、正則
表現マッチング失敗又はウエブページ検索エラー等のあ
らゆる種類のエラーに遭遇すると何時でも、それは、オ
フェンディングコマンドが埋め込まれている最内”FORE
ACH”ループの次の反復を開始する。フィルタのトップ
レベルでエラーが生成すると、フィルタは、実行を中止
し、未決出力を生成する。
Whenever the filter encounters any kind of error, such as a navigation failure, a regular expression matching failure, or a web page search error, it filters the innermost "FORE" in which the offending command is embedded.
Initiate the next iteration of the "ACH" loop. If an error occurs at the top level of the filter, the filter halts execution and produces a pending output.

【0143】本発明の文書再オーサリングシステム及び
方法は、小さなスクリーンを有する表示上への表示のた
めに文書の良い自動再オーサリングを行う。本発明の文
書再オーサリングシステム及び方法の例示の実施の形態
は、多数のスクリーンサイズに対する広範囲に亘るペー
ジに関して非公式にテストを行った。本発明の文書再オ
ーサリングシステム及び方法のこの例示の実施の形態
は、読み易くナビゲーション可能な出力を生成した。
The document re-authoring system and method of the present invention provides good automatic re-authoring of a document for display on a display having a small screen. The exemplary embodiment of the document re-authoring system and method of the present invention has been informally tested on a wide range of pages for multiple screen sizes. This exemplary embodiment of the document re-authoring system and method of the present invention has produced readable and navigable output.

【0144】例示の実施の形態において、本発明の文書
再オーサリングシステム及び方法は、文書のためのスク
リーン領域要求を推定するために、全ての画像とテキス
トのスペース要求を簡単に合計する。これは、ゼロック
ス年報(Xerox Annual Report)のような最小構造の
かなり高密度の文書に対しては適切であるが、例えば、
表のような、白スペースが多い又は先進のレイアウト技
術を使用する文書にはうまく働かない。第2の例示の実
施の形態において、本発明の文書再オーサリングシステ
ム及び方法は、各文書バージョンを表示領域上にフォー
マッティングする場合に、ブラウザによって実行される
多くの作業を実行するサイズエスティミッタ(サイズ推
定装置)を含む。ユーザが水平方向のスクロールを望ま
ない場合、バンド幅、審美的基準のために、要求された
スクリーン領域以外のファクタ(例えば、再オーサリン
グ済文書の実際の幅要求のような)が、含まれる必要が
あるかもしれない。
In an exemplary embodiment, the document re-authoring system and method of the present invention simply sums all image and text space requirements to estimate screen area requirements for the document. This is appropriate for very dense documents with minimal structure, such as the Xerox Annual Report,
It does not work well with documents that have a lot of white space or use advanced layout techniques, such as tables. In a second exemplary embodiment, the document re-authoring system and method of this invention provides a size estimator (size) that performs many tasks performed by a browser when formatting each document version on a display area. Estimating device). If the user does not want horizontal scrolling, factors other than the requested screen area (e.g., the actual width requirements of the re-authored document) need to be included due to bandwidth, aesthetic criteria. There may be.

【0145】ユーザは、テーストを適合させるために、
本発明の文書再オーサリングシステム及び方法に使用さ
れる種々のヒューリスティクスを調節できるべきであ
る。例えば、ユーザは、変形技術の相対優先度を指定で
きるか、或いは全く使用されない幾つかの変形を指定で
きる。より高いレベルのアブストラクションにおいて、
ユーザは、”より多くの内容”対”より大きな表示”の
ような、一セットのトレードオフに対するそれらの優先
度を表すことが出来る。更に、本発明の再オーサリング
システム及び方法がクライアントに移動され、ブラウザ
と連結されることができ、それによって、ユーザは、ユ
ーザがユーザの好みの結果を達成するまで、異なる変形
をダイナミックに適用し、且つ取り消すことが出来る。
[0145] To adapt the taste, the user
It should be possible to adjust the various heuristics used in the document re-authoring system and method of the present invention. For example, the user can specify the relative priorities of the deformation techniques, or specify some deformations that are not used at all. At a higher level of abstraction,
Users can express their priorities for a set of trade-offs, such as "more content" versus "greater display". Further, the re-authoring system and method of the present invention can be moved to a client and coupled with a browser so that a user can dynamically apply different transformations until the user achieves the user's desired result. And can be undone.

【0146】本発明の自動文書再オーサリングシステム
と方法、特に、上述のHTTPプロキシサーバーの例示の実
施の形態は、プログラムされた汎用コンピュータで実行
されるのが好ましい。しかしながら、また、本発明の自
動文書再オーサリングシステムと方法、特に、上述のHT
TPプロキシサーバーは、特殊目的コンピュータ、マイク
ロコントローラと周辺集積メモリ要素、ASICや他の集積
メモリ、ディジタル信号プロセッサ、PLD、PLA、FPGA又
はPALのような、ハードワイヤードエレクトロニクスや
論理メモリ、等でも実行され得る。一般に、有限状態マ
シンを実施できるあらゆる装置は、本発明の自動文書再
オーサリングシステムと方法、特に、上述のHTTPプロキ
シサーバーを実施するために使用できる。
The automatic document re-authoring system and method of the present invention, and in particular, the exemplary embodiment of the HTTP proxy server described above, is preferably implemented on a programmed general purpose computer. However, also the automatic document re-authoring system and method of the present invention, particularly the
The TP proxy server also runs on special purpose computers, microcontrollers and peripheral integrated memory elements, ASICs and other integrated memories, digital signal processors, hardwired electronics and logic memories, such as PLDs, PLAs, FPGAs or PALs, etc. obtain. In general, any device that can implement a finite state machine can be used to implement the automatic document re-authoring system and method of the present invention, in particular, the HTTP proxy server described above.

【0147】本発明の自動文書再オーサリングシステム
及び方法は、上述されたHTTPプロキシサーバーで実行さ
れる独立型再オーサリングプログラムを呼び出すことに
よって実行され得る。或いは、それは、ネットスケープ
ナビゲーター(Netscape Navigator)等のような、従
来のウエブブラウザへのプラグインを介して実行され得
る。
The automatic document re-authoring system and method of the present invention can be implemented by invoking a stand-alone re-authoring program running on the HTTP proxy server described above. Alternatively, it can be implemented via a plug-in to a conventional web browser, such as a Netscape Navigator or the like.

【0148】更に、本発明の自動文書再オーサリングシ
ステム及び方法は、ワールドワイドウエブから得られる
文書の再オーサリングに関連して述べられたが、本発明
の自動文書再オーサリングシステム及び方法は、ローカ
ルエリアネットワーク、ワイドエリアネットワーク、イ
ントラネット、インターネット、又はあらゆる他の分散
形処理及び記憶ネットワークのような、あらゆる分散形
ネットワークから得られる文書を再オーサリングするた
めに使用され得る。
Further, while the automatic document re-authoring system and method of the present invention has been described in relation to the re-authoring of documents obtained from the World Wide Web, the automatic document re-authoring system and method of the present invention may be implemented in a local area. It can be used to re-author documents obtained from any distributed network, such as a network, a wide area network, an intranet, the Internet, or any other distributed processing and storage network.

【0149】本発明は、上記にアウトラインが記された
特定の実施の形態と共に記述さてたが、当業者には、多
くの代替え、変更及びバリエーションは明白である。従
って、上述の本発明の好適な実施の形態は、例示を意図
しているが、本発明を限定する意図はない。種々の変化
は、本発明の精神及び範囲を逸脱することなく、行われ
得る。
Although the invention has been described in conjunction with the specific embodiments outlined above, many alternatives, modifications and variations will be apparent to those skilled in the art. Accordingly, the above-described preferred embodiments of the present invention are intended to be illustrative, but not limiting. Various changes may be made without departing from the spirit and scope of the invention.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の文書再オーサリングシステム及び方法
の一例示の実施の形態に従うセクションリストページ及
び多数のセクションページへの文書の再オーサリングを
示す図である。
FIG. 1 illustrates reauthoring a document into a section list page and multiple section pages according to one exemplary embodiment of the document reauthoring system and method of the present invention.

【図2】本発明の文書再オーサリングシステム及び方法
に従って複数のリンクされたセルに再オーサリングされ
得るレイアウト表である。
FIG. 2 is a layout table that can be re-authored into a plurality of linked cells in accordance with the document re-authoring system and method of the present invention.

【図3】本発明の文書再オーサリングシステム及び方法
の一例示の実施の形態に従って異なる変形の適用に基づ
いて、文書がどのように異なる再オーサリング済状態に
再オーサリングされ得るかを示す図である。
FIG. 3 illustrates how a document may be re-authored into different re-authored states based on the application of different transformations in accordance with one exemplary embodiment of the document re-authoring system and method of the present invention. .

【図4】本発明の文書再オーサリングシステム及び方法
に従う表示情報をHTTPプロキシサーバーへ供給するため
の制御フォームの例示の一実施の形態を示す。
FIG. 4 illustrates an exemplary embodiment of a control form for providing display information to an HTTP proxy server in accordance with the document reauthoring system and method of the present invention.

【図5】本発明の文書再オーサリングシステム及び方法
に従う例示の文書の再オーサリングの一例示の実施の形
態を示す。
FIG. 5 illustrates one exemplary embodiment of an exemplary document reauthoring in accordance with the document reauthoring system and method of the present invention.

【図6】本発明の文書再オーサリングシステム及び方法
が使用される本発明の一例示の実施の形態のアウトライ
ンを示すブロック図である。
FIG. 6 is a block diagram illustrating an outline of an exemplary embodiment of the present invention in which the document re-authoring system and method of the present invention are used.

【図7】本発明の文書再オーサリングシステム及び方法
への文書フローの例示の実施の形態のアウトラインを示
すブロック図である。
FIG. 7 is a block diagram illustrating an outline of an exemplary embodiment of a document flow to the document re-authoring system and method of the present invention.

【図8】本発明の文書再オーサリングシステム及び方法
の例示の実施の形態のアウトラインを示す機能ブロック
図である。
FIG. 8 is a functional block diagram outlining an exemplary embodiment of the document re-authoring system and method of the present invention.

【図9】本発明の文書再オーサリングシステム及び方法
の文書バージョン検索スペースの例示の実施の形態の説
明図である。
FIG. 9 is an illustration of an exemplary embodiment of a document version search space of the document re-authoring system and method of the present invention.

【図10】本発明に従う画像及びその画像から生成され
る抽象構文ツリーの例示の実施の形態の説明図である。
FIG. 10 is an illustration of an exemplary embodiment of an image and an abstract syntax tree generated from the image according to the present invention.

【図11】本発明に従う文書再オーサリングのための例
示の実施の形態のアウトラインを示すフロー図である。
FIG. 11 is a flow diagram illustrating an outline of an exemplary embodiment for document re-authoring in accordance with the present invention.

【図12】本発明に従う文書再オーサリングのための例
示の実施の形態のアウトラインを示すフロー図である。
FIG. 12 is a flow diagram outlining an exemplary embodiment for document re-authoring in accordance with the present invention.

【図13】本発明に従う省略変形を実行するための方法
の例示の実施の形態のフロー図である。
FIG. 13 is a flow diagram of an exemplary embodiment of a method for performing an omitted variant according to the present invention.

【図14】本発明に従う表変形を実行するための方法の
例示の実施の形態のフロー図である。
FIG. 14 is a flow diagram of an exemplary embodiment of a method for performing table transformation according to the present invention.

【図15】本発明に従う画像縮小変形を実行するための
方法の実施の形態のフロー図である。
FIG. 15 is a flow diagram of an embodiment of a method for performing image reduction deformation according to the present invention.

【図16】本発明に従う文書フィルタリングを含む本発
明の文書再オーサリングシステム600の実施の形態の
アウトラインを示す基本ブロック図である。
FIG. 16 is a basic block diagram illustrating an outline of an embodiment of a document re-authoring system 600 of the present invention including document filtering according to the present invention.

【図17】本発明に従う文書フィルタリング及び再オー
サリングの間の文書フローの例示の実施の形態のブロッ
ク図である。
FIG. 17 is a block diagram of an exemplary embodiment of a document flow during document filtering and re-authoring according to the present invention.

【図18】図10に示される画像から生成される抽象構
文ツリー内をナビゲートするために本発明の文書フィル
タリングシステム及び方法を使用する例示の実施の形態
の説明図である。
FIG. 18 is an illustration of an exemplary embodiment that uses the document filtering system and method of the present invention to navigate in an abstract syntax tree generated from the image shown in FIG.

【図19】本発明の文書フィルタリングシステム及び方
法に従う図10の抽象構文内の更なるナビゲートを示す
説明図である。
FIG. 19 illustrates further navigating within the abstract syntax of FIG. 10 according to the document filtering system and method of the present invention.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 アンドレアス ガーゲンショーン アメリカ合衆国 94025 カリフォルニア 州 メンロ パーク ウェイヴァリー ス トリート 210 ナンバー4 (72)発明者 ジョセフ ダブリュー.スリーヴァン アメリカ合衆国 94107 カリフォルニア 州 サンフランシスコ ブルックサム ス トリート 175 ナンバー103 ────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Andreas Gargenshawn United States 94025 Menlo Park, Waverley Street 210 No. 4 (72) Inventor Joseph W .. Slievan United States 94107 San Francisco, California Brooksum Street Treat 175 Number 103

Claims (29)

【特許請求の範囲】[Claims] 【請求項1】 文書の望ましいエレメントを抽出するた
めに前記文書をフィルタリングする方法であって、 所定のフィルタを提供するステップと、 フィルタリングされるべき前記文書を得るステップと、 前記得られた文書から解析ツリーを生成するステップ
と、 前記提供されたフィルタに基づいて前記解析ツリーを介
してナビゲートして抽出されるべき前記文書の少なくと
も一つのエレメントを識別するステップと、 前記少なくとも一つの識別されたエレメントを抽出する
ステップと、 前記少なくとも一つの抽出されたエレメントを組合せて
前記文書のフィルタリングされたバージョンを形成する
ステップと、 を備える文書のフィルタリング方法。
1. A method for filtering a document to extract desired elements of the document, comprising: providing a predetermined filter; obtaining the document to be filtered; and from the obtained document. Generating a parse tree; navigating through the parse tree based on the provided filter to identify at least one element of the document to be extracted; and the at least one identified A document filtering method, comprising: extracting elements; and combining the at least one extracted element to form a filtered version of the document.
【請求項2】 前記所定のフィルタを提供するステップ
は、分散形ネットワークのノードから前記所定のフィル
タを検索するステップを有する、請求項1に記載の方
法。
2. The method of claim 1, wherein providing the predetermined filter comprises retrieving the predetermined filter from nodes of a distributed network.
【請求項3】 前記所定のフィルタを提供するステップ
は、 前記所定のフィルタに対するユニフォームリソースロケ
ータ(URL)を分散形ネットワークのホストノードへ提
供するステップと、 前記提供されたURLに対応して、前記分散形ネットワー
クのノードから前記所定のフィルタを検索するステップ
と、 を備える、請求項1に記載の方法。
3. The step of providing the predetermined filter includes: providing a uniform resource locator (URL) for the predetermined filter to a host node of a distributed network; Retrieving said predetermined filter from nodes of a distributed network.
【請求項4】 前記所定のフィルタに対するURLを提供
するステップは、前記URLを前記分散形ネットワークに
接続されたデータ処理装置から送信するステップを備え
る、請求項3に記載の方法。
4. The method of claim 3, wherein providing a URL for the predetermined filter comprises transmitting the URL from a data processing device connected to the distributed network.
【請求項5】 前記データ処理装置から前記ユニフォー
ムリソースロケータを送信するステップは、前記URLを
無線通信チャネルを介して送信するステップを備える、
請求項4に記載の方法。
5. Transmitting the uniform resource locator from the data processing device comprises transmitting the URL via a wireless communication channel.
The method according to claim 4.
【請求項6】 前記分散形ネットワークの前記ノードか
ら前記所定のフィルタを検索するステップは、前記分散
形ネットワークの前記ホストノードから前記所定のフィ
ルタを検索するステップを備える、請求項3に記載の方
法。
6. The method of claim 3, wherein retrieving the predetermined filter from the nodes of the distributed network comprises retrieving the predetermined filter from the host nodes of the distributed network. .
【請求項7】 前記分散形ネットワークの前記ノードか
ら前記所定のフィルタを検索するステップは、前記分散
形ネットワークの遠隔ノードから前記所定のフィルタを
検索するステップを備える、請求項3に記載の方法。
7. The method of claim 3, wherein retrieving the predetermined filter from the nodes of the distributed network comprises retrieving the predetermined filter from remote nodes of the distributed network.
【請求項8】 前記フィルタリングされるべき前記文書
を得るステップは、分散形ネットワークのノードから前
記フィルタリングされるべき文書を検索するステップを
備える、請求項1に記載の方法。
8. The method of claim 1, wherein obtaining the document to be filtered comprises retrieving the document to be filtered from nodes of a distributed network.
【請求項9】 フィルタリングされるべき前記文書を得
るステップは、 前記フィルタリングされるべき文書に対するURLを提供
するステップと、 前記提供されたURLに対応して、分散形ネットワークの
ノードから前記フィルタリングされるべき文書を検索す
るステップと、 を備える、請求項1に記載の方法。
9. The step of obtaining the document to be filtered comprises: providing a URL for the document to be filtered; and corresponding to the provided URL, filtering the document from a node of the distributed network. The method of claim 1, comprising: searching for a document to be delivered.
【請求項10】 前記フィルタリングされるべき文書に
対する前記URLを提供するステップは、前記フィルタリ
ングされるべき文書に対する前記URLを前記所定のフィ
ルタに埋め込むステップを備える、請求項9に記載の方
法。
10. The method of claim 9, wherein providing the URL for the document to be filtered comprises embedding the URL for the document to be filtered in the predetermined filter.
【請求項11】 前記解析ツリーを介してナビゲートす
るステップは、前記解析ツリーの現在のコンテキストに
更に移動するステップと前記解析ツリーの現在のコンテ
キストから外に移動するステップと前記解析ツリー内で
現在のコンテキストに相対して前記解析ツリーの他の構
造へ移動するステップの内の少なくとも一つを含む、請
求項1に記載の方法。
11. The step of navigating through the parse tree further comprises: further moving to a current context of the parse tree; moving out of a current context of the parse tree; 2. The method of claim 1, comprising moving at least one of the parse trees to another structure relative to a context of the parse tree.
【請求項12】 前記現在のコンテキストは、前記解析
ツリーの現在のノードであり、 前記解析ツリーの現在のコンテキストに更に移動するス
テップは、前記解析ツリーの現在のノードから前記現在
のノードの少なくとも一つの子ノードへ移動するステッ
プを備える、請求項11に記載の方法。
12. The current context of the parse tree, wherein the current context is a current node of the parse tree, the step of further moving to a current context of the parse tree comprises: The method of claim 11, comprising moving to one child node.
【請求項13】 前記解析ツリーの現在のノードから前
記現在のノードの少なくとも一つの子ノードへ移動する
ステップを備える前記解析ツリーの現在のコンテキスト
に更に移動するステップは、GO"正則表現"コマンドを使
用するステップを備え、前記少なくとも子ノードは前
記"正則表現"によって定義されるストリングを含む、請
求項12に記載の方法。
13. The step of further moving to a current context of the parse tree, comprising moving from a current node of the parse tree to at least one child node of the current node, comprises: The method of claim 12, comprising using, wherein the at least child node comprises a string defined by the "regular expression".
【請求項14】 前記現在のコンテキストは、前記解析
ツリーの現在のノードであり、 前記解析ツリーの前記現在のコンテキストから外へ移動
するステップは、前記解析ツリーの現在のノードから現
在のノードの少なくとも一つの親ノードへ移動するステ
ップを備える、請求項11に記載の方法。
14. The current context is a current node of the parse tree, and the step of moving out of the current context of the parse tree comprises: The method of claim 11, comprising moving to one parent node.
【請求項15】 前記現在のコンテキストは、前記解析
ツリーの現在のノードであり、 前記解析ツリー内で現在のコンテキストに対して前記解
析ツリーの次の構造へ移動するステップは、前記現在の
ノードから前記解析ツリーのノードを介して移動するス
テップを備える、請求項11に記載の方法。
15. The current context is a current node of the parse tree, and navigating to a next structure of the parse tree for the current context in the parse tree comprises: The method of claim 11, comprising navigating through nodes of the parse tree.
【請求項16】 前記現在のノードから前記解析ツリー
のノードを介して移動する前記ステップは、前記現在の
ノードから前記解析ツリーを介してシーケンシャルに移
動するステップを備える、請求項15に記載の方法。
16. The method of claim 15, wherein moving from the current node through a node of the parse tree comprises moving sequentially from the current node through the parse tree. .
【請求項17】 前記解析ツリーを介してナビゲートす
る前記ステップは、前記検索されたフィルタで定義され
た正則表現とのマッチングに基づいて、現在のコンテキ
ストへの移動、現在のコンテキストから外への移動、及
び現在のコンテキストに相対する移動の内の何れかを更
に備える、請求項11に記載の方法。
17. The method of claim 1, wherein navigating through the parse tree includes moving to a current context, moving out of the current context based on a match with a regular expression defined in the searched filter. The method of claim 11, further comprising any of a move and a move relative to a current context.
【請求項18】 前記解析ツリーを介してナビゲートす
る前記ステップは、前記検索されたフィルタで定義され
た正則表現との反復マッチングに基づいて、現在のコン
テキストへの移動、現在のコンテキストから外への移
動、及び現在のコンテキストに相対する移動の内の何れ
かを更に備える、請求項11に記載の方法。
18. The step of navigating through the parse tree includes moving to and out of a current context based on iterative matching with a regular expression defined in the searched filter. 12. The method of claim 11, further comprising any one of the following: a move of the current context and a move relative to the current context.
【請求項19】 前記解析ツリーを介してナビゲートす
る前記ステップは、前記検索されたフィルタで定義され
たナビゲーションコマンドの反復実行に基づいて、現在
のコンテキストへの移動、現在のコンテキストから外へ
の移動、及び現在のコンテキストに相対する移動の内の
何れかを更に備える、請求項11に記載の方法。
19. The method according to claim 19, wherein the step of navigating through the parse tree includes moving to a current context, moving out of the current context based on an iterative execution of navigation commands defined in the searched filter. The method of claim 11, further comprising any of a move and a move relative to a current context.
【請求項20】 前記解析ツリーを介してナビゲートす
る前記ステップは、前記解析ツリー内の各望ましい位置
を構造的に記述することに基づいて、前記解析ツリー内
での少なくとも一つの望ましい位置へ移動するステップ
を備える、請求項1に記載の方法。
20. The step of navigating through the parse tree moves to at least one desired position in the parse tree based on structurally describing each desired position in the parse tree. The method of claim 1, comprising the step of:
【請求項21】 前記解析ツリーを介してナビゲートす
る前記ステップは、各望ましい位置のコンテキスト内に
含まれる正則表現を記述することに基づいて、前記解析
ツリー内で少なくとも一つの望ましい位置へ移動するス
テップを備える、請求項1に記載の方法。
21. The step of navigating through the parse tree moves to at least one desired position in the parse tree based on describing a regular expression contained within the context of each desired position. The method of claim 1, comprising steps.
【請求項22】 更に、前記少なくとも一つの前記抽出
されたエレメントを含む文書を生成するステップと、 前記生成された文書から評価値を生成するステップと、 前記評価値が少なくとも一つの評価基準を満足するか否
かを決定するステップと、 前記評価値が前記一つの評価基準を満足する場合、前記
文書を出力するステップと、 前記評価値が前記一つの評価基準を満足しない場合、前
記文書を変形済文書へ変形して、前記生成するステップ
及び前記決定するステップを繰り返すステップと、 を備える請求項1に記載の方法。
22. A step of generating a document including the at least one extracted element; a step of generating an evaluation value from the generated document; and the evaluation value satisfies at least one evaluation criterion. Deciding whether or not to perform; outputting the document if the evaluation value satisfies the one evaluation criterion; deforming the document if the evaluation value does not satisfy the one evaluation criterion The method of claim 1, further comprising: transforming the document into a finished document, and repeating the generating and determining steps.
【請求項23】 文書から少なくとも一つのエレメント
を抽出するために、選択されたフィルタに基づいて、前
記文書を自動的にフィルタリングする文書フィルタリン
グシステムであって、 解析ツリー生成メモリと、 文書フィルタリングメモリと、 抽出されたエレメント出力メモリと、 を備える文書フィルタリングシステム。
23. A document filtering system for automatically filtering a document based on a selected filter to extract at least one element from the document, comprising: a parse tree generation memory; a document filtering memory; A document filtering system comprising: an extracted element output memory;
【請求項24】 前記解析ツリー生成メモリは、解析ツ
リーを生成するために前記文書を解析する、請求項23
に記載の文書フィルタリングシステム。
24. The parse tree generation memory parses the document to generate a parse tree.
Document filtering system as described in.
【請求項25】 前記文書フィルタリングシステムは、
前記選択されたフィルタのナビゲーションコマンドに基
づいて、前記解析ツリー内でナビゲートする、請求項2
4に記載の文書フィルタリングシステム。
25. The document filtering system,
3. Navigating in the parse tree based on a navigation command of the selected filter.
4. The document filtering system according to 4.
【請求項26】 前記文書フィルタリングシステムは、
前記選択されたフィルタのレポートコマンドと前記解析
ツリーの現在のコンテキストに基づいて、前記文書から
文書エレメントを抽出する、請求項24に記載の文書フ
ィルタリングシステム。
26. The document filtering system,
25. The document filtering system of claim 24, wherein a document element is extracted from the document based on a report command of the selected filter and a current context of the parse tree.
【請求項27】 前記文書フィルタリングシステムは、
前記選択されたフィルタのナビゲーションコマンドに基
づいて、前記解析ツリー内でナビゲートすることによっ
て、前記解析ツリーの現在のコンテキストを決定する、
請求項26に記載の文書フィルタリングシステム。
27. The document filtering system,
Determining a current context of the parse tree by navigating in the parse tree based on the navigation command of the selected filter;
The document filtering system according to claim 26.
【請求項28】 更に、文書サイズ評価メモリと、 変形メモリと、 を備える、請求項23に記載の文書フィルタリングシス
テム。
28. The document filtering system according to claim 23, further comprising: a document size evaluation memory; and a deformation memory.
【請求項29】 前記文書サイズ評価メモリは、前記少
なくとも一つの抽出されたエレメントを含むフィルタリ
ングされた文書から前記解析ツリー生成メモリによって
生成された解析ツリーを評価して、前記文書が少なくと
も一つの評価基準を満足するか否かを決定する、請求項
28に記載の文書フィルタリングシステム。
29. The document size evaluation memory evaluates a parse tree generated by the parse tree generation memory from a filtered document including the at least one extracted element, wherein the document is evaluated by at least one evaluation. 29. The document filtering system of claim 28, wherein determining whether a criterion is satisfied.
JP2000020499A 1999-01-29 2000-01-28 Method and system for filtering document Pending JP2000222398A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US23929499A 1999-01-29 1999-01-29
US239294 1999-01-29

Publications (1)

Publication Number Publication Date
JP2000222398A true JP2000222398A (en) 2000-08-11

Family

ID=22901526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000020499A Pending JP2000222398A (en) 1999-01-29 2000-01-28 Method and system for filtering document

Country Status (1)

Country Link
JP (1) JP2000222398A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063193A (en) * 2000-08-15 2002-02-28 Kurisutaruuddo:Kk Device and method for converting program language, and recording medium with program language conversion program recorded thereon
JP2003030098A (en) * 2001-07-13 2003-01-31 Toshiba Corp Device and method for providing content
WO2004010309A1 (en) * 2002-07-23 2004-01-29 Kabushiki Kaisha Eighting Informing system
WO2004086237A1 (en) * 2003-03-27 2004-10-07 Blue Bone Inc. Web site management system and web site management method
WO2007018102A1 (en) * 2005-08-11 2007-02-15 Matsushita Electric Industrial Co., Ltd. Mobile information device and mobile information device display method
JP2007068229A (en) * 2006-11-28 2007-03-15 Kyocera Corp Mobile terminal device
JP2008176820A (en) * 2001-03-23 2008-07-31 Arizan Corp System and method for content delivery over wireless communication medium to portable computing device
JP2008546120A (en) * 2005-06-10 2008-12-18 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. Method and system for improving interactive media response system using visual cues
WO2013175560A1 (en) * 2012-05-21 2013-11-28 株式会社日立製作所 Information communicating system and information converting method
JP2014063481A (en) * 2012-08-30 2014-04-10 Canon Inc Rendering supported by cloud
US8949461B2 (en) 2001-12-20 2015-02-03 Blackberry Limited Method and apparatus for providing content to media devices
KR101575802B1 (en) 2008-06-26 2015-12-08 (주)윕스 A automatic recording system for information about operations of searching and reading patent documents and the method thereof

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063193A (en) * 2000-08-15 2002-02-28 Kurisutaruuddo:Kk Device and method for converting program language, and recording medium with program language conversion program recorded thereon
JP2011138533A (en) * 2001-03-23 2011-07-14 Arizan Corp System and method for content delivery over wireless communication medium to portable computing device
JP2008176820A (en) * 2001-03-23 2008-07-31 Arizan Corp System and method for content delivery over wireless communication medium to portable computing device
JP2003030098A (en) * 2001-07-13 2003-01-31 Toshiba Corp Device and method for providing content
US8949461B2 (en) 2001-12-20 2015-02-03 Blackberry Limited Method and apparatus for providing content to media devices
WO2004010309A1 (en) * 2002-07-23 2004-01-29 Kabushiki Kaisha Eighting Informing system
JPWO2004010309A1 (en) * 2002-07-23 2005-11-17 株式会社エイティング Contact system
WO2004086237A1 (en) * 2003-03-27 2004-10-07 Blue Bone Inc. Web site management system and web site management method
JP2008546120A (en) * 2005-06-10 2008-12-18 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. Method and system for improving interactive media response system using visual cues
US9955205B2 (en) 2005-06-10 2018-04-24 Hewlett-Packard Development Company, L.P. Method and system for improving interactive media response systems using visual cues
WO2007018102A1 (en) * 2005-08-11 2007-02-15 Matsushita Electric Industrial Co., Ltd. Mobile information device and mobile information device display method
JP4673282B2 (en) * 2006-11-28 2011-04-20 京セラ株式会社 Mobile terminal device
JP2007068229A (en) * 2006-11-28 2007-03-15 Kyocera Corp Mobile terminal device
KR101575802B1 (en) 2008-06-26 2015-12-08 (주)윕스 A automatic recording system for information about operations of searching and reading patent documents and the method thereof
WO2013175560A1 (en) * 2012-05-21 2013-11-28 株式会社日立製作所 Information communicating system and information converting method
JPWO2013175560A1 (en) * 2012-05-21 2016-01-12 株式会社日立製作所 Information communication system and information conversion method
JP2014063481A (en) * 2012-08-30 2014-04-10 Canon Inc Rendering supported by cloud

Similar Documents

Publication Publication Date Title
US6857102B1 (en) Document re-authoring systems and methods for providing device-independent access to the world wide web
JP3703080B2 (en) Method, system and medium for simplifying web content
JP5053278B2 (en) Method and system for displaying information on a mobile device
JP4587634B2 (en) Method, apparatus and program for enlarging a portion of a document in a browser
JP4189875B2 (en) How to reformat an area containing dense hyperlinks
US7055094B2 (en) Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules
US9111008B2 (en) Document information management system
KR100615792B1 (en) Active alt tag in html documents to increase the accessibility to users with visual, audio impairment
CN101231636B (en) Convenient information search method, system and an input method system
US7730395B2 (en) Virtual tags and the process of virtual tagging
US7796837B2 (en) Processing an image map for display on computing device
US7191405B1 (en) System and method for editing information
US7228495B2 (en) Method and system for providing an index to linked sites on a web page for individuals with visual disabilities
JP3588337B2 (en) Method and system for capturing graphical printing techniques in a web browser
JP2000090001A (en) Method and system for conversion of electronic data using conversion setting
US20070294646A1 (en) System and Method for Delivering Mobile RSS Content
US20020016801A1 (en) Adaptive profile-based mobile document integration
US20020147748A1 (en) Extensible stylesheet designs using meta-tag information
US20050028081A1 (en) System and method for facilitating the design of a website
US20040205592A1 (en) Method and apparatus for extensible stylesheet designs
US20070006076A1 (en) System and method for providing Asian Web font documents
US7272792B2 (en) Kana-to-kanji conversion method, apparatus and storage medium
KR20010085185A (en) Method and system for providing native language query service
JP2000222398A (en) Method and system for filtering document
Agosti et al. Managing the interactions between handheld devices, mobile applications, and users

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071009