JP2006277108A - 情報提供方法、文書編集装置およびプログラム - Google Patents

情報提供方法、文書編集装置およびプログラム Download PDF

Info

Publication number
JP2006277108A
JP2006277108A JP2005092659A JP2005092659A JP2006277108A JP 2006277108 A JP2006277108 A JP 2006277108A JP 2005092659 A JP2005092659 A JP 2005092659A JP 2005092659 A JP2005092659 A JP 2005092659A JP 2006277108 A JP2006277108 A JP 2006277108A
Authority
JP
Japan
Prior art keywords
document
information
specifying
extracting
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005092659A
Other languages
English (en)
Inventor
Takashi Nagao
隆 長尾
Shoichi Tateno
昌一 舘野
Kei Tanaka
圭 田中
Kotaro Nakamura
浩太郎 中村
Masayoshi Sakakibara
正義 榊原
Shinu Ho
新宇 彭
Teruka Saito
照花 斎藤
Toshiya Koyama
俊哉 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005092659A priority Critical patent/JP2006277108A/ja
Publication of JP2006277108A publication Critical patent/JP2006277108A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 原文書に含まれる情報に関連した情報をユーザの要求に応じて提供する。
【解決手段】 アノテーションが付加された翻訳対象文書をスキャナ装置にセットし、その文書を取り込んで画像データを取得する。当該画像データ対し文書構造解析を行い、アノテーションと原稿部分(文字情報)とを分離抽出する。続いて、文字情報に対して翻訳処理を行う。次に、該分離抽出されたアノテーションの内容を特定する。次に、特定されたアノテーション内容からユーザが指定する情報を特定し、関連情報DBを検索してユーザにより指定された情報を抽出する。次に、翻訳処理後の文章と抽出された情報とを合成する。最後に、この文章を所定の方法で出力する。
【選択図】 図2

Description

本発明は、情報を編集および提示する技術に関する。
昨今の情報化社会においては、情報の整理や有効活用等を目的として、紙などに印刷された文書をスキャナ装置等で読取って必要な情報を取得するという、いわゆる文書の電子化処理が行われている。電子化処理の一例としては、原文書をデジタル画像データとして取り込み、文字認識処理(いわゆるOCR処理)を行って文字情報(テキストデータ)を抽出し、辞書データや所定のアルゴリズムを用いて文書構造を解析するなどして文字(語句)を他の文字(語句)に置換することにより、ある言語の文書を他の言語の文書に翻訳するという、いわゆる機械翻訳処理がある(例えば特許文献1を参照)。
特開昭62−154845号公報
しかしながら、OCR処理等により原文書から文字情報を漏れなく抽出できたとしても、その情報の全てがユーザにとって必要なものとは限らない。例えば、紙に印刷された観光パンフレットから文字情報を抽出して(必要なら翻訳処理を行って)得られた情報のうち、ユーザが興味のある情報は多数の情報のうちの一部であるという場合が通常である。さらに、観光パンフレットの例でも判るように、翻訳処理された文書を読んだユーザは特定の情報に興味を持った場合、その情報についてはより詳細な情報を取得したいと考える場合も多々ある。この点、従来技術においては、例えばユーザのニーズに応じて文書を編集するといったことができず、結果的に電子化文書を有効に活用することができない。
本発明は上述した背景に鑑みてなされたものであり、原文書に含まれる情報に関連した情報をユーザの要求に応じて提供する方法および装置を提供することを目的とする。
上記課題を解決するため、本発明は、文書を入力する文書入力ステップと、前記文書入力ステップにて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出ステップと、前記付加情報抽出ステップにて抽出された文字情報に対し翻訳処理を施す翻訳ステップと、前記付加情報抽出ステップにて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定ステップと、前記特定ステップにて特定されたアノテーションの内容および文書要素に対応する情報をデータベースから抽出する関連情報抽出ステップと、前記関連情報抽出ステップにて抽出された情報と前記翻訳ステップにて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力ステップと、を有する情報提供方法を提供する。本発明によれば、ユーザが所望の文書要素に対して所定のアノテーションを付加すると、この付加処理の内容に基づいて関連情報を抽出してユーザに提供することができる。
本発明の情報提供方法は、他の態様において、文書を入力する文書入力ステップと、前記文書入力ステップにて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出ステップと、前記抽出ステップにて抽出されたフォーム要素に付加されている情報を特定する付加情報特定ステップと、前記付加情報特定ステップにて特定された付加情報間の関係または前記抽出ステップにて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定ステップと、前記指示内容特定ステップにて特定された指示内容に対応した情報をデータベースから抽出する情報抽出ステップと、前記情報抽出ステップにて抽出された情報を所定の方法で出力する出力ステップと、を有する。本態様によれば、フォーム構造を持つ文書に付与された情報に対応する情報をユーザに提供することができる。
本発明は、他の観点において、データベースと、文書を入力する文書入力手段と、前記文書入力手段にて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出手段と、前記付加情報抽出手段にて抽出された文字情報に対し翻訳処理を施す翻訳手段と、前記付加情報抽出手段にて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定手段と、前記特定手段にて特定されたアノテーションの内容および文書要素に対応する情報を前記データベースから抽出する関連情報抽出手段と、前記関連情報抽出手段にて抽出された情報と前記翻訳手段にて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力手段と、を有する文書編集装置を提供する。
本発明の文書編集装置は、他の態様において、データベースと、文書を入力する文書入力手段と、前記文書入力手段にて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出手段と、前記抽出手段にて抽出されたフォーム要素に付加されている情報を特定する付加情報特定手段と、前記付加情報特定手段にて特定された付加情報間の関係または前記抽出手段にて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定手段と、前記指示内容特定手段にて特定された指示内容に対応した情報を前記データベースから抽出する情報抽出手段と、前記情報抽出手段にて抽出された情報を所定の方法で出力する出力手段とを有する。
また、本発明は、他の観点において、データベースを有するコンピュータに、文書を入力する文書入力ステップと、前記文書入力ステップにて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出ステップと、前記付加情報抽出ステップにて抽出された文字情報に対し翻訳処理を施す翻訳ステップと、前記付加情報抽出ステップにて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定ステップと、前記特定ステップにて特定されたアノテーションの内容および文書要素に対応する情報を前記データベースから抽出する関連情報抽出ステップと、前記関連情報抽出ステップにて抽出された情報と前記翻訳ステップにて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力ステップと、を実行させるコンピュータ読み取り可能なプログラムを提供する。
本発明のプログラムは、他の態様において、データベースを有するコンピュータに、文書を入力する文書入力ステップと、前記文書入力ステップにて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出ステップと、前記抽出ステップにて抽出されたフォーム要素に付加されている情報を特定する付加情報特定ステップと、前記付加情報特定ステップにて特定された付加情報間の関係または前記抽出ステップにて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定ステップと、前記指示内容特定ステップにて特定された指示内容に対応した情報を前記データベースから抽出する情報抽出ステップと、前記情報抽出ステップにて抽出された情報を所定の方法で出力する出力ステップと、を実行させることを特徴とする。
<実施例>
(第1実施形態)
以下、図面を参照して本発明の好適な実施例を説明する。図1は、本発明の一実施例に係る文書編集装置1の機能構成を表した図である。同図に示すように、文書編集装置1は、制御部10、記憶部11、入力部12、操作部13、表示部14、および出力部15からなる。制御部10は、CPU等の制御用プロセッサを備え、文書編集装置1の各部を制御する。また、制御部10は、文書構造解析部101、アノテーション認識部102、文字情報認識部103、翻訳処理部104および編集処理部105を有する。文書構造解析部101は、入力部12にて取り込まれた画像データとしての文書に対し所定のアルゴリズムを用いてレイアウト解析等を行い、文書のレイアウト構造を決定する。具体的には、文書に文字と文字以外のもの(挿絵、罫線、注記等の付加情報(以下、アノテーションという)など)が含まれているか否かを判定し、文字以外のものがあった場合は、文字部分の領域とその他の部分の領域とを分離する。
アノテーション認識部102は、文書構造解析部101にて分離抽出された文字以外の領域の画像データに対し、所定の解析処理を行って、アノテーションの種類およびアノテーションが付加されている対象となっている箇所(語や句といった文書要素)を決定する。抽出されるアノテーション種類とは、例えば、付箋、囲み線、下線、マーカ処理(ハイライト処理)、引き出し線、注記・注釈(原文の行間等に挿入された文字)などである。アノテーションとその付加対象となっている文書要素(語句)に関する情報は、記憶部11に記憶される。文字情報認識部103は、文書構造解析部101にて分離抽出された領域に対して文字認識処理を行って文字情報(字句)を抽出し、記憶部11に記憶する。翻訳処理部104は、文字情報認識部103にて抽出された文字情報に対し、記憶部11に格納される辞書データや所定のアルゴリズムを用いて置換処理などを行うことにより、その文書の言語をユーザから指定された他の言語へ翻訳する翻訳処理を行う。翻訳後の文書データおよび原文中の語句と翻訳文中の語句との関係は、記憶部11に記憶される。文書構造解析部101、アノテーション認識部102、文字情報認識部103および翻訳処理部104により、アノテーションが付加された文書の画像データから、アノテーションと文字部分に対しては翻訳処理が行われ、各アノテーションに対してその種類とアノテーションの付加対象となっている原文中の語句とその翻訳後の語句に関する情報を抽出する機能が実現される。編集処理部105は、原文書から抽出されたアノテーションと当該アノテーションの付加対象の文書要素とを記憶部11から読出すとともに、このアノテーションおよび文書要素に基づいて記憶部11内に格納された翻訳データベース(DB)111から必要な情報を抽出し、これを翻訳処理部104にて得られた翻訳後の文字情報と合成する編集処理を行う機能を有する。この機能の詳細は後述する。制御部10にて行われるこれらの処理の詳細については後述する。なお、制御部10にて実現されるこれら各部の機能は、各々独立したプロセッサによって実現されてもよいし、例えば一つのプロセッサが複数のソフトウェアを実行することにより実現されてもよい。
記憶部11は、RAM、ROM、ハードディスク等の記憶装置であって、制御部10にて上述した処理を行う際に必要となる翻訳DB111および関連情報DB112やその他必要なデータが格納される。図1に示すように、翻訳DB111には、翻訳処理の際に使用され得る各種辞書データ(例えば、英単語と日本語の単語を対応付けて登録した英和辞書データ)が格納される。関連情報DB112は、情報と、当該情報に含まれる語句とを対応付けて登録したデータベースであり、複数の単語を指定して当該データベース内を検索すると、当該単語に関連する情報が抽出されるデータ構造を有している。例えば、「A駅」および「電車」をキーとしてDBを検索すると、A駅を通過する電車の運行情報が抽出される。
入力部12は、スキャナ装置等であり、紙等に印刷された文書をデジタル画像データとして読み込み、制御部10および記憶部11に供給する装置である。操作部13はキーボードやマウス等の入力デバイスであって、文書編集装置1のユーザが、翻訳対象の文書の指定、アノテーションの付加の指定(詳細は後述)、その他の必要な情報の入力の際に使用されるものである。操作部13を介して入力された指示や情報は、制御部10へ供給される。表示部14は、描画用プロセッサ(図示せず)および液晶ディスプレイ等の表示装置(図示せず)から構成され、制御部10の指示の下、原文書、翻訳処理後の文書、関連情報DB112から抽出された関連情報、その他ユーザへの各種メッセージを画面に表示する。出力部15は、編集処理後の原稿を紙等に印刷するためのプリンタや付加情報編集処理を行って得られた文書データを印刷装置に供給するための通信インターフェース、あるいは文書データをフラッシュメモリやCD−ROM等の記憶媒体に記憶するための記憶装置である。
以下、図2および図3を用いて、文書編集装置1の動作の一例を説明する。本実施形態においては、図3の(a)に示すような、日本語で記載され用紙に印刷された観光パンフレット(以下、処理対象文書という)から、ユーザの所望する情報を英語で提供する場合について説明する。図2に示すように、まず、ユーザは所望する情報に応じて、この処理対象文書の所定の箇所(語句)に、鉛筆やペン等の筆記具などを用いて所定のアノテーションを書き込む(ステップS10)。図3(a)は、このパンフレットを読んだユーザが、「蹴上駅」までの電車の乗り換え情報について詳細な情報が欲しいと考えた場合に書き込まれるアノテーションの例を示したものである。同図に示すように、ユーザは、アノテーションの付加対象を指定するため、「蹴上駅」に囲み線を付与し、さらに付加対象とアノテーションとの関係を指定するための引き出し線を入れ、交通手段として電車を指定する文字「Train」を書き込む。加えて、ユーザは蹴上駅周辺の拡大地図が欲しいと考えた場合、処理対象文書の下部に印刷されている地図に表されている蹴上駅に対し四角形の囲み線を書き入れた上で、引き出し線を入れ、所定箇所の拡大を指定する文字「Details」を書き込む。
図2に戻り、ユーザはこのアノテーションが付与された翻訳対象文書をスキャナ装置にセットし、その文書を取り込んで画像データを取得する(ステップS11)。すると制御部10は、まず当該画像データに対し文書構造解析を行い(ステップS12)、アノテーションと原稿部分(文字情報)とを分離抽出する(ステップS13)。続いて、文字情報に対して翻訳処理を行う(ステップS14)。そして、該分離抽出されたアノテーションの内容(この場合は「蹴上駅」を対象としてアノテーション「Train」が付与されているという事実)を特定する(ステップS15)。同様に、地図の画像に付されたアノテーションは、四角形で囲まれた領域に対応する画像を所定の拡大率で拡大表示する旨を指示するものであることを特定する。続いて、特定されたアノテーション関し、関連情報DB112から情報を検索する。具体的には、「蹴上駅」と「Train」とをキーとして関連情報DB112を検索する。蹴上駅と電車とに関連する情報、すなわち蹴上駅までの主要な電車の路線経路や運賃、所要時間といった情報が抽出される(ステップS16)。その際、この装置が設置されている場所が装置内部に格納されている場合には、その最寄駅から蹴上駅までの経路を選択して、抽出することができる。図3の例では、京都駅もしくはその付近に装置が設置されているものとして、路線などが選択されている。続いて、ステップS14にて得られた翻訳処理後の文章とステップS16にて抽出された情報とを合成する(ステップS17)。図3(b)および(c)は、このようにして編集処理がなされた文書の一例を示したものである((b)と(c)は別のページ)。同図(b)に示すように、(a)に示す原文書中の文章および地図の画像に対応する位置にそれぞれ当該文章の翻訳文および地図が配置されている。そして、同図(c)に示すように、翻訳文章の最後に、抽出された関連情報(この場合は運行情報)が配置され、その下には当該指定された拡大図が付加される。最後に、ユーザは所定の指示を入力すると、表示部に表示されたこの文章をユーザが指定した態様で出力する(ステップS18)。
このように文書編集装置1によれば、ユーザにより原文書中の所定の箇所(文書要素)を指定して所定のアノテーションが付加されると、当該箇所の情報内容と当該アノテーションの内容とに関連する情報が関連情報DB112から抽出されて翻訳文書と合成された上でユーザに提供される。これにより、文書を読んだユーザに対し、当該ユーザのニーズに応じた関連情報を提供することができる。
(第2実施形態)
図4は、第2実施形態に係る文書編集装置1Aの機能構成を示す図である。同図に示すように、文書編集装置1Aが第1実施形態に係る文書編集装置1と異なる点は、文書構造解析部101、アノテーション認識部102、および翻訳処理部104に替えて、フォーム解析部106およびマーク認識部107を設けた点、および記憶部11内に翻訳DB111に替えてフォームDB113を設けた点である。フォーム解析部106は、(罫線等によって仕切られた領域、チェックボックス、入力ボックス等から構成される構造(以下、フォームという)を持つ文書をスキャンして得られた画像データに対し所定の画像解析処理を行い、フォームの各構成要素(入力ボックスやチェックボックス等;以下、フォーム要素という)の種類や配置位置に関する情報を取得する。マーク認識部107は、フォーム要素と当該フォーム要素に対応する情報(チェックマーク、丸印など;以下単にマークと称する)とを特定する。また、入力ボックス等に関しては、その内側の領域の画像データに対し文字情報認識部103にて文字認識処理が行われ、文字情報(テキストデータ)を抽出する。フォームDB113は、フォーム要素や各フォーム要素の属性等の情報が格納されており、編集処理部105は、フォームDB113を用いて、抽出されたフォーム要素間の関係を特定する。この処理については後述する。このように、文書編集装置1Aの制御部10は、スキャンされた文書からフォーム要素を抽出し、フォーム要素間の関係から当該文書の内容を特定する機能を有する。
以下、図5および図6を用いて文書編集装置1Aの動作例について説明する。以下、ユーザは図6(a)に示すようなフォーム構造を有する、用紙に印刷された文書をスキャンする場合を考える。この例では、ユーザが、「交通手段として電車を用いて京都駅から南禅寺まで行く方法に関する情報と、目的地の最寄駅周辺の拡大地図と、使用が想定される日本語での会話の例文であって、道を尋ねる場合、道に迷った場合、およびトイレの場所を尋ねる場合に使用されるものとを指定した場合の例を示している。再び図5に戻り、制御部10にてフォームDB113を用いてフォーム構造の解析が行われ(ステップS30)、フォーム要素と、各フォーム要素に対するマークや文字の情報が抽出される。すなわち、「From:」、入力ボックス、チェックボックス、チェックマーク、「Train」などといった各フォーム要素、マーク、および文字情報が抽出される。続いて、抽出したフォーム要素間の関係を特定してユーザによって指定された情報の内容を特定する(ステップS32)。
具体的には、まずその配置関係から各フォーム要素の結合関係が決定される。例えば、「From:」とその隣の入力ボックスの文字「Kyoto station」とが結合していることを判定する。さらに、マークとフォーム要素との位置関係に基づき、各マークとそれに対応するフォーム要素との関係(例えば、フォーム要素「□」にチェックマークが付与されていること)を決定する。さらに、文字情報に対し、そのフォントサイズや配置位置などから、フォーム要素間の従属関係を決定してグループ分けを行う。例えば「□Train」、「□Bus」、「□Taxi」、および「□Other」は、その配置関係から並列の関係であり、またこれらの4つのフォーム要素と「Transportation」、の配置関係から、当該4つの要素は、要素「Transportation」に従属していることを決定する。続いて、各フォーム要素間の共通性を判定して、要素をグループ化する。具体的には、記憶部11内に格納される辞書データ等を用いて、フォーム要素「From:」、「To:」、および「Transportation」についてはその意味内容から交通情報に関係がある単語であるから同一の情報グループに属するものであると決定する。
このようにして上述した各フォーム要素間の関係を決定すると、制御部10は、「交通手段として電車を用いて京都駅から南禅寺まで行く」という内容の情報がユーザにより指定されたことを特定する。同様に、「Map」、「Large」、「Detail」、両フォーム要素間の点線および当該点線上にあるチェックマークの位置関係から、拡大率200%における目的地周辺の地図の画像が指定されことを特定する。さらに、「Example」、「□Route」、「□Astray」、「□Rest room」、およびチェックマークの位置から、様々なシチュエーションのうち道順を尋ねる場合、道に迷った場合、およびトイレの場所を尋ねる場合に使用される日本語例文が指定されたことを特定する。
再び図5に戻り、ユーザの指定する情報が特定されると、編集処理部105は特定した情報に対応した情報を関連情報DB112から抽出し(ステップS34)、所定の編集処理を行って(ステップS36)、表示部14の画面に表示しまたは用紙に印刷する(ステップS38)。図6(b)および(c)は、編集処理後の文書の一例である。なお、(c)の文書は(b)の文書の次のページの文書である。同図(b)に示すように、ユーザによって指定された目的地である「Nanzen-ji Temple」が表題部に表示される。そして、その下に、出発地として指定された「京都駅」から南禅寺の最寄駅までの路線情報が表示される。その下には、ユーザが指定した拡大率で地図画像が表示される。そして次ページには、同図(c)で表されるような、ユーザが指定したシチュエーションに対応する例文が英語と日本語の対訳形式で表示される。
このように文書編集装置1Aによれば、ユーザが所定のフォームにて作成した文書からその内容を特定し、その内容に応じた情報を抽出してユーザに提供することができる。
<変形例>
本発明は上記実施例に限定されるものでなく、各種の変形を施すことが可能である。図7は、本発明の変形例である情報提供システム200の概略図を示す図である。情報提供システム200は、文書編集装置1Bと情報提供サーバ2と通信網3とから構成される。文書編集装置1Bは、通信網3を介して情報提供サーバ2と通信を行うための通信I/F16を有している点、および関連情報DB112を有していない点においてのみ文書編集装置1Aと異なる。また、情報提供サーバ2は制御部20、ユーザ管理DB21、関連情報DB112、および通信部23を有している。同図から判るように、本変形例においては、ユーザは関連情報を情報提供サーバ2から取得する。より具体的には、文書編集装置1Bはアノテーション情報(アノテーションと対象箇所)を特定すると、制御部10は記憶部11に格納されたユーザIDとこの情報とを含むリクエストを生成し、通信網3を介して情報提供サーバ2へ送信する。情報提供サーバ2はこのリクエストを受信すると、ユーザ管理DB21を参照してユーザ認証あるいは所定の課金処理等を行った後、当該アノテーション情報に対応する関連情報を関連情報DB112から抽出し、文書編集装置1Bへ送信する。
このような態様によれば、文書編集装置内にデータベースを設ける必要がなくて済む。また、関連情報の提供を行うユーザ認証やそれに基づいた課金、または広告付加による無料化/割引といった付加的な処理を行うことも可能である。例えば、出力後の文章の所定の箇所に当該文書の内容に関係のある広告情報(例えば、原文書が観光案内に関するものであれば、周辺の土産店の広告)などを付加してからユーザに提供する、といったことも可能である。広告情報が表示された文書の例を図8に示す。
また、上記実施例においては、用紙等に印刷された文書に対し手書きにてアノテーションやチェックマークを書き込んだものをスキャナで読取る例について説明したが、これに限らず、アノテーションが付加されていないまたはフォームに何も記入されていない文書をスキャンしてその画像を表示部14に表示し、この画面上でマウスやキーボード等を用いてアノテーションの付加やマークおよびフォームへの書き込みを行ってもよいことはいうまでない。要は、ユーザが付与したアノテーションやマークを判別し、これらに対応した情報を取得することができる構成であればよい。
本発明の第1実施形態に係る文書編集装置1の機能構成を示す図である。 同実施例における、文書編集装置1において実行される処理の流れを説明するための図である。 (a)は編集対象となる原文、(b)および(c)は編集処理後の文書の一例を示す図である。 本発明の第2実施形態に係る文書編集装置1Aの機能構成を示す図である。 同実施例における文書編集装置1Aにおいて実行される処理の流れを説明するための図である。 (a)は編集対象となる原文、(b)および(c)は編集処理後の文書の一例を示す図である。 本発明の変形例に係る情報提供システム200の機能構成を示す図である。 同変形例において生成された文書を示す図である。
符号の説明
1・・・文書編集装置、2・・・情報提供サーバ、3・・・通信網、10・・・制御部、11・・・記憶部、12・・・入力部、13・・・操作部、14・・・表示部、15・・・出力部、16・・・通信I/F、20・・・制御部、21・・・ユーザ管理DB、23・・・通信部、101・・・文書構造解析部、102・・・アノテーション認識部、103・・・文字情報認識部、104・・・翻訳処理部、105・・・編集処理部、106・・・フォーム解析部、107・・・マーク認識部、111・・・翻訳DB、112・・・関連情報DB、113・・・フォームDB、200・・・情報提供システム。

Claims (6)

  1. 文書を入力する文書入力ステップと、
    前記文書入力ステップにて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出ステップと、
    前記付加情報抽出ステップにて抽出された文字情報に対し翻訳処理を施す翻訳ステップと、
    前記付加情報抽出ステップにて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定ステップと、
    前記特定ステップにて特定されたアノテーションの内容および文書要素に対応する情報をデータベースから抽出する関連情報抽出ステップと、
    前記関連情報抽出ステップにて抽出された情報と前記翻訳ステップにて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力ステップと、
    を有する情報提供方法。
  2. 文書を入力する文書入力ステップと、
    前記文書入力ステップにて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出ステップと、
    前記抽出ステップにて抽出されたフォーム要素に付加されている情報を特定する付加情報特定ステップと、
    前記付加情報特定ステップにて特定された付加情報間の関係または前記抽出ステップにて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定ステップと、
    前記指示内容特定ステップにて特定された指示内容に対応した情報をデータベースから抽出する情報抽出ステップと、
    前記情報抽出ステップにて抽出された情報を所定の方法で出力する出力ステップと、
    を有する情報提供方法。
  3. データベースと、
    文書を入力する文書入力手段と、
    前記文書入力手段にて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出手段と、
    前記付加情報抽出手段にて抽出された文字情報に対し翻訳処理を施す翻訳手段と、
    前記付加情報抽出手段にて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定手段と、
    前記特定手段にて特定されたアノテーションの内容および文書要素に対応する情報を前記データベースから抽出する関連情報抽出手段と、
    前記関連情報抽出手段にて抽出された情報と前記翻訳手段にて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力手段と、
    を有する文書編集装置。
  4. データベースと、
    文書を入力する文書入力手段と、
    前記文書入力手段にて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出手段と、
    前記抽出手段にて抽出されたフォーム要素に付加されている情報を特定する付加情報特定手段と、
    前記付加情報特定手段にて特定された付加情報間の関係または前記抽出手段にて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定手段と、
    前記指示内容特定手段にて特定された指示内容に対応した情報を前記データベースから抽出する情報抽出手段と、
    前記情報抽出手段にて抽出された情報を所定の方法で出力する出力手段と、
    を有する文書編集装置。
  5. データベースを有するコンピュータに、
    文書を入力する文書入力ステップと、
    前記文書入力ステップにて入力された文書から文字情報とアノテーションとを抽出する付加情報抽出ステップと、
    前記付加情報抽出ステップにて抽出された文字情報に対し翻訳処理を施す翻訳ステップと、
    前記付加情報抽出ステップにて抽出されたアノテーションの内容および当該アノテーションの付加対象である文書要素を特定する特定ステップと、
    前記特定ステップにて特定されたアノテーションの内容および文書要素に対応する情報を前記データベースから抽出する関連情報抽出ステップと、
    前記関連情報抽出ステップにて抽出された情報と前記翻訳ステップにて翻訳処理が施された文書とを所定の方法で編集処理を行って出力する出力ステップと、
    を実行させるコンピュータ読み取り可能なプログラム。
  6. データベースを有するコンピュータに、
    文書を入力する文書入力ステップと、
    前記文書入力ステップにて入力された文書から、当該文書のフォームを形成する要素であるフォーム要素を抽出する抽出ステップと、
    前記抽出ステップにて抽出されたフォーム要素に付加されている情報を特定する付加情報特定ステップと、
    前記付加情報特定ステップにて特定された付加情報間の関係または前記抽出ステップにて抽出されたフォーム要素間の関係の少なくともいずれか一を特定することにより、前記文書の指示内容を特定する指示内容特定ステップと、
    前記指示内容特定ステップにて特定された指示内容に対応した情報を前記データベースから抽出する情報抽出ステップと、
    前記情報抽出ステップにて抽出された情報を所定の方法で出力する出力ステップと、
    を実行させるコンピュータ読み取り可能なプログラム。
JP2005092659A 2005-03-28 2005-03-28 情報提供方法、文書編集装置およびプログラム Pending JP2006277108A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005092659A JP2006277108A (ja) 2005-03-28 2005-03-28 情報提供方法、文書編集装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005092659A JP2006277108A (ja) 2005-03-28 2005-03-28 情報提供方法、文書編集装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2006277108A true JP2006277108A (ja) 2006-10-12

Family

ID=37211835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005092659A Pending JP2006277108A (ja) 2005-03-28 2005-03-28 情報提供方法、文書編集装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2006277108A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152962A1 (ja) * 2015-03-25 2016-09-29 株式会社リクルートホールディングス コンピュータプログラム、情報検索システム、及びその制御方法
JP2022047314A (ja) * 2020-09-11 2022-03-24 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016152962A1 (ja) * 2015-03-25 2016-09-29 株式会社リクルートホールディングス コンピュータプログラム、情報検索システム、及びその制御方法
JP2016181198A (ja) * 2015-03-25 2016-10-13 株式会社リクルートホールディングス コンピュータプログラム、情報検索システム、及びその制御方法
JP2022047314A (ja) * 2020-09-11 2022-03-24 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP7231844B2 (ja) 2020-09-11 2023-03-02 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム

Similar Documents

Publication Publication Date Title
CN100454293C (zh) 文档编辑方法和文档编辑设备
US7783472B2 (en) Document translation method and document translation device
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US20060217956A1 (en) Translation processing method, document translation device, and programs
JP4311365B2 (ja) 文書処理装置およびプログラム
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
CN101377855B (zh) 文档图像处理装置和信息处理方法
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
JP2008059157A (ja) 書類確認支援システム、書類確認支援装置およびプログラム
JP3178483B2 (ja) 文書処理装置
US5950213A (en) Input sheet creating and processing system
JP2012203491A (ja) 文書処理装置及び文書処理プログラム
JP4666996B2 (ja) 電子ファイリングシステム、電子ファイリング方法
US20060218495A1 (en) Document processing device
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JP2006277108A (ja) 情報提供方法、文書編集装置およびプログラム
JP2002073598A (ja) 文書処理装置および方法
JP4924990B2 (ja) 文書処理装置および文書処理プログラム
JP2009237885A (ja) 文書編集装置及び方法ならびにプログラム
JP2006119712A (ja) 情報管理端末装置、情報管理プログラム及び電子ペン用帳票
JPH103483A (ja) 情報検索装置
JP2007241355A (ja) 画像処理装置及び画像処理プログラム
JP2018036794A (ja) 画像処理装置及びプログラム