JP2004086845A - 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体 - Google Patents

電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2004086845A
JP2004086845A JP2003002978A JP2003002978A JP2004086845A JP 2004086845 A JP2004086845 A JP 2004086845A JP 2003002978 A JP2003002978 A JP 2003002978A JP 2003002978 A JP2003002978 A JP 2003002978A JP 2004086845 A JP2004086845 A JP 2004086845A
Authority
JP
Japan
Prior art keywords
information
electronic document
external data
unit
expanding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003002978A
Other languages
English (en)
Inventor
Yasuhiro Kawakita
川北 泰広
Tokuji Ikeno
池野 篤司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003002978A priority Critical patent/JP2004086845A/ja
Priority to US10/603,665 priority patent/US20040010556A1/en
Publication of JP2004086845A publication Critical patent/JP2004086845A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】関連する情報の所在を含む電子文書の情報を拡充できる電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体を提供する。
【解決手段】入力された電子メール文書から、それに含まれているデータの所在情報を抽出し、抽出した所在情報に基づき、補充し得る外部データを取得し、取得した外部データから、入力された電子文書で不足する要素の情報を拡充する。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、電子文書に対し、それが有しない要素の情報を拡充する電子文書情報拡充装置に関し、例えば、電子メール文書を情報源として扱う情報マネージメントシステムに適用し得るものである。
【0002】
【従来の技術】
近年、電子メールの文書中に、関連する情報の所在(例えばURL、URIなど;以下、この項の説明ではURLとする)を記述して送信することが日常的に行われるようになっている。電子メール閲覧ソフトは、それに対応して、そのURLを選択するだけで、Webブラウザソフトが起動するように連携するなどさまざまな工夫がされてきている。ところが、電子メールを着信した時点では、まだURLで示される場所にある情報は取得しておらず、利用者が改めてその情報を取得する動作を行う必要がある。
【0003】
【特許文献1】特開2001−184277号公報
この問題点に着目して、特許文献1では、電子メールの中に参照すべき情報の所在がURLで示されていると、そのURLが示す場所にある情報(HTML文書など)を自動的に取得し、受信した電子メールと関連付けて保存しておくという方法が紹介されている。これにより、電子メールを受信したユーザは、ネットワークとの接続が切れた状態でも、電子メール文書中のURLを指定するだけで、既に取得済みのデータを表示装置によって閲覧することができる。
【0004】
【発明が解決しようとする課題】
上記特許文献1の方法によると、電子メール文書内に含まれるURLのデータを、電子メールと関連付けて全て取得するため、実際には、電子メール文書の内容とは関係のない部分まで取得する恐れがある。したがって、全てのURLのデータを蓄積するのは、ネットワークとの接続が切れた状態でも、URLのデータを閲覧できる利点がある反面、蓄積効率が悪くなるという課題がある。
【0005】
さらに、企業のURLが示されているときには、企業のトップページがリンクされていることが多く、このトップページのデータが蓄積されていると、電子メール文書の内容に関連する情報を、トップページからのリンクをたどって探さなければならない。上記特許文献1の方法によると、指定したURLのページを取得して蓄積しているため、ネットワークの接続が切れた状態では、さらなるリンク先を探すことができないという課題が残されている。
【0006】
そのため、関連する情報の所在を含む電子文書の情報を拡充できる電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体が望まれている。
【0007】
【課題を解決するための手段】
第1の本発明の電子文書情報拡充装置は、電子文書に対し、それが有しない要素の情報を拡充するものであって、(1)入力された電子文書から、それに含まれているデータの所在情報を抽出する所在情報抽出手段と、(2)抽出された所在情報に基づき、補充し得る外部データを取得する外部データ取得手段と、(3)取得した外部データから、入力された上記電子文書で不足する要素の情報を拡充する情報補完手段とを備えることを特徴とする。
【0008】
第2の本発明の電子文書情報拡充方法は、電子文書に対し、それが有しない要素の情報を拡充するものであって、(1)入力された電子文書から、それに含まれているデータの所在情報を抽出する所在情報抽出工程と、(2)抽出された所在情報に基づき、補充し得る外部データを取得する外部データ取得工程と、(3)取得した外部データから、入力された上記電子文書で不足する要素の情報を拡充する情報補完工程とを有することを特徴とする。
【0009】
第3の本発明の電子文書情報拡充プログラムは、第2の本発明の電子文書情報拡充方法の各工程をコンピュータが処理し得るコードで記述したことを特徴とする。
【0010】
第4の本発明の記録媒体は、第3の本発明の電子文書情報拡充プログラムを記録していることを特徴とする。
【0011】
【発明の実施の形態】
(A)実施形態
以下、本発明による電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体の一実施形態を図面を参照しながら詳述する。
【0012】
この実施形態は、電子メール文書に対して、URLで示された情報源にアクセスし、個々の情報と関連する内容を情報源から取得した上でキーワード抽出を行い、その結果を含めて構造化データを生成するものである。
【0013】
(A−1)実施形態の構成
図1は、この実施形態の電子文書情報拡充装置の機能的構成を示すブロック図である。
【0014】
例えば、実施形態の電子文書情報拡充装置は、通信機能を有するパソコン等のユーザの情報処理装置(メールクライアント)に対し、CD−ROMやフロッピー(登録商標)ディスク等の記録媒体に記録されている電子文書情報拡充プログラム(例えば、電子メール閲覧ソフトの追加機能となっている)をインストールすることで実現されるが、機能的には、図1で表すことができる。また例えば、メールサーバに対し、CD−ROMやフロッピーディスク等の記録媒体に記録されている電子文書情報拡充プログラムをインストールすることで実現されるが、この場合にも、機能的には、図1で表すことができる。
【0015】
この実施形態の電子文書情報拡充装置は、入力部100、情報解析部101、外部データ取得部102、情報補完部(情報補充部)103及び構造化データ生成部104を有する。
【0016】
入力部100は、情報、及び、その情報に関連する情報の情報源を示したURL(URI、FTP、ファイル名等でも良いが、以下では、URLで説明する)を含む電子メール文書(例えば、メールマガジン)の入力を行うものである。電子メール文書の入力は、この入力時に取り出したものであっても良く、過去に取り出して記憶しているものを読み出したものであっても良い。
【0017】
情報解析部101は、入力された電子メール文書を、個々の情報単位に分割し、それぞれの情報単位から、情報源を示すURLを抽出するものである。例えば、電子メール文書がニュースのメールマガジンであれば、1つの記事を1単位とする情報に分割する。そして、それぞれの情報単位の中に含まれるURLを抽出する。
【0018】
外部データ取得部102は、情報解析部101で分割された情報単位毎に、そこに含まれているURLに基づいて、情報単位内に記載されている内容と類似する詳細なデータをURLなどで示される外部の情報源から取得するものである。外部データ取得部102は、取得するに値するデータの判断は、情報単位内に記載されている元の文章と、URLなどで示される情報源から取得したデータとの類似度を見ることで行う。
【0019】
情報補完部103は、外部データ取得部102で取得したデータに対して、キーワードの抽出と主要箇所の抽出を行い、元の情報単位に追加する補充データを作成するものである。
【0020】
構造化データ生成部104は、情報補完部103がそろえた補充すべきデータをまとめて、構造化データを生成するものである。
【0021】
(A−2)実施形態の動作
図2は、この実施形態の電子文書情報拡充装置の全体動作(電子文書情報拡充方法)を示すフローチャートである。
【0022】
ここでは、情報単位の例として、タイトル<TITLE>、概要<BODY>、キーワード<KEYWORD>、情報源の場所<URL>を、情報単位を構成する必須の内容とし、これらを全て含む構造化データの生成について説明する。また、キーワードは全ての場合に生成されることになるが、電子メール文書に対して分割処理を行った後、概要が欠けている場合について以降で詳細に説明する。
【0023】
ステップS200の入力処理では、入力部100が電子メール文書を入力する。
【0024】
ステップS201の情報単位抽出処理では、情報解析部101が、入力された電子メール文書の中に含まれている情報を、それぞれ関連する内容毎に切り分ける。例えば、電子メール文書が、図3に示されているような場合には、図4に示すような情報単位に切り分けられる。このとき、切り分ける方法は、セパレータと呼ばれる特殊な記号の連続や、空白行などを手がかりに、これらで挟まれた部分を情報単位としても良い。また、段落や、表題記号などを手がかりにして、次の段落や表題記号が出現するまでを1つの情報単位としても良い。
【0025】
そして、切り分けられた情報単位の中に、その情報の詳細情報の所在を示すURLが記載されていれば抽出する。
【0026】
この実施形態では、抽出した結果をタグでマーキングするという形で表現している。例えば、図4に示す情報単位に対しては、図5に示すように抽出し、表現する。例えば、情報単位の1行目はタイトルと認識している。また、1つの情報単位の中に、URLが複数個存在する場合にも、同様に抽出する。但し、複数の出現については、URLの表現を区別するために、タグの中にidという属性を付与し出力順に番号を付与している。URLの発見方法については、http://で始まる文字列を検索するなど、一般的な方法を利用すれば良い。また、URL抽出後の表現方法も、複数のURLを識別できるのであれば、上記の方法に限るものではない。
【0027】
ステップS202〜S207の処理は、抽出された情報単位毎に実行される処理である。
【0028】
ステップS202のデータ取得処理(情報取得処理)では、外部データ取得部102が、ステップS201で抽出したURLに基づいて、そのURLが示す情報源等からデータを取得する。これは一般に、ネットワークを介してURLが示すサーバにアクセスし、該当するHTML文書を取得するという処理になる。
【0029】
ステップS203の判定処理では、データ取得処理S202で取得したURLが示す場所のデータと、そのURLが含まれていた情報単位の内容とが一致するかを判定する。判定の方法としては、例えば、取得したデータと、情報単位の内容のそれぞれからキーワードを抽出し、互いのキーワードの一致度を計算し、一致度を閾値と比較する方法で行う。一致と判定した場合には、処理をステップS205に移行し、不一致と判定した場合には、処理をステップS204に移行する。
【0030】
図6は、図5の2番目の情報単位に取得したデータを追加した様子を示したものであり、取得したデータに<GET−DATA>というタグを付けて表現したものである。
【0031】
ここで、取得したデータは、一般的にHTML文書と呼ばれる制御文字を含んだ文書である。そのため、予め取得したデータのハイパーリンク以外の制御文字を取り除く前処理を行った上で、判定処理を行っても良い。
【0032】
また、取得したデータは、レイアウトなどによって記載内容を分類できるため、予め取得したデータの主要箇所を抽出する前処理を行った上で、抽出された主要箇所との判定処理を行っても良い。
【0033】
ステップS203の判定処理において、不一致と判定された場合に移行する、ステップS204のURL変更処理では、先に取得したデータの中に含まれる全てのハイパーリンクを抽出して、第1階層のURLリストを作成した上で一時的に記憶しておき、各URLに対してデータ取得処理S202及び判定処理S203を繰り返す。第1階層のURLリストに対しても全て不一致となった場合は、一時的に記憶されている第1階層のURLリストから取得できるデータに対して、再びハイパーリンクを抽出して第2階層のURLリストを作成して一時的に記憶しておき、各URLに対してデータ取得処理S202及び判定処理S203を繰り返す。
【0034】
例えば、情報単位に含まれているURLが企業のトップページのような場合には、トップページに含まれている全てのハイパーリンクを取り出して、そのリンク先のWebページに移行して、情報単位に関連するかを判定し、第1階層のURLに係るWebページも情報単位に関連しない場合には、その各Webページに含まれている全てのハイパーリンクを取り出し、情報単位に関連するWebページの探索を行う。
【0035】
ここで、探索をやめるまでの階層の深さは予め固定設定しておいても良く、ユーザが任意に設定できるようにしても良く、いずれにせよ、繰り返しの回数を制限できるものとする。
【0036】
なお、抽出した情報単位に複数のURLが記載されている場合には、ある1個のURLについてデータ取得を行い、取得データが情報単位に関係しないと判定された場合には、次のURLでのデータ取得、判定を行い、一致するものが見つかるまで繰り返す。しかし、全てのURLでの取得データが不一致のときには、ある1個のURLの取得データに対する上述した第1階層のリンクの処理を行い、これでも一致する取得データがなければ、他のURLの取得データに対する上述した第1階層のリンクの処理を行い、以下、情報単位の内容に一致する取得データを得るまで(階層の制限はある)、同様な処理を繰り返す。上述とは異なり、各URLのそれぞれについて、取得データを得て、その中で一致度が最も高いものを選択するようにしても良い。
【0037】
また、ステップS201で抽出された情報単位にURLが含まれていない場合には、その情報単位に対するステップS202〜S207の処理を省略しても良い。また、電子メール文書(例えばメールマガジン)を提供している企業の代表のURLや、新聞社等のURL等が情報単位に含まれているものとみなして(このようなURLはシステムが固定設定しても良く、ユーザが任意設定しても良い)、処理を行うようにしても良い。この場合の探索階層の深さは、情報単位にURLが含まれている場合と同様でも良いが、より深くしても構わない。
【0038】
情報単位の内容に関連する取得データが得られた場合には、処理はステップS205に移行する。情報単位の内容に関連する取得データが得られなかった場合には、ステップS205に移行しないで、次の情報単位の処理に移行しても良く、ステップS205に移行し、情報単位に係る処理だけを行うようにしても良い(取得データに対する処理は実行されない)。
【0039】
ステップS205のキーワード抽出処理は、情報補完部103の処理の一つで、情報単位の中に含まれる内容と、取得したデータに対して、キーワードとして扱う文字列の抽出を行う。なお、ステップS203の判定処理でキーワード抽出を行っているならばそれを利用するようにしても良い。キーワードの抽出方法については、特に限定されるものではなく、既存の方法を用いて良い。但し、情報単位の中に含まれるキーワードであるのか、取得したデータの中に含まれるキーワードであるのかは、情報単位に対する検索を行う際に検索対象を選択可能にするため、区別して情報単位を管理する。
【0040】
例えば、図7に示すように、情報単位の中から抽出したキーワードと、取得データから抽出したキーワードとにキーワードであることを表すタグを付けると共に、キーワードタグの属性値を利用して、どちらから抽出したキーワードであるかを表して情報単位の中に表現しておく。例えば、キーワードが情報単位の中に含まれるものであれば、属性値をT(タイトル部分)やD(概要部分)とし、取得したデータからであれば属性値をGとし、複数の部分に含まれているものであれば、その記号を列挙する。
【0041】
ステップS206の主要部抽出処理は、情報補完部103の処理の一つで、取得したデータの中から、主要部のみを抽出する。なお、主要部抽出方法としても、既存の方法を適用することができ、既存の要約作成方法を適用することができる。ここでの主要部とは、取得したデータの中から、情報単位が示す内容と類似する、又は、情報単位の示す内容の詳細に相当する部分をいう。主要部として抽出する文字数を制限しなければ、取得したデータを全て主要部として扱っても良いが、具体的にはある文字数で制限し、その文字数に収まるように、取得したデータから主要部を抽出する。
【0042】
例えば、図8に示すように、<GET−DATA>というタグで囲むことにより表現されている取得したデータから、主要部を抽出し、<BODY>というタグで囲んで、情報単位の中に表現する。このとき、この主要部が取得したデータから得られたものであることを示す情報として、属性値にGという記号をつけておく。情報単位内にもともと主要部(又は要約)含まれていた場合には、属性値にOという記号をつけておく。
【0043】
ステップS207の構造化データ作成処理は、構造化データ生成部104の処理で、情報単位の内容と、キーワード抽出処理(S204)の結果と、主要部抽出処理(S205)の結果を組み合わせて、構造化データを生成する。例えば、図9に示すように、タグ付けした形で、構造化データを生成する。このとき、取得したデータについては、不要なものも含まれているため、主要部を抽出した後は削除することで、蓄積効率を上げる。なお、取得データを残しても良いことは勿論である。
【0044】
ステップS208の判定処理では、情報単位抽出処理(S201)において、複数の情報単位が抽出された場合に、処理されていない情報単位があるか否かを判定する。処理されていない情報単位があれば、ステップS202に処理を移行する。
【0045】
全ての情報単位に対して処理されていれば、生成した全ての構造化データを出力する。出力は、表示出力でも、印刷出力でも、送信出力でも良く、また、後での表示出力や印刷出力などのための記憶処理でも良い。また、生成した全ての構造化データを出力するのではなく、ユーザが予め指定したキーワードを含む構造化データを出力するようにしても良い。
【0046】
(A−3)実施形態の効果
上記実施形態によれば、メールサーバ若しくはメールクライアントの1機能として動作させることにより、電子メール文書の中に、URLで示されている部分があった場合、URLで示された部分から、電子メール文書の内容に該当するデータが読み込まれた状態で出力できるため、ユーザは、改めてURLの指定や、URLの情報を取得する必要がなく、十分な必要な情報を得ることができる。特に、メールサーバに拡充機能を持たせた場合には、ユーザは、メール受信時に何らの操作も行うことなく、十分な情報を得ることができる。
【0047】
また、取得したデータ全てを蓄積するのではなく、電子メール文書の内容に相当するデータの中から、さらに主要部のみを抽出して蓄積するため、蓄積効率が良い。
【0048】
さらに、電子メールの受信だけで、URLの情報も同時に取得できているので、電子メールの閲覧ソフトウエアだけで、必要なURL情報も閲覧することができる。
【0049】
さらにまた、タイトルとURLだけからなるような情報に対して、URLが示すサーバから取得したデータに対してキーワード抽出を行った上で、構造化データを作成するため、本構造化データをデータベース等に蓄積した上でキーワード検索をする際、検索精度が、タイトルだけに対して検索を行った場合に比べて、格段に向上する。
【0050】
(B)他の実施形態
上記実施形態の電子文書情報拡充装置からのの最終出力の形式は、必要に応じて、電子メール文書の形態や、Webブラウザで閲覧可能な形態に変換しても良い。そして、これらを電子メールとしてユーザに送信しても良い。すなわち、拡充後の情報単位は、構造化データになっていなくても良い。
【0051】
また、情報単位の内容とURLが示すサーバから取得したデータとの類似度(一致度)を判定する際、予め指定した深さの階層までの全てのリンク先のデータを取得して類似度を計算した上で、最も類似度の高いデータを採用するようにしても良い。
【0052】
さらに、ステップS205のキーワード抽出処理とステップS206の主要部抽出処理の順序を入れ替えても良い。その場合は、主要部抽出処理の結果に対して、キーワード抽出処理を行うことになる。
【0053】
さらにまた、入力される電子メール文書が、複数の情報を含んでいない場合でも良く、このような電子メール文書を専用に扱う装置であれば、分割処理手段を備えなていなくても良い。また、本発明の電子文書は、電子メール文書に限定されず、入力文書そのものがWebページ等であっても良く、その場合、タグを外して上記と同様な処理を行っても良く、上記で用いるタグはそのまま残して処理しても良い。電子文書は、コンテンツとして提供されるようなものであっても良い。また、既に、情報単位に分割されたものが入力され、各情報単位に対して情報の拡充を行うものであっても良い。
【0054】
上記実施形態では、URLが情報の所在を表すものであったが、URIやFTPやファイル名等であっても良い。
【0055】
また、上記実施形態では、取得データの詳細を最終的には除去するものを示したが、除去するか否かをユーザに予め設定させるようにしても良い。すなわち、拡充情報は、主要部及びキーワードに限定されず、取得データの詳細情報を含めても良く、キーワードだけを拡充するものであっても良く、ユーザに任意に設定させるものであっても良い。
【0056】
さらに、上記実施形態では、情報を拡充する場合を示したが、情報を置換するようにしても良い。例えば、情報単位に概要が含まれていても、取り出した取得データでの概要の方が詳しい場合には(例えば、文字数や文章数で判断する)、情報単位に含まれている概要を、取得データの概要に置換するようにしても良い。
【0057】
さらにまた、上記実施形態では、情報を拡充する場合を示したが、拡充の際に、拡充情報や当初情報を翻訳するようにしても良い。例えば、取り出した取得データが、外国語(当初情報から見た場合の外国語や利用者の指定言語と異なる外国語)であった場合に、利用者が理解できる言語等に翻訳した上で、拡充するようにしても良い。また例えば、両言語の情報を並記するようにしても良い。
【0058】
特許請求の範囲の「拡充」の用語には、このような置換や翻訳による情報量の拡充も含むものとする。
【0059】
【発明の効果】
以上のように、本発明によれば、関連する情報の所在を含む電子文書の情報を拡充できる電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体を提供できる。
【図面の簡単な説明】
【図1】実施形態の電子文書情報拡充装置(電子メール文書情報拡充装置)の機能的構成を示すブロック図である。
【図2】実施形態の電子メール文書情報拡充装置の全体動作を示すフローチャートである。
【図3】電子メール文書の一例を示す説明図である。
【図4】実施形態の情報解析部による図3の文書に対する情報単位抽出処理の結果例を示す説明図である。
【図5】実施形態の情報解析部による抽出情報単位に対するURLの抽出結果例を示す説明図である。
【図6】実施形態の外部データ取得部の取得結果例を示す説明図である。
【図7】実施形態のキーワード抽出処理の処理結果例を示す説明図である。
【図8】実施形態の主要部抽出処理の処理結果例を示す説明図である。
【図9】実施形態の構造化データ生成処理による構造化データ例を示す説明図である。
【符号の説明】
100…入力部、101…情報解析部、102…外部データ取得部、103…情報補完部(情報補充部)、104…構造化データ生成部。

Claims (10)

  1. 電子文書に対し、それが有しない要素の情報を拡充する電子文書情報拡充装置であって、
    入力された電子文書から、それに含まれているデータの所在情報を抽出する所在情報抽出手段と、
    抽出された所在情報に基づき、補充し得る外部データを取得する外部データ取得手段と、
    取得した外部データから、入力された上記電子文書で不足する要素の情報を拡充する情報補完手段と
    を備えることを特徴とする電子文書情報拡充装置。
  2. 入力された上記電子文書を解析して情報単位に分割する情報解析手段をさらに備え、
    上記所在情報抽出手段、上記外部データ取得手段及び上記情報補完手段が、分割された上記各情報単位に対して所定の処理を行う
    ことを特徴とする請求項1に記載の電子文書情報拡充装置。
  3. 上記外部データ取得手段は、抽出された所在情報に基づき、外部データを取得する際、外部データと、情報拡充対象の電子文書又は情報単位の内容とが類似していることを判定した上で取得することを特徴とする請求項1又は2に記載の電子文書情報拡充装置。
  4. 上記外部データ取得手段は、抽出された所在情報が示す場所の外部データと、その外部データが含む所在情報をたどって到達し得る外部データとを取得可能な外部データとしていることを特徴とする請求項1〜3のいずれかに記載の電子文書情報拡充装置。
  5. 電子文書に対し、それが有しない要素の情報を拡充する電子文書情報拡充方法であって、
    入力された電子文書から、それに含まれているデータの所在情報を抽出する所在情報抽出工程と、
    抽出された所在情報に基づき、補充し得る外部データを取得する外部データ取得工程と、
    取得した外部データから、入力された上記電子文書で不足する要素の情報を拡充する情報補完工程と
    を有することを特徴とする電子文書情報拡充方法。
  6. 入力された上記電子文書を解析して情報単位に分割する情報解析工程をさらに有し、
    上記所在情報抽出工程、上記外部データ取得工程及び上記情報補完工程が、分割された上記各情報単位に対して所定の処理を行う
    ことを特徴とする請求項5に記載の電子文書情報拡充方法。
  7. 上記外部データ取得工程は、抽出された所在情報に基づき、外部データを取得する際、外部データと、情報拡充対象の電子文書又は情報単位の内容とが類似していることを判定した上で取得することを特徴とする請求項5又は6に記載の電子文書情報拡充方法。
  8. 上記外部データ取得工程は、抽出された所在情報が示す場所の外部データと、その外部データが含む所在情報をたどって到達し得る外部データとを取得可能な外部データとしていることを特徴とする請求項5〜7のいずれかに記載の電子文書情報拡充方法。
  9. 請求項5〜8のいずれかに記載の電子文書情報拡充方法の各工程をコンピュータが処理し得るコードで記述したことを特徴とする電子文書情報拡充プログラム。
  10. 請求項9の電子文書情報拡充プログラムを記録していることを特徴とする記録媒体。
JP2003002978A 2002-06-27 2003-01-09 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体 Pending JP2004086845A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003002978A JP2004086845A (ja) 2002-06-27 2003-01-09 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
US10/603,665 US20040010556A1 (en) 2002-06-27 2003-06-26 Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002187695 2002-06-27
JP2003002978A JP2004086845A (ja) 2002-06-27 2003-01-09 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2004086845A true JP2004086845A (ja) 2004-03-18

Family

ID=30117365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003002978A Pending JP2004086845A (ja) 2002-06-27 2003-01-09 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体

Country Status (2)

Country Link
US (1) US20040010556A1 (ja)
JP (1) JP2004086845A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316715A (ja) * 2006-05-23 2007-12-06 Nakayo Telecommun Inc 電子メール転送システムおよび電子メール合成装置
JP2021064143A (ja) * 2019-10-11 2021-04-22 株式会社Legalscape 文作成装置、文作成方法および文作成プログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7712021B2 (en) * 2005-03-25 2010-05-04 Red Hat, Inc. System, method and medium for component based web user interface frameworks
US7963842B2 (en) * 2007-10-22 2011-06-21 Igt Gaming system, gaming device, and method for providing a player an opportunity to win an additional award amount
US8162742B2 (en) 2008-11-13 2012-04-24 Igt Adjusting payback data based on skill
US8231450B2 (en) * 2008-11-13 2012-07-31 Igt Gaming system, gaming device, and method for providing an award enhancement feature
US8753194B2 (en) 2010-11-11 2014-06-17 Igt Escrow accounts for use in distributing payouts with minimal interruption to game play
US9552692B2 (en) 2011-03-23 2017-01-24 Igt Duty free gaming rewards
US8801519B2 (en) 2012-02-08 2014-08-12 Igt Gaming system, gaming device, and method providing one or more alternative wager propositions if a credit balance is less than a designated wager amount
US9293005B2 (en) 2013-08-07 2016-03-22 Igt Gaming system and method providing a plurality of different player-selectable wager alternatives when a credit balance is less than a designated wager amount and greater than or equal to a lowest eligible credit balance
JP6562276B2 (ja) * 2014-12-15 2019-08-21 大学共同利用機関法人情報・システム研究機構 情報抽出装置、情報抽出方法、及び情報抽出プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2056865C (en) * 1990-12-11 1999-01-05 Barbara Clapp Interactive computerized document assembly system
US6031989A (en) * 1997-02-27 2000-02-29 Microsoft Corporation Method of formatting and displaying nested documents
US6356922B1 (en) * 1997-09-15 2002-03-12 Fuji Xerox Co., Ltd. Method and system for suggesting related documents
US6789080B1 (en) * 1997-11-14 2004-09-07 Adobe Systems Incorporated Retrieving documents transitively linked to an initial document
US6415278B1 (en) * 1997-11-14 2002-07-02 Adobe Systems Incorporated Retrieving documents transitively linked to an initial document
US6016494A (en) * 1997-11-21 2000-01-18 International Business Machines Corporation Expanding web documents by merging with linked documents
US6256622B1 (en) * 1998-04-21 2001-07-03 Apple Computer, Inc. Logical division of files into multiple articles for search and retrieval
JP3715444B2 (ja) * 1998-06-30 2005-11-09 株式会社東芝 構造化文書保存方法及び構造化文書保存装置
US6484178B1 (en) * 1999-12-30 2002-11-19 The Merallis Company Universal claims formatter
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6920609B1 (en) * 2000-08-24 2005-07-19 Yahoo! Inc. Systems and methods for identifying and extracting data from HTML pages
US6760694B2 (en) * 2001-03-21 2004-07-06 Hewlett-Packard Development Company, L.P. Automatic information collection system using most frequent uncommon words or phrases
JP3842573B2 (ja) * 2001-03-30 2006-11-08 株式会社東芝 構造化文書検索方法、構造化文書管理装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316715A (ja) * 2006-05-23 2007-12-06 Nakayo Telecommun Inc 電子メール転送システムおよび電子メール合成装置
JP2021064143A (ja) * 2019-10-11 2021-04-22 株式会社Legalscape 文作成装置、文作成方法および文作成プログラム

Also Published As

Publication number Publication date
US20040010556A1 (en) 2004-01-15

Similar Documents

Publication Publication Date Title
KR101450358B1 (ko) 구조형 지리적 데이터 검색
US7788262B1 (en) Method and system for creating context based summary
KR101174057B1 (ko) 인덱스 분석장치와 인덱스 검색장치 및 그 방법
JP4636473B2 (ja) リンク情報抽出装置、リンク情報抽出方法およびプログラム
JP2004086845A (ja) 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
WO2010150910A1 (ja) 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
US20110252313A1 (en) Document information selection method and computer program product
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP2005107931A (ja) 画像検索装置
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
CN105787032B (zh) 网页快照的生成方法及装置
JP2009259248A (ja) ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体
JP2007241568A (ja) 話題画像抽出方法及び装置及びプログラム
JPH11134341A (ja) ハイパーメデイア記述言語による記述情報の抜粋表示シ ステム
CN111931026A (zh) 一种基于词性扩展的搜索优化方法及***
JP3939477B2 (ja) データベース検索システムおよび方法、記録媒体
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2011054006A (ja) 画像のキーワード決定システム
JP3943005B2 (ja) 情報検索プログラム
JP4113145B2 (ja) 文書処理装置及び文書処理方法
JP4628462B2 (ja) 情報処理システム、サーバ装置、クライアント装置、情報処理方法、及びプログラム
JP2006172029A (ja) 検索結果提示方法
JP2022114721A (ja) 情報提供システム及び情報提供方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090217

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090818