JP2007249322A - 文書視覚化装置及び文書視覚化プログラム - Google Patents

文書視覚化装置及び文書視覚化プログラム Download PDF

Info

Publication number
JP2007249322A
JP2007249322A JP2006068655A JP2006068655A JP2007249322A JP 2007249322 A JP2007249322 A JP 2007249322A JP 2006068655 A JP2006068655 A JP 2006068655A JP 2006068655 A JP2006068655 A JP 2006068655A JP 2007249322 A JP2007249322 A JP 2007249322A
Authority
JP
Japan
Prior art keywords
document
attribute
map
electronic
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006068655A
Other languages
English (en)
Inventor
Fumiko Takahashi
史子 高橋
Taizou Kameshiro
泰三 亀代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2006068655A priority Critical patent/JP2007249322A/ja
Publication of JP2007249322A publication Critical patent/JP2007249322A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】インターネットなどに存在する多様な電子文書から地域毎の動向調査を行う等の用途において、効率的な運用を可能とする。
【解決手段】文書収集部1が電子文書を収集する。文書属性抽出部2が電子文書から文書属性を抽出する。文書重要度算出部3が重要度算出ルールに基づき、その電子文書の文書重要度を算出する。キーワード・属性検索部6が文書属性抽出部2の抽出した文書属性から電子地図上の地名を持つ文書属性を検索し、ヒットした文書属性からその文書名、地名、重要度を抽出する。文書属性・地図対応付け部7が、その地名を緯度経度情報に変換する。表示処理部8がキーワード・属性検索部6の抽出した文書名、地名、重要度からなる地名毎の文書リストを重要度の順に並べて作成し、文書位置を示すとともに文書リストにリンクするマークと文書数とを緯度経度情報に基づき表示装置13において電子地図に重ねて表示する。
【選択図】図3

Description

本発明は、ネットワークに接続されたコンピュータまたはストレージから収集した非構造化電子文書を構造化してその内容を表示する技術に関し、より詳細にはユーザの関心がある地域の属性情報を非構造化電子文書から抽出して構造化するとともに、情報としての文書の重要度を算出し、地域に関連する文書情報を電子地図上に対応付けて表示する文書視覚化装置、文書視覚化プログラムに関する。
インターネット上に存在する文書数は数十億以上にも及び、現在も膨張の一途である。発信される情報は世界各地のニュースから個人のブログまで多種多様な内容である。このような膨大かつ多様な情報からユーザが特定情報を調査するには、従来はキーワードを入力して検索を実行し、ヒットした文書を数十件ずつリスト表示する汎用的な検索エンジン・検索サイトの利用が主である。そのため、ユーザはヒット文書を1つ1つ閲覧して内容を確認する必要があった。このような調査方法では、次のような不都合がある。例えば世界各地の出来事の調査や、特定地域の事象の把握といった特定用途において、キーワードに地名が含まれているがその地域との関連が低い文書もヒットするために閲覧する文書数が膨大になり、効率的に調査できない課題があった。そのため、これを改善するための方法が提案されてきた。
例えば、特許文献1では、インターネット上のWebページを収集し、収集したWebページから日時、所在地等の時空間情報を抽出し、その時空間情報に基づきWeb情報を構造化したデータベースを作成し、そのデータベースに対する地理条件及び時間条件を指定する検索を実行することで検索機能の使い勝手を改善している。
また特許文献2では、地名等の空間情報と空間情報以外の属性をデータベースに保持しておき、各属性間の関連性を地図と対応付けたデータマイニングを実現する。
特開2004−234288号公報 特開2004−102428号公報
しかしながら、特許文献1は構造化された情報の活用が文書検索の条件拡張にとどまるため、大量にヒットした文書グループの内容・傾向を把握するにはやはりユーザはヒット文書を1つ1つ閲覧して内容を確認する必要があり、効率的でない課題があった。
またテキスト等の非構造化データを構造化する属性が時空間情報のみに限定されており、他の属性を抽出して構造化できない課題があった。
特許文献2では、既に構造化されてデータベースに格納された情報を地図上に表示する手法を開示しているが、非構造化データを構造化するための手法を開示しておらず、テキスト情報などに対応できないという課題があった。
この発明の文書視覚化装置は、
電子文書を有しネットワークに接続する他の装置から前記ネットワークを介して前記電子文書を収集する文書収集部と、
前記文書収集部が収集した前記電子文書から前記電子文書中に存在する地名である文書側地名を含む文書属性を文書属性抽出ルールにしたがって抽出し、抽出した前記文書属性に前記電子文書の文書名を付与する文書属性抽出部と、
前記文書収集部が収集した前記電子文書の重要性の指標である文書重要度を文書重要度算出ルールにしたがって算出する文書重要度算出部と、
情報を記憶する記憶部と、
前記文書収集部が収集した前記電子文書と、前記文書属性抽出部が文書名を付与した前記文書属性と、前記文書重要度算出部が算出した前記文書重要度とをそれぞれ対応付けて前記記憶部に登録する文書登録部と、
電子地図であって複数の地名を地図側地名として有する複数の前記電子地図と、前記地図側地名を前記電子地図上の位置に変換する場合に使用する地名位置変換テーブルとを格納する電子地図格納部と、
情報を表示する表示装置と、
前記電子地図格納部が格納する複数の前記電子地図のそれぞれの地図名称を前記表示装置に選択可能に表示し、表示した前記地図名称の選択を受け付ける地図名称表示部と、
前記表示装置に表示された前記地図名称のうちのいずれかの選択を前記地図名称表示部が受け付けた場合に、前記地図名称表示部が選択を受け付けた前記地図名称に対応する前記電子地図である選択地図と前記記憶部に登録された前記文書属性とを参照することにより、前記記憶部に登録された前記文書属性の中から前記選択地図が有するいずれかの前記地図側地名を持つ前記文書側地名が含まれる前記文書属性を含有文書属性として検索し、検索の結果、前記含有文書属性がヒットした場合には、ヒットした前記含有文書属性から少なくとも前記文書名と前記文書側地名とを抽出するとともに前記文書登録部が前記含有文書属性に対応付けした前記文書重要度を前記記憶部から抽出する検索抽出部と、
前記電子地図格納部が格納する前記地名位置変換テーブルを用いることにより、前記検索抽出部が抽出した前記文書側地名が持つ前記地図側地名を前記選択地図上の位置に変換する地名位置変換部と、
前記検索抽出部が抽出した前記文書名と前記文書側地名と前記文書重要度とを含む前記文書側地名ごとの地名毎文書リストを生成するとともに前記地名位置変換部が変換した前記選択地図上の位置を前記選択地図に重ねて前記表示装置に選択可能に表示し、前記選択地図上の位置が選択された場合には、選択された前記選択地図上の位置に対応する前記地名毎文書リストを前記表示装置に表示する文書位置表示部と
を備えたことを特徴とする。
この発明により、地域毎の文書の検索結果の閲覧と内容把握が容易となり、効率的な文書検索を実現する。
実施の形態1.
図1は、コンピュータである文書視覚化装置100の外観の一例を示す図である。図1において、文書視覚化装置100は、システムユニット830、CRT(Cathode・Ray・Tube)やLCD(液晶)の表示画面を有する表示装置813、キーボード814(Key・Board:K/B)、マウス815、FDD817(Flexible・Disk・ Drive)、コンパクトディスク装置818(CDD:Compact Disk Drive)、プリンタ装置819などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
システムユニット830は、コンピュータであり、また、ローカルエリアネットワーク200(LAN)を介してインターネット300に接続されている。文書視覚化装置100は、LAN200を介して電子文書(以下では単に「文書」という場合がある)を有する他の装置401からこの電子文書を収集可能である。また、文書視覚化装置100は、インターネット300を介して電子文書を有する他の装置402からこの電子文書を収集可能である。
図2は、実施の形態1における文書視覚化装置100のハードウェア資源の一例を示す図である。図2において、文書視覚化装置100は、プログラムを実行するCPU810(中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU810は、バス825を介してROM(Read Only Memory)811、RAM(Random Access Memory)812、表示装置813、キーボード814、マウス815、通信ボード816、FDD817、CDD818、プリンタ装置819、磁気ディスク装置820と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置820の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM812は、揮発性メモリの一例である。ROM811、FDD817、CDD818、磁気ディスク装置820の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。通信ボード816、キーボード814、FDD817などは、入力部、入力装置の一例である。また、通信ボード816、表示装置813、プリンタ装置819などは、出力部、出力装置の一例である。
通信ボード816は、LAN200等に接続されている。通信ボード816は、LAN200に限らず、インターネット300、あるいはISDN等のWAN(ワイドエリアネットワーク)などに接続されていても構わない。
磁気ディスク装置820には、オペレーティングシステム821(OS)、ウィンドウシステム822、プログラム群823、ファイル群824が記憶されている。プログラム群823のプログラムは、CPU810、オペレーティングシステム821、ウィンドウシステム822により実行される。
上記プログラム群823には、以下に述べる実施の形態の説明において「〜部」、「〜手段」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPU810により読み出され実行される。
ファイル群824には、以下に述べる実施の形態の説明において、「〜の判定結果」、「〜の算出結果」、「〜の処理結果」として説明する情報や、データや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。図2に示すように、以下の実施の形態で述べる属性定義、文書属性、電子文書、電子地図などがデータベースとして記憶される。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU810によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示・抽出のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、以下に述べる実施の形態の説明においては、主としてデータや信号の入出力を示し、データや信号値は、RAM812のメモリ、FDD817のフレキシブルディスク、CDD818のコンパクトディスク、磁気ディスク装置820の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disk)等の記録媒体に記録される。また、データや信号は、バス825や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
また、以下に述べる実施の形態の説明において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明するものは、ROM811に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU810により読み出され、CPU810により実行される。すなわち、プログラムは、以下に述べる「〜部」としてコンピュータを機能させるものである。あるいは、以下に述べる「〜部」の手順や方法をコンピュータに実行させるものである。
図3は、実施の形態1の文書視覚化装置100のブロック構成図である。図3に示すように、文書視覚化装置100は、文書収集部1、文書属性抽出部2、文書重要度算出部3、文書登録部4、入力部5、キーワード・属性検索部6(検索抽出部の一例)、文書属性・地図対応付け部7(地名位置変換部の一例)、表示処理部8(地図種類表示部の一例、文書位置表示部の一例)、表示装置13、参照回数カウント部14、記憶部20、電子地図格納部80を備える。記憶部20は、属性定義DB9、文書属性DB10、文書DB11を格納している。電子地図格納部80は、電子地図DB12と「地名−緯度・経度変換テーブル81」(地名位置変換テーブルの一例)とを格納している。
図1及び図2で述べたように、文書収集部1、文書属性抽出部2、文書重要度算出部3、文書登録部4、キーワード・属性検索部6、文書属性・地図対応付け部7、表示処理部8は、専用の電子回路を構成することによる他、コンピュータシステムにおける中央演算装置(CPU)によって実現することができる。さらに、前記のように属性定義DB9、文書属性DB10、文書DB11、電子地図DB12、地名−緯度・経度変換テーブル81は、コンピュータで読取可能なファイル形式で実現でき、本体システムに内部バスあるいはネットワークにより接続された不揮発性記憶装置あるいはハードディスクに記憶されるものである。
次に各部の機能を説明する。文書収集部1は、インターネット、イントラネット上に存在する電子文書を、HTML(Hyper Text Markup Language)等で記述されたリンク情報を辿りながら文書を収集して保存する機能を有する。文書収集部1は、例えば、コンピュータ上で動作するクローラ(あるいはスパイダー、ロボット)と呼ばれるソフトウェアで実現できる。このように、文書収集部1は、ネットワークに接続するとともに文書を有する他の装置から前記ネットワークを介して前記文書を収集する。
文書属性抽出部2は、文書収集部1が取得した文書を入力として、文書から文書属性を抽出して出力する。すなわち、文書属性抽出部2は、文書収集部1が収集した電子文書から電子文書中に存在する地名(以下、文書側地名という場合がある)を含む文書属性を文書属性抽出ルールにしたがって抽出し、抽出した文書属性に前記電子文書の文書名を付与する。文書属性抽出ルールは属性定義DB9が持つ。具体的処理としては、文書属性抽出部2は、入力とした文書に対して形態素解析処理を実行し、形態素解析の結果に対して属性定義DB9内の文書属性抽出ルールを用いた照合処理を行い、属性値を抽出して出力する。ここで「文書重要度」とは、収集した電子文書の重要性を示す指標である。以下では文書重要度を、単に「重要度」という場合がある。
文書重要度算出部3は、文書属性抽出部2が抽出した文書属性から得た文書の作成時期(後述のt)と、文書の内容が類似する文書数(後述のn)と、ユーザによる文書の参照回数(後述のr)と、文書内から抽出された属性数であってユーザが重要と考える属性(重要指定属性)の属性数(後述のm)とを入力として文書の重要度を算出して出力する。
文書登録部4は、文書収集部1が収集した文書を文書DB11に格納し、文書属性抽出部2が抽出し文書名を付した属性情報を文書属性DB10に格納し、文書重要度算出部3が算出した文書重要度を文書属性DB10に格納する。文書登録部4はこれらを登録する際には、文書と、その文書の文書属性と、その文書の重要度とを互いに対応付けて登録する。
入力部5は、ユーザからの入力を受け付ける装置である。例えば、コンピュータシステムにおけるポインティングデバイス、キーボード、マウスあるいは他の入力システムやデバイスにより実現される。
キーワード・属性検索部6は、検索条件を入力として、文書属性を該当する文書属性を検索し、ヒットした文書属性から
(a)文書のタイトル、
(b)文書重要度、
(c)地名(後述の所在地)
を出力(抽出)する。なお、文書検索では文書DB11内の文書とキーワードを照合する。属性検索では属性検索条件と文書属性DB10を照合して、結果を出力する。
文書属性・地図対応付け部7は、「地名文字列」(所在地)と「表示用の電子地図」とを入力として、入力地名(地名文字列)が電子地図(後述の選択地図)上の地名(地図側地名という場合がある)として存在する場合は、その存在する地名を「地名−緯度・経度変換テーブル81」を用いて緯度経度情報に変換し出力する。入力地名(地名文字列)が電子地図(選択地図)に存在しない場合には、存在しないことを表すコードを出力する。
表示処理部8は、キーワード・属性検索部6が行なう検索処理に関する表示データ、および文書属性・地図対応付け部7が行なう視覚化処理に関する表示データを作成する。文書属性・地図対応付け部7が行なう視覚化では、電子地図DB12内の電子地図と、電子地図に含まれる地名に関する位置を「地名−緯度・経度変換テーブル81」を用いて算出する、表示処理部8は、その算出された位置に、文書情報が存在することを示すマークと数字を表示する。このマークは、地名毎に重要度でソートされた文書情報(地名毎文書リスト)とリンクしている。
属性定義DB9は、文書属性抽出部2が文書属性を抽出する場合の「文書属性抽出ルール」を格納する。文書属性抽出ルールは、ユーザが用途に応じて作成し、あるいは変更することが可能である。また、重要度の算出ルールを格納することもできる。
文書属性DB10は、文書属性抽出部2が文書から抽出した属性情報と、文書重要度算出部3が算出した文書重要度と、各文書のタイトル(文書名)、サイズ等の情報を格納する。
文書DB11は、文書収集部1が収集した文書を格納する。
電子地図DB12は、コンピュータで取扱可能な電子地図と、地名と緯度経度の対応付けを表すテーブルで構成される。電子地図に含まれる情報は、緯度経度情報、縮尺、地図内の地名である。
次に動作について説明する。
はじめに実施の形態1の文書視覚化装置100における文書登録方法を説明する。図4は、文書登録方法の処理を示すフローチャートである。以下、図4に従い登録処理を説明する。
S100において、文書収集部1は、インターネットまたはイントラネットに接続されたコンピュータ(他の装置の一例)またはストレージ(他の装置の一例)から、HTML形式等の電子文書を収集する。文書収集部1は、一般的なクローラと同様に、予め指定したURL(Uniform Resource Locator)を起点として、HTML文書に記述されたリンク情報を辿りながら次々に文書を収集する。文書収集部1が収集した文書は、実施の形態1を実現するコンピュータシステムの図示しないバッファに一時格納される。インターネット上に存在するコンテンツは、文書以外に音声・音楽ファイル、映像ファイル・ストリーム等もある。しかし、文書収集部1は、予め指定された拡張子の文書に絞って収集する。ここでは拡張子として、例えばhtml、htm、pdf、txt、xml、doc、xlsなどを収集することを想定するが、収集する文書は、これらの拡張子に限ったものではない。
次にS200において、文書属性抽出部2は、文書収集部1によりバッファに一時格納された文書を入力として、属性定義DB9内に格納された文書属性抽出ルールを照合して文書属性を抽出し、文書属性にその文書の文書名を付与する。
(文書属性抽出部2による文書属性の抽出方法)
ここで文書属性とは、文書中に記述された組織名、人名、地名等の固有表現や、日付、長さ、重さ、状態のような項目(情報)であり、タグ付け可能な情報である。図5は、文書属性抽出部2による文書属性抽出手法を示すフローチャートである。図5を参照して文書属性抽出手法を説明する。
(文書属性抽出部2による形態素解析)
はじめにステップS210において、文書属性抽出部2は、入力された文書に対して「形態素解析処理」を行う。「形態素解析処理」は日本文解析の公知の技術であるので動作の詳細は省略する。形態素解析処理によって文書中の部分文字列を品詞に割当てる。
図6は、形態素解析の例を説明するための入力文書40を示す。
図7は、入力文書40を入力とした場合の形態素解析結果50を示す。図7に示す形態素解析結果50では、各文字列に対する品詞、付加情報1、付加情報2、付加情報3が示されている。付加情報1〜付加情報3は、品詞情報の詳細を格納するものである。たとえば、品詞が名詞の場合は、次の様になる。
(1)付加情報1は、一般名詞、固有名詞、サ変接続名詞等の種類を格納する。
(2)付加情報2は、付加情報1が固有名詞の場合の詳細情報であって、人名、組織、地域等の種類を格納する。
(3)付加情報3は、付加情報2の詳細を格納する。付加情報2が人名の場合、付加情報3には「姓」「名」のいずれかが入る。
これら付加情報1〜3は、形態素解析で使用する形態素辞書(属性定義DB9が備える)に格納されている。
(文書属性抽出部2による照合処理)
次にS220において、文書属性抽出部2は、文書属性抽出ルール照合処理を行う。文書属性抽出部2は、図7に示す形態素解析結果50に対して、属性定義DB9内の文書属性抽出ルールとの照合を行い、条件に一致する文字列を属性値として抽出する。
図8は、属性定義DB7に格納される文書属性抽出ルールの一例を示す図である。図8では、
(1)「日付」、
(2)「所在地」、
(3)「組織名」、
(4)「社長」
の各属性に対する抽出方法を定義している。図8において、例えば、(1)「日付」は、二桁〜四桁の数字21、一桁〜二桁の数字23、一桁〜二桁の数字25、及び記号22、記号24との数字と記号との組み合せの定義、または数字と「年」「月」「日」の組合せであると定義する。前者の例は「2003/9/16」のような場合である。後者の例は、「2003年9月16日」のような場合である。また(4)「社長」は、品詞が[名詞−固有名詞―人名]であり、かつ、文字列「社長」の近くにある文字列と定義している。また、「組織名」に付加された「*」は、ユーザ定義による重要指定属性を示すものである。この重要指定属性は、後述する文書重要度の算出に使用される。
例えば、(1)「日付」の属性抽出では、図7の形態素解析結果50において、文頭から数字2〜4桁の文字列を抽出する。ここでは「2003」がこれに該当する。次に、文字「年」が出現するか否かを判定する。図7では、「2003」に続いて「年」が出現するので、ここまでの照合に成功する。以下処理を続行し、文字列「2003年9月16日」が日付の属性として抽出される。文書属性抽出部2は、他の属性についても同様に、文書属性抽出ルールに従い抽出する。図9は、文書属性の抽出結果である文書属性60を示す。図9では、各属性の属性名、属性値に加え、重要指定属性であることを示すフラグを示している。
(文書属性抽出部2による出力処理)
次にS230において、文書属性抽出部2は、電子文書から抽出した文書属性に文書名を付与したうえで出力する。以上が、図4のS200の具体的な動作である。
(文書重要度算出部3による文書重要度の算出)
次に、図4のS300に示した文書重要度算出部3による文書重要度の算出について説明する。文書重要度算出部3は、文書属性抽出部2による属性抽出結果をもとに、文書重要度を算出する。重要度の算出ルールの一例を以下に説明する。ここで「文書重要度」とは、次の(1)〜(4)の基準の組合せにより算出する。
すなわち、
(1)文書の作成時期、
(2)文書の信頼性(後述の類似度による)、
(3)ユーザによる文書の参照回数、
(4)ユーザが重要と考える属性が文書中に含まれるか否か
の4つの基準である。
これは、
(1)作成時期は新しいほど情報としての価値が高く、
(2)内容が類似する文書が多く存在するほど信頼性が高く、
(3)参照回数が多いほど文書としての価値が高く、
(4)ユーザが重要と考える属性が文書中に多く含まれるほどユーザにとって価値の高い文書である、という知見のもとに算出する。
(1.文書の作成時期:t)
文書の作成時期の抽出は、文書中に記述されて文書属性抽出部2で抽出された日付属性の中から、文書内で最も新しいものを抽出する。但し、文書収集日よりも前の日付であることを前提とする。文書中に日付属性が存在しない場合は、文書収集部1が該文書を収集した日時を指定する。
(2.文書の信頼性:n)
内容が類似する文書数の算出は、類似度算出ルールに基づき、文書属性抽出部2が、抽出した文書属性が類似する文書の個数を算出することで得る。2文書間の類似度の算出は、属性を独立したベクトルとして文書をベクトルの和で表現し、2つのベクトル間の類似度を算出することで得る。文書aの文書属性ベクトルをaとし、文書bの文書属性ベクトルをbとする。この場合、文書aと文書bとの類似度dabは,次の(式1)で計算するものとする。
ab=(a・b)/(|a||b|) (式1)
文書重要度算出部3は、文書重要度を算出しようとする対象の電子文書(算出対象電子文書)と異なる電子文書が文書DB11に登録されている場合には、登録されている異なる電子文書について抽出されている文書属性を用いて、その異なる電子文書と算出対象電子文書との間の類似度を上記(式1)で算出する。例えば、算出対象電子文書の他に、他の電子文書が20個登録されているとする。その場合、文書重要度算出部3は、算出対象電子文書を他の20個の電子文書のそれぞれと(式1)を用いて類似度を算出する。この場合、類似度について予め閾値が定められているとする。文書重要度算出部3は、算出した類似度のうち、予め定義された閾値を超える類似度の個数を算出する。この閾値を超える個数により、文書重要度算出部3は、内容が類似する文書数を算出することができる。このように、文書重要度算出部3は、図9に示す抽出された文書属性60から作成した文書属性ベクトルと、文書属性DB10内に存在する各文書の文書属性から作成した文書属性ベクトルとからそれぞれの類似度をそれぞれ算出し、予め定義する個数を算出することで対象の電子文書と内容が類似する文書数を得ることができる。なお、ここでは文書を文書属性ベクトルで表現して2文書間の類似度を算出したが、2文書間の類似度算出方法はこれに限らず、例えば、形態素解析で得た単語から文書ベクトルを算出して文書間の類似度を算出してもよい。
(3.参照回数:r)
ユーザによる文書の参照回数は、文書登録されユーザによって参照される毎に回数が増加するが、文書登録時には0である。
(4.ユーザが重要と考える属性:m)
ユーザが重要と考える属性は、属性定義DB9内に予めユーザが「重要指定属性」として作成しておくことができる。これは、図8に示した「*」マークを付すことにより実現される。文書重要度算出部3は、抽出された文書属性の中から、「*」マークに対応して立てられる図9に示す重要指定属性の「フラグ」から、重要指定属性の個数を算出する。図9の例では、組織名に1つ抽出されている。
(文書重要度の算出)
文書Diの重要度CDiの算出式を,上記説明した指標を用いて以下に示す。重要度CDiは、次の(式2)により算出する。
Di=f(t,n,r,m) (式2)
(式2)において、
t:文書の作成時期、
n:内容が類似する文書の個数、
r:参照回数、
m:取得した重要指定属性数、
等を表す。(式2)の関数fは、t、n、r、mの増加によって単調増加する関数である。これらは上記で説明した(1.文書の作成時期:t)〜(4.ユーザが重要と考える属性:m)である。
次に、図4に示したS400において、文書登録部4は、文書収集部1が収集した文書を文書DB11に登録し、文書属性抽出部2が抽出した文書属性と、文書重要度算出部3が算出した重要度とを文書属性DB10に格納して登録を終了する。この際、文書登録部4は、収集した文書、その文書属性及び重要度とを、互いに対応付けて登録する。
以上の処理により、インターネットおよびイントラネットに存在する文書を自動収集し、ユーザが予め定義した属性を文書中から抽出するとともに文書の重要度を算出し、文書および属性、重要度を保存することが可能となる。
次に収集、登録した文書(文書属性)からの検索と、検索した文書(文書属性)に関して地図を用いて視覚化する視覚化方法を説明する。
図10は、検索処理及び視覚化処理を示すフローチャートである。このフローチャートを用いて説明する。
(S500:表示処理部)
はじめにS500において、視覚化のための地図選択・表示を実行する。S500において、表示処理部8はユーザにより選択された電子地図を電子地図DB12から取得して画面に表示する。これを以下に具体的に説明する。
図11は、文書検索・視覚化のための画面70である。図11は、表示処理部8(地図名称表示部)により表示装置13に表示される画面を示している。表示処理部8は、電子地図DB12がもつ複数の電子地図のそれぞれの地図名称を表示装置13に選択可能に表示する。そして、表示した地図名称のユーザからの選択を受け付ける。図11に示す画面70の左側には
(1)キーワード入力枠71、
(2)検索開始ボタン72、
(3)視覚化のための地図選択リストボックス73が表示されている。地図選択リストボックス73には、図11に示す様に、電子地図DB12がもつ電子地図のそれぞれの地図名称が表示されている。図11では、地図選択リストボックス73には、「日本地図」、「関東」、「関西」等のそれぞれの地図名称が表示されている。表示処理部8は、これら地図種類をユーザによる選択可能に表示し、表示した地図種類の選択を受け付ける。ユーザは、いずれかの地図種類をマウス、キーボードのキーなどで選択する。
本実施の形態1では、ユーザが地図選択リストボックス73の中からいずれかの地図名称のみを選択し、キーワード入力枠71には特にキーワードを入力しない例で説明する。したがって、以下の説明では、ユーザがいずれかの地図種類を選択した場合を想定し説明する。地図選択リストボックス73から選択された地図名称の電子地図を以下「選択地図」と呼ぶ。
図11の画面70の右側の空白部74には、選択地図が表示される。いま、図11においてユーザが地図選択リストボックスから「日本地図」を選択地図として選択したとする。「日本地図」には、地名(地図側)として都道府県名(北海道、青森県、・・・、東京都、・・)のみが含まれているとする。表示処理部8は、選択された「日本地図」を電子地図DB12から取得し、表示装置13の画面に表示する。図12は、表示処理部8により「日本地図」が表示装置13に表示された場合を示している。
(S600:空間属性・検索処理)
次にS600において、キーワード・属性検索部6が、空間属性・検索処理を実行する。ここで「空間属性」とは、地名を含む属性である。図9の場合を例にとれば、「所在地」がこれにあたる。
キーワード・属性検索部6は、文書属性DB10から「空間属性」(所在地)を保持する文書属性を取得し、選択された「日本地図」の有する地名(地図側地名)を持つ文書属性が存在するか否かを判定する。
すなわち、キーワード・属性検索部6は、表示装置13に表示された地図名称のうちのいずれかの選択を表示処理部8が受け付けた場合に、表示処理部8が選択を受け付けた地図名称に対応する選択地図と記憶部20に登録された文書属性とを参照することにより、文書属性の中から選択地図(この例では日本地図)が有するいずれかの地図側地名(北海道、青森県、・・・、東京都、・・)を持つ文書属性を「含有文書属性」として検索する。例えば、「所在地」が次の様な(1)〜(9)の文書属性1〜文書属性9が記憶部20の文書属性DB10に登録されているとする。
(1)「文書属性1:所在地:北海道札幌市〜」
(2)「文書属性2:所在地:東京都千代区〜」
(3)「文書属性3:所在地:東京都八王子市〜」
(4)「文書属性4:所在地:東京都新宿区〜」
(5)「文書属性5:所在地:大阪府大阪市〜」
(6)「文書属性6:所在地:大阪府堺市〜」
(7)「文書属性7:所在地:大阪府東大阪市〜」
(8)「文書属性8:所在地:福岡県北九州市〜」
(9)「文書属性9:所在地:福岡県福津市〜」
この場合、キーワード・属性検索部6は、文書属性1〜文書属性9の所在地(文書側地名)が都道府県名(地図側地名)を持つので、これらを検索し取得する。キーワード・属性検索部6は、「空間属性」である所在地(文書側地名)が「日本地図」(選択地図)の有する地名(地図側地名)を持つ場合には、その文書属性に関して、
(a)文書名と
(b)重要度と
(c)地名(所在地)と
を出力する。存在しない場合はそれを示すステータスを返す。すなわち、キーワード・属性検索部6は、検索の結果、含有文書属性がヒットした場合には、ヒットした含有文書属性から少なくとも文書名と所在地(文書側地名)とを抽出するとともに、文書登録部4が含有文書属性に対応付けした重要度を記憶部20の文書属性DB10から抽出する。
次に、文書属性・地図対応付け部7は、キーワード・属性検索部6が出力した地名(所在地)を、図13に示す緯度経度情報と対応付ける。具体的には、文書属性・地図対応付け部7(地名位置変換部)は、電子地図格納部80が格納する「地名−緯度・経度変換テーブル81」を用いることにより、キーワード・属性検索部6が抽出した文書側地名(地図側地名を持つ)を選択地図である「日本地図」上の位置に変換する。例えば、抽出された所在地(文書側地名)が「東京都千代田区〜」であれば、「日本地図」上の位置は東京であるので、「地名−緯度・経度変換テーブル81」を用いて所在地(文書側地名)を東京の緯度経度に変換する。
(1.地名−緯度・経度変換テーブル81について.)
図13の「地名−緯度・経度変換テーブル81」を説明する。「地名−緯度・経度変換テーブル81」は、電子地図DB12が格納する電子地図のそれぞれが有する地名(地図側地名)について、その地名の緯度経度を持っている。
この「地名−緯度・経度変換テーブル81」では、
緯度が正の値の場合は北緯を示し、負の値の場合は南緯を示す。
経度が正の値の場合は東経を示し、負の値の場合は西経を示す。
いま、文書属性・地図対応付け部7が、キーワード・属性検索部6が抽出した地名(所在地)として、図9に示す所在地「東京都千代田区丸の内1−1−1」を入力したとする。この場合、文書属性・地図対応付け部7は、図13に示す「地名−緯度・経度変換テーブル81」を参照し、「東京都千代田区丸の内1−1−1」のうち「東京都」と「千代田区」とが一致(テーブルに存在)すると判定する。
(2.選択地図について)
一方、図12に示す選択地図である「日本地図」には、前述のように都道府県名のみが地名(地図側地名)として含まれている。よって、文書属性・地図対応付け部7は、図12の「日本地図」(選択地図)では、「千代田区」が一致せず、「東京都」のみと一致すると判定する。そこで、文書属性・地図対応付け部7は、文字列「東京都」と、「東京都」の緯度35.6850、経度139.7513を出力する。
(S700:表示処理部8)
次にS700の重要度ソートについて説明する。図14は、表示処理部8(文書位置表示部の一例)が生成した地名ごとの地名毎文書リストを示している。図14は、地名が東京都である地名毎文書リストを示している。図14に示すように、先ず表示処理部8(文書位置表示部)は、キーワード・属性検索部6が抽出した文書名と文書側地名と文書重要度とを含む文書側地名ごとの地名毎文書リストを生成する。そして、後述のように、表示処理部8(文書位置表示部)は、文書属性・地図対応付け部7によって変換された選択地図上の位置を選択地図に重ねて表示装置13に選択可能に表示する。そして、表示装置13の画面における選択地図上の前記位置が選択された場合には、選択された前記位置に対応する地名毎文書リストを表示装置13に表示する。図14では緯度経度も記載しているが、これは必須ではない。図14では例として東京都のみの結果を示しているが、北海道や、大阪府などの情報ある場合には「北海道についての地名毎文書リスト」、「大阪府についての地名毎文書リスト」が作成される。図14の地名毎文書リストの内容は、重要度がソートされたうえで、表示装置13の画面に表示される。表示処理部8(文書位置表示部)は、作成した地名毎文書リストに対して文書重要度のソート処理を行う。図15は、表示処理部8(文書位置表示部)が図14の地名毎文書リストを重要度の降順にソートした結果を示す。
(S800:表示処理部8)
次にS800において、表示処理部8(文書位置表示部)は表示画面作成処理を行う。表示処理部8(文書位置表示部)は、重要度のソート後におけるその地名毎文書リストに含まれる文書名の数を計数する。そして、選択地図に対する文書が存在することを示すマークおよび文書数を表示する位置を決定する。図16はこの様子を示している。例えばマーク31は東京都の位置を示し、「3件」とある表示は東京都についての地名毎文書リストに文書名が3件記載されていることを示している。すなわち表示処理部8(文書位置表示部)は、文書属性・地図対応付け部7(前記地名位置変換部)が変換した日本地図(選択地図)上の位置(図16のマーク31等)を日本地図(選択地図)に重ねて表示装置13に選択可能に表示する。表示位置の決定は、地名の緯度経度情報と選択地図の4隅(電子地図は、通常その4隅の緯度経度情報を算出可)の緯度経度情報から計算する。この結果として、図16は、日本地図(選択地図)に重ねて日本地図に対する文書が存在することを示すマークを日本地図に重ねて表示装置13に選択可能に表示した状態を示すものである。図16のマーク31は、図15の結果に対応する。図16では、東京都の他に、北海道、大阪府、福岡県に関してもそれぞれ地名毎文書が存在することを示している。すなわち、「北海道についての地名毎文書リスト」、「大阪府についての地名毎文書リスト」などが存在することを示す。表示処理部8(文書位置表示部)は、ユーザによりマーク31がクリック(選択)された場合に図15に示す東京の地名毎文書リストが表示装置13の画面に表示されるように、html形式でリンク先を対応付けて作成する。表示処理部8(文書位置表示部)は、日本地図(選択地図)上のマーク(位置)が選択された場合には、選択された日本地図(選択地図)上の位置に対応する地名毎文書リストを表示装置13に表示する。表示処理部8(文書位置表示部)は、地名毎文書リストを生成する場合には、文書重要度にしたがって重要性の高い順に文書名を前記地名毎文書リストに掲載している。また、地名毎文書リストの文書名は、記憶部20の文書DB11に格納されている電子文書とリンクされることにより地名毎文書リストの文書名から対応する電子文書を参照可能である。
(地図選択:東京地図)
(S500)
次に、地図を日本地図から東京に変更した場合の例を示す。S500において、図12に示した画面70で「東京」の地図名称を選択する。表示処理部8(地図種類表示部)は、選択された東京地方の地図を電子地図DB12から取得して画面70の空白部74に表示する。
(S600)
S600では、上記「日本地図」の場合と同様に、キーワード・属性検索部6が文書属性DB10から空間属性(所在地)を保持する文書属性を取得し、選択地図上(この場合、東京の地図上)に地名が存在するか否かを判定する。存在する場合には文書名と文書重要度、地名(所在地)、緯度経度情報を出力する。また、文書属性・地図対応付け部7が「日本地図」の場合と同様に、地名(所在地)の持つ地図側地名を緯度経度に変換する。
いま、東京地方の地図では市町村名と23区名のみが指定されているものとする。文書属性・地図対応付け部7は、図9に示す所在地「東京都千代田区丸の内1−1−1」を入力として、図13に示す「地名−緯度・経度変換テーブル81」を用いる場合、「東京都」と「千代田区」が一致する。しかし、選択地図である「東京」の地図は、前記のように市町村名と23区名のみが指定されている。よって、文書属性・地図対応付け部7は、「千代田区」のみが一致すると判定し、図9に示す文字列「千代田区」と、「千代田区」の緯度35.6833、経度139.7500を出力する。
(S700,S800)
以下同様に処理して抽出した結果を図17に示す。図17では、図15に対して、地名および緯度・経度が新宿区、千代田区、八王子と、東京地方の地図に存在する地名となっている。図18は、東京地方の地図にマークを重ねて表示した画面を示す。図18でユーザがいずれかのマークを選択するとそのマークに対応して「新宿についての地名毎リスト」、「千代田区についての地名毎リスト」、「八王子市についての地名毎リスト」のいずれかが画面に表示される。
以上に説明した文書視覚化装置文書視覚化装置100の文書収集部1、文書属性抽出部2、文書重要度算出部3、文書登録部4、表示処理部8(地図種類表示部、文書位置表示部)、キーワード・属性検索部6(検索抽出部)、文書属性・地図対応付け部7(地名位置変換部)の一連の動作は互いに関連しており、これら一連の動作を文書視覚化プログラムとして把握することができる。図19は、一連の動作を文書視覚化プログラムとして把握した場合のフローチャートである。
(1)S1001は、電子文書を有しネットワークに接続する他の装置からネットワークを介して電子文書を収集する処理である。
(2)S1002は、収集された電子文書から電子文書中に存在する地名である文書側地名を含む文書属性を文書属性抽出ルールにしたがって抽出し、抽出した文書属性に前記電子文書の文書名を付与する処理である。
(3)S1003は、収集された電子文書の文書重要度を文書重要度算出ルールにしたがって算出する処理である。
(4)S1004は、収集された電子文書と、文書名が付与された文書属性と、算出された文書重要度とをそれぞれ対応付けて記憶部20に登録する処理である。
(5)S1005は、電子地図格納部80が格納する複数の電子地図のそれぞれの地図名称を表示装置13に選択可能に表示し、表示した地図名称の選択を受け付ける処理である。
(6)S1006は、表示装置13に表示された地図名称のうちのいずれかの選択が受け付けられた場合に、選択が受け付けられた地図名称に対応する電子地図である選択地図と記憶部20に登録された文書属性とを参照することにより、記憶部20に登録された文書属性の中から選択地図が有するいずれかの地図側地名を持つ文書側地名が含まれる文書属性を含有文書属性として検索し、検索の結果、含有文書属性がヒットした場合には、ヒットした含有文書属性から少なくとも文書名と文書側地名とを抽出するとともに含有文書属性に対応付けされた文書重要度を記憶部20から抽出する処理である。
(7)S1007は、電子地図格納部80が格納する地名−緯度・経度変換テーブル(地名位置変換テーブル)を用いることにより、抽出された文書側地名が持つ地図側地名を選択地図上の位置に変換する処理である。
(8)S1008は、抽出された文書名と文書側地名と文書重要度とを含む文書側地名ごとの地名毎文書リストを生成するとともに変換された選択地図上の位置を選択地図に重ねて表示装置13に選択可能に表示し、選択地図上の位置が選択された場合には、選択された前記選択地図上の位置に対応する地名毎文書リストを表示装置13に表示する処理である。
このように、実施の形態1の文書視覚化装置100は、非構造化文書から属性を抽出して文書を構造化するとともに文書重要度を算出して登録し、文書検索、表示時には地名毎に重要度の高い文書順にソートして表示する。よって、地域毎の文書の検索結果の閲覧と内容把握が容易となる。また、同一文書でも都道府県単位、市町村名単位等の異なる地図の表示単位に合わせて文書と地名を対応付けるので、使い勝手の良い、効率的な文書の検索、内容把握が可能な装置の提供が可能となる。
実施の形態2.
文書重要度は上述の(式2)で算出する。しかし、同じ文書でも、登録時に算出した文書重要度と登録後一定期間経過後に算出した文書重要度は異なる。(式2)のt、n、r、mが時間の経過により変動するからである。
具体的には(式2)の
t:文書の作成時期、
n:内容が類似する文書の個数、
r:参照回数、
m:取得した重要指定属性数、
に関しては、次のようなことがいえる。
(1)tは、文書作成日付に関する値である。登録時には日付が新しいために通常大きいが、一定期間後には過去の文書となるために小さくなる。
(2)nは、文書登録時において、類似文書がインターネットに多数存在してもこれらが未収集であると小さくなる。このために、類似文書であっても登録順序に依存して値が異なる。しかし一定期間後は、類似する文書が登録され、安定した値が出力される。
(3)rは、登録時においてはユーザが未参照であるので値は0である。しかし、検索され参照される回数が増加するほど値が増加する。
(4)mは、収集後にユーザが追加の文書属性を定義した場合などに変化することがある。このように重要度を算出する場合の変数t、n、r、m等は変化する。そこで、より精度の良い文書重要度を算出するために、収集済みの文書に対して定期的に文書重要度を更新する。その方法は、文書収集後一定期間毎に更新する方法でもよいし、文書の追加登録時に必ず更新するように変更してもよい。あるいは検索・閲覧される毎に更新する方法でもよい。
動作を説明する。
(1)参照回数カウント部14は、記憶部20の文書DB11に登録された電子文書の参照回数をカウントする。
(2)また、例えば属性定義DB9に格納された文書重要度算出ルールは、参照回数カウント部14がカウントした電子文書の参照回数に基づいて参照に係る電子文書の文書重要度を算出して更新するべきことを定めている。
(3)文書重要度算出部3は、この文書重要度算出ルールにしたがって、参照回数カウント部14がカウントした電子文書の参照回数に基づいて参照に係る電子文書の文書重要度を算出して更新する。
(4)キーワード・属性検索部は、文書重要度算出部3により重要度が更新された場合には、更新後の重要度を記憶部20の文書属性DB10から抽出し、実施の形態1で説明した処理を実行する。
このように文書視覚化装置100によれば、重要度を更新することにより、同じ内容の文書であっても収集順序によって重要度が大きく異なることがなくなり、より精度のよい重要度算出が可能となる。また、参照回数(r)が多い文書ほど重要度が大きくなるため、より実情を反映した重要度を算出することができる。
実施の形態3.
実施の形態1及び実施の形態2では、主に日本語の文書に対する解析・視覚化例を示した。実施の形態では、日本語以外の文書にも対応可能な実施形態を説明する。
異なる言語の文書に対応するには、図4に示した文書属性抽出処理S200において、言語に共通の属性値を出力することで可能となる。図20に多言語に対応した属性抽出フローチャートを示す。
属性定義DB9の文書属性抽出ルールは、文書収集部1が収集する電子文書の言語に応じて定められている。そして、文書属性抽出部2は、文書収集部1が収集した電子文書がいかなる言語で記述されているかを判定する機能を有する。文書属性抽出部2は、判定した言語に応じた文書属性抽出ルールにしたがうことにより、電子文書からその文書属性を抽出する。図20にその動作を示す。
はじめにS305で入力文書に対して、文書属性抽出部2が言語判別処理を実行する。言語判別は、htmlで記述された文書についてはメタタグ内にcharsetで指定された値で判定でき、charsetが存在しないtxt他の文書については入力文書の文字コードを直接解析して各言語に固有の文字コードの利用を調査することでcharsetを判定することも可能である。
次にS311において、形態素解析処理を行う。形態素解析は通常言語毎に異なるので、文書属性抽出部2は、S305で判別した言語に応じた形態素解析を実行する。各言語の形態素解析処理が出力する品詞コードは言語に共通の表記とする。
次にS321において、文書属性抽出ルール照合を行う。文書属性抽出ルール照合は形態素解析で出力される表記が共通であると言語によらず照合が可能である。ただし、品詞や文字列の並び順が言語により異なるので言語別に文書属性抽出ルールを作成する。また文字列の照合は、文字コードをunicodeで保持することで言語が異なっても正しい動作が可能となる。
S331において、結果出力を行う。この場合、出力である属性値は各言語に共通の表記、例えば英語で出力する。
属性検索では、地図側地名を文書側地名の表記と共通(この例では英語)で持つことで属性検索可能となる。
以上により、文書視覚化装置100によれば、文書重要度算出処理である図4のS300以下の動作が可能となり、多言語文書に対する検索・視覚化が可能となる。
以上の実施の形態では、文書を収集する文書収集手段と、収集した文書から属性を抽出する文書属性抽出手段と、文書属性を抽出するための文書属性抽出ルールを格納する属性定義DBと、抽出した文書属性を用いて文書重要度を算出する文書重要度算出手段と、文書および文書属性および文書重要度を登録する文書登録手段と、文書属性および文書重要度を格納する文書属性DBと、文書を格納する文書DBと、文字の入力と項目選択を行う入力手段と、キーワードと文書DB内の文書を照合して一致する文書を出力し、また文書属性DB内の文書属性に対して該当する属性の存在の有無を検証するキーワード・属性検索手段と、地名から緯度経度情報を出力する文書属性―地図対応付け手段と、コンピュータ表示可能な電子地図を格納する電子地図DBと、
文書検索・視覚化画面を表示する表示手段とを備える文書解析・文書視覚化装置を説明した。
以上の実施の形態では、文書重要度算出手段は、文書属性の日付属性と、文書属性から算出した文書間の類似性と、ユーザによる文書参照数と、ユーザが指定する重要指定属性値の抽出数を用いて文書重要度を算出する文書解析・文書視覚化装置を説明した。
以上の実施の形態では、文書属性―地図対応付け手段は、入力された地名と地図に存在する地名を部分的に照合して、地図に存在する地名に対応する緯度経度情報を出力する文書解析・文書視覚化装置を説明した。
以上の実施の形態では、文書重要度算出手段は、登録済の文書の文書重要度を更新する文書解析・文書視覚化装置を説明した。
以上の実施の形態では、文書属性抽出手段は、言語判定処理と、言語毎の形態素解析処理を行い、文書属性抽出結果を言語に依存しない共通表記で出力する文書解析・文書視覚化装置を説明した。
実施の形態1における文書視覚化装置100の外観図。 実施の形態1における文書視覚化装置100のハードウェア構成図。 実施の形態1における文書視覚化装置100のブロック図。 実施の形態1における文書視覚化装置100の動作のフローチャート。 実施の形態1における文書属性抽出部2の動作のフローチャート。 実施の形態1における入力文書の例。 実施の形態1における図6を入力文書とした場合の形態素解析結果。 実施の形態1における属性定義DB9に格納される文書属性抽出ルールの例。 実施の形態1における文書属性抽出ルールに従い抽出された文書属性の例。 実施の形態1における視覚化方法の処理を示すフローチャート。 実施の形態1における文書検索・視覚化のための画面70の例。 実施の形態1における選択地図が表示された様子を示す図。 実施の形態1における地名−緯度・経度変換テーブル81の例。 実施の形態1における地名を東京とする地名毎文書リストの例。 実施の形態1における図14のソート後を示す図。 実施の形態1における選択地図にマークを重ねて表示した画面の例。 実施の形態1における地図東京での検索結果を示す図。 実施の形態1における地図東京でのマークの表示状態を示す図。 実施の形態1における文書視覚化プログラムの処理を示すフローチャート。 実施の形態3における文書属性抽出部2の動作のフローチャート。
符号の説明
1 文書収集部、2 文書属性抽出部、3 文書重要度算出部、4 文書登録部、5 入力部、6 キーワード・属性検索部、7 文書属性・地図対応付け部、8 表示処理部、9 属性定義DB、10 文書属性DB、11 文書DB、12 電子地図DB、13 表示装置、14 参照回数カウント部、20 記憶部、21 日付の文書属性抽出ルールの要素、22 日付の文書属性抽出ルールの要素、23 日付の文書属性抽出ルールの要素、24 日付の文書属性抽出ルールの要素、25 日付の文書属性抽出ルールの要素、30 電子地図DB格納部、31 マーク、40 入力文書、50 形態素解析結果、60 文書属性、70 画面、71 キーワード入力枠、72 検索開始ボタン、73 地図選択リストボックス、80 電子地図格納部、81 地名−緯度・経度変換テーブル、200 LAN、300 インターネット、401,402 他の装置、810 CPU、811 ROM、812 RAM、813 表示装置、814 キーボード、815 マウス、816 通信ボード、817 FDD、818 CDD、819 プリンタ装置、820 磁気ディスク装置、821 OS、822 ウィンドウシステム、823 プログラム群、824 ファイル群、825 バス、830 システムユニット。

Claims (7)

  1. 電子文書を有しネットワークに接続する他の装置から前記ネットワークを介して前記電子文書を収集する文書収集部と、
    前記文書収集部が収集した前記電子文書から前記電子文書中に存在する地名である文書側地名を含む文書属性を文書属性抽出ルールにしたがって抽出する文書属性抽出部と、
    前記文書収集部が収集した前記電子文書から文書の重要性の指標である文書重要度を文書重要度算出ルールにしたがって算出する文書重要度算出部と、
    情報を記憶する記憶部と、
    前記文書収集部が収集した前記電子文書と、前記文書属性抽出部が抽出した前記文書属性と、前記文書重要度算出部が算出した前記文書重要度とをそれぞれ対応付けて前記記憶部に登録する文書登録部と、
    電子地図であって地名を地図側地名として対応付けた前記電子地図と、前記地図側地名から前記電子地図上の位置を決定するための地名位置変換テーブルとを格納する電子地図格納部と、
    情報を表示する表示装置と、
    地図側地名と前記文書属性を照合し、前記文書属性が一致する文書の前記文書属性から少なくとも前記文書側地名を抽出するとともに前記文書登録部が前記文書属性に対応付けした前記文書重要度を前記記憶部から抽出する検索抽出部と、
    前記電子地図格納部が格納する前記地名位置変換テーブルを用いることにより、前記検索抽出部が抽出した前記文書側地名が持つ前記地図側地名から地図上の位置を決定する地名位置変換部と、
    文書名と前記検索抽出部が抽出した前記文書側地名とを含む前記文書側地名ごとの地名毎文書リストを生成するとともに地図上の位置に重ねて前記表示装置に選択可能に表示し、前記選択地図上の位置が選択された場合には、選択された前記選択地図上の位置に対応する前記地名毎文書リストを前記表示装置に表示する文書位置表示部と
    を備えたことを特徴とする文書視覚化装置。
  2. 前記文書位置表示部は、
    前記地名毎文書リストを生成する場合に、前記文書重要度にしたがって重要性の高い順に前記文書名を前記地名毎文書リストに掲載することを特徴とする請求項1記載の文書視覚化装置。
  3. 前記文書属性抽出ルールは、
    前記文書側地名に加え、少なくとも、前記電子文書が作成された日付を示す日付属性と、重要と指定された所定の属性である重要指定属性とを含む前記文書属性を前記電子文書から抽出するべきことを定めており、
    前記文書属性抽出部は、
    前記文書属性抽出ルールにしたがって、前記文書収集部が収集した前記電子文書から前記文書側地名と、前記日付属性と、前記重要指定属性とを含む前記文書属性を前記電子文書から抽出し、
    前記文書重要度算出部は、
    前記文書重要度を算出する算出対象電子文書と、他の電子文書との類似度を所定の類似度算出ルールに基づき算出し、算出した前記類似度と前記文書属性抽出部が抽出した前記日付属性と前記重要指定属性とに基づいて、前記算出対象電子文書の前記文書重要度を算出することを特徴とする請求項1または2いずれかに記載の文書視覚化装置。
  4. 前記地名毎文書リストの前記文書名は、
    前記記憶部に記憶されている前記電子文書とリンクされることにより前記地名毎文書リストの前記文書名から対応する前記電子文書を参照可能であることを特徴とする請求項1または2いずれかに記載の文書視覚化装置。
  5. 前記文書視覚化装置は、さらに、
    前記記憶部に登録される前記電子文書の参照回数をカウントする参照回数カウント部を備え、
    前記文書重要度算出ルールは、
    前記参照回数カウント部がカウントした前記電子文書の参照回数に基づいて参照に係る前記電子文書の文書重要度を算出して更新するべきことを定め、
    前記文書重要度算出部は、
    前記文書重要度算出ルールにしたがって、前記参照回数カウント部がカウントした前記電子文書の参照回数に基づいて参照に係る前記電子文書の前記文書重要度を算出して更新し、
    前記検索抽出部は、
    前記文書重要度算出部により前記文書重要度が更新された場合には、更新後の前記文書重要度を前記記憶部から抽出することを特徴とする請求項4記載の文書視覚化装置。
  6. 前記文書属性抽出部は、
    前記文書収集部が収集した前記電子文書がいかなる言語で記述されているかを判定し、判定した言語に応じた前記文書属性抽出ルールにしたがうことにより前記文書属性を抽出することを特徴とする請求項1または2いずれかに記載の文書視覚化装置。
  7. 情報を記憶する記憶部と、
    電子地図であって地名を地図側地名として対応付けた前記電子地図と前記地図側地名から前記電子地図上の位置を決定するための地名位置変換テーブルとを格納する電子地図格納部と、
    情報を表示する表示装置と
    を備えたコンピュータに以下の処理を実行させることを特徴とする文書視覚化プログラム
    (1)電子文書を収集する処理
    (2)収集した前記電子文書から前記電子文書中に存在する地名である文書側地名を含む文書属性を文書属性抽出ルールにしたがって抽出する処理
    (3)収集した前記電子文書の重要性の指標である文書重要度を文書重要度算出ルールにしたがって算出する処理
    (4)収集した前記電子文書と、前記文書属性と、算出された前記文書重要度とをそれぞれ対応付けて前記記憶部に登録する処理
    (5)地図側地名と前記文書属性を照合し、一致する前記含有文書属性から前記文書側地名とを抽出するとともに前記含有文書属性に対応付けされた前記文書重要度を前記記憶部から抽出する処理
    (6)前記電子地図格納部が格納する前記地名位置変換テーブルを用いることにより、抽出された前記文書側地名が持つ前記地図側地名から地図上の位置を決定する処理
    (7)抽出された前記文書側地名と前記文書重要度とを含む前記文書側地名ごとの文書リストを生成するとともに地図上の位置を地図に重ねて前記表示装置に選択可能に表示し、選択された位置に対応する前記地名毎文書リストを前記表示装置に表示する処理。
JP2006068655A 2006-03-14 2006-03-14 文書視覚化装置及び文書視覚化プログラム Pending JP2007249322A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006068655A JP2007249322A (ja) 2006-03-14 2006-03-14 文書視覚化装置及び文書視覚化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006068655A JP2007249322A (ja) 2006-03-14 2006-03-14 文書視覚化装置及び文書視覚化プログラム

Publications (1)

Publication Number Publication Date
JP2007249322A true JP2007249322A (ja) 2007-09-27

Family

ID=38593591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006068655A Pending JP2007249322A (ja) 2006-03-14 2006-03-14 文書視覚化装置及び文書視覚化プログラム

Country Status (1)

Country Link
JP (1) JP2007249322A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128806A (ja) * 2008-11-27 2010-06-10 Hitachi Ltd 情報分析装置
JP2012155468A (ja) * 2011-01-25 2012-08-16 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
JP2012164202A (ja) * 2011-02-08 2012-08-30 Denso It Laboratory Inc 関連度出力装置、関連度出力方法、およびプログラム
JP2013030042A (ja) * 2011-07-29 2013-02-07 Zenrin Co Ltd 電子書籍表示装置
WO2013109836A1 (en) * 2012-01-18 2013-07-25 Dw Associates, Llc Format for displaying text analytics results
US8996359B2 (en) 2011-05-18 2015-03-31 Dw Associates, Llc Taxonomy and application of language analysis and processing
US9269353B1 (en) 2011-12-07 2016-02-23 Manu Rehani Methods and systems for measuring semantics in communications
JP2016541058A (ja) * 2013-11-27 2016-12-28 インテル コーポレイション 高詳細度のニュースマップ及び画像オーバーレイ
US9667513B1 (en) 2012-01-24 2017-05-30 Dw Associates, Llc Real-time autonomous organization
JP2019096248A (ja) * 2017-11-28 2019-06-20 富士ゼロックス株式会社 文書処理装置及びプログラム
JP2019139525A (ja) * 2018-02-09 2019-08-22 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
CN111368113A (zh) * 2020-02-21 2020-07-03 北京值得买科技股份有限公司 一种商品数据的显示方法、***、介质及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62212720A (ja) * 1986-03-14 1987-09-18 Hitachi Ltd 情報端末装置
JPH09305626A (ja) * 1996-05-20 1997-11-28 Toshiba Corp 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法
JPH10162010A (ja) * 1996-11-27 1998-06-19 Hitachi Ltd 文書検索システムにおける参照回数の表示方法
JP2001084256A (ja) * 1999-09-10 2001-03-30 Toshiba Corp データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2001134608A (ja) * 1999-11-09 2001-05-18 Ntt Data Corp 検索画面制御方法及び記録媒体
JP2002342328A (ja) * 2001-05-14 2002-11-29 Fuji Xerox Co Ltd 文書管理方法および装置
JP2003256534A (ja) * 2002-03-01 2003-09-12 Daito Kensetsu Fudosan Co Ltd 不動産物件検索装置、不動産物件検索システム及び不動産物件検索方法
JP2004234288A (ja) * 2003-01-30 2004-08-19 Nippon Telegr & Teleph Corp <Ntt> Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体
JP2005056218A (ja) * 2003-08-06 2005-03-03 Nippon Telegr & Teleph Corp <Ntt> 文書重要度判定装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62212720A (ja) * 1986-03-14 1987-09-18 Hitachi Ltd 情報端末装置
JPH09305626A (ja) * 1996-05-20 1997-11-28 Toshiba Corp 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法
JPH10162010A (ja) * 1996-11-27 1998-06-19 Hitachi Ltd 文書検索システムにおける参照回数の表示方法
JP2001084256A (ja) * 1999-09-10 2001-03-30 Toshiba Corp データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2001134608A (ja) * 1999-11-09 2001-05-18 Ntt Data Corp 検索画面制御方法及び記録媒体
JP2002342328A (ja) * 2001-05-14 2002-11-29 Fuji Xerox Co Ltd 文書管理方法および装置
JP2003256534A (ja) * 2002-03-01 2003-09-12 Daito Kensetsu Fudosan Co Ltd 不動産物件検索装置、不動産物件検索システム及び不動産物件検索方法
JP2004234288A (ja) * 2003-01-30 2004-08-19 Nippon Telegr & Teleph Corp <Ntt> Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体
JP2005056218A (ja) * 2003-08-06 2005-03-03 Nippon Telegr & Teleph Corp <Ntt> 文書重要度判定装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128806A (ja) * 2008-11-27 2010-06-10 Hitachi Ltd 情報分析装置
JP2012155468A (ja) * 2011-01-25 2012-08-16 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
JP2012164202A (ja) * 2011-02-08 2012-08-30 Denso It Laboratory Inc 関連度出力装置、関連度出力方法、およびプログラム
US8996359B2 (en) 2011-05-18 2015-03-31 Dw Associates, Llc Taxonomy and application of language analysis and processing
JP2013030042A (ja) * 2011-07-29 2013-02-07 Zenrin Co Ltd 電子書籍表示装置
US9269353B1 (en) 2011-12-07 2016-02-23 Manu Rehani Methods and systems for measuring semantics in communications
US9020807B2 (en) 2012-01-18 2015-04-28 Dw Associates, Llc Format for displaying text analytics results
WO2013109836A1 (en) * 2012-01-18 2013-07-25 Dw Associates, Llc Format for displaying text analytics results
US9667513B1 (en) 2012-01-24 2017-05-30 Dw Associates, Llc Real-time autonomous organization
JP2016541058A (ja) * 2013-11-27 2016-12-28 インテル コーポレイション 高詳細度のニュースマップ及び画像オーバーレイ
JP2019096248A (ja) * 2017-11-28 2019-06-20 富士ゼロックス株式会社 文書処理装置及びプログラム
JP2019139525A (ja) * 2018-02-09 2019-08-22 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
CN111368113A (zh) * 2020-02-21 2020-07-03 北京值得买科技股份有限公司 一种商品数据的显示方法、***、介质及设备
CN111368113B (zh) * 2020-02-21 2021-03-26 北京值得买科技股份有限公司 一种商品数据的显示方法、***、介质及设备

Similar Documents

Publication Publication Date Title
JP2007249322A (ja) 文書視覚化装置及び文書視覚化プログラム
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
JP2007527558A (ja) ウェブサイトなどの情報源によるナビゲーション
JP4860416B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
US6219665B1 (en) Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program
WO2007105759A1 (ja) 数式記述構造化言語オブジェクト検索システムおよび検索方法
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
JP5426868B2 (ja) 数値表現処理装置
JP5551025B2 (ja) 特許検索式生成装置、特許検索式生成方法、およびプログラム
Leidner An evaluation dataset for the toponym resolution task
JP2011154739A (ja) 文書探索サービス提供方法及びシステム
Leidner Towards a reference corpus for automatic toponym resolution evaluation
JP2002132791A (ja) 地名情報抽出装置、その抽出方法及び抽出プログラムを記録した記録媒体、地図情報検索装置
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2021144348A (ja) 情報処理装置及び情報処理方法
JP2005242416A (ja) 自然言語文の検索方法および検索装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP2003006221A (ja) 予測分析型検索システム、予測分析型検索方法およびコンピュータプログラム
JP2010205006A (ja) 未来表現収集システム、未来表現収集方法および未来表現収集用プログラム
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP4726683B2 (ja) 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP3445800B2 (ja) テキスト検索方法
JP2006277061A (ja) 知識検索システム、知識検索方法及びプログラム
JP5115631B2 (ja) 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110830