JP2007249322A - 文書視覚化装置及び文書視覚化プログラム - Google Patents
文書視覚化装置及び文書視覚化プログラム Download PDFInfo
- Publication number
- JP2007249322A JP2007249322A JP2006068655A JP2006068655A JP2007249322A JP 2007249322 A JP2007249322 A JP 2007249322A JP 2006068655 A JP2006068655 A JP 2006068655A JP 2006068655 A JP2006068655 A JP 2006068655A JP 2007249322 A JP2007249322 A JP 2007249322A
- Authority
- JP
- Japan
- Prior art keywords
- document
- attribute
- map
- electronic
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】文書収集部1が電子文書を収集する。文書属性抽出部2が電子文書から文書属性を抽出する。文書重要度算出部3が重要度算出ルールに基づき、その電子文書の文書重要度を算出する。キーワード・属性検索部6が文書属性抽出部2の抽出した文書属性から電子地図上の地名を持つ文書属性を検索し、ヒットした文書属性からその文書名、地名、重要度を抽出する。文書属性・地図対応付け部7が、その地名を緯度経度情報に変換する。表示処理部8がキーワード・属性検索部6の抽出した文書名、地名、重要度からなる地名毎の文書リストを重要度の順に並べて作成し、文書位置を示すとともに文書リストにリンクするマークと文書数とを緯度経度情報に基づき表示装置13において電子地図に重ねて表示する。
【選択図】図3
Description
電子文書を有しネットワークに接続する他の装置から前記ネットワークを介して前記電子文書を収集する文書収集部と、
前記文書収集部が収集した前記電子文書から前記電子文書中に存在する地名である文書側地名を含む文書属性を文書属性抽出ルールにしたがって抽出し、抽出した前記文書属性に前記電子文書の文書名を付与する文書属性抽出部と、
前記文書収集部が収集した前記電子文書の重要性の指標である文書重要度を文書重要度算出ルールにしたがって算出する文書重要度算出部と、
情報を記憶する記憶部と、
前記文書収集部が収集した前記電子文書と、前記文書属性抽出部が文書名を付与した前記文書属性と、前記文書重要度算出部が算出した前記文書重要度とをそれぞれ対応付けて前記記憶部に登録する文書登録部と、
電子地図であって複数の地名を地図側地名として有する複数の前記電子地図と、前記地図側地名を前記電子地図上の位置に変換する場合に使用する地名位置変換テーブルとを格納する電子地図格納部と、
情報を表示する表示装置と、
前記電子地図格納部が格納する複数の前記電子地図のそれぞれの地図名称を前記表示装置に選択可能に表示し、表示した前記地図名称の選択を受け付ける地図名称表示部と、
前記表示装置に表示された前記地図名称のうちのいずれかの選択を前記地図名称表示部が受け付けた場合に、前記地図名称表示部が選択を受け付けた前記地図名称に対応する前記電子地図である選択地図と前記記憶部に登録された前記文書属性とを参照することにより、前記記憶部に登録された前記文書属性の中から前記選択地図が有するいずれかの前記地図側地名を持つ前記文書側地名が含まれる前記文書属性を含有文書属性として検索し、検索の結果、前記含有文書属性がヒットした場合には、ヒットした前記含有文書属性から少なくとも前記文書名と前記文書側地名とを抽出するとともに前記文書登録部が前記含有文書属性に対応付けした前記文書重要度を前記記憶部から抽出する検索抽出部と、
前記電子地図格納部が格納する前記地名位置変換テーブルを用いることにより、前記検索抽出部が抽出した前記文書側地名が持つ前記地図側地名を前記選択地図上の位置に変換する地名位置変換部と、
前記検索抽出部が抽出した前記文書名と前記文書側地名と前記文書重要度とを含む前記文書側地名ごとの地名毎文書リストを生成するとともに前記地名位置変換部が変換した前記選択地図上の位置を前記選択地図に重ねて前記表示装置に選択可能に表示し、前記選択地図上の位置が選択された場合には、選択された前記選択地図上の位置に対応する前記地名毎文書リストを前記表示装置に表示する文書位置表示部と
を備えたことを特徴とする。
図1は、コンピュータである文書視覚化装置100の外観の一例を示す図である。図1において、文書視覚化装置100は、システムユニット830、CRT(Cathode・Ray・Tube)やLCD(液晶)の表示画面を有する表示装置813、キーボード814(Key・Board:K/B)、マウス815、FDD817(Flexible・Disk・ Drive)、コンパクトディスク装置818(CDD:Compact Disk Drive)、プリンタ装置819などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
(a)文書のタイトル、
(b)文書重要度、
(c)地名(後述の所在地)
を出力(抽出)する。なお、文書検索では文書DB11内の文書とキーワードを照合する。属性検索では属性検索条件と文書属性DB10を照合して、結果を出力する。
ここで文書属性とは、文書中に記述された組織名、人名、地名等の固有表現や、日付、長さ、重さ、状態のような項目(情報)であり、タグ付け可能な情報である。図5は、文書属性抽出部2による文書属性抽出手法を示すフローチャートである。図5を参照して文書属性抽出手法を説明する。
はじめにステップS210において、文書属性抽出部2は、入力された文書に対して「形態素解析処理」を行う。「形態素解析処理」は日本文解析の公知の技術であるので動作の詳細は省略する。形態素解析処理によって文書中の部分文字列を品詞に割当てる。
(1)付加情報1は、一般名詞、固有名詞、サ変接続名詞等の種類を格納する。
(2)付加情報2は、付加情報1が固有名詞の場合の詳細情報であって、人名、組織、地域等の種類を格納する。
(3)付加情報3は、付加情報2の詳細を格納する。付加情報2が人名の場合、付加情報3には「姓」「名」のいずれかが入る。
これら付加情報1〜3は、形態素解析で使用する形態素辞書(属性定義DB9が備える)に格納されている。
次にS220において、文書属性抽出部2は、文書属性抽出ルール照合処理を行う。文書属性抽出部2は、図7に示す形態素解析結果50に対して、属性定義DB9内の文書属性抽出ルールとの照合を行い、条件に一致する文字列を属性値として抽出する。
(1)「日付」、
(2)「所在地」、
(3)「組織名」、
(4)「社長」
の各属性に対する抽出方法を定義している。図8において、例えば、(1)「日付」は、二桁〜四桁の数字21、一桁〜二桁の数字23、一桁〜二桁の数字25、及び記号22、記号24との数字と記号との組み合せの定義、または数字と「年」「月」「日」の組合せであると定義する。前者の例は「2003/9/16」のような場合である。後者の例は、「2003年9月16日」のような場合である。また(4)「社長」は、品詞が[名詞−固有名詞―人名]であり、かつ、文字列「社長」の近くにある文字列と定義している。また、「組織名」に付加された「*」は、ユーザ定義による重要指定属性を示すものである。この重要指定属性は、後述する文書重要度の算出に使用される。
次にS230において、文書属性抽出部2は、電子文書から抽出した文書属性に文書名を付与したうえで出力する。以上が、図4のS200の具体的な動作である。
次に、図4のS300に示した文書重要度算出部3による文書重要度の算出について説明する。文書重要度算出部3は、文書属性抽出部2による属性抽出結果をもとに、文書重要度を算出する。重要度の算出ルールの一例を以下に説明する。ここで「文書重要度」とは、次の(1)〜(4)の基準の組合せにより算出する。
すなわち、
(1)文書の作成時期、
(2)文書の信頼性(後述の類似度による)、
(3)ユーザによる文書の参照回数、
(4)ユーザが重要と考える属性が文書中に含まれるか否か
の4つの基準である。
これは、
(1)作成時期は新しいほど情報としての価値が高く、
(2)内容が類似する文書が多く存在するほど信頼性が高く、
(3)参照回数が多いほど文書としての価値が高く、
(4)ユーザが重要と考える属性が文書中に多く含まれるほどユーザにとって価値の高い文書である、という知見のもとに算出する。
文書の作成時期の抽出は、文書中に記述されて文書属性抽出部2で抽出された日付属性の中から、文書内で最も新しいものを抽出する。但し、文書収集日よりも前の日付であることを前提とする。文書中に日付属性が存在しない場合は、文書収集部1が該文書を収集した日時を指定する。
内容が類似する文書数の算出は、類似度算出ルールに基づき、文書属性抽出部2が、抽出した文書属性が類似する文書の個数を算出することで得る。2文書間の類似度の算出は、属性を独立したベクトルとして文書をベクトルの和で表現し、2つのベクトル間の類似度を算出することで得る。文書aの文書属性ベクトルをaとし、文書bの文書属性ベクトルをbとする。この場合、文書aと文書bとの類似度dabは,次の(式1)で計算するものとする。
dab=(a・b)/(|a||b|) (式1)
文書重要度算出部3は、文書重要度を算出しようとする対象の電子文書(算出対象電子文書)と異なる電子文書が文書DB11に登録されている場合には、登録されている異なる電子文書について抽出されている文書属性を用いて、その異なる電子文書と算出対象電子文書との間の類似度を上記(式1)で算出する。例えば、算出対象電子文書の他に、他の電子文書が20個登録されているとする。その場合、文書重要度算出部3は、算出対象電子文書を他の20個の電子文書のそれぞれと(式1)を用いて類似度を算出する。この場合、類似度について予め閾値が定められているとする。文書重要度算出部3は、算出した類似度のうち、予め定義された閾値を超える類似度の個数を算出する。この閾値を超える個数により、文書重要度算出部3は、内容が類似する文書数を算出することができる。このように、文書重要度算出部3は、図9に示す抽出された文書属性60から作成した文書属性ベクトルと、文書属性DB10内に存在する各文書の文書属性から作成した文書属性ベクトルとからそれぞれの類似度をそれぞれ算出し、予め定義する個数を算出することで対象の電子文書と内容が類似する文書数を得ることができる。なお、ここでは文書を文書属性ベクトルで表現して2文書間の類似度を算出したが、2文書間の類似度算出方法はこれに限らず、例えば、形態素解析で得た単語から文書ベクトルを算出して文書間の類似度を算出してもよい。
ユーザによる文書の参照回数は、文書登録されユーザによって参照される毎に回数が増加するが、文書登録時には0である。
ユーザが重要と考える属性は、属性定義DB9内に予めユーザが「重要指定属性」として作成しておくことができる。これは、図8に示した「*」マークを付すことにより実現される。文書重要度算出部3は、抽出された文書属性の中から、「*」マークに対応して立てられる図9に示す重要指定属性の「フラグ」から、重要指定属性の個数を算出する。図9の例では、組織名に1つ抽出されている。
文書Diの重要度CDiの算出式を,上記説明した指標を用いて以下に示す。重要度CDiは、次の(式2)により算出する。
CDi=f(t,n,r,m) (式2)
t:文書の作成時期、
n:内容が類似する文書の個数、
r:参照回数、
m:取得した重要指定属性数、
等を表す。(式2)の関数fは、t、n、r、mの増加によって単調増加する関数である。これらは上記で説明した(1.文書の作成時期:t)〜(4.ユーザが重要と考える属性:m)である。
はじめにS500において、視覚化のための地図選択・表示を実行する。S500において、表示処理部8はユーザにより選択された電子地図を電子地図DB12から取得して画面に表示する。これを以下に具体的に説明する。
(1)キーワード入力枠71、
(2)検索開始ボタン72、
(3)視覚化のための地図選択リストボックス73が表示されている。地図選択リストボックス73には、図11に示す様に、電子地図DB12がもつ電子地図のそれぞれの地図名称が表示されている。図11では、地図選択リストボックス73には、「日本地図」、「関東」、「関西」等のそれぞれの地図名称が表示されている。表示処理部8は、これら地図種類をユーザによる選択可能に表示し、表示した地図種類の選択を受け付ける。ユーザは、いずれかの地図種類をマウス、キーボードのキーなどで選択する。
次にS600において、キーワード・属性検索部6が、空間属性・検索処理を実行する。ここで「空間属性」とは、地名を含む属性である。図9の場合を例にとれば、「所在地」がこれにあたる。
(1)「文書属性1:所在地:北海道札幌市〜」
(2)「文書属性2:所在地:東京都千代区〜」
(3)「文書属性3:所在地:東京都八王子市〜」
(4)「文書属性4:所在地:東京都新宿区〜」
(5)「文書属性5:所在地:大阪府大阪市〜」
(6)「文書属性6:所在地:大阪府堺市〜」
(7)「文書属性7:所在地:大阪府東大阪市〜」
(8)「文書属性8:所在地:福岡県北九州市〜」
(9)「文書属性9:所在地:福岡県福津市〜」
この場合、キーワード・属性検索部6は、文書属性1〜文書属性9の所在地(文書側地名)が都道府県名(地図側地名)を持つので、これらを検索し取得する。キーワード・属性検索部6は、「空間属性」である所在地(文書側地名)が「日本地図」(選択地図)の有する地名(地図側地名)を持つ場合には、その文書属性に関して、
(a)文書名と
(b)重要度と
(c)地名(所在地)と
を出力する。存在しない場合はそれを示すステータスを返す。すなわち、キーワード・属性検索部6は、検索の結果、含有文書属性がヒットした場合には、ヒットした含有文書属性から少なくとも文書名と所在地(文書側地名)とを抽出するとともに、文書登録部4が含有文書属性に対応付けした重要度を記憶部20の文書属性DB10から抽出する。
図13の「地名−緯度・経度変換テーブル81」を説明する。「地名−緯度・経度変換テーブル81」は、電子地図DB12が格納する電子地図のそれぞれが有する地名(地図側地名)について、その地名の緯度経度を持っている。
この「地名−緯度・経度変換テーブル81」では、
緯度が正の値の場合は北緯を示し、負の値の場合は南緯を示す。
経度が正の値の場合は東経を示し、負の値の場合は西経を示す。
一方、図12に示す選択地図である「日本地図」には、前述のように都道府県名のみが地名(地図側地名)として含まれている。よって、文書属性・地図対応付け部7は、図12の「日本地図」(選択地図)では、「千代田区」が一致せず、「東京都」のみと一致すると判定する。そこで、文書属性・地図対応付け部7は、文字列「東京都」と、「東京都」の緯度35.6850、経度139.7513を出力する。
次にS700の重要度ソートについて説明する。図14は、表示処理部8(文書位置表示部の一例)が生成した地名ごとの地名毎文書リストを示している。図14は、地名が東京都である地名毎文書リストを示している。図14に示すように、先ず表示処理部8(文書位置表示部)は、キーワード・属性検索部6が抽出した文書名と文書側地名と文書重要度とを含む文書側地名ごとの地名毎文書リストを生成する。そして、後述のように、表示処理部8(文書位置表示部)は、文書属性・地図対応付け部7によって変換された選択地図上の位置を選択地図に重ねて表示装置13に選択可能に表示する。そして、表示装置13の画面における選択地図上の前記位置が選択された場合には、選択された前記位置に対応する地名毎文書リストを表示装置13に表示する。図14では緯度経度も記載しているが、これは必須ではない。図14では例として東京都のみの結果を示しているが、北海道や、大阪府などの情報ある場合には「北海道についての地名毎文書リスト」、「大阪府についての地名毎文書リスト」が作成される。図14の地名毎文書リストの内容は、重要度がソートされたうえで、表示装置13の画面に表示される。表示処理部8(文書位置表示部)は、作成した地名毎文書リストに対して文書重要度のソート処理を行う。図15は、表示処理部8(文書位置表示部)が図14の地名毎文書リストを重要度の降順にソートした結果を示す。
次にS800において、表示処理部8(文書位置表示部)は表示画面作成処理を行う。表示処理部8(文書位置表示部)は、重要度のソート後におけるその地名毎文書リストに含まれる文書名の数を計数する。そして、選択地図に対する文書が存在することを示すマークおよび文書数を表示する位置を決定する。図16はこの様子を示している。例えばマーク31は東京都の位置を示し、「3件」とある表示は東京都についての地名毎文書リストに文書名が3件記載されていることを示している。すなわち表示処理部8(文書位置表示部)は、文書属性・地図対応付け部7(前記地名位置変換部)が変換した日本地図(選択地図)上の位置(図16のマーク31等)を日本地図(選択地図)に重ねて表示装置13に選択可能に表示する。表示位置の決定は、地名の緯度経度情報と選択地図の4隅(電子地図は、通常その4隅の緯度経度情報を算出可)の緯度経度情報から計算する。この結果として、図16は、日本地図(選択地図)に重ねて日本地図に対する文書が存在することを示すマークを日本地図に重ねて表示装置13に選択可能に表示した状態を示すものである。図16のマーク31は、図15の結果に対応する。図16では、東京都の他に、北海道、大阪府、福岡県に関してもそれぞれ地名毎文書が存在することを示している。すなわち、「北海道についての地名毎文書リスト」、「大阪府についての地名毎文書リスト」などが存在することを示す。表示処理部8(文書位置表示部)は、ユーザによりマーク31がクリック(選択)された場合に図15に示す東京の地名毎文書リストが表示装置13の画面に表示されるように、html形式でリンク先を対応付けて作成する。表示処理部8(文書位置表示部)は、日本地図(選択地図)上のマーク(位置)が選択された場合には、選択された日本地図(選択地図)上の位置に対応する地名毎文書リストを表示装置13に表示する。表示処理部8(文書位置表示部)は、地名毎文書リストを生成する場合には、文書重要度にしたがって重要性の高い順に文書名を前記地名毎文書リストに掲載している。また、地名毎文書リストの文書名は、記憶部20の文書DB11に格納されている電子文書とリンクされることにより地名毎文書リストの文書名から対応する電子文書を参照可能である。
(S500)
次に、地図を日本地図から東京に変更した場合の例を示す。S500において、図12に示した画面70で「東京」の地図名称を選択する。表示処理部8(地図種類表示部)は、選択された東京地方の地図を電子地図DB12から取得して画面70の空白部74に表示する。
S600では、上記「日本地図」の場合と同様に、キーワード・属性検索部6が文書属性DB10から空間属性(所在地)を保持する文書属性を取得し、選択地図上(この場合、東京の地図上)に地名が存在するか否かを判定する。存在する場合には文書名と文書重要度、地名(所在地)、緯度経度情報を出力する。また、文書属性・地図対応付け部7が「日本地図」の場合と同様に、地名(所在地)の持つ地図側地名を緯度経度に変換する。
以下同様に処理して抽出した結果を図17に示す。図17では、図15に対して、地名および緯度・経度が新宿区、千代田区、八王子と、東京地方の地図に存在する地名となっている。図18は、東京地方の地図にマークを重ねて表示した画面を示す。図18でユーザがいずれかのマークを選択するとそのマークに対応して「新宿についての地名毎リスト」、「千代田区についての地名毎リスト」、「八王子市についての地名毎リスト」のいずれかが画面に表示される。
(2)S1002は、収集された電子文書から電子文書中に存在する地名である文書側地名を含む文書属性を文書属性抽出ルールにしたがって抽出し、抽出した文書属性に前記電子文書の文書名を付与する処理である。
(3)S1003は、収集された電子文書の文書重要度を文書重要度算出ルールにしたがって算出する処理である。
(4)S1004は、収集された電子文書と、文書名が付与された文書属性と、算出された文書重要度とをそれぞれ対応付けて記憶部20に登録する処理である。
(5)S1005は、電子地図格納部80が格納する複数の電子地図のそれぞれの地図名称を表示装置13に選択可能に表示し、表示した地図名称の選択を受け付ける処理である。
(6)S1006は、表示装置13に表示された地図名称のうちのいずれかの選択が受け付けられた場合に、選択が受け付けられた地図名称に対応する電子地図である選択地図と記憶部20に登録された文書属性とを参照することにより、記憶部20に登録された文書属性の中から選択地図が有するいずれかの地図側地名を持つ文書側地名が含まれる文書属性を含有文書属性として検索し、検索の結果、含有文書属性がヒットした場合には、ヒットした含有文書属性から少なくとも文書名と文書側地名とを抽出するとともに含有文書属性に対応付けされた文書重要度を記憶部20から抽出する処理である。
(7)S1007は、電子地図格納部80が格納する地名−緯度・経度変換テーブル(地名位置変換テーブル)を用いることにより、抽出された文書側地名が持つ地図側地名を選択地図上の位置に変換する処理である。
(8)S1008は、抽出された文書名と文書側地名と文書重要度とを含む文書側地名ごとの地名毎文書リストを生成するとともに変換された選択地図上の位置を選択地図に重ねて表示装置13に選択可能に表示し、選択地図上の位置が選択された場合には、選択された前記選択地図上の位置に対応する地名毎文書リストを表示装置13に表示する処理である。
文書重要度は上述の(式2)で算出する。しかし、同じ文書でも、登録時に算出した文書重要度と登録後一定期間経過後に算出した文書重要度は異なる。(式2)のt、n、r、mが時間の経過により変動するからである。
具体的には(式2)の
t:文書の作成時期、
n:内容が類似する文書の個数、
r:参照回数、
m:取得した重要指定属性数、
に関しては、次のようなことがいえる。
(1)tは、文書作成日付に関する値である。登録時には日付が新しいために通常大きいが、一定期間後には過去の文書となるために小さくなる。
(2)nは、文書登録時において、類似文書がインターネットに多数存在してもこれらが未収集であると小さくなる。このために、類似文書であっても登録順序に依存して値が異なる。しかし一定期間後は、類似する文書が登録され、安定した値が出力される。
(3)rは、登録時においてはユーザが未参照であるので値は0である。しかし、検索され参照される回数が増加するほど値が増加する。
(4)mは、収集後にユーザが追加の文書属性を定義した場合などに変化することがある。このように重要度を算出する場合の変数t、n、r、m等は変化する。そこで、より精度の良い文書重要度を算出するために、収集済みの文書に対して定期的に文書重要度を更新する。その方法は、文書収集後一定期間毎に更新する方法でもよいし、文書の追加登録時に必ず更新するように変更してもよい。あるいは検索・閲覧される毎に更新する方法でもよい。
(1)参照回数カウント部14は、記憶部20の文書DB11に登録された電子文書の参照回数をカウントする。
(2)また、例えば属性定義DB9に格納された文書重要度算出ルールは、参照回数カウント部14がカウントした電子文書の参照回数に基づいて参照に係る電子文書の文書重要度を算出して更新するべきことを定めている。
(3)文書重要度算出部3は、この文書重要度算出ルールにしたがって、参照回数カウント部14がカウントした電子文書の参照回数に基づいて参照に係る電子文書の文書重要度を算出して更新する。
(4)キーワード・属性検索部は、文書重要度算出部3により重要度が更新された場合には、更新後の重要度を記憶部20の文書属性DB10から抽出し、実施の形態1で説明した処理を実行する。
実施の形態1及び実施の形態2では、主に日本語の文書に対する解析・視覚化例を示した。実施の形態では、日本語以外の文書にも対応可能な実施形態を説明する。
属性検索では、地図側地名を文書側地名の表記と共通(この例では英語)で持つことで属性検索可能となる。
文書検索・視覚化画面を表示する表示手段とを備える文書解析・文書視覚化装置を説明した。
Claims (7)
- 電子文書を有しネットワークに接続する他の装置から前記ネットワークを介して前記電子文書を収集する文書収集部と、
前記文書収集部が収集した前記電子文書から前記電子文書中に存在する地名である文書側地名を含む文書属性を文書属性抽出ルールにしたがって抽出する文書属性抽出部と、
前記文書収集部が収集した前記電子文書から文書の重要性の指標である文書重要度を文書重要度算出ルールにしたがって算出する文書重要度算出部と、
情報を記憶する記憶部と、
前記文書収集部が収集した前記電子文書と、前記文書属性抽出部が抽出した前記文書属性と、前記文書重要度算出部が算出した前記文書重要度とをそれぞれ対応付けて前記記憶部に登録する文書登録部と、
電子地図であって地名を地図側地名として対応付けた前記電子地図と、前記地図側地名から前記電子地図上の位置を決定するための地名位置変換テーブルとを格納する電子地図格納部と、
情報を表示する表示装置と、
地図側地名と前記文書属性を照合し、前記文書属性が一致する文書の前記文書属性から少なくとも前記文書側地名を抽出するとともに前記文書登録部が前記文書属性に対応付けした前記文書重要度を前記記憶部から抽出する検索抽出部と、
前記電子地図格納部が格納する前記地名位置変換テーブルを用いることにより、前記検索抽出部が抽出した前記文書側地名が持つ前記地図側地名から地図上の位置を決定する地名位置変換部と、
文書名と前記検索抽出部が抽出した前記文書側地名とを含む前記文書側地名ごとの地名毎文書リストを生成するとともに地図上の位置に重ねて前記表示装置に選択可能に表示し、前記選択地図上の位置が選択された場合には、選択された前記選択地図上の位置に対応する前記地名毎文書リストを前記表示装置に表示する文書位置表示部と
を備えたことを特徴とする文書視覚化装置。 - 前記文書位置表示部は、
前記地名毎文書リストを生成する場合に、前記文書重要度にしたがって重要性の高い順に前記文書名を前記地名毎文書リストに掲載することを特徴とする請求項1記載の文書視覚化装置。 - 前記文書属性抽出ルールは、
前記文書側地名に加え、少なくとも、前記電子文書が作成された日付を示す日付属性と、重要と指定された所定の属性である重要指定属性とを含む前記文書属性を前記電子文書から抽出するべきことを定めており、
前記文書属性抽出部は、
前記文書属性抽出ルールにしたがって、前記文書収集部が収集した前記電子文書から前記文書側地名と、前記日付属性と、前記重要指定属性とを含む前記文書属性を前記電子文書から抽出し、
前記文書重要度算出部は、
前記文書重要度を算出する算出対象電子文書と、他の電子文書との類似度を所定の類似度算出ルールに基づき算出し、算出した前記類似度と前記文書属性抽出部が抽出した前記日付属性と前記重要指定属性とに基づいて、前記算出対象電子文書の前記文書重要度を算出することを特徴とする請求項1または2いずれかに記載の文書視覚化装置。 - 前記地名毎文書リストの前記文書名は、
前記記憶部に記憶されている前記電子文書とリンクされることにより前記地名毎文書リストの前記文書名から対応する前記電子文書を参照可能であることを特徴とする請求項1または2いずれかに記載の文書視覚化装置。 - 前記文書視覚化装置は、さらに、
前記記憶部に登録される前記電子文書の参照回数をカウントする参照回数カウント部を備え、
前記文書重要度算出ルールは、
前記参照回数カウント部がカウントした前記電子文書の参照回数に基づいて参照に係る前記電子文書の文書重要度を算出して更新するべきことを定め、
前記文書重要度算出部は、
前記文書重要度算出ルールにしたがって、前記参照回数カウント部がカウントした前記電子文書の参照回数に基づいて参照に係る前記電子文書の前記文書重要度を算出して更新し、
前記検索抽出部は、
前記文書重要度算出部により前記文書重要度が更新された場合には、更新後の前記文書重要度を前記記憶部から抽出することを特徴とする請求項4記載の文書視覚化装置。 - 前記文書属性抽出部は、
前記文書収集部が収集した前記電子文書がいかなる言語で記述されているかを判定し、判定した言語に応じた前記文書属性抽出ルールにしたがうことにより前記文書属性を抽出することを特徴とする請求項1または2いずれかに記載の文書視覚化装置。 - 情報を記憶する記憶部と、
電子地図であって地名を地図側地名として対応付けた前記電子地図と前記地図側地名から前記電子地図上の位置を決定するための地名位置変換テーブルとを格納する電子地図格納部と、
情報を表示する表示装置と
を備えたコンピュータに以下の処理を実行させることを特徴とする文書視覚化プログラム
(1)電子文書を収集する処理
(2)収集した前記電子文書から前記電子文書中に存在する地名である文書側地名を含む文書属性を文書属性抽出ルールにしたがって抽出する処理
(3)収集した前記電子文書の重要性の指標である文書重要度を文書重要度算出ルールにしたがって算出する処理
(4)収集した前記電子文書と、前記文書属性と、算出された前記文書重要度とをそれぞれ対応付けて前記記憶部に登録する処理
(5)地図側地名と前記文書属性を照合し、一致する前記含有文書属性から前記文書側地名とを抽出するとともに前記含有文書属性に対応付けされた前記文書重要度を前記記憶部から抽出する処理
(6)前記電子地図格納部が格納する前記地名位置変換テーブルを用いることにより、抽出された前記文書側地名が持つ前記地図側地名から地図上の位置を決定する処理
(7)抽出された前記文書側地名と前記文書重要度とを含む前記文書側地名ごとの文書リストを生成するとともに地図上の位置を地図に重ねて前記表示装置に選択可能に表示し、選択された位置に対応する前記地名毎文書リストを前記表示装置に表示する処理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006068655A JP2007249322A (ja) | 2006-03-14 | 2006-03-14 | 文書視覚化装置及び文書視覚化プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006068655A JP2007249322A (ja) | 2006-03-14 | 2006-03-14 | 文書視覚化装置及び文書視覚化プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007249322A true JP2007249322A (ja) | 2007-09-27 |
Family
ID=38593591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006068655A Pending JP2007249322A (ja) | 2006-03-14 | 2006-03-14 | 文書視覚化装置及び文書視覚化プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007249322A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010128806A (ja) * | 2008-11-27 | 2010-06-10 | Hitachi Ltd | 情報分析装置 |
JP2012155468A (ja) * | 2011-01-25 | 2012-08-16 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法、文書検索プログラム |
JP2012164202A (ja) * | 2011-02-08 | 2012-08-30 | Denso It Laboratory Inc | 関連度出力装置、関連度出力方法、およびプログラム |
JP2013030042A (ja) * | 2011-07-29 | 2013-02-07 | Zenrin Co Ltd | 電子書籍表示装置 |
WO2013109836A1 (en) * | 2012-01-18 | 2013-07-25 | Dw Associates, Llc | Format for displaying text analytics results |
US8996359B2 (en) | 2011-05-18 | 2015-03-31 | Dw Associates, Llc | Taxonomy and application of language analysis and processing |
US9269353B1 (en) | 2011-12-07 | 2016-02-23 | Manu Rehani | Methods and systems for measuring semantics in communications |
JP2016541058A (ja) * | 2013-11-27 | 2016-12-28 | インテル コーポレイション | 高詳細度のニュースマップ及び画像オーバーレイ |
US9667513B1 (en) | 2012-01-24 | 2017-05-30 | Dw Associates, Llc | Real-time autonomous organization |
JP2019096248A (ja) * | 2017-11-28 | 2019-06-20 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
JP2019139525A (ja) * | 2018-02-09 | 2019-08-22 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
CN111368113A (zh) * | 2020-02-21 | 2020-07-03 | 北京值得买科技股份有限公司 | 一种商品数据的显示方法、***、介质及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62212720A (ja) * | 1986-03-14 | 1987-09-18 | Hitachi Ltd | 情報端末装置 |
JPH09305626A (ja) * | 1996-05-20 | 1997-11-28 | Toshiba Corp | 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 |
JPH10162010A (ja) * | 1996-11-27 | 1998-06-19 | Hitachi Ltd | 文書検索システムにおける参照回数の表示方法 |
JP2001084256A (ja) * | 1999-09-10 | 2001-03-30 | Toshiba Corp | データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP2001134608A (ja) * | 1999-11-09 | 2001-05-18 | Ntt Data Corp | 検索画面制御方法及び記録媒体 |
JP2002342328A (ja) * | 2001-05-14 | 2002-11-29 | Fuji Xerox Co Ltd | 文書管理方法および装置 |
JP2003256534A (ja) * | 2002-03-01 | 2003-09-12 | Daito Kensetsu Fudosan Co Ltd | 不動産物件検索装置、不動産物件検索システム及び不動産物件検索方法 |
JP2004234288A (ja) * | 2003-01-30 | 2004-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体 |
JP2005056218A (ja) * | 2003-08-06 | 2005-03-03 | Nippon Telegr & Teleph Corp <Ntt> | 文書重要度判定装置 |
-
2006
- 2006-03-14 JP JP2006068655A patent/JP2007249322A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62212720A (ja) * | 1986-03-14 | 1987-09-18 | Hitachi Ltd | 情報端末装置 |
JPH09305626A (ja) * | 1996-05-20 | 1997-11-28 | Toshiba Corp | 検索文書作成装置、検索文書記憶メディア、文書検索装置及び文書検索方法 |
JPH10162010A (ja) * | 1996-11-27 | 1998-06-19 | Hitachi Ltd | 文書検索システムにおける参照回数の表示方法 |
JP2001084256A (ja) * | 1999-09-10 | 2001-03-30 | Toshiba Corp | データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP2001134608A (ja) * | 1999-11-09 | 2001-05-18 | Ntt Data Corp | 検索画面制御方法及び記録媒体 |
JP2002342328A (ja) * | 2001-05-14 | 2002-11-29 | Fuji Xerox Co Ltd | 文書管理方法および装置 |
JP2003256534A (ja) * | 2002-03-01 | 2003-09-12 | Daito Kensetsu Fudosan Co Ltd | 不動産物件検索装置、不動産物件検索システム及び不動産物件検索方法 |
JP2004234288A (ja) * | 2003-01-30 | 2004-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Web検索方法及び装置、Web検索プログラム並びにそのプログラムを記録した記録媒体 |
JP2005056218A (ja) * | 2003-08-06 | 2005-03-03 | Nippon Telegr & Teleph Corp <Ntt> | 文書重要度判定装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010128806A (ja) * | 2008-11-27 | 2010-06-10 | Hitachi Ltd | 情報分析装置 |
JP2012155468A (ja) * | 2011-01-25 | 2012-08-16 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法、文書検索プログラム |
JP2012164202A (ja) * | 2011-02-08 | 2012-08-30 | Denso It Laboratory Inc | 関連度出力装置、関連度出力方法、およびプログラム |
US8996359B2 (en) | 2011-05-18 | 2015-03-31 | Dw Associates, Llc | Taxonomy and application of language analysis and processing |
JP2013030042A (ja) * | 2011-07-29 | 2013-02-07 | Zenrin Co Ltd | 電子書籍表示装置 |
US9269353B1 (en) | 2011-12-07 | 2016-02-23 | Manu Rehani | Methods and systems for measuring semantics in communications |
US9020807B2 (en) | 2012-01-18 | 2015-04-28 | Dw Associates, Llc | Format for displaying text analytics results |
WO2013109836A1 (en) * | 2012-01-18 | 2013-07-25 | Dw Associates, Llc | Format for displaying text analytics results |
US9667513B1 (en) | 2012-01-24 | 2017-05-30 | Dw Associates, Llc | Real-time autonomous organization |
JP2016541058A (ja) * | 2013-11-27 | 2016-12-28 | インテル コーポレイション | 高詳細度のニュースマップ及び画像オーバーレイ |
JP2019096248A (ja) * | 2017-11-28 | 2019-06-20 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
JP2019139525A (ja) * | 2018-02-09 | 2019-08-22 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
CN111368113A (zh) * | 2020-02-21 | 2020-07-03 | 北京值得买科技股份有限公司 | 一种商品数据的显示方法、***、介质及设备 |
CN111368113B (zh) * | 2020-02-21 | 2021-03-26 | 北京值得买科技股份有限公司 | 一种商品数据的显示方法、***、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007249322A (ja) | 文書視覚化装置及び文書視覚化プログラム | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
JP2007527558A (ja) | ウェブサイトなどの情報源によるナビゲーション | |
JP4860416B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
US6219665B1 (en) | Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program | |
WO2007105759A1 (ja) | 数式記述構造化言語オブジェクト検索システムおよび検索方法 | |
JP3803961B2 (ja) | データベース生成装置、データベース生成処理方法及びデータベース生成プログラム | |
JP5426868B2 (ja) | 数値表現処理装置 | |
JP5551025B2 (ja) | 特許検索式生成装置、特許検索式生成方法、およびプログラム | |
Leidner | An evaluation dataset for the toponym resolution task | |
JP2011154739A (ja) | 文書探索サービス提供方法及びシステム | |
Leidner | Towards a reference corpus for automatic toponym resolution evaluation | |
JP2002132791A (ja) | 地名情報抽出装置、その抽出方法及び抽出プログラムを記録した記録媒体、地図情報検索装置 | |
JP2010092357A (ja) | 施設関連情報検索方法および施設関連情報検索システム | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2021144348A (ja) | 情報処理装置及び情報処理方法 | |
JP2005242416A (ja) | 自然言語文の検索方法および検索装置 | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
JP2003006221A (ja) | 予測分析型検索システム、予測分析型検索方法およびコンピュータプログラム | |
JP2010205006A (ja) | 未来表現収集システム、未来表現収集方法および未来表現収集用プログラム | |
JP2006155275A (ja) | 情報抽出方法及び情報抽出装置 | |
JP4726683B2 (ja) | 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP3445800B2 (ja) | テキスト検索方法 | |
JP2006277061A (ja) | 知識検索システム、知識検索方法及びプログラム | |
JP5115631B2 (ja) | 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110213 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110830 |