JP4333229B2 - 固有表現文字列の評価装置および評価方法 - Google Patents

固有表現文字列の評価装置および評価方法 Download PDF

Info

Publication number
JP4333229B2
JP4333229B2 JP2003178336A JP2003178336A JP4333229B2 JP 4333229 B2 JP4333229 B2 JP 4333229B2 JP 2003178336 A JP2003178336 A JP 2003178336A JP 2003178336 A JP2003178336 A JP 2003178336A JP 4333229 B2 JP4333229 B2 JP 4333229B2
Authority
JP
Japan
Prior art keywords
document
documents
weight
identifier
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003178336A
Other languages
English (en)
Other versions
JP2005018157A (ja
Inventor
宏行 大沼
佳孝 濱口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003178336A priority Critical patent/JP4333229B2/ja
Priority to US10/766,489 priority patent/US20040260697A1/en
Publication of JP2005018157A publication Critical patent/JP2005018157A/ja
Application granted granted Critical
Publication of JP4333229B2 publication Critical patent/JP4333229B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,固有表現文字列の評価装置および評価方法に関するものである。
【0002】
【従来の技術】
従来,インターネット等のネットワークに公開されている大量の文書の中から特定の情報を効率よく,かつ,高精度に検索するために,ユーザが検索システムに入力した検索キーワードに,この検索キーワードに関連するキーワード(関連キーワード)を組み合わせる手法が広く用いられている。この手法は,「ユーザは必ずしも適切な検索キーワードを想起できるとは限らない」という観点から構築されたものである。
【0003】
下記の特許文献1には,複数の文書中に出現する単語の統計情報に基づき,関連キーワードを抽出する装置が開示されている。この関連キーワードの抽出処理には,文書重み,出現位置,単語長,単語種別,文字列一致状況,TF(Term Frequency)/IDF(Inverse Document Frequency)などの各種パラメータが用いられる。そして,特許文献1に記載の装置によれば,複数の文書から成る文書集合において,出現数が多い名前で特定される人物は,重要人物であると判断されることになる。
【0004】
【特許文献1】
特開平11−25108号公報
【0005】
【発明が解決しようとする課題】
しかしながら,文書集合の中に記載されている人物の名前を表す文字列(単語)の重要度,換言すればその人物の重要度について,その文字列の出現数だけで評価することは正確性に欠ける場合がある。例えば,インターネットに公開されているある研究室のホームページに,その研究室に所属する人物の名前が頻出することは当然である。したがって,特定の研究室のホームページを構成する文書集合に同じ人物名が繰り返し出現したとしても,その人物の重要度が高いとは限らない。
【0006】
本発明は,上記のような問題点に鑑みてなされたものであり,その目的は,文書集合に記載されている固有表現文字列の重要度等を正確に評価することが可能な,新規かつ改良された固有表現文字列の評価装置および評価方法を提供することにある。
【0007】
【課題を解決するための手段】
上記課題を解決するために,本発明の第1の観点によれば,文書に含まれる固有表現文字列に評価値を付与する評価装置が提供される。そして,この評価装置は,評価値を付与する対象の固有表現文字列を含む複数の文書の相互間の関連度を定義し,当該関連度に基づいて,各文書の重み値を計算する文書重み計算部と,各文書の重み値を用いた演算処理を行うことによって,固有表現文字列の評価値を算出する評価値計算部とを備えたことを特徴としている。
【0008】
かかる装置によれば,例えば,他の文書と関連性の低い文書の重み値を大きく設定し,重み値の大きい文書に記載されている固有表現文字列に対して高い評価値を与えることが可能となる。したがって,ある固有表現文字列が多くの文書に記載されていても,その固有表現文字列に高い評価値が付与されるとは限らなくなる。むしろ,他の文書と関連性の低い独立した文書に記載されている固有表現文字列に高い評価値が付与されることになる。
【0009】
複数の文書は,木構造下で管理され,文書重み計算部は,木構造における各文書の存在位置に応じて各文書間の関連度を定義することが好ましい。これによって,各文書間の関連度が定量的に定義され,結果として,固有表現文字列に付与される評価値の精度が向上する。
【0010】
文書重み計算部は,一の文書と他の一の文書に共通する木構造の節点の数に応じて,および/または,一の文書と他の一の文書の間に存在する木構造の枝の数に応じて,当該一の文書と当該他の一の文書の重み値を増減することが好ましい。また,文書重み計算部は,一の文書と他の一の文書が異なる木構造下で管理されている場合,当該一の文書と当該他の一の文書の重み値を最大または最小とすることが好ましい。
【0011】
文書重み計算部は,各文書間の関連度を定義するために,各文書間の参照関係を用いるようにしてもよい。この場合,文書重み計算部は,直接的または間接的に一の文書と他の一の文書の両方を参照する第三の文書が存在するか否かに応じて,および/または,直接的または間接的に一の文書が他の一の文書を参照しているか否かに応じて,当該一の文書と当該他の一の文書の重み値を増減することが好ましい。また,文書重み計算部は,直接的または間接的に一の文書を参照する他の文書が存在しない場合,当該一の文書の重み値を最大(場合によっては最小)とすることが好ましい。
【0012】
さらに,本発明にかかる固有表現文字列の評価装置は,複数の文書を収集する文書収集部と,文書収集部によって収集された文書の相互間の関連度を記憶する文書関連度記憶部とを備えることを特徴としている。この構成によれば,固有表現文字列の評価値を効率よく短時間で算出することが可能となる。
【0013】
また,上記課題を解決するために,本発明の第2の観点によれば,文書に含まれる固有表現文字列に評価値を付与する評価方法が提供される。そして,この評価方法は,評価値を付与する対象の固有表現文字列を含む複数の文書の相互間の関連度を定義し,当該関連度に基づいて,各文書の重み値を計算する文書重み計算工程と,各文書の重み値を用いた演算処理を行うことによって,固有表現文字列の評価値を算出する評価値計算工程とを備えたことを特徴としている。
【0014】
かかる方法によれば,他の文書と関連性の低い独立した文書に記載されている固有表現文字列に高い評価値を付与することが可能となる。
【0015】
さらに,本発明にかかる固有表現文字列の評価方法は,複数の文書を収集する文書収集工程と,文書収集工程において収集された文書の相互間の関連度を記憶する文書関連度記憶工程とを備えることを特徴としている。そして,文書収集工程と文書関連度記憶工程は,少なくとも文書重み計算工程よりも前に行われることが好ましい。この方法によれば,固有表現文字列の評価値を効率よく短時間で算出することが可能となる。
【0016】
なお,本発明において,「固有表現」には,組織名(会社名,団体名など),人名,地名などの固有名詞,製品名,サービス名などの一般名詞,これら名詞と形容詞の組み合わせ,および品詞の分類が困難な新語などが含まれる。
【0017】
【発明の実施の形態】
以下に添付図面を参照しながら,本発明にかかる固有表現文字列の評価装置および評価方法の好適な実施の形態について詳細に説明する。なお,以下の説明および添付された図面において,略同一の機能および構成を有する要素については,同一符号を付することによって重複説明を省略する。
【0018】
<第1の実施の形態>
本発明の第1の実施の形態にかかる固有表現文字列の評価装置としての単語重要度判定装置100は,ユーザから検索キーワードを受け付けて,この検索キーワードに関連する1または2以上の固有表現文字列(ここでは「人名」)を抽出するものである。そして,この単語重要度判定装置100は,抽出した固有表現文字列の重要度(評価値)を判定し,ユーザに与える機能を有しており,図1に示すように,入力部110,文書検索部120,単語情報記憶部130,単語取得部140,位置情報記憶部150,単語重要度決定部160,および出力部170から構成されている。また,単語重要度決定部160は,位置関係計算部(文書重み計算部)162および重要度計算部(評価値計算部)166から構成されている。
【0019】
入力部110は,ユーザからの検索要求として,検索キーワードを受け付ける。以下,検索キーワードが「燃料電池」である場合に即して説明する。なお,入力部110は,単語の他,熟語や自然文を検索キーワードとして受け付けることが可能である。
【0020】
文書検索部120は,ネットワーク900に公開されている全ての文書または所定のカテゴリに属する文書の中から検索キーワードに適合する(検索キーワードが記載された)1または2以上の文書を検索し,各文書の識別子を出力する。なお,ネットワーク900は,インターネットのようなパブリックなネットワークでもよいし,イントラネットのようなローカルなネットワークでもよい。
【0021】
単語情報記憶部130は,ユーザが入力部110に検索キーワードを入力した時点で既に,ネットワーク900に公開されている全ての文書または所定のカテゴリに属する文書の中に出現する単語(または文字列)に関する情報(単語名,単語種別など)を格納している。例えば,単語情報記憶部130は,図2に示すように,文書識別子と単語情報をテーブル形式で保持する。単語情報は,単語と,その単語の種別から構成される。単語種別として,人名,組織名,役職,場所名などが用いられる。
【0022】
単語取得部140は,文書検索部120によって検索された文書の識別子のリストを文書検索部120から受け取る。そして,単語取得部140は,識別子のリストを用いて単語情報記憶部130を参照し,各識別子で識別される各文書に含まれる所定の種別の単語(ここでは「人名」)を取得する。
【0023】
位置情報記憶部150は,ユーザが入力部110に検索キーワードを入力した時点で既に,ネットワーク900に公開されている全ての文書または所定のカテゴリに属する文書の位置情報を格納している。例えば,ネットワーク900がインターネットである場合,位置情報記憶部150に格納される各文書の位置情報としては,図3に示すように,各文書のURL(Uniform Resource Locator)を用いることが好ましい。
【0024】
なお,単語情報記憶部130に格納される単語に関する情報および位置情報記憶部150に格納される各文書の位置情報は,例えば,WWW(World Wide Web)上から文書を収集するロボット(図示せず)と,収集した文書から人名や組織名等の固有表現文字列(例えば,固有名詞)を抽出する固有表現抽出装置(図示せず)によって取得可能である。文書に記載されている文字列の中から固有名詞等の固有表現文字列を抽出するためには,例えば,下記の文献に記載されている装置を利用することができる。
【0025】
福本淳一,下畑光夫,桝井文人,「固有名詞抽出における日本語と英語の比較」,『信学技報(TECHNICAL REPORT OF IEICE)』,NLC98‐21(1998−07)
【0026】
単語重要度決定部160は,単語取得部140が取得した各人名について重要度を決定する。
【0027】
各人名の重要度を決定するために,単語重要度決定部160に属する位置関係計算部162は,位置情報記憶部150に格納されている各文書のURLを参照して,各人名が記載されている各文書間の位置関係(関連度)を算出し,さらに各文書の重みを算出する。この位置関係計算部162の動作の詳細については後述する。
【0028】
単語重要度決定部160に属する重要度計算部166は,位置関係計算部162によって計算された各文書の重みに基づいて,各人名の重要度を決定する。この重要度計算部166の動作の詳細についても後述する。
【0029】
以上のように構成された本実施の形態にかかる単語重要度判定装置100の動作について,図4〜図8を参照しながら説明する。
【0030】
図4は,本実施の形態にかかる単語重要度判定装置100の全体的な動作フローを示している。また,図5と図6は,位置関係計算部162の動作(ステップS120)の詳細フローを示しており,図7は,重要度計算部166の動作(ステップS130)の詳細フローを示している。
【0031】
以下,検索キーワード「燃料電池」に関連する人物であって最も重要な人物を,ネットワーク900に公開されている複数の文書の中から抽出する場合に即して,本実施の形態にかかる単語重要度判定装置100の動作を説明する。
【0032】
(ステップS100)
まず,入力部110に対して検索キーワード「燃料電池」が入力されると,文書検索部120は,ネットワーク900に公開されている複数の文書の中から,この検索ワード「燃料電池」が記載されている文書を検索する。例えば,ネットワーク900に公開されている文書(文書集合)が図2に示した6つの文書(識別子doc1〜doc6)の場合,文書(識別子doc3)を除く5つの文書(識別子doc1,doc2,doc4,doc5,doc6)が検索キーワード「燃料電池」に適合する。文書検索部120は,検索した文書の識別子doc1,doc2,doc4,doc5,doc6をリスト形式で単語取得部140に与える。
【0033】
(ステップS110)
次に,単語取得部140は,単語情報記憶部130に記憶されている単語情報(図2)を参照する。そして,単語取得部140は,文書検索部120から与えられたリストを構成する識別子doc1,doc2,doc4,doc5,doc6の文書を選択し,これらの文書に記載されている単語のうち単語種別が「人名」である単語を取得する。
【0034】
例えば,単語情報記憶部130が図2に示した単語情報を格納している場合,単語取得部140は,識別子doc1,doc2,doc6の文書からそれぞれ「田中太郎」を取得し,識別子doc4,doc5の文書からそれぞれ「佐藤花子」を取得する。
【0035】
単語取得部140は,各文書から人名を取得した後,パターンマッチング法を用いて,人名を表す文字列が一致するものをまとめて,「人名−当該人名を含む文書の識別子のリスト」という形式で出力する。出力例は次の通りである。
【0036】
「田中太郎」−doc1,doc2,doc6
「佐藤花子」−doc4,doc5
【0037】
(ステップS120)
次いで,単語重要度決定部160に属する位置関係計算部162は,単語取得部140が出力したリストに基づいて,人名ごとに,当該人名が記載されている複数の文書の位置関係を算出する。
【0038】
人名「田中太郎」については,上記の3つの識別子doc1,doc2,doc6の文書が該当するため,次の3種類の組み合わせの文書間の位置関係が計算される。
【0039】
(1)識別子doc1の文書と識別子doc2の文書
(2)識別子doc2の文書と識別子doc6の文書
(3)識別子doc6の文書と識別子doc1の文書
【0040】
人名「佐藤花子」については,上記の2つの識別子doc4,doc5の文書が記載文書に該当するため,次の1種類の組み合わせの文書間の位置関係が計算される。
【0041】
(1)識別子doc4の文書と識別子doc5の文書
【0042】
位置関係計算部162は,文書の各組み合わせの位置関係に基づいて,各文書に最も距離的に近い文書(以下,「近接文書」という)を決定する。
【0043】
本実施の形態において,各文書は,ネットワーク900においてディレクトリ構造(木構造)下で管理されており,2つの文書間の「距離」とは,ディレクトリを基準として定義される両文書のデータ管理上の間隔を意味する。そして,本実施の形態によれば,2つの文書間の「位置関係」は,「両文書の関係タイプ(以下,『関係タイプ』という)」,「両文書に共通するディレクトリの深さ(以下,『共通ディレクトリ深さ』という)」,および「一の文書の格納位置から他の文書の格納位置へ移動するときに経由するディレクトリ数(以下,『経由ディレクトリ数』という)」の3つの属性を有する。
【0044】
各文書の位置関係について,木構造によるデータ管理の面から説明すると次の通りである。2つの文書はそれぞれ2つの「葉」に位置し,「共通ディレクトリ深さ」は,2つの葉に共通する「節点」の数に相当する。また,「経由ディレクトリ数」は,2つの葉の間に存在する「枝」の数に相当する。
【0045】
次に,「関係タイプ」,「共通ディレクトリ深さ」,および「経由ディレクトリ数」の各属性について説明する。
【0046】
属性「関係タイプ」を決定するにあたり,両文書のURLが用いられる。そして,この属性「関係タイプ」が取り得る値は,「無関係」,「ドメイン一致」,「サブドメイン一致」,または「ホスト一致」のいずれかである。なお,「無関係」の場合は,属性「関係タイプ」には,null(空値)がセットされる。
【0047】
属性「関係タイプ」の設定について具体例を用いて説明する。ある文書(仮に「文書A」とする)のURLが, "http://www.sub1.aa.co.jp/bb/cc/doc_A.html" である場合を考える。このURLにおいて,
"www" はマシン名であり, "sub1" はサブドメイン名であり, "aa.co.jp" はドメイン名であり,
"bb/cc/" はディレクトリ名であり, "doc_A.html" はファイル名(文書名)である。そして,比較対象の文書(仮に「文書B」とする)のURLに応じて,次のように文書Aと文書Bの関係タイプが決定される。
【0048】
(ケース1)
文書Bが属するドメインが,文書Aが属するドメインと異なる場合,文書Bは,文書Aから基準よりも離れた位置に存在すると判断され,属性「関係タイプ」には,nullがセットされる。例えば,文書BのURLが
"http://www.sub1.dd.co.jp/bb/cc/doc_B.html" の場合,この「関係タイプ = null」に該当する。本実施の形態において,文書Bが属するドメインが,文書Aが属するドメインと異なる場合,これらの文書は異なる木構造下で管理されているものとする。
【0049】
(ケース2)
文書Bが,文書Aと同じドメインに属するが,異なるサブドメインに属する場合,属性「関係タイプ」には,”ドメイン一致”がセットされる。例えば,文書BのURLが
"http://www.sub2.aa.co.jp/bb/cc/doc_B.html" の場合,あるいは
"http://www.aa.co.jp/bb/cc/doc_B.html" (サブドメインなし)の場合,この「関係タイプ = ”ドメイン一致”」に該当する。
【0050】
(ケース3)
文書Bが,文書Aと同じドメインに属し,かつ,同じサブドメインに属するが,異なるサーバ(マシン)に格納されている場合,属性「関係タイプ」には,”サブドメイン一致”がセットされる。例えば,文書BのURLが
"http://www2.sub1.aa.co.jp/bb/cc/doc_B.html" の場合,この「関係タイプ =”サブドメイン一致”」に該当する。なお,比較する文書の各URLにサブドメイン名が含まれない場合も,両文書は,同じサブドメインに属していると考える。例えば,文書AのURLが
"http://www.aa.co.jp/bb/cc/doc_A.html" であり,文書BのURLが
"http://www2.aa.co.jp/bb/cc/doc_B.html" の場合,双方のURLはサブドメインがない点で一致し,文書Aと文書Bの関係タイプは,”サブドメイン一致”に該当する。
【0051】
(ケース4)
文書Bが,文書Aと同じドメインに属し,かつ,同じサブドメインに属し,しかも同じサーバ(マシン)に格納されている場合,属性「関係タイプ」には,”ホスト一致”がセットされる。例えば,文書BのURLが "http://www.sub1.aa.co.jp/bb/cc/doc_B.html"
の場合,あるいは "http://www.sub1.aa.co.jp/ee/doc_B.html" (ディレクトリが異なる)の場合,この「関係タイプ
=”ホスト一致”」に該当する。
【0052】
以上のようにして,2つの文書の位置関係の3つの属性のうち,「関係タイプ」の値が決定する。2つの文書の間の距離は,(ケース1)〜(ケース4)の順で近づく。このうち2つの文書が最も近くなる(ケース4)の場合,すなわち属性「関係タイプ」に”ホスト一致”がセットされた場合,さらに残りの2つの属性「共通ディレクトリ深さ」および属性「経由ディレクトリ数」に対して比較する2つの文書の位置に応じた値がセットされる。なお,(ケース1)〜(ケース3)の場合,すなわち属性「関係タイプ」に
"null" ,”ドメイン一致”,”サブドメイン一致”のいずれかがセットされた場合には,属性「共通ディレクトリ深さ」および属性「経由ディレクトリ数」には,
"null" がセットされる。
【0053】
属性「関係タイプ」に”ホスト一致”がセットされた場合,属性「共通ディレクトリ深さ」には,比較対象の2つの文書に共通するディレクトリの深さがセットされる。例えば,図2に示した識別子doc1の文書と識別子doc6の文書を比較した場合,共通するディレクトリは,
"aa/" であるため,これら2つの文書間の「位置関係」の属性「共通ディレクトリ深さ」には”1”がセットされる。
【0054】
また,属性「関係タイプ」に”ホスト一致”がセットされた場合,属性「経由ディレクトリ数」には,比較対象の2つの文書のうち,一方の文書の格納位置から他方の文書の格納位置へ移動するときに経由するディレクトリの数がセットされる。例えば,図2に示した識別子doc1の文書と識別子doc6の文書を比較する場合,識別子doc1の文書の格納位置から識別子doc6の文書の格納位置へ移動するには図8に示したような経路をたどることになる。つまり,この移動において,経由されるディレクトリ数は”3”である。この値が属性「経由ディレクトリ数」にセットされる。
【0055】
上述のように,2つの文書の間の距離は,(ケース1)〜(ケース4)の順で近づく。このうち2つの文書の距離が最も近くなる(ケース4)の場合,すなわち属性「関係タイプ」に”ホスト一致”がセットされた場合,属性「共通ディレクトリ深さ」と属性「経由ディレクトリ数」にセットされる値に応じて,2つの文書の距離が判定される。本実施の形態においては,2つの文書の距離を判定する基準として,属性「共通ディレクトリ深さ」を属性「経由ディレクトリ数」に優先適用する。すなわち,例えば,文書Aと文書Bの間の距離と,文書Aと文書Cの間の距離を比較する場合,属性「経由ディレクトリ数」の値に関わらず,属性「共通ディレクトリ深さ」の値が大きい文書組み合わせの方の距離が近いと判断される。もし,属性「共通ディレクトリ深さ」の値が同じならば,属性「経由ディレクトリ数」の値が小さい文書組み合わせの方の距離が近いと判断される。
【0056】
図5と図6は,図4のステップS120の詳細を示している。同図を参照しながら,位置関係計算部162の処理動作(文書重み計算工程)を説明する。
【0057】
位置関係計算部162は,前段の単語取得部140がステップS110において取得した人名P(i=1,2,・・・,m)ごとに,当該人名が記載されている複数の文書Uij(j=1,2,・・・,n)の位置関係を判定する。なお,本実施の形態では,人名P=「田中太郎」,人名P=「佐藤花子」とする。また,このように人名Pを定義することによって,文書U11=「識別子doc1の文書」,文書U12=「識別子doc2の文書」,文書U13=「識別子doc6の文書」,文書U21=「識別子doc4の文書」,文書U22=「識別子doc5の文書」となる。
【0058】
(ステップS120−01)
処理対象の人名を設定するカウンタiを”1”に初期化する。つまり,まずP=「田中太郎」が記載されている文書間の距離を判定する処理を行う。
【0059】
(ステップS120−02)
iがm以下ならステップS120−03を実行する。iがmより大きい場合には,全ての人名P〜Pについての処理が行われたことになるため,本処理を終了する。
【0060】
(ステップS120−03)
処理対象の文書を指定するカウンタjを”1”に初期化する。以下,文書Uij(最初は,文書U11=「識別子doc1の文書」)の近接文書を順に選出する。
【0061】
(ステップS120−04)
jがn以下ならステップS120−05を実行する。jがnより大きい場合には,文書Ui1〜Uinについての処理が完了したことになる。このときは,iをカウントアップするために,ステップS120−20へジャンプする。
【0062】
(ステップS120−05)
後述するように,本実施の形態においては,文書Uijを基準として,文書Uijと文書Uik(k=1,2,・・・,m)との位置関係が順次計算される。位置関係計算部162は,この位置関係を記憶する記憶手段を備えている。そして,この記憶手段は,文書Uijと文書Uikとの位置関係の3つの属性,すなわち属性「関係タイプ」,属性「共通ディレクトリ深さ」,および属性「経由ディレクトリ数」それぞれに対応する変数領域min_typeij,max_depthij,min_distanceijを有している。このステップでは,各変数領域に "null" をセットして,記憶手段を初期化する。
【0063】
(ステップS120−06)
以下,基準の文書Uijと文書Uikとの位置関係を順次計算するために,まず,カウンタkを”1”に初期化する。
【0064】
(ステップS120−07)
同じ文書同士の位置関係の計算を避けるために,jとkが一致する場合は,ステップS120−18へジャンプする。jとkが一致しない場合は,ステップS120−08を実行する。
【0065】
(ステップS120−08)
kがn以下ならステップS120−09を実行する。kがnより大きい場合には,基準の文書Uijと文書Uikとの位置関係の計算が終了したことになる。jをカウントアップするために,ステップS120−19へジャンプする。
【0066】
(ステップS120−09)
基準の文書Uijと文書Uikの位置関係の属性「関係タイプ(typeijk)」,属性「共通ディレクトリ深さ(depthijk)」,および属性「経由ディレクトリ数distanceijk」を算出する。
【0067】
例えば,文書Uijが図2に示した識別子doc1の文書であり,文書Uikが同図に示した識別子doc6の文書である場合,属性「共通ディレクトリ深さ」の値は”1”,属性「経由ディレクトリ数」の値は”3”になる。
【0068】
属性「経由ディレクトリ数」の値は,以下の手順で算出される。
【0069】
まず,文書Uijと文書Uikの各URLを表す文字列を前方一致で比較し,両者に共通する文字列と共通しない文字列を抽出する。例えば,識別子doc1の文書のURLと識別子doc6の文書のURLを比較した場合,共通する文字列は,
"http://www.aaa.co.jp/aa/" である。このうち, "http://www.aaa.co.jp"にドメイン名とマシン名が含まれていることは,パターンマッチング法を用いれば識別可能である。また,ディレクトリの記載位置も容易に特定できる。
【0070】
次に,両者に共通しない文字列 "bb/index.html" と "cc/dd/index.html" に注目し,各文字列の中で,ディレクトリの区切りを示す文字
"/" の個数を数える。この "/" の個数の和が属性「経由ディレクトリ数」となる。例えば,識別子doc1の文書のURLに含まれる
"bb/index.html" には "/" が1つ存在し,識別子doc6の文書のURLに含まれる
"cc/dd/index.html" には "/" が2つ存在する。したがって,識別子doc1の文書と識別子doc6の文書の位置関係における,属性「経由ディレクトリ」には”3”がセットされる。
【0071】
(ステップS120−10)
これ以降,ステップS120−09において算出された位置関係の属性の値に基づいて,文書Uikが文書Uijの近接文書か否かを判定する。
【0072】
次の条件1と条件2をともに満足する場合は,ステップS120−13S120−11を実行し,満足しない場合は,ステップS120−14S120−12を実行する。
【0073】
[条件1]
文書Uijと文書Uikの位置関係における属性「関係タイプ(typeijk)」の値が”ドメイン一致”である。
【0074】
[条件2]
位置関係計算部162が有する記憶手段における変数領域min_typeijの値が "null" である。
【0075】
(ステップS120−11)
位置関係計算部162が有する記憶手段における変数領域min_typeijに”ドメイン一致”をセットする。そして,ステップS120−18へジャンプする。
【0076】
(ステップS120−12)
次の条件3と条件4をともに満足する場合は,ステップS120−13を実行し,満足しない場合は,ステップS120−14を実行する。
【0077】
[条件3]
文書Uijと文書Uikの位置関係における属性「関係タイプ(typeijk)」の値が”サブドメイン一致”である。
【0078】
[条件4]
位置関係計算部162が有する記憶手段における変数領域min_typeijの値が "null" ,または,”ドメイン一致”である。
【0079】
(ステップS120−13)
位置関係計算部162が有する記憶手段における変数領域min_typeijに”サブドメイン一致”をセットする。そして,ステップS120−18へジャンプする。
【0080】
(ステップS120−14)
次の条件5と条件6をともに満足する場合は,ステップS120−15を実行し,満足しない場合は,ステップS120−18へジャンプする。
【0081】
[条件5]
文書Uijと文書Uikの位置関係における属性「共通ディレクトリ深さ(depthijk)」の値が "null" 以外である。
【0082】
[条件6]
位置関係計算部162が有する記憶手段における変数領域max_depthijの値が "null" ,または, 文書Uijと文書Uikの位置関係における属性「共通ディレクトリ深さ(depthijk)」の値以下である。
【0083】
(ステップS120−15)
位置関係計算部162が有する記憶手段における変数領域max_depthijに,文書Uijと文書Uikの位置関係における属性「共通ディレクトリ深さ(depthijk)」の値をセットする。また,位置関係計算部162が有する記憶手段における変数領域min_typeijに”ホスト一致”をセットする。
【0084】
(ステップS120−16)
次の条件7を満足する場合は,ステップS120−17を実行し,満足しない場合は,ステップS120−18へジャンプする。
【0085】
[条件7]
位置関係計算部162が有する記憶手段における変数領域min_distanceijの値が "null" ,または, 文書Uijと文書Uikの位置関係における属性「経由ディレクトリ数(distanceijk)」の値以上である。
【0086】
(ステップS120−17)
位置関係計算部162が有する記憶手段における変数領域min_distanceijに,文書Uijと文書Uikの位置関係における属性「経由ディレクトリ数(distanceijk)」の値をセットする。
【0087】
(ステップS120−18)
カウンタkに”1”を加えて,ステップS120−07へ戻る。基準の文書Uijと次の文書Uikとの位置関係を計算する。
【0088】
(ステップS120−19)
カウンタjに”1”を加えて,ステップS120−04へ戻る。次の文書Uijを基準に設定して,文書Uikとの位置関係を計算する。
【0089】
(ステップS120−20)
カウンタiに”1”を加えて,ステップS120−02へ戻る。次の人名(例えば,P=「佐藤花子」)が記載されている文書間の距離を判定する処理を行う。
【0090】
以上のように,位置関係計算部162がステップS120(ステップS120−01〜S120−20)の動作を行うことによって,単語取得部140が出力した人名ごとに,当該人名が記載されている複数の文書の位置関係が決定する。
【0091】
本実施の形態において,単語取得部140は,人名として「田中太郎」と「佐藤花子」を出力している。そして,人名「田中太郎」は,識別子doc1,doc2,doc6の各文書に記載されており,人名「佐藤花子」は,識別子doc4,doc5に記載されている。この場合,位置関係計算部162による処理結果は次のようになる。
【0092】
人名「田中太郎」を含む文書(識別子doc1)の近接文書は,識別子doc2の文書と判定され,これらの文書の位置関係は,以下のように定義される。
【0093】
関係タイプ=”ホスト一致”
共通ディレクトリ深さ=”1”
経由ディレクトリ数=”1”
【0094】
人名「田中太郎」を含む文書(識別子doc2)の近接文書は,識別子doc1の文書と判定され,これらの文書の位置関係は,以下のように定義される。
【0095】
関係タイプ=”ホスト一致”
共通ディレクトリ深さ=”1”
経由ディレクトリ数=”1”
【0096】
人名「田中太郎」を含む文書(識別子doc6)の近接文書は,識別子doc2の文書と判定され,これらの文書の位置関係は,以下のように定義される。
【0097】
関係タイプ=”ホスト一致”
共通ディレクトリ深さ=”1”
経由ディレクトリ数=”2”
【0098】
人名「佐藤花子」を含む文書(識別子doc4)との位置関係が判定される文書は,識別子doc5の文書だけである。これらの文書の位置関係は,以下のように定義される。
【0099】
関係タイプ=
"null"
共通ディレクトリ深さ= "null"
経由ディレクトリ数= "null"
【0100】
人名「佐藤花子」を含む文書(識別子doc5)との位置関係が判定される文書は,識別子doc4の文書だけである。これらの文書の位置関係は,以下のように定義される。
【0101】
関係タイプ=
"null"
共通ディレクトリ深さ= "null"
経由ディレクトリ数= "null"
【0102】
つまり,人名「佐藤花子」を含む2つの文書(識別子doc4,doc5)には,近接文書は存在しないことになる。
【0103】
(ステップS130)
位置関係計算部162の処理結果に基づいて,重要度計算部166は,個々の人名に対して重要度を計算する。図7は,図4のステップS130の詳細を示している。同図を参照しながら,重要度計算部166の処理動作(評価値計算工程)を説明する。
【0104】
(ステップS130−01)
重要度の計算対象となる人名を示すカウンタiを”1”に初期化する。
【0105】
(ステップS130−02)
iがm以下ならステップS130−03を実行する。iがmより大きい場合には,全ての人名P〜Pについての処理が行われたことになるため,本処理を終了する。
【0106】
(ステップS130−03)
人名Pが記載されている文書Ui1,Ui2,・・・,Uinそれぞれの重みgetWeightを順に計算するために,まず,計算対象の文書を指定するカウンタjを”1”に初期化する。
【0107】
(ステップS130−04)
人名Pの重要度weightを”0”に初期化する。
【0108】
(ステップS130−05)
jがn以下ならステップS130−06を実行する。jがnより大きい場合には,文書Ui1〜Uinの重みgetWeightの計算が完了したことになる。このときは,iをカウントアップするために,ステップS130−08へジャンプする。
【0109】
(ステップS130−06)
処理対象の文書Uijの重みgetWeightを以下の重み算出条件1−1〜1−5に従って設定する。なお,この重み算出処理については,より上位の条件が優先的に採用されるものとする。
【0110】
[重み算出条件1−1]
文書Uijと,この文書Uijの近接文書との位置関係において,属性「関係タイプ」の値が "null" である。この条件を満足した場合,文書Uijの重みgetWeightに”1.0”をセットする。
【0111】
[重み算出条件1−2]
文書Uijの近接文書の重み算出処理が未だ行われていない既に行われている。この条件を満足した場合,文書Uijの重みgetWeightに”1.0”をセットする。なお,この条件には,例えば,文書Uijの識別子と,この文書Uijの近接文書の識別子を昇べきの順に並べ,近接文書の識別子が上位下位である場合に該当する。
【0112】
[重み算出条件1−3]
文書Uijと,この文書Uijの近接文書との位置関係において,属性「関係タイプ」の値が”ドメイン一致”である。この条件を満足した場合,文書Uijの重みgetWeightに”0.95”をセットする。
【0113】
[重み算出条件1−4]
文書Uijと,この文書Uijの近接文書との位置関係において,属性「関係タイプ」の値が”サブドメイン一致”である。この条件を満足した場合,文書Uijの重みgetWeightに”0.95”をセットする。
【0114】
[重み算出条件1−5]
文書Uijと,この文書Uijの近接文書との位置関係において,属性「関係タイプ」の値が”ホスト一致”である。この条件を満足した場合,文書Uijの重みgetWeightに下記の式(1−1)または式(1−2)のいずれか一方から得られる値をセットする。文書Uijと,この文書Uijの近接文書との位置関係において,属性「経由ディレクトリ数」の値が”5”未満の場合は,式(1−1)を用い,”5”以上の場合は,式(1−2)を用いる。なお,式(1−1)および式(1−2)において,pに文書Uijの近接文書との位置関係における属性「共通ディレクトリ深さ」の値を代入し,qに属性「経由ディレクトリ数」の値を代入する。
【0115】
getWeight=0.9×(0.5)×(0.75)5−q ・・・式(1−1)
【0116】
getWeight=0.9×(0.5) ・・・式(1−2)
【0117】
文書Uijの重みが算出されるごとに,算出された重みを,変数領域weightの値に加算する。
【0118】
(ステップS130−07)
カウンタjに”1”を加えて,ステップS130−05へ戻る。次の文書の重みを計算する。
【0119】
以上のステップS130−05〜S130−07を繰り返して,人名Pが記載されている全ての文書の重みが計算され,その都度,変数領域weightの値に加算される。この結果,人名Pの重要度が変数領域weightに得られる。
【0120】
(ステップS130−08)
カウンタiに”1”を加えて,ステップS130−02へ戻る。次の人名(例えば,P=「佐藤花子」)の重要度を計算する。
【0121】
以上のように,重要度計算部166がステップS130(ステップS130−01〜S130−08)の動作を行うことによって,単語取得部140が出力した人名ごとの重要度が決定する。
【0122】
ここで,人名P=「田中太郎」と人名P=「佐藤花子」の各重要度について具体例を用いて説明する。
【0123】
人名P=「田中太郎」が含まれる各文書(識別子doc1,doc2,doc6)の重みは以下の通りである。
【0124】
識別子doc1の文書の重み:1.00点(重み算出条件1−2)
【0125】
識別子doc2の文書の重み:0.9×(0.5)×(0.75)5−1=0.14点(重み算出条件1−5の式(1−2))
【0126】
識別子doc6の文書の重み:0.9×(0.5)×(0.75)5−2=0.19点(重み算出条件1−5の式(1−2))
【0127】
この結果,人名P=「田中太郎」の重要度は,識別子doc1の文書の重み,識別子doc2の文書の重み,および識別子doc6の文書の重みの合計1.33(=1.00+0.14+0.19)点となる。
【0128】
また,人名P=「佐藤花子」が含まれる各文書(識別子doc4,doc5)の重みは以下の通りである。
【0129】
識別子doc4の文書の重み:1.00点(重み算出条件1−1)
【0130】
識別子doc5の文書の重み:1.00点(重み算出条件1−1)
【0131】
この結果,人名P=「佐藤花子」の重要度は,識別子doc4の文書の重みと識別子doc5の文書の重みの合計2.00(=1.00+1.00)点となる。
【0132】
人名P=「佐藤花子」は,2つの文書(識別子doc4,doc5)にしか出現していないにも関わらず,これら2つの文書のURLが全く異なるため,位置的に近い3つの文書(識別子doc1,doc2,doc6)に出現している人名P「田中太郎」よりその重要度が高くなる。
【0133】
(ステップS140)
重要度計算部166の処理結果に基づいて,出力部170は,人名を重要度が高いものから順に出力する。本実施の形態においては,「佐藤花子」,「田中太郎」の順である。
【0134】
以上のように,第1の実施の形態によれば,URLを用いて各文書の位置関係が算出され,この位置関係に基づいて各人名の重要度が判定される。そして,各文書の位置がお互いに離れるほど,各文書に記載されている人名には高い重要度が付与される。したがって,多くの文書に記載されている人名であっても,必ずしも重要度の高い人名とは判断されない。相互に関係の薄い多くの文書に記載されている人名に高い重要度が付与される。この結果,重要な人名(人物)を高い精度で選出することが可能となる。
【0135】
なお,ステップS120における各文書の位置関係の計算方法,およびステップS130における各人名の重要度の計算方法は,上記の例に限定されない。例えば,ネットワーク900の規模や,ネットワーク900に公開されている文書の数,または重要度が判定される人名の数等に応じて,文書Uijの重みgetWeightに上記とは異なる数値がセットされるようにしてもよい。
【0136】
<第2の実施の形態>
第1の実施の形態にかかる単語重要度判定装置100は,文書間の位置関係を判定するにあたり,各文書のURLを利用する。これに対して,第2の実施の形態にかかる単語重要度判定装置200は,各文書の位置関係を文書間のリンク関係(参照関係)に基づいて判定する。
【0137】
本実施の形態にかかる単語重要度判定装置200は,第1の実施の形態にかかる単語重要度判定装置100に対して,単語重要度決定部160が単語重要度決定部260に置き換えられ,位置情報記憶部150がリンク情報記憶部250に置き換えられた構成を有する。すなわち,単語重要度判定装置200は,図9に示すように,入力部110,文書検索部120,単語情報記憶部130,単語取得部140,リンク情報記憶部250,単語重要度決定部260,および出力部170から構成されている。また,単語重要度決定部260は,リンク関係探索部262,文書間関係決定部264,および重要度計算部266から構成されている。
【0138】
リンク情報記憶部250は,ユーザが入力部110に検索キーワードを入力した時点で既に,ネットワーク900に公開されている全ての文書または所定のカテゴリに属する文書のリンク関係を格納している。例えば,ネットワーク900に識別子doc1〜doc6の文書が公開されており,それぞれ図10に示すような参照関係を形成している場合,リンク情報記憶部250は,図11に示すように,識別子doc1〜doc6とそれぞれに対応する参照元文書の識別子をテーブルに格納する。
【0139】
図11に示したテーブルによれば,識別子doc2の文書は,識別子doc1の文書と識別子doc3の文書から参照されており,識別子doc4の文書は,識別子doc3の文書から参照されており,識別子doc6の文書は,識別子doc4の文書から参照されていることが分かる。
【0140】
なお,これらの文書(識別子doc1〜doc6)がHTML(HyperText Markup Language)で記述されている場合,各文書間の参照関係は,各文書中のタグ"" によって規定される。
【0141】
単語重要度決定部260は,単語取得部140が取得した各人名について重要度を決定する。
【0142】
各人名の重要度を決定するために,単語重要度決定部260に属するリンク関係探索部262は,リンク情報記憶部250に格納されている各文書の参照関係を示すテーブル(図11)を参照して,単語取得部140に取得された人名が記載されている文書が参照している文書や,単語取得部140に取得された人名が記載されている文書を参照している文書を探索する。
【0143】
また,単語重要度決定部260に属する文書間関係決定部264は,単語取得部140によって得られた各人名が出現する文書間の参照関係を,リンク関係探索部262の出力に基づいて決定する。この参照関係は,属性「参照タイプ」と属性「文書間距離」で定義される。
【0144】
以上のように構成された本実施の形態にかかる単語重要度判定装置200の動作について,図12〜図15を参照しながら説明する。
【0145】
図12は,本実施の形態にかかる単語重要度判定装置200の全体的な動作フローを示している。また,図14は,文書間関係決定部264の動作(ステップS222)の詳細フローを示しており,図15は,重要度計算部266の動作(ステップS230)の詳細フローを示している。
【0146】
以下,検索キーワード「燃料電池」に関連する人物であって最も重要な人物を,ネットワーク900に公開されている複数の文書の中から抽出する場合に即して,本実施の形態にかかる単語重要度判定装置200の動作を説明する。
【0147】
(ステップS200)
まず,入力部110に対して検索キーワード「燃料電池」が入力されると,文書検索部120は,ネットワーク900に公開されている複数の文書の中から,この検索ワード「燃料電池」が記載されている文書を検索する。例えば,ネットワーク900に公開されている文書(文書集合)が図2に示した6つの文書(識別子doc1〜doc6)の場合,文書(識別子doc3)を除く5つの文書(識別子doc1,doc2,doc4,doc5,doc6)が検索キーワード「燃料電池」に適合する。文書検索部120は,検索した文書の識別子doc1,doc2,doc4,doc5,doc6をリスト形式で単語取得部140に与える。
【0148】
(ステップS210)
次に,単語取得部140は,単語情報記憶部130に記憶されている単語情報(図2)を参照する。そして,単語取得部140は,文書検索部120から与えられたリストを構成する識別子doc1,doc2,doc4,doc5,doc6に合致する識別子の文書を選択し,その文書に記載されている単語のうち単語種別が「人名」である単語を取得する。
【0149】
例えば,単語情報記憶部130が図2に示した単語情報を格納している場合,単語取得部140は,識別子doc1,doc2,doc6の文書からそれぞれ「田中太郎」を取得し,識別子doc4,doc5の文書からそれぞれ「佐藤花子」を取得する。
【0150】
単語取得部140は,各文書から人名を取得した後,パターンマッチング法を用いて,人名を表す文字列が一致するものをまとめて,「人名−当該人名を含む文書の識別子のリスト」という形式で出力する。出力例は次の通りである。
【0151】
「田中太郎」−doc1,doc2,doc6
「佐藤花子」−doc4,doc5
【0152】
(ステップS220)
次いで,単語重要度決定部260に属するリンク関係探索部262は,リンク情報記憶部250に格納されているテーブルを参照して,単語取得部140が出力したリストに記載されている文書について,当該文書が参照している文書,および,当該文書を参照している文書を,それぞれ一定の「深さ」まで幅優先探索法によって探索する。
【0153】
本実施の形態において,「深さ」とは,文書参照の階層数のことである。したがって,第1の文書が第2の文書から直接的に参照されているときは,第1の文書と第2の文書は深さ”1”の参照関係にある。これに対して,第1の文書が,第2の文書に参照されており,第2の文書が第3の文書に参照されているときは,第1の文書と第3の文書は深さ”2”の参照関係にある。図10の例では,識別子doc6の文書と識別子doc4の文書は,深さ”1”の関係にあり,識別子doc6の文書と識別子doc2の文書は,識別子doc4doc3の文書を介して,深さ”2”の関係にある。このステップでは,一例として,各文書の参照先および参照元を深さ”2”まで探索する。リンク関係探索部262が,図10および図11に示した文書(識別子doc1〜doc6)を探索した結果を図13に示す。
【0154】
(ステップS222)
文書間関係決定部264は,単語取得部140が出力したリストに記載されている人名ごとに,各人名が記載されている文書を2つずつ選択して,それぞれの文書間の参照関係を計算する。
【0155】
図14は,図12のステップS222の詳細を示している。同図を参照しながら,文書間関係決定部264の処理動作を説明する。
【0156】
文書間関係決定部264は,単語取得部140がステップS210において取得した人名P(i=1,2,・・・,m)ごとに,当該人名が記載されている複数の文書Uij(j=1,2,・・・,n)の参照関係を判定する。なお,本実施の形態では,人名P=「田中太郎」,人名P=「佐藤花子」とする。また,このように人名Pを定義することによって,文書U11=「識別子doc1の文書」,文書U12=「識別子doc2の文書」,文書U13=「識別子doc6の文書」,文書U21=「識別子doc4の文書」,文書U22=「識別子doc5の文書」となる。
【0157】
(ステップS222−01)
処理対象の人名を設定するカウンタiを”1”に初期化する。つまり,まずP=「田中太郎」が記載されている文書間の参照関係を決定する処理を行う。
【0158】
(ステップS222−02)
iがm以下ならステップS222−03を実行する。iがmより大きい場合には,全ての人名P〜Pについての処理が行われたことになるため,本処理を終了する。
【0159】
(ステップS222−03)
処理対象の文書を指定するカウンタjを”1”に初期化する。以下,文書Uij(最初は,文書U11=「識別子doc1の文書」)と他の文書との参照関係を順に計算する。
【0160】
(ステップS222−04)
jがn以下ならステップS222−05を実行する。jがnより大きい場合には,文書Ui1〜Uinについての処理が完了したことになる。このときは,iをカウントアップするために,ステップS222−07へジャンプする。
【0161】
(ステップS222−05)
ステップS220におけるリンク関係探索部262の探索動作によって得られた結果(図10)に基づいて,各文書間の参照関係を計算する。この演算は,以下の規則1〜3に従う。
【0162】
[規則1]
参照関係が計算される2つの文書(以下,「被計算文書対」という)を参照している文書の中に同一の文書がある場合,換言すれば,被計算文書対が共通する第三の文書(以下,「共通参照元文書」という)から参照されている場合,この被計算文書対の参照関係の属性「参照タイプ」には”同一祖先関係”をセットする。また,この被計算文書対の参照関係の属性「文書間距離」には,被計算文書対の一方と共通参照元文書との深さ,または,被計算文書対の他方と共通参照元文書との深さのいずれか一方(例えば,深い方の深さ)をセットする。
【0163】
例えば,図13に示した識別子doc2の文書と識別子doc6が被計算文書対を構成する場合,共通参照元文書として識別子doc3の文書が存在する。したがって,この被計算文書対の関係は規則1に該当するため,この被計算文書対の参照関係の属性「参照タイプ」には”同一祖先関係”をセットする。また,識別子doc2の文書から識別子doc3の文書までの深さは”1”であり,識別子doc6の文書から識別子doc3の文書までの深さは”2”であるため,大きい方の値”2”をこの被計算文書対の参照関係の属性「文書間距離」にセットする。なお,深さの和”3”をセットしてもよい。
【0164】
[規則2]
被計算文書対の一方が他方から参照されている場合,換言すれば,他方が一方を参照している場合,この被計算文書対の参照関係の属性「参照タイプ」には”祖先子孫関係”をセットする。また,この被計算文書対の参照関係の属性「文書間距離」には,被計算文書対の一方から他方までの深さ(または,他方から一方までの深さ)をセットする。
【0165】
例えば,図13に示した識別子doc1の文書と識別子doc2が被計算文書対を構成する場合,識別子doc1の文書は,識別子doc2の文書を参照している(識別子doc2の文書は,識別子doc1の文書から参照されている)。したがって,この被計算文書対の関係は規則2に該当するため,この被計算文書対の参照関係の属性「参照タイプ」には”祖先子孫関係”をセットする。また,識別子doc1の文書から識別子doc2の文書までの深さは”1”であるため,この値”1”をこの被計算文書対の参照関係の属性「文書間距離」にセットする。
【0166】
[規則3]
被計算文書対を構成する両文書が上記規則1と規則2のいずれにも該当しない場合,この被計算文書対の参照関係の属性「参照タイプ」には”無関係”をセットする。また,この被計算文書対の参照関係の属性「文書間距離」には, "null" をセットする。
【0167】
例えば,図13に示した識別子doc1の文書と識別子doc6が被計算文書対を構成する場合,両文書は規則1にも規則2にも該当しないため,この被計算文書対の参照関係の属性「参照タイプ」には”無関係”をセットする。
【0168】
(ステップS222−06)
カウンタjに”1”を加えて,ステップS222−04へ戻る。次の文書と他の文書との参照関係を順に計算する。
【0169】
以上のステップS222−04〜S222−06を繰り返して,人名Pが記載されている全ての文書の参照関係を計算する。
【0170】
(ステップS222−08222−07)
カウンタiに”1”を加えて,ステップS222−02へ戻る。次の人名(例えば,P=「佐藤花子」)が記載されている文書の参照関係を計算する。
【0171】
以上のように,文書間関係決定部264がステップS222(ステップS222−01〜S222−07)の動作を行うことによって,単語取得部140が出力した人名ごとに,当該人名が記載されている複数の文書の参照関係が決定する。
【0172】
本実施の形態において,単語取得部140は,人名として「田中太郎」と「佐藤花子」を出力している。そして,人名「田中太郎」は,識別子doc1,doc2,doc6の各文書に記載されており,人名「佐藤花子」は,識別子doc4,doc5に記載されている。この場合,文書間関係決定部264による処理結果は次のようになる。
【0173】
人名「田中太郎」を含む3つの文書(識別子doc1,doc2,doc6)の参照関係は,以下のように定義される。
【0174】
識別子doc1−識別子doc2
「参照タイプ」=”祖先子孫関係”
「文書間距離」=”1”
【0175】
識別子doc1−識別子doc6
「参照タイプ」=”無関係”
「文書間距離」=
"null"
【0176】
識別子doc2−識別子doc6
「参照タイプ」=”同一祖先”
「文書間距離」=”2”
【0177】
人名「佐藤花子」を含む2つの文書(識別子doc4,doc5)の参照関係は,以下のように定義される。
【0178】
識別子doc4−識別子doc5
「参照タイプ」=”無関係”
「文書間距離」=
"null"
【0179】
(ステップS230)
文書間関係決定部264の処理結果に基づいて,重要度計算部266は,個々の人名に対して重要度を計算する。図15は,図12のステップS230の詳細を示している。同図を参照しながら,重要度計算部266の処理動作を説明する。
【0180】
(ステップS230−1)
重要度の計算対象となる人名を示すカウンタiを”1”に初期化する。
【0181】
(ステップS230−02)
iがm以下ならステップS230−03を実行する。iがmより大きい場合には,全ての人名P〜Pについての処理が行われたことになるため,本処理を終了する。
【0182】
(ステップS230−03)
人名Pが記載されている文書Ui1,Ui2,・・・,Uinそれぞれの重みcalcWeightを順に計算するために,まず,計算対象の文書を指定するカウンタjを”1”に初期化する。
【0183】
また,重要度計算部266は記憶手段を備えており,この記憶手段は,各文書Ui1,Ui2,・・・,Uinに対応する要素Ci1,Ci2,・・・,Cinから成る配列を格納する。このステップでは,当該配列の全ての要素を "false" に初期化する。以下のステップにおいて,各文書の重みcalcWeightが計算されると,その文書に対応する要素を
"true" とする。
【0184】
(ステップS230−04)
人名Pの重要度weightを”0”に初期化する。
【0185】
(ステップS230−05)
配列要素Cijが "true" の場合には,すでに文書Uijの重みcalcWeightの計算が行われている。このときは,jをカウントアップするために,ステップS230−08へジャンプする。配列要素Cij
"false" の場合には,ステップS230−06を実行する。
【0186】
(ステップS130−06)
jがn以下ならステップS230−07を実行する。jがnより大きい場合には,文書Ui1〜Uinの重みcalcWeightの計算が完了したことになる。このときは,iをカウントアップするために,ステップS230−09へジャンプする。
【0187】
(ステップS230−07)
まず,文書Uijを含む複数の被計算文書対のうち,属性「文書間距離」が小さいものを一つ選択する。なお,属性「文書間距離」の値は, "null" が最大である。また,属性「文書間距離」が等しい複数の被計算文書対が存在する場合は,文書Uijと対を成す複数の文書(以下,「相手文書」という)を昇べきの順
に並べ,上位に位置する相手文書との対を選択する。
【0188】
一の被計算文書対が選択された後,処理対象の文書Uijの重みcalcWeightを以下の重み算出条件2−1〜2−3に従って設定する。なお,この重み算出処理については,より上位の条件が優先的に採用されるものとする。
【0189】
[重み算出条件2−1]
選択された被計算文書対の属性「文書間距離」の値が "null" である。この条件を満足した場合,文書Uijの重みcalcWeightに”1.00”をセットする。また,文書Uijに対応する配列要素Cij
"true" をセットする。これによって,文書Uijの重みcalcWeightの計算が行われたことが明示化される。
【0190】
[重み算出条件2−2]
相手文書Uの重みが計算されていない(相手文書Uに対応する配列要素Cが, "false" である)。この条件を満足した場合,文書Uijの重みcalcWeightに下記の式(2−1)または式(2−2)のいずれか一方から得られる値をセットする。選択された被計算文書対の参照関係において,属性「文書間距離」の値が”4”以下の場合は,式(2−1)を用い,”4”より大きい場合は,式(2−2)を用いる。なお,式(2−1)において,qに属性「文書間距離」の値を代入する。また,選択された被計算文書対の属性「参照タイプ」が”祖先子孫関係”の場合,式(2−1)および式(2−2)において,pに”0.85”を代入し,”同一祖先関係”の場合,式(2−1)および式(2−2)において,pに”0.90”を代入する。
【0191】
calcWeight=p5−q ・・・式(2−1)
【0192】
calcWeight=p ・・・式(2−2)
【0193】
文書Uijの重みcalcWeightが算出されたところで,文書Uijに対応する配列要素Cijに "true" をセットする。これによって,文書Uijの重みcalcWeightの計算が行われたことが明示化される。
【0194】
この条件が満足したときは,相手文書Uの重みが計算されていないため,ここでこの相手文書Uの重みも計算する。相手文書Uは,文書Uijと被計算文書対を構成しているため,この相手文書Uの重みも当然に文書Uijの重みと同じ値になる。
【0195】
相手文書Uの重みcalcWeightが算出されたところで,この相手文書Uに対応する配列要素Cに
"true" をセットする。これによって,この相手文書の重みcalcWeightの計算が行われたことが明示化される。
【0196】
[重み算出条件2−3]
相手文書Uの重みが計算済みである(相手文書Uに対応する配列要素Cが, "true" である)。この条件を満足した場合,文書Uijの重みcalcWeightに上記の式(2−1)または式(2−2)のいずれか一方から得られる値をセットする。選択された被計算文書対の参照関係において,属性「文書間距離」の値が”4”以下の場合は,式(2−1)を用い,”4”より大きい場合は,式(2−2)を用いる。なお,式(2−1)において,qには,属性「文書間距離」の値を代入する。また,重み算出条件2−2のときとは異なり,選択された被計算文書対の属性「参照タイプ」が”祖先子孫関係”の場合,式(2−1)および式(2−2)において,pに”0.50”を代入し,”同一祖先関係”の場合,式(2−1)および式(2−2)において,pに”0.75”を代入する。
【0197】
文書Uijの重みcalcWeightが算出されたところで,文書Uijに対応する配列要素Cijに "true" をセットする。これによって,文書Uijの重みcalcWeightの計算が行われたことが明示化される。
【0198】
文書Uijおよびその相手文書Uの重みが算出されるごとに,算出された重みを,変数領域weightの値に加算する。
【0199】
(ステップS230−08)
カウンタjに”1”を加えて,ステップS230−05へ戻る。次の文書の重みを計算する。
【0200】
以上のステップS230−05〜S230−08を繰り返して,人名Pが記載されている全ての文書の重みが計算され,その都度,変数領域weightの値に加算される。この結果,人名Pの重要度が変数領域weightに得られる。
【0201】
(ステップS230−09)
カウンタiに”1”を加えて,ステップS230−02へ戻る。次の人名(例えば,P=「佐藤花子」)の重要度を計算する。
【0202】
以上のように,重要度計算部266がステップS230(ステップS230−01〜S230−09)の動作を行うことによって,単語取得部140が出力した人名ごとの重要度が決定する。
【0203】
ここで,人名P=「田中太郎」と人名P=「佐藤花子」の各重要度の算出について具体例を用いて説明する。
【0204】
人名P=「田中太郎」が含まれる各文書(識別子doc1,doc2,doc6)の重みは以下の通りである。
【0205】
3つの文書(識別子doc1,doc2,doc6)の中から,最初に識別子doc1の文書を文書Uijとして選択する。識別子doc1の文書を含む被計算文書対の中から最も属性「文書間距離」の値が小さい対を選択する。具体的には,識別子doc1の文書は,識別子doc2の文書と識別子doc6の文書の両方と被計算文書対を成すが,識別子doc1の文書と識別子doc2の文書から成る被計算文書対を選択する。そして,この時点では,識別子doc1の文書の相手文書である識別子doc2の文書の重みは計算されていない。したがって,[重み算出条件2−2]を適用する。
【0206】
識別子doc1の文書と識別子doc2の文書から成る被計算文書対の参照関係において,属性「文書間距離」の値が”1”であるため,式(2−1)を用いる。また,属性「参照タイプ」が”祖先子孫関係”であるため,pに”0.85”を代入する。
【0207】
識別子doc1の文書の重み:(0.85)5−1=0.52点
【0208】
識別子doc2の文書は,識別子doc1の文書と被計算文書対を成しており,その重みは,識別子doc1の文書の重みと同じ値となる。
【0209】
識別子doc2の文書の重み:(0.85)5−1=0.52点
【0210】
次に,識別子doc2の文書の重みを算出する処理ループに入る(ステップS230−08)。ただし,この文書は,上記したように識別子doc1の文書とともに重みの算出がなされている。したがって,次の識別子doc6の文書の算出処理へジャンプする(ステップS230−05)。
【0211】
続いて,識別子doc6の文書の重みを算出する処理ループに入る(ステップS230−08)。識別子doc6の文書を含む被計算文書対の中から最も属性「文書間距離」の値が小さい対を選択する。ただし,識別子doc6の文書は,識別子doc2の文書とだけ被計算文書対を成すため,ここではこの被計算文書対が必然的に選択される。そして,この時点では,識別子doc6の文書の相手文書である識別子doc2の文書の重みは,上記のように計算されている。したがって,[重み算出条件2−3]を適用する。
【0212】
識別子doc6の文書と識別子doc2の文書から成る被計算文書対の参照関係において,属性「文書間距離」の値が”2”であるため,式(2−1)を用いる。また,属性「参照タイプ」が”同一祖先関係”であるため,pに”0.75”を代入する。
【0213】
識別子doc6の文書の重み:(0.75)5−1=0.32点
【0214】
この結果,人名P=「田中太郎」の重要度は,識別子doc1の文書の重み,識別子doc2の文書の重み,および識別子doc6の文書の重みの合計1.36(=0.52+0.52+0.32)点となる。
【0215】
また,人名P=「佐藤花子」が含まれる各文書(識別子doc4,doc5)の重みは以下の通りである。
【0216】
2つの文書(識別子doc4,doc5)の中から,最初に識別子doc4の文書を文書Uijとして選択する。識別子doc4の文書を含む被計算文書対の中から最も属性「文書間距離」の値が小さい対を選択する。ただし,識別子doc4の文書は,識別子doc5の文書とだけ被計算文書対を成すため,ここではこの被計算文書対が必然的に選択される。そして,識別子doc4の文書と識別子doc5の文書から成る被計算文書対の参照関係において,属性「参照タイプ」は”無関係”である。したがって,[重み算出条件2−1]を適用する。
【0217】
識別子doc4の文書の重み:1.00点
【0218】
次に,識別子doc5の文書の重みを算出する処理ループに入る(ステップS230−08)。識別子doc5の文書を含む被計算文書対の中から最も属性「文書間距離」の値が小さい対を選択する。ただし,識別子doc5の文書は,識別子doc4の文書とだけ被計算文書対を成すため,ここではこの被計算文書対が必然的に選択される。そして,識別子doc5の文書と識別子doc4の文書から成る被計算文書対の参照関係において,属性「参照タイプ」は”無関係”である。したがって,[重み算出条件2−1]を適用する。
【0219】
識別子doc5の文書の重み:1.00点
【0220】
この結果,人名P=「佐藤花子」の重要度は,識別子doc4の文書の重みと識別子doc5の文書の重みの合計2.00(=1.00+1.00)点となる。
【0221】
人名P=「佐藤花子」は,2つの文書(識別子doc4,doc5)にしか出現していないにも関わらず,これら2つの文書は相互に参照関係を有していないため,相互に参照関係を有する3つの文書(識別子doc1,doc2,doc6)に出現している人名P「田中太郎」よりその重要度が高くなる。
【0222】
(ステップS240)
重要度計算部266の処理結果に基づいて,出力部170は,人名を重要度が高いものから順に出力する。本実施の形態においては,「佐藤花子」,「田中太郎」の順である。
【0223】
以上のように,第2の実施の形態によれば,各人名が記載されている各文書の参照関係に基づいて各人名の重要度が判定される。したがって,多くの文書に記載されている人名であっても,必ずしも重要度の高い人名と判断されない。他の文書との関係が薄い(他の文書から独立している)文書に記載されている人名に高い重要度が付与される。
【0224】
例えば,同一人物が異なるドメインに自ら名前を載せた文書を多数公開している場合や,同一グループに属するメンバーが様々な文書に一のメンバー名を記載している場合などにおいて,それらの人名の重要度を実態に反して高く判定してしまうことが防止される。この結果,真に重要な人名(人物)を高い精度で選出することが可能となる。
【0225】
なお,ステップS222における各文書の参照関係の計算方法,およびステップS230における各人名の重要度の計算方法は,上記の例に限定されない。例えば,ネットワーク900の規模や,ネットワーク900に公開されている文書の数,または重要度が判定される人名の数等に応じて,文書Uijの重みcalcWeightに上記とは異なる数値がセットされるようにしてもよい。
【0226】
<第3の実施の形態>
第1の実施の形態にかかる単語重要度判定装置100は,入力部110に対して検索キーワードが入力される度に,単語重要度決定部160に属する位置関係計算部162によって,当該検索キーワードに関係する人名が記載されている複数の文書間の位置関係を算出する。これに対して,第3の実施の形態にかかる単語重要度判定装置300は,予め(入力部110に対して検索キーワードが入力される前に)ネットワーク900に公開されている全ての文書または所定のカテゴリに属する文書の位置関係を算出する。
【0227】
本実施の形態にかかる単語重要度判定装置300は,第1の実施の形態にかかる単語重要度判定装置100に対して,単語重要度決定部160が単語重要度決定部360に置き換えられ,位置情報記憶部150が位置情報記憶部350に置き換えられ,さらに文書収集部310と位置関係記憶部(文書関連度記憶部))320が追加された構成を有する。すなわち,単語重要度判定装置300は,図16に示すように,入力部110,文書検索部120,単語情報記憶部130,単語取得部140,位置情報記憶部350,単語重要度決定部360,出力部170,文書収集部310,および位置関係記憶部320から構成されている。また,単語重要度決定部360は,位置関係取得部362および重要度計算部366から構成されている。
【0228】
文書収集部310は,ネットワーク900に公開されている文書を収集し,各文書の情報を抽出する機能を有しており,収集対象入力部312,文書情報登録部314,位置関係登録部316から構成されている。
【0229】
ユーザは,ネットワーク900における文書の収集範囲(カテゴリ)を指定することが可能であり,収集対象入力部312は,この指定を受け付ける。
【0230】
文書情報登録部314は,ネットワーク900に公開されている全ての文書のうち,収集対象入力部312が受け付けたカテゴリに属する文書を取得する。そして,取得した文書に対して形態素解析を実行し,品詞ごとに単語を抽出する。さらに,この中から人名・組織名などの固有表現文字列を選出し,単語情報記憶部130に格納する。また,文書情報登録部314は,取得した文書のURLを位置情報記憶部350に格納する。
【0231】
位置関係登録部316は,文書情報登録部314が取得した文書のURLと,位置情報記憶部350に格納されている文書のURLを参照し,各文書間の位置関係を計算する。各文書の位置関係は,第1の実施の形態と同様に,3つの属性,すなわち属性「関係タイプ」,属性「共通ディレクトリ深さ」,および属性「経由ディレクトリ数」を有する。
【0232】
位置関係記憶部320は,位置関係登録部316によって計算された各文書の位置関係を記憶する。例えば,文書情報登録部314が,図3に示した6つの文書(識別子doc1〜doc6)をネットワーク900から取得した場合,位置関係記憶部320は,これら6つの文書から選択される2つの文書の全ての組み合わせについて,各位置関係を図14に示したように2次元配列で格納する。各配列要素は,(属性「関係タイプ」,属性「共通ディレクトリ深さ」,および属性「経由ディレクトリ数」)の形式を有する。
【0233】
単語重要度決定部360に属する位置関係取得部362は,第1の実施の形態にかかる単語重要度決定部160に属する位置関係計算部162と同等の機能を有している。ただし,上述のように本実施の形態において,各文書間の位置関係の計算は,文書収集部310に属する位置関係取得部316が担当する。したがって,位置関係取得部362は,各文書間の位置関係を計算する機能を備えておらず,この機能を有する位置関係計算部162に比べて構成が簡略化されている。
【0234】
以上のように構成された本実施の形態にかかる単語重要度判定装置300の動作について説明する。この単語重要度判定装置300の主要な動作は,「文書収集」と「単語重要度の計算」に大別できる。
【0235】
このうち,「単語重要度の計算」については,本実施の形態にかかる単語重要度判定装置300の動作は,第1の実施の形態にかかる単語重要度判定装置100の動作(図5,図6)と同様である。ただし,単語重要度判定装置100は,ステップS120−09(図5)において,基準の文書Uijと文書Uikの位置関係の属性「関係タイプ(typeijk)」,属性「共通ディレクトリ深さ(depthijk)」,および属性「経由ディレクトリ数distanceijk」を算出する。これに対して,本実施の形態によれば,以下で説明するように,文書収集部310に属する位置関係取得部316が予め各文書の位置関係を計算し,位置関係記憶部320がこの計算結果を格納している(図17)。したがって,本実施の形態にかかる単語重要度判定装置300は,このステップS120−09において,各位置関係を改めて計算することなく位置関係記憶部320から取得することになる。
【0236】
次に,単語重要度判定装置300の「文書収集」にかかる動作(文書収集工程)について,図18を参照しながら説明する。
【0237】
(ステップS300)
収集対象入力部301は,ユーザが指定した文書の収集範囲の条件を受け付ける。ユーザは,例えば,「 "http://www.aa.co.jp" 以下のすべての文書」,「 "co.jp" ドメインに属するすべての文書」などの指定が可能である。
【0238】
(ステップS310)
文書情報登録部314は,ステップS300においてユーザから指定された条件に適合する文書をネットワーク900から取得する。ここでは,一般的なWWW文書収集ロボットの技術の利用が可能である。条件に適合する文書がない場合,または,条件に適合する全ての文書の収集が完了したとき,本処理を終了する。
【0239】
(ステップS320)
文書情報登録部314は,ステップS310において取得した文書に対して形態素解析を実行し,品詞ごとに単語を抽出する。さらに,この中から人名・組織名などの固有表現文字列を選出し,単語情報記憶部130に格納する。
【0240】
(ステップS330)
さらに,文書情報登録部314は,ステップS310において取得した文書のURLを位置情報記憶部350に格納する。
【0241】
(ステップS340)
次に,位置関係登録部316は,位置関係記憶部320に既に記憶されている文書と,ステップS310において文書情報登録部314によって新たに取得された文書との位置関係を計算する。そして,位置関係登録部316は,計算結果に基づいて位置関係記憶部320に記憶されている配列(図17)を更新する。
【0242】
単語重要度判定装置300は,ユーザから指定された条件に適合する文書を順次ネットワーク900から収集するために,ステップS310からステップS340までの処理を繰り返す。
【0243】
図19は,図18のステップS340の詳細を示している。同図を参照しながら,位置関係登録部316の処理動作(文書関連度記憶工程)を説明する。なお,以下の説明では,位置関係記憶部320に記憶されている配列(図17)の行数(記憶される文書数)をnで表す。また,ステップS340が実行される直前に位置関係記憶部320には,文書U,U,・・・,Un−1が記憶されており,ステップS340において,文書Uが位置関係記憶部320に追加される場合に即して,位置関係登録部316の処理動作を説明する。
【0244】
(ステップS340−01)
位置関係記憶部320に記憶されている文書数に”1”を加えて得られた値をnに代入する。例えば,ステップS340が実行される直前に,位置関係記憶部320に5つの文書U〜U(識別子doc1〜doc5)が格納されている場合,n=6となる。
【0245】
(ステップS340−02)
文書Uと位置関係を計算する文書を示すカウンタiを”1”に初期化する。
【0246】
(ステップS340−03)
iがn−1以下ならステップS340−05を実行する。iがn−1より大きい場合には,文書Uと,位置関係記憶部320に格納されている文書U〜Un−1との位置関係の計算が完了したことになるため,本処理を終了する。
【0247】
(ステップS340−04)
文書Uと文書Uとの位置関係(属性「関係タイプ」,属性「共通ディレクトリ深さ」,属性「経由ディレクトリ数」)を計算する。このステップにおける位置関係登録部316の動作は,第1の実施の形態にかかる位置関係計算部162のステップS120−09における動作と同様である。
【0248】
(ステップS340−05)
位置関係記憶部320に記憶されている配列のn行i列に位置する要素に対して,ステップS340−04において算出した値を登録する。
【0249】
(ステップS340−06)
カウンタiに”1”を加えて,ステップS340−03へ戻る。文書Uと次の文書との位置関係を計算する。
【0250】
以上のように,位置関係登録部316がステップS340(ステップS340−01〜S340−06)の動作を行うことによって,位置関係記憶部320に既に記憶されている文書と,ステップS310において文書情報登録部314によって新たに取得された文書との位置関係が算出される。そして,位置関係記憶部320に記憶されている配列(図17)が更新される。
【0251】
例えば,識別子doc6の文書を位置関係記憶部320に登録する場合,ステップS340において,識別子doc6の文書と識別子doc1〜doc6の文書との位置関係が順に計算される。この結果,位置関係記憶部320には,図17に示した配列が格納される。
【0252】
以上のように,本実施の形態によれば,第1の実施の形態と同様の効果が得られる。しかも,本実施の形態によれば,ネットワーク900に公開されている複数の文書の位置関係が予め位置関係記憶部320に格納されているため,入力部110に対して検索キーワードが入力される度に関連する複数の文書の位置関係を計算する必要がない。したがって,人名の重要度の判定に要する時間が短縮化される。
【0253】
なお,第3の実施の形態にかかる単語重要度判定装置300は,予めネットワーク900に公開されている全ての文書または所定のカテゴリに属する各文書の位置関係を算出するが,各文書の参照関係を算出するようにしてもよい。
【0254】
添付図面を参照しながら本発明の好適な実施の形態について説明したが,本発明はかかる実施の形態に限定されない。当業者であれば,特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
【0255】
例えば,第1の実施の形態にかかる単語重要度判定装置100を,ユーザが文書集合を指定して,または全文書を対象として,入力する検索キーワードそのものの重要度を判定するように再構成することも可能である。この場合,文書検索部120を省略することができる。第2の実施の形態にかかる単語重要度判定装置200,および,第3の実施の形態にかかる単語重要度判定装置300も同様である。
【0256】
各文書の位置関係(第1の実施の形態)および各文書の参照関係(第2の実施の形態)の両方に基づいて各文書の重みを算出するようにしてもよい。
【0257】
また,本発明の実施の形態にかかる単語重要度判定装置100,200,300における単語重要度の判定処理に,一般的な単語重要度の判定技術(例えば,上記特許文献1に記載の技術)を組み合わせることも可能である。
【0258】
人名の重要度を判定する場合に即して本発明の実施の形態を説明したが,本発明によれば,組織名や地名など,その他の固有表現文字列の重要度を正確に判定することが可能となる。
【0259】
本発明の実施の形態にかかる単語重要度判定装置100,200,300において,単語取得部140に対して,ネットワーク900に公開されている文書の中から人名や組織名などの固有表現文字列を抽出する機能を与え,入力部110が検索キーワードを受け付ける毎に,単語取得部140によって固有表現文字列の抽出を行うようにしてもよい。かかる構成によれば,単語情報記憶部130の省略が可能となる。
【発明の効果】
以上説明したように,本発明によれば,複数の文書に記載されている固有表現文字列の重要度を,正確にかつ効率よく判定することが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態にかかる単語重要度判定装置の構成を示すブロック図である。
【図2】図1の単語重要度判定装置に属する単語情報記憶部が格納するテーブルの説明図である。
【図3】本発明の実施の形態に適用される文書のURLを示す図である。
【図4】図1の単語重要度判定装置の全体的な処理動作を示すフロー図である。
【図5】図1の単語重要度判定装置に属する位置関係計算部の処理動作を示すフロー図(その1)である。
【図6】図1の単語重要度判定装置に属する位置関係計算部の処理動作を示すフロー図(その2)である。
【図7】図1の単語重要度判定装置に属する重要度計算部の処理動作を示すフロー図である。
【図8】識別子doc1の文書の格納位置から識別子doc6の文書の格納位置へ移動する際の過程を示す図である。
【図9】本発明の第2の実施の形態にかかる単語重要度判定装置の構成を示すブロック図である。
【図10】本発明の実施の形態に適用される文書の参照関係を示す図である。
【図11】図9の単語重要度判定装置に属するリンク情報記憶部が格納するテーブルの説明図である。
【図12】図9の単語重要度判定装置の全体的な処理動作を示すフロー図である。
【図13】図9の単語重要度判定装置に属するリンク関係探索部の動作結果を示す図である。
【図14】図9の単語重要度判定装置に属する文書間関係決定部の処理動作を示すフロー図である。
【図15】図9の単語重要度判定装置に属する重要度計算部の処理動作を示すフロー図である。
【図16】本発明の第3の実施の形態にかかる単語重要度判定装置の構成を示すブロック図である。
【図17】図16の単語重要度判定装置に属する位置関係取得部登録部の処理結果を示す図である。
【図18】図16の単語重要度判定装置の文書収集動作を示すフロー図である。
【図19】図16の単語重要度判定装置に属する位置関係登録部の処理動作を示すフロー図である。
【符号の説明】
100,200,300:単語重要度判定装置
110:入力部
120:文書検索部
130:単語情報記憶部
140:単語取得部
150:位置情報記憶部
160:単語重要度決定部
162:位置関係計算部
166:重要度計算部
170:出力部
250:リンク情報記憶部
260:単語重要度決定部
262:リンク関係探索部
264:文書間関係決定部
266:重要度計算部
310:文書収集部
312:収集対象入力部
314:文書情報登録部
316:位置関係登録部
320:位置関係記憶部
350:位置情報記憶部
360:単語重要度決定部
362:位置関係取得部
366:重要度計算部
900:ネットワーク

Claims (8)

  1. 文書に含まれる固有表現文字列に評価値を付与する評価装置であって、
    評価値を付与する対象の固有表現文字列を含む複数の文書の相互間の関連度を定義し、当該関連度に基づいて、前記各文書の重み値を計算する文書重み計算部と、
    前記各文書の重み値を用いた演算処理を行うことによって、前記固有表現文字列の評価値を算出する評価値計算部と、
    を備え、
    前記複数の文書は、木構造下で管理されており、
    前記文書重み計算部は、木構造における前記各文書の存在位置に応じて前記各文書間の関連度を定義し、
    一の文書と他の一の文書に共通する木構造の節点の数に応じて、当該一の文書と当該他の一の文書の重み値を増減することを特徴とする、固有表現文字列の評価装置。
  2. 前記文書重み計算部は、一の文書と他の一の文書の間に存在する木構造の枝の数に応じて、当該一の文書と当該他の一の文書の重み値を増減することを特徴とする、請求項に記載の固有表現文字列の評価装置。
  3. 前記文書重み計算部は、一の文書と他の一の文書が異なる木構造下で管理されている場合、当該一の文書と当該他の一の文書の重み値を最大または最小とすることを特徴とする、請求項に記載の固有表現文字列の評価装置。
  4. 前記文書重み計算部は、前記各文書間の参照関係に応じて前記各文書間の関連度を定義し、
    直接的または間接的に一の文書を参照する他の文書が存在しない場合、当該一の文書の重み値を最大または最小とすることを特徴とする、請求項1に記載の固有表現文字列の評価装置。
  5. 文書に含まれる固有表現文字列に評価値を付与する評価装置における固有表現文字列の評価方法であって、
    前記評価装置の計算部が評価値を付与する対象の固有表現文字列を含む複数の文書の相互間の関連度を定義し、当該関連度に基づいて、前記各文書の重み値を計算する文書重み計算工程と、
    前記評価装置の評価値計算部が前記各文書の重み値を用いた演算処理を行うことによって、前記固有表現文字列の評価値を算出する評価値計算工程と、
    を含み、
    前記複数の文書は、木構造下で管理されており、
    前記文書重み計算工程では、木構造における前記各文書の存在位置に応じて前記各文書間の関連度が定義し、
    一の文書と他の一の文書に共通する木構造の節点に応じて、当該一の文書と当該他の一の文書の重み値を増減することを特徴とする、固有表現文字列の評価方法。
  6. 前記前記文書重み計算工程では、一の文書と他の一の文書の間に存在する木構造の枝の数に応じて、当該一の文書と当該他の一の文書の重み値を増減することを特徴とする、請求項5に記載の固有表現文字列の評価方法。
  7. 前記前記文書重み計算工程では、一の文書と他の一の文書が異なる木構造下で管理されている場合、当該一の文書と当該他の一の文書の重み値を最大または最小とすることを特徴とする、請求項5に記載の固有表現文字列の評価方法。
  8. 前記文書重み計算工程では、前記各文書間の参照関係に応じて前記各文書間の関連度を定義し、
    直接的または間接的に一の文書を参照する他の文書が存在しない場合、当該一の文書の重み値を最大または最小とすることを特徴とする、請求項5に記載の固有表現文字列の評価方法。
JP2003178336A 2003-06-23 2003-06-23 固有表現文字列の評価装置および評価方法 Expired - Fee Related JP4333229B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003178336A JP4333229B2 (ja) 2003-06-23 2003-06-23 固有表現文字列の評価装置および評価方法
US10/766,489 US20040260697A1 (en) 2003-06-23 2004-01-29 Apparatus for and method of evaluating named entities

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003178336A JP4333229B2 (ja) 2003-06-23 2003-06-23 固有表現文字列の評価装置および評価方法

Publications (2)

Publication Number Publication Date
JP2005018157A JP2005018157A (ja) 2005-01-20
JP4333229B2 true JP4333229B2 (ja) 2009-09-16

Family

ID=33516307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003178336A Expired - Fee Related JP4333229B2 (ja) 2003-06-23 2003-06-23 固有表現文字列の評価装置および評価方法

Country Status (2)

Country Link
US (1) US20040260697A1 (ja)
JP (1) JP4333229B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021522A1 (en) * 2003-05-16 2005-01-27 Mark Herman Apparatus, method and computer readable medium for evaluating a network of entities and assets
US9009153B2 (en) * 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7512592B2 (en) * 2004-07-02 2009-03-31 Tarari, Inc. System and method of XML query processing
US8880989B2 (en) 2012-01-30 2014-11-04 Microsoft Corporation Educating users and enforcing data dissemination policies
US9087039B2 (en) 2012-02-07 2015-07-21 Microsoft Technology Licensing, Llc Language independent probabilistic content matching
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
CN104199972B (zh) * 2013-09-22 2018-08-03 中科嘉速(北京)信息技术有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN106991084B (zh) * 2017-03-28 2020-10-13 中国长城科技集团股份有限公司 一种文档评估方法及装置
US10394955B2 (en) 2017-12-21 2019-08-27 International Business Machines Corporation Relation extraction from a corpus using an information retrieval based procedure
CN110569504B (zh) * 2019-09-04 2022-11-15 北京明略软件***有限公司 一种关系词确定方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5808615A (en) * 1996-05-01 1998-09-15 Electronic Data Systems Corporation Process and system for mapping the relationship of the content of a collection of documents
US6289342B1 (en) * 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6112203A (en) * 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US6037935A (en) * 1998-04-28 2000-03-14 International Business Machines Corporation Web page exploration indicator and method
US6138113A (en) * 1998-08-10 2000-10-24 Altavista Company Method for identifying near duplicate pages in a hyperlinked database
US7225181B2 (en) * 2000-02-04 2007-05-29 Fujitsu Limited Document searching apparatus, method thereof, and record medium thereof
US20040230461A1 (en) * 2000-03-30 2004-11-18 Talib Iqbal A. Methods and systems for enabling efficient retrieval of data from data collections
JP3703080B2 (ja) * 2000-07-27 2005-10-05 インターナショナル・ビジネス・マシーンズ・コーポレーション ウェブコンテンツを簡略化するための方法、システムおよび媒体
KR100849272B1 (ko) * 2001-11-23 2008-07-29 주식회사 엘지이아이 마크업 문서 자동 요약 방법
KR100490748B1 (ko) * 2002-04-11 2005-05-24 한국전자통신연구원 유,알,엘 포함관계에 기반한 유사도 재계산을 통한효과적인 홈페이지 검색 방법

Also Published As

Publication number Publication date
US20040260697A1 (en) 2004-12-23
JP2005018157A (ja) 2005-01-20

Similar Documents

Publication Publication Date Title
Kumar et al. A survey of Web crawlers for information retrieval
US7406459B2 (en) Concept network
KR101361182B1 (ko) 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법
US8166013B2 (en) Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
EP1225517B1 (en) System and methods for computer based searching for relevant texts
JP5369154B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
US8125922B2 (en) Method and apparatus for generating a ranked index of web pages
US20060095430A1 (en) Web page ranking with hierarchical considerations
US20100131563A1 (en) System and methods for automatic clustering of ranked and categorized search objects
JP2005535039A (ja) 地理的なテキスト検索システムを備えたデスクトップクライアントとの対話
Liakos et al. Focused crawling for the hidden web
JP4333229B2 (ja) 固有表現文字列の評価装置および評価方法
Matsuo et al. Average-clicks: A new measure of distance on the World Wide Web
KR101556714B1 (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP4189387B2 (ja) 知識検索システム、知識検索方法及びプログラム
Yuan et al. Improvement of pagerank for focused crawler
JP2006164086A (ja) オンライン知識検索支援装置、およびオンライン知識検索支援方法
JP2003186901A (ja) Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体
Sabri et al. A performance of comparative study for semi-structured web data extraction model
Arbelaitz et al. SAHN with SEP/COP and SPADE, to build a general web navigation adaptation system using server log information
Navaneethakrishnan et al. An approach to page ranking based on discourse structures
Honest Deriving user Interest by Mining User Navigation Patterns
Modi et al. A Comparative Study of Various Page Ranking Algorithms
JP4860654B2 (ja) ページ評価装置、ページ評価方法、およびページ評価プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090615

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees