JP4333229B2

JP4333229B2 - 固有表現文字列の評価装置および評価方法

Info

Publication number: JP4333229B2
Application number: JP2003178336A
Authority: JP
Inventors: 宏行大沼; 佳孝濱口
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2003-06-23
Filing date: 2003-06-23
Publication date: 2009-09-16
Anticipated expiration: 2023-06-23
Also published as: US20040260697A1; JP2005018157A

Description

【０００１】
【発明の属する技術分野】
本発明は，固有表現文字列の評価装置および評価方法に関するものである。
【０００２】
【従来の技術】
従来，インターネット等のネットワークに公開されている大量の文書の中から特定の情報を効率よく，かつ，高精度に検索するために，ユーザが検索システムに入力した検索キーワードに，この検索キーワードに関連するキーワード（関連キーワード）を組み合わせる手法が広く用いられている。この手法は，「ユーザは必ずしも適切な検索キーワードを想起できるとは限らない」という観点から構築されたものである。
【０００３】
下記の特許文献１には，複数の文書中に出現する単語の統計情報に基づき，関連キーワードを抽出する装置が開示されている。この関連キーワードの抽出処理には，文書重み，出現位置，単語長，単語種別，文字列一致状況，ＴＦ(Term Frequency)／ＩＤＦ(Inverse Document Frequency)などの各種パラメータが用いられる。そして，特許文献１に記載の装置によれば，複数の文書から成る文書集合において，出現数が多い名前で特定される人物は，重要人物であると判断されることになる。
【０００４】
【特許文献１】
特開平１１−２５１０８号公報
【０００５】
【発明が解決しようとする課題】
しかしながら，文書集合の中に記載されている人物の名前を表す文字列（単語）の重要度，換言すればその人物の重要度について，その文字列の出現数だけで評価することは正確性に欠ける場合がある。例えば，インターネットに公開されているある研究室のホームページに，その研究室に所属する人物の名前が頻出することは当然である。したがって，特定の研究室のホームページを構成する文書集合に同じ人物名が繰り返し出現したとしても，その人物の重要度が高いとは限らない。
【０００６】
本発明は，上記のような問題点に鑑みてなされたものであり，その目的は，文書集合に記載されている固有表現文字列の重要度等を正確に評価することが可能な，新規かつ改良された固有表現文字列の評価装置および評価方法を提供することにある。
【０００７】
【課題を解決するための手段】
上記課題を解決するために，本発明の第１の観点によれば，文書に含まれる固有表現文字列に評価値を付与する評価装置が提供される。そして，この評価装置は，評価値を付与する対象の固有表現文字列を含む複数の文書の相互間の関連度を定義し，当該関連度に基づいて，各文書の重み値を計算する文書重み計算部と，各文書の重み値を用いた演算処理を行うことによって，固有表現文字列の評価値を算出する評価値計算部とを備えたことを特徴としている。
【０００８】
かかる装置によれば，例えば，他の文書と関連性の低い文書の重み値を大きく設定し，重み値の大きい文書に記載されている固有表現文字列に対して高い評価値を与えることが可能となる。したがって，ある固有表現文字列が多くの文書に記載されていても，その固有表現文字列に高い評価値が付与されるとは限らなくなる。むしろ，他の文書と関連性の低い独立した文書に記載されている固有表現文字列に高い評価値が付与されることになる。
【０００９】
複数の文書は，木構造下で管理され，文書重み計算部は，木構造における各文書の存在位置に応じて各文書間の関連度を定義することが好ましい。これによって，各文書間の関連度が定量的に定義され，結果として，固有表現文字列に付与される評価値の精度が向上する。
【００１０】
文書重み計算部は，一の文書と他の一の文書に共通する木構造の節点の数に応じて，および／または，一の文書と他の一の文書の間に存在する木構造の枝の数に応じて，当該一の文書と当該他の一の文書の重み値を増減することが好ましい。また，文書重み計算部は，一の文書と他の一の文書が異なる木構造下で管理されている場合，当該一の文書と当該他の一の文書の重み値を最大または最小とすることが好ましい。
【００１１】
文書重み計算部は，各文書間の関連度を定義するために，各文書間の参照関係を用いるようにしてもよい。この場合，文書重み計算部は，直接的または間接的に一の文書と他の一の文書の両方を参照する第三の文書が存在するか否かに応じて，および／または，直接的または間接的に一の文書が他の一の文書を参照しているか否かに応じて，当該一の文書と当該他の一の文書の重み値を増減することが好ましい。また，文書重み計算部は，直接的または間接的に一の文書を参照する他の文書が存在しない場合，当該一の文書の重み値を最大（場合によっては最小）とすることが好ましい。
【００１２】
さらに，本発明にかかる固有表現文字列の評価装置は，複数の文書を収集する文書収集部と，文書収集部によって収集された文書の相互間の関連度を記憶する文書関連度記憶部とを備えることを特徴としている。この構成によれば，固有表現文字列の評価値を効率よく短時間で算出することが可能となる。
【００１３】
また，上記課題を解決するために，本発明の第２の観点によれば，文書に含まれる固有表現文字列に評価値を付与する評価方法が提供される。そして，この評価方法は，評価値を付与する対象の固有表現文字列を含む複数の文書の相互間の関連度を定義し，当該関連度に基づいて，各文書の重み値を計算する文書重み計算工程と，各文書の重み値を用いた演算処理を行うことによって，固有表現文字列の評価値を算出する評価値計算工程とを備えたことを特徴としている。
【００１４】
かかる方法によれば，他の文書と関連性の低い独立した文書に記載されている固有表現文字列に高い評価値を付与することが可能となる。
【００１５】
さらに，本発明にかかる固有表現文字列の評価方法は，複数の文書を収集する文書収集工程と，文書収集工程において収集された文書の相互間の関連度を記憶する文書関連度記憶工程とを備えることを特徴としている。そして，文書収集工程と文書関連度記憶工程は，少なくとも文書重み計算工程よりも前に行われることが好ましい。この方法によれば，固有表現文字列の評価値を効率よく短時間で算出することが可能となる。
【００１６】
なお，本発明において，「固有表現」には，組織名(会社名，団体名など)，人名，地名などの固有名詞，製品名，サービス名などの一般名詞，これら名詞と形容詞の組み合わせ，および品詞の分類が困難な新語などが含まれる。
【００１７】
【発明の実施の形態】
以下に添付図面を参照しながら，本発明にかかる固有表現文字列の評価装置および評価方法の好適な実施の形態について詳細に説明する。なお，以下の説明および添付された図面において，略同一の機能および構成を有する要素については，同一符号を付することによって重複説明を省略する。
【００１８】
＜第１の実施の形態＞
本発明の第１の実施の形態にかかる固有表現文字列の評価装置としての単語重要度判定装置１００は，ユーザから検索キーワードを受け付けて，この検索キーワードに関連する１または２以上の固有表現文字列（ここでは「人名」）を抽出するものである。そして，この単語重要度判定装置１００は，抽出した固有表現文字列の重要度（評価値）を判定し，ユーザに与える機能を有しており，図１に示すように，入力部１１０，文書検索部１２０，単語情報記憶部１３０，単語取得部１４０，位置情報記憶部１５０，単語重要度決定部１６０，および出力部１７０から構成されている。また，単語重要度決定部１６０は，位置関係計算部（文書重み計算部）１６２および重要度計算部（評価値計算部）１６６から構成されている。
【００１９】
入力部１１０は，ユーザからの検索要求として，検索キーワードを受け付ける。以下，検索キーワードが「燃料電池」である場合に即して説明する。なお，入力部１１０は，単語の他，熟語や自然文を検索キーワードとして受け付けることが可能である。
【００２０】
文書検索部１２０は，ネットワーク９００に公開されている全ての文書または所定のカテゴリに属する文書の中から検索キーワードに適合する（検索キーワードが記載された）１または２以上の文書を検索し，各文書の識別子を出力する。なお，ネットワーク９００は，インターネットのようなパブリックなネットワークでもよいし，イントラネットのようなローカルなネットワークでもよい。
【００２１】
単語情報記憶部１３０は，ユーザが入力部１１０に検索キーワードを入力した時点で既に，ネットワーク９００に公開されている全ての文書または所定のカテゴリに属する文書の中に出現する単語（または文字列）に関する情報（単語名，単語種別など）を格納している。例えば，単語情報記憶部１３０は，図２に示すように，文書識別子と単語情報をテーブル形式で保持する。単語情報は，単語と，その単語の種別から構成される。単語種別として，人名，組織名，役職，場所名などが用いられる。
【００２２】
単語取得部１４０は，文書検索部１２０によって検索された文書の識別子のリストを文書検索部１２０から受け取る。そして，単語取得部１４０は，識別子のリストを用いて単語情報記憶部１３０を参照し，各識別子で識別される各文書に含まれる所定の種別の単語（ここでは「人名」）を取得する。
【００２３】
位置情報記憶部１５０は，ユーザが入力部１１０に検索キーワードを入力した時点で既に，ネットワーク９００に公開されている全ての文書または所定のカテゴリに属する文書の位置情報を格納している。例えば，ネットワーク９００がインターネットである場合，位置情報記憶部１５０に格納される各文書の位置情報としては，図３に示すように，各文書のURL(Uniform Resource Locator)を用いることが好ましい。
【００２４】
なお，単語情報記憶部１３０に格納される単語に関する情報および位置情報記憶部１５０に格納される各文書の位置情報は，例えば，WWW(World Wide Web)上から文書を収集するロボット（図示せず）と，収集した文書から人名や組織名等の固有表現文字列（例えば，固有名詞）を抽出する固有表現抽出装置（図示せず）によって取得可能である。文書に記載されている文字列の中から固有名詞等の固有表現文字列を抽出するためには，例えば，下記の文献に記載されている装置を利用することができる。
【００２５】
福本淳一，下畑光夫，桝井文人，「固有名詞抽出における日本語と英語の比較」，『信学技報(TECHNICAL REPORT OF IEICE)』，ＮＬＣ９８‐２１（１９９８−０７）
【００２６】
単語重要度決定部１６０は，単語取得部１４０が取得した各人名について重要度を決定する。
【００２７】
各人名の重要度を決定するために，単語重要度決定部１６０に属する位置関係計算部１６２は，位置情報記憶部１５０に格納されている各文書のURLを参照して，各人名が記載されている各文書間の位置関係（関連度）を算出し，さらに各文書の重みを算出する。この位置関係計算部１６２の動作の詳細については後述する。
【００２８】
単語重要度決定部１６０に属する重要度計算部１６６は，位置関係計算部１６２によって計算された各文書の重みに基づいて，各人名の重要度を決定する。この重要度計算部１６６の動作の詳細についても後述する。
【００２９】
以上のように構成された本実施の形態にかかる単語重要度判定装置１００の動作について，図４〜図８を参照しながら説明する。
【００３０】
図４は，本実施の形態にかかる単語重要度判定装置１００の全体的な動作フローを示している。また，図５と図６は，位置関係計算部１６２の動作（ステップＳ１２０）の詳細フローを示しており，図７は，重要度計算部１６６の動作（ステップＳ１３０）の詳細フローを示している。
【００３１】
以下，検索キーワード「燃料電池」に関連する人物であって最も重要な人物を，ネットワーク９００に公開されている複数の文書の中から抽出する場合に即して，本実施の形態にかかる単語重要度判定装置１００の動作を説明する。
【００３２】
（ステップＳ１００）
まず，入力部１１０に対して検索キーワード「燃料電池」が入力されると，文書検索部１２０は，ネットワーク９００に公開されている複数の文書の中から，この検索ワード「燃料電池」が記載されている文書を検索する。例えば，ネットワーク９００に公開されている文書（文書集合）が図２に示した６つの文書（識別子ｄｏｃ１〜ｄｏｃ６）の場合，文書（識別子ｄｏｃ３）を除く５つの文書（識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ４，ｄｏｃ５，ｄｏｃ６）が検索キーワード「燃料電池」に適合する。文書検索部１２０は，検索した文書の識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ４，ｄｏｃ５，ｄｏｃ６をリスト形式で単語取得部１４０に与える。
【００３３】
（ステップＳ１１０）
次に，単語取得部１４０は，単語情報記憶部１３０に記憶されている単語情報（図２）を参照する。そして，単語取得部１４０は，文書検索部１２０から与えられたリストを構成する識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ４，ｄｏｃ５，ｄｏｃ６の文書を選択し，これらの文書に記載されている単語のうち単語種別が「人名」である単語を取得する。
【００３４】
例えば，単語情報記憶部１３０が図２に示した単語情報を格納している場合，単語取得部１４０は，識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６の文書からそれぞれ「田中太郎」を取得し，識別子ｄｏｃ４，ｄｏｃ５の文書からそれぞれ「佐藤花子」を取得する。
【００３５】
単語取得部１４０は，各文書から人名を取得した後，パターンマッチング法を用いて，人名を表す文字列が一致するものをまとめて，「人名−当該人名を含む文書の識別子のリスト」という形式で出力する。出力例は次の通りである。
【００３６】
「田中太郎」−ｄｏｃ１，ｄｏｃ２，ｄｏｃ６
「佐藤花子」−ｄｏｃ４，ｄｏｃ５
【００３７】
（ステップＳ１２０）
次いで，単語重要度決定部１６０に属する位置関係計算部１６２は，単語取得部１４０が出力したリストに基づいて，人名ごとに，当該人名が記載されている複数の文書の位置関係を算出する。
【００３８】
人名「田中太郎」については，上記の３つの識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６の文書が該当するため，次の３種類の組み合わせの文書間の位置関係が計算される。
【００３９】
（１）識別子ｄｏｃ１の文書と識別子ｄｏｃ２の文書
（２）識別子ｄｏｃ２の文書と識別子ｄｏｃ６の文書
（３）識別子ｄｏｃ６の文書と識別子ｄｏｃ１の文書
【００４０】
人名「佐藤花子」については，上記の２つの識別子ｄｏｃ４，ｄｏｃ５の文書が記載文書に該当するため，次の１種類の組み合わせの文書間の位置関係が計算される。
【００４１】
（１）識別子ｄｏｃ４の文書と識別子ｄｏｃ５の文書
【００４２】
位置関係計算部１６２は，文書の各組み合わせの位置関係に基づいて，各文書に最も距離的に近い文書（以下，「近接文書」という）を決定する。
【００４３】
本実施の形態において，各文書は，ネットワーク９００においてディレクトリ構造（木構造）下で管理されており，２つの文書間の「距離」とは，ディレクトリを基準として定義される両文書のデータ管理上の間隔を意味する。そして，本実施の形態によれば，２つの文書間の「位置関係」は，「両文書の関係タイプ（以下，『関係タイプ』という）」，「両文書に共通するディレクトリの深さ（以下，『共通ディレクトリ深さ』という）」，および「一の文書の格納位置から他の文書の格納位置へ移動するときに経由するディレクトリ数（以下，『経由ディレクトリ数』という）」の３つの属性を有する。
【００４４】
各文書の位置関係について，木構造によるデータ管理の面から説明すると次の通りである。２つの文書はそれぞれ２つの「葉」に位置し，「共通ディレクトリ深さ」は，２つの葉に共通する「節点」の数に相当する。また，「経由ディレクトリ数」は，２つの葉の間に存在する「枝」の数に相当する。
【００４５】
次に，「関係タイプ」，「共通ディレクトリ深さ」，および「経由ディレクトリ数」の各属性について説明する。
【００４６】
属性「関係タイプ」を決定するにあたり，両文書のURLが用いられる。そして，この属性「関係タイプ」が取り得る値は，「無関係」，「ドメイン一致」，「サブドメイン一致」，または「ホスト一致」のいずれかである。なお，「無関係」の場合は，属性「関係タイプ」には，null（空値）がセットされる。
【００４７】
属性「関係タイプ」の設定について具体例を用いて説明する。ある文書（仮に「文書Ａ」とする）のURLが， "http://www.sub1.aa.co.jp/bb/cc/doc_A.html" である場合を考える。このURLにおいて，
"www" はマシン名であり， "sub1" はサブドメイン名であり， "aa.co.jp" はドメイン名であり，
"bb/cc/" はディレクトリ名であり， "doc_A.html" はファイル名（文書名）である。そして，比較対象の文書（仮に「文書Ｂ」とする）のURLに応じて，次のように文書Ａと文書Ｂの関係タイプが決定される。
【００４８】
（ケース１）
文書Ｂが属するドメインが，文書Ａが属するドメインと異なる場合，文書Ｂは，文書Ａから基準よりも離れた位置に存在すると判断され，属性「関係タイプ」には，nullがセットされる。例えば，文書ＢのURLが
"http://www.sub1.dd.co.jp/bb/cc/doc_B.html" の場合，この「関係タイプ = null」に該当する。本実施の形態において，文書Ｂが属するドメインが，文書Ａが属するドメインと異なる場合，これらの文書は異なる木構造下で管理されているものとする。
【００４９】
（ケース２）
文書Ｂが，文書Ａと同じドメインに属するが，異なるサブドメインに属する場合，属性「関係タイプ」には，”ドメイン一致”がセットされる。例えば，文書ＢのURLが
"http://www.sub2.aa.co.jp/bb/cc/doc_B.html" の場合，あるいは
"http://www.aa.co.jp/bb/cc/doc_B.html" （サブドメインなし）の場合，この「関係タイプ = ”ドメイン一致”」に該当する。
【００５０】
（ケース３）
文書Ｂが，文書Ａと同じドメインに属し，かつ，同じサブドメインに属するが，異なるサーバ（マシン）に格納されている場合，属性「関係タイプ」には，”サブドメイン一致”がセットされる。例えば，文書ＢのURLが
"http://www2.sub1.aa.co.jp/bb/cc/doc_B.html" の場合，この「関係タイプ =”サブドメイン一致”」に該当する。なお，比較する文書の各URLにサブドメイン名が含まれない場合も，両文書は，同じサブドメインに属していると考える。例えば，文書ＡのURLが
"http://www.aa.co.jp/bb/cc/doc_A.html" であり，文書ＢのURLが
"http://www2.aa.co.jp/bb/cc/doc_B.html" の場合，双方のURLはサブドメインがない点で一致し，文書Ａと文書Ｂの関係タイプは，”サブドメイン一致”に該当する。
【００５１】
（ケース４）
文書Ｂが，文書Ａと同じドメインに属し，かつ，同じサブドメインに属し，しかも同じサーバ（マシン）に格納されている場合，属性「関係タイプ」には，”ホスト一致”がセットされる。例えば，文書ＢのURLが "http://www.sub1.aa.co.jp/bb/cc/doc_B.html"
の場合，あるいは "http://www.sub1.aa.co.jp/ee/doc_B.html" （ディレクトリが異なる）の場合，この「関係タイプ
=”ホスト一致”」に該当する。
【００５２】
以上のようにして，２つの文書の位置関係の３つの属性のうち，「関係タイプ」の値が決定する。２つの文書の間の距離は，（ケース１）〜（ケース４）の順で近づく。このうち２つの文書が最も近くなる（ケース４）の場合，すなわち属性「関係タイプ」に”ホスト一致”がセットされた場合，さらに残りの２つの属性「共通ディレクトリ深さ」および属性「経由ディレクトリ数」に対して比較する２つの文書の位置に応じた値がセットされる。なお，（ケース１）〜（ケース３）の場合，すなわち属性「関係タイプ」に
"null" ，”ドメイン一致”，”サブドメイン一致”のいずれかがセットされた場合には，属性「共通ディレクトリ深さ」および属性「経由ディレクトリ数」には，
"null" がセットされる。
【００５３】
属性「関係タイプ」に”ホスト一致”がセットされた場合，属性「共通ディレクトリ深さ」には，比較対象の２つの文書に共通するディレクトリの深さがセットされる。例えば，図２に示した識別子ｄｏｃ１の文書と識別子ｄｏｃ６の文書を比較した場合，共通するディレクトリは，
"aa/" であるため，これら２つの文書間の「位置関係」の属性「共通ディレクトリ深さ」には”１”がセットされる。
【００５４】
また，属性「関係タイプ」に”ホスト一致”がセットされた場合，属性「経由ディレクトリ数」には，比較対象の２つの文書のうち，一方の文書の格納位置から他方の文書の格納位置へ移動するときに経由するディレクトリの数がセットされる。例えば，図２に示した識別子ｄｏｃ１の文書と識別子ｄｏｃ６の文書を比較する場合，識別子ｄｏｃ１の文書の格納位置から識別子ｄｏｃ６の文書の格納位置へ移動するには図８に示したような経路をたどることになる。つまり，この移動において，経由されるディレクトリ数は”３”である。この値が属性「経由ディレクトリ数」にセットされる。
【００５５】
上述のように，２つの文書の間の距離は，（ケース１）〜（ケース４）の順で近づく。このうち２つの文書の距離が最も近くなる（ケース４）の場合，すなわち属性「関係タイプ」に”ホスト一致”がセットされた場合，属性「共通ディレクトリ深さ」と属性「経由ディレクトリ数」にセットされる値に応じて，２つの文書の距離が判定される。本実施の形態においては，２つの文書の距離を判定する基準として，属性「共通ディレクトリ深さ」を属性「経由ディレクトリ数」に優先適用する。すなわち，例えば，文書Ａと文書Ｂの間の距離と，文書Ａと文書Ｃの間の距離を比較する場合，属性「経由ディレクトリ数」の値に関わらず，属性「共通ディレクトリ深さ」の値が大きい文書組み合わせの方の距離が近いと判断される。もし，属性「共通ディレクトリ深さ」の値が同じならば，属性「経由ディレクトリ数」の値が小さい文書組み合わせの方の距離が近いと判断される。
【００５６】
図５と図６は，図４のステップＳ１２０の詳細を示している。同図を参照しながら，位置関係計算部１６２の処理動作（文書重み計算工程）を説明する。
【００５７】
位置関係計算部１６２は，前段の単語取得部１４０がステップＳ１１０において取得した人名Ｐ_ｉ（ｉ＝１，２，・・・，ｍ）ごとに，当該人名が記載されている複数の文書Ｕ_ｉｊ（ｊ＝１，２，・・・，ｎ）の位置関係を判定する。なお，本実施の形態では，人名Ｐ_１＝「田中太郎」，人名Ｐ_２＝「佐藤花子」とする。また，このように人名Ｐ_ｉを定義することによって，文書Ｕ_１１＝「識別子ｄｏｃ１の文書」，文書Ｕ_１２＝「識別子ｄｏｃ２の文書」，文書Ｕ_１３＝「識別子ｄｏｃ６の文書」，文書Ｕ_２１＝「識別子ｄｏｃ４の文書」，文書Ｕ_２２＝「識別子ｄｏｃ５の文書」となる。
【００５８】
（ステップＳ１２０−０１）
処理対象の人名を設定するカウンタｉを”１”に初期化する。つまり，まずＰ_１＝「田中太郎」が記載されている文書間の距離を判定する処理を行う。
【００５９】
（ステップＳ１２０−０２）
ｉがｍ以下ならステップＳ１２０−０３を実行する。ｉがｍより大きい場合には，全ての人名Ｐ_１〜Ｐ_ｍについての処理が行われたことになるため，本処理を終了する。
【００６０】
（ステップＳ１２０−０３）
処理対象の文書を指定するカウンタｊを”１”に初期化する。以下，文書Ｕ_ｉｊ（最初は，文書Ｕ１１＝「識別子ｄｏｃ１の文書」）の近接文書を順に選出する。
【００６１】
（ステップＳ１２０−０４）
ｊがｎ以下ならステップＳ１２０−０５を実行する。ｊがｎより大きい場合には，文書Ｕ_ｉ１〜Ｕ_ｉｎについての処理が完了したことになる。このときは，ｉをカウントアップするために，ステップＳ１２０−２０へジャンプする。
【００６２】
（ステップＳ１２０−０５）
後述するように，本実施の形態においては，文書Ｕ_ｉｊを基準として，文書Ｕ_ｉｊと文書Ｕ_ｉｋ（ｋ＝１，２，・・・，ｍ）との位置関係が順次計算される。位置関係計算部１６２は，この位置関係を記憶する記憶手段を備えている。そして，この記憶手段は，文書Ｕ_ｉｊと文書Ｕ_ｉｋとの位置関係の３つの属性，すなわち属性「関係タイプ」，属性「共通ディレクトリ深さ」，および属性「経由ディレクトリ数」それぞれに対応する変数領域ｍｉｎ＿ｔｙｐｅ_ｉｊ，ｍａｘ＿ｄｅｐｔｈ_ｉｊ，ｍｉｎ＿ｄｉｓｔａｎｃｅ_ｉｊを有している。このステップでは，各変数領域に "null" をセットして，記憶手段を初期化する。
【００６３】
（ステップＳ１２０−０６）
以下，基準の文書Ｕ_ｉｊと文書Ｕ_ｉｋとの位置関係を順次計算するために，まず，カウンタｋを”１”に初期化する。
【００６４】
（ステップＳ１２０−０７）
同じ文書同士の位置関係の計算を避けるために，ｊとｋが一致する場合は，ステップＳ１２０−１８へジャンプする。ｊとｋが一致しない場合は，ステップＳ１２０−０８を実行する。
【００６５】
（ステップＳ１２０−０８）
ｋがｎ以下ならステップＳ１２０−０９を実行する。ｋがｎより大きい場合には，基準の文書Ｕ_ｉｊと文書Ｕ_ｉｋとの位置関係の計算が終了したことになる。ｊをカウントアップするために，ステップＳ１２０−１９へジャンプする。
【００６６】
（ステップＳ１２０−０９）
基準の文書Ｕ_ｉｊと文書Ｕ_ｉｋの位置関係の属性「関係タイプ（ｔｙｐｅ_ｉｊｋ）」，属性「共通ディレクトリ深さ（ｄｅｐｔｈ_ｉｊｋ）」，および属性「経由ディレクトリ数ｄｉｓｔａｎｃｅ_ｉｊｋ」を算出する。
【００６７】
例えば，文書Ｕ_ｉｊが図２に示した識別子ｄｏｃ１の文書であり，文書Ｕ_ｉｋが同図に示した識別子ｄｏｃ６の文書である場合，属性「共通ディレクトリ深さ」の値は”１”，属性「経由ディレクトリ数」の値は”３”になる。
【００６８】
属性「経由ディレクトリ数」の値は，以下の手順で算出される。
【００６９】
まず，文書Ｕ_ｉｊと文書Ｕ_ｉｋの各URLを表す文字列を前方一致で比較し，両者に共通する文字列と共通しない文字列を抽出する。例えば，識別子ｄｏｃ１の文書のURLと識別子ｄｏｃ６の文書のURLを比較した場合，共通する文字列は，
"http://www.aaa.co.jp/aa/" である。このうち， "http://www.aaa.co.jp"にドメイン名とマシン名が含まれていることは，パターンマッチング法を用いれば識別可能である。また，ディレクトリの記載位置も容易に特定できる。
【００７０】
次に，両者に共通しない文字列 "bb/index.html" と "cc/dd/index.html" に注目し，各文字列の中で，ディレクトリの区切りを示す文字
"/" の個数を数える。この "/" の個数の和が属性「経由ディレクトリ数」となる。例えば，識別子ｄｏｃ１の文書のURLに含まれる
"bb/index.html" には "/" が１つ存在し，識別子ｄｏｃ６の文書のURLに含まれる
"cc/dd/index.html" には "/" が２つ存在する。したがって，識別子ｄｏｃ１の文書と識別子ｄｏｃ６の文書の位置関係における，属性「経由ディレクトリ」には”３”がセットされる。
【００７１】
（ステップＳ１２０−１０）
これ以降，ステップＳ１２０−０９において算出された位置関係の属性の値に基づいて，文書Ｕ_ｉｋが文書Ｕ_ｉｊの近接文書か否かを判定する。
【００７２】
次の条件１と条件２をともに満足する場合は，ステップＳ１２０−１３Ｓ１２０−１１を実行し，満足しない場合は，ステップＳ１２０−１４Ｓ１２０−１２を実行する。
【００７３】
［条件１］
文書Ｕ_ｉｊと文書Ｕ_ｉｋの位置関係における属性「関係タイプ（ｔｙｐｅ_ｉｊｋ）」の値が”ドメイン一致”である。
【００７４】
［条件２］
位置関係計算部１６２が有する記憶手段における変数領域ｍｉｎ＿ｔｙｐｅ_ｉｊの値が "null" である。
【００７５】
（ステップＳ１２０−１１）
位置関係計算部１６２が有する記憶手段における変数領域ｍｉｎ＿ｔｙｐｅ_ｉｊに”ドメイン一致”をセットする。そして，ステップＳ１２０−１８へジャンプする。
【００７６】
（ステップＳ１２０−１２）
次の条件３と条件４をともに満足する場合は，ステップＳ１２０−１３を実行し，満足しない場合は，ステップＳ１２０−１４を実行する。
【００７７】
［条件３］
文書Ｕ_ｉｊと文書Ｕ_ｉｋの位置関係における属性「関係タイプ（ｔｙｐｅ_ｉｊｋ）」の値が”サブドメイン一致”である。
【００７８】
［条件４］
位置関係計算部１６２が有する記憶手段における変数領域ｍｉｎ＿ｔｙｐｅ_ｉｊの値が "null" ，または，”ドメイン一致”である。
【００７９】
（ステップＳ１２０−１３）
位置関係計算部１６２が有する記憶手段における変数領域ｍｉｎ＿ｔｙｐｅ_ｉｊに”サブドメイン一致”をセットする。そして，ステップＳ１２０−１８へジャンプする。
【００８０】
（ステップＳ１２０−１４）
次の条件５と条件６をともに満足する場合は，ステップＳ１２０−１５を実行し，満足しない場合は，ステップＳ１２０−１８へジャンプする。
【００８１】
［条件５］
文書Ｕ_ｉｊと文書Ｕ_ｉｋの位置関係における属性「共通ディレクトリ深さ（ｄｅｐｔｈ_ｉｊｋ）」の値が "null" 以外である。
【００８２】
［条件６］
位置関係計算部１６２が有する記憶手段における変数領域ｍａｘ＿ｄｅｐｔｈ_ｉｊの値が "null" ，または，文書Ｕ_ｉｊと文書Ｕ_ｉｋの位置関係における属性「共通ディレクトリ深さ（ｄｅｐｔｈ_ｉｊｋ）」の値以下である。
【００８３】
（ステップＳ１２０−１５）
位置関係計算部１６２が有する記憶手段における変数領域ｍａｘ＿ｄｅｐｔｈ_ｉｊに，文書Ｕ_ｉｊと文書Ｕ_ｉｋの位置関係における属性「共通ディレクトリ深さ（ｄｅｐｔｈ_ｉｊｋ）」の値をセットする。また，位置関係計算部１６２が有する記憶手段における変数領域ｍｉｎ＿ｔｙｐｅ_ｉｊに”ホスト一致”をセットする。
【００８４】
（ステップＳ１２０−１６）
次の条件７を満足する場合は，ステップＳ１２０−１７を実行し，満足しない場合は，ステップＳ１２０−１８へジャンプする。
【００８５】
［条件７］
位置関係計算部１６２が有する記憶手段における変数領域ｍｉｎ＿ｄｉｓｔａｎｃｅ_ｉｊの値が "null" ，または，文書Ｕ_ｉｊと文書Ｕ_ｉｋの位置関係における属性「経由ディレクトリ数（ｄｉｓｔａｎｃｅ_ｉｊｋ）」の値以上である。
【００８６】
（ステップＳ１２０−１７）
位置関係計算部１６２が有する記憶手段における変数領域ｍｉｎ＿ｄｉｓｔａｎｃｅ_ｉｊに，文書Ｕ_ｉｊと文書Ｕ_ｉｋの位置関係における属性「経由ディレクトリ数（ｄｉｓｔａｎｃｅ_ｉｊｋ）」の値をセットする。
【００８７】
（ステップＳ１２０−１８）
カウンタｋに”１”を加えて，ステップＳ１２０−０７へ戻る。基準の文書Ｕ_ｉｊと次の文書Ｕ_ｉｋとの位置関係を計算する。
【００８８】
（ステップＳ１２０−１９）
カウンタｊに”１”を加えて，ステップＳ１２０−０４へ戻る。次の文書Ｕ_ｉｊを基準に設定して，文書Ｕ_ｉｋとの位置関係を計算する。
【００８９】
（ステップＳ１２０−２０）
カウンタｉに”１”を加えて，ステップＳ１２０−０２へ戻る。次の人名（例えば，Ｐ_２＝「佐藤花子」）が記載されている文書間の距離を判定する処理を行う。
【００９０】
以上のように，位置関係計算部１６２がステップＳ１２０（ステップＳ１２０−０１〜Ｓ１２０−２０）の動作を行うことによって，単語取得部１４０が出力した人名ごとに，当該人名が記載されている複数の文書の位置関係が決定する。
【００９１】
本実施の形態において，単語取得部１４０は，人名として「田中太郎」と「佐藤花子」を出力している。そして，人名「田中太郎」は，識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６の各文書に記載されており，人名「佐藤花子」は，識別子ｄｏｃ４，ｄｏｃ５に記載されている。この場合，位置関係計算部１６２による処理結果は次のようになる。
【００９２】
人名「田中太郎」を含む文書（識別子ｄｏｃ１）の近接文書は，識別子ｄｏｃ２の文書と判定され，これらの文書の位置関係は，以下のように定義される。
【００９３】
関係タイプ＝”ホスト一致”
共通ディレクトリ深さ＝”１”
経由ディレクトリ数＝”１”
【００９４】
人名「田中太郎」を含む文書（識別子ｄｏｃ２）の近接文書は，識別子ｄｏｃ１の文書と判定され，これらの文書の位置関係は，以下のように定義される。
【００９５】
関係タイプ＝”ホスト一致”
共通ディレクトリ深さ＝”１”
経由ディレクトリ数＝”１”
【００９６】
人名「田中太郎」を含む文書（識別子ｄｏｃ６）の近接文書は，識別子ｄｏｃ２の文書と判定され，これらの文書の位置関係は，以下のように定義される。
【００９７】
関係タイプ＝”ホスト一致”
共通ディレクトリ深さ＝”１”
経由ディレクトリ数＝”２”
【００９８】
人名「佐藤花子」を含む文書（識別子ｄｏｃ４）との位置関係が判定される文書は，識別子ｄｏｃ５の文書だけである。これらの文書の位置関係は，以下のように定義される。
【００９９】
関係タイプ＝
"null"
共通ディレクトリ深さ＝ "null"
経由ディレクトリ数＝ "null"
【０１００】
人名「佐藤花子」を含む文書（識別子ｄｏｃ５）との位置関係が判定される文書は，識別子ｄｏｃ４の文書だけである。これらの文書の位置関係は，以下のように定義される。
【０１０１】
関係タイプ＝
"null"
共通ディレクトリ深さ＝ "null"
経由ディレクトリ数＝ "null"
【０１０２】
つまり，人名「佐藤花子」を含む２つの文書（識別子ｄｏｃ４，ｄｏｃ５）には，近接文書は存在しないことになる。
【０１０３】
（ステップＳ１３０）
位置関係計算部１６２の処理結果に基づいて，重要度計算部１６６は，個々の人名に対して重要度を計算する。図７は，図４のステップＳ１３０の詳細を示している。同図を参照しながら，重要度計算部１６６の処理動作（評価値計算工程）を説明する。
【０１０４】
（ステップＳ１３０−０１）
重要度の計算対象となる人名を示すカウンタｉを”１”に初期化する。
【０１０５】
（ステップＳ１３０−０２）
ｉがｍ以下ならステップＳ１３０−０３を実行する。ｉがｍより大きい場合には，全ての人名Ｐ_１〜Ｐ_ｍについての処理が行われたことになるため，本処理を終了する。
【０１０６】
（ステップＳ１３０−０３）
人名Ｐ_ｉが記載されている文書Ｕ_ｉ１，Ｕ_ｉ２，・・・，Ｕ_ｉｎそれぞれの重みｇｅｔＷｅｉｇｈｔを順に計算するために，まず，計算対象の文書を指定するカウンタｊを”１”に初期化する。
【０１０７】
（ステップＳ１３０−０４）
人名Ｐ_ｉの重要度ｗｅｉｇｈｔ_ｉを”０”に初期化する。
【０１０８】
（ステップＳ１３０−０５）
ｊがｎ以下ならステップＳ１３０−０６を実行する。ｊがｎより大きい場合には，文書Ｕ_ｉ１〜Ｕ_ｉｎの重みｇｅｔＷｅｉｇｈｔの計算が完了したことになる。このときは，ｉをカウントアップするために，ステップＳ１３０−０８へジャンプする。
【０１０９】
（ステップＳ１３０−０６）
処理対象の文書Ｕ_ｉｊの重みｇｅｔＷｅｉｇｈｔを以下の重み算出条件１−１〜１−５に従って設定する。なお，この重み算出処理については，より上位の条件が優先的に採用されるものとする。
【０１１０】
［重み算出条件１−１］
文書Ｕ_ｉｊと，この文書Ｕ_ｉｊの近接文書との位置関係において，属性「関係タイプ」の値が "null" である。この条件を満足した場合，文書Ｕ_ｉｊの重みｇｅｔＷｅｉｇｈｔに”１．０”をセットする。
【０１１１】
［重み算出条件１−２］
文書Ｕ_ｉｊの近接文書の重み算出処理が未だ行われていない既に行われている。この条件を満足した場合，文書Ｕ_ｉｊの重みｇｅｔＷｅｉｇｈｔに”１．０”をセットする。なお，この条件には，例えば，文書Ｕ_ｉｊの識別子と，この文書Ｕ_ｉｊの近接文書の識別子を昇べきの順に並べ，近接文書の識別子が上位下位である場合に該当する。
【０１１２】
［重み算出条件１−３］
文書Ｕ_ｉｊと，この文書Ｕ_ｉｊの近接文書との位置関係において，属性「関係タイプ」の値が”ドメイン一致”である。この条件を満足した場合，文書Ｕ_ｉｊの重みｇｅｔＷｅｉｇｈｔに”０．９５”をセットする。
【０１１３】
［重み算出条件１−４］
文書Ｕ_ｉｊと，この文書Ｕ_ｉｊの近接文書との位置関係において，属性「関係タイプ」の値が”サブドメイン一致”である。この条件を満足した場合，文書Ｕ_ｉｊの重みｇｅｔＷｅｉｇｈｔに”０．９５”をセットする。
【０１１４】
［重み算出条件１−５］
文書Ｕ_ｉｊと，この文書Ｕ_ｉｊの近接文書との位置関係において，属性「関係タイプ」の値が”ホスト一致”である。この条件を満足した場合，文書Ｕ_ｉｊの重みｇｅｔＷｅｉｇｈｔに下記の式（１−１）または式（１−２）のいずれか一方から得られる値をセットする。文書Ｕ_ｉｊと，この文書Ｕ_ｉｊの近接文書との位置関係において，属性「経由ディレクトリ数」の値が”５”未満の場合は，式（１−１）を用い，”５”以上の場合は，式（１−２）を用いる。なお，式（１−１）および式（１−２）において，ｐに文書Ｕ_ｉｊの近接文書との位置関係における属性「共通ディレクトリ深さ」の値を代入し，ｑに属性「経由ディレクトリ数」の値を代入する。
【０１１５】
ｇｅｔＷｅｉｇｈｔ＝０．９×（０．５）^ｐ×（０．７５）^５−ｑ・・・式（１−１）
【０１１６】
ｇｅｔＷｅｉｇｈｔ＝０．９×（０．５）^ｐ・・・式（１−２）
【０１１７】
文書Ｕ_ｉｊの重みが算出されるごとに，算出された重みを，変数領域ｗｅｉｇｈｔ_ｉの値に加算する。
【０１１８】
（ステップＳ１３０−０７）
カウンタｊに”１”を加えて，ステップＳ１３０−０５へ戻る。次の文書の重みを計算する。
【０１１９】
以上のステップＳ１３０−０５〜Ｓ１３０−０７を繰り返して，人名Ｐ_ｉが記載されている全ての文書の重みが計算され，その都度，変数領域ｗｅｉｇｈｔ_ｉの値に加算される。この結果，人名Ｐ_ｉの重要度が変数領域ｗｅｉｇｈｔ_ｉに得られる。
【０１２０】
（ステップＳ１３０−０８）
カウンタｉに”１”を加えて，ステップＳ１３０−０２へ戻る。次の人名（例えば，Ｐ_２＝「佐藤花子」）の重要度を計算する。
【０１２１】
以上のように，重要度計算部１６６がステップＳ１３０（ステップＳ１３０−０１〜Ｓ１３０−０８）の動作を行うことによって，単語取得部１４０が出力した人名ごとの重要度が決定する。
【０１２２】
ここで，人名Ｐ_１＝「田中太郎」と人名Ｐ_２＝「佐藤花子」の各重要度について具体例を用いて説明する。
【０１２３】
人名Ｐ_１＝「田中太郎」が含まれる各文書（識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６）の重みは以下の通りである。
【０１２４】
識別子ｄｏｃ１の文書の重み：１．００点（重み算出条件１−２）
【０１２５】
識別子ｄｏｃ２の文書の重み：０．９×（０．５）^１×（０．７５）^５−１＝０．１４点（重み算出条件１−５の式（１−２））
【０１２６】
識別子ｄｏｃ６の文書の重み：０．９×（０．５）^１×（０．７５）^５−２＝０．１９点（重み算出条件１−５の式（１−２））
【０１２７】
この結果，人名Ｐ_１＝「田中太郎」の重要度は，識別子ｄｏｃ１の文書の重み，識別子ｄｏｃ２の文書の重み，および識別子ｄｏｃ６の文書の重みの合計１．３３（＝１．００＋０．１４＋０．１９）点となる。
【０１２８】
また，人名Ｐ_２＝「佐藤花子」が含まれる各文書（識別子ｄｏｃ４，ｄｏｃ５）の重みは以下の通りである。
【０１２９】
識別子ｄｏｃ４の文書の重み：１．００点（重み算出条件１−１）
【０１３０】
識別子ｄｏｃ５の文書の重み：１．００点（重み算出条件１−１）
【０１３１】
この結果，人名Ｐ_２＝「佐藤花子」の重要度は，識別子ｄｏｃ４の文書の重みと識別子ｄｏｃ５の文書の重みの合計２．００（＝１．００＋１．００）点となる。
【０１３２】
人名Ｐ_２＝「佐藤花子」は，２つの文書（識別子ｄｏｃ４，ｄｏｃ５）にしか出現していないにも関わらず，これら２つの文書のURLが全く異なるため，位置的に近い３つの文書（識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６）に出現している人名Ｐ_１「田中太郎」よりその重要度が高くなる。
【０１３３】
（ステップＳ１４０）
重要度計算部１６６の処理結果に基づいて，出力部１７０は，人名を重要度が高いものから順に出力する。本実施の形態においては，「佐藤花子」，「田中太郎」の順である。
【０１３４】
以上のように，第１の実施の形態によれば，URLを用いて各文書の位置関係が算出され，この位置関係に基づいて各人名の重要度が判定される。そして，各文書の位置がお互いに離れるほど，各文書に記載されている人名には高い重要度が付与される。したがって，多くの文書に記載されている人名であっても，必ずしも重要度の高い人名とは判断されない。相互に関係の薄い多くの文書に記載されている人名に高い重要度が付与される。この結果，重要な人名（人物）を高い精度で選出することが可能となる。
【０１３５】
なお，ステップＳ１２０における各文書の位置関係の計算方法，およびステップＳ１３０における各人名の重要度の計算方法は，上記の例に限定されない。例えば，ネットワーク９００の規模や，ネットワーク９００に公開されている文書の数，または重要度が判定される人名の数等に応じて，文書Ｕ_ｉｊの重みｇｅｔＷｅｉｇｈｔに上記とは異なる数値がセットされるようにしてもよい。
【０１３６】
＜第２の実施の形態＞
第１の実施の形態にかかる単語重要度判定装置１００は，文書間の位置関係を判定するにあたり，各文書のURLを利用する。これに対して，第２の実施の形態にかかる単語重要度判定装置２００は，各文書の位置関係を文書間のリンク関係（参照関係）に基づいて判定する。
【０１３７】
本実施の形態にかかる単語重要度判定装置２００は，第１の実施の形態にかかる単語重要度判定装置１００に対して，単語重要度決定部１６０が単語重要度決定部２６０に置き換えられ，位置情報記憶部１５０がリンク情報記憶部２５０に置き換えられた構成を有する。すなわち，単語重要度判定装置２００は，図９に示すように，入力部１１０，文書検索部１２０，単語情報記憶部１３０，単語取得部１４０，リンク情報記憶部２５０，単語重要度決定部２６０，および出力部１７０から構成されている。また，単語重要度決定部２６０は，リンク関係探索部２６２，文書間関係決定部２６４，および重要度計算部２６６から構成されている。
【０１３８】
リンク情報記憶部２５０は，ユーザが入力部１１０に検索キーワードを入力した時点で既に，ネットワーク９００に公開されている全ての文書または所定のカテゴリに属する文書のリンク関係を格納している。例えば，ネットワーク９００に識別子ｄｏｃ１〜ｄｏｃ６の文書が公開されており，それぞれ図１０に示すような参照関係を形成している場合，リンク情報記憶部２５０は，図１１に示すように，識別子ｄｏｃ１〜ｄｏｃ６とそれぞれに対応する参照元文書の識別子をテーブルに格納する。
【０１３９】
図１１に示したテーブルによれば，識別子ｄｏｃ２の文書は，識別子ｄｏｃ１の文書と識別子ｄｏｃ３の文書から参照されており，識別子ｄｏｃ４の文書は，識別子ｄｏｃ３の文書から参照されており，識別子ｄｏｃ６の文書は，識別子ｄｏｃ４の文書から参照されていることが分かる。
【０１４０】
なお，これらの文書（識別子ｄｏｃ１〜ｄｏｃ６）がHTML(HyperText Markup Language)で記述されている場合，各文書間の参照関係は，各文書中のタグ"" によって規定される。
【０１４１】
単語重要度決定部２６０は，単語取得部１４０が取得した各人名について重要度を決定する。
【０１４２】
各人名の重要度を決定するために，単語重要度決定部２６０に属するリンク関係探索部２６２は，リンク情報記憶部２５０に格納されている各文書の参照関係を示すテーブル（図１１）を参照して，単語取得部１４０に取得された人名が記載されている文書が参照している文書や，単語取得部１４０に取得された人名が記載されている文書を参照している文書を探索する。
【０１４３】
また，単語重要度決定部２６０に属する文書間関係決定部２６４は，単語取得部１４０によって得られた各人名が出現する文書間の参照関係を，リンク関係探索部２６２の出力に基づいて決定する。この参照関係は，属性「参照タイプ」と属性「文書間距離」で定義される。
【０１４４】
以上のように構成された本実施の形態にかかる単語重要度判定装置２００の動作について，図１２〜図１５を参照しながら説明する。
【０１４５】
図１２は，本実施の形態にかかる単語重要度判定装置２００の全体的な動作フローを示している。また，図１４は，文書間関係決定部２６４の動作（ステップＳ２２２）の詳細フローを示しており，図１５は，重要度計算部２６６の動作（ステップＳ２３０）の詳細フローを示している。
【０１４６】
以下，検索キーワード「燃料電池」に関連する人物であって最も重要な人物を，ネットワーク９００に公開されている複数の文書の中から抽出する場合に即して，本実施の形態にかかる単語重要度判定装置２００の動作を説明する。
【０１４７】
（ステップＳ２００）
まず，入力部１１０に対して検索キーワード「燃料電池」が入力されると，文書検索部１２０は，ネットワーク９００に公開されている複数の文書の中から，この検索ワード「燃料電池」が記載されている文書を検索する。例えば，ネットワーク９００に公開されている文書（文書集合）が図２に示した６つの文書（識別子ｄｏｃ１〜ｄｏｃ６）の場合，文書（識別子ｄｏｃ３）を除く５つの文書（識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ４，ｄｏｃ５，ｄｏｃ６）が検索キーワード「燃料電池」に適合する。文書検索部１２０は，検索した文書の識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ４，ｄｏｃ５，ｄｏｃ６をリスト形式で単語取得部１４０に与える。
【０１４８】
（ステップＳ２１０）
次に，単語取得部１４０は，単語情報記憶部１３０に記憶されている単語情報（図２）を参照する。そして，単語取得部１４０は，文書検索部１２０から与えられたリストを構成する識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ４，ｄｏｃ５，ｄｏｃ６に合致する識別子の文書を選択し，その文書に記載されている単語のうち単語種別が「人名」である単語を取得する。
【０１４９】
例えば，単語情報記憶部１３０が図２に示した単語情報を格納している場合，単語取得部１４０は，識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６の文書からそれぞれ「田中太郎」を取得し，識別子ｄｏｃ４，ｄｏｃ５の文書からそれぞれ「佐藤花子」を取得する。
【０１５０】
単語取得部１４０は，各文書から人名を取得した後，パターンマッチング法を用いて，人名を表す文字列が一致するものをまとめて，「人名−当該人名を含む文書の識別子のリスト」という形式で出力する。出力例は次の通りである。
【０１５１】
「田中太郎」−ｄｏｃ１，ｄｏｃ２，ｄｏｃ６
「佐藤花子」−ｄｏｃ４，ｄｏｃ５
【０１５２】
（ステップＳ２２０）
次いで，単語重要度決定部２６０に属するリンク関係探索部２６２は，リンク情報記憶部２５０に格納されているテーブルを参照して，単語取得部１４０が出力したリストに記載されている文書について，当該文書が参照している文書，および，当該文書を参照している文書を，それぞれ一定の「深さ」まで幅優先探索法によって探索する。
【０１５３】
本実施の形態において，「深さ」とは，文書参照の階層数のことである。したがって，第１の文書が第２の文書から直接的に参照されているときは，第１の文書と第２の文書は深さ”１”の参照関係にある。これに対して，第１の文書が，第２の文書に参照されており，第２の文書が第３の文書に参照されているときは，第１の文書と第３の文書は深さ”２”の参照関係にある。図１０の例では，識別子ｄｏｃ６の文書と識別子ｄｏｃ４の文書は，深さ”１”の関係にあり，識別子ｄｏｃ６の文書と識別子ｄｏｃ２の文書は，識別子ｄｏｃ４ｄｏｃ３の文書を介して，深さ”２”の関係にある。このステップでは，一例として，各文書の参照先および参照元を深さ”２”まで探索する。リンク関係探索部２６２が，図１０および図１１に示した文書（識別子ｄｏｃ１〜ｄｏｃ６）を探索した結果を図１３に示す。
【０１５４】
（ステップＳ２２２）
文書間関係決定部２６４は，単語取得部１４０が出力したリストに記載されている人名ごとに，各人名が記載されている文書を２つずつ選択して，それぞれの文書間の参照関係を計算する。
【０１５５】
図１４は，図１２のステップＳ２２２の詳細を示している。同図を参照しながら，文書間関係決定部２６４の処理動作を説明する。
【０１５６】
文書間関係決定部２６４は，単語取得部１４０がステップＳ２１０において取得した人名Ｐ_ｉ（ｉ＝１，２，・・・，ｍ）ごとに，当該人名が記載されている複数の文書Ｕ_ｉｊ（ｊ＝１，２，・・・，ｎ）の参照関係を判定する。なお，本実施の形態では，人名Ｐ_１＝「田中太郎」，人名Ｐ_２＝「佐藤花子」とする。また，このように人名Ｐ_ｉを定義することによって，文書Ｕ_１１＝「識別子ｄｏｃ１の文書」，文書Ｕ_１２＝「識別子ｄｏｃ２の文書」，文書Ｕ_１３＝「識別子ｄｏｃ６の文書」，文書Ｕ_２１＝「識別子ｄｏｃ４の文書」，文書Ｕ_２２＝「識別子ｄｏｃ５の文書」となる。
【０１５７】
（ステップＳ２２２−０１）
処理対象の人名を設定するカウンタｉを”１”に初期化する。つまり，まずＰ_１＝「田中太郎」が記載されている文書間の参照関係を決定する処理を行う。
【０１５８】
（ステップＳ２２２−０２）
ｉがｍ以下ならステップＳ２２２−０３を実行する。ｉがｍより大きい場合には，全ての人名Ｐ_１〜Ｐ_ｍについての処理が行われたことになるため，本処理を終了する。
【０１５９】
（ステップＳ２２２−０３）
処理対象の文書を指定するカウンタｊを”１”に初期化する。以下，文書Ｕ_ｉｊ（最初は，文書Ｕ１１＝「識別子ｄｏｃ１の文書」）と他の文書との参照関係を順に計算する。
【０１６０】
（ステップＳ２２２−０４）
ｊがｎ以下ならステップＳ２２２−０５を実行する。ｊがｎより大きい場合には，文書Ｕ_ｉ１〜Ｕ_ｉｎについての処理が完了したことになる。このときは，ｉをカウントアップするために，ステップＳ２２２−０７へジャンプする。
【０１６１】
（ステップＳ２２２−０５）
ステップＳ２２０におけるリンク関係探索部２６２の探索動作によって得られた結果（図１０）に基づいて，各文書間の参照関係を計算する。この演算は，以下の規則１〜３に従う。
【０１６２】
［規則１］
参照関係が計算される２つの文書（以下，「被計算文書対」という）を参照している文書の中に同一の文書がある場合，換言すれば，被計算文書対が共通する第三の文書（以下，「共通参照元文書」という）から参照されている場合，この被計算文書対の参照関係の属性「参照タイプ」には”同一祖先関係”をセットする。また，この被計算文書対の参照関係の属性「文書間距離」には，被計算文書対の一方と共通参照元文書との深さ，または，被計算文書対の他方と共通参照元文書との深さのいずれか一方（例えば，深い方の深さ）をセットする。
【０１６３】
例えば，図１３に示した識別子ｄｏｃ２の文書と識別子ｄｏｃ６が被計算文書対を構成する場合，共通参照元文書として識別子ｄｏｃ３の文書が存在する。したがって，この被計算文書対の関係は規則１に該当するため，この被計算文書対の参照関係の属性「参照タイプ」には”同一祖先関係”をセットする。また，識別子ｄｏｃ２の文書から識別子ｄｏｃ３の文書までの深さは”１”であり，識別子ｄｏｃ６の文書から識別子ｄｏｃ３の文書までの深さは”２”であるため，大きい方の値”２”をこの被計算文書対の参照関係の属性「文書間距離」にセットする。なお，深さの和”３”をセットしてもよい。
【０１６４】
［規則２］
被計算文書対の一方が他方から参照されている場合，換言すれば，他方が一方を参照している場合，この被計算文書対の参照関係の属性「参照タイプ」には”祖先子孫関係”をセットする。また，この被計算文書対の参照関係の属性「文書間距離」には，被計算文書対の一方から他方までの深さ（または，他方から一方までの深さ）をセットする。
【０１６５】
例えば，図１３に示した識別子ｄｏｃ１の文書と識別子ｄｏｃ２が被計算文書対を構成する場合，識別子ｄｏｃ１の文書は，識別子ｄｏｃ２の文書を参照している（識別子ｄｏｃ２の文書は，識別子ｄｏｃ１の文書から参照されている）。したがって，この被計算文書対の関係は規則２に該当するため，この被計算文書対の参照関係の属性「参照タイプ」には”祖先子孫関係”をセットする。また，識別子ｄｏｃ１の文書から識別子ｄｏｃ２の文書までの深さは”１”であるため，この値”１”をこの被計算文書対の参照関係の属性「文書間距離」にセットする。
【０１６６】
［規則３］
被計算文書対を構成する両文書が上記規則１と規則２のいずれにも該当しない場合，この被計算文書対の参照関係の属性「参照タイプ」には”無関係”をセットする。また，この被計算文書対の参照関係の属性「文書間距離」には， "null" をセットする。
【０１６７】
例えば，図１３に示した識別子ｄｏｃ１の文書と識別子ｄｏｃ６が被計算文書対を構成する場合，両文書は規則１にも規則２にも該当しないため，この被計算文書対の参照関係の属性「参照タイプ」には”無関係”をセットする。
【０１６８】
（ステップＳ２２２−０６）
カウンタｊに”１”を加えて，ステップＳ２２２−０４へ戻る。次の文書と他の文書との参照関係を順に計算する。
【０１６９】
以上のステップＳ２２２−０４〜Ｓ２２２−０６を繰り返して，人名Ｐ_ｉが記載されている全ての文書の参照関係を計算する。
【０１７０】
（ステップＳ２２２−０８２２２−０７）
カウンタｉに”１”を加えて，ステップＳ２２２−０２へ戻る。次の人名（例えば，Ｐ_２＝「佐藤花子」）が記載されている文書の参照関係を計算する。
【０１７１】
以上のように，文書間関係決定部２６４がステップＳ２２２（ステップＳ２２２−０１〜Ｓ２２２−０７）の動作を行うことによって，単語取得部１４０が出力した人名ごとに，当該人名が記載されている複数の文書の参照関係が決定する。
【０１７２】
本実施の形態において，単語取得部１４０は，人名として「田中太郎」と「佐藤花子」を出力している。そして，人名「田中太郎」は，識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６の各文書に記載されており，人名「佐藤花子」は，識別子ｄｏｃ４，ｄｏｃ５に記載されている。この場合，文書間関係決定部２６４による処理結果は次のようになる。
【０１７３】
人名「田中太郎」を含む３つの文書（識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６）の参照関係は，以下のように定義される。
【０１７４】
識別子ｄｏｃ１−識別子ｄｏｃ２
「参照タイプ」＝”祖先子孫関係”
「文書間距離」＝”１”
【０１７５】
識別子ｄｏｃ１−識別子ｄｏｃ６
「参照タイプ」＝”無関係”
「文書間距離」＝
"null"
【０１７６】
識別子ｄｏｃ２−識別子ｄｏｃ６
「参照タイプ」＝”同一祖先”
「文書間距離」＝”２”
【０１７７】
人名「佐藤花子」を含む２つの文書（識別子ｄｏｃ４，ｄｏｃ５）の参照関係は，以下のように定義される。
【０１７８】
識別子ｄｏｃ４−識別子ｄｏｃ５
「参照タイプ」＝”無関係”
「文書間距離」＝
"null"
【０１７９】
（ステップＳ２３０）
文書間関係決定部２６４の処理結果に基づいて，重要度計算部２６６は，個々の人名に対して重要度を計算する。図１５は，図１２のステップＳ２３０の詳細を示している。同図を参照しながら，重要度計算部２６６の処理動作を説明する。
【０１８０】
（ステップＳ２３０−１）
重要度の計算対象となる人名を示すカウンタｉを”１”に初期化する。
【０１８１】
（ステップＳ２３０−０２）
ｉがｍ以下ならステップＳ２３０−０３を実行する。ｉがｍより大きい場合には，全ての人名Ｐ_１〜Ｐ_ｍについての処理が行われたことになるため，本処理を終了する。
【０１８２】
（ステップＳ２３０−０３）
人名Ｐ_ｉが記載されている文書Ｕ_ｉ１，Ｕ_ｉ２，・・・，Ｕ_ｉｎそれぞれの重みｃａｌｃＷｅｉｇｈｔを順に計算するために，まず，計算対象の文書を指定するカウンタｊを”１”に初期化する。
【０１８３】
また，重要度計算部２６６は記憶手段を備えており，この記憶手段は，各文書Ｕ_ｉ１，Ｕ_ｉ２，・・・，Ｕ_ｉｎに対応する要素Ｃ_ｉ１，Ｃ_ｉ２，・・・，Ｃ_ｉｎから成る配列を格納する。このステップでは，当該配列の全ての要素を "false" に初期化する。以下のステップにおいて，各文書の重みｃａｌｃＷｅｉｇｈｔが計算されると，その文書に対応する要素を
"true" とする。
【０１８４】
（ステップＳ２３０−０４）
人名Ｐ_ｉの重要度ｗｅｉｇｈｔ_ｉを”０”に初期化する。
【０１８５】
（ステップＳ２３０−０５）
配列要素Ｃ_ｉｊが "true" の場合には，すでに文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔの計算が行われている。このときは，ｊをカウントアップするために，ステップＳ２３０−０８へジャンプする。配列要素Ｃ_ｉｊが
"false" の場合には，ステップＳ２３０−０６を実行する。
【０１８６】
（ステップＳ１３０−０６）
ｊがｎ以下ならステップＳ２３０−０７を実行する。ｊがｎより大きい場合には，文書Ｕ_ｉ１〜Ｕ_ｉｎの重みｃａｌｃＷｅｉｇｈｔの計算が完了したことになる。このときは，ｉをカウントアップするために，ステップＳ２３０−０９へジャンプする。
【０１８７】
（ステップＳ２３０−０７）
まず，文書Ｕ_ｉｊを含む複数の被計算文書対のうち，属性「文書間距離」が小さいものを一つ選択する。なお，属性「文書間距離」の値は， "null" が最大である。また，属性「文書間距離」が等しい複数の被計算文書対が存在する場合は，文書Ｕ_ｉｊと対を成す複数の文書（以下，「相手文書」という）を昇べきの順
に並べ，上位に位置する相手文書との対を選択する。
【０１８８】
一の被計算文書対が選択された後，処理対象の文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔを以下の重み算出条件２−１〜２−３に従って設定する。なお，この重み算出処理については，より上位の条件が優先的に採用されるものとする。
【０１８９】
［重み算出条件２−１］
選択された被計算文書対の属性「文書間距離」の値が "null" である。この条件を満足した場合，文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔに”１．００”をセットする。また，文書Ｕ_ｉｊに対応する配列要素Ｃ_ｉｊに
"true" をセットする。これによって，文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔの計算が行われたことが明示化される。
【０１９０】
［重み算出条件２−２］
相手文書Ｕの重みが計算されていない（相手文書Ｕに対応する配列要素Ｃが， "false" である）。この条件を満足した場合，文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔに下記の式（２−１）または式（２−２）のいずれか一方から得られる値をセットする。選択された被計算文書対の参照関係において，属性「文書間距離」の値が”４”以下の場合は，式（２−１）を用い，”４”より大きい場合は，式（２−２）を用いる。なお，式（２−１）において，ｑに属性「文書間距離」の値を代入する。また，選択された被計算文書対の属性「参照タイプ」が”祖先子孫関係”の場合，式（２−１）および式（２−２）において，ｐに”０．８５”を代入し，”同一祖先関係”の場合，式（２−１）および式（２−２）において，ｐに”０．９０”を代入する。
【０１９１】
ｃａｌｃＷｅｉｇｈｔ＝ｐ^５−ｑ・・・式（２−１）
【０１９２】
ｃａｌｃＷｅｉｇｈｔ＝ｐ・・・式（２−２）
【０１９３】
文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔが算出されたところで，文書Ｕ_ｉｊに対応する配列要素Ｃ_ｉｊに "true" をセットする。これによって，文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔの計算が行われたことが明示化される。
【０１９４】
この条件が満足したときは，相手文書Ｕの重みが計算されていないため，ここでこの相手文書Ｕの重みも計算する。相手文書Ｕは，文書Ｕ_ｉｊと被計算文書対を構成しているため，この相手文書Ｕの重みも当然に文書Ｕ_ｉｊの重みと同じ値になる。
【０１９５】
相手文書Ｕの重みｃａｌｃＷｅｉｇｈｔが算出されたところで，この相手文書Ｕに対応する配列要素Ｃに
"true" をセットする。これによって，この相手文書の重みｃａｌｃＷｅｉｇｈｔの計算が行われたことが明示化される。
【０１９６】
［重み算出条件２−３］
相手文書Ｕの重みが計算済みである（相手文書Ｕに対応する配列要素Ｃが， "true" である）。この条件を満足した場合，文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔに上記の式（２−１）または式（２−２）のいずれか一方から得られる値をセットする。選択された被計算文書対の参照関係において，属性「文書間距離」の値が”４”以下の場合は，式（２−１）を用い，”４”より大きい場合は，式（２−２）を用いる。なお，式（２−１）において，ｑには，属性「文書間距離」の値を代入する。また，重み算出条件２−２のときとは異なり，選択された被計算文書対の属性「参照タイプ」が”祖先子孫関係”の場合，式（２−１）および式（２−２）において，ｐに”０．５０”を代入し，”同一祖先関係”の場合，式（２−１）および式（２−２）において，ｐに”０．７５”を代入する。
【０１９７】
文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔが算出されたところで，文書Ｕ_ｉｊに対応する配列要素Ｃ_ｉｊに "true" をセットする。これによって，文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔの計算が行われたことが明示化される。
【０１９８】
文書Ｕ_ｉｊおよびその相手文書Ｕの重みが算出されるごとに，算出された重みを，変数領域ｗｅｉｇｈｔ_ｉの値に加算する。
【０１９９】
（ステップＳ２３０−０８）
カウンタｊに”１”を加えて，ステップＳ２３０−０５へ戻る。次の文書の重みを計算する。
【０２００】
以上のステップＳ２３０−０５〜Ｓ２３０−０８を繰り返して，人名Ｐ_ｉが記載されている全ての文書の重みが計算され，その都度，変数領域ｗｅｉｇｈｔ_ｉの値に加算される。この結果，人名Ｐ_ｉの重要度が変数領域ｗｅｉｇｈｔ_ｉに得られる。
【０２０１】
（ステップＳ２３０−０９）
カウンタｉに”１”を加えて，ステップＳ２３０−０２へ戻る。次の人名（例えば，Ｐ_２＝「佐藤花子」）の重要度を計算する。
【０２０２】
以上のように，重要度計算部２６６がステップＳ２３０（ステップＳ２３０−０１〜Ｓ２３０−０９）の動作を行うことによって，単語取得部１４０が出力した人名ごとの重要度が決定する。
【０２０３】
ここで，人名Ｐ_１＝「田中太郎」と人名Ｐ_２＝「佐藤花子」の各重要度の算出について具体例を用いて説明する。
【０２０４】
人名Ｐ_１＝「田中太郎」が含まれる各文書（識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６）の重みは以下の通りである。
【０２０５】
３つの文書（識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６）の中から，最初に識別子ｄｏｃ１の文書を文書Ｕ_ｉｊとして選択する。識別子ｄｏｃ１の文書を含む被計算文書対の中から最も属性「文書間距離」の値が小さい対を選択する。具体的には，識別子ｄｏｃ１の文書は，識別子ｄｏｃ２の文書と識別子ｄｏｃ６の文書の両方と被計算文書対を成すが，識別子ｄｏｃ１の文書と識別子ｄｏｃ２の文書から成る被計算文書対を選択する。そして，この時点では，識別子ｄｏｃ１の文書の相手文書である識別子ｄｏｃ２の文書の重みは計算されていない。したがって，［重み算出条件２−２］を適用する。
【０２０６】
識別子ｄｏｃ１の文書と識別子ｄｏｃ２の文書から成る被計算文書対の参照関係において，属性「文書間距離」の値が”１”であるため，式（２−１）を用いる。また，属性「参照タイプ」が”祖先子孫関係”であるため，ｐに”０．８５”を代入する。
【０２０７】
識別子ｄｏｃ１の文書の重み：（０．８５）^５−１＝０．５２点
【０２０８】
識別子ｄｏｃ２の文書は，識別子ｄｏｃ１の文書と被計算文書対を成しており，その重みは，識別子ｄｏｃ１の文書の重みと同じ値となる。
【０２０９】
識別子ｄｏｃ２の文書の重み：（０．８５）^５−１＝０．５２点
【０２１０】
次に，識別子ｄｏｃ２の文書の重みを算出する処理ループに入る（ステップＳ２３０−０８）。ただし，この文書は，上記したように識別子ｄｏｃ１の文書とともに重みの算出がなされている。したがって，次の識別子ｄｏｃ６の文書の算出処理へジャンプする（ステップＳ２３０−０５）。
【０２１１】
続いて，識別子ｄｏｃ６の文書の重みを算出する処理ループに入る（ステップＳ２３０−０８）。識別子ｄｏｃ６の文書を含む被計算文書対の中から最も属性「文書間距離」の値が小さい対を選択する。ただし，識別子ｄｏｃ６の文書は，識別子ｄｏｃ２の文書とだけ被計算文書対を成すため，ここではこの被計算文書対が必然的に選択される。そして，この時点では，識別子ｄｏｃ６の文書の相手文書である識別子ｄｏｃ２の文書の重みは，上記のように計算されている。したがって，［重み算出条件２−３］を適用する。
【０２１２】
識別子ｄｏｃ６の文書と識別子ｄｏｃ２の文書から成る被計算文書対の参照関係において，属性「文書間距離」の値が”２”であるため，式（２−１）を用いる。また，属性「参照タイプ」が”同一祖先関係”であるため，ｐに”０．７５”を代入する。
【０２１３】
識別子ｄｏｃ６の文書の重み：（０．７５）^５−１＝０．３２点
【０２１４】
この結果，人名Ｐ_１＝「田中太郎」の重要度は，識別子ｄｏｃ１の文書の重み，識別子ｄｏｃ２の文書の重み，および識別子ｄｏｃ６の文書の重みの合計１．３６（＝０．５２＋０．５２＋０．３２）点となる。
【０２１５】
また，人名Ｐ_２＝「佐藤花子」が含まれる各文書（識別子ｄｏｃ４，ｄｏｃ５）の重みは以下の通りである。
【０２１６】
２つの文書（識別子ｄｏｃ４，ｄｏｃ５）の中から，最初に識別子ｄｏｃ４の文書を文書Ｕ_ｉｊとして選択する。識別子ｄｏｃ４の文書を含む被計算文書対の中から最も属性「文書間距離」の値が小さい対を選択する。ただし，識別子ｄｏｃ４の文書は，識別子ｄｏｃ５の文書とだけ被計算文書対を成すため，ここではこの被計算文書対が必然的に選択される。そして，識別子ｄｏｃ４の文書と識別子ｄｏｃ５の文書から成る被計算文書対の参照関係において，属性「参照タイプ」は”無関係”である。したがって，［重み算出条件２−１］を適用する。
【０２１７】
識別子ｄｏｃ４の文書の重み：１．００点
【０２１８】
次に，識別子ｄｏｃ５の文書の重みを算出する処理ループに入る（ステップＳ２３０−０８）。識別子ｄｏｃ５の文書を含む被計算文書対の中から最も属性「文書間距離」の値が小さい対を選択する。ただし，識別子ｄｏｃ５の文書は，識別子ｄｏｃ４の文書とだけ被計算文書対を成すため，ここではこの被計算文書対が必然的に選択される。そして，識別子ｄｏｃ５の文書と識別子ｄｏｃ４の文書から成る被計算文書対の参照関係において，属性「参照タイプ」は”無関係”である。したがって，［重み算出条件２−１］を適用する。
【０２１９】
識別子ｄｏｃ５の文書の重み：１．００点
【０２２０】
この結果，人名Ｐ_２＝「佐藤花子」の重要度は，識別子ｄｏｃ４の文書の重みと識別子ｄｏｃ５の文書の重みの合計２．００（＝１．００＋１．００）点となる。
【０２２１】
人名Ｐ_２＝「佐藤花子」は，２つの文書（識別子ｄｏｃ４，ｄｏｃ５）にしか出現していないにも関わらず，これら２つの文書は相互に参照関係を有していないため，相互に参照関係を有する３つの文書（識別子ｄｏｃ１，ｄｏｃ２，ｄｏｃ６）に出現している人名Ｐ_１「田中太郎」よりその重要度が高くなる。
【０２２２】
（ステップＳ２４０）
重要度計算部２６６の処理結果に基づいて，出力部１７０は，人名を重要度が高いものから順に出力する。本実施の形態においては，「佐藤花子」，「田中太郎」の順である。
【０２２３】
以上のように，第２の実施の形態によれば，各人名が記載されている各文書の参照関係に基づいて各人名の重要度が判定される。したがって，多くの文書に記載されている人名であっても，必ずしも重要度の高い人名と判断されない。他の文書との関係が薄い（他の文書から独立している）文書に記載されている人名に高い重要度が付与される。
【０２２４】
例えば，同一人物が異なるドメインに自ら名前を載せた文書を多数公開している場合や，同一グループに属するメンバーが様々な文書に一のメンバー名を記載している場合などにおいて，それらの人名の重要度を実態に反して高く判定してしまうことが防止される。この結果，真に重要な人名（人物）を高い精度で選出することが可能となる。
【０２２５】
なお，ステップＳ２２２における各文書の参照関係の計算方法，およびステップＳ２３０における各人名の重要度の計算方法は，上記の例に限定されない。例えば，ネットワーク９００の規模や，ネットワーク９００に公開されている文書の数，または重要度が判定される人名の数等に応じて，文書Ｕ_ｉｊの重みｃａｌｃＷｅｉｇｈｔに上記とは異なる数値がセットされるようにしてもよい。
【０２２６】
＜第３の実施の形態＞
第１の実施の形態にかかる単語重要度判定装置１００は，入力部１１０に対して検索キーワードが入力される度に，単語重要度決定部１６０に属する位置関係計算部１６２によって，当該検索キーワードに関係する人名が記載されている複数の文書間の位置関係を算出する。これに対して，第３の実施の形態にかかる単語重要度判定装置３００は，予め（入力部１１０に対して検索キーワードが入力される前に）ネットワーク９００に公開されている全ての文書または所定のカテゴリに属する文書の位置関係を算出する。
【０２２７】
本実施の形態にかかる単語重要度判定装置３００は，第１の実施の形態にかかる単語重要度判定装置１００に対して，単語重要度決定部１６０が単語重要度決定部３６０に置き換えられ，位置情報記憶部１５０が位置情報記憶部３５０に置き換えられ，さらに文書収集部３１０と位置関係記憶部（文書関連度記憶部））３２０が追加された構成を有する。すなわち，単語重要度判定装置３００は，図１６に示すように，入力部１１０，文書検索部１２０，単語情報記憶部１３０，単語取得部１４０，位置情報記憶部３５０，単語重要度決定部３６０，出力部１７０，文書収集部３１０，および位置関係記憶部３２０から構成されている。また，単語重要度決定部３６０は，位置関係取得部３６２および重要度計算部３６６から構成されている。
【０２２８】
文書収集部３１０は，ネットワーク９００に公開されている文書を収集し，各文書の情報を抽出する機能を有しており，収集対象入力部３１２，文書情報登録部３１４，位置関係登録部３１６から構成されている。
【０２２９】
ユーザは，ネットワーク９００における文書の収集範囲（カテゴリ）を指定することが可能であり，収集対象入力部３１２は，この指定を受け付ける。
【０２３０】
文書情報登録部３１４は，ネットワーク９００に公開されている全ての文書のうち，収集対象入力部３１２が受け付けたカテゴリに属する文書を取得する。そして，取得した文書に対して形態素解析を実行し，品詞ごとに単語を抽出する。さらに，この中から人名・組織名などの固有表現文字列を選出し，単語情報記憶部１３０に格納する。また，文書情報登録部３１４は，取得した文書のURLを位置情報記憶部３５０に格納する。
【０２３１】
位置関係登録部３１６は，文書情報登録部３１４が取得した文書のURLと，位置情報記憶部３５０に格納されている文書のURLを参照し，各文書間の位置関係を計算する。各文書の位置関係は，第１の実施の形態と同様に，３つの属性，すなわち属性「関係タイプ」，属性「共通ディレクトリ深さ」，および属性「経由ディレクトリ数」を有する。
【０２３２】
位置関係記憶部３２０は，位置関係登録部３１６によって計算された各文書の位置関係を記憶する。例えば，文書情報登録部３１４が，図３に示した６つの文書（識別子ｄｏｃ１〜ｄｏｃ６）をネットワーク９００から取得した場合，位置関係記憶部３２０は，これら６つの文書から選択される２つの文書の全ての組み合わせについて，各位置関係を図１４に示したように２次元配列で格納する。各配列要素は，（属性「関係タイプ」，属性「共通ディレクトリ深さ」，および属性「経由ディレクトリ数」）の形式を有する。
【０２３３】
単語重要度決定部３６０に属する位置関係取得部３６２は，第１の実施の形態にかかる単語重要度決定部１６０に属する位置関係計算部１６２と同等の機能を有している。ただし，上述のように本実施の形態において，各文書間の位置関係の計算は，文書収集部３１０に属する位置関係取得部３１６が担当する。したがって，位置関係取得部３６２は，各文書間の位置関係を計算する機能を備えておらず，この機能を有する位置関係計算部１６２に比べて構成が簡略化されている。
【０２３４】
以上のように構成された本実施の形態にかかる単語重要度判定装置３００の動作について説明する。この単語重要度判定装置３００の主要な動作は，「文書収集」と「単語重要度の計算」に大別できる。
【０２３５】
このうち，「単語重要度の計算」については，本実施の形態にかかる単語重要度判定装置３００の動作は，第１の実施の形態にかかる単語重要度判定装置１００の動作（図５，図６）と同様である。ただし，単語重要度判定装置１００は，ステップＳ１２０−０９（図５）において，基準の文書Ｕ_ｉｊと文書Ｕ_ｉｋの位置関係の属性「関係タイプ（ｔｙｐｅ_ｉｊｋ）」，属性「共通ディレクトリ深さ（ｄｅｐｔｈ_ｉｊｋ）」，および属性「経由ディレクトリ数ｄｉｓｔａｎｃｅ_ｉｊｋ」を算出する。これに対して，本実施の形態によれば，以下で説明するように，文書収集部３１０に属する位置関係取得部３１６が予め各文書の位置関係を計算し，位置関係記憶部３２０がこの計算結果を格納している（図１７）。したがって，本実施の形態にかかる単語重要度判定装置３００は，このステップＳ１２０−０９において，各位置関係を改めて計算することなく位置関係記憶部３２０から取得することになる。
【０２３６】
次に，単語重要度判定装置３００の「文書収集」にかかる動作（文書収集工程）について，図１８を参照しながら説明する。
【０２３７】
（ステップＳ３００）
収集対象入力部３０１は，ユーザが指定した文書の収集範囲の条件を受け付ける。ユーザは，例えば，「 "http://www.aa.co.jp" 以下のすべての文書」，「 "co.jp" ドメインに属するすべての文書」などの指定が可能である。
【０２３８】
（ステップＳ３１０）
文書情報登録部３１４は，ステップＳ３００においてユーザから指定された条件に適合する文書をネットワーク９００から取得する。ここでは，一般的なWWW文書収集ロボットの技術の利用が可能である。条件に適合する文書がない場合，または，条件に適合する全ての文書の収集が完了したとき，本処理を終了する。
【０２３９】
（ステップＳ３２０）
文書情報登録部３１４は，ステップＳ３１０において取得した文書に対して形態素解析を実行し，品詞ごとに単語を抽出する。さらに，この中から人名・組織名などの固有表現文字列を選出し，単語情報記憶部１３０に格納する。
【０２４０】
（ステップＳ３３０）
さらに，文書情報登録部３１４は，ステップＳ３１０において取得した文書のURLを位置情報記憶部３５０に格納する。
【０２４１】
（ステップＳ３４０）
次に，位置関係登録部３１６は，位置関係記憶部３２０に既に記憶されている文書と，ステップＳ３１０において文書情報登録部３１４によって新たに取得された文書との位置関係を計算する。そして，位置関係登録部３１６は，計算結果に基づいて位置関係記憶部３２０に記憶されている配列（図１７）を更新する。
【０２４２】
単語重要度判定装置３００は，ユーザから指定された条件に適合する文書を順次ネットワーク９００から収集するために，ステップＳ３１０からステップＳ３４０までの処理を繰り返す。
【０２４３】
図１９は，図１８のステップＳ３４０の詳細を示している。同図を参照しながら，位置関係登録部３１６の処理動作（文書関連度記憶工程）を説明する。なお，以下の説明では，位置関係記憶部３２０に記憶されている配列（図１７）の行数（記憶される文書数）をｎで表す。また，ステップＳ３４０が実行される直前に位置関係記憶部３２０には，文書Ｕ_１，Ｕ_２，・・・，Ｕ_ｎ−１が記憶されており，ステップＳ３４０において，文書Ｕ_ｎが位置関係記憶部３２０に追加される場合に即して，位置関係登録部３１６の処理動作を説明する。
【０２４４】
（ステップＳ３４０−０１）
位置関係記憶部３２０に記憶されている文書数に”１”を加えて得られた値をｎに代入する。例えば，ステップＳ３４０が実行される直前に，位置関係記憶部３２０に５つの文書Ｕ_１〜Ｕ_５（識別子ｄｏｃ１〜ｄｏｃ５）が格納されている場合，ｎ＝６となる。
【０２４５】
（ステップＳ３４０−０２）
文書Ｕ_ｎと位置関係を計算する文書を示すカウンタｉを”１”に初期化する。
【０２４６】
（ステップＳ３４０−０３）
ｉがｎ−１以下ならステップＳ３４０−０５を実行する。ｉがｎ−１より大きい場合には，文書Ｕ_ｎと，位置関係記憶部３２０に格納されている文書Ｕ_１〜Ｕ_ｎ−１との位置関係の計算が完了したことになるため，本処理を終了する。
【０２４７】
（ステップＳ３４０−０４）
文書Ｕ_ｎと文書Ｕ_ｉとの位置関係（属性「関係タイプ」，属性「共通ディレクトリ深さ」，属性「経由ディレクトリ数」）を計算する。このステップにおける位置関係登録部３１６の動作は，第１の実施の形態にかかる位置関係計算部１６２のステップＳ１２０−０９における動作と同様である。
【０２４８】
（ステップＳ３４０−０５）
位置関係記憶部３２０に記憶されている配列のｎ行ｉ列に位置する要素に対して，ステップＳ３４０−０４において算出した値を登録する。
【０２４９】
（ステップＳ３４０−０６）
カウンタｉに”１”を加えて，ステップＳ３４０−０３へ戻る。文書Ｕ_ｎと次の文書との位置関係を計算する。
【０２５０】
以上のように，位置関係登録部３１６がステップＳ３４０（ステップＳ３４０−０１〜Ｓ３４０−０６）の動作を行うことによって，位置関係記憶部３２０に既に記憶されている文書と，ステップＳ３１０において文書情報登録部３１４によって新たに取得された文書との位置関係が算出される。そして，位置関係記憶部３２０に記憶されている配列（図１７）が更新される。
【０２５１】
例えば，識別子ｄｏｃ６の文書を位置関係記憶部３２０に登録する場合，ステップＳ３４０において，識別子ｄｏｃ６の文書と識別子ｄｏｃ１〜ｄｏｃ６の文書との位置関係が順に計算される。この結果，位置関係記憶部３２０には，図１７に示した配列が格納される。
【０２５２】
以上のように，本実施の形態によれば，第１の実施の形態と同様の効果が得られる。しかも，本実施の形態によれば，ネットワーク９００に公開されている複数の文書の位置関係が予め位置関係記憶部３２０に格納されているため，入力部１１０に対して検索キーワードが入力される度に関連する複数の文書の位置関係を計算する必要がない。したがって，人名の重要度の判定に要する時間が短縮化される。
【０２５３】
なお，第３の実施の形態にかかる単語重要度判定装置３００は，予めネットワーク９００に公開されている全ての文書または所定のカテゴリに属する各文書の位置関係を算出するが，各文書の参照関係を算出するようにしてもよい。
【０２５４】
添付図面を参照しながら本発明の好適な実施の形態について説明したが，本発明はかかる実施の形態に限定されない。当業者であれば，特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。
【０２５５】
例えば，第１の実施の形態にかかる単語重要度判定装置１００を，ユーザが文書集合を指定して，または全文書を対象として，入力する検索キーワードそのものの重要度を判定するように再構成することも可能である。この場合，文書検索部１２０を省略することができる。第２の実施の形態にかかる単語重要度判定装置２００，および，第３の実施の形態にかかる単語重要度判定装置３００も同様である。
【０２５６】
各文書の位置関係（第１の実施の形態）および各文書の参照関係（第２の実施の形態）の両方に基づいて各文書の重みを算出するようにしてもよい。
【０２５７】
また，本発明の実施の形態にかかる単語重要度判定装置１００，２００，３００における単語重要度の判定処理に，一般的な単語重要度の判定技術（例えば，上記特許文献１に記載の技術）を組み合わせることも可能である。
【０２５８】
人名の重要度を判定する場合に即して本発明の実施の形態を説明したが，本発明によれば，組織名や地名など，その他の固有表現文字列の重要度を正確に判定することが可能となる。
【０２５９】
本発明の実施の形態にかかる単語重要度判定装置１００，２００，３００において，単語取得部１４０に対して，ネットワーク９００に公開されている文書の中から人名や組織名などの固有表現文字列を抽出する機能を与え，入力部１１０が検索キーワードを受け付ける毎に，単語取得部１４０によって固有表現文字列の抽出を行うようにしてもよい。かかる構成によれば，単語情報記憶部１３０の省略が可能となる。
【発明の効果】
以上説明したように，本発明によれば，複数の文書に記載されている固有表現文字列の重要度を，正確にかつ効率よく判定することが可能となる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態にかかる単語重要度判定装置の構成を示すブロック図である。
【図２】図１の単語重要度判定装置に属する単語情報記憶部が格納するテーブルの説明図である。
【図３】本発明の実施の形態に適用される文書のURLを示す図である。
【図４】図１の単語重要度判定装置の全体的な処理動作を示すフロー図である。
【図５】図１の単語重要度判定装置に属する位置関係計算部の処理動作を示すフロー図（その１）である。
【図６】図１の単語重要度判定装置に属する位置関係計算部の処理動作を示すフロー図（その２）である。
【図７】図１の単語重要度判定装置に属する重要度計算部の処理動作を示すフロー図である。
【図８】識別子ｄｏｃ１の文書の格納位置から識別子ｄｏｃ６の文書の格納位置へ移動する際の過程を示す図である。
【図９】本発明の第２の実施の形態にかかる単語重要度判定装置の構成を示すブロック図である。
【図１０】本発明の実施の形態に適用される文書の参照関係を示す図である。
【図１１】図９の単語重要度判定装置に属するリンク情報記憶部が格納するテーブルの説明図である。
【図１２】図９の単語重要度判定装置の全体的な処理動作を示すフロー図である。
【図１３】図９の単語重要度判定装置に属するリンク関係探索部の動作結果を示す図である。
【図１４】図９の単語重要度判定装置に属する文書間関係決定部の処理動作を示すフロー図である。
【図１５】図９の単語重要度判定装置に属する重要度計算部の処理動作を示すフロー図である。
【図１６】本発明の第３の実施の形態にかかる単語重要度判定装置の構成を示すブロック図である。
【図１７】図１６の単語重要度判定装置に属する位置関係取得部登録部の処理結果を示す図である。
【図１８】図１６の単語重要度判定装置の文書収集動作を示すフロー図である。
【図１９】図１６の単語重要度判定装置に属する位置関係登録部の処理動作を示すフロー図である。
【符号の説明】
１００，２００，３００：単語重要度判定装置
１１０：入力部
１２０：文書検索部
１３０：単語情報記憶部
１４０：単語取得部
１５０：位置情報記憶部
１６０：単語重要度決定部
１６２：位置関係計算部
１６６：重要度計算部
１７０：出力部
２５０：リンク情報記憶部
２６０:単語重要度決定部
２６２：リンク関係探索部
２６４：文書間関係決定部
２６６：重要度計算部
３１０：文書収集部
３１２：収集対象入力部
３１４：文書情報登録部
３１６：位置関係登録部
３２０：位置関係記憶部
３５０：位置情報記憶部
３６０：単語重要度決定部
３６２：位置関係取得部
３６６：重要度計算部
９００：ネットワーク

Claims

文書に含まれる固有表現文字列に評価値を付与する評価装置であって、
評価値を付与する対象の固有表現文字列を含む複数の文書の相互間の関連度を定義し、当該関連度に基づいて、前記各文書の重み値を計算する文書重み計算部と、
前記各文書の重み値を用いた演算処理を行うことによって、前記固有表現文字列の評価値を算出する評価値計算部と、
を備え、
前記複数の文書は、木構造下で管理されており、
前記文書重み計算部は、木構造における前記各文書の存在位置に応じて前記各文書間の関連度を定義し、
一の文書と他の一の文書に共通する木構造の節点の数に応じて、当該一の文書と当該他の一の文書の重み値を増減することを特徴とする、固有表現文字列の評価装置。
前記文書重み計算部は、一の文書と他の一の文書の間に存在する木構造の枝の数に応じて、当該一の文書と当該他の一の文書の重み値を増減することを特徴とする、請求項１に記載の固有表現文字列の評価装置。
前記文書重み計算部は、一の文書と他の一の文書が異なる木構造下で管理されている場合、当該一の文書と当該他の一の文書の重み値を最大または最小とすることを特徴とする、請求項１に記載の固有表現文字列の評価装置。
前記文書重み計算部は、前記各文書間の参照関係に応じて前記各文書間の関連度を定義し、
直接的または間接的に一の文書を参照する他の文書が存在しない場合、当該一の文書の重み値を最大または最小とすることを特徴とする、請求項１に記載の固有表現文字列の評価装置。
文書に含まれる固有表現文字列に評価値を付与する評価装置における固有表現文字列の評価方法であって、
前記評価装置の計算部が評価値を付与する対象の固有表現文字列を含む複数の文書の相互間の関連度を定義し、当該関連度に基づいて、前記各文書の重み値を計算する文書重み計算工程と、
前記評価装置の評価値計算部が前記各文書の重み値を用いた演算処理を行うことによって、前記固有表現文字列の評価値を算出する評価値計算工程と、
を含み、
前記複数の文書は、木構造下で管理されており、
前記文書重み計算工程では、木構造における前記各文書の存在位置に応じて前記各文書間の関連度が定義し、
一の文書と他の一の文書に共通する木構造の節点に応じて、当該一の文書と当該他の一の文書の重み値を増減することを特徴とする、固有表現文字列の評価方法。
前記前記文書重み計算工程では、一の文書と他の一の文書の間に存在する木構造の枝の数に応じて、当該一の文書と当該他の一の文書の重み値を増減することを特徴とする、請求項５に記載の固有表現文字列の評価方法。
前記前記文書重み計算工程では、一の文書と他の一の文書が異なる木構造下で管理されている場合、当該一の文書と当該他の一の文書の重み値を最大または最小とすることを特徴とする、請求項５に記載の固有表現文字列の評価方法。
前記文書重み計算工程では、前記各文書間の参照関係に応じて前記各文書間の関連度を定義し、
直接的または間接的に一の文書を参照する他の文書が存在しない場合、当該一の文書の重み値を最大または最小とすることを特徴とする、請求項５に記載の固有表現文字列の評価方法。