JP6565565B2

JP6565565B2 - 情報処理装置、名称決定方法、および名称決定プログラム

Info

Publication number: JP6565565B2
Application number: JP2015198072A
Authority: JP
Inventors: 貴三郎福田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-10-05
Filing date: 2015-10-05
Publication date: 2019-08-28
Anticipated expiration: 2035-10-05
Also published as: JP2017072917A

Description

本発明は、情報処理装置、名称決定方法、および名称決定プログラムに関する。

従来、複数の文書を、階層化された複数のカテゴリに分類する技術がある。また、複数のカテゴリのそれぞれのカテゴリに名称を付与する技術がある。ユーザは、それぞれのカテゴリに付与された名称を参照することにより、最上位階層のカテゴリから下位階層のカテゴリへと辿って、所望の文書を探索する。関連する技術としては、例えば、文書ＤＢの文書群とキーワードＤＢの各文書に付与されたキーワード群を管理し、個々のキーワードに基づいて文書をフォルダに分類して格納し、類似した文書群を持つフォルダを統合するものがある。

特開平８−１５３１２１号公報

しかしながら、上述した従来技術では、階層化された複数のカテゴリのそれぞれのカテゴリにどのような名称を付与すれば、ユーザが所望の文書を探索しやすくなるか判断することが難しい場合がある。

１つの側面では、本発明は、カテゴリの名称を上位カテゴリの名称と関連性がある名称に決定することができる情報処理装置、名称決定方法、および名称決定プログラムを提供することを目的とする。

本発明の一側面によれば、複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する情報処理装置、名称決定方法、および名称決定プログラムが提案される。

本発明の一態様によれば、カテゴリの名称を上位カテゴリの名称と関連性がある名称に決定することで、カテゴリの階層間で連想しやすいカテゴリ名称を付与できるという効果を奏する。

図１は、本実施の形態にかかる名称決定方法の一実施例を示す説明図である。図２は、情報処理装置１００のハードウェアの一例を示すブロック図である。図３は、情報処理装置１００の機能的構成例を示すブロック図である。図４は、実施例１における文書ＤＢ４００のデータ構造の一例を示す説明図である。図５は、実施例１におけるストップワードリスト５００のデータ構造の一例を示す説明図である。図６は、実施例１における複数の文書を複数のカテゴリに分類する一例を示す説明図である。図７は、実施例１における複数のカテゴリのいずれかのカテゴリのラベル候補を特定する一例を示す説明図である。図８は、実施例１におけるラベル候補の連想スコアを算出する一例を示す説明図である。図９は、実施例１におけるラベル候補の中からラベルを決定する一例を示す説明図である。図１０は、実施例１における表示画面の一例を示す説明図である。図１１は、実施例１における検索処理手順の一例を示すフローチャートである。図１２は、実施例１における分類処理手順の一例を示すフローチャートである。図１３は、実施例１における特定処理手順の一例を示すフローチャートである。図１４は、実施例１における決定処理手順の一例を示すフローチャートである。図１５は、実施例２における文書ＤＢ４００のデータ構造の一例を示す説明図である。図１６は、実施例３における階層化された複数のカテゴリの一例を示す説明図である。図１７は、実施例４における決定処理手順の一例を示すフローチャートである。

以下に、図面を参照して、本発明にかかる情報処理装置、名称決定方法、および名称決定プログラムの実施の形態を詳細に説明する。

（本実施の形態にかかる名称決定方法の一実施例）
図１は、本実施の形態にかかる名称決定方法の一実施例を示す説明図である。図１において、情報処理装置１００は、本実施の形態にかかる名称決定方法を実現するコンピュータである。情報処理装置１００は、例えば、ユーザが所望の文書を発見しやすくする。

ここで、ユーザが所望の文書を発見しやすくする技術としては、例えば、文書群の中から、ユーザから入力された検索キーワードに関連する文書を抽出するものがある。具体的には、文書群の中から検索キーワードが出現する文書を抽出する技術がある。しかしながら、ユーザが、所望の文書のタイトルなどといった所望の文書に固有の語句を検索キーワードとして入力しなければ、文書群の中から抽出される文書の数が膨大になってしまうことがある。このため、ユーザは、抽出された膨大な文書の中から所望の文書を探すことになり、所望の文書を発見するのにかかる時間が増大してしまう。

さらに、例えば、文書群の中から抽出された検索キーワードに関連する複数の文書を階層化された複数のカテゴリに分類し、分類した複数のカテゴリのそれぞれのカテゴリに、当該カテゴリを特徴付ける名称を付与する技術がある。カテゴリとは、所定の基準に従って複数の文書を分類した場合の区分である。カテゴリを特徴付ける名称は、例えば、カテゴリを特徴付ける語句である。カテゴリを特徴付ける名称は、カテゴリを特徴付ける文章であってもよい。しかしながら、カテゴリを特徴付ける名称は、ユーザが当該カテゴリに所望の文書が分類されたか否かを判別しやすい名称であるとは限らない。このため、ユーザは、どの名称が付与されたカテゴリに所望の文書が分類されたか分からず、所望の文書が分類されていないカテゴリに分類された文書集合を調べてしまうことがあり、所望の文書を発見するのにかかる時間が増大してしまう。

そこで、本実施の形態では、あるカテゴリの上位カテゴリを特徴付ける名称と関連性がある語句を、あるカテゴリを特徴付ける名称に決定することができる名称決定方法について説明する。これによれば、複数のカテゴリのそれぞれのカテゴリを特徴付ける名称を体制化することができる。体制化とは、複数のカテゴリのそれぞれのカテゴリを特徴付ける名称を関連性のある名称にすることである。以下の説明では、カテゴリを特徴付ける名称を「ラベル」と表記する場合がある。

＜情報処理装置１００の処理の一例＞
図１において、情報処理装置１００は、複数の文書を分類した階層化された複数のカテゴリのそれぞれのカテゴリのラベルを決定する。文書とは、１または複数の文を示すデータである。文書は、例えば、帳票、企画書、設計書、マニュアル、特許文献、技術文献、論文、法令、規定、議事録、ニュース記事、電子メール、ウェブページ、または書籍などを示すデータである。

複数の文書は、例えば、情報処理装置１００が有する記憶装置に記憶された文書群である。また、複数の文書は、情報処理装置１００が有する記憶装置に記憶された文書群の中から、情報処理装置１００がユーザから入力された検索キーワードに基づいて検索した文書であってもよい。また、複数の文書は、情報処理装置１００が他の装置から取得した文書であってもよい。そして、複数の文書は、情報処理装置１００によって、階層化された複数のカテゴリに分類される。

また、複数の文書は、例えば、情報処理装置１００が有する記憶装置に記憶された、予め階層化された複数のカテゴリに分類された文書群であってもよい。また、複数の文書は、予め階層化された複数のカテゴリに分類された文書群の中から、情報処理装置１００が検索キーワードに基づいて検索した文書であってもよい。

また、複数の文書は、情報処理装置１００とは異なる他の装置によって、階層化された複数のカテゴリに分類されてもよい。そして、複数の文書は、階層化された複数のカテゴリに分類された状態で、情報処理装置１００によって取得される。カテゴリは、複数の文書のうちの一部が分類された区分である。カテゴリは、例えば、あるキーワードが出現する文書が分類された区分である。カテゴリは、例えば、キーワードの出現傾向が類似する文書が分類された区分であってもよい。

図１の例では、情報処理装置１００は、複数の文書Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，Ｔ６を分類した階層化された複数のカテゴリＣ０，Ｃ１１，Ｃ１２のそれぞれのカテゴリのラベルを決定する。複数の文書Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，Ｔ６は、例えば、情報処理装置１００によって、情報処理装置１００が有する記憶装置に記憶された文書群の中から検索された、検索キーワード「特許」が出現する文書である。

カテゴリＣ０は、最上位階層のカテゴリである。カテゴリＣ０は、文書Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，Ｔ６を含む文書集合Ｔｓ０が分類されたカテゴリである。カテゴリＣ１１，Ｃ１２は、最上位階層のカテゴリに分類された文書集合がさらに細かく分類された、最上位階層の１つ下位にある第１階層のカテゴリである。カテゴリＣ１１，Ｃ１２は、例えば、情報処理装置１００によって、複数の文書Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，Ｔ６のうち、キーワードの出現傾向が類似する文書集合が分類されたカテゴリである。出現傾向が類似するとは、出現するキーワードのパターンが類似することである。出現傾向が類似するとは、例えば、あるキーワードが共通して出現することや、あるキーワードが共通して出現しないことである。出現傾向が類似するか否かは、具体的には、例えば、図６に後述するコサイン類似度などを用いて判断される。

カテゴリＣ１１は、文書Ｔ１，Ｔ２，Ｔ３を含む文書集合Ｔｓ１１が分類されたカテゴリである。カテゴリＣ１１は、例えば、「スライド、本出願、修正、申請、実施例」などのキーワードの出現傾向が類似する文書集合Ｔｓ１１が分類されたカテゴリである。カテゴリＣ１１は、具体的には、例えば、「スライド、本出願、修正、申請、実施例」などのキーワードが共通して出現する文書集合Ｔｓ１１が分類されたカテゴリである。カテゴリＣ１２は、文書Ｔ４，Ｔ５，Ｔ６を含む文書集合Ｔｓ１２が分類されたカテゴリである。カテゴリＣ１２は、例えば、「確認、実験、仮出願、スライド、依頼」などのキーワードの出現傾向が類似する文書集合Ｔｓ１２が分類されたカテゴリである。カテゴリＣ１２は、具体的には、例えば、「確認、実験、仮出願、スライド、依頼」などのキーワードが共通して出現する文書集合Ｔｓ１２が分類されたカテゴリである。

以下の説明では、最上位階層のカテゴリを「最上位カテゴリ」と表記する場合がある。また、以下の説明では、あるカテゴリに分類された文書集合がさらに細かく分類され、当該文書集合の一部が分類された、あるカテゴリよりも下位階層のカテゴリを、あるカテゴリの「下位カテゴリ」と表記する場合がある。また、以下の説明では、あるカテゴリの下位カテゴリのうち、あるカテゴリよりも１つ下位階層のカテゴリを「直下位カテゴリ」と表記する場合がある。

また、以下の説明では、あるカテゴリに分類された文書集合を一部として含む文書集合が分類された、あるカテゴリよりも上位階層のカテゴリを、あるカテゴリの「上位カテゴリ」と表記する場合がある。また、以下の説明では、あるカテゴリの上位カテゴリのうち、あるカテゴリよりも１つ上位階層のカテゴリを、あるカテゴリの「直上位カテゴリ」と表記する場合がある。図１の例では、カテゴリＣ１１，Ｃ１２は、カテゴリＣ０の下位カテゴリである。一方で、カテゴリＣ０は、カテゴリＣ１１，Ｃ１２の上位カテゴリである。

（１）情報処理装置１００は、最上位カテゴリＣ０のラベルを決定する。情報処理装置１００は、例えば、最上位カテゴリＣ０に分類された文書Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，Ｔ６が、入力された検索キーワードに基づいて検索された文書である場合には、検索キーワードを最上位カテゴリＣ０のラベルに決定する。

また、情報処理装置１００は、最上位カテゴリＣ０に分類された文書Ｔ１，Ｔ２，Ｔ３，Ｔ４，Ｔ５，Ｔ６に出現する複数の語句の中から、最上位カテゴリＣ０の名称候補を特定してもよい。カテゴリの名称候補とは、カテゴリの名称となりうる語句である。カテゴリの名称候補とは、カテゴリの名称となりうる文章であってもよい。そして、情報処理装置１００は、特定した名称候補のいずれかを、カテゴリのラベルに決定する。以下の説明では、名称候補を「ラベル候補」と表記する場合がある。図１の例では、情報処理装置１００は、検索キーワード「特許」を、最上位カテゴリＣ０のラベルに決定する。

（２）情報処理装置１００は、第１階層のカテゴリＣ１１のラベル候補を特定する。情報処理装置１００は、例えば、カテゴリＣ１１に分類された文書Ｔ１，Ｔ２，Ｔ３に出現する複数の語句の中から、ラベル候補を特定する。

情報処理装置１００は、具体的には、カテゴリＣ１１に分類された文書Ｔ１，Ｔ２，Ｔ３における複数の語句のそれぞれの出現回数に基づいて、複数の語句の中からラベル候補を特定する。ここで、出現回数は、カテゴリを特徴付ける観点からのラベルとしての尤度を示す指標として用いられる。情報処理装置１００は、より具体的には、出現回数が相対的に高い語句のいくつかを、ラベル候補として特定する。図１の例では、情報処理装置１００は、ラベル候補「スライド」、「本出願」、「修正」、「申請」、「実施例」を特定する。

ここでは、情報処理装置１００が、出現回数に基づいてラベル候補を特定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、出現回数を正規化した値、または出現回数をカテゴリに分類された文書の数で除算した値に基づいてラベル候補を特定してもよい。また、ここでは、情報処理装置１００が、出現回数が相対的に高い語句を、ラベル候補として特定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、出現回数が閾値よりも大きい語句を、ラベル候補として特定してもよい。

また、ここでは、情報処理装置１００が、出現回数に基づいて、ラベル候補を特定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、出現回数とは異なる指標に基づいて、ラベル候補を特定してもよい。具体的には、情報処理装置１００は、ＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）やＣ−Ｖａｌｕｅに基づいて、ラベル候補を決定する。ＴＦ−ＩＤＦやＣ−Ｖａｌｕｅについては、図７を用いて後述する。

また、ここでは、情報処理装置１００が、出現回数に基づいて、ラベル候補を特定することができた場合について説明したが、これに限らない。例えば、情報処理装置１００は、出現回数に基づいて、ラベル候補を特定することができなかった場合には、出現回数とは異なる指標を用いてラベル候補を特定しなおしてもよい。具体的には、情報処理装置１００は、出現回数に基づいて、ラベル候補を特定することができなかった場合には、ＴＦ−ＩＤＦやＣ−Ｖａｌｕｅに基づいて、ラベル候補を決定する。

（３）情報処理装置１００は、第１階層のカテゴリＣ１１のラベルを決定する。情報処理装置１００は、例えば、特定したラベル候補「スライド」、「本出願」、「修正」、「申請」、「実施例」のいずれかを、カテゴリＣ１１のラベルに決定する。情報処理装置１００は、具体的には、それぞれのカテゴリのラベル候補と、カテゴリＣ１１の上位カテゴリＣ０のラベルとの共起度合いに基づいて、特定したラベル候補のいずれかを、カテゴリＣ１１のラベルに決定する。共起とは、文書、または所定数連続する文において、２つの語句が同時に出現することである。共起度合いとは、２つの語句の共起しやすさを示す。

ここで、２つの語句が共起することは、２つの語句が一文または所定数連続する文に同時に出現することを示し、２つの語句が同じ話題について述べる語句の組み合わせである可能性があることを示す。これによれば、２つの語句の共起度合いが高いほど、２つの語句は、同じ話題について述べる語句の組み合わせである可能性が高くなり、関連性のある語句の組み合わせである可能性が高くなる。例えば、共起する２つの語句の組み合わせは、「特許」と「出願」との組み合わせ、「音声」と「認識」との組み合わせ、「メール」と「受信」との組み合わせなどである。

したがって、ラベル候補と上位カテゴリのラベルとの共起度合いが高いほど、ラベル候補と上位カテゴリのラベルとの関連性が高いことを示すことになる。このため、共起度合いは、上位カテゴリのラベルとの関連性の観点からのラベルとしての尤度を示す指標として用いられる。共起度合いは、例えば、最上位カテゴリに分類された文書集合における共起回数、当該共起回数を正規化した値、および当該共起回数を最上位カテゴリに分類された文書集合の文書の数で除算した値などである。また、共起度合いは、例えば、最上位カテゴリに分類された文書集合の一部における共起回数、当該共起回数を正規化した値、および当該共起回数を最上位カテゴリに分類された文書集合の文書の数で除算した値などであってもよい。

また、共起度合いは、例えば、ラベル候補の特定元のカテゴリに分類された文書集合における当該共起回数を正規化した値、および当該共起回数をラベル候補の特定元のカテゴリに分類された文書集合の文書の数で除算した値などであってもよい。また、共起度合いは、例えば、ラベル候補の特定元のカテゴリに分類された文書集合の一部における共起回数、当該共起回数を正規化した値、および当該共起回数をラベル候補の特定元のカテゴリに分類された文書集合の文書の数で除算した値などであってもよい。

情報処理装置１００は、より具体的には、それぞれのラベル候補と、カテゴリＣ１１の上位カテゴリＣ０のラベルとの共起度合いを算出する。そして、情報処理装置１００は、共起度合いが相対的に最も高いラベル候補を、カテゴリＣ１１のラベルに決定する。図１の例では、情報処理装置１００は、ラベル候補「本出願」をカテゴリＣ１１のラベルに決定する。

ここでは、情報処理装置１００が、共起度合いが相対的に最も高いラベル候補を、カテゴリのラベルに決定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、共起度合いが閾値以上のラベル候補のいずれかを、カテゴリのラベルに決定してもよい。具体的には、情報処理装置１００は、最上位カテゴリに分類された文書集合における共起回数を正規化した値、または共起回数を文書の数で除算した値が閾値以上のラベル候補のいずれかを、カテゴリのラベルに決定する。

また、ここでは、情報処理装置１００が、特定したラベル候補のいずれかを、カテゴリのラベルに決定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、共起度合いに基づいて、ラベル候補のそれぞれをラベルにするか否かを判定してもよい。具体的には、情報処理装置１００は、ラベル候補のそれぞれの共起度合いが閾値以上であるか否かを判定し、共起度合いが閾値以上であるラベル候補をラベルにすると判定する。情報処理装置１００は、共起度合いが閾値以上であるラベル候補が複数ある場合には、共起度合いが閾値以上である複数のラベル候補をラベルにしてもよい。

また、情報処理装置１００は、特定したラベル候補を１つずつラベルに決定するか否かを判定してもよい。情報処理装置１００は、例えば、特定したラベル候補を１つずつ選択する。次に、情報処理装置１００は、選択したラベル候補について共起度合いが閾値以上であるか否かを判定する。そして、情報処理装置１００は、共起度合いが閾値以上と判定した時点で、ラベル候補を選択するのを停止するとともに、共起度合いが閾値以上のラベル候補をカテゴリのラベルに決定する。

また、情報処理装置１００は、共起度合いが閾値以上であるラベル候補がない場合には、共起度合いが相対的に最も高いラベル候補をラベルに決定してもよい。また、情報処理装置１００は、共起度合いが閾値以上であるラベル候補がない場合には、上記（２）に戻りラベル候補を特定しなおしてもよい。

また、情報処理装置１００は、特定したラベル候補が１つである場合には、特定したラベル候補を、共起度合いに関わらずカテゴリのラベルに決定してもよい。また、情報処理装置１００は、特定したラベル候補が１つである場合には、上記（２）に戻りラベル候補を特定しなおしてもよい。

（４）情報処理装置１００は、第１階層のカテゴリＣ１１と同様にして、第１階層のカテゴリＣ１２のラベル候補を特定する。そして、情報処理装置１００は、第１階層のカテゴリＣ１１と同様にして、第１階層のカテゴリＣ１２のラベルを決定する。図１の例では、情報処理装置１００は、ラベル候補「仮出願」をカテゴリＣ１２のラベルに決定する。

これにより、情報処理装置１００は、カテゴリＣ１１，Ｃ１２を特徴付ける観点に加えて、カテゴリＣ１１，Ｃ１２の上位カテゴリＣ０のラベルとの関連性の観点から、カテゴリＣ１１，Ｃ１２のラベルを決定することができる。そして、情報処理装置１００は、複数のカテゴリのそれぞれのカテゴリのラベルとして、当該カテゴリの上位カテゴリのラベルと関連性があるラベルを付与することができる。

ここで、カテゴリＣ１１，Ｃ１２の上位カテゴリＣ０に分類された文書集合のそれぞれの文書は、少なくとも上位カテゴリＣ０のラベルが示す話題についての文書であるとともに、当該話題と関連する種々の話題についての文書でもある。そして、カテゴリＣ１１，Ｃ１２に分類された文書集合のそれぞれの文書は、上位カテゴリＣ０のラベルが示す話題と関連する種々の話題のうちの１または複数の話題についての文書である。

あるカテゴリを特徴付ける観点のみを考慮して、あるカテゴリにラベルを付与すると、あるカテゴリのラベルとして、上位カテゴリのラベルとの関連性が相対的に低いラベルが付与されてしまう場合がある。この場合、ユーザは、あるカテゴリに付与されたラベルが示す話題が何かを把握しても、あるカテゴリに、上位カテゴリのラベルが示す話題に関連する種々の話題のうちの何の話題についての文書が分類されたのかを把握することが難しい。

一方で、情報処理装置１００によれば、あるカテゴリのラベルとして、上位カテゴリのラベルとの関連性が相対的に高いラベルを付与することができる。これにより、ユーザは、あるカテゴリに付与されたラベルが示す話題を把握すれば、あるカテゴリに、上位カテゴリのラベルが示す話題に関連する種々の話題のうちの何の話題についての文書が分類されたのかを把握しやすくなる。

結果として、ユーザは、所望の文書が属する話題についての文書が分類されたカテゴリを把握しやすくなり、上位階層から下位階層へとカテゴリを辿って所望の文書が分類されたカテゴリを探索しやすくなる。また、ユーザは、所望の文書が分類されていないカテゴリに分類された文書集合を調べてしまい、所望の文書を発見するのにかかる時間が増大してしまうことを抑制することができる。このように、情報処理装置１００は、ユーザが所望の文書が分類されたカテゴリを探索しやすくなるように複数のカテゴリのそれぞれのカテゴリにラベルを付与することができる。

例えば、カテゴリＣ１１を特徴付ける観点のみを考慮してカテゴリＣ１１にラベルを付与すると、カテゴリＣ１１に、出現回数が相対的に最も高いが、共起度合いが相対的に低いラベルが付与されてしまう場合がある。具体的には、カテゴリＣ１１に、上位カテゴリＣ０のラベル「特許」との関連性が相対的に低いラベル「スライド」が付与されてしまう場合がある。この場合では、ユーザは、カテゴリＣ１１のラベル「スライド」を参照しても、「特許」との関連性が相対的に低いため、「特許」についての文書集合Ｔｓ０のうち、「特許」に関連する何の話題についてカテゴリＣ１１に分類されたのかを把握することが難しい。

一方で、図１の例では、情報処理装置１００は、出現回数が相対的に最も高いラベル候補「スライド」ではなく、出現回数が高く、かつ共起度合いも高いラベル候補「本出願」を、カテゴリＣ１１のラベルとして付与することができる。換言すれば、情報処理装置１００は、共起度合いが相対的に最も高いため、カテゴリＣ１１の上位カテゴリＣ０のラベル「特許」との関連性が相対的に高いラベル「本出願」を、カテゴリＣ１１に付与することができる。これにより、ユーザは、カテゴリＣ１１のラベル「本出願」を参照して、「特許」についての文書集合Ｔｓ０のうち、「本出願」について細かく分類され、「本出願」についての文書集合がカテゴリＣ１１に分類されたことを把握しやすくなる。

また、図１のように、情報処理装置１００は、最上位カテゴリに、ユーザから入力された検索キーワードをラベルとして付与することができる。このため、ユーザは、複数のカテゴリのそれぞれのカテゴリのラベルを参照して、複数のカテゴリのそれぞれのカテゴリに、ユーザが入力した検索キーワード「特許」に関連する何の話題についての文書集合が分類されたのかを把握しやすくなる。

ここで、図１において、ユーザが、「本出願」についての所望の文書を探索する場合を例に挙げる。この場合では、ユーザは、最上位カテゴリＣ０に分類された文書集合Ｔｓ０が、「特許」についての文書の集まりであることを把握する。次に、ユーザは、第１階層のカテゴリＣ１１に分類された文書集合Ｔｓ１１が、「特許」についての文書集合のうち、「特許」に関連する話題である「本出願」についての文書の集まりであることを把握する。そして、ユーザは、カテゴリＣ１１に分類された文書集合の中から所望の文書を探索する。このようにして、ユーザは、所望の文書を発見することができる。

（情報処理装置１００を適用するシステムの一例）
次に、図１に示した情報処理装置１００を適用するシステムの一例について説明する。

例えば、情報処理装置１００は、ユーザが検索キーワードに基づいて所望の文書を検索するシステムに適用することができる。情報処理装置１００は、例えば、ユーザから検索キーワードの入力を受け付ける。次に、情報処理装置１００は、記憶装置に記憶された文書群の中から検索キーワードに関連する複数の文書を抽出する。そして、情報処理装置１００は、抽出した複数の文書を階層化された複数のカテゴリに分類する。次に、情報処理装置１００は、複数のカテゴリの最上位カテゴリのラベルとして検索キーワードを付与するとともに、残余のカテゴリのそれぞれのカテゴリにラベルを付与する。そして、情報処理装置１００は、それぞれのカテゴリに付与されたラベルを表示する。

これにより、ユーザは、あるカテゴリの下位カテゴリに、あるカテゴリのラベルが示す話題についての文書集合のうちの、何の話題についての文書集合が抽出され、細かく分類されたのかを把握することができる。このため、ユーザは、入力した検索キーワードをラベルとして付与された最上位カテゴリから、所望の文書に関連する話題を示すラベルが付与され、当該話題についての文書集合が分類された下位階層のカテゴリを辿ることができる。そして、ユーザは、所望の文書が分類された下位カテゴリを発見し、所望の文書を発見しやすくなり、所望の文書を発見するのにかかる時間を低減することができる。

また、例えば、情報処理装置１００は、ユーザが、文書群を、階層化された複数のカテゴリに分類して整理するシステムに適用することができる。情報処理装置１００は、例えば、記憶装置に記憶された文書群を、階層化された複数のカテゴリに分類する。そして、情報処理装置１００は、文書群を分類した複数のカテゴリのそれぞれのカテゴリにラベルを付与する。

これにより、ユーザは、あるカテゴリの下位カテゴリに、あるカテゴリのラベルが示す話題についての文書集合のうちの、何の話題についての文書が抽出されて分類されたのかを把握しやすいように、下位カテゴリにラベルを付与することができる。そして、ユーザは、記憶装置に記憶された文書群を階層化された複数のカテゴリを分類する作業、および複数のカテゴリのそれぞれのカテゴリに付与するラベルを決定する作業にかかる時間を低減することができる。

（情報処理装置１００のハードウェア）
次に、図２を用いて、図１に示した情報処理装置１００のハードウェアの一例について説明する。

図２は、情報処理装置１００のハードウェアの一例を示すブロック図である。図２において、情報処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、を有する。

また、情報処理装置１００は、さらに、ディスクドライブ２０４と、ディスク２０５と、インターフェース（Ｉ／Ｆ：Ｉｎｔｅｒｆａｃｅ）２０６と、入力装置２０７と、出力装置２０８とを有する。また、ＣＰＵ２０１と、ＲＯＭ２０２と、ＲＡＭ２０３と、ディスクドライブ２０４と、Ｉ／Ｆ２０６と、入力装置２０７と、出力装置２０８とは、バス２００によって、それぞれ接続されている。情報処理装置１００は、例えば、サーバ、ノート型パソコン、デスクトップ型パソコンなどである。

ここで、ＣＰＵ２０１は、情報処理装置１００の全体の制御を司る。ＲＯＭ２０２は、ブートプログラム、実施の形態にかかる名称決定プログラムなどの各種プログラムを記憶する。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される。また、ＲＡＭ２０３は、各種プログラムの実行により得られたデータなどの各種データを記憶する。また、ＲＡＭ２０３は、図４または図１５に後述する文書ＤＢ（ＤａｔａＢａｓｅ）４００、および図５に後述するストップワードリスト５００などを記憶する。

ディスクドライブ２０４は、ＣＰＵ２０１の制御に従ってディスク２０５に対するデータのリード／ライトを制御する。ディスク２０５は、ディスクドライブ２０４の制御によって書き込まれたデータを記憶する。また、ディスク２０５は、ＲＡＭ２０３の代わりに、図４または図１５に後述する文書ＤＢ４００、および図５に後述するストップワードリスト５００などを記憶してもよい。ディスク２０５は、例えば、磁気ディスク、または光ディスクなどである。

Ｉ／Ｆ２０６は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他の装置に接続される。ネットワーク２１０は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどである。そして、Ｉ／Ｆ２０６は、ネットワーク２１０と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。Ｉ／Ｆ２０６は、例えば、モデムやＬＡＮアダプタなどである。

入力装置２０７は、キーボード、タッチパネルなどユーザの操作により、各種データの入力を行うインターフェースである。入力装置２０７は、マウス、スキャナなどであってもよい。出力装置２０８は、ＣＰＵ２０１の指示により、データを出力するインターフェースである。出力装置２０８は、例えば、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示するディスプレイである。出力装置２０８は、プリンタであってもよい。

（情報処理装置１００の機能的構成例）
次に、図３を用いて、情報処理装置１００の機能的構成例について説明する。

図３は、情報処理装置１００の機能的構成例を示すブロック図である。情報処理装置１００は、制御部となる機能として、取得部３０１と、検索部３０２と、分類部３０３と、選択部３０４と、特定部３０５と、決定部３０６と、出力部３０７とを含む。

取得部３０１は、文書群を取得する。取得部３０１は、例えば、図４に後述する文書ＤＢ４００に記憶された文書群を取得する。これにより、取得部３０１は、取得した文書群を検索部３０２に出力することができる。そして、取得部３０１は、検索部３０２に、出力した文書群の中から文書を検索させることができる。取得した文書群は、例えば、ＲＡＭ２０３、ディスク２０５などの記憶領域に記憶される。

また、取得部３０１は、階層化された複数のカテゴリに分類済みの文書群を取得してもよい。階層化とは、いくつかのカテゴリが集まって１つの上位カテゴリになるといった状態にすることである。これにより、取得部３０１は、取得した文書群を検索部３０２に出力することができる。そして、取得部３０１は、検索部３０２に、出力した文書群の中から文書を検索させることができる。

取得部３０１は、検索キーワードを取得する。検索キーワードとは、文書群の中から文書を検索するためのキーワードである。検索キーワードは、例えば、語句、語句の組み合わせ、自然文などである。検索キーワードの形式は、後述する検索部３０２の検索方法に対応する形式であればよい。取得部３０１は、例えば、図２に示した入力装置２０７となるキーボードやタッチパネルなどによってユーザから操作入力された検索キーワードを取得する。また、取得部３０１は、検索条件を取得してもよい。検索条件は、例えば、文書の種別である。文書の種別は、文書にどのような文が記載されているかを示す情報である。文書の種別は、例えば、テキスト、プレゼンテーション用文書、表計算用文書などである。

これにより、取得部３０１は、取得した検索キーワードを検索部３０２に出力することができる。そして、取得部３０１は、検索部３０２に、出力した検索キーワードに基づいて文書を検索させることができる。取得した検索キーワードは、例えば、ＲＡＭ２０３、ディスク２０５などの記憶領域に記憶される。

取得部３０１は、ストップワードを取得する。ストップワードとは、カテゴリの名称として使用しない語句である。カテゴリの名称とは、カテゴリを特徴付ける語句である。カテゴリの名称は、例えば、カテゴリに分類された文書集合に関する語句である。カテゴリの名称は、具体的には、カテゴリに分類された文書集合に出現する語句である。語句は、単語や数字、単語の組み合わせ、または文章などである。カテゴリの名称は、カテゴリのラベルである。取得部３０１は、図２に示した入力装置２０７となるキーボードやタッチパネルなどによってユーザから操作入力されたストップワードを取得する。

また、取得部３０１は、図５に後述するストップワードリスト５００に記憶されたストップワードを読み出すことにより、ストップワードを取得してもよい。ストップワードは、例えば、情報処理装置１００の製造者によって、または情報処理装置１００のユーザによって、図５に後述するストップワードリスト５００に予め記憶された語句である。

これにより、取得部３０１は、取得したストップワードを特定部３０５に出力することができる。そして、取得部３０１は、特定部３０５に、ストップワードとは異なる、カテゴリの名称候補を特定させることができる。名称候補は、カテゴリの名称になりうる語句である。名称候補は、カテゴリのラベル候補である。取得したストップワードは、例えば、ＲＡＭ２０３、ディスク２０５などの記憶領域に記憶される。

取得部３０１は、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ディスク２０５などの記憶装置に記憶されたプログラムをＣＰＵ２０１に実行させることにより、または、Ｉ／Ｆ２０６により、その機能を実現する。

検索部３０２は、取得部３０１が取得した検索キーワードに基づいて、文書群の中から文書を抽出する。検索部３０２は、例えば、取得部３０１が取得した検索キーワードを検索式として、文書ＤＢ４００に格納された文書群の中から検索キーワードに関連する文書を抽出する。検索キーワードに関連する文書は、例えば、検索キーワードが出現する文書、および検索キーワードの同義語や類似語が出現する文書などである。検索キーワードに関連する文書は、検索キーワードが複数の語句の組み合わせであれば、複数の語句のいずれかの語句が出現する文書であってもよい。

また、検索部３０２は、取得部３０１が取得した検索キーワードの他に、取得部３０１が取得した検索条件に基づいて、文書群の中から文書を抽出してもよい。検索部３０２は、例えば、文書ＤＢ４００に格納された文書群のうちの検索条件を満たす文書の中から、検索キーワードが出現する文書を抽出する。また、検索部３０２は、取得部３０１が取得した検索条件に基づいて、文書群の中から文書を抽出してもよい。検索部３０２は、例えば、文書ＤＢ４００に格納された文書群の中から、検索条件を満たす文書を抽出する。

これにより、検索部３０２は、検索結果として、検索した文書、検索した文書の識別情報、または検索した文書の格納場所などを、分類部３０３に出力することができる。そして、検索部３０２は、検索した文書を分類部３０３に分類させることができる。検索結果は、例えば、ＲＡＭ２０３、ディスク２０５などの記憶領域に記憶される。

検索部３０２は、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ディスク２０５などの記憶装置に記憶されたプログラムをＣＰＵ２０１に実行させることにより、その機能を実現する。

分類部３０３は、検索部３０２が検索した複数の文書を、階層化された複数のカテゴリに分類する。分類部３０３は、例えば、検索部３０２が検索した複数の文書に含まれる文書同士の類似度合いを示すコサイン類似度を算出する。次に、分類部３０３は、算出したコサイン類似度が最小になる文書同士を１つの文書集合としてまとめる。そして、分類部３０３は、文書同士をまとめた文書集合が分類された最下位階層のカテゴリを作成する。さらに、分類部３０３は、ウォード法によって、２つのカテゴリに分類された２つの文書集合を併合した１つの文書集合が分類された、２つのカテゴリの上位カテゴリを作成することを繰り返す。ここで、異なるカテゴリに分類された文書集合に、同一の文書が含まれてもよい。

また、分類部３０３は、取得部３０１が取得した文書群を、階層化された複数のカテゴリに分類してもよい。これにより、分類部３０３は、複数の文書を分類した階層化された複数のカテゴリを選択部３０４に出力することができる。そして、分類部３０３は、選択部３０４に、複数のカテゴリのいずれかのカテゴリを選択させることができる。分類結果は、例えば、ＲＡＭ２０３、ディスク２０５などの記憶領域に記憶される。

分類部３０３は、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ディスク２０５などの記憶装置に記憶されたプログラムをＣＰＵ２０１に実行させることにより、その機能を実現する。

選択部３０４は、分類部３０３が複数の文書を分類した階層化された複数のカテゴリのいずれかのカテゴリを選択する。選択部３０４は、分類部３０３が複数の文書を分類した階層化された複数のカテゴリのうち、既にラベルを決定済みのカテゴリの直下位カテゴリを選択する。これにより、選択部３０４は、ラベルを決定する対象にするカテゴリを選択することができる。そして、選択部３０４は、選択したカテゴリを特定部３０５に出力することができる。選択したカテゴリは、例えば、ＲＡＭ２０３、ディスク２０５などの記憶領域に記憶される。

選択部３０４は、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ディスク２０５などの記憶装置に記憶されたプログラムをＣＰＵ２０１に実行させることにより、その機能を実現する。

特定部３０５は、分類部３０３が複数の文書を分類した階層化された複数のカテゴリのうち、選択部３０４が選択したいずれかのカテゴリに分類した文書集合から、選択部３０４が選択したいずれかのカテゴリのラベル候補を特定する。ここで、文書集合は、１または複数の文書である。特定部３０５は、例えば、選択部３０４が選択したカテゴリに分類した文書集合に出現する語句を抽出する。そして、特定部３０５は、抽出した語句の中から選択部３０４が選択したカテゴリのラベル候補になる語句を特定する。

特定部３０５は、具体的には、選択部３０４が選択したカテゴリに分類した文書集合についての形態素解析によって、当該文書集合に出現する語句を抽出する。そして、特定部３０５は、抽出した語句のうちの特定の品詞として認識された語句を、選択部３０４が選択したカテゴリのラベル候補として特定する。特定の品詞とは、予め、カテゴリのラベルにする条件として設定された語句の種別である。特定の品詞は、例えば、名詞である。これにより、特定部３０５は、カテゴリのラベルになりうる語句を、カテゴリのラベル候補として特定することができる。

特定部３０５は、さらに、選択部３０４が選択したカテゴリに分類した文書集合から、選択部３０４が選択したカテゴリのラベル候補として、取得部３０１が取得したストップワードとは異なる語句を特定してもよい。特定部３０５は、例えば、選択部３０４が選択したカテゴリに分類した文書集合に出現する語句を抽出する。そして、特定部３０５は、抽出した語句の中から選択部３０４が選択したカテゴリのラベル候補になる、ストップワードとは異なる語句を特定する。

特定部３０５は、具体的には、形態素解析によって、特定の品詞として認識された語句を抽出する。次に、特定部３０５は、抽出した語句の中からストップワードと一致する語句を除外する。また、特定部３０５は、抽出した語句の中から、ストップワードと部分一致する語句、またはストップワードの同義語や類似語になる語句を除外してもよい。そして、特定部３０５は、除外後に残った語句を選択部３０４が選択したカテゴリのラベル候補として特定する。これにより、特定部３０５は、カテゴリを特徴付けるラベルから特定の語句を除外することができる。

特定部３０５は、さらに、選択部３０４が選択したカテゴリに分類した文書集合から、選択部３０４が選択したカテゴリのラベル候補として、選択部３０４が選択したカテゴリの上位カテゴリのラベルとは異なる語句を特定してもよい。特定部３０５は、例えば、選択部３０４が選択したカテゴリに分類した文書集合に出現する語句を抽出する。そして、特定部３０５は、抽出した語句の中から選択部３０４が選択したカテゴリのラベル候補になる、選択部３０４が選択したカテゴリの上位カテゴリのラベルとは異なる語句を特定する。

特定部３０５は、具体的には、形態素解析によって、特定の品詞として認識された語句を抽出する。次に、特定部３０５は、抽出した語句の中から選択部３０４が選択したカテゴリの上位カテゴリのラベルと一致する語句を除外する。また、特定部３０５は、抽出した語句の中から、選択部３０４が選択したカテゴリの上位カテゴリのラベルと部分一致する語句、または選択部３０４が選択したカテゴリの上位カテゴリのラベルの同義語や類似語になる語句を除外してもよい。そして、特定部３０５は、除外後に残った語句を選択部３０４が選択したカテゴリのラベル候補として特定する。これにより、特定部３０５は、カテゴリを特徴付けるラベルから、当該カテゴリの上位カテゴリを特徴付けるラベルと一致する語句を除外することができる。

特定部３０５は、さらに、選択部３０４が選択したカテゴリに分類した文書集合から、選択部３０４が選択したカテゴリのラベル候補として、選択部３０４が選択したカテゴリと直上位カテゴリが一致する他のカテゴリのラベルとは異なる語句を特定してもよい。換言すれば、特定部３０５は、選択部３０４が選択したカテゴリの直上位カテゴリの直下位カテゴリのうち、選択部３０４が選択したカテゴリとは異なる他のカテゴリを特徴付ける名称とは異なる語句を特定する。特定部３０５は、例えば、選択部３０４が選択したカテゴリに分類した文書集合に出現する語句を抽出する。そして、特定部３０５は、抽出した語句の中から選択部３０４が選択したカテゴリのラベル候補になる、選択部３０４が選択したカテゴリと直上位カテゴリが一致する他のカテゴリのラベルとは異なる語句を特定する。

特定部３０５は、具体的には、形態素解析によって、特定の品詞として認識された語句を抽出する。次に、特定部３０５は、抽出した語句の中から選択部３０４が選択したカテゴリと直上位カテゴリが一致する他のカテゴリのラベルと一致する語句を除外する。また、特定部３０５は、抽出した語句の中から、直上位カテゴリが一致する他のカテゴリのラベルと部分一致する語句、または直上位カテゴリが一致する他のカテゴリのラベルの同義語や類似語になる語句を除外してもよい。そして、特定部３０５は、除外後に残った語句を選択部３０４が選択したカテゴリのラベル候補として特定する。これにより、特定部３０５は、カテゴリを特徴付けるラベルから、当該カテゴリと直上位カテゴリが一致する他のカテゴリを特徴付けるラベルと一致する語句を除外することができる。

また、特定部３０５は、選択部３０４が選択したカテゴリに分類した文書集合から、選択部３０４が選択したカテゴリのラベル候補として、選択部３０４が選択したカテゴリと同一階層にある他のカテゴリのラベルとは異なる語句を特定してもよい。また、特定部３０５は、選択部３０４が選択したカテゴリに分類した文書集合から、選択部３０４が選択したカテゴリのラベル候補として、選択部３０４が選択したカテゴリとは異なる他のカテゴリのラベルとは異なる語句を特定してもよい。

特定部３０５は、さらに、選択部３０４が選択したカテゴリに分類した文書集合に出現する語句の特徴度を算出してもよい。特徴度とは、語句がカテゴリに分類した文書集合を特徴付ける度合いを示す値である。特徴度は、例えば、語句のＴＦ−ＩＤＦやＣ−Ｖａｌｕｅといったラベルスコアである。そして、特定部３０５は、算出したラベルスコアに基づいて選択部３０４が選択したカテゴリのラベル候補を特定する。

特定部３０５は、例えば、選択部３０４が選択したカテゴリに分類した文書集合に出現する語句の当該文書集合における出現度合いと、当該語句の複数の文書における出現度合いとに基づいて、当該語句のラベルスコアを算出する。出現度合いとは、語句の出現しやすさを示す。また、特定部３０５は、選択部３０４が選択したカテゴリに分類した文書集合に出現する語句の当該文書集合における出現度合いと、当該語句を含む複合語の当該文書集合における出現度合いとに基づいて、当該語句のラベルスコアを算出してもよい。そして、特定部３０５は、算出したラベルスコアに基づいて、カテゴリのラベル候補を特定する。

特定部３０５は、具体的には、形態素解析によって、特定の品詞として認識された語句を抽出する。次に、特定部３０５は、抽出した語句のラベルスコアとしてＴＦ−ＩＤＦを算出する。また、特定部３０５は、抽出した語句のラベルスコアとしてＣ−Ｖａｌｕｅを算出してもよい。そして、特定部３０５は、抽出した語句を、ラベルスコアが高い順にソートする。その後、特定部３０５は、所定の順位までの語句を、ラベル候補として特定する。これにより、特定部３０５は、カテゴリを特徴付ける観点からのラベルとしての尤度を示す特徴度に基づいて、カテゴリを特徴付ける観点からラベルとして尤もらしい語句を、ラベル候補として特定することができる。

特定したラベル候補は、例えば、ＲＡＭ２０３、ディスク２０５などの記憶領域に記憶される。特定部３０５は、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ディスク２０５などの記憶装置に記憶されたプログラムをＣＰＵ２０１に実行させることにより、その機能を実現する。

決定部３０６は、最上位カテゴリのラベルを決定する。決定部３０６は、例えば、検索部３０２が検索した複数の文書を分類部３０３が分類した場合には、取得部３０１が取得した検索キーワードを最上位カテゴリのラベルに決定する。決定部３０６は、検索キーワードが複数ある場合には、複数の検索キーワードを最上位カテゴリのラベルに決定してもよい。これにより、決定部３０６は、最上位カテゴリを特徴付けるラベルとして検索キーワードを付与することができる。

また、決定部３０６は、例えば、取得部３０１が取得した文書群を分類部３０３が分類した場合には、最上位カテゴリについて特定部３０５が特定したラベル候補のうち、ラベルスコアが最大のラベル候補を、最上位カテゴリのラベルに決定する。これにより、決定部３０６は、最上位カテゴリを特徴付けるラベルを付与することができる。

決定部３０６は、複数の文書における、特定部３０５が特定したラベル候補と、選択部３０４が選択したカテゴリの上位カテゴリのラベルとの共起度合いに基づいて、選択部３０４が選択したカテゴリのラベルを決定する。ここで、上位カテゴリとは、選択部３０４が選択したカテゴリに分類された文書集合を含む、選択部３０４が選択したカテゴリよりも上位階層のカテゴリである。上位カテゴリは、例えば、選択部３０４が選択したカテゴリの直上位カテゴリである。

上位カテゴリは、例えば、最上位カテゴリから、選択部３０４が選択したカテゴリの直上位カテゴリまでのいずれかのカテゴリであってもよい。上位カテゴリは、例えば、最上位カテゴリから、選択部３０４が選択したカテゴリの直上位カテゴリまでのそれぞれのカテゴリであってもよい。

決定部３０６は、例えば、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、カテゴリのラベルを決定する。決定部３０６は、具体的には、カテゴリに分類した文書集合のそれぞれの文書の種別に基づいて、カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定する。

文間に連続性がある文書とは、関連する話題についての複数の文が続けて書かれた文書である。文間に連続性がある文書は、例えば、複数の文が段落分けして書かれた論文、特許文献、技術文献などである。文間に連続性がある文書ではない文書は、例えば、複数の短文が箇条書きされた文書、または複数の説明文が書かれた図面などである。文間に連続性がある文書ではない文書は、具体的には、機械が描画された図面であって、機械の各部の説明文が、図面上の機械の各部の傍らに書かれた図面などである。

文間に連続性がある文書であるか否かは、例えば、文書の種別に基づいて判別される。具体的には、ある文書は、文書の種別がテキストであれば文間に連続性がある文書であるとされ、文書の種別がプレゼンテーション用文書、表計算用文書であれば文間に連続性がある文書ではないとされる。決定部３０６は、文間に連続性がある文書の集まりである場合には、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、カテゴリのラベルを決定する。

決定部３０６は、より具体的には、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、ラベル候補の連想スコアを算出する。連想スコアとは、上位カテゴリのラベルとの関連性の観点からのラベルとしての尤度を示す値である。そして、決定部３０６は、連想スコアが相対的に最も高いラベル候補を、選択部３０４が選択したカテゴリのラベルに決定する。

これにより、決定部３０６は、文書中に、ラベル候補と、上位カテゴリを特徴付けるラベルとのそれぞれが、所定数よりも離れた２つの文のそれぞれに出現している場合には、共起しない組み合わせと判定することができる。ここで、所定数よりも離れた２つの文は、異なる話題について述べた２つの文である可能性がある。このため、決定部３０６は、異なる話題について述べた、２つの文のそれぞれの文に出現する語句の組み合わせを、同一の話題について述べた、関連する語句の組み合わせとしてしまうことを抑制することができる。結果として、決定部３０６は、文間に連続性がある文書の集まりである文書集合が分類されたカテゴリについて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。

また、決定部３０６は、例えば、カテゴリに分類した文書集合のそれぞれの文書の全文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、カテゴリのラベルを決定してもよい。決定部３０６は、具体的には、カテゴリに分類した文書集合のそれぞれの文書の種別に基づいて、カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定する。そして、決定部３０６は、文間に連続性がある文書の集まりではない場合には、カテゴリに分類した文書集合のそれぞれの文書の全文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、カテゴリのラベルを決定する。

決定部３０６は、より具体的には、カテゴリに分類した文書集合のそれぞれの文書の全文単位の、ラベル候補と、上位カテゴリのラベルとの共起度合いに基づいて、ラベル候補の連想スコアを算出する。そして、決定部３０６は、連想スコアが相対的に最も高いラベル候補を、選択部３０４が選択したカテゴリのラベルに決定する。

これにより、決定部３０６は、文書中に、ラベル候補と、上位カテゴリを特徴付けるラベルとが、どれだけ離れて出現していても、共起する組み合わせと判定することができる。ここで、文書が文間に連続性がある文書ではない場合には、文書に含まれる２つの文は、所定数よりも離れていたとしても、同じ話題について述べた２つの文である可能性がある。このため、決定部３０６は、同一の話題について述べた、関連する語句の組み合わせを、異なる話題について述べた、関連性が相対的に低い語句の組み合わせとしてしまうことを抑制することができる。結果として、決定部３０６は、文間に連続性がある文書の集まりではない文書集合が分類されたカテゴリについて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。

決定部３０６は、さらに、複数の文書のうち、特定部３０５が特定したラベル候補が出現する文書集合と選択部３０４が選択したカテゴリの上位カテゴリのラベルが出現する文書集合との重複度合いに基づいて、選択したカテゴリのラベルを決定してもよい。重複度合いとは、２つの文書集合において重複している文書の数の多さを示す。ここでは、連想スコアは、例えば、上位カテゴリのラベルと、選択部３０４が選択したカテゴリのラベル候補が共起する文書の数が多くなるほど、値が大きくなるようにする。また、連想スコアは、上位カテゴリのラベルと、カテゴリのラベル候補が共起する文書の数に比べて、選択部３０４が選択したカテゴリのラベル候補が出現する文書の数が多くなるほど、値が小さくなるようにする。

決定部３０６は、特定部３０５が特定したラベル候補の連想スコアを算出する。そして、決定部３０６は、連想スコアが相対的に最も高いラベル候補を、選択部３０４が選択したカテゴリのラベルに決定する。これにより、決定部３０６は、複数のカテゴリのそれぞれのカテゴリを特徴付けるラベルとして、当該カテゴリの上位カテゴリを特徴付けるラベルが出現する文書以外の文書に出現する回数が少ないラベルを付与することができる。

また、決定部３０６は、特定部３０５がラベルスコアを算出せずにラベル候補を特定した場合には、特定部３０５が特定したラベル候補のうち、複数の文書における、上位カテゴリのラベルとの共起度合いが相対的に高いラベル候補をさらに特定してもよい。次に、決定部３０６は、特定した共起度合いが相対的に高いラベル候補のラベルスコアを算出する。そして、決定部３０６は、算出したラベルスコアに基づいて、カテゴリのラベルを決定する。これにより、決定部３０６は、共起度合いに基づいてラベル候補を特定することができる。その後、決定部３０６は、特定したラベル候補のカテゴリを特徴付ける観点からのラベルとしての尤度を示す特徴度に基づいて、ラベルを決定することができる。

決定したラベルは、例えば、ＲＡＭ２０３、ディスク２０５などの記憶領域に記憶される。決定部３０６は、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ディスク２０５などの記憶装置に記憶されたプログラムをＣＰＵ２０１に実行させることにより、その機能を実現する。

出力部３０７は、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、複数のカテゴリのそれぞれのカテゴリに分類した文書集合のそれぞれの文書を識別する情報を出力する。出力部３０７は、例えば、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、複数のカテゴリのそれぞれのカテゴリに分類した文書集合のそれぞれの文書を識別する情報を、出力装置２０８になるディスプレイに表示する。

また、出力部３０７は、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、複数のカテゴリのそれぞれのカテゴリに分類した文書集合のそれぞれの文書を識別する情報を、Ｉ／Ｆ２０６によって外部装置へ送信してもよい。また、出力部３０７は、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、複数のカテゴリのそれぞれのカテゴリに分類した文書集合のそれぞれの文書を識別する情報を、ＲＡＭ２０３やディスク２０５などの記憶領域に記憶してもよい。これにより、出力部３０７は、ユーザに、複数のカテゴリのそれぞれのカテゴリのラベルを通知することができる。

（実施例１）
次に、図４〜図１０を用いて、実施例１について説明する。

＜実施例１における文書ＤＢ４００のデータ構造の一例＞
図４は、実施例１における文書ＤＢ４００のデータ構造の一例を示す説明図である。文書ＤＢ４００は、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ディスク２０５などの記憶領域によって実現される。

図４に示すように、文書ＤＢ４００は、文書名項目に対応付けて、一文内容項目を有し、文書ごとに各項目に情報が設定されることにより、レコードを記憶する。文書名項目には、文書の名称が記憶される。一文内容項目には、文書名項目に名称が記憶された文書に含まれる一文の内容が記憶される。例えば、レコード４０１は、「文書Ａ」と、「文書Ａ」に含まれる「文１」とを示す文書情報に対応する。

また、文書ＤＢ４００は、さらに、情報処理装置１００が文書群のそれぞれの文書の種別、それぞれの文書を代表するキーワード、またはそれぞれの文書の属性に基づいて文書群を分類する場合には、メタデータ項目を有してもよい。メタデータ項目には、文書の種別、文書を代表するキーワード、または文書の属性などを示すメタデータが記憶される。

＜実施例１におけるストップワードリスト５００のデータ構造の一例＞
図５は、実施例１におけるストップワードリスト５００のデータ構造の一例を示す説明図である。ストップワードリスト５００は、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ディスク２０５などの記憶領域によって実現される。

図５に示すように、ストップワードリスト５００は、ストップワード項目を有し、ストップワード項目に情報が設定されることにより、レコードを記憶する。ストップワード項目には、カテゴリのラベルとして使用しない語句が記憶される。例えば、レコード５０１は、「ストップワードＡ」を示す語句情報に対応する。

＜実施例１における文書ＤＢ４００の中から検索キーワードに関連する文書を抽出する一例＞
実施例１において、情報処理装置１００は、ユーザから検索キーワードの入力を受け付ける。そして、情報処理装置１００は、文書群の中から検索キーワードに関連する文書を抽出する。情報処理装置１００は、例えば、文書ＤＢ４００のレコード群の文書名項目に記憶された文書の名称のうち、検索キーワードが出現する文書の名称を抽出する。

情報処理装置１００は、具体的には、ユーザから検索キーワード「音声」の入力を受け付ける。次に、情報処理装置１００は、文書ＤＢ４００のレコード群のそれぞれのレコードの一文内容項目に記憶された一文の内容に検索キーワード「音声」が出現するか否かを判定する。そして、情報処理装置１００は、検索キーワード「音声」が出現すると判定したレコードの文書名項目に記憶された文書の名称を抽出する。これにより、情報処理装置１００は、階層化された複数のカテゴリに分類する対象になる、検索キーワードが出現する複数の文書を抽出することができる。

ここでは、検索キーワードが、１つのキーワードである場合について説明したが、これに限らない。例えば、検索キーワードは、複数のキーワードの組み合わせであってもよい。この場合では、情報処理装置１００は、複数のキーワードのいずれかのキーワードが出現する文書を抽出する。また、情報処理装置１００は、複数のキーワードが出現する文書を抽出してもよい。

また、例えば、検索キーワードは、自然文であってもよい。この場合では、情報処理装置１００は、形態素解析によって自然文に出現するキーワードを抽出する。そして、情報処理装置１００は、抽出したキーワードが出現する文書を抽出する。

＜実施例１における複数の文書を複数のカテゴリに分類する一例＞
図６は、実施例１における複数の文書を複数のカテゴリに分類する一例を示す説明図である。図６の例では、情報処理装置１００は、抽出した複数の文書を、最上位カテゴリに分類する文書集合に設定する。そして、情報処理装置１００は、最上位カテゴリに分類した文書集合を、複数の文書集合に分割する。

情報処理装置１００は、例えば、最上位カテゴリに分類した文書集合について、図６に示す単語文書行列６００を作成する。単語文書行列６００の複数の行のそれぞれは、最上位カテゴリに分類した文書集合のそれぞれの文書に対応する。単語文書行列６００の複数の列のそれぞれは、最上位カテゴリに分類した文書集合に出現する複数の語句のそれぞれに対応する。

単語文書行列６００の要素は、当該要素がある行に対応する文書において、当該要素がある列に対応する語句が出現するか否かを示す値である。要素は、例えば、文書に語句が出現する場合には「１」である。要素は、文書に語句が出現しない場合には「０」である。また、要素は、文書に語句が出現する回数であってもよい。また、要素は、文書における語句についてのＴＦ−ＩＤＦであってもよい。

次に、情報処理装置１００は、単語文書行列６００に基づいて、文書同士の類似度合いを示すコサイン類似度を算出する。情報処理装置１００は、例えば、コサイン類似度として、ｃｏｓθ＝（ｎｖ・ｎｗ）／（｜ｎｖ｜｜ｎｗ｜）を算出する。ｎｖは、単語文書行列６００のうちの文書ｖに対応する行にある要素を並べたベクトルである。ｎｗは、単語文書行列６００のうちの文書ｗに対応する行にある要素を並べたベクトルである。ｎｖ・ｎｗは、ｎｖとｎｗとの内積である。｜ｎｖ｜は、ｎｖのベクトルの大きさである。｜ｎｗ｜は、ｎｗのベクトルの大きさである。

２つのベクトルｎｖとベクトルｎｗとが同じ向きであれば、２つのベクトルｎｖとベクトルｎｗとの間の角度θは０°になり、ｃｏｓθは１になる。一方で、２つのベクトルｎｖとベクトルｎｗとが逆向きであれば、２つのベクトルｎｖとベクトルｎｗとの間の角度θは１８０°になり、ｃｏｓθは−１になる。換言すれば、文書ｖと文書ｗに出現する語句のパターンが似ているほど、コサイン類似度は１に近づく。また、文書ｖと文書ｗに出現する語句のパターンが似ていないほど、コサイン類似度は−１に近づく。そして、情報処理装置１００は、コサイン類似度が１に最も近くなる文書同士を、最下位階層のカテゴリに分類される文書集合の１つとする。

次に、情報処理装置１００は、ウォード法を用いて文書集合を併合する。情報処理装置１００は、例えば、文書集合同士の距離関数の値を算出する。距離関数は、例えば、文書集合のそれぞれの文書に出現する語句のパターンを座標値とした場合における文書集合同士の中心座標間の距離を示す関数である。次に、情報処理装置１００は、距離関数の値が最小になる文書集合同士を併合した１つの文書集合を特定する。そして、情報処理装置１００は、２つのカテゴリに分類された２つの文書集合同士を併合した１つの文書集合を、当該２つのカテゴリの上位カテゴリに分類された文書集合とする。

さらに、情報処理装置１００は、２つの文書集合を併合することを繰り返してもよい。そして、情報処理装置１００は、２つの文書集合を併合する都度、２つの文書集合を併合した１つの文書集合を、２つの文書集合が分類されたカテゴリの上位カテゴリに分類された文書集合とする。これにより、情報処理装置１００は、複数の文書を、階層化された複数のカテゴリに分類することができる。

ここで、情報処理装置１００は、検索キーワードを、最上位カテゴリのラベルに決定しておく。そして、情報処理装置１００は、検索キーワードを、最上位カテゴリのラベルとして付与する。また、情報処理装置１００は、検索キーワードが複数のキーワードの組み合わせであれば、それぞれのキーワードを最上位カテゴリのラベルとして付与してもよい。換言すれば、情報処理装置１００は、最上位カテゴリのラベルを複数付与してもよい。

ここでは、情報処理装置１００が、コサイン類似度に基づいて最下位階層のカテゴリに分類する文書集合を作成する場合について説明したが、これに限らない。例えば、情報処理装置１００は、文書集合同士の併合を繰り返した結果、併合された文書集合に含まれる文書の数が閾値以上になった場合に、併合された文書集合を最下位階層のカテゴリに分類された文書集合としてもよい。

ここでは、情報処理装置１００が、最下位階層のカテゴリに分類する文書集合から、最下位階層よりも上位階層のカテゴリに分類する文書集合を作成する場合について説明したが、これに限らない。例えば、情報処理装置１００は、最上位階層のカテゴリに分類する文書集合のうち、あるキーワードが出現する文書集合を、最上位階層よりも下位階層のカテゴリに分類する文書集合としてもよい。そして、情報処理装置１００は、最上位階層よりも下位階層のカテゴリに分類する文書集合のうち、別のキーワードが出現する文書集合を、さらに下位階層のカテゴリに分類する文書集合としてもよい。

＜実施例１における複数のカテゴリのいずれかのカテゴリのラベル候補を特定する一例＞
図７は、実施例１における複数のカテゴリのいずれかのカテゴリのラベル候補を特定する一例を示す説明図である。情報処理装置１００は、ＴＦ−ＩＤＦを用いて、複数のカテゴリのうち、ラベルを付与済みの最上位カテゴリを除くいずれかのカテゴリのラベル候補を特定する。

情報処理装置１００は、例えば、ラベル候補を特定する対象として、第１階層のカテゴリを選択する。次に、情報処理装置１００は、選択したカテゴリに分類した文書集合に出現する語句を抽出する。ここで、抽出した語句をｘとする。選択したカテゴリに分類した文書集合をｙとする。そして、情報処理装置１００は、抽出した語句のラベルスコアとして、ＴＦ_x,y×ＩＤＦ_xを算出する。

ここで、ＴＦ_x,y＝ｎ_x,y／Σ_zｎ_z,yである。また、ＩＤＦ_x＝ｌｏｇ｛Ｄ／ｄｆ（ｘ）｝である。ｎ_x,yは、抽出した語句ｘの文書集合ｙにおける出現回数である。ｎ_z,yは、文書集合ｙに出現する語句ｚの文書集合ｙにおける出現回数である。Ｄは、最上位カテゴリに分類した文書集合に含まれる文書の数である。ｄｆ（ｘ）は、最上位カテゴリに分類した文書集合のうちの語句ｘが出現する文書の数である。

次に、情報処理装置１００は、抽出した語句をラベルスコアが高い順にソートする。そして、情報処理装置１００は、ラベルスコアが所定の順位までの語句を、ラベル候補を特定する対象として選択したカテゴリのラベル候補として特定する。

図７の例では、情報処理装置１００は、選択した第１階層のカテゴリに分類した文書集合に出現する「ユーザ」、「確認」、「音声認識」、「判定」、「発明」、「ポイント」、「遅延」などの語句を抽出する。次に、情報処理装置１００は、抽出した語句のラベルスコアを算出する。そして、情報処理装置１００は、ラベルスコアが上位５位までの語句「ユーザ」、「確認」、「音声認識」、「判定」、「発明」を、ラベル候補として特定する。これにより、情報処理装置１００は、カテゴリを特徴付ける観点からラベルとして尤もらしいラベル候補を特定することができる。

ここでは、情報処理装置１００が、ラベルスコアが所定の順位までの語句を、カテゴリのラベル候補として特定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、ラベルスコアが閾値以上の語句を、カテゴリのラベル候補として特定してもよい。また、情報処理装置１００は、ラベルスコアが閾値以上であって、かつ、ラベルスコアが所定の順位までの語句を、カテゴリのラベル候補として特定してもよい。

＜実施例１における複数のカテゴリのいずれかのカテゴリのラベル候補を特定する他の例＞
情報処理装置１００は、Ｃ−Ｖａｌｕｅを用いて、複数のカテゴリのうち、ラベルを付与済みの最上位カテゴリを除くいずれかのカテゴリのラベル候補を特定してもよい。情報処理装置１００は、例えば、第１階層のカテゴリに分類した文書集合に出現する語句を抽出する。次に、情報処理装置１００は、抽出した語句のラベルスコアとして、Ｃ−Ｖａｌｕｅ（ＣＮ）を算出する。

ここで、Ｃ−Ｖａｌｕｅ（ＣＮ）＝（ｌｅｎｇｔｈ（ＣＮ）−１）×（ｎ（ＣＮ）−ｔ（ＣＮ）／ｃ（ＣＮ））である。ＣＮは、抽出した語句である。ｌｅｎｇｔｈ（ＣＮ）は、抽出した語句の長さである。ｎ（ＣＮ）は、文書集合において、抽出した語句が出現する回数である。ｔ（ＣＮ）は、文書集合において、抽出した語句を含む複合語が出現する回数である。ｃ（ＣＮ）は、文書集合に出現する、抽出した語句を含む複合語の種類の数である。

次に、情報処理装置１００は、文書集合に出現する語句をラベルスコアの高い順にソートする。そして、情報処理装置１００は、ラベルスコアが所定の順位までの語句を、ラベル候補として特定する。これにより、情報処理装置１００は、カテゴリを特徴付ける観点からラベルとして尤もらしいラベル候補を特定することができる。

また、ここでは、情報処理装置１００が、ＴＦ−ＩＤＦまたはＣ−Ｖａｌｕｅに基づいて、ラベル候補を特定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、ＴＦ−ＩＤＦが閾値以上であって、かつ、Ｃ−Ｖａｌｕｅが閾値以上である語句を、ラベル候補として特定してもよい。また、情報処理装置１００は、ＴＦ−ＩＤＦに基づいてラベル候補を特定することができなかった場合に、Ｃ−Ｖａｌｕｅに基づいてラベル候補を特定するようにしてもよい。

＜実施例１におけるラベル候補の連想スコアを算出する一例＞
図８は、実施例１におけるラベル候補の連想スコアを算出する一例を示す説明図である。情報処理装置１００は、特定したラベル候補のそれぞれの連想スコアを算出する。

ここで、上位カテゴリのラベルをｉ、ラベル候補の特定元のカテゴリのラベル候補をｊ、最上位カテゴリに分類した文書集合をＮとし、所定数連続する複数の文をｓとする。また、Ｎに含まれる複数のｓにおけるｊの出現回数をΣ_s∈_Nｓ（ｊ）とする。また、Ｎに含まれる複数のｓにおけるｉとｊとの組み合わせの出現回数をΣ_s∈_Nｓ（ｉ∩ｊ）とする。Σ_s∈_Nｓ（ｉ∩ｊ）は、ｉとｊとの組み合わせの共起回数に対応する。情報処理装置１００は、例えば、上位カテゴリのラベルがｉである場合のｊの連想スコアａ（ｊ｜ｉ）＝Σ_s∈_Nｓ（ｉ∩ｊ）／Σ_s∈_Nｓ（ｊ）を算出する。そして、情報処理装置１００は、連想スコアが最も高いラベル候補「音声認識」を、カテゴリのラベルに決定する。

また、情報処理装置１００は、上位カテゴリのラベルｉが複数ある場合には、それぞれのラベルｉについてｊの連想スコアａ（ｊ｜ｉ）を算出してもよい。そして、情報処理装置１００は、算出した連想スコアａ（ｊ｜ｉ）の和、または算出した連想スコアａ（ｊ｜ｉ）の平均値を算出する。そして、情報処理装置１００は、連想スコアの和、または連想スコアの平均値が最も高いラベル候補「音声認識」を、カテゴリのラベルに決定する。

ここで、上位カテゴリのラベルＹ、選択したカテゴリのラベル候補Ａ、Ｂとした場合を例に挙げる。この場合、図８のように、ラベルＹが出現する文書集合８０１とラベル候補Ａが出現する文書集合８０２との積集合８０３のうち、ハッチを付したラベルＹとラベル候補Ａが共起する文書集合８０４に含まれる文書の数が、ラベル候補Ａの連想スコアの分子となる。一方で、ラベル候補Ａが出現する文書集合８０２に含まれる文書の数が、ラベル候補Ａの連想スコアの分母となる。

同様に、図８のように、ラベルＹが出現する文書集合８０１とラベル候補Ｂが出現する文書集合８０５との積集合８０５のうち、ハッチを付したラベルＹとラベル候補Ｂが共起する文書集合８０６に含まれる文書の数が、ラベル候補Ｂの連想スコアの分子となる。一方で、ラベル候補Ｂが出現する文書集合８０５に含まれる文書の数が、ラベル候補Ｂの連想スコアの分母となる。

これにより、情報処理装置１００は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数が多くなるほど、連想スコアが大きくなるようにすることができる。また、情報処理装置１００は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数に比べて、選択したカテゴリのラベル候補が出現する文書の数が多くなるほど、連想スコアが小さくなるようにすることができる。換言すれば、情報処理装置１００は、上位カテゴリのラベルが出現する文書集合と、選択したカテゴリのラベル候補が出現する文書集合とが重複しないほど、連想スコアが小さくなるようにすることができる。

また、情報処理装置１００は、選択したカテゴリの上位カテゴリが複数ある場合には、上位カテゴリのラベルの集合をＩとして、上位カテゴリのラベル集合がＩの場合のｊの連想スコアａ（ｊ｜Ｉ）＝Σ_s∈_NΣ_i∈_Iｓ（ｉ∩ｊ）／Σ_s∈_Nｓ（ｊ）を算出してもよい。これにより、情報処理装置１００は、上位カテゴリのそれぞれのラベルとの関連性の観点からのラベルとしての尤度を示す連想スコアを算出することができる。

結果として、ユーザは、あるカテゴリに分類された文書集合が、上位カテゴリのそれぞれのラベルが示す話題についての文書集合のうちの、何の話題について細かく分類された文書集合であるかを把握しやすくなる。また、情報処理装置１００は、直上位カテゴリのラベルとの関連性の観点からではラベル候補同士の連想スコアの差が小さいためにラベルを決定しにくい場合であっても、連想スコアの差を大きくしてラベルを決定しやすくすることができることがある。

ここでは、情報処理装置１００が、上位カテゴリがｉである場合のｊの連想スコアａ（ｊ｜ｉ）＝Σ_s∈_Nｓ（ｉ∩ｊ）／Σ_s∈_Nｓ（ｊ）を算出する場合について説明したが、これに限らない。例えば、情報処理装置１００は、連想スコアａ（ｊ｜ｉ）の分子として、最上位カテゴリではなく、ラベル候補の特定元のカテゴリに分類した文書集合ｎについての共起度合いを示すΣ_s∈_nｓ（ｉ∩ｊ）を用いてもよい。

また、情報処理装置１００は、連想スコアａ（ｊ｜ｉ）の分子として、ラベル候補の特定元のカテゴリとは異なる他のカテゴリに分類した文書集合についての共起度合いを示す値を用いてもよい。また、例えば、情報処理装置１００は、連想スコアａ（ｊ｜ｉ）の分母として、文書集合Ｎに含まれる複数のｓにおいてｉとｊとの組み合わせが出現しない回数を用いてもよい。

＜実施例１におけるラベル候補の中からラベルを決定する一例＞
図９は、実施例１におけるラベル候補の中からラベルを決定する一例を示す説明図である。情報処理装置１００は、算出した連想スコアに基づいてラベル候補の中からカテゴリに付与するラベルを決定する。図９の例では、情報処理装置１００は、ラベル候補「ユーザ」、「確認」、「音声認識」、「判定」、「発明」のうちの、連想スコアが最も高いラベル候補「音声認識」を、選択したカテゴリのラベルに決定する。

これにより、情報処理装置１００は、上位カテゴリのラベルと関連性があるラベルを、選択したカテゴリのラベルに決定することができる。このため、ユーザは、カテゴリのラベルを参照して、あるカテゴリのラベルが示す話題についての文書のうち、何の話題についての文書が下位カテゴリに分類されたかを把握することができる。

ここでは、情報処理装置１００が、連想スコアが最も高いラベル候補を、カテゴリのラベルに決定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、ラベル候補を連想スコアが高い順にソートし、所定の順位までのラベル候補を、カテゴリのラベルに決定してもよい。また、情報処理装置１００は、連想スコアが閾値以上であるラベル候補を、カテゴリのラベルに決定してもよい。また、情報処理装置１００は、連想スコアが閾値以上であるラベル候補がない場合には、ラベル候補を特定しなおしてもよい。

ここで、情報処理装置１００は、カテゴリのラベルを決定した後、まだラベルを決定していないカテゴリが残っていれば、図７を用いて上述したラベル候補を特定する処理に戻る。そして、情報処理装置１００は、まだラベルを決定していないカテゴリのラベル候補が特定された場合には、カテゴリのラベルを決定する。これにより、情報処理装置１００は、複数のカテゴリのそれぞれのカテゴリのラベルを決定することができる。

＜実施例１における表示画面の一例＞
図１０は、実施例１における表示画面の一例を示す説明図である。情報処理装置１００は、階層化された複数のカテゴリのそれぞれのカテゴリのラベルを表示する。図１０の例では、情報処理装置１００は、最上位カテゴリのラベルと最上位カテゴリに分類された文書の数とを表示するとともに、最上位カテゴリの下位カテゴリとなる第１階層のそれぞれのカテゴリのラベルを表示するための展開ボタン１００１を表示する。情報処理装置１００は、例えば、最上位カテゴリのラベルと最上位カテゴリに分類された文書の数とを対応付けた「音声（６６３４）」を表示する。

また、情報処理装置１００は、最上位カテゴリに対応する展開ボタン１００１がクリックされると、第１階層のそれぞれのカテゴリに分類された文書の数と第１階層のそれぞれのカテゴリのラベルとを表示する。情報処理装置１００は、例えば、第１階層のカテゴリのラベルと第１階層のカテゴリに分類された文書の数とを対応付けた「技術（２９４９）」や「音声認識（１２２２）」などを表示する。

また、情報処理装置１００は、第１階層のそれぞれのカテゴリの下位カテゴリとなる第２階層のそれぞれのカテゴリのラベルを表示するための展開ボタンを表示する。情報処理装置１００は、例えば、「音声認識」が付与された第１階層のカテゴリの下位カテゴリとなる第２階層のそれぞれのカテゴリのラベルを表示するための展開ボタン１００２を表示する。

同様に、情報処理装置１００は、第１階層のカテゴリに対応する展開ボタンがクリックされると、当該カテゴリの下位カテゴリになる第２階層の複数のカテゴリのそれぞれのカテゴリに分類された文書の数と、それぞれのカテゴリのラベルとを表示する。情報処理装置１００は、例えば、展開ボタン１００２をクリックされると、第２階層のカテゴリのラベルと第２階層のカテゴリに分類された文書の数とを対応付けた「区間（１６４）」や「対話（１０４）」などを表示する。

また、情報処理装置１００は、それぞれのラベルがクリックされると、それぞれのラベルが付与されたカテゴリに分類された文書集合に含まれる文書の数と、文書集合のそれぞれの文書の名称の一覧を表示する。情報処理装置１００は、例えば、ラベル１００３がクリックされると、ラベル１００３が付与されたカテゴリに分類された「音声認識」についての文書集合に含まれる文書の数と、「音声認識」についての文書集合のそれぞれの文書の名称の一覧とを表示する。

これにより、情報処理装置１００は、ユーザが所望の文書を発見することを支援することができる。例えば、ユーザが、音声認識に関する所望の文書を探す場合に、所望の文書に固有の検索キーワードが思い浮かばないため、検索キーワード「音声」を情報処理装置１００に入力した場合を例に挙げる。この場合には、情報処理装置１００は、図１０に示す表示画面を表示することになる。

ここで、ユーザは、第１階層のカテゴリのラベルのうち、所望の文書に関連する話題を示す「音声認識」のラベルを見つける。次に、ユーザは、ラベル「音声認識」をクリックする。情報処理装置１００は、ラベル「音声認識」がクリックされると、音声認識についての文書の名称の一覧を表示する。そして、ユーザは、表示された音声認識についての文書の名称の一覧を参照して、所望の文書を探すことができる。これにより、ユーザは、所望の文書が含まれないカテゴリに分類された文書集合の中から所望の文書を探す作業を回避しやすくなり、所望の文書を探しやすくなる。

また、ユーザは、所望の文書がさらに「発話時の音声認識」の話題についての文書であることを把握していれば、さらに、第２階層のカテゴリのラベル「発話」をクリックすれば、発話時の音声認識についての文書の名称の一覧を参照することができる。これにより、ユーザは、所望の文書が含まれないカテゴリに分類された文書集合の中から所望の文書を探す作業を回避しやすくなり、所望の文書を探しやすくなる。

このように、ユーザは、あるカテゴリのラベルが示す話題についての文書のうち、何の話題についての文書が下位カテゴリに分類されているかを把握して、所望の文書を探索することができる。このため、ユーザは、所望の文書を発見するまでに、所望の文書が含まれないカテゴリに分類された文書集合の中から所望の文書を探してしまうことが少なくなり、所望の文書を効率よく探索することができる。

ここでは、情報処理装置１００が、展開ボタンを表示することにより、順次、下位階層のカテゴリのラベルを表示していく場合について説明したが、これに限らない。例えば、情報処理装置１００は、階層化された複数のカテゴリのそれぞれのカテゴリのラベルをまとめて表示してもよい。

以上のように、実施例１では、情報処理装置１００が、１つのカテゴリのラベル候補を特定する都度、当該カテゴリのラベルを決定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、複数のカテゴリのそれぞれのカテゴリのラベル候補を特定してから、複数のカテゴリのそれぞれのカテゴリのラベルを決定してもよい。

また、実施例１では、情報処理装置１００が、複数の文書を階層化された複数のカテゴリに分類し終えてから、複数のカテゴリのそれぞれのカテゴリのラベルを決定する場合について説明したが、これに限らない。例えば、情報処理装置１００は、複数の文書を階層化された複数のカテゴリに分類する途中で、文書集合が分類されたカテゴリのラベルを決定してもよい。具体的には、情報処理装置１００は、ある階層のカテゴリのラベルを決定してから、ある階層のカテゴリに分類された文書集合を併合した１つの文書集合が分類された、ある階層よりも上位階層のカテゴリを作成してもよい。

＜実施例１における検索処理手順の一例＞
次に、図１１を用いて、実施例１における検索処理手順の一例について説明する。

図１１は、実施例１における検索処理手順の一例を示すフローチャートである。図１１において、情報処理装置１００は、図１２に後述する分類処理を実行することにより、複数の文書を階層化された複数のカテゴリに分類する（ステップＳ１１０１）。

次に、情報処理装置１００は、図１３に後述する特定処理を実行することにより、複数のカテゴリのそれぞれのカテゴリのラベル候補を特定する（ステップＳ１１０２）。そして、情報処理装置１００は、図１４に後述する決定処理を実行することにより、複数のカテゴリのそれぞれのカテゴリのラベルを決定する（ステップＳ１１０３）。

次に、情報処理装置１００は、複数のカテゴリのそれぞれのカテゴリのラベルに対応付けて、当該カテゴリに分類された文書集合のそれぞれの文書の名称を出力する（ステップＳ１１０４）。そして、情報処理装置１００は、検索処理を終了する。これにより、情報処理装置１００は、ユーザが所望の文書を探索しやすくすることができる。

＜実施例１における分類処理手順の一例＞
次に、図１２を用いて、図１１のステップＳ１１０１に示した、実施例１における複数の文書を複数のカテゴリに分類する分類処理手順の一例について説明する。

図１２は、実施例１における分類処理手順の一例を示すフローチャートである。図１２において、情報処理装置１００は、検索キーワードの入力を受け付ける（ステップＳ１２０１）。

次に、情報処理装置１００は、文書ＤＢ４００に記憶された文書群の中から、入力された検索キーワードに関連する文書を抽出する（ステップＳ１２０２）。そして、情報処理装置１００は、抽出した複数の文書について単語文書行列６００を作成する（ステップＳ１２０３）。

次に、情報処理装置１００は、文書同士のコサイン類似度を算出し、最下位カテゴリに分類する文書集合を作成する（ステップＳ１２０４）。そして、情報処理装置１００は、ウォード法を用いて、文書集合同士を併合した、上位カテゴリに分類する文書集合を作成する（ステップＳ１２０５）。その後、情報処理装置１００は、分類処理を終了する。これにより、情報処理装置１００は、複数の文書を階層化された複数のカテゴリに分類することができる。

＜実施例１における特定処理手順の一例＞
次に、図１３を用いて、図１１のステップＳ１１０２に示した、実施例１における複数のカテゴリのそれぞれのカテゴリのラベル候補を特定する特定処理手順の一例について説明する。

図１３は、実施例１における特定処理手順の一例を示すフローチャートである。図１３において、情報処理装置１００は、複数のカテゴリのうちのいずれかのカテゴリを選択し、選択したカテゴリに分類された文書集合から、特定の品詞として認識される語句を抽出する（ステップＳ１３０１）。

次に、情報処理装置１００は、ストップワードリスト５００に基づいて、抽出した語句の中から、ストップワードと一致する語句を除外する（ステップＳ１３０２）。そして、情報処理装置１００は、除外後に残った語句のラベルスコアを算出する（ステップＳ１３０３）。

次に、情報処理装置１００は、除外後に残った語句をラベルスコアが高い順にソートし、所定の順位までの語句をラベル候補として特定する（ステップＳ１３０４）。そして、情報処理装置１００は、全てのカテゴリについてラベル候補を特定したか否かを判定する（ステップＳ１３０５）。ここで、ラベル候補を特定していないカテゴリがある場合（ステップＳ１３０５：Ｎｏ）、情報処理装置１００は、ステップＳ１３０１の処理に戻る。

一方で、全てのカテゴリについてラベル候補を特定した場合（ステップＳ１３０５：Ｙｅｓ）、情報処理装置１００は、最上位カテゴリのラベルを決定し（ステップＳ１３０６）、特定処理を終了する。

ステップＳ１３０６において、情報処理装置１００は、例えば、最上位カテゴリのラベル候補のうちのラベルスコアが最も高いラベル候補を、最上位カテゴリのラベルに決定する。また、情報処理装置１００は、検索キーワードを、最上位カテゴリのラベルに決定してもよい。情報処理装置１００は、検索キーワードを、最上位カテゴリのラベルに決定する場合には、ステップＳ１３０１において最上位カテゴリを選択しなくてもよい。

これにより、情報処理装置１００は、ラベル候補として、カテゴリを特徴付ける観点からのラベルとしての尤度が相対的に高い語句を特定することができる。また、情報処理装置１００は、最上位カテゴリのラベルを決定することができる。

＜実施例１における決定処理手順の一例＞
次に、図１４を用いて、図１１のステップＳ１１０３に示した、実施例１における複数のカテゴリのそれぞれのラベルを決定する決定処理手順の一例について説明する。

図１４は、実施例１における決定処理手順の一例を示すフローチャートである。図１４において、情報処理装置１００は、ラベルを決定していないカテゴリのうちで、最も上の階層にあるカテゴリを選択する（ステップＳ１４０１）。

次に、情報処理装置１００は、選択したカテゴリのラベル候補の中から、選択したカテゴリの上位カテゴリのラベルと一致するラベル候補を除外する（ステップＳ１４０２）。そして、情報処理装置１００は、選択したカテゴリが第１階層のカテゴリであるか否かを判定する（ステップＳ１４０３）。ここで、第１階層のカテゴリである場合（ステップＳ１４０３：Ｙｅｓ）、情報処理装置１００は、除外後に残ったラベル候補と、選択したカテゴリの上位カテゴリのラベルとに基づいて、除外後に残ったラベル候補の連想スコアを算出し（ステップＳ１４０４）、ステップＳ１４０６の処理に移行する。

一方で、第１階層のカテゴリではない場合（ステップＳ１４０３：Ｎｏ）、情報処理装置１００は、除外後に残ったラベル候補と、選択したカテゴリの上位カテゴリのそれぞれのラベルとに基づいて、除外後に残ったラベル候補の連想スコアを算出し（ステップＳ１４０５）、ステップＳ１４０６の処理に移行する。

ステップＳ１４０６において、情報処理装置１００は、連想スコアが最も高いラベル候補を、選択したカテゴリのラベルに決定する（ステップＳ１４０６）。次に、情報処理装置１００は、全てのカテゴリについてラベルを決定したか否かを判定する（ステップＳ１４０７）。ここで、ラベルを決定していないカテゴリがある場合（ステップＳ１４０７：Ｎｏ）、情報処理装置１００は、ステップＳ１４０１の処理に戻る。

一方で、全てのカテゴリについてラベルを決定した場合（ステップＳ１４０７：Ｙｅｓ）、情報処理装置１００は、決定処理を終了する。これにより、情報処理装置１００は、上位カテゴリのラベルとの関連性の観点からのラベルとしての尤度が相対的に最も高いラベル候補を、ラベルに決定することができる。

また、情報処理装置１００は、ステップＳ１４０４およびステップＳ１４０５の連想スコアの算出式の代わりに、Σ_s∈_Nｓ（ｉ∩ｊ）およびΣ_s∈_NΣ_i∈_Iｓ（ｉ∩ｊ）を用いてもよい。これにより、情報処理装置１００は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数が多くなるほど、連想スコアが大きくなるようにすることができる。

（実施例２）
次に、実施例２について説明する。実施例１は、文書中の所定数連続する複数の文においてラベル候補と上位カテゴリのラベルとが共起するか否かに基づいて、連想スコアを算出する実施例である。これに対し、実施例２は、文書中の全文においてラベル候補と上位カテゴリのラベルとが共起するか否かに基づいて、連想スコアを算出する実施例である。

＜実施例２における文書ＤＢ４００のデータ構造の一例＞
図１５は、実施例２における文書ＤＢ４００のデータ構造の一例を示す説明図である。文書ＤＢ４００は、例えば、図２に示したＲＯＭ２０２、ＲＡＭ２０３、ディスク２０５などの記憶領域によって実現される。

図１５に示すように、文書ＤＢ４００は、文書名項目に対応付けて、全文内容項目を有し、文書ごとに各項目に情報が設定されることにより、レコードを記憶する。文書名項目には、文書の名称が記憶される。全文内容項目には、文書名項目に記憶された名称の文書の全文の内容が記憶される。例えば、レコード１５０１は、「文書Ａ」と、「文書Ａ」に含まれる「全文１」とを示す文書情報に対応する。

以下、実施例２における情報処理装置１００の処理の一例について説明する。実施例２において、情報処理装置１００は、実施例１と同様に、実施例２における文書ＤＢ４００の中から検索キーワードに関連する文書を抽出する。次に、情報処理装置１００は、実施例１と同様に、抽出した複数の文書を複数のカテゴリに分類する。そして、情報処理装置１００は、実施例１と同様に、複数のカテゴリのそれぞれのカテゴリのラベル候補を特定する。

＜実施例２におけるラベル候補の連想スコアを算出する一例＞
実施例２において、情報処理装置１００は、特定したラベル候補のそれぞれの連想スコアを算出する。ここで、上位カテゴリのラベルをｉ、上位カテゴリのラベル候補をｊ、検索対象全体の文書集合をＮとする。また、Ｎのそれぞれの文書ｎにおけるｊの出現回数をΣ_n∈_Nｓ（ｊ）とする。また、Ｎのそれぞれのｎにおけるｉとｊとの組み合わせの出現回数をΣ_n∈_Nｓ（ｉ∩ｊ）とする。情報処理装置１００は、例えば、ｊの連想スコアａ（ｊ｜ｉ）＝Σ_n∈_Nｓ（ｉ∩ｊ）／Σ_n∈_Nｓ（ｊ）を算出する。そして、情報処理装置１００は、連想スコアが最も高いラベル候補「音声認識」を、カテゴリのラベルに決定する。

これにより、情報処理装置１００は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数が多くなるほど、連想スコアが大きくなるようにすることができる。また、情報処理装置１００は、上位カテゴリのラベルと、選択したカテゴリのラベル候補が共起する文書の数に比べて、選択したカテゴリのラベル候補が出現する文書の数が多くなるほど、連想スコアが小さくなるようにすることができる。

また、これにより、情報処理装置１００は、文書中に、名称候補と、上位カテゴリを特徴付ける名称とが、どれだけ離れて出現していても、共起する組み合わせと判定することができる。このため、情報処理装置１００は、同一の話題について述べた、関連する語句の組み合わせを、異なる話題について述べた、関連性が相対的に低い語句の組み合わせとしてしまうことを抑制することができる。結果として、情報処理装置１００は、文間に連続性がある文書の集まりではない文書集合が分類されたカテゴリについて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。

情報処理装置１００は、例えば、あるカテゴリに分類された文書集合が、プレゼンテーション用文書または表計算用文書などの文書の集まりである場合などには、文間に連続性がある文書の集まりではないと判定する。これにより、情報処理装置１００は、文間に連続性がある文書の集まりではない文書集合が分類されたカテゴリについて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。

また、情報処理装置１００は、選択したカテゴリの上位カテゴリが複数ある場合には、上位カテゴリのラベルの集合をＩとして、ｊの連想スコアａ（ｊ｜Ｉ）＝Σ_n∈_NΣ_i∈_Iｓ（ｉ∩ｊ）／Σ_n∈_Nｓ（ｊ）を算出してもよい。これにより、情報処理装置１００は、上位カテゴリのそれぞれのラベルとの関連性の観点からのラベルとしての尤度を示す連想スコアを算出することができる。

その後、実施例２において、情報処理装置１００は、実施例１と同様にして、階層化された複数のカテゴリのそれぞれのカテゴリのラベル候補に基づいて、それぞれのカテゴリのラベルを決定する。そして、実施例２において、情報処理装置１００は、実施例１と同様にして、階層化された複数のカテゴリのそれぞれのカテゴリのラベルを表示する。

これにより、情報処理装置１００は、ユーザが所望の文書を発見することを支援することができる。ユーザは、例えば、あるカテゴリのラベルが示す話題についての文書のうち、何の話題についての文書が下位カテゴリに分類されているかを把握して、所望の文書を探索することができる。このため、ユーザは、所望の文書を発見するまでに、所望の文書が含まれないカテゴリに分類された文書集合の中を探索してしまうことが少なくなり、所望の文書を効率よく探索することができる。

実施例２では、情報処理装置１００が、文書中の全文においてラベル候補と上位カテゴリのラベルとが共起するか否かに基づいて、連想スコアを算出する場合について説明したが、これに限らない。例えば、情報処理装置１００は、文書集合に含まれる文書の種別に応じて、実施例１の連想スコアの算出式と、実施例２の連想スコアの算出式とを使い分けてもよい。情報処理装置１００は、文書集合に種々の種別の文書が含まれる場合には、文書集合の中で最も多い種別に応じて、実施例１の連想スコアの算出式と、実施例２の連想スコアの算出式とを使い分ける。これにより、情報処理装置１００は、文書集合に含まれる文書の種別に応じて、ラベル候補と、上位カテゴリを特徴付けるラベルとの組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。

また、例えば、情報処理装置１００は、ユーザから、実施例１の連想スコアの算出式と、実施例２の連想スコアの算出式とのいずれかを選択する入力を受け付けてもよい。そして、情報処理装置１００は、ユーザの選択に応じて、実施例１の連想スコアの算出式と、実施例２の連想スコアの算出式とを使い分ける。また、例えば、情報処理装置１００は、検索条件として文書の種別が入力されていれば、当該文書の種別に応じて、実施例１の連想スコアの算出式と、実施例２の連想スコアの算出式とを使い分けてもよい。

＜実施例２における検索処理手順の一例＞
実施例２における検索処理手順の一例については、実施例１における検索処理手順の一例と同様であるため、説明を省略する。また、実施例２における検索処理手順において実行される、分類処理手順、特定処理手順の一例については、実施例１における分類処理手順、特定処理手順の一例と同様であるため、説明を省略する。

ここで、実施例２における検索処理手順において実行される決定処理手順の一例について説明する。実施例２における決定処理手順は、ステップＳ１４０４，Ｓ１４０５を除き、実施例１における決定処理手順と同様である。実施例２における決定処理手順においては、ステップＳ１４０４，Ｓ１４０５において用いられる連想スコアの算出式が、上述した実施例２の連想スコアの算出式に置換されることになる。

（実施例３）
次に、実施例３について説明する。実施例１は、複数のカテゴリのうちの最上位カテゴリ以外のカテゴリについてラベル候補を特定し、当該カテゴリのラベルを決定する実施例である。これに対し、実施例３は、複数のカテゴリのうちの、最上位カテゴリから所定階層のカテゴリまでを除く、所定階層よりも下位階層のカテゴリについてラベル候補を特定し、当該カテゴリのラベルを決定する場合の実施例である。

実施例３は、例えば、最上位カテゴリから所定階層のカテゴリまでのラベルが、予め設定されている場合に適用される。実施例３は、具体的には、既に人手によって最上位カテゴリから所定階層のカテゴリまでについては分類済みの文書群が、情報処理装置１００によって取得され、さらに所定階層よりも下位階層のカテゴリに分類される場合に適用される。そして、実施例３は、所定階層よりも下位階層のカテゴリのラベルを決定する。

また、実施例３は、例えば、最上位カテゴリから所定階層のカテゴリまでは何の話題についての文書を分類するかといった規則が、予め決定されている場合に適用される。実施例３は、具体的には、最上位カテゴリに文書群のうちの検索キーワードが出現する文書を分類し、第１階層のカテゴリにはさらに予め設定されたキーワードが出現する文書を分類するといった規則が決定されている場合に適用される。

以下、実施例３における情報処理装置１００の処理の一例について説明する。実施例３において、情報処理装置１００は、実施例１と同様に、実施例１または実施例２における文書ＤＢ４００の中から検索キーワードに関連する文書を抽出する。情報処理装置１００は、抽出した文書集合を最上位カテゴリに分類する。

＜実施例３における複数の文書を複数のカテゴリに分類する一例＞
図１６は、実施例３における階層化された複数のカテゴリの一例を示す説明図である。図１６において、情報処理装置１００は、最上位カテゴリの下位カテゴリに、最上位カテゴリに分類した文書集合のうちの予め設定されたキーワードが出現する文書集合を分類する。ここでは、第１階層についてのキーワードとして「依頼」と「連絡」とが設定され、第１階層のカテゴリにそれぞれのキーワードが示す話題についての文書が分類されるといった規則が決定されているとする。

情報処理装置１００は、例えば、最上位カテゴリに分類した文書集合のうちのキーワード「依頼」が出現する文書集合を、第１階層のカテゴリ１６０１に分類する。また、情報処理装置１００は、最上位カテゴリに分類した文書集合のうちのキーワード「連絡」が出現する文書集合を、第１階層の他のカテゴリ１６０２に分類する。情報処理装置１００は、第２階層以下のカテゴリに分類する文書集合については、実施例１と同様にして作成する。

実施例３において、情報処理装置１００は、実施例１と同様に、所定階層より下位階層のカテゴリについてはラベル候補を特定する。実施例３において、情報処理装置１００は、最上位階層から所定階層までのカテゴリについてはラベル候補を特定しなくてもよい。

＜実施例３における最上位階層から所定階層までのカテゴリのラベルを決定する一例＞
実施例３において、情報処理装置１００は、最上位階層から第１階層までのカテゴリのラベルを決定する。

図１６において、情報処理装置１００は、例えば、予め設定されたキーワード「依頼」を、予め設定されたキーワード「依頼」が出現する文書集合が分類された第１階層のカテゴリ１６０１のラベルとして決定する。また、情報処理装置１００は、予め設定されたキーワード「連絡」を、予め設定されたキーワード「連絡」が出現する文書集合が分類された第１階層のカテゴリ１６０２のラベルとして決定する。

これにより、情報処理装置１００は、最上位階層から所定階層までのカテゴリのラベルを、予め設定されたキーワードにすることができる。このため、情報処理装置１００は、最上位カテゴリに分類された文書集合を分類する条件として設定されたキーワードなどを、ラベルとして用いることができる。

実施例３において、情報処理装置１００は、実施例１と同様にして、所定階層より下位階層のカテゴリについてはラベルを決定する。そして、情報処理装置１００は、実施例１と同様にして、階層化された複数のカテゴリのそれぞれのカテゴリのラベルを表示する。

実施例３によれば、情報処理装置１００は、予めラベルが設定されたカテゴリについては、ラベルを決定する処理を行わなくてもよいため、ラベルを決定する処理を効率化することができる。情報処理装置１００は、あるカテゴリに何の話題についての文書が分類されるか決定されていれば、予め設定された当該話題を示すラベルを当該カテゴリに付与することができる。このため、情報処理装置１００は、何の話題についての文書が分類されたカテゴリであるかをユーザが把握しやすくなるようにラベルを付与することができる。

＜実施例３における検索処理手順の一例＞
実施例３における検索処理手順の一例については、実施例１における検索処理手順の一例と同様であるため、説明を省略する。また、実施例３における検索処理手順において実行される決定処理手順の一例については、実施例１における決定処理手順の一例と同様であるため、説明を省略する。

ここで、実施例３における検索処理手順において実行される分類処理手順の一例について説明する。実施例３における分類処理手順は、ステップＳ１２０２を除き、実施例１における分類処理手順と同様である。実施例３における分類処理手順においては、ステップＳ１２０２の処理が、文書群の中から検索キーワードに関連する文書を抽出し、抽出した文書集合の中から予め設定されたキーワードのそれぞれに関連する文書を抽出する処理に置換されることになる。

また、実施例３における検索処理手順において実行される特定処理手順について説明する。実施例３における特定処理手順は、ステップＳ１３０６を除き、実施例１における特定処理手順と同様である。実施例３における特定処理手順においては、ステップＳ１３０６の処理が、最上位階層から所定階層までのカテゴリのラベルを決定する処理に置換されることになる。

（実施例４）
次に、実施例４について説明する。実施例１は、カテゴリに分類された文書集合に出現する語句の中から、ラベルスコアに基づいてラベル候補を抽出し、連想スコアに基づいてラベルを決定する実施例である。これに対し、実施例４は、カテゴリに分類された文書集合に出現する語句の中から、連想スコアに基づいてラベル候補を抽出し、ラベルスコアに基づいてラベルを決定する実施例である。

以下、実施例４における情報処理装置１００の処理の一例について説明する。実施例４において、情報処理装置１００は、実施例１と同様に、実施例１または実施例２における文書ＤＢ４００の中から検索キーワードに関連する文書を抽出する。次に、情報処理装置１００は、実施例１と同様に、抽出した複数の文書を複数のカテゴリに分類する。

＜実施例４における複数のカテゴリのそれぞれのカテゴリのラベル候補を抽出する一例＞
次に、実施例４において、情報処理装置１００は、実施例１とは異なり、連想スコアを用いて、複数のカテゴリのそれぞれのカテゴリのラベル候補を抽出する。

情報処理装置１００は、例えば、第１階層のカテゴリに分類した文書集合に出現する語句を抽出する。次に、情報処理装置１００は、抽出した語句の連想スコアを算出する。ここで、連想スコアは、実施例１または実施例２と同様の算出式を用いて算出される。そして、情報処理装置１００は、文書集合に出現する語句を連想スコアが高い順にソートする。その後、情報処理装置１００は、連想スコアが所定の順位までの語句を、ラベル候補として抽出する。

＜実施例４におけるラベル候補の中からラベルを決定する一例＞
次に、実施例４において、情報処理装置１００は、ラベル候補のラベルスコアを算出する。そして、情報処理装置１００は、算出したラベルスコアに基づいてラベル候補の中からカテゴリに付与するラベルを決定する。

情報処理装置１００は、例えば、特定したラベル候補のそれぞれのラベルスコアとして、ＴＦ_x,y×ＩＤＦ_xを算出する。また、情報処理装置は、例えば、特定したラベル候補のそれぞれのラベルスコアとして、Ｃ−Ｖａｌｕｅを算出してもよい。そして、情報処理装置１００は、ラベル候補のうちの、ラベルスコアが最も高いラベル候補を、選択したカテゴリのラベルに決定する。これにより、情報処理装置１００は、上位カテゴリのラベルと関連性があるラベルを、選択したカテゴリのラベルに決定することができる。

実施例４によれば、情報処理装置１００は、連想スコアを算出する文書の数を増大する代わりに、ラベルスコアを算出する文書の数を低減することができる。このため、情報処理装置１００は、文書集合に出現する語句についてラベルスコアを算出するよりも連想スコアを算出する方がかかる時間が少ない場合には、ラベルを決定するのにかかる時間を低減することができる。

＜実施例４における検索処理手順の一例＞
実施例４における検索処理手順の一例については、ステップＳ１１０２，Ｓ１１０３を除き、実施例１における検索処理手順と同様である。実施例４における検索処理手順においては、ステップＳ１１０２，Ｓ１１０３において実行される特定処理と決定処理とが、図１７に後述する実施例４における決定処理に置換されることになる。

＜実施例４における決定処理手順の一例＞
図１７は、実施例４における決定処理手順の一例を示すフローチャートである。図１７において、情報処理装置１００は、ラベルを決定していないカテゴリのうちで、最も上の階層にあるカテゴリを選択する（ステップＳ１７０１）。

次に、情報処理装置１００は、選択したカテゴリに分類された文書集合から、特定の品詞として認識される語句を、選択したカテゴリのラベル候補として抽出する（ステップＳ１７０２）。そして、情報処理装置１００は、ストップワードリスト５００に基づいて、特定したラベル候補の中から、ストップワードと一致するラベル候補を除外する（ステップＳ１７０３）。

次に、情報処理装置１００は、除外後に残ったラベル候補の中から、選択したカテゴリの上位カテゴリのラベルと一致するラベル候補を、さらに除外する（ステップＳ１７０４）。そして、情報処理装置１００は、選択したカテゴリが第１階層のカテゴリであるか否かを判定する（ステップＳ１７０５）。

ここで、第１階層のカテゴリである場合（ステップＳ１７０５：Ｙｅｓ）、情報処理装置１００は、除外後に残ったラベル候補と、選択したカテゴリの上位カテゴリのラベルとに基づいて、除外後に残ったラベル候補の連想スコアを算出し（ステップＳ１７０６）、ステップＳ１７０８の処理に移行する。

一方で、第１階層のカテゴリではない場合（ステップＳ１７０５：Ｎｏ）、情報処理装置１００は、除外後に残ったラベル候補と、選択したカテゴリの上位カテゴリのそれぞれのラベルとに基づいて、除外後に残ったラベル候補の連想スコアを算出し（ステップＳ１７０７）、ステップＳ１７０８の処理に移行する。

ステップＳ１７０８において、情報処理装置１００は、除外後に残ったラベル候補を連想スコアが高い順にソートし、所定の順位までのラベル候補を特定する（ステップＳ１７０８）。次に、情報処理装置１００は、特定したラベル候補のラベルスコアを算出する（ステップＳ１７０９）。そして、情報処理装置１００は、ラベルスコアが最も高いラベル候補を、選択したカテゴリのラベルに決定する（ステップＳ１７１０）。

次に、情報処理装置１００は、全てのカテゴリについてラベルを決定したか否かを判定する（ステップＳ１７１１）。ここで、ラベルを決定していないカテゴリがある場合（ステップＳ１７１１：Ｎｏ）、情報処理装置１００は、ステップＳ１７０１の処理に戻る。

一方で、全てのカテゴリについてラベルを決定した場合（ステップＳ１７１１：Ｙｅｓ）、情報処理装置１００は、決定処理を終了する。これにより、情報処理装置１００は、連想スコアを算出する文書の数を増大する代わりに、ラベルスコアを算出する文書の数を低減することができる。このため、情報処理装置１００は、文書集合に出現する語句についてラベルスコアを算出するよりも連想スコアを算出する方がかかる時間が少ない場合には、ラベルを決定するのにかかる時間を低減することができる。

以上説明したように、情報処理装置１００によれば、複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から、カテゴリを特徴付ける名称候補を特定することができる。そして、情報処理装置１００によれば、複数の文書における、特定した名称候補と、カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置１００は、複数のカテゴリのそれぞれのカテゴリを特徴付ける名称として、当該カテゴリの上位カテゴリを特徴付ける名称と関連性がある名称を付与することができる。

また、情報処理装置１００によれば、さらに、複数の文書のうち、カテゴリの名称候補が出現する文書集合と、カテゴリの上位カテゴリを特徴付ける名称が出現する文書集合との重複度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置１００は、複数のカテゴリのそれぞれのカテゴリを特徴付ける名称として、当該カテゴリの上位カテゴリを特徴付ける名称が出現する文書以外の文書に出現する回数が少ない名称を付与することができる。

また、情報処理装置１００によれば、カテゴリの名称候補と、カテゴリの上位カテゴリを特徴付ける名称との共起度合いとして、カテゴリの名称候補と、カテゴリの直上位カテゴリを特徴付ける名称との共起度合いを用いることができる。これにより、情報処理装置１００は、カテゴリを特徴付ける名称として、当該カテゴリの直上位カテゴリを特徴付ける名称と関連性がある名称を付与することができる。結果として、ユーザは、あるカテゴリに付与された名称を参照し、直上位カテゴリに付与された名称が示す話題に関連する種々の話題のうち、何の話題についての文書集合が絞り込まれて、あるカテゴリに分類されたのかを把握することができる。

また、情報処理装置１００によれば、複数の文書のそれぞれが、検索キーワードに基づいて検索された文書であれば、検索キーワードを、複数のカテゴリのうちの最上位カテゴリを特徴付ける名称に決定することができる。これにより、情報処理装置１００は、最上位カテゴリを特徴付ける名称として検索キーワードを付与することができる。また、情報処理装置１００は、最上位カテゴリの下位カテゴリを特徴付ける名称として、検索キーワードと関連性がある名称を付与することができる。

また、情報処理装置１００によれば、カテゴリを特徴付ける名称として使用しない語句を取得することができる。そして、情報処理装置１００によれば、カテゴリに分類した文書集合から、カテゴリを特徴付ける名称候補として、取得した語句とは異なる語句を特定することができる。これにより、情報処理装置１００は、カテゴリを特徴付ける名称から特定の語句を除外することができる。

また、情報処理装置１００によれば、カテゴリに分類した文書集合から、カテゴリを特徴付ける名称候補として、カテゴリの上位カテゴリを特徴付ける名称とは異なる語句を特定することができる。これにより、情報処理装置１００は、カテゴリを特徴付ける名称から、当該カテゴリの上位カテゴリを特徴付ける名称と一致する語句を除外することができる。そして、情報処理装置１００は、あるカテゴリと、あるカテゴリの上位カテゴリとに同一の名称が付与されることを防止することができる。このため、情報処理装置１００は、上位カテゴリの名称が示す話題に関連する種々の話題のうち、何の話題についての文書が絞り込まれて、あるカテゴリに分類されたのかを、ユーザが把握することができなくなることを防止することができる。結果として、ユーザは、あるカテゴリの名称から何の話題についての文書が絞り込まれたのか把握することができずに、下位カテゴリの名称を参照することになってしまい、所望の文書を探索するのにかかる作業量が増えてしまうことを防止することができる。

また、情報処理装置１００によれば、カテゴリに分類した文書集合から、カテゴリを特徴付ける名称候補として、カテゴリの直上位カテゴリの直下位カテゴリのうちの他のカテゴリを特徴付ける名称とは異なる語句を特定することができる。これにより、情報処理装置１００は、カテゴリを特徴付ける名称から、当該カテゴリと直上位カテゴリが一致する他のカテゴリを特徴付ける名称と一致する語句を除外することができる。そして、情報処理装置１００は、あるカテゴリと、あるカテゴリと直上位カテゴリが一致する他のカテゴリとに同一の名称が付与されることを防止することができる。このため、情報処理装置１００は、直上位カテゴリが一致する２つのカテゴリのいずれに、直上位カテゴリのラベルが示す話題に関連する種々の話題のうち、何の話題についての文書が絞り込まれたのかを把握することができなくなることを防止することができる。結果として、ユーザは、あるカテゴリの名称から何の話題についての文書が絞り込まれたのか把握することができずに、下位カテゴリの名称を参照することになってしまい、所望の文書を探索するのにかかる作業量が増えてしまうことを防止することができる。

また、情報処理装置１００によれば、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、名称候補と、上位カテゴリを特徴付ける名称との共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置１００は、文書中に、名称候補と、上位カテゴリを特徴付ける名称とのそれぞれが、所定数よりも離れたそれぞれの文に出現している場合には、共起しない組み合わせと判定することができる。このため、情報処理装置１００は、異なる話題について述べた、２つの文のそれぞれの文に出現する語句の組み合わせを、同一の話題について述べた、関連する語句の組み合わせとしてしまうことを抑制することができる。結果として、情報処理装置１００は、文間に連続性がある文書の集まりである文書集合が分類されたカテゴリについて、名称候補と、上位カテゴリを特徴付ける名称との組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。

また、情報処理装置１００によれば、カテゴリに分類した文書集合のそれぞれの文書の全文単位の、名称候補と、上位カテゴリを特徴付ける名称との共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置１００は、文書中に、名称候補と、上位カテゴリを特徴付ける名称とが、どれだけ離れて出現していても、共起する組み合わせと判定することができる。このため、情報処理装置１００は、同一の話題について述べた、関連する語句の組み合わせを、異なる話題について述べた、関連性が相対的に低い語句の組み合わせとしてしまうことを抑制することができる。結果として、情報処理装置１００は、文間に連続性がある文書の集まりではない文書集合が分類されたカテゴリについて、名称候補と、上位カテゴリを特徴付ける名称との組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。

また、情報処理装置１００によれば、カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定することができる。そして、情報処理装置１００によれば、文間に連続性がある文書の集まりである場合には、カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置１００は、文書集合の種別に応じて、名称候補と、上位カテゴリを特徴付ける名称との組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。

また、情報処理装置１００によれば、文間に連続性がある文書の集まりではない場合には、カテゴリに分類した文書集合のそれぞれの文書の全文単位の共起度合いに基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置１００は、文書集合の種別に応じて、名称候補と、上位カテゴリを特徴付ける名称との組み合わせが、関連する語句の組み合わせであるか否かを精度よく判定することができる。

また、情報処理装置１００によれば、カテゴリの名称候補と組み合わせたときの共起度合いを求める対象になる上位カテゴリを特徴付ける名称として、最上位カテゴリから直上位カテゴリまでのそれぞれのカテゴリを特徴付ける名称を用いることができる。これにより、情報処理装置１００は、カテゴリを特徴付ける名称として、当該カテゴリの上位カテゴリのそれぞれを特徴付ける名称と関連性がある名称を付与することができる。結果として、ユーザは、あるカテゴリに付与された名称を参照し、上位カテゴリのそれぞれに付与された名称が示す話題に関連する種々の話題のうち、何の話題についての文書集合が絞り込まれて、あるカテゴリに分類されたのかを把握することができる。

また、情報処理装置１００によれば、カテゴリに分類した文書集合に出現する語句の当該文書集合における出現度合いと、当該語句の複数の文書における出現度合いとに基づいて、当該語句の当該文書集合を特徴付ける特徴度を算出することができる。そして、情報処理装置１００によれば、算出した特徴度に基づいて、カテゴリを特徴付ける名称候補を特定することができる。これにより、情報処理装置１００は、カテゴリを特徴付ける観点からの名称としての尤度を示す特徴度に基づいて、カテゴリを特徴付ける観点から名称として尤もらしい語句を、名称候補として特定することができる。

また、情報処理装置１００によれば、カテゴリに分類した文書集合に出現する語句の当該文書集合における出現度合いと当該語句を含む複合語の当該文書集合における出現度合いとに基づいて、当該語句の当該文書集合を特徴付ける特徴度を算出することができる。そして、情報処理装置１００によれば、算出した特徴度に基づいて、カテゴリを特徴付ける名称候補を特定することができる。これにより、情報処理装置１００は、カテゴリを特徴付ける観点からの名称としての尤度を示す特徴度に基づいて、カテゴリを特徴付ける観点から名称として尤もらしい語句を、名称候補として特定することができる。

また、情報処理装置１００によれば、特定した名称候補のうち、複数の文書における、上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定することができる。次に、情報処理装置１００によれば、共起度合いが相対的に高い名称候補のカテゴリに分類した文書集合における出現度合いと、当該名称候補の複数の文書における出現度合いとに基づいて、当該名称候補の当該文書集合を特徴付ける特徴度を算出することができる。そして、情報処理装置１００によれば、算出した特徴度に基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置１００は、共起度合いを算出する文書の数を増大する代わりに、特徴度を算出する文書の数を低減することができる。このため、情報処理装置１００は、文書集合に出現する語句について特徴度を算出するよりも共起度合いを算出する方がかかる時間が少ない場合には、名称を決定するのにかかる時間を低減することができる。

また、情報処理装置１００によれば、特定した名称候補のうち、複数の文書における、上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定することができる。情報処理装置１００によれば、共起度合いが相対的に高い名称候補のカテゴリに分類した文書集合における出現度合いと、当該名称候補を含む複合語の当該文書集合における出現度合いとに基づいて、特徴度を算出することができる。そして、情報処理装置１００によれば、算出した特徴度に基づいて、カテゴリを特徴付ける名称を決定することができる。これにより、情報処理装置１００は、共起度合いを算出する文書の数を増大する代わりに、特徴度を算出する文書の数を低減することができる。このため、情報処理装置１００は、文書集合に出現する語句について特徴度を算出するよりも共起度合いを算出する方がかかる時間が少ない場合には、名称を決定するのにかかる時間を低減することができる。

なお、本実施の形態で説明した名称決定方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本名称決定プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本名称決定プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
制御部を有することを特徴とする情報処理装置。

（付記２）前記制御部は、さらに、前記複数の文書のうち、前記名称候補を含む文書集合と前記上位カテゴリを特徴付ける名称を含む文書集合との重複度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記１に記載の情報処理装置。

（付記３）前記上位カテゴリを特徴付ける名称は、前記カテゴリの直上位カテゴリを特徴付ける名称である、ことを特徴とする付記１または２に記載の情報処理装置。

（付記４）前記複数の文書のそれぞれは、検索キーワードに基づいて検索された文書であり、
前記制御部は、前記検索キーワードを、前記複数のカテゴリのうちの最上位カテゴリを特徴付ける名称に決定する、ことを特徴とする付記１〜３のいずれか一つに記載の情報処理装置。

（付記５）前記制御部は、前記カテゴリを特徴付ける名称として使用しない語句を取得し、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、取得した前記語句とは異なる語句を特定する、ことを特徴とする付記１〜４のいずれか一つに記載の情報処理装置。

（付記６）前記制御部は、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、前記上位カテゴリを特徴付ける名称とは異なる語句を特定する、ことを特徴とする付記１〜５のいずれか一つに記載の情報処理装置。

（付記７）前記制御部は、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、前記カテゴリの直上位カテゴリの直下位カテゴリのうちの前記カテゴリとは異なる他のカテゴリを特徴付ける名称とは異なる語句を特定する、ことを特徴とする付記１〜６のいずれか一つに記載の情報処理装置。

（付記８）前記カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記１〜７のいずれか一つに記載の情報処理装置。

（付記９）前記カテゴリに分類した文書集合のそれぞれの文書の全文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記８に記載の情報処理装置。

（付記１０）前記制御部は、前記カテゴリに分類した文書集合のそれぞれの文書の種別に基づいて、前記カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定し、
前記文間に連続性がある文書の集まりである場合には、前記カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定し、
前記文間に連続性がある文書の集まりではない場合には、前記カテゴリに分類した文書集合のそれぞれの文書の全文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記９に記載の情報処理装置。

（付記１１）前記上位カテゴリを特徴付ける名称は、前記複数のカテゴリのうち、最上位カテゴリから前記カテゴリの直上位カテゴリまでのそれぞれのカテゴリを特徴付ける名称である、ことを特徴とする付記１〜１０のいずれか一つに記載の情報処理装置。

（付記１２）前記制御部は、前記カテゴリに分類した文書集合に含まれる語句の前記カテゴリに分類した文書集合における出現度合いと、当該語句の前記複数の文書における出現度合いとに基づいて、当該語句の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称候補を特定する、ことを特徴とする付記１〜１１のいずれか一つに記載の情報処理装置。

（付記１３）前記制御部は、前記カテゴリに分類した文書集合に含まれる語句の前記カテゴリに分類した文書集合における出現度合いと、当該語句を含む複合語の前記カテゴリに分類した文書集合における出現度合いとに基づいて、当該語句の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称候補を特定する、ことを特徴とする付記１〜１１のいずれか一つに記載の情報処理装置。

（付記１４）前記制御部は、特定した前記名称候補のうち、前記複数の文書における、前記上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定し、
特定した前記共起度合いが相対的に高い名称候補の前記カテゴリに分類した文書集合における出現度合いと、当該名称候補の前記複数の文書における出現度合いとに基づいて、当該名称候補の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記１〜１１のいずれか一つに記載の情報処理装置。

（付記１５）前記制御部は、特定した前記名称候補のうち、前記複数の文書における、前記上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定し、
特定した前記共起度合いが相対的に高い名称候補の前記カテゴリに分類した文書集合における出現度合いと、特定した前記共起度合いが相対的に高い名称候補を含む複合語の前記カテゴリに分類した文書集合における出現度合いとに基づいて、当該名称候補の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする付記１〜１１のいずれか一つに記載の情報処理装置。

（付記１６）コンピュータが、
複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
処理を実行することを特徴とする名称決定方法。

（付記１７）コンピュータに、
複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
処理を実行させることを特徴とする名称決定プログラム。

１００情報処理装置
３０１取得部
３０２検索部
３０３分類部
３０４選択部
３０５特定部
３０６決定部
３０７出力部

Claims

複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
制御部を有することを特徴とする情報処理装置。
前記制御部は、さらに、前記複数の文書のうち、前記名称候補を含む文書集合と前記上位カテゴリを特徴付ける名称を含む文書集合との重複度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項１に記載の情報処理装置。
前記上位カテゴリを特徴付ける名称は、前記カテゴリの直上位カテゴリを特徴付ける名称である、ことを特徴とする請求項１または２に記載の情報処理装置。
前記複数の文書のそれぞれは、検索キーワードに基づいて検索された文書であり、
前記制御部は、前記検索キーワードを、前記複数のカテゴリのうちの最上位カテゴリを特徴付ける名称に決定する、ことを特徴とする請求項１〜３のいずれか一つに記載の情報処理装置。
前記制御部は、前記カテゴリを特徴付ける名称として使用しない語句を取得し、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、取得した前記語句とは異なる語句を特定する、ことを特徴とする請求項１〜４のいずれか一つに記載の情報処理装置。
前記制御部は、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、前記上位カテゴリを特徴付ける名称とは異なる語句を特定する、ことを特徴とする請求項１〜５のいずれか一つに記載の情報処理装置。
前記制御部は、前記カテゴリに分類した文書集合から、前記カテゴリを特徴付ける名称候補として、前記カテゴリの直上位カテゴリの直下位カテゴリのうちの前記カテゴリとは異なる他のカテゴリを特徴付ける名称とは異なる語句を特定する、ことを特徴とする請求項１〜６のいずれか一つに記載の情報処理装置。
前記カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項１〜７のいずれか一つに記載の情報処理装置。
前記カテゴリに分類した文書集合のそれぞれの文書の全文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項８に記載の情報処理装置。
前記制御部は、前記カテゴリに分類した文書集合のそれぞれの文書の種別に基づいて、前記カテゴリに分類した文書集合が、文間に連続性がある文書の集まりであるか否かを判定し、
前記文間に連続性がある文書の集まりである場合には、前記カテゴリに分類した文書集合のそれぞれの文書中の一文単位、または所定数連続する文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定し、
前記文間に連続性がある文書の集まりではない場合には、前記カテゴリに分類した文書集合のそれぞれの文書の全文単位の、前記名称候補と、前記上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項９に記載の情報処理装置。
前記上位カテゴリを特徴付ける名称は、前記複数のカテゴリのうち、最上位カテゴリから前記カテゴリの直上位カテゴリまでのそれぞれのカテゴリを特徴付ける名称である、ことを特徴とする請求項１〜１０のいずれか一つに記載の情報処理装置。
前記制御部は、前記カテゴリに分類した文書集合に含まれる語句の前記カテゴリに分類した文書集合における出現度合いと、当該語句の前記複数の文書における出現度合いとに基づいて、当該語句の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称候補を特定する、ことを特徴とする請求項１〜１１のいずれか一つに記載の情報処理装置。
前記制御部は、特定した前記名称候補のうち、前記複数の文書における、前記上位カテゴリを特徴付ける名称との共起度合いが相対的に高い名称候補を特定し、
特定した前記共起度合いが相対的に高い名称候補の前記カテゴリに分類した文書集合における出現度合いと、当該名称候補の前記複数の文書における出現度合いとに基づいて、当該名称候補の前記カテゴリに分類した文書集合を特徴付ける特徴度を算出し、
算出した前記特徴度に基づいて、前記カテゴリを特徴付ける名称を決定する、ことを特徴とする請求項１〜１１のいずれか一つに記載の情報処理装置。
コンピュータが、
複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
処理を実行することを特徴とする名称決定方法。
コンピュータに、
複数の文書を分類した階層化された複数のカテゴリに分類した文書集合から前記カテゴリを特徴付ける名称候補を特定し、
前記複数の文書における、特定した前記名称候補と、前記カテゴリの上位カテゴリを特徴付ける名称との共起度合いに基づいて、前記カテゴリを特徴付ける名称を決定する、
処理を実行させることを特徴とする名称決定プログラム。