JP4747591B2

JP4747591B2 - 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム

Info

Publication number: JP4747591B2
Application number: JP2005023733A
Authority: JP
Inventors: 格細見
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-01-31
Filing date: 2005-01-31
Publication date: 2011-08-17
Anticipated expiration: 2025-01-31
Also published as: JP2006209649A

Description

本発明は、単一のコンピュータまたは通信ネットワーク上に分散した複数のコンピュータの記録装置に蓄積された機密文書の検索や分類を行う機密文書検索システム、機密文書検索方法、および機密文書検索プログラムに関する。

近年、個人情報を初めとする機密情報の漏洩が企業価値に大きな影響力を持つようになり、情報セキュリティ管理が企業経営の重要な課題として認識されつつある。情報セキュリティ管理に関する従来の技術や製品の大半では、あらかじめ保護または監視すべきどのような情報がどこにあるかを人手で洗い出しておく必要があった。この作業をある程度自動化する技術が提案されている（例えば、特許文献１や非特許文献１等参照。）。特許文献１には、自然言語処理による名詞句抽出とベクトル空間モデルに基づく検索により、収集条件に該当する文書を収集する文書管理支援装置が記載されている。また、非特許文献１にも、ベクトル空間モデルを用いた文書検索について記載されている。非特許文献１に記載された技術では、検索の対象となる各文書中および検索の問合せ文中に出現する各単語の出現頻度を計算し、問合せ文における当該出現頻度の傾向と類似した傾向を示す文書をその問合せ文に対する検索結果とする。

また、非特許文献１には、文書からの情報抽出技術も記載されている。非特許文献１に記載の情報抽出技術は、情報検索や要約といった技術に近く、自然言語で書かれた文章を主な対象として構文上の係り受け関係などに注目し、例えば「誰が（人名）」「いつ（時刻や時間帯）」「どこで（場所）」「何をした（行動）」といった一連の要素の組を抽出する。

また、機密情報がメールによって送信されることを防ぐ技術も提案されている（例えば、特許文献２参照。）。特許文献２には、端末上でメールを送信しようとした際、送信を規制すべき規制語句の集合であるプロファイルを用いたキーワード照合によってメール内容を検査し、いずれかの規制語句を含むメールの送信を中止する文字列検査装置が記述されている。

また、非特許文献２には、ＫＬａｂ株式会社から発売されている個人情報探索・監査ツール「Ｐ−Ｐｏｉｎｔｅｒ（商標）」が照会されている。非特許文献２に記載の個人情報探索・監査ツールは、株式会社データ変換研究所のＴＧライブラリ（商標）という全文検索エンジンを利用して多数の個人情報を含む文書ファイルを検出する。ＴＧライブラリ（商標）では、ｎ−ｇｒａｍ方式を用いた全文検索を行う。

また、特許文献３には、文書を保存する際に、保存先となる分類項目を自動的に判別する文書管理支援装置が記載されている。

また、自然言語文に対する形態素解析を行うアプリケーションソフトウェアが開発されている。このようなアプリケーションソフトウェアの例として、例えば、奈良先端科学技術大学院大学で開発されている「茶筌」がある。「茶筌」に関する情報は、例えば、非特許文献３から入手することができる。

また、セキュリティポリシーに関する従来技術として、以下のような技術がある。特許文献４には、予め用意した情報セキュリティポリシーデータベースを参照し、選択した情報セキュリティポリシーと同じポリシーＩＤを持つセキュリティ管理・監査プログラムを実行することで、セキュリティ管理・監査を容易にするセキュリティ管理システムが記載されている。

また、特許文献５には、セキュリティポリシーの作成を支援するために各種ノウハウや事例を集めたデータベースを活用する方法が記載されている。

また、特許文献６には、セキュリティポリシーの過不足を診断するポリシー診断システムが記載されている。

特開平１１−４５２６０号公報（第３−６ページ）特開２００４−２２７０５６号公報（第５−８ページ）特開平１１−４５２３６号公報（第３−６ページ、図２）特開２００１−２７３３８８号公報（第５−１３ページ）特開２００３−１９６４７６号公報（第４−９ページ）特開２００４−１３９２９２号公報（第５−１４ページ）徳永健伸著、「情報検索と言語処理」、第２刷、東京大学出版会、２００２年５月２０日、ｐ．１１−４３，ｐ１８３−２０１ "プレスリリースＫＬａｂが個人情報検索・監査ツール「Ｐ−Ｐｏｉｎｔｅｒ」を開発"、［online］、平成１６年１１月１０日、ＫＬａｂ株式会社、［平成１６年１２月１５日検索］、インターネット＜URL:http://www.klab.org/press/2004/041110.html＞ "形態素解析システム茶筌"、［online］、［平成１６年１２月１５日検索］、インターネット＜URL: http://chasen.naist.jp/hiki/ChaSen＞

従来技術による機密文書検索技術の第１の問題点は、閲覧が制限される機密文書と一般的な機密情報に関する説明を含む公開文書との区別ができない場合があることである。「取扱注意」等の語句が文書のヘッダ部分等に含まれているとしても、その文書は機密文書に該当しない場合がある。例えば、ヘッダ部分にタイトルとして「当社の取扱注意文書に関する説明」と記載された文書があり、その文書自体は機密文書ではないとする。従来の検索技術では、「取扱注意」等の語句が含まれている文書を検索して、機密文書であると判定するので、上記のような文書まで機密文書であると判定してしまう。その結果、機密文書と公開文書とを区別できない場合が生じる。非特許文献１に記載されたベクトル空間モデルに基づく検索では、各単語の出現頻度を計算しているが、出現頻度を計算したとしても上記のような問題は解決されない。

また、第２の問題点として、文書の中に住所や生年月日など個人情報の一部となりうる記述があったとしても、その記述が特定の個人に関する本来の個人情報かどうかを判別できないという点が挙げられる。その理由は、従来の機密文書検索技術では、個人情報の一部となりうる個々の要素記述それぞれを個別に検出しているのみであり、検出した住所等が秘密にすべき個人の住所等であるのかを判定することができないためである。その結果、従来技術では、秘密にすべき個人情報が記述された数に応じて文書の重要度を判定する等の処理を行えなかった。

例えば、図３６に例示するような必ずしも氏名や住所などを全て記入されるとは限らないアンケートの収集結果を示した文書があるとする。図３６に示す文書の最終行（「Ｎｏ．４」の行）のように、住所として都道府県名や市区名までしか書かれない場合などは、個人に対する連絡先として不完全なためそれ自体を個人情報とは言い難い。従来技術では、このような不完全な住所等の記述と正確に記述した住所等の区別を行っているわけではないので、不完全な住所等の記述であっても個人情報と判定されてしまう。また、文書中に住所や電話番号等が記述されていたとしても、従来技術では、それらが秘密にすべき個人の連絡先情報であるのか、会社等の組織の公開されている連絡先情報であるのかを判定することができない。そのため、公開されている住所や電話番号等も秘密にすべき個人情報であると判定してしまうおそれがある。従って、秘密にすべき個人情報が記述された数に応じて文書の重要度を判定する等の処理を行うことが困難であった。

第２の問題点に対処するために非特許文献１に記載された情報抽出技術を利用することが考えられる。しかし、非特許文献１に記載された情報抽出技術は、自然言語で書かれた文章を主な対象として、例えば「誰が（人名）」「いつ（時刻や時間帯）」「どこで（場所）」「何をした（行動）」といった一連の要素の組を抽出する技術である。一方、文書中に個人情報が記述される場合、「山田一郎さんの住所は東京都・・・で、電話番号は・・・です。」といった完全な文章で記述されることは少ないと考えられる。一般に、個人情報の記述態様は、独自に定義された表形式で記述されたり、単に氏名や住所などが上下左右に並べて記述されたりするものであることが多いと予想される。また、そのような態様で個人情報を記述した文書が存在する可能性は非常に高い。よって、非特許文献１に記載された自然言語解析を中心とした情報抽出技術が適用可能な文書は少なく、非特許文献１に記載の情報抽出技術で第２の問題点を十分に解決することは困難である。

従来技術による機密文書検索技術の第３の問題点は、機密情報や個人情報を含む文書を検出するために、文書と検索用辞書との間で膨大な量の照合処理を行なわなければならない場合が生じ得ることである。昨今の企業や官公庁、研究機関などが抱える文書の量は数万のオーダーを大きく上回ることも珍しくなく、それら全てに対して単純なキーワード照合による検索を行なうだけでもかなりの計算量となる。さらに、様々な種類の機密情報や個人情報を検出するためにそれらの特徴を定義した辞書も、大規模なものとなることが予想される。辞書に定義された全種類の機密情報や個人情報の特徴集合を、組織が抱える全ての文書内の全領域と照合することは、現在の高速なコンピュータを用いてもなお長時間を要する処理である。

第４の問題点は、機密文書の洗い出しによって大量の機密文書が検出された場合、それら１つ１つの文書に対して個別に適切な保護処置が施されているか、またはどのような保護処置を施すべきかを判断することが、それらの文書の管理者にとって大きな負担となることである。

また、組織内で一定の基準に基づいて機密文書を適切に保護するためには、その基準となるセキュリティポリシーを決定しなければならないが、組織が保有する機密文書の種類や存在場所が明確でなければ具体的で効果のあるポリシーを決定できない。例えば、情報セキュリティポリシーの策定方法は、ＩＳＯ／ＩＥＣＴＲ１３３３５（ＧＭＩＴＳ：ＧｕｉｄｅｌｉｎｅｓｆｏｒｔｈｅｍａａｎａｇｅｍｅｎｔｏｆＩＴＳｅｃｕｒｉｔｙ）やＩＳＯ／ＩＥＣ１７７９９（ＢＳ７７９９）などの国際標準により規定されており、これらの規定に従った情報セキュリティポリシーの策定が国際的に推奨されている。これらで規定された手順には、ポリシー策定の対象となる組織におけるポリシーの適用対象や範囲、情報資産の定義が必須事項として含まれている。しかし、同組織内にどのような種類の情報資産がどこにあるのかを正確に把握していなければ、前述の必須事項を満たすことはできない。従来技術の第５の問題点として、既に説明した第１の問題点等により、機密文書の存在場所を正確に把握することができず、その結果として、具体的で効果のあるポリシーを決定することが困難であるという点が挙げられる。

また、例えば、特許文献４に記載の技術では、前提となる情報セキュリティポリシー自体を予め人手で綿密に調査・検討を行なった上で策定しておく必要がある。このとき、情報セキュリティポリシーを容易に作成できることが好ましい。一般に、アクセス制御に用いられるセキュリティポリシーでは、保護すべき情報と、その情報へのアクセスを許可（または禁止）するシステムの範囲、または、その情報へのアクセスを許可（または禁止）するユーザの情報を記述する。保護すべき情報が機密文書である場合、セキュリティポリシには、その機密文書の保存場所（例えば、ディレクトリやＵＲＬによって特定される保存場所）を記述することになるが、文書の保存場所を把握することが困難であることは既に述べたとおりである。また、アクセスを許可（または禁止）するシステムの範囲は、例えば、ネットワークドメインやアクセス元となる装置のＩＰアドレスの集合で記述され、アクセスを許可（または禁止）するユーザの情報は、例えばユーザＩＤなどによって表される。しかし、ネットワークドメイン、ＩＰアドレス、ユーザＩＤ等は、人間にとって扱いやすいデータではなく、人間がそれらのデータを直接記述することは困難である。特に、保護すべき文書の数が数十万件（時には数億件となることもあり得る）等の膨大な数になると、人手でセキュリティポリシーを作成することは不可能である。

また、過剰なセキュリティポリシーが定義されていると、保護すべき情報の種類が必要以上に多くなり、セキュリティ設定自体の作業量に加えて同設定に基づく業務上の制約や負荷が大きくなることで、業務効率を低下させる恐れがある。そのため、セキュリティポリシの数が過剰にならないようにすることが好ましい。

そこで、本発明は、大量の電子文書から機密情報を含む文書を自動的に検出できるようにすることを目的とする。

本発明の他の目的は、大量の電子文書から自動的に検出した機密文書を機密情報の種類に応じて自動分類できるようにすることである。

本発明のさらに他の目的は、大量の電子文書から機密情報を含む文書を自動的に検出する処理を効率化できるようにすることである。

本発明のさらに他の目的は、検出された各機密文書に対して、その保護処置が適切であるかどうかを確認するための作業、またはその保護処置を施すための作業を効率化できるようにすることである。

本発明のさらに他の目的は、機密文書とその所在およびその機密文書の種類を明らかにし、特定の場所にある特定種類の機密文書に対して特定ユーザからのアクセスまたは特定ユーザ以外からのアクセスを制限または許可するためのセキュリティポリシーの作成を容易にすることにある。

本発明による機密文書検索システムは、少なくとも文字情報を含む１つ以上の文書を格納する文書格納手段に格納された文書のうち、閲覧が制限される機密文書を検索する機密文書検索システムであって、文書格納手段に格納された文書を読み込む文書参照手段と、文書内に含まれているときに当該文書が機密文書に該当する可能性があることを示す特徴要素を定めた特徴定義辞書を格納する特徴定義辞書格納手段と、読み込まれた文書内から特徴定義辞書に基づいて特徴要素を検出し、当該特徴要素に基づいて、文書が分類される機密文書としてのカテゴリの候補を定める特徴要素検出手段と、文書内における特徴要素の配置状態を示す評価値を計算する相関性評価手段と、候補とされた個々のカテゴリが適切か否かを、相関性評価手段に計算された評価値に基づいて判定し、適切でないと判定されたカテゴリを候補から除外するカテゴリ絞り込み手段と、カテゴリ絞り込み手段によって適切と判定されたカテゴリに基づいて、文書が分類されるカテゴリを決定する機密情報分類手段と、少なくとも、機密情報分類手段によってカテゴリが決定された文書の文書名と、カテゴリとを出力する結果出力手段とを備え、特徴定義辞書格納手段が、機密文書が分類される各カテゴリ毎に、カテゴリの重要度を示す値を定めた特徴定義辞書を格納し、機密情報分類手段が、１つの文書が分類されるカテゴリとして複数のカテゴリを決定した場合に、複数のカテゴリの重要度を示す値のうち最大の値を、文書の重要度を示す文書スコアとし、文書の内容の解読され易さを示す値を計算し、値と文書スコアとに基づいて、文書が漏洩する危険度を示すリスク値を計算するリスク評価手段を備えたことを特徴とする。

そのような構成によれば、文書参照手段が、文書格納手段から文書を読み込み、特徴要素検出手段が、その文書から特徴要素を検出して機密文書としてのカテゴリの候補を定め、相関性評価手段が、文書内における特徴要素の配置状態を示す評価値を計算し、カテゴリ絞り込み手段が、評価値に基づいて適切でないと判定されたカテゴリを候補から除外し、機密情報分類手段が、適切と判定されたカテゴリに基づいて文書が分類されるカテゴリを決定するので、機密情報を含む文書を自動的に検出することができ、また、検出した機密文書を機密情報の種類に応じて自動分類することができる。また、カテゴリ絞り込み手段が、文書内における特徴要素の配置状態を示す評価値に基づいて、候補とされた個々のカテゴリが適切か否かを判定するので、単に特徴要素が記述されているだけで実際には機密文書に該当しない文書が、機密文書としてのカテゴリに分類されてしまうことを防止できる。また、オペレータは、文書が漏洩する危険度を示すリスク値を参照して、検出された各機密文書の保護処置が適切であるかどうかを確認するための作業や、検出された各機密文書に保護処置を施すための作業を効率化することができる。

特徴定義辞書格納手段が、機密文書が分類される各カテゴリ毎にカテゴリに応じた特徴要素を定めた特徴定義辞書を格納する構成であってもよい。

特徴要素検出手段が、特徴定義辞書に基づいて、各カテゴリ毎に特徴要素を文書から検出し、検出した特徴要素によって、当該特徴要素に対応するカテゴリを文書の分類候補とするか否かを決定する構成であってもよい。そのような構成によれば、特徴要素検出手段が、各カテゴリ毎にカテゴリに応じた特徴要素を文書から検出し、その特徴要素によって、分類候補を定めるので、適切に分類候補を定めることができ、単なる特定の記述の有無によって文書の分類を定める場合に生じるような誤った分類を防止することができる。

特徴定義辞書格納手段が、カテゴリ毎に特徴要素を区分し、第１の区分の特徴要素は、当該特徴要素が全て文書から検出されることを条件に、当該特徴要素に対応するカテゴリが文書の分類候補となることを定め、第２の区分の特徴要素は、当該特徴要素のうちの少なくとも１つが文書から検出されることを条件に、当該特徴要素に対応するカテゴリが文書の分類候補となることを定めた特徴定義辞書を格納し、特徴要素検出手段が、一のカテゴリにおける第１の区分の特徴要素が全て検出されているか否かおよびカテゴリにおける第２の区分の特徴要素のうちの少なくとも１つが検出されているか否かに応じて、カテゴリを文書の分類候補とするか否かを決定する構成であってもよい。

相関性評価手段が、カテゴリ毎に評価値を計算し、カテゴリ絞り込み手段が、評価値が予め規定された閾値以上である場合に、評価値に対応するカテゴリを適切なカテゴリと判定する構成であってもよい。

相関性評価手段が、カテゴリ毎に、カテゴリに応じた特徴要素によって定められる文書中の範囲内における特徴要素の占める割合を評価値として計算する構成であってもよい。カテゴリ絞り込み手段が、そのような評価値に基づいて、候補とされた個々のカテゴリが適切か否かを判定するので、単に特徴要素が記述されているだけで実際には機密文書に該当しない文書が、機密文書としてのカテゴリに分類されてしまうことを防止できる。

相関性評価手段が、カテゴリ毎に、カテゴリに応じた特徴要素によって定められる文書中の範囲と他のカテゴリに応じた特徴要素によって定められる文書中の範囲との重複の程度を評価値として計算する構成であってもよい。カテゴリ絞り込み手段が、そのような評価値に基づいて、候補とされた個々のカテゴリが適切か否かを判定するので、単に特徴要素が記述されているだけで実際には機密文書に該当しない文書が、機密文書としてのカテゴリに分類されてしまうことを防止できる。

相関性評価手段が、カテゴリ毎に、特徴要素の検出対象範囲に対するカテゴリに応じた特徴要素によって定められる文書中の範囲の占める割合を評価値として計算する構成であってもよい。カテゴリ絞り込み手段が、そのような評価値に基づいて、候補とされた個々のカテゴリが適切か否かを判定するので、単に特徴要素が記述されているだけで実際には機密文書に該当しない文書が、機密文書としてのカテゴリに分類されてしまうことを防止できる。

文書を所定の部分領域に分割する領域分割手段を備え、特徴要素検出手段が、部分領域毎に、特徴要素を検出し、各部分領域が分類されるカテゴリの候補を当該特徴要素に基づいて定める構成であってもよい。

特徴定義辞書格納手段は、各部分領域に対応する複数の特徴定義辞書を格納し、特徴要素検出手段は、部分領域毎に、各部分領域に対応する特徴定義辞書に基づいて特徴要素を検出する構成であってもよい。そのような構成によれば、１つの辞書に多くの情報を含めておく必要がなく、また、その１つの辞書のみを用いて辞書内の多くの情報を参照しなく済む。従って、辞書参照負荷を軽減でき、処理を高速化、効率化することができる。また、その結果、文書格納手段に大量の文書が格納されていても、機密文書の検出や分類を行うことができる。

相関性評価手段が、部分領域毎に、部分領域内における特徴要素の配置状態を示す評価値を計算する構成であってもよい。そのような構成によれば、単に部分領域内に特徴要素が記述されているだけで実際には機密文書に該当しない文書が、機密文書としてのカテゴリに分類されてしまうことを防止できる。

相関性評価手段が、各部分領域でカテゴリ毎に評価値を計算し、カテゴリ絞り込み手段は、複数のカテゴリそれぞれの特徴要素によって定められる範囲が１つの部分領域内で重複する場合に、複数のカテゴリに対応する評価値を比較して、複数のカテゴリのうちの１つのみを適切なカテゴリと判定する構成であってもよい。

カテゴリ絞り込み手段が、１つの部分領域内で、一のカテゴリの特徴要素によって定められる範囲が、他のカテゴリの特徴要素によって定められる範囲と重複しない場合、一のカテゴリを適切なカテゴリと判定する構成であってもよい。

機密情報分類手段が、各部分領域で適切と判断されたカテゴリをそれぞれ、文書が分類されるカテゴリとして決定する構成であってもよい。

リスク評価手段が、同一の文書格納場所に格納された複数の文書それぞれのリスク値を計算し、各文書のリスク値のうち最大の値を、文書格納場所から文書が漏洩する危険度を示す値として定める構成であってもよい。そのような構成によれば、個々の文書単位で機密情報の管理状態を確認したり保護処置を決定する場合に比べ、効率の良い情報セキュリティ監査を実現ことができる。

結果出力手段が、文書が分類されたカテゴリとともに、カテゴリの特徴要素として、特徴要素検出手段が検出した特徴要素を出力する構成であってもよい。

特徴定義辞書に追加する内容を入力するユーザインタフェースを表示し、ユーザインタフェースに入力された内容を、特徴定義辞書格納手段に格納された特徴定義辞書に追加する特徴定義辞書拡張手段を備えた構成であってもよい。

読み込むべき文書が格納された文書格納場所を文書参照手段に対して指定する検索範囲指定手段を備えた構成であってもよい。

検索範囲指定手段が、文書が漏洩する可能性のある文書格納場所または過去に不正にアクセスされたことがある文書格納場所を指定する構成であってもよい。そのような構成によれば、文書格納手段のセキュリティ状況の実態に応じた文書検索を実現することができる。

文書参照手段が、検索範囲指定手段に指定された文書格納場所に格納された文書を読み込む構成であってもよい。そのような構成によれば、文書が漏洩する可能性のある文書格納場所または過去に不正にアクセスされたことがある文書格納場所から機密文書が検索され、機密文書の分類が行われるので、機密文書を文書格納場所に格納する処置が適切に行われているか否かを効率的に確認することができる。また、オペレータは、不適切なセキュリティポリシーが適用されている可能性を調べることができる。すなわち、機密文書に対する保護処置が適切であるかどうかを調べることができる。

文書を閲覧しようとするユーザのグループと、グループに属するユーザのユーザＩＤとを対応付けた情報を記憶する記憶装置を備え、
文書を閲覧しようとするユーザのグループ、およびカテゴリの選択を促すユーザインタフェースを表示し、ユーザインタフェース上でグループおよびカテゴリが選択されることによって、ユーザインタフェース上で選択されたグループから、ユーザインタフェース上で選択されたカテゴリの文書へのアクセスの許可を示す上位セキュリティポリシーを作成し、上位セキュリティポリシーに記述されたグループを当該グループに属するユーザのユーザＩＤに置き換え、結果出力手段によって出力された文書名であって、上位セキュリティポリシーに記述されたカテゴリの文書の文書名を上位セキュリティポリシーに追加することによって、個々の文書にどのユーザがアクセス可能であるかを示すセキュリティポリシーを作成するポリシー生成手段を備えた構成であってもよい。そのような構成によれば、個々の文書毎に、文書にアクセス可能な者を示すセキュリティポリシーを、容易に作成することができる。

ポリシー生成手段が、グループおよび結果出力手段によって出力されたカテゴリを列挙して、グループおよびカテゴリの選択を促すユーザインタフェースを表示し、ユーザインタフェース上で選択されたグループおよびカテゴリから上位セキュリティポリシーを生成する構成であってもよい。文書格納手段１３に格納された文書が分類されるカテゴリに該当しないカテゴリについては、結果出力手段によって出力されないので、上記のような構成によれば、そのような不要なカテゴリの選択を促さずに済み、また、そのような不要なカテゴリに基づいて上位セキュリティポリシーを生成しなくて済む。そして、その結果、セキュリティポリシーが過剰に増加することを防止できる。

結果出力手段が、文書が格納されていた文書格納場所の情報を出力する構成であってもよい。そのような構成によれば、オペレータが機密文書の格納場所を容易に把握することができる。

また、本発明による機密文書検索方法は、少なくとも文字情報を含む１つ以上の文書を格納する文書格納手段に格納された文書のうち、特定の者による閲覧が制限される機密文書を検索する機密文書検索方法であって、特徴定義辞書格納手段が、文書内に含まれているときに当該文書が機密文書に該当する可能性があることを示す特徴要素を定めるとともに、文書が分類される機密文書としての各カテゴリ毎に、カテゴリの重要度を示す値を定めた特徴定義辞書を格納し、文書参照手段が、文書格納手段に格納された文書を読み込み、特徴要素検出手段が、読み込まれた文書内から特徴定義辞書に基づいて特徴要素を検出し、当該特徴要素に基づいて、文書が分類される機密文書としてのカテゴリの候補を定め、相関性評価手段が、文書内における特徴要素の配置状態を示す評価値を計算し、カテゴリ絞り込み手段が、候補とされた個々のカテゴリが適切か否かを、相関性評価手段に計算された評価値に基づいて判定し、適切でないと判定されたカテゴリを候補から除外し、機密情報分類手段が、カテゴリ絞り込み手段によって適切と判定されたカテゴリに基づいて、文書が分類されるカテゴリを決定し、文書が分類されるカテゴリとして複数のカテゴリを決定した場合に、複数のカテゴリの重要度を示す値のうち最大の値を、文書の重要度を示す文書スコアとし、結果出力手段が、少なくとも、機密情報分類手段によってカテゴリが決定された文書の文書名と、カテゴリとを出力し、リスク評価手段が、文書の内容の解読され易さを示す値を計算し、値と文書スコアとに基づいて、文書が漏洩する危険度を示すリスク値を計算することを特徴とする。

また、本発明による機密文書検索プログラムは、少なくとも文字情報を含む１つ以上の文書を格納する文書格納手段に格納された文書のうち、特定の者による閲覧が制限される機密文書を検索するコンピュータであって、文書内に含まれているときに当該文書が機密文書に該当する可能性があることを示す特徴要素を定めるとともに、文書が分類される機密文書としての各カテゴリ毎に、カテゴリの重要度を示す値を定めた特徴定義辞書を格納する特徴定義辞書格納手段を備えたコンピュータに、文書格納手段に格納された文書を読み込む文書参照処理、読み込まれた文書内から特徴定義辞書に基づいて特徴要素を検出し、当該特徴要素に基づいて、文書が分類される機密文書としてのカテゴリの候補を定める特徴要素検出処理、文書内における特徴要素の配置状態を示す評価値を計算する相関性評価処理、候補とされた個々のカテゴリが適切か否かを、相関性評価処理で計算された評価値に基づいて判定し、適切でないと判定されたカテゴリを候補から除外するカテゴリ絞り込み処理、カテゴリ絞り込み処理で適切と判定されたカテゴリに基づいて、文書が分類されるカテゴリを決定し、文書が分類されるカテゴリとして複数のカテゴリを決定した場合に、複数のカテゴリの重要度を示す値のうち最大の値を、文書の重要度を示す文書スコアとする機密情報分類処理、少なくとも、機密情報分類処理でカテゴリが決定された文書の文書名と、カテゴリとを出力する結果出力処理、および文書の内容の解読され易さを示す値を計算し、値と文書スコアとに基づいて、文書が漏洩する危険度を示すリスク値を計算するリスク評価処理を実行させることを特徴とする。

本発明によれば、文書格納手段に格納された文書から機密文書を自動的に検出することができる。また、検出した機密文書を機密情報のカテゴリに応じて分類することができる。また、文書内における特徴要素の配置状態を示す評価値を計算する相関性評価手段と、候補とされた個々のカテゴリが適切か否かを、相関性評価手段に計算された評価値に基づいて判定し、適切でないと判定されたカテゴリを候補から除外するカテゴリ絞り込み手段とを備えているので、単に特徴要素と一致する語を含むだけで機密文書に該当しない文書を検索することを防止できる。従って、機密文書の検出を確実に、また効率的に行うことができる。

以下、本発明を実施するための最良の形態を、図面を参照して説明する。

実施の形態１．
図１は、本発明による機密文書検索システムの第１の実施の形態を示すブロック図である。文書格納手段１３は、少なくとも文字情報を含む１つ以上の文書を記憶する。文書参照手段１は、文書格納手段１３が記憶している文書を参照する（読み込む）。領域分割手段２は、文書参照手段１によって読み込まれた文書を、その文書における語の配置等に基づいて１つ以上の部分領域（例えば、ヘッダ、本文、フッタ等の所定の部分領域）に分割する。

特徴定義辞書格納手段５は、各種部分領域（例えば、ヘッダ領域等の各種部分領域）に応じた辞書を記憶する。各部分領域に応じた辞書は、その部分領域に記述された機密情報の種類を判断するための語句の情報を含んでいる。そして、この語句には、個別具体的な個人名、電話番号、住所等の記述（以下、このような個別具体的な記述をインスタンス文字列と記す。）の属性を表す語句（例えば、「山田」等のインスタンス文字列の属性を表す「人名」等の語句）も含まれる。また、文書内に含まれているときにその文書が機密文書に該当する可能性があることを示す語句やインスタンス文字列を特徴要素と記す。特徴定義辞書格納手段５に格納される辞書は、特徴要素を定めている。

領域別辞書参照手段４は、特徴要素検出手段３に従って、特徴定義辞書格納手段５から各部分領域に応じた辞書を参照する。特徴要素検出手段３は、領域別辞書参照手段４を介して各部分領域に応じた辞書を参照し、領域分割手段２によって分割された各部分領域から、各種機密情報を含んでいるかの判断材料となる特徴要素を検出する。相関性評価手段６は、検出された特徴要素が同じ領域内に複数個存在する場合に、各特徴要素間の関連性の高さを評価する処理（相関性評価処理）を実行する。機密情報分類手段７は、各特徴要素間の関連性の高さを考慮して部分領域毎に、記述された機密情報の種類を決定する。さらに機密情報分類手段７は、各部分領域ごとの機密情報の種類を総合して文書全体の機密情報の種類を判定する。結果出力手段８は、各文書の保存場所（保存場所の情報には文書名が含まれてもよい。）とその文書に対して判定された機密情報の種類の組を出力する。

機密文書検索システムの各構成部の動作を、図２に示す文書例を用いてより詳細に説明する。文書参照手段１が文書３０のようなファイルを参照した（読み込んだ）とする。この場合、まず領域分割手段２は、文書３０の文面をヘッダ領域３１、本文領域３３、およびフッタ領域３４に分割する。さらに領域分割手段２は、可能ならばヘッダ領域３１からタイトル領域３２を抽出し、また本文領域３３から図表領域３５，３６，３７を抽出する。領域分割手段２は、文書３０がＨＴＭＬ形式等のようにタグを用いて記述された文書である場合には、文書内の各種タグを参照して各領域の分割や抽出を行えばよい。タイトル領域や図表領域が抽出可能かどうかは、文書３０にそれらを示すタグや罫線情報が含まれているか等に依存する。また、例えば、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ（商標）のＷＯＲＤ（商標）やＥＸＣＥＬ（商標）、ＰｏｗｅｒＰｏｉｎｔ（登録商標）といった編集ツールで作成された文書やＰＤＦ形式の文書が読み込まれた場合には、領域分割手段２は、それらの文書をＨＴＭＬ形式の文書に変換し、タグを参照して各領域の分割や抽出を行えばよい。ここに挙げた各種文書をＨＴＭＬ形式の文書に変換するためのソフトウェアとして、フリーウェアとして提供されているｘｌｈｔｍｌやｘｐｄｆ（いずれもソフトウェアの名称）等の変換ソフトウェアがある。領域分割手段２は、これらの変換ソフトウェアを用いて、ＨＴＭＬ形式への文書変換を行ってもよい。

ＨＴＭＬにおけるタグのようなテキスト解析で認識可能な有効な手掛りを含まない文書、またはタグからは本来のレイアウトを推定できない文書等については、領域分割手段２は、文書全体の先頭Ｘ行（例えば５行）をヘッダ領域、最後のＹ行（例えば５行）をフッタ領域、それらを除く領域を本文領域などとすることで近似的に領域の分割を行ってもよい。また、既に広く普及しているＯＣＲの技術を用いて文書を画面に表示または印刷したイメージからレイアウト解析を行なうことで、ヘッダ領域やフッタ領域、図表領域などを抽出してもよい。例えば、文字集合領域を認識し、その領域を囲む最小の矩形または多角形領域を抽出し、文書の上端、文書の下端に最も近い矩形または多角形領域をそれぞれヘッダ領域、フッタ領域としてもよい。

領域分割手段２が文書を部分領域に分割すると、特徴要素検出手段３は、領域別辞書参照手段４を通じて特徴定義辞書格納手段５を参照する。そして、特徴要素検出手段３は、例えばヘッダ領域とフッタ領域に共通の辞書を用いて「取扱注意」や「社外秘」、「Ｃｏｎｆｉｄｅｎｔｉａｌ」などの単語（特徴要素）がヘッダ領域３１またはフッタ領域３４に含まれているかどうかを調べる。これらの単語は、一般に文書の先頭や末尾、またはページの先頭や末尾に記述されることでその文書が機密文書であることを示す。従って、本例では、これらの単語は、ヘッダ領域とフッタ領域に共通の辞書（ここでは、ヘッダ領域に応じた辞書とフッタ領域に応じた辞書が共通であるものとして説明する。）に含まれているものとする。一方、これらの単語が本文領域３３に記載されていたとしても、それが文書３０の機密性を示す場合は少ないため、これらの単語を本文領域用辞書から除外する。このように、各領域の特性に応じた辞書をそれぞれ用意しておき、部分領域毎に対応する辞書を参照して、各部分領域に記述された特徴要素を検出すれば、１つの辞書に多くの情報を含めておく必要がなく、また、その１つの辞書のみを用いて辞書内の多くの情報を参照しなく済む。従って、辞書参照負荷を軽減でき、処理を高速化することができる。

住所や電話番号、Ｅメールアドレスなどの連絡先に属する個人情報は、一連の自然言語文で書かれている場合もあり得るが、氏名や住所などが個別に表または単なる並びとして記述されている場合が非常に多い。図表領域３５は、厳密な表ではないが個人を特定し連絡をとるための指名やＥメールアドレス、住所が記載されている。ただし、社名や部署名、”内線”といった記述もあり、個人のプライベートな連絡先ではないものと推測できる。相関性評価手段６は、図表領域３７のような明示的な表に対しては行や列の対応関係から個人情報の単位（ある人に関する氏名と連絡先などの組）を判断する。一方で、図表領域３５のように表形式ではない場合は、氏名や住所等の特徴要素と他の語との空間的位置関係を定量的に計算し、その計算結果を用いて、近接する特徴要素が一組の個人情報となるかどうかを判定する。

図３は、特徴定義辞書格納手段５に格納される辞書（以下、特徴定義辞書と記す。）の例を示す説明図である。図４は、機密文書検索システムの動作を示すフローチャートである。以下、特徴要素検出手段３の処理について、図３および図４を用いてより具体的に説明する。ここでは、まず、特徴定義辞書の記述について説明する。

特徴定義辞書は、例えばＸＭＬ形式で記述される。図３に示す各ｃａｔｅｇｏｒｙ要素（＜ｃａｔｅｇｏｒｙ・・・＞〜＜／ｃａｔｅｇｏｒｙ＞で囲まれた部分）は、それぞれ１つの機密情報カテゴリ（すなわち、機密情報の種類）を示す。機密情報カテゴリ名はｃａｔｅｇｏｒｙ要素のｎａｍｅ属性に記述される。図３の例では“顧客情報”と“名刺情報”がそれぞれ機密情報カテゴリ名である。ｃａｔｅｇｏｒｙ要素のｉｍｐｏｒｔａｎｃｅ属性の値は、各機密情報カテゴリに対して与えられた重要度を示す０以上１以下の値である。ｃａｔｅｇｏｒｙ要素の下位要素として、ｗｏｒｄ要素とａｔｔｒｉｂ要素が設けられる。

ｗｏｒｄ要素の値としては、固定文字列が記述される。そして、ｗｏｒｄ要素の値として記述された固定文字列が文書中に含まれていた場合、その固定文字列は、そのｗｏｒｄ要素を記述した機密情報カテゴリの特徴要素とされる。図３に示す例では、“顧客情報”カテゴリと“名詞情報”カテゴリのいずれにも、“電話場号”というｗｏｒｄ要素が含まれている。従って、特徴要素検出手段３は、“電話番号”という固定文字列が文書中に含まれているときには、その文字列を “顧客情報”の特徴要素であると判断し、また、“名刺情報”に属する特徴要素であると判断する。

ａｔｔｒｉｂ要素の値としては、インスタンス文字列の属性を表す語句が記述される。そして、ａｔｔｒｉｂ要素の値として記述された属性に該当するインスタンス文字列が文書中に含まれていた場合、そのインスタンス文字列は、そのａｔｔｒｉｂ要素を記述した機密情報カテゴリの特徴要素とされる。図３に例示する“人名”という属性のインスタンス文字列の例として、“山田”や“一郎”等の具体的な名字や名前が挙げられる。同様に、図３に例示する“電話番号”という属性のインスタンス文字列の例として、“０３−１２３４−５６７８”等の具体的な電話番号が挙げられる。例えば、特徴要素検出手段３は、“山田”というインスタンス文字列が文書中に含まれているときには、そのインスタンス文字列を“顧客情報”の特徴要素であると判断し、また、“名刺情報”に属する特徴要素であると判断する。

ｗｏｒｄ要素およびａｔｔｒｉｂ要素におけるｃｌａｓｓ属性は、ある文書が、そのｗｏｒｄ要素やａｔｔｒｉｂ要素を記述した機密情報カテゴリに分類されるための条件を示す。ｃｌａｓｓ属性の値“Ｍ”は、そのｃｌａｓｓ属性“Ｍ”を有する各ｗｏｒｄ要素および各ａｔｔｒｉｂ要素が示す文字列が全て同一文書（同一の部分領域）から検出されることを条件に、その文書（部分領域）が、ａｔｔｒｉｂ要素やｗｏｒｄ要素を記述した機密情報カテゴリに分類され得ることを表している。また、ｃｌａｓｓ属性の値“Ａ”は、そのｃｌａｓｓ属性“Ａ”を有する各ｗｏｒｄ要素および各ａｔｔｒｉｂ要素のうちの少なくとも１つが示す文字列が文書（部分領域）から検出されることを条件に、その文書（部分領域）が、ａｔｔｒｉｂ要素やｗｏｒｄ要素を記述した機密情報カテゴリに分類され得ることを表している。ｃｌａｓｓ属性の値“Ｏ”は、そのｃｌａｓｓ属性“Ｏ”を有する各ｗｏｒｄ要素および各ａｔｔｒｉｂ要素が示す文字列が文書（部分領域）内から検出されることは必須ではないが、それらの文字列が多く検出されるほど、その文書（部分領域）が、ａｔｔｒｉｂ要素やｗｏｒｄ要素を記述した機密情報カテゴリに分類される確度が高いことを示している。

図４は、機密文書検索システムの動作、特に、特徴要素検出手段３の動作を示すフローチャートである。まず、文書参照手段１は、文書格納手段１３に格納された未参照の文書の１つを参照する（ステップＳ１５０１）。領域分割手段２は、その文書を１つ以上の部分領域に分割する（ステップＳ１５０２）。

次に、特徴要素検出手段３は、分割された部分領域のうち読み込んだ文書の中で未評価の部分領域（すなわち、後述のステップＳ１５０４〜Ｓ１５０９の処理が行われていない部分領域）を１つ選択する（ステップＳ１５０３）。さらに、特徴要素検出手段３は、領域別辞書参照手段４を通じて特徴定義辞書格納手段５を参照することにより、選択した部分領域に対応付けられている特徴定義辞書を選択する（ステップＳ１５０４）。各部分領域に応じた特徴定義辞書は、図３に例示するように、１つ以上のカテゴリのｃａｔｅｇｏｒｙ要素を含み、個々の機密情報カテゴリに対応するｃａｔｅｇｏｒｙ要素は、それぞれａｔｔｒｉｂ要素やｗｏｒｄ要素によって定義されている。特徴要素検出手段３は、選択した特徴定義辞書から未照合の機密情報カテゴリ（すなわち、後述のステップＳ１５０６の処理で用いられていないｃａｔｅｇｏｒｙ要素）の１つを選択する（ステップＳ１５０５）。

続いて、特徴要素検出手段３は、選択した部分領域内に記述された情報と、選択した機密情報カテゴリの定義内容とを照合し、選択した機密情報カテゴリに分類するために必要な特徴要素全てが部分領域内に含まれているか否かを評価する（ステップＳ１５０６）。すなわち、選択した部分領域に含まれる特徴要素の集合が、選択した機密情報カテゴリに分類すべき必須の特徴要素（ｃｌａｓｓ属性が“Ｍ”の全ての要素が示す文字列、およびｃｌａｓｓ属性が“Ａ”の要素のうち１つ以上の要素が示す文字列）を全て含むかどうかを評価する。必須の特徴要素を全て含むと判断した場合、選択した機密情報カテゴリを、選択した部分領域の分類候補に指定する（ステップＳ１５０７）。必須の特徴要素を全て含んでいるわけではないと判断した場合、ステップＳ１５０７の処理を実行せずに、ステップＳ１５０８に移行する。

例えば、ある部分領域内に図５に示す自然言語文４１のような記述があった場合を例に説明する。特徴要素検出手段３は、自然言語文４１に対して形態素解析を行う。そして、図３に例示する特徴定義辞書を参照した場合、特徴要素検出手段３は、機密情報カテゴリ“顧客情報”について、自然言語文４１を形態素解析した結果４２から属性“人名”のインスタンス文字列“山田”、固定文字列“電話番号”、属性“電話番号”のインスタンス文字列“０３−ＸＸＸＸ−ＸＸＸＸ”、固定文字列“メール”、属性“Ｅメールアドレス”のインスタンス文字列“ｙａｍａｄａ＠ｘｘｘｘ．ｙｙｙ．ｚｚｚ”を特徴要素としてそれぞれ検出する。検出された特徴要素は、機密情報カテゴリ“顧客情報”に分類する必須の特徴要素が全て含んでいるので、自然言語文４１を記述した部分領域は、 “顧客情報”に分類され得る。

なお、形態素解析によって分割された各品詞や記号には、特徴要素に該当しないものが存在する。これらの各品詞や記号のうち、特定の品詞や記号を除いたものを非特徴要素と呼ぶことにする。本例では、少なくとも助詞および読点は、非特徴要素に該当しないものとする。また、図５に記載したカテゴリ領域サイズおよびカテゴリ密度については後述する。

選択した機密情報カテゴリが部分領域の分類候補となるか否かを決定する処理を終えると、特徴要素検出手段３は、未照合の機密情報カテゴリが残っているか否かを判定する（ステップＳ１５０８）。未照合の機密情報カテゴリが残っていれば、ステップＳ１５０５に移行してステップＳ１５０５以降の処理を繰り返す。未照合の機密情報カテゴリが残っておらず、全ての機密情報カテゴリについて照合を終えたと判定した場合、相関性評価手段６が相関性評価処理を行う（ステップＳ１５０９）。相関性評価処理については、後述する。ステップＳ１５０９の後、特徴要素検出手段３は、未評価の部分領域が残っているか否かを判定する（ステップＳＳ１５１０）。未評価の部分領域が残っていれば、ステップＳ１５０３に移行してステップＳ１５０３以降の処理を繰り返す。未評価の部分領域が残っていおらず、ステップＳ１５０１で読み込んだ文書を構成する全ての部分領域について評価したと判定した場合、機密情報分類手段７が機密情報分類処理を行う（ステップＳ１５１１）。機密情報分類処理については後述する。なお、図４に示すフローチャートでは省略しているが、ステップＳ１５１１の後、結果出力手段８が、例えば、機密情報を含む機密文書の保存場所、およびその機密情報の分類結果を出力する。

文書格納手段１３に複数の文書が記憶されているならば、各文書に対してステップＳ１５０１以降の処理を行えばよい。

次に、図６、図７、図８を用いて、ステップＳ１５０９の相関性評価処理について説明する。図６および図７は、相関性評価処理の処理経過を示すフローチャートである。相関性評価手段６は、ステップＳ１５０７（図４参照。）で分類候補として指定された機密情報カテゴリのうちの１つを選択する（ステップＳ３１０１）。続いて、相関性評価手段６は、選択した機密情報カテゴリに属する特徴要素のうち、評価対象としている部分領域（すなわち、ステップＳ１５０３で選択した部分領域）内での最初と最後の特徴要素からカテゴリ領域を同定する（ステップＳ３１０２）。そして、機密情報カテゴリとカテゴリ領域とを対応付ける。以降の処理では、各機密情報カテゴリに応じた各カテゴリ領域について、カテゴリ密度、カテゴリ純度、およびカテゴリ占度という３つの値を計算する。

図８は、カテゴリ密度、カテゴリ純度、およびカテゴリ占度の説明図である。図８に示す部分領域Ａには、それぞれが単語や番号等からなる特徴要素および非特徴要素が含まれているものとする。特徴要素３，７，８は、それぞれ機密情報カテゴリＣ１に属する特徴要素であるものとする。同様に、特徴要素５，７，１０，１１は、それぞれ機密情報カテゴリＣ２に属する特徴要素であるものとする。特徴要素７は、機密情報カテゴリＣ１，Ｃ２の両方に属する特徴要素である。ここで、部分領域Ａ内の特徴要素および非特徴要素を部分領域Ａの左上から右下へ番号順に並んだ一列の要素列とみなす。機密情報カテゴリＣ１に属する特徴要素のうち最初のものは特徴要素３であり、最後のものは特徴要素８となる。ステップＳ３１０１において機密情報カテゴリＣ１を選択した場合には、この特徴要素３から特徴要素８までの要素列を、機密情報カテゴリＣ１のカテゴリ領域ＡＣ１とする（ステップＳ３１０１）。同様に、機密情報カテゴリＣ２に属する特徴要素のうち最初のものは特徴要素５であり、最後のものは特徴要素１１となる。従って、ステップＳ３１０１において機密情報カテゴリＣ２を選択した場合には、この機密情報５から機密情報１１までの要素列を、機密情報カテゴリＣ２のカテゴリ領域ＡＣ２とする（ステップＳ３１０１）。以下、特徴要素と非特徴要素とを特に区別しない場合には、単に要素と記す。

以上のように定めたカテゴリ領域において、カテゴリ密度、カテゴリ純度、カテゴリ占度をそれぞれ次のように定義する。カテゴリ密度は、カテゴリ領域に含まれる特徴要素数をカテゴリ領域サイズで除算した値とする。カテゴリ領域サイズは、そのカテゴリ領域に含まれる要素の総数である。例えば、カテゴリ領域ＡＣ１のカテゴリ密度は、以下のように計算される。カテゴリ領域ＡＣ１に含まれる機密情報カテゴリＣ１の特徴要素の数は３つ（特徴要素３，７，８）であり、カテゴリ領域ＡＣ１のカテゴリ領域サイズは、要素３から要素８までの各要素の総数（すなわち、６）であるので、カテゴリ密度は、３／６＝０．５となる。

カテゴリ純度は、ある機密情報カテゴリのカテゴリ領域において、カテゴリ領域サイズに対する他のカテゴリ領域と重複する要素数の割合を１から引いた値とする。カテゴリ領域ＡＣ１は、要素３から要素８までのうち、要素５から要素８までの４つがカテゴリ領域ＡＣ２と重複する。従って、カテゴリ領域ＡＣ１のカテゴリ領域サイズに対する重複要素の割合は、４／６＝０．６７となる。１からこの値を引いた値０．３３が、カテゴリ領域ＡＣ１におけるカテゴリ純度となる。

また、カテゴリ占度は、カテゴリ領域サイズをそのカテゴリ領域が含まれる部分領域の領域サイズで割った値とする。部分領域の領域サイズは、カテゴリ領域サイズと同様にその部分領域に含まれる要素の総和である。図８に示す部分領域に含まれる要素数は１２である。従って、例えば、カテゴリ領域サイズが６であるカテゴリ領域ＡＣ１のカテゴリ占度は、６／１２＝０．５となる。

以上のように定義したカテゴリ領域、カテゴリ密度、カテゴリ純度、カテゴリ占度を用いて、図６および図７に示す処理を実行する。機密情報カテゴリに応じたカテゴリ領域を定めた後（ステップＳ３１０２の後）、相関性評価手段６は、そのカテゴリ領域のカテゴリ密度を計算する。続いて、相関性評価手段６は、分類候補のうち、カテゴリ密度を計算していない機密情報カテゴリがあるか否かを判定する（ステップＳ３１０４）。そのような機密情報カテゴリがあるならば、ステップＳ３１０１に移行し、ステップＳ３１０１以降の処理を繰り返す。カテゴリ密度を計算していない機密情報カテゴリがなくなったならば、分類候補とされた各機密情報カテゴリ毎にカテゴリ領域が定められ、各カテゴリ領域のカテゴリ密度が全て計算されたことになる。この場合、ステップ３１０５（図７参照。）に移行する。なお、相関性評価手段６は、ステップＳ３１０２で定めたカテゴリ領域の情報およびステップＳ３１０３で計算したカテゴリ密度を、それぞれ対応付けて記憶しておく。

相関性評価手段６は、分類候補として指定された機密情報カテゴリのうちの１つを選択し、その機密情報カテゴリのカテゴリ領域におけるカテゴリ密度を参照する（ステップＳ３１０５）。次に、相関性評価手段６は、そのカテゴリ密度が、予め規定された密度閾値以上であるか否かを判定する（ステップＳ３１０６）。密度閾値として、例えば０．２５等の値を用いればよいが、０．２５以外の値であってもよい。カテゴリ密度が密度閾値未満であれば、相関性評価手段６は、評価対象としている部分領域の分類候補から、ステップＳ３１０５で選択した機密情報カテゴリを除外する（ステップＳ３１１３）。カテゴリ密度が密度閾値以上であるならば、相関性評価手段６は、次にカテゴリ純度を計算し（ステップＳ３１０７）、そのカテゴリ純度が、予め規定された純度閾値以上であるか否かを判定する（ステップＳ３１０８）。純度閾値として、例えば０．８等の値を用いればよいが、０．８以外の値であってもよい。カテゴリ純度が純度閾値未満であれば、相関性評価手段６は、ステップＳ３０１５で選択した機密情報カテゴリのカテゴリ領域と重複する他のカテゴリ領域を特定する。そして、選択した機密情報カテゴリのカテゴリ領域のカテゴリ密度が、そのカテゴリ領域と重複する他のカテゴリ領域のカテゴリ密度より高いか否かを判定する（ステップＳ３１０９）。ステップＳ３１０５に移行する前に、分類候補とされた各機密情報カテゴリ毎にカテゴリ領域が定められ、各カテゴリ領域のカテゴリ密度が全て計算されているので、相関性評価手段６は、ステップＳ３１０９の処理を実行することができる。選択した機密情報カテゴリのカテゴリ領域のカテゴリ密度が他のカテゴリ領域のカテゴリ密度より低ければ（ステップＳ３１０９におけるＮＯ）、選択した機密情報カテゴリを、評価対象としている部分領域の分類候補から除外する（ステップＳ３１１３）。

カテゴリ純度が純度閾値以上である場合（ステップＳ３１０８におけるＹＥＳ）または、選択した機密情報カテゴリのカテゴリ領域のカテゴリ密度が他のカテゴリ領域のカテゴリ密度より高い場合（ステップＳ３１０９におけるＹＥＳ）、相関性評価手段６は、カテゴリ占度を計算する（ステップＳ３１１０）。続いて、相関性評価手段６は、そのカテゴリ占度が、予め規定された占度閾値以上であるか否かを判定する（ステップＳ３１１２）。占度閾値として、例えば０．４等の値を用いればよいが、０．４以外の値であってもよい。カテゴリ占度が占度閾値未満であれば、相関性評価手段６は、評価対象としている部分領域の分類候補から、ステップＳ３１０５で選択した機密情報カテゴリを除外する（ステップＳ３１１３）。カテゴリ占度が占度閾値以上であるならば、ステップＳ３１０５で選択した機密情報カテゴリを部分領域の機密情報カテゴリとして採用する（ステップＳ３１１２）。続いて、相関性評価手段６は、分類候補とされた機密情報カテゴリのうち、未評価の機密情報カテゴリ（すなわち、未だステップＳ３１０５移行の処理対象とされていない機密情報カテゴリ）の有無を判定する（ステップＳ３１１４）。未評価の機密情報カテゴリがあれば、ステップＳ３１０５に移行し、ステップＳ３１０５以降の処理を繰り返す。

なお、ステップＳ３１０９の判定およびステップＳ３１１３の処理を行っているため、複数のカテゴリ領域が重複している場合には、各カテゴリ領域に応じた各機密情報カテゴリのうち、ステップＳ３１１２で採用され得るものは１つだけである。また、複数のカテゴリ領域が重複していない場合には、各カテゴリ領域に応じた機密情報カテゴリがそれぞれ、ステップＳ３１１２で採用される可能性がある。

また、図６および図７に示したフローチャートは、相対性評価処理の一例を示すものであり、カテゴリ密度、カテゴリ純度、カテゴリ占度の計算順序等は、図６および図７に示す場合に限定されない。カテゴリ密度、カテゴリ純度、カテゴリ占度のうち１つまたは２つだけを計算して相関性評価を行なってもよく、またこれらの計算順序を変更したり、各々の値の計算と閾値との比較評価を独立に行なってもよい。また、密度閾値、純度閾値、占度閾値は、それぞれ全ての機密情報カテゴリについて共通の値であっても、各機密情報カテゴリ毎に個別に定められた値であってもよい。

また、密度閾値、純度閾値、占度閾値は、例えば、予め実験により適切な値を定めておけばよい。

図５の自然言語文４１を例にして、カテゴリ密度、カテゴリ純度、カテゴリ占度の計算の具体例を示す。自然言語文４１に対する形態素解析結果４２において、特徴要素検出手段３は、図３に示す機密情報カテゴリ“顧客情報”に基づいて、「山田」（人名）、「電話番号」、「０３−ＸＸＸＸ−ＸＸＸＸ」（電話番号）、「メール」、「ｙａｍａｄａ＠ｘｘｘｘ．ｙｙｙ．ｚｚｚ」（Ｅメールアドレス）の５つの特徴要素を検出する。また、特徴要素検出手段３は、図３に示す機密情報カテゴリ“名刺情報”に基づいて、特徴要素を検出する際にも上記の５つの特徴要素を検出する。そして、相対性評価手段６が、機密情報カテゴリ“顧客情報”を検出したとする。このとき、相対性評価手段６は、機密情報カテゴリ“顧客情報”のカテゴリ領域は、「山田」から「ｙａｍａｄａ＠ｘｘｘｘ．ｙｙｙ．ｚｚｚ」までであると判定する。さらに、「山田」「さん」「電話番号」「０３−ＸＸＸＸ−ＸＸＸＸ」「です」「。」「メール」「ｙａｍａｄａ＠ｘｘｘｘ．ｙｙｙ．ｚｚｚ」の要素数合計である８を、そのカテゴリ領域サイズとして定める。相対性評価手段６は、特徴要素数「５」と、カテゴリ領域サイズ「８」とにより、カテゴリ密度を５／８＝０．６２５と計算する。機密情報カテゴリ“名刺情報”に対応するカテゴリ領域は、“顧客情報”に対応するカテゴリ領域と同一である。従って、“顧客情報”に対応するカテゴリ領域サイズに対する、“名刺情報”のカテゴリ領域の重複要素数は８である。よって、特徴定義辞書に定義された機密情報カテゴリが図３に記載した“顧客情報”と“名刺情報”のみであるとすると、相対性評価手段６は、機密情報カテゴリ“顧客情報”のカテゴリ純度を（１−８／８）＝０と計算する。また、自然言語文４１が記述された部分領域の領域サイズは、「山田」から最後の句点「。」までの要素の総数であるので、「１０」となる。よって、相対性評価手段６は、機密情報カテゴリ“顧客情報”のカテゴリ占度を８／１０＝０．８と計算する。

上記の例では、部分領域に自然言語文４１が含まれる場合の例を示した。次に、部分領域に自然言語文ではない記述（非文と記すことにする。）含まれる場合を示す。図９は、ある部分領域内に記述された非文の例と、その非文に対する形態素解析結果の例を示す説明図である。ある部分領域内に、図９に例示する非文５１が記述されているとする。非文５１では、“山田”や“電話”といった単語と“（）”や“：”などの記号、および電話番号やＥメールアドレスなどの英数記号列が並んでいるのみであり、助詞などによって単語間の関係を判断することができない。しかし、非文５１に対して形態素解析を行うことにより、単語の特定および品詞判定を行って図９に例示する形態素解析結果５２を得ることは可能である。ただし、図９に示す形態素結果５２では、“電話番号”等の特徴要素となる単語や“：”などの記号に関する形態素解析結果（例えば、「電話番号−名詞−一般」等）の表記を省略している。なお、形態素解析は、例えば、非特許文献３に記載された「茶筌（ソフトウェアの名称）」を用いて行えばよい。（ただし、「茶筌」は標準では数字列や英数記号列を電話番号やＥメールアドレスとは判定できないため、「茶筌」用の辞書の拡張や前処理または後処理によってこれらの判定を行なう必要がある。）

図９に示した非文５１の形態素解析結果５２を参照して、図３の特徴定義辞書を用いた場合の相関性評価処理の一例を示す。図９に示す形態素解析結果５２が得られているものとする。相対性評価手段６は、機密情報カテゴリ“顧客情報（図３参照。）”のカテゴリ領域は、「山田」（人名）から「ｙａｍａｄａ＠ｘｘｘｘ．ｙｙｙ．ｚｚｚ」（Ｅメールアドレス）までであると判定し、カテゴリ領域サイズを「１１」と判定する。また、“顧客情報”に属する特徴要素は、「山田」、「一郎」、「電話番号」、「０３−ＸＸＸＸ−ＸＸＸＸ」、「メール」、および「ｙａｍａｄａ＠ｘｘｘｘ．ｙｙｙ．ｚｚｚ」の６個である。従って、相対性評価手段６は、カテゴリ密度を６／１１＝０．５４５と計算する。また、相対性評価手段６は、機密情報カテゴリ“名刺情報（図３参照。）”のカテゴリ領域を、機密情報カテゴリ“顧客情報”の場合と同一に定める。そして、“名刺情報”に属する特徴要素として、上記の６個の特徴要素に「外線」が追加される。従って、相対性評価手段６は、“名刺情報”に対するカテゴリ領域のカテゴリ密度を７／１１＝０．６３６と計算する。よって、機密情報カテゴリ“顧客情報”よりも機密情報カテゴリ“名刺情報”の方がカテゴリ密度が高いため、相対性評価手段６は、図９に示す非文５１を記述した部分領域の分類候補から機密情報カテゴリ“顧客情報”を外す（図８に示すステップＳ３１０９，Ｓ３１１３参照。）。

複数の分類候補の中から不適当な分類候補を除外する他の例を示す。ここでは、ヘッダ領域やフッタ領域に対応する特徴定義辞書として、図１０に例示する特徴定義辞書が特徴定義辞書格納手段５に記憶されているものとする。また、占度閾値が０．４と規定されているものとする。この場合、特徴要素検出手段３は、図２に例示するヘッダ領域３１に記載の“取扱注意”やヘッダ領域３４に記載の“Ｃｏｎｆｉｄｅｎｔｉａｌ”などを検出して、機密情報カテゴリ“社外秘”をヘッダ領域やフッタ領域の分類候補に指定することができる。ただし、例えば、図１１に示す自然言語文１９０１（「当社の取扱注意文書に関する説明」）が記述されたヘッダ領域に対する処理では、特徴要素検出手段３が形態素解析を行い、形態素解析結果１９０２からヘッダ領域に記載の“取扱注意”を検出して、機密情報カテゴリ“社外秘”をヘッダ領域の分類候補に指定する（ステップＳ１５０７参照。）。この場合、相関性評価手段６が、機密情報カテゴリ“社外秘”を選択して、“社外秘”に対応するカテゴリ領域のカテゴリ占度を計算すると、カテゴリ占度は以下のようになる。このヘッダ領域に含まれる要素は、「当社」、「取扱注意」、「文書」、「関する」、「説明」であるので、ヘッダ領域の領域サイズは「５」である。また、“社外秘”に対応するカテゴリ領域サイズは「１」である（特徴要素が「取扱注意」のみであるため）。よって、“社外秘”に対応するカテゴリ領域のカテゴリ占度は、１／５＝０．２となる。この値は、占度閾値０．４未満であるので、“社外秘”はヘッダ領域の分類候補から除外される。なお、図１１に示す例では、カテゴリ領域サイズと特徴要素数が共に１であるので、カテゴリ密度は、１／１＝１となる。また、重複する他のカテゴリ領域が存在しないので、他のカテゴリ領域サイズは０となる。よって、図１１に示す例におけるカテゴリ純度は、１−０／１＝１となる。

一方、「取扱注意文書」という文言のみがヘッダ領域に含まれているとする。この場合も、特徴要素検出手段３は、機密情報カテゴリ“社外秘”をヘッダ領域の分類候補に指定する。この場合、相関性評価手段６は、以下のように“社外秘”に対応するカテゴリ領域のカテゴリ占度を計算する。このヘッダ領域に含まれる要素は、「取扱注意」、「文書」の２つであるので、ヘッダ領域の領域サイズは「２」である。また、“社外秘”に対応するカテゴリ領域サイズは「１」である。よって、“社外秘”に対応するカテゴリ領域のカテゴリ占度は、１／２＝０．５となる。この値は、占度閾値０．４以上であるので、“社外秘”はヘッダ領域の分類候補として残る。

このように相関性評価手段６による相関性評価処理では、文書が機密文書であると判断しうる特徴要素（例えば、“取扱注意”、“秘密事項”、“Ｃｏｎｆｉｄｅｎｔｉａｌ”等）が、文書全体や各ページの先頭（ヘッダ領域）や末尾（フッタ領域）にあるかどうかという判定基準だけでなく、それらの語が「取扱注意とは社外に無断で公開してはならない・・・」といった多くの要素からなる文の一部である可能性があるか否かも判断基準としている。従って、文書が機密文書であるか否かの精度を向上させることが可能となる。

また、表に対する処理の例を説明する。部分領域内に、図３６に例示するアンケートデータのような表が記述されているとする。また、本例では、図３６に例示するデータがＨＴＭＬによって記述されているものとする。図１２は、図３６に示す表をＨＴＭＬで記述した場合の記述内容を示す説明図である。例えば、領域分割手段２は、ＨＴＭＬのタグを解析することによって、同じＴＲ要素内にあるＴＨまたはＴＤ要素は同一の行に存在し、また各ＴＲ要素のｉ番目（ｉは１から、１つのＴＲ要素内のＴＤ要素数の最大値までのいずれかの値）のＴＨまたはＴＤ要素は同一の列に存在すると判定することができる（実際にはＣＯＬＳＰＡＮやＲＯＷＳＰＡＮ属性を考慮して各要素の対応関係を計算する必要がある）。このような各ＴＤ要素の対応関係の解析により、領域分割手段２（特徴要素検出手段３であってもよい。）は、例えば“１”、“山本洋”、“３１”、“ｈｉｒｏ００１＠ｘｘｘ．ｎｅｔ”、“東京都○○区△△１−２−３０１”、“３”が１つの組であると推定することができる。また、同一の列上に並ぶ“山本洋”、“山口陽子”等の対応関係も推定することができる。領域分割手段２（特徴要素検出手段３であってもよい。）は、表の最初のＴＲ要素内や各ＴＲ要素の最初のＴＤ要素、または一連のＴＨ要素は、それぞれその表の各行や列のタイトルや識別番号であることが予測できるため、このような予測が正しいとみなして、“３１”や“２８”が“年齢”に属する値であると認識することができる。また、特徴要素検出手段３は、行単位または列単位の各ＴＤ要素に、特徴定義辞書で定義された“顧客情報”や“名刺情報”などいずれかの機密情報カテゴリへの分類候補となる条件となる特徴要素が含まれていれば、各行（または各列）についてその機密情報カテゴリに属する機密情報であると判定できる。例えば、図３に例示する機密情報カテゴリ“顧客情報”と図３６の表の２行目とを照合すると、“山本洋”、“ｈｉｒｏ００１＠ｘｘｘ．ｎｅｔ”、“東京都○○区△△１−２−３０１”がそれぞれ人名、Ｅメールアドレス、住所として合致する。従って、“顧客情報”を図３６の２行目の分類候補とする条件を満たしており、特徴要素検出手段は、“顧客情報”を図３６の２行目の分類候補としてよい。

このような表の１つの行を１つの部分領域として相関性評価を行なうこともできる。すなわち、図１２のＨＴＭＬ文のうち１つのＴＲ要素（ある＜ＴＲ＞タグから次の＜／ＴＲ＞タグまでの領域）を１つの部分領域とすると、例えば２番目のＴＲ要素について、相関性評価手段６は、機密情報カテゴリ“顧客情報”のカテゴリ領域が“山本洋”から“東京都○○区△△１−２−３０１”までであると判定し、そのカテゴリ領域サイズが４であると判定する。このカテゴリ領域内の特徴要素数は３である。よって、相関性評価手段６は、カテゴリ密度を３／４＝０．７５と計算する。また、“名刺情報”に対応するカテゴリ領域も、“山本洋”から“東京都○○区△△１−２−３０１”までであり、“顧客情報”のカテゴリ領域と完全に重複する。従って、“顧客情報”のカテゴリ領域におけるカテゴリ純度を、１−４／４＝０と計算する。また、２番目のＴＲ要素からなる部分領域の領域サイズは、全てのＴＤ要素（第１列目の“１”から第６列目の“３”まで）の総数６である。従って、相関性評価手段６は、カテゴリ占度を４／６＝０．６７と計算する。以上のように計算したカテゴリ密度、カテゴリ純度、カテゴリ占度を用いて、２番目のＴＲ要素からなる部分領域の機密情報カテゴリとして“顧客情報”を採用するか否かを判定すればよい。

このように、表と認識できた場合は行や列単位で特徴定義辞書との照合および相関性評価を行なうことで、機密情報カテゴリの候補判定が可能となる。

図３６のアンケートデータの例において、従来技術のように行や列単位での判定を行わず、また要素間の相関性も考慮しないとすると、表全体で氏名、ｅメールアドレス、住所がそれぞれ３つ存在すると判定される。仮に、不完全な住所を除外できると仮定した場合、住所は２つ存在すると判定されるが、氏名とｅメールアドレスはそれぞれ３つ存在するので、３件分の個人情報として認識されてしまう。本発明では、特徴要素検出手段３の処理により、ｅメールアドレスと年齢のみが記述されたＮｏ．３の行、およびｅメールアドレスが記述されず、住所も不完全な記述となっているＮｏ．４の行に対しては、分類候補カテゴリの指定を行わないようにすることができる。その結果、個人情報（連絡先情報）はＮｏ．１とＮｏ．２の２件であると判定することができる。また、相関性評価手段６によって、Ｎｏ．１とＮｏ．２の各行に対して相関性評価処理を実行して、この２つの行における分類候補を絞り込むことができる。

特徴要素検出手段３および相関性評価手段６による処理を行なった後の、機密情報分類手段７による機密情報分類処理（図４に示すステップＳ１５１１）について説明する。領域分割手段２によって分割された文書内の各部分領域について、特徴要素抽出手段３および相関性評価手段６が分類すべき機密情報カテゴリを決定すると、機密情報分類手段７は、それら各部分領域ごとの機密情報カテゴリと各機密情報カテゴリに付与された重要度の値を比較する。重要度は、各機密情報カテゴリ（ｃａｔｅｇｏｒｙ要素）毎に、ｉｍｐｏｒｔａｎｃｅ属性として定められている。機密情報分類手段７は、各部分領域の機密情報カテゴリの重要度のうち最大の重要度を、文書の重要度（文書スコア）として定める。また、機密情報分類手段７は、各部分領域の機密情報カテゴリをそれぞれ、文書の機密情報カテゴリとして定める。

例えば、ヘッダ領域およびフッタ領域に共通の特徴定義辞書に、図３および図１０それぞれに示す機密情報カテゴリが共に定義されていたとする。そして、文書参照手段１が図２に例示する文書を読み込んだとする。この場合、相関性評価処理において、ヘッダ領域３１の機密文書カテゴリとして機密情報カテゴリ“社外秘”が採用される。同様に、フッタ領域３４の機密文書カテゴリとしても機密情報カテゴリ“社外秘”が採用される。機密情報カテゴリ“社外秘”の重要度は、０．７である（図１０参照。）。また、本文領域の特徴定義辞書に図３に示す機密情報カテゴリが定義されていたとする。この場合、相関性評価処理において、図表領域３５および図表領域３７がそれぞれ機密情報カテゴリ“名刺情報”に分類される。機密情報カテゴリ“名刺情報”の重要度は０．５である（図３参照）。このような結果から、機密情報分類手段７は、図２の文書全体としては機密情報カテゴリ“社外秘”および“名刺情報”に分類され、その重要度は各部分領域における重要度の最大値として０．７とする。

また、機密情報分類手段７は、１つの文書に対して同時に割り当てられてはならない機密情報カテゴリの組を予め記憶し、各部分領域の機密情報カテゴリをそれぞれ文書の機密情報カテゴリとして定めたときに、上記の組に該当する機密情報カテゴリが存在した場合には、予め定めた所定の機密情報カテゴリを優先させるようにしてもよい。例えば、同一文書内の異なる部分領域で“社外秘”と“部外秘”それぞれに分類されたとする。そして、機密情報分類手段７が、「１つの文書が同時に“社外秘”と“部外秘”それぞれに分類されてはならず、“社外秘”と“部外秘”それぞれに分類されることとなったときには“部外秘”への分類を優先させる」という情報を記憶していたとする。この場合、機密情報分類手段７は、予め記憶していた情報に基づいて、より重要度の高い“部外秘”を優先させ、文書を“部外秘”として分類する。このように、このように、機密情報分類手段７は、相互に排他的な機密情報カテゴリを検出し、そのうちのいずれかを選択する処理を行ってもよい。

また、１つの文書が同時に分類されることがない機密情報カテゴリをグループとして定義しておき、機密情報分類手段７は、個々のグループそれぞれにおいて、文書をグループ内の１つの機密情報カテゴリだけに分類してもよい。機密情報分類手段７は、各部分領域の機密情報カテゴリをそれぞれ文書の機密情報カテゴリとして定めたときに、同一グループに属する複数種類の機密情報カテゴリが存在した場合には、文書が１つのグループにつき１つの機密情報カテゴリのみに分類されるようにする。このとき、１つのグループ内で、最も重要度（ｉｍｐｏｒｔａｎｃｅ属性の値）が高い機密情報カテゴリを優先させればよい。例えば、「社内文書」というグループを“社外秘”および“部外秘”という機密情報カテゴリで定義し、また、「個人情報」というグループを“名刺情報”、“従業員情報”、“顧客情報”という機密情報カテゴリで定義しているとする。この場合、１つの文書が、例えば“部外秘”および“顧客情報”に分類されることはあっても、“部外秘”および“社外秘”に分類されることはない。また、機密情報カテゴリがどのグループに属するかは、例えば、図１０に例示する特徴定義辞書において、「<category name”社外秘” group=”社内文書” importance=”0.7”>」等のように記載して定めればよい。すなわち、グループを、ｃａｔｅｇｏｒｙ要素のｇｒｏｕｐ属性として記載すればよい。

さらに、機密情報分類手段７は、文書が属する全ての機密情報カテゴリと、そのカテゴリに分類される根拠となった特徴要素、およびその文書の重要度を示す文書スコアをそれぞれ一定の形式で列挙する。図１３は、機密情報分類結果の例を示す説明図である。文書スコアの算出方法は、例えば当該文書が属する全ての機密情報カテゴリについて、特徴定義辞書の中で設定されたカテゴリ重要度（図３のｉｍｐｏｒｔａｎｃｅの値）のうち最大のものを文書スコアの値とする。また、図１３に示す“ｓｃｏｐｅ”の値１，４，７は、それぞれヘッダ領域、フッタ領域、本文領域を表している。また、例えば、機密情報分類手段７（他の手段であってもよい）が、文書データの複雑さ、解読の困難さを示すエントロピー値を計算し、そのエントロピー値も機密情報分類結果に含めてもよい。エントロピー値の計算方法については後述する。結果出力手段８は、機密情報分類手段によって生成された図１３に示す結果出力手段８によって表示される機密情報分類結果の例を図１４に示す。図１４に示すように、結果出力手段８は、文書が分類されたカテゴリとともに、そのカテゴリの特徴要素として、特徴要素検出手段が検出した特徴要素を出力する。

特許文献３等に記載された従来技術では領域分割手段２、領域別辞書参照手段４、相関性評価手段６に相当する機能を備えていない。そのため、図２のような文書では「取扱注意」など特定の位置に記載することで文書の機密性を示す語の判断や、プライベートな個人情報（連絡先情報）と公開された住所等を含む名刺情報との区別ができず、辞書参照頻度も高くなるため効率も悪い。

一方、本発明では、領域分割手段２が文書を部分領域に分割し、各部分領域の特性に応じた特徴定義辞書を予め特徴定義辞書格納手段５に記憶させておく。そして、特徴要素検出手段３が、部分領域毎に特徴要素を特定して、その部分領域の機密情報カテゴリとなる候補を決定する。従って、候補を効率的に決定することができ、処理時間を迅速化することができる。また、相関性評価手段６が、特徴要素の配置に依存して決定されるカテゴリ密度、カテゴリ純度、カテゴリ占度等を用いて、部分領域が分類されるべき機密情報カテゴリを定める。従って、特徴要素の配置状態に応じて適切に、機密情報であるか否か、あるいは、どの機密情報カテゴリに分類すべきかを判定することができる。

上記の実施の形態では、特許請求の範囲に記載のカテゴリ絞り込み手段は、相関性評価手段６によって実現される。

次に、第１の実施の形態の変形例について説明する。上記の説明では、相関性評価手段６がステップＳ３１０１〜ステップＳ３１１４の処理を行う場合を示した。相関性評価手段６が先に各部分領域のカテゴリ密度、カテゴリ純度、カテゴリ占度を計算し、各種閾値との比較を機密情報分類手段７が実行してもよい。以下、この場合における相関性評価手段６および機密情報分類手段７の動作について説明する。なお、以下に示す変形例では、特許請求の範囲に記載のカテゴリ絞り込み手段は、機密情報分類手段７によって実現される。

図１５は、第１の実施の形態の変形例における相関性評価手段６の動作を示すフローチャートである。本変形例では、相関性評価処理（図４に示すステップＳ１５０９）として、以下の動作を行う。まず、相関性評価手段６は、分類候補として指定された機密情報カテゴリのうちの１つを選択する（ステップＳ３４０１）。そして、選択した機密情報カテゴリに属する特徴要素のうち、部分領域内での最初と最後の特徴要素からカテゴリ領域を同定する（ステップＳ３４０２）。ステップＳ３４０１，Ｓ３４０２は、ステップＳ３１０１，Ｓ３１０２（図６参照）と同様の処理である。続いて、相関性評価手段６は、ステップＳ３４０２で定めたカテゴリ領域におけるカテゴリ密度、カテゴリ純度、およびカテゴリ占度をそれぞれ計算する（ステップＳ３４０３，Ｓ３４０４，Ｓ３４０５）。カテゴリ密度、カテゴリ純度、およびカテゴリ占度の計算処理は、並列に行っても、順番に行ってもよい。なお、相関性評価手段６は、機密情報カテゴリ、カテゴリ領域、カテゴリ密度、カテゴリ純度、およびカテゴリ占度を対応付けて、記憶装置（図１において図示せず。）等に記憶させておく。続いて、相関性評価手段６は、ステップＳ３４０２〜Ｓ３４０５の処理を行っていない分類候補があるか否かを判定する（ステップＳ３４０６）。そのような分類候補があれば、ステップＳ３４０１に移行し、ステップＳ３４０１以降の動作を繰り返す。そのような分類候補がなければ、相関性評価処理を終了する。

図１６は、本変形例における機密情報分類手段７の動作を示すフローチャートである。本変形例では、機密情報分類処理（図４に示すステップＳ１５１１）として、以下の動作を行う。機密情報分類手段７は、文書中の未評価の部分領域（後述のステップＳ３５０２〜Ｓ３５１０の処理が行われていない部分領域）を１つ選択する（ステップＳ３５０１）。機密情報分類手段７は、選択した部分領域において分類候補とされた機密情報カテゴリの中から１つの機密情報カテゴリを選択する（ステップＳ３５０２）。そして、機密情報分類手段７は、選択した機密情報カテゴリに対応するカテゴリ密度が密度閾値以上であるか否かを判定する（ステップＳ３５０３）。カテゴリ密度が密度閾値未満であれば、機密情報分類手段７は、評価対象としている部分領域の分類候補から、ステップＳ３５０２で選択した機密情報カテゴリを除外する（ステップＳ３５０７）。

カテゴリ密度が密度閾値以上であるならば、機密情報分類手段７は、選択した機密情報カテゴリに対応するカテゴリ純度が純度閾値以上であるか否かを判定する（ステップＳ３５０４）。カテゴリ純度が純度閾値未満であれば、機密情報分類手段７は、ステップＳ３５０２で選択した機密情報カテゴリのカテゴリ領域と重複する他のカテゴリ領域を特定する。そして、選択した機密情報カテゴリのカテゴリ領域のカテゴリ密度が、そのカテゴリ領域と重複する他のカテゴリ領域のカテゴリ密度より高いか否かを判定する（ステップＳ３５０５）。ステップＳ３５０５で低いと判定された場合（ステップＳ３５０５におけるＮＯ）、ステップＳ３５０７に移行する。ステップＳ３５０５で高いと判定された場合（ステップＳ３５０５におけるＹＥＳ）、ステップＳ３５０６に移行する。

ステップＳ３５０６において、機密情報分類手段７は、選択した機密情報カテゴリに対応するカテゴリ占度が占度閾値以上であるか否かを判定する。カテゴリ占度が占度閾値未満であれば、ステップＳ３５０７に移行する。カテゴリ占度が占度閾値以上であれば、ステップＳ３５０２で選択した機密情報カテゴリを部分領域の機密情報カテゴリとして採用する（ステップＳ３５０８）。

ステップＳ３５０７の後およびステップＳ３５０８の後に、機密情報分類手段７は、選択した部分領域において分類候補とされた機密情報カテゴリのうち、ステップＳ３５０２以降の処理を行っていない機密情報カテゴリの有無を判定する（ステップＳ３５０９）。そのような機密情報カテゴリがあれば、ステップＳ３５０２に移行し、ステップＳ３５０２以降の処理を繰り返す。そのような機密情報カテゴリがなければ、機密情報分類手段７は、採用された機密情報カテゴリの重要度のうち、最大値を選択した部分領域の重要度とする（ステップＳ３５１０）。続いて、機密情報分類手段７は、未評価の部分領域の有無を判定し（ステップＳ３５１１）、未評価の部分領域があれば、ステップＳ３５０１以降の処理を繰り返す。未評価の部分領域がなければ、機密情報分類手段７は、各部分領域の重要度のうち、最大値を文書全体の重要度（文書スコア）とする（ステップＳ３５１２）。

実施の形態２．
図１７は、本発明による機密文書検索システムの第２の実施の形態を示すブロック図である。第１の実施の形態と同様の構成部については、図１と同一の符号を付し、説明を省略する。本実施の形態における機密文書検索システムは、第１の実施の形態における各構成部の他に、検索範囲指定手段９と、特徴定義辞書拡張手段１０と、リスク評価手段１１とを備える。また、本実施の形態における結果出力手段１２は、リスク評価手段１１の処理結果を出力する。

検索範囲指定手段９は、オペレータの操作に応じて、文書格納手段１３に格納されている文書集合の参照範囲を詳細に指定する。文書参照範囲１は、検索範囲指定手段９によって指定された範囲の文書を読み込む。

検索範囲指定手段９は、文書の参照先を、例えばＵＲＬまたはファイルパス名で指定するようにユーザに促すユーザインタフェース（以下、ＵＩと記す。）を表示する。図１８は、検索範囲指定手段９が表示するＵＩの例を示す説明図である。ＵＩは、図１８に示すように、ＵＲＬを直接入力する欄を備えていてもよい。また、選択候補となるＵＲＬやファイルパス名を列挙し、列挙したＵＲＬ等を参照先として有効とする（参照先として指定する）か否かを選択する選択欄を備えていてもよい。ＵＩにおいて、参照先として１つの文書ファイルのＵＲＬ等が入力された場合、検索範囲指定手段９は、そのＵＲＬ等を文書参照手段１に通知し、文書参照手段は、そのＵＲＬ等によって特定される文書ファイルを参照する。また、参照先としてディレクトリやドメインが入力された場合、検索範囲指定手段９は、そのディレクトリやドメインを文書参照手段１に通知する。この場合、文書参照手段１は、通知されたディレクトリの下層またはドメインの下層に格納された全ての文書ファイルを参照する。文書格納手段１３が階層構造を持つディレクトリに文書を格納している場合、指定したディレクトリから何階層下までの文書を参照するのかを指定する階層数指定欄（図示せず。）をＵＩ内に設けてもよい。この場合、検索範囲指定手段９は、階層数指定欄に入力された階層数も文書参照手段１に通知し、文書参照手段１は、指定したディレクトリから指定された階層分下がったディレクトリまでの文書を参照する。

第２の実施の形態では、検索範囲指定手段９を備えているので、機密文書であるか否か、あるいはどのような種類の機密文書であるのかを調べる対象となる文書をオペレータが指定できる。

特徴定義辞書拡張手段１０は、オペレータの操作に応じて、特徴定義辞書格納手段５内の特徴定義辞書の内容を追加する処理を行う。図１９および図２０は、特徴定義辞書拡張手段１０が表示するＵＩの例である。図１９に例示するＵＩは、カテゴリ名入力欄と重要度入力欄とを備える。特徴定義辞書拡張手段１０は、図１９に例示するＵＩを表示して、カテゴリ名および重要度の入力をオペレータに促す。カテゴリ名および重要度が入力されると、特徴定義辞書拡張手段１０は、図２０に例示するＵＩを表示する。図２０に例示するＵＩは、特徴定義辞書におけるｗｏｒｄ要素やａｔｔｒｉｂ要素の入力をオペレータに促す。具体的は、ｗｏｒｄ要素とａｔｔｒｉｂ要素のいずれを追加するのかを指定する種類指定欄、ｃｌａｓｓ属性（“Ｍ”，“Ａ”，“Ｏ”）を指定するクラス指定欄、ｗｏｒｄ要素やａｔｔｒｉｂ要素の値となる文字列を入力する検索テキスト入力欄を備える。また、本例では、特徴定義辞書拡張手段１０は、既に入力されたカテゴリ名と重要度（本例では「個人特性」および「０．７」）を図２０に示すＵＩの上部に表示する。

特徴定義辞書拡張手段１０は、図１９に例示するＵＩにおいて入力されたカテゴリ名および重要度をそれぞれｎａｍｅ属性、ｉｍｐｏｒｔａｎｃｅ属性とするｃａｔｅｇｏｒｙ要素を特徴定義辞書格納手段５に追加記憶させる。また、図２０に示すＵＩにおいて、ｗｏｒｄ要素の追加を指定され、クラスおよび検索テキストが入力されると、特徴定義辞書拡張手段１０は、入力されたクラスをｃｌａｓｓ属性とし、検索テキストの文字列を値として持つｗｏｒｄ要素を、追加したｃａｔｅｇｏｒｙ要素内に追加する。ａｔｔｒｉｂ要素の追加が指定された場合も同様である。

なお、特徴定義辞書拡張手段１０は、作成するｃａｔｅｇｏｒｙ要素がどの部分領域に対応するのかを、オペレータから入力され、その部分領域に対応するｃａｔｅｇｏｒｙ要素として、特徴定義辞書格納手段５に記憶させてもよい。

第２の実施の形態では、特徴定義辞書拡張手段１０を備えているので、機密文書検索システムを導入する組織特有の機密情報カテゴリを定義することができる。換言すれば、機密文書検索システムを導入する組織が、所望の特徴定義辞書を作成することができる。

リスク評価手段１１は、ディレクトリなどの特定の場所に存在する機密文書からその場所全体についての情報漏洩リスクを評価する処理を行う。リスク評価手段１１は、個々の機密文書または１つ以上の機密文書を含むディレクトリやドメイン単位で情報漏洩リスクを評価する。評価態様は、例えば、リスク値の算出、リスク値に基づく文書の順序付け、色分けなどによる高リスクから低リスクまでの分類表示等の態様である。リスク評価手段１１は、リスク値を算出するときに、例えば、各機密文書の文書スコアと同機密文書の文書脆弱性（後述）との値の積を文書リスク値として計算する。そして、リスク評価手段１１は、同一ディレクトリや同一ドメイン内での文書リスク値の最大値をそのディレクトリやドメインのリスク値とする。

ここで文書脆弱性は、ある文書データが予めその文書データの形式や内容について知らないユーザやプログラムにとってどの程度解読し易いかを示す指標である。文書脆弱性の値は、例えば図２１に示したような表および計算式によって与えることができる。リスク評価手段１１は、文書脆弱性の値の算出対象の文書ファイルがプレーンテキストであったり、拡張子が”HTML”，”doc “，”xls “，”ppt ”，”pdf ”であるファイルであるときには、図２１に示す表に従ってファイルタイプ判定値と解析可否判定値を定め、その積として文書脆弱性の値を計算する。解析可否判定値は、文書に対する形態素解析が成功するか否かによって決定される値である。「ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ（商標）」で作成されたＤＯＣ形式の日本語文章ファイルを例にして文書脆弱性の値を計算する例を示す。リスク評価手段１１は、文書脆弱性算出対象のファイルがＤＯＣ形式のファイルであるので、ファイルタイプ判定値を０．８に決定する。また、このファイルは日本語文章ファイルであり、形態素解析を行えるので、解析可否判定値を１．０に決定する。よって、リスク評価手段１１は、このファイルの脆弱性の値を０．８×１．０＝０．８と計算する。この値と文書スコアとの積が文書のリスク値となる。このファイルの文書スコアが０．７であったとすると、リスク評価手段１１は、この日本語文書ファイルの文書リスク値を０．７×０．８＝０．５６と計算する。

また、上記の各種ファイル以外のバイナリデータファイルについては、リスク評価手段１１は、１からその文書（ファイル）のエントロピー値を減算した値と、０．２のうち、小さい方の値を文書脆弱性の値と決定する。ここでは、暗号化されたファイル（暗号化された文書）を例に、文書脆弱性の値の算出例を示す。リスク評価手段１１は、文書脆弱性の値の算出対象の文書ファイルがバイナリデータファイルである場合、ファイルがバイナリデータファイルであることを判定する。暗号化されたファイルについては、ファイルの拡張子でなくファイル先頭部分のマジックナンバーに基づいて、「その他のバイナリデータ」に該当すると判定することができる。例えば、暗号化された文書ファイルのエントロピー値が０．９９３であったとする。この場合、１−０．９９３＝０．００７と、０．２とを比較すると０．００７の方が小さい。よって、リスク評価手段１１は、文書脆弱性の値を０．００７とする。なお、既に述べたように、エントロピー値は、文書データの複雑さ、解読の困難さを示す値である。

また、リスク評価手段１１は、エントロピー値（Ｈｃとする。）を以下の式によって計算すればよい。

エントロピー値は、０＜Ｈｃ≦１となる値として求められる。また、式１において、ｎは、ある１つのコンテンツ（文書）に含まれる互いに独立した要素ｅ_ｉの総数である。文書を構成するデータを同一の長さで分割した場合において、その長さに分割された個々の分割要素をｅ_ｉとする。例えば、文書がビット列で構成されているものとし、その文書を２ビットの長さで分割するとする。この場合、分割によって得られた個々の２ビットのデータがｅ_ｉとなる。また、「互いに独立した要素ｅ_ｉの総数」とは、ｅ_ｉの取りうる値の種類の数である。例えば、上記の２ビットデータを例にすると、ｅ_ｉの取りうる値は「００」、「０１」、「１０」、「１１」の４種類である。よって、「互いに独立した要素ｅ_ｉの総数」は「４」となる。

また、式１において、Ｐ（ｅ_ｉ）は、要素ｅ_ｉがコンテンツ（文書）内に出現する確率であり、要素ｅ_ｉの出現回数を、総サンプル数で除算した値として求めればよい。総サンプル数は、分割によって得られたｅ_ｉの数である。ただし、総サンプル数の最大値は、例えば１０００とする。

以上のように、例えばあるディレクトリ内で検出された全ての機密文書について文書リスク値を求め、その最大値をそのディレクトリのリスク値とすることができる。算出されたリスク値は、その対象となったディレクトリやドメイン、または文書ファイルの位置と、その中で最大の文書リスク値を示した機密文書のファイル名および機密情報カテゴリなどと共に、例えば図２２に示したような形式で結果出力手段１２が出力（例えば表示出力）する。図２２では、ディレクトリやＵＲＬ毎にリスク値を表示する表示態様を示している。図２２に示すように、ディレクトリ等における主要機密文書名や、その機密情報カテゴリ、機密文書数を表示してもよい。なお、図２２に示すレベルは、文書を厳重に保護、管理すべき度合いを段階的に示す値であり、レベルが高いほど、アクセス可能な者を制限する等の管理が必要になることを意味する。レベルは、例えば、機密情報カテゴリと対応付けて定めておいてもよい。あるいは、主要機密文書に含まれる「住所」等の特徴要素の数に応じてレベルを決定してもよい。また、図２２では、各ディレクトリやＵＲＬをリスク値が高い順に並べて表示している。このとき、リスク値に応じて各ディレクトリやＵＲＬを色分けして表示してもよい。例えば、リスク値が０．７以上のディレクトリを表す行は赤色、リスク値が０．４〜０．７のディレクトリを表す行は黄色、その他の行は白色で表示するなどのように色分けしてもよい。

なお、検索範囲指定手段９が、参照先の一部として１つの文書を指定した場合には、その文書の文書リスク値を結果出力手段１２が出力する。

以上の説明で用いたリスク値計算方法や出力形式は例示であり、ディレクトリやドメイン単位でのリスク値を算出可能な他の計算方法や異なる出力形式を用いてもよい。同様に、以上の説明で用いたＵＩも例示であり、ＵＩを他の表示態様で表示してもよい。

従来技術はリスク評価手段９を備えていないため、機密文書を含むディレクトリの単位で検出結果を得られず、同様の機密文書が多数蓄積されたディレクトリがある場合（アンケート調査結果のファイルを溜めておくディレクトリ等）には、ユーザは文書単位で長い機密情報のリストを見なければならない。それに対し、本発明では、リスク評価手段９を備えているので、機密文書の格納場所（ディレクトリやＵＲＬ等によって特定される格納場所）毎に、格納されている文書のリスク値をオペレータに伝えることができる。よって、オペレータは、効率の良い情報セキュリティ監査を行なうことができる。

第２の実施の形態では、第１の実施の形態に検索範囲指定手段９と、特徴定義辞書１０と、リスク評価手段１１とを追加した構成となっている。第１の実施の形態に、検索範囲指定手段９、特徴定義辞書１０、およびリスク評価手段１１のうちのいずれか１つまたは２つの手段を追加した構成であってもよい。

また、上記の実施形態では、検索範囲指定手段９が文書の格納場所を指定するＵＩを表示する場合を説明した。検索範囲指定手段９は、文書格納手段１３として用いられる装置における脆弱な文書格納場所を文書参照手段１に通知する装置であってもよい。例えば、文書格納手段１３として用いられる装置のセキュリティ状態を検査し、脆弱な文書格納場所を検知した場合に、その文書格納場所を文書参照手段１に通知するセキュリティ設定検証システムによって、検索範囲指定手段９を実現してもよい。また、文書格納手段１３において不正アクセスがあった文書格納場所（例えば、ディレクトリ等）の情報を記憶するデータベースを備え、データベースが記憶する情報に基づいて、不正アクセスがあった文書格納場所を文書参照手段１に通知する装置によって、検索範囲指定手段９を実現してもよい。この場合、脆弱と判定される文書格納場所や実際に不正アクセスされた文書格納場所に機密文書が格納されてしまっているか、機密文書が格納されてしまっているとすると、その機密文書カテゴリは何であるか、または、その文書格納場所のリスク値がいくつであるか等を調べることができる。また、検索範囲指定手段９は、脆弱と判定される文書格納場所や不正アクセスがあった文書格納場所以外の文書格納場所を文書参照手段１に通知してもよい。この場合、脆弱と判定される文書格納場所や不正アクセスがあった文書格納場所以外の文書格納場所に、機密文書が格納されているか否かなどを調べることができる。検索範囲指定手段９が通知した文書格納場所における文書の検索および分類結果により、文書格納手段１３として用いられる装置に適切なセキュリティポリシーが適用されているか否かを調べることができる。例えば、脆弱と判定される文書格納場所に文書格納場所に機密文書が格納されている場合や、脆弱と判定されなかった文書格納場所に機密文書が存在しない場合に、不適切な文書格納場所に機密文書を格納してしまったという可能性の他に、機密文書の格納場所自体は適切であるが文書格納手段１３として用いられる装置に不適切なセキュリティポリシーが適用されているという可能性を、管理者は調べることができる。

実施の形態３．
図２３は、本発明による機密文書検索システムの第３の実施の形態を示すブロック図である。第１の実施の形態と同様の構成部については、図１と同一の符号を付し、説明を省略する。本実施の形態における機密文書検索システムは、第１の実施の形態における各構成部の他に、ポリシー生成手段１４を備える。

ポリシー生成手段１４は、機器に適用されるセキュリティポリシーに記述される項目（例えば、ネットワークドメイン、ＩＰアドレス、またはユーザＩＤ）の集合を表す各グループと、機密情報カテゴリをそれぞれ列挙して、グループと機密情報カテゴリの選択を促すＵＩを表示する。そして、ＵＩに入力された情報を元に、オペレータに理解し易く記述されたセキュリティポリシーを作成する。そして、ポリシー生成手段１４は、そのセキュリティポリシーと、機密文書の機密文書カテゴリとを用いて、機器が解釈可能なセキュリティポリシーを作成する。

図２４は、ポリシー生成手段１４が表示するＵＩの例である。本実施の形態では、結果出力手段８は、ポリシー生成手段１４に、機密文書と判定された文書のファイル名およびその格納場所と、その文書の機密情報カテゴリを出力する。ポリシー生成手段１４は、結果出力手段８が出力した各機密情報カテゴリを、図２４に示すカテゴリ表示欄３３０１に表示し、オペレータに機密情報カテゴリの選択を促す。また、ポリシー生成手段１４は、ＵＩ内にグループの選択を促すための欄３３０２，３３０３を表示する。図２４では、各種ユーザのグループが選択される場合の例を示している。欄３３０２は、ユーザの部署（例えば「社内」、「部内」等）の一覧を表示する。欄３３０３は、ユーザの種類（例えば、「社員」、「課長以上」等）の一覧を表示する。欄３３０２および欄３３０３で部署および社員の種類が選択されことにより、ポリシー生成手段１４は、グループを特定する。例えば、欄３３０２で「社内」が選択され、欄３３０３で「課長以上」が選択されると、「社内の課長以上」というグループを特定する。

さらに、ポリシー生成手段１４は、カテゴリ表示欄３３０１で選択された機密文書カテゴリと、特定したグループとにより、セキュリティポリシーを作成する。例えば、カテゴリ表示欄３３０１で「従業員情報」という機密情報カテゴリが選択された場合、『「従業員情報」は、「社内の課長以上」からのみアクセスを許可する』等のセキュリティポリシーを生成する。「アクセスを許可する」としたが、「アクセスを禁止する」というセキュリティポリシーを生成してもよい。ポリシー生成手段１４は、ＵＩ内のポリシー表示欄３３０４に作成したセキュリティポリシーを表示する。ＵＩで選択された項目に基づいて作成されたセキュリティポリシーは、『「従業員情報」は、「社内の課長以上」からのみアクセスを許可する』等のように理解容易に記述されている。ＵＩで選択された項目に基づいて作成されたセキュリティポリシーを上位セキュリティポリシーと呼ぶことにする。セキュリティポリシーが適用される機器は、上位セキュリティポリシーの内容を直接解釈できるわけではない。

また、ポリシー生成手段１４は、ＵＩにおいて選択され得る各種グループと、機器が解釈可能なセキュリティポリシーに記述される項目であって各種グループに属する項目との対応関係を示す情報を記憶する記憶装置（図示せず。）を備える。例えば、機器が解釈可能なセキュリティポリシーにユーザＩＤが記述されるとする。この場合、ポリシー生成手段１４は、「社内の課長以上」、「社内の部長以上」等の各種グループと、そのグループに属するユーザのユーザＩＤとを対応付けた情報を記憶装置（図示せず。）に予め記憶する。この情報は、例えば、管理者によって予め用意される。ポリシー生成手段１４は、この情報を用いて、上位セキュリティポリシー内のグループをユーザＩＤ等に置き換え、また、上位セキュリティポリシー内の機密情報カテゴリをキーとして、文書のファイル名およびその格納場所を追加することにより、機器に直接解釈可能なセキュリティポリシーを生成する。

以下に、セキュリティポリシーの生成処理の具体例を示す。結果出力手段８が、「//host1/home/hogehoge/data/group/renraku.txt」を、機密文書と判定された文書のファイル名およびその格納場所として出力したとする。また、結果出力手段８は、その機密文書の機密文書カテゴリとして“従業員情報”を出力したとする。そして、ポリシー生成手段１４が、図２４に例示するＵＩで選択された項目に基づいて、『「従業員情報」は、「社内の課長以上」からのみアクセスを許可する』という上位セキュリティポリシーを作成したとする。「//host1/home/hogehoge/data/group/renraku.txt」は、従業員情報に分類されるので、ポリシー生成手段１４は、『「//host1/home/hogehoge/data/group/renraku.txt」は「従業員情報」であり、「社内の課長以上」からのみアクセスを許可する』という情報を生成する。さらに、ポリシー生成手段１４は、「社内の課長以上」というグループを具体的なユーザＩＤの集合に置き換える。そして、機器が解釈可能なセキュリティポリシーであって、そのユーザＩＤから「//host1/home/hogehoge/data/group/renraku.txt」にアクセスを許可する旨のセキュリティポリシーを生成する。

ユーザＩＤ（または、ネットワークドメイン、ＩＰアドレス）は、オペレータにとって読みにくいデータであるが、それらをグループ化した「社内の課長以上」等のグループは、オペレータにとって理解しやすい。ポリシー生成手段１４は、図２４に例示するＵＩにより、そのようなグループの指定を促して、オペレータにとって理解容易な上位セキュリティポリシーを生成する。そして、ポリシー生成手段１４は、上位セキュリティポリシーに記述されたグループを、機器が解釈可能なセキュリティポリシーにおいて必要となる具体的なユーザＩＤ（ネットワークドメイン、ＩＰアドレス等であってもよい。）に置き換え、セキュリティポリシーを生成する。従って、オペレータにユーザＩＤ等の読みにくいデータを意識させずに、機器が解釈可能なセキュリティポリシーを生成することができる。この結果、オペレータにとっては、セキュリティポリシーを効率的に生成することができる。また、ポリシー生成手段１４は、結果出力手段８が出力した各機密情報カテゴリを、図２４に例示するカテゴリ表示欄３３０１に列挙して表示する。従って、特徴定義辞書にはカテゴリとして記述されているが、文書格納手段１３に格納された文書のカテゴリに該当しないカテゴリについてはカテゴリ表示欄３３０１に表示されない。よって、そのような不要なカテゴリの選択をオペレータに促さずに済み、また、そのような不要なカテゴリに基づいて上位セキュリティポリシーを生成しなくて済む。

また、第１の実施の形態と同様に、文書が機密情報であるか否か、あるいは、機密文書をどの機密情報カテゴリに分類すべきかを、特徴要素の配置状態に応じて適切に判定することができる。従って、結果出力手段８は、機密文書でない文書を機密文書として出力することはなく、ポリシー生成手段９は、機密文書でない文書に対するアクセス制御を規定するセキュリティポリシーを生成することが防止される。この結果、セキュリティポリシーが過剰に生成されることが防止され、セキュリティポリシーの過剰生成に伴う業務効率の低下を防止することができる。

本発明による第１の実施の形態の実施例を以下に示す。図２５は、第１の実施の形態における機密文書検索システムの構成例、および機密文書検索システムに接続される装置の例を示すブロック図である。

第１の実施の形態における機密文書検索システムは、機密文書検索分類装置２２０１によって実現され、機密文書検索分類装置２２０１は、通信ネットワーク２２００を介して文書蓄積装置２２０２と接続されている。

文書蓄積装置２２０２は、機密情報の検索・分類対象となる文書を蓄積し、図１に示した文書格納手段１３を実現する。図２５では文書蓄積装置２２０２を１台のみ図示したが、機密文書検索分類装置２２０１は２台以上の文書蓄積装置２２０２に接続されていてもよい。すなわち、文書は２台以上の文書蓄積装置に分散して蓄積されていてもよい。

機密文書検索分類装置２２０１が備える装置について説明する。情報処理装置２２０４は、例えばＣＰＵであり、記憶装置２２０６が記憶するプログラム２２０７に従って処理を実行する。プログラム２２０７は、図１に示した文書参照手段１、領域分割手段２、特徴要素検出手段３、領域別辞書参照手段４、相関性評価手段６、機密情報分類手段７、および結果出力手段８の処理を実行させる機密文書検索プログラムである。従って、これらの各手段の動作は、情報処理装置２２０４によって実現される。

通信装置２２０３は、通信ネットワーク２２００とのインタフェースである。通信ネットワーク２２００を介して通信装置２２０３が文書蓄積装置２２０２にアクセスすることで、情報処理装置２２０４は、文書蓄積装置２２０２に蓄積されている文書を参照する。

データ記憶装置２２０５は、少なくとも特徴定義辞書を記憶し、図１に示した特徴定義辞書格納手段５を実現する。

入力装置２２０８は、例えばキーボードやマウスなどの情報入力装置であり、情報処理装置２２０４に対して処理の実行や停止、処理結果の表示を指示する。情報処理装置２２０４は、処理結果を表示装置２２０９に表示出力させる。また、機密情報検索分類装置２２０１がプリンタ（図示せず。）を備え、情報処理装置２２０４は、プリンタによって、処理結果をプリント用紙に出力してもよい。

本発明による第２の実施の形態の実施例を以下に示す。図２６は、第２の実施の形態における機密文書検索システムの構成例、および機密文書検索システムに接続される装置の例を示すブロック図である。

第２の実施の形態における機密文書検索システムは、例えば図２６に示すように、機密文書検索分類装置２２０１ａと情報リスク評価装置２３０１を備える。機密文書検索分類装置２２０１ａおよび情報リスク評価装置２３０１は、共に通信ネットワーク２２００を介して相互に接続され、また文書蓄積装置２２０２とも接続されている。なお、図２５に示す装置と同様の装置については、図２５と同一の符号を付し、説明を省略する。

図２６に示す機密文書検索分類装置２２０１ａは、図２５の機密文書検索分類装置２２０１と比較すると、表示装置２２０９を備えていない。ただし、図２６は、具体的構成の一例を示しているにすぎず、機密文書検索分類装置２２０１ａが表示装置を備えていてもよい。特に、図１８から図１９に例示したＵＩを表示する場合には、機密文書検索分類装置２２０１ａは、表示装置を備える。

図２６の機密文書検索システムでは、機密文書検索分類装置２２０１ａに加えて情報リスク評価装置２３０１をさらに備えている。情報リスク評価装置２３０１は、機密文書検索分類装置２２０１ａによって処理された機密情報の検索・分類結果を、通信ネットワーク２２００を介して受信し、リスク評価処理を行なう。

情報リスク評価装置２３０１が備える装置について説明する。情報処理装置２３０４は、例えばＣＰＵであり、記憶装置２３０６が記憶するプログラム２３０７に従って処理を実行する。プログラム２３０７は、図１７に示したリスク評価手段１１および結果出力手段１２の処理を実行させるプログラムである。従って、これらの各手段の動作は、情報処理装置２２０４によって実現される。

通信装置２３０３は、通信ネットワーク２２００とのインタフェースである。通信装置２３０３は、通信ネットワーク２２００を介して通信装置２２０３から情報処理装置２２０４による機密文書の検索・分類結果を受信し、情報処理装置２２０４に渡す。

データ記憶装置２２０５は、少なくとも情報処理装置２２０４が機密文書検索分類装置２２０１ａから受信した機密文書の検索・分類結果を一時的に記憶する。情報処理装置２３０４は、リスク評価処理の結果（例えば、算出したリスク値等）を表示装置２３０２に表示出力させる。また、情報リスク評価装置２３０１がプリンタ（図示せず。）を備え、情報処理装置２３０４は、プリンタによって、処理結果をプリント用紙に出力してもよい。

なお、図２６では、１台の情報リスク評価装置２３０１に対して１台の機密文書検索分類装置２２０１ａが接続される場合を示しているが、１台の情報リスク評価装置２３０１に対して複数の機密文書検索分類装置２２０１ａが接続されていてもよい。

以下の実施例では、機密文書検索システムを用いたサービス形態に着目して説明する。図２７は、機密文書検索システムを用いた情報セキュリティ監査サービスの一例を実現する構成例を示すブロック図である。情報セキュリティ監査サービスを提供する監査実施者は、自らの監査実施者環境２４０１に機密文書検索システム２４０４を設置する。情報セキュリティ監査サービスを受ける監査依頼者は、監査依頼者環境２４０２に監査対象システム２４０３を設置する。機密文書検索システム２４０４は、図２５に示す機密情報検索分類装置２２０１に相当する。また、監査対象システム２４０３は、図２５に示す文書蓄積装置２２０２を含んでいる。監査依頼者は、監査対象システム２４０３についての情報セキュリティ監査を監査実施者に依頼するものとする。

監査対象システム２４０３は、文書情報（監査対象システム内に記憶された文書）２４０６を、監査実施者環境内の機密情報検索システム２４０４に送る。文書情報２４０４は、１つ以上の文書の集合であるものとする。機密文書検索システム２４０４は、受け取った文書情報２４０６を参照し、その文書情報２４０６の中から機密文書に該当する文書を判別し、判別された機密文書をいずれかの機密情報カテゴリに分類する。その後、その機密文書の検索・分類結果２４０７を監査依頼者環境２４０２に送る。機密文書検索システム２４０４は、検索・分類結果２４０７として、例えば、図１４のように表される情報を送る。また、例えば、図２８に示すように、機密情報アドレス（機密文書の格納場所およびファイル名）、機密文書カテゴリ、機密文書に含まれる特定の情報（例えば、個人情報）の数等を示す情報を、検索・分類結果２４０７として送ってもよい。

このようなサービス形態では、監査依頼者は自らの監査依頼者環境２４０２内に機密文書検索システム２４０４を設置することなく、監査対象システム内に存在する機密文書とその機密情報カテゴリを洗い出すことができる。

図２９は、機密文書検索システムを用いた情報セキュリティ監査サービスの一例を実現する構成例を示すブロック図である。監査実施者は、機密文書検索システム２４０４に加えてセキュリティ設定検証システム２４０５を自らの監査実施者環境２４０１に設置し、監査依頼者環境２４０２内の監査対象システム２４０３の情報セキュリティの設定を検証するサービスを提供する。図２９に示すセキュリティ検証システム２４０５はプログラムに従って動作するコンピュータであり、ポリシ生成手段１４の動作を実現する。さらに、セキュリティ検証システム２４０５は、監査対象システムにおける各種セキュリティの設定状態と、生成したセキュリティポリシーとを比較し、そのセキュリティの設定状態がセキュリティポリシーに従っているか、逆に生成したセキュリティポリシーが情報の活用を過剰に制限したり、制限が不足して一部の機密情報が保護されなくなっていないか等を検証する。

図２９に示す例では、機密文書検索システム２４０４が、監査対象システム２４０３の文書情報２４０６を参照し、機密文書の検索・分類結果２４０７を生成する。そして、機密文書検索システム２４０４は、検索・分類結果２４０７（例えば、図１４や図２８に例示する情報）をセキュリティ設定検証システム２４０５に送る。また、セキュリティ設定検証システム２４０５は、図２４に例示するＵＩを表示して、機密情報カテゴリや、ユーザ等のグループの選択をオペレータに促す。セキュリティ設定検証システム２４０５は、ＵＩ上での選択結果に基づいて上位セキュリティポリシー（図２４に示すポリシー表示欄３３０４参照。）を作成し、上位セキュリティポリシーと検索・分類結果２４０７とに基づいてセキュリティポリシーを生成する。図３０は、上位セキュリティポリシーと検索・分類結果２４０７とに基づいて生成されたセキュリティポリシーの例を示す説明図である。図３０では、平易にするため、セキュリティポリシーの内容を自然言語を用いて示している。なお、図３０に示した“Ｘ，Ｙ，Ｚ”や“Ｐ，Ｑ，Ｒ”等のユーザＩＤは、上位セキュリティポリシーに記述されている「社内」や「部内」等のグループに対応するユーザＩＤである。機密文書検索システム２４０４は、生成したセキュリティポリシーを出力して、管理者に確認を促す。そして、管理者の操作に応じて、生成したセキュリティポリシーを修正してもよい。

その後、セキュリティ設定検証システム２４０５は、監査対象システムのセキュリティに関する設定情報２４０８を参照し、生成したセキュリティポリシーと照合して各機密文書がセキュリティポリシーで規定された通りのアクセス制限を実現しているかどうかを検証する。

また、セキュリティ設定検証システム２４０５は、生成したセキュリティポリシーと、そのセキュリティポリシーの生成以前に規定されていた既存のセキュリティポリシーとを比較してもよい。

以上のような検証を行なった後、セキュリティ設定検証システム２４０５は、検証結果２４０９を監査依頼者環境２４０２に送る。このようなサービス形態では、、監査依頼者は、監査対象システム２４０３内に格納された機密文書洗い出しや、機密文書に関するセキュリティポリシーの設定や検証を自ら行わなくても、セキュリティポリシーに関する検証結果を得ることができる。

図３１は、セキュリティ設定検証システムによるセキュリティの検証結果を用いて機密文書検索システムによる機密文書の検索・分類を行う場合の構成例を示すブロック図である。監査実施者環境２４０１に設置されたセキュリティ設定検証システム２４０５は、監査依頼者環境２４０２内の監査対象システム２４０３におけるセキュリティの設定情報２４０８を参照する。そして、セキュリティ設定検証システム２４０５は、予め規定されたセキュリティポリシーに基づいてセキュリティ設定の検証を行なう。セキュリティ設定検証システム２４０５は、その検証の検証結果２４０９を機密文書検索システム２４０４に送る。具体的には、検証によって明らかになった脆弱な文書格納場所の情報を検証結果２４０４として送る。

機密文書検索システム２４０４は、受け取った検証結果２４０９と監査対象システム２４０３内の文書情報２４０６をそれぞれ参照し、セキュリティ設定に問題のある場所（ディレクトリやファイル）について機密文書の検索と分類を行う。そして、セキュリティ設定に不備のある場所に機密文書があるか否か、機密文書があった場合にはどのような種類の機密文書かを検索・分類結果２４０７として監査依頼者環境に送る。

本実施例におけるセキュリティ設定検証システム２４０５は、不正アクセスがあった文書格納場所（例えば、ディレクトリ等）の情報を記憶するデータベースを備え、そのデータベースが記憶する情報を、検証結果２４１０の代わりに機密文書検索システム２４０４に送ってもよい。また、セキュリティ設定検証システムは、脆弱な文書格納場所や不正アクセスがあった文書格納場所以外の文書格納場所を機密文書検索システム２４０４におくって、その文書格納場所に格納された文書に対する検索・分類処理を実行させてもよい。

図３１に示す構成により、監査実施者は、セキュリティ設定検証システム２４０５によるセキュリティの検証結果を用いて機密文書検索システム２４０４による機密文書の検索・分類を効率よく行なうこともできる。また、監査依頼者は、監査対象システム２４０３にセキュリティ設定上の問題があるか否か、問題が場合にはその問題箇所に機密情報漏洩の危険がある機密文書があるか否か、さらにその機密文書はどのような種類の機密文書か、を監査実施者への委託作業によって知ることができる。

また、監査依頼者は、脆弱と判定される文書格納場所に文書格納場所に機密文書が格納されている場合や、脆弱と判定されなかった文書格納場所に機密文書が存在しない場合に、不適切な文書格納場所に機密文書を格納してしまったという可能性の他に、機密文書の格納場所自体は適切であるが監査対象システム２４０３に不適切なセキュリティポリシーが適用されているという可能性を調べることができる。

本実施例におけるセキュリティ設定検証システム２４０５は、文書が漏洩する可能性のある文書格納場所または過去に不正にアクセスされたことがある文書格納場所を指定する検索範囲指定手段に相当する。

機密文書検索システムとセキュリティ設定検証システムは必ずしも同一の監査実施者環境に設置されている必要はない。本実施例６および後述の実施例７，８では、機密文書検索システムとセキュリティ設定検証システムとが同一の監査実施者環境内に設置されない場合を示す。図３２は、このような場合の構成例を示すブロック図である。図３２に示す機密情報検索システム２４０４、セキュリティ設定検証システム２４０５、および監査対象システム２４０３の動作は、実施例４（図２９参照。）と同様である。ただし、機密情報検索システム２４０４は、第１の監査実施者環境２４１０に設置され、セキュリティ設定検証システム２４０５は、第２の監査実施者環境２４１１に設置される。そして、機密情報検索システム２４０４とセキュリティ設定検証システム２４０５は、同一の監査実施者または互いに異なる監査実施者によって運用される。機密情報検索システム２４０４とセキュリティ設定検証システム２４０５がそれぞれ異なる監査実施者によって運用される場合、以下の効果が得られる。すなわち、監査依頼者は、自らの判断で機密文書検索の実施者とセキュリティ設定検証の実施者を個別に選択することができる。また、各監査実施者も、機密文書検索システムとセキュリティ設定検証システムのいずれか一方のみを運用し、他方の運用を他の監査実施者に任せることで、初期投資や運用コストを抑え、得意な方のサービスのみを提供することができる。

図３３は、機密文書検索システムとセキュリティ設定検証システムとが同一の監査実施者環境内に設置されない場合の他の例を示すブロック図である。図３３に示す機密情報検索システム２４０４、セキュリティ設定検証システム２４０５、および監査対象システム２４０３の動作も、実施例４（図２９参照。）と同様である。本例では、セキュリティ設定検証システムが監査依頼者環境２４０２に設置され、監査依頼者が監査対象システム２４０３とセキュリティ設定検証システム２４０５を運用する場合を示している。このような構成により、監査依頼者にとって、監査対象システム２４０３内のセキュリティに関する設定情報２４０８を監査実施者に開示する必要がなくなり、監査実施者側からセキュリティ設定に関する情報が漏洩したり不正利用される可能性を回避できるという効果が得られる。

図３４は、機密文書検索システムとセキュリティ設定検証システムとが同一の監査実施者環境内に設置されない場合の他の例を示すブロック図である。図３４に示す機密情報検索システム２４０４、セキュリティ設定検証システム２４０５、および監査対象システム２４０３の動作も、実施例４（図２９参照。）と同様である。本例では、機密情報検索システム２４０４が監査依頼者環境２４０２に設置され、監査依頼者が監査対象システム２４０３と機密情報検索システム２４０４を運用する場合を示している。このような構成により、監査依頼者にとって、監査対象システム２４０３内の文書情報を監査実施者に開示する必要が無くなり、監査実施者側から機密文書が漏洩したり不正利用される可能性を回避できるという効果が得られる。

図３５は、機密文書検索システムを用いた情報セキュリティ監査サービスの一例を実現する構成例を示すブロック図である。図３５に示す機密情報検索システム２４０４は、実施例２で述べた機密情報検索分類装置２２０１ａ（図２６参照。）に相当する。また、リスク評価システム２４１２は、実施例２で述べた情報リスク評価装置２３０１（図２６参照。）に相当する。

本実施例では、機密文書検索システム２４０４は、監査依頼者環境２４０２にて監査対象システム２４０３内の文書情報２４０６を参照し、機密文書の検索・分類を行う。そして、検索・分類結果２４０７を監査実施者環境２４０１内のリスク評価システム２４１２に送る。リスク評価システム２４１２は、受け取った機密文書の検索・分類結果２４０７をもとに、そこに書かれたファイルやディレクトリ単位でのリスクを評価し、評価結果２４１３を監査依頼者環境２４０２に送る。このような構成により、監査依頼者は、監査対象システム２４０３内の文書情報自体を監査実施者環境２４０１に渡すことなく、機密文書の名前や場所、種類、重要度、エントロピーの値など、図１４や図２８に示す情報から実際の機密情報（具体的な人名やＥメールアドレスなど）を除いた情報のみを監査実施者側に開示することにより、その中で特に情報漏洩リスクの高い機密文書が置かれた場所（ディレクトリなど）から順に一覧できるリスク評価結果（例えば、図２２参照。）を得ることができる。このようなリスク評価システムを用いたサービスを利用することによって、監査依頼者は、機密文書が大量に発見された場合にそれらへの対処の優先順序を決めたり全体をディレクトリやドメイン単位で大まかに俯瞰してから効率的に対策を立てるための情報を得ることができる。

なお、図３５に示す例では、機密文書検索システム２４０４を監査依頼者環境２４０２内に、リスク評価システム２４１２を監査実施者環境２４０１内にそれぞれ設置しているが、これは構成の一例に過ぎない。この２つのシステムを共に監査依頼者環境２４０２内または監査実施者環境２４０１内に設置してもよく、また、一般に処理量の多い機密文書検索システム２４０４を監査実施者環境２４０１で、比較的処理量の少ないリスク評価システム２４１２を監査依頼者環境２４０２でそれぞれ運用してもよい。加えて、これらのシステム構成に、セキュリティ設定検証システム２４０５（図２９等参照。）を、監査実施者環境または監査依頼者環境のいずれかに設置し運用してもよい。

本発明は、大規模なＷｅｂサーバや共有ファイルサーバに誤って機密情報や個人情報が置かれていないかを確認する情報セキュリティ監査支援システムや、どこにどのような種類の機密情報が幾つ置かれているかを洗い出す情報資産管理システムといった用途に適用でき、機密情報の洗い出しの大幅な効率化を実現することができる。また、本発明は、特定の場所に置かれた特定種類の機密情報に対するアクセス制限のためのポリシー定義を効率化する用途にも適用可能である。

本発明による機密文書検索システムの第１の実施の形態を示すブロック図である。文書の例を示す説明図である。特徴定義辞書の例を示す説明図である。機密文書検索システムの動作を示すフローチャートである。部分領域内の記述例およびその形態素解析結果を示す説明図である。相関性評価処理の処理経過を示すフローチャートである。相関性評価処理の処理経過を示すフローチャートである。カテゴリ密度、カテゴリ純度、およびカテゴリ占度の説明図である。部分領域内の記述例およびその形態素解析結果を示す説明図である。特徴定義辞書の例を示す説明図である。部分領域内の記述例およびその形態素解析結果を示す説明図である。表をＨＴＭＬで記述した場合の記述内容を示す説明図である。機密情報分類結果の例を示す説明図である。結果出力手段によって表示される機密情報分類結果の例を示す説明図である。第１の実施の形態の変形例における相関性評価手段の動作を示すフローチャートである。第１の実施の形態の変形例における機密情報分類手段の動作を示すフローチャートである。本発明による機密文書検索システムの第２の実施の形態を示すブロック図である。検索範囲指定手段が表示するＵＩの例を示す説明図である。特徴定義辞書拡張手段が表示するＵＩの例を示す説明図である。特徴定義辞書拡張手段が表示するＵＩの例を示す説明図である。文書脆弱性の値の計算を示す説明図である。リスク評価結果の例を示す説明図である。本発明による機密文書検索システムの第３の実施の形態を示すブロック図である。ポリシー生成手段が表示するＵＩの例を示す説明図である。第１の実施例を示すブロック図である。第２の実施例を示すブロック図である。第３の実施例を示すブロック図である。検索・分類結果の例を示す説明図である。第４の実施例を示すブロック図である。セキュリティポリシーの例を示す説明図である。第５の実施例を示すブロック図である。第６の実施例を示すブロック図である。第７の実施例を示すブロック図である。第８の実施例を示すブロック図である。第９の実施例を示すブロック図である。表として表される文書の例を示す説明図である。

符号の説明

１文書参照手段
２領域分割手段
３特徴要素検出手段
４領域別辞書参照手段
５特徴定義辞書格納手段
６相関性評価手段
７機密情報分類手段
８結果出力手段

Claims

少なくとも文字情報を含む１つ以上の文書を格納する文書格納手段に格納された文書のうち、閲覧が制限される機密文書を検索する機密文書検索システムであって、
前記文書格納手段に格納された文書を読み込む文書参照手段と、
文書内に含まれているときに当該文書が機密文書に該当する可能性があることを示す特徴要素を定めた特徴定義辞書を格納する特徴定義辞書格納手段と、
読み込まれた文書内から前記特徴定義辞書に基づいて特徴要素を検出し、当該特徴要素に基づいて、前記文書が分類される機密文書としてのカテゴリの候補を定める特徴要素検出手段と、
前記文書内における特徴要素の配置状態を示す評価値を計算する相関性評価手段と、
候補とされた個々のカテゴリが適切か否かを、前記相関性評価手段に計算された評価値に基づいて判定し、適切でないと判定されたカテゴリを候補から除外するカテゴリ絞り込み手段と、
前記カテゴリ絞り込み手段によって適切と判定されたカテゴリに基づいて、前記文書が分類されるカテゴリを決定する機密情報分類手段と、
少なくとも、前記機密情報分類手段によってカテゴリが決定された文書の文書名と、前記カテゴリとを出力する結果出力手段とを備え、
前記特徴定義辞書格納手段は、機密文書が分類される各カテゴリ毎に、カテゴリの重要度を示す値を定めた特徴定義辞書を格納し、
前記機密情報分類手段は、１つの文書が分類されるカテゴリとして複数のカテゴリを決定した場合に、前記複数のカテゴリの重要度を示す値のうち最大の値を、前記文書の重要度を示す文書スコアとし、
文書の内容の解読され易さを示す値を計算し、前記値と文書スコアとに基づいて、前記文書が漏洩する危険度を示すリスク値を計算するリスク評価手段を備えた
ことを特徴とする機密文書検索システム。
前記特徴定義辞書格納手段は、機密文書が分類される各カテゴリ毎にカテゴリに応じた特徴要素を定めた特徴定義辞書を格納する
請求項１に記載の機密文書検索システム。
前記特徴要素検出手段は、特徴定義辞書に基づいて、各カテゴリ毎に特徴要素を文書から検出し、検出した特徴要素によって、当該特徴要素に対応するカテゴリを前記文書の分類候補とするか否かを決定する
請求項２に記載の機密文書検索システム。
前記特徴定義辞書格納手段は、カテゴリ毎に特徴要素を区分し、第１の区分の特徴要素は、当該特徴要素が全て文書から検出されることを条件に、当該特徴要素に対応するカテゴリが前記文書の分類候補となることを定め、第２の区分の特徴要素は、当該特徴要素のうちの少なくとも１つが文書から検出されることを条件に、当該特徴要素に対応するカテゴリが前記文書の分類候補となることを定めた特徴定義辞書を格納し、
前記特徴要素検出手段は、一のカテゴリにおける第１の区分の特徴要素が全て検出されているか否かおよび前記カテゴリにおける第２の区分の特徴要素のうちの少なくとも１つが検出されているか否かに応じて、前記カテゴリを文書の分類候補とするか否かを決定する
請求項３に記載の機密文書検索システム。
前記相関性評価手段は、カテゴリ毎に評価値を計算し、
前記カテゴリ絞り込み手段は、評価値が予め規定された閾値以上である場合に、前記評価値に対応するカテゴリを適切なカテゴリと判定する
請求項２から請求項４のうちのいずれか１項に記載の機密文書検索システム。
前記相関性評価手段は、カテゴリ毎に、カテゴリに応じた特徴要素によって定められる文書中の範囲内における特徴要素の占める割合を評価値として計算する
請求項５に記載の機密文書検索システム。
前記相関性評価手段は、カテゴリ毎に、カテゴリに応じた特徴要素によって定められる文書中の範囲と他のカテゴリに応じた特徴要素によって定められる文書中の範囲との重複の程度を評価値として計算する
請求項５または請求項６に記載の機密文書検索システム。
前記相関性評価手段は、カテゴリ毎に、特徴要素の検出対象範囲に対するカテゴリに応じた特徴要素によって定められる文書中の範囲の占める割合を評価値として計算する
請求項５から請求項７のうちのいずれか１項に記載の機密文書検索システム。
文書を所定の部分領域に分割する領域分割手段を備え、
前記特徴要素検出手段は、部分領域毎に、特徴要素を検出し、各部分領域が分類されるカテゴリの候補を当該特徴要素に基づいて定める
請求項１から請求項８のうちのいずれか１項に記載の機密文書検索システム。
前記特徴定義辞書格納手段は、各部分領域に対応する複数の特徴定義辞書を格納し、
前記特徴要素検出手段は、部分領域毎に、各部分領域に対応する特徴定義辞書に基づいて特徴要素を検出する
請求項９に記載の機密文書検索システム。
前記相関性評価手段は、部分領域毎に、部分領域内における特徴要素の配置状態を示す評価値を計算する
請求項９または請求項１０に記載の機密文書検索システム。
前記相関性評価手段は、各部分領域でカテゴリ毎に評価値を計算し、
前記カテゴリ絞り込み手段は、複数のカテゴリそれぞれの特徴要素によって定められる範囲が１つの部分領域内で重複する場合に、前記複数のカテゴリに対応する評価値を比較して、前記複数のカテゴリのうちの１つのみを適切なカテゴリと判定する
請求項１１に記載の機密文書検索システム。
前記カテゴリ絞り込み手段は、１つの部分領域内で、一のカテゴリの特徴要素によって定められる範囲が、他のカテゴリの特徴要素によって定められる範囲と重複しない場合、前記一のカテゴリを適切なカテゴリと判定する
請求項９から請求項１２のうちのいずれか１項に記載の機密文書検索システム。
前記機密情報分類手段は、各部分領域で適切と判断されたカテゴリをそれぞれ、文書が分類されるカテゴリとして決定する
請求項１２または請求項１３に記載の機密文書検索システム。
前記リスク評価手段は、同一の文書格納場所に格納された複数の文書それぞれのリスク値を計算し、各文書のリスク値のうち最大の値を、前記文書格納場所から文書が漏洩する危険度を示す値として定める
請求項１から請求項１４のうちのいずれか１項に記載の機密文書検索システム。
前記結果出力手段は、文書が分類されたカテゴリとともに、前記カテゴリの特徴要素として、前記特徴要素検出手段が検出した特徴要素を出力する
請求項３から請求項１５のうちのいずれか１項に記載の機密文書検索システム。
特徴定義辞書に追加する内容を入力するユーザインタフェースを表示し、前記ユーザインタフェースに入力された内容を、前記特徴定義辞書格納手段に格納された特徴定義辞書に追加する特徴定義辞書拡張手段を備えた
請求項１から請求項１６のうちのいずれか１項に記載の機密文書検索システム。
読み込むべき文書が格納された文書格納場所を前記文書参照手段に対して指定する検索範囲指定手段を備えた
請求項１から請求項１７のうちのいずれか１項に記載の機密文書検索システム。
前記検索範囲指定手段は、文書が漏洩する可能性のある文書格納場所または過去に不正にアクセスされたことがある文書格納場所を指定する
請求項１８に記載の機密文書検索システム。
前記文書参照手段は、前記検索範囲指定手段に指定された文書格納場所に格納された文書を読み込む
請求項１８または請求項１９に記載の機密文書検索システム。
文書を閲覧しようとするユーザのグループと、グループに属するユーザのユーザＩＤとを対応付けた情報を記憶する記憶装置を備え、
文書を閲覧しようとするユーザのグループ、およびカテゴリの選択を促すユーザインタフェースを表示し、前記ユーザインタフェース上でグループおよびカテゴリが選択されることによって、前記ユーザインタフェース上で選択されたグループから、前記ユーザインタフェース上で選択されたカテゴリの文書へのアクセスの許可を示す上位セキュリティポリシーを作成し、前記上位セキュリティポリシーに記述されたグループを当該グループに属するユーザのユーザＩＤに置き換え、前記結果出力手段によって出力された文書名であって、前記上位セキュリティポリシーに記述されたカテゴリの文書の文書名を前記上位セキュリティポリシーに追加することによって、個々の文書にどのユーザがアクセス可能であるかを示すセキュリティポリシーを作成するポリシー生成手段を備えた
請求項１から請求項２０のうちのいずれか１項に記載の機密文書検索システム。
前記ポリシー生成手段は、グループおよび前記結果出力手段によって出力されたカテゴリを列挙して、グループおよびカテゴリの選択を促すユーザインタフェースを表示し、前記ユーザインタフェース上で選択されたグループおよびカテゴリから上位セキュリティポリシーを生成する
請求項２１に記載の機密文書検索システム。
前記結果出力手段は、文書が格納されていた文書格納場所の情報を出力する
請求項１から請求項２２のうちのいずれか１項に記載の機密文書検索システム。
少なくとも文字情報を含む１つ以上の文書を格納する文書格納手段に格納された文書のうち、特定の者による閲覧が制限される機密文書を検索する機密文書検索方法であって、
特徴定義辞書格納手段が、文書内に含まれているときに当該文書が機密文書に該当する可能性があることを示す特徴要素を定めるとともに、文書が分類される機密文書としての各カテゴリ毎に、カテゴリの重要度を示す値を定めた特徴定義辞書を格納し、
文書参照手段が、前記文書格納手段に格納された文書を読み込み、
特徴要素検出手段が、読み込まれた文書内から前記特徴定義辞書に基づいて特徴要素を検出し、当該特徴要素に基づいて、前記文書が分類される機密文書としてのカテゴリの候補を定め、
相関性評価手段が、前記文書内における特徴要素の配置状態を示す評価値を計算し、
カテゴリ絞り込み手段が、候補とされた個々のカテゴリが適切か否かを、前記相関性評価手段に計算された評価値に基づいて判定し、適切でないと判定されたカテゴリを候補から除外し、
機密情報分類手段が、前記カテゴリ絞り込み手段によって適切と判定されたカテゴリに基づいて、前記文書が分類されるカテゴリを決定し、前記文書が分類されるカテゴリとして複数のカテゴリを決定した場合に、前記複数のカテゴリの重要度を示す値のうち最大の値を、前記文書の重要度を示す文書スコアとし、
結果出力手段が、少なくとも、前記機密情報分類手段によってカテゴリが決定された文書の文書名と、前記カテゴリとを出力し、
リスク評価手段が、文書の内容の解読され易さを示す値を計算し、前記値と文書スコアとに基づいて、前記文書が漏洩する危険度を示すリスク値を計算する
ことを特徴とする機密文書検索方法。
少なくとも文字情報を含む１つ以上の文書を格納する文書格納手段に格納された文書のうち、特定の者による閲覧が制限される機密文書を検索するコンピュータであって、文書内に含まれているときに当該文書が機密文書に該当する可能性があることを示す特徴要素を定めるとともに、文書が分類される機密文書としての各カテゴリ毎に、カテゴリの重要度を示す値を定めた特徴定義辞書を格納する特徴定義辞書格納手段を備えたコンピュータに、
前記文書格納手段に格納された文書を読み込む文書参照処理、
読み込まれた文書内から前記特徴定義辞書に基づいて特徴要素を検出し、当該特徴要素に基づいて、前記文書が分類される機密文書としてのカテゴリの候補を定める特徴要素検出処理、
前記文書内における特徴要素の配置状態を示す評価値を計算する相関性評価処理、
候補とされた個々のカテゴリが適切か否かを、前記相関性評価処理で計算された評価値に基づいて判定し、適切でないと判定されたカテゴリを候補から除外するカテゴリ絞り込み処理、
前記カテゴリ絞り込み処理で適切と判定されたカテゴリに基づいて、前記文書が分類されるカテゴリを決定し、前記文書が分類されるカテゴリとして複数のカテゴリを決定した場合に、前記複数のカテゴリの重要度を示す値のうち最大の値を、前記文書の重要度を示す文書スコアとする機密情報分類処理、
少なくとも、前記機密情報分類処理でカテゴリが決定された文書の文書名と、前記カテゴリとを出力する結果出力処理、および
文書の内容の解読され易さを示す値を計算し、前記値と文書スコアとに基づいて、前記文書が漏洩する危険度を示すリスク値を計算するリスク評価処理
を実行させるための機密文書検索プログラム。