JP2018159986A

JP2018159986A - 情報管理装置、情報管理方法、及びプログラム

Info

Publication number: JP2018159986A
Application number: JP2017055491A
Authority: JP
Inventors: 晃滝上野; Akiro Ueno
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2018-10-11
Anticipated expiration: 2037-03-22
Also published as: JP6984147B2

Abstract

【課題】システムにかかる負担を増加させることなく、元のファイルが改変された場合でも、情報の流出元を特定できるようにし得る、情報管理装置、情報管理方法、及びプログラム提供する。【解決手段】情報管理装置１は、予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録している、特徴量登録部２と、外部から入力された情報を、ルールに基づいて、複数の領域に分割する、領域分割部３と、分割によって得られた領域毎に、特徴量を抽出する、特徴量抽出部４と、抽出した特徴量と、登録されている特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、判定部５とを備えている。【選択図】図１

Description

本発明は、情報、特には個人情報を管理するための、情報管理装置及び情報管理方法に関し、更には、これらを実現するためのプログラムに関する。

近年、個人情報の流出が社会的に問題となっている。特に、個人を対象にして商品又はサービスを提供する企業の場合、ファイルサーバには、大量の個人情報が保有されており、個人情報が流出する可能性がある。また、一旦流出してしまった個人情報を元に戻すことは不可能であるため、個人情報が流出してしまった場合は、流出元を特定し、情報の変更等の対策をとることが必要となる。

このため、例えば、特許文献１は、実在しない人物のダミーの個人情報を一定期間毎に生成し、生成したダミーの個人情報を、データベースに登録することで、個人情報の流出と流出元とを特定する技術を開示している。特許文献２は、機密文書のイメージ画像から抽出された特徴量を登録しておき、流出した機密文書のイメージ画像の特徴量と、登録されている特徴量とを比較することで、流出元を特定する技術を開示している。

特開２００６−７９２３３号公報特開２００８−４２６３６号公報

しかしながら、特許文献１に開示された技術では、定期的にダミー情報を生成し、更に生成したダミー情報を管理する必要があり、システムに負担が掛かってしまう。また、特許文献２に開示された技術では、元のファイルに対して、分割、列の入れ替え等の改変が行なわれた場合に、特徴量が維持されず、流出元を特定することが困難となる。

本発明の目的の一例は、上記問題を解消し、システムにかかる負担を増加させることなく、元のファイルが改変された場合でも、情報の流出元を特定できるようにし得る、情報管理装置、情報管理方法、及びプログラム提供することにある。

上記目的を達成するため、本発明の一側面における情報管理装置は、
予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録している、特徴量登録部と、
外部から入力された情報を、前記ルールに基づいて、複数の領域に分割する、領域分割部と、
分割によって得られた領域毎に、特徴量を抽出する、特徴量抽出部と、
抽出した特徴量と、登録されている前記特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、判定部と、
を備えていることを特徴とする。

また、上記目的を達成するため、本発明の一側面における情報管理方法は、
（ａ）予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録する、ステップと、
（ｂ）外部から入力された情報を、前記ルールに基づいて、複数の領域に分割する、ステップと、
（ｃ）分割によって得られた領域毎に、特徴量を抽出する、ステップと、
（ｄ）抽出した特徴量と、登録されている前記特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、ステップと、
を有することを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
（ａ）予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録する、ステップと、
（ｂ）外部から入力された情報を、前記ルールに基づいて、複数の領域に分割する、ステップと、
（ｃ）分割によって得られた領域毎に、特徴量を抽出する、ステップと、
（ｄ）抽出した特徴量と、登録されている前記特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、ステップと、
を実行させることを特徴とする。

以上のように、本発明によれば、システムにかかる負担を増加させることなく、元のファイルが改変された場合でも、情報の流出元を特定できるようにすることができる。

図１は、本発明の実施の形態における情報管理装置の構成を概略的に示すブロック図である。図２は、本発明の実施の形態における情報管理装置の具体的構成を示すブロック図である。図３は、本発明の実施の形態で用いられる分割ルールの一例を示す図である。図４は、本発明の実施の形態で用いられるデータベースに登録されている情報の一例を示す図である。図５は、本発明の実施の形態における情報管理装置がファイルから管理対象となる個人情報を抽出する際の動作を示すフロー図である。図６は、本発明の実施の形態における情報管理装置が管理対象となる個人情報を分割する際の動作を示すフロー図である。図７は、本発明の実施の形態における情報管理装置が分割された領域から特徴量を抽出する際の動作を示すフロー図である。図８は、本発明の実施の形態における情報管理装置が流出したファイルから判定対象となる個人情報を抽出する際の動作を示すフロー図である。図９は、本発明の実施の形態における情報管理装置が流出したファイルの判定対象となる個人情報を分割する際の動作を示すフロー図である。図１０は、本発明の実施の形態における情報管理装置が流出したファイルから得られた領域から特徴量を抽出する際の動作を示すフロー図である。図１１は、本発明の実施の形態における情報管理装置が特徴量の比較による判定処理を実行する際の動作を示すフロー図である。図１２は、本発明の実施の形態における情報管理装置の変形例１での具体的構成を示すブロック図である。図１３は、本発明の実施の形態における情報管理装置を実現するコンピュータの一例を示すブロック図である。

（発明の概要）
本発明では、管理装置を必要とし、管理装置はファイルサーバのファイルに対して個人情報を含むファイルを検出することができる。個人情報を含むファイルの検出は、例えば、特許第５０１３０８１号等に開示された技術を用いて行なうことができる。

管理装置は、ファイルサーバに格納されているファイルに対して、個人情報を含むファイルの検出を実行する。検出された個人情報には、例えば、姓、名、性別、都道府県等の項目が含まれる。管理装置は、それらの項目に対して、姓属性、名属性、性別属性、都道府県属性等の属性のタグ付けを実施する。

次に、管理装置は、検出された個人情報が持っている属性と属性の値とを利用して、ファイルが持っている個人情報を複数の領域に分割する。具体的には、分割は、例えば、属性ごとに、又は特定の属性の値ごとに行なわれる。また、分割された領域が増えるほど、より多くのファイルの改変に対応することができる。

但し、分割される領域が増えると、計算量も増加するため、対象となるファイルの重要性に応じて、分割される領域の数を増減させても良い。例えば、文書中に「機密情報」というキーワードが含まれている場合は、より重要なファイルと判定して、個人情報の持っている属性と属性値とにより領域を分割するが、「機密情報」というキーワードを持っていない場合は属性のみによって領域を分割するというような手法が考えられる。

また、個人情報が複数の領域に分割された後、分割された領域ごとに、属性の値が用いられて特徴量が抽出される。特徴量を抽出するためのアルゴリズムとしては、既存のアルゴリズム、例えば、ハフマン符号のアルゴリズム、相互情報量のアルゴリズム等が挙げられる。このようにして抽出された特徴量は保持され、個人情報が流出した場合は、流出した個人情報の特徴量と、保持されている特徴量とが対比されて、個人情報の流出元が特定される。

（実施の形態）
以下、本発明の実施の形態における情報管理装置、情報管理方法、及びプログラムについて、図１〜図１３を参照しながら説明する。

［装置構成］
最初に、図１を用いて、本実施の形態における情報管理装置の概略構成について説明する。図１は、本発明の実施の形態における情報管理装置の構成を概略的に示すブロック図である。

図１に示す、情報管理装置１は、情報、特には個人情報を管理するための装置である。図１に示すように、情報管理装置１は、特徴量登録部２と、領域分割部３と、特徴量抽出部４と、判定部５とを備えている。

特徴量登録部２は、予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録している。領域分割部３は、外部から入力された情報を、ルールに基づいて、複数の領域に分割する。特徴量抽出部４は、分割によって得られた領域毎に、特徴量を抽出する。判定部５は、特徴量抽出部４によって抽出された特徴量と、登録されている特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する。

このように、本実施の形態では、管理対象となる情報において、ダミー情報の作成及び管理を行なう必要がない。また、管理対象となる情報の分割された領域の特徴量は、元のファイルが改変された場合であっても変更されない。このため、本実施の形態によれば、システムにかかる負担を増加させることなく、元のファイルが改変された場合でも、情報の流出元を特定できるようにすることができる。

続いて、図２〜図４を用いて、本実施の形態における情報管理装置の構成についてより具体的に説明する。図２は、本発明の実施の形態における情報管理装置の具体的構成を示すブロック図である。

まず、本実施の形態において、管理対象となる情報は、個人情報であるとする。図２に示すように、本実施の形態では、情報管理装置１は、ネットワーク１０を介して、管理者が使用する端末装置２０及びファイルサーバ３０に接続されている。

ファイルサーバ３０は、管理対象となる個人情報を含むファイルを格納している。端末装置２０は、管理者の指示により、流出したファイルを情報管理装置１に入力する。また、端末装置２０は、情報管理装置１によって判定が行なわれた場合は、判定結果を取得して、取得した判定結果を、その表示画面上に表示する。

また、図２に示すように、本実施の形態では、情報管理装置１は、上述した特徴量登録部２、領域分割部３、特徴量抽出部４、及び判定部５に加えて、ファイル取得部６及び個人情報検出部７を備えている。

ファイル取得部６は、端末装置２０を介した管理者の指示に応じて、ファイルサーバ３０にアクセスして、指定されたファイルを取得する。個人情報検出部７は、取得されたファイルから個人情報を検出する。

特徴量登録部２は、本実施の形態では、管理対象となる個人情報を分割して得られた、複数の領域それぞれの特徴量を、データベース９に登録している。また、本実施の形態では、特徴量登録部２が登録している特徴量は、領域分割部３と特徴量抽出部４とによって作成されている。つまり、本実施の形態では、領域分割部３が、管理対象となる個人情報を分割し、特徴量抽出部４が、分割によって得られた個人情報の領域毎に、特徴量を抽出する。特徴量登録部２は、個人情報の分割領域から抽出された特徴量を登録する。なお、本実施の形態において、特徴量登録部２が登録している特徴量は、外部の装置によって作成された特徴量であっても良い。

領域分割部３は、予め作成されている分割ルール８を用いて、個人情報を複数の領域に分割する。分割ルール８は、本実施の形態では、個人情報を構成する特定の属性に基づいて情報を分割するルール、及び個人情報に含まれる特定の属性値に基づいて情報を分割するルールのうち、少なくとも１つを含む。また、本実施の形態では、特徴量登録部２に登録されている特徴量を得るために用いられるルールと、領域分割部３が用いるルールとは、同一のルールである。

図３は、本発明の実施の形態で用いられる分割ルールの一例を示す図である。図３の例では、分割ルールとして、（１）属性（姓）で分割するルール、（２）属性（名）で分割するルール、（３）属性（都道府県）の属性値で分割するルールが採用されている。そして、分割ルール（１）により、属性が姓である情報で構成された領域が生成される。分割ルール（２）により、属性が名である情報で構成された領域が生成される。また、分割ルール（３）により、都道府県が神奈川となっている行で構成された領域と、都道府県が東京となっている行で構成された領域とが生成される。

特徴量抽出部４は、本実施の形態では、例えば、分割によって得られた領域毎に、ハフマン符号のアルゴリズムを利用して、当該領域を表す文字列を取り出すことによって、特徴量を抽出する。また、本実施の形態では、特徴量抽出部４は、ハフマン符号のアルゴリズム以外のアルゴリズム、例えば、相互情報量等の特徴量を抽出するアルゴリズムを利用することもできる。特徴量抽出部４による処理の具体例については、図７を用いて後述する。

また、特徴量抽出部４は、図４に示すように、抽出した特徴量をデータベース９に登録する。図４は、本発明の実施の形態で用いられるデータベースに登録されている情報の一例を示す図である。図４に示すように、データタベース９は、個人情報ファイルテーブルと、個人情報特徴テーブルとを格納している。

個人情報ファイルテーブルは、個人情報が検出されたファイルパスを格納しているテーブルである。個人情報特徴テーブルは、個人情報を含むファイルの属性及び属性値毎に、特徴量となる文字列を格納している。なお、個人情報ファイルテーブルは、後述するように、個人情報検出部７によって格納されている。

［装置動作］
次に、本発明の実施の形態における情報管理装置１の動作について図５〜図１１を用いて説明する。また、本実施の形態では、情報管理装置１を動作させることによって、情報管理方法が実施される。よって、本実施の形態における情報管理方法の説明は、以下の情報管理装置１の動作説明に代える。

まず、情報管理装置１においては、主に、管理対象となる個人情報の特徴量を抽出して、これを登録する処理と、流出したファイルから抽出した特徴量と登録されている特徴量とから流出元を判定する処理とが行なわれる。以下においては、図５〜図７を用いて、管理対象となる個人情報の特徴量の抽出処理を説明する。また、図８〜図１１を用いて、流出元の判定処理を説明する。

特徴量登録処理
管理対象となる個人情報の特徴量を登録するため、ファイルサーバ３０に格納されているファイルからの個人情報の抽出処理（図５）、個人情報の分割処理（図６）、分割された領域からの特徴量の抽出処理（図７）が実行される。以下、各処理を順に説明する。

図５は、本発明の実施の形態における情報管理装置がファイルから管理対象となる個人情報を抽出する際の動作を示すフロー図である。

図５に示すように、最初に、ファイル取得部６はファイルサーバ３０にアクセスしてファイルを取得する（ステップＡ１）。次に、ファイル取得部６は、取得したファイルを個人情報検出部７に渡す（ステップＡ２）。

次に、個人情報検出部７は、ステップＡ１で取得されているファイルに、氏名、住所、メールアドレス、電話番号、性別、クレジットカード番号等の個人情報が含まれているかどうか確認し、それらの情報が含まれている場合、個人情報を検出する（ステップＡ３）。なお、個人情報の検出は、上述した特許第５０１３０８１号に開示された既存技術を用いて行なうことができる。

その後、個人情報検出部７は、検出した個人情報に対して、文書ＩＤを採番し、検出したファイルのパスと採番した文書ＩＤとを、データベース９に格納されている個人情報ファイルテーブルに登録する（ステップＡ４）。

図６は、本発明の実施の形態における情報管理装置が管理対象となる個人情報を分割する際の動作を示すフロー図である。

図６に示すように、最初に、領域分割部３は、個人情報検出部７によって検出された個人情報を取得する（ステップＢ１）。

次に、領域分割部３は、ステップＢ１で取得した個人情報を用いてテーブルを作成する（ステップＢ２）。具体的には、領域分割部３は、縦に並ぶ各行（レコード）が１件の個人情報に該当し、各行において横方向に個人情報の各属性の値が並ぶように、テーブルを作成する。また、テーブルの列を構成している属性として、姓（氏名）、名（氏名）、都道府県（住所）、市（住所）、区（住所）、町村（住所）、メールアドレス、性別等が挙げられる。

次に、領域分割部３は、分割ルール８を取得する（ステップＢ３）。図６の例では、取得される分割ルールは、属性（姓（氏名））で分割するルール、属性（名（氏名））で分割するルール、属性（町村（住所））で分割するルール、属性（都道府県（住所））の属性値で分割するルール、属性（性別）の属性値で分割するルール、属性（メールアドレス）の属性値で分割するルールである。

次に、領域分割部３は、属性で分割するルールに沿って、姓（氏名）、名（氏名）、町村（住所）といった属性毎に、ステップＢ５〜Ｂ７を実行して分割を行なう（ステップＢ４）。

ステップＢ５では、領域分割部３は、処理対象となっている属性の値が一定数以上（例えば１００件以上）存在しているかどうかを判定する。

ステップＢ５の判定の結果、値が一定数以上存在してない場合は、処理対象となっている属性についての処理を終了し、次の属性についての処理を開始する。

一方、ステップＢ５の判定の結果、値が一定数以上存在している場合は、領域分割部３は、処理対象となっている属性全体が１つの領域となるように、テーブルを分割する（ステップＢ６）。続いて、領域分割部３は、分割のキーとなった属性を、分割によって生成された領域に付加する（ステップＢ７）。

次に、領域分割部３は、属性値で分割するルールに沿って、都道府県（住所）、性別、メールアドレスといった属性毎に、ステップＢ９〜Ｂ１６を実行して分割を行なう（ステップＢ８）。

ステップＢ９では、領域分割部３は、処理対象となっている属性に値が存在しているかどうかを判定する。

ステップＢ９の判定の結果、値が存在していない場合は、領域分割部３は、次の属性を選択して、再度ステップＢ９を実行する。

一方、ステップＢ９の判定の結果、値が存在している場合は、領域分割部３は、処理対象となっている属性がメールアドレスかどうかを判定する（ステップＢ１０）。

ステップＢ１０の判定の結果、属性がメールアドレスである場合は、まず、メールアドレスに含まれるアットマークの右側部分をドメイン名として取出し、ドメイン名を属性値として、ドメイン名ごとにグループ化し、グループ化された個人情報を領域とする（ステップＢ１１）。

一方、ステップＢ１０の判定の結果、属性がメールアドレスでない場合は、領域分割部３は、属性の値ごとに個人情報をグループ化して、領域を生成する（ステップＢ１２）。

次に、ステップＢ１１又はＢ１２が実行されると、領域分割部３は、生成されたグループについて、姓（氏名）、名（氏名）、町村（住所）の属性毎に、ステップＢ１４〜Ｂ１６を実行する（ステップＢ１３）。

ステップＢ１４では、領域分割部３は、グループ内で、処理対象となっている属性の値が一定数以上（例えば１００件以上）存在しているかどうかを判定する。

ステップＢ１４の判定の結果、値が一定数以上存在していない場合は、領域分割部３は、次の属性を選択して、再度ステップＢ１４を実行する。

一方、ステップＢ１４の判定の結果、値が一定数以上存在している場合は、領域分割部３は、グループ化した個人情報の中で、処理対象となっている属性全体を１つの領域として分割する（ステップＢ１５）。

続いて、領域分割部３は、グループ化においてキーとなった属性とその属性値とを、分割によって生成された領域に付加する（ステップＢ１６）。

その後、領域分割部３は、分割によって生成した領域を、特徴量抽出部４に渡す（ステップＢ１７）。

図７は、本発明の実施の形態における情報管理装置が分割された領域から特徴量を抽出する際の動作を示すフロー図である。図７の例では、特徴量は、ハフマン符号のアルゴリズムを利用して、文字列として抽出される。

図７に示すように、特徴量抽出部４は、分割によって生成された領域毎に、ステップＣ２〜Ｃ６を実行して特徴量を抽出する（ステップＣ１）。

ステップＣ２では、特徴量抽出部４は、処理対象となっている領域における属性の値の出現頻度を計算する。

次に、特徴量抽出部４は、ステップＣ２で計算した出現頻度をもとに、ハフマン符号のアルゴリズムを利用してハフマン木を生成し、属性の各値に対して２進数による符号化を実施する（ステップＣ３）。

次に、特徴量抽出部４は、符号化した結果、「最短の符号長／最長の符号長」が一定の値以下（例えば０.２以下）となっているかどうかを判定する（ステップＣ４）。

ステップＣ４の判定の結果、「最短の符号長／最長の符号長」が一定の値以下でない場合は、特徴量抽出部４は、次の領域を選択して、再度、ステップＣ２を実行する。

一方、ステップＣ４の判定の結果、「最短の符号長／最長の符号長」が一定の値以下である場合は、特徴量抽出部４は、特徴的な文字列が存在していると判断する。そして、特徴量抽出部４は、「符号長／最長の符号長」が一定の値以上（例えば０.８以上）となっている文字列は存在しているかどうかを判定する（ステップＣ５）。

ステップＣ５の判定の結果、「符号長／最長の符号長」が一定の値以上となっている文字列が存在していない場合は、特徴量抽出部４は、次の領域を選択して、再度、ステップＣ２を実行する。

一方、ステップＣ５の判定の結果、「符号長／最長の符号長」が一定の値以上となっている文字列が存在している場合は、特徴量抽出部４は、該当する文字列を特徴的な文字列と判定する（ステップＣ６）。

次に、特徴量抽出部４は、文書ＩＤ、属性、属性値、特徴量（ステップＣ６で判定された文字列）を、データベース９における個人情報特徴テーブルに格納する（ステップＣ７）。

また、ステップＣ７において、個人情報特徴テーブルにおいて、属性及び属性値としては、領域への分割時にテーブルに格納されていた値が用いられる。また、元のテーブルにおいて属性値が無かった場合は、個人情報特徴テーブルの該当する欄の属性値は空とされる。更に、特徴量抽出部４は、個人情報特徴テーブルにおいて、特徴量として抽出した文字列１つが１レコードとなるように、特徴量を格納する（図４参照）。

流出元判定処理
ファイルの流出元を判定するため、流出したファイルからの個人情報の抽出処理（図８）、個人情報の分割処理（図９）、分割された領域からの特徴量の抽出処理（図１０）、特徴量の比較による判定処理（図１１）が実行される。以下、各処理を順に説明する。

図８は、本発明の実施の形態における情報管理装置が流出したファイルから判定対象となる個人情報を抽出する際の動作を示すフロー図である。

まず、管理者が端末装置２０を介して流出したファイルを情報管理装置１に送信する。これにより、図８に示すように、ファイル取得部６は、送信されたファイルを取得する（ステップＤ１）。

次に、ファイル取得部６は、取得したファイルを個人情報検出部７に渡す（ステップＤ２）。

次に、個人情報検出部７は、ステップＤ１で取得されているファイルに、氏名、住所、メールアドレス、電話番号、性別、クレジットカード番号等の個人情報が含まれているかどうか確認し、それらの情報が含まれている場合、個人情報を検出する（ステップＤ３）。ステップＤ３は、図５に示したステップＡ３と同様に行なわれる。

その後、個人情報検出部７は、ステップＤ３で検出した個人情報を、領域分割部３に渡す（ステップＤ４）。

図９は、本発明の実施の形態における情報管理装置が流出したファイルの判定対象となる個人情報を分割する際の動作を示すフロー図である。なお、図９に示す各ステップは、図６に示した各ステップに準じて行なわれる。

図９に示すように、最初に、領域分割部３は、流出したファイルから、個人情報検出部７によって検出された個人情報を取得する（ステップＥ１）。

次に、領域分割部３は、流出したファイルの個人情報を用いて、テーブルを作成する（ステップＥ２）。ステップＥ２においても、領域分割部３は、図６に示したステップＢ２と同様に、縦に並ぶ各行（レコード）が１件の個人情報に該当し、各行において横方向に個人情報の各属性の値が並ぶように、テーブルを作成する。また、テーブルの列を構成している属性として、姓（氏名）、名（氏名）、都道府県（住所）、市（住所）、区（住所）、町村（住所）、メールアドレス、性別等が挙げられる。

次に、領域分割部３は、属性で分割するルールに沿って、姓（氏名）、名（氏名）、町村（住所）といった属性毎に、ステップＥ５〜Ｅ７を実行して分割を行なう（ステップＥ４）。

ステップＥ５では、領域分割部３は、処理対象となっている属性の値が一定数以上（例えば１００件以上）存在しているかどうかを判定する。

ステップＥ５の判定の結果、値が一定数以上存在してない場合は、処理対象となっている属性についての処理を終了し、次の属性についての処理を開始する。

一方、ステップＥ５の判定の結果、値が一定数以上存在している場合は、領域分割部３は、処理対象となっている属性全体が１つの領域となるように、テーブルを分割する（ステップＥ６）。続いて、領域分割部３は、分割のキーとなった属性を、分割によって生成された領域に付加する（ステップＥ７）。

次に、領域分割部３は、属性値で分割するルールに沿って、都道府県（住所）、性別、メールアドレスといった属性毎に、ステップＥ９〜Ｅ１６を実行して分割を行なう（ステップＥ８）。

ステップＥ９では、領域分割部３は、処理対象となっている属性に値が存在しているかどうかを判定する。

ステップＥ９の判定の結果、値が存在していない場合は、領域分割部３は、次の属性を選択して、再度ステップＥ９を実行する。

一方、ステップＥ９の判定の結果、値が存在している場合は、領域分割部３は、処理対象となっている属性がメールアドレスかどうかを判定する（ステップＥ１０）。

ステップＥ１０の判定の結果、属性がメールアドレスである場合は、まず、メールアドレスに含まれるアットマークの右側部分をドメイン名として取出し、ドメイン名を属性値として、ドメイン名ごとにグループ化し、グループ化された個人情報を領域とする（ステップＥ１１）。

一方、ステップＥ１０の判定の結果、属性がメールアドレスでない場合は、領域分割部３は、属性の値ごとに個人情報をグループ化して、領域を生成する（ステップＥ１２）。

次に、ステップＥ１１又はＥ１２が実行されると、領域分割部３は、生成されたグループについて、姓（氏名）、名（氏名）、町村（住所）の属性毎に、ステップＥ１４〜Ｅ１６を実行する（ステップＥ１３）。

ステップＥ１４では、領域分割部３は、グループ内で、処理対象となっている属性の値が一定数以上（例えば１００件以上）存在しているかどうかを判定する。

ステップＥ１４の判定の結果、値が一定数以上存在していない場合は、領域分割部３は、次の属性を選択して、再度ステップＥ１４を実行する。

一方、ステップＥ１４の判定の結果、値が一定数以上存在している場合は、領域分割部３は、グループ化した個人情報の中で、処理対象となっている属性全体を１つの領域として分割する（ステップＥ１５）。

続いて、領域分割部３は、グループ化においてキーとなった属性とその属性値とを、分割によって生成された領域に付加する（ステップＥ１６）。

その後、領域分割部３は、分割によって生成した領域を、特徴量抽出部４に渡す（ステップＥ１７）。

図１０は、本発明の実施の形態における情報管理装置が流出したファイルから得られた領域から特徴量を抽出する際の動作を示すフロー図である。なお、図１０に示す各ステップは、図７に示した各ステップに準じて行なわれる。また、図１０の例でも、特徴量は、ハフマン符号のアルゴリズムを利用して、文字列として抽出される。

図１０に示すように、特徴量抽出部４は、流出したファイルから生成された領域毎に、ステップＦ２〜Ｆ６を実行して特徴量を抽出する（ステップＦ１）。

ステップＦ２では、特徴量抽出部４は、処理対象となっている領域における属性の値の出現頻度を計算する。

次に、特徴量抽出部４は、ステップＦ２で計算した出現頻度をもとに、ハフマン符号のアルゴリズムを利用してハフマン木を生成し、属性の各値に対して２進数による符号化を実施する（ステップＦ３）。

次に、特徴量抽出部４は、符号化した結果、「最短の符号長／最長の符号長」が一定の値以下（例えば０.２以下）となっているかどうかを判定する（ステップＦ４）。

ステップＦ４の判定の結果、「最短の符号長／最長の符号長」が一定の値以下でない場合は、特徴量抽出部４は、次の領域を選択して、再度、ステップＦ２を実行する。

一方、ステップＦ４の判定の結果、「最短の符号長／最長の符号長」が一定の値以下である場合は、特徴量抽出部４は、特徴的な文字列が存在していると判断する。そして、特徴量抽出部４は、「符号長／最長の符号長」が一定の値以上（例えば０.８以上）となっている文字列は存在しているかどうかを判定する（ステップＦ５）。

ステップＦ５の判定の結果、「符号長／最長の符号長」が一定の値以上となっている文字列が存在していない場合は、特徴量抽出部４は、次の領域を選択して、再度、ステップＦ２を実行する。

一方、ステップＦ５の判定の結果、「符号長／最長の符号長」が一定の値以上となっている文字列が存在している場合は、特徴量抽出部４は、該当する文字列を特徴的な文字列と判定する（ステップＦ６）。また、ステップＦ６の終了後、特徴量抽出部４は、抽出した領域毎の特徴量を判定部５に渡す。

図１１は、本発明の実施の形態における情報管理装置が特徴量の比較による判定処理を実行する際の動作を示すフロー図である。

図１１に示すように、判定部５は、特徴量抽出部４から受け取った領域（流出したファイルから得られた領域）毎の特徴量を用いて、この領域毎に、ステップＧ２〜Ｇ１０を実行する（ステップＧ１）。

ステップＧ２では、判定部５は、処理対象となる領域において、属性値が空の属性が存在しているかどうかを判定する（ステップＧ２）。

ステップＧ２の判定の結果、処理対象となる領域において、属性値が空の属性が存在している場合は、判定部５は、属性値が空の属性を検索条件として、個人情報特徴テーブルを検索し、属性値が空のレコードを特定する（ステップＧ３）。

一方、ステップＧ２の判定の結果、処理対象となる領域において、属性値が空の属性が存在していない場合は、判定部５は、処理対象となる領域における属性とその属性値とを検索条件として、個人情報特徴テーブルを検索する（ステップＧ４）。

次に、判定部５は、ステップＧ３又はＧ４が実行されると、検索によって抽出されたレコードを、文書ＩＤ毎に分ける（ステップＧ５）。続いて、判定部５は、文書ＩＤ毎に、レコードから特徴量（文字列）を抽出する（ステップＧ６）。

次に、判定部５は、文書ＩＤ毎に、ステップＧ６で取り出した特徴量（文字列）と、特徴量抽出部４から受け取った領域毎の特徴量とを比較し、特徴量が一致した文書ＩＤが存在しているかどうかを判定する（ステップＧ７）。

ステップＧ７の判定の結果、特徴量が一致している文書ＩＤが存在していない場合は、判定部５は、次の領域を選択して、再度ステップＧ２を実行する。一方、ステップＧ７の判定の結果、特徴量が一致している文書ＩＤが存在している場合は、判定部５は、その文書ＩＤを流出元の候補とする（ステップＧ８）。ステップＧ８によって、分割した領域毎に流出元の候補となる文書ＩＤが特定できる。

次に、判定部５は、個人情報ファイルテーブル（図４参照）を検索して、特定された文書ＩＤを持つ文書のファイルを特定し、特定したファイルを流出元の候補とする（ステップＧ９）。次に、判定部５は、文書ＩＤ毎に、候補となった回数を計算する（ステップＧ１０）。

領域毎のステップＧ２〜Ｇ１０が終了すると、判定部５は、領域毎に計算された各文書ＩＤの回数を足し合せ、文書ＩＤ毎に回数の合計値を算出する（ステップＧ１１）。分割した領域毎に複数の文書ＩＤが候補となり、また、分割した領域毎に、候補となる文書ＩＤが異なる可能性があるが、候補となった回数が多いほど、流出元となっている可能性が高いと判断できる。よって、ステップＧ１１では、合計値が算出される。

次に、判定部５は、合計値が最も高い文書ＩＤを流出元の文書と判定し、判定結果を出力する（ステップＧ１２）。具体的には、判定結果は、ネットワーク１０を介して、管理者の端末装置２０へと送信される。また、情報管理装置１が表示装置を備えている場合は、判定結果は、この表示装置に出力されても良い。

［実施の形態における効果］
以上の本実施の形態では、個人情報を属性及び属性値を用いて分割することで得られた領域の特徴量と、流出したファイルの同様に分割された領域の特徴量とを比較することで、流出元のファイルが特定される。このため、分割又は順序の入れ替えが行なわれた状態でファイルが流出していても、流出元のファイルを特定することができる

また、本実施の形態では、上述したように、分割された領域の特徴量を手がかりとして流出元のファイルを特定するので、本実施の形態は、テキストファイルのような電子透かしを埋め込むことが困難なファイルが流出した場合であっても対応できる。

［変形例１］
以下に本実施の形態における変形例１について説明する。変形例１では、領域分割部３による分割の回数が、管理対象となる情報（個人情報）の重要度に応じて設定される。図１２は、本発明の実施の形態における情報管理装置の変形例１での具体的構成を示すブロック図である。

図１２に示すように、本変形例１では、情報管理装置１は、更に、重要度計算部１１を備えている。重要度計算部１１は、個人情報検出部７によって個人情報が検出されると、検出された個人情報の重要度を計算し、計算された重要度に応じて、領域分割部３による分割に用いられる分割ルール８の数を増減させる。例えば、重要度計算部１１は、重要度が高い程、領域分割部３が用いる分割ルール８の数を増加させることで、流出元の特定精度を向上させることができる。

具体的には、重要度計算部１１は、例えば、重要度の段階毎に、キーワード（特定の人名、特定の住所等）及びキーワードの出現頻度を設定し、個人情報に含まれているキーワード及びその出現頻度に応じて、管理対象となる個人情報に重要度を設定する。また、分割ルール８それぞれには、重要度に応じて適用されるルールが設定されていても良く、この場合は、領域分割部３は、設定された重要度に適用される分割ルール８を用いて分割を実行する。

［変形例２］
続いて、本実施の形態における変形例２について説明する。上述の実施の形態では、属性の値を利用して個人情報をグループ化する際において、都道府県、性別、メールアドレスといった属性値が同一のレコードがグループ化されている。これに対して、変形例２では、属性値が同一のレコードではなく、例えば、姓を辞書順にソートした結果がグループ化される。この場合であっても、流出元を特定することができる

［プログラム］
本実施の形態におけるプログラムは、コンピュータに、図５に示すステップＡ１〜Ａ４、図６に示すステップＢ１〜Ｂ１７、図７に示すステップＣ１〜Ｃ７、図８に示すステップＤ１〜Ｄ４、図９に示すステップＥ１〜Ｅ１７、図１０に示すステップＦ１〜Ｆ６、図１１に示すステップＧ１〜Ｇ１２を実行させるプログラムであれば良い。

また、本実施の形態におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態における情報管理装置１と情報管理方法とを実現することができる。この場合、コンピュータのＣＰＵ（Central Processing Unit）は、特徴量登録部２、領域分割部３、特徴量抽出部４、判定部５、ファイル取得部６及び個人情報検出部７として機能し、処理を行なう。

また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、特徴量登録部２、領域分割部３、特徴量抽出部４、判定部５、ファイル取得部６及び個人情報検出部７のいずれかとして機能しても良い。

ここで、実施の形態におけるプログラムを実行することによって、情報管理装置１を実現するコンピュータについて図１３を用いて説明する。図１３は、本発明の実施の形態における情報管理装置を実現するコンピュータの一例を示すブロック図である。

図１３に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体が挙げられる。

なお、本実施の形態における情報管理装置１は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、情報管理装置１は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記１５）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録している、特徴量登録部と、
外部から入力された情報を、前記ルールに基づいて、複数の領域に分割する、領域分割部と、
分割によって得られた領域毎に、特徴量を抽出する、特徴量抽出部と、
抽出した特徴量と、登録されている前記特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、判定部と、
を備えていることを特徴とする情報管理装置。

（付記２）
前記ルールが、情報を構成する特定の属性に基づいて情報を分割するルール、及び情報に含まれる特定の属性値に基づいて情報を分割するルールのうち、少なくとも１つを含み、
前記特徴量登録部に登録されている特徴量を得るために用いられるルールと、前記領域分割部が用いるルールとは、同一のルールである、
付記１に記載の情報管理装置。

（付記３）
前記領域分割部が、前記管理対象となる情報を分割し、
前記特徴量抽出部が、前記管理対象となる情報の分割によって得られた領域毎に、特徴量を抽出し、
前記特徴量登録部が、前記特徴量抽出部によって、前記管理対象となる情報の分割によって得られた領域から抽出された特徴量を登録する、
付記１または２に記載の情報管理装置。

（付記４）
前記管理対象となる情報の重要度を計算し、計算した重要度に応じて、前記領域分割部による分割に用いられる前記ルールの数を増減させる、重要度計算部を更に備えている、
付記３に記載の情報管理装置。

（付記５）
管理対象となる情報が、個人情報である、
付記１〜４のいずれかに記載の情報管理装置。

（付記６）
（ａ）予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録する、ステップと、
（ｂ）外部から入力された情報を、前記ルールに基づいて、複数の領域に分割する、ステップと、
（ｃ）分割によって得られた領域毎に、特徴量を抽出する、ステップと、
（ｄ）抽出した特徴量と、登録されている前記特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、ステップと、
を有することを特徴とする情報管理方法。

（付記７）
前記ルールが、情報を構成する特定の属性に基づいて情報を分割するルール、及び情報に含まれる特定の属性値に基づいて情報を分割するルールのうち、少なくとも１つを含み、
前記（ａ）のステップで登録される特徴量を得るために用いられるルールと、前記（ｂ）のステップで用いるルールとは、同一のルールである、
付記６に記載の情報管理方法。

（付記８）
（ｅ）前記ルールに基づいて、前記管理対象となる情報を、複数の領域に分割する、ステップと、
（ｆ）前記管理対象となる情報の分割によって得られた領域毎に、特徴量を抽出する、ステップと、を更に有し、
前記（ａ）のステップにおいて、前記（ｆ）のステップによって抽出された特徴量を登録する、
付記６または７に記載の情報管理方法。

（付記９）
（ｇ）前記管理対象となる情報の重要度を計算し、計算した重要度に応じて、前記（ｂ）のステップ及び前記（ｅ）のステップによる分割に用いられる前記ルールの数を増減させる、ステップを更に有する、
付記８に記載の情報管理方法。

（付記１０）
管理対象となる情報が、個人情報である、
付記６〜９のいずれかに記載の情報管理方法。

（付記１１）
コンピュータに、
（ａ）予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録する、ステップと、
（ｂ）外部から入力された情報を、前記ルールに基づいて、複数の領域に分割する、ステップと、
（ｃ）分割によって得られた領域毎に、特徴量を抽出する、ステップと、
（ｄ）抽出した特徴量と、登録されている前記特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、ステップと、
を実行させるプログラム。

（付記１２）
前記ルールが、情報を構成する特定の属性に基づいて情報を分割するルール、及び情報に含まれる特定の属性値に基づいて情報を分割するルールのうち、少なくとも１つを含み、
前記（ａ）のステップで登録される特徴量を得るために用いられるルールと、前記（ｂ）のステップで用いるルールとは、同一のルールである、
付記１１に記載のプログラム。

（付記１３）
前記コンピュータに、
（ｅ）前記ルールに基づいて、前記管理対象となる情報を、複数の領域に分割する、ステップと、
（ｆ）前記管理対象となる情報の分割によって得られた領域毎に、特徴量を抽出する、ステップと、を更に実行させ、
前記（ａ）のステップにおいて、前記（ｆ）のステップによって抽出された特徴量を登録する、
付記１１または１２に記載のプログラム。

（付記１４）
前記コンピュータに、
（ｇ）前記管理対象となる情報の重要度を計算し、計算した重要度に応じて、前記（ｂ）のステップ及び前記（ｅ）のステップによる分割に用いられる前記ルールの数を増減させる、ステップを更に実行させる、
付記１３に記載のプログラム。

（付記１５）
管理対象となる情報が、個人情報である、
付記１１〜１４のいずれかに記載のプログラム。

以上のように、本発明によれば、システムにかかる負担を増加させることなく、元のファイルが改変された場合でも、情報の流出元を特定できるようにすることができる。本発明は、ファイルサーバを利用している企業で、ファイルサーバ上に個人情報を含むファイルを置いている（あるいは誤っておかれている）状況である場合に、個人情報を含むファイルが流出してしまった際に、流出元のファイルを効率的に特定するために用いることが出来る。

１情報管理措置
２特徴量登録部
３領域分割部
４特徴量抽出部
５判定部
６ファイル取得部
７個人情報検出部
８分割ルール
９データベース
１０ネットワーク
１１重要度計算部
２０端末装置
３０ファイルサーバ
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

Claims

予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録している、特徴量登録部と、
外部から入力された情報を、前記ルールに基づいて、複数の領域に分割する、領域分割部と、
分割によって得られた領域毎に、特徴量を抽出する、特徴量抽出部と、
抽出した特徴量と、登録されている前記特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、判定部と、
を備えていることを特徴とする情報管理装置。
前記ルールが、情報を構成する特定の属性に基づいて情報を分割するルール、及び情報に含まれる特定の属性値に基づいて情報を分割するルールのうち、少なくとも１つを含み、
前記特徴量登録部に登録されている特徴量を得るために用いられるルールと、前記領域分割部が用いるルールとは、同一のルールである、
請求項１に記載の情報管理装置。
前記領域分割部が、前記管理対象となる情報を分割し、
前記特徴量抽出部が、前記管理対象となる情報の分割によって得られた領域毎に、特徴量を抽出し、
前記特徴量登録部が、前記特徴量抽出部によって、前記管理対象となる情報の分割によって得られた領域から抽出された特徴量を登録する、
請求項１または２に記載の情報管理装置。
前記管理対象となる情報の重要度を計算し、計算した重要度に応じて、前記領域分割部による分割に用いられる前記ルールの数を増減させる、重要度計算部を更に備えている、
請求項３に記載の情報管理装置。
管理対象となる情報が、個人情報である、
請求項１〜４のいずれかに記載の情報管理装置。
（ａ）予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録する、ステップと、
（ｂ）外部から入力された情報を、前記ルールに基づいて、複数の領域に分割する、ステップと、
（ｃ）分割によって得られた領域毎に、特徴量を抽出する、ステップと、
（ｄ）抽出した特徴量と、登録されている前記特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、ステップと、
を有することを特徴とする情報管理方法。
コンピュータに、
（ａ）予め設定されたルールに基づいて、管理対象となる情報を分割して得られた、複数の領域それぞれの特徴量を登録する、ステップと、
（ｂ）外部から入力された情報を、前記ルールに基づいて、複数の領域に分割する、ステップと、
（ｃ）分割によって得られた領域毎に、特徴量を抽出する、ステップと、
（ｄ）抽出した特徴量と、登録されている前記特徴量とを比較して、外部から入力された情報と管理対象となる情報とが、一致しているかどうかを判定する、ステップと、
を実行させるプログラム。