JP7096222B2

JP7096222B2 - リスク評価装置、リスク評価方法及びリスク評価プログラム

Info

Publication number: JP7096222B2
Application number: JP2019178329A
Authority: JP
Inventors: 知明三本; 晋作清本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-07-05
Anticipated expiration: 2039-09-30
Also published as: JP2021056698A

Description

本発明は、文書データを公開する際のリスクを評価する方法に関する。

従来、データセットの匿名化技術として、ｋ－匿名化等の様々な手法が提案されている。ところが、これらの手法は、一般の文書データを対象とするものではなかった。文書データの匿名化に関しては、非特許文献１及び２のように、文書中の単語の出現回数等から情報量を算出することで、リスクを評価する手法が提案されている。

ＤａｖｉｄＳｎｃｈｅｚ，ａｎｄＭｏｎｔｓｅｒｒａｔＢａｔｅｔ， "Ｃ－ｓａｎｉｔｉｚｅｄ：Ａｐｒｉｖａｃｙｍｏｄｅｌｆｏｒｄｏｃｕｍｅｎｔｒｅｄａｃｔｉｏｎａｎｄｓａｎｉｔｉｚａｔｉｏｎ"，ＪｏｕｒｎａｌｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，１４８－１６３，２０１６，ＷｉｌｅｙＯｎｌｉｎｅＬｉｂｒａｒｙ．ＶｅｎｋａｔｅｓａｎＴ．Ｃｈａｋａｒａｖａｒｔｈｙ，ＨｉｍａｎｓｈｕＧｕｐｔａ，ＰｒａｓａｎＲｏｙ，ａｎｄＭｕｋｅｓｈＫ．Ｍｏｈａｎｉａ， "ＥｆｆｉｃｉｅｎｔＴｅｃｈｎｉｑｕｅｓｆｏｒＤｏｃｕｍｅｎｔＳａｎｉｔｉｚａｔｉｏｎ"，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭｃｏｎｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄｋｎｏｗｌｅｄｇｅｍａｎａｇｅｍｅｎｔ，８４３－８５２，２００８．

従来の手法では、文書データに含まれる個人の病名、又は政治・宗教に関する思想等、センシティブな情報が秘匿されているかという観点でリスク評価が実施されている。
しかしながら、例えば学校の事故レポートのように、文書データ自体に個人と紐づけられたセンシティブな情報が含まれていない場合であっても、この文書データに関連する個人情報及び追加情報が入手され紐付けされる可能性があった。したがって、文書データのみから十分にリスクを評価することは難しかった。

本発明は、文書データを公開する際のリスクを適切に評価できるリスク評価装置、リスク評価方法及びリスク評価プログラムを提供することを目的とする。

本発明に係るリスク評価装置は、文書データに含まれる単語それぞれの情報量を算出する情報量算出部と、前記情報量の高い所定数の単語のうち、所定数の単語の組み合わせによりＷｅｂ検索を行い、検索結果の上位から所定数を取得する検索部と、前記検索部により取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価部と、を備える。

前記検索部は、指定された最大数までの単語の組み合わせによりＷｅｂ検索を行ってもよい。

前記検索部は、前記組み合わせのパターンを変えて、指定された回数のＷｅｂ検索を行い、それぞれの検索結果の上位を取得してもよい。

前記評価部は、前記検索部により取得された検索結果のうち、前記一致度合いが閾値を超える割合に基づいて評価してもよい。

前記リスク評価装置は、前記検索部により取得された検索結果から、所定の条件を満たす固有名詞を抽出する抽出部を備え、前記評価部は、前記固有名詞が抽出された場合に、前記文書リスクを高く調整してもよい。

前記リスク評価装置は、前記文書データの話題性を示す指標を取得する指標取得部を備え、前記評価部は、前記指標に応じて、前記文書リスクの評価を調整してもよい。

前記指標取得部は、前記文書データの内容を、機械学習により所定の区分のいずれかに分類し、当該区分に対応付けられた指標を取得してもよい。

前記情報量算出部は、前記一致度合いが閾値を超えた検索結果の文書データに含まれる単語それぞれの情報量を算出し、前記検索部は、前記検索結果の文書データに所定以上の情報量の単語が含まれる場合、当該単語を含む組み合わせにより再度Ｗｅｂ検索を行ってもよい。

前記評価部は、さらに、前記組み合わせ毎に前記文書リスクを評価し、当該文書リスクを統合することにより、単語毎の個別リスクを評価してもよい。

前記評価部は、前記個別リスクが所定以上の単語を所定のルールに従って汎化した場合の文書データに対して前記文書リスクを再評価し、汎化による当該文書リスクの変化量を提示してもよい。

本発明に係るリスク評価方法は、文書データに含まれる単語それぞれの情報量を算出する情報量算出ステップと、前記情報量の高い所定数の単語のうち、所定数の単語の組み合わせによりＷｅｂ検索を行い、検索結果の上位から所定数を取得する検索ステップと、前記検索ステップにおいて取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価ステップと、をコンピュータが実行する。

本発明に係るリスク評価プログラムは、前記リスク評価装置としてコンピュータを機能させるためのものである。

本発明によれば、文書データを公開する際のリスクを適切に評価できる。

本実施形態において想定される攻撃を例示する図である。本実施形態におけるリスク評価装置の機能構成を示す図である。本実施形態におけるリスク評価方法を示すフローチャートである。

以下、本発明の実施形態の一例について説明する。
本実施形態におけるリスク評価方法では、攻撃者が一般的な検索能力を保有することを想定し、Ｗｅｂ検索による攻撃に対する文書データのリスクが評価される。

図１は、本実施形態において想定される攻撃を例示する図である。
攻撃者は、文書データからキーワードを抽出し、これらのキーワードを用いてＷｅｂ検索を行う。その後、攻撃者は、検索結果から文書データに関する情報、特に個人を特定し、特定した情報（例えば、「△△君」）と文書データに含まれるセンシティブな情報（例えば、「給付金１５００万円」）との紐付けを試みる。

本実施形態のリスク評価方法を実施する装置（コンピュータ）は、このようなＷｅｂ検索をシミュレーションすることで、文書データに関連する情報が攻撃者に発見されるリスクを定量的に評価する。

図２は、本実施形態におけるリスク評価装置１の機能構成を示す図である。
リスク評価装置１は、サーバ又はパーソナルコンピュータ等の情報処理装置（コンピュータ）であり、制御部１０及び記憶部２０の他、各種データの入出力デバイス及び通信デバイス等を備える。

制御部１０は、リスク評価装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部１０は、ＣＰＵであってよい。

記憶部２０は、ハードウェア群をリスク評価装置１として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ又はハードディスク（ＨＤＤ）等であってよい。具体的には、記憶部２０は、本実施形態の各機能を制御部１０に実行させるためのプログラム（リスク評価プログラム）、パラメータ、及びこのプログラムが処理対象とする文書データを含む文書データセット等を記憶する。

制御部１０は、形態素解析部１１と、情報量算出部１２と、検索部１３と、抽出部１４と、指標取得部１５と、評価部１６とを備える。
制御部１０は、これらの機能部により、文書データから関連情報を検索されるリスクを評価することで、文書データの匿名化を促す。

形態素解析部１１は、対象の文書データに対して形態素解析を行い、単語に分割する。さらに、形態素解析部１１は、得られた単語のうち、リスクとなりうる特定の品詞（例えば、名詞、動詞等）のものを抽出する。

情報量算出部１２は、形態素解析部１１により抽出された単語それぞれの情報量を算出する。
単語ｘの情報量Ｉ（ｘ）は、例えば、Ｉ（ｘ）＝－ｌｏｇＰ（ｘ）で表現できる。なお、Ｐ（ｘ）は、単語ｘの出現確率を表し、ｘの出現回数を全単語数で割ることで求められる。あるいは、情報量Ｉ（ｘ）は、文書データセットＤを用いて、ＴＦ－ＩＤＦ等の指標により算出されてもよい。

検索部１３は、算出された情報量の高い所定数（ｎ個）の単語のうち、指定された最大数（ｍ個）までの単語の組み合わせによりＷｅｂ検索を行い、検索結果の上位から所定数を取得する。
なお、組み合わせの数は、Σ_ｍ（_ｎＣ_ｍ）通りとなり、ｎ及びｍの指定によっては全通りの検索の回数が膨大となる。このため、検索の回数に上限を設ける、あるいは、一度の検索に用いる単語（キーワード）の数を最大数ｍまで変動させるのではなく所定数に固定させてもよい。
検索部１３は、単語の組み合わせのパターンを変えて、例えば指定された回数のＷｅｂ検索を行い、それぞれの検索結果の上位（例えば１０件ずつ）を取得する。

抽出部１４は、検索部１３により取得された検索結果から、所定の条件を満たす固有名詞を抽出する。
例えば、文書データが事故レポート等の場合、固有名詞は、被害者の名前が相当し、攻撃者により文書データと紐づけられることで個人に関するセンシティブな情報が知られることとなる。

指標取得部１５は、文書データの話題性を示す指標を取得し、評価部１６へ提供する。
話題性は、例えば、事故による怪我の程度等であり、関連情報の多さ、すなわち検索されやすさを示す。この指標は、文書データに予め手動で付与されていてもよいし、既存の言語処理の手法を用いて文書データの内容に応じて付与されてもよい。
例えば、指標取得部１５は、文書データの内容を、機械学習により所定の区分（例えば、重症又は軽傷、あるいは、死亡事故又は非死亡事故）のいずれかに分類し、この区分に対応付けられた指標を取得する。

評価部１６は、検索部１３により取得された検索結果の全体に対して、文書データから抽出された所定数（ｎ個）の単語に含まれ、かつ、検索に用いた組み合わせに含まれない単語群との一致度合いに基づいて、文書データとの紐づけによるリスクを評価する。
具体的には、例えば、評価部１６は、検索部１３により取得された検索結果のうち、一致度合いが閾値を超える、すなわち検索キーワードに用いなかった単語と同一又は類似の単語が所定以上含まれる検索結果（記事）の割合に基づいて評価してよい。

また、評価部１６は、指標取得部１５から得られた指標に応じて、リスクの評価を調整する。すなわち、文書データの話題性が高い場合、関連情報が検索される可能性も高いため、リスクが高く評価される。
さらに、評価部１６は、抽出部１４により被害者の個人名等の固有名詞が抽出された場合に、リスクを高く調整する。

評価部１６は、さらに、Ｗｅｂ検索を行った単語の組み合わせ毎にリスクを評価し、これらのリスクを統合することにより、単語毎の個別リスクを評価してもよい。例えば、単語の一致度合いが閾値を超える検索結果が所定以上得られた際の検索キーワードに含まれる単語は、記載されることにリスクがあると判断される。さらに、異なる組み合わせでも同様にリスクが高いと判断される単語については、より高いリスクがあると評価される。
得られた単語毎の評価は、ユーザに提示されて個別リスクの高い単語の匿名化が促される。あるいは、所定以上の個別リスクのある単語が自動で汎化されることで匿名化されてもよいし、汎化候補が提示されてもよい。

さらに、評価部１６は、個別リスクの高い単語を汎化した場合の文書データのリスクを再評価し、汎化による文書データのリスクの変化量（低下量）をユーザに提示してもよい。
なお、汎化の対象は、個別リスクが所定以上の単語全てであってもよいが、評価部１６は、個別リスクが上位の単語を優先して、順に文書データのリスクの変化量と共にユーザに提示してもよい。

図３は、本実施形態におけるリスク評価方法を示すフローチャートである。
ここでは、文書データから抽出する検索キーワードの候補となる単語の数ｎ、検索キーワードとして用いる単語数ｍ、Ｗｅｂ検索の実行回数ｉ、検索結果の取得数ｊ、及び文書データの話題性（センシティビティ）を示す指標εがパラメータとして入力されているものとする。なお、指標εは、前述のように文書データの意味解析により算出されてもよい。

ステップＳ１において、形態素解析部１１は、対象の文書データに対して形態素解析を行い、名詞及び動詞等の特定の品詞の単語を、攻撃者により検索キーワードとされる可能性が高い単語として抽出する。

ステップＳ２において、情報量算出部１２は、ステップＳ１で抽出された単語それぞれの情報量を、出現頻度に基づく指標により算出する。

ステップＳ３において、検索部１３は、ステップＳ２で算出された情報量が高いｎ個の単語を抽出し、この中からｍ個の単語をランダムに選択してＷｅｂ検索をｋ回実行する。そして、検索部１３は、Ｗｅｂ検索の度に上位からｊ個の検索結果を、全部でｉ×ｊ個の検索結果を得る。

ステップＳ４において、評価部１６は、ステップＳ３で得られたｉ×ｊ個の検索結果から、検索キーワードに使われなかったｎ－ｍ個の単語と同一の又は類似した単語が含まれる割合が所定以上の関連文書を選別する。そして、評価部１６は、検索結果全体に対して選別された関連文書の割合に応じたリスクの評価値を算出する。

ステップＳ５において、抽出部１４は、ステップＳ４で選別された関連文書の中に、被害者の名前等、特定の条件を満たす固有名詞が存在するか否かを判定する。この判定がＹＥＳの場合、処理はステップＳ６に移り、判定がＮＯの場合、処理はステップＳ７に移る。

ステップＳ６において、評価部１６は、ステップＳ４で算出された評価値を調整し、リスクを高く評価する。なお、評価部１６は、ステップＳ５において該当の固有名詞が存在する関連文書の割合に応じて評価値の上げ幅又は上げ率を調整してもよい。

ステップＳ７において、評価部１６は、文書データの話題性を示す指標εに基づいて、評価値を調整し、話題性の高い文書データほど、リスクを高く評価する。

本実施形態によれば、リスク評価装置１は、文書データに含まれる情報量の高い所定数の単語のうち、指定された所定数の単語の組み合わせを検索キーワードとしてＷｅｂ検索を行い、検索結果の上位から所定数を取得する。リスク評価装置１は、検索結果に対して、所定数の単語に含まれ、かつ、検索キーワードに含まれない単語群との一致度合いに基づいて、文書データとの紐づけによるリスクを評価する。
これにより、リスク評価装置１は、文書データを公開する際に、実際の攻撃をシミュレーションすることで、文書データに関連する個人及び追加情報等が攻撃者に入手されるリスクを定量的に適切に評価することができる。

リスク評価装置１は、指定された最大数までの単語の組み合わせによりＷｅｂ検索を行うことにより、攻撃者による検索キーワードの選択数を複数シミュレーションでき、文書データのリスクを適切に評価できる。

リスク評価装置１は、検索キーワードの組み合わせのパターンを変えて、指定された回数のＷｅｂ検索を行い、それぞれの検索結果の上位を取得する。
これにより、リスク評価装置１は、複数の検索パターンをシミュレーションすることで、様々な観点の検索結果を取得でき、関連情報が入手されるリスクを、より適切に評価できる。

リスク評価装置１は、検索結果のうち、検索キーワード以外の単語の一致度合いが閾値を超える割合に基づいてリスクを評価する。
これにより、リスク評価装置１は、文書データと紐付けられる関連情報を効率的に判別し、リスクを適切に評価できる。

リスク評価装置１は、検索結果から、所定の条件を満たす固有名詞が抽出された場合に、リスクを高く調整する。
これにより、リスク評価装置１は、攻撃者により文書データと個人名又は学校名等の固有名詞とが紐付けられる可能性を判定し、適切にリスクを評価できる。

リスクを評価装置１は、文書データの話題性を示す指標に応じて、リスクの評価を調整する。
例えば文書データが事故レポートの場合、事故の程度によって記事の数が異なるため、重大事故で話題性が高い場合には、低い情報量の単語からでも容易に当該事故の記事が検索されることから、リスクを評価装置１は、関連情報の紐付けのリスクを現実に則して適切に評価できる。

また、リスクを評価装置１は、文書データの内容を、機械学習により所定の区分のいずれかに分類し、これらの区分に対応付けられた指標を取得することで、事前に判別されない指標を適切に付与してリスクを適切に評価できる。

リスク評価装置１は、単語の組み合わせ毎にリスクを評価し、評価結果を統合することにより、単語毎の個別リスクを評価する。
これにより、リスク評価装置１は、文書データに含まれる個別リスクの高い単語を提示して公開前に匿名化を促す、又は自動的に汎化することで、文書データのリスクを低減させることができる。

さらに、リスク評価装置１は、個別リスクが所定以上の単語を汎化した場合の文書データのリスクを再評価し、汎化による文書データのリスクの変化量を提示する。
これにより、リスク評価装置１は、どのような汎化で文書データのリスクがどれだけ低下するかを示し、ユーザに文書データの匿名化を適切なレベルで実施させることができる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

前述の実施形態では、評価対象の文書データに含まれる単語によりＷｅｂ検索を行ったが、実際には、検索結果に含まれる単語による再検索が行われることも考えられる。
したがって、リスク評価装置１は、リスク評価のために検索された関連文書からも同様に単語の情報量を算出し、所定以上の情報量の単語が含まれる場合、これらの単語を含む検索キーワードにより再度Ｗｅｂ検索を行ってもよい。
これにより、攻撃者の検索行動をより忠実にシミュレーションできるため、リスクのより適切な評価が期待できる。

リスク評価装置１によるリスク評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ－ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

１リスク評価装置
１０制御部
１１形態素解析部
１２情報量算出部
１３検索部
１４抽出部
１５指標取得部
１６評価部
２０記憶部

Claims

文書データに含まれる単語それぞれの情報量を算出する情報量算出部と、
前記情報量の上位から所定数の単語のうち、複数の単語の組み合わせによりＷｅｂ検索を行い、検索結果の上位から所定数を取得する検索部と、
前記検索部により取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価部と、を備えるリスク評価装置。
前記検索部は、指定された最大数までの単語の組み合わせによりＷｅｂ検索を行う請求項１に記載のリスク評価装置。
前記検索部は、前記組み合わせのパターンを変えて、指定された回数のＷｅｂ検索を行い、それぞれの検索結果の上位を取得する請求項１又は請求項２に記載のリスク評価装置。
前記評価部は、前記検索部により取得された検索結果のうち、前記一致度合いが閾値を超える割合に基づいて評価する請求項１から請求項３のいずれかに記載のリスク評価装置。
前記検索部により取得された検索結果から、所定の条件を満たす固有名詞を抽出する抽出部を備え、
前記評価部は、前記固有名詞が抽出された場合に、前記文書リスクを高く調整する請求項１から請求項４のいずれかに記載のリスク評価装置。
前記文書データの話題性を示す指標を取得する指標取得部を備え、
前記評価部は、前記指標に応じて、前記文書リスクの評価を調整する請求項１から請求項５のいずれかに記載のリスク評価装置。
前記指標取得部は、前記文書データの内容を、機械学習により所定の区分のいずれかに分類し、当該区分に対応付けられた指標を取得する請求項６に記載のリスク評価装置。
前記情報量算出部は、前記一致度合いが閾値を超えた検索結果の文書データに含まれる単語それぞれの情報量を算出し、
前記検索部は、前記検索結果の文書データに所定以上の情報量の単語が含まれる場合、当該単語を含む組み合わせにより再度Ｗｅｂ検索を行う請求項１から請求項７のいずれかに記載のリスク評価装置。
前記評価部は、さらに、前記組み合わせ毎に前記文書リスクを評価し、当該文書リスクを統合することにより、単語毎の個別リスクを評価する請求項１から請求項８に記載のリスク評価装置。
前記評価部は、前記個別リスクが所定以上の単語を所定のルールに従って汎化した場合の文書データに対して前記文書リスクを再評価し、汎化による当該文書リスクの変化量を提示する請求項９に記載のリスク評価装置。
文書データに含まれる単語それぞれの情報量を算出する情報量算出ステップと、
前記情報量の上位から所定数の単語のうち、複数の単語の組み合わせによりＷｅｂ検索を行い、検索結果の上位から所定数を取得する検索ステップと、
前記検索ステップにおいて取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価ステップと、をコンピュータが実行するリスク評価方法。
請求項１から請求項１０のいずれかに記載のリスク評価装置としてコンピュータを機能させるためのリスク評価プログラム。