WO2016121493A1

WO2016121493A1 - 匿名化処理装置、匿名化処理方法及びプログラム

Info

Publication number: WO2016121493A1
Application number: PCT/JP2016/050737
Authority: WO
Inventors: 敬祐 ▲高▼橋; 光佑矢葺; 祐亮組橋
Original assignee: 株式会社エヌ・ティ・ティピー・シーコミュニケーションズ
Priority date: 2015-01-27
Filing date: 2016-01-12
Publication date: 2016-08-04
Also published as: EP3252650B1; EP3252650A1; US10817621B2; JP2016139261A; DK3252650T3; EP3252650A4; JP6456162B2; US20180012039A1

Abstract

　入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置であって、前記入力データを受け付ける入力部と、前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理部と、匿名化済みデータを記憶する第一の記憶部と、前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力部と、を有する。

Description

匿名化処理装置、匿名化処理方法及びプログラム

　本発明は、匿名化処理装置、匿名化処理方法及びプログラムに関する。

　近年、レコメンド技術のように、大量の個人情報を分析し、分析結果から得られる情報を様々に活用する技術が発達してきている。また、個人情報を分析するにあたり、個人のプライバシーを保護しつつデータ分析を行うことを可能にする匿名化技術が知られている。

　従来の匿名化技術は、大量の個人情報を格納したデータベースに対して、個人情報のうち予め決められた特定のカラムをバッチ処理で削除することで、匿名化処理を行っていた。

特開２０１４－１５３９４３号公報

　しかしながら、従来の匿名化技術はバッチ処理にて匿名化処理を行うことから、継続的にデータが入力されるリアルタイム処理システムに匿名化技術を適用することは困難であった。

　開示の技術は上記に鑑みてなされたものであって、継続的に入力されるデータに対してリアルタイム性を保ちつつ匿名化することができる技術を提供することを目的とする。

　開示の技術の匿名化処理装置は、入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置であって、前記入力データを受け付ける入力部と、前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理部と、匿名化済みデータを記憶する第一の記憶部と、前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力部と、を有する。

　開示の技術によれば、継続的に入力されるデータに対してリアルタイム性を保ちつつ匿名化することができる技術を提供することができる。

実施の形態に係る匿名化処理装置の概要を示す図である。実施の形態に係る匿名化処理装置のハードウェア構成の一例を示す図である。実施の形態に係る匿名化処理装置のソフトウェア構成の一例を示す図である。設定情報の一例を示す図である。設定情報の一例を示す図である。設定情報の一例を示す図である。設定情報の一例を示す図である。入力データ格納処理の処理手順の一例を示す図である。匿名化前データ及び匿名化処理管理情報の一例を示す図である。匿名化前データ及び匿名化処理管理情報の一例を示す図である。匿名化方法及び匿名化レベルを設定する処理手順の一例を示す図である。匿名化方法及び匿名化レベルが設定された匿名化処理管理情報の一例を示す図である。匿名化処理の処理手順の一例を示す図である。匿名化後データ及び匿名化処理管理情報の一例を示す図である。匿名化後データ及び匿名化処理管理情報の一例を示す図である。出力処理の処理手順の一例を示す図である。出力判断部の処理で入出力される各種データの一例を示す図である。出力判断部の処理で入出力される各種データの一例を示す図である。出力判断部の処理で入出力される各種データの一例を示す図である。出力判断部の処理で入出力される各種データの一例を示す図である。出力判断部の処理で入出力される各種データの一例を示す図である。出力判断部の処理で入出力される各種データの一例を示す図である。教師データの一例を示す図である。教師データの一例を示す図である。匿名化処理における一般化の度合いを変更する場合の処理手順の一例を示す図である。

　以下、図面を参照して実施の形態について説明する。各図面において、同一構成部分には同一符号を付し、重複した説明を省略する場合がある。

　＜概要＞
　図１は、実施の形態に係る匿名化処理装置の概要を示す図である。匿名化処理装置１０は、外部システム等から、個人情報が含まれた入力データを受け付け、受け付けた入力データに対して匿名化処理を行う。また、匿名化処理装置１０は、匿名化されたデータ（出力データ）を外部システム等に対して出力する。

　ここで、匿名化とは、個人情報から個人を特定する情報を取り除いたり（除去）、個人を特定する情報を確率的に変化させたり（ランダム化）、又は、個人を特定する情報の精度を落としたりする（一般化）ことで、個人を特定しにくくするデータ加工方法をいう。また、匿名性を評価する指標（匿名性指標）として、ｋ－匿名性が知られている。ｋ－匿名性とは、同じような属性の人が必ずｋ人以上存在する状態のことをいう。例えば、年齢が「３０台」であると共に住所が「東京都港区」である人が１０人存在する場合、このデータの匿名性は「ｋ＝１０」と表現される。すなわち、ｋの値が大きいほど同じような属性を有する人が多いことになり、個人を特定しにくくなる（匿名性が高まる）。

　匿名化処理装置１０は、入力されたデータに対してリアルタイムに匿名化を行うために、入力されたデータ及び匿名化されたデータを一旦インメモリデータベースに格納し、匿名化されたデータがｋ－匿名性を満たす場合に、匿名化されたデータを外部システム等に対して出力する。

　また、匿名化処理装置１０は、入力されたデータを全てデータベースに蓄積し、適宜バッチ処理にて匿名化を行うシステムとは異なり、リアルタイム性を保ちつつ匿名化することを目的としている。そのため、匿名化処理装置１０は、匿名化されたデータがすぐに出力できない場合（例えば、匿名化されたデータが所定の時間内にｋ－匿名性を満たせない場合、又は、インメモリデータベース内に蓄積されたレコード数が所定の閾値を超えた場合など）は、データの鮮度が落ちるため、匿名化されたデータを外部システム等に対して出力せずにインメモリデータベースから消去するようにする。

　また、匿名化処理装置１０は、入力されたデータに対して、どのような匿名化方法（除去、ランダム化又は一般化）で匿名化を行うのかを示す情報、及び、匿名化方法ごとの匿名化の程度を示す情報に基づいて匿名化を行う。また、匿名化処理装置１０は、匿名化されたデータが匿名性指標を満たせているのか、又は、匿名化されたデータが匿名性指標を満たせていないのかという評価結果（教師データ）を学習することで、個人を特定する情報を一般化する場合に、どの程度の一般化（以下、「一般化の度合い」ということがある）を行うのかを調整するオンライン機械学習フレームワークの機能を有する。

　なお、本実施の形態において、匿名化処理装置１０に入力されるデータは、病院等で扱われる個人情報である前提で説明するが、本実施の形態に係る匿名化処理装置１０は、他の個人情報を扱うシステムに対しても適用することが可能である。

　なお、本実施の形態において、匿名化処理装置１０は、処理速度を向上させるためにインメモリデータベースを用いているが、他のデータベースを用いるようにしてもよい。

　なお、本実施の形態において、匿名化処理装置１０は、匿名性指標としてｋ－匿名性を用いているが、他の匿名性指標を用いるようにしてもよい。

　なお、本実施の形態において、匿名化処理装置１０は、匿名化方法として、除去、ランダム化、及び一般化を用いているが、これらの匿名化方法に限られず、他の匿名化方法を用いるようにしてもよい。

　＜ハードウェア構成＞
　図２は、実施の形態に係る匿名化処理装置のハードウェア構成の一例を示す図である。実施の形態に係る匿名化処理装置１０は、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、ＨＤＤ１０４と、操作部１０５と、表示部１０６と、ドライブ装置１０７と、ＮＩＣ（Network Interface card）１０８とを有する。

　ＣＰＵ１０１は、匿名化処理装置１０の全体制御を行うプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０４等に記憶されたオペレーティングシステム、アプリケーション、各種サービス等のプログラムを実行し、匿名化処理装置１０の各種機能を実現する。ＲＯＭ１０２には、各種のプログラムやプログラムによって利用されるデータ等が記憶される。ＲＡＭ１０３は、プログラムをロードするための記憶領域や、ロードされたプログラムのワーク領域等として用いられる。また、ＲＡＭ１０３は、匿名化処理を行う際に用いるインメモリデータベースを保持する。ＨＤＤ１０４には、各種情報及びプログラム等が記憶される。

　操作部１０５は、ユーザからの入力操作を受け付けるためのハードウェアであり、例えばキーボード又はマウスである。表示部１０６は、利用者に向けた表示を行うハードウェアである。

　ドライブ装置１０７は、プログラムを記録した記憶媒体１０９からプログラムを読み取る。ドライブ装置１０７によって読み取られたプログラムは、例えば、ＨＤＤ１０４にインストールされる。ＮＩＣ１０８は、匿名化処理装置１０をネットワークに接続し、データの送受信を行うための通信インタフェースである。

　なお、記憶媒体１０９とは、非一時的（non-transitory）な記憶媒体を言う。記憶媒体１０９の例としては、磁気記憶媒体、光ディスク、光磁気記憶媒体、不揮発性メモリなどがある。

　＜ソフトウェア構成＞
　図３は、実施の形態に係る匿名化処理装置のソフトウェア構成の一例を示す図である。実施の形態に係る匿名化処理装置１０は、一時記憶部２０１と、設定情報記憶部２０２と、入力部２０３と、機械学習部２０４と、匿名化処理部２０５と、出力判断部２０６と、匿名化パターンＤＢ記憶部２０７とを有する。これら各手段は、匿名化処理装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０１に実行させる処理により実現され得る。

　一時記憶部２０１は、匿名化前データＤＢ（Database）と、匿名化後データＤＢと、匿名化処理管理情報ＤＢとを有する。匿名化前データＤＢは、匿名化前データ（匿名化処理される前のデータ）を格納するＤＢであり、レコード毎に１つの匿名化前データを格納する。匿名化後データＤＢは、匿名化後データ（匿名化処理された後のデータ）を格納するＤＢであり、レコード毎に１つの匿名化後データを格納する。匿名化処理管理情報ＤＢは、レコード毎に１つの匿名化処理管理情報を格納する。匿名化処理管理情報は、匿名化前データと匿名化後データとを対応づけると共に、匿名化処理の進行状況と、匿名化方法及び匿名化レベルを示す情報とを含む。一時記憶部２０１は、ＲＡＭ１０３に構築されるインメモリデータベースにより実現される。なお、一時記憶部２０１は、ＲＡＭ１０３ではなく、ＨＤＤ１０４等に構築される一般的なデータベースにより実現されるようにしてもよい。

　設定情報記憶部２０２は、匿名化処理装置１０の動作に係る各種設定情報を格納する。入力部２０３、機械学習部２０４、匿名化処理部２０５及び出力判断部２０６は、設定情報記憶部２０２に格納される各種設定情報を必要に応じて参照することができる。

　入力部２０３は、外部システム等から入力データを受け付け、匿名化前データＤＢに新たなレコードを追加して、追加したレコードに受け付けた入力データを格納する。また、生成したレコードに対応する匿名化処理管理情報ＤＢに新たなレコードを追加する。

　機械学習部２０４は、教師データによる学習結果に基づき、匿名化前データに対してどのように匿名化を行うのかを示す匿名化方法と、匿名化方法ごとの匿名化レベルとを示す情報を、匿名化処理管理情報ＤＢに格納する。また、機械学習部２０４は、外部から受け取った教師データ又は出力判断部２０６から受け取った教師データに基づき、一般化の度合いを調整する。機械学習部２０４は、一般化の度合いを調整した場合、その旨をＲＰＣ（Remote Procedure Call）にて匿名化処理部２０５に通知する。

　匿名化処理部２０５は、匿名化前データに対応する匿名化処理管理情報に基づいて、匿名化前データを匿名化処理すると共に、匿名化後データＤＢに新たなレコードを追加し、追加したレコードに匿名化したデータを格納する。また、匿名化処理部２０５は、機械学習部２０４から一般化の度合いを変更した旨の通知を受けた場合、既に匿名化処理されたデータに対して再度匿名化処理を行う。

　また、匿名化処理部２０５は、匿名化後データが所定の時間内にｋ－匿名性を満たせない場合、又は、一時記憶部２０１に蓄積されたレコード数が所定の閾値を超えた場合、後述する生成日時が古い順に、匿名化前データと匿名化後データと匿名化処理管理情報とを一時記憶部２０１から削除する。

　出力判断部２０６は、匿名化後データＤＢに格納されている匿名化後データを検索し、匿名化後データがｋ－匿名性を満たすかどうか、又は、匿名化パターンＤＢ記憶部２０７に格納されている匿名化パターンと匿名化後データとが一致するかどうかを判断する。匿名化後データがｋ－匿名性を満たす場合、又は、匿名化パターンと匿名化後データとが一致する場合、出力判断部２０６は、匿名化後データは匿名性指標を満たしていると判断し、匿名化後データを出力データとして出力する。また、出力判断部２０６は、出力データに対応する匿名化前データ、匿名化後データ及び匿名化処理管理情報を、一時記憶部２０１から削除する。

　また、匿名化後データがｋ－匿名性を満たさない場合、又は、匿名化パターンと匿名化後データとが一致しない場合、出力判断部２０６は、匿名化後データは匿名性指標を満たしていないと判断し、匿名化後データを出力データとして出力せずに匿名化後データＤＢに残しておく。

　また、出力判断部２０６は、匿名性指標を満たしているか又は満たしていないかの判断結果を、教師データとして機械学習部２０４に通知する。

　匿名化パターンＤＢ記憶部２０７は、１又は複数の匿名化パターンを格納する。匿名化パターンＤＢは、過去に匿名性指標を満たすと判断された匿名化後データから生成される。言い換えると、匿名化パターンＤＢは、匿名性指標を満たすパターンをデータベース化したものである。出力判断部２０６は、匿名化パターンＤＢを用いて当該匿名化後データと匿名化パターンとが一致するかを確認するだけで、当該匿名化後データが匿名性指標を満たすか否かの判断を行うことができる。

　図４Ａ～Ｄは、設定情報の一例を示す図である。実施の形態に係る匿名化処理装置１０は、設定情報として、ｋ－匿名性指標値、リアルタイム性定義情報、匿名性判定情報、及び出力対象情報を有する。これらの設定情報は、設定情報記憶部２０２に格納される。

　ｋ－匿名性指標値は、ｋ－匿名性の判断に用いる「ｋ」の具体的な数である。リアルタイム性定義情報は、匿名化前データＤＢ及び匿名化後データＤＢに格納されている、匿名化前データ及び匿名化後データの保持期限（生存期限）を定義する情報である。匿名性判定情報は、出力判断部２０６が、匿名化後データに含まれる各種カラムのうち、どのカラムを用いて匿名性を判断すればよいのかを示す情報である。出力対象情報は、匿名化後データに含まれる各種カラムのうち、どのカラムを出力データとして出力するかを示す情報である。出力判断部２０６は、匿名化後データのうち、出力対象情報に示されるカラムを抽出することで出力データを生成する。

　＜処理手順＞
　（入力データ格納処理）
　図５は、入力データ格納処理の処理手順の一例を示す図である。図６Ａ～Ｂは、匿名化前データ及び匿名化処理管理情報の一例を示す図である。図５及び図６Ａ～Ｂを用いて、入力部２０３に入力データが入力され、一時記憶部２０１に格納されるまでの処理手順について説明する。

　ステップＳ３０１で、入力部２０３は、外部システム等から入力データを受け付けると、匿名化前データＤＢに新たなレコードを生成し、匿名化前データＤＢの中でレコードを一意に識別するためのレコードＩＤを格納する。また、入力データを当該新たなレコードに格納する。図６Ａは、入力部２０３により匿名化前データＤＢに追加された匿名化前データの一例である。匿名化前データは、複数のカラム（レコードＩＤ、氏名、年齢、現住所、性別、受信年月日、診療科、担当医ＩＤ、症状）を有する。

　ステップＳ３０２で、入力部２０３は、匿名化処理管理情報ＤＢに新たなレコードを生成し、匿名化処理管理情報ＤＢの中でレコードを一意に識別するためのレコードＩＤを格納する。入力部２０３は、当該新たなレコードに、ステップＳ３０１の処理手順にて生成した匿名化前データのレコードＩＤ及び、ステップＳ３０１の処理手順にて匿名化前データを生成した日時を格納する。図６Ｂは、入力部２０３により匿名化処理管理情報ＤＢに追加された匿名化処理管理情報の一例である。匿名化処理管理情報は、複数のカラム（レコードＩＤ、匿名化前データレコードＩＤ、匿名化後データレコードＩＤ、匿名化方法設定フラグ、匿名化方法、匿名化レベル、匿名化済フラグ、生成日時）を有する。匿名化後データレコードＩＤ、匿名化方法設定フラグ、匿名化方法、匿名化レベル、及び匿名化済フラグは、機械学習部２０４、匿名化処理部２０５及び出力判断部２０６にて処理を行う際に利用されるカラムであるため、「ＮＵＬＬ」又は「ＦＡＬＳＥ」が設定される。生成日時カラムは、匿名化前データが生成された日時を格納するカラムである。

　入力部２０３は、入力データが入力される度にステップＳ３０１及びステップＳ３０２の処理手順を繰り返し行うことで、入力データを一時記憶部２０１に順次格納する。

　（匿名化方法及び匿名化レベルの設定処理）
　図７は、匿名化方法及び匿名化レベルを設定する処理手順の一例を示す図である。図８は、匿名化方法及び匿名化レベルが設定された匿名化処理管理情報の一例を示す図である。図７及び図８を用いて、機械学習部２０４が匿名化処理管理情報に匿名化方法及び匿名化レベルを設定する処理手順について説明する。

　ステップＳ４０１で、機械学習部２０４は、匿名化処理情報ＤＢを検索し、「匿名化方法設定フラグ」がＦＡＬＳＥであるレコードを全て抽出する。ここで、匿名化方法設定フラグとは、機械学習部２０４が匿名化方法及び匿名化レベルを設定済みであるかを示すフラグである。「匿名化方法設定フラグ」が「ＦＡＬＳＥ」である場合、機械学習部２０４が匿名化方法及び匿名化レベルを設定していない状態であることを示し、匿名化方法設定フラグが「ＴＲＵＥ」である場合、機械学習部２０４が匿名化方法及び匿名化レベルを設定済みであることを示す。

　ステップＳ４０２で、機械学習部２０４は、ステップＳ４０１の処理手順で抽出したレコードの「匿名化方法」及び「匿名化レベル」カラムに、匿名化方法及び匿名化レベルを設定する。ここで、「匿名化方法」カラムには、匿名化前データの各カラムのうち、どのカラムをどのような匿名化方法で匿名化するのかを示す情報が格納される。また、「匿名化レベル」カラムには、ランダム化を行う場合にどのような比率でランダム化を行うのか、又は、一般化を行う場合に個人を特定する情報をどの程度一般化するのかを示す情報が格納される。図８に示す匿名化処理管理情報は、機械学習部２０４により「匿名化方法」及び「匿名化レベル」カラムが設定された匿名化処理管理情報の一例である。図８の匿名化処理管理情報は、「匿名化前データレコードＩＤ」カラムが示す匿名化前データに対して、「氏名」カラムを除去し、「年齢」の１の位を０に変更するように一般化し、「現住所」カラムの市区町村以降を削除するように一般化し、「性別」カラムを男女比が１０３：１００になるようにランダム化し、「受信年月日」カラムの日付を削除するように一般化し、「担当医ＩＤ」カラムを除去し、「診療科」カラム及び「症状」カラムをそのまま残すように匿名化処理が行われるようにすることを示している。

　なお、ステップＳ４０１の処理手順で複数のレコードが抽出された場合、機械学習部２０４は、全てのレコードに対してステップＳ４０２の処理を行う。

　（匿名化処理）
　図９は、匿名化処理の処理手順の一例を示す図である。図１０Ａ～Ｂは、匿名化後データ及び匿名化処理管理情報の一例を示す図である。図９及び図１０Ａ～Ｂを用いて、匿名化処理部２０５が、匿名化処理管理情報に基づいて匿名化処理を行う処理手順について説明する。

　ステップＳ５０１で、匿名化処理部２０５は、匿名化処理情報ＤＢから、「匿名化方法設定フラグ」カラムがＴＲＵＥであるレコードを全て抽出する。

　ステップＳ５０２で、匿名化処理部２０５は、ステップＳ５０１の処理手順で抽出したレコードに対応する匿名化前データを、匿名化前データＤＢから検索する。

　ステップＳ５０３で、匿名化処理部２０５は、ステップＳ５０２で検索された匿名化前データに対して、当該匿名化前データに対応する匿名化処理情報の「匿名化方法」及び「匿名化レベル」カラムの設定内容に従って匿名化処理し、匿名化後データＤＢに新たなレコードを生成して格納する。図１０Ａに、匿名化後データＤＢに格納された匿名化後データの具体例を示す。ステップＳ５０２の処理手順で検索された匿名化前データが図６Ａに示す匿名化前データであり、当該匿名化前データに対応する匿名化処理情報が図８に示す匿名化処理情報である場合、匿名化前データは、図１０Ａのように匿名化されることになる。

　ステップＳ５０４で、匿名化処理部２０５は、匿名化処理情報の「匿名化済フラグ」カラムをＴＲＵＥに変更し、ステップＳ５０３の処理手順で匿名化後データＤＢに格納された匿名化後データのレコードＩＤを「匿名化後データレコードＩＤ」カラムに格納する。

　なお、ステップＳ５０１の処理手順で複数のレコードが抽出された場合、匿名化処理部２０５は、全てのレコードに対してステップＳ５０２乃至ステップＳ５０４の処理手順を行う。

　（出力処理）
　図１１は、出力処理の処理手順の一例を示す図である。図１２Ａ～Ｆは、出力判断部２０６の処理で入出力される各種データの一例を示す図である。図１３Ａ～Ｂは、教師データの一例を示す図である。図１１乃至図１３を用いて、匿名化後データに基づいて出力データを出力する処理手順について説明する。

　ステップＳ６０１で、出力判断部２０６は、匿名化処理情報ＤＢから、「匿名化済フラグ」カラムがＴＲＵＥであるレコードを全て抽出する。

　ステップＳ６０２で、出力判断部２０６は、ステップＳ６０１の処理手順で抽出したレコードに対応する匿名化後データを、匿名化後データＤＢから検索する。

　ステップＳ６０３で、出力判断部２０６は、設定情報記憶部２０２から匿名性判定情報を取得する。

　ステップＳ６０４で、出力判断部２０６は、ステップＳ６０２の処理手順で検索された匿名化後データ（以下、「出力判断される匿名化後データ」という）の各カラムのうち、匿名性判定情報に設定されているカラム（以下、「匿名性判定するカラム」という）を選択し、選択した全てのカラムの内容と一致するレコードが、匿名化パターンＤＢに存在するか否かを確認する。選択した全てのカラムの内容と一致するレコードが匿名化パターンＤＢに存在する場合、出力判断される匿名化後データはｋ－匿名性を満たしていると判断してステップＳ６１２の処理手順に進む。選択した全てのカラムの内容と一致するレコードが匿名化パターンＤＢに存在しない場合、ステップＳ６０５の処理手順に進む。

　ここで、図１２Ａ～Ｆを用いて具体例を説明する。出力判断される匿名化後データが図１２Ａに示す匿名化後データであり、匿名化パターンＤＢに、図１２Ｄに示す匿名化パターンが含まれていると仮定する。また、匿名性判定情報には図４Ｃに示すカラム（「氏名」、「年齢」、「現住所」、「性別」、「受信年月日」及び「担当医ＩＤ」）が設定されていると仮定する。

　出力判断部２０６は、図１２Ａに示す出力判断される匿名化後データに含まれるカラムのうち、匿名性判定するカラムを選択し、これらのカラムの設定値と同一の設定値を有するレコードが匿名化パターンＤＢに存在するかを確認する。図１２Ａの出力判断される匿名化後データの匿名性判定するカラムの設定値は、図１２Ｄに示す匿名化パターンのカラムの設定値と同一である。従って、出力判断部２０６は、出力判断される匿名化後データはｋ－匿名性を満たしていると判断してステップＳ６１２の処理手順に進む。

　図１１に戻り説明を続ける。ステップＳ６０５で、出力判断部２０６は、設定情報記憶部２０２からｋ－匿名性指標値を取得する。

　ステップＳ６０６で、出力判断部２０６は、出力判断される匿名化後データの各カラムのうち、匿名性判定するカラムを選択し、選択した全てのカラムの内容と一致するレコードが、匿名化後データＤＢにｋ件以上存在するかを確認する。ｋ件以上存在する場合、出力判断される匿名化後データはｋ－匿名性を満たしていると判断してステップＳ６０８の処理手順に進み、ｋ件以上存在しない場合、出力判断される匿名化後データはｋ－匿名性を満たしていないと判断してステップＳ６０７の処理手順に進む。

　ここで、図１２Ａ～Ｆを用いて具体例を説明する。出力判断される匿名化後データが図１２Ａに示す匿名化後データであり、匿名化後データＤＢに図１２Ｂに示す３件の匿名化後データが存在していると仮定する。また、ｋ－匿名性指標値は「３」であり、匿名性判定情報には図４Ｃに示すカラムが設定されていると仮定する。

　出力判断部２０６は、図１２Ａに示す出力判断される匿名化後データに含まれるカラムのうち、匿名性判定するカラムを選択し、これらのカラムの設定値と同一の設定値を有するレコードが匿名化後データＤＢに存在するかを確認する。図１２Ｂの３件の匿名化後データは、いずれも、匿名性判定するカラムの設定値が、出力判断される匿名化後データのカラムの設定値と同一である。従って、出力判断部２０６は、出力判断される匿名化後データはｋ－匿名性を満たしていると判断してステップＳ６０８の処理手順に進む。

　仮に、図１２Ｂのうち、レコードＩＤがＢ９５であるレコードが匿名化後データＤＢに存在しないとした場合、出力判断される匿名化後データの各カラムのうち、匿名性判定するカラムの内容と一致するレコードは、匿名化後データＤＢに２件しか存在しないことになる。従って、出力判断部２０６は、出力判断される匿名化後データはｋ－匿名性を満たしていないと判断してステップＳ６０７の処理手順に進む。

　図１１に戻り説明を続ける。ステップＳ６０７で、出力判断部２０６は、出力判断される匿名化後データに対応する匿名化前データ及び匿名化処理管理情報から教師データを生成し、生成した教師データを機械学習部２０４に通知する。図１３Ａは、ステップＳ６０７の処理手順で生成される教師データの一例である。教師データは、「ｋ－匿名性基準適合フラグ」カラムが付加された匿名性判定情報と匿名化前データとを有するデータである。「ｋ－匿名性基準適合フラグ」は、匿名化後データがｋ－匿名性を満たしているか否かを示すフラグである。匿名化後データがｋ－匿名性を満たしていると判断された場合、教師データの「ｋ－匿名性基準適合フラグ」にはＴＲＵＥが設定され、ｋ－匿名性を満たしていないと判断された場合、教師データの「ｋ－匿名性基準適合フラグ」にはＦＡＬＳＥが設定される。出力判断部２０６は、ステップＳ６０７の処理手順で教師データを生成する際、「ｋ－匿名性基準適合フラグ」カラムをＦＡＬＳＥに設定する。ステップＳ６０６の処理手順で、出力判断される匿名化後データはｋ－匿名性を満たしていないと判断されているためである。

　ステップＳ６０８で、出力判断部２０６は、設定情報記憶部２０２から出力対象情報を取得する。続いて、出力判断部２０６は、ｋ件の匿名化後データの各々及び出力判断される匿名化後データから出力データを生成し、生成した出力データを外部システム等に出力する。なお、出力判断部２０６は、匿名化後データの各カラムから、出力対象情報に設定されているカラムを抽出することで出力データを生成する。

　ここで、図１２Ａ～Ｆを用いて具体例を説明する。出力判断される匿名化後データが図１２Ａに示す匿名化後データであり、匿名化後データＤＢに図１２Ｂに示す３件の匿名化後データが存在していると仮定する。また、ｋ－匿名性指標値は「３」であり、出力対象情報には図４Ｄに示すカラム（「レコードＩＤ」、「年齢」、「現住所」、「性別」、「受信年月日」、「診療科」、「症状」）が設定されていると仮定する。この場合、ステップＳ６０８の処理手順により出力される出力データは、図１２Ｃに示される４件の出力データになる。

　図１１に戻り説明を続ける。ステップＳ６０９で、出力判断部２０６は、ｋ件の匿名化後データのうち、いずれか１件の匿名化後データを選択し、選択した匿名化後データに対応する匿名化前データ及び匿名化処理管理情報から教師データを生成し、生成した教師データを機械学習部２０４に通知する。図１３Ｂは、ステップＳ６０９の処理手順で生成される教師データの具体例である。出力判断部２０６は、ステップＳ６０９の処理手順で教師データを生成する際、「ｋ－匿名性基準適合フラグ」カラムをＴＲＵＥに設定する。ステップＳ６０６の処理手順で、出力判断される匿名化後データはｋ－匿名性を満たしていると判断されているためである。

　ステップＳ６１０で、出力判断部２０６は、ｋ件の匿名化後データのうち、いずれか１件の匿名化後データを選択し、選択した匿名化後データから匿名性判定するカラムを抽出する。また、出力判断部２０６は、抽出したカラムから匿名化パターンを生成し、匿名化パターンに新たなレコードを追加して格納する。例えば、ステップＳ６０８で出力される出力データが図１２Ｃの４件であると仮定した場合、図１２Ｄに示す匿名化パターンが生成される。

　ステップＳ６１１で、出力判断部２０６は、ステップＳ６０８で出力したｋ件の出力データの各々に対応する匿名化前データ、匿名化後データ、及び匿名化処理管理情報を、匿名化前データＤＢ、匿名化後データＤＢ、及び匿名化処理管理情報ＤＢから削除する。

　ステップＳ６１２で、出力判断部２０６は、設定情報記憶部２０２から出力対象情報を取得する。続いて、出力判断部２０６は、匿名化パターンＤＢに存在すると判断された匿名化後データの各カラムから、出力対象情報に設定されているカラムを抽出することで出力データを生成する。続いて、出力判断部２０６は、生成した出力データを外部システム等に出力する。

　ここで、図１２Ａ～Ｆを用いて具体例を説明する。出力判断される匿名化後データが図１２Ｅに示す匿名化後データであり、出力対象情報には図４Ｄに示すカラムが設定されていると仮定する。この場合、ステップＳ６１２の処理手順により出力される出力データは、図１２Ｆに示す出力データになる。

　図１１に戻り説明を続ける。ステップＳ６１３で、出力判断部２０６は、ステップＳ６１２で出力した出力データに対応する匿名化前データ、匿名化後データ、及び匿名化処理管理情報を、匿名化前データＤＢ、匿名化後データＤＢ、及び匿名化処理管理情報ＤＢから削除する。

　なお、図１１の処理手順において、ステップＳ６０１の処理手順で複数のレコードが抽出された場合、出力判断部２０６は、全てのレコードに対してステップＳ６０２乃至ステップＳ６１３の処理手順を行う。

　（再処理手順）
　図１４は、匿名化処理における一般化の度合いを変更する場合の処理手順の一例を示す図である。図１４を用いて、機械学習部２０４が教師データに基づいて一般化の度合いを調整した場合に、匿名化処理部２０５が再度匿名化処理をやり直す場合の処理手順について説明する。

　ステップＳ７０１で、機械学習部２０４は、匿名化処理管理情報ＤＢから、「匿名化方法設定フラグ」カラムがＴＲＵＥであるレコードを全て抽出する。

　ステップＳ７０２で、機械学習部２０４は、抽出された全てのレコードの「匿名化レベル」カラムの内容を、調整後の一般化の度合いに対応する内容に変更する。また、機械学習部２０４は、「匿名化レベル」カラムの内容を変更したことを、匿名化処理部２０５に通知する。

　ステップＳ７０３で、匿名化処理部２０５は、匿名化処理管理情報ＤＢから、「匿名化済フラグ」がＴＲＵＥであるレコードを全て抽出する。

　ステップＳ７０４で、匿名化処理部２０５は、匿名化前データＤＢから、ステップＳ７０３で抽出した全てのレコードの各々に対応する全ての匿名化前データを抽出する。

　ステップＳ７０５で、匿名化処理部２０５は、ステップＳ７０４で検索された全ての匿名化前データの各々に対して、当該匿名化前データの各々に対応する匿名化処理情報の「匿名化方法」及び「匿名化レベル」カラムの設定内容に従って再度匿名化処理を行う。また、匿名化処理部２０５は、匿名化処理された匿名化前データの各カラムの内容を、匿名化後データＤＢのうち当該匿名化前データに対応する匿名化後データのレコードに上書きする。

　ここで、ステップＳ７０１乃至ステップＳ７０５の処理手順の具体例を説明する。例えば、匿名化前データが図６Ａに示す匿名化前データであり、匿名化後データが図１０Ａに示す匿名化後データであると仮定する。また、機械学習部２０４は、ステップＳ７０２の処理手順において、図８の匿名化処理管理情報のうち現住所の匿名化レベルを「"現住所"："丁目以降を削除"」に変更したと仮定する。この場合、ステップＳ７０５の処理手順において、匿名化処理部２０５は、匿名化前データの現住所カラム（"東京都足立区ＸＹ町１丁目位１－１１－１０１"）から丁目以降を削除した現住所カラム（"東京都足立区ＸＹ町１丁目"）を生成し、図１０Ａに示す匿名化後データの現住所カラムに上書きする。

　（データ消去手順）
　匿名化処理部２０５は、匿名化処理管理情報ＤＢに格納されている各匿名化処理管理情報の各々の「生成日時」と現在の日時とを比較することで、リアルタイム性定義情報の保持期限に設定されている時間を経過しても、出力データとして出力されていないデータ（保持時間内にｋ－匿名性を満たせなかったデータ）の有無を確認する。

　匿名化処理部２０５は、匿名化処理管理情報の「生成日時」と現在の日時との差分が、リアルタイム性定義情報の保持期限を超えている場合、匿名化後データは保持期限内にｋ－匿名性を満たせなかったと判断する。また、匿名化処理部２０５は、匿名化後データは保持期限内にｋ－匿名性を満たせなかったと判断した場合、当該匿名化後データ、当該匿名化後データに対応する匿名化前データ及び匿名化処理管理情報を、匿名化前データＤＢ、匿名化後データＤＢ、及び匿名化処理管理情報ＤＢから削除する。

　なお、匿名化処理部２０５は、「生成日時」と現在の日時とを比較する代わりに、例えば、一時記憶部２０１に蓄積されたレコード数が所定の閾値を超えた場合に、生成日時が古い順に、匿名化前データと匿名化後データと匿名化処理管理情報とを、匿名化前データＤＢ、匿名化後データＤＢ、及び匿名化処理管理情報ＤＢから削除するようにしてもよい。

　（機械学習手順）
　機械学習部２０４は、外部システム等から受け取った教師データ又は出力判断部２０６から受け取った教師データに基づき、一般化の度合いを調整する。機械学習部２０４は、教師データを利用者に参照させると共に、利用者からの指示に従って一般化の度合いを調整するようにしてもよいし、教師データに基づいて自動的に一般化の度合いを調整するようにしてもよい。

　機械学習部２０４は、「ｋ－匿名性基準適合フラグ」がＦＡＬＳＥである教師データに対して、個人情報の項目の値を粗くする方向（一般化の度合いを高くする方向）に一般化の度合いを調整する。「ｋ－匿名性基準適合フラグ」がＴＲＵＥである教師データに対して、個人情報を具体化する方向（一般化の度合いを低くする方向）に一般化の度合いを調整する。

　なお、機械学習部２０４は、教師データを受信する度に一般化の度合いを調整するのではなく、例えば、「ｋ－匿名性基準適合フラグ」がＦＡＬＳＥである教師データが増加した場合に、個人情報の項目の値を粗くする方向（一般化の度合いを高くする方向）に一般化の度合いを調整し、「ｋ－匿名性基準適合フラグ」がＴＲＵＥである教師データが増加した場合に、個人情報を具体化する方向（一般化の度合いを低くする方向）に一般化の度合いを調整するようにしてもよい。

　なお、個人情報の項目の値を粗くする方向とは、例えば、「"現住所"："丁目以降を削除"」の設定を「"現住所"："市区町村以降を削除"」の設定に変更することをいう。また、個人情報を具体化する方向とは、例えば、「"現住所"："市区町村以降を削除"」の設定を「"現住所"："丁目以降を削除"」の設定に変更することをいう。

　＜効果＞
　以上、実施の形態に係る匿名化処理装置１０は、外部システム等から入力される入力データに対して匿名化処理を行い、ｋ－匿名性を満たす場合に、匿名化された出力データを出力するようにした。これにより、実施の形態に係る匿名化処理装置１０は、継続的に入力されるデータに対して、匿名性を保証しつつリアルタイムに匿名化を行うことができる。

　以上、実施の形態に係る匿名化処理装置１０は、匿名化されたデータがｋ－匿名性を満たすのか否かを示す教師データに基づき機械学習を行い、一般化の度合いを変更可能にした。実施の形態に係る匿名化処理装置１０は、バッチ処理により匿名化を行うシステムとは異なり、匿名化対象のレコードの総数がいくつになるのか特定できないため、バッチ処理で匿名化を行うシステムと比較して一般化の度合いが高い方向で出力データを出力し続けてしまう可能性がある。そこで、実施の形態に係る匿名化処理装置１０は、「ｋ－匿名性基準適合フラグ」がＴＲＵＥである教師データに対して一般化の度合いを低くする方向に調整し、「ｋ－匿名性基準適合フラグ」がＦＡＬＳＥである教師データに対して一般化の度合いを高くする方向に調整するようにした。これにより、実施の形態に係る匿名化処理装置１０は、最適な一般化の度合いで匿名化処理されたデータを出力することができる。

　＜実施形態の補足＞
　以上、本発明は実施の形態に限定されるものではなく、本発明の範囲内で種々の変形及び改良が可能である。

　以上、実施の形態で述べたフローチャートは、矛盾の無い限り順序を入れ替えてもよい。

　以上、実施の形態の全部又は一部は、プログラムによって実装され得る。このプログラムは、記憶媒体に格納することができる。

　なお、実施の形態において、匿名化処理部２０５は、処理部の一例である。一時記憶部２０１は、第一の記憶部の一例である。匿名化パターンＤＢ記憶部２０７は、第二の記憶部の一例である。匿名化後データは、匿名化済みデータの一例である。ｋ－匿名性は、匿名性指標の一例である。一般化の度合いは、抽象度の一例である。

　本特許出願は２０１５年１月２７日に出願した日本国特許出願第２０１５－０１３５０４号に基づきその優先権を主張するものであり、日本国特許出願第２０１５－０１３５０４号の全内容を本願に援用する。

１０　匿名化処理装置
２０１　一時記憶部
２０２　設定情報記憶部
２０３　入力部
２０４　機械学習部
２０５　匿名化処理部
２０６　出力判断部
２０７　匿名化パターンＤＢ記憶部

Claims

　入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置であって、
　前記入力データを受け付ける入力部と、
　前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理部と、
　匿名化済みデータを記憶する第一の記憶部と、
　前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力部と、
　を有する、匿名化処理装置。
　前記出力部は、前記第一の記憶部に記憶されている匿名化済みデータに含まれる情報項目の各々が一致している匿名化済みデータが、少なくとも所定の数以上存在する場合に、前記匿名性指標を満たすと判断する、請求項１に記載の匿名化処理装置。
　匿名性を判断するための匿名化パターンを記憶する第二の記憶部を有し、
　前記出力部は、前記複数の匿名化済みデータに基づいて前記匿名化パターンを生成して前記第二の記憶部に格納し、前記第一の記憶部に記憶されている匿名化済みデータに含まれる情報項目の各々と、前記匿名化パターンに含まれる情報項目の各々とが一致する場合、匿名化済みデータから出力データを生成して出力する、請求項１又は２に記載の匿名化処理装置。
　前記処理部は、所定の条件を満たす場合に、前記第一の記憶部に記憶されている匿名化済みデータを削除する、請求項１乃至３のいずれか一項に記載の匿名化処理装置。
　前記所定の条件は、匿名化済みデータに対応する前記入力データが、前記入力部で受け付けられてからの経過時間、又は、前記第一の記憶部に記憶可能なレコード数が所定の閾値を超えた場合である、請求項４に記載の匿名化処理装置。
　抽象度を指定する機械学習部を有し、
　前記処理部は、前記抽象度に基づいて前記入力データに対して匿名化を行い、
　前記出力部は、前記複数の匿名化済みデータが前記匿名性指標を満たすか否かの判断結果を前記機械学習部に送信し、
　前記機械学習部は、前記判断結果に基づいて前記抽象度を変更する、請求項１乃至５のいずれか一項に記載の匿名化処理装置。
　前記処理部は、前記抽象度が変更された場合、変更された前記抽象度に基づいて前記入力データに対して再度匿名化を行う、請求項６に記載の匿名化処理装置。
　入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置の匿名化処理方法であって、
　前記入力データを受け付ける入力ステップと、
　前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理ステップと、
　匿名化済みデータを第一の記憶部に記憶させる記憶ステップと、
　前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力ステップと、
　を有する、匿名化処理方法。
　入力データに対して匿名化を行い、匿名化された出力データを出力する匿名化処理装置のプログラムであって、
　匿名化処理装置に、
　前記入力データを受け付ける入力ステップと、
　前記入力データに対して匿名化を行い、匿名化された前記入力データに対応する匿名化済みデータを生成する処理ステップと、
　匿名化済みデータを第一の記憶部に記憶させる記憶ステップと、
　前記第一の記憶部に記憶されている複数の匿名化済みデータが匿名性指標を満たす場合に、前記複数の匿名化済みデータの各々に対応する複数の出力データを生成して出力し、前記複数の匿名化済みデータを前記第一の記憶部から削除する出力ステップと、
　を実行させるプログラム。