JP7096222B2 - リスク評価装置、リスク評価方法及びリスク評価プログラム - Google Patents
リスク評価装置、リスク評価方法及びリスク評価プログラム Download PDFInfo
- Publication number
- JP7096222B2 JP7096222B2 JP2019178329A JP2019178329A JP7096222B2 JP 7096222 B2 JP7096222 B2 JP 7096222B2 JP 2019178329 A JP2019178329 A JP 2019178329A JP 2019178329 A JP2019178329 A JP 2019178329A JP 7096222 B2 JP7096222 B2 JP 7096222B2
- Authority
- JP
- Japan
- Prior art keywords
- risk
- search
- risk assessment
- document data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
しかしながら、例えば学校の事故レポートのように、文書データ自体に個人と紐づけられたセンシティブな情報が含まれていない場合であっても、この文書データに関連する個人情報及び追加情報が入手され紐付けされる可能性があった。したがって、文書データのみから十分にリスクを評価することは難しかった。
本実施形態におけるリスク評価方法では、攻撃者が一般的な検索能力を保有することを想定し、Web検索による攻撃に対する文書データのリスクが評価される。
攻撃者は、文書データからキーワードを抽出し、これらのキーワードを用いてWeb検索を行う。その後、攻撃者は、検索結果から文書データに関する情報、特に個人を特定し、特定した情報(例えば、「△△君」)と文書データに含まれるセンシティブな情報(例えば、「給付金1500万円」)との紐付けを試みる。
リスク評価装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、これらの機能部により、文書データから関連情報を検索されるリスクを評価することで、文書データの匿名化を促す。
単語xの情報量I(x)は、例えば、I(x)=-logP(x)で表現できる。なお、P(x)は、単語xの出現確率を表し、xの出現回数を全単語数で割ることで求められる。あるいは、情報量I(x)は、文書データセットDを用いて、TF-IDF等の指標により算出されてもよい。
なお、組み合わせの数は、Σm(nCm)通りとなり、n及びmの指定によっては全通りの検索の回数が膨大となる。このため、検索の回数に上限を設ける、あるいは、一度の検索に用いる単語(キーワード)の数を最大数mまで変動させるのではなく所定数に固定させてもよい。
検索部13は、単語の組み合わせのパターンを変えて、例えば指定された回数のWeb検索を行い、それぞれの検索結果の上位(例えば10件ずつ)を取得する。
例えば、文書データが事故レポート等の場合、固有名詞は、被害者の名前が相当し、攻撃者により文書データと紐づけられることで個人に関するセンシティブな情報が知られることとなる。
話題性は、例えば、事故による怪我の程度等であり、関連情報の多さ、すなわち検索されやすさを示す。この指標は、文書データに予め手動で付与されていてもよいし、既存の言語処理の手法を用いて文書データの内容に応じて付与されてもよい。
例えば、指標取得部15は、文書データの内容を、機械学習により所定の区分(例えば、重症又は軽傷、あるいは、死亡事故又は非死亡事故)のいずれかに分類し、この区分に対応付けられた指標を取得する。
具体的には、例えば、評価部16は、検索部13により取得された検索結果のうち、一致度合いが閾値を超える、すなわち検索キーワードに用いなかった単語と同一又は類似の単語が所定以上含まれる検索結果(記事)の割合に基づいて評価してよい。
さらに、評価部16は、抽出部14により被害者の個人名等の固有名詞が抽出された場合に、リスクを高く調整する。
得られた単語毎の評価は、ユーザに提示されて個別リスクの高い単語の匿名化が促される。あるいは、所定以上の個別リスクのある単語が自動で汎化されることで匿名化されてもよいし、汎化候補が提示されてもよい。
なお、汎化の対象は、個別リスクが所定以上の単語全てであってもよいが、評価部16は、個別リスクが上位の単語を優先して、順に文書データのリスクの変化量と共にユーザに提示してもよい。
ここでは、文書データから抽出する検索キーワードの候補となる単語の数n、検索キーワードとして用いる単語数m、Web検索の実行回数i、検索結果の取得数j、及び文書データの話題性(センシティビティ)を示す指標εがパラメータとして入力されているものとする。なお、指標εは、前述のように文書データの意味解析により算出されてもよい。
これにより、リスク評価装置1は、文書データを公開する際に、実際の攻撃をシミュレーションすることで、文書データに関連する個人及び追加情報等が攻撃者に入手されるリスクを定量的に適切に評価することができる。
これにより、リスク評価装置1は、複数の検索パターンをシミュレーションすることで、様々な観点の検索結果を取得でき、関連情報が入手されるリスクを、より適切に評価できる。
これにより、リスク評価装置1は、文書データと紐付けられる関連情報を効率的に判別し、リスクを適切に評価できる。
これにより、リスク評価装置1は、攻撃者により文書データと個人名又は学校名等の固有名詞とが紐付けられる可能性を判定し、適切にリスクを評価できる。
例えば文書データが事故レポートの場合、事故の程度によって記事の数が異なるため、重大事故で話題性が高い場合には、低い情報量の単語からでも容易に当該事故の記事が検索されることから、リスクを評価装置1は、関連情報の紐付けのリスクを現実に則して適切に評価できる。
これにより、リスク評価装置1は、文書データに含まれる個別リスクの高い単語を提示して公開前に匿名化を促す、又は自動的に汎化することで、文書データのリスクを低減させることができる。
これにより、リスク評価装置1は、どのような汎化で文書データのリスクがどれだけ低下するかを示し、ユーザに文書データの匿名化を適切なレベルで実施させることができる。
したがって、リスク評価装置1は、リスク評価のために検索された関連文書からも同様に単語の情報量を算出し、所定以上の情報量の単語が含まれる場合、これらの単語を含む検索キーワードにより再度Web検索を行ってもよい。
これにより、攻撃者の検索行動をより忠実にシミュレーションできるため、リスクのより適切な評価が期待できる。
10 制御部
11 形態素解析部
12 情報量算出部
13 検索部
14 抽出部
15 指標取得部
16 評価部
20 記憶部
Claims (12)
- 文書データに含まれる単語それぞれの情報量を算出する情報量算出部と、
前記情報量の上位から所定数の単語のうち、複数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索部と、
前記検索部により取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価部と、を備えるリスク評価装置。 - 前記検索部は、指定された最大数までの単語の組み合わせによりWeb検索を行う請求項1に記載のリスク評価装置。
- 前記検索部は、前記組み合わせのパターンを変えて、指定された回数のWeb検索を行い、それぞれの検索結果の上位を取得する請求項1又は請求項2に記載のリスク評価装置。
- 前記評価部は、前記検索部により取得された検索結果のうち、前記一致度合いが閾値を超える割合に基づいて評価する請求項1から請求項3のいずれかに記載のリスク評価装置。
- 前記検索部により取得された検索結果から、所定の条件を満たす固有名詞を抽出する抽出部を備え、
前記評価部は、前記固有名詞が抽出された場合に、前記文書リスクを高く調整する請求項1から請求項4のいずれかに記載のリスク評価装置。 - 前記文書データの話題性を示す指標を取得する指標取得部を備え、
前記評価部は、前記指標に応じて、前記文書リスクの評価を調整する請求項1から請求項5のいずれかに記載のリスク評価装置。 - 前記指標取得部は、前記文書データの内容を、機械学習により所定の区分のいずれかに分類し、当該区分に対応付けられた指標を取得する請求項6に記載のリスク評価装置。
- 前記情報量算出部は、前記一致度合いが閾値を超えた検索結果の文書データに含まれる単語それぞれの情報量を算出し、
前記検索部は、前記検索結果の文書データに所定以上の情報量の単語が含まれる場合、当該単語を含む組み合わせにより再度Web検索を行う請求項1から請求項7のいずれかに記載のリスク評価装置。 - 前記評価部は、さらに、前記組み合わせ毎に前記文書リスクを評価し、当該文書リスクを統合することにより、単語毎の個別リスクを評価する請求項1から請求項8に記載のリスク評価装置。
- 前記評価部は、前記個別リスクが所定以上の単語を所定のルールに従って汎化した場合の文書データに対して前記文書リスクを再評価し、汎化による当該文書リスクの変化量を提示する請求項9に記載のリスク評価装置。
- 文書データに含まれる単語それぞれの情報量を算出する情報量算出ステップと、
前記情報量の上位から所定数の単語のうち、複数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索ステップと、
前記検索ステップにおいて取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価ステップと、をコンピュータが実行するリスク評価方法。 - 請求項1から請求項10のいずれかに記載のリスク評価装置としてコンピュータを機能させるためのリスク評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178329A JP7096222B2 (ja) | 2019-09-30 | 2019-09-30 | リスク評価装置、リスク評価方法及びリスク評価プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178329A JP7096222B2 (ja) | 2019-09-30 | 2019-09-30 | リスク評価装置、リスク評価方法及びリスク評価プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021056698A JP2021056698A (ja) | 2021-04-08 |
JP7096222B2 true JP7096222B2 (ja) | 2022-07-05 |
Family
ID=75270775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019178329A Active JP7096222B2 (ja) | 2019-09-30 | 2019-09-30 | リスク評価装置、リスク評価方法及びリスク評価プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7096222B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008243205A (ja) | 2007-03-28 | 2008-10-09 | Palo Alto Research Center Inc | 文書からの望ましくない推論を検知するための方法及びシステム |
JP2011095905A (ja) | 2009-10-28 | 2011-05-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
-
2019
- 2019-09-30 JP JP2019178329A patent/JP7096222B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008243205A (ja) | 2007-03-28 | 2008-10-09 | Palo Alto Research Center Inc | 文書からの望ましくない推論を検知するための方法及びシステム |
JP2011095905A (ja) | 2009-10-28 | 2011-05-12 | Sony Corp | 情報処理装置および方法、並びにプログラム |
Non-Patent Citations (1)
Title |
---|
三本 知明,ドキュメントにおけるプライバシとリスク評価ツールの試作,電子情報通信学会技術研究報告 Vol.119 No.144,日本,2019年07月16日,113~118 |
Also Published As
Publication number | Publication date |
---|---|
JP2021056698A (ja) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10289618B2 (en) | Third party search applications for a search system | |
US10592837B2 (en) | Identifying security risks via analysis of multi-level analytical records | |
CN107862022B (zh) | 文化资源推荐*** | |
JP5904559B2 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
EP2866421A1 (en) | Method and apparatus for identifying a same user in multiple social networks | |
JP6403382B2 (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
US10860565B2 (en) | Database update and analytics system | |
US8700592B2 (en) | Shopping search engines | |
Wang et al. | Multiple imputation for sharing precise geographies in public use data | |
CN113574522A (zh) | 搜索中的富体验的选择性呈现 | |
KR20180086084A (ko) | 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치 | |
JP7198408B2 (ja) | 商標情報処理装置及び方法、並びにプログラム | |
CN110019642A (zh) | 一种相似文本检测方法及装置 | |
Campos et al. | Gte: A distributional second-order co-occurrence approach to improve the identification of top relevant dates in web snippets | |
McCreadie et al. | University of Glasgow at TREC 2014: Experiments with Terrier in Contextual Suggestion, Temporal Summarisation and Web Tracks. | |
JP2016218512A (ja) | 情報処理装置及び情報処理プログラム | |
Choudhary et al. | Role of ranking algorithms for information retrieval | |
Natukunda et al. | Unsupervised title and abstract screening for systematic review: a retrospective case-study using topic modelling methodology | |
JP7096222B2 (ja) | リスク評価装置、リスク評価方法及びリスク評価プログラム | |
CN110619212B (zh) | 一种基于字符串的恶意软件识别方法、***及相关装置 | |
Khan et al. | Fake news detection of South African COVID-19 related tweets using machine learning | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
WO2019019711A1 (zh) | 行为模式数据的发布方法、装置、终端设备及介质 | |
KR20230049486A (ko) | 정치성향 분석 장치 및 이를 이용한 서비스 제공 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096222 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |