JP5337020B2 - 電子文書の秘匿化プログラム - Google Patents

電子文書の秘匿化プログラム Download PDF

Info

Publication number
JP5337020B2
JP5337020B2 JP2009506145A JP2009506145A JP5337020B2 JP 5337020 B2 JP5337020 B2 JP 5337020B2 JP 2009506145 A JP2009506145 A JP 2009506145A JP 2009506145 A JP2009506145 A JP 2009506145A JP 5337020 B2 JP5337020 B2 JP 5337020B2
Authority
JP
Japan
Prior art keywords
concealment
extracted
attribute information
extracting
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009506145A
Other languages
English (en)
Other versions
JPWO2008117432A1 (ja
Inventor
潤 伊吹
茂 山田
明彦 小幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2008117432A1 publication Critical patent/JPWO2008117432A1/ja
Application granted granted Critical
Publication of JP5337020B2 publication Critical patent/JP5337020B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、電子文書中から所定の記述部分を抽出して秘匿化することをコンピュータに実行させるための電子文書の秘匿化プログラム、および電子文書の秘匿化装置、ならびに電子文書の秘匿化方法に関するものである。
従来より、電子文書中から所定の記述部分を抽出して秘匿化する技術が知られている(例えば特許文献1参照)。
特許文献1に示される技術では、入力文書にプライバシー情報に関する固有名詞部分として、会社名、組織名、係名等の社会帰属情報と、氏名、住所等の個人帰属情報のうちのいずれか一方、もしくは双方を抽出し、それらの種類に応じて異なる伏字加工を行っている。
特開2002−259363号公報
特許文献1に示される技術は、事物の持つ属性を抽出し、それに応じた匿名化を行っているが、その対象は特定のカテゴリ(例えば人物)の全てを対象としている。しかし、例えば新聞記事等の文書においては、同じカテゴリに属する対象でも全て同一に扱われることはない。例えば新聞記事に犯罪行為に対しては未成年の匿名化がされるが、それ以外の行為に対して匿名化は必要ではない。従って、上記特許文献1の技術を上述の新聞記事等の例に適用することは困難である。
本発明は上述の問題点を解決するためになされたものであり、電子文書中から同じカテゴリに属する対象について、秘匿化の必要性がある対象のみを秘匿化することで、一般社会における適応性の高い秘匿化の処理を行うことができる電子文書の秘匿化プログラム、秘匿化装置、及び秘匿化方法を提供することを目的とする。
上述した課題を解決するため、本発明は、電子文書中から所定の記述部分を抽出して秘匿化することをコンピュータに実行させる電子文書の秘匿化プログラムであって、前記電子文書中から述語を抽出すると共に該述語に対して格要素を抽出し、該抽出された格要素に基づいて秘匿化対象候補を抽出する秘匿化対象候補抽出ステップと、前記秘匿化対象候補抽出ステップにより抽出された前記秘匿化対象候補の属性情報を抽出する属性情報抽出ステップと、前記属性情報抽出ステップにより抽出された属性情報に基づいて前記秘匿化対象候補抽出ステップにより抽出された秘匿化対象候補の中から秘匿化する対象を抽出する秘匿化対象抽出ステップとをコンピュータに実行させるものである。
また、本発明は、電子文書中から所定の記述部分を抽出して秘匿化する秘匿化装置であって、前記電子文書中から述語を抽出すると共に該述語に対して格要素を抽出し、該抽出された格要素に基づいて秘匿化対象候補を抽出する秘匿化対象候補抽出部と、前記秘匿化対象候補抽出部により抽出された前記秘匿化対象候補の属性情報を抽出する属性情報抽出部と、前記属性情報抽出部により抽出された属性情報に基づいて前記秘匿化対象候補抽出部により抽出された秘匿化対象候補の中から秘匿化する対象を抽出する秘匿化対象抽出部とを備えてなるものである。
また、本発明は、電子文書中から所定の記述部分を抽出して秘匿化することをコンピュータに実行させる電子文書の秘匿化方法であって、前記電子文書中から述語を抽出すると共に該述語に対して格要素を抽出し、該抽出された格要素に基づいて秘匿化対象候補を抽出する秘匿化対象候補抽出ステップと、前記秘匿化対象候補抽出ステップにより抽出された前記秘匿化対象候補の属性情報を抽出する属性情報抽出ステップと、前記属性情報抽出ステップにより抽出された属性情報に基づいて前記秘匿化対象候補抽出ステップにより抽出された秘匿化対象候補の中から秘匿化する対象を抽出する秘匿化対象抽出ステップとを備えるものである。
本発明の実施の形態を示す全体ブロック図である。 本発明の実施の形態の動作を示すフローチャートである。 本発明の実施の形態の動作として述語対応での対象分抽出処理の一例を示す図である。 本発明の実施の形態の動作として格要素のパターン走査処理及び固有名認識処理の一例を示す図である。 本発明の実施の形態の属性抽出処理、秘匿化対象抽出処理、秘匿化処理の一例を示す図である。 本発明の実施の形態の動作結果の一例を示す図である。
以下、本発明の実施の形態について図面を参照しつつ説明する。なお、本実施の形態では、電子文書中から所定の述語に対しての固有名(未成年者名)を秘匿化する場合に例をとって説明する。
図1に示す本実施の形態における秘匿化装置は、元文書D1である電子文書中から述語を抽出すると共に該述語に対して格要素を抽出し、該抽出された格要素に基づいて該述語に対する秘匿化対象候補を抽出する秘匿化対象候補抽出部1と、秘匿化対象候補抽出部1により抽出された秘匿化対象候補の属性情報を抽出する属性情報抽出部2と、属性情報抽出部2により抽出された属性情報に基づいて秘匿化対象候補抽出部1により抽出された秘匿化対象候補の中から秘匿化する対象を抽出する秘匿化判断部(秘匿化対象抽出部)3と、秘匿化判断部3により抽出された対象を秘匿化して秘匿化文書D2を生成する書き換え処理部(秘匿化部)4を備える。
秘匿化対象候補抽出部1は、対象イベント抽出部11と、格要素走査部12と、固有名認識部13と、対象イベント抽出部11及び格要素走査部12で用いられる述語&格要素データベース(DB)14と、固有名認識部13で用いられる固有名データベース(DB)15から構成されている。
また、属性情報抽出部2は適宜人名録データベースDB21、組織体データベースDB22を参照することができ、また秘匿化判断部3は適宜判断規則データベースDB31を参照することができる。
以下、本実施の形態の動作について、図2〜図6を参照しながら説明する。
秘匿化対象候補抽出部1における対象イベント抽出部11は、元文書D1である電子文書から、述語を抽出し、該述語における秘匿化対象の文を抽出する(ステップS1)。
この一例を図3(A)、図3(B)に示している。図3(A)は元文書であり、図3(B)は抽出された秘匿化対象文である。秘匿化対象文の述語は、述語&格要素データベース(DB)14に登録されており、対象イベント抽出部11は、この述語&格要素データベース(DB)14に登録されている述語に対して秘匿化対象文を抽出する。
図3(A)、図3(B)の例では、述語として、「逮捕(する)」、「書類送検した」、「通告した」という能動態で示される述語に対する文が抽出されている様子を示している。
次に、格要素走査部12では、抽出された秘匿化対象文における述語から格要素のパターンを走査して述語対応格要素を抽出する(ステップS2)。
格要素走査部12は、述語&格要素データベース(DB)14より秘匿化対象文の述語より定められる所定の格要素を抽出する。
図4(A)〜図4(C)にその一例を示している。格要素走査部12は、図4(A)に示される述語に対する格要素として、述語&格要素データベース(DB)14にルールとして登録されている格要素として述語の目的語を抽出する(図4(B)参照)。目的語を格要素として図4(A)から抽出すると図4(C)に下線で示される格要素が抽出される。
なお、本例では、述語に対して秘匿化対象となり得る格要素として、目的語となる場合について説明しているが、これらの関係は述語&格要素データベース(DB)において適宜定めることが可能であり、例えば述語によっては、主語を格要素として抽出することもできることは言うまでもない。
格要素走査部12により抽出された述語対応格要素である目的語は、次に固有名認識部13において固有名であるか否かが認識されて、固有名が秘匿化対象候補として秘匿化対象候補抽出部1から属性情報抽出部2に出力されることとなる(ステップS3)。
本実施の形態の場合、固有名認識部13は固有名データベース(DB)15から固有名(本例の場合人名)を認識して抽出する。その結果は図4(D)に示されるリスト(匿名化候補者リスト)として属性情報抽出部2に出力される。
次に属性情報抽出部2では、図4(D)に示される匿名化候補者リストにあげられた匿名化候補者の属性情報を該候補者名をキーワードとして検索抽出して該リストを埋め、図5(A)のリストとして秘匿化判断部3に出力する(ステップS4)。
この属性情報は、当該対象文書内または人名録データベース(DB)21又は組織体データベース(DB)22から匿名化候補者名をキーワードとして抽出する。本実施の形態においては、文書の解析によりこれら匿名化候補者の属性は秘匿化対象文より得られる。本例において属性情報は年齢が必須であり、それとともに、住所、所属組織、部署が抽出されている。
なお、属性情報抽出部2の動作として、文書解析により文書中から候補者の年齢が分らない場合において、次に人名録DB21又は組織体DB22から年齢検索を行うように設定することもできるし、その逆に、これらデータベース21,22から候補者の年齢が分らない場合において、文書解析を試みるように設定することもできる。
秘匿化判断部3では、判断規則(DB)31に登録された条件を用いて、図5(B)に示されるように、得られた属性情報(匿名化候補者リスト)より匿名化候補者における未成年者を判断し、匿名化対象者を抽出し(年齢<20 then 名称を秘匿化対象)、その結果を図5(C)に示される匿名化対象者リストとして、書き換え処理部4に出力する(ステップS5)。
書き換え処理部4では、得られた匿名化対象者リストに基づいて元文書である電子文書から図5(D)に示されるように匿名化文書を作成して出力する(ステップS6)。
なお、匿名化の対象として、固有名における地域について上述した例においては匿名化していないが、たとえば地域名を広狭によって区別し、狭い地域名については匿名とするようにしても良い。これらのルールは判断規則データベースに登録することにより設定することができる。例えば図6では、東京都については匿名化していないが、江戸川区については匿名化した例を示している。
以上、本実施の形態では、事件性に係る述語(能動態)に対して格要素として目的語における固有名を秘匿化対象候補として抽出すると共に、その属性情報に基づいて未成年者を抽出し、その未成年者にかかる名前を匿名化するような一例について説明したが、本発明は係る態様に限定されないことは明白である。例えば述語(受動態)に対しては格要素として主語を秘匿化対象候補として抽出する場合もあり、これらは述語&格要素DBに登録された所定のルールに基づいて任意に定めることが可能である。
なお、本実施の形態で図示したフローチャートやステップに示された各動作をコンピュータにより実行させるプログラムを提供することにより、本発明の秘匿化プログラムを提供することができる。これらプログラムはコンピュータにより読取可能な媒体に記録されてコンピュータにより実行させることができる。コンピュータは、パーソナルコンピュータのようなホスト装置、試験装置のコントローラ、記憶装置のMPUやCPUのようなコントローラなどを含む。ここで、コンピュータにより読取可能な媒体としては、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
以上説明したように、本発明によれば、電子文書中から同じカテゴリに属する対象について、秘匿化の必要性がある対象のみを秘匿化することで、一般社会における適応性の高い秘匿化の処理を行うことができる電子文書の秘匿化プログラム、秘匿化装置、及び秘匿化方法を提供することができる。

Claims (5)

  1. 電子文書中から所定の記述部分を抽出して秘匿化することをコンピュータに実行させるための電子文書の秘匿化プログラムであって、
    前記電子文書中から述語を抽出すると共に該述語に対して格要素を抽出し、該抽出された格要素に基づいて、該述語に対する秘匿化対象候補を抽出する秘匿化対象候補抽出ステップと、
    前記秘匿化対象候補抽出ステップにより抽出された前記秘匿化対象候補年齢を示す属性情報を当該電子文書中から抽出する属性情報抽出ステップと、
    前記属性情報抽出ステップにより抽出された属性情報に基づいて前記秘匿化対象候補抽出ステップにより抽出された秘匿化対象候補の中から秘匿化する対象を抽出する秘匿化対象抽出ステップと
    をコンピュータに実行させるための秘匿化プログラム。
  2. 請求項1に記載の秘匿化プログラムにおいて、
    前記秘匿化対象抽出ステップにより抽出された対象を秘匿化する秘匿化ステップをコンピュータに実行させるための秘匿化プログラム。
  3. 請求項1に記載の秘匿化プログラムにおいて、
    前記秘匿化対象候補は固有名であることを特徴とする秘匿化プログラム。
  4. 請求項1に記載の秘匿化プログラムにおいて、
    前記秘匿化対象候補抽出ステップは、データベースに記憶された述語と、該述語に対する格要素との組み合わせにおいて、前記秘匿化対象候補を抽出することを特徴とする秘匿化プログラム。
  5. 電子文書中から所定の記述部分を抽出して秘匿化する秘匿化装置であって、
    前記電子文書中から述語を抽出すると共に該述語に対して格要素を抽出し、該抽出された格要素に基づいて該述語に対する秘匿化対象候補を抽出する秘匿化対象候補抽出部と、
    前記秘匿化対象候補抽出部により抽出された前記秘匿化対象候補年齢を示す属性情報を当該電子文書中から抽出する属性情報抽出部と、
    前記属性情報抽出部により抽出された属性情報に基づいて前記秘匿化対象候補抽出部により抽出された秘匿化対象候補の中から秘匿化する対象を抽出する秘匿化対象抽出部と
    を備えてなる秘匿化装置。
JP2009506145A 2007-03-27 2007-03-27 電子文書の秘匿化プログラム Expired - Fee Related JP5337020B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/056379 WO2008117432A1 (ja) 2007-03-27 2007-03-27 電子文書の秘匿化プログラム

Publications (2)

Publication Number Publication Date
JPWO2008117432A1 JPWO2008117432A1 (ja) 2010-07-08
JP5337020B2 true JP5337020B2 (ja) 2013-11-06

Family

ID=39788175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009506145A Expired - Fee Related JP5337020B2 (ja) 2007-03-27 2007-03-27 電子文書の秘匿化プログラム

Country Status (2)

Country Link
JP (1) JP5337020B2 (ja)
WO (1) WO2008117432A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012079245A1 (zh) * 2010-12-17 2012-06-21 北京交通大学 知识获取装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05224687A (ja) * 1992-02-18 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 日本文読み上げ単語変換編集処理方式
JP2002259363A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体
JP2002269081A (ja) * 2001-01-05 2002-09-20 Fujitsu Ltd 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム
JP2004287566A (ja) * 2003-03-19 2004-10-14 Fuji Xerox Co Ltd コンテンツ部分秘匿化装置及びこれを利用したコンテンツ流通システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331329A (ja) * 2005-05-30 2006-12-07 Oki Electric Ind Co Ltd 言語処理装置、言語処理方法、言語処理プログラム及び記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05224687A (ja) * 1992-02-18 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 日本文読み上げ単語変換編集処理方式
JP2002269081A (ja) * 2001-01-05 2002-09-20 Fujitsu Ltd 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム
JP2002259363A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体
JP2004287566A (ja) * 2003-03-19 2004-10-14 Fuji Xerox Co Ltd コンテンツ部分秘匿化装置及びこれを利用したコンテンツ流通システム

Also Published As

Publication number Publication date
WO2008117432A1 (ja) 2008-10-02
JPWO2008117432A1 (ja) 2010-07-08

Similar Documents

Publication Publication Date Title
US10454932B2 (en) Search engine with privacy protection
Hogenboom et al. Multi-lingual support for lexicon-based sentiment analysis guided by semantics
Baker Pseudo noun incorporation as covert noun incorporation: Linearization and crosslinguistic variation
US7386550B2 (en) Document anonymization apparatus and method
JP4701292B2 (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US20140136941A1 (en) Focused Personal Identifying Information Redaction
Harris et al. Exploring the role of grammar and word choice in bias toward african american english (aae) in hate speech classification
Biega et al. R-susceptibility: An ir-centric approach to assessing privacy risks for users in online communities
Kayaalp et al. De-identification of address, date, and alphanumeric identifiers in narrative clinical reports
Degaetano-Ortlieb et al. SciTex-a diachronic corpus for analyzing the development of scientific registers
CN111104801A (zh) 基于网址域名的文本分词方法、***、设备及介质
Kebe et al. A spoken language dataset of descriptions for speech-based grounded language learning
CN103699559B (zh) 基于上下文的数据库安全的***和方法
Salah et al. [Retracted] A New Rule‐Based Approach for Classical Arabic in Natural Language Processing
Nini Corpus analysis in forensic linguistics
Hazen et al. On the social and technical challenges of web search autosuggestion moderation
JP5337020B2 (ja) 電子文書の秘匿化プログラム
Gidhe et al. Sarcasm detection of non# tagged statements using MLP-BP
Larner From intellectual challenges to established corpus techniques: introduction to the special issue on forensic linguistics
JP6144133B2 (ja) 検索システム
JP2006260241A (ja) 個人情報保護対応入力指示作成システム
Lauwaert et al. Violence and meaning
KR101607771B1 (ko) 저자 식별 방법 및 장치
Gambarelli et al. Is your model sensitive? SPeDaC: A new benchmark for detecting and classifying sensitive personal data
KR101712507B1 (ko) 마이크로블로그의 개체명 링킹 시스템.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120702

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120709

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130802

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees