JPH10124490A - デジタル文書のマーク認識装置及びその方法 - Google Patents

デジタル文書のマーク認識装置及びその方法

Info

Publication number
JPH10124490A
JPH10124490A JP8279624A JP27962496A JPH10124490A JP H10124490 A JPH10124490 A JP H10124490A JP 8279624 A JP8279624 A JP 8279624A JP 27962496 A JP27962496 A JP 27962496A JP H10124490 A JPH10124490 A JP H10124490A
Authority
JP
Japan
Prior art keywords
document
synonymous
distribution information
synonym
replacing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8279624A
Other languages
English (en)
Other versions
JP3989577B2 (ja
Inventor
Rei Otsuka
塚 玲 大
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP27962496A priority Critical patent/JP3989577B2/ja
Publication of JPH10124490A publication Critical patent/JPH10124490A/ja
Application granted granted Critical
Publication of JP3989577B2 publication Critical patent/JP3989577B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Storage Device Security (AREA)
  • Document Processing Apparatus (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

(57)【要約】 【課題】 文章、ベクトル図形、プログラムコードを含
むデジタル文書等に広く適用でき、かつ、改竄されてい
る場合を含めて不正に使用されているデジタル文書のマ
ークを認識することができる装置及びその方法を提供す
る。 【解決手段】 一語句に対してn個の同義語を用意し、
前記同義語の置換えによって log2 nビットのビッ
ト列を表現する方法により、配布情報を表わすビット列
に従って文書中の少なくとも一つの語句を同義語に置き
換えることによってその文書中に配布情報を埋め込み、
マーク認識対象の文書に対しては、置換された同義語の
置換えの方法から配布情報を復号する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、デジタル文書のマ
ーキングとその認識を行う装置と方法に係り、特に、デ
ジタル文書に他人が認識できない情報(以下本明細書で
はマークという)を付し、その文書からそのマークを抽
出認識することはもちろん、その文書が一部改竄された
後もその文書からマークを抽出認識できるデジタル文書
のマーク認識装置とその方法に関する。
【0002】
【従来の技術】最近はコンピュータと通信技術の発達に
伴い、従来は紙に記載してやり取りしたり、保存したり
した情報を、電気信号化(デジタル化)してやり取りし
たり等することが多くなってきた。
【0003】上記デジタル化された情報は、一般にコピ
ーが容易であり、また、コピーされた情報そのものは、
複製物であることを認識できないため、次々に流用され
やすい性質を持っている。
【0004】このようなデジタル情報の複製や流用を放
置すれば、善意の者が思わぬ不利益を蒙ることは明らか
である。まして、重要な情報も広くデジタル化されるよ
うになった今日においては、この問題は重要度を増して
いる。
【0005】このような事情から、デジタル情報を保護
する種々の方法が従来から考えられている。
【0006】その例の一つとして、デジタル情報を物理
的な装置や媒体に閉じ込め、この装置や媒体から容易に
コピーできないようにする方法があった。たとえば、権
限のない第三者がアクセスできないようにしたコンピュ
ータや記憶装置、あるいはデジタル情報を電子回路化し
てコピーできないようにしたROMなどはその例であっ
た。
【0007】また、デジタル情報の種々の暗号化の方法
も提案されていた。この暗号化の方法は、デジタル情報
を暗号化キーによって暗号化して配布し、復号化キーを
有する者のみが暗号化情報を解読できるようにしたもの
であった。この方法は、一部の電子署名の方法にも利用
されていた。
【0008】さらに、オンライン通信において、送り手
と受取り手の間で互いに相手の認証を行った上で、秘密
通信を行い、第三者への情報の漏洩を防止する方法も提
案されていた。
【0009】しかし、上記いずれの方法も、情報を一定
範囲内で開示しつつそれ以上の不正な複製や流用を防止
したい要求に応えることはできなかった。
【0010】上記のような情報を一定範囲内で開示しつ
つそれ以上の不正な複製や流用を防止したいとする要求
は、最近のデジタル情報の使用環境下で特に重要性を増
している。
【0011】たとえば、イントラネット(企業内インタ
ーネット)を備えた企業や、会員制通信ネットワークの
ように、所定の者のみに対してデジタル情報を公開し、
あるいは使用を許容する必要がある環境では、通信ネッ
トワーク内の者に対しては支障なく情報を提供等する必
要がある一方、通信ネットワーク外の者に対しては情報
の機密を守る必要がある。
【0012】あるいは、ある者が有償でソフトウェアや
情報を提供するような場合、正規に契約したユーザーに
は、ソフトウェアや情報を支障なく提供する必要がある
一方、第三者へのソフトウェアや情報の流出する必要が
ある。この場合、そのソフトウェア等に秘密保護の手段
を講じたとしても、正規のユーザーが故意にそのソフト
ウェア等を流出させることを防止することはできない。
【0013】従来日本国内では、上記使用環境下のデジ
タル情報の保護に対しては、その情報を正規に取り扱う
ことができる者の自主的な管理に頼っていた。つまり、
正当に入手された情報のそれ以降の使用については、何
ら保護手段を講じておらず、前記情報を正規に取り扱う
ことができる者のモラルに頼らざるを得なかった。
【0014】これに対して、米国では英文からなるデジ
タル文書の不正な複製を防止する方法が提案されてい
た。この方法は、英文の文書の英単語間のスペースの配
列を利用してその文書にデジタルのマークを付す方法で
ある。
【0015】英文の文書は、一行ごとに英単語を均等に
配分するために各英単語間に不規則なスペースを挿入す
ることが多い。上記米国の方法は、このことを利用し、
原文のスペースの配列に対して目立たない程度にスペー
ス数を増減する変更を加えるものであった。このスペー
スの増減に一定のルールを予め定めることにより、スペ
ース配列に一定の情報を埋め込むことができた。
【0016】この方法によれば、デジタル文書を配布す
る相手に応じて原文のスペース配列を改変し、たとえば
配布相手の名前などの情報(この情報をデジタルマーク
あるいはマークという)をそのスペース配列に埋め込ん
で相手に配布する。仮に、このデジタル文書が配布を受
けた者によって不正に流出させられた場合には、流出し
たデジタル文書のスペース配列から流出させた者の氏名
を特定することができる。
【0017】このことにより、情報を入手した者の正当
な使用を要求し、もってデジタル情報の一定範囲内での
使用を許容しつつその範囲以上の不正な使用を防止する
ことができるのである。
【0018】
【発明が解決しようとする課題】しかしながら、上記単
語間のスペースの配列を改変する方法は、適用できるデ
ジタル文書の範囲が狭いことと、不正に複製されたデジ
タル文書をさらに編纂されて使用された場合にはもはや
流出源を特定できないことと、に改良すべき余地があっ
た。
【0019】すなわち、単語間にスペースを有する文書
は、欧米の言語による文書に限られているため、日本語
による文書に適用することができなかった。また、欧米
の言語による文書であっても、プログラムコードのよう
なスペースが特有の意味を持つ文書に対しては、スペー
ス配列を改変することはできなかった。
【0020】また、単語間のスペースは、一部の単語の
挿入・削除によって全文書にわたって変化してしまうの
で、不正に複製されたデジタル文書を編纂されて使用さ
れた場合には、もはや原文に付したデジタルマークを認
識することができなかった。
【0021】さらに、原文のデジタル情報に対して一部
改変を加えて使用することも考えられるので、ある程度
改竄された文書であっても流出源の文書を推定できるよ
うにすることも求められている。
【0022】そこで、本発明が解決しようとする課題
は、日本語を含む文章によるデジタル文書、ベクトル図
形を含むデジタル文書、プログラムコードを含むデジタ
ル文書等に広く適用することができ、かつ、改竄されて
いる場合を含めて不正に使用されているデジタル文書の
マークを認識することができるデジタル文書のマーク認
識装置及びその方法を提供することにある。
【0023】
【課題を解決するための手段】本願請求項1に係る文章
からなるデジタル文書のマーク認識装置は、入力手段
と、同義語とそれら同義語に対応するビット列とを格納
した同義語データベースと、前記入力手段によって入力
されたデジタル文書から、前記同義語データベースに格
納されている同義語を検出する同義語検出手段と、前記
同義語検出手段によって検出された同義語を置換対象語
として、配布情報を表わすビット列に従って前記置換対
象語を所定の同義語に置き換えて前記デジタル文書に書
き込む書込み手段と、マーク認識対象文書と原文書とを
比較し、置換された同義語を抽出する文書比較手段と、
前記文書比較手段によって抽出された同義語の置換の方
法により、前記マーク認識対象文書に付された配布情報
を復号化する復号手段と、を備えたことを特徴とするも
のである。
【0024】本願請求項2に係るベクトル図形からなる
デジタル文書のマーク認識装置は、入力手段と、一ベク
トル図形に対して移動、拡大、縮小、回転の少なくとも
一つを行った同義図形と、それら同義図形に対応するビ
ット列とを格納した同義図形データベースと、ベクトル
図形からなるデジタル文書に対し、前記同義図形を用意
した図形を置換対象図形として、配布情報を表わすビッ
ト列に従って前記置換対象図形を所定の同義図形に置き
換えて前記デジタル文書に配布情報を書き込む書込み手
段と、マーク認識対象文書と原文書とを比較し、置換さ
れた同義図形を抽出する文書比較手段と、前記文書比較
手段によって抽出された同義図形の置換の方法により、
前記マーク認識対象文書に付された配布情報を復号化す
る復号手段と、を備えたことを特徴とするものである。
【0025】本願請求項3に係るプログラムコードから
なるデジタル文書のマーク認識装置は、入力手段と、一
つの命令文グループに対して実行の結果プロセッサと記
憶装置の状態が等しくなる同義命令文グループと、前記
同義命令文グループに対応するビット列とを格納した同
義命令文データベースと、前記入力手段によって入力さ
れたデジタル文書のプログラムコードから、前記同義命
令文グループデータベースに格納されている同義命令文
グループを検出する同義命令文検出手段と、前記同義命
令文検出手段によって検出された同義命令文グループを
置換対象命令文グループとして、配布情報を表わすビッ
ト列に従って前記置換対象命令文グループを所定の同義
命令文グループに置き換えて前記デジタル文書に配布情
報を書き込む書込み手段と、マーク認識対象文書と原文
書とを比較し、置換された同義命令文グループを抽出す
る文書比較手段と、前記文書比較手段によって抽出され
た同義命令文グループの置換の方法により、前記マーク
認識対象文書に付された配布情報を復号化する復号手段
と、を備えたことを特徴とするものである。
【0026】本願請求項4に係る文章からなるデジタル
文書のマーク付与及び認識方法は、一語句に対してn個
の同義語を用意し、前記同義語の置換えによって lo
2 nビットのビット列を表現する方法により、配布情
報を表わすビット列に従って文書中の少なくとも一つの
語句を同義語に置き換えることによってその文書中に配
布情報を埋め込み、マーク認識対象の文書に対しては、
置換された同義語の置換えの方法から配布情報を復号す
ることを特徴とするものである。
【0027】本願請求項5に係るベクトル図形からなる
デジタル文書のマーク付与及び認識方法は、一ベクトル
図形に対して移動、拡大、縮小、回転の少なくとも一つ
を行ったn個の同義図形を用意し、前記同義図形の置換
えによって log2 nビットのビット列を表現する方
法により、配布情報を表わすビット列に従ってベクトル
図形中の少なくとも一つの置換対象図形を同義図形に置
き換えることによってそのベクトル図形の文書中に配布
情報を埋め込み、マーク認識対象の文書に対しては、置
換された同義図形の置換えの方法から配布情報を復号す
ることを特徴とするものである。
【0028】本願請求項6に係るプログラムコードから
なるデジタル文書のマーク付与及び認識方法は、一命令
文グループに対して実行の結果プロセッサと記憶装置の
状態が等しくなるn個の同義命令文グループを用意し、
前記同義命令文グループの置換えによって log2
ビットのビット列を表現する方法により、配布情報を表
わすビット列に従ってプログラムコード中の少なくとも
一つの置換対象命令文グループを同義命令文グループに
置き換えることによってそのプログラムコードの文書中
に配布情報を埋め込み、マーク認識対象の文書に対して
は、置換された同義命令文グループの置換えの方法から
配布情報を復号することを特徴とするものである。
【0029】
【発明の実施の形態】次に本発明の実施の形態について
願書に添付した図面を用いて以下に説明する。最初に、
本願発明のデジタル文書のマークの付与と認識の原理を
説明しておく。たとえば、ある文章に「様々な」という
言葉が含まれているとすると、「様々な」という言葉
は、「色々な」「さまざまな」「いろいろな」と置き換
えられたとしても文章の意味は変化しない。この場合、
「様々な」という言葉は、この明細書でいう置換対象語
であり、「色々な」「さまざまな」「いろいろな」はそ
の同義語である。「様々な」、「色々な」「さまざま
な」「いろいろな」を一つの同義語のグループとする
と、これらの同義語は下記のように所定の長さのビット
列に対応させることができる。同義語 ビット列 様々な 00 色々な 01 さまざまな 10 いろいろな 11 ここで、同義語に対応するビット列の長さについて説明
しておく。「様々な」の同義語は、「様々な」を含めて
4つあるので、これらの同義語の置き換えによって表現
できる情報は4通りある。この4通りの情報は2桁のビ
ットの配列(2の2乗)として表現することができる。
【0030】一般に、一つの置換対象語についてn個の
同義語を有する場合、その置換対象語と同義語の置換に
よって表現できるビット数は log2 nとなる。
【0031】つまり、一つの置換対象語についてn個の
同義語があれば、その置換対象語を適当な同義語に置き
換えることによって任意のlog2 nビット長のビット
列を表現することができる。
【0032】このことを拡張して利用すれば、文章中に
置き換えることができる同義語を複数個設定しておくこ
とにより、それらの同義語の置換えのやり方によって任
意の0と1の数字の配列を表現できる。
【0033】一方、デジタル文書に付すマークに含ませ
る情報(デジタル文書を配布する正規利用者の情報を含
ませることが多いので、本明細書ではこの情報を配布情
報という)は、0と1の数字の配列によって表現するこ
とができる。
【0034】すなわち、配布情報の内容に従って文章中
の置換対象語を適当な同義語に置き換えることによっ
て、配布情報を文章中に第三者が認識できない形で埋め
込むことができるのである。
【0035】この配布情報を埋め込んだ文書が不正に流
出された場合は、流出された文書の置換対象語(同義語
として用意された語句)を検索し、それぞれに対応する
ビット列に復号化すれば、配布情報を読み取ることがで
きる。
【0036】以上、本発明のデジタルマークの付与と認
識の原理である。なお、上記同義語と同様な働きをする
ものを考えれば、この原理をベクトル図形やソフトウェ
アプログラムコードからなるデジタル文書に拡張して適
用することができる。この原理を具体化した方法と装置
について以下に説明する。
【0037】図1は、本発明の第一の実施形態によるデ
ジタル文書のマーク認識方法の処理の流れを示してい
る。この第一の実施形態によるデジタル文書のマーク認
識方法は、文章からなるデジタル文書を対象とするマー
ク認識方法である。
【0038】この第一実施形態によるデジタル文書のマ
ーク認識方法では、最初にマークを付すべきデジタル文
書を入力し、そのデジタル文書に付するマークに含ませ
る情報(配布情報)を入力し、さらに、その置換可能な
言葉(置換対象語)とその同義語とそれらに対応するビ
ット列を多数用意する(ステップ100)。
【0039】次に、上記原デジタル文書から置換対象語
を検出する(ステップ110)。
【0040】ここで、必要に応じて、置換対象語と同義
語の個数によって制限を受けることがある情報記載用の
ビット列の長さと、配布情報のビット列の長さとを比較
し、配布情報の埋め込みの可能性を検討し判断する(ス
テップ120)。なお、配布情報が長い場合は、必要に
応じて配布情報を短縮するか、置換対象語や同義語を増
やす。
【0041】配布情報を上記置換対象語の同義語の置換
えによって埋め込むことができると判断したならば、配
布情報の内容に従って置換対象語を同義語に置き換えて
デジタル文書に書き込む(ステップ130)。
【0042】一方、配布情報は、後の照合のために保存
しておく(ステップ140)。
【0043】以上の処理の後、デジタルマークを付した
文書を、それぞれの配布先に配布する(ステップ15
0)。
【0044】以上の準備をしてデジタル文書を配布した
後、上記原のデジタル文書と同一または類似の不正に複
製等された文書が発見された場合は、その文書をマーク
認識対象文書として入力する(ステップ160)。
【0045】次に、上記マーク認識対象文書と原の文書
とを比較し、原の文書に対して置換した言葉をマーク認
識対象文書から検出し、置換対象語あるいは同義語を検
出する(ステップ170)。
【0046】この置換対象語あるいは同義語をビット列
に復号し、上記ステップ140で保存した配布情報とを
比較することにより、配布情報すなわちデジタルマーク
を認識することができる。これによってマーク認識対象
文書の流出源を特定することができる(ステップ18
0)。
【0047】以上がデジタル文書のマーク認識方法の概
容であるが、次に、デジタル文書のマーク認識装置を説
明しつつ上記方法についてさらに詳細に説明する。
【0048】図2は、本実施形態デジタル文書のマーク
認識装置の構成とその構成要素間の処理の流れを示して
いる。
【0049】図2に示すように、本実施形態によるデジ
タル文書のマーク認識装置1は、大きく配布情報書込装
置2と、配布情報読取装置3とからなる。マーク認識装
置1は、配布情報書込装置2と配布情報読取装置3との
協働によってその目的であるデジタル文書へのデジタル
マークの付与と認識を達成する。
【0050】配布情報書込装置2はさらに、入力手段4
と、同義語検出手段5と、符号化手段6と、冗長判断手
段7と、書込み手段8と、同義語データベース9と、配
布情報データベース10とを有している。
【0051】一方、配布情報読取装置3は、文書比較手
段11と、復号手段12と、距離判断手段13とを有し
ている。
【0052】入力手段4は、デジタル文書マーク認識装
置1に対するユーザーの命令の入力、同義語の設定及び
入力、マークの付与と認識を行う対象のデジタル文書の
入力等を行う手段である。入力手段4は、キーボード、
ポインティングデバイス、タッチパネル、画像入力装置
等の公知の入力手段のいずれを用いてもよい。
【0053】同義語データベース9は、置き換えても意
味が変化しない言葉(同義語)と、それらの同義語に対
応するビット列とを格納したデータベースである。
【0054】同義語検出手段5は、所定の文書から同義
語データベース9に格納されている同義語を検索する手
段である。
【0055】符号化手段6は、置換すべき原の同義語の
配列や配布情報を、0と1のビット列に符号化する手段
である。
【0056】冗長判断手段7は、文書中の置換できる言
葉の個数と各言葉に対して置き換えることができる同義
語の個数から決定されるビット列の長さと、配布情報を
表現するビット列の長さを比較することにより、その文
書にマーキングすることの可能性を判断する手段であ
る。配布情報がマーキング用ビット列に比して常に短い
場合には、冗長判断手段7を省略することができる。
【0057】書込み手段8は、配布情報の内容に従って
置換対象語を同義語に置換え、文書に書込む手段であ
る。
【0058】配布情報データベース10は、如何なる配
布相手に如何なる配布情報を付した文書を配布したかの
データや、原の文書の置換対象語の配列等の情報を格納
したデータベースである。
【0059】配布情報読取装置3の文書比較手段11
は、マークを認識しようとする文書と原の文書とを比較
し、原文書に対して改竄された箇所を特定し、特に、置
換された言葉を抽出し、置換対象語を特定する手段であ
る。文書比較手段11は、文書を入力する手段を含んで
いてもよく、また、入力手段4によって文書を入力する
ようにしてもよい。
【0060】復号手段12は、同義語データベース9を
参照し、同義語の置換えの方法からビット列を復号し、
配布情報を復原する手段である。
【0061】距離判断手段13は、配布文書が改竄され
ている場合に、改竄の程度すなわち配布文書との一致の
程度を、「配布文書との距離」として表現し、もっとも
近い配布文書を推定する手段である。なお、原文書との
距離を問題としないマーク認識、すなわち流出した文書
が改竄されていないことを前提とするマーク認識では、
距離判断手段13を省略することができる。
【0062】以上がデジタル文書マーク認識装置1の構
成要素であるが、次にこれらの構成要素によるデジタル
文書のマークの付与と認識について説明する。
【0063】デジタル文書マーク認識装置1では、入力
手段4により同義語によって置換え可能な言葉とその同
義語を準備し、これらを対応するビット列とともに同義
語データベース9に格納しておく。
【0064】次に入力手段4により、配布情報を付すべ
き文書と、その配布情報を入力する。配布情報は、その
デジタル文書を配布する相手を特定する情報でも、配布
した日付でも、電子署名でもよい。以上は図1における
ステップ100の処理である。
【0065】次に、同義語検出手段5により、上記入力
された配布情報を付すべき文書から、同義語データベー
ス9を参照して置換できる言葉(置換対象語あるいは同
義語)を検索する。これは図1のステップ110の処理
に該当する。
【0066】次に、符号化手段6により、前記同義語検
出手段5が検索した置換対象語の配列と、前記入力手段
4によって入力した配布情報とをそれぞれ0と1の数値
からなるビット列に符号化する。
【0067】次に、冗長判断手段7により、上記置換対
象語のビット列の長さと、配布情報のビット列の長さと
を比較する。置換対象語のビット列の長さが配布情報よ
り長い場合は、置換対象語のビット列に配布情報を埋め
込むことができるので次の処理に移るが、配布情報のビ
ット列の長さが長い場合には配布情報を埋め込むことが
できないので、置換対象語と同義語を追加設定するか、
配布情報を短縮するか等の措置をとる。
【0068】上記冗長判断手段7によって配布情報を文
書に埋め込むことができると判断された場合は、次に書
込み手段8が、同義語データベース9を参照し、配布情
報の内容(0と1のビット列)に従って置換対象語を同
義語に置き換えて文書に書き込む。この処理は、図1の
ステップ130の処理に該当する。
【0069】このように置換対象語の場所に同義語を埋
め込んだ文書は、配布文書20として所定の相手に配布
される。
【0070】配布文書20の配布と同時に、如何なる相
手に如何なる配布情報を埋め込んだ文書が配布されたか
の情報を、配布情報データベース10に格納する。この
処理は、図1のステップ140の処理に該当する。
【0071】このようにして配布情報を埋め込んだ文書
が配布された後に、原文書に類似あるいは同一のコピー
文書21が流布されている場合に、配布情報読取装置3
によってそのコピー文書21のマークを認識することが
できる。
【0072】最初に、文書比較手段11によってコピー
文書21と原文書とを比較する。
【0073】コピー文書21が正当な利用者に配られた
配布文書20から改竄されていなければ、原の文書とコ
ピー文書21とを一字一句比較して得られる差分から容
易に配布情報を抽出することができる。
【0074】コピー文書21が正当な利用者に配られた
配布文書20から改竄されている場合は、配布時に埋め
込まれた配布文書20中の配布情報の断片をコピー文書
21の中から検出する必要がある。もし、コピー文書2
1中から置換対象となる同義語が集中して数多く見つか
り、その同義語の集団から配布情報のビット列長さ(B
ビット)以上のビット列の情報が得られれば、配布情報
を完全に読み取ることができる。
【0075】上記配布情報の断片の検出は、原文書の語
句に対して置換された語句の検出によって行う。置換語
句を検出するには、コピー文書21と原文書とを比較
し、改竄されずに残った部分を抽出する。配布文書20
に対する改竄は、文字の挿入、削除、置換の操作に分類
されるので、コピー文書21と原文書の文章のマッチン
グ探索を行うことにより、図3に示すようなマッチング
結果を容易に得られる。
【0076】配布文書20に埋め込まれた同義語は、マ
ッチング結果の置換操作として現れるため、文書比較手
段11は、原文書上の置換対象語に該当する語句がコピ
ー文書21上でどのように置換されているかを逐一比較
することにより配布情報を抽出することができる(図1
のステップ160,170)。
【0077】コピー文書21から得られたBビット長の
配布情報が改変されている場合は、距離判断手段13に
より、流出源と思われる幾つかの配布文書20(20
a,20b,…)からの「距離」を計算することによっ
て流出源の配布文書20を推定することができる。以下
にその方法について説明する。
【0078】コピー文書21中に不完全な形(改変され
た形)で配布情報「…10101…」が抽出されたとす
ると、流出源と思われる配布文書20a,20bとの距
離は、該当する部分の配布情報のビット列「…1100
0…」(20a),「…00111…」(20b)と比
較し、nビット相違すれば距離nとして計算する。この
結果は、下記の表のようになる。 文書 配布情報のビット列 コピー文書21との距離 配布文書20a …11000… 3 配布文書20b …00111… 2 … … … コピー文書21 …10101… この場合、コピー文書21は、配布文書20bよりも配
布文書20aから流出した可能性が高いのは説明するま
でもない。
【0079】このように、コピー文書21と幾つかの配
布文書(20a,20b,…)とを比較することによ
り、配布文書の改竄によって完全な形でBビット長の配
布情報を得られない場合でも、コピー文書21との距離
から流出源の配布文書を推定することができる。
【0080】Bビット長の配布情報が得られた場合は、
復号手段12により、配布情報22が出力される(図1
のステップ180)。これにより、コピー文書の流出源
が特定でき、その流出源となった利用者に警告等の措置
をとることにより、長期的にはデジタル文書の情報の機
密を守ることができるようになる。
【0081】以上で本願発明の第一実施形態の説明を終
了し、次に本願発明の第二実施形態について以下に説明
する。
【0082】本願発明の第一実施形態は、文章からなる
デジタル文書へのマーク付与と認識であったが、同義語
と同様な作用を有するものを考えれば、ベクトル図形か
らなるデジタル文書へのマーク付与と認識に適用するこ
とができる。第二実施形態は、ベクトル図形からなるデ
ジタル文書へのマーク付与と認識に関するものである。
【0083】最初にベクトル図形に対するマーク付与と
認識の方法について説明する。
【0084】ベクトル図形の場合は、円、長方形、折れ
線、曲線などを上記置換対象語に相当するもの(以下置
換対象図形という)とする。これら置換対象図形に対し
て、図4に示すように、図形の位置を1ドット移動した
り、1ドット分拡大・縮小・回転したものを同義語相当
のもの(以下同義図形という)とする。移動の方向、拡
大、縮小、回転によって所定数の同義図形が存在するの
で、この置き換えによって所定長のビット列の情報を埋
め込むことができる。
【0085】このベクトル図形に埋め込んだ情報を読み
取るには、予め定めた置換対象図形を詳細に解析する。
この置換対象図形に対する同義図形の置き換えの方法に
より、一定の配布情報のビット列を復号することができ
る。これにより、不正に複製等された場合の流出源を特
定することができる。
【0086】ベクトル図形へのマーク付与と認識の処理
の流れを図5に示す。また、その処理を行う装置の構成
を図6に示す。
【0087】このベクトル図形へのマーク付与と認識の
処理の流れは、基本的には図1に示した文章からなるデ
ジタル文書へのマークの付与と認識と同一である。ただ
し、文章の場合は、置換対象語は一定の順序にすでに配
列しているので、置換対象語の検索と同義語の置換とを
機械的に行うことができたが、ベクトル図形の場合は、
置換対象図形を一定の順序で同義図形に置き換えてゆく
必要がある。図5ステップ210で「原のデジタル文書
の置換対象図形の設定」は、コンピュータによるのとユ
ーザーによるのとを問わず、ベクトル図形中の置換対象
図形を一定の順序で設定することの意である。
【0088】また、図6のデジタル文書マーク認識装置
31においても、同義語検出手段35は、コンピュータ
によって自動的に同義図形を一定の順序で設定する場合
と、ユーザーによって個々のベクトル図形に対してその
都度同義図形を一定の順序で設定する場合の、双方を含
む。残る部分については図2と同様であるので説明を省
略する。
【0089】次に本願発明の第三実施形態について以下
に説明する。
【0090】本願発明の第三実施形態は、ソフトウェア
のプログラムコードへのマーク付与と認識に関するもの
である。
【0091】最初にこのプログラムコードに対するマー
ク付与と認識の方法について説明する。
【0092】プログラムコードは、文章の場合と異な
り、文法上の制限からコマンドと同義の単語に置き換え
ることができない。しかし、一定の命令文のグループ
は、他の命令文のグループに置き換えて実行しても、元
の命令文グループを実行した結果とプロセッサの状態と
記憶装置の状態が等しいことがある。たとえば複数のR
EAD文が連続して記載されている部分等は、そのRE
AD文の順序を変えても実行結果が等しい。
【0093】このような命令文グループは、その一命令
文を文章における一文字と考え、この一連の命令文グル
ープを文章における置換対象語と考えることができる
(この命令文グループを置換対象命令文グループとい
う)。また、置換対象命令文グループと置き換えても実
行結果が等しい命令文グループは、文章における同義語
と考えることができる(この命令文グループを同義命令
文グループという)。一つの置換対象命令文グループに
対して複数の同義命令文グループを用意しておくことに
より、同義命令文グループの置換の方法によって一定の
ビット長のビット列を表現することができる。
【0094】配布情報を付すべきプログラムコードに対
して、置換対象命令文グループを設定し、配布情報の内
容に従って置換対象命令文グループを適当な同義命令文
グループに置き換えることにより、プログラムコードに
配布情報を埋め込むことができる。
【0095】このプログラムコードに埋め込んだ配布情
報を読み取るには、置換対象命令文グループや同義命令
文グループを検索し、これらの置換対象命令文に対する
同義命令文グループの置き換えの方法により、一定の配
布情報のビット列を復号することができる。この方法に
より、不正に複製等された場合の流出源を特定すること
ができる。
【0096】プログラムコードへのマーク付与と認識の
処理の流れを図7に示す。また、その処理を行う装置の
構成を図8に示す。
【0097】プログラムコードへのマーク付与と認識の
処理の流れと、その処理を行う装置は、置換対象と同義
のものが異なることを除き、文章へのマークの付与と認
識と同一であるので、図のみを示して重複する説明を省
略する。
【0098】
【発明の効果】以上の説明から明らかなように、本発明
によるデジタル文書のマーク認識装置と方法によれば、
同義語、同義図形、同義命令文グループを用意し、デジ
タル文書中の語句、ベクトル図形、命令文グループを適
当な同義語、同義図形、同義命令文グループに置き換え
ることにより、文章、ベクトル図形、プログラムコード
からなるデジタル文書に第三者が認識することができな
いマーク(配布情報)を埋め込むことができる。
【0099】上記配布情報を埋め込んだ文書は、改竄さ
れていない場合はもちろん、改竄された場合であって
も、わずかに残っている部分の同義語等の置換方法か
ら、配布情報を復号化することができる。
【0100】これにより、機密を守るべき文書の安易な
流出を防止することができ。したがって、一定範囲内で
自由に情報の複製や変更を許容しつつ、それ以上の情報
の不正な流出を効果的に防止する装置と方法を提供する
ことができる。
【図面の簡単な説明】
【図1】本発明による文章からなるデジタル文書のマー
ク付与及び認識方法の処理の流れを示したフローチャー
ト。
【図2】本発明による文章からなるデジタル文書のマー
ク認識装置の構成を示したブロック図。
【図3】本発明によるデジタル文書のマーク認識装置の
文書比較手段による文書のマッチングの様子を示した説
明図。
【図4】一ベクトル図形に対して1ドット移動した同義
図形を示した説明図。
【図5】本発明によるベクトル図形からなるデジタル文
書のマーク付与及び認識方法の処理の流れを示したフロ
ーチャート。
【図6】本発明によるベクトル図形からなるデジタル文
書のマーク認識装置の構成を示したブロック図。
【図7】本発明によるプログラムコードからなるデジタ
ル文書のマーク付与及び認識方法の処理の流れを示した
フローチャート。
【図8】本発明によるプログラムコードからなるデジタ
ル文書のマーク認識装置の構成を示したブロック図。
【符号の説明】
1 デジタル文書マーク認識装置 2 配布情報書込装置 3 配布情報読取装置 4 入力手段 5 同義語検出手段 6 符号化手段 7 冗長判断手段 8 書込み手段 9 同義語データベース 10 配布情報データベース 11 文書比較手段 12 復号手段 13 距離判断手段 20 配布文書 21 コピー文書 22 配布情報 31 デジタル文書マーク認識装置 32 配布情報書込装置 33 配布情報読取装置 34 入力手段 35 同義語検出手段 36 符号化手段 37 冗長判断手段 38 書込み手段 39 同義語データベース 40 配布情報データベース 41 文書比較手段 42 復号手段 43 距離判断手段 50 配布文書 51 コピー文書 52 配布情報 61 デジタル文書マーク認識装置 62 配布情報書込装置 63 配布情報読取装置 64 入力手段 65 同義語検出手段 66 符号化手段 67 冗長判断手段 68 書込み手段 69 同義語データベース 70 配布情報データベース 71 文書比較手段 72 復号手段 73 距離判断手段 80 配布文書 81 コピー文書 82 配布情報

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】入力手段と、 同義語とそれら同義語に対応するビット列とを格納した
    同義語データベースと、 前記入力手段によって入力されたデジタル文書から、前
    記同義語データベースに格納されている同義語を検出す
    る同義語検出手段と、 前記同義語検出手段によって検出された同義語を置換対
    象語として、配布情報を表わすビット列に従って前記置
    換対象語を所定の同義語に置き換えて前記デジタル文書
    に書き込む書込み手段と、 マーク認識対象文書と原文書とを比較し、置換された同
    義語を抽出する文書比較手段と、 前記文書比較手段によって抽出された同義語の置換の方
    法により、前記マーク認識対象文書に付された配布情報
    を復号化する復号手段と、を備えたことを特徴とする文
    章からなるデジタル文書のマーク認識装置。
  2. 【請求項2】入力手段と、 一ベクトル図形に対して移動、拡大、縮小、回転の少な
    くとも一つを行った同義図形と、それら同義図形に対応
    するビット列とを格納した同義図形データベースと、 ベクトル図形からなるデジタル文書に対し、前記同義図
    形を用意した図形を置換対象図形として、配布情報を表
    わすビット列に従って前記置換対象図形を所定の同義図
    形に置き換えて前記デジタル文書に配布情報を書き込む
    書込み手段と、 マーク認識対象文書と原文書とを比較し、置換された同
    義図形を抽出する文書比較手段と、 前記文書比較手段によって抽出された同義図形の置換の
    方法により、前記マーク認識対象文書に付された配布情
    報を復号化する復号手段と、を備えたことを特徴とする
    ベクトル図形からなるデジタル文書のマーク認識装置。
  3. 【請求項3】入力手段と、 一つの命令文グループに対して実行の結果プロセッサと
    記憶装置の状態が等しくなる同義命令文グループと、前
    記同義命令文グループに対応するビット列とを格納した
    同義命令文データベースと、 前記入力手段によって入力されたデジタル文書のプログ
    ラムコードから、前記同義命令文グループデータベース
    に格納されている同義命令文グループを検出する同義命
    令文検出手段と、 前記同義命令文検出手段によって検出された同義命令文
    グループを置換対象命令文グループとして、配布情報を
    表わすビット列に従って前記置換対象命令文グループを
    所定の同義命令文グループに置き換えて前記デジタル文
    書に配布情報を書き込む書込み手段と、 マーク認識対象文書と原文書とを比較し、置換された同
    義命令文グループを抽出する文書比較手段と、 前記文書比較手段によって抽出された同義命令文グルー
    プの置換の方法により、前記マーク認識対象文書に付さ
    れた配布情報を復号化する復号手段と、を備えたことを
    特徴とするプログラムコードからなるデジタル文書のマ
    ーク認識装置。
  4. 【請求項4】一語句に対してn個の同義語を用意し、前
    記同義語の置換えによって log2 nビットのビット
    列を表現する方法により、配布情報を表わすビット列に
    従って文書中の少なくとも一つの語句を同義語に置き換
    えることによってその文書中に配布情報を埋め込み、 マーク認識対象の文書に対しては、置換された同義語の
    置換えの方法から配布情報を復号することを特徴とする
    文章からなるデジタル文書のマーク付与及び認識方法。
  5. 【請求項5】一ベクトル図形に対して移動、拡大、縮
    小、回転の少なくとも一つを行ったn個の同義図形を用
    意し、前記同義図形の置換えによって log2 nビッ
    トのビット列を表現する方法により、配布情報を表わす
    ビット列に従ってベクトル図形中の少なくとも一つの置
    換対象図形を同義図形に置き換えることによってそのベ
    クトル図形の文書中に配布情報を埋め込み、 マーク認識対象の文書に対しては、置換された同義図形
    の置換えの方法から配布情報を復号することを特徴とす
    るベクトル図形からなるデジタル文書のマーク付与及び
    認識方法。
  6. 【請求項6】一命令文グループに対して実行の結果プロ
    セッサと記憶装置の状態が等しくなるn個の同義命令文
    グループを用意し、前記同義命令文グループの置換えに
    よって log2 nビットのビット列を表現する方法に
    より、配布情報を表わすビット列に従ってプログラムコ
    ード中の少なくとも一つの置換対象命令文グループを同
    義命令文グループに置き換えることによってそのプログ
    ラムコードの文書中に配布情報を埋め込み、 マーク認識対象の文書に対しては、置換された同義命令
    文グループの置換えの方法から配布情報を復号すること
    を特徴とするプログラムコードからなるデジタル文書の
    マーク付与及び認識方法。
JP27962496A 1996-10-22 1996-10-22 デジタル文書のマーキング装置及びマーク認識装置 Expired - Lifetime JP3989577B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27962496A JP3989577B2 (ja) 1996-10-22 1996-10-22 デジタル文書のマーキング装置及びマーク認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27962496A JP3989577B2 (ja) 1996-10-22 1996-10-22 デジタル文書のマーキング装置及びマーク認識装置

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2001302600A Division JP3492659B2 (ja) 2001-09-28 2001-09-28 デジタル文書のマーク認識装置及びその方法
JP2001302560A Division JP4121727B2 (ja) 2001-09-28 2001-09-28 デジタル文書のマーク認識装置

Publications (2)

Publication Number Publication Date
JPH10124490A true JPH10124490A (ja) 1998-05-15
JP3989577B2 JP3989577B2 (ja) 2007-10-10

Family

ID=17613581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27962496A Expired - Lifetime JP3989577B2 (ja) 1996-10-22 1996-10-22 デジタル文書のマーキング装置及びマーク認識装置

Country Status (1)

Country Link
JP (1) JP3989577B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011192089A (ja) * 2010-03-15 2011-09-29 Fuji Xerox Co Ltd 文書処理システム及び文書処理プログラム
JPWO2016098191A1 (ja) * 2014-12-17 2017-09-28 株式会社あいびし 改ざん検知装置、改ざん検知システム、改ざん検知方法及びプログラム
JP2019508832A (ja) * 2016-02-18 2019-03-28 アクシオム コーポレーション データベース・テーブル、テキスト・ファイル、及びデータ・フィード中におけるソルティング・テキスト及びフィンガープリンティング

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011192089A (ja) * 2010-03-15 2011-09-29 Fuji Xerox Co Ltd 文書処理システム及び文書処理プログラム
US8970871B2 (en) 2010-03-15 2015-03-03 Fuji Xerox Co., Ltd. Document processing system that embeds unique information in document
JPWO2016098191A1 (ja) * 2014-12-17 2017-09-28 株式会社あいびし 改ざん検知装置、改ざん検知システム、改ざん検知方法及びプログラム
JP2019508832A (ja) * 2016-02-18 2019-03-28 アクシオム コーポレーション データベース・テーブル、テキスト・ファイル、及びデータ・フィード中におけるソルティング・テキスト及びフィンガープリンティング

Also Published As

Publication number Publication date
JP3989577B2 (ja) 2007-10-10

Similar Documents

Publication Publication Date Title
US8635458B2 (en) Method and a system for embedding textual forensic information
Taleby Ahvanooey et al. A comparative analysis of information hiding techniques for copyright protection of text documents
JP3542678B2 (ja) 電子文書の単語間の空白部分の長さを利用した符号化および復号化方法、電子文書への署名情報の埋め込み方法、機密文書の暗号化方法
US6782509B1 (en) Method and system for embedding information in document
US5953415A (en) Fingerprinting plain text information
JP5735539B2 (ja) ネットワークを介して送信されるデータの暗号化および復号化システム、装置、および方法
CN101957810A (zh) 利用计算机***在文档中嵌入及检测水印的方法和装置
EP1399798B1 (en) Method of invisibly embedding into a text document the license identification of the generating licensed software
Jalil et al. Word length based zero-watermarking algorithm for tamper detection in text documents
Khadam et al. Text data security and privacy in the internet of things: threats, challenges, and future directions
US6738906B1 (en) Marking of electronic documents in order to expose unauthorized publication
Mali et al. Implementation of text watermarking technique using natural language watermarks
Alkawaz et al. Concise analysis of current text automation and watermarking approaches
Singh et al. A survey on text based steganography
Melkundi et al. A robust technique for relational database watermarking and verification
Memon et al. EVALUATION OF STEGANOGRAPHY FOR URDU/ARABIC TEXT.
Khadim et al. An intelligent three-level digital watermarking method for document protection
Chaudhary et al. Text steganography based on feature coding method
JP3989577B2 (ja) デジタル文書のマーキング装置及びマーク認識装置
Ivasenko et al. Information Transmission Protection Using Linguistic Steganography With Arithmetic Encoding And Decoding Approach
JP3492659B2 (ja) デジタル文書のマーク認識装置及びその方法
US6373947B1 (en) Document processing
JP4121727B2 (ja) デジタル文書のマーク認識装置
WO2002103461A2 (en) A method and a system for embedding textual forensic information
GB2411330A (en) A means for document security tracking

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070501

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110727

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120727

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130727

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term