JP3648101B2 - コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法 - Google Patents

コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法 Download PDF

Info

Publication number
JP3648101B2
JP3648101B2 JP25504499A JP25504499A JP3648101B2 JP 3648101 B2 JP3648101 B2 JP 3648101B2 JP 25504499 A JP25504499 A JP 25504499A JP 25504499 A JP25504499 A JP 25504499A JP 3648101 B2 JP3648101 B2 JP 3648101B2
Authority
JP
Japan
Prior art keywords
content
search
document
pointer
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP25504499A
Other languages
English (en)
Other versions
JP2001076000A (ja
Inventor
信行 大森
大二郎 森
博人 稲垣
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP25504499A priority Critical patent/JP3648101B2/ja
Publication of JP2001076000A publication Critical patent/JP2001076000A/ja
Application granted granted Critical
Publication of JP3648101B2 publication Critical patent/JP3648101B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,著作権情報などが副情報として埋め込まれたコンテンツを収集し,コンテンツが不正利用されていないかどうかをチェックするコンテンツの不正利用探索システムに関する。
【0002】
【従来の技術】
ディジタル・コンテンツの著作権保護を目的として,コンテンツにテキスト透かし,電子透かしなどの著作権情報を埋め込む技術が研究されてきた。電子透かしは,コンテンツ自体の情報(主情報)を「人間には認識できない程度の微少量だけ変更」し,コンテンツ内に別の情報つまり副情報を埋め込む技術である。
【0003】
例えば,電子透かしを用いて,購入者情報などをコンテンツに埋め込んでおき,不正と思われるデータから付加されている情報を読み出して,不正利用であるかどうかを判断することによって,不正利用を抑止するシステムなどが提案されている。
〔参考文献〕
・大友他:“著作権を考慮した画像流通システム”,'97 信学春全大,A-7-9,
1997.
・段野他:“著作物の再利用促進のための電子透かしの応用”,信学会基礎・境界ソサイエティ大会,1997.
これらの抑止策について,データが不正に利用されているかどうかを判断するためには,不正と思われるデータを見つけ,入手することが必要である。そのための方法として,WWW(World Wide Web)のコンテンツを対象に,次のような方法が提案されている。
【0004】
1.人手による探索
2.プログラムによる探索
3.転送データを監視
4.利用者の協力に基づく探索
ここでは,本発明に関連する2.の手法について述べる。これは,コンテンツの収集法として,WWW上のコンテンツを収集するプログラムであるWebロボットを利用し,収集したコンテンツの副情報のチェックを行う手法である。
【0005】
Webロボットを利用して,ディジタル・コンテンツの不正コピーを監視するするものとしては,例えばデジタルコンテンツ不正利用監視センター(http://www.mken.co.jp/dcwc.html )があり,これはインターネット探索ロボットにより世界中のサイトを常時巡回し,画像や音楽などのコンテンツが不正利用されていないかどうかを監視するものである。しかし,これはインターネット上のすべてのコンテンツを探索対象にするため,コンテンツの収集および透かしのチェックに時間がかかるという問題があった。
【0006】
【発明が解決しようとする課題】
上記のWebロボットプログラムを用いる手法で,WWW上のすべてのコンテンツを探索対象とした場合には,すべてのコンテンツを収集し,透かしを検査することが必要になる。
【0007】
しかし,探索対象の収集・透かしの検査に大きな計算時間が必要とされるため,現実的な時間でWWW上のすべてのコンテンツについて不正利用を探索することは不可能である。数日から数週間といった長時間をかけないと不正利用が探索されないということは,コンテンツに副情報を埋め込んだことによる心理的な不正利用抑制効果も期待できなくなる。
【0008】
そこで,本発明は上記問題点の解決を図り,不正利用コンテンツの効率的な探索を可能とし,実用的に許容できる時間内で探索を実行するための手段を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明は,上記課題を解決するため,ユーザが入力したキーワードの出現する文書内のコンテンツ,またはユーザが例えばWWWではURL(Uniform Resource Locator)などにより指定したコンテンツに類似するコンテンツを探索対象として収集し,それらの収集したコンテンツについて電子透かしなどによる不正利用のチェックを行うことをもっとも主要な特徴とする。その際に,探索する文書を決定して収集した後,さらにその収集した文書に含まれるコンテンツから探索対象を決定することも行う。
【0010】
具体的には,以下の手段を備える。
1)ユーザからキーワードまたはコンテンツの指定情報を入力する入力部。
2)ユーザが入力したキーワードまたはユーザが指定したコンテンツに応じて探索対象を決定する探索パターン決定部。
3)探索パターン決定部によって決定された探索対象に応じて探索対象コンテンツを収集する探索対象収集部。
4)収集した探索対象コンテンツが不正利用されているかどうかを電子透かしなどにより判定する探索対象コンテンツチェック部。
【0011】
探索パターン決定部は,不正利用を調査するユーザが入力部からキーワードを入力すると,そのキーワードに応じて探索対象を決定する。また,不正利用を調査するユーザがURLなどのコンテンツ指定情報を入力部から入力すると,指定されたコンテンツと類似するコンテンツを探索対象として決定する。
【0012】
また,探索パターン決定部は,文書内に画像などのコンテンツが埋め込まれている文書,または画像などは埋め込まれていないが,インターネット上の位置を示すURLなどの画像や音声などへのポインタ(以下,ポインタと略す)を持つ文書において,文章内の2単語の間の類似度を判断するための指標である表層距離を計算し,キーワードとの表層距離が一定値以下のポインタの指示するコンテンツを探索対象として決定する。
【0013】
指定されたキーワードとコンテンツまたはポインタの表層距離は,例えばそれぞれの間にある単語数・文字数・文の数・句の数・バイト数・タグ数・記号の数・特定の文字種の数,例えば漢字の数・特定の品詞の数,例えば助詞の数・特定のタグの数,例えば改行を示すタグの数,コンテンツまたはポインタ数などで定義される。
【0014】
また,探索パターン決定部は,キーワードと関連するコンテンツを探索対象とするため,論理距離という指標を用いることもできる。文書内にコンテンツが埋め込まれている文書で,論理構造を識別するためのマークとしてタグが付与されており,タグにより文書の章・節・項などの論理構造が表現されているとする。このとき,タグによって計算される文書内の論理レベルを指定されたキーワードとポインタについて計算しておき,指定されたキーワードとポインタの論理距離を,それぞれの論理レベルの差によって定義し,キーワードとの論理距離が一定値以下のポインタの指示するコンテンツを,探索対象として決定する。
【0015】
また,文書内にコンテンツが埋め込まれていない文書で,インターネット上の位置を示すURLなどのコンテンツ(画像や音声など)へのポインタを持つhtmlやxml形式などの文書で,論理構造を識別するためのマークとしてタグが付与されており,タグにより文書の章・節・項などの論理構造が表現されているとする。このとき,タグによって計算される文書内の論理レベルを指定されたキーワードとポインタについて計算しておき,指定されたキーワードとポインタの論理距離を,それぞれの論理レベルの差によって定義し,キーワードとの論理距離が一定値以下のポインタの指示するコンテンツを,探索対象として決定する。
【0016】
さらに,探索パターン決定部において,ファイル内に出現するキーワードと,ポインタに対して,上記表層距離と上記論理距離とにより,指定されたキーワードと,ポインタの関連度を定義し,キーワードとの関連度が一定値以上のポインタの指示するコンテンツを,探索対象として決定することもできる。
【0017】
前記探索対象収集部において,ユーザから指定された値に対して,それよりも大きい,または小さい,または同じ大きさのファイルサイズを持つファイルを不正利用探索対象として収集することもできる。
【0018】
また,前記探索対象収集部において,ユーザから指定された日時に対して,それよりも過去,または未来,または同じ日時に更新・作成されたファイルを不正利用探索対象として決定することもできる。
【0019】
前記探索対象収集部において,指定されたキーワードを含むWWWページなどの文書やコンテンツに対して,そのコンテンツや文書へのポインタを持つ文書およびその文書内のポインタの先の文書に含まれるコンテンツを不正利用探索対象として収集することにより,連鎖的に探索することも可能である。
【0020】
前記探索パターン決定部は,ユーザの入力したキーワードや,不正利用されたコンテンツの含む文書を入力とし,探索対象となる文書を決定する探索文書決定部と,探索対象収集部において収集された文書を入力とし,その文書内にポインタを含むコンテンツの中から,収集し電子透かしチェックを行うコンテンツを決定する探索コンテンツ決定部とから構成される。
【0021】
前記探索コンテンツ決定部において,各単語について文の先頭との表層距離である表層位置,文の先頭との論理距離である論理位置をあらかじめ計算しておき,単語とコンテンツとの表層距離と論理距離を計算する際に,それぞれの位置の差から距離を計算し,その間の単語などに関する情報を利用しないことにより,効率よく関連する探索対象コンテンツを決定することができる。
【0022】
また,前記探索コンテンツ決定部において,コンテンツへのテキストによる説明であるキャプションが,ユーザの指定したキーワードと同じであるか,または類義語辞書により類似とすると判断されたものを探索対象コンテンツと決定することにより,有効な探索を行うことができる。
【0023】
【発明の実施の形態】
本発明の実施の形態について,図面を参照して説明する。図1に,本発明の実施の形態のブロック図を示す。図中,100はコンテンツ不正利用探索装置,110はインターネット等のネットワークを表す。
【0024】
コンテンツ不正利用探索装置100において,入力部101は,ユーザがキーワードを入力する部分である。また,入力部101では,文書を指定することもできる。入力されたキーワードおよび指定された文書は,以下の各部で探索範囲を決定するのに利用される。
【0025】
探索パターン決定部102は,探索文書決定部103および探索コンテンツ決定部104から構成される。探索文書決定部103は,入力部101からユーザが入力したキーワードが含まれる文書の位置(URL:Uniform Resource Locatorなど)を探索対象文書として出力する。また,文書が指定されたときには,その文書と内容的に近い文書を探索対象文書として出力する。このときに複数の文書を指定することができる。なお,この探索文書決定部103は,大量の文書集合の中から,指定されたキーワードを含む文書を検索する情報検索システムによって構成される。この情報検索システムの入力は,自然文あるいは1個以上の単語である。自然文の場合には,形態素解析により文内の単語を抽出する。入力された単語に応じて,インデックス内の各文書に得点を付与する。出力は,入力された単語を含む文書と,文書に付与された得点である。このような情報検索システムは,例えば「InfoBee テキスト情報検索技術,NTT R&D,Vol.46 No.10, 1997, pp.93-98」や「分散型文書検索装置,特願平10-327701, 1998 」に記載されている技術を利用して実現することができる。
【0026】
本発明においては,探索対象文書が情報検索における検索対象テキストに相当する。例えばインターネットを対象とした場合には,WWWサーバにより公開されているHTMLファイルが検索対象テキストになる。
【0027】
また,探索文書決定部103は,キーワードを入力するとそのキーワードを含む文書を出力する情報検索システムであるので,そのための単語インデックスを持つ。この単語インデックスには,「ある単語がどの文書に含まれているか」という情報を持つ。例えば,インターネットの場合,単語インデックスには,どの単語がどのURLに含まれているかが記録されている。
【0028】
探索コンテンツ決定部104は,探索対象収集部105が収集した文書に含まれるポインタの示すコンテンツを収集するかどうかを判定し,収集する場合には,探索対象収集部105に対してそのコンテンツを収集する指示を行う。
【0029】
探索対象収集部105は,探索文書決定部103または探索コンテンツ決定部104により指定された文書・コンテンツをネットワーク110上のサーバから収集する。探索対象収集部105については,「情報処理学会第125回自然言語処理研究会,クロスリンガルWWWサーチエンジンTITAN,林良彦,菊井玄一郎,鷲崎誠司,巖寺俊哲」に記載されている方法などを利用する。探索対象収集部105の入力は,URLなどコンテンツや文書を示すポインタであり,これをもとに,探索対象収集部105はポインタの指し示すサーバと通信し,コンテンツや文書を収集する。探索対象収集部105の出力は,収集したコンテンツや文書である。
【0030】
電子透かし取り出しエンジン106は,探索対象収集部105が収集したコンテンツに埋め込まれた副情報を取り出す。コンテンツは,画像・音声・テキストなど様々な形式のものが考えられる。したがって,電子透かし取り出しエンジン106は,各コンテンツに応じたエンジンから構成される。
【0031】
電子透かし取り出しエンジン106の入力は,テキスト,画像,動画,音声などのコンテンツであり,処理は,コンテンツに埋め込まれている透かし情報を取り出すことである。出力は,取り出した透かし情報である。コンテンツがテキストのときには,「テキスト電子認証装置,方法,及び,テキスト電子認証プログラムを記録した記録媒体,特願平11-145676, 1999 」,画像のときには「画像処理方法および装置,特開平11-69133」および「動画電子透かし技術,NTT R&D,Vol.47 No.6 1998, pp.107-110」などの方法および装置をエンジンとして利用することができる。
【0032】
図2は,本発明の実施の形態の処理概要を示すフローチャートである。ステップ201では,入力部101がユーザからキーワードを入力する。ステップ202では,探索文書決定部103が,ユーザの指定したキーワードを含む文書のURLなどの位置を出力し,探索範囲を決定する。次に,ステップ203では,探索対象収集部105が探索範囲の文書を収集し,ステップ204では,探索コンテンツ決定部104が,収集した文書を解析してさらに収集するコンテンツを決定する。
【0033】
ステップ205では,文書内に画像などのコンテンツが含まれるかどうかをチェックし,文書に画像コンテンツが含まれる文書(ワープロソフトの文書ファイルなど)の場合には,ステップ206で,探索対象収集部105がステップ203で収集した文書からコンテンツを取り出す。HTMLのように文書内にコンテンツが含まれない文書の場合には,ステップ207で,文書内に含まれるコンテンツへのURLをもとに,コンテンツ自身をWebから収集する。
【0034】
ステップ208では,電子透かし取り出しエンジン106が,コンテンツの副情報を取り出し,ステップ209で,検出結果出力部107がその透かしの検出結果を出力する。
【0035】
次に,図1に示すコンテンツ不正利用探索装置100の動作について,インターネットのWeb上のコンテンツを探索する場合を例にして,さらに詳しく説明する。
【0036】
入力部101にユーザからキーワードが入力されると,探索文書決定部103は,このキーワードを含む文書のURLを出力する。探索文書決定部103は,Web上のHTMLファイルについて,どのURLのHTMLファイルにどの単語が入っているかという情報をインデックスに持つ。ユーザの入力した単語と,インデックスとを照合することで,その単語を含むHTML文書のURLを出力する。
【0037】
単語は複数を指定することができ,指定された複数の単語のすべてを含む,少なくとも一つを含む,一部の単語を含む,一部の単語を含まない,といった条件を指定することができる。また,ユーザは単語だけでなく,自然文を条件として入力することができる。入力が複数の単語である場合や,自然文である場合のインデックスとの比較方法は,例えば「InfoBee テキスト情報検索技術,NTT R&D,Vol.46 No.10, 1997, pp.93-98」および「分散型文書検索装置, 特願平10-327701, 1998 」に示されている技術を利用することができる。
【0038】
次に,探索対象収集部105は,探索文書決定部103が出力したURLリストで指定されたHTMLファイルをWebから収集し,探索コンテンツ決定部104へと出力する。探索コンテンツ決定部104では,HTMLファイル内のコンテンツやポインタの示すコンテンツ(以下,HTMLファイル内のコンテンツとポインタの示すコンテンツとをまとめて,HTMLファイル内のコンテンツと呼ぶ)に対して,ユーザの入力したキーワードに応じた得点を付ける。そして一定以上の得点を持つコンテンツを探索対象と決定し,探索対象収集部105にその位置を出力する。
【0039】
あるHTMLファイル内におけるコンテンツの得点は,ファイル内に出現するキーワードとコンテンツの関連度を,ファイル内のすべてのキーワードに対して合計したものである。
【0040】
関連度は,キーワードとコンテンツの表層距離,論理距離により定義される。ここでは,表層距離と論理距離の積の逆数として定義している。表層距離と論理距離の計算法については後で詳しく説明する。
【0041】
この関連度を求める処理では,探索コンテンツ決定部104は,探索文書決定部103の指定により探索対象収集部105で収集された文書を受け取る。文書を受け取ると,探索コンテンツ決定部104は,まず,文書を形態素解析する。形態素解析は,文章から単語を取り出し,その単語の品詞を同定することである。
【0042】
本実施の形態の形態素解析では,<br>,<li>といった文中のタグは,<>で囲まれた文字列の部分を一つの単語として扱う。形態素解析した単語から,単語の表層位置と論理位置を計算し,求めた表層位置と論理位置から,探索コンテンツを決定するため,文書中のコンテンツと単語の表層・論理距離から,コンテンツと単語の関連度を計算する。
【0043】
あるコンテンツについて,文書中の全キーワードとの関連度の合計をコンテンツの得点とする。これを文書中のすべてのコンテンツについて行い,得点が一定値以上のコンテンツを探索対象として決定する。
【0044】
表層位置は,文書先頭の単語を1とし,単語ごとに1ずつ増える。また,ここでは形態素解析結果の単語が句点,読点のときは,それぞれ表層位置にさらに1と2を加算する。これは,単語のシーケンスである文において,単語間の表層的な位置が近いほど,2単語の関連が大きいという仮定に基づく。
【0045】
論理位置は,文書の先頭を基準とし,章,節,項といった論理的な構造情報を反映する値である。章や節などの論理構造をタグから認識し,論理構造上の位置を論理位置として表現する。同じ一つのタグでも,章を表すタグでは大きく論理位置が移動し,項を表すタグでは,章を表すタグほどは論理位置は移動しない。各タグによりどの程度論理位置が移動するかは,論理位置加算値表(図3)で指定する。ここでは,タグにマイナスの加算値を指定しているが,必ずしもマイナスの値が必要ではなく,プラスのみにしてもよい。
【0046】
文書に埋め込まれたコンテンツやポインタについても単語と同様に扱う。コンテンツあるいはポインタを単語とみなし,処理を行う。これらポインタなどを単語の場合と同様に処理すると,表層距離はポインタなどでは前の単語と比較して1増える。論理位置は,論理位置加算値表のそのポインタを示すタグが0でない値のときは変化するが,0のときは前の単語のときと変化しない。
【0047】
表層位置と論理位置の計算例を,図3に示す。図3(A)の「単語に対する表層位置・論理位置」の3つの列は,左から,形態素解析結果である単語またはタグ,単語またはタグについての表層位置,論理位置である。
【0048】
<H1>というタグは,図3(B)に示す論理位置加算値表より,加算値が10なので論理位置に10を加える。表層位置は1単語分増加させるので1を加える。句点・読点については,さらにそれぞれ1と2が加算されるので,表層位置が2と3増加する。句読点は意味的なまとまりを区切る目的で書かれるものであり,それを反映するための値である。
【0049】
単語とコンテンツの関連度を計算する際に,文書先頭からその単語までの情報を含んだ値として表層・論理位置を計算しておくことで,距離と関連度を高速で効率よく計算することができる。つまり,位置を計算しておかない場合には,2単語の表層距離・論理距離を計算する度に,その間にある単語数やタグを調べる必要がある。そのため,文書中のすべての単語を記憶しておく必要がある。しかし,位置を計算しておくことで,ユーザが指定したキーワードとコンテンツへのポインタの位置を記憶しておけば,その間の距離,関連度を計算することができる。
【0050】
図3の例では,「ポータル」がユーザの指定したキーワードとすると,「ポータル」とコンテンツを表す「ポインタ」についてのみ,表層位置と論理位置を記憶しておけば,その間の単語やタグを記憶せずに距離,関連度が計算できる。この例では,表層距離は4,論理距離は8であり,関連度は,1/(4×8)=0.03125となる。
【0051】
ユーザが指定した文書と類似した文書を探索対象文書として収集する類似コンテンツ探索方法について説明する。図1の探索パターン決定部102が行う処理である。
【0052】
これは,不正利用されているコンテンツを含むページ(不正利用含有文書)と内容が類似したページでは,コンテンツが不正利用されている可能性が大きいと考え,探索対象とする方法である。前回の不正利用探索の結果,不正利用含有文書を見つけた場合に,その文書を指定することで,内容の類似した文書を探索できる。
【0053】
検出結果出力部107は,ユーザに対して,コンテンツが不正利用されているか否か,またそのコンテンツのURLなどの位置を出力する。ユーザはこの結果を見て,不正利用含有文書を指定し,文書番号などを入力部101へ入力することができる。このとき,探索文書決定部103のインデックスから,指定されたページである文書と内容的に近い文書を探索対象文書として出力する。
【0054】
探索対象収集部105は,指定された文書を収集し,探索コンテンツ決定部104に出力する。以降の処理は,キーワードを入力した場合と同様であり,探索コンテンツ決定部104におけるキーワードは,前回の不正利用探索のときにユーザが入力したキーワードを使う。
【0055】
また,探索対象収集部105において,指定されたキーワードを含むWWWページなどの文書やコンテンツに対して,そのコンテンツや文書へのポインタを持つ文書およびその文書内のポインタの先の文書に含まれるコンテンツを不正利用探索対象として収集することもできる。これについて説明する。
【0056】
この探索対象の収集は,一度探索を行って不正利用を発見した場合,不正利用含有文書に含まれているポインタの指す文書と,不正利用含有文書や不正利用コンテンツへのポインタを持つ文書を探索文書とする探索,つまりポインタ探索である。この処理では,不正利用文書に含まれているポインタを,すでに収集した不正利用含有文書から取り出す。HTMLなどでは,ポインタは特定の形式のタグで表現されており本文と区別できるため,ポインタの形式に一致する文字列を切り出すことでポインタを抽出する。
【0057】
また,探索文書決定部103のインデックスにより不正利用コンテンツや不正利用含有文書へのポインタを含む文書のURLを得る。インターネットのWWWにおいては,ポインタはURLにより示されたハイパーリンクのことである。
【0058】
さらに,コンテンツへのテキストによる説明であるキャプションが,ユーザの指定したキーワードと同じであるか,または類義語辞書により類似とすると判断されたものを探索コンテンツと決定することもできる。ここでは,これをキャプション探索と呼ぶ。
【0059】
通常,HTMLなどのホームページ作成に利用する文書は,他の文書等と関連付けるためのリンク(本明細書ではポインタと呼んでいる)という仕組みを持つ。リンクにより,ある文書から他の文書やコンテンツに対して方向を持った関連付けができる。この際に,リンク先のコンテンツに対する説明文であるキャプションを,リンクもとの文書にリンク情報と共に保持させることができる。キャプションは一単語で表現されることが多い。
【0060】
このキャプションとユーザの指定したキーワードを調べ,同じ場合や類似する場合にコンテンツの得点に加算する。類似しているかどうかの判定には,探索文書決定部103が内部に持つ類義語辞書を使用する。
【0061】
以上の処理において,入力部101は,さらに探索対象とするファイルサイズの指定情報を入力したり,探索対象とする日時(期間を含む)の指定情報を入力したりして,探索対象収集部105が収集する探索対象のコンテンツについて,入力部101から入力されたファイルサイズや日時の情報による絞り込みを行うようにすることもできる。
【0062】
図4は,本実施の形態の処理フローチャートであって,インターネットのWWWにおけるHTMLファイルを対象にした場合の例を示している。
【0063】
ステップ400では,入力部101にユーザからキーワードが入力される。またはURLなどで文書が指定されることもある。ステップ401の判定により,キーワードが入力された場合には,ステップ402へ進み,文書が指定された場合には,ステップ403へ進む。
【0064】
ステップ402では,キーワードが入力されたときに,探索文書決定部103が,キーワードを含むページを得点付けして,そのページのURLを出力する。ステップ403では,文書を指定するURLが入力されたときに,そのURLのページに類似する文書のURLを出力する。
【0065】
ステップ404では,探索対象収集部105が,ステップ402またはステップ403で指定されたURLのページ(HTMLファイル)を,ネットワーク110を介してWebから収集する。次に,ステップ405では,探索コンテンツ決定部104が,収集したページ内に含まれるコンテンツのURLから,収集するものを決定する。ステップ405の処理の詳細は,図6および図7に示す。
【0066】
ステップ406では,ステップ405で収集すると決定したコンテンツを,探索対象収集部105が収集する。ステップ404およびステップ406については,例えば前述した参考文献「情報処理学会第125回自然言語処理研究会,クロスリンガルWWWサーチエンジンTITAN,林良彦,菊井玄一郎,鷲崎誠司,巌寺俊哲」に記載されている方法などを利用することができる。
【0067】
次に,ステップ407では,電子透かし取り出しエンジン106が,収集したコンテンツの電子透かしをチェックし,コンテンツの副情報を取り出す。このステップ407では,コンテンツがテキストのときには「テキスト電子認証装置,方法,及び,テキスト電子認証プログラムを記録した記録媒体,特願平11-145676, 1999 」,画像のときには「画像処理方法および装置,特開平11-69133」および「動画電子透かし技術,NTT R&D,Vol.47 No.6 1998, pp.107-110」に記載されている技術を利用することができる。このステップ407における入力は,テキスト,画像,動画などのコンテンツである。処理は,コンテンツに埋め込まれている透かし情報を取り出すことである。出力は,取り出した透かし情報である。
【0068】
ステップ408では,検出結果出力部107が電子透かしの検出結果を出力する。続いて,ステップ409の判定により,類似文書探索,ポインタ探索を行うと指定されていなければ処理を終了し,指定されていれば,ステップ410へ進む。ステップ410では,類似文書探索またはポインタ探索を実行し,ステップ404へ戻って,同様にHTMLファイルのURLをもとに探索を続ける。
【0069】
図5は,類似文書探索とポインタ探索の処理フローチャート,すなわち図4に示すステップ410の詳細な処理を示している。
【0070】
まず,ステップ501で,類似文書探索をすると指定されているかどうかを判定し,類似文書探索をすると指定されていない場合,ステップ504へ進む。指定されている場合には,ステップ502で,探索文書決定部103からユーザにより指定された文書と内容的に類似した文書のURLを得る。この類似文書探索処理の入力は,複数の文書である。処理内容は,入力された文書から単語を抽出し,この単語に基づいて,探索の対象となる文書に得点を付け,一定の得点以上の文書を類似文書とすることである。出力は,類似する文書のURLである。ステップ503では,こうして得た類似文書のURLをメモリに記憶する。
【0071】
次に,ステップ504では,ポインタ探索をすると指定されているかどうかを判定し,ポインタ探索をすると指定されていない場合,ステップ509へ進む。指定されている場合には,ステップ505で,ユーザにより指定されたページ(文書)に含まれるコンテンツへのポインタ(URL)を取り出す。取り出したURLは,ステップ506でメモリに保存する。
【0072】
ステップ507では,探索結果から発見した不正利用コンテンツのあるページへのリンクを含む文書のURLを得る。ステップ508では,ステップ507で得た文書のURLをメモリに記憶する。ステップ509では,上記ステップ503,506,508でメモリに保存したURLを探索文書として出力する。ここで,出力したURLが,図4のステップ404へ入力される。
【0073】
図6および図7は,探索コンテンツ決定部104が文書内のコンテンツの中で収集するコンテンツを決定するときの処理フローチャートである。探索コンテンツ決定部104は,単語とコンテンツの関連度を計算して,収集するコンテンツを以下のように決定する。
【0074】
探索コンテンツ決定部104は,探索対象収集部105で収集された文書を受け取ると,まず,ステップ601では,入力文書を形態素解析する。形態素解析は,文章から単語を取り出し,その単語の品詞を同定することである。ここでの形態素解析においては,<br>,<li>といった文中のタグは,<>で囲まれた文字列の部分を一つの単語として扱う。この形態素解析での入力は,自然文あるいは一以上の単語である。自然文の場合は,形態素解析により,文内の単語を抽出する。入力された単語に応じて,インデックス内の各文書に得点を付与する。形態素解析の出力は,入力された単語を含む文書と,文書に付与された得点である。
【0075】
ステップ602では,先頭の単語またはタグを一つ選択し,形態素番号を1とし,メモリ上に表層位置=1,論理位置=0として記録する。次に,すべての単語について,以下のステップ603〜616の処理を行う。
【0076】
ステップ603では,先頭の単語である場合を除き,一つ前の単語の表層位置に1を加え,現在見ている単語の表層位置としてメモリ上に記録する。ステップ604の判定により,現在の単語が,コンテンツである場合には,ステップ605へ進み,コンテンツ配列にコンテンツの表層位置と論理位置とコンテンツへのキャプションを記録し,ステップ616の判断処理を行う。
【0077】
単語がコンテンツでない場合,ステップ606へ進み,単語が句点であれば,表層位置に1を加算する(ステップ606,607)。単語が読点であれば,表層位置に2を加算する(ステップ608,609)。また,現在着目している単語がタグのときには,論理位置加算値表でタグごとに指定されている加算値を,メモリ上の論理位置に加える(ステップ610,611)。
【0078】
単語がユーザの指定した単語(入力文を形態素解析して抽出した単語)である場合には,単語・論理位置・表層位置をキーワード配列に記録しておく(ステップ612,613)。
【0079】
その後,ステップ614では,単語とその単語の論理位置,表層位置を単語配列に記憶する。このときに,配列のインデックス番号は形態素番号を用いる。ステップ615では,次の単語の処理のために形態素番号に1を加える。
【0080】
ステップ616では,以上の処理を入力文書のすべての単語について終了したかどうかを判定し,まだであれば,ステップ603へ戻って同様に処理を繰り返す。以上の処理をすべての単語について終了したならば,図7のステップ701へ進む。
【0081】
図7は,表層位置と論理位置から探索対象コンテンツを決定する処理の流れを示している。文書中のコンテンツと単語の表層・論理距離から,コンテンツと単語の関連度を計算する。ここでは,コンテンツ配列内のすべての要素(コンテンツ)について処理が終わるまで(ステップ712),ステップ701〜711を繰り返す。ステップ701では,コンテンツ配列からコンテンツへのポインタと表層位置,論理位置を一つ取り出す。次に,ステップ702へ進み,キーワード配列のすべての単語について処理が終わるまで(ステップ711),ステップ702〜710を繰り返す。
【0082】
ステップ702では,キーワード配列から一つキーワードを取り出し,ステップ703で,コンテンツ得点を0に初期化する。ステップ704では,次式により表層距離と論理距離とを計算する。
【0083】
表層距離=〔コンテンツの表層位置〕−〔キーワードの表層位置〕
論理距離=〔コンテンツの論理位置〕−〔キーワードの論理位置〕
ステップ705では,コンテンツ・キーワードの関連度を,次式により計算する。
【0084】
関連度=1/(表層距離×論理距離)
ステップ706では,コンテンツ得点にステップ705で計算した関連度を加える。このとき,関連度に所定の重み定数wを掛けてから加算してもよい。さらに,キーワードとコンテンツへのキャプションが同じ場合,コンテンツ得点に1を加算し(ステップ707,708),類義語辞書によりキーワードとコンテンツへのキャプションが類義語とされた場合には,コンテンツ得点に0.5を加算する(ステップ709,710)。
【0085】
通常,HTMLなどホームページ作成に利用する文書は,ポインタの先のコンテンツに対する説明文であるキャプションを,ポインタの元の文書にリンク情報と共に保持させることができる。このキャプションとユーザの指定したキーワードを調べ,同じ場合や類似する場合にコンテンツの得点に加算する処理が,ステップ707からステップ710の処理である。
【0086】
以上の処理を,キーワード配列のすべての単語,コンテンツ配列内のすべての要素について行ったならば(ステップ711,712),ステップ713へ進み,コンテンツ得点が指定された一定値以上であるかをチェックし,コンテンツ得点が一定値以上である場合には,ステップ714により,そのコンテンツへのURLを,収集対象のコンテンツとして探索対象収集部105に渡す。
【0087】
【発明の効果】
以上説明したように,本発明によれば,不正利用の可能性が高いコンテンツだけを収集して電子透かしのチェックを行うことで,現実的な時間で不正利用を探索することが可能になる。例えばインターネット上のすべてのコンテンツの収集と電子透かしのチェックのためには非常に大きな時間が必要となるが,本発明により不正利用を探索する対象を絞り込むことで,不正利用探索に必要とする計算時間を減らし,効率的に不正利用コンテンツを探索することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態のブロック図である。
【図2】本発明の実施の形態の処理概要を示すフローチャートである。
【図3】表層位置と論理位置の計算例を示す図である。
【図4】インターネットにおける本実施の形態による探索の処理フローチャートである。
【図5】類似文書探索とポインタ探索の処理フローチャートである。
【図6】探索コンテンツ決定部が文書内のコンテンツの中で収集するコンテンツを決定するときの処理フローチャートである。
【図7】探索コンテンツ決定部が文書内のコンテンツの中で収集するコンテンツを決定するときの処理フローチャートである。
【符号の説明】
100 コンテンツ不正利用探索装置
101 入力部
102 探索パターン決定部
103 探索文書決定部
104 探索コンテンツ決定部
105 探索対象収集部
106 電子透かし取り出しエンジン
107 検出結果出力部
110 ネットワーク

Claims (6)

  1. ネットワークに接続され,ディジタル・コンテンツの不正利用を自動探索する装置であって,
    ユーザからキーワードまたはコンテンツの指定情報を入力する入力部と,
    ユーザが入力したキーワードに関連するコンテンツまたはユーザが指定したコンテンツと類似するコンテンツをコンテンツ不正利用チェックの探索対象として決定する探索パターン決定部と,
    前記探索パターン決定部によって決定された探索対象に応じて探索対象コンテンツを収集する探索対象収集部と,
    収集した探索対象コンテンツが不正利用されているかどうかを判定する探索対象コンテンツチェック部とを備え,
    前記探索パターン決定部は,文書内にコンテンツが埋め込まれている文書,または他のコンテンツへのポインタを持つ文書において,指定されたキーワードとコンテンツまたはポインタとの間の単語数に相当する表層距離を計算するとともに,指定されたキーワードとコンテンツまたはポインタとの間の文書の論理構造における論理レベルの差に相当する論理距離を計算し,計算した表層距離と論理距離との積の逆数として定義されるキーワードとコンテンツまたはポインタとの関連度を計算し,文書中の全キーワードとの関連度の合計により算出されたコンテンツ得点の結果に基づいて,文書内に埋め込まれているコンテンツまたはポインタの指示するコンテンツを探索対象として決定する
    ことを特徴とするコンテンツ不正利用探索装置。
  2. 前記入力部は,探索対象とするファイルサイズの指定情報を入力する手段を持ち,
    前記探索対象収集部は,指定された値に対して,それよりも大きい,または小さい,または同じ大きさのファイルサイズを持つファイルを不正利用探索対象として収集する
    ことを特徴とする請求項1に記載のコンテンツ不正利用探索装置。
  3. 前記入力部は,探索対象とする日時の指定情報を入力する手段を持ち,
    前記探索対象収集部は,指定された日時に対して,それよりも過去,または未来,または同じ日時に更新または作成されたファイルを不正利用探索対象として収集する
    ことを特徴とする請求項1または請求項2に記載のコンテンツ不正利用探索装置。
  4. 前記探索パターン決定部は,前記探索対象収集部において収集された文書を入力とし,その文書内にポインタを含むコンテンツの中からさらに探索対象とするコンテンツを決定する探索コンテンツ決定部を備える
    ことを特徴とする請求項1から請求項3までのいずれかに記載のコンテンツ不正利用探索装置。
  5. 前記探索コンテンツ決定部は,コンテンツへのテキストによる説明であるキャプションが,ユーザの指定したキーワードと同じであるか,または類義語辞書により類似とすると判断されたものを探索対象コンテンツと決定する
    ことを特徴とする請求項4記載のコンテンツ不正利用探索装置。
  6. ネットワークに接続されるコンテンツ不正利用探索装置がディジタル・コンテンツの不正利用を自動探索する方法であって,
    ユーザからキーワードまたはコンテンツの指定情報を入力する過程と,
    ユーザが入力したキーワードに関連するコンテンツまたはユーザが指定したコンテンツと類似するコンテンツをコンテンツ不正利用チェックの探索対象として決定する過程と,
    決定された探索対象に応じて探索対象コンテンツを収集する過程と,
    収集した探索対象コンテンツが不正利用されているかどうかを判定する過程とを有し,
    前記探索対象を決定する際に, 文書内にコンテンツが埋め込まれている文書,または他のコンテンツへのポインタを持つ文書において,指定されたキーワードとコンテンツまたはポインタとの間の単語数に相当する表層距離を計算するとともに,指定されたキーワードとコンテンツまたはポインタとの間の文書の論理構造における論理レベルの差に相当する論理距離を計算し,計算した表層距離と論理距離との積の逆数として定義されるキーワードとコンテンツまたはポインタとの関連度を計算し,文書中の全キーワードとの関連度の合計により算出されたコンテンツ得点の結果に基づいて,文書内に埋め込まれているコンテンツまたはポインタの指示するコンテンツを探索対象として決定する
    ことを特徴とするコンテンツ不正利用探索方法。
JP25504499A 1999-09-09 1999-09-09 コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法 Expired - Lifetime JP3648101B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25504499A JP3648101B2 (ja) 1999-09-09 1999-09-09 コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25504499A JP3648101B2 (ja) 1999-09-09 1999-09-09 コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法

Publications (2)

Publication Number Publication Date
JP2001076000A JP2001076000A (ja) 2001-03-23
JP3648101B2 true JP3648101B2 (ja) 2005-05-18

Family

ID=17273392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25504499A Expired - Lifetime JP3648101B2 (ja) 1999-09-09 1999-09-09 コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法

Country Status (1)

Country Link
JP (1) JP3648101B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030237A (ja) * 2001-07-11 2003-01-31 Just Syst Corp ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ
WO2004034282A1 (ja) * 2002-10-10 2004-04-22 Fujitsu Limited コンテンツ再利用管理装置およびコンテンツ再利用支援装置
US7647299B2 (en) * 2003-06-30 2010-01-12 Google, Inc. Serving advertisements using a search of advertiser web information
WO2005116793A1 (en) * 2004-05-28 2005-12-08 Koninklijke Philips Electronics N.V. Method and apparatus for content item signature matching
JP4158927B2 (ja) 2005-03-25 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報提示装置、情報提示方法、プログラム
JP4990823B2 (ja) * 2008-03-12 2012-08-01 Kddi株式会社 違法コンテンツ判定支援システムおよび違法コンテンツ判定支援システムの制御プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3445912B2 (ja) * 1997-01-24 2003-09-16 シャープ株式会社 ハイパーテキスト自動取得装置
JPH11239129A (ja) * 1997-06-05 1999-08-31 Hitachi Ltd 電子データを認証するための方法
JP4053628B2 (ja) * 1997-06-13 2008-02-27 インターシア ソフトウェア エルエルシー 電子透かしを利用するデジタルコンテンツ管理システム

Also Published As

Publication number Publication date
JP2001076000A (ja) 2001-03-23

Similar Documents

Publication Publication Date Title
US7363277B1 (en) Detecting copyright violation via streamed extraction and signature analysis in a method, system and program
US8458207B2 (en) Using anchor text to provide context
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
JP4767694B2 (ja) 不正ハイパーリンク検出装置及びその方法
US8249855B2 (en) Identifying parallel bilingual data over a network
CN102436563B (zh) 一种检测页面篡改的方法及装置
CN102446255B (zh) 一种检测页面篡改的方法及装置
WO2002037326A1 (en) System for monitoring publication of content on the internet
KR20020009077A (ko) 문장 표절 및 도용 검색 방법
Sivakumar Effectual web content mining using noise removal from web pages
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
JP4821039B2 (ja) 地名情報抽出装置、その抽出方法及び記録媒体
JP2004086851A (ja) 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体
JP3648101B2 (ja) コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN116881595B (zh) 一种可自定义的网页数据爬取方法
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
Nie et al. Extracting objects from the web
JP3683687B2 (ja) 情報フィルタリング装置および情報フィルタリング方法
CN114282097A (zh) 一种信息识别方法及其装置
CN115757760A (zh) 文本摘要提取方法及***、计算设备、存储介质
JP4714117B2 (ja) 企業名抽出方法およびプログラム
Baird et al. Robust document image understanding technologies
JP5115631B2 (ja) 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置
Zhi et al. Extracting features from app descriptions based on POS and dependency

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050210

R150 Certificate of patent or registration of utility model

Ref document number: 3648101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090218

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090218

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100218

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110218

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120218

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130218

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term