JP2010256951A - 類似データ検索装置及びそのプログラム - Google Patents

類似データ検索装置及びそのプログラム Download PDF

Info

Publication number
JP2010256951A
JP2010256951A JP2009102704A JP2009102704A JP2010256951A JP 2010256951 A JP2010256951 A JP 2010256951A JP 2009102704 A JP2009102704 A JP 2009102704A JP 2009102704 A JP2009102704 A JP 2009102704A JP 2010256951 A JP2010256951 A JP 2010256951A
Authority
JP
Japan
Prior art keywords
data
segment
unit
file
constituent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009102704A
Other languages
English (en)
Other versions
JP5291523B2 (ja
Inventor
Toyoji Hatanaka
豊司 畑中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DATA HENKAN KENKYUSHO KK
Original Assignee
DATA HENKAN KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DATA HENKAN KENKYUSHO KK filed Critical DATA HENKAN KENKYUSHO KK
Priority to JP2009102704A priority Critical patent/JP5291523B2/ja
Publication of JP2010256951A publication Critical patent/JP2010256951A/ja
Application granted granted Critical
Publication of JP5291523B2 publication Critical patent/JP5291523B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】互いに内容が類似しているファイルの組をより適確に検出できるようにする。
【解決手段】各ファイルを所定数の構成セグメントに均等サイズに分ける切り分け位置を仮定し、仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するとともに、その切り分け位置でファイルを切り分けてなる各構成セグメントのハッシュ値をそれぞれ算出する。一のファイルと他のファイルとの類否判断を行うにあたっては、一のファイルに係る構成セグメントの固有値と、他のファイルに係る構成セグメントの固有値とを各セグメント毎に順次比較し、固有値が一致する構成セグメントの個数または割合を計数する。固有値が一致する個数または割合が高いほど、類似の度合いが高いということになる。
【選択図】図4

Description

本発明は、データベース等に格納しているデータ単位群の中から内容が類似しているデータ単位を発見する類似データ検索装置に関する。
無数のデータファイルを管理するシステムでは、時として、内容が同一または類似した複数のファイルを重複して格納していることがある。とりわけ、内容に修正を加えた新版のファイルと修正を加える前の旧版のファイルとが並存していると、業務において人為的過誤を引き起す要因となり得る。そのような事情もあって、管理しているデータファイルの中から内容が類似しているものを簡便に検索する機能が求められている。
下記特許文献1に、ある文書ファイルに類似した他の文書ファイルを検索することのできる装置が開示されている。この検索装置では、文書をページ毎に切り分けてなる複数のセグメントについてそれぞれハッシュ値を算出しておき、あるファイルと他のファイルとの類否判断の際に両ファイルの構成セグメントのハッシュ値を各セグメント毎に順次比較して、ハッシュ値が一致した個数を計数するようにしている。ハッシュ値が一致するセグメントの個数が多いほど、両ファイルの類似度は高いと判断される。
とは言え、上に述べた既知の検索装置では、修正後の新版ファイルと修正前の旧版ファイルとの類似関係を必ずしも適確に検出できないおそれがある。例えば、数文字ないし数行の加筆によりテキスト中の改ページ位置が後方にずれると、加筆箇所以降の全ページについてハッシュ値が変化してしまい、新版ファイルと旧版ファイルとを比較したときにハッシュ値が一致するセグメントの個数が顕著に減少する。さすれば、両者は非類似と判断されることとなる。
これに対し、ハッシュをとるセグメントをページ単位ではなく段落単位とする手法も考えられるが、段落を一つ丸々追加したり削除したりすることもしばしば行われるため、新版ファイルと旧版ファイルとの間で構成セグメントの順番がずれて、やはりハッシュ値が一致するセグメントの個数は少なくなる蓋然性が高い。
特開2008−257444号公報
本発明は、上記の問題に初めて着目してなされたものであって、互いに内容が類似しているデータ単位の組をより適確に検出できるようにすることを所期の目的としている。
本発明に係る類似データ検索装置は、格納しているデータ単位群の中から内容が類似しているデータ単位を発見するためのものであって、データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部と、前記セグメント決定部で決定した切り分け位置でデータ単位を切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントの固有値を算定する固有値算定部と、一のデータ単位に係る構成セグメントの固有値と、他のデータ単位に係る構成セグメントの固有値とを各セグメント毎に順次比較し、固有値が一致する構成セグメントの個数または割合を計数するセグメント比較部と、前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部とを具備する。
ここで、データ単位とは、個別に把握できるデータの塊を言い、ファイルシステムで扱われるデータファイル、ディレクトリや、データベースシステムで扱われるレコード等がこれに該当する。固有値とは、典型的には一方向性(ハッシュ値から原データを求める逆関数の計算が困難)及び衝突耐性(同じハッシュ値を生成する二つの原データを見出すことが困難)を有するハッシュ関数に原データを代入して計算するハッシュ値であるが、チェックサムや巡回符号(Cyclic Redundancy Check)その他の誤り検出符号を固有値として採用することも不可能ではない。データ単位を指し示す情報とは、例えば、データ単位に付された名称その他の識別子、データ単位を指定するパス情報、URI(Uniform Resource Identifier)等である。
本発明に係る類似データ検索装置では、比較をするべきデータ単位を、まずはデータの内実によらない一定のルール(即ち、セグメントの総数または各セグメントのサイズを所定とする)で複数のセグメントに切り分けようとする。しかし、その切り分け位置は不動ではなく、前記ルールに則って定めた仮の切り分け位置から前方または後方に連続するデータを読み、特定のパターンが出現した箇所を正式な切り分け位置とする。つまるところ、仮の切り分け位置の周辺にあるデータの内容に応じて、実際の切り分け位置を前方または後方に遷移させる。
この処理により、データ単位に一部修正が加えられた場合において、その修正箇所を含むセグメントのみを拡大または縮小させ、その余の部分のセグメントは修正の前後を通じて同一に保つことが可能となる。結果、修正後のデータ単位と修正前のそれとを比較したときに、固有値が一致するセグメントの個数または割合が多くなり、両者の類似関係が適確に検出されるようになる。
また、上に述べた既知の検索装置は専らテキスト主体の文書ファイルを処理対象としていたが、本発明に係る類似データ検索装置は、セグメントの切り分け位置を決定する特定のパターンを文字コードや改ページ記号等に依存しないものとすることにより、テキスト以外のデータをも処理することが可能である。
各データ単位が特定の種類のデータ要素と他の種類のデータ要素とを包含しているならば、前記セグメント決定部が、データ単位に含まれる特定の種類のデータ要素を抽出した上、これを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定し、前記固有値算定部が、前記セグメント決定部で決定した切り分け位置で前記特定の種類のデータ要素を切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントの固有値を算定できるものとすることが好適である。これにより、重要性の高いデータ要素の内容に着目してデータ単位同士の類否判断を実施することが可能となる。
前記特定の種類のデータ要素は、例えばテキストとする。HTML(HyperText Markup Language)ファイルやPDF(Portable Document Format)ファイル、あるいはワードプロセッサ文書ファイル等は、テキストとともに当該テキスト本文の表示体裁を規定するデータ要素をも含んでいる。一般に、これらのファイルにおいて重要視される情報はテキストであり、フォントの種類や大きさ等といった体裁は二の次である。ファイルに含まれるデータ要素の全部を参照して類否判断を行うとすると、テキストは同一であるのに表示体裁が異なるために非類似であると判断され、ユーザのニーズに応えられないきらいがある。このような理由から、比較的重要なデータ要素であるテキストのみをまず抽出し、そのテキストをセグメントに分けて、セグメント毎に固有値の比較を実行することが好ましいと言える。
各データ単位について予め前記固有値算定部で算出した固有値を記憶する固有値記憶部をさらに具備し、前記セグメント比較部が、前記固有値記憶部に記憶している他のデータ単位に係る構成セグメントの固有値を読み出してこれを一のデータ単位に係る構成セグメントの固有値と比較するものとすれば、類否判断処理に際してデータ単位の構成セグメントの固有値を演算する処理負荷または所要時間を軽減することができる。
なお、以上では、一のデータ単位と他のデータ単位との類否判断にあたり、それぞれのデータ単位を構成するセグメントの固有値が一致するか否かを各々比較していたが、セグメント自体を比較するようにしても構わない。このときの類似データ検索装置は、データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部と、一のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較し、内容が一致する構成セグメントの個数または割合を計数するセグメント比較部と、前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部とを具備するものとする。
さらに、各データ単位が特定の種類のデータ要素と他の種類のデータ要素とを包含しているならば、前記セグメント決定部が、データ単位に含まれる特定の種類のデータ要素を抽出した上、これを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定し、前記セグメント比較部が、一のデータ単位に含まれる特定の種類のデータ要素を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のデータ単位に含まれる特定の種類のデータ要素を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較できるものとすることが好適である。
本発明によれば、互いに内容が類似しているデータ単位の組をより適確に検出できるようになる。
本発明の一実施形態の類似データ検索装置を包有したシステムを示す図。 同実施形態の類似データ検索装置が具備するハードウェア資源を示す図。 同類似データ検索装置の機能ブロック図。 セグメントの仮の切り分け位置から正式な切り分け位置を決定する態様を例示する図。 記憶している各データ単位毎のセグメントの固有値の情報を例示する図。 内容の類似しているデータ単位を検索した結果を表示する態様を例示する図。 同類似データ検索装置がプログラムに従い実行する処理の手順を示すフローチャート。 同類似データ検索装置がプログラムに従い実行する処理の手順を示すフローチャート。 同類似データ検索装置がプログラムに従い実行する処理の手順を示すフローチャート。 本発明の変形例の一を示す機能ブロック図。
本発明の一実施形態を、図面を参照して説明する。本実施形態の類似データ検索装置1は、図1に示すように、パーソナルコンピュータ、ワークステーション、ファイルサーバまたはウェブサーバ等を主体として構成される。類似データ検索装置1たるコンピュータは、図2に示すように、プロセッサ1a、メインメモリ1b、補助記憶デバイス1c、表示制御デバイス1d、ディスプレイ1e、操作入力デバイス1f、通信インタフェース1g等のハードウェア資源を備え、それらがコントローラ(システムコントローラ、I/Oコントローラ等)1hにより制御されて連携動作するものである。
補助記憶デバイス1cは、ハードディスクドライブ、フラッシュメモリ、光学ディスクドライブ、その他である。表示制御デバイス1dは、プロセッサ1aより受けた描画指示をもとに表示させるべき画像を生成してディスプレイ1eに向けて送出するグラフィクスプロセッサ、画像データを一時的に格納しておくビデオメモリ等を要素とする。操作入力デバイス1fは、手指で操作可能な押下ボタン、キーボードや、マウス、トラックパッド、タッチパネル等のポインティングデバイスである。通信インタフェース1gは、LAN(Local Area Network)、WAN(Wide Area Network)やインターネットといった電気通信回線を介して接続している外部のコンピュータ2と情報通信を行うためのデバイスである。通信インタフェース1gは、NIC(Network Interface Card)や無線LANトランシーバに代表されるが、これら以外にUSB(Universal Serial Bus)、IEEE1394等のインタフェースを採用することもできる。
プロセッサ1aによって実行されるべきプログラムは補助記憶デバイス1cに格納されており、プログラムの実行の際には補助記憶デバイス1cからメインメモリ1bに読み込まれ、プロセッサ1aによって解読される。本実施形態では、既知のOS(Operating System)プログラムやこれに付帯する各種デバイスドライバプログラムが予めインストールされ、他のプログラムによる前記ハードウェア資源の利用を仲介する。その上で、本発明の類似データ検索装置1を構成するために必要となるプログラムがインストールされており、プログラムに従い前記ハードウェア資源を作動して、図3に示すデータ格納部101、セグメント決定部102、固有値算定部103、固有値記憶部104、セグメント比較部105及び結果出力部106としての機能を発揮する。
データ格納部101は、メインメモリ1bまたは補助記憶デバイス1cの記憶領域を用いて、OSが具現するファイルシステムで取り扱うデータ単位であるファイル及びディレクトリを格納、蓄積する。
セグメント決定部102は、データ格納部101に格納している個々のファイルについて、当該ファイルを複数のセグメントに分けるための切り分け位置を決定し、以て各ファイルの構成セグメントを決定する。
ファイルの切り分け位置の決定手法に関して詳記する。ファイルの切り分け位置を決定するにあたっては、まず、一定のルールに則ってファイルを分割することを考える。本実施形態では、ファイルを所定個数のセグメントに均等に分割するというルールに則り、仮の切り分け位置を決定する。セグメントの総数を10個と定め、あるファイルのサイズが100kバイトであるとすると、割算によりこのファイルを構成する各セグメントはそれぞれ10kバイトのサイズとなる。そして、このファイルの先頭から10kバイト毎に都合9個の切り分け位置を仮に定めることになる。セグメントの仮の切り分け位置は、ファイルの内実に依存しない。
次いで、ファイルにおいて仮に定めた各切り分け位置から後方に連続するデータを読み、特定のパターンを検出した箇所を正式な切り分け位置として決定する。ここに言う特定のパターンは種々考えられるが、本実施形態では、データを所定サイズずつ読み出して、その読み出したデータ値の増加/減少/一定の傾向を参照するものとする。具体的には、データをnバイト(nは自然数)ずつ読み出し、直前のnバイトのデータ値と現在のnバイトのデータ値との大小を順次比較してゆく。その上で、
(i)等しいデータ値が所定回数以上継続し、かつその後にデータ値が増加する立ち上がりまたは減少する立ち下がりが発生した箇所
(ii)データ値が減少する立ち下がり(または、増加する立ち上がり)が発生し、かつその後にデータ値が増加する立ち上がり(または、減少する立ち下がり)が発生した箇所
(iii)上記の(i)、(ii)の何れも成立することなく遷移範囲の限界に到達した暁には、データの読み出しを開始した仮の切り分け位置から所定バイト後方に遷移した箇所
を、正式な切り分け位置として決定する。遷移範囲の限界は、データの読み出しを開始した仮の切り分け位置から一定のバイトの範囲とするか、あるいは、現在参照しているセグメントの終端(即ち、次のセグメントの仮の切り分け位置若しくはファイルの終端)とする。
正式な切り分け位置の決定の一例を、図4に示す。図4では、セグメントの仮の切り分け位置から2バイトずつ読み出しており、(ii)のパターンが出現した箇所を正式な切り分け位置と決定している。このように、セグメントの正式な切り分け位置は、ファイルの内実に応じて、仮の切り分け位置から後方に遷移し得る。
また、セグメント決定部102は、対象とするファイルがテキストを包含するものである場合、そのテキストだけを抽出してこれを複数のセグメントに分かつことができる。例えば、HTMLファイルであれば、所定のタグ(<title>タグ、<p>タグ、<a>タグ、等々)に挟まれている部分だけを抽出してテキストを得る。そして、抽出したテキストのサイズを計数し、このテキストを所定個数のセグメントに均等に分割する仮の切り分け位置を定め、その後に上記の手法にて正式な切り分け位置を決定する。
固有値算定部103は、データ格納部101に格納している個々のファイルについて、セグメント決定部102で決定した切り分け位置で切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントの固有値を算定する。本実施形態では、固有値としてMD5(Message Digest algorithm 5)、SHA(Secure Hash Algorithm)等のハッシュ値を採用しており、切り分けた各セグメントをそれらのハッシュ関数に代入して、セグメントと同数のハッシュ値を算出する。
既に述べた通り、対象とするファイルがテキストを包含するものである場合には、ファイルに含まれるテキストだけを抽出してセグメントに分けることができる。このときの固有値算定部103は、テキストを切り分けてなる各セグメントをハッシュ関数に代入して各セグメントのハッシュ値を算出する。つまり、テキストを包含するファイルからは、当該ファイルの全体に基づくハッシュ値と、当該ファイルの一部の要素であるテキストに基づくハッシュ値との二種類の固有値を得ることができる。以下、前者を全体セグメントハッシュ値、後者をテキストセグメントハッシュ値と呼称する。
固有値記憶部104は、メインメモリ1bまたは補助記憶デバイス1cの記憶領域を用いて、データ格納部101に格納している個々のファイルに係る構成セグメントのハッシュ値を記憶する。固有値記憶部104は、例えば、図5に示しているように、各ファイルから算出された所定個数の全体セグメントハッシュ値及び/またはテキストセグメントハッシュ値を、ファイル毎に、ファイルを識別する識別子、パス情報またはURI等に関連づけて記憶する。
セグメント比較部105は、一のファイルの構成セグメントと他のファイルの構成セグメントとを比較する。セグメント比較部105は、固有値記憶部104に記憶している、一のファイルに係る構成セグメントのハッシュ値、他のファイルに係る構成セグメントのハッシュ値をそれぞれ読み出す。但し、対象となるファイルに係る構成セグメントのハッシュ値を固有値記憶部104が記憶していない、即ち当該ファイルに係る構成セグメントのハッシュ値を予め算出していないのであれば、当該ファイルに係る構成セグメントのハッシュ値を固有値算定部103に即時的に計算させてこれを用いる。
そして、両ファイルのハッシュ値をセグメント毎に順次比較して、ハッシュ値が一致するセグメントの個数または割合を計数する。本実施形態では、各ファイルを10個のセグメントに分けるものとしている。そこで、比較する一のファイル及び他のファイルについて、ファイルの先頭から第1番目のセグメントのハッシュ値の比較、第2番目のセグメントのハッシュ値の比較、……、第9番目のセグメントのハッシュ値の比較、並びに最終となる第10番目のセグメントのハッシュ値の比較を行い、両者が一致した回数を計数する。
比較する一のファイル及び他のファイルがともにテキストを包含するものである場合、これらファイルのハッシュ値として全体セグメントハッシュ値及びテキストセグメントハッシュ値の二種類が存在する。従って、全体セグメントハッシュ値を比較することもでき、テキストセグメントハッシュ値を比較することもできる。
結果出力部106は、セグメント比較部105で計数した個数または割合の多寡に応じて一のファイルに対する他のファイルの類否を判断し、類似していると判断したファイルを指し示す情報を表示させる。一般に、ハッシュ値の一致するセグメント数xとファイルを分割するセグメントの総数yとの比x/yが大きいほど、両ファイルの類似度が高いと考えることができる。結果出力部106は、あるファイルとの比較の結果、比x/y(または、一致数x)が所定の閾値を上回るファイルについて、当該ファイルを識別する識別子、パス情報またはURI等を、類似データ検索装置1のディスプレイ1eまたは外部のコンピュータ2のディスプレイに表示させる。並びに、結果出力部106は、一のファイルに対する他のファイルの類似の度合いを表す値として、x/y(または、x)をも表示させる。結果の表示例を、図6に示す。
比較する一のファイル及び他のファイルがともにテキストを包含するものである場合には、主としてテキストセグメントハッシュ値の一致数を両ファイルの類似度として扱う。これは、ファイルに含まれる他の種類のデータ要素に比して、テキストこそが情報として重要な要素であると推察されるからである。勿論、全体セグメントハッシュ値の一致数を両ファイルの類似度と見なしてもよい。あるいは、全体セグメントハッシュ値の一致数x1とテキストセグメントハッシュ値の一致数x2との重み付け和(w11+w22)を両ファイルの類似度と見なしてもよい。この重み付け和では、テキストセグメントハッシュ値に対する重みw2を全体セグメントハッシュ値に対する重みw1よりも大きくすることが好ましい。
以降、本実施形態の類似データ検索装置1が実行する処理手順の例を、図7ないし図9のフローチャートを参照して述べる。類似データ検索装置1は予め、データ格納部101に格納している個々のファイルを読み出して固有値を算定しておく。即ち、ファイルのサイズをセグメント総数で割った値からセグメントの切り分け位置を仮に定め(ステップS1)、その仮の切り分け位置から連続するデータを読んで特定のパターンが出現した箇所を正式な切り分け位置として決定する(ステップS2)。そして、正式な切り分け位置で切り分けた各セグメントから全体セグメントハッシュ値を算出して(ステップS3)、ファイル毎の全体セグメントハッシュ値を固有値記憶部104に記憶させる(ステップS4)。
対象のファイルがテキストを包含しているのであれば(ステップS5)、そのテキストを抽出し(ステップS6)、抽出したテキストのサイズをセグメント総数で割った値からセグメントの切り分け位置を仮に定め(ステップS7)、その仮の切り分け位置から連続するテキストデータを読んで特定のパターンが出現した箇所を正式な切り分け位置として決定する(ステップS8)。そして、正式な切り分け位置で切り分けた各セグメントからテキストセグメントハッシュ値を算出して(ステップS9)、ファイル毎のテキストセグメントハッシュ値を固有値記憶部104に記憶させる(ステップS10)。
上記のステップS1ないしS10を、データ格納部101に格納している複数のファイルについて反復する(ステップS11)。これらステップS1ないしS11は、所定周期(例えば、一日)毎に実行する。但し、ファイルがデータ格納部101に書き込まれる際に、その書き込まれるファイルについてステップS1ないしS10を実行するようにしてもよい。
しかして、類似データ検索装置1は、一のファイルと内容の類似している他のファイルを検索するべき旨の指令の入力を待ち受ける(ステップS12)。この検索指令は、操作入力デバイス1fを介して手入力されることもあれば、電気通信回線を介して接続している外部のコンピュータ2から送信されてくることもある。通常、検索指令には、検索クエリとなる一のファイルを指し示す識別子、パス情報またはURI等が含まれている。但し、一のファイルそれ自体が検索指令に含まれてアップロードされるということもあり得る。
類似データ検索装置1は、検索指令の手入力を受け付けまたは受信したとき、この検索指令に含まれた一のファイルの識別子、パス情報またはURI等に関連づけられている全体セグメントハッシュ値を固有値記憶部104から読み出す(ステップS13)。但し、一のファイルに係る全体セグメントハッシュ値が固有値記憶部104に記憶されていない場合には、ステップS1ないしS3に準じて、当該一のファイルをデータ格納部101から読み出しその全体セグメントハッシュ値を即時的に算出する。検索指令に一のファイル自体が含まれていた場合も、同様とする。
一のファイルがテキストを包含したものであり(ステップS14)、当該一のファイルに係るテキストセグメントハッシュ値が固有値記憶部104に記憶されている場合には、このテキストセグメントハッシュ値を固有値記憶部104から読み出す(ステップS15)。一のファイルに係るテキストセグメントハッシュ値が固有値記憶部104に記憶されていない場合には、ステップS6ないしS9に準じて、当該一のファイルをデータ格納部101から読み出しそのテキストセグメントハッシュ値を即時的に算出する。検索指令に一のファイル自体が含まれていた場合も、同様とする。
そして、類似データ検索装置1は、固有値記憶部104に記憶している、他のファイルに係る全体セグメントハッシュ値を読み出し(ステップS16)、これを一のファイルに係る全体セグメントハッシュ値と比較して、ハッシュ値が一致するセグメントの個数を計数する(ステップS17)。この一致数が所定の閾値を上回っていれば(ステップS18)、当該他のファイルを指し示す識別子、パス情報またはURI等並びに一致数を、メインメモリ1bまたは補助記憶デバイス1cに一時記憶する(ステップS19)。
また、一のファイル及び他のファイルがともにテキストを包含したものであり(ステップS20)、他のファイルに係るテキストセグメントハッシュ値が固有値記憶部104に記憶されている場合には、他のファイルに係るテキストセグメントハッシュ値を読み出し(ステップS21)、これを一のファイルに係るテキストセグメントハッシュ値と比較して、ハッシュ値が一致するセグメントの個数を計数する(ステップS22)。この一致数が所定の閾値を上回っていれば(ステップS23)、当該他のファイルを指し示す識別子、パス情報またはURI等並びに一致数を、メインメモリ1bまたは補助記憶デバイス1cに一時記憶する(ステップS24)。
上記のステップS16ないしS24を、データ格納部101に格納している複数のファイルについて反復する(ステップS25)。
その後、一時記憶した他のファイルの識別子、パス情報またはURI等を、一のファイルに類似するファイルを指し示す情報として出力する(ステップS26)。並びに、セグメントのハッシュ値の一致数を、類似の度合いを示す情報として出力する。ステップS26では、検索結果の情報を類似データ検索装置1のディスプレイ1eに表示させるか、あるいは、電気通信回線を介して接続している他のコンピュータ2に送信してこのコンピュータ2のディスプレイに表示させる。
以上の処理手順は、ユーザが検索クエリとして指定した一のファイルに内容が類似しているファイルを探し出すものであったが、格納しているファイル群の中から互いに内容が類似しているファイルの組をおしなべて検出する処理を実施することも可能である。この場合には、データ格納部101に格納している個々のファイルを順次「一のファイル」としてステップS13ないしS25を反復的に実行し、その結果知得される内容が類似したファイルの組の情報(組をなす各ファイルを指し示す情報)を一覧表示する。
本類似データ検索装置1は、ファイル以外に、ディレクトリ同士を比較した類否判断を実行することもできる。ディレクトリ同士を比較する場合には、各ディレクトリに属する一または複数のファイル及びディレクトリを並べ連ねて一個のデータ単位と見なし、そのデータ単位をセグメント化して比較する。
本実施形態によれば、格納しているファイル群の中から内容が類似しているファイルを発見するためのものであって、ファイルを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部102と、前記セグメント決定部102で決定した切り分け位置でファイルを切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントのハッシュ値を算定する固有値算定部103と、一のファイルに係る構成セグメントのハッシュ値と、他のファイルに係る構成セグメントのハッシュ値とを各セグメント毎に順次比較し、ハッシュ値が一致する構成セグメントの個数または割合を計数するセグメント比較部105と、前記セグメント比較部105で計数した個数または割合の多寡に応じて一のファイルに対する他のファイルの類否を判断し、類似していると判断したファイルを指し示す情報を表示させる結果出力部106とを具備する類似データ検索装置1を構成したため、ファイルに一部修正が加えられた場合において、その修正箇所を含むセグメントのみを拡大または縮小させ、その余の部分のセグメントは修正の前後を通じて同一に保つことが可能となる。結果、修正後のファイルと修正前のそれとを比較したときに、ハッシュ値が一致するセグメントの個数または割合が多くなり、両者の類似関係が適確に検出されるようになる。
また、本実施形態の類似データ検索装置1は、セグメントの切り分け位置を決定する特定のパターンを文字コードや改ページ記号等に依存しないものとしているため、テキスト以外のファイルをも処理することが可能である。
ファイルが特定の種類のデータ要素であるテキストとその他の種類のデータ要素とを包含している場合に、前記セグメント決定部102が、ファイルに含まれるテキストを抽出した上、これを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定し、前記固有値算定部103が、前記セグメント決定部102で決定した切り分け位置で前記テキストを切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントのハッシュ値を算定することができるため、重要性の高いデータ要素であるテキストの内容に着目してファイル同士の類否判断を実施することが可能となる。
各ファイルについて予め前記固有値算定部103で算出したハッシュ値を記憶する固有値記憶部104をさらに具備し、前記セグメント比較部105が、前記固有値記憶部104に記憶している他のファイルに係る構成セグメントのハッシュ値を読み出してこれを一のファイルに係る構成セグメントのハッシュ値と比較するものとすれば、類否判断処理に際してファイルの構成セグメントのハッシュ値を演算する処理負荷または所要時間を軽減することができる。
なお、本発明は以上に詳述した実施形態に限られるものではない。上記実施形態では、セグメントの固有値としてハッシュ値を採用していたが、これに替えてチェックサムや巡回符号その他の誤り検出符号を固有値として採用してもよい。
上記実施形態では、セグメントの正式な切り分け位置を決定するときに、仮の切り分け位置から後方に連続するデータを読むようにしていたが、仮の切り分け位置から前方に連続するデータを読むようにしてもよい。この場合、セグメントの正式な切り分け位置は、仮の切り分け位置から前方に遷移し得る。
上記実施形態では、データ格納部101に格納しているファイルの構成セグメントの固有値を予め算定し記憶しておくこととしていたが、固有値を演算する処理負荷または所要時間を度外視すれば、類似ファイルの検索処理の都度、各ファイルに係る固有値を算定することも可能である。データ格納部101に多数のファイルが格納されていると、固有値記憶部104の容量も大きくならざるを得ないが、このようにすることで固有値記憶部104が消費する記憶領域を節約することができる。故に、固有値記憶部104は必須の構成要素ではない。
前記特定の種類のデータ要素は、テキストには限定されない。ファイルに含まれている画像データや音声データ、またはファイルに付随するメタデータ等を抽出してセグメント化し、各セグメントの固有値を算出して類否判断に用いるようにしてもよい。
ファイル(または、ファイルから抽出される特定の種類のデータ要素)をセグメント化する仮の切り分け位置の決定手法も、上述した態様に限定されない。個々のファイルに適用する切り分け方のルールが一定である限り、どのように仮の切り分け位置を決定しても構わない。例えば、ファイルの構成セグメントの総数を一定とするのではなく、各構成セグメントのサイズを一定とすることが考えられる。ファイルを10kバイト単位のセグメントに分かつように仮の切り分け位置を定め、その仮の切り分け位置から前方または後方に連続するデータを読んで正式な切り分け位置を決定するようにしても、本発明ならではの顕著な効果を奏し得る。
また、仮の切り分け位置を決定する際に、全ての構成セグメントを均等なサイズに切り分けなくてもよい。ファイルを10個のセグメントに分ける際に、後半5個のセグメントのサイズを前半5個のセグメントの倍のサイズとするようなことも可能である。
上記実施形態では、一のファイルと他のファイルとの類否判断の際に、それぞれのファイルを構成するセグメントの固有値が一致するか否かを各々比較していたが、セグメント自体を比較するようにしても構わない。このときの類似データ検索装置1は、図10に示すように、ファイルを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部102と、一のファイルを前記セグメント決定部102で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のファイルを前記セグメント決定部102で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較し、内容が一致する構成セグメントの個数または割合を計数するセグメント比較部105と、前記セグメント比較部105で計数した個数または割合の多寡に応じて一のファイルに対する他のファイルの類否を判断し、類似していると判断したファイルを指し示す情報を表示させる結果出力部106とを具備するものとする。
各ファイルが特定の種類のデータ要素と他の種類のデータ要素とを包含しているならば、前記セグメント決定部102が、ファイルに含まれる特定の種類のデータ要素を抽出した上、これを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定し、前記セグメント比較部105が、一のファイルに含まれる特定の種類のデータ要素を前記セグメント決定部102で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のファイルに含まれる特定の種類のデータ要素を前記セグメント決定部102で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較できるものとする。
さらには、図3または図10に示す各部の機能を複数のコンピュータに分散させ、それらの協働によって本発明に係る類似データ検索装置1を成立させることを妨げない。
その他、各部の具体的な構成や処理の手順等は、本発明の趣旨を逸脱しない範囲で種々変形が可能である。
本発明は、例えば、データ単位群の中から内容が類似しているデータ単位を発見するための検索装置として利用することができる。
1…類似データ検索装置
102…セグメント決定部
103…固有値算定部
104…固有値記憶部
105…セグメント比較部
106…結果出力部

Claims (8)

  1. 格納しているデータ単位群の中から内容が類似しているデータ単位を発見するためのものであって、
    データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部と、
    前記セグメント決定部で決定した切り分け位置でデータ単位を切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントの固有値を算定する固有値算定部と、
    一のデータ単位に係る構成セグメントの固有値と、他のデータ単位に係る構成セグメントの固有値とを各セグメント毎に順次比較し、固有値が一致する構成セグメントの個数または割合を計数するセグメント比較部と、
    前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部と
    を具備する類似データ検索装置。
  2. 各データ単位は特定の種類のデータ要素と他の種類のデータ要素とを包含しているものであり、
    前記セグメント決定部が、データ単位に含まれる特定の種類のデータ要素を抽出した上、これを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定し、
    前記固有値算定部が、前記セグメント決定部で決定した切り分け位置で前記特定の種類のデータ要素を切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントの固有値を算定する請求項1記載の類似データ検索装置。
  3. 前記特定の種類のデータ要素がテキストである請求項2記載の類似データ検索装置。
  4. 各データ単位について予め前記固有値算定部で算出した固有値を記憶する固有値記憶部をさらに具備し、
    前記セグメント比較部が、前記固有値記憶部に記憶している他のデータ単位に係る構成セグメントの固有値を読み出してこれを一のデータ単位に係る構成セグメントの固有値と比較する請求項1記載の類似データ検索装置。
  5. 格納しているデータ単位群の中から内容が類似しているデータ単位を発見するためのものであって、
    データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部と、
    一のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較し、内容が一致する構成セグメントの個数または割合を計数するセグメント比較部と、
    前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部と
    を具備する類似データ検索装置。
  6. 各データ単位は特定の種類のデータ要素と他の種類のデータ要素とを包含しているものであり、
    前記セグメント決定部が、データ単位に含まれる特定の種類のデータ要素を抽出した上、これを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定し、
    前記セグメント比較部が、一のデータ単位に含まれる特定の種類のデータ要素を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のデータ単位に含まれる特定の種類のデータ要素を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較する請求項5記載の類似データ検索装置。
  7. 請求項1、2、3または4記載の類似データ検索装置を具現するために用いられるものであって、コンピュータを、
    データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部、
    前記セグメント決定部で決定した切り分け位置でデータ単位を切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントの固有値を算定する固有値算定部、
    一のデータ単位に係る構成セグメントの固有値と、他のデータ単位に係る構成セグメントの固有値とを各セグメント毎に順次比較し、固有値が一致する構成セグメントの個数または割合を計数するセグメント比較部、並びに、
    前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部
    として機能させるプログラム。
  8. 請求項5または6記載の類否データ検索装置を具現するために用いられるものであって、コンピュータを、
    データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部、
    一のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較し、内容が一致する構成セグメントの個数または割合を計数するセグメント比較部、並びに、
    前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部
    として機能させるプログラム。
JP2009102704A 2009-04-21 2009-04-21 類似データ検索装置及びそのプログラム Active JP5291523B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009102704A JP5291523B2 (ja) 2009-04-21 2009-04-21 類似データ検索装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009102704A JP5291523B2 (ja) 2009-04-21 2009-04-21 類似データ検索装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2010256951A true JP2010256951A (ja) 2010-11-11
JP5291523B2 JP5291523B2 (ja) 2013-09-18

Family

ID=43317833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009102704A Active JP5291523B2 (ja) 2009-04-21 2009-04-21 類似データ検索装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5291523B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011111854A1 (ja) 2010-03-12 2011-09-15 日清オイリオグループ株式会社 皮膚外用組成物、化粧料、及び洗浄剤
WO2012077818A1 (ja) * 2010-12-10 2012-06-14 国立大学法人豊橋技術科学大学 ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム
WO2013108746A1 (ja) * 2012-01-16 2013-07-25 日本電気株式会社 検索システム、その制御方法、及びプログラム
WO2013108745A1 (ja) * 2012-01-16 2013-07-25 日本電気株式会社 ストレージ装置、その制御方法、及びプログラム
JP2015515770A (ja) * 2012-02-29 2015-05-28 アルトネット、インコーポレイテッド ストリーム認識およびフィルタリング
US9235624B2 (en) 2012-01-19 2016-01-12 Nec Corporation Document similarity evaluation system, document similarity evaluation method, and computer program
US10108636B2 (en) 2014-05-20 2018-10-23 Samsung Electronics Co., Ltd. Data deduplication method
JP2018170036A (ja) * 2012-09-07 2018-11-01 クロール・インフォメーション・アシュアランス,エルエルシー ファイル共有ネットワークにおけるスニペット照合
JP2021184309A (ja) * 2020-12-21 2021-12-02 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データ処理方法、装置、電子デバイス、記憶媒体及びプログラム
US20230205736A1 (en) * 2021-12-24 2023-06-29 Vast Data Ltd. Finding similarities between files stored in a storage system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056398A (ja) * 1991-06-28 1993-01-14 Ricoh Co Ltd 文書登録装置及び文書検索装置
JP2002063381A (ja) * 2000-08-18 2002-02-28 Yamaha Corp マルチメディアコンテンツの登録システム
JP2005202590A (ja) * 2004-01-14 2005-07-28 Kddi Corp マスメイル検出方式およびメイルサーバ
JP2008257444A (ja) * 2007-04-04 2008-10-23 Nec Corp 類似ファイル管理装置、その方法及びそのプログラム
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056398A (ja) * 1991-06-28 1993-01-14 Ricoh Co Ltd 文書登録装置及び文書検索装置
JP2002063381A (ja) * 2000-08-18 2002-02-28 Yamaha Corp マルチメディアコンテンツの登録システム
JP2005202590A (ja) * 2004-01-14 2005-07-28 Kddi Corp マスメイル検出方式およびメイルサーバ
JP2008257444A (ja) * 2007-04-04 2008-10-23 Nec Corp 類似ファイル管理装置、その方法及びそのプログラム
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011111854A1 (ja) 2010-03-12 2011-09-15 日清オイリオグループ株式会社 皮膚外用組成物、化粧料、及び洗浄剤
WO2012077818A1 (ja) * 2010-12-10 2012-06-14 国立大学法人豊橋技術科学大学 ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム
JP5971722B2 (ja) * 2010-12-10 2016-08-17 国立大学法人豊橋技術科学大学 ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム
WO2013108745A1 (ja) * 2012-01-16 2013-07-25 日本電気株式会社 ストレージ装置、その制御方法、及びプログラム
WO2013108746A1 (ja) * 2012-01-16 2013-07-25 日本電気株式会社 検索システム、その制御方法、及びプログラム
US9235624B2 (en) 2012-01-19 2016-01-12 Nec Corporation Document similarity evaluation system, document similarity evaluation method, and computer program
JP2015515770A (ja) * 2012-02-29 2015-05-28 アルトネット、インコーポレイテッド ストリーム認識およびフィルタリング
US9703869B2 (en) 2012-02-29 2017-07-11 Global File Systems Holdings, Llc Stream recognition and filtering
US10068017B2 (en) 2012-02-29 2018-09-04 Global File Systems Holdings, Llc Stream recognition and filtering
JP2018170036A (ja) * 2012-09-07 2018-11-01 クロール・インフォメーション・アシュアランス,エルエルシー ファイル共有ネットワークにおけるスニペット照合
US10108636B2 (en) 2014-05-20 2018-10-23 Samsung Electronics Co., Ltd. Data deduplication method
JP2021184309A (ja) * 2020-12-21 2021-12-02 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データ処理方法、装置、電子デバイス、記憶媒体及びプログラム
JP7212735B2 (ja) 2020-12-21 2023-01-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データ処理方法、装置、電子デバイス、記憶媒体及びプログラム
US20230205736A1 (en) * 2021-12-24 2023-06-29 Vast Data Ltd. Finding similarities between files stored in a storage system

Also Published As

Publication number Publication date
JP5291523B2 (ja) 2013-09-18

Similar Documents

Publication Publication Date Title
JP5291523B2 (ja) 類似データ検索装置及びそのプログラム
US10169354B2 (en) Indexing and search query processing
US6978419B1 (en) Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments
US8838657B1 (en) Document fingerprints using block encoding of text
US20160055196A1 (en) Methods and systems for improved document comparison
JP4682284B2 (ja) 文書差分検出装置
WO2010047286A1 (ja) 検索システム、検索方法およびプログラム
US20180253439A1 (en) Characterizing files for similarity searching
EP1826692A2 (en) Query correction using indexed content on a desktop indexer program.
US8645363B2 (en) Spreading comments to other documents
US8423885B1 (en) Updating search engine document index based on calculated age of changed portions in a document
US20110131212A1 (en) Indexing documents
US7284006B2 (en) Method and apparatus for browsing document content
US9235624B2 (en) Document similarity evaluation system, document similarity evaluation method, and computer program
CN116108826A (zh) 用于设计者的智能改变总结
US9524354B2 (en) Device, method, and program for processing data with tree structure
KR102076548B1 (ko) 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법
CN110874526A (zh) 一种文件相似性检测方法、装置、电子设备及存储介质
US9817913B2 (en) Method and apparatus for collecting, merging and presenting content
US8566366B2 (en) Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
US9483463B2 (en) Method and system for motif extraction in electronic documents
US9747260B2 (en) Information processing device and non-transitory computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130607

R150 Certificate of patent or registration of utility model

Ref document number: 5291523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250