JP2010256951A - 類似データ検索装置及びそのプログラム - Google Patents
類似データ検索装置及びそのプログラム Download PDFInfo
- Publication number
- JP2010256951A JP2010256951A JP2009102704A JP2009102704A JP2010256951A JP 2010256951 A JP2010256951 A JP 2010256951A JP 2009102704 A JP2009102704 A JP 2009102704A JP 2009102704 A JP2009102704 A JP 2009102704A JP 2010256951 A JP2010256951 A JP 2010256951A
- Authority
- JP
- Japan
- Prior art keywords
- data
- segment
- unit
- file
- constituent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000470 constituent Substances 0.000 claims abstract description 70
- 230000011218 segmentation Effects 0.000 claims description 43
- 238000000926 separation method Methods 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 9
- 238000000034 method Methods 0.000 description 16
- 238000013500 data storage Methods 0.000 description 14
- 238000012937 correction Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】各ファイルを所定数の構成セグメントに均等サイズに分ける切り分け位置を仮定し、仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するとともに、その切り分け位置でファイルを切り分けてなる各構成セグメントのハッシュ値をそれぞれ算出する。一のファイルと他のファイルとの類否判断を行うにあたっては、一のファイルに係る構成セグメントの固有値と、他のファイルに係る構成セグメントの固有値とを各セグメント毎に順次比較し、固有値が一致する構成セグメントの個数または割合を計数する。固有値が一致する個数または割合が高いほど、類似の度合いが高いということになる。
【選択図】図4
Description
(i)等しいデータ値が所定回数以上継続し、かつその後にデータ値が増加する立ち上がりまたは減少する立ち下がりが発生した箇所
(ii)データ値が減少する立ち下がり(または、増加する立ち上がり)が発生し、かつその後にデータ値が増加する立ち上がり(または、減少する立ち下がり)が発生した箇所
(iii)上記の(i)、(ii)の何れも成立することなく遷移範囲の限界に到達した暁には、データの読み出しを開始した仮の切り分け位置から所定バイト後方に遷移した箇所
を、正式な切り分け位置として決定する。遷移範囲の限界は、データの読み出しを開始した仮の切り分け位置から一定のバイトの範囲とするか、あるいは、現在参照しているセグメントの終端(即ち、次のセグメントの仮の切り分け位置若しくはファイルの終端)とする。
102…セグメント決定部
103…固有値算定部
104…固有値記憶部
105…セグメント比較部
106…結果出力部
Claims (8)
- 格納しているデータ単位群の中から内容が類似しているデータ単位を発見するためのものであって、
データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部と、
前記セグメント決定部で決定した切り分け位置でデータ単位を切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントの固有値を算定する固有値算定部と、
一のデータ単位に係る構成セグメントの固有値と、他のデータ単位に係る構成セグメントの固有値とを各セグメント毎に順次比較し、固有値が一致する構成セグメントの個数または割合を計数するセグメント比較部と、
前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部と
を具備する類似データ検索装置。 - 各データ単位は特定の種類のデータ要素と他の種類のデータ要素とを包含しているものであり、
前記セグメント決定部が、データ単位に含まれる特定の種類のデータ要素を抽出した上、これを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定し、
前記固有値算定部が、前記セグメント決定部で決定した切り分け位置で前記特定の種類のデータ要素を切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントの固有値を算定する請求項1記載の類似データ検索装置。 - 前記特定の種類のデータ要素がテキストである請求項2記載の類似データ検索装置。
- 各データ単位について予め前記固有値算定部で算出した固有値を記憶する固有値記憶部をさらに具備し、
前記セグメント比較部が、前記固有値記憶部に記憶している他のデータ単位に係る構成セグメントの固有値を読み出してこれを一のデータ単位に係る構成セグメントの固有値と比較する請求項1記載の類似データ検索装置。 - 格納しているデータ単位群の中から内容が類似しているデータ単位を発見するためのものであって、
データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部と、
一のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較し、内容が一致する構成セグメントの個数または割合を計数するセグメント比較部と、
前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部と
を具備する類似データ検索装置。 - 各データ単位は特定の種類のデータ要素と他の種類のデータ要素とを包含しているものであり、
前記セグメント決定部が、データ単位に含まれる特定の種類のデータ要素を抽出した上、これを所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定し、
前記セグメント比較部が、一のデータ単位に含まれる特定の種類のデータ要素を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のデータ単位に含まれる特定の種類のデータ要素を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較する請求項5記載の類似データ検索装置。 - 請求項1、2、3または4記載の類似データ検索装置を具現するために用いられるものであって、コンピュータを、
データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部、
前記セグメント決定部で決定した切り分け位置でデータ単位を切り分けてなる複数の構成セグメントをそれぞれ所定の計算式に代入し、各セグメントの固有値を算定する固有値算定部、
一のデータ単位に係る構成セグメントの固有値と、他のデータ単位に係る構成セグメントの固有値とを各セグメント毎に順次比較し、固有値が一致する構成セグメントの個数または割合を計数するセグメント比較部、並びに、
前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部
として機能させるプログラム。 - 請求項5または6記載の類否データ検索装置を具現するために用いられるものであって、コンピュータを、
データ単位を所定数または所定サイズの複数の構成セグメントに分ける切り分け位置を仮定し、その仮の切り分け位置から前方または後方に連続するデータを読んで特定のパターンを検出した箇所を正式な切り分け位置として決定するセグメント決定部、
一のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントと、他のデータ単位を前記セグメント決定部で決定した切り分け位置で切り分けてなる複数の構成セグメントとを各セグメント毎に順次比較し、内容が一致する構成セグメントの個数または割合を計数するセグメント比較部、並びに、
前記セグメント比較部で計数した個数または割合の多寡に応じて一のデータ単位に対する他のデータ単位の類否を判断し、類似していると判断したデータ単位を指し示す情報を表示させる結果出力部
として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009102704A JP5291523B2 (ja) | 2009-04-21 | 2009-04-21 | 類似データ検索装置及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009102704A JP5291523B2 (ja) | 2009-04-21 | 2009-04-21 | 類似データ検索装置及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010256951A true JP2010256951A (ja) | 2010-11-11 |
JP5291523B2 JP5291523B2 (ja) | 2013-09-18 |
Family
ID=43317833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009102704A Active JP5291523B2 (ja) | 2009-04-21 | 2009-04-21 | 類似データ検索装置及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5291523B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011111854A1 (ja) | 2010-03-12 | 2011-09-15 | 日清オイリオグループ株式会社 | 皮膚外用組成物、化粧料、及び洗浄剤 |
WO2012077818A1 (ja) * | 2010-12-10 | 2012-06-14 | 国立大学法人豊橋技術科学大学 | ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム |
WO2013108746A1 (ja) * | 2012-01-16 | 2013-07-25 | 日本電気株式会社 | 検索システム、その制御方法、及びプログラム |
WO2013108745A1 (ja) * | 2012-01-16 | 2013-07-25 | 日本電気株式会社 | ストレージ装置、その制御方法、及びプログラム |
JP2015515770A (ja) * | 2012-02-29 | 2015-05-28 | アルトネット、インコーポレイテッド | ストリーム認識およびフィルタリング |
US9235624B2 (en) | 2012-01-19 | 2016-01-12 | Nec Corporation | Document similarity evaluation system, document similarity evaluation method, and computer program |
US10108636B2 (en) | 2014-05-20 | 2018-10-23 | Samsung Electronics Co., Ltd. | Data deduplication method |
JP2018170036A (ja) * | 2012-09-07 | 2018-11-01 | クロール・インフォメーション・アシュアランス,エルエルシー | ファイル共有ネットワークにおけるスニペット照合 |
JP2021184309A (ja) * | 2020-12-21 | 2021-12-02 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データ処理方法、装置、電子デバイス、記憶媒体及びプログラム |
US20230205736A1 (en) * | 2021-12-24 | 2023-06-29 | Vast Data Ltd. | Finding similarities between files stored in a storage system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH056398A (ja) * | 1991-06-28 | 1993-01-14 | Ricoh Co Ltd | 文書登録装置及び文書検索装置 |
JP2002063381A (ja) * | 2000-08-18 | 2002-02-28 | Yamaha Corp | マルチメディアコンテンツの登録システム |
JP2005202590A (ja) * | 2004-01-14 | 2005-07-28 | Kddi Corp | マスメイル検出方式およびメイルサーバ |
JP2008257444A (ja) * | 2007-04-04 | 2008-10-23 | Nec Corp | 類似ファイル管理装置、その方法及びそのプログラム |
WO2009048149A1 (ja) * | 2007-10-11 | 2009-04-16 | Nec Corporation | 電子文書の同等判定システムおよび同等判定方法 |
-
2009
- 2009-04-21 JP JP2009102704A patent/JP5291523B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH056398A (ja) * | 1991-06-28 | 1993-01-14 | Ricoh Co Ltd | 文書登録装置及び文書検索装置 |
JP2002063381A (ja) * | 2000-08-18 | 2002-02-28 | Yamaha Corp | マルチメディアコンテンツの登録システム |
JP2005202590A (ja) * | 2004-01-14 | 2005-07-28 | Kddi Corp | マスメイル検出方式およびメイルサーバ |
JP2008257444A (ja) * | 2007-04-04 | 2008-10-23 | Nec Corp | 類似ファイル管理装置、その方法及びそのプログラム |
WO2009048149A1 (ja) * | 2007-10-11 | 2009-04-16 | Nec Corporation | 電子文書の同等判定システムおよび同等判定方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011111854A1 (ja) | 2010-03-12 | 2011-09-15 | 日清オイリオグループ株式会社 | 皮膚外用組成物、化粧料、及び洗浄剤 |
WO2012077818A1 (ja) * | 2010-12-10 | 2012-06-14 | 国立大学法人豊橋技術科学大学 | ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム |
JP5971722B2 (ja) * | 2010-12-10 | 2016-08-17 | 国立大学法人豊橋技術科学大学 | ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム |
WO2013108745A1 (ja) * | 2012-01-16 | 2013-07-25 | 日本電気株式会社 | ストレージ装置、その制御方法、及びプログラム |
WO2013108746A1 (ja) * | 2012-01-16 | 2013-07-25 | 日本電気株式会社 | 検索システム、その制御方法、及びプログラム |
US9235624B2 (en) | 2012-01-19 | 2016-01-12 | Nec Corporation | Document similarity evaluation system, document similarity evaluation method, and computer program |
JP2015515770A (ja) * | 2012-02-29 | 2015-05-28 | アルトネット、インコーポレイテッド | ストリーム認識およびフィルタリング |
US9703869B2 (en) | 2012-02-29 | 2017-07-11 | Global File Systems Holdings, Llc | Stream recognition and filtering |
US10068017B2 (en) | 2012-02-29 | 2018-09-04 | Global File Systems Holdings, Llc | Stream recognition and filtering |
JP2018170036A (ja) * | 2012-09-07 | 2018-11-01 | クロール・インフォメーション・アシュアランス,エルエルシー | ファイル共有ネットワークにおけるスニペット照合 |
US10108636B2 (en) | 2014-05-20 | 2018-10-23 | Samsung Electronics Co., Ltd. | Data deduplication method |
JP2021184309A (ja) * | 2020-12-21 | 2021-12-02 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データ処理方法、装置、電子デバイス、記憶媒体及びプログラム |
JP7212735B2 (ja) | 2020-12-21 | 2023-01-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データ処理方法、装置、電子デバイス、記憶媒体及びプログラム |
US20230205736A1 (en) * | 2021-12-24 | 2023-06-29 | Vast Data Ltd. | Finding similarities between files stored in a storage system |
Also Published As
Publication number | Publication date |
---|---|
JP5291523B2 (ja) | 2013-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5291523B2 (ja) | 類似データ検索装置及びそのプログラム | |
US10169354B2 (en) | Indexing and search query processing | |
US6978419B1 (en) | Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments | |
US8838657B1 (en) | Document fingerprints using block encoding of text | |
US20160055196A1 (en) | Methods and systems for improved document comparison | |
JP4682284B2 (ja) | 文書差分検出装置 | |
WO2010047286A1 (ja) | 検索システム、検索方法およびプログラム | |
US20180253439A1 (en) | Characterizing files for similarity searching | |
EP1826692A2 (en) | Query correction using indexed content on a desktop indexer program. | |
US8645363B2 (en) | Spreading comments to other documents | |
US8423885B1 (en) | Updating search engine document index based on calculated age of changed portions in a document | |
US20110131212A1 (en) | Indexing documents | |
US7284006B2 (en) | Method and apparatus for browsing document content | |
US9235624B2 (en) | Document similarity evaluation system, document similarity evaluation method, and computer program | |
CN116108826A (zh) | 用于设计者的智能改变总结 | |
US9524354B2 (en) | Device, method, and program for processing data with tree structure | |
KR102076548B1 (ko) | 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 | |
CN110874526A (zh) | 一种文件相似性检测方法、装置、电子设备及存储介质 | |
US9817913B2 (en) | Method and apparatus for collecting, merging and presenting content | |
US8566366B2 (en) | Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
JP6488399B2 (ja) | 情報提示システム、及び情報提示方法 | |
US9483463B2 (en) | Method and system for motif extraction in electronic documents | |
US9747260B2 (en) | Information processing device and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5291523 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |