JP7476715B2 - 情報処理装置及び重複率見積もりプログラム - Google Patents
情報処理装置及び重複率見積もりプログラム Download PDFInfo
- Publication number
- JP7476715B2 JP7476715B2 JP2020134377A JP2020134377A JP7476715B2 JP 7476715 B2 JP7476715 B2 JP 7476715B2 JP 2020134377 A JP2020134377 A JP 2020134377A JP 2020134377 A JP2020134377 A JP 2020134377A JP 7476715 B2 JP7476715 B2 JP 7476715B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- group
- duplication
- rate
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title description 10
- 238000004364 calculation method Methods 0.000 claims description 45
- 238000000034 method Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 230000008030 elimination Effects 0.000 description 6
- 238000003379 elimination reaction Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
- G06F3/0605—Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/0644—Management of space entities, e.g. partitions, extents, pools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
1-(1-x)^m-m・x・(1-x)^(m-1)=D ・・・(1)
である。式(1)において、Dに実測値を代入し、xに0.01などの固定値を代入すると、式(1)はmに関する方程式であり、この方程式を解くことでmを計算することができる。
前記管理部により管理される重複数に基づいて前記複数のサンプルデータを重複数が所定数以下の第1グループと重複数が所定数より多い第2グループに分類する分類部と、
前記第1グループに分類されたサンプルデータについて第1重複排除率を計算する第1計算部と、
前記第2グループに分類されたサンプルデータについて第2重複排除率を計算する第2計算部と、
前記第1重複排除率と前記第2重複排除率に基づいて前記見積もり対象データの重複排除率を計算する合成部と
を有することを特徴とする情報処理装置。
見積もり対象データから一部のデータを複数のサンプルデータとして抽出し、抽出した複数のサンプルデータの重複数を管理し、
管理する重複数に基づいて前記複数のサンプルデータを重複数が所定数以下の第1グループと重複数が所定数より多い第2グループに分類し、
前記第1グループに分類されたサンプルデータについて第1重複排除率を計算し、
前記第2グループに分類されたサンプルデータについて第2重複排除率を計算し、
前記第1重複排除率と前記第2重複排除率に基づいて前記見積もり対象データの重複排除率を計算する
処理を実行させることを特徴とする重複率見積もりプログラム。
2 ディスプレイ
11 ファイル入出力部
12 見積もり部
13 結果出力部
21 記憶部
22 重複判定部
23 重複数管理部
24 チャンク管理部
25 計算部
31 グローバルチャンクテーブル
32 少数チャンクテーブル
41 第1計算部
42 第2計算部
43 合成部
50 コンピュータ
51 メインメモリ
52 CPU
53 LANインタフェース
54 HDD
55 スーパーIO
56 DVI
57 ODD
Claims (2)
- 見積もり対象データから一部のデータを複数のサンプルデータとして抽出し、抽出した複数のサンプルデータの重複数を管理する管理部と、
前記管理部により管理される重複数に基づいて前記複数のサンプルデータを重複数が所定数以下の第1グループと重複数が所定数より多い第2グループに分類する分類部と、
前記第1グループに分類されたサンプルデータを用いて、前記複数のサンプルデータの重複数ごとのデータ量の期待値に関して各重複数についてのデータ量を変数とする連立方程式を作成し、該作成した連立方程式を解くことで1から前記所定数までの各重複数についてデータ量を推定し、各重複数について推定したデータ量に基づいて、前記第1グループに分類されたサンプルデータについての第1重複排除率を計算する第1計算部と、
前記第2グループに分類されたサンプルデータの総数及び種類数に基づいて、前記第2グループに分類されたサンプルデータについての第2重複排除率を計算する第2計算部と、
前記第1重複排除率と前記第2重複排除率に基づいて前記見積もり対象データの重複排除率を計算する合成部と
を有することを特徴とする情報処理装置。 - コンピュータに、
見積もり対象データから一部のデータを複数のサンプルデータとして抽出し、抽出した複数のサンプルデータの重複数を管理し、
管理する重複数に基づいて前記複数のサンプルデータを重複数が所定数以下の第1グループと重複数が所定数より多い第2グループに分類し、
前記第1グループに分類されたサンプルデータを用いて、前記複数のサンプルデータの重複数ごとのデータ量の期待値に関して各重複数についてのデータ量を変数とする連立方程式を作成し、該作成した連立方程式を解くことで1から前記所定数までの各重複数についてデータ量を推定し、各重複数について推定したデータ量に基づいて、前記第1グループに分類されたサンプルデータについての第1重複排除率を計算し、
前記第2グループに分類されたサンプルデータの総数及び種類数に基づいて、前記第2グループに分類されたサンプルデータについての第2重複排除率を計算し、
前記第1重複排除率と前記第2重複排除率に基づいて前記見積もり対象データの重複排除率を計算する
処理を実行させることを特徴とする重複率見積もりプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020134377A JP7476715B2 (ja) | 2020-08-07 | 2020-08-07 | 情報処理装置及び重複率見積もりプログラム |
EP21182374.5A EP3951583A1 (en) | 2020-08-07 | 2021-06-29 | Information processing device and duplication rate estimation program |
US17/370,003 US20220043592A1 (en) | 2020-08-07 | 2021-07-08 | Information processing device and non-transitory computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020134377A JP7476715B2 (ja) | 2020-08-07 | 2020-08-07 | 情報処理装置及び重複率見積もりプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022030385A JP2022030385A (ja) | 2022-02-18 |
JP7476715B2 true JP7476715B2 (ja) | 2024-05-01 |
Family
ID=76744602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020134377A Active JP7476715B2 (ja) | 2020-08-07 | 2020-08-07 | 情報処理装置及び重複率見積もりプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220043592A1 (ja) |
EP (1) | EP3951583A1 (ja) |
JP (1) | JP7476715B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11921644B2 (en) * | 2022-05-20 | 2024-03-05 | Western Digital Technologies, Inc. | Optimizing huge page management |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013156846A (ja) | 2012-01-30 | 2013-08-15 | Fujitsu Ltd | ストレージ管理方法およびストレージ管理装置 |
WO2016006050A1 (ja) | 2014-07-09 | 2016-01-14 | 株式会社日立製作所 | ストレージシステム及び記憶制御方法 |
WO2016181479A1 (ja) | 2015-05-12 | 2016-11-17 | 株式会社日立製作所 | ストレージシステムおよび記憶制御方法 |
US20170199895A1 (en) | 2016-01-13 | 2017-07-13 | International Business Machines Corporation | Sampling-based deduplication estimation |
WO2017149592A1 (ja) | 2016-02-29 | 2017-09-08 | 株式会社日立製作所 | ストレージ装置 |
JP2019016293A (ja) | 2017-07-10 | 2019-01-31 | 富士通株式会社 | 情報処理装置、重複除去率特定方法及び重複除去率特定プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140491B2 (en) * | 2009-03-26 | 2012-03-20 | International Business Machines Corporation | Storage management through adaptive deduplication |
EP2414926A1 (en) * | 2009-09-18 | 2012-02-08 | Hitachi, Ltd. | Storage system for eliminating duplicated data |
US9542413B2 (en) * | 2011-10-06 | 2017-01-10 | Hitachi, Ltd. | Stored data deduplication method, stored data deduplication apparatus, and deduplication program |
WO2013124896A1 (en) * | 2012-02-23 | 2013-08-29 | Hitachi, Ltd. | Chunk- based deduplication system and method thereof |
RU2626334C2 (ru) * | 2013-08-19 | 2017-07-26 | Хуавей Текнолоджиз Ко., Лтд. | Способ и устройство обработки объекта данных |
US20160034201A1 (en) * | 2014-08-04 | 2016-02-04 | International Business Machines Corporation | Managing de-duplication using estimated benefits |
US10162867B2 (en) * | 2016-01-13 | 2018-12-25 | International Business Machines Corporation | Low memory sampling-based estimation of distinct elements and deduplication |
-
2020
- 2020-08-07 JP JP2020134377A patent/JP7476715B2/ja active Active
-
2021
- 2021-06-29 EP EP21182374.5A patent/EP3951583A1/en active Pending
- 2021-07-08 US US17/370,003 patent/US20220043592A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013156846A (ja) | 2012-01-30 | 2013-08-15 | Fujitsu Ltd | ストレージ管理方法およびストレージ管理装置 |
WO2016006050A1 (ja) | 2014-07-09 | 2016-01-14 | 株式会社日立製作所 | ストレージシステム及び記憶制御方法 |
WO2016181479A1 (ja) | 2015-05-12 | 2016-11-17 | 株式会社日立製作所 | ストレージシステムおよび記憶制御方法 |
US20170199895A1 (en) | 2016-01-13 | 2017-07-13 | International Business Machines Corporation | Sampling-based deduplication estimation |
WO2017149592A1 (ja) | 2016-02-29 | 2017-09-08 | 株式会社日立製作所 | ストレージ装置 |
JP2019016293A (ja) | 2017-07-10 | 2019-01-31 | 富士通株式会社 | 情報処理装置、重複除去率特定方法及び重複除去率特定プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20220043592A1 (en) | 2022-02-10 |
EP3951583A1 (en) | 2022-02-09 |
JP2022030385A (ja) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200356901A1 (en) | Target variable distribution-based acceptance of machine learning test data sets | |
US10216558B1 (en) | Predicting drive failures | |
US20190107955A1 (en) | Storage Pool Capacity Management | |
US8091073B2 (en) | Scaling instruction intervals to identify collection points for representative instruction traces | |
US9658826B2 (en) | Sorting multiple records of data using ranges of key values | |
US10198455B2 (en) | Sampling-based deduplication estimation | |
US20150074467A1 (en) | Method and System for Predicting Storage Device Failures | |
JP2009519543A (ja) | コンパクト類似性構造体を構築する方法及び装置並びにかかるコンパクト類似性構造体をドキュメントの関連性の解析に用いる方法 | |
JP7038143B2 (ja) | データ・オブジェクトの削除可能性を見積もる方法 | |
US20160034201A1 (en) | Managing de-duplication using estimated benefits | |
US9892014B1 (en) | Automated identification of the source of RAID performance degradation | |
JP7476715B2 (ja) | 情報処理装置及び重複率見積もりプログラム | |
WO2019084917A1 (zh) | 存储***可用容量计算方法及装置 | |
JP2020154828A (ja) | データ補完プログラム、データ補完方法及びデータ補完装置 | |
JP2011095946A (ja) | 予測誤差評価装置及び予測誤差評価方法及び予測誤差評価プログラム | |
KR20200086548A (ko) | 시계열 데이터 압축 및 복원 방법 | |
US20220138598A1 (en) | Reducing computational overhead involved with processing received service requests | |
US11816004B2 (en) | Systems and methods for file level prioritization during multi-object data restores | |
CN112000955B (zh) | 确定日志特征序列的方法、漏洞分析方法及***、设备 | |
US11294775B2 (en) | Systems and methods for file level prioritization during data backups | |
US10585933B2 (en) | System and method for classification of low relevance records in a database using instance-based classifiers and machine learning | |
US20050204346A1 (en) | Using sampling data for program phase detection | |
JP5379749B2 (ja) | 文書分類装置、文書分類方法、そのプログラムおよび記録媒体 | |
US9430529B2 (en) | Techniques for incrementally updating aggregation of states | |
WO2022264237A1 (ja) | 累積計算装置、累積計算方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240123 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7476715 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |