JP6355514B2 - ファイル分割システム及び方法 - Google Patents
ファイル分割システム及び方法 Download PDFInfo
- Publication number
- JP6355514B2 JP6355514B2 JP2014206336A JP2014206336A JP6355514B2 JP 6355514 B2 JP6355514 B2 JP 6355514B2 JP 2014206336 A JP2014206336 A JP 2014206336A JP 2014206336 A JP2014206336 A JP 2014206336A JP 6355514 B2 JP6355514 B2 JP 6355514B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- division
- processing unit
- determination
- storage area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
しかも、各分割処理部による逐次的な分割許容ポイント探索処理は、各グループにおいて最初の分割許容ポイントが発見されるまでに限定され、それ以降のデータに対しては分割許容ポイント探索処理が省略される仕組みであるため、元データのすべてについて同処理を実行する場合に比べ、処理の大幅な簡素化が実現できる。
しかも、データに対する逐次的な分割許容ポイント探索処理は、各グループにおいて最初の分割許容ポイントが発見されるまでに限定され、それ以降のデータに対しては分割許容ポイント探索処理が省略される仕組みであるため、元データのすべてについて同処理を実行する場合に比べ、処理の大幅な簡素化が実現できる。
また、上記データ割当処理部12、第1の分割処理部21〜第7の分割処理部27及び第1の集計処理部31〜第7の集計処理部37は、同コンピュータ40のCPUが特定のアプリケーションプログラムに従って動作することにより実現される。
また、第1の集計処理部31〜第7の集計処理部37が動作する際にも、それぞれには別個のCPUコアが割り当てられる結果、第1の集計処理部31〜第7の集計処理部37は同時並行的に別個の処理を実行できる。
データ割当処理部12は、この大容量データを件数ベースで先頭から順に7等分し、それぞれのグループを第1の分割処理部21〜第7の分割処理部27に対して順に割り当てるのであるが、正確に7等分できずに端数が生じる場合、適当な分割処理部に対して他より多目にデータを割り当てる。
図3においては、第1の分割処理部21〜第7の分割処理部27に対して、それぞれ割当データ51〜57が関連付けられた状態が示されている。
図3においては、判定済データ記憶領域14に判定済データ62〜67が配置されている状態が示されている。
これに対し第1の分割処理部21は、ブレイク判定処理を一切実行することなく、自己の割当データ51をそのまま判定不要データとして判定不要データ記憶領域15に出力する(S18)。
図3においては、判定不要データ記憶領域15に判定不要データ71〜77が配置されている状態が示されている。
まず第2の分割処理部22は、仕入先コードが「003」から「004」に変わる箇所を最初のブレイクポイントαと認定し、この最初のブレイクポイントαより前に配置された全データ(ここでは「003」の仕入先コードを備えたデータ)を判定済データ62として判定済データ記憶領域14に出力する。
図示の通り、最初のブレイクポイントα以降に配置された判定不要データ72中にも次のブレイクポイントが存在しているが、第2の分割処理部22はブレイク判定処理を再開することなく、判定不要データ72を一括して判定不要データ記憶領域14に出力する。
ここで「仮想的にマージ」とは、先行グループに係る判定不要データと一つ後ろのグループに係る判定済データを、連続する一つのファイルとして読み込むことを意味している。
その一例として、大容量のテキストファイル中から、特定の文字列が含まれる行を行単位で出力する処理を複数のCPUコアを用いて並列的に実行するに先立ち、当該テキストファイルを複数ファイルに分割するケースが該当する。
12 データ割当処理部
13 元データ記憶領域
14 判定済データ記憶領域
15 判定不要データ記憶領域
16 集計結果記憶領域
21 第1の分割処理部
22 第2の分割処理部
23 第3の分割処理部
24 第4の分割処理部
25 第5の分割処理部
26 第6の分割処理部
27 第7の分割処理部
31 第1の集計処理部
32 第2の集計処理部
33 第3の集計処理部
34 第4の集計処理部
35 第5の集計処理部
36 第6の集計処理部
37 第7の集計処理部
40 コンピュータ
42 補助記憶装置
46 元データ
51〜57 割当データ
62〜67 判定済データ
71〜77 判定不要データ
81〜87 分割ファイル
α 最初のブレイクポイント
Claims (5)
- 複数の分割処理部と、
複数の分割許容ポイントを有している元データを、データの分量ベースで複数のグループに区分し、各グループに含まれるデータを上記の各分割処理部に割当データとして順番に関連付けるデータ割当処理部と、
複数の後続処理部を備え、
上記の各分割処理部の中、元データの最初のグループが割り当てられた先頭の分割処理部を除き、各分割処理部がそれぞれ自己の割当データについて先頭から分割許容ポイントを探索する処理を実行し、最初の分割許容ポイントを発見した時点で、当該最初の分割許容ポイントより前のデータを判定済データとして判定済データ記憶領域に出力すると共に、当該最初の分割許容ポイント以降のデータを判定不要データとして判定不要データ記憶領域に出力し、
上記先頭の分割処理部が、自己の割当データについて分割許容ポイントを探索する処理を実行することなく、そのまま判定不要データとして上記判定不要データ記憶領域に出力し、
上記の各後続処理部は、自己の担当する分割処理部の次の分割処理部に係る判定済データが存在する場合には、自己の担当する分割処理部に係る判定不要データの末尾に上記判定済データを仮想的に連結した上で必要な後続処理を実行し、上記の判定済データが存在しない場合には、自己の担当する分割処理部に係る判定不要データのみに対して必要な後続処理を実行することを特徴とするファイル分割システム。 - 上記データ割当処理部が、キー項目の値に基づいてソートされた複数のレコードからなる元データを、レコードの件数ベースで複数のグループに区分し、
上記分割処理部が、上記元データに含まれる各レコードのキー項目の値が変化するブレイクポイントを分割許容ポイントとして探索することを特徴とする請求項1に記載のファイル分割システム。 - 上記データ割当処理部が、複数の改行文字を含むテキストファイルからなる元データを、文字数ベースで複数のグループに区分し、
上記分割処理部が、上記元データに含まれる各改行文字の直後を分割許容ポイントとして探索することを特徴とする請求項1に記載のファイル分割システム。 - 上記の各分割処理部による処理が、それぞれ別個のCPUコアによって実行されることを特徴とする請求項1〜3の何れかに記載のファイル分割システム。
- コンピュータにより実行されるファイル分割方法であって、
複数の分割許容ポイントを有している元データを、データの分量ベースで複数のグループに区分するステップと、
上記複数のグループの中、上記元データの最初のグループ以外の各グループについて、それぞれ先頭から分割許容ポイントを探索し、最初の分割許容ポイントを発見した時点で、当該最初の分割許容ポイントより前のデータを判定済データとして判定済データ記憶領域に出力するステップと、
当該最初の分割許容ポイント以降のデータを、判定不要データとして判定不要データ記憶領域に出力するステップと、
上記先頭のグループについては、分割許容ポイントを探索することなく、そのまま判定不要データとして上記判定不要データ記憶領域に出力するステップと、
上記判定不要データ記憶領域に格納された判定不要データの中、元データの最後のグループに係る判定不要データ以外の各判定不要データに対しては、それぞれ次のグループに係る判定済データを仮想的に連結した上で必要な後続処理を実行し、上記元データの最後のグループに係る判定不要データに対しては、そのまま必要な後続処理を実行するステップと、
からなることを特徴とするファイル分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014206336A JP6355514B2 (ja) | 2014-10-07 | 2014-10-07 | ファイル分割システム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014206336A JP6355514B2 (ja) | 2014-10-07 | 2014-10-07 | ファイル分割システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016076100A JP2016076100A (ja) | 2016-05-12 |
JP6355514B2 true JP6355514B2 (ja) | 2018-07-11 |
Family
ID=55951423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014206336A Active JP6355514B2 (ja) | 2014-10-07 | 2014-10-07 | ファイル分割システム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6355514B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6906434B2 (ja) * | 2017-11-28 | 2021-07-21 | キオクシア株式会社 | 電子機器およびファイル管理方法 |
JP7185133B2 (ja) * | 2018-11-21 | 2022-12-07 | 富士通株式会社 | 情報処理装置、情報処理プログラムおよび分析方法 |
JP7174245B2 (ja) * | 2018-12-27 | 2022-11-17 | 富士通株式会社 | 情報処理プログラム、情報処理装置及び情報処理方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08147283A (ja) * | 1994-11-18 | 1996-06-07 | Brother Ind Ltd | 文書処理装置 |
JP3199680B2 (ja) * | 1997-12-25 | 2001-08-20 | 三菱電機株式会社 | データ集計装置 |
JP2007086951A (ja) * | 2005-09-21 | 2007-04-05 | Hitachi Software Eng Co Ltd | ファイル分割処理方法及びファイル分割プログラム |
-
2014
- 2014-10-07 JP JP2014206336A patent/JP6355514B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016076100A (ja) | 2016-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9633010B2 (en) | Converting data into natural language form | |
JP6605573B2 (ja) | 並列ディシジョン・ツリー・プロセッサー・アーキテクチャ | |
US11734364B2 (en) | Method and system for document similarity analysis | |
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
US9626434B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
CN110781231A (zh) | 基于数据库的批量导入方法、装置、设备及存储介质 | |
CN109791492B (zh) | 流水线相关树查询优化器和调度器 | |
KR20170092707A (ko) | 최적화된 브라우저 렌더링 프로세스 | |
US20190087453A1 (en) | Data search system, data search method, and program product | |
JP6355514B2 (ja) | ファイル分割システム及び方法 | |
US9886561B2 (en) | Efficient encoding and storage and retrieval of genomic data | |
WO2018118302A1 (en) | Methods and apparatus to identify a count of n-grams appearing in a corpus | |
CN112965939A (zh) | 一种文件合并方法、装置和设备 | |
CN104035822A (zh) | 一种低开销的高效内存去冗余方法及*** | |
US8667008B2 (en) | Search request control apparatus and search request control method | |
CN113918807A (zh) | 数据推荐方法、装置、计算设备及计算机可读存储介质 | |
US20110191347A1 (en) | Adaptive routing of documents to searchable indexes | |
JP5838871B2 (ja) | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム | |
JP2002041551A (ja) | データのコンパイル方法、および、コンパイル方法を記憶した記憶媒体 | |
US10867134B2 (en) | Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary | |
KR101331383B1 (ko) | 데이터 처리 방법 및 장치 | |
CN113868249A (zh) | 一种数据存储方法、装置、计算机设备以及存储介质 | |
US9864765B2 (en) | Entry insertion apparatus, method, and program | |
US20130185401A1 (en) | Configuration management device, configuration management method, and configuration management program | |
CN110543622A (zh) | 文本相似度检测方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6355514 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |