JP6642650B2 - Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法 - Google Patents
Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法 Download PDFInfo
- Publication number
- JP6642650B2 JP6642650B2 JP2018147289A JP2018147289A JP6642650B2 JP 6642650 B2 JP6642650 B2 JP 6642650B2 JP 2018147289 A JP2018147289 A JP 2018147289A JP 2018147289 A JP2018147289 A JP 2018147289A JP 6642650 B2 JP6642650 B2 JP 6642650B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- user
- files
- small
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
によって二つの異なるユーザアクセス作動の類似性をカウンタする。その中に、本発明はピアソン相関係数を使用して類似のユーザを決定し、スコアリング行列Rを指定し、ユーザaとユーザbの類似性をsim(a,b)で表し、ra及びrbが「ユーザ−トラフィック」ストアリングマトリックスのストアリングデータである。
がファイルiの人気予測値であり、
がファイルiが観測期間中のトラフィックであり、観測期間の長さがtである。
と
が線形関係の関連パラメータであり、線形回帰法によって最適値をアカウントすることが
できる。
Claims (1)
- Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法であって、前記HDFSが以下を実行する:
ユーサーによってインプットされる小さなファイルの書き込みコマンドを受信し、前記書き込みコマンド中にユーザIDと小さなファイルの名前を含み、ユーザIDと前記小さなファイルの名前によって前記HBaseキャッシュモジュールを照会し、対応するファイル内容が出たら、前記HBaseキャッシュモジュールによって照会された第一のファイルコンテンツに前記小さなファイルを書き込み、小さなファイルの書き込まれた第一のファイルコンテンツを前記HBaseキャッシュモジュールにアップロードして更新し、対応するファイル内容が出ないと、前記小さなファイルのファイル名によって前記HDFSシステムのデータベースを照会して対応するファイルコンテツが照会されたかどうかを判断し、イエスであれば、前記データベースに照会された第二のファイルコンテンツに前記小さなファイルを書き込み、前記小さなファイルの書き込まれた第二のファイルコンテンツを前記データベースにアップロードして更新し、そうでなければ、HadooparchiveツールのAPIを呼び出して前記小さなファイルのファイル名と対応するHARファイルにアクセスし、前記小さなファイルを書き込み、前記小さなファイルの書き込まれたHARファイルを前記データベースにアップロードして更新し、前記データマージモジュールが採用するデータマージメソッドは以下を含む:ステップA:クライアントがストレージされるファイルをアップロードした後で、HDFSのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを用いて、前記ストレージされるファイルの関連ファイルコレクションを見つけ、ここで、前記ユーザアクセスプリファレンスモデルはユーザアクセスログレコードに基づいている、ステップB:前記関連ファイルコレクションのミドルファイルと前記ストレージされるファイルを順にマージするキューに追加し、ステップC:前記マージするキューのすべてのファイルの総サイズが128 MBを超えるかどうかを判断し、イエスであれば、ステップDに進み、そうでなければ、ステップEに進み、ステップD:前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップBに戻り、ステップE:前記関連ファイルコレクションのミドルファイルと前記ストレージされるファイルが全部前記マージするキューに追加されたかどうかを判断し、イエスであれば、前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップFに進み、そうでなければ、ステップBに進む。ステップF:すべてのマージしたデータブロックをHDFSシステムにストレージする。前記プリファレンスモデルがユーザアクセスログレコードから統計されたもので、具体的には:前記ユーザアクセスログレコードからアクティブユーザセットを統計し、前記アクティブユーザセットにアクセスされた小さなファイルをBeanオブジェクトで表し、前記小さなファイルがサイズが2MB又は2MB以下のファイルに指し、その中に、前記オブジェクトのプロパティが該小さなファイルにアクセスユーザID、ユーザにアクセスされた小さなファイル名及び該小さなファイルがアクセスされた回数を含み、JDBCテクノロジを用いて、前記beanオブジェクトをMysqlデーターベースに永続化してストレージし、ストレージされたデータによって、任意の二つの異なるアクセス動作の類似性をアカウントし、任意の二つの異なるアクセス動作の類似性が正の場合、前記任意の二つのアクセス動作のユーザが類似ユーザであり、類似ユーザのIDを記録して関連ファイルセットによって類似ユーザにアクセスされ、関連付けられたファイルの情報をストレージし、前記関連ファイルセットによって、前記ユーザアクセスプリファレンスモデルを構築し、前記HBaseキャッシュモジュールが採用するキャッシュメソッドは:ユーザアクセスログレコードを取得し、前記ユーザアクセスログレコードからアクティブユーザセットを統計し、対数線形モデルを用いて、前記アクティブユーザセットの各アクテイブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順でソートし、ファイルの上位20%をホットスポットファイルとしてマークし、前記ホットスポットファイルを取得し、Hbaseデータベースを使って前記ホットスポットファイルの関連情報をキャッシュする。前記前記ユーザアクセスログレコードからアクティブユーザセットを統計するについて、具体的には:アクセスされたソースの接尾辞がjpgであるレコード行を前記ユーザアクセスログレコードからフィルタリングし、その中に、前記レコード行がユーザID、アクセスページURL、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、レコード解析クラスを作成して前記レコード行を解析し、二次元配列を使用してビジターIPと小さなファイルの名前をストレージし、ビジターIPを前記二次元配列でトラバースし、HashMapコレクションを使用して各ビジターIPのトラフィックを統計し、前記HashMapコレクションのKey値がビジターIPであり、Value値がトラフィックであり、前記HashMapコレクションをValue値の降順でソートし、ビジターIPの上位20%をフィルタリングし、ArrayListコレクションを使用して該IPサブセットをストレージし、アクティブユーザセットとしてマークし、対数線形モデルをあわせて、前記アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、具体的には:ArrayListコレクションから抽出されたビジターIPを、前記二次元配列から抽出されたビジターIPと照合し、一致が出たら、合致するビジターIPをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデルを用いて、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、前記対数線形モデルは:
であり、その中に、
がファイルiの人気予測値であり、
がファイルiが観測期間中のトラフィックであり、観測期間の長さがtである。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810500092.8 | 2018-05-22 | ||
CN201810500092.8A CN108932287B (zh) | 2018-05-22 | 2018-05-22 | 一种基于Hadoop的海量小文件写入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204473A JP2019204473A (ja) | 2019-11-28 |
JP6642650B2 true JP6642650B2 (ja) | 2020-02-05 |
Family
ID=64449331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018147289A Expired - Fee Related JP6642650B2 (ja) | 2018-05-22 | 2018-08-04 | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6642650B2 (ja) |
CN (1) | CN108932287B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143158B (zh) * | 2019-12-04 | 2023-05-16 | 武汉光谷信息技术股份有限公司 | 一种监控数据实时存储方法、***、电子设备及存储介质 |
CN111913917A (zh) * | 2020-07-24 | 2020-11-10 | 北京锐安科技有限公司 | 一种文件处理方法、装置、设备和介质 |
CN111813749B (zh) * | 2020-08-21 | 2024-06-21 | 网易(杭州)网络有限公司 | 文件过滤方法及装置、电子设备、存储介质 |
CN112532724A (zh) * | 2020-11-27 | 2021-03-19 | 上海爱数信息技术股份有限公司 | 一种文件传输***及其方法 |
CN115599792B (zh) * | 2022-12-13 | 2023-03-10 | 深圳市润信数据技术有限公司 | 一种物联网大数据分类存储方法 |
CN116069741A (zh) * | 2023-02-20 | 2023-05-05 | 北京集度科技有限公司 | 文件处理方法、装置和计算机程序产品 |
CN117519608B (zh) * | 2023-12-27 | 2024-03-22 | 泰安北航科技园信息科技有限公司 | 一种以Hadoop为核心的大数据服务器 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332029B (zh) * | 2011-10-15 | 2013-04-17 | 西安交通大学 | 一种基于Hadoop 的海量可归类小文件关联存储方法 |
CN102902716A (zh) * | 2012-08-27 | 2013-01-30 | 苏州两江科技有限公司 | 基于Hadoop分布式计算平台的存储*** |
CN103246700B (zh) * | 2013-04-01 | 2016-08-10 | 厦门市美亚柏科信息股份有限公司 | 基于HBase的海量小文件低延时存储方法 |
CN103176754A (zh) * | 2013-04-02 | 2013-06-26 | 浪潮电子信息产业股份有限公司 | 一种海量小文件读取存储方法 |
CN103530387A (zh) * | 2013-10-22 | 2014-01-22 | 浪潮电子信息产业股份有限公司 | 一种hdfs针对小文件的改进方法 |
CN103577123B (zh) * | 2013-11-12 | 2016-06-22 | 河海大学 | 一种基于hdfs的小文件优化存储方法 |
CN103678491A (zh) * | 2013-11-14 | 2014-03-26 | 东南大学 | 一种基于Hadoop中小文件优化和倒排索引的方法 |
CN103856567B (zh) * | 2014-03-26 | 2017-05-17 | 西安电子科技大学 | 基于Hadoop分布式文件***的小文件存储方法 |
CN105205082A (zh) * | 2014-06-27 | 2015-12-30 | 国际商业机器公司 | 用于处理hdfs中的文件存储的方法和*** |
CN104536959B (zh) * | 2014-10-16 | 2018-03-06 | 南京邮电大学 | 一种Hadoop存取海量小文件的优化方法 |
CN105183839A (zh) * | 2015-09-02 | 2015-12-23 | 华中科技大学 | 一种基于Hadoop的小文件分级索引的存储优化方法 |
CN105404652A (zh) * | 2015-10-29 | 2016-03-16 | 河海大学 | 一种基于hdfs的海量小文件处理方法 |
CN105631010A (zh) * | 2015-12-29 | 2016-06-01 | 成都康赛信息技术有限公司 | 一种基于hdfs小文件存储的优化方法 |
CN106909651A (zh) * | 2017-02-23 | 2017-06-30 | 郑州云海信息技术有限公司 | 一种基于hdfs小文件写入和读取的方法 |
CN107391280A (zh) * | 2017-07-31 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种小文件的接收和存储方法及装置 |
CN107741947B (zh) * | 2017-08-30 | 2020-04-24 | 浙江九州量子信息技术股份有限公司 | 基于hdfs文件***的随机数密钥的存储与获取方法 |
-
2018
- 2018-05-22 CN CN201810500092.8A patent/CN108932287B/zh active Active
- 2018-08-04 JP JP2018147289A patent/JP6642650B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN108932287B (zh) | 2019-11-29 |
CN108932287A (zh) | 2018-12-04 |
JP2019204473A (ja) | 2019-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6642650B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法 | |
JP6695537B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法 | |
US11238098B2 (en) | Heterogenous key-value sets in tree database | |
TWI682274B (zh) | 鍵值儲存樹 | |
TWI702506B (zh) | 用於合併樹廢棄項目指標之系統、機器可讀媒體及機器實施之方法 | |
JP6642651B2 (ja) | ユーザアクセスプリファレンスモデルを用いたストレージ方法 | |
KR102564170B1 (ko) | 데이터 객체 저장 방법, 장치, 및 이를 이용한 컴퓨터 프로그램이 저장되는 컴퓨터 판독가능한 저장 매체 | |
TW201837720A (zh) | 用於多串流儲存裝置之串流選擇 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
TW201841123A (zh) | 用於維護操作之合併樹修改 | |
WO2017161540A1 (zh) | 数据查询的方法、数据对象的存储方法和数据*** | |
EP3859536B1 (en) | Method and device for buffering data blocks, computer device, and computer-readable storage medium | |
JP6696062B2 (ja) | Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 | |
CN109766318A (zh) | 文件读取方法及装置 | |
CN110858210A (zh) | 数据查询方法及装置 | |
CN108763458B (zh) | 内容特征查询方法、装置、计算机设备及存储介质 | |
US9275091B2 (en) | Database management device and database management method | |
CN110334073B (zh) | 一种元数据预取方法、装置、终端、服务器及存储介质 | |
CN109189696B (zh) | 一种ssd缓存***及缓存方法 | |
WO2012081165A1 (ja) | データベース管理装置及びデータベース管理方法 | |
Lu et al. | Research on Cassandra data compaction strategies for time-series data | |
CN103365897A (zh) | 一种支持Bigtable数据模型的片段缓存方法 | |
US20240078234A1 (en) | Apparatus, method and storage medium for database pagination | |
Liu et al. | P-index: An efficient searchable metadata indexing scheme based on data provenance in cold storage | |
CN117648465A (zh) | 物联网设备数据处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181119 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190814 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190909 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6642650 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |