JP2019204472A

JP2019204472A - Ｈａｄｏｏｐに基づいて、データマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳから複数の２ＭＢ以下の小さなファイルを読み込む方法

Info

Publication number: JP2019204472A
Application number: JP2018147288A
Authority: JP
Inventors: 魏文国; Wenguo Wei; 謝桂園; Guiyuan Xie; 蔡君; Jun Cai; 趙慧民; Huimin Zhao; 彭建烽; Jianfeng Peng
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2018-05-22
Filing date: 2018-08-04
Publication date: 2019-11-28
Anticipated expiration: 2038-08-04
Also published as: CN108804566B; JP6695537B2; CN108804566A

Abstract

【課題】本発明はＨａｄｏｏｐに基づく大量の小さなファイルの読み込みメソッドを開示した。【解決手段】該読み込みメソッドはデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用される。該メソッドには：ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、その中に、小さなファイルの読み込みコマンドが前記ユーザＩＤと小さなファイルの名前を含み、前記ユーザＩＤと小さなファイルの名前にしたがってＨＢａｓｅキャッシュモジュールを照会し、対応するファイルコンテンツが出たら、照会されたファイルコンテンツに戻り、対応するファイルコンテンツが出ないと、ＨＤＦＳシステムのダータベースを照会する。本発明の読み込みメソッドは小さなファイルのマージ及びＨＢａｓｅキャッシングメカニズムと合わせた後で、小さなファイルの読み込み効率を高める。【選択図】図１

Description

本発明はコンピュータテクノロジー分野に関し、具体的には、Ｈａｄｏｏｐに基づく大量の小さなファイルの読み込みメソッドに関する。

Ｈａｄｏｏｐは２００５年にＡｐａｃｈｅＦｏｕｎｄａｔｉｏｎによってＬｕｃｅｎｅのサブプロジェクトであるＮｕｔｃｈの一部分として正式に導入されたものである。Ｈａｄｏｏｐの最も重要な二つの設計はＨＤＦＳとＭａｐＲｅｄｕｃｅである。ＨＤＦＳは大量なデータをストレージし、ファイルがデータブロックの形でシステムにストレージされる。また、ＨＤＦＳのデータブロックは通常のディスクに定義されたデータブロック（通常は５１２Ｂ）よりも遥かに大きく、ＨＤＦＳの現在のデフォルトブロックサイズは１２８ＭＢである。もしＨＤＦＳにストレージされたファイルのサイズが１２８に超えると、ＨＤＦＳは該ファイルを複数のブロックサイズのブロックに分割し、別々にストレージする。また、ＨＤＦＳが絶えずに小さなファイルをＴＢひいてはＰＢレベルまでストレージし続けると、小さなファイルの問題が発生し、此れは、大量のメタデータがＨＤＦＳのプライマリノードのｎａｍｅｎｏｄｅにストレージされるため、ｎａｍｅｎｏｄｅの負荷が大幅に増加し、システムの読み取りパフォーマンスに影響するためである。その中に、小さなファイルのサイズが２ＭＢに定義され、つまり、ＨＤＦＳがファイルをストレージする中で、ファイルのサイズが２Ｍまたは２Ｍ以下であると、小さなファイルとして定義される。

大量な小さなファイルの処理について、現有の技術においては、若干の小さなファイルを一つのブロックサイズの大きなファイルにマージすることであり、ファイル間の関連性を考慮せず、小さなファイルの読み込み効率が望ましくなくなる。

中国特許出願公開第１０２７９９６３９号明細書

本発明の実施例ではＨａｄｏｏｐに基づく大量の小さなファイルの読み込みメソッドが打ち出され、ファイルマージとＨＢａｓｅキャッシングメカニズムを組み合わせた後で、小さなファイルの読み込み効率を改善することができる。

本発明の実施例はＨａｄｏｏｐに基づく大量の小さなファイルの読み込みメソッドを提供し、前記読み込みメソッドはデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用され、前記読み込みメソッドには：

ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、其中、その中に、前記小さなファイルの読み込みコマンドが前記ユーザＩＤと小さなファイルの名前を含み、

前記ユーザＩＤと前記小さなファイルの名前にしたがって前記ＨＢａｓｅキャッシュモジュールを照会し、

対応するファイルコンテンツが出たら、前記ＨＢａｓｅキャッシュモジュールによって照会されたファイルコンテンツに戻り、そうでなければ、前記小さなファイルの名前によって前記ＨＤＦＳシステムのデータベースを照会して対応するファイルコンテンツが照会されたかどうかを判断し、

イエスであれば前記データベースによって照会されたファイルコンテンツに戻り、

そうでなければ、ＨａｄｏｏｐａｒｃｈｉｖｅツールのＡＰＩを呼び出して前記小さなファイルの名前の対応するＨＡＲファイルにアクセスして前記ＨＡＲファイルに戻り、

更に、前記データマージモジュールの採用するデータマージメソッドが以下のように：

ステップＡ：クライアントがストレージされるファイルをアップロードした後で、ＨＤＦＳのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを組み合わせて、前記ストレージされるファイルの関連ファイルコレクションを見つけ、その中に、前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードに基づいている。

ステップＢ：前記関連ファイルコレクションのミドルファイルと前記ストレージされるファイルを順にマージするキューに追加する。

ステップＣ：前記マージするキューのすべてのファイルの総サイズが１２８ＭＢを超えるかどうかを判断し、イエスであれば、ステップＤに進み、そうでなければ、ステップＥに進む。

ステップＤ：前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＢに戻る。

ステップＥ：前記関連ファイルコレクションのミドルファイルと前記ストレージされるファイルが全部前記マージするキューに追加されたかどうかを判断し、イエスであれば、前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＦに進み、そうでなければ、ステップＢに進む。

ステップＦ：すべてのマージしたデータブロックをＨＤＦＳシステムにストレージする。

更に、その特徴は、前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードから統計されたものであり、具体的には：

前記ユーザアクセスログレコードからアクティブユーザセットを統計し、

ｂｅａｎオブジェクトが前記アクティブユーザセットによってアクセスされた小さなファイルを表すために使用され、前記小さなファイルがサイズが２ＭＢまたは２ＭＢ以上のファイルを指し、その中に、前記ｂｅａｎオブジェクトのプロパティが該小さなファイルをアクセスするユーザＩＤ、ユーザがアクセスした小さなファイルの名前及び該小さなファイルがアクサスされた回数を含み、

ＪＤＢＣテクノロジを合わせて、前記ｂｅａｎオブジェクトを永続にＭｙｓｑｌ前記データベースにストレージし、ストレージされたデータにしたがって、任意の二つの異なるアクセス動作の類似性を計算し、

前記任意の二つの異なるアクセス動作の類似性が正の場合、前記任意の二つのアクセス動作のユーザが類似ユーザであり、類似ユーザのＩＤを記録し、関連ファイルコレクションを使って、類似ユーザによってアクサスされ、関連付けられたファイル情報をストレージし、

前記関連ファイルコレクションにしたがって、前記ユーザアクセスプリファレンスモデルを構築し、

更に、その特徴は、前記ＨＢａｓｅキャッシュモジュールの採用するキャッシュメソッドは：

ユーザアクセスログレコードを取得し、前記ユーザアクセスログレコードより前記アクティブユーザセットを統計し、

対数線形モデルをあわせて、前記アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークし、

前記ホットスポットファイルを取得し、Ｈｂａｓｅデータベースを採用して前記ホットスポットファイルの関連情報をキャッシュし、

更に、前記前記ユーザアクセスログレコードからアクティブユーザセットを統計するについて、具体的には、

アクセスされたソースの接尾辞がｊｐｇであるレコード行を前記ユーザアクセスログレコードからフィルタリングし、前記レコード行がユーザＩＤ、アクセスページＵＲＬ、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、

レコード解析クラスを作成して前記レコード行を解析し、二次元配列を使用してビジターＩＰと小さなファイルの名前をストレージし、

ビジターＩＰを前記二次元配列でトラバースし、ＨａｓｈＭａｐコレクションを使用して各ビジターＩＰのトラフィックを統計し、前記ＨａｓｈＭａｐコレクションのＫｅｙ値がビジターＩＰであり、Ｖａｌｕｅ値がトラフィックであり、

前記ＨａｓｈＭａｐコレクションをＶａｌｕｅ値の降順でソートし、ビジターＩＰの上位２０％をフィルタリングし、ＡｒｒａｙＬｉｓｔコレクションを使用して該ＩＰサブセットをストレージし、アクティブユーザセットとしてマークし、

更に、前記対数線形モデルをあわせて、前記アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークし、具体的には：

ＡｒｒａｙＬｉｓｔコレクションから抽出されたビジターＩＰを、前記二次元配列から抽出されたビジターＩＰと照合し、

一致が出たら、合致するビジターＩＰをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデルを合わせ、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークし、

前記対数線形モデルは：

であり、

その中に、

がファイルｉの人気予測値であり、

がファイルｉが観測期間中のトラフィックであり、観測期間の長さがｔである。

本発明の実施例を実施すると、以下の有益効果が出る：

本発明の実施例が提供するＨａｄｏｏｐに基づく大量の小さなファイルの読み込みメソッドについては、該読み込みメソッドはデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用され、該読み込みメソッドは：ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、その中に、小さなファイルの読み込みコマンドがユーザＩＤと小さなファイルの名前を含み、ユーザＩＤと小さなファイルの名前にしたがってＨＢａｓｅキャッシュモジュールを照会し、対応するファイルコンテンツが出たら、照会されたファイルコンテンツに戻り、そうでなければ、ＨＤＦＳシステムのデータベースを照会し、成功したら、照会されたファイルコンテンツに戻り、そうでなければ、ＨａｄｏｏｐａｒｃｈｉｖｅツールのＡＰＩを呼び出して対応するＨＡＲファイルにアクセスしてＨＡＲファイルに戻る。小さなファイル間の関連性とホットスポットファイルを考慮しない現有技術と比べ、本発明の読み込みメソッドは小さなファイルのマージとＨＢａｓｅキャッシングメカニズムが組み合わせられた後で、小さなファイルの読み込み効率を改善できる。

本発明の実施例を実施すると、以下の有益効果が出る：

図１は本発明の提供するＨａｄｏｏｐに基づく大量の小さなファイルの読み込みメソッドの実施例のプロセス見取り図である。図２は本発明の提供するデータマージメソッドの実施例のプロセス見取り図である。図３は本発明の提供するキャッシュメソッドの実施例のプロセス見取り図である。図４は本発明の提供するキャッシュメソッドのもう一つの実施例のプロセス見取り図である。

図１を参照し、本発明のＨａｄｏｏｐに基づく大量の小さなファイルの読み込みメソッドの実施例のプロセス見取り図であり、そのメソッドはステップ１０１からステップ１０５を含む。該当読み込みメソッドはデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用され、各ステップは以下のように：

ステップ１０１：ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、その中に、小さなファイルの読み込みコマンドがユーザＩＤと小さなファイルの名前を含む。

ステップ１０２：ユーザＩＤと小さなファイルの名前にしたがってＨＢａｓｅキャッシュモジュールを照会し、対応するファイルコンテンツが照会されたかどうかを判断し、イエスであればステップ１０５に進み、そうでなければステップ１０３に進む。

ステップ１０３：小さなファイルの名前にしたがってＨＤＦＳシステムのデータベースを照会し、対応するファイルコンテンツが照会されたかどうかを判断し、イエスであればステップ１０５に進み、そうでなければ１０４に進む。

ステップ１０４：ＨａｄｏｏｐａｒｃｈｉｖｅツールのＡＰＩを呼び出し、小さなファイルの名前が対応するＨＡＲファイルにアクセスし、そのＨＡＲファイルに戻る。

ステップ１０５：照会されたファイルコンテンツに戻る。

図２を参照し、図２は本発明の提供するデータマージメソッドの実施例のプロセス看取り図であり、本発明のデータマージモジュールは図２の示すデータマージメソッドを採用し、ステップＡからステップＦまでを含み、各ステップが以下のように：

ステップＡ：クライアントがストレージされるファイルをアップロードした後で、ＨＤＦＳのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを組み合わせて、ストレージされるファイルの関連ファイルコレクションを見つけ、その中に、ユーザアクセスプリファレンスモデルがユーザアクセスログレコードに基づいている。

本実施例の中で、ユーザアクセスプリファレンスモデルがユーザアクセスログレコードに基づいて統計されたもので、具体的には：ユーザアクセスログレコードからアクティブユーザセットを統計し、ｂｅａｎオブジェクトがアクティブユーザセットによってアクセスされた小さなファイルを表すために使用され、小さなファイルがサイズが２ＭＢまたは２ＭＢ以上のファイルを指し、その中に、ｂｅａｎオブジェクトのプロパティが該小さなファイルをアクセスするユーザＩＤ、ユーザがアクセスした小さなファイルの名前及び該小さなファイルがアクサスされた回数を含み、ＪＤＢＣテクノロジによって、ｂｅａｎオブジェクトを永続にＭｙｓｑｌデータベースにストレージし、ストレージされたデータにしたがって、任意の二つの異なるアクセス動作の類似性を計算し、任意の二つの異なるアクセス動作の類似性が正の場合、任意の二つのアクセス動作のユーザが類似ユーザであり、類似ユーザのＩＤを記録し、関連ファイルコレクションを使って、類似ユーザによってアクサスされ、関連付けられたファイル情報をストレージし、関連ファイルコレクションにしたがって、ユーザアクセスプリファレンスモデルを構築する。

本実施例の中で、ユーザアクセスログレコードよりアクティブユーザセットを統計し、具体的には：アクセスされたソースの接尾辞がｊｐｇであるレコード行をユーザアクセスログレコードからフィルタリングし、その中に、レコード行がユーザＩＤ、アクセスページＵＲＬ、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、レコード解析クラスを作成してレコード行を解析し、二次元配列を使用してビジターＩＰと小さなファイルの名前をストレージし、二次元配列のビジターＩＰをトラバースし、ＨａｓｈＭａｐコレクションを使用して各ビジターＩＰのトラフィックを統計し、ＨａｓｈＭａｐコレクションのＫｅｙ値がビジターＩＰであり、Ｖａｌｕｅ値がトラフィックであり、ＨａｓｈＭａｐコレクションをＶａｌｕｅ値の降順でソートし、ビジターＩＰの上位２０％をフィルタリングし、ＡｒｒａｙＬｉｓｔコレクションを使用して該ＩＰサブセットをストレージし、アクティブユーザセットとしてマークする。

本発明のモデルの構築過程をもっとよく説明するために、下記の例えにより説明し、具体的な実現する過程が以下のように：

（１）正規表現を使用してアクセスされたソースの接尾辞がｊｐｇであるレコード行をフィルタリングする。

（２）ログ解析クラスを作成してレコード行の五つのコンポーネントを別々に解析し、二次元配列を使ってビジターＩＰと小さなファイルの名前をストレージする。

（３）二次元配列のビジターＩＰ要素をトラバースし、各ビジターＩＰのトラフィックをカウンタするカウンタを設計する。ＨａｓｈＭａｐコレクションを使って、ビジターＩＰをＫｅｙ値とし、Ｖａｌｕｅ値が該ビジターのトラフィックである。

（４）ステップ３で生成されたＨａｓｈＭａｐコレクションをＶａｌｕｅ値にしたがって降順でソートし、ビジターＩＰの上位２０％をフィルタリングし、ＡｒｒａｙＬｉｓｔコレクションで該ＩＰサブセットをストレージし、アクティブユーザセットとしてマークする。

（５）一つのｂｅａｎオブジェクトによってアクティブユーザセットにアクセスされた小さなファイルを抽象に表し、オブジェクトのプロパティが該小さなファイルをアクセスしたユーザＩＤ、ユーザにアクセスされた小さなファイルの名前及び該小さなファイルがアクセスされた回数を含む。メソッドはプロパティを取得するｇｅｔ及びｓｅｔメソッドである。

（６）ＪＤＢＣテクノロジｂｅａｎオブジェクトをＭｙｓｑｌデータベースに結合して永続にストレージし、以下の形式のテーブルが形成される：

（７）２０行の二行の間にデータを取り込み、数式

によって二つの異なるユーザアクセス作動の類似性をカウンタする。その中に、本発明はピアソン相関係数を使用して類似のユーザを決定し、スコアリング行列Ｒを指定し、ユーザａとユーザｂの類似性をｓｉｍ（ａ，ｂ）で表し、ｒ_ａ及びｒ_ｂが「ユーザ−トラフィック」ストアリングマトリックスのストアリングデータである。

（８）ここで、ｓｉｍ（ａ，ｂ）の値が正の値であれば、二人の異なるユーザが類似ユーザであると判定され、そのユーザＩＤが記録される。

（９）類似ユーザのユーザＩＤに基づいて、一つのコレクションを使用して、類似ユーザにアクセスされ、関連付けられているすべてのファイル情報をストレージする。

ステップＢ：関連ファイルコレクションのミドルファイルとストレージされるファイルを順にマージするキューに追加する。

ステップＣ：マージするキューのすべてのファイルの総サイズが１２８ＭＢを超えるかどうかを判断し、イエスであれば、ステップＤに進み、そうでなければ、ステップＥに進む。

ステップＤ：マージするキューのすべてのファイルを一つのデータブロックにマージし、マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＢに戻る。

ステップＥ：関連ファイルコレクションのミドルファイルとストレージされるファイルが全部マージするキューに追加されたかどうかを判断し、イエスであれば、マージするキューのすべてのファイルを一つのデータブロックにマージし、マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＦに進み、そうでなければ、ステップＢに進む。

図３を参照し、図３は本発明が提供するキャッシュメソッドの実施例のプロセス見取り図である。本発明のＨＢａｓｅキャッシュモデルが図３のキャッシュメソッドを採用し、該メソッドはステップ３０１からステップ３０３までを含み、各ステップが以下のように：

ステップ３０１：ユーザアクセスログレコードを取得し、ユーザアクセスログレコードからアクティブユーザセットを統計する。

本実施例の中に、ステップ３０１においてユーザアクセスログレコードからアクティブユーザセットを統計し、具体的には：アクセスされたソースの接尾辞がｊｐｇであるレコード行をユーザアクセスログレコードからフィルタリングし、その中に、レコード行がユーザＩＰ、アクセスページＵＲＬ、アクセス開始時刻、アクセス状況及びアクセストラフィックを含み、ログ解析クラスを作成してレコード行を解析し、二次元配列を使用してビジターＩＰと小さなファイルの名前をストレージし、二次元配列のビジターＩＰをトラバースし、ＨａｓｈＭａｐコレクションを使用して各ビジターＩＰのトラフィックを統計し、ＨａｓｈＭａｐコレクションのＫｅｙ値がビジターＩＰであり、Ｖａｌｕｅ値がトラフィックであり、ＨａｓｈＭａｐコレクションをＶａｌｕｅ値によって降順にソートし、ビジターＩＰの上位２０％をフィルタリングし、ＡｒｒａｙＬｉｓｔコレクションを使用して該ＩＰサブセットをストレージしてアクティブユーザセットとしてマークする。

本発明のステップ３０１においてアクティブユーザセットをカウントする目的は、小さなファイルへのユーザのアクセスが均一なランダムではなくパレート分布法則に近いのである。すなわち、ほとんどのＩ／Ｏが少量の人気データへのアクセスをリクエストし、トラフィックの８０％がデータの２０％に集中している。したがって、ファイルシステムにストレージされた大量の小さなファイルからモデルを介してホットスポットファイルを予測してキャッシュすることができれば、ユーザのデータへのアクセスの効率を上げられる。

ステップ３０２：対数線形モデルをあわせて、アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークする。

本実施例において、ステップ３０２は具体的には：ＡｒｒａｙＬｉｓｔコレクションから抽出されたビジターＩＰを、二次元配列から抽出されたビジターＩＰと照合し、一致が出たら、合致するビジターＩＰをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデルを合わせ、アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークする。

対数線形モデルは：

であり、

その中に、

がファイルｉの人気予測値であり、

と

が線形関係の関連パラメータであり、線形回帰法によって最適値をアカウントすることができる。

本発明の対数線形モデルにおいて記載された観測期間の長さｔの定義は：ユーザアクセスログレコードのレコード行のアクセス開始時刻要素とユーザアクセスログレコードを収集した時刻との時間差である。例えば、収集されたユーザアクセスログレコードの時点が３０／Ｊａｎ／２０１８：１７：３８：２０で、ユーザアクセスログレコードのレコード行のアクセス開始時刻が２９／Ｊａｎ／２０１８：１０：３５：１５で、観測期間の長さが２９／Ｊａｎ／２０１８：１０：３５：１５から３０／Ｊａｎ／２０１８：１７：３８：２０までの時間差であり、アカウントしやすいために、期間の長さが時間単位にする。

ステップ３０３：ホットスポットファイルを取得し、Ｈｂａｓｅデータベースを採用してホットスポットファイルの関連情報をキャッシュする。

本実施例においては、Ｈｂａｓｅデータベースを採用してホットスポットファイルの関連情報をキャッシュし、ＨＢａｓｅのテーブル名値がビジターＩＤであり、ＨＢａｓｅのＲｏｗＫｅｙが小さなファイルの名前であり、ＨＢａｓｅのファミリ名が「ファイルコンテンツ」であり、Ｖａｌｕｅ値すなわちセル値が小さなファイルのコンテンツである。ユーザがＨＢａｓｅの小さなファイルにアクセス時に、ユーザＩＤをテーブル名とし、アクセスする小さなファイルの名前をＨＢａｓｅのｇｅｔ（）メソッドのパラメータとすれば、対応する小さなファイルのコンテンツを取得できる。

本発明のキャッシュメソッドをもっと詳しく説明するため、図４を参照し、図４は本発明の提供するキャッシュメソッドのもう一つの実施例のプロセス見取り図である。図４が示すように、該プロセスが：ユーザアクセスレコードセット→正規表現が需要するレコード行をフィルタリングする→レコード行を解析する→ｂｅａｎオブジェクトでレコード行情報をカプセル化する→ＪＤＢＣＡＰＩを調査研究してｂｅａｎオブジェクトをＭｙｓｑｌデータベースに永続化する→二次元配列によってビジターＩＰと小さなファイルの名前情報をストレージする→配列をトラバースし、ビジタートラフィックを統計する→ビジタートラフィックによってサーとし、ＡｒｒａｙＬｉｓｔコレクションを使ってアクティブユーザセットのユーザＩＰをストレージする→二次元配列をアクティブユーザセットのビジターＩＰと照合する→一致が出たら、ビジターＩＰをキーワードとして、ユーザアクセス開始時刻とトラフィックを抽出する→ファイル人気予測数式によってファイル人気値をアカウントする→ファイル人気値をサートし、ホットスポットファイルをマークする→ＨＢａｓｅによってホットスポットファイルの関連情報をキャッシュする。

上記からわかったことは、本発明の実施例の提供するＨａｄｏｏｐに基づく大量の小さなファイルの読み込みメソッドにおいて、該読み込みメソッドがデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用される。該読み込みメソッドは、ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、その中に、小さなファイルの読み込みコマンドがユーザＩＤと小さなファイルの名前を含み、ユーザＩＤと小さなファイルの名前でＨＢａｓｅキャッシュモジュールを照会し、対応するファイルコンテンツが出たら、照会されたファイルコンテンツに戻り、対応するファイルコンテンツが出ないと、ＨＤＦＳシステムのデータベースを照会し、成功したら、照会されたファイルコンテンツに戻り、失敗したら、ＨａｄｏｏｐａｒｃｈｉｖｅツールのＡＰＩを呼び出し、対応するＨＡＲファイルにアクセスしてＨＡＲファイルに戻る。現有技術と比べて、小さなファイルの間のアソシエーションとホットスポットファイルを問わず、本発明の読み込みメソッドは小さなファイルとＨＢａｓｅキャッシングメカニズムがマージされた後で、小さなファイルの読み込み効率を上げられる。

更に、本発明はデータマージメソッドを提供し、小さなファイルの読み込み効率を高め、ＨＤＦＳシステムでのｎａｍｅｎｏｄｅメモリの消費を削減する。

更に、本発明のデータマージメソッドには、複数の関連付けられた小さなファイルが一つの大きなファイルにマージされてシステムにストレージされ、システムのｎａｍｅｎｏｄｅノードが一つの大きなファイルの対応するメタデータをストレージし、ｎａｍｅｎｏｄｅノードの維持する必要のあるメタデータの量が大幅に減少し、メモリ消費量も減少になる。

更に、本発明のデータマージメソッドには、関連ファイルが同じの一つの大きなファイルにストレージされ、ファイルがマージされた後で同じデータノードの同じデータブロックの中にストレージされる。ファイルへのユーザのリクエストに強い関連性があれば、すなわち、ユーザに耐えずにアクセスされた小さなファイルが同じ大きなファイルにマージされば、ファイルアクセスの原則によると、システムはより近いｄａｔａｎｏｄｅノードのデータブロックを読み込み、つまり絶えずに同じｄａｔａｎｏｄｅのデータブロックからデータを読み込み、こうして異なるファイルにアクセス時に異なるデータノードの間にジャンプしなくで済み、ディスクアドレッシングのオーバーヘッドが削減され、占められるシステムリソースが比較的に少なくなり、ファイルの読み込み効率を大きく高める。

更に、本発明が提供するキャッシュメソッドには、現有技術と比べてユーザにアクセスされたホットスポットファイルを考慮せず、本発明はＨＢａｓｅによってホッとスポットファイルをキャッシュし、キャッシュヒット率を高めるだけでなく、ファイルの読み込み効率も上げる。

当業者は、上記の実施形態を実施するプロセスの全部または一部を理解することができ、コンピュータプログラムによって関連するハードウェアを指示することで完了することができ、前記のプログラムがコンピュター可読記憶媒体にストレージされることができ、該プログラムが実行される時に、上記の各メソッドの実施例のプロセスが含まれる。その中に、前記の記憶媒体が磁気ディスク、光ディスク、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ，ＲＯＭ）またはランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＲＡＭ）であってもよい。

以上に述べたのは本発明の優先された実施形態であり、注意すべきのは、本技術分野の一般的な技術員にとって、本発明の原理から離れないことを前提として、若干な改善や飾りができ、これらの改善や飾りも本発明の保護範囲に含まれる。

本発明はコンピュータテクノロジー分野に関し、具体的には、Ｈａｄｏｏｐに基づいて、データマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳから複数の２ＭＢ以下の小さなファイルを読み込む方法に関する。

Ｈａｄｏｏｐは２００５年にＡｐａｃｈｅＦｏｕｎｄａｔｉｏｎによってＬｕｃｅｎｅのサブプロジェクトであるＮｕｔｃｈの一部分として正式に導入されたものである。Ｈａｄｏｏｐの最も重要な二つの設計はＨＤＦＳとＭａｐＲｅｄｕｃｅである。ＨＤＦＳは大量なデータをストレージし、ファイルがデータブロックの形でシステムにストレージされる。また、ＨＤＦＳのデータブロックは通常のディスクに定義されたデータブロック（通常は５１２Ｂ）よりも遥かに大きく、ＨＤＦＳの現在のデフォルトブロックサイズは１２８ＭＢである。もしＨＤＦＳにストレージされたファイルのサイズが１２８に超えると、ＨＤＦＳは該ファイルを複数のブロックサイズのブロックに分割し、別々にストレージする。また、ＨＤＦＳが絶えずに小さなファイルをＴＢひいてはＰＢレベルまでストレージし続けると、小さなファイルの問題が発生し、此れは、大量のメタデータがＨＤＦＳのプライマリノードのｎａｍｅｎｏｄｅにストレージされるため、ｎａｍｅｎｏｄｅの負荷が大幅に増加し、システムの読み取りパフォーマンスに影響するためである。その中に、小さなファイルのサイズが２ＭＢに定義され、つまり、ＨＤＦＳがファイルをストレージする中で、ファイルのサイズが２ＭＢ以下であると、小さなファイルとして定義される。

中国特許出願公開第１０２７９９６３９号明細書

本発明の実施例ではＨａｄｏｏｐに基づいて、データマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳから複数の２ＭＢ以下の小さなファイルを読み込む方法が打ち出され、ファイルマージとＨＢａｓｅキャッシングメカニズムを組み合わせた後で、小さなファイルの読み込み効率を改善することができる。

本発明の実施例はＨａｄｏｏｐに基づいて、データマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳから複数の２ＭＢ以下の小さなファイルを読み込む方法を提供し、前記読み込みメソッドはデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用され、前記読み込みメソッドには：

ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、前記読み込みコマンド中に前記ユーザＩＤと小さなファイルの名前を含み、

対応するファイルコンテンツが出たら、前記ＨＢａｓｅキャッシュモジュールによって照会されたファイルコンテンツを戻し、そうでなければ、前記小さなファイルの名前によって前記ＨＤＦＳシステムのデータベースを照会して対応するファイルコンテンツが照会されたかどうかを判断し、

イエスであれば前記データベースによって照会されたファイルコンテンツを戻し、

そうでなければ、ＨａｄｏｏｐａｒｃｈｉｖｅツールのＡＰＩを呼び出して前記小さなファイルの名前の対応するＨＡＲファイルにアクセスして前記ＨＡＲファイルを戻し、

ステップＡ：クライアントがストレージされるファイルをアップロードした後で、ＨＤＦＳのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを用いて、前記ストレージされるファイルの関連ファイルコレクションを見つけ、ここで、前記ユーザアクセスプリファレンスモデルはユーザアクセスログレコードに基づいている。

ステップＤ：前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＢを戻す。

ｂｅａｎオブジェクトが前記アクティブユーザセットによってアクセスされた小さなファイルを表すために使用され、その中に、前記ｂｅａｎオブジェクトのプロパティが該小さなファイルをアクセスするユーザＩＤ、ユーザがアクセスした小さなファイルの名前及び該小さなファイルがアクサスされた回数を含み、

ＪＤＢＣテクノロジを用いて、前記ｂｅａｎオブジェクトを永続にＭｙｓｑｌ前記データベースにストレージし、ストレージされたデータにしたがって、任意の二つの異なるアクセス動作の類似性を計算し、

一致が出たら、合致するビジターＩＰをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデを用いて、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークし、

前記対数線形モデルは：

であり、

その中に、

がファイルｉの人気予測値であり、

本発明の実施例を実施すると、以下の有益効果が出る：

本発明の実施例が提供するＨａｄｏｏｐに基づいて、データマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳから複数の２ＭＢ以下の小さなファイルを読み込む方法については、該読み込みメソッドはデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用され、該読み込みメソッドは：ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、その中に、小さなファイルの読み込みコマンドがユーザＩＤと小さなファイルの名前を含み、ユーザＩＤと小さなファイルの名前にしたがってＨＢａｓｅキャッシュモジュールを照会し、対応するファイルコンテンツが出たら、照会されたファイルコンテンツを戻し、そうでなければ、ＨＤＦＳシステムのデータベースを照会し、成功したら、照会されたファイルコンテンツを戻し、そうでなければ、ＨａｄｏｏｐａｒｃｈｉｖｅツールのＡＰＩを呼び出して対応するＨＡＲファイルにアクセスしてＨＡＲファイルを戻す。小さなファイル間の関連性とホットスポットファイルを考慮しない現有技術と比べ、本発明の読み込みメソッドは小さなファイルのマージとＨＢａｓｅキャッシングメカニズムが組み合わせられた後で、小さなファイルの読み込み効率を改善できる。

本発明の実施例を実施すると、以下の有益効果が出る：

図１を参照し、本発明のＨａｄｏｏｐに基づいて、データマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳから複数の２ＭＢ以下の小さなファイルを読み込む方法の実施例のプロセス見取り図であり、そのメソッドはステップ１０１からステップ１０５を含む。該当読み込みメソッドはデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用され、各ステップは以下のように：

ステップ１０４：ＨａｄｏｏｐａｒｃｈｉｖｅツールのＡＰＩを呼び出し、小さなファイルの名前が対応するＨＡＲファイルにアクセスし、そのＨＡＲファイルを戻す。

ステップ１０５：照会されたファイルコンテンツを戻す。

ステップＡ：クライアントがストレージされるファイルをアップロードした後で、ＨＤＦＳのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを用いて、ストレージされるファイルの関連ファイルコレクションを見つけ、ここで、ユーザアクセスプリファレンスモデルはユーザアクセスログレコードに基づいている。

本実施例の中で、ユーザアクセスプリファレンスモデルはユーザアクセスログレコードに基づいて統計されたもので、具体的には：ユーザアクセスログレコードからアクティブユーザセットを統計し、ｂｅａｎオブジェクトがアクティブユーザセットによってアクセスされた小さなファイルを表すために使用され、その中に、ｂｅａｎオブジェクトのプロパティが該小さなファイルをアクセスするユーザＩＤ、ユーザがアクセスした小さなファイルの名前及び該小さなファイルがアクサスされた回数を含み、ＪＤＢＣテクノロジによって、ｂｅａｎオブジェクトを永続にＭｙｓｑｌデータベースにストレージし、ストレージされたデータにしたがって、任意の二つの異なるアクセス動作の類似性を計算し、任意の二つの異なるアクセス動作の類似性が正の場合、任意の二つのアクセス動作のユーザが類似ユーザであり、類似ユーザのＩＤを記録し、関連ファイルコレクションを使って、類似ユーザによってアクサスされ、関連付けられたファイル情報をストレージし、関連ファイルコレクションにしたがって、ユーザアクセスプリファレンスモデルを構築する。

（７）２０行の二行の間にデータを取り込み、数式

によって二つの異なるユーザアクセス作動の類似性をカウンタする。その中に、本発明はピアソン相関係数を使用して類似のユーザを決定し、スコアリング行列Ｒを指定し、ユーザａとユーザｂの類似性をｓｉｍ（ａ，ｂ）で表し、ｒａ及びｒｂが「ユーザ−トラフィック」ストアリングマトリックスのストアリングデータである。

ステップＤ：マージするキューのすべてのファイルを一つのデータブロックにマージし、マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＢを戻す。

本実施例において、ステップ３０２は具体的には：ＡｒｒａｙＬｉｓｔコレクションから抽出されたビジターＩＰを、二次元配列から抽出されたビジターＩＰと照合し、一致が出たら、合致するビジターＩＰをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデを用いて、アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークする。

対数線形モデルは：

であり、

その中に、

がファイルｉの人気予測値であり、

と

上記からわかったことは、本発明の実施例の提供するＨａｄｏｏｐに基づいて、データマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳから複数の２ＭＢ以下の小さなファイルを読み込む方法において、該読み込みメソッドがデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用される。該読み込みメソッドは、ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、その中に、小さなファイルの読み込みコマンドがユーザＩＤと小さなファイルの名前を含み、ユーザＩＤと小さなファイルの名前でＨＢａｓｅキャッシュモジュールを照会し、対応するファイルコンテンツが出たら、照会されたファイルコンテンツを戻し、対応するファイルコンテンツが出ないと、ＨＤＦＳシステムのデータベースを照会し、成功したら、照会されたファイルコンテンツを戻し、失敗したら、ＨａｄｏｏｐａｒｃｈｉｖｅツールのＡＰＩを呼び出し、対応するＨＡＲファイルにアクセスしてＨＡＲファイルを戻す。現有技術と比べて、小さなファイルの間のアソシエーションとホットスポットファイルを問わず、本発明の読み込みメソッドは小さなファイルとＨＢａｓｅキャッシングメカニズムがマージされた後で、小さなファイルの読み込み効率を上げられる。

Claims

Ｈａｄｏｏｐに基づく大量の小さなファイルの読み込みメソッド、その特徴は：前記読み込みメソッドはデータマージモジュールとＨＢａｓｅキャッシュモジュールを備えるＨＤＦＳシステムに適用され、前記読み込みメソッドは：ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、其中、その中に、前記小さなファイルの読み込みコマンドが前記ユーザＩＤと小さなファイルの名前を含み、前記前記ユーザＩＤと前記小さなファイルの名前にしたがって前記ＨＢａｓｅキャッシュモジュールを照会し、対応するファイルコンテンツが出たら、前記ＨＢａｓｅキャッシュモジュールによって照会されたファイルコンテンツに戻り、そうでなければ、前記小さなファイルの名前によって前記ＨＤＦＳシステムのデータベースを照会して対応するファイルコンテンツが照会されたかどうかを判断し、イエスであれば前記データベースによって照会されたファイルコンテンツに戻り、そうでなければ、ＨａｄｏｏｐａｒｃｈｉｖｅツールのＡＰＩを呼び出して前記小さなファイルの名前の対応するＨＡＲファイルにアクセスして前記ＨＡＲファイルに戻り、前記データマージモジュールの採用するデータマージメソッドが以下を含む：ステップＡ：クライアントがストレージされるファイルをアップロードした後で、ＨＤＦＳのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを組み合わせて、前記ストレージされるファイルの関連ファイルコレクションを見つけ、その中に、前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードに基づいている，ステップＢ：前記関連ファイルコレクションのミドルファイルと前記ストレージされるファイルを順にマージするキューに追加する，ステップＣ：前記マージするキューのすべてのファイルの総サイズが１２８ＭＢを超えるかどうかを判断し、イエスであれば、ステップＤに進み、そうでなければ、ステップＥに進む，ステップＤ：前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＢに戻る，ステップＥ：前記関連ファイルコレクションのミドルファイルと前記ストレージされるファイルが全部前記マージするキューに追加されたかどうかを判断し、イエスであれば、前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップＦに進み、そうでなければ、ステップＢに進む，ステップＦ：すべてのマージしたデータブロックをＨＤＦＳシステムにストレージする，前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードから統計されたものであり、具体的には：ユーザアクセスログレコードからアクティブユーザセットを統計し、ｂｅａｎオブジェクトが前記アクティブユーザセットによってアクセスされた小さなファイルを表すために使用され、前記小さなファイルがサイズが２ＭＢまたは２ＭＢ以上のファイルを指し、その中に、前記ｂｅａｎオブジェクトのプロパティが該小さなファイルをアクセスするユーザＩＤ、ユーザがアクセスした小さなファイルの名前及び該小さなファイルがアクサスされた回数を含み、ＪＤＢＣテクノロジを合わせて、前記ｂｅａｎオブジェクトを永続にＭｙｓｑｌ前記データベースにストレージし、ストレージされたデータにしたがって、任意の二つの異なるアクセス動作の類似性を計算し、前記任意の二つの異なるアクセス動作の類似性が正の場合、前記任意の二つのアクセス動作のユーザが類似ユーザであり、類似ユーザのＩＤを記録し、関連ファイルコレクションを使って、類似ユーザによってアクサスされ、関連付けられたファイル情報をストレージし、前記関連ファイルコレクションにしたがって、前記ユーザアクセスプリファレンスモデルを構築し、前記ＨＢａｓｅキャッシュモジュールの採用するキャッスメソッドにおいて、ユーザアクセスログレコードを取得し、前記ユーザアクセスログレコードより前記アクティブユーザセットを統計し、対数線形モデルをあわせて、前記アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークし、前記ホットスポットファイルを取得し、Ｈｂａｓｅデータベースを採用して前記ホットスポットファイルの関連情報をキャッシュし、前記前記ユーザアクセスログレコードからアクティブユーザセットを統計するについて、具体的には、アクセスされたソースの接尾辞がｊｐｇであるレコード行を前記ユーザアクセスログレコードからフィルタリングし、前記レコード行がユーザＩＤ、アクセスページＵＲＬ、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、レコード解析クラスを作成して前記レコード行を解析し、二次元配列を使用してビジターＩＰと小さなファイルの名前をストレージし、ビジターＩＰを前記二次元配列でトラバースし、ＨａｓｈＭａｐコレクションを使用して各ビジターＩＰのトラフィックを統計し、前記ＨａｓｈＭａｐコレクションのＫｅｙ値がビジターＩＰであり、Ｖａｌｕｅ値がトラフィックであり、前記ＨａｓｈＭａｐコレクションをＶａｌｕｅ値の降順でソートし、ビジターＩＰの上位２０％をフィルタリングし、ＡｒｒａｙＬｉｓｔコレクションを使用して該ＩＰサブセットをストレージし、アクティブユーザセットとしてマークし、前記対数線形モデルをあわせて、前記アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークし、具体的には、ＡｒｒａｙＬｉｓｔコレクションから抽出されたビジターＩＰを、前記二次元配列から抽出されたビジターＩＰと照合し、一致が出たら、合致するビジターＩＰをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデルを合わせ、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位２０％をホットスポットファイルとしてマークし、前記対数線形モデルは：

であり、その中に、

がファイルｉの人気予測値であり、

がファイルｉが観測期間中のトラフィックであり、観測期間の長さがｔである。