JP2022530175A

JP2022530175A - エッジネットワーク環境におけるランダムフォレストアルゴリズムに基づくｖｏｄサービスキャッシュ置き換え方法

Info

Publication number: JP2022530175A
Application number: JP2021520158A
Authority: JP
Inventors: 暉張; 葉鈞孫; 海涛趙; 雁飛孫; 芸洋倪; 洪波朱
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-04-20
Filing date: 2020-04-24
Publication date: 2022-06-28
Anticipated expiration: 2040-04-24
Also published as: WO2021212444A1; CN111629216B; CN111629216A; JP7098204B2

Abstract

本発明に係るエッジネットワーク環境におけるランダムフォレストアルゴリズムに基づくＶＯＤサービスキャッシュ置き換え方法は、ビデオデータを収集するステップと、ランダムフォレストによりビデオデータにおける欠損値を補完処理し、予測モデルを作成するステップと、予測モデルにより平均アクセス時間の長さを予測するステップと、予測結果に基づいてキャッシュ置き換えモデルを作成するステップと、陰伏的列挙法によりキャッシュ置き換えモデルを解き、最終置き換え方法を得るステップと、を含む。本発明は、エッジサーバが大量の動画情報を処理する必要があり、およびビッグデータの処理における機械学習の優れた分析能力を鑑みて、まずは機械学習におけるランダムフォレストアルゴリズムにより動画の週間平均アクセス時間の長さについて予測を行い、そのうえ新しい動画キャッシュ置き換えモデルを提供し、陰伏的列挙法によりモデルを解くことにより、エッジサーバが最大限にコアネットワークの負荷を軽減できるようにしている。また、本発明に係る方法は非常に簡単でかつ実現しやすいため、良好な応用が見込められる。【選択図】図１

Description

本発明は、エッジネットワーク技術分野に関し、具体的には、エッジネットワーク環境におけるランダムフォレストアルゴリズムに基づくＶＯＤサービスキャッシュ置き換え方法に関する。

科学技術の発展に伴い、各種規格のポートや装置および様々なサービスや応用がインターネットに接続された結果、ネットワークにおけるサービスリクエストの爆発的成長につながり、さらにはネットワークにおけるトラフィックも急激に成長されてしまい、その中でも主には動画トラフィックが急増している。コアネットワークは、配信サービスやサービスの提供において重要な役割を果たしている。コアネットワークの主な機能の一つは、異なる規格の装置やポートからのネットワーク接続リクエストを、サービス要件に応じて異なるサービスネットワークに接続させ、各サービスリクエストが得られるべきサービスを受けられるようにする。コアネットワークの他の一つの主な機能は、サービス提供側として、各ポートからのサービスリクエストを処理することである。コアネットワーク自体が複数の異なるサービスネットワークを含むため、サービスリクエストを受け付けると、コアネットワークはそれに応じたサービスを提供する必要があるため、サービスリクエストの急増に伴い、コアネットワークの提供するサービスも急激に増えている。このため、サービスリクエストの処理においてもサービスの提供においても、コアネットワークには巨大な負荷が掛けられている。

エッジネットワークは最もユーザに身近なネットワークとして、エッジネットワークは、コアネットワークのためにサービスリクエストの処理負荷を分担する一方、他方ではサービスの提供も割り当てられ、リクエストされたサービスがエッジネットワークにおいても処理可能であれば、エッジネットワークで処理するようにしている。しかしながら、エッジネットワークの演算能力は限界があるため、最大限にコアネットワークのために分散することに当たっては、如何にサービスの効率を向上させることがポイントであり、しかもエッジキャッシュがサービス効率向上のポイントとなっている。エッジキャッシュとは、使用頻度の高いサービスのリソースをエッジサーバにキャッシュさせ、それと関連するサービスリクエストを受け付けると、直接キャッシュからリソースを取得すればよく、エッジサーバにおいて処理できないサービスリクエストであれば再度コアネットワークからリソースを取得するものである。

また、ビッグデータ時代に伴い、機械学習により知識を効率的に獲得することは、既に各技術分野における発展の主な推進力の一つとなっており、エッジネットワーク技術分野においても例外はない。ビッグデータ時代において、データの爆発的成長に伴い、各種分析すべき新しいデータタイプが続々と現れ、たとえば、語義の理解、画像分析、ネットワークデータ分析などのように、機械学習はビッグデータ環境において極めて重要な役割を果たしている。

既存のキャッシュ置き換え方法の多くは、依然として動画人気度を主な基準の一つとし、動画の類似度のような一部の補助基準を加えることで、類似かつ人気度の低い動画が重複キャッシュされることを低減している。動画人気度は動画の単位時間内のアクセス量を反映しており、動画サービスについていえば、エッジサーバにキャッシュされる動画のトータルアクセス量が高いことではコアネットワークに対する負荷の分担が大きいとは言えない。他方で、動画アクセス時間の長さは動画の利用時間を表しているため、エッジサーバの分担される負荷をもっと適切に反映できる。このうえ、動画容量などのような要因を補助基準として加えれば、キャッシュ置き換えの効果はさらに理想的である。

本発明は、上記従来技術における問題点に鑑みてなされたものであり、エッジネットワーク環境におけるランダムフォレストアルゴリズムに基づくＶＯＤサービスキャッシュ置き換え方法を提供することを目的とする。

上記目的を達成するための本発明に係るエッジネットワーク環境におけるランダムフォレストアルゴリズムに基づくＶＯＤサービスキャッシュ置き換え方法は、
ビデオデータを収集するステップＳ１と、
ランダムフォレストによりビデオデータにおける欠損値を補完処理し、予測モデルを作成するステップＳ２と、
予測モデルにより平均アクセス時間の長さを予測するステップＳ３と、
予測結果に基づいてキャッシュ置き換えモデルを作成するステップＳ４と、
陰伏的列挙法によりキャッシュ置き換えモデルを解き、最終置き換え方法を得るステップＳ５と、
を含む。

さらに、前記ステップＳ２において、予測モデルを作成することは、
平均アクセス時間の長さを従属変数とし、その他の特徴を独立変数として回帰トレーニングを行い、かつ、データセットの分割を行い、各特徴の重要度のランキングを出力し、ランキングに基づいて特徴を選別して最終モデリング特徴値を得て、モデリング特徴値に基づいて予測モデルを作成することを含む。

さらに、前記ステップＳ４において、キャッシュ置き換えモデルを作成することは、
エッジサーバキャッシュのサイズをＳとし、テストセットにおけるエッジサーバキャッシュに保存できない動画がクラウドに保存され、テストセットにおける全ての動画の予測アクセス時間の長さの集合をＴ＝｛ｔ_１，ｔ_２，…，ｔ_Ｋ｝とし、動画容量の集合をＶ＝｛ｖ_１，ｖ_２，…，ｖ_Ｋ｝とし、ここでＫはテストセットにおける動画のトータル数であり、キャッシュ置き換え前のエッジサーバキャッシュに保存されている動画の数をＲとし、クラウドにおける動画がＱ部あるとし、そうするとＫ＝Ｒ＋Ｑであり、以下の「数１」に示されるようなキャッシュ置き換えモデル作成することを含み、

ここで、式｛ａ_１ ^＊，ａ_２ ^＊，…，ａ_Ｒ ^＊，ｂ_１ ^＊，ｂ_２ ^＊，…，ｂ_Ｑ ^＊｝は動画の最適キャッシュ置き換え方法で、ａ_ｉはエッジサーバにおける第ｉ部の動画を表し、ａ_ｉ＝０は動画ｉが置き換えられる必要があることを表し、ａ_ｉ＝１は動画ｉが置き換えられる必要がないことを表し、ｂ_ｊはクラウドにおける第ｊ部の動画を表し、ｂ_ｊ＝０は動画ｊが継続してクラウドに保存される必要がなく、エッジサーバに置き換える必要があることを表し、ｂ_ｊ＝１は動画ｊが依然としてクラウドに保存される必要があり、エッジサーバに置き換える必要はないことを表し、また、項（ａ_i×ｔ_i）／ｖ_iはアクセス時間の長さにより基準を置き換える際のエッジサーバの置き換えコストパフォーマンスを表し、二つの可能性があるが、ａ_ｉ＝０の場合、上の項は０であるため、実質的な意義がなく、ａ_ｉ＝１の場合、動画ｉのアクセス時間の長さと動画ｉの容量の比を表し、このため、項（ａ_i×ｔ_i）／ｖ_iを動画ｉのキャッシュ置き換えのコストパフォーマンスを表すものと定義し、同様に、項（（１－ｂ_ｊ）×ｔ_ｊ）／ｖ_ｊは動画ｊのクラウドキャッシュ置き換えのコストパフォーマンスを表し、ｂ_ｊ＝１の際、該項は０で、実質的な意義がない。

さらに、前記ステップＳ５において、キャッシュ置き換えモデルを解くことは、
トータルアクセス時間の長さのコストパフォーマンスを、

とし、エッジサーバキャッシュの容量をＳとし、毎回演算して得られた新しいトータルアクセス時間の長さをＴＣ’とし、列挙数を減らすために初期条件を

とし、ここで、｛ａ_１，ａ_２，…，ａ_K｝の部分はキャッシュ置き換え前の動画キャッシュ集合であり、｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝の部分はクラウドにおける動画初期キャッシュ集合であり、初期条件を式（２）に代入すれば、初期トータルアクセス時間の長さのコストパフォーマンスＴＣ_０が求められ、新たな制約条件として

を追加し、制約条件である式（３）、キャッシュ置き換えモデルにおける二つの制約式について反復演算することにより最適な｛ａ_１ ^＊，ａ_２ ^＊，…，ａ_Ｒ ^＊，ｂ_１ ^＊，ｂ_２ ^＊，…，ｂ_Ｑ ^＊｝置き換え方法を得ることを含む。

さらに、前記反復演算は、新たに追加した制約条件である式（３）を「制約式Ａ」とし、キャッシュ置き換えモデルにおける二つの制約条件である式をそれぞれ［制約式Ｂ］および［制約式Ｃ］とし、
（１）後ろから前に向かって集合｛ａ_１，ａ_２，…，ａ_K｝における一部のキャッシュされた動画を置き換え、すなわち、該動画のａ_ｉ＝１をａ_ｉ＝０にすることと、
（２）後ろから前に向かって集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝を走査し、新たなトータルアクセス時間の長さＴＣを演算することと、
（３）ＴＣとＴＣ_０を比較し、ＴＣ≧ＴＣ_０であれば、ＴＣ_０を新たな値ＴＣとし、すなわち、ＴＣ_０＝ＴＣにして、次のステップ（４）に処理を進み、そうでなければステップ（１）に処理を戻し、次回の反復演算を行い、ＴＣ_０は変わらないことと、
（４）制約条件である「制約式Ｂ」を演算し、条件を満たすなら、ステップ（５）に処理を進み、そうでなければ、ステップ（１）に処理を戻し、次回の反復演算を行い、ＴＣ_０は変わらないことと、
（５）制約条件である「制約式Ｃ」を演算し、条件を満たすなら、今回の反復はすべての制約条件をみたすため、ＴＣ_０は新しい値で、ここで剪定を行い、すなわち、集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝に対する走査をやめ、ステップ（１）から次回の反復演算を始めることと、
を含む。

本発明は、エッジサーバが大量の動画情報を処理する必要があり、およびビッグデータの処理における機械学習の優れた分析能力を鑑みて、機械学習におけるランダムフォレストアルゴリズムにより動画の週間平均アクセス時間の長さについて予測を行い、そのうえ新しい動画キャッシュ置き換え方法を提供した。該方法では、ランダムフォレストアルゴリズムによりモデルを作成するため、予測精度が高い。また、該方法は非常に簡単でかつ実現しやすいため、良好な応用が見込められる。

本発明は、従来技術に対して、次の有益な効果を奏する。本発明では、エッジサーバが大量の動画情報を処理する必要があり、およびビッグデータの処理における機械学習の優れた分析能力を鑑みて、まずは機械学習におけるランダムフォレストアルゴリズムにより動画の週間平均アクセス時間の長さについて予測を行い、そのうえ新しい動画キャッシュ置き換えモデルを提供し、陰伏的列挙法によりモデルを解くことにより、エッジサーバの容量が一定である場合でも、エッジサーバにキャッシュされる動画の週間平均アクセス時間の長さが最も長く、アクセス時間の長さはエッジサーバによるコアネットワークに対して分担する負荷の大きさを表すため、本発明に係る置き換えモデルによれば、エッジサーバが容量一定の条件のもとでも最大限にコアネットワークの負荷を軽減できるようにしている。また、本発明に係る方法は非常に簡単でかつ実現しやすいため、良好な応用が見込められる。

本発明に係る方法のフロチャートである。キャッシュ置き換えを説明するための図である。動画の週間平均アクセス時間の長さと実際の週間平均アクセス時間の長さとを比較した図である。動画の週間平均アクセス時間の長さのコストパフォーマンスと実際の週間平均アクセス時間の長さのコストパフォーマンスとを比較した図である。動画の週間平均アクセス時間の長さ予測精度および週間平均アクセス時間の長さのコストパフォーマンス予測精度の時間に応じた変化を示す図である。キャッシュ置き換え率および週間アクセス時間の長さの増加率の時間に応じた変化を示す図である。

以下、図面を参照しながら具体的な実施例により、本発明について詳細に説明する。
図１に示すように、本発明に係るエッジネットワーク環境におけるランダムフォレストアルゴリズムに基づくＶＯＤ（ＶｉｄｅｏＯｎＤｅｍａｎｄ）サービスキャッシュ置き換え方法は、ランダムフォレストにより動画アクセス時間の長さについてモデリングおよび予測を行うことと、予測結果に基づいてキャッシュ置き換えモデルを作成することと、陰伏的列挙法（Ｉｍｐｌｉｃｉｔｅｎｕｍｅｒａｔｉｏｎｍｅｔｈｏｄ）によりキャッシュ置き換えモデルを解くこと、とを含む。具体的な処理の流れは、以下のとおりである。

＜一、ランダムフォレストによる動画アクセス時間のモデリングおよび予測＞
（１）サンプル動画データの収集およびデータの前処理
動画放送プラットフォームの映画ライブラリからランダムに１０万部の動画情報を収集してサンプルデータセット（集合）とし、サンプルデータセットにおける動画データについて前処理を行う。具体的には、週を単位として、動画情報の一週間内のデータについて平均を求める。動画情報は、配信時間、映画ランキング、注目度、「いいね」の数、コメントの数、評点および動画アクセス時間の長さなどを含む。データは小数点以下第一位まで残し、映画ランキングや配信日数などのような小数で表せないデータについては、求めた平均値を整数値に四捨五入する。また、配信時間が一週間未満の動画については、残りの日数に対応するデータを０で補完する。アクセス時間の長さとは、連続でアクセスした時間の長さであり、アクセス日誌において二回アクセスの間の時間間隔が６０秒より小さい場合を指す。ユーザが誤ってクリックしたりコマーシャルをスキップしたりした場合は、放送停止ではないため、これによる間隔（途切れ）は時間間隔としてカウントしない。

（２）ランダムフォレストアルゴリズムによるモデリングおよび予測
続いて、ランダムフォレストアルゴリズムにより欠損値を補完処理し、仮にある特徴に欠損がある場合、該特徴をラベルとし、残りのその他の特徴で新しい特徴マトリクスを構築する。もしその他の特徴においても欠損がある場合、すべての特徴を走査し、欠損値が最も少ない特徴から始めるが、これは欠損値が少なければ少ないほど必要とされる正確な情報も少ないからである。ある一つの特徴について補完処理を行う場合、まずはその他の特徴の欠損値を０で代替し、一回反復処理を行うたびに欠損値のある特徴を一つ減らせる。

データセットにおける６０％のデータをトレーニングセットにし、４０％のデータをテストセットにし、配信時間、映画ランキング、注目度、「いいね」の数、コメントの数および評点を独立変数（引数）にして、週間平均アクセス時間の長さを予測ターゲットにしてモデリングを行い、予測モデルを作成して、予測値を得る。特徴重要度を出力し、重要度が比較的に低い特徴を削除することでモデルの複雑度を低減し、かつ、パラメータを調整することによりモデルの予測精度が理想的な値となるようにして、最終モデルを得る。このように作成したモデルにより来週の動画週間平均アクセス時間の長さを予測する。

＜二、キャッシュ置き換えモデルの作成＞
あるエッジサーバキャッシュの容量（サイズ）をＳとし、テストセットにおけるエッジサーバキャッシュに保存できない動画がクラウドに保存され、テストセットにおける全ての動画の予測アクセス時間の長さの集合をＴ＝｛ｔ_１，ｔ_２，…，ｔ_Ｋ｝とし、動画容量の集合をＶ＝｛ｖ_１，ｖ_２，…，ｖ_Ｋ｝とし、ここでＫはテストセットにおける動画のトータル数であり、キャッシュ置き換え前のエッジサーバキャッシュに保存されている動画の数をＲとし、クラウドにおける動画がＱ部あるとし、そうするとＫ＝Ｒ＋Ｑであり、キャッシュ置き換えのイメージは図２に示されるとおりであり、図におけるキャッシュ置き換えの順序は実際の置き換えの順序を表したものではなく、以下の「数５」に示されるようなキャッシュ置き換えモデル作成する。

ここで、式｛ａ_１ ^＊，ａ_２ ^＊，…，ａ_Ｒ ^＊，ｂ_１ ^＊，ｂ_２ ^＊，…，ｂ_Ｑ ^＊｝は動画の最適キャッシュ置き換え方法で、ａ_ｉはエッジサーバにおける第ｉ部の動画を表し、ａ_ｉ＝０は動画ｉが置き換えられる必要があることを表し、ａ_ｉ＝１は動画ｉが置き換えられる必要がないことを表し、ｂ_ｊはクラウドにおける第ｊ部の動画を表し、ｂ_ｊ＝０は動画ｊが継続してクラウドに保存される必要がなく、エッジサーバに置き換える必要があることを表し、ｂ_ｊ＝１は動画ｊが依然としてクラウドに保存される必要があり、エッジサーバに置き換える必要はないことを表す。また、項（ａ_i×ｔ_i）／ｖ_iはアクセス時間の長さにより基準を置き換える際のエッジサーバの置き換えコストパフォーマンスを表し、二つの可能性がある。ａ_ｉ＝０の場合、上の項は０であるため、実質的な意義がない。ａ_ｉ＝１の場合、動画ｉのアクセス時間の長さと動画ｉの容量の比を表し、該比の値によりアクセス時間の長さと動画容量とのバランスをとる。

たとえば、動画ｉを予測して得られたアクセス時間の長さが長く、同時に該動画の容量が非常に大きいと、膨大なエッジサーバキャッシュメモリを占めるため、このような動画の数が多ければ、必然的にエッジサーバにおいてキャッシュできる動画が大幅に低減されるため、キャッシュ置き換えの効果が保証できなくなる。このため、項（ａ_i×ｔ_i）／ｖ_iを定義して動画ｉのキャッシュ置き換えのコストパフォーマンスを表すものとし、動画キャッシュ置き換えのコストパフォーマンスの最大化を最適化の目的とする。同様に、項（（１－ｂ_ｊ）×ｔ_ｊ）／ｖ_ｊは動画ｊのクラウドキャッシュ置き換えコストパフォーマンスを表し、ｂ_ｊ＝１の際、該項は０で、実質的な意義がなく、ｂ_ｊ＝０の際、その物理的意義は上述のとおりである。第一の制約条件は、クラウドキャッシュからエッジサーバに置き換える動画のトータル容量はエッジサーバにおいてキャッシュ置き換えされる動画のトータル容量以下であることを表し、そうでなければエッジサーバキャッシュでは置き換えられる動画を保存できない。第二の制約条件は、エッジサーバおける置き換えされなかった動画とクラウドからエッジサーバに置き換えた動画の容量の和はエッジサーバキャッシュ容量以下であることを表す。

＜三、陰伏的列挙法によるキャッシュ置き換えモデルの作成＞
上述のモデルは、本質的には０～１の整数計画問題であり、陰伏的列挙法によりこの問題を解き、検査変数は０または１の組み合わせの一部であり、目標関数値を比較して、最適解を求める。

まず、実行可能解を見つけ出し、フィルタ条件を生成する。フィルタ条件は、すなわち目標関数値が計算済みの実行可能解目標関数値より最適であるという制約条件である。トータルアクセス時間の長さのコストパフォーマンスを、

とし、ここで、｛ａ_１，ａ_２，…，ａ_K｝の部分集合はキャッシュ置き換え前の動画キャッシュ集合であり、｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝の部分はクラウドにおける動画初期キャッシュ集合であり、初期条件を上記式（２）に代入すれば、初期トータルアクセス時間の長さのコストパフォーマンスＴＣ_０が求められ、新たな制約条件として

を追加し、ここで、ＴＣは毎回反復計算後に得られるトータルアクセス時間の長さのコストパフォーマンスであり、反復計算において有効に剪定し、置き換え率を最大にするため、最適化目標を係数にしたがって順序よく配列し、集合｛ａ_１，ａ_２，…，ａ_K｝における変数をコストパフォーマンス係数にしたがって大きいほうから小さいほうまで配列し、集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝における変数をコストパフォーマンス係数にしたがって小さいほうから大きいほうまで配列する。走査する際、二つの部分集合ともに右から左へ走査するが、このような順序でソートする目的は、コストパフォーマンスが比較的に小さい動画を優先的に置き換え、置き換えする際、クラウドからはコストパフォーマンスが比較的に大きい動画から置き換えし始め、剪定の効果を達成するためである。

新たに追加した制約条件の式（３）を［制約式Ａ］とし、キャッシュ置き換えモデル（１）における制約式を順番に［制約式Ｂ］および［制約式Ｃ］とすれば、演算過程は以下に示すステップを含む。
（１）後ろから前に向かって集合｛ａ_１，ａ_２，…，ａ_K｝における一部のキャッシュされた動画を置き換える。すなわち、該動画のａ_ｉ＝１をａ_ｉ＝０にする。
（２）後ろから前に向かって集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝を走査し、新たなトータルアクセス時間の長さＴＣを演算する。
（３）ＴＣとＴＣ_０を比較し、ＴＣ≧ＴＣ_０であれば、ＴＣ_０を新たな値ＴＣとし、すなわち、ＴＣ_０＝ＴＣにして、次のステップ（４）に処理を進み、そうでなければステップ（１）に処理を戻し、次回の反復演算を行い、ＴＣ_０は変わらない。
（４）制約条件である「制約式Ｂ」を演算し、条件を満たすなら、ステップ（５）に処理を進み、そうでなければ、ステップ（１）に処理を戻し、次回の反復演算を行い、ＴＣ_０は変わらない。
（５）制約条件である「制約式Ｃ」を演算し、条件を満たすなら、今回の反復はすべての制約条件をみたすため、ＴＣ_０は新しい値で、ここで剪定を行い、すなわち集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝に対する走査をやめ、ステップ（１）から次回の反復演算を始める。

上述の反復演算過程において、集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝において同時に１から０に変わる動画により集合｛ａ_１，ａ_２，…，ａ_K｝における１から０に変わる動画を置き換える。実際の動画置き換えでは、一つの動画の容量が大きいから、同時に二つまたは三つおよびそれ以上の動画に置き換えられる場合は非常に少ないため、複数の動画により一つの動画を置き換えることは考えなくてもよい。すなわち、集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝を走査する際、集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝において二つまたはそれ以上同時に変化することは考えなくてもよく、これで反復の回数および演算量が大幅に低減され、最終的には最適な｛ａ_１ ^＊，ａ_２ ^＊，…，ａ_Ｒ ^＊，ｂ_１ ^＊，ｂ_２ ^＊，…，ｂ_Ｑ ^＊｝置き換え方法が得られる。

本実施形態では、既存データのシミュレーション結果により本発明に係るキャッシュ置き換えの効果を説明する。まず、ランダムフォレストアルゴリズムの効果について説明する。テスト動画セットをｃ＝｛ｃ_１，ｃ_２，…，ｃ_Ｋ｝とし、その予測週間平均アクセス時間の長さの集合をｔ＝｛ｔ_１，ｔ_２，…，ｔ_Ｋ｝とし、実際の動画の週間平均アクセス時間の長さの集合をｔ’＝｛ｔ_１’，ｔ_２’，…，ｔ_Ｋ’｝とすれば、週間平均アクセス時間の長さの予測精度（予測正確率）は、

である。上式において、第二項は予測で得られたアクセス時間の長さの誤差が実際のトータルアクセス時間の長さで占める比を表し、該比の値が小さければ小さいほど予測効果がよいことが示す。週間平均アクセス時間の長さと実際の週間平均アクセス時間の長さとの比較図は図３に示されるとおりで、演算によればＰ_ａｔ＝９５．１％である。

予測週間平均アクセス時間の長さのコストパフォーマンスの集合をｔｐ＝｛ｔｐ_１，ｔｐ_２，…，ｔｐ_Ｋ｝とし、実際の週間平均アクセス時間の長さのコストパフォーマンスの集合をｔｐ’＝｛ｔｐ_１’，ｔｐ_２’，…，ｔｐ_Ｋ’｝とすれば、週間平均アクセス時間の長さのコストパフォーマンスの予測精度を

と定義できる。週間平均アクセス時間の長さのコストパフォーマンスと実際の週間平均アクセス時間の長さのコストパフォーマンスとの比較図は図４に示されるとおりで、演算によればＰ_ｔｐ＝９４．７％である。

以上の結果によれば、本発明に係るランダムフォレストによる予測結果の精度は非常に高いことがわかる。続いて、キャッシュ置き換えモデルの置き換え効果についてシミュレーションにて検証する。キャッシュ置き換え前にキャッシュされた動画集合をｃとし、ここでｕはエッジサーバにおけるキャッシュされた動画の数であり、キャッシュ置き換え後の動画集合をｃ’とし、動画のキャッシュ置き換え率は

と定義できる。演算によれば、Ｐ_ｒｅ＝１１．６％である。

キャッシュ置き換え前のエッジサーバにおいてキャッシュされた動画の週間平均アクセス時間の長さをｔ_ｃ＝｛ｔ_１，ｔ_２，…，ｔ_ｕ｝とし、キャッシュ置き換え後のエッジサーバにおいてキャッシュされた動画の週間平均アクセス時間の長さをｔ_ｃ’＝｛ｔ_１，ｔ_２，…，ｔ_ｕ｝とし、アクセス時間の長さの増加率を

と定義できる。上式（７）はキャッシュ置き換え後の動画の週間平均アクセス時間の長さの和とキャッシュ置き換え前の動画の週間平均アクセス時間の長さの和との間の差と、キャッシュ置き換え前の動画の週間平均アクセス時間の長さの和との比を表し、Ｐ_ｔ≦０であれば、キャッシュ置き換え後の動画のアクセス時間の長さがキャッシュ置き換え前の動画のアクセス時間の長さに及ばないかまたはキャッシュ置き換え前と差がないことを表し、すなわち、キャッシュ置き換え後、エッジサーバによるコアネットワークに対する負荷の分担は増えておらずまたはさらに小さくなっているため、キャッシュ置き換えの効果が非常に悪いことを意味する。一方、Ｐ_ｔ＞０であれば、キャッシュ置き換え後の動画のアクセス時間の長さがキャッシュ置き換え前の動画のアクセス時間の長さより大きいことを表し、すなわち、キャッシュ置き換え後、エッジサーバによるコアネットワークに対する負荷の分担が大きくなっていることを意味する。Ｐ_ｔの値が大きければ大きいほど、キャッシュ置き換え後のエッジサーバによるコアネットワークに対する負荷分担が大きくなる。演算によれば、Ｐ_ｔ＝８．７％であり、本発明に係るキャッシュ置き換えモデルは有効にエッジサーバによるコアネットワークに対する負荷量の分担が増えたことがわかる。

週間予測モデルおよびキャッシュ置き換えモデルの時間に伴う変化のシミュレーションは図５および図６に示されるとおりである。これらの図から、週間平均アクセス時間の長さの予測精度および週間平均アクセス時間の長さのコストパフォーマンスの予測精度は、時間の推移に伴って低下することがわかり、キャッシュ置き換え率およびアクセス時間の長さの増加率は時間の推移に伴って向上し、特にキャッシュ置き換え率の向上がより速いことがわかる。しかしながら、曲線全体の時間に伴う変化は比較的に穏やかで、大きな波がない。このため、本発明は実際の応用におけるアルゴリズムの更新頻度、演算リソースを節約する。

Claims

エッジネットワーク環境におけるランダムフォレストアルゴリズムに基づくＶＯＤサービスキャッシュ置き換え方法であって、
ビデオデータを収集するステップＳ１と、
ランダムフォレストによりビデオデータにおける欠損値を補完処理し、予測モデルを作成するステップＳ２と、
予測モデルにより平均アクセス時間の長さを予測するステップＳ３と、
予測結果に基づいてキャッシュ置き換えモデルを作成するステップＳ４と、
陰伏的列挙法によりキャッシュ置き換えモデルを解き、最終置き換え方法を得るステップＳ５と、
を含む、方法。
前記ステップＳ２において、予測モデルを作成することは、
平均アクセス時間の長さを従属変数とし、その他の特徴を独立変数として回帰トレーニングを行い、かつ、データセットの分割を行い、各特徴の重要度のランキングを出力し、ランキングに基づいて特徴を選別して最終モデリング特徴値を得て、モデリング特徴値に基づいて予測モデルを作成することを含むことを特徴とする、請求項１に記載の方法。
前記ステップＳ４において、キャッシュ置き換えモデルを作成することは、
エッジサーバキャッシュのサイズをＳとし、テストセットにおけるエッジサーバキャッシュに保存できない動画がクラウドに保存され、テストセットにおける全ての動画の予測アクセス時間の長さの集合をＴ＝｛ｔ_１，ｔ_２，…，ｔ_Ｋ｝とし、動画容量の集合をＶ＝｛ｖ_１，ｖ_２，…，ｖ_Ｋ｝とし、ここでＫはテストセットにおける動画のトータル数であり、キャッシュ置き換え前のエッジサーバキャッシュに保存されている動画の数をＲとし、クラウドにおける動画がＱ部あるとし、そうするとＫ＝Ｒ＋Ｑであり、以下の「数１」に示されるようなキャッシュ置き換えモデル作成することを含み、

ここで、式｛ａ_１ ^＊，ａ_２ ^＊，…，ａ_Ｒ ^＊，ｂ_１ ^＊，ｂ_２ ^＊，…，ｂ_Ｑ ^＊｝は動画の最適キャッシュ置き換え方法で、ａ_ｉはエッジサーバにおける第ｉ部の動画を表し、ａ_ｉ＝０は動画ｉが置き換えられる必要があることを表し、ａ_ｉ＝１は動画ｉが置き換えられる必要がないことを表し、ｂ_ｊはクラウドにおける第ｊ部の動画を表し、ｂ_ｊ＝０は動画ｊが継続してクラウドに保存される必要がなく、エッジサーバに置き換える必要があることを表し、ｂ_ｊ＝１は動画ｊが依然としてクラウドに保存される必要があり、エッジサーバに置き換える必要はないことを表し、また、項（ａ_i×ｔ_i）／ｖ_iはアクセス時間の長さにより基準を置き換える際のエッジサーバの置き換えコストパフォーマンスを表し、二つの可能性があるが、ａ_ｉ＝０の場合、上の項は０であるため、実質的な意義がなく、ａ_ｉ＝１の場合、動画ｉのアクセス時間の長さと動画ｉの容量の比を表し、このため、項（ａ_i×ｔ_i）／ｖ_iを動画ｉのキャッシュ置き換えのコストパフォーマンスを表すものと定義し、同様に、項（（１－ｂ_ｊ）×ｔ_ｊ）／ｖ_ｊは動画ｊのクラウドキャッシュ置き換えのコストパフォーマンスを表し、ｂ_ｊ＝１の際、該項は０で、実質的な意義がないことを特徴とする、請求項１に記載の方法。
前記ステップＳ５において、キャッシュ置き換えモデルを解くことは、
トータルアクセス時間の長さのコストパフォーマンスを、

とし、エッジサーバキャッシュの容量をＳとし、毎回演算して得られた新しいトータルアクセス時間の長さをＴＣ’とし、列挙数を減らすために初期条件を

とし、ここで、｛ａ_１，ａ_２，…，ａ_K｝の部分はキャッシュ置き換え前の動画キャッシュ集合であり、｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝の部分はクラウドにおける動画初期キャッシュ集合であり、初期条件を式（２）に代入すれば、初期トータルアクセス時間の長さのコストパフォーマンスＴＣ_０が求められ、新たな制約条件として

を追加し、制約条件である式（３）、キャッシュ置き換えモデルにおける二つの制約式について反復演算することにより最適な｛ａ_１ ^＊，ａ_２ ^＊，…，ａ_Ｒ ^＊，ｂ_１ ^＊，ｂ_２ ^＊，…，ｂ_Ｑ ^＊｝置き換え方法を得るを含むことを特徴とする、請求項３に記載の方法。
前記反復演算は、新たに追加した制約条件である式（３）を「制約式Ａ」とし、キャッシュ置き換えモデルにおける二つの制約条件である式をそれぞれ［制約式Ｂ］および［制約式Ｃ］とし、
（１）後ろから前に向かって集合｛ａ_１，ａ_２，…，ａ_K｝における一部のキャッシュされた動画を置き換え、すなわち、該動画のａ_ｉ＝１をａ_ｉ＝０にすることと、
（２）後ろから前に向かって集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝を走査し、新たなトータルアクセス時間の長さＴＣを演算することと、
（３）ＴＣとＴＣ_０を比較し、ＴＣ≧ＴＣ_０であれば、ＴＣ_０を新たな値ＴＣとし、すなわち、ＴＣ_０＝ＴＣにして、次のステップ（４）に処理を進み、そうでなければステップ（１）に処理を戻し、次回の反復演算を行い、ＴＣ_０は変わらないことと、
（４）制約条件である「制約式Ｂ」を演算し、条件を満たすなら、ステップ（５）に処理を進み、そうでなければ、ステップ（１）に処理を戻し、次回の反復演算を行い、ＴＣ_０は変わらないことと、
（５）制約条件である「制約式Ｃ」を演算し、条件を満たすなら、今回の反復はすべての制約条件をみたすため、ＴＣ_０は新しい値で、ここで剪定を行い、すなわち、集合｛ｂ_１，ｂ_２，…，ｂ_Ｑ｝に対する走査をやめ、ステップ（１）から次回の反復演算を始めることと、
を含むことを特徴とする、請求項４に記載の方法。