JP7122299B2

JP7122299B2 - 処理タスクを実行するための方法、装置、デバイス、および記憶媒体

Info

Publication number: JP7122299B2
Application number: JP2019238897A
Authority: JP
Inventors: チェン、キンシュ; ジャオ、ジビアオ; ヂュ、ホーフェイ; ゴン、シャオチャン; ワン、ヨン; オウヤン、ジアン
Original assignee: Baidu com Times Technology Beijing Co Ltd; Kunlunxin Technology Beijing Co Ltd; Baidu USA LLC
Current assignee: Baidu com Times Technology Beijing Co Ltd; Kunlunxin Technology Beijing Co Ltd; Baidu USA LLC
Priority date: 2019-09-11
Filing date: 2019-12-27
Publication date: 2022-08-19
Anticipated expiration: 2039-12-27
Also published as: CN112486638A; EP3792757A1; KR20210031347A; JP2021043933A; US11301255B2; KR102350785B1; US20210072996A1

Description

本開示の実施形態は、主に処理タスクに関し、より具体的には、複数の処理ユニットにおいて処理タスクを分散方式で実行するための方法、装置、デバイス、およびコンピュータ記憶媒体に関する。

コンピュータ技術の発展に伴い、現在、分散処理方式が登場している。複数の処理ユニットを提供し、分散方式で複数の処理ユニットにおいて処理タスクを実行することができる。しかし、処理タスクが複雑になるにつれて、大量の処理ユニットが協調して動作する必要がある。このとき、複数の処理ユニットをどのようにスケジューリングして処理タスクをより効率的に処理するかは、１つの技術的難題となる。

本開示の例示的な実施形態によれば、処理タスクを実行するための技術的解決手段が提供される。

本開示の第１の態様において、処理タスクを実行する方法を提供する。処理タスクの複数の部分のうちの１つが複数の処理ユニットのうちの１つの処理ユニットにおいて実行される動作のセットを含み、動作のセットは第１のタイプの動作と第２のタイプの動作とを含む。該方法において、第１のタイプの動作を実行するための第１のキューと、第２のタイプの動作を実行するための第２のキューとをそれぞれ作成する。処理タスクの定義に基づいて、処理ユニットにおいて実行されるべき動作のセットと、複数の処理ユニットのうちの他の処理ユニットにおいて実行されるべき動作のセットとの間の依存関係を取得する。依存関係に基づいて前記処理ユニットにおいて第１のキューにおける動作と第２のキューにおける動作とをそれぞれ実行する。

本開示の第２の態様において、処理タスクを実行する装置を提供する。処理タスクの複数の部分のうちの１つが複数の処理ユニットのうちの１つの処理ユニットにおいて実行される動作のセットを含み、動作のセットは第１のタイプの動作と第２のタイプの動作とを含む。該装置は、第１のタイプの動作を実行するための第１のキューと、第２のタイプの動作を実行するための第２のキューとをそれぞれ作成するように構成された作成モジュールと、処理タスクの定義に基づいて、処理ユニットにおいて実行されるべき動作のセットと、複数の処理ユニットのうちの他の処理ユニットにおいて実行されるべき動作のセットとの間の依存関係を取得するように構成された取得モジュールと、依存関係に基づいて処理ユニットにおいて第１のキューにおける動作と第２のキューにおける動作とをそれぞれ実行するように構成された実行モジュールと、を含む。

本開示の第３の態様において、処理タスクを実行する設備を提供する。該設備は、１つまたは複数のプロセッサと、１つまたは複数のプログラムを格納するための記憶装置であって、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに本開示の第１態様に記載の方法を実施させる記憶装置と、を備える。

本開示の第４の態様において、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、本開示の第１態様に記載の方法を実施するコンピュータ可読記憶媒体を提供する。

発明の概要に記載されたものは、本開示の実施形態を限定するためのかなめまたは重要な特徴ではなく、本開示の範囲を制限するためのものではないことを理解されたい。本開示の他の特徴は、以下の説明により容易に理解できるであろう。

図面を踏まえて以下の詳細な説明を参照すると、本開示の各実施形態の上記と他の特徴、利点および方法がより明らかになる。図面において、同一または類似の符号は、同一または類似の要素を表す。
図１Ａは、処理タスクが複数の処理ユニットによって実行されることを概略的に示すブロック図である。図１Ｂは、処理タスクが複数の処理ユニットによって実行された後の処理結果を概略的に示すブロック図である。図２は、本開示の例示的な実施形態に係る、処理タスクを実行するための方法を概略的に示すブロック図である。図３は、本開示の例示的な実施形態に係る、処理タスクを実行するための方法を概略的に示すフローチャートである。図４は、本開示の例示的な実施形態に係る、複数の処理ユニット間のデータ配信を概略的に示すブロック図である。図５は、本開示の例示的な実施形態に係る、複数の処理ユニットにおいて累積動作を実行することを概略的に示すブロック図である。図６は、本開示の例示的な実施形態に係る、処理ユニットにコードをロードすることを概略的に示すブロック図である。図７は、本開示の例示的な実施形態に係る、コピーキューにおけるコピー動作の完了後にハードウェア割り込みをトリガすることを概略的に示すブロック図である。図８は、本開示の例示的な実施形態に係る、累積キューにおける累積動作の完了後にハードウェア割り込みをトリガすることを概略的に示すブロック図である。図９は、本開示の例示的な実施形態に係る、処理タスクを実行するための装置を概略的に示すブロック図である。図１０は、本開示の様々な実施形態を実施できるコンピューティングデバイスを示すブロック図である。

以下、本開示の実施形態について図面を参照しながらより詳細に説明する。本開示のいくつかの実施形態は図面に示されているが、本開示は様々な形態で実施されることができ、ここで説明された実施形態に限定されるものと解釈されるべきではない。本開示の内容をより詳細かつ完全に理解するために、これらの実施形態が提供されたわけである。本開示の図面および実施形態は、例示的な役割のみに使用され、本開示の保護範囲を制限するためのものではないことを理解されたい。

本開示の実施形態の説明では、用語「…を含む」およびそれに類似する用語は、「…を含むがそれらに限定されない」という非限定の表現として理解されるべきである。用語「…に基づいて」は、「少なくとも部分的に…に基づいて」と理解されるべきである。用語「１つの実施形態」または「該実施形態」は、「少なくとも１つの実施形態」と理解されるべきである。用語「第１の」、「第２の」などは、異なるまたは同一の対象を指すことができる。以下では、他の明確か暗黙的な定義も含み得る。

本開示のコンテキストでは、処理タスクは、処理対象データに対して累積動作を行うためのオールリデュース(ＡｌｌＲｅｄｕｃｅ)タスクであり得る。複数の処理ユニット(例えば、ＧＰＵ、ＡＩ専用チップなど)において処理タスクを実行することができる。例えば、複数の処理ユニットの数をｎで表すことができる。説明を容易にするために、本開示のコンテキストでは、４つの処理ユニットにおいて処理タスクを実行する例を挙げて説明する。ｎの値はより大きいか小さい整数であってもよいことが言うまでもない。

現在、オールリデュースを実行するための複数の技術的解決手段が提供されており、ループベースのオールリデュース方式では、処理対象データをｎ分割することができる。また、ループ状に接続されたｎ個の処理ユニットにおいてｎ個のデータをそれぞれ処理する。各処理ユニットは、自身の累積結果をループ内の次の処理ユニットに送信し、ループ内の前の処理ユニットから累積結果を受信する。

以下では、まず、図１Ａと図１Ｂを参照しながら、本開示の適用環境について説明する。図１Ａは、処理タスクが複数の処理ユニットによって実行されるブロック図１００Ａを模式的に示す。図１Ａに示されるように、ループ状に接続された４つの処理ユニット１１０、１２０、１３０、１４０を用いて処理タスクを実行する。ここで、処理すべき処理対象データをＭと仮定し、データＭを４分割することができる。このとき、各データをＭ／４とする。各処理ユニットに処理対象データのそれぞれの処理対象データＭ／４をそれぞれ送信する。

各処理ユニットのデータは平均で４分割され、ｉ番目の処理ユニットはｉ番目のデータを次の処理ユニットにコピーする。各処理ユニットは、前の処理ユニットのデータを受信すると、ローカルの対応するデータと累積し、累積結果を次の処理ユニットにコピーする。次のラウンドでは、各処理ユニットは、前の処理ユニットの累積結果を待ち、受信した累積結果とローカルの対応するデータとを累積し、新たな累積結果を次の処理ユニットにコピーする。上記のステップは、各処理ユニットが一部分の完全な累積結果を有するまで繰り返される。次に、各処理ユニットは、自身の一部分の完全な累積結果を次の処理ユニットにコピーし、次の処理ユニットは、該部分の完全な累積結果を受信した後、また次の処理ユニットにコピーする。上記のステップは、各処理ユニットがすべての完全な累積結果を有するまで繰り返される。

図１Ｂは、処理タスクが複数の処理ユニットによって実行された後の処理結果のブロック図を模式的に示す。上述したオールリデュースタスクが実行された後、各処理ユニット１１０、１２０、１３０、１４０のいずれもすべての完全な累積結果を有する。上述したプロセスを実行するために、ｎ個の処理ユニットが協調して動作するように制御するためには、データの累積、コピーおよび受信をスケジューリングするための大量の通信リソースが必要であり、スケーラビリティが悪い。

現在、両方向のループベースのオールリデュース方式も提案されており、該技術的解決手段では複数の処理ユニットを縦横２方向のループに分割している。しかしながら、この方式の各ステップ間では、より多くの通信オーバヘッドが必要であり、大規模なデータ処理に採用することは困難である。したがって、オールリデュースの処理タスクをより効率的に実施できる方式を提供することが望ましい。

上記の技術的解決手段の欠陥を少なくとも部分的に解決するために、本開示の例示的な実施形態によって、処理タスクを実行するための技術的解決手段が提案されている。具体的には、本開示の例示的な実施形態は、処理ユニットにおいて異なるタイプの動作に対応する動作キューを作成できる動作キューの概念を提案している。そして、１つの処理ユニットにおいて実行される複数の動作と、他の処理ユニットにおいて実行される複数の動作との依存関係に基づいて、各動作キューにおける動作を処理ユニットにおいてそれぞれ実行することができる。これにより、処理タスクにおける該処理ユニットに割り当てられた部分を完了させることができる。以下では、本開示のプロセスについて、図２を参照して概説する。

図２は、本開示の例示的な実施形態による処理タスクを実行するためのブロック図２００を概略的に示す。説明を簡単にするために、図２は、複数の処理ユニットのうちの２つの処理ユニットにおける処理のみを模式的に示している。処理ユニットのセットがｎ個の処理ユニットを含む場合、該処理タスク２１０をｎ個の部分に分割することができる。図２に示されるように、処理タスク２１０は、複数の部分２２０、２３０などを含み、１つの処理ユニットを用いて処理タスク２１０の１つの部分を実行することができる。例えば、処理ユニット１１０により部分２２０を処理することができ、処理ユニット１２０により部分２３０を処理することができる。なお、以下では、説明を簡単にするために、処理ユニット１１０による部分２２０の実行のみを例に挙げて説明する。処理ユニット１２０による部分２３０の実行プロセスも同様である。

ここで、各部分は、第１のタイプの動作と、第２のタイプの動作とを含む。例えば、部分２２０は、第１のタイプ２２２の動作と第２のタイプ２２４の動作とを含み得る。処理ユニット１１０においては、第１のタイプ２２２の動作を実行するための第１のキュー２２６と、第２のタイプ２２４の動作を実行するための第２のキュー２２８とを作成することができる。ここでは、動作のタイプに応じて、各動作を相応するキューにおいて各動作の実行順に従ってソートすることができる。

そして、処理タスク２１０の定義に基づいて、処理ユニット１１０において実行されるべき動作のセットと、複数の処理ユニットのうちの他の処理ユニット１２０において実行されるべき動作のセットとの依存関係２４０を取得することができる。ここで、依存関係２４０とは、各動作を実行する順序である。例えば、処理ユニット１１０において実行されるべき動作の場合、データブロックを次の処理ユニットにコピーするコピー動作は、他の動作に依存しなくてもよい。一方、累積動作は、前の処理ユニットがデータブロックを処理ユニット１１０にコピーしたことに依存する。依存関係２４０を取得した場合、依存関係２４０に基づいて、処理ユニット１１０において第１のキュー２２６における動作と第２のキュー２２８における動作とをそれぞれ実行することができる。

同様に、処理ユニット１２０の場合、処理ユニット１２０において実行されるようになった部分２３０は、第１のタイプ２３２の動作と、第２のタイプ２３４の動作とを含み得る。また、各タイプの動作を管理するために、第１のキュー２３６と第２のキュー２３８とをそれぞれ作成することができる。次に、依存関係２４０に基づいて、処理ユニット１２０において第１のキュー２３６における動作と第２のキュー２３８における動作とをそれぞれ実行することができる。本開示の技術的解決手段を採用し、キューと依存関係に基づいて複数の異なるタイプの動作の実行をスケジューリングすることにより、オールリデュースの並列性を大きく向上させることができ、実行期間中の様々な時間とリソースのオーバヘッドを低減することができる。さらに、本開示の技術的解決手段は、既存のオールリデュース方法と組み合わせることができる。

以下、図３を参照しながら、本開示の例示的な実施形態の詳細について説明する。図３は、本開示の例示的な実施形態に係る、処理タスクを実行するための方法３００のフローチャートを概略的に示す。ここで、処理タスク２１０における部分２２０は、処理ユニット１１０において実行される。ブロック３１０では、処理ユニットにおいて第１のタイプの動作を実行するための第１のキューと、第２のタイプの動作を実行するための第２のキューとをそれぞれ作成することができる。

本開示の例示的な実施形態によれば、処理タスク２１０は、オールリデュースタスクであってもよく、複数の処理ユニットは、ループ状に接続されている。例えば、複数の処理ユニット１１０、１２０、１３０、１４０は、図１Ａに示されるように、前後順次ループ状に接続されていてもよい。また、例えば、複数の処理ユニットは縦横２方向に分割され、それぞれ２方向のループにおいて複数の処理ユニットが接続されている。

処理タスク２１０によって処理されるべき処理対象データを複数のデータブロックに分割することができることは言うまでもない。例えば、処理タスク２１０がｎ個の処理ユニットによって実行されると仮定すると、処理対象データをｎ個のデータブロックに分割し、かつ対応するデータブロックを各処理ユニットにそれぞれ送信することができる。このとき、各処理ユニットにおいて、１つのデータブロックを受信することができ、該データブロックは、処理タスク２１０の処理対象データのうち、処理ユニットにおいて処理されるべき部分である。

ここでは、説明を簡単にするために、処理対象データをすべてＭとし、４つの処理ユニットを使用する場合、処理対象データを４つのデータブロックに分割することができる。このとき、処理対象のデータブロックを処理ユニット１１０、１２０、１３０、１４０にそれぞれ配信することができる。各処理ユニットにおいて、受信したデータを４分割することができる。このとき、処理ユニット１１０にはデータＡ１、Ｂ１、Ｃ１、Ｄ１が含まれることができ、処理ユニット１２０にはデータＡ２、Ｂ２、Ｃ２、Ｄ２が含まれることができ、他の処理ユニットも同様である。以下、各処理ユニットにおける動作の例について説明する。図４は、本開示の例示的な実施形態に係る、複数の処理ユニット間のデータ配信のブロック図４００を概略的に示す。例えば、以下の表１は、処理ユニット１２０において実行される動作の一例を示しており、この時点では、処理ユニット１２０はデータＡ２、Ｂ２、Ｃ２、Ｄ２を有している。

表１に示されるように、１列目は動作の識別子を示し、２列目は動作タイプを示し、３列目が動作内容を示している。表１においては、処理ユニット１２０で実行されるべき動作の一部のみが模式的に示されており、動作２以降は、累積動作とコピー動作が累積結果(Ａ１＋Ａ２＋Ａ３＋Ａ４)を得るまで交互に行われることができる。ここでの累積結果(Ａ１＋Ａ２＋Ａ３＋Ａ４)は、一部分の完全な累積結果にすぎないため、各処理ユニットは自身のローカルの一部分の完全な累積結果を次の処理ユニットにコピーする必要があり、次の処理ユニットは、各処理ユニットのいずれもすべての完全な累積結果を有するまで繰り返してコピーを実行することが言うまでもない。

処理ユニット１２０において実行される動作のセットは、コピー動作と累積動作とを含むことができる。このとき、処理ユニット１２０において実行される動作のタイプに応じて、第１のキューと第２のキューとをそれぞれ作成することができる。具体的には、第１のキューは、次の表２に示されるような累積動作を含むことができ、第２のキューは、次の表３に示されるようなコピー動作を含むことができる。

以下では、図４と図５をそれぞれ参照しながら、コピー動作と累積動作について詳しく説明する。ここにいうコピー動作は、処理ユニットにおける累積結果／データブロックを該処理ユニットの後に接続された次の処理ユニットにコピーすることができることは言うまでもない。処理ユニット１１０の場合、矢印４１０に示されるように、該処理ユニット１１０は、データＡ１を処理ユニット１２０にコピーして副本とすることができる。処理ユニット１２０の場合、矢印４２０に示されるように、該処理ユニット１２０は、データＢ２を処理ユニット１３０にコピーして副本とすることができる。他の処理ユニットの場合も、同様のコピー動作を実行することができる。図４には示されていないが、コピー動作の対象は、処理ユニットにおける累積結果であってもよい。

本開示の例示的な実施形態によれば、累積動作とは、処理ユニットにおけるデータブロックを、処理ユニットの前に接続された前の処理ユニットから該処理ユニットにコピーされた累積結果に累積して、該処理ユニットの累積結果とすることを意味する。図５は、本開示の例示的な実施形態に係る、複数の処理ユニットにおいて累積動作を実行するためのブロック図５００を概略的に示す。図５は、図４のコピー動作後の処理ユニット１２０の状態を示しており、この時点で、処理ユニット１２０においてはデータＡ１の副本を有している。処理ユニット１２０においては、データＡ１の副本とデータＡ２に基づいて、累積結果５１０(すなわち、Ａ１＋Ａ２)を確定することができる。同様に、他の処理ユニットにおいては、他のデータの累積結果を確定することもできる。

本開示の例示的な実施形態によれば、コピー動作と累積動作を実行するために、相応するタイプの動作を実行するためのコードを処理ユニットにそれぞれロードすることができる。図６は、本開示の例示的な実施形態に係る、処理ユニットにコードをロードするためのブロック図６００を概略的に示す。図６に示されるように、ホスト４１０は、各処理ユニット１１０、１２０、１３０、１４０に接続されることができる。ここで、ホスト４１０は、累積タイプの動作を実行するための第１のコードと、コピー動作を実行するための第２のコードとを、各処理ユニット内のメモリにそれぞれロードすることができる。

各処理ユニットにコードをロードするプロセスが同様であることは、言うまでもない。説明を簡略化するために、以下では、処理ユニット１１０に対するロードプロセスのみを説明する。本開示の例示的な実施形態によれば、累積動作を実行するための第１のコード６１２と、コピー動作を実行するための第２のコード６１４とを、処理ユニット１１０のメモリ６１０にそれぞれロードすることができる。

第１のコード６１２と第２のコード６１４がメモリ６１０にロードされた後、処理ユニット１１０は、コードに応じた動作を迅速に実行することができる。本開示の例示的な実施形態によれば、処理ユニット１１０の応答速度を向上させるために、第１のコード６１２と第２のコード６１４のうちの少なくともいずれかを処理ユニット１１０のメモリ６１０に保持することができる。本開示の例示的な実施形態によれば、データコピーとデータ累積のコードを予め各処理ユニットにロードし、各処理ユニットのメモリに常駐させることにより、ロード/リリースを繰り返すことによる余分な時間やリソースのオーバヘッドを回避することができる。

このとき、第１のコード６１２に基づいて第１のキューにおける動作を実行することができ、第２のコード６１４に基づいて第２のキューにおける動作を実行することができる。コピー動作は処理ユニット間の帯域リソースを占用する必要があり、累積動作は各処理ユニット内の計算リソースを占用することになるため、依存関係のない動作の場合、２つのキューにおける動作を並列に実行することができることは、言うまでもない。

ブロック３２０では、処理タスク２１０の定義に基づいて、複数の動作間の依存関係を確定することができる。処理ユニット１１０において実行されるべき動作のセットと、複数の処理ユニットのうちの他の処理ユニットにおいて実行されるべき動作のセットとの依存関係を取得することができる。以下では、処理ユニット１２０において実行される複数の動作のみを例に挙げて、依存関係の取得方法について説明する。上記の例に続けて、処理ユニット１１０、１２０、１３０、１４０に４つのデータブロックをそれぞれ送信したと仮定する。オールリデュースのプロセスから分かるように、各動作間の依存関係を表４の最後の列に示すことができる。

図３に戻り、ブロック３３０では、依存関係に基づいて、処理ユニットにおいて第１のキューにおける動作と第２のキューにおける動作とをそれぞれ実行する。ハードウェア割り込み方式で、ある特定の動作を実行する依存関係が満たされたことを処理ユニットに通知し、さらに、該処理ユニットをトリガして該特定の動作を実行させることができることを理解されたい。本開示の例示的な実施形態によれば、処理ユニットにおいて第１のキューと第２のキューのいずれかにおける動作が完了したと判断された場合、処理ユニットのハードウェア割り込みを利用して他の処理ユニットに通知する。

本開示の例示的な実施形態を利用して、処理ユニットのハードウェア割り込みに基づいてキューにおけるタスクをスケジューリングし、処理ユニット自身がタスク実行の優先順位を確保し、ホストとの不必要な通信を回避する。本開示の技術的解決手段を採用することにより、オールリデュースの並列効率を大幅に向上させ、実行中の様々な時間とリソースのオーバヘッドを低減することができる。以下では、図７と図８をそれぞれ参照しながら、如何にハードウェア割り込みに基づいて通知するかについて説明する。

図７は、本開示の例示的な実施形態に係る、コピーキューにおける動作の完了後にハードウェア割り込みをトリガするブロック図７００を概略的に示す。図７は、処理ユニット１２０に対する、複数のコピー動作を含むことができるコピーキュー７１０を示している。図７に示されるコピーキュー７１０におけるコピー動作７１２は、表１の動作１を表す。すなわち、処理ユニット１２０におけるデータＢ２を次の処理ユニット１３０にコピーする。表４の依存関係から分かるように、該動作は他の動作に依存しないため、直接実行できる。

さらに、依存関係から分かるように、次の処理ユニット１３０における累積動作はコピー動作７１２に依存するため、コピー動作７１２が完了した後に、ハードウェア割り込み７１４を生成することにより、相応する累積動作を実行するように次の処理ユニット１３０に通知する（７１６）ことができる。次の処理ユニット１３０においては、前の処理ユニット１２０からのハードウェア割り込み７１４を受信すると、累積動作(すなわち、受信したデータＢ２と自身のデータブロックＢ３とを累積すること)を実行することができる。

本開示の例示的な実施形態によれば、処理ユニットと次の処理ユニットはキャッシュ領域を共有するため、コピー動作を実施するために処理ユニットからキャッシュ領域に累積結果をコピーすることができる。例えば、上述した処理ユニット１２０と処理ユニット１３０との間に共有キャッシュ領域がある場合には、処理ユニット１２０は該キャッシュ領域にデータをコピーすることもでき、処理ユニット１３０は該キャッシュ領域からデータを読み取ることもできる。なお、図７は、コピーキュー７１０における１つのコピー動作７１２が実行された後にハードウェア割り込み７１４を生成する例のみを詳細に示しているが、他のコピー動作が実行された後にも同様に、相応する累積動作を実行するように次の処理ユニットに通知することができることは、言うまでもない。

本開示の例示的な実施形態によれば、処理ユニットにおいて第１のキューにおける１つの累積動作が実行された場合、ハードウェア割り込みに基づいて、第２のキューにおける次のコピー動作を実行するように前の処理ユニットに通知することができる。以下では、図８を参照して、詳しく説明する。図８は、本開示の例示的な実施形態に係る、累積キューにおける累積動作の完了後にハードウェア割り込みをトリガするブロック図８００を概略的に示す。図８は、処理ユニット１２０に対する、複数のコピー動作を含むことができる累積キュー８１０を示している。図８に示される累積キュー８１０における累積動作７１２は、表１の動作２を表す。すなわち、処理ユニット１１０から受信したデータＡ１とローカルのデータＡ２とを累積することにより、累積結果(Ａ１＋Ａ２)を得る。該動作は前の処理ユニット１１０がデータＡ１を処理ユニット１２０にコピーしたことに依存するため、処理ユニット１２０が処理ユニット１１０からのハードウェア割り込みを受信した場合、累積動作８１２を開始することができる。

さらに、累積動作８１２の依存関係から分かるように、前の処理ユニット１１０が次の累積結果を処理ユニット１２０にコピーするコピー動作は、該累積動作８１２に依存するため、累積動作８１２が完了した後に、ハードウェア割り込み８１４を生成することにより、後の累積結果を処理ユニット１２０にコピーするように前の処理ユニット１１０に通知する（８１６）ことができる。前の処理ユニット１１０においては、処理ユニット１２０からのハードウェア割り込み８１４を受信すると、処理ユニット１１０はコピー動作を実行することができる。

本開示の例示的な実施形態によれば、コピー動作と累積動作は帯域リソースと計算リソースをそれぞれ使用するため、実行されるべきコピー動作と累積動作をそれぞれコピーキューと累積キューにより記憶することで、２つのタイプの動作によるリソースの奪い合いを回避することができる。これにより、並列実行の可能性を高めることができる。さらに、ホストが各処理ユニットの実行をスケジューリングするか、またはポーリング技術を用いて依存関係が満たされているかどうかを確認し続けるような技術的解決手段と比較して、ハードウェア割り込み方式を用いて依存関係が満たされていることを通知することは、スケジューリング作業の効率を大幅に向上でき、動作のセットの実行効率を向上させることができる。

本開示の例示的な実施形態によれば、処理ユニットにおいて第１のキューと第２のキューにおけるすべての動作が実行されていると判断された場合、処理ユニットが処理タスクの部分を実行したことを示すメッセージを送信することができる。本開示の例示的な実施形態では、処理タスクを実行する具体的なプロセスは、１つの処理ユニットにおいて実行されるプロセスのみを例に挙げて説明したが、複数の処理ユニットのうちの他の処理ユニットにおいて実行される動作も同様であることは、言うまでもない。上述した方法３００をすべての複数の処理ユニットにおいて並列的に実行することにより、各処理ユニットが処理タスクのうち、自身に割り当てられた一部分のタスクを実行する効率を向上させることができ、全体的な処理タスクの実行効率を向上させることができる。

タスクを処理する方法３００の複数の実施形態は、上記で詳細に説明された。本開示の例示的な実施形態によれば、処理タスクを実行するための装置も提供される。以下では、図９を参照して詳細に説明する。図９は、本開示の例示的な実施形態に係る、処理タスクを実行するための装置９００のブロック図を概略的に示す。処理タスクの複数の部分のうちの１つの部分は、複数の処理ユニットのうちの１つの処理ユニットにおいて実行される動作のセットを含み、動作のセットは、第１のタイプの動作と第２のタイプの動作とを含む。図９に示されるように、該装置９００は、第１のタイプの動作を実行するための第１のキューと、第２のタイプの動作を実行するための第２のキューとをそれぞれ作成するように構成された作成モジュール９１０と、処理タスクの定義に基づいて、処理ユニットにおいて実行されるべき動作のセットと、複数の処理ユニットのうちの他の処理ユニットにおいて実行されるべき動作のセットとの間の依存関係を取得するように構成された取得モジュール９２０と、依存関係に基づいて処理ユニットにおいて第１のキューにおける動作と第２のキューにおける動作とをそれぞれ実行するように構成された実行モジュール９３０と、を含む。

本開示の例示的な実施形態によれば、該装置９００は、第１のタイプの第１の動作のセットを実行するための第１のコードと、第２のタイプの第２の動作のセットを実行するための第２のコードとをそれぞれ処理ユニットにロードするように構成されたロードモジュールをさらに含む。本開示の例示的な実施形態によれば、実行モジュール９３０は、第１のコードに基づいて第１のキューにおける動作を実行するように構成された第１の実行モジュールと、第２のコードに基づいて第２のキューにおける動作を実行するように構成された第２の実行モジュールと、を含む。

本開示の例示的な実施形態によれば、該装置９００は、処理ユニットのメモリに第１のコードと第２のコードのうちの少なくともいずれかをそれぞれ保持するように構成された保持モジュールをさらに含む。

本開示の例示的な実施形態によれば、該装置９００は、処理ユニットにおいて、処理タスクの処理対象データのうちの、処理ユニットにおいて処理されるべき、複数の処理ユニットの数に応じて処理対象データを分割して得られたデータブロックを受信するように構成された受信モジュールをさらに含む。

本開示の例示的な実施形態によれば、実行モジュール９３０は、処理ユニットにおいてデータブロックに対して第１のキューにおける動作と第２のキューにおける動作とをそれぞれ実行するように構成されたデータ処理モジュールをさらに含む。

本開示の例示的な実施形態によれば、処理タスクはオールリデュースタスクであり、複数の処理ユニットはループ状に接続されている。

本開示の例示的な実施形態によれば、第１の動作のセットは、処理ユニットの前に接続された前の処理ユニットから処理ユニットにコピーされた累積結果に、処理ユニットにおけるデータブロックを累積して、処理ユニットの累積結果とするための累積動作を含む。

本開示の例示的な実施形態によれば、第２の動作のセットは、処理ユニットの後に接続された次の処理ユニットに、処理ユニットにおけるデータブロックと累積結果のうちの少なくともいずれかをコピーするためのコピー動作を含む。

本開示の例示的な実施形態によれば、実行モジュール９３０は、処理ユニットにおいて第１のキューと第２のキューのいずれかのキューにおける動作が完了したことに対応して、処理ユニットのハードウェア割り込みを利用して他の処理ユニットに通知するように構成された通知モジュールを含む。

本開示の例示的な実施形態によれば、通知モジュールは、処理ユニットにおいて第１のキューにおける１つの累積動作が実行されたことに対応して、ハードウェア割り込みに基づいて、第２のキューにおける次のコピー動作を実行するように前の処理ユニットに通知するように構成された第１の通知モジュールを含む。

本開示の例示的な実施形態によれば、通知モジュールは、処理ユニットにおいて第２のキューにおける１つのコピー動作が実行されたことに対応して、ハードウェア割り込みに基づいて、第１のキューにおける次の累積動作を実行するように次の処理ユニットに通知するように構成された第２の通知モジュールを含む。

本開示の例示的な実施形態によれば、処理ユニットと次の処理ユニットはキャッシュ領域を共有し、装置は処理ユニットからキャッシュ領域にデータブロックと累積結果のうちの少なくともいずれかをコピーするように構成されたコピーモジュールをさらに含む。

本開示の例示的な実施形態によれば、装置は処理ユニットにおいて第１のキューと第２のキューにおける動作がすべて実行されたと判断されたことに対応して、処理ユニットが処理タスクのうちの部分を実行したことを報告するように構成された報告モジュールをさらに含む。

図１０は、本開示の様々な実施形態を実施できるコンピューティングデバイス１０００のブロック図を示す。デバイス１０００は、図３に説明された方法の実施に使用され得る。図に示されたように、デバイス１０００は、中央処理ユニット(ＣＰＵ)１００１を備えている。これは、読み取り専用メモリ(ＲＯＭ)１００２に記憶されたコンピュータプログラム命令、または記憶ユニット１００８からランダムアクセスメモリ(ＲＡＭ)１００３にロードされたコンピュータプログラム命令に基づいて、様々な適切な動作と処理を実行することができる。ＲＡＭ１００３には、デバイス１０００の動作に必要な様々なプログラムとデータを記憶することもできる。ＣＰＵ１００１、ＲＯＭ１００２、ＲＡＭ１００３はバス１００４を介して接続されている。バス１００４には、入出力(Ｉ／Ｏ)インターフェース１００５も接続されている。

デバイス１０００内の複数の構成要素は、Ｉ／Ｏインターフェース１００５に接続されている。構成要素には、キーボード、マウスなどの入力ユニット１００６、様々な種類のディスプレイ、スピーカなどの出力ユニット１００７、磁気ディスク、光ディスクなどの記憶ユニット１００８、ネットワークアダプター、モデム、無線通信送受信機などの通信ユニット１００９が含まれる。通信ユニット１００９は、デバイス１０００がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。

処理ユニット１００１は、上述した方法３００のような様々な方法と処理を実行する。例えば、いくつかの実施形態では、方法３００は、記憶ユニット１００８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実施されることができる。いくつかの実施形態では、コンピュータプログラムの一部またはすべては、ＲＯＭ１００２および/または通信ユニット１００９を介してデバイス１０００にロードおよび/またはインストールされることができる。コンピュータプログラムがＲＡＭ１００３にロードされ、ＣＰＵ１００１によって実行されると、上述した方法３００の１つまたは複数のステップを実行することができる。あるいは、他の実施形態では、ＣＰＵ１００１は、他の任意の適切な方法(例えば、ファームウェアを介して)によって方法３００を実行するように構成されることができる。

本開示の例示的な実施形態によれば、コンピュータプログラムが格納されたコンピュータ可読記憶媒体が提供される。プログラムがプロセッサによって実行されると、本開示で説明された方法を実施する。

本明細書で説明した機能は、少なくとも部分的に１つまたは複数のハードウェアロジックコンポーネントによって実行されることができる。例えば、非限定的に使用可能な例示的なタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(ＦＰＧＡ)、特定用途向け集積回路 (ＡＳＩＣ)、特定用途向け標準部品(ＡＳＳＰ)、システムオンチップシステム(ＳＯＣ)、複雑なプログラマブルロジックデバイス(ＣＰＬＤ)などを含む。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のいずれかの組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。これにより、プログラムコードはプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能/動作が実施される。プログラムコードは完全にもしくは部分的にマシン上で実行されることができ、またはスタンドアロンソフトウェアパッケージとして部分的にマシン上で実行されながら部分的にリモートマシン上で実行されたり、完全にリモートマシンもしくはサーバ上で実行されたりすることができる。

本開示のコンテキストでは、機械可読媒体は、有形の媒体であり得る。それは、命令実行システム、装置またはデバイスが使用するため、または命令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線、または半導体システム、装置またはデバイス、またはこれらの任意の適切な組合せを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(ＲＡＭ)、読み取り専用メモリ(ＲＯＭ)、消去可能プログラマブル読み取り専用メモリ(ＥＰＲＯＭまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(ＣＤ－ＲＯＭ)、光学記憶装置、磁気記憶装置、または上記の任意の適切な組合せが含まれる。

また、各動作は特定の順序で示されているが、所望の結果を得られるために、このような動作は示された特定の順序にてまたは順を追って実行されることを要求するものと理解されるべきである。または、図に示されたすべての動作を実行されることを要求するものと理解されるべきである。特定の環境では、マルチタスクと並列処理が有利である可能性がある。同様に、上記ではいくつかの具体的な実施詳細を説明したが、これらは本開示の範囲への制限と解釈されるべきではない。個別の実施形態のコンテキストで説明された、いくつかの特徴は、単一の実施において組み合わせて実施されることもできる。逆に、単一の実施のコンテキストで説明された様々な特徴は、複数の実施において、個別にまたは任意の適切なサブセットで実施されることもできる。

本主題は、構造特徴および/または方法のロジック動作に特定された言語で記述されたが、特許請求の範囲内に限定される主題が、必ずしも上記に記載された特定の特徴または動作に限定されるものではないことを理解されたい。逆に、上述した特定の特徴および動作は、特許請求の範囲を実施するための例示的な形態にすぎない。

Claims

処理タスクを実行する方法であって、
前記処理タスクを複数の部分に分けることであって、各部分は複数の処理ユニットのうちの１つの処理ユニットにおいて実行されるべき動作のセットを含み、前記動作のセットは第１のタイプの動作と第２のタイプの動作とを含み、前記第１のタイプの動作は累積動作を含み、前記第２のタイプの動作はコピー動作を含む、ことと、
前記第１のタイプの動作を実行するための第１のキューと、前記第２のタイプの動作を実行するための第２のキューとをそれぞれ作成することと、
前記処理タスクの定義に基づいて、前記処理ユニットにおいて実行されるべき前記動作のセットと、前記複数の処理ユニットのうちの他の処理ユニットにおいて実行されるべき動作のセットとの間の依存関係を取得することであって、前記依存関係は順次実行関係と並行実行関係とを含む、ことと、
前記依存関係が順次実行関係である場合、前記複数の処理ユニットにおいて前記第１のキューにおける動作を順次実行することと、
前記依存関係が並行実行関係である場合、前記複数の処理ユニットにおいて前記第２のキューにおける動作を並行実行することと、を含む処理タスクを実行する方法。
前記第１のタイプの動作の第１の動作のセットを実行するための第１のコードと、前記第２のタイプの動作の第２の動作のセットを実行するための第２のコードとをそれぞれ前記処理ユニットにロードすることをさらに含み、
前記依存関係が順次実行関係である場合、前記複数の処理ユニットにおいて前記第１のキューにおける動作を順次実行することは、前記第１のコードに基づいて前記第１のキューにおける動作を実行することを含み、
前記依存関係が並行実行関係である場合、前記複数の処理ユニットにおいて前記第２のキューにおける動作を並行実行することは、前記第２のコードに基づいて前記第２のキューにおける動作を実行することを含む、請求項１に記載の方法。
前記処理ユニットのメモリに前記第１のコードと前記第２のコードのうちの少なくともいずれかをそれぞれ保持することをさらに含む請求項２に記載の方法。
前記処理ユニットにおいて、前記処理タスクの処理対象データのうちの、前記処理ユニットにおいて処理されるべき、前記複数の処理ユニットの数に応じて前記処理対象データを分割して得られたデータブロックを受信することをさらに含み、
前記処理ユニットにおいて前記第１のキューにおける動作と前記第２のキューにおける動作とをそれぞれ実行することは、前記処理ユニットにおいて前記データブロックに対して前記第１のキューにおける動作と前記第２のキューにおける動作とをそれぞれ実行することを含む請求項１に記載の方法。
前記処理タスクはオールリデュースタスクであり、前記複数の処理ユニットはループ状に接続されており、
前記第１のタイプの動作は、前記処理ユニットの前に接続された前の処理ユニットから前記処理ユニットにコピーされた累積結果に前記処理ユニットにおけるデータブロックを累積して前記処理ユニットの累積結果とするための累積動作を含み、
前記第２のタイプの動作は、前記処理ユニットの後に接続された次の処理ユニットに前記処理ユニットにおけるデータブロックと累積結果のうちの少なくともいずれかをコピーするためのコピー動作を含む請求項４に記載の方法。
前記処理ユニットにおいて前記第１のキューと前記第２のキューのいずれかにおける動作が完了したことに応答して、前記処理ユニットのハードウェア割り込みを利用して前記他の処理ユニットに通知することを含む請求項５に記載の方法。
前記処理ユニットにおいて前記第１のキューと前記第２のキューのいずれかにおける動作が完了したことに対応して、前記処理ユニットのハードウェア割り込みを利用して前記他の処理ユニットに通知することは、
前記処理ユニットにおいて第１のキューにおける１つの累積動作が実行されたことに対応して、前記ハードウェア割り込みに基づいて、前記第２のキューにおける次のコピー動作を実行するように前記前の処理ユニットに通知することを含む請求項６に記載の方法。
前記処理ユニットにおいて前記第１のキューと前記第２のキューのいずれかにおける動作が完了したことに対応して、前記処理ユニットのハードウェア割り込みを利用して前記他の処理ユニットに通知することは、
前記処理ユニットにおいて前記第２のキューにおける１つのコピー動作が実行されたことに対応して、前記ハードウェア割り込みに基づいて、前記第１のキューにおける次の累積動作を実行するように前記次の処理ユニットに通知することを含む請求項６に記載の方法。
前記処理ユニットと前記次の処理ユニットはキャッシュ領域を共有し、
前記処理ユニットにおいて前記コピー動作を実行することは、前記処理ユニットから前記キャッシュ領域に前記累積結果をコピーすることを含む請求項８に記載の方法。
前記処理ユニットにおいて前記第１のキューと前記第２のキューにおける動作がすべて実行されていると判断されたことに対応して、前記処理ユニットが前記処理タスクのうちの前記部分を実行したことを報告することをさらに含む請求項１に記載の方法。
処理タスクを実行する装置であって、
前記処理タスクを複数の部分に分けるように構成された処理タスク分けモジュールであって、各部分は複数の処理ユニットのうちの１つの処理ユニットにおいて実行されるべき動作のセットを含み、前記動作のセットは第１のタイプの動作と第２のタイプの動作とを含み、前記第１のタイプの動作は累積動作を含み、前記第２のタイプの動作はコピー動作を含む、処理タスク分けモジュールと、
前記第１のタイプの動作を実行するための第１のキューと、前記第２のタイプの動作を実行するための第２のキューとをそれぞれ作成するように構成されたキュー作成モジュールと、
前記処理タスクの定義に基づいて、前記処理ユニットにおいて実行されるべき前記動作のセットと、前記複数の処理ユニットのうちの他の処理ユニットにおいて実行されるべき動作のセットとの間の依存関係を取得するように構成された依存関係取得モジュールであって、前記依存関係は順次実行関係と並行実行関係とを含む、依存関係取得モジュールと、
前記依存関係が順次実行関係である場合、前記複数の処理ユニットにおいて前記第１のキューにおける動作を順次実行し、前記依存関係が並行実行関係である場合、前記複数の処理ユニットにおいて前記第２のキューにおける動作を並行実行するように構成された動作実行モジュールと、を含む処理タスクを実行する装置。
前記第１のタイプの動作を実行するための第１のコードと、前記第２のタイプの動作を実行するための第２のコードとをそれぞれ前記処理ユニットにロードするように構成されたロードモジュールをさらに含み、
前記動作実行モジュールは、
前記第１のコードに基づいて前記第１のキューにおける動作を実行するように構成された第１の実行モジュールと、
前記第２のコードに基づいて前記第２のキューにおける動作を実行するように構成された第２の実行モジュールと、を含む請求項１１に記載の装置。
前記処理ユニットのメモリに前記第１のコードと前記第２のコードのうちの少なくともいずれかをそれぞれ保持するように構成された保持モジュールをさらに含む請求項１２に記載の装置。
前記処理ユニットにおいて、前記処理タスクの処理対象データのうちの、前記処理ユニットにおいて処理されるべき、前記複数の処理ユニットの数に応じて前記処理対象データを分割して得られたデータブロックを受信するように構成された受信モジュールをさらに含み、
前記動作実行モジュールは、前記処理ユニットにおいて前記データブロックに対して前記第１のキューにおける動作と前記第２のキューにおける動作とをそれぞれ実行するように構成されたデータ処理モジュールをさらに含む請求項１１に記載の装置。
前記処理タスクはオールリデュースタスクであり、前記複数の処理ユニットはループ状に接続されており、
前記第１のタイプの動作は、前記処理ユニットの前に接続された前の処理ユニットから前記処理ユニットにコピーされた累積結果に前記処理ユニットにおけるデータブロックを累積して前記処理ユニットの累積結果とするための累積動作を含み、
前記第２のタイプの動作は、前記処理ユニットの後に接続された次の処理ユニットに前記処理ユニットにおけるデータブロックと累積結果のうちの少なくともいずれかをコピーするためのコピー動作を含む請求項１４に記載の装置。
前記動作実行モジュールは、前記処理ユニットにおいて前記第１のキューと前記第２のキューのいずれかにおける動作が完了したことに応答して、前記処理ユニットのハードウェア割り込みを利用して前記他の処理ユニットに通知するように構成された通知モジュールを含む請求項１５に記載の装置。
前記通知モジュールは、前記処理ユニットにおいて第１のキューにおける１つの累積動作が実行されたことに対応して、前記ハードウェア割り込みに基づいて、前記第２のキューにおける次のコピー動作を実行するように前記前の処理ユニットに通知するように構成された第１の通知モジュールを含む請求項１６に記載の装置。
前記通知モジュールは、前記処理ユニットにおいて前記第２のキューにおける１つのコピー動作が実行されたことに対応して、前記ハードウェア割り込みに基づいて、前記第１のキューにおける次の累積動作を実行するように前記次の処理ユニットに通知するように構成された第２の通知モジュールを含む請求項１６に記載の装置。
前記処理ユニットと前記次の処理ユニットはキャッシュ領域を共有し、
前記装置は、前記処理ユニットから前記キャッシュ領域に前記データブロックと累積結果のうちの少なくともいずれかをコピーするように構成されたコピーモジュールをさらに含む請求項１８に記載の装置。
前記処理ユニットにおいて前記第１のキューと前記第２のキューにおける動作がすべて実行されていると判断されたことに対応して、前記処理ユニットが前記処理タスクのうちの前記部分を実行したことを報告するように構成された報告モジュールをさらに含む請求項１１に記載の装置。
請求項１～１０のいずれか１項に記載の方法を実行するための１つまたは複数のプロセッサと、
請求項１～１０のいずれか１項に記載の方法を実行する１つまたは複数のプログラムを格納するための記憶装置と、を備える処理タスクを実行するデバイス。
コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムは、プロセッサによって実行されると、請求項１～１０のいずれか１項に記載の方法を実施するコンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１～１０のいずれか１項に記載の方法を実現する、コンピュータプログラム。