JP2022145608A

JP2022145608A - 音声認識のためのネットワークにおけるデコーディング方法及びデコーディング装置

Info

Publication number: JP2022145608A
Application number: JP2022038236A
Authority: JP
Inventors: 晋佑朴; Jinwoo Park; 敏重李; Min-Joong Lee; 知▲ひょん▼ 李; Jihyun Lee; 鎬式李; Hoshik Lee
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-03-18
Filing date: 2022-03-11
Publication date: 2022-10-04
Also published as: EP4060657A1; CN115116436A; KR20220130450A; US20220301578A1

Abstract

【課題】音声認識のためのネットワークにおけるデコーディング方法及びデコーディング装置を提供すること。【解決手段】デコーディング方法は、現在時点の入力音声に対応する入力シーケンスを受信し、音声認識のためのネットワークにおいて、入力シーケンスをエンコーディングして符号化されたベクトルシーケンスを生成し、２つ以上の以前時点の候補ビームを比較することで、以前時点の候補ビームからリユーストークンを決定し、リユーストークン及びベクトルシーケンスに基づいて、リユーストークンに後続する１つ以上のトークンをデコーディングする。【選択図】図３

Description

以下の実施形態は、音声認識のためのネットワークにおけるデコーディング方法及びデコーディング装置に関する。

音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）技術は、ヒトが発話した音声のような音響学的な信号（ａｃｏｕｓｔｉｃｓｐｅｅｃｈｓｉｇｎａｌ）をコンピューティング装置の分析を通じて認識する技術を意味する。音声認識として、例えば、音声データから抽出された周波数特徴を音響モデルにおいて処理する隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）を用いて発音を分析して、音声を認識したり、又は、ネットワークから構成されたエンドツーエンド（ｅｎｄ－ｔｏ－ｅｎｄ）方式のモデルとして、別途の音響モデルなしに音声データから単語や文章などのテキストを直接認識する方式を用いる。

米国特許出願第２０１８００１３８７９号明細書

一実施形態によれば、アテンション（ａｔｔｅｎｔｉｏｎ）基盤のエンコーダ－デコーダ（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ）音声認識モデルに部分デコード（ｐａｒｔｉａｌｄｅｃｏｄｉｎｇ）方式を適用するとき、自己回帰的（ａｕｔｏ－ｒｅｇｒｅｓｓｉｖｅ）デコーディングステップを繰り返すために費やされる時間を低減することができる。

一実施形態によれば、各部分デコードで以前の部分デコード結果のうち、安定的な部分に該当するトークンをリユースすることで、各部分デコードに必要とされるデコーディングステップのうち前半部の演算消耗を節約することができる。

一実施形態によれば、自己回帰的デコーディング時の繰り返し回数（デコーディング回数）を制限し、各部分デコードに必要とされるデコーディングステップのうち後半部の演算消耗を節約することができる。

一実施形態によれば、デコーディング方法は、現在時点の入力音声に対応する入力シーケンスを受信するステップと、音声認識のためのネットワークにおいて、前記入力シーケンスをエンコーディングして符号化されたベクトルシーケンスを生成するステップと、２つ以上の以前時点の候補ビームを比較することで、前記以前時点の候補ビームからリユーストークンを決定するステップと、前記リユーストークン及び前記ベクトルシーケンスに基づいて、前記リユーストークンに後続する１つ以上のトークンをデコーディングするステップと、を含む。

前記リユーストークンを決定するステップは、ｎ－２（ｎ≧３である自然数）以前時点の候補ビームと、ｎ－２以前時点に後続するｎ－１以前時点の候補ビームとの間の比較結果に基づいて、ｎ－１以前時点に後続する現在時間であるｎ現在時点におけるトークンのリユース時点を決定するステップと、前記リユース時点まで累積された候補ビームを前記リユーストークンとして決定するステップと、を含むことができる。

前記リユース時点を決定するステップは、ｎ－２以前時点の候補ビーム及びｎ－１以前時点の候補ビームにおいて、下位文字列（ｓｕｂｓｔｒｉｎｇ）が最も多く一致する時点を、前記ｎ現在時点における前記トークンのリユース時点として決定するステップを含むことができる。

前記デコーディング方法は、前記リユース時点までの候補ビームの確率のうち最も高い確率を有する候補ビームと、前記最も高い確率を有する候補ビームに対応するビームステート（ｂｅａｍｓｔａｔｅ）のうちいずれか１つ又は２つを格納するステップと、をさらに含むことができる。

前記１つ以上のトークンをデコーディングするステップは、前記２つ以上の以前時点でデコーディングの以前時点におけるトークンの組み合わせの確率に基づいて、次の時点のデコーディングに使用される候補ビームを決定するステップと、前記候補ビームのうち、トークンのリユース時点に該当する１つ以上の候補ビームを用いて前記１つ以上のトークンをデコーディングするステップと、を含むことができる。

前記１つ以上のトークンをデコーディングするステップは、前記候補ビームのうち、トークンのリユース時点に該当する１つ以上の候補ビームを前記ネットワークに含まれている自己回帰的デコーダレイヤに入力するステップと、前記１つ以上のトークンをデコーディングするステップと、を含むことができる。

前記１つ以上のトークンをデコーディングするステップは、前記入力音声が終了していない場合、予め設定された回数だけ前記１つ以上のトークンをデコーディングするステップ、を含むことができる。

前記１つ以上のトークンをデコーディングするステップは、前記リユーストークン及び前記ベクトルシーケンスに基づいて、前記リユーストークンに後続する複数のトークン候補の確率を予測するステップと、前記複数のトークン候補の確率に基づいて、前記１つ以上のトークンを決定するステップ、とを含むことができる。

前記ベクトルシーケンスを生成するステップは、前記ネットワークに含まれているエンコーダレイヤによって前記入力シーケンスをエンコーディングすることで、前記符号化されたベクトルシーケンスを生成するステップ、を含むことができる。

前記デコーディング方法は、前記ネットワークにおいて、前記以前時点までの入力シーケンスに前記現在時点の入力音声に対応する入力シーケンスが累積されたシーケンスを生成するステップ、をさらに含む。前記ベクトルシーケンスを生成するステップは、前記累積されたシーケンスをエンコーディングし、前記符号化されたベクトルシーケンスを生成するステップ、を含むことができる。

前記ネットワークは、エンコーダレイヤ及び自己回帰的デコーダレイヤを含むアテンション基盤のエンコーダ－デコーダモデルを含むことができる。

前記デコーディング方法は、前記リユーストークンに後続するデコーディングされた１つ以上のトークンに基づいて、前記入力音声の音声認識結果を生成するステップ、をさらに含むことができる。

一実施形態に係る音声認識のためのネットワークを含むデコーディング装置は、現在時点の入力音声に対応する入力シーケンスを受信する通信インターフェースと、前記入力シーケンスをエンコーディングして符号化されたベクトルシーケンスを生成し、２つ以上の以前時点の候補ビームを比較することで、前記以前時点の候補ビームからリユーストークンを決定し、前記リユーストークン及び前記ベクトルシーケンスに基づいて、前記リユーストークンに後続する１つ以上のトークンをデコーディングするプロセッサとを含むことができる。

前記リユーストークンを決定するために、前記プロセッサは、ｎ－２以前時点の候補ビームと、ｎ－２以前時点に後続するｎ－１以前時点の候補ビームと間の比較結果に基づいて、ｎ－１以前時点に後続する現在時間であるｎ現在時点におけるトークンのリユース時点を決定し、前記リユース時点まで累積された候補ビームを前記リユーストークンとして決定することができる。

前記リユーストークンを決定するために、前記プロセッサは、ｎ－２以前時点の候補ビーム及びｎ－１以前時点の候補ビームで下位文字列が最も多く一致する時点を、前記ｎ現在時点における前記トークンのリユース時点として決定することができる。

前記デコーディング装置は、前記次の時点のデコーディングに使用される候補ビームを格納するメモリをさらに含み、前記１つ以上のトークンをデコーディングするために、前記プロセッサは、前記２つ以上の以前時間のうち、前記デコーディングの以前時点におけるトークンの組み合せの確率に基づいて、次の時点のデコーディングに使用される候補ビームを決定し、前記候補ビームのうちトークンのリユース時点に該当する１つ以上の候補ビームを用いて前記１つ以上のトークンをデコーディングすることができる。

前記１つ以上のトークンをデコーディングするために、前記プロセッサは、前記候補ビームのうち、トークンのリユース時点に該当する１つ以上の候補ビームを前記ネットワークに含まれている自己回帰的デコーダレイヤに入力し、前記１つ以上のトークンをデコーディングすることができる。

前記１つ以上のトークンをデコーディングするために、前記プロセッサは、前記リユーストークン及び前記ベクトルシーケンスに基づいて、前記リユーストークンに後続する複数のトークン候補の確率を予測し、前記複数のトークン候補の確率に基づいて、前記１つ以上のトークンを決定することができる。

前記プロセッサは、前記ネットワークに含まれているエンコーダレイヤによって前記入力シーケンスをエンコーディングすることで前記符号化されたベクトルシーケンスを生成することができる。

前記プロセッサは、前記ネットワークを用いて、前記以前時点までの入力シーケンスに前記現在時点の入力音声に対応する入力シーケンスが累積されたシーケンスを生成し、前記エンコーディングされたベクトルシーケンスの生成のために、前記累積されたシーケンスをエンコーディングして前記符号化されたベクトルシーケンスを生成することができる。

一実施形態に係るデコーディング方法は、音声認識のためのネットワークにおいて、現在のデコーディング時間ステップにおける入力音声に対応する入力シーケンスをエンコーディングすることで、符号化されたベクトルシーケンスを生成するステップと、以前時間ステップの候補ビーム間にマッチングされるトークンの最も大きいシーケンスに基づいてリユーストークンを決定するステップと、前記リユーストークン及び前記エンコーディングされたベクトルシーケンスに基づいて、前記リユーストークンに後続する１つ以上のトークンをデコーディングするステップと、を含む。

前記リユーストークンを決定するステップは、前記リユーストークンであって、前記現在時間ステップに先行する以前時間ステップのうち１つの候補ビームの部分を、前記以前時間ステップの候補ビーム間にマッチングされるトークンの最も大きいシーケンスに対応する時間まで決定するステップ、を含むことができる。

前記以前時間ステップの候補ビーム間にマッチングされるトークンの最も大きいシーケンスは、初期時間ステップにおいて前記現在時間ステップの以前時間ステップまでであってもよい。

一側面によれば、アテンション（ａｔｔｅｎｔｉｏｎ）基盤のエンコーダ－デコーダ（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ）音声認識モデルに部分デコード（ｐａｒｔｉａｌｄｅｃｏｄｉｎｇ）方式を適用するとき、自己回帰的デコーディングステップを繰り返すために費やされる時間を低減することができる。

一側面によれば、各部分デコードにおいて、以前の部分デコード結果のうち安定的な部分に該当するトークンをリユースすることで、各部分デコードに必要とされるデコーディングステップのうち前半部の演算消耗を節約することができる。

一側面によれば、自己回帰的デコーディング時の繰り返し回数（デコーディング回数）を制限し、各部分デコードに必要とされるデコーディングステップのうち後半部の演算消耗を節約することができる。

音声認識のための部分デコードが実行される過程を説明するための図である。一実施形態に係るデコーディング装置の動作概念を説明する図である。一実施形態に係るデコーディング方法を示したフローチャートである。一実施形態に係る音声認識のためのネットワークにおけるデコーディング方法を説明するための図である。一実施形態に係るリユーストークンを決定する方法を説明するための図である。他の実施形態に係るリユーストークンを決定する方法を説明するための図である。一実施形態に係るデコーディング方法を説明するための図である。一実施形態に係るデコーディング方法を説明するための図である。一実施形態に係るデコーディング装置の動作過程を説明するための図である。一実施形態に係るデコーディング装置のブロック図である。

実施形態に対する特定の構造的又は機能的な説明は、単なる例示目的として開示されたものであって、様々な形態に変更され得る。したがって、実施形態は、特定の開示形態に限定されるものではなく、本明細書の範囲は、技術的な思想に含まれる変更、均等物、ないし代替物を含む。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は、１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に、第２構成要素は第１構成要素にも命名することができる。

単数の表現は、文脈上、明白に異なる意味をもたない限り、複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的又は科学的な用語を含んで、ここにおいて用いられる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

また、図面を参照して説明する際に、図面番号に拘わらず、同じ構成要素には同じ参照符号を付与し、これに対する重複した説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が本発明の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略される。

図１は、音声認識のための部分デコードが実行される過程を説明するための図である。図１を参照すると、例えば、「ＨｉＢｉｘｂｙ、ｗｈａｔｉｓｔｈｅｗｅａｔｈｅｒｌｉｋｅｔｏｍｏｒｒｏｗ？」という入力音声に対する部分デコードが実行される過程が示されている。

アテンションに基づいたエンコーダ－デコーダ（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ）構造の音声認識装置は、音源とトークンとの間の配列情報がなくとも、音源の特徴的な部分に直ちに高い加重値を加えて処理することができ、並列化が容易であるため、大量のデータで迅速にトレーニングされ得る。エンコーダ－デコーダ構造において、エンコーダは、音源が入力されて、デコーダが処理できる符号化されたベクトルのシーケンスに変換することができる。また、デコーダは、以前までは自分がデコーディングしたトークン出力を再び入力として受ける自己回帰的（ａｕｔｏ－ｒｅｇｒｅｓｓｉｖｅ）方式に基づき、エンコーダがエンコーディングしたベクトルが共に入力されて、次に出てくるトークンの確率を予測することができる。

音声認識装置は、例えば、開始トークンが入力され、自分がデコーディングした出力を再び入力して、次のトークンを予測するデコーディングステップ（ｄｅｃｏｄｉｎｇｓｔｅｐ）を繰り返し、全体の文章が終わった後には終了トークンを出力してデコーディングステップを終了することができる。

上述のように、音声認識において、ユーザの音声命令が直ちに処理されることを示す応答性を達成するために、１つ以上の実施形態の音声認識装置は、音声の入力される間に中間結果を出力するストリーミングを行ってもよい。特に、アテンション基盤のエンコーダ－デコーダ音声認識モデルでデコーディングする音源を全て入力した後で、音源の全部に対して一回にデコーディングを開始する場合に、一般的な音声認識装置は、音声の入力される間に中間結果を出力するためのストリーミングを実行しないため、応答性が良好でないことに対してユーザが不満を感じる。従って、ユーザの音声命令が直ちに処理されたことを示す応答性は音声認識を向上させるため、本発明の一実施形態に係る音声認識装置は、音声が入力される間にストリーミングを行って認識結果を出力することができる。音源の入力される間にもデコーディング結果を出力するストリーミングのため、持続的に入ってくる音源をバッファに引き続き累積しながら、一定の時間間隔でそれまで累積された音源をデコーディングする部分デコード（ｐａｒｔｉａｌｄｅｃｏｄｉｎｇ）方法を考慮することができる。

デコーディングが自然に見えるために、極めて短い間隔（例えば、３００ｍｓｅｃ）ごとに累積される音源に対して部分デコードを実行してもよい。この場合、ステップ（０）１１０では「ｈｉ」、ステップ（１）１２０では「ｈｉｂｉｘｂｙｈｕ」、ステップ（２）１３０では「ｈｉｂｉｘｂｙｗｈａｔｅｓｈ」、ステップ（３）１４０では「ｈｉｂｉｘｂｙｗｈａｔｉｓｔｈｅａ」のように部分デコードが実行されてもよい。

図１に示すように部分デコードを行う場合、デコーディングステップが増加するほど各ステップに追加される音源の長さは短いが、累積されるたびに全体入力に対して全体演算を再び行わなければならないことから多くの処理時間が費やされる。また、部分デコード時に、入力中である音声の終わり部分が３００ｍｓｅｃに合わせてステップ（１）１２０の「ｈｕ」、ステップ（２）１３０の「ｅｓｈ」、及びステップ（３）１４０の「ｔｈｅａ」のように突然切られることから、不正確な中間デコーディング結果を出力することになる。

その他にも、デコーディングステップの繰り返し回数に比例して処理時間が多く費やされるため、音源が長くなるほど処理時間が増大し、次のデコーディングステップが開始される３００ｍｓｅｃ以前に部分デコードを終了しない場合もある。特に、音源の最後での部分デコードは、音源が完全に終了した後に開始することになる。この場合、部分デコードを使用するとしても、以前に音源の累積する時間を全く活用できないことから、音源終了時点と最終音声デコーディングの結果を受信する時点との間の最終遅延時間（ｌａｔｅｎｃｙ）が増加してしまう。

図２は、一実施形態に係るデコーディング装置の動作概念を説明する図である。図２を参照すると、入力音声である「ｈｉ，ｂｉｘｂｙ」に対する自己回帰的（ａｕｔｏ－ｒｅｇｒｅｓｓｉｖｅ）デコーディング過程を示している。

一実施形態に係るデコーディング装置は、決定されていない長さの出力をネットワークで算出するために、トークンごとにネットワークの以前出力を入力にして、次の出力を続けて出力していく自己回帰的デコーディングを実行し、話者の入力音声に集中することができる。「トークン（ｔｏｋｅｎ）」は、１つのシーケンスを構成している単位であって、例えば、単語（ｗｏｒｄ）、部分単語（ｓｕｂｗｏｒｄ）、下位文字列（ｓｕｂｓｔｒｉｎｇ）、字（ｃｈａｒａｃｔｅｒ）、あるいは単一の字をなしている単位（例えば、ハングルでは初音、中音、終音など）がある。

例えば、入力音声「ｈｉ，ｂｉｘｂｙ」が順次入力されてもよい。この場合、デコーディング装置は、入力音声に対して図２に示すように、自己回帰的デコーディングを介してデコーディングステップを繰り返し、毎回以前ステップの出力が入力され、次のステップのトークンを探す。自己回帰的デコーディングは、以前のステップの出力トークンが、次のステップの出力トークンを決定するのに影響を及ぼす。

一実施形態に係るエンコーディング装置のネットワークは、例えば、アテンション基盤のエンコーダ－デコーダ音声認識モデルを含んでもよい。エンコーディング装置は、持続的に入ってくる音源をバッファに引き続き累積し、一定の時間間隔をもって今まで累積されてきた音源をデコーディングすることを繰り返す部分デコード（ｐａｒｔｉａｌｄｅｃｏｄｉｎｇ）方法に基づいてデコーディングを行ってもよい。

デコーディング装置は、次のステップに対する部分デコードが開始される前に、以前のステップに対するデコーディングを終了させることができ、ストリーミングのための特別な学習方法や構造変化がなくても、アテンション基盤エンコーダ－デコーダ音声認識モデルを用いて、ユーザの音声命令を発話している間に直ちにデコーディングを行うことができる。

ステップ（０）２１０において、デコーディング装置は、入力音声の開始を示す開始トークン＜ｓ＞と共に「ｈｉ」を部分デコードし得る。デコーディング装置は、音源のうち「ｈｉ」に該当する部分に高い加重値を付加することで「ｈｉ」に集中して音源をデコーディングできる。

ステップ（１）２２０において、デコーディング装置は、「ｈｉ」に後続する「ｂｉｘ」を部分デコードし得る。デコーディング装置は、「ｂｉｘ」に該当する部分に集中して音源をデコーディングできる。

同様に、デコーディング装置は、ステップ（２）２３０において、「ｂｉｘ」に後続する「ｂｙ」に集中して部分デコードを行う。

デコーディング装置は、ステップ（３）２４０において、「ｂｙ」以後に該当入力音声の最後を示す終了トークン＜ｅ＞をデコーディングする。

部分デコードを行う場合、１つ以上の実施形態に係るデコーディング装置は、トレーニング時に順次演算する必要がなく、開始トークン＜ｓ＞に右側シフト（ｒｉｇｈｔｓｈｉｆｔ）された入力音声から終了トークン＜ｅ＞が付いている最後のトークンをすぐ探すため、並列化に有利である。推論の際に、デコーディング装置は、特定のステップまでの出力を正確に把握すれば、引き続きデコーディングしてきたように、直ちに次のステップのトークンを予測することができる。

部分デコードの結果において、新しく累積された音源付近では、その音源内に含まれている新しいトークン、あるいは不正確な予測によりデコーディング結果が変わり得る場合もあるが、図２に示すように、音源が十分に累積されている前の部分のデコーディング結果はほとんど変わらない。また、並列的に学習可能なデコーダは、開始トークンでのみ自己回帰的デコーディングを開始する必要がなく、トークンシーケンスが入力されたときのすぐ次のステップから出力されるトークンの確率を予測することができる。

一実施形態において、前述した事項に基づいて、１つ以上の実施形態に係るデコーディング装置は、以前の部分デコード結果のうち安定的な部分に該当するトークンを各部分デコードにおいてユースすることができる。従って、１つ以上の実施形態に係るデコーディング装置は、自己回帰的デコーディングステップで繰り返す前の部分を処理するために費やされる処理負荷を節減できる。このような方式は、例えば、前のランナーが次のランナーにバトンを伝達するリレー走りのように、前のデコーディングステップの結果を次のデコーディングステップにおいてリユースするという点で、「リレーデコーディング（ｒｅｌａｙｄｅｃｏｄｉｎｇ）」と呼ぶことができる。

また、一実施形態において、自己回帰的デコーディング時にデコーディングステップの繰り返し回数を予め設定された回数に制限することで、各部分デコードに必要とされるデコーディングステップのうち、後の部分を処理するために費やされる負荷を低減できる。一実施形態において、各部分デコードの全体デコーディングステップの数を減らすことで全体の演算量を節約し、各デコーディングステップで費やされる時間を低減できる。このような方式は、前述したリレーデコーディングに加えて、部分デコードの繰り返し回数を制限するという点で、「限られたリレーデコーディング（ｌｉｍｉｔｅｄｒｅｌａｙｄｅｃｏｄｉｎｇ）」と呼ぶことができる。

図３は、一実施形態に係るデコーディング方法を示したフローチャートである。図３を参照すると、デコーディング装置が、ステップＳ３１０～ステップＳ３４０を介して、音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）のためのネットワークにより現在時点の入力音声に対する１つ以上のトークンを出力する過程が示されている。

ネットワークは、例えば、エンコーダレイヤ及び自己回帰的デコーダレイヤを含む、アテンション基盤のエンコーダ－デコーダモデルを含んでもよい。

又は、ネットワークは、例えば、セルフアテンションネットワーク（ＳＡＮＮ；Ｓｅｌｆ－ＡｔｔｅｎｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、回帰型ニューラルネットワーク（ＲＮＮ；ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、畳み込みニューラルネットワーク（ＣＮＮ；ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＢＲＮＮ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＲＮＮ）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）、ＢＬＳＴＭ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ）、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）、及び／又は、ＢＧＲＵ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＧＲＵ）などであってもよく、必ずしもこれに限定されることはない。

ネットワークは、入力音声に対応する入力特徴ベクトルが入力され、これに対応する認識結果を出力することができる。ネットワーク内のレイヤのノードは非線形であって、互いに影響を与える関係であり、各ノードから出力される値、ノード間の関係などのようなネットワークのパラメータは、トレーニングによって最適化される。

ネットワークは、一方の端から入力されて他方の端において出力を生成するが、入力及び出力を直接考慮して、ネットワークの加重値を最適化することができる。ネットワークは、例えば、エンコーダレイヤ及び自己回帰的デコーダレイヤを含んでもよい。エンコーダレイヤは「エンコーダ」のように称し、デコーダレイヤは「デコーダ」のように称してもよい。以下、エンコーダレイヤとエンコーダは互いに混用され、デコーダレイヤとデコーダも互いに混用されてよい。

ネットワークは、例えば、エンコーダ－デコーダ構造のネットワークであってもよい。ネットワークは、ネットワークモデルの全てのパラメータが１つの損失関数に対して同時にトレーニングされてよく、別にトレーニングされてもよい。ネットワークモデルの全てのパラメータが１つの損失関数に対して同時にトレーニングされる場合、エンコーダとデコーダが、同時にトレーニングされ得る。

エンコーダとデコーダは、入力された特徴ベクトルから認識結果のシーケンスを生成するように予めトレーニングされてよい。例えば、エンコーダとデコーダは、入力音声に対応する正解テキストの対のシーケンスから認識結果のシーケンスを生成するように予めトレーニングされてもよい。

ステップＳ３１０において、デコーディング装置は、現在時点の入力音声に対応する入力シーケンスを受信する。「入力音声」は、話者の入力音声信号をウェーブ（ｗａｖｅ）形態で示したウェーブファイルを、周波数の形態で示したスペクトログラム（ｓｐｅｃｔｒｏｇｒａｍ）、ＭＦＣＣ（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）など、を全て含む包括的な意味である。入力シーケンスは、入力音声と入力音声から抽出された入力音声特徴ベクトルを含んでもよい。入力シーケンスは、ネットワークによって処理可能に切れた信号である。

ステップＳ３２０において、デコーディング装置は、ステップＳ３１０で受信した入力シーケンスをエンコーディングして、符号化されたベクトルシーケンスを生成する。デコーディング装置は、ネットワークに含まれているエンコーダレイヤによって入力シーケンスをエンコーディングすることで、符号化されたベクトルシーケンスを生成することができる。エンコーダレイヤは、入力された入力シーケンスをエンコーディングし、エンコーディングされた特徴（例えば、符号化されたベクトルシーケンス）を生成することができる。例えば、エンコーダレイヤは、特徴ベクトルの次元を変換させ、エンコーディングされた情報を生成することができる。エンコーダレイヤによりエンコーディングされた特徴（例えば、符号化されたベクトルシーケンス）は、デコーダで印加されてもよい。エンコーダレイヤは、入力シーケンスを順次入力されて、エンコーディングした後でデコーダレイヤに送信し、デコーダレイヤは、エンコーディング結果（例えば、エンコーディングの結果）を受信して、エンコーディング結果に基づいて、音声認識された単語を１個ずつ順次出力することができる。

ステップＳ３２０において、デコーディング装置は、以前時点までの入力シーケンスに、現在時点の入力音声に対応する入力シーケンスが累積されたシーケンスを生成する。デコーディング装置は、累積されたシーケンスをエンコーディングして、符号化されたベクトルシーケンスを生成することができる。

ステップＳ３３０において、デコーディング装置は、２つ以上の以前時点の候補ビームを比較することで、以前時点の候補ビームからリユーストークンを決定する。デコーディング装置は、ｎ－２（ｎ≧３である自然数）以前時点の候補ビームと、ｎ－２以前時点に後続するｎ－１以前時点の候補ビームとの間の比較結果に基づいて、ｎ－１以前時点に後続するｎ現在時点におけるトークンのリユース時点を決定することができる。デコーディング装置は、例えば、ｎ－２以前時点の候補ビーム及びｎ－１以前時点の候補ビームにおいて最も多い下位文字列（ｓｕｂｓｔｒｉｎｇ）が一致する時点を、ｎ現在時点におけるトークンのリユース時点として決定することができる。リユース時点は、デコーディング結果が変化することなく安定的な時点であるため、「安定的な時点」のように称してもよい。以下、リユース時点と安定的な時点は互いに混用されてもよい。一実施形態において、ｎ－２以前時点は、ｎ－２デコーディングステップに対応する時点を意味し、ｎ－１以前時点は、ｎ－１デコーディングステップに対応する時点を意味し、ｎ現在時点は、ｎデコーディングステップに対応する時点を意味するものと理解されてもよい。以下、「ｎ－２以前時点」と「ｎ－２デコーディングステップ」、「ｎ－１以前時点」と「ｎ－１デコーディングステップ」、及び、「現在時点」と「ｎデコーディングステップ」は、互いに混用されてもよい。

デコーディング装置は、リユース時点まで累積された候補ビームを、リユーストークンとして決定することができる。自己回帰的エンコーダレイヤからエンコーディングされた特徴を受信したデコーダレイヤは、トークン単位で認識結果を出力してもよい。自己回帰的デコーダレイヤは、以前のステップまで選択されていた入力トークンに従属されて、出力トークンを生成してもよい。デコーディング装置は、出力トークンとして選択されたトークンが次の入力トークンとして決定されてもよい。デコーディング装置は、自己回帰的デコーダレイヤにより、各デコーディングステップにおいて、次のステップのトークンを出力するときに、リユーストークンを使用することができる。例えば、自己回帰的デコーダレイヤは、「天気はどうですか？」という文章から「どうですか」を認識するときに、「天気は」という出力を使用することができる。デコーディング装置がリユーストークンを決定する方法について、以下の図５～図６を参照して、より具体的に説明する。

ステップＳ３４０において、デコーディング装置は、ステップＳ３２０で生成したベクトルシーケンス、及び、ステップＳ３３０で決定したリユーストークンに基づいて、リユーストークンに後続する１つ以上のトークンをデコーディングする。デコーディング装置は、デコーディングの以前の時点におけるトークンの組み合せの確率に基づいて、次の時点のデコーディングに使用される候補ビームを決定することができる。デコーディング装置は、候補ビームのうち、トークンのリユース時点に該当する１つ以上の候補ビームを用いて１つ以上のトークンをデコーディングしてもよい。ここで、候補ビームは、次の時点のビームサーチ（ｂｅａｍｓｅａｒｃｈ）を行う候補ビームである。デコーディング装置は、候補ビームのうちトークンのリユース時点に該当する１つ以上の候補ビームを用いて１つ以上のトークンをデコーディングしてもよい。デコーディング装置は、候補ビームのうち確率の高い候補ビームをリユースするビームサーチアルゴリズムによりトークンのリユース時点に該当する１つ以上の候補ビームを決定してもよい。デコーディング装置は、デコーディングの以前時点ごとに次の時点のデコーディングに使用される候補ビームを格納してもよい。デコーディング装置は、例えば、リユース時点までの候補ビームのうち、最も高い候補ビーム、及び、最も高い候補ビームに対応するビームステート（ｂｅａｍｓｔａｔｅ）のうち少なくとも１つを格納してもよい。ビームステートについては後述する。

デコーディング装置は、候補ビームのうちトークンのリユース時点に該当する１つ以上の候補ビームをネットワークに含まれている自己回帰的デコーダレイヤに入力して、１つ以上のトークンをデコーディングすることができる。ここで、自己回帰的デコーダレイヤは、トークンごとに以前のステップまで認識されたトークンに基づいて、出力トークンを決定する自己回帰的デコーディングを行うことができる。デコーディング装置は、ステップごとにエンコーダレイヤから算出された情報に基づいて、出力トークンを算出する。ここで、出力トークンは、以前のステップまで選択された入力トークンに従属する。

ステップＳ３４０において、デコーディング装置は、リユーストークン及びベクトルシーケンスに基づいて、リユーストークンに後続する複数のトークン候補の確率を予測する。デコーディング装置は、複数のトークン候補の確率に基づいて、１つ以上のトークンを決定してもよい。デコーディング装置は、複数のトークン候補のうち確率の最も高いトークン候補を最終的にデコーディングされるトークンとして決定することができる。

例えば、入力音声が終了していない場合、デコーディング装置は、予め設定された回数だけ１つ以上のトークンをデコーディングしてもよい。予め設定された回数は、例えば、３回、又は、５回であってもよい。音声が終了していない場合、自己回帰的デコーディングステップの最後まで全てをデコーディングする必要がないため、デコーディング装置は、限られた回数だけデコーディングステップを行うことで、デコーディング時間を低減することができる。ここで、デコーディング装置は、デコーディングステップごとのビーム候補及び／又はビーム候補のビームステートを格納してもよい。デコーディング装置が１つ以上のトークンをデコーディングする方法について、以下の図７～図８を参照して、より具体的に説明する。

図４は、一実施形態に係る音声認識のためのネットワークにおけるデコーディング方法を説明するための図である。図４を参照すると、デコーディング装置がリユーストークンによって入力音声（「ＨｉＢｉｘｂｙ、ｗｈａｔｉｓｔｈｅｗｅａｔｈｅｒｌｉｋｅｔｏｍｏｒｒｏｗ？」）をデコーディングする一つの実施例を示している。

例えば、部分デコードステップ（０）４１０において、「ｈｉ」が受信されたとする。デコーディング装置は、部分デコードステップ（０）４１０直前の２つの部分デコードステップがないため、ビーム候補なしに「ｈｉ」に対する自己回帰的デコーディングを実行する。

部分デコードステップ（１）４２０において、「ｈｉｂｉｘｂｙｈｕ」が受信されたとする。デコーディング装置は、同様に、部分デコードステップ（１）４２０直前の２つの部分デコードステップがないため、ビーム候補なしに「ｈｉｂｉｘｂｙｈｕ」に対する自己回帰的デコーディングを実行する。

部分デコードステップ（２）４３０において、「ｈｉｂｉｘｂｙｗｈａｔｅｓｈｈ」が受信されたとする。デコーディング装置は、部分デコードステップ（２）４３０の「ｈｉｂｉｘｂｙｗｈａｔｅｓｈｈ」に対応する候補ビームを、例えば、図５に示すｎ－２番目のステップ５１０の候補ビームのように生成することができる。

また、部分デコードステップＳ（３）４４０において、「ｈｉｂｉｘｂｙｗｈａｔｉｓｔｈｅａ」が受信されたとする。デコーディング装置は、部分デコードステップＳ（３）４４０の「ｈｉｂｉｘｂｙｗｈａｔｉｓｔｈｅａ」に対応する候補ビームを、例えば、図５に示すｎ－１番目のステップ５３０の候補ビームのように生成することができる。

デコーディング装置は、「ｈｉｂｉｘｂｙｗｈａｔｅｓｈｈ」に対応する候補ビーム、および、「ｈｉｂｉｘｂｙｗｈａｔｉｓｔｈｅａ」に対応する候補ビームのうち、最も多い下位文字列である「ｈｉｂｉｘｂｙｗｈａｔ」が一致する時点（例えば、６９０ｍｓｅｃ）をリユース時点として決定することができる。デコーディング装置は、リユース時点まで累積された候補ビーム（「ｈｉｂｉｘｂｙｗｈａｔ」）をリユーストークンとして決定する。

デコーディング装置は、前述のように、以前のステップの部分デコード結果を比較して、安定的な時点、言い換えれば、リユース時点に対応するリユーストークンを決定する。また、デコーディング装置は、リユース時点のビーム候補を、安定的なビーム候補とみなして、＜開始＞トークンの代わりに、デコーダの入力として用いてもよい。デコーディング装置は、リユーストークンを用いてデコーディングを開始することで、＜開始＞トークンから自己回帰的デコーディングを引き続いてきたように、直ちに、次のステップのトークンを予測することができる。

デコーディング装置は、次の部分デコードステップで新しく累積された音源および安定的なビーム候補から、ビームサーチを開始する際に使用するビーム候補の確率を再算出することができる。ここで、アテンション（ａｔｔｅｎｔｉｏｎ）算出に必要な隠れステート（ｈｉｄｄｅｎｓｔａｔｅ）は、ネットワークをトレーニングするときのように、マトリックス演算を介して様々なデコーディングステップを繰り返すことなく、一回で算出することができる。

図５は、一つの実施形態により、リユーストークンを決定する方法を説明するための図である。図５を参照すると、一つの実施形態により、ビームサーチアルゴリズムを用いることなく、リユーストークンを決定する過程を示している。

デコーディング装置が自己回帰的に自分の出力を再び入力するとき、全てのリユーストークンについて次のトークンの確率を予測すれば、可能な全ての組み合わせを比較することができる。

例えば、現在時点が部分デコードステップのうちｎ番目のステップ５７０であると仮定する。この場合、デコーディング装置は、ｎ番目の部分デコードステップ直前の２つのステップ（ｎ－２番目の部分デコードステップ５１０と、ｎ－１番目の部分デコードステップ５２０）の出力結果（候補ビーム）において最も多くの下位文字列が一致する時点である３番目のトークン（＜ｓ＞ｈｉｂｉｘｂｙ）まで、を安定的なビーム候補として決定することができる。

デコーディング装置は、前述したリレーデコーディングによってｎ番目のステップ５７０の開始時に開始トークンである＜ｓ＞の代わりに、安定的なビーム候補（＜ｓ＞ｈｉｂｉｘｂｙ）５５０をリユーストークンとして決定し、デコーダの入力５７５として使用できる。ここで、デコーディング装置は、３番目のトークン（＜ｓ＞ｈｉｂｉｘｂｙ）までをビーム候補としてデコーダの入力５７５に全てコピーしてもよい。

ｎ番目のステップ５７０において、デコーディング装置は、新しく累積された音源（例えば、「ｗｈａｔ」）とビーム候補（＜ｓ＞ｈｉｂｉｘｂｙ）５５０から、ビームサーチ時に使用するビーム候補の確率を再算出する。

但し、ｎ番目のステップ５７０のように、単に同一である部分（例えば、３番目のトークン（＜ｓ＞ｈｉｂｉｘｂｙ）まで）をビーム候補５５０として決定し、自己回帰的デコーディング時にデコーダの入力５７５として全てコピーする場合、部分デコードステップごとにビームの大きさが１に減少して性能が低下する恐れがある。

図６は、他の実施形態によりリ、ユーストークンを決定する方法を説明するための図である。図６を参照すると、一つの実施形態に係るビームサーチアルゴリズムを用いてリユーストークンを決定する過程が示されている。

一つの実施形態において、トークンのうち確率の高い上位数個の複数のトークン候補を再び入力として使用するビームサーチ（ｂｅａｍｓｅａｒｃｈ）アルゴリズムを用いて、最大に多くのトークンの組み合せ確率を算出し、このうち最適に近似の正解を探すことができる。従って、一つの実施形態に係る復号化装置は、部分デコードステップごとに、ビームの大きさが１に減少することによって、発生する性能低下を解消できる。

例えば、最も確率の高いビーム候補が保持されている状態で、デコーディングステップを無条件に繰り返す場合には、予測する出力トークンの確率が次第に低下することがある。デコーディング装置は、現在最も確率の高いビーム候補よりも高い確率を有するビーム候補、又は、トークン候補を見つからない場合、ビームサーチアルゴリズムを終了し、探されたビーム候補のうち最も確率の高いビーム候補を最終デコーディング結果として出力することができる。

例えば、現在時点が部分デコードステップのうちｎ番目のステップ６７０であると仮定する。デコーディング装置は、ｎ番目のステップ６７０直前の２つの部分デコードステップ（ｎ－２番目のステップ６１０と、ｎ－１番目のステップ６２０）の出力結果（候補ビーム）において最も多い下位文字列が一致する時点に対応する３番目のトークン（＜ｓ＞ｈｉｂｉｘｂｙ）まで、を安定的なビーム候補としてみなす。ここで、デコーディング装置は、直前の部分デコードのデコーディングステップごとに、ビームサーチアルゴリズムの実行結果に該当のビームステートを格納しておく。ここで、ビームステートは、自己回帰的デコーディングにおいてデコーダレイヤに入力されるシーケンス（以下、ビーム）を示すために使用される用語である。デコーディングレイヤは、現在のステップで取得した全てのトークン（例えば、ビーム×総トークンの個数だけのトークン）の確率を出力することができる。ここで、本来のビームの確率に現在のステップで出力されるトークンの確率を乗算すると、現在のステップまでの文章が出力された確率が取得される。デコーディング装置は、１トークンずつ増加した文章のうち、確率の高い順にビームサイズの個数だけのトークンを抽出して、次の自己回帰的デコーディングステップにデコーダレイヤに入力されるビームとして用いてもよい。ここで、デコーディング装置は、毎回固定された数を選ぶことから、幅が一定である意味として「ビームサーチ（ｂｅａｍｓｅａｒｃｈ）」という名を用いることができる。

ビームステートは、前述のように、デコーディングステップごとに１トークンずつ増加した文章のうち、確率の高い順に予め設定された個数のトークンを抽出した結果である。一般的に、次のデコーディングステップにおいて最終的にデコーダレイヤに印加されるものをビームと呼ぶが、一つの実施形態では、確率の高い順に予め設定された個数のトークンをステップごとに格納し、このように格納されたトークンをビームステートと呼ぶ。

デコーディング装置は、ｎ－２番目のステップ６１０のビームステートと、ｎ－１番目のステップ６２０のビームステートを格納することができる。

デコーディング装置は、直前の２つの部分デコードステップの出力を比較し、安定的な時点の位置が、例えば、３番目のトークンまでの位置として決定された場合、安定的な時点の位置に該当するｎ－１番目のステップ６３０のビームステート６３５を、リレーデコードに直ちに使用することができる。

デコーディング装置は、安定的な時点の位置（３番目のトークン）までのビームサーチアルゴリズムの実行結果であるビームステート６３５を、ｎ番目のステップ６７０の開始時に開始トークン＜ｓ＞の代わりに、デコーダの入力６７５として用いてもよい。

ｎ番目のステップ６７０において、デコーディング装置は、新しく累積された音源（例えば、「ｗｈａｔ」）とデコーダ入力６７５からビームサーチ時に使用するビーム候補の確率を再算出することができる。

図７は、一つの実施形態に係るデコーディング方法を説明するための図である。図７を参照すると、前述したリレーデコーディングを介して、部分デコードステップの実行回数が減少した結果を示す、図面７００が示されている。

一つの実施形態によれば、前述したリレーデコーディングを介して、図面７００において、安定的な時点に対応するトークンを矢印７１０のように、次のステップで開始トークンの代わりにリユースすることで、部分デコード時に安定的な時点に対応する以前ステップ７３０の実行を節減することができる。デコーディング装置は、各部分デコード時に、前のステップ７３０を除外した残りの自己回帰的ステップ７５０を行ってもよい。

図８は、一つの実施形態に係るデコーディング方法を説明するための図である。図８を参照すると、前述した限られたリレーデコーディングを介して、部分デコードステップの実行回数が減少した結果を示す図面８００が示されている。

図７を参照して前述したように、デコーディング装置は、図面８００で安定的な時点に対応するトークンを、矢印８１０及び矢印８２０のように、次のステップで開始トークンの代わりにリユースすることで、部分デコード時に安定的な時点に該当する以前ステップ８３０の実行を節減することができる。

また、デコーディング装置は、各部分デコード時に前のステップ８３０を除外した残りの自己回帰的ステップの繰り返し回数を、例えば、３回又は５回に制限して、制限回数を超過する後のステップ８４０のデコーディングを実行しなくてもよい。

例えば、トレーニングの間にトレーニングサンプルは、レコーディングの環境上、一時的に前後に無音（ｓｉｌｅｎｃｅ）を含む場合があるが、突然切られた音源において安定的な時点であると決定することができ、切られた領域に隣接するデコーディングの結果が正確でないこともある。また、人の正常な発話速度では、部分デコードが実行される１単位である３００ｍｓ内に２～３個のトークン以上を話すのは難しい。従って、１回の部分デコードに追加的に得られるリユーストークンも所定のトークン数を超えないようにすることができる。

一つの実施形態において、音源入力が終了せず累積された場合、自己回帰的ステップの繰り返し回数を３回に制限し、前のステップ８３０の後に、３回の自己回帰的ステップのみを繰り返し、制限回数を超過する後続のステップ８４０を実行するによって、メモリ及びプロセッシングの負荷を減らすことができる。

例えば、音源入力が終了する場合、デコーディング装置は、音源入力が終了した後の最後のデコードステップ８５０において、本来のビームサーチアルゴリズムの終了条件に応じて音源の最後まで、デコーディングを行うことができる。

図９は、一つの実施形態に係るデコーディング装置の動作過程を説明するための図である。図９を参照すると、エンコーダレイヤを含むエンコーダモジュール９１０、限られた自己回帰的デコーディングモジュール（ｌｉｍｉｔｅｄａｕｔｏ－ｒｅｇｒｅｓｓｉｖｅｄｅｃｏｄｉｎｇ）（以下、「デコーディングモジュール」）９２０、安定化ビーム決定モジュール９５０、及び確率再算出モジュール９６０を含む、デコーディング装置９００が示されている。

デコーディングモジュール９２０は、デコーダモジュール９２３及びビームサーチモジュール９２６を含む。ビームサーチモジュール９２６は、候補ビームのうち確率の高い候補ビームをリユースするビームサーチアルゴリズムによって、トークンのリユース時点に該当する１つ以上の候補ビームを決定することができる。デコーダモジュール９２３は、ビームサーチモジュール９２６によって決定されたいずれか１つの候補ビームのうち、トークンのリユース時点に該当する１つ以上の候補ビームを、ビームサーチモジュール９２６に入力して、１つ以上のトークンをデコーディングすることができる。

例えば、ｎ－２番目の部分デコードステップにおいて、話者の入力音声に対応する部分波（ｐａｒｔｉａｌｗａｖｅ）形態の入力シーケンス９０５が受信されたと仮定する。

デコーディング装置９００は、エンコーダモジュール９１０－１によって入力シーケンス９０５をエンコーディングして、符号化されたベクトルシーケンスを生成することができる。符号化されたベクトルシーケンスは、デコーディングモジュール９２０－１に伝達され得る。符号化されたベクトルシーケンスは、デコーダモジュール９２３－１に印加されて、デコーディングされてもよい。デコーダモジュール９２３－１のデコーディング結果は、ビームサーチモジュール９２６－１に伝達される。ビームサーチモジュール９２６－１は、ビームサーチアルゴリズムによって、デコーダモジュール９２３－１のデコーディング結果に該当する候補ビームのうち、確率の最も高いいずれか１つの候補ビームを決定してもよい。確率の最も高いいずれか１つの候補ビームは、ｎ－２部分デコードステップのデコーディング結果９３０として出力される一方で、自己回帰的デコーディングのために、デコーダモジュール９２３－１に再入力されてもよい。

３００ｍｓｅｃ以後のｎ－１番目の部分デコードステップにおいて、話者の入力音声に対応する部分波形態の入力シーケンス９３５が受信されたと仮定する。ここで、入力シーケンス９３５は、入力シーケンス９０５以後の３００ｍｓｅｃに該当する入力音声が追加的に累積されたものである。

デコーディング装置９００は、エンコーダモジュール９１０－２によって入力シーケンス９３５をエンコーディングして、符号化されたベクトルシーケンスを生成する。符号化されたベクトルシーケンスは、デコーディングモジュール９２０－２に伝達される。符号化されたベクトルシーケンスは、デコーダモジュール９２３－２に印加されて、デコーディングされてもよい。デコーダモジュール９２３－２のデコーディング結果は、ビームサーチモジュール９２６－２に伝達される。ビームサーチモジュール９２６－２は、ビームサーチアルゴリズムによりデコーダモジュール９２３－２のデコーディング結果に該当する候補ビームのうち、確率の最も高いいずれか１つの候補ビームを決定することができる。確率の最も高いいずれか１つの候補ビームは、ｎ－１番目の部分デコードステップのデコーディング結果９４０として出力される一方で、自己回帰的デコーディングのためにデコーダモジュール９２３－２に再入力されてもよい。

ここで、ｎ－２番目の部分デコードステップ及びｎ－１番目の部分デコードステップでは、直前の２つの部分デコードステップがないため、デコーディング装置９００は、ビーム候補なしに一般的な自己回帰的デコーディングを限られた回数（例えば、３回又は５回）分だけ実行することができる。

デコーディング装置９００は、各ステップの部分デコードでビームサーチアルゴリズムを行うとき、自己回帰的デコーディングで、再びデコーダモジュール９２３に入力されるビーム候補を、全て格納することができる。また、デコーディング装置９００は、ビームサーチアルゴリズムの実行結果に該当するビームステートを、デコーディングステップごとに全て格納することができる。

例えば、安定化ビーム決定モジュール（Ｓｔａｂｉｌｉｚｅｄｂｅａｍｄｅｃｉｓｉｏｎｍｏｄｕｌｅ）９５０は、直前の２つのステップのデコーディング結果、言い換えれば、ｎ－２番目の部分デコードステップのデコーディング結果９３０と、ｎ－１番目の部分デコードステップのデコーディング結果９４０とを比較し、最も多くの部分文字列が一致する時点を安定的なデコーディングステップとして決定する。

安定化ビーム決定モジュール９５０は、直前の２つのステップの実行により、格納していたビーム候補のうち、安定的なデコーディングステップに該当するビーム候補、又は直前の２つのステップのビームサーチアルゴリズムの実行結果に該当するビームステートを呼び出して、デコーダモジュール９２３－３に提供することができる。デコーディング装置９００は、呼び出したビーム候補又はビームステートからｎ番目の部分デコードステップを開始する。

ｎ番目の部分デコードステップにおいて、デコーディング装置９００は、エンコーダモジュール９１０－３によって、入力シーケンス９５５をエンコーディングして、符号化されたベクトルシーケンスを生成する。エンコーダモジュール９１０－３は、入力シーケンス９５５をエンコーディングして生成した、符号化されたベクトルシーケンスを確率再算出モジュール９６０に伝達することができる。

ここで、入力シーケンス９５５は、以前のｎ－１ステップに比べて３００ｍｓ分量がさらに増加したため、デコーディング装置９００は、確率再算出モジュール９６０を介して、増加した音源分量に対するビーム候補の確率を再算出することができる。すでにビーム候補のトークンを把握しているため、確率再算出モジュール９６０は、順次にデコーディングステップを繰り返す自己回帰的デコーディングを行う必要がなく、各トークンの確率を並列的に一回に算出し、合わせて確率を一回に取得できる。これによって、演算量そのものは同一であるが、該当ステップまで自己回帰的デコーディングを繰り返すために費やされる時間を減らすことができる。

デコーディング装置９００は、ｎ番目の部分デコードステップのためにデコーダモジュール９２３－３に入力されるビーム候補と、ビームサーチモジュール９２６－３に入力される初期確率値とを備えた後で、デコーディングモジュール９２０－３が限られた回数だけ自己回帰的デコーディングを行うようにすることができる。

デコーダモジュール９２３－３は、入力シーケンス９５５をエンコーディングして生成した、符号化されたベクトルシーケンス、及び、安定化ビーム決定モジュール９５０から伝達された安定的なデコーディングステップに該当するビーム候補、又は、直前の２つのステップにおけるビームサーチアルゴリズムの実行結果に該当するビームステート、に対するデコーディングを行ってもよい。デコーダモジュール９２３－３の出力結果は、例えば、４×１０８８個のビーム候補である。

ビームサーチモジュール９２６－３は、４×１０８８個のビーム候補のうち、最も確率の高いビーム候補をｎ番目のステップのデコーディング結果９７０として出力することができる。

一つの実施形態においては、安定化の可能性の高い先頭部分のみを強制的にデコーディングすることで、音源が不安定になる確率が低くなるため、一つの実施形態に係るデコーディング装置９００は、デコーディングステップが頻繁に繰り返されることを防止できる。また、一つの実施形態に係るデコーディング装置９００は、自己回帰的デコーディングを決定回数だけ実行することで、音源が増加して音源が長くなっても、それぞれの部分デコードステップごとに費やされる時間を一定に保持することができる。

もし、音声入力が明確な発音を有するために持続的に高い確率を示す場合、安定的なビーム決定モジュール９５０は、毎回、部分デコードステップにおいて追加されたデコーディングされた結果のほとんどが持続的に安定したものと判断し、部分デコードステップごとに安定的な（音源）領域が迅速に増加するようにすることができる。これとは反対に、デコーディングされた結果が頻繁に変わる場合、安定的なビームモジュール９５０は、毎回、部分デコードステップにおける追加結果を廃棄し、デコーディング結果が安定化するよう十分に累積されるまで、繰り返しデコーディングを行うことができる。

これ以上音源が入ってこない最後の部分デコードステップにおいて、デコーディング装置９００は、デコーディング回数が制限されることなく、ビームサーチモジュール９２６が終了条件を満足するまでデコーディングを実行し、結果を出力することができる。

図１０は、一つの実施形態に係るデコーディング装置のブロック図である。図１０を参照すると、一つの実施形態に係るデコーディング装置１０００は、通信インターフェース１０１０、プロセッサ１０３０（例えば、１つ以上のプロセッサ）、及びメモリ１０５０（例えば、１つ以上のメモリ）を含む。通信インターフェース１０１０、プロセッサ１０３０、及びメモリ１０５０は、通信バス１００５を介して通信することができる。

通信インターフェース１０１０は、現在時点の入力音声に対応する入力シーケンスを受信する。

プロセッサ１０３０は、入力シーケンスをエンコーディングして、符号化されたベクトルシーケンスを生成する。プロセッサ１０３０は、２つ以上の以前時点の候補ビームを比較することで、以前時点の候補ビームからリユーストークンを決定することができる。プロセッサ１０３０は、リユーストークン及びベクトルシーケンスに基づいて、リユーストークンに後続する１つ以上のトークンをデコーディングする。

プロセッサ１０３０は、リユーストークン後にデコーディングされた１つ以上のトークンに基づいて、入力された音声の音声認識結果を生成する。通信インターフェース１０１０は、音声認識結果を（例えば、通信インターフェース１０１０のディスプレイ及び／又はスピーカを介して）出力してもよい。

また、プロセッサ１０３０は、図１～図９を参照して前述した１つ以上の方法又は１つ以上の方法に対応するアルゴリズムを行ってもよい。プロセッサ１０３０は、目的とする動作（ｄｅｓｉｒｅｄｏｐｅｒａｔｉｏｎｓ）を実行させるための物理的な構造を有する回路付きハードウェアで具現化されたデータ処理装置であってもよい。例えば、目的とする動作は、プログラムに含まれたコード（ｃｏｄｅ）又は命令（ｉｎｓｔｒｕｃｔｉｏｎｓ）を含んでもよい。例えば、ハードウェアで具現化されたデータ処理装置は、マイクロプロセッサー（ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）、中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、プロセッサコア（ｐｒｏｃｅｓｓｏｒｃｏｒｅ）、マルチ－コアプロセッサ（ｍｕｌｔｉ－ｃｏｒｅｐｒｏｃｅｓｓｏｒ）、マルチプロセッサ（ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）を含んでもよい。

プロセッサ１０３０は、プログラムを実行し、デコーディング装置１０００を制御する。プロセッサ１０３０によって実行されるプログラムコードは、メモリ１０５０に格納されてもよい。

メモリ１０５０は、デコーディングの以前時点ごとに次の時点のデコーディングに使用される候補ビームを格納することができる。メモリ１０５０は、上述したプロセッサ１０３０における処理過程で生成される様々な情報を格納してもよい。その他にも、メモリ１０５０は、各種のデータとプログラムなどを格納してもよい。メモリ１０５０は、揮発性メモリ又は不揮発性メモリを含んでもよい。メモリ１０５０は、ハードディスクなどのような大容量ストレージ媒体を備えて、各種のデータを格納してもよい。

デコーディング装置、エンコーダモジュール、デコーディングモジュール、デコーダモジュール、ビームサーチモジュール、安定化されたビーム決定モジュール、確率再算出モジュール、通信インターフェース、プロセッサ、メモリ、通信バス、デコーディング装置９００、エンコーダモジュール９１０、エンコーダモジュール９１０－１、エンコーダモジュール９１０－２、エンコーダモジュール９１０－３、デコーディングモジュール９２０、デコーディングモジュール９２０－１、デコーディングモジュール９２０－２、デコーディングモジュール９２０－３、デコーダモジュール９２３、デコーダモジュール９２３－１、デコーダモジュール９２３－２、デコーダモジュール９２３－３、ビームサーチモジュール９２６、ビームサーチモジュール９２６－１、ビームサーチモジュール９２６－２、ビームサーチモジュール９２６－３、安定化されたビーム決定モジュール９５０、確率再算出モジュール９６０、デコーディング装置１０００、通信インターフェース１０１０、プロセッサ１０３０、メモリ１０５０、通信バス１００５、及び、以上の図１～図１０に関連して説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又は、ハードウェア構成要素及びソフトウェア構成要素の組み合せで具現化される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は、命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現化される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答して、データをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は、１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ、又は、１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又は、そのうちの一つ以上の組合せを含み、希望の通りに動作するように処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、もしくは、送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアは、ネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり、実行され得る。ソフトウェア及びデータは、１つ以上のコンピュータ読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク、及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置、を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために、１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述のように、実施形態が限定された図面によって説明されてきても、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて、様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法とは異なる順で実行されてよく、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法と異なる形態で、結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても、適切な結果を達成することができる。

したがって、他の具現化、他の実施形態、および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。

１０００：デコーディング装置
１００５：通信バス
１０１０：通信インターフェース
１０３０：プロセッサ
１０５０：メモリ

Claims

デコーディング方法であって、
現在時点の入力音声に対応する入力シーケンスを受信するステップと、
音声認識のためのネットワークにおいて、
前記入力シーケンスをエンコーディングして符号化されたベクトルシーケンスを生成するステップと、
２つ以上の以前時点の候補ビームを比較することで、前記以前時点の候補ビームからリユーストークンを決定するステップと、
前記リユーストークン及び前記ベクトルシーケンスに基づいて、前記リユーストークンに後続する１つ以上のトークンをデコーディングするステップと、
を含む、
方法。
前記リユーストークンを決定するステップは、
ｎ－２（ｎ≧３である自然数）以前時点の候補ビームと、ｎ－２以前時点に後続するｎ－１以前時点の候補ビームとの間の比較結果に基づいて、ｎ－１以前時点に後続する現在時間であるｎ現在時点におけるトークンのリユース時点を決定するステップと、
前記リユース時点まで累積された候補ビームを前記リユーストークンとして決定するステップと、
を含む、請求項１に記載の方法。
前記リユース時点を決定するステップは、
ｎ－２以前時点の候補ビーム及びｎ－１以前時点の候補ビームにおいて、下位文字列（ｓｕｂｓｔｒｉｎｇ）が最も多く一致する時点を、前記ｎ現在時点における前記トークンのリユース時点として決定するステップ、
を含む、請求項２に記載の方法。
前記方法は、さらに、
前記リユース時点までの候補ビームの確率のうち最も高い確率を有する候補ビームと、
前記最も高い確率を有する候補ビームに対応するビームステート（ｂｅａｍｓｔａｔｅ）のうちいずれか１つ又は２つ、
を格納するステップと、
を含む、請求項２に記載の方法。
前記１つ以上のトークンをデコーディングするステップは、
前記２つ以上の以前時点でデコーディングの以前時点におけるトークンの組み合わせの確率に基づいて、次の時点のデコーディングに使用される候補ビームを決定するステップと、
前記候補ビームのうち、トークンのリユース時点に該当する１つ以上の候補ビームを用いて前記１つ以上のトークンをデコーディングするステップと、
を含む、請求項１に記載の方法。
前記１つ以上のトークンをデコーディングするステップは、
前記候補ビームのうち、トークンのリユース時点に該当する１つ以上の候補ビームを前記ネットワークに含まれている自己回帰的デコーダレイヤに入力するステップと、
前記１つ以上のトークンをデコーディングするステップと、
を含む、請求項５に記載の方法。
前記１つ以上のトークンをデコーディングするステップは、
前記入力音声が終了していない場合、予め設定された回数だけ前記１つ以上のトークンをデコーディングするステップ、
を含む、請求項１に記載の方法。
前記１つ以上のトークンをデコーディングするステップは、
前記リユーストークン及び前記ベクトルシーケンスに基づいて、前記リユーストークンに後続する複数のトークン候補の確率を予測するステップと、
前記複数のトークン候補の確率に基づいて、前記１つ以上のトークンを決定するステップと、
を含む、請求項１に記載の方法。
前記ベクトルシーケンスを生成するステップは、
前記ネットワークに含まれているエンコーダレイヤによって前記入力シーケンスをエンコーディングすることで、前記符号化されたベクトルシーケンスを生成するステップ、
を含む、請求項１に記載の方法。
前記方法は、さらに、
前記ネットワークにおいて、
前記以前時点までの入力シーケンスに前記現在時点の入力音声に対応する入力シーケンスが累積されたシーケンスを生成するステップ、を含み、
前記ベクトルシーケンスを生成するステップは、
前記累積されたシーケンスをエンコーディングし、前記符号化されたベクトルシーケンスを生成するステップ、
を含む、請求項１に記載の方法。
前記ネットワークは、
エンコーダレイヤ及び自己回帰的デコーダレイヤを含むアテンション基盤のエンコーダ－デコーダモデルを含む、
請求項１に記載の方法。
前記方法は、さらに、
前記リユーストークンに後続するデコーディングされた１つ以上のトークンに基づいて、前記入力音声の音声認識結果を生成するステップ、
を含む、請求項１に記載の方法。
コンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラムであって、
前記コンピュータプログラムは、複数の命令を含み、
前記命令が実行されると、ハードウェアと結合して、請求項１に記載の方法を実行させる、
コンピュータプログラム。
音声認識のためのネットワークを含むデコーディング装置であって、
現在時点の入力音声に対応する入力シーケンスを受信する、通信インターフェースと、
プロセッサであり、
前記入力シーケンスをエンコーディングして符号化されたベクトルシーケンスを生成し、
２つ以上の以前時点の候補ビームを比較することで、前記以前時点の候補ビームからリユーストークンを決定し、
前記リユーストークン及び前記ベクトルシーケンスに基づいて、前記リユーストークンに後続する１つ以上のトークンをデコーディングする、
プロセッサと、
を含む、装置。
前記リユーストークンを決定するために、前記プロセッサは、
ｎ－２以前時点の候補ビームと、ｎ－２以前時点に後続するｎ－１以前時点の候補ビームと間の比較結果に基づいて、ｎ－１以前時点に後続する現在時間であるｎ現在時点におけるトークンのリユース時点を決定し、
前記リユース時点まで累積された候補ビームを前記リユーストークンとして決定する、
請求項１４に記載の装置。
前記リユーストークンを決定するために、前記プロセッサは、
ｎ－２以前時点の候補ビーム及びｎ－１以前時点の候補ビームで下位文字列が最も多く一致する時点を、前記ｎ現在時点における前記トークンのリユース時点として決定する、
請求項１５に記載の装置。
前記装置は、さらに、
次の時点のデコーディングに使用される候補ビームを格納するメモリ、
を含み、
前記１つ以上のトークンをデコーディングするために、前記プロセッサは、
前記２つ以上の以前時間のうち、前記デコーディングの以前時点におけるトークンの組み合せの確率に基づいて、次の時点のデコーディングに使用される候補ビームを決定し、
前記候補ビームのうちトークンのリユース時点に該当する１つ以上の候補ビームを用いて前記１つ以上のトークンをデコーディングする、
請求項１４に記載の装置。
前記１つ以上のトークンをデコーディングするために、前記プロセッサは、
前記候補ビームのうち、トークンのリユース時点に該当する１つ以上の候補ビームを前記ネットワークに含まれている自己回帰的デコーダレイヤに入力し、
前記１つ以上のトークンをデコーディングする、
請求項１７に記載の装置。
前記１つ以上のトークンをデコーディングするために、前記プロセッサは、
前記リユーストークン及び前記ベクトルシーケンスに基づいて、前記リユーストークンに後続する複数のトークン候補の確率を予測し、
前記複数のトークン候補の確率に基づいて、前記１つ以上のトークンを決定する、
請求項１４に記載の装置。
前記プロセッサは、
前記ネットワークに含まれているエンコーダレイヤによって前記入力シーケンスをエンコーディングすることで、前記符号化されたベクトルシーケンスを生成する、
請求項１４に記載の装置。
前記プロセッサは、前記ネットワークを用いて、
前記以前時点までの入力シーケンスに前記現在時点の入力音声に対応する入力シーケンスが累積されたシーケンスを生成し、
前記エンコーディングされたベクトルシーケンスの生成のために、前記累積されたシーケンスをエンコーディングして前記符号化されたベクトルシーケンスを生成する、
請求項１４に記載の装置。
デコーディング方法であって、
音声認識のためのネットワークにおいて、
現在のデコーディング時間ステップにおける入力音声に対応する入力シーケンスをエンコーディングすることで、符号化されたベクトルシーケンスを生成するステップと、
以前時間ステップの候補ビーム間にマッチングされるトークンの最も大きいシーケンスに基づいて、リユーストークンを決定するステップと、前記リユーストークン及び前記エンコーディングされたベクトルシーケンスに基づいて、前記リユーストークンに後続する１つ以上のトークンをデコーディングするステップと、
を含む、方法。
前記リユーストークンを決定するステップは、
現在時間ステップに先行する以前時間ステップのうち１つの候補ビームの部分を、前記以前時間ステップの候補ビーム間にマッチングされるトークンの最も大きいシーケンスに対応する時間まで決定するステップ、
を含む、請求項２２に記載の方法。
前記以前時間ステップの候補ビーム間にマッチングされるトークンの最も大きいシーケンスは、初期時間ステップにおいて前記現在時間ステップの以前時間ステップまでである、
請求項２３に記載の方法。