JP6891144B2

JP6891144B2 - 生成装置、生成方法及び生成プログラム

Info

Publication number: JP6891144B2
Application number: JP2018115562A
Authority: JP
Inventors: 基大町; トランデュング; 健一磯; 悠哉藤田
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-06-18
Filing date: 2018-06-18
Publication date: 2021-06-18
Anticipated expiration: 2038-06-18
Also published as: US20190385590A1; JP2019219468A

Description

本発明は、生成装置、生成方法及び生成プログラムに関する。

マイクロホンで収音された観測信号には、音源からマイクロホンに直接到来する直接音の他に、床や壁で反射し、所定の時間（例えば、３０ｍＳ）が経過した後にマイクロホンに到来する後部残響が含まれる。このような後部残響は、音声認識の精度を著しく低下させる場合がある。このため、音声認識の精度を高めるように、観測信号から後部残響を除去する技術が提案されている。例えば、音響信号のパワーの最小値または擬似最小値を、音響信号の後部残響成分のパワー推定値として抽出し、抽出されたパワー推定値に基づいて、後部残響を除去する逆フィルタを算出する技術が提案されている（特許文献１）。

特開２００７−６５２０４号公報

しかしながら、上記の従来技術では、音声認識の精度を向上させることができるとは限らない。一般的に、話者とマイクロホンとの間の距離が増加するに従って、後部残響の影響が増大する。しかし、上記の従来技術では、後部残響成分のパワーが観測信号のパワーの最小値または擬似最小値である、と仮定されている。このため、上記の従来技術では、話者がマイクロホンから離れている場合には、後部残響成分を適切に除去できない場合がある。

本願は、上記に鑑みてなされたものであって、音声認識の精度を向上させることができる生成装置、生成方法及び生成プログラムを提供することを目的とする。

本願に係る生成装置は、第１の観測信号の音響特徴量と、当該第１の観測信号に対応する後部残響成分と、当該第１の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得部と、前記取得部によって取得された訓練データに基づいて、第２の観測信号に対応する音素ラベルを識別するための音響モデルを生成する第１生成部と、
を備えることを特徴とする。

実施形態の一態様によれば、音声認識の精度を向上させることができるという効果を奏する。

図１は、実施形態に係るネットワークシステムの構成例を示す図である。図２は、実施形態に係る生成処理の一例を示す図である。図３は、後部残響の一例を示す図である。図４は、実施形態に係る生成装置の構成例を示す図である。図５は、実施形態に係る訓練データ記憶部の一例を示す図である。図６は、実施形態に係る生成装置による生成処理手順を示すフローチャートである。図７は、変形例に係る生成処理の一例を示す図である。図８は、ハードウェア構成の一例を示す図である。

以下に、本願に係る生成装置、生成方法及び生成プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法及び生成プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。

〔１．ネットワークシステムの構成〕
まず、図１を参照して、実施形態に係るネットワークシステム１の構成について説明する。図１は、実施形態に係るネットワークシステム１の構成例を示す図である。図１に示すように、実施形態に係るネットワークシステム１には、端末装置１０と、提供装置２０と、生成装置１００とが含まれる。端末装置１０、提供装置２０および生成装置１００は、それぞれネットワークＮと有線又は無線により接続される。図１中では図示していないが、ネットワークシステム１は、複数台の端末装置１０や、複数台の提供装置２０や、複数台の生成装置１００を含んでもよい。

端末装置１０は、ユーザによって利用される情報処理装置である。端末装置１０は、スマートフォン、スマートスピーカ、デスクトップ型ＰＣ（Personal Computer）、ノート型ＰＣ、タブレット型ＰＣ、ＰＤＡ（Personal Digital Assistant）を含む、任意のタイプの情報処理装置であってもよい。

提供装置２０は、音響モデルを生成するための訓練データを提供するサーバ装置である。訓練データは、例えば、マイクロホンで収音された観測信号、観測信号に対応付けられた音素ラベル等を含む。

生成装置１００は、音響モデルを生成するための訓練データを用いて音響モデルを生成するサーバ装置である。生成装置１００は、ネットワークＮを介して、有線又は無線により端末装置１０および提供装置２０と通信を行う。

〔２．生成処理〕
次に、図２を参照して、実施形態に係る生成処理の一例について説明する。図２は、実施形態に係る生成処理の一例を示す図である。

図２の例では、生成装置１００は、提供装置２０によって提供された訓練データを記憶する。記憶された訓練データは、観測信号ＯＳ１を含む。観測信号ＯＳ１は、音素ラベル「ａ」に対応付けられた音声信号である。言い換えると、観測信号ＯＳ１は、「ａ」の音声信号である。

はじめに、生成装置１００は、観測信号ＯＳ１から音声特徴量を抽出する（ステップＳ１１）。より具体的には、生成装置１００は、短時間フーリエ変換（Short Time Fourier Transform）を用いることにより、観測信号ＯＳ１から、音声フレームのスペクトル（複素スペクトルとも呼ばれる）を算出する。そして、生成装置１００は、フィルタバンク（メルフィルタバンクとも呼ばれる）を算出されたスペクトルに適用することで、フィルタバンクの出力を、音声特徴量として抽出する。

次いで、生成装置１００は、観測信号ＯＳ１の後部残響成分を推定する（ステップＳ１２）。この点について、図３を用いて説明する。

図３は、後部残響の一例を示す図である。図３の例では、観測信号ＯＳ１には、直接音ＤＳ１と、初期反射ＥＲ１と、後部残響ＬＲ１とが含まれる。図２の観測信号ＯＳ１の波形は、実際には、直接音ＤＳ１と、初期反射ＥＲ１と、後部残響ＬＲ１との重ねあわせとして観測される。直接音ＤＳ１は、マイクロホンに直接到来した音声信号である。初期反射ＥＲ１は、床や壁等で反射し、所定の時間（例えば、３０ｍＳ）が経過するまでに、マイクロホンに到来した音声信号である。後部残響ＬＲ１は、床や壁等で反射し、所定の時間（例えば、３０ｍＳ）が経過した後に、マイクロホンに到来した音声信号である。

生成装置１００は、例えば、移動平均モデル（Moving Average Model）を用いて、観測信号ＯＳ１の後部残響成分を推定する。より具体的には、生成装置１００は、所定の音声フレームからｎフレーム前までの音声フレームのスペクトルを平滑化することで得られる値を、所定の音声フレームの後部残響成分として算出する（ｎは任意の自然数）。言い換えると、生成装置１００は、所定の音声フレームの後部残響成分を、所定の音声フレームからｎフレーム前までの音声フレームのスペクトルの重み付き和で近似する。後部残響成分の例示的な近似式は、図４に関連して後述される。

図２に戻ると、次いで、生成装置１００は、抽出された音声特徴量、推定された後部残響成分および音素ラベル「ａ」に基づいて、音響モデルＡＭ１を生成する（ステップＳ１３）。一例では、音響モデルＡＭ１は、ＤＮＮ（Deep Neural Network）モデルである。この例では、生成装置１００は、音声特徴量および後部残響成分を、訓練データの入力として用いる。また、生成装置１００は、音素ラベル「ａ」を、訓練データの出力として用いる。そして、生成装置１００は、汎化誤差が最小化されるようにＤＮＮモデルを訓練することで、音響モデルＡＭ１を生成する。

音響モデルＡＭ１は、音響モデルＡＭ１に観測信号と、観測信号の推定された後部残響成分とが入力された場合に、観測信号がどの音素に対応するのかを識別し、音素識別結果を出力する。図１の例では、音響モデルＡＭ１は、「ａ」の音声信号と、「ａ」の音声信号の推定された後部残響成分とが音響モデルＡＭ１の入力層に入力された場合に、音声信号が「ａ」である旨の音素識別結果ＩＲ１を出力する。例えば、音響モデルＡＭ１は、音声信号が「ａ」である確率（例えば、０．９５）とともに、音声信号が「ａ」以外の音声（例えば、「ｉ」）である確率（例えば、０．０１）を音響モデルＡＭ１の出力層から出力する。

上述のように、実施形態に係る生成装置１００は、観測信号から音声特徴量を抽出する。加えて、生成装置１００は、観測信号の後部残響成分を推定する。そして、生成装置１００は、抽出された音声特徴量、推定された後部残響成分および観測信号に対応付けられた音素ラベルに基づいて、音響モデルを生成する。これにより、生成装置１００は、後部残響が大きい環境下においても高精度に音声認識を行う音響モデルを生成することができる。例えば、話者とマイクロホンとの間の距離が大きくなると、後部残響の影響が強くなる。生成装置１００は、観測信号から後部残響成分を信号処理的に引き去るのではなく、話者とマイクロホンとの間の距離に応じた後部残響の響き具合を、音響モデルに学習させる。このため、生成装置１００は、音声認識精度の低下をもたらす歪みを生じさせることなく、後部残響に対して頑健な音声認識を行う音響モデルを生成することができる。以下、このような提供処理を実現する生成装置１００について詳細に説明する。

〔３．生成装置の構成〕
次に、図４を参照して、実施形態に係る生成装置１００の構成例について説明する。図４は、実施形態に係る生成装置１００の構成例を示す図である。図４に示すように、生成装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、生成装置１００は、生成装置１００を利用する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（液晶ディスプレイ等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置１０および提供装置２０との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図４に示すように、記憶部１２０は、訓練データ記憶部１２１と、音響モデル記憶部１２２とを有する。

（訓練データ記憶部１２１）
図５は、実施形態に係る訓練データ記憶部１２１の一例を示す図である。訓練データ記憶部１２１は、音響モデルを生成するための訓練データを記憶する。訓練データ記憶部１２１は、例えば、受信部１３１によって受信された訓練データを記憶する。図５の例では、訓練データ記憶部１２１には、「訓練データ」が「訓練データＩＤ」ごとに記憶される。例示として、「訓練データ」には、項目「観測信号」、「音響特徴量」、「推定された後部残響成分」および「音素ラベル」が含まれる。

「訓練データＩＤ」は、訓練データを識別するための識別子を示す。「観測信号情報」は、マイクロホンで収音された観測信号に関する情報を示す。例えば、観測信号情報は、観測信号の波形を示す。「音響特徴量情報」は、観測信号の音響特徴量に関する情報を示す。例えば、音響特徴量情報は、フィルタバンクの出力を示す。「推定後部残響成分情報」は、観測信号に基づいて推定された後部残響成分に関する情報を示す。例えば、推定部後部残響成分情報は、線形予測モデルに基づいて推定された後部残響成分を示す。「音素ラベル情報」は、観測信号に対応する音素ラベルに関する情報を示す。例えば、音素ラベル情報は、観測信号に対応する音素を示す。

例えば、図５は、訓練データＩＤ「ＴＤ１」で識別される訓練データの観測信号が、「観測信号ＯＳ１」であることを示している。また、例えば、図５は、訓練データＩＤ「ＴＤ１」で識別される訓練データの音響特徴量が、「音響特徴量ＡＦ１」であることを示している。また、例えば、図５は、訓練データＩＤ「ＴＤ１」で識別される訓練データの推定後部残響成分が、「推定された後部残響成分ＬＲ１」であることを示している。また、例えば、図５は、訓練データＩＤ「ＴＤ１」で識別される訓練データの音素ラベルが、「ａ」であることを示している。

（音響モデル記憶部１２２）
図４に戻ると、音響モデル記憶部１２２は、音響モデルを記憶する。音響モデル記憶部１２２は、例えば、第１生成部１３５によって生成された音響モデルを記憶する。

（制御部１３０）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、生成装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

制御部１３０は、図４に示すように、受信部１３１と、取得部１３２と、抽出部１３３と、推定部１３４と、第１生成部１３５と、第２生成部１３６と、出力部１３７と、提供部１３８とを有し、以下に説明する情報処理の機能や作用を実現又は実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

（受信部１３１）
受信部１３１は、音響モデルを生成するための訓練データを、提供装置２０から受信する。受信部１３１は、受信された訓練データを、訓練データ記憶部１２１に格納してもよい。

訓練データは、例えば、マイクロホンで収音された観測信号と、観測信号に対応付けられた音素ラベルとを含む。受信された訓練データは、観測信号の音響特徴量と、観測信号に基づいて推定された後部残響成分とを含んでもよい。言い換えると、受信部１３１は、観測信号の音響特徴量と、観測信号に基づいて推定された後部残響成分と、観測信号に対応付けられた音素ラベルとを含む訓練データを受信してもよい。

一例では、観測信号は、提供装置２０によって提供されるアプリケーションを介して受信された音声信号である。この例では、アプリケーションは、例えば、スマートフォンである端末装置１０にインストールされた音声アシストアプリケーションである。別の例では、観測信号は、スマートスピーカである端末装置１０から提供装置２０に提供された音声信号である。これらの例では、提供装置２０は、端末装置１０に搭載されたマイクロホンにより集音された音声信号を、端末装置１０から受信する。

提供装置２０によって受信された音声信号は、音声信号を元に書き起こされたテキストデータに対応する音素ラベルに対応付けられる。音声信号の書き起こしは、例えば、テープ起こし技術者によって行われ得る。このようにして、提供装置２０は、音声信号と、音声信号に対応付けられたラベルとを含む訓練データを、生成装置１００に送信する。

（取得部１３２）
取得部１３２は、音響モデルを生成するための訓練データを取得する。例えば、取得部１３２は、受信部１３１によって受信された訓練データを取得する。また、例えば、取得部１３２は、訓練データ記憶部１２１から訓練データを取得する。

取得部１３２は、第１の観測信号の音響特徴量と、かかる第１の観測信号に対応する後部残響成分と、かかる第１の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する。例えば、取得部１３２は、観測信号（例えば、第１の観測信号）の音響特徴量と、かかる観測信号に基づいて推定された後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを含む訓練データを取得する。

取得部１３２は、訓練データから、観測信号を取得する。また、取得部１３２は、訓練データから、観測信号に対応付けられた音素ラベルを取得する。また、取得部１３２は、訓練データから、観測信号の音響特徴量を取得する。また、取得部１３２は、訓練データから、観測信号に基づいて推定された後部残響成分を取得する。取得部１３２は、音響モデル記憶部１２２から音響モデルを取得してもよい。

（抽出部１３３）
抽出部１３３は、取得部１３２によって取得された観測信号から、音声特徴量を抽出する。例えば、抽出部１３３は、観測信号の信号波形から、観測信号の周波数成分を算出する。より具体的には、短時間フーリエ変換を用いることにより、観測信号から、音声フレームのスペクトルを算出する。そして、抽出部１３３は、フィルタバンクを算出されたスペクトルに適用することで、各音声フレームにおけるフィルタバンクの出力（すなわち、フィルタバンクのチャンネルの出力）を、音声特徴量として抽出する。抽出部１３３は、算出されたスペクトルから、メル周波数ケプストラム係数（Mel frequency Cepstral Coefficient）を、音声特徴量として抽出してもよい。抽出部１３３は、観測信号から抽出された音声特徴量を、観測信号に対応付けられた音素ラベルに対応付けて、訓練データ記憶部１２１に格納する。

（推定部１３４）
推定部１３４は、取得部１３２によって取得された観測信号に基づいて、後部残響成分を推定する。一般的に、目的音源以外の音源および反射体が目的音源の周囲に存在する実環境においては、マイクロホンにより集音された観測信号は、直接音と、雑音と、残響とを含む。すなわち、観測信号は、直接音と、雑音と、残響とが混じり合った信号（例えば、音声信号、音響信号など）である。

直接音とは、目的音源からマイクロホンに直接到来する音である。目的音源は、例えば、ユーザ（すなわち、話者）である。この場合、直接音は、マイクロホンに直接到来するユーザの発声である。雑音とは、目的音源以外の音源からマイクロホンに到来する音である。目的音源以外の音源は、例えば、ユーザのいる部屋に設置されたエアコンである。この場合、雑音は、エアコンから発せられた音である。残響とは、目的音源から反射体に到来し、反射体で反射され、その後マイクロホンに到来する音である。反射体は、例えば、目的音源であるユーザのいる部屋の壁である。この場合、残響は、部屋の壁で反射されたユーザの発声である。

残響には、初期反射（初期反射音とも呼ばれる）と、後部残響（後部残響音とも呼ばれる）とが含まれる。初期反射とは、直接音がマイクロホンに到来してから所定の時間（例えば、３０ｍＳ）が経過するまでに、マイクロホンに到来する反射音である。初期反射には、壁で１回反射された反射音である１次反射や、壁で２回反射された反射音である２次反射などが含まれる。一方、後部残響とは、直接音がマイクロホンに到来してから所定の時間（例えば、３０ｍＳ）が経過した後に、マイクロホンに到来する反射音である。所定の時間は、カットオフスケールとして定義されてもよい。また、所定の時間は、残響のエネルギーが所定のエネルギーまで減衰するまでの時間に基づいて定義されてもよい。

推定部１３４は、観測信号の後部残響成分を推定する。例えば、推定部１３４は、線形予測モデルに基づいて、観測信号の後部残響成分を推定する。推定部１３４は、観測信号に基づいて推定された後部残響成分を、観測信号に対応付けられた音素ラベルに対応付けて、訓練データ記憶部１２１に格納する。

一例では、推定部１３４は、移動平均モデルを用いて、観測信号の後部残響成分を推定する。移動平均モデルでは、所定のフレーム（すなわち、音声フレーム）の後部残響成分は、所定のフレームからｎフレーム前までのフレームのスペクトルが平滑化されたものであると仮定する（ｎは任意の自然数）。言い換えると、後部残響成分は、所定の時間遅れて入力されたスペクトル成分であって、平滑化された観測信号のスペクトル成分であると仮定する。この仮定の下で、後部残響成分Ａ（ｔ，ｆ）は、近似的に次式で与えられる。

ここで、Ｙ（ｔ，ｆ）は、「ｔ」番目のフレームにおける「ｆ」番目の周波数ビンのスペクトル成分である。ただし、ｔは、フレーム番号である。また、ｆは、周波数ビンのインデックスである。また、ｄは、遅延である。ｄは、経験的に決定される値であって、例えば、「７」である。また、Ｄは、初期反射をスキップするために導入される遅延（正のオフセットとも呼ばれる）である。また、ηは、推定された後部残響成分に対する重み係数である。ηは、経験的に決定される値であって、例えば、「０．０７」である。ω（ｔ）は、後部残響成分の算出に際して用いられる過去のフレームに対する重みである。一例では、ω（ｔ）は、ハミング窓の式で表される。この場合、ω（ｔ）は、次式で与えられる。

ただし、Ｔは、窓内のサンプル数である。別の例では、ω（ｔ）は、矩形窓またはハニング窓の式で表されてもよい。このようにして、測定部１３４は、過去のフレームのスペクトルの線形和を用いることで、所定の時刻における後部残響成分を近似的に算出することができる。

（第１生成部１３５）
第１生成部１３５は、取得部１３２によって取得された訓練データに基づいて、観測信号（例えば、第２の観測信号）に対応する音素ラベルを識別するための音響モデルを生成する。第１生成部１３５は、訓練データに基づいて、観測信号に対応する音素ラベル列（すなわち、音素列）を識別するための音響モデルを生成してもよい。第１生成部１３５は、訓練データに基づいて、観測信号に対応する音韻のラベルを識別するための音響モデルを生成してもよい。第１生成部１３５は、生成された音響モデルを、音響モデル記憶部１２２に格納してもよい。

第１生成部１３５は、第１の観測信号の音響特徴量、第１の観測信号に基づいて推定された後部残響成分および第１の観測信号に対応付けられた音素ラベルに基づいて、音響モデルを生成する。言い換えると、第１生成部１３５は、観測信号に基づいて推定された後部残響成分を、音声認識の精度を向上させるための補助情報として用いる。一例では、音響モデルは、ＤＮＮモデルである。別の例では、音響モデルは、時間遅れニューラルネットワーク（Time Delay Neural Network）、再帰型ニューラルネットワーク（Recurrent Neural Network）、ハイブリッドＨＭＭＭＬＰモデル（Hybrid Hidden Markov Model Multilayer Perceptron Model）、制限付きボルツマンマシン（Restricted Boltzman Machine）、畳み込みニューラルネットワーク（Convolutional Neural Network）等であってもよい。

一例では、音響モデルは、モノフォンモデル（環境非依存モデルとも呼ばれる）である。別の例では、音響モデルは、トライフォンモデル（環境依存音素モデルとも呼ばれる）である。この場合、第１生成部１３５は、観測信号に対応するトライフォンラベルを識別するための音響モデルを生成する。

第１生成部１３５は、第１の観測信号の音声特徴量および第１の観測信号に基づいて推定された後部残響成分を、訓練データの入力として用いる。また、第１生成部１３５は、第１の観測信号に対応付けられた音素ラベルを、訓練データの出力として用いる。そして、第１生成部１３５は、誤差逆伝播法を用いて、汎化誤差が最小化されるようにモデル（例えば、ＤＮＮモデル）を訓練する。このようにして、第１生成部１３５は、第２の観測信号に対応する音素ラベルを識別するための音響モデルを生成する。

（第２生成部１３６）
第２生成部１３６は、信号対雑音比が第１の閾値より低い第１の観測信号に残響を付加することによって、残響成分が第２の閾値より高い観測信号を生成する。例えば、第２生成部１３６は、信号対雑音比が第１の閾値より低い第１の観測信号に、様々な部屋の残響インパルス応答を畳み込むことによって、残響成分が第２の閾値より高い観測信号を、残響付加信号として生成する。

（出力部１３７）
出力部１３７は、第１生成部１３５によって生成された音響モデルに、第２の観測信号と、第２の観測信号に基づいて推定された後部残響成分とを入力することによって、音素識別結果を出力する。例えば、出力部１３７は、第２の観測信号が所定の音素（例えば、「ａ」）である旨の音素識別結果を出力する。出力部１３７は、第２の観測信号が所定の音素である確率を出力してもよい。例えば、出力部１３７は、第２の観測信号と、第２の観測信号に基づいて推定された後部残響成分とをベクトル成分とする特徴ベクトルが所定の音素であるクラスに属する確率である事後確率を出力する。

（提供部１３８）
提供部１３８は、提供装置２０からの要求に応じて、第１生成部１３５によって生成された音響モデルを、提供装置２０に提供する。また、提供部１３８は、提供装置２０からの要求に応じて、出力部１３７によって出力された音素識別結果を、提供装置２０に提供する。

〔４．生成処理のフロー〕
次に、実施形態に係る生成装置１００による提供処理の手順について説明する。図６は、実施形態に係る生成装置１００による生成処理手順を示すフローチャートである。

図６に示すように、はじめに、生成装置１００は、音響モデルを生成するための訓練データを、提供装置２０から受信する（ステップＳ１０１）。受信された訓練データは、マイクロホンで収音された第１の観測信号と、第１の観測信号に対応付けられた音素ラベルとを含む。

次いで、生成装置１００は、受信された訓練データから、第１の観測信号を取得し、取得された第１の観測信号から、音声特徴量を抽出する（ステップＳ１０２）。例えば、生成装置１００は、短時間フーリエ変換を用いることにより、第１の観測信号からスペクトルを算出する。そして、生成装置１００は、フィルタバンクを算出されたスペクトルに適用することで、各フィルタバンクの出力を、音声特徴量として抽出する。

次いで、生成装置１００は、取得された第１の観測信号に基づいて、後部残響成分を推定する（ステップＳ１０３）。例えば、生成装置１００は、移動平均モデルを用いて、第１の観測信号の後部残響成分を推定する。より具体的には、生成装置１００は、所定の音声フレームからｎフレーム前までの音声フレームのスペクトルを平滑化することで得られる値を、所定の音声フレームの後部残響成分として算出する（ｎは任意の自然数）。

次いで、生成装置１００は、抽出された音声特徴量および推定された後部残響成分を、第１の観測信号に対応付けられた音素ラベルに対応付けて、生成装置１００の訓練データ記憶部１２１に格納する（ステップＳ１０４）。

次いで、第１の観測信号の音響特徴量と、第１の観測信号に対応する後部残響成分と、第１の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する（ステップＳ１０５）。例えば、生成装置１００は、生成装置１００の訓練データ記憶部１２１から、第１の観測信号の音響特徴量と、第１の観測信号に基づいて推定された後部残響成分と、第１の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する。

次いで、生成装置１００は、取得された訓練データに基づいて、第２の観測信号に対応する音素ラベルを識別するための音響モデルを生成する（ステップＳ１０６）。例えば、生成装置１００は、第１の観測信号の音声特徴量および第１の観測信号に基づいて推定された後部残響成分を、訓練データの入力として用いる。また、生成装置１００は、第１の観測信号に対応付けられた音素ラベルを、訓練データの出力として用いる。そして、生成装置１００は、汎化誤差が最小化されるようにモデル（例えば、ＤＮＮモデル）を訓練することで、音響モデルを生成する。

〔５．変形例〕
上述の実施形態に係る生成装置１００は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記の生成装置１００の他の実施形態について説明する。

〔５−１．ドライソースおよび残響付加信号から生成された音響モデル〕
取得部１３２は、訓練データとして、信号対雑音比（Signal to Noise Ratio）が第１の閾値より低い第１の観測信号の音響特徴量と、かかる第１の観測信号に対応する後部残響成分と、かかる第１の観測信号に対応付けられた音素ラベルとを取得してもよい。加えて、取得部１３２は、訓練データとして、残響成分が第２の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得してもよい。

第１生成部１３５は、信号対雑音比が第１の閾値より低い第１の観測信号の音響特徴量を含む訓練データに基づいて、音響モデルを生成してもよい。加えて、第１生成部１３５は、第１の観測信号に対応付けられた音素ラベルに対応し、かつ残響成分が第２の閾値より高い第１の信号の音響特徴量と、第１の信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。

一例では、第１生成部１３５は、信号対雑音比が第１の閾値より低い第１の観測信号の音響特徴量およびかかる第１の観測信号に基づいて推定された後部残響成分を、第１の訓練データの入力として用いる。また、第１生成部１３５は、かかる第１の観測信号に対応付けられた音素ラベルを、第１の訓練データの出力として用いる。そして、第１生成部１３５は、モデル（例えば、ＤＮＮモデル）を訓練することで、第１の音響モデルを生成する。さらに、第１生成部１３５は、第１の観測信号に対応付けられた音素ラベルに対応し、かつ残響成分が第２の閾値より高い第１の信号の音響特徴量および第１の信号に基づいて推定された後部残響成分を、第２の訓練データの入力として用いる。また、第１生成部１３５は、第１の観測信号に対応付けられた音素ラベルを、第２の訓練データの出力として用いる。そして、第１生成部１３５は、第１の音響モデルを訓練することで、第２の音響モデルを生成する。言い換えれば、第１生成部１３５は、第１の訓練データおよび第２の訓練データを用いたミニバッチ学習（minibatch learning）により音響モデルを生成する。

以下の説明では、図７を参照し、ドライソースおよび残響付加信号から生成された音響モデルについて説明する。図７は、変形例に係る生成処理の一例を示す図である。

はじめに、抽出部１３３は、取得部１３２によって取得された訓練データから、信号対雑音比が第１の閾値より低い第１の観測信号を、ドライソースとして選択する。図７の例では、抽出部１３３は、訓練データから、音素ラベル「ａ」に対応付けられたドライソースＤＲＳ１を選択する。

次いで、第２生成部１３６は、信号対雑音比が第１の閾値より低い第１の観測信号に残響を付加することによって、残響成分が第２の閾値より高い観測信号を生成する。例えば、第２生成部１３６は、信号対雑音比が第１の閾値より低い第１の観測信号に残響を付加することによって、第１の信号を生成する。言い換えると、第２生成部１３６は、ドライソースに残響を付加することによって、第１の信号を残響付加信号として生成する。図７の例では、第２生成部１３６は、ドライソースＤＲＳ１に残響を付加することによって、残響付加信号ＲＡＳ１を生成する。より具体的には、第２生成部１３６は、ドライソースＤＲＳ１に、様々な部屋の残響インパルス応答を畳み込むことによって、残響付加信号ＲＡＳ１を生成する。残響付加信号ＲＡＳ１の生成から明らかなように、残響付加信号ＲＳ１も、音素ラベル「ａ」に対応付けられている。このように、第２生成部１３６は、様々な部屋の残響をシミュレートすることで、残響付加信号を模擬的に生成する。

次いで、推定部１３４は、信号対雑音比が閾値より低い第１の観測信号（すなわち、ドライソース）に基づいて、後部残響成分を推定する。加えて、推定部１３４は、残響成分が第２の閾値より高い生成された観測信号に基づいて、後部残響成分を推定する。例えば、推定部１３４は、生成された第１の信号（すなわち、残響付加信号）に基づいて、後部残響成分を推定する。図７の例では、推定部１３４は、ドライソースＤＲＳ１に基づいて、ドライソースＤＲＳ１の後部残響成分を、後部残響成分ＤＬＲ１と推定する。加えて、推定部１３４は、残響付加信号ＲＡＳ１に基づいて、残響付加信号ＲＡＳ１の後部残響成分を、後部残響成分ＲＬＲ１と推定する。

次いで、第１生成部１３５は、第２の観測信号に対応する音素ラベルを識別するための音響モデルを生成する。第１生成部１３５は、信号対雑音比が閾値より低い第１の観測信号（すなわち、ドライソース）の音響特徴量を含む訓練データに基づいて、音響モデルを生成してもよい。加えて、第１生成部１３５は、第１の観測信号に対応付けられた音素ラベルに対応し、かつ残響成分が閾値より高い第１の信号（すなわち、残響付加信号）の音響特徴量と、第１の信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。

図７の例では、第１生成部１３５は、ドライソースＤＲＳ１の音響特徴量と、後部残響成分ＤＬＲ１とを含む訓練データに基づいて、音響モデルを生成する。加えて、第１生成部１３５は、残響付加信号ＲＡＳ１の音響特徴量と、後部残響成分ＲＬＲ１とを含む訓練データに基づいて、音響モデルを生成する。より具体的には、第１生成部１３５は、ドライソースＤＲＳ１の音響特徴量および後部残響成分ＤＬＲ１を、訓練データの入力として用いる。この場合、第１生成部１３５は、音素ラベル「ａ」を、訓練データの出力として用いる。それに加えて、第１生成部１３５は、残響付加信号ＲＡＳ１の音響特徴量および後部残響成分ＲＬＲ１を、訓練データの入力として用いる。この場合も、第１生成部１３５は、音素ラベル「ａ」を、訓練データの出力として用いる。そして、第１生成部１３５は、汎化誤差が最小化されるようにモデル（例えば、ＤＮＮモデル）を訓練することで、音響モデルを生成する。このように、第１生成部１３５は、ドライソースに対応する訓練データと残響付加信号に対応する訓練データのセットに基づいて、音響モデルを生成してもよい。

〔５−２．後部残響成分が取り除かれた信号〕
取得部１３２は、訓練データとして、後部残響成分が第３の閾値より低い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得してもよい。第２生成部１３６は、第１の観測信号から後部残響成分を取り除くことによって、後部残響成分が第３の閾値より低い観測信号を生成してもよい。第１生成部１３５は、第１の観測信号に対応付けられた音素ラベルに対応し、かつ後部残響成分が第３の閾値より低い観測信号の音響特徴量と、第２の信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。

例えば、第２生成部１３６は、後部残響成分が第３の閾値より低い観測信号を、第２の信号として生成する。一例では、第２生成部１３６は、スペクトル減算法（Spectral Subtraction Method）を用いて、推定部１３４によって推定された後部残響成分を、第１の観測信号から引き去る。このようにして、第２生成部１３６は、第１の観測信号から、後部残響成分が第３の閾値より低い第２の信号を生成する。第２の信号の生成から明らかなように、第２の信号も、第１の観測信号に対応付けられた音素ラベルに対応付けられている。そして、第１生成部１３５は、生成された第２の信号の音響特徴量と、生成された第２の信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成する。

〔５−３．雑音を含む信号〕
取得部１３２は、訓練データとして、信号対雑音比が第４の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得してもよい。

第１生成部１３５は、第１の観測信号に対応付けられた音素ラベルに対応し、かつ信号対雑音比が第４の閾値より高い観測信号の音響特徴量と、かかる観測信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。

一例では、取得部１３２は、訓練データ記憶部１２１に記憶された訓練データから、信号対雑音比が閾値より高い観測信号を、第３の観測信号として選択する。そして、第１生成部１３５は、選択された第３の観測信号の音響特徴量と、選択された第３の観測信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成する。

第２生成部１３６は、第１の観測信号に雑音を重畳することで、第１の観測信号に対応付けられた音素ラベルに対応し、かつ信号対雑音比が閾値より高い第３の観測信号を生成してもよい。そして、第１生成部１３５は、生成された第３の観測信号の音響特徴量と、生成された第３の観測信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。

〔５−４．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

例えば、図４に示した記憶部１２０の一部又は全部は、生成装置１００によって保持されるのではなく、ストレージサーバ等に保持されてもよい。この場合、生成装置１００は、ストレージサーバにアクセスすることで、訓練データや音響モデル等の各種情報を取得する。

〔５−５．ハードウェア構成〕
また、上述してきた実施形態に係る生成装置１００は、例えば図８に示すような構成のコンピュータ１０００によって実現される。図８は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一時的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が生成装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。

〔６．効果〕
上述してきたように、実施形態に係る生成装置１００は、取得部１３２と、第１生成部１３５とを有する。取得部１３２は、第１の観測信号の音響特徴量と、かかる第１の観測信号に対応する後部残響成分と、かかる第１の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する。第１生成部１３５は、取得部１３２によって取得された訓練データに基づいて、第２の観測信号に対応する音素ラベルを識別するための音響モデルを生成する。このため、生成装置１００は、様々な環境下における後部残響に対して頑健な音声認識を行う音響モデルを生成することができる。

また、実施形態に係る生成装置１００において、取得部１３２は、訓練データとして、信号対雑音比が第１の閾値より低い第１の観測信号の音響特徴量と、かかる第１の観測信号に対応する後部残響成分と、かかる第１の観測信号に対応付けられた音素ラベルとを取得する。このため、生成装置１００は、雑音の小さい環境下で後部残響に対して頑健な音声認識を行う音響モデルを生成することができる。

また、実施形態に係る生成装置１００において、取得部１３２は、訓練データとして、残響成分が第２の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得する。このため、生成装置１００は、残響がある様々な環境下で後部残響に対して頑健な音声認識を行う音響モデルを生成することができる。

また、実施形態に係る生成装置１００は、信号対雑音比が第１の閾値より低い第１の観測信号に残響を付加することによって、残響成分が第２の閾値より高い観測信号を生成する第２生成部１３６を有する。このため、生成装置１００は、様々な残響環境下での音声信号を模擬的に生成しながら、音響モデルの精度を向上させることができる。

また、実施形態に係る生成装置において、取得部１３２は、訓練データとして、後部残響成分が第３の閾値より低い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得する。このため、生成装置１００は、後部残響がほとんど存在しない環境における後部残響の響き具合を音響モデルに学習させることにより、音響モデルの精度を向上させることができる。

また、実施形態に係る生成装置１００において、第２生成部１３６は、第１の観測信号から後部残響成分を取り除くことによって、後部残響成分が第３の閾値より低い観測信号を生成する。このため、生成装置１００は、後部残響がほとんど存在しない環境下での音声信号を模擬的に生成しながら、音響モデルの精度を向上させることができる。

また、実施形態に係る生成装置１００において、取得部１３２は、訓練データとして、信号対雑音比が第４の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得する。このため、生成装置１００は、雑音環境下における後部残響の響き具合を音響モデルに学習させることにより、音響モデルの精度を向上させることができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述した生成装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、受信部は、受信手段や受信回路に読み替えることができる。

１ネットワークシステム
１０端末装置
２０提供装置
１２０記憶部
１２１訓練データ記憶部
１２２音響モデル記憶部
１３０制御部
１３１受信部
１３２取得部
１３３抽出部
１３４推定部
１３５第１生成部
１３６第２生成部
１３７出力部
１３８提供部

Claims

第１の観測信号の音響特徴量と、当該第１の観測信号に対応する後部残響成分と、当該第１の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得部と、
前記取得部によって取得された訓練データに基づいて、第２の観測信号に対応する音素ラベルを識別するための音響モデルを生成する第１生成部と、
を備えることを特徴とする生成装置。
前記取得部は、
前記訓練データとして、信号の雑音に対する比が第１の閾値より高い前記第１の観測信号の音響特徴量と、当該第１の観測信号に対応する後部残響成分と、当該第１の観測信号に対応付けられた音素ラベルとを取得する
ことを特徴とする請求項１に記載の生成装置。
前記取得部は、
前記訓練データとして、残響成分が第２の閾値より高い観測信号の音響特徴量と、当該観測信号に対応する後部残響成分と、当該観測信号に対応付けられた音素ラベルとを取得する
ことを特徴とする請求項１又は２に記載の生成装置。
信号の雑音に対する比が第１の閾値より高い前記第１の観測信号に残響を付加することによって、残響成分が第２の閾値より高い観測信号を生成する第２生成部をさらに備える
ことを特徴とする請求項１〜３のいずれか１つに記載の生成装置。
前記取得部は、
前記訓練データとして、後部残響成分が第３の閾値より低い観測信号の音響特徴量と、当該観測信号に対応する後部残響成分と、当該観測信号に対応付けられた音素ラベルとを取得する
ことを特徴とする請求項１〜４のいずれか１つに記載の生成装置。
前記第２生成部は、
前記第１の観測信号から後部残響成分を取り除くことによって、後部残響成分が第３の閾値より低い観測信号を生成する
ことを特徴とする請求項４に記載の生成装置。
前記取得部は、
前記訓練データとして、信号の雑音に対する比が第４の閾値より低い観測信号の音響特徴量と、当該観測信号に対応する後部残響成分と、当該観測信号に対応付けられた音素ラベルとを取得する
ことを特徴とする請求項１〜６のいずれか１つに記載の生成装置。
第１の観測信号の音響特徴量と、当該第１の観測信号に対応する後部残響成分と、当該第１の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得工程と、
前記取得工程によって取得された訓練データに基づいて、第２の観測信号に対応する音素ラベルを識別するための音響モデルを生成する生成工程と、
を含むことを特徴とする生成方法。
第１の観測信号の音響特徴量と、当該第１の観測信号に対応する後部残響成分と、当該第１の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得手順と、
前記取得手順によって取得された訓練データに基づいて、第２の観測信号に対応する音素ラベルを識別するための音響モデルを生成する生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。