JP2020510862A

JP2020510862A - 周期的表示を用いる音識別

Info

Publication number: JP2020510862A
Application number: JP2019544670A
Authority: JP
Inventors: 治市川; 福田　隆; 隆福田; ラマバドラン、ブバーナ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-02-24
Filing date: 2017-12-15
Publication date: 2020-04-09
Anticipated expiration: 2037-12-15
Also published as: US10460723B2; WO2018154372A1; DE112017006049B4; CN110226201A; GB201913172D0; GB2574164B; DE112017006049T5; CN110226201B; US10062378B1; US20180277104A1; US10832661B2; JP7100855B2; GB2574164A; US20180247641A1; US20200058297A1

Abstract

【課題】周期的表示を用いる音識別を提供する。【解決手段】コンピュータ実施方法及び装置が提供される。方法は、プロセッサにより、音声信号データの周波数スペクトルを取得することを含む。方法は、プロセッサにより、周波数スペクトルから周期的表示を抽出することをさらに含む。方法は、プロセッサにより、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力することも含む。方法はさらに、プロセッサにより、ニューラル・ネットワークから音識別情報を推定することを含む。【選択図】図１

Description

本発明は、音声信号の周波数スペクトルにおける周期的表示（periodic indication）に基づく音識別の推定に関する。

多数の従来の音声認識システムは、対数メル（ｌｏｇ−Ｍｅｌ）又はメル周波数ケプストラム係数（ＭＦＣＣ：Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）により処理される特徴量を入力特徴量として用いる。対数メル及びＭＦＣＣは、メル・フィルタ・バンクを音声信号データの周波数スペクトルに適用する。しかしながら、メル・フィルタ・バンクは、音声信号データにおいてより高い解像度を保持しない。一般的に、人間の言葉の調和構造（harmonic structure）は、メル・フィルタリング・プロセス（Mel-Filtering process）によって失われる。調和構造は、母音と他の音素とを区別するために用いることができる情報を提供する。

一方では、現在の音声認識システムは、計算コストが高く、従って、多くの時間又多くの計算リソースを必要とする。システムの性能を改善することができる方法で、調和構造を音声認識システムに統合するための必要性が存在する。

本発明の態様によると、プロセッサにより、音声信号データの周波数スペクトルを取得することを含むコンピュータ実施方法が提供される。方法は、プロセッサにより、周波数スペクトルから周期的表示を抽出することをさらに含む。方法は、プロセッサにより、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力することも含む。方法はさらに、プロセッサにより、ニューラル・ネットワークから音識別情報を推定することを含む。

本発明の別の態様によると、命令がそこに具体化されたコンピュータ・プログラム製品が提供される。命令は、プロセッサ又はプログラム可能回路により実行可能であり、プロセッサ又はプログラム可能回路に方法を実行させる。方法は、音声信号データの周波数スペクトルを取得することを含む。方法は、周波数スペクトルから周期的表示を抽出することをさらに含む。方法は、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力することも含む。方法はさらに、ニューラル・ネットワークから音識別情報を推定することを含む。

本発明のさらに別の態様によると、プロセッサを含む装置が提供される。装置は、プロセッサにより実行されるとき、プロセッサに、音声信号データの周波数スペクトルを取得させ、周波数スペクトルから周期的表示を抽出させ、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力させ、ニューラル・ネットワークから音識別情報を推定させる命令をまとめて含む１つ又は複数のコンピュータ可読媒体をさらに含む。

これら及び他の特徴及び利点は、添付図面とともに読まれるべき、以下の本発明の例示的な実施形態の詳細な説明から明らかになるであろう。

以下の説明は、以下の図を参照して、本発明の好ましい実施形態の詳細を与える。

本発明の実施形態による、装置１０の例示的な構成を示す。本発明の実施形態による、音声信号における観測スペクトルのスペクトログラムを示す。本発明の実施形態による、動作フローを示す。本発明の実施形態による、Ｓ１３０に対応する動作サブ・フローを示す。本発明の実施形態による、Ｓ１５０に対応する動作サブ・フローを示す。本発明の実施形態による、対数パワー・スペクトルを示す。本発明の実施形態による、ケプストラムを示す。本発明の実施形態による、カットオフ・ケプストラムを示す。本発明の実施形態による、Ｉ−ＤＣＴスペクトルを示す。本発明の実施形態による、周期的表示を示す。本発明の実施形態による、メル・フィルタリング周期的表示を示す。本発明の実施形態による、ディープ・ニューラル・ネットワークを示す。本発明の実施形態による、畳み込みニューラル・ネットワークを示す。本発明の実施形態による、ディープ・ニューラル・ネットワークを示す。本発明の実施形態による、畳み込みニューラル・ネットワークを示す。本発明の実施形態による、システムとして機能するコンピュータ８００の例示的なハードウェア構成を示す。

以下、本発明の例示的な実施形態を説明する。本発明の例示的な実施形態は、特許請求の範囲に従う本発明を限定するものではなく、説明される特徴の組み合わせは、必ずしも本発明に不可欠なものとは限らない。

図１は、本発明の実施形態による、装置１０（例えば、コンピュータ、プログラム可能回路等）の例示的な構成を示す。装置１０は、音声信号データに基づいて音識別データを推定することができる。実施形態において、音識別データは、音素情報とすることができる。

装置１０は、プロセッサと、命令をまとめて含む１つ又は複数のコンピュータ可読媒体とを含むことができる。命令は、プロセッサ又はプログラム可能回路により実行されるとき、プロセッサ又はプログラム可能回路に、複数の動作セクションとして動作させることができる。それにより、装置１０は、格納セクション１００、取得セクション１０２、抽出セクション１０４、メル・フィルタリング・セクション１０６、正規化セクション１０８、推定セクション１１２、及び訓練セクション１１４として表すことができる。

格納セクション１００は、装置１０の動作に用いられる種々のデータを格納することができる。格納セクション１００は、揮発性又は不揮発性メモリを含むことができる。装置１０内の１つ又は複数の他の要素（例えば、取得セクション１０２、抽出セクション１０４、メル・フィルタリング・セクション１０６、正規化セクション１０８、推定セクション１１２、及び訓練セクション１１４等）は、直接、又は格納セクション１００を介して間接的に通信することができる。

取得セクション１０２は、音声信号データの周波数スペクトルを取得することができる。取得セクション１０２は、ニューラル・ネットワークを訓練するための訓練データを取得することもできる。訓練データは、音声信号データの１つ又は複数のセット、及び音声信号データのそれぞれのセットに対応する正しい音識別情報を含むことができる。

抽出セクション１０４は、周波数スペクトルから周期的表示を抽出することができる。周期的表示は、周波数スペクトルの周波数方向に周期的に表れる周波数スペクトルの変動を表すことができる。本発明の実施形態において、周期的表示は、音声信号データの調和構造を表すことができる。周期的表示の詳細は以下に説明される。

メル・フィルタリング・セクション１０６は、メル・フィルタリング・プロセスを実行することができる。メル・フィルタリング・セクション１０６は、周期的表示をメル・フィルタリングすることができる。メル・フィルタリング・セクション１０６は、周波数スペクトルを対数メル・フィルタリングする（log-Mel-filter）こともできる。メル・フィルタリング・プロセスの詳細は以下に説明される。

正規化セクション１０８は、正規化を実行することができる。正規化セクション１０８は、メル・フィルタリング周期的表示を正規化することができる。正規化セクション１０８は、対数メル・フィルタリング周波数スペクトルを正規化することもできる。正規化プロセスの詳細は以下に説明される。

推定セクション１１２は、ニューラル・ネットワークの処理を指示することができる。実施形態において、推定セクション１１２は、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力することができる。周波数スペクトルの成分は、周波数スペクトルの複数の周波数バンドにおける音声信号データのパワー及び／又は強度に関する値を含むことができる。本発明の実施形態において、周波数スペクトルの成分は、音声信号データの正規化したメル・フィルタリング周波数スペクトルとすることができる。本発明の代替的な実施形態において、周波数スペクトルの成分は、音声信号データのメル・フィルタリング周波数若しくは正規化した周波数スペクトル、又は周波数スペクトル自体を含むことができる。

推定セクション１１２は、ニューラル・ネットワークの計算を実行し、ニューラル・ネットワークから音識別情報を推定することができる。本発明の実施形態において、推定セクション１１２は、音素情報を音識別情報として識別することができる。ニューラル・ネットワークの計算の詳細は以下に説明される。

訓練セクション１１４は、訓練データを用いてニューラル・ネットワークの訓練を実行することができる。

上述のように、装置１０は、周期的表示及び周波数スペクトルの成分が入力されるニューラル・ネットワークから音識別情報を推定することができる。装置１０は、正規化したメル・フィルタリング周期的表示及び周波数スペクトルの両方に基づいて、音識別情報の推定の精度を改善することができる。

図２は、本発明の実施形態による、音声信号データにおける観測スペクトルのスペクトログラムを示す。図２の横軸は時間に対応し、縦軸は周波数に対応し、影は音声信号データのパワーに対応する。図２において、水平方向の黒いストライプが観測され、縦軸に沿って繰り返され、周波数スペクトルの周波数バンドにわたる強度の急峻な変動を示す。ストライプは、音声信号データの周期的表示に対応し得る。周期的表示の群は、調和構造を表し得る。音声信号データは、多くの場合、声帯の振動に起因するこうした周期的表示を含み、装置は、周期的表示を用いて、音声信号データ内に表される音素を識別することができる。特に、装置は、音声信号データから周期的表示を抽出し、雑音環境において記録された場合であっても、音声信号データ内に表される特定の音素を識別することができる。

図３は、本発明の実施形態による、動作フローを示す。説明されるのは、装置１０のような装置が、図３に示されるようなＳ１１０〜Ｓ２１０の動作を実行する例である。装置は、動作Ｓ１１０〜Ｓ２１０を実行することにより、音識別情報を推定することができる。

Ｓ１１０において、取得セクション１０２のような取得セクションが、音声信号データの周波数スペクトルを取得することができる。本発明の実施形態において、取得セクションは、パワー・スペクトル密度により表される周波数スペクトルを取得することができる。本発明の実施形態において、音声信号データは、複数の時間フレームにわたりスペクトルに符号化することができ、取得セクションは、音声信号データの複数の時間フレームについての複数の周波数スペクトルを取得することができる。

例えば、音声信号データは、８ｋＨｚで記録された会話音声とすることができる。音声信号データの時間フレームの各々は、１０ｍｓのフレーム・シフトを有する２０ｍｓのフレーム・サイズを有し得る。装置１０は、各時間フレームの周波数スペクトルについて図３の動作を実行することができる。

本発明の実施形態において、周波数スペクトルは、ｙ_ｔ（ｊ）で表され、ここで、ｔ（＝１．．．Ｔ）は、Ｔ個の時間フレームを有する音声信号データの時間フレーム番号を表し、ｊ（＝１．．．Ｊ）は、周波数スペクトルにおける各周波数バンドに対応する周波数ビン番号を表す。実施形態において、ビン数Ｊは、一般的には、これらに限定されるものではないが、２５６又５１２であり得る。

Ｓ１３０において、装置は、音声信号データの周波数スペクトルから周波数スペクトルの成分を取得することができる。

図４は、本発明の実施形態による、Ｓ１３０に対応する動作のサブ・フローを示す。装置は、図３の動作Ｓ１３０における図４の動作Ｓ１３２及びＳ１３６を実行することができる。

Ｓ１３２において、メル・フィルリング・セクション１０６のようなメル・フィルタリング・セクションは、Ｓ１１０において取得した音声信号データの周波数スペクトルを対数メル・フィルタリングすることができる。本発明の実施形態において、メル・フィルタリング・セクションは、最初に：

を計算し、周波数スペクトルｙ_ｔ（ｊ）をメル・フィルタリングすることができる。次に、メル・フィルタリング・セクションは：

を計算し、対数メル・フィルタリング周波数スペクトルｓ＾_ｔ（ｄ）を取得することができ、ここで、Ｂ（ｄ，ｊ）はメル・フィルタ・バンクを表し、かつ、ｊ番目のビンについてのｄ番目（ｄ＝１．．．Ｄ）のトライアングル・フィルタであり、ｌｏｇ（^＊）は、自然対数又は常用対数を表すことができ、Ｄは、メル・フィルタ・バンクの次元数を表しかつ１３〜８０から選択することができる。

本発明の代替的な実施形態において、推定セクションは、周波数スペクトルｙ_ｔ（ｊ）からＭＦＣＣを計算し、計算したＭＦＣＣをｓ＾_ｔ（ｄ）として使用することができる。

Ｓ１３４において、正規化セクション１０８のような正規化セクションは、Ｓ１３２において処理された周波数スペクトルを正規化することができる。正規化セクションは、平均及び分散（mean and variance）正規化、又は他のタイプの正規化を採用することができる。本発明の実施形態において、正規化セクションは：

を計算し、正規化した対数メル・フィルタリング周波数スペクトルγ_ｔ（ｄ）を取得することができ、ここで

は、訓練データの少なくとも一部の対数メル・フィルタリング周波数スペクトルの平均値を表し、ｖ＾（ｄ）は、訓練データの少なくとも一部の対数メル・フィルタリング周波数スペクトルの分散を表す。本発明の実施形態において、訓練データの少なくとも一部は、訓練データ内の音声信号データの１つ又は複数の発声ユニットとすることができる。

本発明の実施形態において、ｙ_ｔ（ｊ）、Ｙ_ｔ（ｊ）、ｓ＾_ｔ（ｄ）、及び／又はγ_ｔ（ｄ）は、周波数スペクトルの「ｊ」及び複数の周波数バンド「ｄ」における音声信号データのパワーに関する値を含むことができ、周波数スペクトルの成分として扱うことができる。

Ｓ１３６において、推定セクションは、Ｓ１３４において処理された周波数スペクトルを時間に関して微分することができる。本発明の実施形態において、推定セクションは、γ_ｔ（ｄ）の１階微分Δγ_ｔ（ｄ）を計算することができる。本発明の実施形態において、推定セクションは、γ_ｔ（ｄ）の２階微分ΔΔγ_ｔ（ｄ）をさらに計算することができる。

Ｓ１３２〜１３６の動作によると、推定セクションは、周波数スペクトルの複数の周波数バンドにおける音声信号データのパワーに関する値を含むことができる周波数スペクトルの成分を取得することができる。推定セクションは、Δγ_ｔ（ｄ）及びΔΔγ_ｔ（ｄ）のような周波数スペクトルの成分の時間に関する１階微分及び２階微分をさらに取得することができる。

図３のＳ１３０の動作の後、抽出セクション１０４のような抽出セクションは、周波数スペクトルから周期的表示を抽出することができる。

図５は、本発明の実施形態による、Ｓ１５０に対応する動作サブ・フローを示す。装置は、図３の動作Ｓ１５０において図５の動作Ｓ１５２及びＳ１５８を実行することができる。

Ｓ１５２において、抽出セクションは、対数パワー・スペクトルＹ_ｔ（ｊ）に対する離散コサイン変換を実行することにより、ケプストラム（Cepstruｍ）を取得することができる。

図６は、本発明の実施形態による、周波数スペクトルにおける単一の時間フレームについてのパワー・スペクトルを示す。図６の横軸は周波数を表し、縦軸は対数パワーを表す。

本発明の実施形態において、抽出セクションは：

を計算し、ケプストラムＣ_ｔ（ｉ）を取得し、ここで、Ｄ（ｉ，ｊ）はＤＣＴマトリクスである。

図７は、本発明の実施形態による、ケプストラムを示す。図７の横軸は周波数を表し、縦軸は対数パワーを表す。抽出セクションは、図６の対数パワー・スペクトルから図７のケプストラムを取得することができる。

Ｓ１５４において、抽出セクションは、ケプストラムＣ_ｔ（ｉ）の一部をカットオフすることができる。実施形態において、抽出セクションは、Ｃ_ｔ（ｉ）の上部及び／又は下部をフィルタ処理により除去することができる。本発明の実施形態において、抽出セクションは：

を計算することができ、
ここで、εは非常に小さい定数（例えば、０．００１）又は０を表し、Ｃ_Ｌは、下部カットオフ数を表し、Ｃ_Ｕは、上部カットオフ数を表す。それにより、抽出セクションは、カットオフ・ケプストラムＣ＾_ｔ（ｉ）として、Ｃ_ＬとＣ_Ｕとの間のケプストラムの範囲を選択することができる。

図８は、本発明の実施形態による、カットオフ・ケプストラムを示す。図８の横軸及び縦軸は、図７と同じ単位を表す。抽出セクションは、図７のケプストラムから図８のカットオフ・ケプストラムを取得することができる。

Ｓ１５６において、抽出セクションは、逆（inverse）−ＤＣＴ（Ｉ−ＤＣＴ）を実行することにより、カットオフ・ケプストラムを、もとの対数パワー・スペクトルに変換することができる。本発明の実施形態において、抽出セクションは：

を計算し、Ｉ−ＤＣＴスペクトルＷ_ｔ（ｊ）を取得することができる。

図９は、本発明の実施形態による、Ｉ−ＤＣＴスペクトルを示す。図９の横軸は周波数を表し、縦軸は対数パワーを表す。抽出セクションは、図８のカットオフ・ケプストラムから図９のＩ−ＤＣＴスペクトルを取得することができる。

Ｓ１５８において、抽出セクションはＩ−ＤＣＴスペクトル（すなわち、対数パワー・スペクトル）を、線形パワー・スペクトルに変換することができる。本発明の実施形態において、抽出セクションは：

を計算し、ｗ_ｔ（ｊ）を取得することができ、これは、線形パワー・スペクトル・ドメインで表される。装置は、周期的表示として、複数のビンｊについてのｗ_ｔ（ｊ）を用いることができる。

図１０は、本発明の実施形態による周期的表示を示す。横軸は周波数を表し、縦軸は、図１０における線形パワーを表す。抽出セクションは、図９の対数パワー・スペクトルから図１０の線形スペクトルを取得することができる。

図３のＳ１５０の動作後、メル・フィルタリング・セクションは、周期的表示の次元数を減らすことにより、周期的表示を圧縮することができる。本発明の実施形態において、メル・フィルタリング・セクションは、周期的表示をメル・フィルタリングし：

を計算することによって次元の数を減らし、メル・フィルタリング周期的表示ｗ＾_ｔ（ｄ）を取得することができ、ここで、Ｂ（ｄ，ｊ）はメル・フィルタ・バンクを表しかつｊ番目のビンについてのｄ番目（ｄ＝１．．．Ｄ）のトライアングル・フィルタである。

図１１は、本発明の実施形態による、メル・フィルタリング周期的表示を示す。図１１において、横軸は周波数を表し、縦軸は線形パワーを表す。メル・フィルタリング・セクションは、図１０の周期的表示から図１１のメル・フィルタリング周期的表示を取得することができる。

図１１に示されるように、メル・フィルタリング・セクションは、特に高い周波数範囲において、周期的表示の次元数を減らすことにより、周期的表示を圧縮することができる。それにより、圧縮後、周期的表示の比較的重要な情報を保持することができる。本発明の実施形態において、数Ｄは、２０〜４０から選択することができる。

Ｓ１９０において、正規化セクションは、メル・フィルタリング周期的表示を正規化することができる。本発明の実施形態において、正規化セクションは、正規化を行って、周期的表示における複数のバンドの中の順序尺度（ordinal scale）を維持することができる。それにより、正規化セクションは、周期的表示の順序尺度の情報を保持することができ、そのことは、ニューラル・ネットワークの推定にとって有利であり得る。一例において、正規化セクションは、シグモイド（sigmoid）正規化に基づいて正規化を実行することができる。一例において、正規化セクションは：

を計算し、正規化したメル・フィルタリング周期的表示β_ｔ（ｄ）を取得することができ、ここで、ａ及びｂは、定数値である。

別の例において、正規化セクションは、最大分散（max-variance）正規化に基づいて正規化を行うことができる。一例において、正規化セクションは：

を計算することができ、ここで、

であり、μは定数値を表し、Ｅ［］は、期待値を計算する関数を表し、ｗ＾（ｄ）は、訓練データにより取得されるメル・フィルタリング周期的表示を表す。本発明の実施形態において、正規化セクションは、図３の動作を開始する前に訓練データの音声信号データを利用することにより、式（１２）〜（１５）を予め計算することができ、（１２）〜（１５）の計算の結果を格納することができる。

Ｓ２１０において、推定セクション１１２のような推定セクションは、ニューラル・ネットワークの計算を処理することにより、音素情報のような音識別情報を推定することができる。推定セクションは、Ｓ１９０において取得された圧縮された正規化した周期的表示、及びＳ１３４において取得された周波数スペクトルの成分をニューラル・ネットワークに入力することができる。推定セクションはさらに、周波数スペクトルの成分の１階及び２階微分を、Ｓ１３６において取得されたニューラル・ネットワークに入力することができる。

本発明の実施形態において、推定セクションにより用いられるニューラル・ネットワークは、畳み込み（convolutional）ニューラル・ネットワーク又はディープ（deep）ニューラル・ネットワークとすることができる。畳み込みニューラル・ネットワークは、１つ又は複数のセットの畳み込み層及びプーリング（pooling）層を含むことができる、１つ又は複数の畳み込みニューラル・ネットワーク層を含むことができる。畳み込みニューラル・ネットワークは、１つ又は複数の全結合層（fully-connected layer）を含むこともできる。畳み込みニューラル・ネットワークは、他のタイプの層をさらに含むことができる。ディープ・ニューラル・ネットワークは、複数の全結合層を含むことができ、かつ随意的に、他のタイプの層を含むこともできる。

図３に関連して上述されるように、装置は、周期的表示を抽出することができ、周波数スペクトルの成分を有する周期的表示をニューラル・ネットワークに入力し、音識別情報を推定することができる。装置は、周波数スペクトルの成分だけでなく、周期的表示も使用することができ、それにより、人間の声の存在の確かさを示し得るので、装置は、音識別情報の識別の精度を改善することができる。

さらに、本発明の実施形態において、ニューラル・ネットワークに入力する前に、周期的表示の次元数を減らすことにより、周期的表示及び周波数スペクトルを圧縮する（例えば、メル・フィルタリングする）ことができるので、音識別情報の推定に必要な計算リソースを減らすことができる。

さらに、周期的表示を正規化し、周期的表示の複数のバンドの中の順序尺度の情報を維持することができるので、周期的表示は、該周期的表示の複数のバンドの中の順序尺度の情報を失うことなく、周波数スペクトルの成分により適切に処理することができる。

幾つかの実施形態において、装置は、周期的表示及び周波数スペクトルを正規化しないようにすることができる。本発明のこれらの実施形態において、装置は、Ｓ１３４及びＳ１９０を実行しないようにすることができる。幾つかの実施形態において、装置は、周期的表示及び周波数スペクトルをメル・フィルタリングしないようにすることができる。本発明のこれらの実施形態において、メル・フィルタリング・セクションは、Ｓ１３２におけるメル・フィルタリング・プロセスなしに、ｌｏｇ（ｙ_ｔ（ｊ））を計算するだけとすることができ、装置はＳ２１０を実行しないようにすることができる。

図１２は、本発明の実施形態による、ディープ・ニューラル・ネットワークを示す。本発明の実施形態において、推定セクションは、図３の動作Ｓ２１０において、図１２に示されるニューラル・ネットワークを用いることができる。

本発明の実施形態において、ニューラル・ネットワークは、全結合層とすることができる、６つの２０４８−ノード層、１つの５１２−ノード層、及び１つの９３００−ノード層を含むことができる。ニューラル・ネットワークは、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークの第１の層に入力することができる。図１２の本発明の実施形態において、ニューラル・ネットワークは、４つの４０×１１入力ノードを含むことができ、そこで、各々の４０×１１入力ノードは、周波数スペクトルの成分（ＣＦＳ）、ΔＣＦＳ、ΔΔＣＦＳ、及び周期的表示（ＰＩ）を第１の２０４８−ノード層に入力する。

４０×１１とは、４０個の次元特徴×１１個の時間フレームを意味する。実施形態において、ＣＦＳは、Ｓ１３４において取得された正規化した対数メル・フィルタリング周波数スペクトルγ_ｔ（ｄ）（１≦ｄ≦Ｄ、ｔ_ｃ−５≦ｔ≦ｔ_ｃ＋５であり、ここで、Ｄ＝４０及びｔ_ｃは現在の時間フレームである）に対応することができる。それにより、ニューラル・ネットワークは、現在の時間フレームｔ_ｃを中心とする１１個の時間フレームの特徴を入力することができ、ｔ_ｃの前及び後に５個の時間フレームを含むことができる。

ΔＣＦＳ及びΔΔＣＦＳは、Ｓ１３６において取得された、ＣＦＳの１階微分Δγ_ｔ（ｄ）及びＣＦＳの２階微分ΔΔγ_ｔ（ｄ）に対応し得る。ＰＩは、Ｓ１９０において取得された正規化したメル・フィルタリング周期的表示β_ｔ（ｄ）に対応し得る。ニューラル・ネットワークは、音声信号データの各時間フレームｔについて、ＣＦＳ（γ_ｔ（ｄ））、ΔＣＦＳ（Δγ_ｔ（ｄ））、ΔΔＣＦＳ（ΔΔγ_ｔ（ｄ））及びＰＩ（β_ｔ（ｄ））を入力することができる。

図１２の本発明の実施形態において、第１の２０４８−ノード層は、複数の第１のノードと、複数の第２のノードとを含む。図１２において、第１のノードに対応する部分は、Ａとして表され、第２のノードに対応する部分は、Ｂとして表される。ニューラル・ネットワークの訓練を開始する前に、訓練セクション１１４のような訓練セクションは、第１のノードＡと、ＰＩに対応する複数の入力ノードとの間の重みを０に設定し、第２のノードＢとＣＦＳ、ΔＣＦＳ及びΔΔＣＦＳに対応する複数の入力ノードとの間の重みを０に設定することができる。訓練セクションは、第１の２０４８−ノード層内のノードと入力ノードとの間の他の重みを所定の定数値又はランダム値に設定することができる。それにより、訓練の開始時に、周期的表示（ＰＩ）、並びにＣＦＳ、ΔＣＦＳ及びΔΔＣＦＳのような標準特徴量（standard feature）は、第１の２０４８−ノード層で隔離される。

この技術は、ブロック初期化と呼ぶことができ、少なくとも訓練の始めに、周期的表示の独立した処理を可能にする。標準特徴量及び周期的表示は、異なるタイプの情報とみなすことができ、従って、場合によっては、ニューラル・ネットワークの一番最初の層におけるこれらの特徴量の統合を回避することが好ましい場合がある。

ブロック初期化によると、周期的表示及び標準特徴量は、実質的に、ニューラル・ネットワークの中間層の後に統合され得る。それにより、推定セクションは、周期的表示及び標準特徴量を抽象化した後、周期的表示及び標準特徴量をニューラル・ネットワーク内に統合することができる。

本発明の実施形態において、ニューラル・ネットワークは、９３００−ノード層から各時間フレームｔについての音識別情報Ｓ_ｔを出力することができる。数「９３００」は、音素の数に対応し、９３００−ノード層内の９３００個のノードの各々は、既存の９３００個の音素の各々に対応する。ニューラル・ネットワークの最後の層内のノードは音素に対応し得るが、最後の層内のノードの数は、９３００個に限定されない。本発明の幾つかの実施形態において、ニューラル・ネットワークの最後の層内のノードは、２つ又それより多い音素の連続的組み合わせに対応し得る。

本発明の実施形態において、９３００−ノード層内の１つのノードだけが１を出力し、９３００−ノード層内の他のノードは、０を出力することがあり、１のノードに対応する音素が、ニューラル・ネットワークから出力された音識別情報として識別されることを意味する。本発明の別の実施形態において、９３００−ノード層内の各ノードは、そのノードに対応する音素が、音声信号データから識別される可能性に対応する値を出力することができる。

図１３は、本発明の実施形態による、畳み込みニューラル・ネットワークを示す。本発明の実施形態において、推定セクションは、Ｓ２１０において、図１３に示されるニューラル・ネットワークを用いることができる。ここで、図１２のニューラル・ネットワークと図１３のニューラル・ネットワークの違いのみが説明され得る。

本発明の実施形態において、ニューラル・ネットワークは、１２８−ノード畳み込みニューラル・ネットワーク（ＣＮＮ）層、２５６−ノードＣＮＮ層、４つの２０４８−ノード層、１つの５１２−ノード層、及び１つの９３００−ノード層を含むことができる。４つの２０４８−ノード層、５１２−ノード層、及び９３００−ノード層は、全結合層とすることができる。ニューラル・ネットワークは、周期的表示、及び周波数スペクトルの成分を、ニューラル・ネットワークの第１の層（すなわち、１２８−ノードＣＮＮ層）に入力することができる。

図１４は、本発明の実施形態による、ディープ・ニューラル・ネットワークを示す。本発明の実施形態において、推定セクションは、動作Ｓ２１０において、図１４に示されるニューラル・ネットワークを用いることができる。ここで、図１２のニューラル・ネットワークと図１４のニューラル・ネットワークの違いのみが説明され得る。

本発明の実施形態において、ニューラル・ネットワークは、周期的表示を、ニューラル・ネットワークの第２の層又後の層に入力することができる。図１４の本発明の実施形態において、標準特徴量（ＣＦＳ、ΔＣＦＳ及びΔΔＣＦＳ）を第１の２０４８−ノード層に入力することができ、周期的表示（ＰＩ）は、第１の２０４８−ノード層から隔離され、図１４にＣとして表される４４０−ノード層に入力することができる。Ｄとして表される第２の２０４８ノード層は、第１の２０４８−ノード層及び４４０ノード層からの両方の出力を入力することができる。

図１４の本発明の実施形態によると、周期的表示及び標準特徴量は、ニューラル・ネットワークの第２の２０４８−ノード層において統合され得る。それにより、推定セクションは、第１の２０４８−ノード層において周期的表示及び標準特徴量を抽象化した後、ニューラル・ネットワーク内の周期的表示及び標準特徴量を統合することができ、従って、ニューラル・ネットワークの性能を改善することができる。

図１５は、本発明の実施形態による畳み込みニューラル・ネットワークを示す。本発明の実施形態において、推定セクションは、Ｓ２１０の動作において、図１５に示されるニューラル・ネットワークを用いることができる。ここで、図１３のニューラル・ネットワークと図１５のニューラル・ネットワークの違いのみが説明され得る。

本発明の実施形態において、ニューラル・ネットワークは、周期的表示を、１つ又は複数の畳み込みニューラル・ネットワーク層の下流にある層に入力することができる。図１５の本発明の実施形態において、標準特徴量（ＣＦＳ、ΔＣＦＳ及びΔΔＣＦＳ）を第１のＣＮＮ層（すなわち、１２８−ノードＣＮＮ層）に入力することができ、周期的表示（ＰＩ）を、図１５にＥとして表される４４０−ノード層に入力することができる。

第１のＣＮＮ層は、第２のＣＮＮ層（すなわち、２５６−ノードＣＮＮ層）に結合することができ、第２のＣＮＮ層は、図１５にＦとして表される第１の２０４８−ノード層に結合することができる。４４０−ノード層は、第１の２０４８−ノード層に全結合することができる。

本発明の実施形態によると、ＣＮＮ層の後、標準特徴量から得られた情報及び周期的表示から得られた情報は併合することができる。標準特徴量がＣＮＮ層により抽象化された後、周期的表示を標準特徴量と混合することができ、それにより、ニューラル・ネットワークの性能が改善される。

図１４及び図１５の本発明の実施形態において、装置は、周期的表示をニューラル・ネットワークに入力する前に、周期的表示をメル・フィルタリングしないようにすることができる。本発明のこれらの実施形態においては、周期的表示は、標準特徴量と並行してニューラル・ネットワークの第１の層に入力されないので、メル・フィルタリング以外の別の方法によって、周期的表示の次元数を減らすことができる。本発明の実施形態において、周期的表示は、次元数を減らすことなく、ニューラル・ネットワークに入力することさえできる。同様の理由で、図１４及び図１５の本発明の実施形態において、装置は、周期的表示をニューラル・ネットワークに入力する前に周期的表示を正規化しないようにすることができる。

本発明の幾つかの実施形態において、メル・フィルタリングは、正規化後に実行することができる。例えば、本発明のこれらの実施形態において、装置は、動作Ｓ２１０の後に動作Ｓ１９０を実行することができ、動作Ｓ１３２の後に動作Ｓ１３４を実行することができる。

図１６は、本発明の実施形態による、クラウド・サービス利用するように構成されたコンピュータのハードウェア構成を示す。コンピュータ８００にインストールされたプログラムにより、コンピュータ８００が、本発明の実施形態の装置、又はその１つ又は複数のセクション（モジュール、コンポーネント、要素等）と関連した動作の役割を果たすこと又は動作を実行することができ、及び／又はコンピュータ８００が、本発明の実施形態のプロセス又はそのステップを実行することができる。こうしたプログラムは、ＣＰＵ８００−１２により実行し、コンピュータ８００に、本明細書で説明されるフローチャート及びブロック図のブロックの一部又は全てと関連した特定の動作を実行させることができる。

本発明の実施形態によるコンピュータ８００は、ホスト・コントローラ８００−１０により互いに接続される、ＣＰＵ８００−１２、ＲＡＭ８００−１４、グラフィックス・コントローラ８００−１６、及びディスプレイ・デバイス８００−１８を含む。コンピュータ８００は、入力／出力コントローラ８００−２０を介してホスト・コントローラ８００−１０に接続される、通信インターフェース８００−２２、ハードディスク・ドライブ８００−２４、ＤＶＤ−ＲＯＭドライブ８００−２６、及びＩＣカード・ドライブなどの入力／出力ユニットも含む。コンピュータは、入力／出力チップ８００−４０を通じて入力／出力・コントローラ８００−２０に接続される、ＲＯＭ８００−３０及びキーボード８００−４２などのレガシー・入力／出力ユニットも含む。

ＣＰＵ８００−１２は，ＲＯＭ８００−３０及びＲＡＭ８００−１４内に格納されるプログラムに従って動作し、それにより、各ユニットを制御する。グラフィックス・コントローラ８００−１６は、ＲＡＭ８００−１４内又はそれ自体で提供されるフレーム・バッファ等上のＣＰＵ８００−１２により生成される画像データを取得し、画像データをディスプレイ・デバイス８００−１８上に表示させる。

通信インターフェース８００−２２は、ネットワーク８００−５０を介して他の電子デバイスと通信する。ハードディスク・ドライブ８００−２４は、コンピュータ８００内のＣＰＵ８００−１２により用いられるプログラム及びデータを格納する。ＤＶＤ−ＲＯＭドライブ８００−２６は、ＤＶＤ−ＲＯＭ８００−０１からプログラム又はデータを読み取り、ＲＡＭ８００−１４を介して、ハードディスク・ドライブ８００−２４にプログラム又はデータを提供する。ＩＣカード・ドライブは、ＩＣカードからプログラム及びデータを読み取り、及び／又はプログラム及びデータをＩＣカードに書き込む。

ＲＯＭ８００−３０は、起動時にコンピュータ８００により実行されるブート・プログラム、及び／又はコンピュータ８００のハードウェアに依存するプログラムを内部に格納する。入力／出力チップ８００−４０は、パラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して種々の入力／出力ユニットを入力／出力コントローラ８００−２０に接続することもできる。

プログラムが、ＤＶＤ−ＲＯＭ８００−０１又はＩＣカードのようなコンピュータ可読媒体により提供される。プログラムは、コンピュータ可読媒体から読み取られ、同じくコンピュータ可読媒体の例であり、ＣＰＵ８００−１２により実行される、ハードディスク・ドライブ８００−２４、ＲＡＭ８００−１４、又はＲＯＭ８００−３０にインストールされる。これらのプログラム内に記述される情報処理をコンピュータ８００内に読み取り、結果としてプログラムと上述の種々のタイプのハードウェア・リソースとの間の協働がもたらされる。装置又は方法は、コンピュータ８００の使用による動作又は情報の処理を実現することによって構成することができる。

例えば、コンピュータ８００と外部デバイスとの間で通信が行われる場合、ＣＰＵ８００−１２は、ＲＡＭ８００−１４にロードされた通信プログラムを実行し、通信プログラム内に記述される処理に基づいて、通信インターフェース８００−２２に通信処理を指示することができる。ＣＰＵ８００−１２の制御下の通信インターフェース８００−２２は、ＲＡＭ８００−１４、ハードディスク・ドライブ８００−２４、ＤＶＤ−ＲＯＭ８００−０１、又はＩＣカードのような記録媒体内に提供される伝送バッファ領域上に格納される伝送データを読み取り、読み取った伝送データをネットワーク８００−５０に伝送するか、又はネットワーク８００−５０から受け取った受信データを、記録媒体上に提供される受信バッファ領域等に書き込む。

さらに、ＣＰＵ８００−１２は、ＲＡＭ８００−１４、ハードディスク・ドライブ８００−２４、ＤＶＤ−ＲＯＭドライブ８００−２６（ＤＶＤ−ＲＯＭ８００−０１）、ＩＣカード等のような外部記録媒体内に格納されたファイル又はデータベースの全て又は必要な部分を、ＲＡＭ８００−１４に読み取らせ、ＲＡＭ８００−１４上のデータに対して種々のタイプの処理を実行することができる。次に、ＣＰＵ８００−１２は、処理されたデータを外部記録媒体にライトバックすることができる。

情報処理を行うために、種々のタイプのプログラム、データ、テーブル及びデータベースのような種々のタイプの情報を記録媒体内に格納することができる。ＣＰＵ８００−１２は、ＲＡＭ８００−１４から読み取られたデータに対して、本開示全体を通して説明され、プログラムの命令シーケンスにより示されるような、種々のタイプの動作、情報の処理、条件判断、条件付き分岐、条件なし分岐、情報の検索／置換等を含む種々のタイプの処理を実行し、結果をＲＡＭ８００−１４にライトバックすることができる。

さらに、ＣＰＵ８００−１２は、記録媒体のファイル、データベース等内の情報を検索することができる。例えば、各々が第１の属性の属性値を有する複数のエントリが第２の属性の属性値と関連付けられ、記録媒体内に格納されるとき、ＣＰＵ８００−１２は、複数のエントリの中から、第１の属性の属性値が指定される条件に合致するエントリを検索し、エントリ内に格納される第２の属性の属性値を読み取り、それにより、所定の条件を満たす第１の属性と関連した第２の属性の属性値を得ることができる。

上で説明したプログラム又はソフトウェア・モジュールは、コンピュータ８００上又はその近くのコンピュータ可読媒体に格納することができる。さらに、専用通信ネットワーク又はインターネットに接続されるサーバ・システム内に提供される、ハードディスク又はＲＡＭなどの記録媒体をコンピュータ可読媒体として用いて、これにより、ネットワークを介してプログラムをコンピュータ８００に提供することができる。

本発明は、システム、方法、及び／又はコンピュータ・プログラム製品において少なくとも部分的に具体化することができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体（単数又は複数）を含むことができる。

コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの：すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク、パンチカード若しくは命令がそこに記録された溝内の***構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び／又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び／又はエッジ・サーバを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体に格納する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び、「Ｃ」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）若しくは広域ネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある（例えば、インターネットサービスプロバイダを用いたインターネットを通じて）。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個人化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）及びコンピュータ・プログラム製品のフローチャート図及び／又はブロック図を参照して説明される。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロック内で指定された機能／動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、及び／又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定された機能／動作の態様を実施する命令を含む製品を含むようにすることもできる。

コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び／又はブロック図の１つ又は複数のブロックにおいて指定された機能／動作を実行するためのプロセスを提供するようにすることもできる。

図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される２つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。

本発明の実施形態を説明したが、本発明の技術的範囲は上述の実施形態に限定されない。本発明の上述の実施形態に、種々の変更又は改良を加え得ることが当業者には明らかである。また、そうした変更又は改良を加えた実施形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲から明らかである。

特許請求の範囲、実施形態、又は図に示される装置、システム、プログラム、及び方法により実施される各プロセスの動作、手順、ステップ、及び段階は、順番が、「に先立って（prior to）」、「より前に（before）」等により示されず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実施することができる。特許請求の範囲、実施形態、又は図において、プロセス・フローが、「最初に（first）」又は「次に（next）」のような語句を用いて説明されたとしても、これは必ずしも、プロセスをこの順序で実施しなければならないことを意味するものではない。

上記から明らかにされるように、本発明の実施形態は、時系列入力データに対応するモデルを学習する学習装置が、より高い表現能力及び学習能力を有し、学習動作をより簡単に実行することを可能にする。

本明細書における、本発明の「一実施形態（one embodiment）」又は「（１つの）実施形態（an embodiment）」、並びに本発明の他の変形への言及は、その実施形態に関連して説明される特定の特徴、構造、又は特性が、本発明の少なくとも１つの実施形態に含まれていることを意味する。従って、本明細書の全体を通して種々の場所に現れる、「一実施形態において」又は「（１つの）実施形態において」、並びに他のいずれか変形という語句の出現は、必ずしも、全て本発明の同一の実施形態を指すわけではない。

以下の「／」、「及び／又は」、及び「〜のうちの少なくとも１つ」のいずれかの使用は、例えば、「Ａ／Ｂ」、「Ａ及び／又はＢ」、及び「Ａ及びＢのうちの少なくとも１つ」の場合、１番目に記載された選択肢（Ａ）のみの選択、又は２番目に記載された選択肢（Ｂ）のみの選択、又は両方の選択肢（Ａ及びＢ）の選択を包含することが意図されることを理解されたい。さらに別の例において、「Ａ、Ｂ、及び／又はＣ」及び「Ａ、Ｂ、及びＣのうちの少なくとも１つ」の場合、そのような語句は、１番目に記載された選択肢（Ａ）のみの選択、又は２番目に記載された選択肢（Ｂ）のみの選択、又は３番目に記載された選択肢（Ｃ）のみの選択、又は１番目及び２番目に記載された選択肢（Ａ及びＢ）のみの選択、又は１番目及び３番目に記載された選択肢（Ａ及びＣ）のみの選択、又は２番目及び３番目に記載された選択肢（Ｂ及びＣ）のみの選択、又は３つ全ての選択肢（Ａ及びＢ及びＣ）の選択を包含することが意図される。これは、本技術分野及び関連する技術分野の当業者にとって容易に明らかとなるように、記載された多くの項目に関して拡張することができる。

システム及び方法の好ましい実施形態（限定ではなく例証であることが意図される）が説明されているが、当業者であれば、上記の教示に鑑みて、修正及び変形をなし得ることに留意されたい。従って、添付の特許請求の範囲によって概説される本発明の範囲内にある開示された特定の実施形態において、変更をなし得ることを理解されたい。従って、特許法によって要求される詳細及び特殊性と共に、本発明の態様を上記のように説明したが、特許請求され、特許証によって保護されることを望むことは、添付の特許請求の範囲に示される。

１０：装置
１００：格納セクション
１０２：取得セクション
１０４：抽出セクション
１０６：メル・フィルタリング・セクション
１０８：正規化セクション
１１２：推定セクション
１１４：訓練セクション
８００：コンピュータ

Claims

コンピュータ実施方法であって、
プロセッサにより、音声信号データの周波数スペクトルを取得することと、
前記プロセッサにより、前記周波数スペクトルから周期的表示を抽出することと、
前記プロセッサにより、前記周期的表示及び前記周波数スペクトルの成分をニューラル・ネットワークに入力することと、
前記プロセッサにより、前記ニューラル・ネットワークから音識別情報を推定することと、
を含む、方法。
前記音識別情報を推定することは、音素情報を識別することを含む、請求項１に記載の方法。
前記周期的表示は、前記周波数スペクトルにおいて周期的に表れる前記周波数スペクトルの変動を表す、請求項１に記載の方法。
前記周期的表示は、前記音声信号データの調和構造を表す、請求項１に記載の方法。
前記ニューラル・ネットワークに入力する前に、前記周期的表示を正規化することをさらに含む、請求項１に記載の方法。
前記周期的表示を正規化することは、前記周期的表示における複数のバンドの中の順序尺度を維持することを含む、請求項５に記載の方法。
前記周期的表示を正規化することは、シグモイド正規化又は最大分散正規化に基づく、請求項６に記載の方法。
前記周波数スペクトルの前記成分は、前記周波数スペクトルの複数の周波数バンドにおける前記音声信号データのパワーに関する値を含む、請求項１に記載の方法。
前記周期的表示及び前記周波数スペクトルの前記成分をニューラル・ネットワークに入力することは、前記周波数スペクトルの前記複数の周波数バンドにおける前記音声信号データのパワーに関する前記値の時間に関する１階微分及び２階微分をさらに入力することを含む、請求項８に記載の方法。
前記ニューラル・ネットワークは、畳み込みニューラル・ネットワーク又はディープ・ニューラル・ネットワークである、請求項１に記載の方法。
前記ニューラル・ネットワークに入力することは、前記周期的表示及び前記周波数スペクトルの前記成分を前記ニューラル・ネットワークの第１の層に入力することを含む、請求項１０に記載の方法。
前記ニューラル・ネットワークを訓練することをさらに含み、前記ニューラル・ネットワークはディープ・ニューラル・ネットワークであり、前記ディープ・ニューラル・ネットワークは、複数の全結合ネットワーク層を含み、第１の層は複数の第１のノード及び複数の第２のノードを含み、訓練する前、前記第１のノードと前記周期的表示に対応する複数の入力ノードとの間の重みは０である、請求項１０に記載の方法。
前記ニューラル・ネットワークに入力することは、前記周期的表示を前記ニューラル・ネットワークの第２の層又は後の層に入力することを含む、請求項１０に記載の方法。
前記ニューラル・ネットワークは畳み込みニューラル・ネットワークであり、前記畳み込みニューラル・ネットワークは、１つ又複数の畳み込みニューラル・ネットワーク層を含み、
前記ニューラル・ネットワークに入力することは、前記周期的表示を、前記１つ又は複数のニューラル・ネットワーク層の下流にある層に入力することをさらに含む、請求項１３に記載の方法。
前記ニューラル・ネットワークに入力する前に、前記周期的表示の次元数を減らすことによって、前記周期的表示を圧縮することをさらに含む、請求項１３に記載の方法。
前記ニューラル・ネットワークに入力する前に、前記周期的表示をメル・フィルタリングすることをさらに含む、請求項１０又は請求項１３に記載の方法。
命令を有するコンピュータ・プログラムであって、前記命令は、プロセッサ又はプログラム可能回路により実行可能であり、前記プロセッサ又はプログラム可能回路に、請求項１乃至請求項１６のいずれかを含む方法を実行させる、コンピュータ・プログラム。
プロセッサと、
前記プロセッサにより実行されるとき、前記プロセッサに、請求項１乃至請求項１６のいずれかの方法を実行させる命令をまとめて含む１つ又は複数のコンピュータ可読媒体と、
を含む、装置。