JP2020510862A - 周期的表示を用いる音識別 - Google Patents

周期的表示を用いる音識別 Download PDF

Info

Publication number
JP2020510862A
JP2020510862A JP2019544670A JP2019544670A JP2020510862A JP 2020510862 A JP2020510862 A JP 2020510862A JP 2019544670 A JP2019544670 A JP 2019544670A JP 2019544670 A JP2019544670 A JP 2019544670A JP 2020510862 A JP2020510862 A JP 2020510862A
Authority
JP
Japan
Prior art keywords
neural network
frequency spectrum
periodic
processor
periodic representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019544670A
Other languages
English (en)
Other versions
JP7100855B2 (ja
Inventor
治 市川
治 市川
福田 隆
隆 福田
ラマバドラン、ブバーナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020510862A publication Critical patent/JP2020510862A/ja
Application granted granted Critical
Publication of JP7100855B2 publication Critical patent/JP7100855B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Auxiliary Devices For Music (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Circuits Of Receivers In General (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 周期的表示を用いる音識別を提供する。【解決手段】 コンピュータ実施方法及び装置が提供される。方法は、プロセッサにより、音声信号データの周波数スペクトルを取得することを含む。方法は、プロセッサにより、周波数スペクトルから周期的表示を抽出することをさらに含む。方法は、プロセッサにより、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力することも含む。方法はさらに、プロセッサにより、ニューラル・ネットワークから音識別情報を推定することを含む。【選択図】 図1

Description

本発明は、音声信号の周波数スペクトルにおける周期的表示(periodic indication)に基づく音識別の推定に関する。
多数の従来の音声認識システムは、対数メル(log−Mel)又はメル周波数ケプストラム係数(MFCC:Mel−Frequency Cepstrum Coefficient)により処理される特徴量を入力特徴量として用いる。対数メル及びMFCCは、メル・フィルタ・バンクを音声信号データの周波数スペクトルに適用する。しかしながら、メル・フィルタ・バンクは、音声信号データにおいてより高い解像度を保持しない。一般的に、人間の言葉の調和構造(harmonic structure)は、メル・フィルタリング・プロセス(Mel-Filtering process)によって失われる。調和構造は、母音と他の音素とを区別するために用いることができる情報を提供する。
一方では、現在の音声認識システムは、計算コストが高く、従って、多くの時間又多くの計算リソースを必要とする。システムの性能を改善することができる方法で、調和構造を音声認識システムに統合するための必要性が存在する。
本発明の態様によると、プロセッサにより、音声信号データの周波数スペクトルを取得することを含むコンピュータ実施方法が提供される。方法は、プロセッサにより、周波数スペクトルから周期的表示を抽出することをさらに含む。方法は、プロセッサにより、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力することも含む。方法はさらに、プロセッサにより、ニューラル・ネットワークから音識別情報を推定することを含む。
本発明の別の態様によると、命令がそこに具体化されたコンピュータ・プログラム製品が提供される。命令は、プロセッサ又はプログラム可能回路により実行可能であり、プロセッサ又はプログラム可能回路に方法を実行させる。方法は、音声信号データの周波数スペクトルを取得することを含む。方法は、周波数スペクトルから周期的表示を抽出することをさらに含む。方法は、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力することも含む。方法はさらに、ニューラル・ネットワークから音識別情報を推定することを含む。
本発明のさらに別の態様によると、プロセッサを含む装置が提供される。装置は、プロセッサにより実行されるとき、プロセッサに、音声信号データの周波数スペクトルを取得させ、周波数スペクトルから周期的表示を抽出させ、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力させ、ニューラル・ネットワークから音識別情報を推定させる命令をまとめて含む1つ又は複数のコンピュータ可読媒体をさらに含む。
これら及び他の特徴及び利点は、添付図面とともに読まれるべき、以下の本発明の例示的な実施形態の詳細な説明から明らかになるであろう。
以下の説明は、以下の図を参照して、本発明の好ましい実施形態の詳細を与える。
本発明の実施形態による、装置10の例示的な構成を示す。 本発明の実施形態による、音声信号における観測スペクトルのスペクトログラムを示す。 本発明の実施形態による、動作フローを示す。 本発明の実施形態による、S130に対応する動作サブ・フローを示す。 本発明の実施形態による、S150に対応する動作サブ・フローを示す。 本発明の実施形態による、対数パワー・スペクトルを示す。 本発明の実施形態による、ケプストラムを示す。 本発明の実施形態による、カットオフ・ケプストラムを示す。 本発明の実施形態による、I−DCTスペクトルを示す。 本発明の実施形態による、周期的表示を示す。 本発明の実施形態による、メル・フィルタリング周期的表示を示す。 本発明の実施形態による、ディープ・ニューラル・ネットワークを示す。 本発明の実施形態による、畳み込みニューラル・ネットワークを示す。 本発明の実施形態による、ディープ・ニューラル・ネットワークを示す。 本発明の実施形態による、畳み込みニューラル・ネットワークを示す。 本発明の実施形態による、システムとして機能するコンピュータ800の例示的なハードウェア構成を示す。
以下、本発明の例示的な実施形態を説明する。本発明の例示的な実施形態は、特許請求の範囲に従う本発明を限定するものではなく、説明される特徴の組み合わせは、必ずしも本発明に不可欠なものとは限らない。
図1は、本発明の実施形態による、装置10(例えば、コンピュータ、プログラム可能回路等)の例示的な構成を示す。装置10は、音声信号データに基づいて音識別データを推定することができる。実施形態において、音識別データは、音素情報とすることができる。
装置10は、プロセッサと、命令をまとめて含む1つ又は複数のコンピュータ可読媒体とを含むことができる。命令は、プロセッサ又はプログラム可能回路により実行されるとき、プロセッサ又はプログラム可能回路に、複数の動作セクションとして動作させることができる。それにより、装置10は、格納セクション100、取得セクション102、抽出セクション104、メル・フィルタリング・セクション106、正規化セクション108、推定セクション112、及び訓練セクション114として表すことができる。
格納セクション100は、装置10の動作に用いられる種々のデータを格納することができる。格納セクション100は、揮発性又は不揮発性メモリを含むことができる。装置10内の1つ又は複数の他の要素(例えば、取得セクション102、抽出セクション104、メル・フィルタリング・セクション106、正規化セクション108、推定セクション112、及び訓練セクション114等)は、直接、又は格納セクション100を介して間接的に通信することができる。
取得セクション102は、音声信号データの周波数スペクトルを取得することができる。取得セクション102は、ニューラル・ネットワークを訓練するための訓練データを取得することもできる。訓練データは、音声信号データの1つ又は複数のセット、及び音声信号データのそれぞれのセットに対応する正しい音識別情報を含むことができる。
抽出セクション104は、周波数スペクトルから周期的表示を抽出することができる。周期的表示は、周波数スペクトルの周波数方向に周期的に表れる周波数スペクトルの変動を表すことができる。本発明の実施形態において、周期的表示は、音声信号データの調和構造を表すことができる。周期的表示の詳細は以下に説明される。
メル・フィルタリング・セクション106は、メル・フィルタリング・プロセスを実行することができる。メル・フィルタリング・セクション106は、周期的表示をメル・フィルタリングすることができる。メル・フィルタリング・セクション106は、周波数スペクトルを対数メル・フィルタリングする(log-Mel-filter)こともできる。メル・フィルタリング・プロセスの詳細は以下に説明される。
正規化セクション108は、正規化を実行することができる。正規化セクション108は、メル・フィルタリング周期的表示を正規化することができる。正規化セクション108は、対数メル・フィルタリング周波数スペクトルを正規化することもできる。正規化プロセスの詳細は以下に説明される。
推定セクション112は、ニューラル・ネットワークの処理を指示することができる。実施形態において、推定セクション112は、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークに入力することができる。周波数スペクトルの成分は、周波数スペクトルの複数の周波数バンドにおける音声信号データのパワー及び/又は強度に関する値を含むことができる。本発明の実施形態において、周波数スペクトルの成分は、音声信号データの正規化したメル・フィルタリング周波数スペクトルとすることができる。本発明の代替的な実施形態において、周波数スペクトルの成分は、音声信号データのメル・フィルタリング周波数若しくは正規化した周波数スペクトル、又は周波数スペクトル自体を含むことができる。
推定セクション112は、ニューラル・ネットワークの計算を実行し、ニューラル・ネットワークから音識別情報を推定することができる。本発明の実施形態において、推定セクション112は、音素情報を音識別情報として識別することができる。ニューラル・ネットワークの計算の詳細は以下に説明される。
訓練セクション114は、訓練データを用いてニューラル・ネットワークの訓練を実行することができる。
上述のように、装置10は、周期的表示及び周波数スペクトルの成分が入力されるニューラル・ネットワークから音識別情報を推定することができる。装置10は、正規化したメル・フィルタリング周期的表示及び周波数スペクトルの両方に基づいて、音識別情報の推定の精度を改善することができる。
図2は、本発明の実施形態による、音声信号データにおける観測スペクトルのスペクトログラムを示す。図2の横軸は時間に対応し、縦軸は周波数に対応し、影は音声信号データのパワーに対応する。図2において、水平方向の黒いストライプが観測され、縦軸に沿って繰り返され、周波数スペクトルの周波数バンドにわたる強度の急峻な変動を示す。ストライプは、音声信号データの周期的表示に対応し得る。周期的表示の群は、調和構造を表し得る。音声信号データは、多くの場合、声帯の振動に起因するこうした周期的表示を含み、装置は、周期的表示を用いて、音声信号データ内に表される音素を識別することができる。特に、装置は、音声信号データから周期的表示を抽出し、雑音環境において記録された場合であっても、音声信号データ内に表される特定の音素を識別することができる。
図3は、本発明の実施形態による、動作フローを示す。説明されるのは、装置10のような装置が、図3に示されるようなS110〜S210の動作を実行する例である。装置は、動作S110〜S210を実行することにより、音識別情報を推定することができる。
S110において、取得セクション102のような取得セクションが、音声信号データの周波数スペクトルを取得することができる。本発明の実施形態において、取得セクションは、パワー・スペクトル密度により表される周波数スペクトルを取得することができる。本発明の実施形態において、音声信号データは、複数の時間フレームにわたりスペクトルに符号化することができ、取得セクションは、音声信号データの複数の時間フレームについての複数の周波数スペクトルを取得することができる。
例えば、音声信号データは、8kHzで記録された会話音声とすることができる。音声信号データの時間フレームの各々は、10msのフレーム・シフトを有する20msのフレーム・サイズを有し得る。装置10は、各時間フレームの周波数スペクトルについて図3の動作を実行することができる。
本発明の実施形態において、周波数スペクトルは、y(j)で表され、ここで、t(=1...T)は、T個の時間フレームを有する音声信号データの時間フレーム番号を表し、j(=1...J)は、周波数スペクトルにおける各周波数バンドに対応する周波数ビン番号を表す。実施形態において、ビン数Jは、一般的には、これらに限定されるものではないが、256又512であり得る。
S130において、装置は、音声信号データの周波数スペクトルから周波数スペクトルの成分を取得することができる。
図4は、本発明の実施形態による、S130に対応する動作のサブ・フローを示す。装置は、図3の動作S130における図4の動作S132及びS136を実行することができる。
S132において、メル・フィルリング・セクション106のようなメル・フィルタリング・セクションは、S110において取得した音声信号データの周波数スペクトルを対数メル・フィルタリングすることができる。本発明の実施形態において、メル・フィルタリング・セクションは、最初に:
Figure 2020510862

を計算し、周波数スペクトルy(j)をメル・フィルタリングすることができる。次に、メル・フィルタリング・セクションは:
Figure 2020510862

を計算し、対数メル・フィルタリング周波数スペクトルs^(d)を取得することができ、ここで、B(d,j)はメル・フィルタ・バンクを表し、かつ、j番目のビンについてのd番目(d=1...D)のトライアングル・フィルタであり、log()は、自然対数又は常用対数を表すことができ、Dは、メル・フィルタ・バンクの次元数を表しかつ13〜80から選択することができる。
本発明の代替的な実施形態において、推定セクションは、周波数スペクトルy(j)からMFCCを計算し、計算したMFCCをs^(d)として使用することができる。
S134において、正規化セクション108のような正規化セクションは、S132において処理された周波数スペクトルを正規化することができる。正規化セクションは、平均及び分散(mean and variance)正規化、又は他のタイプの正規化を採用することができる。本発明の実施形態において、正規化セクションは:
Figure 2020510862

を計算し、正規化した対数メル・フィルタリング周波数スペクトルγ(d)を取得することができ、ここで
Figure 2020510862

は、訓練データの少なくとも一部の対数メル・フィルタリング周波数スペクトルの平均値を表し、v^(d)は、訓練データの少なくとも一部の対数メル・フィルタリング周波数スペクトルの分散を表す。本発明の実施形態において、訓練データの少なくとも一部は、訓練データ内の音声信号データの1つ又は複数の発声ユニットとすることができる。
本発明の実施形態において、y(j)、Y(j)、s^(d)、及び/又はγ(d)は、周波数スペクトルの「j」及び複数の周波数バンド「d」における音声信号データのパワーに関する値を含むことができ、周波数スペクトルの成分として扱うことができる。
S136において、推定セクションは、S134において処理された周波数スペクトルを時間に関して微分することができる。本発明の実施形態において、推定セクションは、γ(d)の1階微分Δγ(d)を計算することができる。本発明の実施形態において、推定セクションは、γ(d)の2階微分ΔΔγ(d)をさらに計算することができる。
S132〜136の動作によると、推定セクションは、周波数スペクトルの複数の周波数バンドにおける音声信号データのパワーに関する値を含むことができる周波数スペクトルの成分を取得することができる。推定セクションは、Δγ(d)及びΔΔγ(d)のような周波数スペクトルの成分の時間に関する1階微分及び2階微分をさらに取得することができる。
図3のS130の動作の後、抽出セクション104のような抽出セクションは、周波数スペクトルから周期的表示を抽出することができる。
図5は、本発明の実施形態による、S150に対応する動作サブ・フローを示す。装置は、図3の動作S150において図5の動作S152及びS158を実行することができる。
S152において、抽出セクションは、対数パワー・スペクトルY(j)に対する離散コサイン変換を実行することにより、ケプストラム(Cepstrum)を取得することができる。
図6は、本発明の実施形態による、周波数スペクトルにおける単一の時間フレームについてのパワー・スペクトルを示す。図6の横軸は周波数を表し、縦軸は対数パワーを表す。
本発明の実施形態において、抽出セクションは:
Figure 2020510862

を計算し、ケプストラムC(i)を取得し、ここで、D(i,j)はDCTマトリクスである。
図7は、本発明の実施形態による、ケプストラムを示す。図7の横軸は周波数を表し、縦軸は対数パワーを表す。抽出セクションは、図6の対数パワー・スペクトルから図7のケプストラムを取得することができる。
S154において、抽出セクションは、ケプストラムC(i)の一部をカットオフすることができる。実施形態において、抽出セクションは、C(i)の上部及び/又は下部をフィルタ処理により除去することができる。本発明の実施形態において、抽出セクションは:
Figure 2020510862

Figure 2020510862

を計算することができ、
ここで、εは非常に小さい定数(例えば、0.001)又は0を表し、Cは、下部カットオフ数を表し、Cは、上部カットオフ数を表す。それにより、抽出セクションは、カットオフ・ケプストラムC^(i)として、CとCとの間のケプストラムの範囲を選択することができる。
図8は、本発明の実施形態による、カットオフ・ケプストラムを示す。図8の横軸及び縦軸は、図7と同じ単位を表す。抽出セクションは、図7のケプストラムから図8のカットオフ・ケプストラムを取得することができる。
S156において、抽出セクションは、逆(inverse)−DCT(I−DCT)を実行することにより、カットオフ・ケプストラムを、もとの対数パワー・スペクトルに変換することができる。本発明の実施形態において、抽出セクションは:
Figure 2020510862

を計算し、I−DCTスペクトルW(j)を取得することができる。
図9は、本発明の実施形態による、I−DCTスペクトルを示す。図9の横軸は周波数を表し、縦軸は対数パワーを表す。抽出セクションは、図8のカットオフ・ケプストラムから図9のI−DCTスペクトルを取得することができる。
S158において、抽出セクションはI−DCTスペクトル(すなわち、対数パワー・スペクトル)を、線形パワー・スペクトルに変換することができる。本発明の実施形態において、抽出セクションは:
Figure 2020510862

を計算し、w(j)を取得することができ、これは、線形パワー・スペクトル・ドメインで表される。装置は、周期的表示として、複数のビンjについてのw(j)を用いることができる。
図10は、本発明の実施形態による周期的表示を示す。横軸は周波数を表し、縦軸は、図10における線形パワーを表す。抽出セクションは、図9の対数パワー・スペクトルから図10の線形スペクトルを取得することができる。
図3のS150の動作後、メル・フィルタリング・セクションは、周期的表示の次元数を減らすことにより、周期的表示を圧縮することができる。本発明の実施形態において、メル・フィルタリング・セクションは、周期的表示をメル・フィルタリングし:
Figure 2020510862

を計算することによって次元の数を減らし、メル・フィルタリング周期的表示w^(d)を取得することができ、ここで、B(d,j)はメル・フィルタ・バンクを表しかつj番目のビンについてのd番目(d=1...D)のトライアングル・フィルタである。
図11は、本発明の実施形態による、メル・フィルタリング周期的表示を示す。図11において、横軸は周波数を表し、縦軸は線形パワーを表す。メル・フィルタリング・セクションは、図10の周期的表示から図11のメル・フィルタリング周期的表示を取得することができる。
図11に示されるように、メル・フィルタリング・セクションは、特に高い周波数範囲において、周期的表示の次元数を減らすことにより、周期的表示を圧縮することができる。それにより、圧縮後、周期的表示の比較的重要な情報を保持することができる。本発明の実施形態において、数Dは、20〜40から選択することができる。
S190において、正規化セクションは、メル・フィルタリング周期的表示を正規化することができる。本発明の実施形態において、正規化セクションは、正規化を行って、周期的表示における複数のバンドの中の順序尺度(ordinal scale)を維持することができる。それにより、正規化セクションは、周期的表示の順序尺度の情報を保持することができ、そのことは、ニューラル・ネットワークの推定にとって有利であり得る。一例において、正規化セクションは、シグモイド(sigmoid)正規化に基づいて正規化を実行することができる。一例において、正規化セクションは:
Figure 2020510862

を計算し、正規化したメル・フィルタリング周期的表示β(d)を取得することができ、ここで、a及びbは、定数値である。
別の例において、正規化セクションは、最大分散(max-variance)正規化に基づいて正規化を行うことができる。一例において、正規化セクションは:
Figure 2020510862

を計算することができ、ここで、
Figure 2020510862

であり、μは定数値を表し、E[]は、期待値を計算する関数を表し、w^(d)は、訓練データにより取得されるメル・フィルタリング周期的表示を表す。本発明の実施形態において、正規化セクションは、図3の動作を開始する前に訓練データの音声信号データを利用することにより、式(12)〜(15)を予め計算することができ、(12)〜(15)の計算の結果を格納することができる。
S210において、推定セクション112のような推定セクションは、ニューラル・ネットワークの計算を処理することにより、音素情報のような音識別情報を推定することができる。推定セクションは、S190において取得された圧縮された正規化した周期的表示、及びS134において取得された周波数スペクトルの成分をニューラル・ネットワークに入力することができる。推定セクションはさらに、周波数スペクトルの成分の1階及び2階微分を、S136において取得されたニューラル・ネットワークに入力することができる。
本発明の実施形態において、推定セクションにより用いられるニューラル・ネットワークは、畳み込み(convolutional)ニューラル・ネットワーク又はディープ(deep)ニューラル・ネットワークとすることができる。畳み込みニューラル・ネットワークは、1つ又は複数のセットの畳み込み層及びプーリング(pooling)層を含むことができる、1つ又は複数の畳み込みニューラル・ネットワーク層を含むことができる。畳み込みニューラル・ネットワークは、1つ又は複数の全結合層(fully-connected layer)を含むこともできる。畳み込みニューラル・ネットワークは、他のタイプの層をさらに含むことができる。ディープ・ニューラル・ネットワークは、複数の全結合層を含むことができ、かつ随意的に、他のタイプの層を含むこともできる。
図3に関連して上述されるように、装置は、周期的表示を抽出することができ、周波数スペクトルの成分を有する周期的表示をニューラル・ネットワークに入力し、音識別情報を推定することができる。装置は、周波数スペクトルの成分だけでなく、周期的表示も使用することができ、それにより、人間の声の存在の確かさを示し得るので、装置は、音識別情報の識別の精度を改善することができる。
さらに、本発明の実施形態において、ニューラル・ネットワークに入力する前に、周期的表示の次元数を減らすことにより、周期的表示及び周波数スペクトルを圧縮する(例えば、メル・フィルタリングする)ことができるので、音識別情報の推定に必要な計算リソースを減らすことができる。
さらに、周期的表示を正規化し、周期的表示の複数のバンドの中の順序尺度の情報を維持することができるので、周期的表示は、該周期的表示の複数のバンドの中の順序尺度の情報を失うことなく、周波数スペクトルの成分により適切に処理することができる。
幾つかの実施形態において、装置は、周期的表示及び周波数スペクトルを正規化しないようにすることができる。本発明のこれらの実施形態において、装置は、S134及びS190を実行しないようにすることができる。幾つかの実施形態において、装置は、周期的表示及び周波数スペクトルをメル・フィルタリングしないようにすることができる。本発明のこれらの実施形態において、メル・フィルタリング・セクションは、S132におけるメル・フィルタリング・プロセスなしに、log(y(j))を計算するだけとすることができ、装置はS210を実行しないようにすることができる。
図12は、本発明の実施形態による、ディープ・ニューラル・ネットワークを示す。本発明の実施形態において、推定セクションは、図3の動作S210において、図12に示されるニューラル・ネットワークを用いることができる。
本発明の実施形態において、ニューラル・ネットワークは、全結合層とすることができる、6つの2048−ノード層、1つの512−ノード層、及び1つの9300−ノード層を含むことができる。ニューラル・ネットワークは、周期的表示及び周波数スペクトルの成分をニューラル・ネットワークの第1の層に入力することができる。図12の本発明の実施形態において、ニューラル・ネットワークは、4つの40×11入力ノードを含むことができ、そこで、各々の40×11入力ノードは、周波数スペクトルの成分(CFS)、ΔCFS、ΔΔCFS、及び周期的表示(PI)を第1の2048−ノード層に入力する。
40×11とは、40個の次元特徴×11個の時間フレームを意味する。実施形態において、CFSは、S134において取得された正規化した対数メル・フィルタリング周波数スペクトルγ(d)(1≦d≦D、t−5≦t≦t+5であり、ここで、D=40及びtは現在の時間フレームである)に対応することができる。それにより、ニューラル・ネットワークは、現在の時間フレームtを中心とする11個の時間フレームの特徴を入力することができ、tの前及び後に5個の時間フレームを含むことができる。
ΔCFS及びΔΔCFSは、S136において取得された、CFSの1階微分Δγ(d)及びCFSの2階微分ΔΔγ(d)に対応し得る。PIは、S190において取得された正規化したメル・フィルタリング周期的表示β(d)に対応し得る。ニューラル・ネットワークは、音声信号データの各時間フレームtについて、CFS(γ(d))、ΔCFS(Δγ(d))、ΔΔCFS(ΔΔγ(d))及びPI(β(d))を入力することができる。
図12の本発明の実施形態において、第1の2048−ノード層は、複数の第1のノードと、複数の第2のノードとを含む。図12において、第1のノードに対応する部分は、Aとして表され、第2のノードに対応する部分は、Bとして表される。ニューラル・ネットワークの訓練を開始する前に、訓練セクション114のような訓練セクションは、第1のノードAと、PIに対応する複数の入力ノードとの間の重みを0に設定し、第2のノードBとCFS、ΔCFS及びΔΔCFSに対応する複数の入力ノードとの間の重みを0に設定することができる。訓練セクションは、第1の2048−ノード層内のノードと入力ノードとの間の他の重みを所定の定数値又はランダム値に設定することができる。それにより、訓練の開始時に、周期的表示(PI)、並びにCFS、ΔCFS及びΔΔCFSのような標準特徴量(standard feature)は、第1の2048−ノード層で隔離される。
この技術は、ブロック初期化と呼ぶことができ、少なくとも訓練の始めに、周期的表示の独立した処理を可能にする。標準特徴量及び周期的表示は、異なるタイプの情報とみなすことができ、従って、場合によっては、ニューラル・ネットワークの一番最初の層におけるこれらの特徴量の統合を回避することが好ましい場合がある。
ブロック初期化によると、周期的表示及び標準特徴量は、実質的に、ニューラル・ネットワークの中間層の後に統合され得る。それにより、推定セクションは、周期的表示及び標準特徴量を抽象化した後、周期的表示及び標準特徴量をニューラル・ネットワーク内に統合することができる。
本発明の実施形態において、ニューラル・ネットワークは、9300−ノード層から各時間フレームtについての音識別情報Sを出力することができる。数「9300」は、音素の数に対応し、9300−ノード層内の9300個のノードの各々は、既存の9300個の音素の各々に対応する。ニューラル・ネットワークの最後の層内のノードは音素に対応し得るが、最後の層内のノードの数は、9300個に限定されない。本発明の幾つかの実施形態において、ニューラル・ネットワークの最後の層内のノードは、2つ又それより多い音素の連続的組み合わせに対応し得る。
本発明の実施形態において、9300−ノード層内の1つのノードだけが1を出力し、9300−ノード層内の他のノードは、0を出力することがあり、1のノードに対応する音素が、ニューラル・ネットワークから出力された音識別情報として識別されることを意味する。本発明の別の実施形態において、9300−ノード層内の各ノードは、そのノードに対応する音素が、音声信号データから識別される可能性に対応する値を出力することができる。
図13は、本発明の実施形態による、畳み込みニューラル・ネットワークを示す。本発明の実施形態において、推定セクションは、S210において、図13に示されるニューラル・ネットワークを用いることができる。ここで、図12のニューラル・ネットワークと図13のニューラル・ネットワークの違いのみが説明され得る。
本発明の実施形態において、ニューラル・ネットワークは、128−ノード畳み込みニューラル・ネットワーク(CNN)層、256−ノードCNN層、4つの2048−ノード層、1つの512−ノード層、及び1つの9300−ノード層を含むことができる。4つの2048−ノード層、512−ノード層、及び9300−ノード層は、全結合層とすることができる。ニューラル・ネットワークは、周期的表示、及び周波数スペクトルの成分を、ニューラル・ネットワークの第1の層(すなわち、128−ノードCNN層)に入力することができる。
図14は、本発明の実施形態による、ディープ・ニューラル・ネットワークを示す。本発明の実施形態において、推定セクションは、動作S210において、図14に示されるニューラル・ネットワークを用いることができる。ここで、図12のニューラル・ネットワークと図14のニューラル・ネットワークの違いのみが説明され得る。
本発明の実施形態において、ニューラル・ネットワークは、周期的表示を、ニューラル・ネットワークの第2の層又後の層に入力することができる。図14の本発明の実施形態において、標準特徴量(CFS、ΔCFS及びΔΔCFS)を第1の2048−ノード層に入力することができ、周期的表示(PI)は、第1の2048−ノード層から隔離され、図14にCとして表される440−ノード層に入力することができる。Dとして表される第2の2048ノード層は、第1の2048−ノード層及び440ノード層からの両方の出力を入力することができる。
図14の本発明の実施形態によると、周期的表示及び標準特徴量は、ニューラル・ネットワークの第2の2048−ノード層において統合され得る。それにより、推定セクションは、第1の2048−ノード層において周期的表示及び標準特徴量を抽象化した後、ニューラル・ネットワーク内の周期的表示及び標準特徴量を統合することができ、従って、ニューラル・ネットワークの性能を改善することができる。
図15は、本発明の実施形態による畳み込みニューラル・ネットワークを示す。本発明の実施形態において、推定セクションは、S210の動作において、図15に示されるニューラル・ネットワークを用いることができる。ここで、図13のニューラル・ネットワークと図15のニューラル・ネットワークの違いのみが説明され得る。
本発明の実施形態において、ニューラル・ネットワークは、周期的表示を、1つ又は複数の畳み込みニューラル・ネットワーク層の下流にある層に入力することができる。図15の本発明の実施形態において、標準特徴量(CFS、ΔCFS及びΔΔCFS)を第1のCNN層(すなわち、128−ノードCNN層)に入力することができ、周期的表示(PI)を、図15にEとして表される440−ノード層に入力することができる。
第1のCNN層は、第2のCNN層(すなわち、256−ノードCNN層)に結合することができ、第2のCNN層は、図15にFとして表される第1の2048−ノード層に結合することができる。440−ノード層は、第1の2048−ノード層に全結合することができる。
本発明の実施形態によると、CNN層の後、標準特徴量から得られた情報及び周期的表示から得られた情報は併合することができる。標準特徴量がCNN層により抽象化された後、周期的表示を標準特徴量と混合することができ、それにより、ニューラル・ネットワークの性能が改善される。
図14及び図15の本発明の実施形態において、装置は、周期的表示をニューラル・ネットワークに入力する前に、周期的表示をメル・フィルタリングしないようにすることができる。本発明のこれらの実施形態においては、周期的表示は、標準特徴量と並行してニューラル・ネットワークの第1の層に入力されないので、メル・フィルタリング以外の別の方法によって、周期的表示の次元数を減らすことができる。本発明の実施形態において、周期的表示は、次元数を減らすことなく、ニューラル・ネットワークに入力することさえできる。同様の理由で、図14及び図15の本発明の実施形態において、装置は、周期的表示をニューラル・ネットワークに入力する前に周期的表示を正規化しないようにすることができる。
本発明の幾つかの実施形態において、メル・フィルタリングは、正規化後に実行することができる。例えば、本発明のこれらの実施形態において、装置は、動作S210の後に動作S190を実行することができ、動作S132の後に動作S134を実行することができる。
図16は、本発明の実施形態による、クラウド・サービス利用するように構成されたコンピュータのハードウェア構成を示す。コンピュータ800にインストールされたプログラムにより、コンピュータ800が、本発明の実施形態の装置、又はその1つ又は複数のセクション(モジュール、コンポーネント、要素等)と関連した動作の役割を果たすこと又は動作を実行することができ、及び/又はコンピュータ800が、本発明の実施形態のプロセス又はそのステップを実行することができる。こうしたプログラムは、CPU800−12により実行し、コンピュータ800に、本明細書で説明されるフローチャート及びブロック図のブロックの一部又は全てと関連した特定の動作を実行させることができる。
本発明の実施形態によるコンピュータ800は、ホスト・コントローラ800−10により互いに接続される、CPU800−12、RAM800−14、グラフィックス・コントローラ800−16、及びディスプレイ・デバイス800−18を含む。コンピュータ800は、入力/出力コントローラ800−20を介してホスト・コントローラ800−10に接続される、通信インターフェース800−22、ハードディスク・ドライブ800−24、DVD−ROMドライブ800−26、及びICカード・ドライブなどの入力/出力ユニットも含む。コンピュータは、入力/出力チップ800−40を通じて入力/出力・コントローラ800−20に接続される、ROM800−30及びキーボード800−42などのレガシー・入力/出力ユニットも含む。
CPU800−12は,ROM800−30及びRAM800−14内に格納されるプログラムに従って動作し、それにより、各ユニットを制御する。グラフィックス・コントローラ800−16は、RAM800−14内又はそれ自体で提供されるフレーム・バッファ等上のCPU800−12により生成される画像データを取得し、画像データをディスプレイ・デバイス800−18上に表示させる。
通信インターフェース800−22は、ネットワーク800−50を介して他の電子デバイスと通信する。ハードディスク・ドライブ800−24は、コンピュータ800内のCPU800−12により用いられるプログラム及びデータを格納する。DVD−ROMドライブ800−26は、DVD−ROM800−01からプログラム又はデータを読み取り、RAM800−14を介して、ハードディスク・ドライブ800−24にプログラム又はデータを提供する。ICカード・ドライブは、ICカードからプログラム及びデータを読み取り、及び/又はプログラム及びデータをICカードに書き込む。
ROM800−30は、起動時にコンピュータ800により実行されるブート・プログラム、及び/又はコンピュータ800のハードウェアに依存するプログラムを内部に格納する。入力/出力チップ800−40は、パラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して種々の入力/出力ユニットを入力/出力コントローラ800−20に接続することもできる。
プログラムが、DVD−ROM800−01又はICカードのようなコンピュータ可読媒体により提供される。プログラムは、コンピュータ可読媒体から読み取られ、同じくコンピュータ可読媒体の例であり、CPU800−12により実行される、ハードディスク・ドライブ800−24、RAM800−14、又はROM800−30にインストールされる。これらのプログラム内に記述される情報処理をコンピュータ800内に読み取り、結果としてプログラムと上述の種々のタイプのハードウェア・リソースとの間の協働がもたらされる。装置又は方法は、コンピュータ800の使用による動作又は情報の処理を実現することによって構成することができる。
例えば、コンピュータ800と外部デバイスとの間で通信が行われる場合、CPU800−12は、RAM800−14にロードされた通信プログラムを実行し、通信プログラム内に記述される処理に基づいて、通信インターフェース800−22に通信処理を指示することができる。CPU800−12の制御下の通信インターフェース800−22は、RAM800−14、ハードディスク・ドライブ800−24、DVD−ROM800−01、又はICカードのような記録媒体内に提供される伝送バッファ領域上に格納される伝送データを読み取り、読み取った伝送データをネットワーク800−50に伝送するか、又はネットワーク800−50から受け取った受信データを、記録媒体上に提供される受信バッファ領域等に書き込む。
さらに、CPU800−12は、RAM800−14、ハードディスク・ドライブ800−24、DVD−ROMドライブ800−26(DVD−ROM800−01)、ICカード等のような外部記録媒体内に格納されたファイル又はデータベースの全て又は必要な部分を、RAM800−14に読み取らせ、RAM800−14上のデータに対して種々のタイプの処理を実行することができる。次に、CPU800−12は、処理されたデータを外部記録媒体にライトバックすることができる。
情報処理を行うために、種々のタイプのプログラム、データ、テーブル及びデータベースのような種々のタイプの情報を記録媒体内に格納することができる。CPU800−12は、RAM800−14から読み取られたデータに対して、本開示全体を通して説明され、プログラムの命令シーケンスにより示されるような、種々のタイプの動作、情報の処理、条件判断、条件付き分岐、条件なし分岐、情報の検索/置換等を含む種々のタイプの処理を実行し、結果をRAM800−14にライトバックすることができる。
さらに、CPU800−12は、記録媒体のファイル、データベース等内の情報を検索することができる。例えば、各々が第1の属性の属性値を有する複数のエントリが第2の属性の属性値と関連付けられ、記録媒体内に格納されるとき、CPU800−12は、複数のエントリの中から、第1の属性の属性値が指定される条件に合致するエントリを検索し、エントリ内に格納される第2の属性の属性値を読み取り、それにより、所定の条件を満たす第1の属性と関連した第2の属性の属性値を得ることができる。
上で説明したプログラム又はソフトウェア・モジュールは、コンピュータ800上又はその近くのコンピュータ可読媒体に格納することができる。さらに、専用通信ネットワーク又はインターネットに接続されるサーバ・システム内に提供される、ハードディスク又はRAMなどの記録媒体をコンピュータ可読媒体として用いて、これにより、ネットワークを介してプログラムをコンピュータ800に提供することができる。
本発明は、システム、方法、及び/又はコンピュータ・プログラム製品において少なくとも部分的に具体化することができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュメモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカード若しくは命令がそこに記録された溝内の***構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個人化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、及び/又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
本発明の実施形態を説明したが、本発明の技術的範囲は上述の実施形態に限定されない。本発明の上述の実施形態に、種々の変更又は改良を加え得ることが当業者には明らかである。また、そうした変更又は改良を加えた実施形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲から明らかである。
特許請求の範囲、実施形態、又は図に示される装置、システム、プログラム、及び方法により実施される各プロセスの動作、手順、ステップ、及び段階は、順番が、「に先立って(prior to)」、「より前に(before)」等により示されず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実施することができる。特許請求の範囲、実施形態、又は図において、プロセス・フローが、「最初に(first)」又は「次に(next)」のような語句を用いて説明されたとしても、これは必ずしも、プロセスをこの順序で実施しなければならないことを意味するものではない。
上記から明らかにされるように、本発明の実施形態は、時系列入力データに対応するモデルを学習する学習装置が、より高い表現能力及び学習能力を有し、学習動作をより簡単に実行することを可能にする。
本明細書における、本発明の「一実施形態(one embodiment)」又は「(1つの)実施形態(an embodiment)」、並びに本発明の他の変形への言及は、その実施形態に関連して説明される特定の特徴、構造、又は特性が、本発明の少なくとも1つの実施形態に含まれていることを意味する。従って、本明細書の全体を通して種々の場所に現れる、「一実施形態において」又は「(1つの)実施形態において」、並びに他のいずれか変形という語句の出現は、必ずしも、全て本発明の同一の実施形態を指すわけではない。
以下の「/」、「及び/又は」、及び「〜のうちの少なくとも1つ」のいずれかの使用は、例えば、「A/B」、「A及び/又はB」、及び「A及びBのうちの少なくとも1つ」の場合、1番目に記載された選択肢(A)のみの選択、又は2番目に記載された選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されることを理解されたい。さらに別の例において、「A、B、及び/又はC」及び「A、B、及びCのうちの少なくとも1つ」の場合、そのような語句は、1番目に記載された選択肢(A)のみの選択、又は2番目に記載された選択肢(B)のみの選択、又は3番目に記載された選択肢(C)のみの選択、又は1番目及び2番目に記載された選択肢(A及びB)のみの選択、又は1番目及び3番目に記載された選択肢(A及びC)のみの選択、又は2番目及び3番目に記載された選択肢(B及びC)のみの選択、又は3つ全ての選択肢(A及びB及びC)の選択を包含することが意図される。これは、本技術分野及び関連する技術分野の当業者にとって容易に明らかとなるように、記載された多くの項目に関して拡張することができる。
システム及び方法の好ましい実施形態(限定ではなく例証であることが意図される)が説明されているが、当業者であれば、上記の教示に鑑みて、修正及び変形をなし得ることに留意されたい。従って、添付の特許請求の範囲によって概説される本発明の範囲内にある開示された特定の実施形態において、変更をなし得ることを理解されたい。従って、特許法によって要求される詳細及び特殊性と共に、本発明の態様を上記のように説明したが、特許請求され、特許証によって保護されることを望むことは、添付の特許請求の範囲に示される。
10:装置
100:格納セクション
102:取得セクション
104:抽出セクション
106:メル・フィルタリング・セクション
108:正規化セクション
112:推定セクション
114:訓練セクション
800:コンピュータ

Claims (18)

  1. コンピュータ実施方法であって、
    プロセッサにより、音声信号データの周波数スペクトルを取得することと、
    前記プロセッサにより、前記周波数スペクトルから周期的表示を抽出することと、
    前記プロセッサにより、前記周期的表示及び前記周波数スペクトルの成分をニューラル・ネットワークに入力することと、
    前記プロセッサにより、前記ニューラル・ネットワークから音識別情報を推定することと、
    を含む、方法。
  2. 前記音識別情報を推定することは、音素情報を識別することを含む、請求項1に記載の方法。
  3. 前記周期的表示は、前記周波数スペクトルにおいて周期的に表れる前記周波数スペクトルの変動を表す、請求項1に記載の方法。
  4. 前記周期的表示は、前記音声信号データの調和構造を表す、請求項1に記載の方法。
  5. 前記ニューラル・ネットワークに入力する前に、前記周期的表示を正規化することをさらに含む、請求項1に記載の方法。
  6. 前記周期的表示を正規化することは、前記周期的表示における複数のバンドの中の順序尺度を維持することを含む、請求項5に記載の方法。
  7. 前記周期的表示を正規化することは、シグモイド正規化又は最大分散正規化に基づく、請求項6に記載の方法。
  8. 前記周波数スペクトルの前記成分は、前記周波数スペクトルの複数の周波数バンドにおける前記音声信号データのパワーに関する値を含む、請求項1に記載の方法。
  9. 前記周期的表示及び前記周波数スペクトルの前記成分をニューラル・ネットワークに入力することは、前記周波数スペクトルの前記複数の周波数バンドにおける前記音声信号データのパワーに関する前記値の時間に関する1階微分及び2階微分をさらに入力することを含む、請求項8に記載の方法。
  10. 前記ニューラル・ネットワークは、畳み込みニューラル・ネットワーク又はディープ・ニューラル・ネットワークである、請求項1に記載の方法。
  11. 前記ニューラル・ネットワークに入力することは、前記周期的表示及び前記周波数スペクトルの前記成分を前記ニューラル・ネットワークの第1の層に入力することを含む、請求項10に記載の方法。
  12. 前記ニューラル・ネットワークを訓練することをさらに含み、前記ニューラル・ネットワークはディープ・ニューラル・ネットワークであり、前記ディープ・ニューラル・ネットワークは、複数の全結合ネットワーク層を含み、第1の層は複数の第1のノード及び複数の第2のノードを含み、訓練する前、前記第1のノードと前記周期的表示に対応する複数の入力ノードとの間の重みは0である、請求項10に記載の方法。
  13. 前記ニューラル・ネットワークに入力することは、前記周期的表示を前記ニューラル・ネットワークの第2の層又は後の層に入力することを含む、請求項10に記載の方法。
  14. 前記ニューラル・ネットワークは畳み込みニューラル・ネットワークであり、前記畳み込みニューラル・ネットワークは、1つ又複数の畳み込みニューラル・ネットワーク層を含み、
    前記ニューラル・ネットワークに入力することは、前記周期的表示を、前記1つ又は複数のニューラル・ネットワーク層の下流にある層に入力することをさらに含む、請求項13に記載の方法。
  15. 前記ニューラル・ネットワークに入力する前に、前記周期的表示の次元数を減らすことによって、前記周期的表示を圧縮することをさらに含む、請求項13に記載の方法。
  16. 前記ニューラル・ネットワークに入力する前に、前記周期的表示をメル・フィルタリングすることをさらに含む、請求項10又は請求項13に記載の方法。
  17. 命令を有するコンピュータ・プログラムであって、前記命令は、プロセッサ又はプログラム可能回路により実行可能であり、前記プロセッサ又はプログラム可能回路に、請求項1乃至請求項16のいずれかを含む方法を実行させる、コンピュータ・プログラム。
  18. プロセッサと、
    前記プロセッサにより実行されるとき、前記プロセッサに、請求項1乃至請求項16のいずれかの方法を実行させる命令をまとめて含む1つ又は複数のコンピュータ可読媒体と、
    を含む、装置。
JP2019544670A 2017-02-24 2017-12-15 周期的表示を用いる音識別 Active JP7100855B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/441,973 US10062378B1 (en) 2017-02-24 2017-02-24 Sound identification utilizing periodic indications
US15/441,973 2017-02-24
PCT/IB2017/058001 WO2018154372A1 (en) 2017-02-24 2017-12-15 Sound identification utilizing periodic indications

Publications (2)

Publication Number Publication Date
JP2020510862A true JP2020510862A (ja) 2020-04-09
JP7100855B2 JP7100855B2 (ja) 2022-07-14

Family

ID=63208137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019544670A Active JP7100855B2 (ja) 2017-02-24 2017-12-15 周期的表示を用いる音識別

Country Status (6)

Country Link
US (3) US10062378B1 (ja)
JP (1) JP7100855B2 (ja)
CN (1) CN110226201B (ja)
DE (1) DE112017006049B4 (ja)
GB (1) GB2574164B (ja)
WO (1) WO2018154372A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
EP4229629A2 (en) * 2020-10-15 2023-08-23 Dolby International AB Real-time packet loss concealment using deep generative networks
CN113095559B (zh) * 2021-04-02 2024-04-09 京东科技信息技术有限公司 出雏时刻预测方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0511806A (ja) * 1991-07-03 1993-01-22 Toshiba Corp プロセス動特性学習装置
JPH08314880A (ja) * 1995-05-15 1996-11-29 Omron Corp ニューラル・ネットワークの学習方法およびニューラル・ネットワーク・システム
JP2009058708A (ja) * 2007-08-31 2009-03-19 Internatl Business Mach Corp <Ibm> 音声処理システム、方法及びプログラム
JP2013178575A (ja) * 2009-08-28 2013-09-09 Internatl Business Mach Corp <Ibm> 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP2013186258A (ja) * 2012-03-07 2013-09-19 Internatl Business Mach Corp <Ibm> 雑音抑制方法、プログラム及び装置
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7164117B2 (en) * 1992-05-05 2007-01-16 Automotive Technologies International, Inc. Vehicular restraint system control system and method using multiple optical imagers
US5274714A (en) * 1990-06-04 1993-12-28 Neuristics, Inc. Method and apparatus for determining and organizing feature vectors for neural network recognition
US5680627A (en) * 1991-02-15 1997-10-21 Texas Instruments Incorporated Method and apparatus for character preprocessing which translates textual description into numeric form for input to a neural network
US5467428A (en) * 1991-06-06 1995-11-14 Ulug; Mehmet E. Artificial neural network method and architecture adaptive signal filtering
US5263097A (en) * 1991-07-24 1993-11-16 Texas Instruments Incorporated Parameter normalized features for classification procedures, systems and methods
US5386689A (en) * 1992-10-13 1995-02-07 Noises Off, Inc. Active gas turbine (jet) engine noise suppression
EP0823090B1 (en) * 1995-04-27 2005-01-26 Northrop Grumman Corporation Adaptive filtering neural network classifier
JPH0993135A (ja) * 1995-09-26 1997-04-04 Victor Co Of Japan Ltd 発声音データの符号化装置及び復号化装置
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
EP1040442A4 (en) * 1997-12-24 2006-04-12 Randell L Mills METHOD AND SYSTEM FOR PATTERN RECOGNITION AND PROCESSING
US6269351B1 (en) * 1999-03-31 2001-07-31 Dryken Technologies, Inc. Method and system for training an artificial neural network
EP1145225A1 (en) 1999-11-11 2001-10-17 Koninklijke Philips Electronics N.V. Tone features for speech recognition
ITTO20020170A1 (it) 2002-02-28 2003-08-28 Loquendo Spa Metodo per velocizzare l'esecuzione di reti neurali per il riconoscimento della voce e relativo dispositivo di riconoscimento vocale.
KR20060066483A (ko) 2004-12-13 2006-06-16 엘지전자 주식회사 음성 인식을 위한 특징 벡터 추출 방법
US8965819B2 (en) * 2010-08-16 2015-02-24 Oracle International Corporation System and method for effective caching using neural networks
US8756061B2 (en) * 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
CN103366737B (zh) 2012-03-30 2016-08-10 株式会社东芝 在自动语音识别中应用声调特征的装置和方法
US9728182B2 (en) 2013-03-15 2017-08-08 Setem Technologies, Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
US9190053B2 (en) * 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
US10360901B2 (en) 2013-12-06 2019-07-23 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training
CN105960672B (zh) * 2014-09-09 2019-11-26 微软技术许可有限责任公司 用于稳健语音识别的变量组件深度神经网络
KR101988222B1 (ko) 2015-02-12 2019-06-13 한국전자통신연구원 대어휘 연속 음성 인식 장치 및 방법
US9805303B2 (en) * 2015-05-21 2017-10-31 Google Inc. Rotating data for neural network computations
US9747546B2 (en) * 2015-05-21 2017-08-29 Google Inc. Neural network processor
US9715508B1 (en) * 2016-03-28 2017-07-25 Cogniac, Corp. Dynamic adaptation of feature identification and annotation
US9792897B1 (en) * 2016-04-13 2017-10-17 Malaspina Labs (Barbados), Inc. Phoneme-expert assisted speech recognition and re-synthesis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0511806A (ja) * 1991-07-03 1993-01-22 Toshiba Corp プロセス動特性学習装置
JPH08314880A (ja) * 1995-05-15 1996-11-29 Omron Corp ニューラル・ネットワークの学習方法およびニューラル・ネットワーク・システム
JP2009058708A (ja) * 2007-08-31 2009-03-19 Internatl Business Mach Corp <Ibm> 音声処理システム、方法及びプログラム
JP2013178575A (ja) * 2009-08-28 2013-09-09 Internatl Business Mach Corp <Ibm> 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP2013186258A (ja) * 2012-03-07 2013-09-19 Internatl Business Mach Corp <Ibm> 雑音抑制方法、プログラム及び装置
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHITRALEKHA BHAT ET AL.: "Recognition of Dysarthric Speech Using Voice Parameters for Speaker Adaptation and Multi-taper Spect", INTERSPEECH 2016, JPN6021019958, September 2016 (2016-09-01), pages 228 - 232, ISSN: 0004650063 *
原田和樹,和田守美穂: "プレゼンテーションの理解度・印象に影響を及ぼす音声の特徴", 電子情報通信学会技術研究報告, vol. 第113巻,第377号, JPN6021019954, January 2014 (2014-01-01), pages 37 - 42, ISSN: 0004650065 *
森勢将雅: "2-2 基本周波数推定(歌声研究に関する視点から)", [ONLINE], JPN6021019953, June 2011 (2011-06-01), pages 6 - 8, ISSN: 0004650064 *

Also Published As

Publication number Publication date
US10460723B2 (en) 2019-10-29
WO2018154372A1 (en) 2018-08-30
DE112017006049B4 (de) 2022-06-30
CN110226201A (zh) 2019-09-10
GB201913172D0 (en) 2019-10-30
GB2574164B (en) 2021-12-29
DE112017006049T5 (de) 2019-09-12
CN110226201B (zh) 2023-09-08
US10062378B1 (en) 2018-08-28
US20180277104A1 (en) 2018-09-27
US10832661B2 (en) 2020-11-10
JP7100855B2 (ja) 2022-07-14
GB2574164A (en) 2019-11-27
US20180247641A1 (en) 2018-08-30
US20200058297A1 (en) 2020-02-20

Similar Documents

Publication Publication Date Title
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
US9640186B2 (en) Deep scattering spectrum in acoustic modeling for speech recognition
US10726326B2 (en) Learning of neural network
CN111279414B (zh) 用于声音场景分类的基于分段的特征提取
CN106887225A (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
US10832661B2 (en) Sound identification utilizing periodic indications
CN109947971B (zh) 图像检索方法、装置、电子设备及存储介质
US10629221B2 (en) Denoising a signal
JP2020071482A (ja) 語音分離方法、語音分離モデル訓練方法及びコンピュータ可読媒体
CN112784572A (zh) 一种营销场景话术分析方法和***
JPWO2019244298A1 (ja) 属性識別装置、属性識別方法、およびプログラム
US20190371309A1 (en) Systems and methods for identifying voice
JP6389787B2 (ja) 音声認識システム、音声認識方法、プログラム
JP6273227B2 (ja) 音声認識システム、音声認識方法、プログラム
US11862144B2 (en) Augmented training data for end-to-end models
CN113990344A (zh) 一种基于声纹特征的多人语音分离方法、设备及介质
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
WO2017148523A1 (en) Non-parametric audio classification
CN111048110A (zh) 乐器识别方法、介质、装置和计算设备
CN113129926A (zh) 语音情绪识别模型训练方法、语音情绪识别方法及装置
JP7160170B2 (ja) 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム
US20240170004A1 (en) Context aware audio processing
JP7159767B2 (ja) 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
CN114005467A (zh) 一种语音情感识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20210727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220221

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220622

R150 Certificate of patent or registration of utility model

Ref document number: 7100855

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150