JP2020012928A

JP2020012928A - 耐雑音音声認識装置及び方法、並びにコンピュータプログラム

Info

Publication number: JP2020012928A
Application number: JP2018133977A
Authority: JP
Inventors: 雅清藤本; Masakiyo Fujimoto; 恒河井; Hisashi Kawai
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2020-01-23
Anticipated expiration: 2038-07-17
Also published as: JP7231181B2; WO2020017226A1

Abstract

【課題】単一チャネルの音声信号しか利用可能でなくても音声認識精度の高い耐雑音音声認識装置、耐雑音音声認識方法、及びコンピュータプログラムを提供する。【解決手段】音声認識装置１８０は、目的信号である音声信号に雑音信号が重畳した信号である音響信号１１２を入力とし、所定の音声強調手法により音声信号を強調した強調音声信号２０３を出力する音声強調回路２０２と、強調音声信号２０３と、音響信号１１２とを入力として受けてそれぞれ特徴量を抽出する拡大特徴抽出部２００と、これらの特徴量とそのための音響モデル２０６を用いて音声信号の発話内容をテキスト化する音声認識部２０４とを含む。【選択図】図３

Description

この発明は音声認識に関し、特に単一のマイクにより集音された音声に対しても高精度の音声認識を可能にする耐雑音音声認識装置及び方法、並びにコンピュータプログラムに関する。

近年、コンピュータの計算能力の高度化及びコンピュータサイエンスの発展に伴い、音声認識アプリケーションの利用範囲が大きく拡大している。従前から音声認識が用いられていた分野とは別に、いわゆる家電製品にも音声認識が取り入れられ、さらにスマートスピーカ等、音声認識を用いて従来にはなかった機能を提供する製品も利用者が急激に増大している。これに伴い、音声認識が利用されるシーンも多様になっている。

一方、音声認識にとって本質的に重要なのはその精度である。音声認識が利用されるシーンが多様になると、雑音が多く、またその種類も多様になり、音声認識の精度を常に高く保つのは困難になる。そこで、雑音に対しても精度を高く保つ音声認識（耐雑音音声認識）が重要性を増している。

耐雑音音声認識には、従来は大きく分けて２種類の手法が用いられてきた。すなわち以下の２つである。

・音声強調（雑音除去）
・雑音付加学習
音声強調とは、音声認識の対象となる音声信号から雑音を除去することによって音声認識の精度を高める技術である。典型的には、マイクロホンからの音声信号に対して音声強調を行ってから音声認識の処理を行う。

従来の音声強調技術として、後掲の非特許文献１に記載されたスペクトラル・サブトラクション法、非特許文献２に記載されたMMSE-STSA推定法(minimum mean square error short-time spectral amplitude estimator)、非特許文献３に記載されたベクトル・テイラー級数展開（Vector Taylor series）を用いた手法、及び非特許文献４に記載されたデノイジング・オートエンコーダ（denoising autoencoder）がある。

これら手法は、いずれも単一のマイクロホンから得られた音響信号について音声認識の前処理として音声強調を行う手法である。

図１に、従来の音声認識装置１００の概略構成を示す。図１を参照して、この音声認識装置１００は、図示しないマイクロホンが出力した、波形１１０により表される、雑音重畳音声である音声信号１１２を受けて上記したいずれかの手法により音声強調を行って強調音声信号１１６を出力するための音声強調部１１４と、この強調音声信号１１６から所定の特徴量を抽出するための特徴抽出部１１８と、この特徴量に対する音声認識を行って波形１１０により表される音声に対応するテキスト１２２を出力するための音声認識部１２０とを含む。音声認識部１２０としては、例えば特許文献１に開示されたものを使用できる。

音声認識装置１００はさらに、音声認識部１２０が音声認識を行う際に用いる音響モデル１２４、発音辞書１２６及び言語モデル１２８とを含む。音響モデル１２４は、特徴抽出部１１８から入力された特徴量に基づいて、対応する音素を推定するためのものである。発音辞書１２６は、音響モデル１２４により推定された音素列に対応する単語を得るために用いられる。言語モデル１２８は、発音辞書１２６を用いて推定された単語列により構成される認識結果の発話文の候補の各々についてその確率を算出する際に使用される。

図２には、音響モデル１２４の概略構成を示す。図２から分かるように、この音響モデル１２４はいわゆる深層ニューラル・ネットワークからなり、特徴量を受ける入力層１５０及びこの特徴量から推定された音素を特定する情報を出力する出力層１６２と、入力層１５０及び出力層１６２の間に順番に設けられた複数の隠れ層１５２、隠れ層１５４、隠れ層１５６、隠れ層１５８、及び隠れ層１６０とを含む。音響モデル１２４の構成及び学習方法はよく知られているのでここではその詳細は繰返さない。音響モデル１２４の学習には雑音を含まないクリーン音声が用いられる。なお、推定された音素を特定する情報としては、例えば音素の集合の各要素についての確率ベクトルという形が考えられる。以下、本明細書では、記載を簡潔にするために、音素を特定する情報を出力することを単に「音素を出力する」という。

一方、雑音付加学習は、雑音を含む音声信号を学習データとして、深層ニューラル・ネットワークによる音響モデルを学習することにより、雑音を含む音声に対する音声認識精度を高めようとする手法である。この場合は、音声信号に対する前処理は行わないが、音声認識の対象はやはり単一の音声信号である。

近年では、単一チャネルのマイクロホンから得た音声信号に対する音声強調ではなく、複数チャネルのマイクロホン（マイクロホンアレイ）から得た多チャネル音声強調が音声認識の前処理とし幅広く利用されている。その好例がスマートスピーカである。スマートスピーカは、様々な企業により開発及び販売され、特に米国等で急速に普及している。

マイクロホンアレイを用いることにより、音源の空間情報も用いて雑音除去ができるため、高精度かつ低歪で音声強調が行える。

特開2017-219769

S. F. Boll, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 27, no. 2, pp. 113-120, Apr. 1979. Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean square error short-time spectral amplitude estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, issue 6, pp. 1109-1121, Dec. 1984. P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylor series approach for environment-independent speech recognition", in Proceedings of ICASSP '96, vol. II, pp. 733-736, May 1996. X. Lu, Y. Tsao, S. Matsuda, C. Hori: "Speech enhancement based on deep denoising autoencoder", in Proceedings of Interspeech '13, pp. 436-440, Aug. 2013. J. Barker, R. Marxer, E. Vincent, & S. Watanabe. The third 'CHiME' speech separation and recognition challenge: Analysis and outcomes. Computer Speech and Language, Volume 46, pp. 605-626, November 2017.

しかし、多チャネルの音声信号を用いる場合、そのためのマイクロホンアレイ及び多チャネルマイクアンプという特殊なデバイスが必要となる。また音声信号に対する処理量及び転送量が増大する。こうした問題のため、例えばいわゆるスマートホンのようにマイクロホンが１つしかなく、処理量にも限界があるデバイスには適用できないという問題がある。

このため、スマートホンでは前記した音声強調処理のいずれかが適用されるが、この場合には大幅な音声歪の増大が見られ、音声認識精度が著しく劣化してしまうという問題がある。

それ故に本発明の目的は、単一チャネルの音声信号しか利用可能でなくても音声認識精度を高くできる音響モデル及び音声認識装置、並びにそのためのコンピュータプログラムを提供することである。

本発明の第１の局面に係る耐雑音音声認識装置は、目的信号である音声信号に雑音信号が重畳した音響信号を入力とし、音声信号が強調された強調音声信号を出力する音声強調回路と、強調音声信号と、音響信号とを受け、音声信号の発話内容をテキスト化する音声認識部とを含む。

好ましくは、音声強調回路は、音響信号に対して第１の種類の音声強調処理を行って第１の強調音声信号を出力する第１の音声強調部と、音響信号に対して第１の種類と異なる第２の種類の音声強調処理を行って第２の強調音声信号を出力する第２の音声強調部とを含み、音声認識部は、第１及び第２の強調音声信号と、音響信号とを受け、音声信号の発話内容をテキスト化する。

より好ましくは、音声認識部は、音響信号から第１の特徴量を抽出する第１の特徴抽出手段と、強調音声信号から第２の特徴量を抽出する第２の特徴抽出手段と、第２の特徴量の各々について、第１の特徴量と、第２の特徴量とに応じて取捨選択する特徴選択手段と、特徴選択手段により選択された第２の特徴量を用いて音声信号の発話内容をテキスト化する音声認識手段とを含む。

さらに好ましくは、耐雑音音声認識装置は、音声認識手段が音声認識に用いる音響モデルを記憶する音響モデル記憶手段をさらに含み、当該音響モデルは複数の隠れ層を持つ深層ニューラル・ネットワークであり、音響モデルは、第１の特徴量を入力として受ける第１のサブネットワークと、第２の特徴量を入力として受ける第２のサブネットワークと、第１のサブネットワークの出力と第２のサブネットワークの出力とを受け、第１の特徴量及び第２の特徴量から推定される音素を出力する第３のサブネットワークとを含む。

本発明の第２の局面に係る耐雑音音声認識方法は、コンピュータが、目的信号である音声信号に雑音信号が重畳した単一チャネルの音響信号を入力として、音声信号が強調された強調音声信号を出力するステップと、コンピュータが、強調音声信号と、音響信号とを受け、音声信号の発話内容をテキスト化する音声認識ステップとを含む。

本発明の第３の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの耐雑音音声認識装置として機能させる。

本発明の解決した課題、本発明の構成及びその有利な効果は、添付の図面を参照しながら実施の形態の詳細な説明を読むことにより一層明らかとなる。

図１は、単一チャネルの音声信号に対して従来の音声強調手法による前処理を行って音声認識を行う音声認識装置の概略構成を示すブロック図である。図２は、図１に示す音声認識装置で利用される深層ニューラル・ネットワークによる音響モデルの構成を示すブロック図である。図３は、本発明の第１の実施の形態に係る音声認識装置の概略構成を示すブロック図である。図４は、図３に示す音声認識装置で用いられる音響モデルの構成を示す概略ブロック図である。図５は、本発明の第２の実施の形態に係る音声認識装置で用いられる音響モデルの構成を示すブロック図である。図６は、本発明の第３の実施の形態に係る音声認識装置の概略構成を示すブロック図である。図７は、図６に示す音声認識装置で用いられる音響モデルの構成を示すブロック図である。図８は、本発明の第４の実施の形態に係る音声認識装置で用いられる音響モデルの概略構成を示すブロック図である。図９は、本発明の第５の実施の形態に係る音声認識装置で用いられる音響モデルの概略構成を示すブロック図である。図１０は、本発明の第６の実施の形態に係る音声認識装置で用いられる音響モデルの概略構成を示すブロック図である。図１１は、本発明の第７の実施の形態に係る音声認識装置で用いられる音響モデルの概略構成を示すブロック図である。図１２は、本発明の第８の実施の形態に係る音声認識装置で用いられる音響モデルの概略構成を示すブロック図である。図１３は、本発明の第５の実施の形態〜第８の実施の形態に係る音響モデルが有するゲート層の機能を説明する図である。図１４は、従来技術と本発明の第１〜第８の実施の形態に係る音声認識装置による単語誤り率を対比して表形式で示す図である。図１５は、本発明に係る音声認識装置を実現する典型的なコンピュータのハードウェアブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［第１の実施の形態」
図３は、本発明の第１の実施の形態に係る音声認識装置１８０の概略構成を示すブロック図である。図３を参照して、音声認識装置１８０は、波形１１０により表される音声についてマイクロホンが出力する、雑音重畳音声である音声信号１１２に対し、既存の音声強調処理を行って強調音声信号２０３を出力する音声強調部２０２と、音声信号１１２及び強調音声信号２０３の双方を入力として、拡大された音声の特徴量２１０及び２１２を抽出する拡大特徴抽出部２００と、拡大特徴抽出部２００が出力する特徴量２１０及び２１２を入力として受けて音声認識を行って認識後のテキスト２０８を出力する音声認識部２０４とを含む。音声認識部２０４としては、図１に示す音声認識部１２０と同様のものを用いることができる。ただし、使用する特徴量については後述するように従来のものとは異なっている。

音声認識装置１８０はさらに、音声認識部２０４が音声認識の際に用いる、図２に示す従来のものとは異なる構成の音響モデル２０６と、図１に示すものとそれぞれ同じ発音辞書１２６及び言語モデル１２８とを含む。これら音響モデル２０６、発音辞書１２６及び言語モデル１２８はいずれも後述するハードディスク等の記憶装置に記憶される。

拡大特徴抽出部２００は、雑音重畳音声である音声信号１１２の入力を受けて特徴量２１０を出力する、図１に示すものと同様の特徴抽出部１１８と、音声強調部２０２から出力される強調音声信号２０３から特徴量２１２を抽出する、特徴抽出部１１８と同様の機能を持つ特徴抽出部２２０とを含む。本実施の形態では、特徴抽出部１１８と特徴抽出部２２０とは同じ構成を持ち、特徴量２１０と特徴量２１２とは同じ意味を持つ特徴量である。しかし、一般的には両者の入力が異なるために特徴量２１０及び２１２の値は互いに異なる。

図４を参照して、図３に示す音響モデル２０６は、雑音が重畳された音声から得られた特徴量２１０と、強調音声信号２０３から得られた特徴量２１２との双方を入力とする入力層２４０と、推定された音素を出力する出力層２５６と、これら入力層２４０及び出力層２５６の間に順番に設けられた複数の隠れ層２４２〜２５４とを含む。本実施の形態では、隠れ層の数は７層である。

図４に示す入力層２４０は、いずれもベクトルである特徴量２１０及び２１２の要素数の和だけの数の入力を受ける。これら特徴量２１０及び２１２を出力する特徴抽出部１１８及び２２０は、本実施の形態では図１に示す従来の特徴抽出部１１８と同じ構成である。したがって、音響モデル２０６が受ける特徴量の数は図１に示す従来のものと比較して２倍になる。そのうち半数は雑音重畳音声から得られた特徴量であり、残りの半数は強調音声から得られた特徴量である。

音声認識部２０４の動作は、図１に示す音響モデル１２４に代えて音響モデル２０６を用いること、及び処理対象となる音響特徴量が強調音声からのものに加えて雑音重畳音声の特徴量も含むことを除き、図１に示す音声認識装置１００と同じである。したがってここではその詳細な説明は繰返さない。

このような構成の音響モデル２０６を採用することにより、図１４を参照して後述するように、本実施の形態に係る音声認識装置１８０では、図１に示す従来のものと比較してより高い精度の音声認識を行うことができた。

なお、音響モデル２０６の学習は、予め雑音重畳音声と、その音声が表すテキストからなる学習データを準備することにより、通常の深層ニューラル・ネットワークと同様の誤差逆伝搬法により行うことができる。これは以下に述べる各実施の形態における学習でも同様である。

［第２の実施の形態］
図５に、本発明の第２の実施の形態に係る音響モデル２８０の構成を示す。第２の実施の形態に係る音声認識装置は、図３に示す音響モデル２０６に代えて図５に示す音響モデル２８０を用いる点を除き第１の実施の形態に係る音声認識装置１８０と同じである。

音響モデル２８０は、雑音重畳音声の特徴量２１０を受ける雑音重畳音声のためのサブネットワーク３００と、強調音声の特徴量２１２を受ける強調音声のためのサブネットワーク３０２と、雑音重畳音声のためのサブネットワーク３００の出力及び強調音声のためのサブネットワーク３０２の出力を受ける出力側サブネットワーク３０４と、出力側サブネットワーク３０４の出力を受けて音素を出力する出力層３０６とを含む。

雑音重畳音声のためのサブネットワーク３００は、雑音重畳音声の特徴量２１０を受けるように接続された入力層３２０と、入力層３２０と出力側サブネットワーク３０４の入力との間に順番に接続された複数個（本実施の形態では３個）の隠れ層３２２、３２４及び３２６とを含む。

強調音声のためのサブネットワーク３０２は、強調音声の特徴量２１２を受けるように接続された入力層３３０と、入力層３３０と出力側サブネットワーク３０４の入力との間に順番に接続された複数個（本実施の形態では３個）の隠れ層３３２、３３４及び３３６とを含む。

出力側サブネットワーク３０４は、雑音重畳音声のためのサブネットワーク３００及び強調音声のためのサブネットワーク３０２の出力を受けるように接続された隠れ層３５０と、この隠れ層３５０と出力層３０６との間に順に接続された隠れ層３５２、３５４及び３５６とを含む。

図５に示す音響モデル２８０が第１の実施の形態の音響モデル２０６と異なるのは、音響モデル２０６では入力層２４０が雑音重畳音声の特徴量２１０と強調音声の特徴量２１２の双方を受け、それ以後の隠れ層２４２〜２５４の全てに双方からの情報が伝搬されていくのに対し、音響モデル２８０では、雑音重畳音声のためのサブネットワーク３００を構成する入力層３２０及び隠れ層３２２〜３２６には雑音重畳音声の特徴量２１０からの情報のみが伝搬し、強調音声のためのサブネットワーク３０２の入力層３３０及び隠れ層３３２〜３３６には強調音声の特徴量２１２からの情報のみが伝搬することである。両者の情報は、隠れ層３５０で初めて統合され、以後、隠れ層３５２〜３５６及び出力層３０６に伝搬する。

音響モデル２８０を採用した音声認識装置の構成は第１の実施の形態の音声認識装置１８０と同様である。

この第２の実施の形態に係る音響モデル２８０を用いた音声認識装置でも、図１４に示すように従来技術より高い精度を達成できた。

［第３の実施の形態］
図６に、本発明の第３の実施の形態に係る音声認識装置３８０のブロック図を示す。この音声認識装置３８０は、波形１１０により表される音声についてマイクロホンが出力する音声信号１１２に対し、それぞれ既存の第１〜第４の音声強調処理を行ってそれぞれ強調音声信号２０３、３９３、３９５及び３９７を出力する音声強調部２０２、３９２、３９４及び３９６と、音声信号１１２及び強調音声信号２０３、３９３、３９５及び３９７を入力として、拡大された音声の特徴量２１０、２１２、４３０、４３２及び４３４を抽出する拡大特徴抽出部３９０と、拡大特徴抽出部３９０が出力する特徴量２１０、２１２、４３０、４３２及び４３４を入力として受けて音声認識を行って認識後のテキスト４００を出力する音声認識部４０２とを含む。

音声認識装置３８０はさらに、音声認識部４０２が音声認識の際に用いる音響モデル３９８と、図１に示すものとそれぞれ同じ発音辞書１２６及び言語モデル１２８とを含む。

拡大特徴抽出部３９０は、雑音が重畳された音声信号１１２を受けて特徴量２１０を抽出するための特徴抽出部１１８と、音声強調部２０２から強調音声信号２０３を受けて第１の強調音声の特徴量２１２を抽出するための特徴抽出部２２０と、音声強調部３９２から強調音声信号３９３を受けて第２の強調音声の特徴量４３０を出力する特徴抽出部４１０と、音声強調部３９４から強調音声信号３９５を受けて第３の強調音声の特徴量４３２を出力する特徴抽出部４１２と、音声強調部３９６から強調音声信号３９７を受けて第４の強調音声の特徴量４３４を出力する特徴抽出部４１４とを含む。

音声強調部２０２は非特許文献１に開示された手法により音声強調を行う。音声強調部３９２は非特許文献２に開示された手法により音声強調を行う。音声強調部３９４は非特許文献３に開示された手法により音声強調を行う。音声強調部３９６は非特許文献４に開示された手法により音声強調を行う。

図７に音響モデル３９８を形成する深層ニューラル・ネットワークの構成をブロック図形式で示す。図７を参照して、この音響モデル３９８は、図４に示す第１の実施の形態に係る音響モデル２０６を、４つの強調音声から抽出された特徴量を用いるよう拡張したものである。

音響モデル３９８は、雑音重畳音声の特徴量２１０、第１の強調音声の特徴量２１２、第２の強調音声の特徴量４３０、第３の強調音声の特徴量４３２及び第４の強調音声の特徴量４３４を受ける入力層４５０と、音響モデル３９８が推定した音素を出力する出力層４５４と、入力層４５０と出力層４５４との間に接続された複数の隠れ層からなる中間層４５２とを含む。

中間層４５２は、入力層４５０の出力に接続された入力を持つ隠れ層４７０と、それぞれの入力が前の層の出力に接続された隠れ層４７２、４７４、４７６、４７８、４８０及び４８２とを含む。隠れ層４８２の出力は出力層４５４の入力に接続されている。

この第３の実施の形態に係る音声認識装置３８０は、第２の実施の形態に係る音声認識装置１８０を４つの音声強調を使用するように拡張したものである。その動作も第１の実施の形態のものと基本的には同一である。

この第３の実施の形態でも、従来技術と比較して音声認識の精度を高くすることができた。

［第４の実施の形態］
第３の実施の形態では、雑音重畳音声の特徴量２１０及び第１〜第４の強調音声の特徴量２１２、４３０、４３２及び４３４がいずれも入力層４５０に入力されており、中間層４５２を構成する全ての隠れ層にこの情報が伝搬されている。しかし本発明はそのような実施の形態には限定されない。

この第４の実施の形態に係る音声認識装置は基本的に図６に示す音声認識装置３８０の構成と同様である。異なる点は、音声認識装置３８０が使用していた音響モデル３９８に代えて図８に示すような構成の音響モデル５００を用いている点である。

図８を参照して、この音響モデル５００は、雑音重畳音声である音声信号１１２の特徴量２１０を受ける第１のサブネットワーク５４０と、第１の強調音声の特徴量２１２を受ける第２のサブネットワーク５４２と、第２の強調音声の特徴量４３０を受ける第３のサブネットワーク５４４と、第３の強調音声の特徴量４３２を受ける第４のサブネットワーク５４６と、第４の強調音声の特徴量４３４を受ける第５のサブネットワーク５４８と、第１のサブネットワーク５４０、第２のサブネットワーク５４２、第３のサブネットワーク５４４、第４のサブネットワーク５４６及び第５のサブネットワーク５４８の出力を受けるように接続された中間サブネットワーク５５０と、中間サブネットワーク５５０の出力に接続された入力を持ち、音響モデル５００の出力である音素の推定結果を出力する出力層５５２とを含む。

第１のサブネットワーク５４０は、雑音重畳音声の特徴量２１０を受ける入力を持つ入力層５７０と、入力層５７０と中間サブネットワーク５５０の入力との間に順番に接続された隠れ層５７２、隠れ層５７４及び隠れ層５７６とを含む。

第２のサブネットワーク５４２は、第１の強調音声の特徴量２１２を受ける入力を持つ入力層５８０と、入力層５８０と中間サブネットワーク５５０の入力との間に順番に接続された隠れ層５８２、隠れ層５８４及び隠れ層５８６とを含む。

第３のサブネットワーク５４４は、第２の強調音声の特徴量４３０を受ける入力を持つ入力層５９０と、入力層５９０と中間サブネットワーク５５０の入力との間に順に接続された隠れ層５９２、隠れ層５９４及び隠れ層５９６とを含む。

第４のサブネットワーク５４６は、第３の強調音声の特徴量４３２を受ける入力を持つ入力層６００と、入力層６００と中間サブネットワーク５５０の入力との間に順に接続された隠れ層６０２、隠れ層６０４及び隠れ層６０６とを含む。

第５のサブネットワーク５４８は、第４の強調音声の特徴量４３４を受ける入力を持つ入力層６１０と、入力層６１０と中間サブネットワーク５５０の入力との間に順に接続された隠れ層６１２、隠れ層６１４及び隠れ層６１６とを含む。

中間サブネットワーク５５０は、第１〜第５のサブネットワーク５４０、５４２、５４４、５４６及び５４８の出力を受けるように接続された隠れ層６２０と、隠れ層６２０から出力層５５２までの間に順に接続された隠れ層６２２、隠れ層６２４及び隠れ層６２６とを含む。

この実施の形態に係る音声認識装置の構成も図６に示すものと同様で、図６の音響モデル３９８に代えて図８に示す音響モデル５００を用いる点のみが異なる。

第３の実施の形態では、全ての隠れ層が、雑音重畳音声の特徴量２１０、第１〜第４の強調音声の特徴量２１２、４３０、４３２及び４３４を伝搬している。しかし本実施の形態では、雑音重畳音声の特徴量２１０は第１のサブネットワーク５４０の内部を伝搬した後隠れ層６２０に入力される。同様に、第１〜第４の強調音声の特徴量２１２、４３０、４３２及び４３４はそれぞれ第２〜第５のサブネットワーク５４２、５４４、５４６及び５４８のみの中を伝搬した後、隠れ層６２０に入力される。隠れ層６２０から始まる中間サブネットワーク５５０の内部では、全ての特徴量が統合されて順に隠れ層を伝搬し最終的に出力層５５２から音素の推定結果が出力される。

この第４の実施の形態に係る音響モデル５００を用いた音声認識装置でも、従来の音声認識装置より高い精度で音声認識を行うことができた。

［第５の実施の形態］
図９に、第５の実施の形態に係る音声認識装置で使用される音響モデル６５０の概略構成を示す。図９から分かるように、この音響モデル６５０も深層ニューラル・ネットワークからなる。

図９に示す音響モデル６５０は、図４に示す音響モデル２０６において、雑音重畳音声の特徴量２１０と第１の強調音声の特徴量２１２の双方を受ける入力層２４０の前に、第１の強調音声の特徴量２１２を受け、区間［０，１］の重みを乗じて入力層２４０に入力するゲート層６８２を設けたものである。以後、図４に示すものと同様、隠れ層２４２から出力層２５６まで、これら特徴量からの情報はいずれも共通して伝搬される。

ゲート層６８２も一種の隠れ層ということができるが、その機能は通常の隠れ層と異なる。すなわち、図１３を参照して、ゲート層６８２を一般的にゲート層１１００として表現すると、ゲート層１１００は入力ベクトルｘ_ｔの各要素に対してゲート重みｇ_ｔ＝σ（Ｗｘ_ｔ＋ｂ）を要素ごとに乗じて出力ベクトルｙ_ｔを出力するゲート機能を持つ。ここでベクトルｘ_ｔをＭ次元とすると、ＷはＭ×Ｍ次元の重み行列、ｂはＭ次元のバイアスベクトル、σ（・）は区間［０，１］の値域である任意の活性化関数、を表す。ゲート重みの各要素は前述したとおり区間［０，１］内の値である。これら重み行列Ｗ及びバイアスベクトルｂの各要素はいずれも学習の対象である。学習時には、上記した区間の制約に従うことを除き、重み行列Ｗ及びバイアスベクトルｂの各要素の学習は通常の深層ニューラル・ネットワークと同じ手法を用いて学習できる。以後の説明でも、ゲート層と呼ばれる層はいずれも図１３のゲート層１１００と同じ機能を持ち、いずれのパラメータも上記した区間［０、１］という制約の下、他のパラメータと同様に学習できる。

なおこのゲート層は、入力ベクトルの各要素に対して別々にゲート処理を行うことに注意する必要がある。したがって、強調音声の特徴量ごとに、音声認識時に利用するか否かをゲート処理できる。

この結果、各特徴量からなる入力ベクトルの要素ごとに、その要素に対する重みに応じて取捨選択がされる。この取捨選択は重み行列Ｗとバイアスベクトルｂと、各入力ベクトルに含まれる各要素の値とにより行われることになる。すなわち、入力される特徴量の値に応じて各要素が取捨選択され、音声認識に使用される。

この第５の実施の形態に係る音響モデル６５０を用いた音声認識装置でも、従来技術と比較して高い精度を達成できた。

［第６の実施の形態］
図１０に、本発明の第６の実施の形態に係る音声認識装置で使用される音響モデル７５０の概略構成を示す。この実施の形態に係る音声認識装置自体の構成は図３に示すものと同様である。ただし、図３の音響モデル２０６に代えて音響モデル７５０を用いる点が異なる。

音響モデル７５０は、全体として１つの深層ニューラル・ネットワークを構成する。音響モデル７５０は、雑音重畳音声の特徴量２１０の入力を受ける第１のサブネットワーク７７０と、第１の強調音声の特徴量２１２の入力を受ける第２のサブネットワーク７７２と、第１のサブネットワーク７７０の出力と第２のサブネットワーク７７２の出力とを受けるように接続された、深層ニューラル・ネットワークの一部である第３のサブネットワーク７７４と、第３のサブネットワーク７７４の出力を受けて音響モデル７５０により推定された音素を特定する出力層７７６とを含む。

第１のサブネットワーク７７０は、雑音重畳音声の特徴量２１０を受ける入力層８００と、入力層８００から第３のサブネットワーク７７４の入力までの間に順に接続された隠れ層８０２、隠れ層８０４及び隠れ層８０６とを含む。

第２のサブネットワーク７７２は、第１の強調音声の特徴量２１２を受ける入力層８１０と、入力層８１０の後に順に接続された隠れ層８１２、隠れ層８１４及び隠れ層８１６と、隠れ層８１６の出力を受けるように接続され、第５の実施の形態のゲート層６８２と同様の機能を持つゲート層８１８とを含む。

第３のサブネットワーク７７４は、第１のサブネットワーク７７０の出力及び第２のサブネットワーク７７２の出力を受ける隠れ層８３０と、隠れ層８３０以後、出力層７７６までの間に順に接続された隠れ層８３２、隠れ層８３４及び隠れ層８３６とを含む。

この音響モデル７５０は、図９に示すものと異なり、雑音重畳音声の特徴量２１０及び第１の強調音声の特徴量２１２は、音響モデル７５０の前半では第１のサブネットワーク７７０と第２のサブネットワーク７７２とに分離されてそれぞれの内部で伝搬される。第１のサブネットワーク７７０の出力はそのまま第３のサブネットワーク７７４に入力されるが、第２のサブネットワーク７７２では、最後の隠れ層８１６の出力に対してゲート層８１８でのゲート処理が実行された後、その結果が隠れ層８３０に入力される。

こうした構成により、第１の強調音声の特徴量２１２を利用した方が有利なときには第１の強調音声の特徴量２１２が有効に利用され、第１の強調音声の特徴量２１２を利用すると不利になるときには第２のサブネットワーク７７２の出力は小さな値となり、結果として音声認識には利用されない。

この第６の実施の形態に係る音響モデル７５０を用いても、従来技術と比較して高い精度で音声認識できた。

［第７の実施の形態］
図１１は第７の実施の形態に係る音声認識装置で使用される音響モデル８５０の概略構成を示す。図１１からも分かるようにこの音響モデル８５０も深層ニューラル・ネットワークからなる。この第７の実親形態に係る音声認識装置は、図６に示す音声認識装置３８０と同様である。ただし、図７の音響モデル３９８に代えて音響モデル８５０を使用する点が異なる。

図１１を参照して、この音響モデル８５０は、図７に示す音響モデル３９８の構成要素に加えて、入力層４５０の前に、第１の強調音声の特徴量２１２を受けて区間［０，１］の重みを乗じて入力層４５０に入力するゲート層８９２と、第２の強調音声の特徴量４３０を受けて区間［０，１］の重みを乗じて入力層４５０に入力するゲート層９０２と、第３の強調音声の特徴量４３２を受けて区間［０，１］の重みを乗じて入力層４５０に入力するゲート層９１２と、第４の強調音声の特徴量４３４を受けて区間［０，１］の重みを乗じて入力層４５０に入力するゲート層９２２とを含む。その他の点ではこの音響モデル８５０は、図７に示す音響モデル３９８と同一である。

この音響モデル８５０では、第１〜第４の強調音声の特徴量２１２、４３０、４３２及び４３４のいずれに対してもゲート層８９２、９０２、９１２及び９２２の機能により、音声認識時に有利となるような特徴量については有効に利用し、そうでない特徴量については利用しないようにできる。その結果、この音響モデル８５０を用いた音声認識でも精度を高くできる。

実際、後述するようにこの実施の形態の音響モデル８５０を用いた音声認識装置では、従来の技術よりも高い精度で音声認識を行うことができた。

［第８の実施の形態］
図１２に、本発明の第８の実施の形態に係る音声認識装置で使用される音響モデル９５０の概略構成を示す。音響モデル９５０もまた他の実施の形態に係る音響モデルと同様、深層ニューラル・ネットワークからなる。

音響モデル９５０は、雑音重畳音声の特徴量２１０を受ける第１の入力サブネットワーク９６０と、第１の強調音声の特徴量２１２を受ける第２の入力サブネットワーク９６２と、第２の強調音声の特徴量４３０を受ける第３の入力サブネットワーク９６４と、第３の強調音声の特徴量４３２を受ける第４の入力サブネットワーク９６６と、第４の強調音声の特徴量４３４を受ける第５の入力サブネットワーク９６８と、第１〜第５の入力サブネットワーク９６０、９６２、９６４、９６６及び９６８の出力を受ける中間サブネットワーク９７０と、中間サブネットワーク９７０の出力を受けて音響モデル９５０が推定する音素を出力する出力層９７２とを含む。

第１の入力サブネットワーク９６０は、雑音重畳音声の特徴量２１０を受ける入力層９８０と、入力層９８０から中間サブネットワーク９７０までの間に順に接続された隠れ層９８２、隠れ層９８４及び隠れ層９８６とを含む。

第２の入力サブネットワーク９６２は、第１の強調音声の特徴量２１２を受ける入力層９９０と、入力層９９０の後に順に接続される隠れ層９９２、隠れ層９９４及び隠れ層９９６と、隠れ層９９６の出力と中間サブネットワーク９７０の入力との間に挿入されたゲート層９９８とを含む。

第３の入力サブネットワーク９６４は、第２の強調音声の特徴量４３０を受ける入力層１０００と、入力層１０００の後に順に接続された隠れ層１００２、隠れ層１００４及び隠れ層１００６と、隠れ層１００６の出力と中間サブネットワーク９７０の入力との間に挿入されたゲート層１００８とを含む。

第４の入力サブネットワーク９６６は、第３の強調音声の特徴量４３２を受ける入力層１０１０と、入力層１０１０の後に順に接続された隠れ層１０１２、隠れ層１０１４及び隠れ層１０１６と、隠れ層１０１６の出力と中間サブネットワーク９７０の入力との間に挿入されたゲート層１０１８とを含む。

第５の入力サブネットワーク９６８は、第４の強調音声の特徴量４３４を受ける入力層１０２０と、入力層１０２０の後に順に接続された隠れ層１０２２、隠れ層１０２４及び隠れ層１０２６と、隠れ層１０２６の出力と中間サブネットワーク９７０の入力との間に挿入されたゲート層１０２８とを含む。

中間サブネットワーク９７０は、第１の入力サブネットワーク９６０並びに第２〜第５の入力サブネットワーク９６２、９６４、９６６及び９６８の出力を受ける隠れ層１０３０と、隠れ層１０３０と出力層９７２との間に順に接続された隠れ層１０３２、隠れ層１０３４及び隠れ層１０３６とを含む。

この音響モデル９５０を用いた音声認識装置の動作も、音響モデルとして音響モデル９５０を使用することを除き、図６に示す音声認識装置３８０と同様である。

この実施の形態では、第１〜第４の音声強調により得られた特徴量の各要素の各々について、区間［０、１］の値をとる係数で重み付けをして音素を推定できる。音声強調ごとに、かつその特徴量ごとに、音声認識に有利な特徴については有効に利用し、不利な特徴については使用しないようにできる。その結果、音声認識の精度を高くできる。

後述のように、この実施の形態では、従来技術での精度はもちろん、上記した第１〜第７の実施の形態のいずれよりも高い精度を実現することができた。

［実験結果］
図１４に、上記各実施の形態について行った実験結果（単語誤り率）を表形式で示す。この実験では、非特許文献５に記載されたCHiME3（タブレットを用いた屋外で収録した音声）を認識対象として使用した。この実験で使用した音声強調処理は以下のとおりである。

・音声強調１：非特許文献１に開示された技術
・音声強調２：非特許文献２に開示された技術
・音声強調３：非特許文献３に開示された技術
・音声強調４：非特許文献４に開示された技術
第１、第２、第５及び第６の実施の形態に関する実験では、例えば図３に示す音声強調部２０２として上記音声強調１〜４をそれぞれ採用して各実施の形態の音響モデルを使用して音声認識精度を測定し、第３、第５、第７及び第８の実施の形態に関する実験では、図６に示す音声強調部２０２、３９２、３９４及び３９６として上記音声強調１〜４をそれぞれ採用し、各実施の形態の音響モデルを使用して音声認識精度を測定した。

なお、図１４には示していないが、従来の音声認識装置で音声強調なしで同じデータに対する音声認識を行った場合の単語誤り率は２２．６４％であった。

図１４から明らかなように、本発明の第１〜第８の実施の形態によれば、従来技術の音声強調を用いた場合よりも単語誤り率が低かった。すなわち音声認識の精度は高かった。従来の音声認識で音声強調なしの場合と比較しても、大部分の場合で精度はより高かった。特に第２の実施の形態ではいずれの音声強調を使用しても高い精度を実現できた。また第４の実施の形態及び第８の実施の形態では精度は非常に高く、特に第８の実施の形態では他の実施の形態と比較しても一段と高い精度を実現できた。

［コンピュータによる実現］
上記した各実施の形態に係る音声認識装置の各機能部は、それぞれコンピュータハードウェアと、そのハードウェア上でＣＰＵ（中央演算処理装置）及びＧＰＵ（Graphics Processing Unit）により実行されるプログラムとにより実現できる。図１５に上記各音声認識装置を実現するコンピュータハードウェアを示す。ＧＰＵは通常は画像処理を行うために使用されるが、このようにＧＰＵを画像処理ではなく通常の演算処理に使用する技術をＧＰＧＰＵ（General-purpose computing on graphics processing units）と呼ぶ。ＧＰＵは同種の複数の演算を同時並列的に実行できる。一方、ニューラル・ネットワークの場合、特に学習時には演算が大量に必要になるが、それらは同時に超並列的に実行可能である。したがって、音声認識装置とそこに用いられる音響モデルを構成するニューラル・ネットワークの訓練と推論にはＧＰＵを備えたコンピュータが適している。なお、学習が終わった音響モデルを用いて音声認識を行う場合、十分高速なＣＰＵを搭載したコンピュータであれば、必ずしもＧＰＵを搭載していなくてもよい。

図１５を参照して、このコンピュータシステム１１３０は、メモリポート１１５２及びＤＶＤ（Digital Versatile Disk）ドライブ１１５０を有するコンピュータ１１４０と、キーボード１１４６と、マウス１１４８と、モニタ１１４２とを含む。

コンピュータ１１４０はさらに、ＣＰＵ１１５６及びＧＰＵ１１５８と、これら並びにメモリポート１１５２及びＤＶＤドライブ１１５０に接続されたバス１１６６と、ブートプログラム等を記憶する読出専用メモリであるＲＯＭ１１６０と、バス１１６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するコンピュータ読出可能な記憶媒体であるランダムアクセスメモリ（ＲＡＭ）１１６２と、コンピュータ読出可能な不揮発性記憶媒体であるハードディスク１１５４を含む。コンピュータ１１４０はさらに、いずれもバス１１６６に接続され、ネットワーク１１６８への接続を提供するネットワークインターフェイス（Ｉ／Ｆ）１１４４と、外部との音声信号の入出力を行うための音声Ｉ／Ｆ１１７０とを含む。

コンピュータシステム１１３０を上記した実施の形態に係る各音声認識装置の各機能部及び音響モデルの記憶装置として機能させるためのプログラムは、ＤＶＤドライブ１１５０又はメモリポート１１５２に装着される、いずれもコンピュータ読出可能な記憶媒体であるＤＶＤ１１７２又はリムーバブルメモリ１１６４に記憶され、さらにハードディスク１１５４に転送される。又は、プログラムはネットワーク１１６８を通じてコンピュータ１１４０に送信されハードディスク１１５４に記憶されてもよい。プログラムは実行の際にＲＡＭ１１６２にロードされる。ＤＶＤ１１７２から、リムーバブルメモリ１１６４から、又はネットワーク１１６８を介して、直接にＲＡＭ１１６２にプログラムをロードしてもよい。また、上記処理に必要なデータは、ハードディスク１１５４、ＲＡＭ１１６２、ＣＰＵ１１５６又はＧＰＵ１１５８内のレジスタ等の所定のアドレスに記憶され、ＣＰＵ１１５６又はＧＰＵ１１５８により処理され、プログラムにより指定されるアドレスに格納される。最終的に訓練が終了した音響モデルのパラメータは、音響モデルの訓練及び推論アルゴリズムを実現するプログラムとともに例えばハードディスク１１５４に格納されたり、ＤＶＤドライブ１１５０及びメモリポート１１５２をそれぞれ介してＤＶＤ１１７２又はリムーバブルメモリ１１６４に格納されたりする。又は、ネットワークＩ／Ｆ１１４４を介して接続された他のコンピュータ又は記憶装置に送信される。

このプログラムは、コンピュータ１１４０を、上記実施の形態に係る各装置及びシステムとして機能させるための複数の命令からなる命令列を含む。上記各装置及びシステムにおける数値演算処理は、ＣＰＵ１１５６及びＧＰＵ１１５８を用いて行う。ＣＰＵ１１５６のみを用いてもよいがＧＰＵ１１５８を用いる方が高速である。コンピュータ１１４０にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ１１４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ１１４０にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態の音声認識装置を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、静的リンクにより必要な機能を全て組込んだプログラムをコンピュータにロードすることによって上記した音声認識装置を実現してもよい。

［変形例］
上記第３、第４、第７及び第８の実施の形態では、４種類の音声強調処理を用いている。しかし本発明はそのような実施の形態には限定されない。２種類、３種類、又は５種類以上の音声強調処理を用いるようにしてもよい。

また上記実施の形態では、音響モデルを構成する深層ニューラル・ネットワークの隠れ層は全部で７層であり、第３、第４、第７及び第８の実施の形態では、深層ニューラル・ネットワークの前半に３層、後半に４層の隠れ層を用いている。しかし本発明はそのような実施の形態に限定されるわけではない。隠れ層の層数が６層以下でも、８層以上でもよい。また第３、第４、第７及び第８の実施の形態にしたがって音響モデルを構築する際には、前半と後半の隠れ層の数をそれぞれ３層及び４層とする必要は全くない。ただし、上記実験では、前半に３層、後半に４層としたときに最もよい結果が得られたことは事実である。

なお、上記実施の形態では単一チャネルの音声信号に対して本発明を適用した。しかし本発明はそうした実施の形態には限定されず、複数チャネルの音声信号に対しても適用は可能である。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

１００、１８０、３８０音声認識装置
１１０波形
１１２音声信号
１１４、２０２、３９２、３９４、３９６音声強調部
１１６、２０３、３９３、３９５、３９７強調音声信号
１１８、２２０、４１０、４１２、４１４特徴抽出部
１２０、２０４、４０２音声認識部
１２２、２０８、４００テキスト
１２４、２０６、２８０、３９８、５００、６５０、７５０、８５０、９５０音響モデル
１２６発音辞書
１２８言語モデル
２００、３９０拡大特徴抽出部
２１０雑音重畳音声の特徴量
２１２第１の強調音声の特徴量
３００雑音重畳音声のためのサブネットワーク
３０２強調音声のためのサブネットワーク
３０４出力側サブネットワーク
４３０第２の強調音声の特徴量
４３２第３の強調音声の特徴量
４３４第４の強調音声の特徴量
４５２中間層
５３０、１１３０コンピュータシステム
５４０、７７０第１のサブネットワーク
５４２、７７２第２のサブネットワーク
５４４、７７４第３のサブネットワーク
５４６第４のサブネットワーク
５４８第５のサブネットワーク
５５０、９７０中間サブネットワーク
６８２、８１８、８９２、９０２、９１２、９２２、９９８、１００８、１０１８、１０２８、１１００ゲート層
９６０第１の入力サブネットワーク
９６２第２の入力サブネットワーク
９６４第３の入力サブネットワーク
９６６第４の入力サブネットワーク
９６８第５の入力サブネットワーク

Claims

目的信号である音声信号に雑音信号が重畳した音響信号を入力とし、前記音声信号が強調された強調音声信号を出力する音声強調回路と、
前記強調音声信号と、前記音響信号とを受け、前記音声信号の発話内容をテキスト化する音声認識部とを含む、耐雑音音声認識装置。
前記音声強調回路は、
前記音響信号に対して第１の種類の音声強調処理を行って第１の強調音声信号を出力する第１の音声強調部と、
前記音響信号に対して前記第１の種類と異なる第２の種類の音声強調処理を行って第２の強調音声信号を出力する第２の音声強調部とを含み、
前記音声認識部は、前記第１及び第２の強調音声信号と、前記音響信号とを受け、前記音声信号の発話内容をテキスト化する、請求項１に記載の耐雑音音声認識装置。
前記音声認識部は、
前記音響信号から第１の特徴量を抽出する第１の特徴抽出手段と、
前記強調音声信号から第２の特徴量を抽出する第２の特徴抽出手段と、
前記第２の特徴量の各々について、前記第１の特徴量と、前記第２の特徴量とに応じて取捨選択する特徴選択手段と、
前記特徴選択手段により選択された前記第２の特徴量を用いて前記音声信号の発話内容をテキスト化する音声認識手段とを含む、請求項１に記載の耐雑音音声認識装置。
前記音声認識手段が音声認識に用いる音響モデルを記憶する音響モデル記憶手段をさらに含み、
当該音響モデルは複数の隠れ層を持つ深層ニューラル・ネットワークであり、
前記音響モデルは、
前記第１の特徴量を入力として受ける第１のサブネットワークと、
前記第２の特徴量を入力として受ける第２のサブネットワークと、
前記第１のサブネットワークの出力と前記第２のサブネットワークの出力とを受け、前記第１の特徴量及び第２の特徴量から推定される音素を出力する第３のサブネットワークとを含む、請求項３に記載の耐雑音音声認識装置。
コンピュータが、目的信号である音声信号に雑音信号が重畳した単一チャネルの音響信号を入力として、前記音声信号が強調された強調音声信号を出力するステップと、
コンピュータが、前記強調音声信号と、前記音響信号とを受け、前記音声信号の発話内容をテキスト化する音声認識ステップとを含む、耐雑音音声認識方法。
コンピュータを、請求項１〜請求項４のいずれかに記載の耐雑音装置として機能させる、コンピュータプログラム。