JP4381404B2

JP4381404B2 - 音声合成システム、音声合成方法、音声合成プログラム

Info

Publication number: JP4381404B2
Application number: JP2006259082A
Authority: JP
Inventors: 宏幸真鍋; 明平岩; 利明杉村
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2006-09-25
Filing date: 2006-09-25
Publication date: 2009-12-09
Anticipated expiration: 2022-03-04
Also published as: JP2007018006A

Description

本発明は、音声等の音響を認識し、認識した音声に基づいて音声を合成する音声合成システム、音声合成方法、音声合成プログラムに関する。

通常の音声検出装置では、発話における音声を音響信号として取り扱い、その音響信号の周波数を分析することによって、音声信号を認識し処理する音声認識技術が採用されており、このための方法として、スペクトル包絡等が利用されている。

しかし、この音声認識技術を用いて良好な音声検出結果をもたらすためには、発話時にある程度の音量が必要であり、発話による音響信号が入力されない限り音声情報を検出することは不可能であった。従って、音声入力時に話者の声が周囲の人々の迷惑となるため、静けさが要求されるオフィスや図書館さらに公共機関内などでは、このような音声検出装置を使用することができなかった。また周囲の雑音の大きい場所では、クロストークの問題が発生し、音声検出機能が低下するという欠点もあった。

これに対して、音響信号以外から音声情報を獲得する研究も従来から行われていた。音響情報以外の情報から音声情報を獲得することができれば、音響を発することなく発話することが可能となり、上記に示した問題点を解決することができる。***の視覚情報による音声認識手法としてはビデオカメラにより入力された画像を用いた画像処理による手法がある（例えば、特許文献１又は特許文献２参照）。

さらに、口の周囲の筋肉の動きに伴って発生する筋電信号を処理して発声した母音の種類を認識するという研究がある（例えば、非特許文献１参照）。非特許文献１には、筋電信号をバンドパスフィルタを通した後、閾値の交差回数をカウントして５母音（ａ，ｉ，ｕ，ｅ，ｏ）を弁別することが記載されている。

また、他の方式としては、口の周囲の筋肉の筋電信号をニュートラルネットを用いて処理し、発声話者の母音だけでなく、子音も含めて検出する方法が特開平７−１８１８８８号に示されている。さらに、１つの入力チャネルからの情報だけでなく、複数の入力チャネルを利用したマルチモーダルインタフェースが提案・実現されてきている。

一方、従来の音声合成システムでは、話者の音声を特徴付けるデータを予め保存しておき、話者の発話に合わせて音声を合成する方法が開発されている。
特開昭５２−１１２２０５号公報特開平６−４３８９７号公報 Noboru Sugie et al., "A speech Employing a Speech Synthesizer Vowel Discrimination from Perioral Muscles Activities and Vowel Production,"IEEE transactions on Biomedical Engineering, Vol.32, No.7, pp485-490

しかしながら、上記した音響情報以外の情報から音声情報を獲得する音声検出方法では、音響情報を用いた音声認識に比べ、認識率が低いという問題点がある。特に、口内における筋肉の動きにより発生される子音の認識は困難であった。

また、従来の音声合成システムでは、上述したように、話者の音声を特徴付けるデータに基づいて音声を合成しているため、合成音声が機械的であるため表現が不自然になり、話者の感情等を適切に表現できないという問題があった。

本発明は、以上の問題点を鑑みてなされたものであり、周囲の雑音の影響を受けることなく、少量の音量であっても高度な認識率を維持することができる音声認識システム、方法及びプログラムを提供することを目的とする。また、他の発明は、音声認識を音声合成に利用することにより、合成音声をより自然なものとするとともに、話者の感情等を適切に表現することのできる音声合成システム、方法、及びプログラムを提供することを目的とする。

上記課題を解決するために、本発明は、音響信号を取得し、取得した音響信号の変化に基づいて音響情報パラメータを算出し、対象物表面の電位変化を筋電信号として取得し、取得した音響信号の変化に基づいて筋電信号パラメータを算出し、撮影した対象物の映像を画像情報として取得し、映像中の対象物の変化に基づいて画像情報パラメータを算出し、これらの音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータに基づいて音声を認識し、認識結果を提示することを特徴とする。

このような本発明によれば、音響信号や筋電信号、画像情報という複数のパラメータを用いて音声認識を行っているために、対雑音性などを大幅に向上することができる。

また、他の発明は、音声を認識するとともに、音響情報から音響信号のスペクトラムを第１のスペクトラムとして取得し、音声認識手段による認識結果から再構成した音響信号のスペクトラムを第２のスペクトラムとして生成し、これら第１のスペクトラムと第２のスペクトラムとを比較し、この比較結果に応じて修正スペクトラムを生成し、修正スペクトラムから合成された音声を出力することを特徴とする。

このような発明によれば、音響情報からのスペクトラムのみならず、他のパラメータも用いて認識した音声からのスペクトラムに基づいて音声を合成するため、周囲の雑音を効果的に除去することができる。

なお、上記２つの発明における音声認識は、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータの各々について認識処理を行った後、各認識結果を比較し、この比較結果に基づいて最終的な認識処理を行うことが望ましい。さらに、音声認識は、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータを同時に用いて認識処理を行うようにしてもよい。

また、他の音声認識としては、データの入力部及び出力部を備えた非線形素子の集合である素子群を上流から下流に向けて階層的に配置し、隣接する素子群間において、上流の非線形素子の出力部と、下流の非線形素子の入力部とを相互に接続し、各非線形素子において、当該非線形素子の入力部への接続及びこれら接続の組み合わせ毎に重み係数を付与し、入力部へ入力されたデータ及び前記重み係数に応じて、下流へ出力するデータ及び出力部からの接続を決定する階層ネットワークを構築し、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータを上流側から入力し、最下流の素子群から出力されるデータを認識音声とすることが好ましい。

この階層ネットワークを利用した場合には、階層ネットワークの下流側からサンプルデータを入力してデータを上流側へ逆流させることにより、各非線形素子に付与された前記重み係数を変更させる学習機能を実現することができる。

以上説明したように、本発明の音声認識システム、方法及びプログラムによれば、周囲の雑音の影響を受けることなく、少量の音量であっても高度な認識率を維持することができる。また、他の発明の音声合成システム、方法及びプログラムによれば、音声認識を音声合成に利用することにより、合成音声をより自然なものとするとともに、話者の感情等を適切に表現することができる。

［第１実施形態］
（基本構成）
以下に本発明の実施形態に係る音声認識システムについて詳細に説明する。図１は、本実施形態に係る音声認識システムの基本構成を示すブロック図である。

同図に示すように、音声認識システムは、音響情報処理部１０と、筋電信号処理部１３と、画像情報処理部１６と、情報総合認識部１９とを備えている。

音響情報処理部１０は、発話時に発せられる音響情報を処理するものであり、発話時の音響信号を取得するための音響信号取得手段１１と、音響信号取得手段で得られた音響信号のスペクトル包絡やスペクトル微細構造を分離するなどして音響情報パラメータを抽出する音響信号処理手段１２とを備えている。

音響信号取得手段１１は、マイクロフォン等の音響を取得する装置であり、発話時に発せられる音響をマイクロフォンで検出し、取得した音響信号を音響信号処理手段１２に伝達する。

音響信号処理手段１２は、音響信号取得手段１１から取得した音響信号を音声認識手段２０で処理可能な音響情報パラメータを算出する装置であり、音響信号を設定された時間窓で切り出し、切り出された音響信号に対して、一般的な音声認識で用いられている短時間スペクトル分析や、ゲプストラム分析、最尤スペクトル推定、共分散法、ＰＡＲＣＯＲ分析、ＬＳＰ分析などの分析法を用いて音響情報パラメータを算出する。

筋電信号処理部１３は、発話時に口周辺の筋肉の動きを検出して処理を行うものであり、発話時の口周辺の筋肉の動きに伴う筋電信号を取得するための筋電信号取得手段１４と、筋電信号取得手段で得られた筋電信号のパワーの計算や周波数分析などして筋電信号パラメータを抽出する筋電信号処理手段１５とを備えている。

筋電信号取得手段１４は、発話時における口周辺の筋肉の活動に伴う筋電信号を検出する装置であり、話者の口周辺の皮膚表面の電位変化を検出する。すなわち、発話時には口周辺の複数の筋肉が協調して活動しており、それら複数の筋肉の活動を捉えるために、筋電信号取得手段１４では、発話時に活動する複数の筋肉に対応した複数の皮膚表面電極から複数の筋電信号を導出し、増幅して筋電信号処理手段１５に伝達する。

筋電信号処理手段１５は、筋電信号取得手段１４から伝達された複数の筋電信号から筋電信号パラメータを算出する装置であり、具体的には、筋電信号に対して、設定した時間窓で切り出しを行い、切り出された筋電信号に対して、スペクトル分析や、二乗平均平方（ＲＭＳ）、整流化平均値（ＡＲＶ）、積分筋電図（ＩＥＭＧ）などの平均振幅の特徴量の算出を行い、筋電信号パラメータを算出する。

画像情報処理部１６は、発話時の口周辺の空間的な変形を検出して画像処理を行うものであり、発話時の口周辺の空間的な変形をビデオカメラで撮影する画像情報取得手段１７と、画像情報処理手段で得られた画像情報から唇周辺の動きパラメータを抽出する画像情報処理手段１８とを備えている。

画像情報取得手段１７は、発話時における口周辺の動きを撮像するビデオカメラなどの撮影機であり、口周辺の動きを画像として検出し、画像情報処理手段１８に伝達する。

画像情報処理手段１８は、画像情報取得手段１７で得られた画像情報から画像情報パラメータを算出する装置であり、具体的には、画像情報から口周辺の動きの特徴量をオプティカルフローにより抽出し、画像情報パラメータを算出する。

情報総合認識部１９は、音響情報処理部及び筋電信号処理部及び画像情報処理部から得られた各種情報を統合して認識し、その認識結果を提示するものであり、音響音声認識部で得られた音響情報パラメータと、筋電音声認識部で得られた筋電信号パラメータと、画像情報処理部で得られた画像情報パラメータとを比較・統合し、音声認識結果の判断を下す音声認識手段２０と、音声認識手段で得られた認識結果を提示する認識結果提示手段２１とを備えている。

音声認識手段２０は、上記各部１０，１３，１６から取得した音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータを用いて、音声認識を行う演算装置である。この音声認識手段２０は、周囲の雑音が少ない場合や、発話時の音量が大きい場合等、音響情報パラメータから十分に音声認識することが可能な場合は、音響情報パラメータのみから音声認識を行う機能を備えている。また、この音声認識手段２０は、周囲の雑音が大きい場合や、発話時の音量が小さい場合等、音響情報パラメータのみからでは十分に音声認識することが不可能な場合には、音響情報パラメータだけでなく、筋電信号パラメータ及び画像情報パラメータから得られる情報を加味して、音声認識を行う機能を備えている。

さらにこの音声認識手段２０は、筋電信号パラメータ及び画像情報パラメータを用いて音声認識する際に、認識率が低い場合には、誤認識する音素などについて、音響情報パラメータを用いることによって、全体としての認識率を高める機能を有している。

認識結果提示手段２１は、音声認識手段２０による認識結果を出力する出力デバイスであり、音声認識手段２０で得られた音声認識結果を、話者に対して音声で出力する発生装置や、画面に文字テキストで表示する液晶等の表示モニターを採用することができる。また、この認識結果提示手段２１としては、通信インターフェース等を設けることにより、音声認識結果を、話者に提示するだけでなく、パーソナルコンピュータ等の端末装置上で起動しているアプリケーションにデータとして出力するようにしてもよい。

（基本動作）
上記基本構成を有する本実施形態に係る音声認識システムは、以下のように動作する。図２は、本実施形態にかかる音声認識システムの動作を示すフロー図である。

先ず、話者が発話を開始する（Ｓ１０１）。このとき、話者が発話している際の音響信号、筋電信号、画像情報はそれぞれ、音響信号取得手段１１、筋電信号取得手段１４、画像情報取得手段１７により検出される（Ｓ１０２〜Ｓ１０４）。検出された音響信号、筋電信号、画像情報はそれぞれ、音響信号処理手段１２、筋電信号処理手段１５、画像情報処理手段１８により音響情報パラメータ、筋電信号パラメータ、画像情報パラメータとして算出される（Ｓ１０５〜Ｓ１０７）。

算出された各種パラメータは音声認識手段２０により音声認識され（Ｓ１０８）、認識結果提示手段２１により音声認識結果が提示される（Ｓ１０９）。この認識結果の提示は、上述したように、音声によって行うことも、画面に表示することも可能である。

（各手段の動作）
上記基本構成における各手段のそれぞれの動作を以下に詳細に説明する。

（１）音声認識手段
図４は、音声認識手段２０を説明するブロック図である。ここでは、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータの各々について認識処理を行った後、各認識結果を比較し、この比較結果に基づいて最終的な認識処理を行う。

具体的には、同図に示すように、本実施形態にかかる音声認識手段２０は、最終的な音声認識を行う前に、音響情報パラメータのみ、筋電信号パラメータのみ、画像情報パラメータのみを用いてそれぞれ音声認識を行い、それぞれのパラメータから得られた認識結果を統合することによって、最終的に音声認識を行う。それぞれのパラメータから得られた認識結果のうち、複数の認識結果が一致していれば、その一致したものを最終的な認識結果とし、全ての認識結果が一致していなければ、最も認識確度が高いと思われる認識結果を最終的な認識結果とする。

また、例えば、筋電信号パラメータのみを用いた音声認識では、ある特定の音素、または発話パターンの認識率が低いことが予めわかっているような場合、他のパラメータを用いた音声認識の結果、それらの発話が行われていると推測できるような時には、筋電信号パラメータを用いた音声認識結果を無視することによって、最終的な音声認識結果の認識率を向上させることができる。

さらに、例えば音響情報パラメータから周囲の雑音が大きい、または発話時の音量が小さいと判断できた場合には、音響情報パラメータを用いた音声認識の結果が最終的な音声認識の結果に与える影響を小さくし、筋電信号パラメータ及び画像情報パラメータを用いた音声認識の結果を重視して、最終的な音声認識を行う。なお、それぞれのパラメータを用いた音声認識は、通常用いられている手法を用いることが可能である。

さらに、音声認識手段２０は、上記方式に代えて、３つのパラメータから音声認識を行うようにしてもよい。図３は、３つのパラメータから音声認識を行う際の、音声認識手段２０の動作を説明する説明図である。

この３つのパラメータから音声認識を行う方式としては、例えばニューラルネットワークを用いたものがある。このニューラルネットワークは、同図に示すように、パラメータの入力部及び出力部を備えた非線形素子の集合である素子群を上流から下流に向けて階層的に配置し、隣接する素子群間において、上流の非線形素子の出力部と、下流の非線形素子の入力部とを相互に接続して構築されるものである。

そして、各非線形素子において、当該非線形素子の入力部への接続及びこれら接続の組み合わせ毎に重み係数を付与し、入力部へ入力されたパラメータ及び重み係数に応じて、下流へ出力するパラメータ及び出力部からの接続を決定する。具体的に音声認識手段２０では、音響情報パラメータ及び筋電信号パラメータ及び画像情報パラメータを受け取り、出力は母音及び子音である。

このニューラルネットワークとして本実施形態では、全結合型の３層ニューラルネットワーク（西川・北村、「ニューラルネットと計測制御」、朝倉書店、pp.18-50を参照）を用いる。

このニューラルネットワークでは、予め、重み係数を学習しておく必要がある。本実施形態における学習は、バックプロパゲーション法により行う。そのために予め用意しておいた発話パターンに沿った発話動作を行い、それに伴う音響情報パラメータ及び筋電信号パラメータ及び画像情報パラメータを取得し、用意しておいた発話パターンを教師信号として、各種パラメータを学習する。この学習処理については、後述する。

また、本実施形態に係る音声認識手段２０は、話者が発話する際に行う発話動作において、筋電信号は、音響信号及び画像情報よりも時間的に早く発声するため、筋電信号パラメータのみ遅延させることにより音響信号、筋電信号及び画像情報との同期を取る機能を有している。

そして、各種パラメータを入力として受け取った音声認識手段２０のニューラルネットは、入力されたパラメータがどの音素に対応しているかを出力する。またある音素を発声した場合、それに対応する筋電信号は音響信号及び画像情報よりも時間的に早く出力されるため、筋電信号は時間的に遅らせてニューラルネットに入力することにより、各パラメータの同期を取ることも可能である。

なお、このニューラルネットワークとしては、直前の認識結果を入力に戻すリカレント型のニューラルネットワークを用いることも可能である。なお、本発明において、認識に用いるアルゴリズムはニューラルネットワークだけではなく、隠れマルコフモデル（ＨＭＭ）などの他の認識アルゴリズムを用いることも可能である。

この音声認識手段２０によれば、発話音量が小さかったり、周囲の雑音が大きかったり、筋電信号をうまく検出することができなかった場合に、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータのうちいずれかのパラメータが音声認識にとって無効となってしまったとしても、最終的な音声認識は、意味のあるパラメータを用いて行うことが可能となり、対雑音性などが大幅に向上することができる。

なお、本実施形態に係る音声認識手段２０において、音響情報音声認識は現在用いられている各種の音響信号を用いた音声認識手法を用いることが可能である。また筋電信号音声認識は文献「Noboru Sugie et al., “A speech Employing a Speech Synthesizer Vowel Discrimination from Perioral Muscles Activities and Vowel Production,”IEEE transactions on Biomedical Engineering, Vol.32, No.7, pp485-490」に示されている方法や特開平７−１８１８８８号に示されている方法を用いることが可能である。また画像情報音声認識は特開２００１−５１６９３もしくは特開２０００−２０６９８６に示されている方法を用いることが可能である。さらに、上記に挙げた手法以外の音声認識手法を用いることも可能である。

さらに、本発明における音声認識は、図３で示した方式または図４で示した方式のいずれか一方のみ行うようにしてもよい。また、図４で示した方式を行い、全てのパラメータによっては、音声を認識できない場合に、図３で示した、ニューラルネットワークを用いた音声認識を行うようにしてもよく、また、図３で示した方式で行った認識結果と、図４で示した方式で行った認識結果とを比較し、或いは統合することによって最終的な音声認識を行うようにしてもよい。

また、本実施形態では、３つのパラメータを用いて音声認識を行う方法として図３で示したニューラルネットワークを例に説明したが、本発明はこれに限定されるものではなく、ニューラルネットワーク以外の方法を用いて、３つのパラメータから音声を認識することもできる。

（２）音響信号処理手段及び筋電信号処理手段
上述した音響信号処理手段１２及び筋電信号処理手段１５の動作について詳述する。図６は、音響情報パラメータ及び筋電信号パラメータ抽出の一例を説明するための図である。

音響信号取得手段１１及び筋電信号取得手段１４により検出された音響信号及び筋電信号は、音響信号処理手段１２及び筋電信号処理手段１５によって、まず時間窓により切り出される（図中（ａ））。次に、切り出された信号からＦＦＴを用いてスペクトラムを抽出する（図中（ｂ））。そして抽出したスペクトラムに対して１／３オクターブ解析を行い（図中（ｃ））、各バンドのパワーを算出し、それを音響情報パラメータ及び筋電信号パラメータとする（図中（ｄ））。この音響情報パラメータ及び筋電信号パラメータは、音声認識手段２０に送られ音声認識される。

なお、本発明における音響情報パラメータ及び筋電信号パラメータの抽出方法は図６に示した以外の方法により行うことも可能である。

（３）画像情報処理手段
上述した画像情報処理手段１８の動作について詳述する。図７は、画像情報パラメータを抽出する方法を説明するための図である。

先ず、時刻ｔ0における口周辺の画像から口周辺の特徴点の位置を抽出する（図中（ａ）、Ｓ５０１）。口周辺の特徴点の位置を抽出するのは、口周辺の特徴点にマーカーを張り、そのマーカーの位置を特徴点の位置とすることや、撮影された画像から特徴点を探し出すことにより位置を抽出することも可能である。また、位置は画像上の２次元的な位置でもよいし、複数のカメラを用いて３次元の位置を抽出してもよい。

次に、時刻ｔ0時と同様に、時刻ｔ0よりΔｔ経過した時刻ｔ1における口周辺の特徴点の位置を抽出する（図中（ｂ）、Ｓ５０２）。そして、時刻ｔ0と時刻ｔ1における口周辺の特徴点の位置から差分を計算することにより各特徴点の移動量を算出する（図中（ｃ）、Ｓ５０３）。この算出結果から、パラメータを生成する（図中（ｄ）、Ｓ５０４）。

なお、画像情報パラメータの抽出方法は図７に示した以外の方法により行うことも可能である。

（学習処理）
次いで、上述した学習処理について説明する。図８は、本実施形態における学習処理を説明するフロー図である。本実施形態において音声認識精度を向上させるためには、話者個人の発話の特徴を学習することが重要である。なお、個々で説明する学習方式は、上述したニューラルネットワークを用いて音声認識を行う場合を前提としており、他の方式により音声認識を行う場合には、それに適合した学習方式を適宜採用する。

本実施形態では、同図に示すように、先ず、話者は発話動作を開始する（Ｓ３０１，Ｓ３０２）。話者は発話と同時に、キーボード等によって発話している内容、つまり学習における教師データ（サンプルデータ）を入力する（Ｓ３０５）。これと平行して音声認識システムにより音響信号・筋電信号・画像情報を検出し（Ｓ３０３）、それぞれの信号からパラメータを抽出する（Ｓ３０４）。

そして、抽出されたパラメータをキーボードから入力された教師信号を基に学習を行う（Ｓ３０６）。すなわち、上述した階層ネットワークの下流側から教師データを入力してデータを上流側へ逆流させることにより、各非線形素子に付与された重み係数を変更させる。

その後、学習による認識誤差がある一定値以下となった場合は、学習終了と判定し（Ｓ３０７）、学習を終了する（Ｓ３０８）。一方、ステップＳ３０７において、また学習が終了していないと判定した場合には、上記ステップＳ３０２〜Ｓ３０６により再度学習を繰り返す。

（効果）
以上説明した本実施形態にかかる音声認識システムによれば、音響情報及び筋電信号及び画像情報から得られた、複数のパラメータを用いて音声認識を行っているために、対雑音性などが大幅に向上する。すなわち、３種類の入力インタフェースを持つことにより雑音などの影響を受けにくく、３種類の中で使用できないインタフェースがあっても、残ったインタフェースを用いることによって音声認識を行うことが可能となり、音声の認識率を向上させることができる。その結果、話者が、小さな音量で発話しても、また周囲の雑音が大きな場所で発話しても、十分に音声を認識することができる音声認識システムを提供することが可能となった。

［第２実施形態］
上述した音声認識システムを応用することにより音声合成システムを構成することができる。図９は、上述した音声認識システムを用いて音声合成行う際の動作を示すフロー図である。

本実施形態にかかる音声合成システムは、同図に示すように、上述した音声認識システムにおける動作ステップＳ２０２〜Ｓ２０８を行った後、ステップＳ２０９において、検出した音響信号から発話者が発した音響信号以外の雑音を除去し、ステップＳ２０においてクリアな合成音声を出力する。

この音声合成について詳述すると、図１０に示すように、本実施形態では、音声認識システムによる認識結果を用いて、発声した音素のホルマント周波数などの特徴量から、発声した音素のスペクトラムを再構成する。そして、この再構成したスペクトラム（図中(a) ）と、検出した雑音成分を含む音響信号のスペクトラム（図中(c)）とを掛け合わせることによって、雑音を除去した音声のスペクトラムを得る（図中(d)）ことができる。そして雑音を除去した音声のスペクトラムはフーリエ逆変換により雑音を除去した音響信号（図中(b) ）として出力する。すなわち、雑音成分を含む音響信号を、再構成したスペクトラムで表される周波数特性を持つフィルタに通して出力する。

本実施形態にかかる音声認識システムによれば、種々の方式により音声認識を行い、この認識結果から再構成した信号と、検出した音響信号の中から、発話者が発声した音響信号と、周囲の雑音とを分離することが可能となり、これにより、周囲の雑音が大きくても、話者の声を生かしたクリアな合成音声を出力することができる。その結果、本実施形態によれば、話者が小さな音量で発話しても、また話者が雑音の大きな場所において発話を行っても、相手にはあたかも雑音のない環境下で通常に発話しているかのような合成音声を出力することが可能となる。

なお、本実施形態では、音声の認識処理を上述した実施形態１による方式を採用したが、本発明は、これに限定されるものではなく、音響情報以外のパラメータを用いて音声認識を行い、これと音響情報とにより音声を合成するようにしてもよい。

［第３実施形態］
上述した音声認識システム及び音声合成システムは以下の形態により実施することができる。図１１は、本実施形態にかかる音声認識合成システムの第３実施形態を説明するための図である。

同図に示したように、本実施形態に係る音声認識合成システムは、携帯電話機本体３０と、この携帯電話機本体３０とは離隔された腕時計型端末３１とから構成される。

携帯電話機本体３０は、周知の携帯電話機に、上述した音響情報処理部１０，筋電信号処理部１３，音声認識手段２０及び音声合成手段を付加したものであり、携帯電話機本体３０の表面に、筋電信号取得手段１４と、音響信号取得手段１１とが設けられている。本実施形態において、筋電信号取得手段１４は、話者３２の皮膚に接触可能に設けられた複数の皮膚表面電極で構成されており、音響信号取得手段１１は、話者３２の口付近に設けられたマイクとで構成されている。

また、この携帯電話機本体３０には、通信手段が内蔵されており音声認識手段２０の認識結果に基づいて合成された合成音声を、話者３２の通話音声として送信する機能を有している。

腕時計型端末３１は、上述した画像情報処理部１６と、認識結果提示手段２１を備えたものであり、腕時計型端末３１の表面に設けられた画像情報取得手段１７としてのビデオカメラと、認識結果提示手段２１としての画面表示装置を備えている。

このような構成の音声認識合成システムは、携帯電話機本体３０の筋電信号取得手段１４及び音響信号取得手段１１により話者３２からの筋電信号と音響信号を取得するとともに、腕時計型端末３１の画像情報取得手段１７により話者３２の画像情報を取得する。そして、携帯電話機本体３０と、腕時計型端末３１とは、有線もしくは無線により通信を行い、各信号を携帯電話機本体３０に内蔵された音声認識手段２０に集約し、音声認識を行い、有線若しくは無線により認識結果を腕時計型端末３１の認識結果提示手段２１に表示させる。さらに、携帯電話機本体３０では、認識結果に基づいて、周囲の雑音を除去したクリアーの音声を合成し、通話相手に送信する。

なお、本実施形態では、音声認識手段を携帯電話機本体３０に内蔵させ、認識結果を腕時計型端末３１の認識結果提示手段２１に表示させるようにしたが、例えば、音声認識手段を腕時計型端末３１側に設けることもでき、或いは、これらの各装置３０及び３１と通信可能な他の端末側で音声認識及び音声合成を行うようにしてもよい。また、音声認識を行った際の認識結果は、携帯電話機本体３０から音声で出力することも、腕時計型端末３１（或いは携帯電話機本体３０）の画面に表示することも、それらと通信を行う他の端末に出力することも可能である。

［第４実施形態］
さらに、上述した音声認識システム及び音声合成システムは以下の形態により実施することもできる。図１２は、本発明の第４の実施形態を説明するための図である。

同図に示したように、本実施形態に係る音声認識合成システムは、話者３２の頭部に装着可能な眼鏡形状をなす保持器具４１と、この保持器具４１に音源である話者３２の口周辺を撮影可能に固定された画像情報取得手段１７としてのビデオカメラ、及び固定部４２と、認識結果取得手段２１としてのシースルーHMDと、保持器具４１に内蔵された音声認識手段とから構成される。固定部４２には、筋電信号取得手段１４としての皮膚表面電極、音響信号取得手段１１としてのマイクが取付けられている。

このような音声認識合成システムを装着することにより、話者３２は、フリーハンド状態で、音声認識及び音声合成を行うことができる。

なお、音声認識手段は保持器具４１内に納めることもできるし、保持器具４１と通信を行うことが可能な外部の端末に納めることもできる。また、音声認識の認識結果は、シースルーＨＭＤ（透過性の表示部）に表示することも、また保持器具４１に備えられたスピーカ等の出力装置から音声で出力することもでき、さらに外部の端末に出力することも可能である。さらに、保持器具４１にスピーカー等の音声出力装置を設けた場合には、音声認識に基づいて合成された音声を出力するようにしてもよい。

［第５実施形態］
なお、上述した第１〜４の実施形態にかかる音声認識システム・音声合成システム及び方法は、パーソナルコンピュータ等の汎用コンピュータや、携帯電話機等に備えられたＩＣチップ上において、所定のコンピュータ言語で記述されたプログラムを実行することにより実現することができる。

そして、このような通信制御プログラムは、図１３に示すようなコンピュータ１１５で読み取り可能な記録媒体（フロッピー(登録商標）ディスク１１６，ＣＤ−ＲＯＭ１１７，ＲＡＭ１１８，カセットテープ１１９）に記録し、この記録媒体を介して、コンピュータ１１５を通じて、或いは、移動電話機本体３０のメモリ等に直接インストールすることにより、上述した実施形態で説明した音声認識システムや音声合成システムを実現することができる。

第１実施形態にかかる音声認識システムの基本構成を説明するためのブロック図である。第１実施形態にかかる音声認識システムの動作を説明するためのフロー図である。第１実施形態にかかる音声認識手段の動作を説明するための説明図である。第１実施形態にかかる音声認識手段の動作を説明するための説明図である。第１実施形態にかかる音声認識手段における階層ネットワークの動作を説明するための説明図である。第１実施形態におけるパラメータの抽出処理を説明するための説明図である。第１実施形態におけるパラメータの抽出処理を説明するための説明図である。第１実施形態における学習処理を説明するためのフロー図である。第２実施形態にかかる音声合成システムの動作を説明するためのフロー図である。第２実施形態にかかる音声合成システムの動作を説明するための説明図である。第３実施形態にかかる音声認識合成システムの説明図である。第４実施形態にかかる音声認識合成システムの説明図である。第５実施形態にかかる音声認識プログラム及び音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体の斜視図である。

符号の説明

１０…音響情報処理部
１１…音響信号取得手段
１２…音響信号処理手段
１３…筋電信号処理部
１４…筋電信号取得手段
１５…筋電信号処理手段
１６…画像情報処理部
１７…画像情報取得手段
１８…画像情報処理手段
１９…情報総合認識部
２０…音声認識手段
２１…認識結果提示手段
３０…携帯電話機本体
３１…腕時計型端末
３２…話者
４１…保持器具
４２…固定部

Claims

雑音の信号と、話者によって発声された音素の信号とを含む音響信号を取得する音響信号取得手段と、
取得した前記音響信号のスペクトラムを第１のスペクトラムとして生成する第１スペクトラム生成手段と、
前記話者によって発声された前記音素を認識する音声認識手段と、
前記音声認識手段による認識結果に基づいて、認識された音素の信号のスペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まないスペクトラムを再構成することによって、第２のスペクトラムを生成する第２スペクトラム生成手段と、
前記第１のスペクトラムと前記第２のスペクトラムとを掛け合わせることによって、前記話者によって発声された前記音素の信号スペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まない修正スペクトラムを生成する修正スペクトラム生成手段と、
前記修正スペクトラムから合成された音声を出力する出力手段と
を有することを特徴とする音声合成システム。
前記出力手段は、合成された音声をデータとして送信する通信手段を有することを特徴とする請求項１に記載の音声合成システム。
雑音の信号と、話者によって発声された音素の信号とを含む音響信号を取得するステップ(1)と、
取得した前記音響信号のスペクトラムを第１のスペクトラムとして取得するステップ(2)と、
前記話者によって発声された前記音素を認識するステップ(3)と、
前記ステップ(3)における認識結果に基づいて、認識された音素の信号のスペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まないスペクトラムを再構成することによって、第２のスペクトラムを生成するステップ(4)と、
前記第１のスペクトラムと前記第２のスペクトラムとを掛け合わせることによって、前記話者によって発声された前記音素の信号スペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まない修正スペクトラムを生成するステップ(5)と、
前記修正スペクトラムから合成された音声を出力するステップ(6)と
を有することを特徴とする音声合成方法。
前記ステップ(6)では、合成された音声をデータとして送信するステップを有することを特徴とする請求項３に記載の音声合成方法。
コンピュータに、
雑音の信号と、話者によって発声された音素の信号とを含む音響信号を取得するステップ(1)と、
取得した前記音響信号のスペクトラムを第１のスペクトラムとして取得するステップ(2)と、
前記話者によって発声された前記音素を認識するステップ(3)と、
前記ステップ(3)における認識結果に基づいて、認識された音素の信号のスペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まないスペクトラムを再構成することによって、第２のスペクトラムを生成するステップ(4)と、
前記第１のスペクトラムと前記第２のスペクトラムとを掛け合わせることによって、前記話者によって発声された前記音素の信号スペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まない修正スペクトラムを生成するステップ(5)と、
前記修正スペクトラムから合成された音声を出力するステップ(6)と
を有する処理を実行させるための音声合成プログラム。
前記ステップ(6)では、合成された音声をデータとして送信するステップを有することを特徴とする請求項５に記載の音声合成プログラム。