JP2008067854A - 電動車椅子搭載用音声入力装置 - Google Patents

電動車椅子搭載用音声入力装置 Download PDF

Info

Publication number
JP2008067854A
JP2008067854A JP2006248485A JP2006248485A JP2008067854A JP 2008067854 A JP2008067854 A JP 2008067854A JP 2006248485 A JP2006248485 A JP 2006248485A JP 2006248485 A JP2006248485 A JP 2006248485A JP 2008067854 A JP2008067854 A JP 2008067854A
Authority
JP
Japan
Prior art keywords
microphone
sound source
sound
input device
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006248485A
Other languages
English (en)
Other versions
JP4660740B2 (ja
Inventor
Akira Saso
晃 佐宗
Hiroaki Kojima
宏明 児島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2006248485A priority Critical patent/JP4660740B2/ja
Publication of JP2008067854A publication Critical patent/JP2008067854A/ja
Application granted granted Critical
Publication of JP4660740B2 publication Critical patent/JP4660740B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】操作者を限定せずに、広く一般的な使用を可能とする電動車椅子搭載用音声入力装置を提供すること。
【解決手段】電動車椅子搭載用音声入力装置は、それぞれマイクロフォン11を複数個離間してマイクロフォンアレイ12として設けたマイクロフォン取付体10a、10bを、電動車椅子の肘掛の先端部分に前記マイクロフォンが位置するように取付け、前記車両に設けた制御手段により前記両マイクロフォンから取り込んだ信号に対して音源位置推定または音声認識をすることにより操作者の指示を特定する。
【選択図】図1

Description

本発明は、様々な環境騒音が存在する実環境下において、高齢者や障害者などが、マイクロフォンを身に付ける必要が無く、音声により操作可能な電動車椅子搭載の音声入力装置に関する。
音声により制御可能な電動車椅子に関する先行技術として特許文献1や特許文献2などがあるが、いずれも音声の入力装置としてシングルマイクロフォンの使用を前提としている。マイクロフォンアレイを音声入力装置として用いた先行技術として特許文献3があり、マイクロフォンアレイを用いて音源位置を推定し、それによって電動車椅子を制御する先行技術が特許文献4などに示されている。
特開2003−310665号公報 特開平6−225910号公報 特願2006−044711号公報 特願2006−045096号公報
様々な環境騒音が存在する実環境下で音声により電動車椅子を操作する場合、雑音に対して頑健な音声認識の実現が必要不可欠である。従来のシングルマイクロフォンから入力される音声で制御可能な電動車椅子では、雑音の混入を抑えるためにヘッドセットなどの接話型マイクロフォンを用いる必要がある。しかし、ヘッドセットマイクロフォンは、電動車椅子を使用する度に装着する必要があり、また使用中に位置がずれた場合は自分でその位置を修正する必要がある。これでは、例えば、ある程度発話はできるが、手を自由に動かすことが困難な障害者などにとっては、必ずしも実用的ではないという問題がる。この問題を避けるためには、マイクロフォンを電動車椅子に固定し、操作者はマイクロフォンを一切見につけずに操作出来る電動車椅子を提供する必要がある。しかし、この場合、操作者とマイクロフォン間の距離が広がるため、周囲雑音が混入し音声認識精度が劣化する問題、また周囲雑音により引き起こされる電動車椅子の誤動作などが問題となる。これを解決する手段の一つが、マイクロフォンを複数個用いて操作者の音声を受音し、音源位置推定(特願2006−045096)や妨害雑音の抑圧などの処理を行うことである。例えば、先行技術の特願2006−044711では、操作者の背後から両肩上を通って操作者の口元より先まで達する程度の長さを持つ支柱上に、複数のマイクロフォンを配置する音声入力装置について述べている。しかし、例えば、脳性麻痺で痙性があり不随意運動がある障害者にとって、高い位置にマイクロフォンを設置するのは安全性の面で問題があり、また、デザイン的にも操作者を閉じこめるようになってしまうという問題があった。
本発明の目的は、操作者を限定せずに、広く一般的な使用を可能とする電動車椅子搭載用音声入力装置を提供することにある。
本発明の電動車椅子搭載用音声入力装置は、それぞれマイクロフォンを複数個離間してマイクロフォンアレイとして設けたマイクロフォン取付体を、電動車椅子の肘掛の先端部分に前記マイクロフォンが位置するように取付け、前記車両に設けた制御手段により前記両マイクロフォンから取り込んだ信号に対して音源位置推定または音声認識をすることにより操作者の指示を特定する。さらには、操作者の指示を特定し、その指示に従って前記車両を走行制御する。
また、本発明の電動車椅子搭載用音声入力装置は、前記左右の肘掛先端に取付けた一対のマイクロフォン取付体上に、操作者から見て「ハ」の字になるようにマイクロフォンを傾斜して配置する。
本発明の電動車椅子搭載用音声入力装置は、車椅子に固定されたマイクロフォンを用いることで、ある程度の発話はできるが、手を自由に動かすことが困難な障害者などが使用しても、マイクロフォンの装着やマイクロフォン位置の修正などの手続きを必要としない実用的な電動車椅子が実現される。また前述した構造を持つマイクロフォンスタンドを採用することで、マイクロフォンアレイ音声入力装置および音源の位置または到来方向推定手法と音源分離手法を組み合わせることで、周囲雑音が混入し認識精度が劣化する問題や、周囲雑音により引き起こされる車椅子の誤動作の問題などが解決される。更に、脳性麻痺で痙性があり不随意運動がある障害者が使用しても、マイクロフォンアレイと接触することがなく安全に電動車椅子を操作することができる。
また、本発明の電動車椅子搭載用音声入力装置は、左右の肘掛先端に取付けた一対のマイクロフォン取付体上に、操作者から見て「ハ」の字になるようにマイクロフォンを傾斜して配置するので、各マイクロフォンはシート中心から略等距離となり、操作者の周囲の音を略同じレベルで集音することができる。
また、マイクロフォンを操作者中心から「ハ」の字に配置したので、周囲から操作者に向かって集中する音声信号を、操作者を中心としたときの中心角を大きく取って集音することができる。このことは、従来のようにマイクロフォンを1個とした場合に、特定の方向の音声信号のみの集音になるのと対照的である。
マイクロフォンアレイを2本ある程度の間隔で配置することで、例えば、それぞれのマイクロフォンアレイで音波の到来方向を推定し、その交点として音源の座標を推定することが原理的に可能となる。
本発明の実施の形態を図に基づいて詳細に説明する。
図1は本発明の音声入力装置を搭載した電動車椅子の外観図、図2は図1に示す音声入力装置のブロック回路図である。
図1に示す本発明の音声入力装置を搭載した電動車椅子は、音声入力装置等を備える電動車椅子からなる。
電動車椅子は、例えば、車椅子としての、2つの後輪23、2つの前輪22、後輪23の上方に設置されたシート20と背もたれ25、背もたれ25の両側に設置された肘掛21a,21b、前輪22の前方に設置された足置き24を有すると供に、肘掛21a、21bにはマイクロフォン取付体10a、10bがそれぞれ設けられている。
音声入力装置は、図2示されるように構成される。音声入力装置の主要構成部品はシート20内や背もたれ25に収納される。
マイクロフォン11を複数個連設したマイクロフォンアレイ12を基板13上に設けたマイクロフォン取付体10a、10bを、左右の肘掛21a,21bの先端に配線を備えた支持体14により支持する。両側のマイクロフォンアレイ12は、シート20に座った人が見て「ハ」の字になるように配置する。このように配置することにより、各マイクロフォンはシート20中心から略等距離となり、操作者の周囲の音を略同じレベルで集音することができる。
マイクロフォン取付体10aおよび10bに設けたマイクロフォンアレイ12は、マイクロフォン11を任意数調節自在に設ける。マイクロフォンの数、配置間隔等は任意に設定する。
図2は本発明の電動車椅子の機能ブロック図である。
図2に示すように、電動車椅子の機能はブロックで表すと、音声入力装置の一部を構成する2個のマイクロフォンアレイ12、マイクロフォンアンプ61、ADC(アナログ/デジタル変換器)61、表示手段となるディスプレイ31、制御手段となるCPU(中央演算処理装置)ボード63と記憶装置64、駆動手段となる駆動制御手段65と駆動モータ67、操作手段となるジョイスティックや緊急停止ボタンなどの操作スイッチ66を有する。CPU63と駆動制御手段65は、シリアルケーブル69で接続する。
マイクロフォンアンプ61、ADC(アナログ/デジタル変換器)61、制御手段となるCPU(中央演算処理装置)ボード63と記憶装置64、駆動手段となる駆動制御手段65と駆動モータ67は、車椅子のシート20や背もたれ25中に収納してある。
制御手段は、マイクロフォンアンプ61、ADC(アナログ/デジタル変換器)61、制御手段となるCPU(中央演算処理装置)ボード63と記憶装置64を有する。
(音声入力装置)
音声入力手段は、ユーザ音声を受音するために相互に離間して配置した複数のマイクロフォンアレイ12からなる受音手段を備える。
(発声位置推定手段と制御手段)
CPU(中央演算処理装置)ボード63は、CPUを搭載したボードからなり、発声位置推定手段および制御手段を含む。発声位置推定手段および制御手段は、CPUボード63に接続される記憶装置64を備える。
図3はマイクロフォンアレイの機能説明図である。
発声位置推定手段は、図3に示すように、前記受音手段で受音したマルチチャネル音声データに基づきユーザの発声位置を推定し発声位置推定信号を出力する。
制御手段は、前記発声位置推定信号および前記補助操作信号に基づき前記駆動制御手段を制御する。
ADC61とCPUボード63はUSBケーブル68を介して接続し、マイクアンプおよびADC61の電源はCPUボード63から供給する。サンプリングレートは任意に設定でき、例えば8kHzとし、量子化ビット数は任意に設定でき、例えば16bitとする。処理精度を上げるときには、サンプリングレートおよび量子化ビット数を上げる。
(補助入力手段)
補助操作手段は、図示されていないが、操作スイッチ66で代表され、例えばジョイスティック(図示省略)からなる座標位置指定手段、および、緊急停止ボタン(図示省略)により補助操作信号を出力する。
(画像表示手段)
画像表示手段は、ディスプレイ31を有し、前記発声位置推定信号および車椅子の状態等を視覚的に示す。
(駆動手段)
駆動手段は、駆動制御装置65を備え、車椅子の車輪の駆動源である駆動モータ67を駆動制御する。
(発声位置検出)
上記発声位置推定手段により、複数の受音手段を備えた音声入力装置からの入力信号を用いて発声位置検出処理を行う。
音声で車椅子を制御するためには、マイクロフォンから入力された音が、ユーザ音声なのか、それとも環境騒音なのかを特定する必要がある。これはその音源の位置を推定することで判断できる。もし、車椅子の外に音源があればその音源は環境騒音と判断し、また車椅子内部に音源がある場合はユーザ音声と判断する。
例えば、マイクロフォンアレイを1本だけ使用する場合、音波の到来方向を推定することはできるが、マイクロフォン間隔を相当広げない限り、マイクロフォンアレイから音源までの距離を測定することは困難である。一方、図3に示すように、マイクロフォンアレイを2本ある程度の間隔で配置することで、例えば、それぞれのマイクロフォンアレイで音波の到来方向を推定し、その交点として音源の座標を推定することが原理的に可能となる。ある程度の間隔とは、2つのマイクロフォンアレイから到来波を観測したときに、球面波として観測できる程度の間隔を意味する。
以上の理由により、本発明では、図3に示すようなマイクロフォンアレイをある程度の間隔を置いて2本配置する構造を採用する。
(音声認識装置)
図4は本発明の音声認識装置のブロック構成図である。この音声認識装置は図2においてCPUボード63と記憶装置64とから構成される。
音声認識装置40は、マイクロフォンアレイ処理部41と、音声認識処理部42から構成される。
マイクロフォンアレイ処理部41は、入力音声をひろうマイクロフォンアレイ音声入力装置43と、装置43の出力のひろった音から遠距離にある音源の音波到来方向を推定する遠距離にある音源の音波到来方向推定手段45と、装置43の出力のひろった音から近距離にある音源の位置を推定する近距離にある音源の位置推定手段46と、手段45および46の音源位置情報に基づいて装置43の出力のひろった音から抽出対象の音源の音声を分離する音源分離処理手段44と、手段45および46の音源位置情報に基づいてユーザ(ヘッドセット型マイクロフォンアレイ音声入力装置装着者)の発話を検出するユーザの発話検出手段47と、ユーザの発話検出手段47からの検出信号に応じて音源分離処理手段44からの音声信号を切換出力する切換手段48から構成される。
音声認識処理部42は、切換手段48からの音声信号に対して特徴を補正処理する特徴補正処理手段49と、手段49からの特徴を補正した音声信号を音声認識して認識結果を出力する音声認識手段50から構成される。
本発明のマイクロフォンアレイを用いる音声認識装置は、下記の5つの要素技術から構成される。
1.マイクロフォンアレイから近距離にある音源の位置推定
2.マイクロフォンアレイから遠距離にある音源の音波到来方向の推定
3.ユーザの発話検出
4.音源分離処理
5.音声認識処理(特願2003−320183)
これらの要素技術の詳細について以下で説明する。
(音源位置推定)
図3は本発明のマイクロフォンアレイの機能説明図である。
マイクロフォン1、2、3、4と、マイクロフォン5、6、7、8は、図3に示されるように、対向して、配置される。また、各マイクロフォンと音源の位置等は図のような関係になっているものとする。
マイクロフォンアレイから約1m以内の近距離にある音源の位置を、マイクロフォンアレイで推定する方法について以下に説明する。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。3次元空間中の任意の位置
Figure 2008067854
に置かれた音源から出力された音響信号を、3次元空間中の任意の位置
Figure 2008067854
に配置されたQ個のマイクロフォンで受音する。音源と各マイクロフォン間の距離Rqは次式で求められる。
Figure 2008067854
音源から各マイクロフォンまでの伝播時間τqは、音速をvとすると、次式で求められる。
Figure 2008067854
各マイクロフォンで受音した中心周波数ωの狭帯域信号の、音源のそれに対する利得gqは、一般的に、音源とマイクロフォン間の距離Rqと中心周波数ωの関数として定義される。
Figure 2008067854
例えば、利得を距離Rqだけの関数として、実験的に求めた次式のような関数を用いる。
Figure 2008067854
中心周波数ωの狭帯域信号に関する、音源と各マイクロフォン間の伝達特性は、
Figure 2008067854
と表される。そして、位置P0にある音源を表す位置ベクトルa(ω,P0)を、次式のように、狭帯域信号に関する、音源と各マイクロフォン間の伝達特性を要素とする複素ベクトルとして定義する。
Figure 2008067854
音源位置の推定はMUSIC法(相関行列を固有値分解することで信号部分空間と雑音部分空間を求め、任意の音源位置ベクトルと雑音部分空間の内積の逆数を求めることにより、音源の音波到来方向や位置を調べる手法)を用いて、以下の手順で行う。q番目のマイロフォン入力の短時間フーリエ変換を
Figure 2008067854
で表し、これを要素として観測ベクトルを次のように定義する。
Figure 2008067854
ここで、nはフレーム時刻のインデックスである。連続するN個の観測ベクトルから相関行列を次式により求める。
Figure 2008067854
この相関行列の大きい順に並べた固有値を
Figure 2008067854
とし、それぞれに対応する固有ベクトルを
Figure 2008067854
とする。そして、音源数Sを次式により推定する。
Figure 2008067854
もしくは、固有値に対する閾値を設け、その閾値を超える固有値の数を音源数Sとすることも可能である。
雑音部分空間の基底ベクトルから行列Rn(ω)を次のように定義し、
Figure 2008067854
周波数帯域
Figure 2008067854
および音源位置推定の探索領域Uを
Figure 2008067854
として、
Figure 2008067854
を計算する。そして、関数F(P)が極大値をとる座標ベクトルを求める。ここでは仮にS個の極大値を与える座標ベクトルがP1,P2,・・・,Psが推定されたとする。次にその各々の座標ベクトルにある音源のパワーを次式により求める。
Figure 2008067854
そして、2つの閾値Fthr, Pthrを用意し、各位置ベクトルにおけるF(Ps)とP(Ps)が次の条件を満足するときに、
Figure 2008067854
連続するN個のフレーム時間内の座標ベクトルPlにおいて発声があったと判断する。
音源位置の推定処理は連続するN個のフレームを1つのブロックとして処理する。音源位置の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで式(30)の条件が満たされたら発声があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音源の移動奇跡を捉えることができる。
(周囲雑音の音波到来方向推定)
マイクロフォンアレイから遠距離にある音源の音波が到来する方向を、マイクロフォンアレイで推定する手法について以下に述べる。
複数のマイクロフォンは3次元空間中の任意の位置に配置可能である。遠距離から到来する音波は平面波として観測されると考える。
図5は本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。
図5は、例として、任意の位置に配置された3個のマイクロフォンm1、m2、m3で、音源から到来した音波を受音する場合を示している。図5で、点cは基準点を示しており、この基準点のまわりで音波の到来方向を推定する。図5で、平面sは、基準点cを含む平面波の断面を示している。平面sの法線ベクトルnは、そのベクトルの向きを音波の伝播方向と逆向きとし、次式のように定義する。
Figure 2008067854
3次元空間中の音源の音波到来方向は2つのパラメータ(θ,φ)で表される。方向(θ,φ)から到来する音波を各マイクロフォンで受音し、そのフーリエ変換を求めることで受音信号を狭帯域信号に分解し、各受音信号の狭帯域信号毎に利得と位相を複素数として表し、それを要素として狭帯域信号毎に全受音信号分だけ並べたベクトルを音源の位置ベクトルと定義する。以下の処理において、方向(θ,φ)から到来する音波は、前述の位置ベクトルとして表現される。位置ベクトルは具体的に以下のように求められる。q番目のマイクロフォンと平面sの間の距離rqを次式により求める。
Figure 2008067854
距離rqは平面sに関してマイクロフォンが音源側に位置すれば正となり、逆に音源と反対側にある場合は負の値をとる。音速をvとするとマイクロフォンと平面s間の伝播時間Tqは次式で表される。
Figure 2008067854
平面sでの振幅を基準としてそこから距離rq離れた位置の振幅に関する利得を、狭帯域信号の中心周波数ωと距離rqの関数として次のように定義する。
Figure 2008067854
平面sでの位相を基準としてそこから距離rq離れた位置の位相差は、次式で表される。
Figure 2008067854
以上より、平面sを基準として、各マイクロフォンで観測される狭帯域信号の利得と位相差は次式で表される。
Figure 2008067854
Q個のマイクで(θ、φ)方向から到来する音波を観測するとき、音源の位置ベクトルは、各マイクロフォンについて式(26)に従い求めた値を要素とするベクトルとして次式のように定義される。
Figure 2008067854
音源の位置ベクトルが定義されたら、音波の到来方向推定は、MUSIC法を用いて行われる。式(15)で与えられる行列Rn(ω)を用い、音波到来方向推定の探索領域Iを
Figure 2008067854
として、
Figure 2008067854
を計算する。そして、関数J(θ、φ)が極大値を与える方向(θ、φ)を求める。ここでは仮にK個の音源が存在し、極大値を与えるK個の音波到来方向((θ1、φ1),・・・,(θK、φK))が推定されたとする。次にその各々の音波到来方向にある音源のパワーを次式により求める。
Figure 2008067854
そして、2つの閾値Jthr, Qthrを用意し、各到来方向におけるJ(θk,φk)とQ(θk,φk)が次の条件を満足するときに、
Figure 2008067854
連続するN個のフレーム時間内の到来方向(θk,φk)において発声があったと判断する。音波の到来方向の推定処理は連続するN個のフレームを1つのブロックとして処理する。到来方向の推定をより安定に行うためには、フレーム数Nを増やす、そして/また連続するNb個のブロックの全てで式(31)の条件が満たされたらその方向から音波の到来があったと判断する。ブロック数は任意に設定する。連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により音波の到来方向の移動奇跡を捉えることができる。
近距離音源の位置推定結果と遠距離音源の音波到来方向推定結果は、続く発話検出処理や音源分離処理で重要な役割を果たすが、近距離音源と遠距離音源が同時に発生していて、更に、遠距離音源から到来する音波に対して近距離音源のパワーが著しく大きくなるとき、遠距離音源の音波の到来方向推定がうまく行えない場合がある。このような時は、近距離音源が発生する直前に推定された、遠距離音源の音波の到来方向推定結果を用いるなどして対処する。
(発話検出処理)
複数の音源が存在している場合、どの音源が認識すべき音声なのかの特定は一般的に難しい。一方、音声を用いたインタフェースを採用するシステムでは、予めシステムのユーザがシステムに対して相対的にどのような位置で発声するかを表すユーザ発声領域を決めておくことができる。この場合、前述の方法でシステムの周囲に音源が複数存在しているとしても、各音源の位置や音波の到来方向を推定できれば、システムが予め想定しているユーザ発声領域に入る音源を選択することで容易にユーザの音声を特定できるようになる。
式(20)や式(31)の条件が満たされることで音源の存在を検出し、更に音源の位置や音波の到来方向の条件が満たされてユーザの発声が検出される。この検出結果は発話区間情報として、後続音声認識処理において重要な役割を果たす。音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。一般的に、発話区間の開始時点がずれると音声認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができるという利点を持つ。
例えば、図6に示すようなユーザの発声領域を定義することができる。
図6は本発明による発話検出処理の機能説明図である。
この図では簡単のためにX−Y平面のみで表すが、一般的に3次元空間においても同様に任意のユーザ発声領域を定義することができる。図6では、任意の位置に配置された8個のマイクロフォンm1〜m8を用いた処理を仮定し、近距離音源の探索領域および遠距離音源の探索領域のそれぞれで、ユーザ発声領域を定義している。近距離音源の探索空間は、(PxL,PyL)と(PxH,PyH)の2点を結ぶ直線を対角線とする矩形領域で、その領域内で(PTxL1,PTyL1)と(PTxH1,PTyH1)、(PTxL2,PTyL2)と(PTxH2,PTyH2)のそれぞれの2点を結ぶ直線を対角線とする2つの矩形領域をユーザの発声領域と定義している。従って、式(20)により発声があったと判断された音源位置のなかで、その座標ベクトルが前記ユーザ発声領域内に入っているものを選択することで、近距離に存在する音源の中でユーザ音声を特定できる。
一方、遠距離音源の探索空間は点Cを基準として、角度θLからθHの方向を探索領域とし、その領域内で角度θTL1からθTH1の領域をユーザの発声領域と定義している。従って、式(31)により発声があったと判断された音波の到来方向のなかで、到来方向が前記ユーザ発声領域内に入っているものを選択することで、遠距離に存在する音源の中でユーザ音声を特定できる。
(音源分離処理)
発話検出された音源の位置推定結果または音波の到来方向推定結果を用いて、ユーザの音声を強調し周囲雑音を抑圧する音源分離処理について以下に説明する。
ユーザ音声の発話位置または到来方向は前記発話検出処理により求められている。また、周囲雑音の音源位置または到来方向も既に推定されている。これらの推定結果と式(8)と式(27)の音源位置ベクトル、そして無指向性雑音の分散を表すσを用いて、行列V(ω)を次式のように定義する。
Figure 2008067854
この相関行列の大きい順に並べた固有値を
Figure 2008067854
とし、それぞれに対応する固有ベクトルを
Figure 2008067854
とする。
ここで、相関行列V(ω)には近距離音源S個と遠距離音源K個を合わせて(S+K)個の音源が含まれているから、固有値の大きい方から(S+K)の固有値と固有ベクトルを用いて、Z(ω)を次式のように定義する。
Figure 2008067854
そして、近距離の座標ベクトルPに居るユーザの音声を強調する分離フィルタW(ω)は、次式で与えられる。
Figure 2008067854
式(36)の分離フィルタに式(10)の観測ベクトルを乗じることで座標ベクトルPに居るユーザの音声v(ω)が得られる。
Figure 2008067854
この強調されたユーザ音声の波形信号は式(37)の逆フーリエ変換を計算することで求められる。
一方、遠距離の方向(θ,φ)に居るユーザの音声を強調する場合の分離フィルタM(ω)は次式で与えられる。
Figure 2008067854
式(38)の分離フィルタに式(10)の観測ベクトルを乗じることで方向(θ,φ)に居るユーザの強調音声v(ω)が得られる。
Figure 2008067854
この強調されたユーザ音声の波形信号は式(37)の逆フーリエ変換を計算することで求められる。
連続するNフレームの時間内において、近似的に音源が静止していると見られるほどの速さで音源が移動している場合は、前記手法により移動しているユーザの強調音声が得られる。
(音声認識処理)
前記音源分離処理は、指向性雑音に対しては有効であるが、無指向性雑音に対してはある程度雑音が残留してしまう。また、突発性雑音のように短時間で発生する雑音に対してもあまり雑音抑圧効果を望めない。そこで、前記音源分離処理により強調されたユーザ音声の認識に、例えば、特願2003−320183号「背景雑音歪みの補正処理方法及びそれを用いた音声認識システム」で述べられている特徴補正法を組み込んだ音声認識エンジンを用いることで、残留雑音の影響を軽減する。なお本発明は、音声認識エンジンとして特願2003−320183号に限定するものではなく、この他にも雑音に頑健な様々な手法を実装した音声認識エンジンを使用することが考えられる。
特願2003−320183号で述べられている特徴補正法は、音声認識エンジンが予め音声認識のためにテンプレートモデルとして持っているHidden Markov Model(HMM)に基づいて雑音重畳音声の特徴量補正を行う。HMMは雑音のないクリーン音声から求めたMel−Frequency Cepstrum Coefficient(MFCC)に基づいて学習されている。このため、特徴補正のために新たにパラメータを用意する必要がなく、既存の認識エンジンに比較的容易に特徴補正法を組み込むことができるという利点がある。この手法は雑音を定常成分と一時的に変化を示す非定常成分に分けて考え、定常成分に関しては発話直前の数フレームから雑音の定常成分を推定する。
HMMが持っている分布のコピーを生成し、推定した雑音の定常成分を加えることで定常雑音重畳音声の特徴量分布を生成する。観測された雑音重畳音声の特徴量の事後確率を、この定常雑音重畳音声の特徴量分布で評価することで、雑音の定常成分による歪を吸収する。しかし、この処理だけでは雑音の非定常成分による歪が考慮されていないので、雑音の非定常成分が存在する場合には、前記手段で求めた事後確率は正確ではなくなる。一方、特徴補正にHMMを用いることで、特徴量時系列の時間的構造とそれに沿って求められる累積出力確率が利用可能となる。この累積出力確率から算出される重みを前述の事後確率に付与することにより、雑音の一時的に変化する非定常成分により劣化した事後確率の信頼度を改善することが出来る。
音声認識を行う場合、入力信号の中から発話区間の開始時点と終了時点を検出する必要がある。しかし、周囲雑音が存在する雑音環境下での発話区間検出は必ずしも容易ではない。特に、前記特徴補正を組み込んだ音声認識エンジンは、発話開始直前の数フレームから周囲雑音の定常的な特徴を推定するので、発話区間の開始時点がずれると認識精度が著しく劣化してしまう。一方、複数の音源が存在していても、その音源がある位置や音波の到来方向において、式(18)や式(29)で表される関数は鋭いピークを示す。従って、この情報を用いて発話区間検出を行っている本発明音声認識装置は、複数の周囲雑音が存在しても頑健に発話区間検出が行え、高い音声認識精度を保つことができる。
このように音声認識された結果の信号を用いて車いすの駆動機構を制御する。
本発明のマイクロフォンアレイ音声入力装置を車椅子に搭載した概観図である。 本発明の電動車椅子の機能ブロック図である。 本発明のマイクロフォンアレイの機能説明図である。 本発明の音声認識装置のブロック構成図である。 本発明のマイクロフォンアレイを用いた受音機能を説明する説明図である。 本発明による発話検出処理の機能説明図である。
符号の説明
10a、10b マイクロフォン取付体
11 マイクロフォン
12 マイクロフォンアレイ
13 基板
14 支持体
20 シート
21a、21b 肘掛け
25 背もたれ
30a、30b 平行マイクロフォンアレイ
31 ディスプレイ
32 マイクロフォンアンプとADC
33 CPUボード
34 記憶装置
35 イヤホーンスピーカ
36 送受信装置
40 音声認識装置
41 マイクロフォンアレイ処理部
42 音声認識処理部
43 マイクロフォンアレイ音声入力装置
44 音源分離処理手段
45 遠距離にある音源の音波到来方向推定手段
46 近距離にある音源の位置推定手段
47 ユーザの発話検出手段
48 切換器
49 特徴補正処理手段
50 音声認識手段
m1、m2、m3、m4、m5、m6、m7、m8 マイクロフォン

Claims (3)

  1. 肘掛付電動車椅子と、
    マイクロフォンを複数個離間してマイクロフォンアレイとしてそれぞれ設け、電動車椅子の肘掛の先端部分に前記マイクロフォンが位置するように取付けたマイクロフォン取付体と、
    前記両マイクロフォンから取り込んだ信号に基づいて音源位置推定又は音声認識を行う制御手段を有することを特徴とする音声入力装置。
  2. 前記左右の肘掛先端に取付けた一対のマイクロフォン取付体上に、両方のマイクロフォンアレイが操作者から見てハの字になるようにマイクロフォンを傾斜して配置することを特徴とする請求項1記載の音声入力装置。
  3. 前記制御手段により、前記音源位置推定又は音声認識に基づき操作者の指示を特定し、その指示に従って前記車両を走行制御することを特徴とする請求項1又は2記載の音声入力装置。
JP2006248485A 2006-09-13 2006-09-13 電動車椅子搭載用音声入力装置 Expired - Fee Related JP4660740B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006248485A JP4660740B2 (ja) 2006-09-13 2006-09-13 電動車椅子搭載用音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006248485A JP4660740B2 (ja) 2006-09-13 2006-09-13 電動車椅子搭載用音声入力装置

Publications (2)

Publication Number Publication Date
JP2008067854A true JP2008067854A (ja) 2008-03-27
JP4660740B2 JP4660740B2 (ja) 2011-03-30

Family

ID=39289990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006248485A Expired - Fee Related JP4660740B2 (ja) 2006-09-13 2006-09-13 電動車椅子搭載用音声入力装置

Country Status (1)

Country Link
JP (1) JP4660740B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010193323A (ja) * 2009-02-19 2010-09-02 Casio Hitachi Mobile Communications Co Ltd 録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラム
JP2013240082A (ja) * 2008-10-24 2013-11-28 Qualcomm Inc コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58151796A (ja) * 1982-03-05 1983-09-09 Matsushita Electric Ind Co Ltd マイクロホン装置
JPH10227849A (ja) * 1997-02-14 1998-08-25 Fuji Xerox Co Ltd 音源位置計測装置、カメラ撮影制御装置、音源位置記録装置及び音源位置計測方法
JP2000188795A (ja) * 1998-12-22 2000-07-04 Matsushita Electric Ind Co Ltd マイクロホン装置とそれを用いた音声認識装置、カーナビゲーションシステム、自動車の自動運転システム
JP2002355283A (ja) * 2001-05-31 2002-12-10 Kyushu Hitachi Maxell Ltd マッサージ機
JP2003009268A (ja) * 2001-06-22 2003-01-10 Sony Corp マイクロホン装置、座席及び移動体
JP2003156552A (ja) * 2001-08-31 2003-05-30 Hitachi Hybrid Network Co Ltd 音源・電磁波源方向探索方法,音源・電磁波源位置探索方法ならびに特定音源・電磁波源認識方法
JP2003310665A (ja) * 2002-04-19 2003-11-05 Tama Tlo Kk 電動車椅子
JP2003337594A (ja) * 2002-03-14 2003-11-28 Internatl Business Mach Corp <Ibm> 音声認識装置、その音声認識方法及びプログラム
JP2004313587A (ja) * 2003-04-18 2004-11-11 Mikishii:Kk 自動走行車椅子、車椅子自動走行システム、及び車椅子の自動走行方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58151796A (ja) * 1982-03-05 1983-09-09 Matsushita Electric Ind Co Ltd マイクロホン装置
JPH10227849A (ja) * 1997-02-14 1998-08-25 Fuji Xerox Co Ltd 音源位置計測装置、カメラ撮影制御装置、音源位置記録装置及び音源位置計測方法
JP2000188795A (ja) * 1998-12-22 2000-07-04 Matsushita Electric Ind Co Ltd マイクロホン装置とそれを用いた音声認識装置、カーナビゲーションシステム、自動車の自動運転システム
JP2002355283A (ja) * 2001-05-31 2002-12-10 Kyushu Hitachi Maxell Ltd マッサージ機
JP2003009268A (ja) * 2001-06-22 2003-01-10 Sony Corp マイクロホン装置、座席及び移動体
JP2003156552A (ja) * 2001-08-31 2003-05-30 Hitachi Hybrid Network Co Ltd 音源・電磁波源方向探索方法,音源・電磁波源位置探索方法ならびに特定音源・電磁波源認識方法
JP2003337594A (ja) * 2002-03-14 2003-11-28 Internatl Business Mach Corp <Ibm> 音声認識装置、その音声認識方法及びプログラム
JP2003310665A (ja) * 2002-04-19 2003-11-05 Tama Tlo Kk 電動車椅子
JP2004313587A (ja) * 2003-04-18 2004-11-11 Mikishii:Kk 自動走行車椅子、車椅子自動走行システム、及び車椅子の自動走行方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013240082A (ja) * 2008-10-24 2013-11-28 Qualcomm Inc コヒーレンス検出のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2010193323A (ja) * 2009-02-19 2010-09-02 Casio Hitachi Mobile Communications Co Ltd 録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
JP4660740B2 (ja) 2011-03-30

Similar Documents

Publication Publication Date Title
JP2008064892A (ja) 音声認識方法およびそれを用いた音声認識装置
JP4982807B2 (ja) 操作方法およびそのための操作装置、プログラム
JP2019008134A (ja) 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP3780516B2 (ja) ロボット聴覚装置及びロボット聴覚システム
JP5156260B2 (ja) 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US10339949B1 (en) Multi-channel speech enhancement
US20160372129A1 (en) Sound source separating device and sound source separating method
WO2016103709A1 (ja) 音声処理装置
WO2016103710A1 (ja) 音声処理装置
JP2005195895A (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
Ince et al. Assessment of general applicability of ego noise estimation
JP4330302B2 (ja) 音声入出力装置
JP4682344B2 (ja) 発声位置推定方法およびそれを用いた発声位置推定装置、電動車椅子
JP2009216835A (ja) 音響エコー除去装置、車載装置および音響エコー除去方法
Fukui et al. Sound source separation for plural passenger speech recognition in smart mobility system
JP4660740B2 (ja) 電動車椅子搭載用音声入力装置
JP5451562B2 (ja) 音響処理システム及びこれを用いた機械
JP2009073417A (ja) 騒音制御装置および方法
JP4552034B2 (ja) ヘッドセット型マイクロフォンアレイ音声入力装置
Okuno et al. Robot audition: Missing feature theory approach and active audition
CN116343808A (zh) 柔性麦克风阵列语音增强方法及装置、电子设备、介质
JP4822458B2 (ja) インターフェイス装置とインターフェイス方法
JP4953095B2 (ja) 情報処理装置
JP4998761B2 (ja) 電動車椅子

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100715

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101208

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees