JP7043081B2

JP7043081B2 - 音声想起認識装置、装着具、音声想起認識方法及びプログラム

Info

Publication number: JP7043081B2
Application number: JP2019097202A
Authority: JP
Inventors: 恒雄新田
Original assignee: 恒雄新田
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2022-03-29
Anticipated expiration: 2039-05-23
Also published as: EP3973861A1; JP2020191021A; WO2020235680A1; CN113873944A; US20220238113A1

Description

本発明は、音声想起認識装置、装着具、音声想起認識方法及びプログラムに関するものである。

音声言語入力装置は、これまで発話された音声波をマイクロホン、もしくは骨伝導の振動を振動ピックアップで受け、得られた信号から音声言語情報を認識するものが実用に供されている。
近年は、膨大な音声データおよび言語データを利用し、音素の並び（音響モデル）と単語の並び（言語モデル）に関する確率情報をネットワーク上に蓄積・利用することで、高速・高性能な音声言語認識を実現している。他方、発話による周囲への迷惑・漏洩、発話困難な筋委縮性側索硬化症（ＡＬＳ）患者などの増大から、発話を伴わない、音声想起（speech imagery)による言語認識実現が脳コンピュータ・インタフェース（Brain Computer Interface;ＢＣＩ）の分野から望まれている。

音声想起信号からの音声言語認識は、脳皮質から硬膜下皮質表面電位(Electrocorticogram ;ＥＣｏＧ)を６４～１２８点観測することで、近年、発話を伴う場合の音声言語認識が試みられつつある(非特許文献１参照)。しかし、このように開頭手術を伴う方法は、重篤な患者以外に利用することは現実的ではない。他方、頭皮上の電極で脳波（Electroencephalogram：ＥＥＧ）を観測する方式は、実用化すると社会貢献が計り知れないものの、今日まで、雑音中に意味のある音声言語信号を見出す試みは成功して来なかった。

近年は、ＰＥＴ、ｆＭＲＩなど高解像度装置を用いて発話時の脳を解析したり、開頭時に患者が発話した際のＥＣｏＧを観測する研究が進み、音声言語が脳の何処の部位で処理されるかが、明確になりつつある。これらの結果によると、左中側頭回（ＭＴＧ）における概念準備の後、言語としてのプランニングが左上側頭回（ＳＴＧ）にかけて行われるとされている（非特許文献２参照）。この後、左下前頭回（ＩＦＧ; ブローカ野）において音節化（syllabication）が行われ、発話の際には左中心前回（ＰＧ; 運動野）で調音（構音）が行われる（非特許文献３参照）。こうした研究成果から、発話を伴わない音声言語に対するディコーディング(復号)も、ブローカ野に到達する言語表象（linguistic representation）を捉えることができるなら可能になると期待されている。
また、脳波を検出して、この脳波から運動指令に関する信号を検出する技術が提案されている（特許文献１参照）

Heger D. et al., Continuous Speech Recognition from ECoG, Interspeech2015, 1131-1135 (2015) Indefrey, P et al., The spatial and temporal signatures of word production components, Cognition 92, 101-144 (2004) Bouchard K.E. et al., Functional organization of human sensorimotor cortex for speech articulation, Nature 495, 327-332 (2013) Girolami M., Advances in Independent Component Analysis, Springer (2000) Durbin, J. "The fitting of time series models." Rev. Inst. Int. Stat., v. 28, pp. 233-243 (1960)

特開２００８－２０４１３５号公報

しかしながら、脳波からの音声言語認識では、言語表象がどのようなフォーマットで表現されているのか不明で、具体的な抽出方法を見出せないことが最大の問題点である。さらに、言語表象から音素単位への変換方法が与えられないと、例えば音節単位のように多くの種類を対象にしなければならないため（音節では短音節の他に多くの長音節を持ち、計数千個と言われる）、効率の良い音声言語処理が非常に困難になる（音素では日本語で２４個、英語で４４個(但し、弱母音と強母音を分けている。日本語では通常、分けない)程度である）。

本発明は、上記事情に鑑みてなされたものであり、脳波による音声言語認識を可能とする音声想起認識装置、装着具、音声想起認識方法及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明は、音声想起時の脳波から音声言語を認識するため、言語表象としての線スペクトル成分抽出器により線スペクトル成分を抽出すると共に、それらの成分を音素別畳み込み演算などを用いた音素特徴ベクトル時系列変換器に通すことで、音素特徴ベクトル時系列を得ることを最も主要な特徴とする。

第１の発明は、音声想起時の脳波から音声言語を認識する音声想起認識装置であって、電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理部と、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出部と、を有する音声想起認識装置が提供される。

第２の発明は、音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具であって、ブローカ野周辺に配置される電極群と、前記電極群からの信号を出力する出力部と、を有し、前記音声想起認識装置は、前記出力部から出力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出処理と、を実行する、装着具が提供される。

第３の発明は、音声想起時の脳波から音声言語を認識する音声想起認識方法であって、電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、を含む音声想起認識方法が提供される。

第４の発明は、コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムであって、コンピュータに、電極群から入力される前記電極毎の脳波の離散信号群を分析処理して言語表象としてのスペクトル成分を出力する分析処理と、前記電極毎のスペクトル成分に基づき、音素特徴群を抽出する抽出処理と、を実行させるプログラムが提供される。

本発明によれば、脳波による音声言語認識を可能とする音声想起認識装置、装着具、音声想起認識方法及びプログラムを提供することができる。

本発明の認識装置の構成を示したモデル図である。脳波測定電極（１０－１０システム）とブローカ野周辺９電極を示す図である。脳波からのノイズ除去効果を示す図である。音声想起時脳波の線形予測分析の説明図である。音声想起時脳波の線形予測分析と従来フーリエ分析との比較を示す図である。音声想起時脳波の短時間正弦波群を示す図である。言語特徴抽出部の処理手順を示すフロー図である。音声想起時脳波の周波数変動吸収例を示した図である。音声想起時脳波の線スペクトル時系列の例を示す図である。複数電極に跨る線スペクトル時系列の例を示した図である。音素別畳み込み演算子の設計と利用の処理手順を示すフロー図である。音素別畳み込み演算子を構成する音素固有ベクトルの例を示す図である。音声想起時脳波に対する音素尤度時系列の例を示した図である。テスト認識による電極位置更正を示す図である。音声想起認識装置の他の構成例を示す図である。音声想起認識装置の他の構成例を示す図である。音声想起認識装置の他の構成例を示す図である。

（実施形態）
以下、本発明における音声想起認識装置の実施形態について、添付図面を参照して説明する。なお、添付図面は本発明の技術的特徴を説明するのに用いられており、記載されている装置の構成、各種処理の手順などは、特に特定的な記載がない限り、それのみに限定する趣旨ではない。なお、実施形態の説明の全体を通して同じ要素には同じ符号が付される。

図１は、音声想起認識装置1の構成を示したモデル図である。図１を参照して、音声想起認識装置１の構成と動作を説明する。
音声想起認識装置１は、音声想起時の脳波から音声言語を認識するためのものである。
音声想起認識装置１は、図示しない頭皮上に設置する電極群から入力される脳波を離散信号群に変換する脳波入力部２と、電極毎に離散信号からノイズを除去する前処理部３と、電極毎に離散信号群を分析処理してスペクトル時系列を出力する分析処理部４と、全電極のスペクトル時系列から音素特徴ベクトル時系列を出力する言語特徴抽出部５と、音素特徴ベクトル時系列から音声言語である単語・文を認識する単語・文認識部６と、音声言語情報を表示・音声出力する後処理・出力部７により構成される。

脳波入力部２は、多電極脳波出力のアナログ信号群ｘ（ｑ，ｔ）をＡ／Ｄ変換等により離散的信号に変換すると共に、全電極の離散信号の平均値などを利用して、個別電極が持つバイアスの偏りを更正する処理を行う。同時に電極毎の離散信号から、７０Ｈｚ以下の不要な周波数成分を低周波除去フィルタ（高域通過フィルタ）で遮断すると共に、１８０Ｈｚ以上の不要な周波数成分を高周波除去フィルタ(低域通過フィルタ)により遮断した信号ｘ₁（ｑ，ｎ）を出力する。

図２に６４電極を用いる標準的な国際１０－１０システムの電極配置を示す。このうち、左脳のブローカ野周辺に属する９電極｛Ｆ３,Ｆ５,Ｆ７,ＦＣ３,ＦＣ５,ＦＴ７,Ｃ３,Ｃ５,Ｔ７｝から音声想起信号を受け取り、言語特徴を抽出して想起内容を認識する。一般に右利きの人は、左脳で言語を処理していると言われているが、左利きのかなりの人が、やはり左脳で言語を処理しているとされている。なお、脳波では、瞬きなどの動作により大きな変動（artifactと呼ばれる）を受けることがあるが、上記フィルタ操作により多くの不要成分を除去することができる。さらにフィルタ操作では除去できない不要成分に対しては、全電極の離散信号に対して、少数の独立した情報源を推定して除去した後、元の電極出力（ここでは９電極）に戻す処理を行う、独立成分分析(Independent Component Analysis;ＩＰＡ)を適用してもよい。

前処理部３は、電極毎にフィルタを通過するノイズを除去する。この処理の一例を以下に述べる。脳波入力部の一連の処理を終えた各電極の離散信号ｘ₁（ｑ，ｎ）、（ｑ:電極番号、ｎ：時刻）に対して、まず一定の時間窓を掛けた後、高速フーリエ変換（ＦＦＴ）により時間領域から周波数領域に写像する。続いて、周波数領域の複素数成分から以下のように振幅スペクトラム時系列Ｘ₁（ｑ，ｆ，ｎ’）、(ｆは周波数、ｎ’は窓かけ後の時間フレーム番号) を求める。

ここで、ｊは虚数単位、Ｒｅ｛｝、Ｉｍ{ }は各々実数部、虚数部を表す。ノイズ引き去り(Noise subtraction)では、音声想起(Speech imagery)に先立ち観測した脳波(ＥＥＧ信号)のスペクトルＮ（ｑ，ｆ,ｎ’）から次式で、平均ノイズ振幅スペクトルを求める。

上式では平均ノイズスペクトラムを、時刻ｎ’の前後８フレームから計算しているが、システムにより適せん設定してよい。なお、時刻ｎ’の設定は、通常、
（ａ）音声想起認識応用システムから与えられる、プロンプト信号(想起開始を指示する信号)に続いて利用者が音声想起を行う。
（ｂ）利用者から応用システムへの決められた呼びかけ「Yamadaさん」など（wake-up word）に続き音声想起を行う。
の二通りが考えられるが、何れの場合も音声想起の前、あるいは後の区間で観測した脳波からＮ（ｑ，ｆ,ｎ’）を計算する。
続いて電極q 毎に、音声想起信号のスペクトラムＸ₁(ｑ, ｆ, ｎ’)から、Ｎａｖ（ｑ,ｆ,ｎ’）を次式のように引き去る。

この処理により脳波中のノイズを除去した例を図３に示す。図３（Ａ）はノイズ除去前、同図（Ｂ）はノイズ除去後を示す。図３（Ａ）と（Ｂ）を比べると、ノイズのスペクトラムを引き去る効果が顕著であることが分かる。ノイズ除去後の振幅スペクトル時系列は、逆高速フーリエ変換(ＩＦＦＴ)により、波形ｘ₂（ｑ，ｎ）に戻す。

なお、ノイズ除去後の９電極信号から、少数の独立した情報源を取り出す処理、即ち独立成分分析（Independent Component Analysis；ＩＰＡ）（非特許文献４）が有効である。この処理により、前記フィルタ操作では除去できない不要成分を除けると共に、９電極の離散信号から有効な少数の情報源を選択できる。ただしＩＣＡは，分析結果の独立成分の順番が、分析の都度異なる所謂パーミュテーションという問題があり、この欠点を解消して本特許に導入する方法について後に説明する。

分析処理部４は、前処理部３で得たノイズ除去後（かつｑ個の独立成分抽出後）の音声想起信号のスペクトラム時系列Ｘ₂（ｑ，ｆ，ｎ’）を用いてもよいが、本発明の効果をより良く引き出す分析方式として、以下に線形予測分析（Linear Predictive Analysis;ＬＰＡ）を適用した例を説明する。分析処理部４は、スペクトラム又は線スペクトラムを用いることができる。
線形予測符号化（Linear Predictive Coding;ＬＰＣ）は、音声通信方式として、現在、世界標準になっている。音声では情報源が声帯による一定周期のパルス波と声道の狭めによるランダム波の二つになる。このため、音源を符号帳（codebook）として別途保持し、符号帳の全ての音源を音声の線形予測係数(声道の伝達関数を担う)に通し、この合成音声と元の音声との比較を行うという複雑な処理を必要としている。

一方、脳波では図４に示すように情報源はランダム波のみと考えられるため、脳波合成は音声合成と比較して簡単になる。脳波ｘ₂（ｑ，ｎ）から得た自己相関係数ｒ₂（τ）から線形予測係数｛α_m ｝を求めるアルゴリズムはＬｅｖｉｎｓｏｎ－Ｄｕｒｂｉｎ法など種々提案されている(非特許文献４)。各電極の音声想起脳波ｘ（ｎ）は図４に示すように、信号源の白色雑音ｗ（ｎ）を神経系のインパルス応答ｓ（ｎ）に通して得られる。図４で☆は畳み込み積分記号を示す。

畳み込み積分処理は、周波数領域では音声言語情報を担うインパルス応答ｓ（ｎ）の伝達(周波数)関数をＳ（ｆ）として、脳波のスペクトルをＸ（ｆ）＝Ｗ（ｆ）Ｓ（ｆ）＝Ｓ（ｆ）と表現できる(但しＷ（ｆ）＝１)。Ｓ（ｆ）は、線形予測係数{α_m }のフーリエ変換から次式に示すように求めることができる。

ここでδ(n-p)は、信号の各時刻ｎ＝ｐを表わす関数、Ｆ[ ]はフーリエ変換である。脳波に対する線形予測分析（ＬＰＡ）では、図４に示すように合成モデルＳ（ｆ）を逆フィルタとして、

と求めることができる（σは振幅バイアス値）。このように、合成過程を通して分析を精度良く行う方式は、「合成による分析(Analysis-by-Synthesis; ＡｂＳ)」と呼ばれ、脳波分析においても有効な方式である。上式のフーリエ変換Ｆ[ ]では、p個の線形予測係数(α₀=１．０)にゼロ点を付加し(0-paddingと呼ばれる)、例えば１２８点、２５６点、…と任意点数のフーリエ変換を行うことができる。このゼロ点付加によって、周波数分解精度を各々６４点、１２８点、…と任意に調整して、スペクトル成分Ａ(ｑ，ｆ，ｎ’)を求めることができる。

図５に、ＬＰＡにより分析したスペクトルパターンを、通常のフーリエ変換により分析したスペクトルパターンと比較して示す。図５でＬＰＡによるスペクトルパターンが複数表示されているが、これらは自己相関係数に対して遅れτが大きくなるに従い、値を減衰させるｌｏｇ窓と呼ばれる窓関数を使用していることを示す(上からｌａｇ窓なし、下に行くほどｌａｇ窓の傾斜は大で、ｌｏｇ窓を用いない場合は鋭いピークとなる)。ＬＰＡでは図に示すように、スペクトルを脳波が持つ本質的な少数のピークで表現することができる。

ＬＰＡ分析を通した音声想起時脳波のスペクトルが、少数のスペクトルピークで表現される。このことから、脳(特に、音声想起の言語情報が現れるブローカ野)においては、言語表象(linguistic representation)は短時間正弦波(tone-burst)群から構成されている、言い換えると言語表象は特有の線スペクトルで表わされると推定される。図６にトーンバースト波群とそれらのスペクトル形状の例を示す。短時間正弦波は、本来、単一パラメータすなわち単一周波数で表わされるが、図に示したように(また図５に示したように)、信号の前後に過渡部を持つことで通常の周波数分析ではスペクトルに広がりを持つ。

言語特徴抽出部５は、広がりを持つスペクトル群から、線スペクトル成分を「言語表象」として取り出すと共に、音素単位畳み込み演算子を通して、言語特徴である音素尤度ベクトル時系列を出力する。
以下、図７の言語特徴抽出部の処理フロー図に沿って処理過程を説明する。言語特徴出部５は、分析処理部４から電極ｑのスペクトル時系列が入力される（ステップＳ１）。音声想起時脳波のスペクトラムは、図８（Ａ）に示すように±５Ｈｚ程度の揺らぎを持つことがある。そこで、これらの周波数揺らぎを非線形フィルタリングの一種である中間値フィルタ(median filter)を用いて、周波数揺らぎを吸収する（ステップＳ２）。

一定の時間幅（時刻ｎ’の前後の数フレーム）と周波数幅(隣接周波数ｆ－１，ｆ，ｆ＋１)の中にあるデータを対象に、全体の中の中間値を求めて代表させる。この処理は、中央値から外れた値を削除できるため、周波数揺らぎを吸収することができる。非線形フィルタの出力は、ガウス窓などにより平滑処理を施すことが一般的である。図８（Ｂ）に７０Ｈｚ～１７０Ｈｚの脳波信号（４ｍｓｅｃ周期）に対して、中心フレームｎ’の前後３フレームの計７フレームに対して中間値フィルタ処理を行った際の周波数揺らぎの改善結果を示した。図から揺らぎが少なくなっていることが分かる。この後、周波数分析パターンに対して、時間方向にガウス窓（係数;｛１/４，１/２，１/４｝）を掛けて平滑し、時間フレームを４ｍｓｅｃから８ｍｓｅｃ周辺に落としている。なお、周波数揺らぎを吸収する処理は、前処理部３の中で振幅スペクトラム上でのノイズ成分引き去りを行った後、波形信号に戻す前の段階で行うことも可能である。

次に、線スペクトルの抽出過程を説明する（ステップＳ３）。この処理では時間フレーム(８ｍｓｅｃ)毎に、周波数軸上に現れるピーク由来の成分を線スペクトルとして抽出する。具体的には:
(ｉ) 周波数軸上の極大値Δ_f =０となる周波数、
(ｉｉ) 変曲点ΔΔ_f ＝０の時
Δ_f ＞０ならΔΔ_f の値が正から負に変化する周波数、
Δ_f ＜０ならΔΔ_f の値が負から正に変化する周波数、
これらの条件を満たす場合にのみ、元の振幅を持つ正弦波周波数成分、すなわち線スペクトル成分とする。

図９に音声想起時の脳波の線スペクトル成分の抽出例を示す。この例では／ｇａ－ｇｉ－ｇｕ－ｇｅ－ｇｏ/を３回、できるだけ連続して想起するタスク下でデータを採取している。同じシーケンスを３回続けることで、熟練者は図に示すような各音節のパターンを学習でき、脳波データに音節ラベルを付したデータベースを作成することができる。
図９では９電極の線スペクトル時系列を、電極方向にプーリング(９電極から代表となるパターンを抽出する処理を行う。ｐ－ｎｏｒｍを取るなどの処理（ｐ＝∞は最大値を取ることに相当))の処理を行い、統合した線スペクトルを対象に音節ラベリングを行った結果を示している。ここでのプーリング処理は音節ラベルを読み取るだけのために行っており、以下の音素特徴抽出では元の９電極の線スペクトル成分を対象にしている。

言語特徴抽出部５は、最終的に音素特徴を抽出することを目的としている。すなわち、電極毎の線スペクトル成分から、音声言語情報として最小の単位である音素（phoneme）成分を音素特徴ベクトルの形で取り出すことを目指す。脳波中の音声言語情報は、線スペクトル（周波数情報）－電極（空間情報）－フレーム（時間情報）の三つの軸に跨る、所謂テンソル構造を持つ。ブローカ野の３×３＝９電極に跨る線スペクトル時系列の例を図１０に示す。この例は単音節／ｋａ／の例を示している。このように、ブローカ野に現れる音節パターンは、現れる電極位置がその都度異なり、脳神経系の柔軟な情報処理メカニズムを窺わせる。一方、脳の音声言語処理では発話の最小単位として音節がブローカ野に現れるが、発話の際には発話器官を筋動作で制御しており、この制御は音素と一対一に対応する調音パラメータで行われる。こうした背景を考えると、ブローカ野で観測される図１０の音節パターンから、音素特徴を抽出する過程が存在すると考えられ、この過程をコンピュータ上で実現する方法を図１１の音素別畳み込み演算子の設計と利用の処理手順を示すフローに従い以下に説明する。

図１１のフローは、９電極の周波数-時間パターンから、音素を効率的に抽出するため、音素別畳み込み演算子による音素尤度ベクトルの算出を示している。まず同じ音素コンテクストに属する音節（音素／s／では／ｓａ／，／ｓｈｉ／，／ｓｕ／，／ｓｅ／，／ｓｏ／，あるいは音素／ａ／では／ａ／，／ｋａ／，／ｓａ／，／ｔａ／，／ｎａ／，／ｈａ／，….，／ｇａ／，／ｚａ／，… など)をメモリ上に蓄積しておく（ステップＳ１１）。この蓄積された情報を出し入れして必要な情報処理に利用する手法はプーリングと呼ばれる。

次に、音節毎に主成分分析を行い（ステップＳ１２）、音節毎の固有ベクトルを関連音素毎に、音素／ｓ／：{ψ^/sa/(m)，ψ^/shi/(m)，ψ^/su/(m)，ψ^/se/(m)，ψ^/so/(m)}、音素／ａ／：{ψ^/a/(m)，ψ^/ka/(m)，ψ^/sa/(m)，ψ^/ta/(m)，ψ^/na/(m)，….} のように音素グループ化する。続いて、同じ音素グループの固有ベクトルから自己相関行列を計算して、音素別自己相関行列Ｒ^s，Ｒ^a，・・・へ統合する（ステップＳ１３）。音素別自己相関行列からは、音素別の部分空間(固有ベクトル)φ^/s/(m), φ^/a/(m)を求めることができる。図１２に音素／ｓ／と／ａ／の固有ベクトル(上位３軸の累積を表示)を示した。

次に、音素ｋ毎に得られる固有ベクトル群を「音素単位畳み込み演算子」として使用することで、未知の９電極(もしくはＩＣＡ後の少数)線スペクトル時系列に対する音素類似度(尤度)Ｌ（ｋ）を計算することが出来る（ステップＳ４、ステップＳ１４、ステップＳ１５）。

ここでＭａｘの意味はｑ個（電極もしくはＩＣＡの成分）について最大値を取ることを意味している．また＜＞は内積演算を示す。なお，Ｘ（ｑ，ｆ，ｎ’）およびφ（ｆ,ｎ’）は各々予めノルムで正規化されている。
音素ｋ；ｋ＝１, ２,…, Ｋの尤度L(k)をＫ個並べたベクトルを音素特徴ベクトルとする。（７）式は、音素の固有ベクトルφ（ｆ,ｎ’）を利用して音素単位の畳み込み演算子を構成しており、音素ｋ毎に尤度としてのスカラー値Ｌ（ｋ）が得られ、これをＫ個並べたベクトルが、入力Ｘ(ｆ，ｎ’)の時刻ｎ’が推移するに従い(音素尤度ベクトル)時系列データとして言語特徴抽出部５から出力される（ステップＳ５、ステップＳ１６）。
図１３に音素の尤度（Ｌ（ｇ），Ｌ（ｏ），…)から音節の尤度（Ｌ（ｇｏ），Ｌ（ｒｏ）,…)を求めて表示した例を示した。この例は連続数字（“１，２，３，４，５，６，７，８，９，０”）をこの順で想起した際の音節の尤度を濃淡で示している。縦軸に音節(上からｉ，ｃｈｉ，ｎｉ，ｓａ，Ｎ，ｙｏ，ｏ，ｇｏ，ｒｏ，ｋｕ，ｎａ，ｈａ，ｋｙｕ，ｕ, ｚｅ，ｅ，ｎｏｉｓｅ)を示した。連続数字を構成する音節の尤度が高い値で求められていることが分かる。

なお、音声想起データは大量に収集することが、現時点では困難なため、ここでは音素畳み込み演算子の形で問題を解決する例を示した。しかし，音声想起に関する脳データベースが今後充実するに従い、近年、画像処理等の分野で多用される、深層畳み込みネットワーク(Deep Convolutional Net.；ＤＣＮ)などを、音素別畳み込み演算子の代わりに用いることが可能である。

単語・文認識部６は、音素特徴ベクトルの時系列データ（正確には音素尤度ベクトル時系列データ）から単語・文を認識する。単語・文の認識は、音声認識の分野で実用化されている隠れマルコフモデル（ＨＭＭ）を用いる方法（この中では音素の前後コンテクストを含むtriphonが利用される)、深層ニューラルネットワークを用いる方法（ＬＳＴＭなど）を応用することができる。また、現行の音声認識のメリットである言語情報(単語の並びに関する確率)も同様に利用可能である。さらに、音声想起では時間軸のズレが問題になるが、現行の頑健な音声システムで行われる、時間方向に単語・文を連続して探索する「スポッティング処理」の利用が、音声想起でも性能向上に効果的である。

後処理・出力部７は、認識結果の単語（列）を受け必要なディスプレィ表示や音声出力を行う。ここでは、予め決められた単語・文の音声想起認識結果から、多電極の脳波センサーが正しい位置にあるか否かを利用者にフィードバックし、利用者がスマートフォン等の端末の画面や音声指示により、脳波センサーを動かすことによって、適正な位置を知ることを支援する機能を持たせることができる。

後処理・出力部７は、音声想起しながら、電極群の最適位置を調整することを支援する画面を表示する。この後処理・出力部７は、ディスプレィ表示を行うことができ、図１４は後処理・出力部７が表示するディスプレィ画面を示している。利用者は、図１４に示す画面を見ながら電極群の位置を調整していく。
図１４に示すように、テスト音声想起（“山田さん”など）を音声想起すると、脳波入力部２より脳波が入力され、後処理・出力部７が表示する画面に、色、〇の大きさ、グラティーションの濃さ(図の例)等で認識結果の精度を示すことができる。図１４では、最初の電極位置（１）では白色で表示され、次の電極位置（２）では薄いグレーで表示され、次の電極位置（３）ではグレーで表示され、さらに次の電極位置（４）では濃いグレーで表示され、次の位置（５）では薄いグレーで表示されている。したがって、電極位置（４）が最適な電極位置であることを利用者は知ることができる。精度の違いを時系列で見ながら、正解が出る方向にセンサー位置を移動させ更正する機能を持たせる例を示した。

図１で示した音声想起認識装置１は、携帯端末によって構成することができる。また、音声想起認識装置１は、サーバによって構成することができる。このとき、音声想起認識装置１は、複数のサーバによって構成されていてもよい。また、音声想起認識装置１は、携帯端末とサーバとによって構成することもできる。音声想起認識装置１の一部の処理を携帯端末で、残りの処理をサーバによって処理することができる。このときも、サーバは複数のサーバによって構成することもできる。

また、音声想起認識装置１は、図１に示したように、脳波入力部２、前処理部３、分析処理部、言語特徴抽出部５、単語・文認識部６、後処理・出力部７によって構成されていたが、音声想起認識装置に、装着具と電極群を含めるようにしてもよい。

図１５は、音声想起認識装置の他の構成例を示す図である。
図１５に示すように、音声想起認識装置１０は、装着具１１、携帯端末１２、サーバ１３を備える。装着具１１は、音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具である。装着具１１は、電極群２２を保持するシート部２１、ブローカ野周辺に配置される電極群２２と、電極群２２からの信号を出力する処理部２３と、を有する。電極群２２は、上述したように９電極から構成されているが、電極数は限定されない。処理部２３は、通信機能を有していてもよく、図１で示した音声想起認識装置１の一部又は全部の処理を行うことができる。

装着具１１の処理部２３、携帯端末１２及びサーバ１３は、例えば、ＣＰＵ（Central Processing Unit）、メモリ、ＲＯＭ（Read only memory）及びハードディスク等を有するコンピュータによって構成されている。端末１２は、図１で示した音声想起認識装置１の一部又は全部の処理を行うことができる。サーバ１３は、図１で示した音声想起認識装置１の一部又は全部の処理を行うことができる。
音声想起時の脳波から音声言語を認識する音声想起認識方法は、装着具１１、携帯端末１２及び／又はサーバ１３によって実行され、装着具１１、携帯端末１２及び／又はサーバ１３は単独で又は協働して実行することができる。音声想起認識方法は、携帯端末１２とサーバ１３とによって実行することができる。

コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムは、上記ハードディスク等にダウンロード又は記憶され、上記コンピュータに、電極群から入力される電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、電極毎のスペクトル成分に基づき、音素特徴ベクトル時系列を抽出する抽出処理と、を実行させる。

図１６は、音声想起認識装置の他の構成例を示す図である。
図１６に示すように、音声想起認識装置２０は、装着具１１とサーバ１３とにより構成されている。装着具１１の構成は、図１５で説明した通りであるが、装着具１１の処理部２３は、サーバ１３と直接通信する機能を有する。装着具１１が直接サーバ１３と情報のやりとりを行うことにより、音声想起認識装置の機能を実現することができる。

図１７は、音声想起認識装置の他の構成例を示す図である。
図１７に示すように、音声想起認識装置３０は、装着具１１から構成されている。装着具１１の処理部２３が、図１で示した音声想起認識装置３０のすべての機能を実現することにより、装着具１１だけによって音声想起認識装置を実現することができる。

以上、本実施形態によれば、音声想起時の脳波から直接、言語表象しての線スペクトル成分群を抽出し、さらに音素特徴ベクトル時系列へ変換することが出来るため、現行の音声認識の枠組みを活用できるという利点がある。

なお、以上の実施形態に関し、更に以下の付記を開示する。

（付記１）
音声想起時の脳波から音声言語を認識する音声想起認識方法であって、
電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、
前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、
を含む音声想起認識方法。

（付記２）
電極群から入力される脳波を離散信号群に変換する入力ステップを更に含む、付記１に記載の音声想起認識方法。
（付記３）
前記電極毎の離散信号群を周波数領域に変換した音声想起信号のスペクトラムから平均ノイズ振幅スペクトルを差し引くことにより前記脳波中のノイズを除去する処理を行う前処理部を更に含む、付記１又は付記２に記載の音声想起認識方法。

（付記４）
前記ノイズ除去後の各電極信号から少数の独立した情報源を取り出す独立成分分析を行うステップを更に含む付記３に記載の音声想起認識方法。
（付記５）
前記音素特徴ベクトル時系列に基づき、前記音声言語を認識する認識ステップを更に含む、付記１から付記４のいずれかに記載の音声想起認識方法。
（付記６）
前記認識した音声言語を出力する出力ステップを更に含む、付記１から付記５のいずれかに記載の音声想起認識方法。

（付記７）
前記音声想起しながら前記電極群の最適位置を調整することを支援する画面を表示するステップを更に含む、付記６に記載の音声想起認識方法。
（付記８）
前記分析処理ステップは、線形予測分析を適用することにより前記スペクトル時系列を抽出する、付記１から付記７のいずれかに記載の音声想起認識方法。
（付記９）
前記分析処理ステップは、前記電極毎の離散信号に基づき、周波数揺らぎを吸収するステップを含む、付記１から付記８のいずれかに記載の音声想起認識方法。

（付記１０）
前記分析処理ステップは、時間フレーム毎に、周波数軸上のピーク由来の周波数を線スペクトル成分として抽出する、付記１から付記９のいずれかに記載の音声想起認識方法。
（付記１１）
前記抽出ステップは、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力する、付記１から付記１０のいずれかに記載の音声想起認識方法。

（付記１２）
前記音声想起認識方法は、携帯端末、サーバ又は携帯端末及びサーバによって実行される、付記１から付記１１のいずれかに記載の音声想起認識方法。
（付記１３）
装着具に設けられるブローカ野周辺に配置される電極群からの信号を出力する出力ステップを更に含む、付記１から付記１２のいずれかに記載の音声想起認識方法。

かくしてこの発明の音声想起認識装置、装着具、方法、プログラムによれば、音声想起時の脳波から直接、言語表象としての線スペクトル群と音素特徴群へ変換することが可能になるので、現行の音声認識の枠組みにＢＣＩできる音声言語を提供することができる。

１音声想起認識装置
２脳波入力部
３前処理部
４分析処理部
５言語特徴抽出部
６単語・文字認識部
７後処理・出力部

Claims

音声想起時の脳波から音声言語を認識する音声想起認識装置であって、
電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理部と、
前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出部と、
を有し、
前記抽出部は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力する、音声想起認識装置。
電極群から入力される脳波を離散信号群に変換する脳波入力部を更に有する、請求項１に記載の音声想起認識装置。
前記電極毎の離散信号群を周波数領域に変換した音声想起信号のスペクトラムから平均ノイズ振幅スペクトルを差し引くことにより前記脳波中のノイズを除去する処理を行う前処理部を更に有する、請求項１又は請求項２に記載の音声想起認識装置。
前記前処理部は、前記ノイズ除去後の各電極信号から少数の独立した情報源を取り出す独立成分分析を行う請求項３に記載の音声想起認識装置。
前記音素特徴ベクトル時系列に基づき、前記音声言語を認識する認識部を更に有する、請求項１から請求項４のいずれか１項に記載の音声想起認識装置。
前記認識部で認識した音声言語を出力する出力部を更に有する、請求項５に記載の音声想起認識装置。
前記出力部は、前記認識部による認識の実行中において前記電極群の最適位置を調整することを支援する画面を表示する、請求項６に記載の音声想起認識装置。
前記分析処理部は、線形予測分析を適用することにより前記スペクトル時系列を抽出する、請求項１から請求項７のいずれか１項に記載の音声想起認識装置。
前記分析処理部は、前記電極毎の離散信号に基づき、周波数揺らぎを吸収する処理を行う、請求項１から請求項８のいずれか１項に記載の音声想起認識装置。
前記分析処理部は、時間フレーム毎に、周波数軸上のピーク由来の周波数を線スペクトル成分として抽出する、請求項１から請求項９のいずれか１項に記載の音声想起認識装置。
ブローカ野周辺に配置される電極群を更に有する請求項１から請求項１０のいずれか１項に記載の音声想起認識装置。
頭部に装着する装着具を更に有する請求項１１に記載の音声想起認識装置。
前記音声想起認識装置は、携帯端末、サーバ又は携帯端末及びサーバによって構成される、請求項１から請求項１１のいずれか１項に記載の音声想起認識装置。
音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具であって、
ブローカ野周辺に配置される電極群と、
前記電極群からの信号を出力する処理部と、を有し、
前記音声想起認識装置は、前記処理部から出力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、
前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出処理と、を実行し、
前記抽出処理は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力することを含む、装着具。
音声想起時の脳波から音声言語を認識する音声想起認識方法であって、
電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、
前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、
を含み、
前記抽出ステップは、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力することを含む、コンピュータにより実行される音声想起認識方法。
コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムであって、
コンピュータに、
電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、
前記電極毎のスペクトル成分に基づき、音素特徴ベクトル時系列を抽出する抽出処理と、
を実行させ、
前記抽出処理は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力することを含む、プログラム。