JP7043081B2 - 音声想起認識装置、装着具、音声想起認識方法及びプログラム - Google Patents

音声想起認識装置、装着具、音声想起認識方法及びプログラム Download PDF

Info

Publication number
JP7043081B2
JP7043081B2 JP2019097202A JP2019097202A JP7043081B2 JP 7043081 B2 JP7043081 B2 JP 7043081B2 JP 2019097202 A JP2019097202 A JP 2019097202A JP 2019097202 A JP2019097202 A JP 2019097202A JP 7043081 B2 JP7043081 B2 JP 7043081B2
Authority
JP
Japan
Prior art keywords
voice
time series
recognition device
recall
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019097202A
Other languages
English (en)
Other versions
JP2020191021A (ja
JP2020191021A5 (ja
Inventor
恒雄 新田
Original Assignee
恒雄 新田
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 恒雄 新田 filed Critical 恒雄 新田
Priority to JP2019097202A priority Critical patent/JP7043081B2/ja
Priority to CN202080037965.1A priority patent/CN113873944A/zh
Priority to US17/613,658 priority patent/US20220238113A1/en
Priority to EP20809757.6A priority patent/EP3973861A1/en
Priority to PCT/JP2020/020342 priority patent/WO2020235680A1/ja
Publication of JP2020191021A publication Critical patent/JP2020191021A/ja
Publication of JP2020191021A5 publication Critical patent/JP2020191021A5/ja
Application granted granted Critical
Publication of JP7043081B2 publication Critical patent/JP7043081B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/377Electroencephalography [EEG] using evoked responses
    • A61B5/38Acoustic or auditory stimuli
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/372Analysis of electroencephalograms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Psychiatry (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声想起認識装置、装着具、音声想起認識方法及びプログラムに関するものである。
音声言語入力装置は、これまで発話された音声波をマイクロホン、もしくは骨伝導の振動を振動ピックアップで受け、得られた信号から音声言語情報を認識するものが実用に供されている。
近年は、膨大な音声データおよび言語データを利用し、音素の並び(音響モデル)と単語の並び(言語モデル)に関する確率情報をネットワーク上に蓄積・利用することで、高速・高性能な音声言語認識を実現している。他方、発話による周囲への迷惑・漏洩、発話困難な筋委縮性側索硬化症(ALS)患者などの増大から、発話を伴わない、音声想起(speech imagery)による言語認識実現が脳コンピュータ・インタフェース(Brain Computer Interface;BCI)の分野から望まれている。
音声想起信号からの音声言語認識は、脳皮質から硬膜下皮質表面電位(Electrocorticogram ;ECoG)を64~128点観測することで、近年、発話を伴う場合の音声言語認識が試みられつつある(非特許文献1参照)。しかし、このように開頭手術を伴う方法は、重篤な患者以外に利用することは現実的ではない。他方、頭皮上の電極で脳波(Electroencephalogram:EEG)を観測する方式は、実用化すると社会貢献が計り知れないものの、今日まで、雑音中に意味のある音声言語信号を見出す試みは成功して来なかった。
近年は、PET、fMRIなど高解像度装置を用いて発話時の脳を解析したり、開頭時に患者が発話した際のECoGを観測する研究が進み、音声言語が脳の何処の部位で処理されるかが、明確になりつつある。これらの結果によると、左中側頭回(MTG)における概念準備の後、言語としてのプランニングが左上側頭回(STG)にかけて行われるとされている(非特許文献2参照)。この後、左下前頭回(IFG; ブローカ野)において音節化(syllabication)が行われ、発話の際には左中心前回(PG; 運動野)で調音(構音)が行われる(非特許文献3参照)。こうした研究成果から、発話を伴わない音声言語に対するディコーディング(復号)も、ブローカ野に到達する言語表象(linguistic representation)を捉えることができるなら可能になると期待されている。
また、脳波を検出して、この脳波から運動指令に関する信号を検出する技術が提案されている(特許文献1参照)
Heger D. et al., Continuous Speech Recognition from ECoG, Interspeech2015, 1131-1135 (2015) Indefrey, P et al., The spatial and temporal signatures of word production components, Cognition 92, 101-144 (2004) Bouchard K.E. et al., Functional organization of human sensorimotor cortex for speech articulation, Nature 495, 327-332 (2013) Girolami M., Advances in Independent Component Analysis, Springer (2000) Durbin, J. "The fitting of time series models." Rev. Inst. Int. Stat., v. 28, pp. 233-243 (1960)
特開2008-204135号公報
しかしながら、脳波からの音声言語認識では、言語表象がどのようなフォーマットで表現されているのか不明で、具体的な抽出方法を見出せないことが最大の問題点である。さらに、言語表象から音素単位への変換方法が与えられないと、例えば音節単位のように多くの種類を対象にしなければならないため(音節では短音節の他に多くの長音節を持ち、計数千個と言われる)、効率の良い音声言語処理が非常に困難になる(音素では日本語で24個、英語で44個(但し、弱母音と強母音を分けている。日本語では通常、分けない)程度である)。
本発明は、上記事情に鑑みてなされたものであり、脳波による音声言語認識を可能とする音声想起認識装置、装着具、音声想起認識方法及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明は、音声想起時の脳波から音声言語を認識するため、言語表象としての線スペクトル成分抽出器により線スペクトル成分を抽出すると共に、それらの成分を音素別畳み込み演算などを用いた音素特徴ベクトル時系列変換器に通すことで、音素特徴ベクトル時系列を得ることを最も主要な特徴とする。
第1の発明は、音声想起時の脳波から音声言語を認識する音声想起認識装置であって、電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理部と、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出部と、を有する音声想起認識装置が提供される。
第2の発明は、音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具であって、ブローカ野周辺に配置される電極群と、前記電極群からの信号を出力する出力部と、を有し、前記音声想起認識装置は、前記出力部から出力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出処理と、を実行する、装着具が提供される。
第3の発明は、音声想起時の脳波から音声言語を認識する音声想起認識方法であって、電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、を含む音声想起認識方法が提供される。
第4の発明は、コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムであって、コンピュータに、電極群から入力される前記電極毎の脳波の離散信号群を分析処理して言語表象としてのスペクトル成分を出力する分析処理と、前記電極毎のスペクトル成分に基づき、音素特徴群を抽出する抽出処理と、を実行させるプログラムが提供される。
本発明によれば、脳波による音声言語認識を可能とする音声想起認識装置、装着具、音声想起認識方法及びプログラムを提供することができる。
本発明の認識装置の構成を示したモデル図である。 脳波測定電極(10-10システム)とブローカ野周辺9電極を示す図である。 脳波からのノイズ除去効果を示す図である。 音声想起時脳波の線形予測分析の説明図である。 音声想起時脳波の線形予測分析と従来フーリエ分析との比較を示す図である。 音声想起時脳波の短時間正弦波群を示す図である。 言語特徴抽出部の処理手順を示すフロー図である。 音声想起時脳波の周波数変動吸収例を示した図である。 音声想起時脳波の線スペクトル時系列の例を示す図である。 複数電極に跨る線スペクトル時系列の例を示した図である。 音素別畳み込み演算子の設計と利用の処理手順を示すフロー図である。 音素別畳み込み演算子を構成する音素固有ベクトルの例を示す図である。 音声想起時脳波に対する音素尤度時系列の例を示した図である。 テスト認識による電極位置更正を示す図である。 音声想起認識装置の他の構成例を示す図である。 音声想起認識装置の他の構成例を示す図である。 音声想起認識装置の他の構成例を示す図である。
(実施形態)
以下、本発明における音声想起認識装置の実施形態について、添付図面を参照して説明する。なお、添付図面は本発明の技術的特徴を説明するのに用いられており、記載されている装置の構成、各種処理の手順などは、特に特定的な記載がない限り、それのみに限定する趣旨ではない。なお、実施形態の説明の全体を通して同じ要素には同じ符号が付される。
図1は、音声想起認識装置1の構成を示したモデル図である。図1を参照して、音声想起認識装置1の構成と動作を説明する。
音声想起認識装置1は、音声想起時の脳波から音声言語を認識するためのものである。
音声想起認識装置1は、図示しない頭皮上に設置する電極群から入力される脳波を離散信号群に変換する脳波入力部2と、電極毎に離散信号からノイズを除去する前処理部3と、電極毎に離散信号群を分析処理してスペクトル時系列を出力する分析処理部4と、全電極のスペクトル時系列から音素特徴ベクトル時系列を出力する言語特徴抽出部5と、音素特徴ベクトル時系列から音声言語である単語・文を認識する単語・文認識部6と、音声言語情報を表示・音声出力する後処理・出力部7により構成される。
脳波入力部2は、多電極脳波出力のアナログ信号群x(q,t)をA/D変換等により離散的信号に変換すると共に、全電極の離散信号の平均値などを利用して、個別電極が持つバイアスの偏りを更正する処理を行う。同時に電極毎の離散信号から、70Hz以下の不要な周波数成分を低周波除去フィルタ(高域通過フィルタ)で遮断すると共に、180Hz以上の不要な周波数成分を高周波除去フィルタ(低域通過フィルタ)により遮断した信号x1(q,n)を出力する。
図2に64電極を用いる標準的な国際10-10システムの電極配置を示す。このうち、左脳のブローカ野周辺に属する9電極{F3,F5,F7,FC3,FC5,FT7,C3,C5,T7}から音声想起信号を受け取り、言語特徴を抽出して想起内容を認識する。一般に右利きの人は、左脳で言語を処理していると言われているが、左利きのかなりの人が、やはり左脳で言語を処理しているとされている。なお、脳波では、瞬きなどの動作により大きな変動(artifactと呼ばれる)を受けることがあるが、上記フィルタ操作により多くの不要成分を除去することができる。さらにフィルタ操作では除去できない不要成分に対しては、全電極の離散信号に対して、少数の独立した情報源を推定して除去した後、元の電極出力(ここでは9電極)に戻す処理を行う、独立成分分析(Independent Component Analysis;IPA)を適用してもよい。
前処理部3は、電極毎にフィルタを通過するノイズを除去する。この処理の一例を以下に述べる。脳波入力部の一連の処理を終えた各電極の離散信号x1(q,n)、(q:電極番号、n:時刻)に対して、まず一定の時間窓を掛けた後、高速フーリエ変換(FFT)により時間領域から周波数領域に写像する。続いて、周波数領域の複素数成分から以下のように振幅スペクトラム時系列X1(q,f,n’)、(fは周波数、n’は窓かけ後の時間フレーム番号) を求める。
Figure 0007043081000001
Figure 0007043081000002
ここで、jは虚数単位、Re{ }、Im{ }は各々実数部、虚数部を表す。ノイズ引き去り(Noise subtraction)では、音声想起(Speech imagery)に先立ち観測した脳波(EEG信号)のスペクトルN(q,f,n’)から次式で、平均ノイズ振幅スペクトルを求める。
Figure 0007043081000003
上式では平均ノイズスペクトラムを、時刻n’の前後8フレームから計算しているが、システムにより適せん設定してよい。なお、時刻n’の設定は、通常、
(a)音声想起認識応用システムから与えられる、プロンプト信号(想起開始を指示する信号)に続いて利用者が音声想起を行う。
(b)利用者から応用システムへの決められた呼びかけ「Yamadaさん」など(wake-up word)に続き音声想起を行う。
の二通りが考えられるが、何れの場合も音声想起の前、あるいは後の区間で観測した脳波からN(q,f,n’)を計算する。
続いて電極q 毎に、音声想起信号のスペクトラムX1(q, f, n’)から、Nav(q,f,n’)を次式のように引き去る。
Figure 0007043081000004
この処理により脳波中のノイズを除去した例を図3に示す。図3(A)はノイズ除去前、同図(B)はノイズ除去後を示す。図3(A)と(B)を比べると、ノイズのスペクトラムを引き去る効果が顕著であることが分かる。ノイズ除去後の振幅スペクトル時系列は、逆高速フーリエ変換(IFFT)により、波形x2(q,n)に戻す。
なお、ノイズ除去後の9電極信号から、少数の独立した情報源を取り出す処理、即ち独立成分分析(Independent Component Analysis;IPA)(非特許文献4)が有効である。この処理により、前記フィルタ操作では除去できない不要成分を除けると共に、9電極の離散信号から有効な少数の情報源を選択できる。ただしICAは,分析結果の独立成分の順番が、分析の都度異なる所謂パーミュテーションという問題があり、この欠点を解消して本特許に導入する方法について後に説明する。
分析処理部4は、前処理部3で得たノイズ除去後(かつq個の独立成分抽出後)の音声想起信号のスペクトラム時系列X2(q,f,n’)を用いてもよいが、本発明の効果をより良く引き出す分析方式として、以下に線形予測分析(Linear Predictive Analysis;LPA)を適用した例を説明する。分析処理部4は、スペクトラム又は線スペクトラムを用いることができる。
線形予測符号化(Linear Predictive Coding;LPC)は、音声通信方式として、現在、世界標準になっている。音声では情報源が声帯による一定周期のパルス波と声道の狭めによるランダム波の二つになる。このため、音源を符号帳(codebook)として別途保持し、符号帳の全ての音源を音声の線形予測係数(声道の伝達関数を担う)に通し、この合成音声と元の音声との比較を行うという複雑な処理を必要としている。
一方、脳波では図4に示すように情報源はランダム波のみと考えられるため、脳波合成は音声合成と比較して簡単になる。脳波x2(q,n) から得た自己相関係数r2(τ)から線形予測係数{αm }を求めるアルゴリズムはLevinson-Durbin法など種々提案されている(非特許文献4)。各電極の音声想起脳波x(n)は図4に示すように、信号源の白色雑音w(n)を神経系のインパルス応答s(n)に通して得られる。図4で☆は畳み込み積分記号を示す。
畳み込み積分処理は、周波数領域では音声言語情報を担うインパルス応答s(n)の伝達(周波数)関数をS(f)として、脳波のスペクトルをX(f)=W(f)S(f)=S(f)と表現できる(但しW(f)=1)。S(f)は、線形予測係数{αm }のフーリエ変換から次式に示すように求めることができる。
Figure 0007043081000005
ここでδ(n-p)は、信号の各時刻n=pを表わす関数、F[ ]はフーリエ変換である。脳波に対する線形予測分析(LPA)では、図4に示すように合成モデルS(f)を逆フィルタとして、
Figure 0007043081000006
と求めることができる(σは振幅バイアス値)。このように、合成過程を通して分析を精度良く行う方式は、「合成による分析(Analysis-by-Synthesis; AbS)」と呼ばれ、脳波分析においても有効な方式である。上式のフーリエ変換F[ ]では、p個の線形予測係数(α0=1.0)にゼロ点を付加し(0-paddingと呼ばれる)、例えば128点、256点、…と任意点数のフーリエ変換を行うことができる。このゼロ点付加によって、周波数分解精度を各々64点、128点、…と任意に調整して、スペクトル成分A(q,f,n’)を求めることができる。
図5に、LPAにより分析したスペクトルパターンを、通常のフーリエ変換により分析したスペクトルパターンと比較して示す。図5でLPAによるスペクトルパターンが複数表示されているが、これらは自己相関係数に対して遅れτが大きくなるに従い、値を減衰させるlog窓と呼ばれる窓関数を使用していることを示す(上からlag窓なし、下に行くほどlag窓の傾斜は大で、log窓を用いない場合は鋭いピークとなる)。LPAでは図に示すように、スペクトルを脳波が持つ本質的な少数のピークで表現することができる。
LPA分析を通した音声想起時脳波のスペクトルが、少数のスペクトルピークで表現される。このことから、脳(特に、音声想起の言語情報が現れるブローカ野)においては、言語表象(linguistic representation)は短時間正弦波(tone-burst)群から構成されている、言い換えると言語表象は特有の線スペクトルで表わされると推定される。図6にトーンバースト波群とそれらのスペクトル形状の例を示す。短時間正弦波は、本来、単一パラメータすなわち単一周波数で表わされるが、図に示したように(また図5に示したように)、信号の前後に過渡部を持つことで通常の周波数分析ではスペクトルに広がりを持つ。
言語特徴抽出部5は、広がりを持つスペクトル群から、線スペクトル成分を「言語表象」として取り出すと共に、音素単位畳み込み演算子を通して、言語特徴である音素尤度ベクトル時系列を出力する。
以下、図7の言語特徴抽出部の処理フロー図に沿って処理過程を説明する。言語特徴出部5は、分析処理部4から電極qのスペクトル時系列が入力される(ステップS1)。音声想起時脳波のスペクトラムは、図8(A)に示すように±5Hz程度の揺らぎを持つことがある。そこで、これらの周波数揺らぎを非線形フィルタリングの一種である中間値フィルタ(median filter)を用いて、周波数揺らぎを吸収する(ステップS2)。
一定の時間幅(時刻n’の前後の数フレーム)と周波数幅(隣接周波数f-1,f,f+1)の中にあるデータを対象に、全体の中の中間値を求めて代表させる。この処理は、中央値から外れた値を削除できるため、周波数揺らぎを吸収することができる。非線形フィルタの出力は、ガウス窓などにより平滑処理を施すことが一般的である。図8(B)に70Hz~170Hzの脳波信号(4msec周期)に対して、中心フレームn’の前後3フレームの計7フレームに対して中間値フィルタ処理を行った際の周波数揺らぎの改善結果を示した。図から揺らぎが少なくなっていることが分かる。この後、周波数分析パターンに対して、時間方向にガウス窓(係数;{1/4,1/2,1/4})を掛けて平滑し、時間フレームを4msecから8msec周辺に落としている。なお、周波数揺らぎを吸収する処理は、前処理部3の中で振幅スペクトラム上でのノイズ成分引き去りを行った後、波形信号に戻す前の段階で行うことも可能である。
次に、線スペクトルの抽出過程を説明する(ステップS3)。この処理では時間フレーム(8msec)毎に、周波数軸上に現れるピーク由来の成分を線スペクトルとして抽出する。具体的には:
(i) 周波数軸上の極大値Δf =0となる周波数、
(ii) 変曲点ΔΔf =0の時
Δf >0ならΔΔf の値が正から負に変化する周波数、
Δf <0ならΔΔf の値が負から正に変化する周波数、
これらの条件を満たす場合にのみ、元の振幅を持つ正弦波周波数成分、すなわち線スペクトル成分とする。
図9に音声想起時の脳波の線スペクトル成分の抽出例を示す。この例では/ga-gi-gu-ge-go/を3回、できるだけ連続して想起するタスク下でデータを採取している。同じシーケンスを3回続けることで、熟練者は図に示すような各音節のパターンを学習でき、脳波データに音節ラベルを付したデータベースを作成することができる。
図9では9電極の線スペクトル時系列を、電極方向にプーリング(9電極から代表となるパターンを抽出する処理を行う。p-normを取るなどの処理(p=∞は最大値を取ることに相当))の処理を行い、統合した線スペクトルを対象に音節ラベリングを行った結果を示している。ここでのプーリング処理は音節ラベルを読み取るだけのために行っており、以下の音素特徴抽出では元の9電極の線スペクトル成分を対象にしている。
言語特徴抽出部5は、最終的に音素特徴を抽出することを目的としている。すなわち、電極毎の線スペクトル成分から、音声言語情報として最小の単位である音素(phoneme)成分を音素特徴ベクトルの形で取り出すことを目指す。脳波中の音声言語情報は、線スペクトル(周波数情報) - 電極(空間情報) - フレーム(時間情報)の三つの軸に跨る、所謂テンソル構造を持つ。ブローカ野の3×3=9電極に跨る線スペクトル時系列の例を図10に示す。この例は単音節/ka/の例を示している。このように、ブローカ野に現れる音節パターンは、現れる電極位置がその都度異なり、脳神経系の柔軟な情報処理メカニズムを窺わせる。一方、脳の音声言語処理では発話の最小単位として音節がブローカ野に現れるが、発話の際には発話器官を筋動作で制御しており、この制御は音素と一対一に対応する調音パラメータで行われる。こうした背景を考えると、ブローカ野で観測される図10の音節パターンから、音素特徴を抽出する過程が存在すると考えられ、この過程をコンピュータ上で実現する方法を図11の音素別畳み込み演算子の設計と利用の処理手順を示すフローに従い以下に説明する。
図11のフローは、9電極の周波数-時間パターンから、音素を効率的に抽出するため、音素別畳み込み演算子による音素尤度ベクトルの算出を示している。まず同じ音素コンテクストに属する音節(音素/s/では/sa/,/shi/,/su/,/se/,/so/,あるいは音素/a/では/a/,/ka/,/sa/,/ta/,/na/,/ha/,….,/ga/,/za/,… など)をメモリ上に蓄積しておく(ステップS11)。この蓄積された情報を出し入れして必要な情報処理に利用する手法はプーリングと呼ばれる。
次に、音節毎に主成分分析を行い(ステップS12)、音節毎の固有ベクトルを関連音素毎に、音素/s/:{ψ/sa/(m),ψ/shi/(m),ψ/su/(m),ψ/se/(m),ψ/so/(m)}、音素/a/:{ψ/a/(m),ψ/ka/(m),ψ/sa/(m),ψ/ta/(m),ψ/na/(m),….} のように音素グループ化する。続いて、同じ音素グループの固有ベクトルから自己相関行列を計算して、音素別自己相関行列Rs,Ra,・・・へ統合する(ステップS13)。音素別自己相関行列からは、音素別の部分空間(固有ベクトル)φ/s/(m), φ/a/(m)を求めることができる。図12に音素/s/と/a/の固有ベクトル(上位3軸の累積を表示)を示した。
次に、音素k毎に得られる固有ベクトル群を「音素単位畳み込み演算子」として使用することで、未知の9電極(もしくはICA後の少数)線スペクトル時系列に対する音素類似度(尤度)L(k)を計算することが出来る(ステップS4、ステップS14、ステップS15)。
Figure 0007043081000007
ここでMaxの意味はq個(電極もしくはICAの成分)について最大値を取ることを意味している.また< >は内積演算を示す。なお,X(q,f,n’)およびφ(f,n’)は各々予めノルムで正規化されている。
音素k;k=1, 2,…, Kの尤度L(k)をK個並べたベクトルを音素特徴ベクトルとする。(7)式は、音素の固有ベクトルφ(f,n’)を利用して音素単位の畳み込み演算子を構成しており、音素k毎に尤度としてのスカラー値L(k)が得られ、これをK個並べたベクトルが、入力X(f,n’)の時刻n’が推移するに従い(音素尤度ベクトル)時系列データとして言語特徴抽出部5から出力される(ステップS5、ステップS16)。
図13に音素の尤度(L(g),L(o),…)から音節の尤度(L(go),L(ro),…)を求めて表示した例を示した。この例は連続数字(“1,2,3,4,5,6,7,8, 9,0”)をこの順で想起した際の音節の尤度を濃淡で示している。縦軸に音節(上からi,chi,ni,sa,N,yo,o,go,ro,ku,na,ha,kyu,u, ze,e,noise)を示した。連続数字を構成する音節の尤度が高い値で求められていることが分かる。
なお、音声想起データは大量に収集することが、現時点では困難なため、ここでは音素畳み込み演算子の形で問題を解決する例を示した。しかし,音声想起に関する脳データベースが今後充実するに従い、近年、画像処理等の分野で多用される、深層畳み込みネットワーク(Deep Convolutional Net.;DCN)などを、音素別畳み込み演算子の代わりに用いることが可能である。
単語・文認識部6は、音素特徴ベクトルの時系列データ(正確には音素尤度ベクトル時系列データ)から単語・文を認識する。単語・文の認識は、音声認識の分野で実用化されている隠れマルコフモデル(HMM)を用いる方法(この中では音素の前後コンテクストを含むtriphonが利用される)、深層ニューラルネットワークを用いる方法(LSTMなど)を応用することができる。また、現行の音声認識のメリットである言語情報(単語の並びに関する確率)も同様に利用可能である。さらに、音声想起では時間軸のズレが問題になるが、現行の頑健な音声システムで行われる、時間方向に単語・文を連続して探索する「スポッティング処理」の利用が、音声想起でも性能向上に効果的である。
後処理・出力部7は、認識結果の単語(列)を受け必要なディスプレィ表示や音声出力を行う。ここでは、予め決められた単語・文の音声想起認識結果から、多電極の脳波センサーが正しい位置にあるか否かを利用者にフィードバックし、利用者がスマートフォン等の端末の画面や音声指示により、脳波センサーを動かすことによって、適正な位置を知ることを支援する機能を持たせることができる。
後処理・出力部7は、音声想起しながら、電極群の最適位置を調整することを支援する画面を表示する。この後処理・出力部7は、ディスプレィ表示を行うことができ、図14は後処理・出力部7が表示するディスプレィ画面を示している。利用者は、図14に示す画面を見ながら電極群の位置を調整していく。
図14に示すように、テスト音声想起(“山田さん”など)を音声想起すると、脳波入力部2より脳波が入力され、後処理・出力部7が表示する画面に、色、〇の大きさ、グラティーションの濃さ(図の例)等で認識結果の精度を示すことができる。図14では、最初の電極位置(1)では白色で表示され、次の電極位置(2)では薄いグレーで表示され、次の電極位置(3)ではグレーで表示され、さらに次の電極位置(4)では濃いグレーで表示され、次の位置(5)では薄いグレーで表示されている。したがって、電極位置(4)が最適な電極位置であることを利用者は知ることができる。精度の違いを時系列で見ながら、正解が出る方向にセンサー位置を移動させ更正する機能を持たせる例を示した。
図1で示した音声想起認識装置1は、携帯端末によって構成することができる。また、音声想起認識装置1は、サーバによって構成することができる。このとき、音声想起認識装置1は、複数のサーバによって構成されていてもよい。また、音声想起認識装置1は、携帯端末とサーバとによって構成することもできる。音声想起認識装置1の一部の処理を携帯端末で、残りの処理をサーバによって処理することができる。このときも、サーバは複数のサーバによって構成することもできる。
また、音声想起認識装置1は、図1に示したように、脳波入力部2、前処理部3、分析処理部、言語特徴抽出部5、単語・文認識部6、後処理・出力部7によって構成されていたが、音声想起認識装置に、装着具と電極群を含めるようにしてもよい。
図15は、音声想起認識装置の他の構成例を示す図である。
図15に示すように、音声想起認識装置10は、装着具11、携帯端末12、サーバ13を備える。装着具11は、音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具である。装着具11は、電極群22を保持するシート部21、ブローカ野周辺に配置される電極群22と、電極群22からの信号を出力する処理部23と、を有する。電極群22は、上述したように9電極から構成されているが、電極数は限定されない。処理部23は、通信機能を有していてもよく、図1で示した音声想起認識装置1の一部又は全部の処理を行うことができる。
装着具11の処理部23、携帯端末12及びサーバ13は、例えば、CPU(Central Processing Unit)、メモリ、ROM(Read only memory)及びハードディスク等を有するコンピュータによって構成されている。端末12は、図1で示した音声想起認識装置1の一部又は全部の処理を行うことができる。サーバ13は、図1で示した音声想起認識装置1の一部又は全部の処理を行うことができる。
音声想起時の脳波から音声言語を認識する音声想起認識方法は、装着具11、携帯端末12及び/又はサーバ13によって実行され、装着具11、携帯端末12及び/又はサーバ13は単独で又は協働して実行することができる。音声想起認識方法は、携帯端末12とサーバ13とによって実行することができる。
コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムは、上記ハードディスク等にダウンロード又は記憶され、上記コンピュータに、電極群から入力される電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、電極毎のスペクトル成分に基づき、音素特徴ベクトル時系列を抽出する抽出処理と、を実行させる。
図16は、音声想起認識装置の他の構成例を示す図である。
図16に示すように、音声想起認識装置20は、装着具11とサーバ13とにより構成されている。装着具11の構成は、図15で説明した通りであるが、装着具11の処理部23は、サーバ13と直接通信する機能を有する。装着具11が直接サーバ13と情報のやりとりを行うことにより、音声想起認識装置の機能を実現することができる。
図17は、音声想起認識装置の他の構成例を示す図である。
図17に示すように、音声想起認識装置30は、装着具11から構成されている。装着具11の処理部23が、図1で示した音声想起認識装置30のすべての機能を実現することにより、装着具11だけによって音声想起認識装置を実現することができる。
以上、本実施形態によれば、音声想起時の脳波から直接、言語表象しての線スペクトル成分群を抽出し、さらに音素特徴ベクトル時系列へ変換することが出来るため、現行の音声認識の枠組みを活用できるという利点がある。
なお、以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
音声想起時の脳波から音声言語を認識する音声想起認識方法であって、
電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、
前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、
を含む音声想起認識方法。
(付記2)
電極群から入力される脳波を離散信号群に変換する入力ステップを更に含む、付記1に記載の音声想起認識方法。
(付記3)
前記電極毎の離散信号群を周波数領域に変換した音声想起信号のスペクトラムから平均ノイズ振幅スペクトルを差し引くことにより前記脳波中のノイズを除去する処理を行う前処理部を更に含む、付記1又は付記2に記載の音声想起認識方法。
(付記4)
前記ノイズ除去後の各電極信号から少数の独立した情報源を取り出す独立成分分析を行うステップを更に含む付記3に記載の音声想起認識方法。
(付記5)
前記音素特徴ベクトル時系列に基づき、前記音声言語を認識する認識ステップを更に含む、付記1から付記4のいずれかに記載の音声想起認識方法。
(付記6)
前記認識した音声言語を出力する出力ステップを更に含む、付記1から付記5のいずれかに記載の音声想起認識方法。
(付記7)
前記音声想起しながら前記電極群の最適位置を調整することを支援する画面を表示するステップを更に含む、付記6に記載の音声想起認識方法。
(付記8)
前記分析処理ステップは、線形予測分析を適用することにより前記スペクトル時系列を抽出する、付記1から付記7のいずれかに記載の音声想起認識方法。
(付記9)
前記分析処理ステップは、前記電極毎の離散信号に基づき、周波数揺らぎを吸収するステップを含む、付記1から付記8のいずれかに記載の音声想起認識方法。
(付記10)
前記分析処理ステップは、時間フレーム毎に、周波数軸上のピーク由来の周波数を線スペクトル成分として抽出する、付記1から付記9のいずれかに記載の音声想起認識方法。
(付記11)
前記抽出ステップは、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力する、付記1から付記10のいずれかに記載の音声想起認識方法。
(付記12)
前記音声想起認識方法は、携帯端末、サーバ又は携帯端末及びサーバによって実行される、付記1から付記11のいずれかに記載の音声想起認識方法。
(付記13)
装着具に設けられるブローカ野周辺に配置される電極群からの信号を出力する出力ステップを更に含む、付記1から付記12のいずれかに記載の音声想起認識方法。
かくしてこの発明の音声想起認識装置、装着具、方法、プログラムによれば、音声想起時の脳波から直接、言語表象としての線スペクトル群と音素特徴群へ変換することが可能になるので、現行の音声認識の枠組みにBCIできる音声言語を提供することができる。
1 音声想起認識装置
2 脳波入力部
3 前処理部
4 分析処理部
5 言語特徴抽出部
6 単語・文字認識部
7 後処理・出力部

Claims (16)

  1. 音声想起時の脳波から音声言語を認識する音声想起認識装置であって、
    電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理部と、
    前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出部と、
    を有し、
    前記抽出部は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力する、音声想起認識装置。
  2. 電極群から入力される脳波を離散信号群に変換する脳波入力部を更に有する、請求項1に記載の音声想起認識装置。
  3. 前記電極毎の離散信号群を周波数領域に変換した音声想起信号のスペクトラムから平均ノイズ振幅スペクトルを差し引くことにより前記脳波中のノイズを除去する処理を行う前処理部を更に有する、請求項1又は請求項2に記載の音声想起認識装置。
  4. 前記前処理部は、前記ノイズ除去後の各電極信号から少数の独立した情報源を取り出す独立成分分析を行う請求項3に記載の音声想起認識装置。
  5. 前記音素特徴ベクトル時系列に基づき、前記音声言語を認識する認識部を更に有する、請求項1から請求項4のいずれか1項に記載の音声想起認識装置。
  6. 前記認識部で認識した音声言語を出力する出力部を更に有する、請求項5に記載の音声想起認識装置。
  7. 前記出力部は、前記認識部による認識の実行中において前記電極群の最適位置を調整することを支援する画面を表示する、請求項6に記載の音声想起認識装置。
  8. 前記分析処理部は、線形予測分析を適用することにより前記スペクトル時系列を抽出する、請求項1から請求項7のいずれか1項に記載の音声想起認識装置。
  9. 前記分析処理部は、前記電極毎の離散信号に基づき、周波数揺らぎを吸収する処理を行う、請求項1から請求項8のいずれか1項に記載の音声想起認識装置。
  10. 前記分析処理部は、時間フレーム毎に、周波数軸上のピーク由来の周波数を線スペクトル成分として抽出する、請求項1から請求項9のいずれか1項に記載の音声想起認識装置。
  11. ブローカ野周辺に配置される電極群を更に有する請求項1から請求項10のいずれか1項に記載の音声想起認識装置。
  12. 頭部に装着する装着具を更に有する請求項11に記載の音声想起認識装置。
  13. 前記音声想起認識装置は、携帯端末、サーバ又は携帯端末及びサーバによって構成される、請求項1から請求項11のいずれか1項に記載の音声想起認識装置。
  14. 音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具であって、
    ブローカ野周辺に配置される電極群と、
    前記電極群からの信号を出力する処理部と、を有し、
    前記音声想起認識装置は、前記処理部から出力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、
    前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出処理と、を実行し、
    前記抽出処理は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力することを含む、装着具。
  15. 音声想起時の脳波から音声言語を認識する音声想起認識方法であって、
    電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、
    前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、
    を含み、
    前記抽出ステップは、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力することを含む、コンピュータにより実行される音声想起認識方法。
  16. コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムであって、
    コンピュータに、
    電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、
    前記電極毎のスペクトル成分に基づき、音素特徴ベクトル時系列を抽出する抽出処理と、
    を実行させ、
    前記抽出処理は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力することを含む、プログラム。
JP2019097202A 2019-05-23 2019-05-23 音声想起認識装置、装着具、音声想起認識方法及びプログラム Active JP7043081B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019097202A JP7043081B2 (ja) 2019-05-23 2019-05-23 音声想起認識装置、装着具、音声想起認識方法及びプログラム
CN202080037965.1A CN113873944A (zh) 2019-05-23 2020-05-22 语音联想识别装置、佩戴用具、语音联想识别方法及程序
US17/613,658 US20220238113A1 (en) 2019-05-23 2020-05-22 Speech imagery recognition device, wearing fixture, speech imagery recognition method, and program
EP20809757.6A EP3973861A1 (en) 2019-05-23 2020-05-22 Speech imagery recognition device, wearing fixture, speech imagery recognition method, and program
PCT/JP2020/020342 WO2020235680A1 (ja) 2019-05-23 2020-05-22 音声想起認識装置、装着具、音声想起認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019097202A JP7043081B2 (ja) 2019-05-23 2019-05-23 音声想起認識装置、装着具、音声想起認識方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2020191021A JP2020191021A (ja) 2020-11-26
JP2020191021A5 JP2020191021A5 (ja) 2022-01-06
JP7043081B2 true JP7043081B2 (ja) 2022-03-29

Family

ID=73454620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019097202A Active JP7043081B2 (ja) 2019-05-23 2019-05-23 音声想起認識装置、装着具、音声想起認識方法及びプログラム

Country Status (5)

Country Link
US (1) US20220238113A1 (ja)
EP (1) EP3973861A1 (ja)
JP (1) JP7043081B2 (ja)
CN (1) CN113873944A (ja)
WO (1) WO2020235680A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101932682B1 (ko) * 2016-08-29 2019-03-20 정금진 다관식 증기 보일러

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009297059A (ja) 2008-06-10 2009-12-24 Toyota Central R&D Labs Inc 脳訓練支援装置
US20120022391A1 (en) 2010-07-22 2012-01-26 Washington University In St. Louis Multimodal Brain Computer Interface
JP2017074356A (ja) 2015-10-16 2017-04-20 国立大学法人広島大学 感性評価方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2515875B2 (ja) * 1989-03-07 1996-07-10 日本電信電話株式会社 脳波トポグラフィによる音節認識装置
JPH066118B2 (ja) * 1989-10-14 1994-01-26 元 田村 脳波解析装置
US7054454B2 (en) * 2002-03-29 2006-05-30 Everest Biomedical Instruments Company Fast wavelet estimation of weak bio-signals using novel algorithms for generating multiple additional data frames
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与***
JP4411442B2 (ja) 2007-02-20 2010-02-10 国立大学法人 岡山大学 脳波−運動指令変換装置
US9788043B2 (en) * 2008-11-07 2017-10-10 Digimarc Corporation Content interaction methods and systems employing portable devices
KR101783959B1 (ko) * 2009-08-18 2017-10-10 삼성전자주식회사 청력을 검사하는 휴대용 음원재생장치 및 이를 수행하는 방법
JP5144836B2 (ja) * 2010-06-11 2013-02-13 パナソニック株式会社 語音聴取の評価システム、その方法およびそのプログラム
WO2016011189A1 (en) * 2014-07-15 2016-01-21 The Regents Of The University Of California Frequency-multiplexed speech-sound stimuli for hierarchical neural characterization of speech processing
JP6580882B2 (ja) * 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US11717686B2 (en) * 2017-12-04 2023-08-08 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to facilitate learning and performance
EP3731749A4 (en) * 2017-12-31 2022-07-27 Neuroenhancement Lab, LLC NEURO-ACTIVATION SYSTEM AND METHOD FOR ENHANCING EMOTIONAL RESPONSE
CN109741733B (zh) * 2019-01-15 2023-01-31 河海大学常州校区 基于一致性路由网络的语音音素识别方法
US11756540B2 (en) * 2019-03-05 2023-09-12 Medyug Technology Private Limited Brain-inspired spoken language understanding system, a device for implementing the system, and method of operation thereof
KR20210076451A (ko) * 2019-12-16 2021-06-24 현대자동차주식회사 사용자 인터페이스 시스템 및 그의 동작 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009297059A (ja) 2008-06-10 2009-12-24 Toyota Central R&D Labs Inc 脳訓練支援装置
US20120022391A1 (en) 2010-07-22 2012-01-26 Washington University In St. Louis Multimodal Brain Computer Interface
JP2017074356A (ja) 2015-10-16 2017-04-20 国立大学法人広島大学 感性評価方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101932682B1 (ko) * 2016-08-29 2019-03-20 정금진 다관식 증기 보일러

Also Published As

Publication number Publication date
EP3973861A1 (en) 2022-03-30
JP2020191021A (ja) 2020-11-26
WO2020235680A1 (ja) 2020-11-26
CN113873944A (zh) 2021-12-31
US20220238113A1 (en) 2022-07-28

Similar Documents

Publication Publication Date Title
Giri et al. Attention wave-u-net for speech enhancement
Kingsbury et al. Robust speech recognition using the modulation spectrogram
CN111048071B (zh) 语音数据处理方法、装置、计算机设备和存储介质
Darabkh et al. An efficient speech recognition system for arm‐disabled students based on isolated words
Moselhy et al. LPC and MFCC performance evaluation with artificial neural network for spoken language identification
Bulut et al. Low-latency single channel speech enhancement using u-net convolutional neural networks
WO2014062521A1 (en) Emotion recognition using auditory attention cues extracted from users voice
Heckmann et al. A hierarchical framework for spectro-temporal feature extraction
CN108198576A (zh) 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Adiga et al. Speech Enhancement for Noise-Robust Speech Synthesis Using Wasserstein GAN.
Mini et al. EEG based direct speech BCI system using a fusion of SMRT and MFCC/LPCC features with ANN classifier
Fazel et al. Sparse auditory reproducing kernel (SPARK) features for noise-robust speech recognition
JP7043081B2 (ja) 音声想起認識装置、装着具、音声想起認識方法及びプログラム
Abdulbaqi et al. Residual recurrent neural network for speech enhancement
Sharon et al. An empirical study of speech processing in the brain by analyzing the temporal syllable structure in speech-input induced EEG
CN113724687A (zh) 基于脑电信号的语音生成方法、装置、终端及存储介质
Martínez et al. Denoising sound signals in a bioinspired non-negative spectro-temporal domain
Krishna et al. Continuous Silent Speech Recognition using EEG
Angrick et al. Speech Spectrogram Estimation from Intracranial Brain Activity Using a Quantization Approach.
Murugan et al. Efficient Recognition and Classification of Stuttered Word from Speech Signal using Deep Learning Technique
Kayser et al. Denoising convolutional autoencoders for noisy speech recognition
Nemala et al. Biomimetic multi-resolution analysis for robust speaker recognition
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Agrawal et al. Robust raw waveform speech recognition using relevance weighted representations

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211126

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220309

R150 Certificate of patent or registration of utility model

Ref document number: 7043081

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150