JP7043081B2 - 音声想起認識装置、装着具、音声想起認識方法及びプログラム - Google Patents
音声想起認識装置、装着具、音声想起認識方法及びプログラム Download PDFInfo
- Publication number
- JP7043081B2 JP7043081B2 JP2019097202A JP2019097202A JP7043081B2 JP 7043081 B2 JP7043081 B2 JP 7043081B2 JP 2019097202 A JP2019097202 A JP 2019097202A JP 2019097202 A JP2019097202 A JP 2019097202A JP 7043081 B2 JP7043081 B2 JP 7043081B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- time series
- recognition device
- recall
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 76
- 210000004556 brain Anatomy 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 49
- 238000001228 spectrum Methods 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 34
- 230000003595 spectral effect Effects 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 26
- 238000012880 independent component analysis Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 9
- 230000001755 vocal effect Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 10
- 238000004070 electrodeposition Methods 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002566 electrocorticography Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007428 craniotomy Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 210000004761 scalp Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000028399 Critical Illness Diseases 0.000 description 1
- 206010028289 Muscle atrophy Diseases 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 210000003792 cranial nerve Anatomy 0.000 description 1
- 238000002599 functional magnetic resonance imaging Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 201000010901 lateral sclerosis Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000337 motor cortex Anatomy 0.000 description 1
- 208000005264 motor neuron disease Diseases 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000020763 muscle atrophy Effects 0.000 description 1
- 201000000585 muscular atrophy Diseases 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/377—Electroencephalography [EEG] using evoked responses
- A61B5/38—Acoustic or auditory stimuli
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/372—Analysis of electroencephalograms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/12—Transforming into visible information by displaying time domain information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Pathology (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Psychiatry (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Psychology (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- User Interface Of Digital Computer (AREA)
Description
近年は、膨大な音声データおよび言語データを利用し、音素の並び(音響モデル)と単語の並び(言語モデル)に関する確率情報をネットワーク上に蓄積・利用することで、高速・高性能な音声言語認識を実現している。他方、発話による周囲への迷惑・漏洩、発話困難な筋委縮性側索硬化症(ALS)患者などの増大から、発話を伴わない、音声想起(speech imagery)による言語認識実現が脳コンピュータ・インタフェース(Brain Computer Interface;BCI)の分野から望まれている。
また、脳波を検出して、この脳波から運動指令に関する信号を検出する技術が提案されている(特許文献1参照)
以下、本発明における音声想起認識装置の実施形態について、添付図面を参照して説明する。なお、添付図面は本発明の技術的特徴を説明するのに用いられており、記載されている装置の構成、各種処理の手順などは、特に特定的な記載がない限り、それのみに限定する趣旨ではない。なお、実施形態の説明の全体を通して同じ要素には同じ符号が付される。
音声想起認識装置1は、音声想起時の脳波から音声言語を認識するためのものである。
音声想起認識装置1は、図示しない頭皮上に設置する電極群から入力される脳波を離散信号群に変換する脳波入力部2と、電極毎に離散信号からノイズを除去する前処理部3と、電極毎に離散信号群を分析処理してスペクトル時系列を出力する分析処理部4と、全電極のスペクトル時系列から音素特徴ベクトル時系列を出力する言語特徴抽出部5と、音素特徴ベクトル時系列から音声言語である単語・文を認識する単語・文認識部6と、音声言語情報を表示・音声出力する後処理・出力部7により構成される。
(a)音声想起認識応用システムから与えられる、プロンプト信号(想起開始を指示する信号)に続いて利用者が音声想起を行う。
(b)利用者から応用システムへの決められた呼びかけ「Yamadaさん」など(wake-up word)に続き音声想起を行う。
の二通りが考えられるが、何れの場合も音声想起の前、あるいは後の区間で観測した脳波からN(q,f,n’)を計算する。
続いて電極q 毎に、音声想起信号のスペクトラムX1(q, f, n’)から、Nav(q,f,n’)を次式のように引き去る。
線形予測符号化(Linear Predictive Coding;LPC)は、音声通信方式として、現在、世界標準になっている。音声では情報源が声帯による一定周期のパルス波と声道の狭めによるランダム波の二つになる。このため、音源を符号帳(codebook)として別途保持し、符号帳の全ての音源を音声の線形予測係数(声道の伝達関数を担う)に通し、この合成音声と元の音声との比較を行うという複雑な処理を必要としている。
以下、図7の言語特徴抽出部の処理フロー図に沿って処理過程を説明する。言語特徴出部5は、分析処理部4から電極qのスペクトル時系列が入力される(ステップS1)。音声想起時脳波のスペクトラムは、図8(A)に示すように±5Hz程度の揺らぎを持つことがある。そこで、これらの周波数揺らぎを非線形フィルタリングの一種である中間値フィルタ(median filter)を用いて、周波数揺らぎを吸収する(ステップS2)。
(i) 周波数軸上の極大値Δf =0となる周波数、
(ii) 変曲点ΔΔf =0の時
Δf >0ならΔΔf の値が正から負に変化する周波数、
Δf <0ならΔΔf の値が負から正に変化する周波数、
これらの条件を満たす場合にのみ、元の振幅を持つ正弦波周波数成分、すなわち線スペクトル成分とする。
図9では9電極の線スペクトル時系列を、電極方向にプーリング(9電極から代表となるパターンを抽出する処理を行う。p-normを取るなどの処理(p=∞は最大値を取ることに相当))の処理を行い、統合した線スペクトルを対象に音節ラベリングを行った結果を示している。ここでのプーリング処理は音節ラベルを読み取るだけのために行っており、以下の音素特徴抽出では元の9電極の線スペクトル成分を対象にしている。
音素k;k=1, 2,…, Kの尤度L(k)をK個並べたベクトルを音素特徴ベクトルとする。(7)式は、音素の固有ベクトルφ(f,n’)を利用して音素単位の畳み込み演算子を構成しており、音素k毎に尤度としてのスカラー値L(k)が得られ、これをK個並べたベクトルが、入力X(f,n’)の時刻n’が推移するに従い(音素尤度ベクトル)時系列データとして言語特徴抽出部5から出力される(ステップS5、ステップS16)。
図13に音素の尤度(L(g),L(o),…)から音節の尤度(L(go),L(ro),…)を求めて表示した例を示した。この例は連続数字(“1,2,3,4,5,6,7,8, 9,0”)をこの順で想起した際の音節の尤度を濃淡で示している。縦軸に音節(上からi,chi,ni,sa,N,yo,o,go,ro,ku,na,ha,kyu,u, ze,e,noise)を示した。連続数字を構成する音節の尤度が高い値で求められていることが分かる。
図14に示すように、テスト音声想起(“山田さん”など)を音声想起すると、脳波入力部2より脳波が入力され、後処理・出力部7が表示する画面に、色、〇の大きさ、グラティーションの濃さ(図の例)等で認識結果の精度を示すことができる。図14では、最初の電極位置(1)では白色で表示され、次の電極位置(2)では薄いグレーで表示され、次の電極位置(3)ではグレーで表示され、さらに次の電極位置(4)では濃いグレーで表示され、次の位置(5)では薄いグレーで表示されている。したがって、電極位置(4)が最適な電極位置であることを利用者は知ることができる。精度の違いを時系列で見ながら、正解が出る方向にセンサー位置を移動させ更正する機能を持たせる例を示した。
図15に示すように、音声想起認識装置10は、装着具11、携帯端末12、サーバ13を備える。装着具11は、音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具である。装着具11は、電極群22を保持するシート部21、ブローカ野周辺に配置される電極群22と、電極群22からの信号を出力する処理部23と、を有する。電極群22は、上述したように9電極から構成されているが、電極数は限定されない。処理部23は、通信機能を有していてもよく、図1で示した音声想起認識装置1の一部又は全部の処理を行うことができる。
音声想起時の脳波から音声言語を認識する音声想起認識方法は、装着具11、携帯端末12及び/又はサーバ13によって実行され、装着具11、携帯端末12及び/又はサーバ13は単独で又は協働して実行することができる。音声想起認識方法は、携帯端末12とサーバ13とによって実行することができる。
図16に示すように、音声想起認識装置20は、装着具11とサーバ13とにより構成されている。装着具11の構成は、図15で説明した通りであるが、装着具11の処理部23は、サーバ13と直接通信する機能を有する。装着具11が直接サーバ13と情報のやりとりを行うことにより、音声想起認識装置の機能を実現することができる。
図17に示すように、音声想起認識装置30は、装着具11から構成されている。装着具11の処理部23が、図1で示した音声想起認識装置30のすべての機能を実現することにより、装着具11だけによって音声想起認識装置を実現することができる。
音声想起時の脳波から音声言語を認識する音声想起認識方法であって、
電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、
前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、
を含む音声想起認識方法。
電極群から入力される脳波を離散信号群に変換する入力ステップを更に含む、付記1に記載の音声想起認識方法。
(付記3)
前記電極毎の離散信号群を周波数領域に変換した音声想起信号のスペクトラムから平均ノイズ振幅スペクトルを差し引くことにより前記脳波中のノイズを除去する処理を行う前処理部を更に含む、付記1又は付記2に記載の音声想起認識方法。
前記ノイズ除去後の各電極信号から少数の独立した情報源を取り出す独立成分分析を行うステップを更に含む付記3に記載の音声想起認識方法。
(付記5)
前記音素特徴ベクトル時系列に基づき、前記音声言語を認識する認識ステップを更に含む、付記1から付記4のいずれかに記載の音声想起認識方法。
(付記6)
前記認識した音声言語を出力する出力ステップを更に含む、付記1から付記5のいずれかに記載の音声想起認識方法。
前記音声想起しながら前記電極群の最適位置を調整することを支援する画面を表示するステップを更に含む、付記6に記載の音声想起認識方法。
(付記8)
前記分析処理ステップは、線形予測分析を適用することにより前記スペクトル時系列を抽出する、付記1から付記7のいずれかに記載の音声想起認識方法。
(付記9)
前記分析処理ステップは、前記電極毎の離散信号に基づき、周波数揺らぎを吸収するステップを含む、付記1から付記8のいずれかに記載の音声想起認識方法。
前記分析処理ステップは、時間フレーム毎に、周波数軸上のピーク由来の周波数を線スペクトル成分として抽出する、付記1から付記9のいずれかに記載の音声想起認識方法。
(付記11)
前記抽出ステップは、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力する、付記1から付記10のいずれかに記載の音声想起認識方法。
前記音声想起認識方法は、携帯端末、サーバ又は携帯端末及びサーバによって実行される、付記1から付記11のいずれかに記載の音声想起認識方法。
(付記13)
装着具に設けられるブローカ野周辺に配置される電極群からの信号を出力する出力ステップを更に含む、付記1から付記12のいずれかに記載の音声想起認識方法。
2 脳波入力部
3 前処理部
4 分析処理部
5 言語特徴抽出部
6 単語・文字認識部
7 後処理・出力部
Claims (16)
- 音声想起時の脳波から音声言語を認識する音声想起認識装置であって、
電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理部と、
前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出部と、
を有し、
前記抽出部は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力する、音声想起認識装置。 - 電極群から入力される脳波を離散信号群に変換する脳波入力部を更に有する、請求項1に記載の音声想起認識装置。
- 前記電極毎の離散信号群を周波数領域に変換した音声想起信号のスペクトラムから平均ノイズ振幅スペクトルを差し引くことにより前記脳波中のノイズを除去する処理を行う前処理部を更に有する、請求項1又は請求項2に記載の音声想起認識装置。
- 前記前処理部は、前記ノイズ除去後の各電極信号から少数の独立した情報源を取り出す独立成分分析を行う請求項3に記載の音声想起認識装置。
- 前記音素特徴ベクトル時系列に基づき、前記音声言語を認識する認識部を更に有する、請求項1から請求項4のいずれか1項に記載の音声想起認識装置。
- 前記認識部で認識した音声言語を出力する出力部を更に有する、請求項5に記載の音声想起認識装置。
- 前記出力部は、前記認識部による認識の実行中において前記電極群の最適位置を調整することを支援する画面を表示する、請求項6に記載の音声想起認識装置。
- 前記分析処理部は、線形予測分析を適用することにより前記スペクトル時系列を抽出する、請求項1から請求項7のいずれか1項に記載の音声想起認識装置。
- 前記分析処理部は、前記電極毎の離散信号に基づき、周波数揺らぎを吸収する処理を行う、請求項1から請求項8のいずれか1項に記載の音声想起認識装置。
- 前記分析処理部は、時間フレーム毎に、周波数軸上のピーク由来の周波数を線スペクトル成分として抽出する、請求項1から請求項9のいずれか1項に記載の音声想起認識装置。
- ブローカ野周辺に配置される電極群を更に有する請求項1から請求項10のいずれか1項に記載の音声想起認識装置。
- 頭部に装着する装着具を更に有する請求項11に記載の音声想起認識装置。
- 前記音声想起認識装置は、携帯端末、サーバ又は携帯端末及びサーバによって構成される、請求項1から請求項11のいずれか1項に記載の音声想起認識装置。
- 音声想起時の脳波から音声言語を認識する音声想起認識装置用の装着具であって、
ブローカ野周辺に配置される電極群と、
前記電極群からの信号を出力する処理部と、を有し、
前記音声想起認識装置は、前記処理部から出力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、
前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出処理と、を実行し、
前記抽出処理は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力することを含む、装着具。 - 音声想起時の脳波から音声言語を認識する音声想起認識方法であって、
電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理ステップと、
前記スペクトル時系列に基づき、音素特徴ベクトル時系列を出力する抽出ステップと、
を含み、
前記抽出ステップは、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力することを含む、コンピュータにより実行される音声想起認識方法。 - コンピュータに、音声想起時の脳波から音声言語を認識する音声想起認識処理を実行させるためのプログラムであって、
コンピュータに、
電極群から入力される前記電極毎の脳波の離散信号群を分析処理してスペクトル時系列を出力する分析処理と、
前記電極毎のスペクトル成分に基づき、音素特徴ベクトル時系列を抽出する抽出処理と、
を実行させ、
前記抽出処理は、所定の畳み込み演算子を用いて言語特徴である音素尤度ベクトル時系列を出力することを含む、プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019097202A JP7043081B2 (ja) | 2019-05-23 | 2019-05-23 | 音声想起認識装置、装着具、音声想起認識方法及びプログラム |
CN202080037965.1A CN113873944A (zh) | 2019-05-23 | 2020-05-22 | 语音联想识别装置、佩戴用具、语音联想识别方法及程序 |
US17/613,658 US20220238113A1 (en) | 2019-05-23 | 2020-05-22 | Speech imagery recognition device, wearing fixture, speech imagery recognition method, and program |
EP20809757.6A EP3973861A1 (en) | 2019-05-23 | 2020-05-22 | Speech imagery recognition device, wearing fixture, speech imagery recognition method, and program |
PCT/JP2020/020342 WO2020235680A1 (ja) | 2019-05-23 | 2020-05-22 | 音声想起認識装置、装着具、音声想起認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019097202A JP7043081B2 (ja) | 2019-05-23 | 2019-05-23 | 音声想起認識装置、装着具、音声想起認識方法及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020191021A JP2020191021A (ja) | 2020-11-26 |
JP2020191021A5 JP2020191021A5 (ja) | 2022-01-06 |
JP7043081B2 true JP7043081B2 (ja) | 2022-03-29 |
Family
ID=73454620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019097202A Active JP7043081B2 (ja) | 2019-05-23 | 2019-05-23 | 音声想起認識装置、装着具、音声想起認識方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220238113A1 (ja) |
EP (1) | EP3973861A1 (ja) |
JP (1) | JP7043081B2 (ja) |
CN (1) | CN113873944A (ja) |
WO (1) | WO2020235680A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101932682B1 (ko) * | 2016-08-29 | 2019-03-20 | 정금진 | 다관식 증기 보일러 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009297059A (ja) | 2008-06-10 | 2009-12-24 | Toyota Central R&D Labs Inc | 脳訓練支援装置 |
US20120022391A1 (en) | 2010-07-22 | 2012-01-26 | Washington University In St. Louis | Multimodal Brain Computer Interface |
JP2017074356A (ja) | 2015-10-16 | 2017-04-20 | 国立大学法人広島大学 | 感性評価方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2515875B2 (ja) * | 1989-03-07 | 1996-07-10 | 日本電信電話株式会社 | 脳波トポグラフィによる音節認識装置 |
JPH066118B2 (ja) * | 1989-10-14 | 1994-01-26 | 元 田村 | 脳波解析装置 |
US7054454B2 (en) * | 2002-03-29 | 2006-05-30 | Everest Biomedical Instruments Company | Fast wavelet estimation of weak bio-signals using novel algorithms for generating multiple additional data frames |
CN1991976A (zh) * | 2005-12-31 | 2007-07-04 | 潘建强 | 基于音素的语音识别方法与*** |
JP4411442B2 (ja) | 2007-02-20 | 2010-02-10 | 国立大学法人 岡山大学 | 脳波−運動指令変換装置 |
US9788043B2 (en) * | 2008-11-07 | 2017-10-10 | Digimarc Corporation | Content interaction methods and systems employing portable devices |
KR101783959B1 (ko) * | 2009-08-18 | 2017-10-10 | 삼성전자주식회사 | 청력을 검사하는 휴대용 음원재생장치 및 이를 수행하는 방법 |
JP5144836B2 (ja) * | 2010-06-11 | 2013-02-13 | パナソニック株式会社 | 語音聴取の評価システム、その方法およびそのプログラム |
WO2016011189A1 (en) * | 2014-07-15 | 2016-01-21 | The Regents Of The University Of California | Frequency-multiplexed speech-sound stimuli for hierarchical neural characterization of speech processing |
JP6580882B2 (ja) * | 2015-06-24 | 2019-09-25 | 株式会社東芝 | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム |
US11717686B2 (en) * | 2017-12-04 | 2023-08-08 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to facilitate learning and performance |
EP3731749A4 (en) * | 2017-12-31 | 2022-07-27 | Neuroenhancement Lab, LLC | NEURO-ACTIVATION SYSTEM AND METHOD FOR ENHANCING EMOTIONAL RESPONSE |
CN109741733B (zh) * | 2019-01-15 | 2023-01-31 | 河海大学常州校区 | 基于一致性路由网络的语音音素识别方法 |
US11756540B2 (en) * | 2019-03-05 | 2023-09-12 | Medyug Technology Private Limited | Brain-inspired spoken language understanding system, a device for implementing the system, and method of operation thereof |
KR20210076451A (ko) * | 2019-12-16 | 2021-06-24 | 현대자동차주식회사 | 사용자 인터페이스 시스템 및 그의 동작 방법 |
-
2019
- 2019-05-23 JP JP2019097202A patent/JP7043081B2/ja active Active
-
2020
- 2020-05-22 CN CN202080037965.1A patent/CN113873944A/zh not_active Withdrawn
- 2020-05-22 US US17/613,658 patent/US20220238113A1/en not_active Abandoned
- 2020-05-22 WO PCT/JP2020/020342 patent/WO2020235680A1/ja unknown
- 2020-05-22 EP EP20809757.6A patent/EP3973861A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009297059A (ja) | 2008-06-10 | 2009-12-24 | Toyota Central R&D Labs Inc | 脳訓練支援装置 |
US20120022391A1 (en) | 2010-07-22 | 2012-01-26 | Washington University In St. Louis | Multimodal Brain Computer Interface |
JP2017074356A (ja) | 2015-10-16 | 2017-04-20 | 国立大学法人広島大学 | 感性評価方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101932682B1 (ko) * | 2016-08-29 | 2019-03-20 | 정금진 | 다관식 증기 보일러 |
Also Published As
Publication number | Publication date |
---|---|
EP3973861A1 (en) | 2022-03-30 |
JP2020191021A (ja) | 2020-11-26 |
WO2020235680A1 (ja) | 2020-11-26 |
CN113873944A (zh) | 2021-12-31 |
US20220238113A1 (en) | 2022-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Giri et al. | Attention wave-u-net for speech enhancement | |
Kingsbury et al. | Robust speech recognition using the modulation spectrogram | |
CN111048071B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
Darabkh et al. | An efficient speech recognition system for arm‐disabled students based on isolated words | |
Moselhy et al. | LPC and MFCC performance evaluation with artificial neural network for spoken language identification | |
Bulut et al. | Low-latency single channel speech enhancement using u-net convolutional neural networks | |
WO2014062521A1 (en) | Emotion recognition using auditory attention cues extracted from users voice | |
Heckmann et al. | A hierarchical framework for spectro-temporal feature extraction | |
CN108198576A (zh) | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Adiga et al. | Speech Enhancement for Noise-Robust Speech Synthesis Using Wasserstein GAN. | |
Mini et al. | EEG based direct speech BCI system using a fusion of SMRT and MFCC/LPCC features with ANN classifier | |
Fazel et al. | Sparse auditory reproducing kernel (SPARK) features for noise-robust speech recognition | |
JP7043081B2 (ja) | 音声想起認識装置、装着具、音声想起認識方法及びプログラム | |
Abdulbaqi et al. | Residual recurrent neural network for speech enhancement | |
Sharon et al. | An empirical study of speech processing in the brain by analyzing the temporal syllable structure in speech-input induced EEG | |
CN113724687A (zh) | 基于脑电信号的语音生成方法、装置、终端及存储介质 | |
Martínez et al. | Denoising sound signals in a bioinspired non-negative spectro-temporal domain | |
Krishna et al. | Continuous Silent Speech Recognition using EEG | |
Angrick et al. | Speech Spectrogram Estimation from Intracranial Brain Activity Using a Quantization Approach. | |
Murugan et al. | Efficient Recognition and Classification of Stuttered Word from Speech Signal using Deep Learning Technique | |
Kayser et al. | Denoising convolutional autoencoders for noisy speech recognition | |
Nemala et al. | Biomimetic multi-resolution analysis for robust speaker recognition | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech | |
Agrawal et al. | Robust raw waveform speech recognition using relevance weighted representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211126 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211126 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20211126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7043081 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |