JP4439740B2 - 音声変換装置及び方法 - Google Patents
音声変換装置及び方法 Download PDFInfo
- Publication number
- JP4439740B2 JP4439740B2 JP2000600451A JP2000600451A JP4439740B2 JP 4439740 B2 JP4439740 B2 JP 4439740B2 JP 2000600451 A JP2000600451 A JP 2000600451A JP 2000600451 A JP2000600451 A JP 2000600451A JP 4439740 B2 JP4439740 B2 JP 4439740B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- information
- user
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 141
- 238000006243 chemical reaction Methods 0.000 title claims description 112
- 238000012545 processing Methods 0.000 claims abstract description 253
- 230000008569 process Effects 0.000 claims description 87
- 238000004891 communication Methods 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 39
- 238000003860 storage Methods 0.000 claims description 34
- 230000033001 locomotion Effects 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 12
- 208000011977 language disease Diseases 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 238000003384 imaging method Methods 0.000 claims description 5
- 230000013707 sensory perception of sound Effects 0.000 abstract description 175
- 208000032041 Hearing impaired Diseases 0.000 abstract description 10
- 230000001131 transforming effect Effects 0.000 abstract 1
- MOVRNJGDXREIBM-UHFFFAOYSA-N aid-1 Chemical compound O=C1NC(=O)C(C)=CN1C1OC(COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)COP(O)(=O)OC2C(OC(C2)N2C3=C(C(NC(N)=N3)=O)N=C2)CO)C(O)C1 MOVRNJGDXREIBM-UHFFFAOYSA-N 0.000 description 123
- 230000007246 mechanism Effects 0.000 description 36
- 238000005516 engineering process Methods 0.000 description 24
- 238000013519 translation Methods 0.000 description 23
- 230000015572 biosynthetic process Effects 0.000 description 22
- 238000003786 synthesis reaction Methods 0.000 description 20
- 210000001508 eye Anatomy 0.000 description 19
- 230000014509 gene expression Effects 0.000 description 17
- 230000000007 visual effect Effects 0.000 description 14
- 210000000988 bone and bone Anatomy 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 208000016354 hearing loss disease Diseases 0.000 description 11
- 206010011878 Deafness Diseases 0.000 description 10
- 210000003128 head Anatomy 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 8
- 239000007943 implant Substances 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 230000000638 stimulation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000010370 hearing loss Effects 0.000 description 6
- 231100000888 hearing loss Toxicity 0.000 description 6
- 230000008447 perception Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000002604 ultrasonography Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 4
- 210000000133 brain stem Anatomy 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000004438 eyesight Effects 0.000 description 4
- 210000000867 larynx Anatomy 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 210000000214 mouth Anatomy 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000035807 sensation Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 210000003926 auditory cortex Anatomy 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006735 deficit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 210000003027 ear inner Anatomy 0.000 description 3
- 210000000959 ear middle Anatomy 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012074 hearing test Methods 0.000 description 3
- 230000000474 nursing effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000001525 retina Anatomy 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000001720 vestibular Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 241000167880 Hirundinidae Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 201000007201 aphasia Diseases 0.000 description 2
- 208000030137 articulation disease Diseases 0.000 description 2
- 239000003990 capacitor Substances 0.000 description 2
- 230000002490 cerebral effect Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 231100000895 deafness Toxicity 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000015541 sensory perception of touch Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 230000035882 stress Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 102100022717 Atypical chemokine receptor 1 Human genes 0.000 description 1
- 102100031680 Beta-catenin-interacting protein 1 Human genes 0.000 description 1
- 208000023914 Central Auditory disease Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000678879 Homo sapiens Atypical chemokine receptor 1 Proteins 0.000 description 1
- 101000993469 Homo sapiens Beta-catenin-interacting protein 1 Proteins 0.000 description 1
- 241001282135 Poromitra oscitans Species 0.000 description 1
- 241000746998 Tragus Species 0.000 description 1
- 206010048232 Yawning Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 239000012237 artificial material Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 201000009310 astigmatism Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006931 brain damage Effects 0.000 description 1
- 231100000874 brain damage Toxicity 0.000 description 1
- 208000029028 brain injury Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 210000000860 cochlear nerve Anatomy 0.000 description 1
- 210000003952 cochlear nucleus Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000009133 cooperative interaction Effects 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000013013 elastic material Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 210000003026 hypopharynx Anatomy 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 229910052741 iridium Inorganic materials 0.000 description 1
- GKOZUEZYRPOHIO-UHFFFAOYSA-N iridium atom Chemical compound [Ir] GKOZUEZYRPOHIO-UHFFFAOYSA-N 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000002406 microsurgery Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000004877 mucosa Anatomy 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000001328 optic nerve Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 244000144985 peep Species 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 229940001470 psychoactive drug Drugs 0.000 description 1
- 239000004089 psychotropic agent Substances 0.000 description 1
- 230000000506 psychotropic effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 230000004270 retinal projection Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 229910001285 shape-memory alloy Inorganic materials 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 230000002739 subcortical effect Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 239000003826 tablet Substances 0.000 description 1
- 210000003582 temporal bone Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
- G10L2021/0575—Aids for the handicapped in speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Educational Technology (AREA)
- Neurosurgery (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Otolaryngology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
- Electric Clocks (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- External Artificial Organs (AREA)
- Spinning Or Twisting Of Yarns (AREA)
Description
本発明は、マイクロホン等により検出した音声を聴力障害者が理解しやすい形式に加工変換して提示したり、音声言語障害を持つ者より発せられた音声や音声言語障害を是正するために用いる補助的装置や手段(例:喉頭摘出者の代用発声法(speech production substitutes))により発せられた音声を加工変換して出力したりする音声変換装置及び方法に関する。
背景技術
従来から補聴器には、気導方式と、骨導方式があり、また処理方式としてアナログ補聴器(リニアタイプ、ノンリニアタイプ(K−アンプ)、コンプレッションタイプ等)とディジタル補聴器がある。補聴器の種類は、箱形、耳かけ型、CROS(Contra−lateral Routing of Signal)型、耳穴形、bone−anchored型等がある。小寺の報告により補聴器には集団使用の大型(卓上訓練用、集団訓練用)、個人的使用の小型のものがある(参照 Kodera K,図説耳鼻咽喉科new approach 1 Medicalview,39,1996)。
ディジタル補聴器は、マイクロホンで検出した音声を先ずA/D(analog/digital)変換によりディジタルデータを生成し、例えばフーリエ変換により入力されたディジタルデータを周波数スペクトルに分解し、各周波数帯域毎に音声の感覚的な大きさに基づいた増幅度の算出を行い、ディジタルデータをディジタルフィルターに通過させてD/A変換を行って再び音声を使用者の耳に出力するように構成されている。これにより、ディジタル補聴器は、話し手の音声を雑音の少ない状態で使用者に聞かせていた。
また、従来、例えば喉頭摘出による音声障害者は、声帯振動による発声機構を失い、音声生成が困難になる。
喉頭摘出者の代用発声法には、(1)人工材料(例:ゴム膜(笛式人工喉頭)、(2)ブザー(例:電気式人工喉頭)、(3)下咽頭・食道粘膜(例:食道発声、気管食道瘻発声、ボイスプロステーシス(voice prostheses)使用の気管食道瘻発声)、(4)***の筋電図、(5)発声発話訓練装置(例 CISTA)、(6)パラトグラフ(palatograph)、(7)口腔内振動子等によるものがある。
しかし、上述したディジタル補聴器では、各周波数帯域毎にディジタルデータを増幅させる処理を行っているだけなので、マイクロホンにより周囲の音を無作為に収音し、雑音をそのまま再生して使用者の不快感が残り、アナログ補聴器と比べても、種々の聴力検査において大幅な改善はなかった。また、従来のディジタル補聴器では、難聴者の身体状態、利用状態及び使用目的に応じて検出した音声に対する処理を適応させることはなされていなかった。
また、代用発声法は、喉頭摘出前の声帯振動によるものではなく、生成する音声の音質が悪く、本来正常であった本人が発していた声とはかけ離れているという問題点が挙げられる。
発明の開示
本発明の目的は、使用者の身体状態、利用状態及び使用目的に応じて音声認識の結果を提示するとともに、ノイズが少ない状態で認識結果を提示することができる音声変換装置及び方法を提供することにある。
本発明の他の目的は、喉頭摘出、舌口腔底切除、構音障害(articulation disorder)等による音声言語障害者が本来自身がもつ、或いは自在に変換させて自然な音声での発声を可能とするとともに、外部の音声を使用者に出力して自然な会話を行わせることができる音声変換装置及び方法を提供することにある。
上述したような目的を達成するため、本発明に係る音声変換装置は、音声を検出して音声信号を生成する音響電気変換手段と、音響電気変換手段からの音声信号を用いて音声認識処理を行う認識手段と、認識手段からの認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換する変換手段と、認識手段により認識された結果及び/又は認識結果を変換手段により加工変換した認識結果を出力させる制御信号を生成する出力制御手段と、出力制御手段で生成された制御信号に基づいて認識手段により認識され変換手段により加工変換された認識結果を出力して認識結果を使用者に提示する出力手段とを備えることを特徴とする。
上述の課題を解決する本発明に係る音声変換方法は、音声を検出して音声信号を生成し、音響電気変換手段からの音声信号を用いて音声認識処理を行い、認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換し、認識結果及び/又は認識結果を加工変換した認識結果を出力させる制御信号を生成し、制御信号に基づいて加工変換した認識結果を出力して認識結果を使用者に提示することを特徴とする。
本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施例の説明から一層明らかにされるであろう。
発明を実施するための最良の形態
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。
本発明は、例えば図1及び図2に示すように構成された補聴器1に適用される。この補聴器1は、図1に示すように、ヘッドマウントディスプレイ(head−mounted display:HMD)2と、音声認識、音声情報の生成等を行うコンピュータ部3との間を光ファイバーケーブル4で接続してなる携帯型のものである。また、コンピュータ部3は、例えば使用者の腰部に装着されるような支持部5に付属して配設され、当該支持部5に付属したバッテリ6からの電力供給により駆動するとともに、HMD2を駆動させる。
HMD2は、使用者の目前に配置されるディスプレイ部7と、使用者からの音声を検出する使用者用マイクロホン8と、使用者に音声を出力する音声出力部9と、使用者の頭部に上述の各部を配置させるように支持する支持部5と、外部からの音声等を検出する外部用マイクロホン11とを備える。
ディスプレイ部7は、使用者の目前に配されることで例えば使用者用マイクロホン8及び/又は後述の外部用マイクロホン11で検出した音声の意味内容等を表示する。なお、このディスプレイ部7は、コンピュータ部3からの命令に応じて、上述の音声の意味内容のみならず、他の情報を表示しても良い。
使用者用マイクロホン8は、使用者の口元付近に配設され、使用者が発した音声を検出する。そして、この使用者用マイクロホン8は、使用者からの音声を電気信号に変換してコンピュータ部3に出力する。
外部用マイクロホン11は、丸板状に形成された音声出力部9の側面に設けられる。この外部用マイクロホン11は、外部からの音声を検出して電気信号に変換してコンピュータ部3に出力する。
この使用者用マイクロホン8及び外部用マイクロホン11は、配設する位置を問わず、使用者の操作に応じて、種々のマイク(音圧マイクロフォン(pressure microphone)、音圧傾度マイクロフォン(pressuer gradient microphone)、パラメトリックマイクロフォン、レーザドップラマイクロフォン、骨導マイク、気導音と骨導音を拾い上げるマイクをもつ超小型送受話一体ユニットのマイク(日本電信電話製)、無指向性マイク、単一指向性(超指向性等)マイク、双指向性マイク、ダイナミックマイク、コンデンサーマイク(エレクトレットマイク)、ズームマイク、ステレオマイク、MSステレオマイク、ワイヤレスマイク)、セラミックマイク、マグネティックマイク)や音響信号処理技術(音響エコーキャンセラー(acoustic echo canceller))、マイクロフォンアレイ(microphone array))を用いてもよい。
また、イヤホンとしては、マグネティックイヤホンが使用可能である。マイクとイヤホンは、拡声器、補聴器等、マイクは人工中耳・内耳、聴性脳幹インプラント、タクタイルエイド、bone・conduction ultrasound system等で従来用いられているものを使用しても良い。これらのマイクの収音技術として、エコーキャンセラ等を用いても良い。
また、これらのマイクロホン8,11は、従来より採用されている利得調整器と音声調整器と出力制御装置(maximam output power control式、automatic recruitment control compression式等)を適用したものが使用可能である。
更に、使用者用マイクロホン8及び外部用マイクロホン11は、図1に示すように、別個に設ける一例のみならず、一体に構成されたものであっても良い。
支持部5は、例えば形状記憶合金等の弾性材料等からなり、使用者の頭部に固定可能とすることで、上述のディスプレイ部7,使用者用マイクロホン8,音声出力部9を所定の位置に配設可能とする。なお、この図1に示した支持部5は、使用者の額から後頭部に亘って支持部材を配設することでディスプレイ部7等を所定位置に配設するものの一例について説明したが、所謂ヘッドホン型の支持部であっても良いことは勿論であり、音声出力部9を両耳について設けても良い。
コンピュータ部3は、例えば使用者の腰部に装着される支持部5に付属されてなる。このコンピュータ部3は、図2に示すように、例えばマイクロホン8,11で検出して生成した電気信号が入力される。このコンピュータ部3は、電気信号を処理するためのプログラムを格納した記録媒体、この記録媒体に格納されたプログラムに従って音声認識、音声情報の生成処理を行うCPU(Central Processing Unit)等を備えてなる。なお、このコンピュータ部3は、腰部のみならず、頭部のHMD2と一体化しても良い。
コンピュータ部3は、使用者用マイクロホン8及び/又は外部用マイクロホン11で検出した音声から生成した電気信号に基づいて、記録媒体に格納されたプログラムを起動することで、CPUにより音声認識処理を行うことで、認識結果を得る。これにより、コンピュータ部3は、CPUにより、使用者用マイクロホン8及び/又は外部用マイクロホン11で検出した音声の内容を得る。
次に本発明を適用した補聴器1の電気的な構成について図2を用いて説明する。この補聴器1は、音声を検出して音声信号を生成する上述のマイクロホン8,11に相当するマイクロホン21と、マイクロホン21で生成された音声信号が入力され音声認識処理を行う上述のコンピュータ部3に含まれる信号処理部22、信号処理部22からの認識結果に基づいて音声情報を生成する上述のコンピュータ部3に含まれる音声情報生成部23と、音声データが記憶され信号処理部22及び音声情報生成部23にその内容が読み込まれる上述のコンピュータ部3に含まれる記憶部24と、音声情報生成部23からの音声情報を用いて音声を出力する上述の音声出力部9に相当するスピーカ部25と、音声情報生成部23からの音声情報を用いて当該音声情報が示す内容を表示する上述のディスプレイ部7に相当する表示部26とを備える。
マイクロホン21は、例えば喉頭摘出者の代用発声法を用いて発せられた音声又は外部からの音声を検出して、当該音声に基づく音声信号を生成する。そして、このマイクロホン21は、生成した音声信号を信号処理部22に出力する。
また、このマイクロホン21は、使用者の口元付近に配設され、使用者が発した音声を検出する。また、このマイクロホン21は、外部からの音声を検出して音声信号を生成する。なお、以下の説明においては、使用者の音声を検出するマイクロホンを上述と同様に使用者用マイクロホン8と呼び、外部からの音声を検出するマイクロホンを上述と同様に外部用マイクロホン11と呼び、双方を総称するときには単にマイクロホン21と呼ぶ。
信号処理部22は、マイクロホン21からの音声信号を用いて音声認識処理を行う。この信号処理部22は、例えば内部に備えられたメモリに格納した音声認識処理を行うためのプログラムに従った処理を行うことにより音声認識処理を実行する。具体的には、この信号処理部22は、使用者の音声をサンプリングして生成し記憶部24に格納された音声データを参照し、マイクロホン21からの音声信号を言語として認識する処理を行う。この結果、この信号処理部22は、マイクロホン21からの音声信号に応じて認識結果を生成する。
この信号処理部22は、例えば認識対象音声による分類と対象話者による分類の音声認識処理があり、認識対象音声による分類の音声認識処理では単語音声認識(isolated word recognition)と連続音声認識(continuous speech recognition)がある。また、信号処理部22は、連続音声認識には連続単語音声認識(continuous word recognition)と文音声認識(sentence speech recognition)、会話音声認識(conversational speech recognition)、音声理解(speech understanding)がある。また対象話者による分類では不特定話者型(speaker independent)、特定話者型(speaker dependent)、話者適応型(speaker adaptive)等がある。この信号処理部22が行う音声認識手法としては、ダイナミックプログラミングマッチィング(Dynamic Programming matching)、音声の特徴、隠れマルコフモデル(Hidden Markov model:HMM)によるものがある。
また、信号処理部22は、入力した音声を用いて話者認識(speaker recognition)(話者識別speaker identification、話者照合speaker verification)を行う。このとき、信号処理部22は、使用者の話者からの音声の特徴を抽出する処理や音声の周波数特性を用いて話者認識結果を生成して音声情報生成部23に出力する。また、信号処理部22は、話者による変動が小さな特徴量を用いる方法、マルチテンプレート法、統計的手法を用いて不特定話者認識を行う。また、話者適応には、個人差の正規化法、話者間の音声データの対応関係によるもの、モデルパラメータの更新によるもの、話者選択によるものがある。この信号処理部22では、以上の音声認識を使用者の身体状態、利用状態及び使用目的に応じて行う。
ここで、使用者の身体状態とは使用者の難聴や言語障害の程度等を意味し、利用状態とは使用者が補聴器1を使用する環境(室内、野外、騒音下)等を意味し、使用目的とは使用者が補聴器1を利用するときの目的、即ち認識の向上させることや、使用者が理解しやすいようにすること等であって、例えば普段話す人との対話や、不特定多数との対話や、音楽(オペラ、演歌)の観覧、講演をきくことや、言語障害者との対話である。
また、この信号処理部22は、マイクロホン21に入力した音声を記憶し、学習する機能を有する。具体的には、信号処理部22は、マイクロホン21で検出した音声の波形データを保持しておき、後の音声認識処理に用いる。これにより、信号処理部22は、更に音声認識を向上させる。更に、この信号処理部22は、学習機能を備えることで出力する結果を正確にすることができる。
記憶部24には、信号処理部22が入力された音声を認識するときに、入力された音声を検出することで生成した音声波形と比較される音声モデルを示すデータが格納されている。
また、記憶部24には、例えば喉頭摘出前の声帯振動による発声機構を持つ使用者の音声や、出力することを希望する音声を予めサンプリングして得たデータが音声データとして格納されている。
更に、記憶部24には、認識結果及び/又は加工変換して得た認識結果に基づいて音声情報生成部23により読み出される画像が格納されている。この記憶部24に格納される画像は、認識結果を象徴する図柄を示す画像であって、使用者が直感的に認識結果を理解することができるような図柄を示す画像である。
また、記憶部24に記録されるデータとしては、画像提示する物の画像の種類として絵、記号、文字、音符、写真、動画、アニメーション、イラスト、音声スペクトルグラムパターン、色等がある。
音声情報生成部23は、信号処理部22からの認識結果及び記憶部24に格納された使用者の音声を示す音声データを用いて、音声情報を生成する。このとき音声情報生成部23は、認識結果に応じて、記憶部24に格納された音声データを組み合わせるとともに、認識結果を加工変換して音声情報を生成する。このとき、音声情報生成部23は、内蔵したCPU、音声情報生成プログラムを用いて音声情報を生成する。
また、この音声情報生成部23は、認識結果を用いて音声から音声分析し、当該音声分析した音声の内容に応じて、音声データを再構成するという処理を行うことで、音声を示す音声情報を生成する。そして、音声情報生成部23は、生成した音声情報をスピーカ部25及び表示部26に出力する。
更に、音声情報生成部23は、信号処理部22からの認識結果を、使用者の身体状態、利用状態及び使用目的に応じて加工、変換、合成等をして音声情報を生成する処理を行う。更に、この音声情報生成部23は、マイクロホン21で検出された音声を使用者に提示するための処理を認識結果及び/又は加工等をして得た認識結果について行う。
更にまた、音声情報生成部23は、認識結果から生成した音声情報を修飾して新たな音声情報を生成しても良い。このとき、音声情報生成部23は、使用者の身体状態、利用状態及び使用目的に基づいて、更に使用者が理解し易い言葉を付け加えることで、使用者の音声の認識を更に向上させる。このような処理をする音声情報生成部23は、例えばマイクロホン21に「ビックマック」と入力されたときには、例えば[マクドナルドのビックマック(登録商標)」を示す音声情報を生成する。
更にまた、この音声情報生成部23は、音声情報を表示部26に出力するときに音声の意味内容を画像として表示部26に出力する。このとき、音声情報生成部23は、例えば使用者又は使用者の話者及び外部からの音声が入力されて信号処理部22からの認識結果として物体を示す認識結果が入力されたときには、当該物体を示す画像データを記憶部24から読み出して表示部26に出力して表示させる処理を行う。
更にまた、この音声情報生成部23は、信号処理部22からの認識結果に応じて、以前にスピーカ部25又は表示部26に出力した音声情報を再度出力する。音声情報生成部23は、音声情報を出力した後に、使用者又は使用者に対する話者がもう一度聞き直したいことに応じて発した音声を示す認識結果が入力されたと判定したときには、スピーカ部25又は表示部26に出力した音声情報を再度出力する処理を行う。更にこの音声情報生成部23では、繰り返して何回でも音声情報を出力しても良い。
また、音声情報生成部23は、例えば使用者の話者からの音声の特徴を抽出する処理や音声の周波数特性を用いた話者認識結果に基づいて、以前にスピーカ部25又は表示部26に出力した音声情報を再度出力しても良い。更に、音声情報生成部23は、人工知能の機能を用いて音声対話を行うことで、スピーカ部25又は表示部26に出力した音声情報を再度出力しても良い。
更にまた、音声情報生成部23は、再度出力する処理を行うか否かを操作入力部28からの操作入力命令に応じて切り換えても良い。すなわち、使用者が再度出力する処理を行うか否かの切換を操作入力部28を操作することで決定し、操作入力部28をスイッチとして用いる。
また、この音声情報生成部23は、再度音声情報を出力するとき、以前に出力した音声情報を再度出力するか、以前に出力した音声情報とは異なる音声情報を出力するかを、信号処理部22を介して入力される操作入力部28からの操作入力信号に応じて選択する。
表示部26は、音声情報生成部23で生成した音声情報が示す音声、カメラ機構29で撮像した画像等を表示する。
操作入力部28は、使用者に操作されることで、操作入力信号を生成する。この操作入力部28としては、例えば、スイッチ、キーボード、マウス、インターネットパッド(RF wireless式)、ウェアブル操作インターフェース(プロトタイプ:手指の姿勢、動作計測によるポインティング入力、ジェスチャ入力(オリンパス))がある。
このような補聴器1は、マイクロホン21で検出した音声について信号処理部22で音声認識処理をして、認識結果に基づき音声情報生成部23でプログラムを起動することで使用者に応じた処理を行うことができる。これにより、補聴器1は、スピーカ部25にマイクロホン21からの音声を出力するとともに、表示部26に表示するので、音声に対する使用者の認識を向上させることができる。
これは、MuGurk効果(視覚聴覚同時に矛盾する音韻情報を提示した場合に異聴が生ずる:参照MuGurk H and MacDonald J:Hearing lips and seeing voice,Nature 264,746−8,1976)、Kuhlの報告(乳児の聴覚からの音声情報と視覚からの口形の情報との対応関係の獲得:参照 Kuhl PK et al.Human processing of auditory−visual information in speech perception.ICSLP’94 S11.4,Yokohama,1994)、腹話術効果(視覚が音源方向の知覚に影響を与える)、及び人間は無意識のうちに音源かどうかを学習し、区別する等の報告は人間のコミュニケーションが本来マルチモーダルなものであるとする仮説を支持するものである(参照 Saitou H and Mori T:視覚認知と聴覚認知 Ohmsha,119−20,1999)。
また成人の難聴は年齢とともに内耳障害、語音弁別能の低下、聴中枢の障害、誤聴が増加する。難聴(100dB以上)では読話が中心で聴覚が補助的となり、補聴器を使用しない聴覚障害者が多い。また高度難聴者に対して補聴器の最大出力を高くすると難聴が進行することがある。人工中耳・内耳、聴性脳幹インプラントなどの手術でも、症例により期待したほどの聴覚の補充ができていないとの報告があり、音は聞こえるが話の内容がわからないとのクレームがかなりある。また、読話、手話は成人後の修得は難しい。
聴覚とは末梢聴器の低次機能だけでなく、大脳の知覚、認知といった高次機能をも含めた包括的な概念であり、聴力は純音聴力検査で把握できる聴覚の感度面(auditory acuity)であるとされる。補聴器を装用する最大の目的が音声言語コミュニケーションに役立てることにあると仮定すると、相手の言ったことの認知及び理解の程度が重要である。
従来の補聴器、人工内耳等は聴力を補うことを主な目的としたが、補聴器1は視覚による認知という概念を付け加えたことが、聴覚を補充するものと考えてもよい。また、画面表示と音声によるフィードバックが聴覚障害者の音声認識を改善するという報告もある(参照 Yanagida M,Aging of speech listening ability.Tech Report of IEICE,SP96−36(1996−07),25−32,1996)。
以上により聴覚の認識は視覚と密接な関係にあり、視覚を使うことにより音声内容の認識が高まり、音声を最大出力にしなくても音声内容の認識が可能であり、患者の満足度が高くなると思われる。また聴覚障害児における聴覚学習においても補聴器1は有効である。
よって、表示部26に認識結果等を表示することで音声情報を補足し、音声に対する使用者の認識を向上させる。この補聴器1では、音声のみならず、表示部26に表示する画像を通じて話者に音声の意味内容を伝達し、対話することができる。
更に、この補聴器1によれば、使用者用マイクロホン8及び/又は外部用マイクロホン11で検出した音声を認識した結果に応じて表示部26に表示する音声の意味内容及びスピーカ部25から出力する音声の内容を変更させることができるので、更に音声に対する使用者の認識を向上させることができる。従って、この補聴器1によれば、音声情報生成部23により音声認識処理を変更するプログラムを実行することにより、身体状態(難聴の程度等)、利用状態及び使用目的に応じて認識処理を変更することで、使用者が理解しやすい音声の意味的な情報を表示することで更に認識を向上させることができる。
スピーカ部25は、音声情報生成部23で生成した音声を出力する。このスピーカ部25としては、例えば使用者から話し手に対して音声を出力するものであっても良く、更には、使用者が発した音声を使用者の耳に対して発声するように音声を出力するものであっても良く、更には話し相手から使用者(又は話し相手)に対して出力するものであっても良い。
また、使用者の耳に対して発声するように音声を出力するスピーカ部25は、スピーカユニットの変換方式としてダイナミック型や静電型(コンデンサ型、エレクトロスタティック型)によるものでも良く、形状としてはヘッドフォン(オープンエア型、クローズド型、カナルタイプ等のイン・ザ・イヤー型等)によるものでも良い。また、スピーカ部25は、従来の補聴器、拡声器、集音器のスピーカによるものでも良く、磁気ループを利用したものでも良く、更に指を使ったマイク・スピーカ・システム(Wisper(prototype:NTT Docomo))によるものでも良い。要するに、使用者から話者に対して音声を出力するスピーカ部25は従来から用いられているスピーカ装置でよい。
また、スピーカ部25は、音声情報に基づいて出力する音声と逆位相の音を出力するようにしても良い。これにより、スピーカ部25から出力する音声に含まれる雑音成分を除去し、使用者及び/又は使用者に対する話者に雑音の少ない音声を出力する。
また、この補聴器1は、外部の通信ネットワークと接続された通信回路27を備えている。この通信回路27は、通信ネットワーク(電話回線(ISDN、ADSL、xDSL)、FAX、telex、移動体通信網(CDMA、WCDM、GSM、PHS、ページャ網(DARC(FM文字多重放送)、high speed pager、FM pager)、IMT2000、PCS、MMAC、IRIDIUM、サービス網(i−mode:NTT Docomo))、インターネット網(ASP)、LAN、無線通信網(AM/FM方式、テレビジョン通信、Bluetooth、赤外線IrDA、超音波、アマチュア無線、有線網(例、大阪有線放送等)、衛星通信(例BS、CS)、光通信、ケーブル等)を介して例えば音声言語障害者から発せられた音声や外部からの音声が入力される。この通信回路27は、音声を示すデータを信号処理部22に入力する。また、この通信回路27は、信号処理部22で信号処理を施した信号、音声情報生成部23で生成した音声情報等を外部のネットワークに出力するとともに、外部のネットワークから信号処理を施した情報や、補聴器1の内部の処理を変更、制御する内容の情報が入力される。
また、この通信回路27は、信号処理部22、音声情報生成部23を介して受信したテレビ放送(デジタル放送)、文字放送、文字ラジオ等を表示部26で表示させても良い。このとき、通信回路27は、文字放送等を受信するためのチューナ機能を備え、使用者の所望のデータを受信する。
このように構成された補聴器1は、例えば喉頭摘出者の電気式人工喉頭を使って発声された音声がマイクロホン21に入力された場合であっても、信号処理部22で音声認識し、記憶部24に格納された喉頭摘出前にサンプリングした音声を示す音声データを用いて音声情報生成部23で出力する音声を示す音声情報を生成するので、スピーカ部25から喉頭摘出前の使用者の音声に近似した音声を出力することができる。
なお、上述した本発明を適用した補聴器1の説明においては、マイクロホン21で検出される喉頭摘出者の音声である一例について説明したが、聴力障害による言語障害の一つである構音障害者からの音声や人工呼吸を受けている人の声を検出したときであっても良い。このとき、補聴器1は、言語障害者の音声を音声データとして記憶部24に記憶しておき、当該発声者が発声したことに応じて記憶部24に格納された発声者の音声を示す音声データを参照して信号処理部22で音声認識処理を行い、音声情報生成部23で認識結果に応じて音声データを組み合わせることで音声情報を生成する処理を行うことにより、スピーカ部25から音声言語障害のない音声を出力するとともに、表示部26により音声情報に基づいた音声内容を表示することができる。
したがってこの補聴器1によれば、例えば喉頭摘出者が代用発声法により発生した音声を表示部26に表示することで不自然な音声を訂正させることができる。
更に、補聴器1は、例えば聴力障害による構音障害を持つ者は発声のためのフィードバックが得られず、「きょうは(今日は)」という音声が「きょんわあ」となってしまうのを上述した処理を行うことにより正常な「きょうは(今日は)]という音声に訂正してスピーカ部25から出力することができる。
更に、この補聴器1は、表示部26を備えているので、発声者の音声をスピーカ部25から正常な音声にして出力するとともに、発声者の音声内容を表示することにより音声障害者や難聴者の言語訓練学習にとって好適なシステムを提供することができる。
つぎに、上述の音声情報生成部23が信号処理部22からの認識結果を加工、変換して音声情報を生成する処理、音声データを組み合わせる処理で適用することができる種々の例について述べる。なお、変換処理等の種々の例は、以下に述べる例に限定するものではない。
音声情報生成部23は、信号処理部22からの認識結果を変換するとき、人工知能技術を用いて認識結果を加工変換して音声情報を生成しても良い。音声情報生成部23は、例えば音声対話システムを用いる。ここで、聴力低下した老人は相手話者の言ったことを再度聞き直すことがあるが、このシステムを用いて認識結果を加工変換することにより、補聴器1と使用者とが対話して以前に記憶した相手話者の言ったことの情報を得て、使用者の音声認識を向上させることができ、聞き直す手間を省略することができる。
このようなシステムは、マルチモーダル対話システムである表情つき音声対話システムを用いることで実現可能である。このマルチモーダル対話システムでは、ポインティングデバイスとタブレットを利用する入力技術である直接操作・ペンジェスチャ技術、テキスト入力技術、音声認識等の音声入出力技術、視覚や聴覚や触覚や力覚を利用したバーチャルリアリティ(Virtual Reality:VR)構成技術、ノンバーバルモダリティ技術の技術要素をモダリティとし組み合わせて用いる。このとき、音声情報生成部23は、言語情報を補足する手段、対話の文脈情報(或いはその補足手段)、使用者の認知的負担或いは心理的抵抗感を軽減する手段として各モダリティを用いる。なお、ノンバーバルインターフェースとしてジェスチャー(身振り)インターフェースを用いてもよい。その場合ジェスチャーインターフェースの計測として装着型センサによるジェスチャー計測にはジェスチャートラッキングが必要であり手袋型デバイス、磁気や光学的位置計測を用い、ジェスチャーの非接触計測にはマーカを立体解析する映像や3D再構成によるものを用いてもよい。
なお、このマルチモーダル対話システムの詳細は以下の文献に記載されている(Nagao K and Takeuchi A,Speech dialogue with facial displays:Multimodal human−computer conversation.Proc.32nd Ann Meeting of the Association for Computational Linguistics,102−9,Morgan Kaufmann Publishers,1994;Takeuchi A and Nagao K,Communicative facial displays as a new conversational modality.Proc ACM/IFIP Conf on Human Factors in Computing Systems(INTERCHI’93),187−93,ACM Press,1993)。
このような人工知能機能を用いた音声対話システムとしては、マイクホン21で検出した音声を、信号処理部22でA/D変換、音響分析、ベクトル量子化の後、音声認識モジュールによって、上位スコアをもつ単語レベルの最良仮説を生成するシステムが使用可能である。ここで、音声情報生成部23は、HMMに基づく音韻モデルを用いて、ベクトル量子コードから音素を推定し、単語列を生成する。音声情報生成部23は、生成した単語列を、構文・意味解析モジュールにより意味表現に変換する。このとき、音声情報生成部23は、単一化文法を用いて構文解析を行い、次にフレーム型知識ベースと事例ベース(例文を解析して得られた文パターン)を用いて曖昧さの解消を行う。発話の意味内容の決定後、プラン認識モジュールにより使用者の意図を認識する。これは対話の進行に従い動的に修正・拡張されていく使用者の信念モデルと対話のゴールに関するプランに基づいている。意図を認識する課程で、主題の管理や、代名詞の照応解消、省略の補完などを行う。そして使用者の意図に基づいて協調的な応答を生成するモジュールが起動する。このモジュールはあらかじめ用意されたテンプレートの発話パターンに領域知識により得られた応答に関する情報を埋め込むことにより発話を生成する。この応答は音声合成モジュールにより音声となる。なお、この信号処理部22及び音声情報生成部23が行う処理としては、例えば以下に示す文献に記載された処理を行うことでも実現可能である(Nagao N,A preferential constraint satisfaction technique for natural language analysis.Proc 10th European Conf on Artificial Itelligence,523−7,John Wiley&Sons,1992;Tanaka H,Natural language processing and its applications,330−5,1999,IEICE,Corona Publishing Co.;Nagao K,Abduction and dynamic preference in plan−based dialogue understanding.Proc 13th Int joint Conf on Artificial Intelligence,1186−92,Morgan Kaufmann Publishers,1993)。
また、音声情報生成部23は、人工知能機能を用いて行う処理として、システムの擬人化を行い、音声認識、構文・意味解析、プラン認識より表情パラメータ調節、表情アニメーションを表示部26を用いて行うことにより、視覚的手段を用いて音声対話に対して使用者の認知的負担、心理的抵抗感を軽減する。なお、この音声情報生成部23が行う処理としては、以下に示す文献に記載されたFACS(Facial Action Coding System)がある(参照 Ekman P and Friesen WV,Facial Action Coding System.Consulting Psychologists Press Palo Alto,Calif,1978)。
更にまた、音声情報生成部23は、音声対話コンピュータシステム(参照 Nakano M et al,柔軟な話者交代を行う音声対話システムDUG−1,Proc of 5th Ann meeting of NLP,161−4,1999)として、話し言葉を理解する逐次理解方式(Incremental Utterance Understanding)(参照 Nakano M,Understanding unsegmented user utterances in real−time spoken dialogue systems.Proc of the 37th Ann meeting of the association for computational linguistics,200−7)と内容の逐次変更が可能な逐次生成方式(Incremental Utterance Production)(参照 Dohsaka K and Shimazu A,A computational model of incremental utterance production in task−oriented dialogues.Proc of the 16th Int Conf on Computational Linguistics,304−9,1996;Dohsaka K and Shimazu A,Systemarchitecture for spoken utterance production in collaborative dialogue.Working Notes of IJCAI 1997 Workshop on Collaboration,Cooperation and Conflict in Dialogue Systems,1997;Dohsaka K et al,複数の対話ドメインにおける協調的対話原則の分析 Corpus analysis of collaborative principles in different dialogue domains、IEICE Tech Report NLC−97−58,25−32,1998)による音声と画像を用いる人工知能システムである。ここで、音声情報生成部23は、理解と応答のプロセスが平行動作する。また、音声情報生成部23は、ISTARプロトコール(参照Hirasawa J,Implementation of coordinative nodding behavior on spokon dialogue systems,ICSLP−98,2347−50,1998)を用いて音声認識と同時に単語候補を言語処理部に逐次的に送る。
すなわち、音声対話システムDUG−1(日本電信電話製)で用いている技術を用いることにより、補聴器1では、例えば所定のデータ量(文節)ごとに使用者及び/又外部からの音声を音声認識するとともに、音声情報を生成する処理を行う。音声情報生成部23では、使用者及び/又は外部からの音声に応じて、音声認識処理、音声情報認識処理を随時中止、開始することができ、効率的な処理を行うことができる。更に、この補聴器1では、使用者の音声に応じて、音声認識処理、音声情報生成処理を制御することができるので、柔軟に話者の交替を実現することができる。すなわち、音声情報を生成している最中に使用者及び/又は外部からの音声を検出することで処理を変更し、使用者に提示する音声情報の内容を変更等の処理を行うことができる。
更にまた、音声情報生成部23は、キーワードスポティングを用いて使用者の自由な発話を理解する処理を行っても良い(参照 Takabayashi Y,音声自由対話システムSpontaeous speech dialogue TOSBURG II −使用者中心のマルチモーダルインターフェースの実現に向けて−towars the user−centered multi model interface−.IEICE trans volJ77−D−II No8 1417−28,1994)。
この音声情報生成部23は、例えばイントネーション、ストレス、アクセント等の処理を行うように変換処理を行って音声情報を出力しても良い。このとき、音声情報生成部23は、必要に応じて、特定の発音についてはイントネーション、ストレス、アクセントの強弱を変化させるように音声情報を変換して出力するようにする。
韻律制御方式として単語及び文韻律データベースを用いてもよい(参照 Nukaga N et al単語および文韻律データベースを用いた韻律制御方式の検討On the control of prosody using word and sentence prosody database.The 1998 meeting of the ASJ society of Japan 227・8,1998)。
音声情報生成部23は、音声データを合成するとき、どのような内容の音声でも合成するときには規則による音声合成、滑らかな音声を合成するために可変長単位を用いた音声合成、自然な音声を合成するための韻律制御、また音声の個人性付与のために音質変換を行って音声情報を生成しても良い(参照 自動翻訳電話ATR国際電気通信基礎技術研究所編,177−209,1994 Ohmsha)。
また、ボコーダ(vocoder)(例:音声分析変換合成法STRAIGHT(speech transformation and representation based on adaptive interpolation of weighted spectrogram参照 Maeda N et al,Voice Conversion with STRAIGHT.TECH REPORT OF IEICE,EA98−9,31−6,1998)を用いても高品質の音声を合成することが可能である。
更に、この音声情報生成部23は、文字情報から音声を作り出す音声合成(text to speech synthesis)を用いることにより話の内容に関する情報(音韻性情報)や音の高さや大きさに関する情報(韻律情報)を聴力障害者の難聴の特性に合わせてその人の最も聞き易い音の高さに調整することも可能であり、他に話速変換技術(voice speed converting)、周波数圧縮(frequency compress)処理等の音声特徴量の変換処理を行う。また出力する音声の帯域を調整する帯域拡張(frequency band expansion)処理や、音声強調(speech enhancement)処理等を音声情報に施す。帯域拡張処理、音声強調処理としては、例えば以下の文献に記載されている技術を用いることで実現可能である(Abe M,Speech Modification Methods for Fundamental Frequency,Duration and Speaker Individuality.TECH REPORT OF IEICE,SP93−137,69−75,1994)。なお、上述したように、信号処理部22及び音声情報生成部23で音声認識処理をして認識結果を加工変換する場合のみならず、上述の処理のみを行ってスピーカ部25に出力しても良い。また、この補聴器1では、認識結果及び/又は上述の処理のみを行った結果を同時に又は時間差を付けて出力しても良い。また、この補聴器1では、認識結果及び/又は上述の処理のみを行った結果をスピーカ部25又は表示部26の左右のチャンネルで異なる内容を出力しても良い。
更にまた、音声情報生成部23は、認識結果を用いて音声から言語を理解し、当該理解した言語を用いて音声データから音声情報を構成するという処理を行うのみならず、他の処理を認識結果に基づいて理解した言語を必要に応じて加工変換する処理を行っても良い。すなわち、この音声情報生成部23は、音声情報を構成するとともに、音声情報としてスピーカ部25に出力するときの速度を変化させる話速変換処理(例:ピッチ区間の分割・延長により有声区間を延長、無声区間は加工せず、無音区間の短縮)を行っても良い。すなわち、この話速変換処理は、使用者の状態に応じて適当な話速を選択することによりなされる。
更にまた、この音声情報生成部23は、認識結果に応じて、例えば日本語(Japanese)の音声情報を英語(English)の音声情報に変換して出力するような翻訳処理を行って出力しても良く、通信機能と合わせて自動翻訳電話にも応用可能である。更には音声情報生成部23は自動要約(automatic abstracting)を行い、「United States of America」を「USA」と要約するように変換して音声情報を出力しても良い。
音声情報生成部23が行う他の自動要約処理としては、例えば文章内から要約に役立ちそうな手がかり表現を拾い出し、それらをもとに読解可能な文表現を生成する生成派の処理(参照 McKeown K and Radev DR,Generating Summaries of Multiple News Articles.In Proc of 14th Ann Int ACM SIGIR Conf on Res and Development in Information Retrieval,68−73,1995;Hovy E,Automated Discourse Generation using Discourse Structure Relations,Artificial Intelligence,63,341−85,1993)、要約を「切り抜き」と考えて処理し客観的評価が可能となるように問題を設定しようという立場の抽出派の処理がある(参照 Kupiec J et al,A Trainable Document Summarizer.In Proc of 14th Ann Int ACM STGIR Conf on Res and Development in Information Retrieval,68−73,1995;Miike S et al,A Full−text Retrieval System with a Dynamic Abstruct Generation Function.Proc of 17th Ann Int ACM SIGIR Conference on Res and Development in Information Retrieval,152−9,1994;Edmundson HP,New Method in Automatic Abstracting.J of ACM 16,264−85,1969)。更に、この音声情報生成部23は、例えばPartial Matching MethodとIncremental Reference Interval−Free連続DPを用いて重要キーワードの抽出を行い、Incremental Path Methodを用いて単語認識を行うことが可能である(参照 Nakazawa M et al.Text summary generation system from spontaneous speech,The 1998 meeting of ASJ 1−6−1,1−2,1998)。
更にまた、この音声情報生成部23は、認識結果に応じて、特定の音素、母音、子音、アクセント等において、消去したり、音声を出力することに代えてブザー音、あくび音、せき音、単調な音等を音声情報とともに出力するように制御しても良い。このとき音声情報生成部23は、例えば以下の文献に記載されている手法を実現した処理を音声情報について行う(参照 Warren RM,Perceptual Restoration of Missing Speech Sounds.Science vol167,392,1970;Warren RM and Obusek CJ,Speech perception and phonemic restoration.Perception and psychophysics vol9,358,1971)。
更にまた、音声情報生成部23は、認識結果を用いてホーン調(管共鳴を用いた重低音を再生する技術により出力される音質:集音管により約2000Hz以下の帯域の音声を増幅させ、利得が約15dB)となるように音質を変換させて音声情報を出力しても良い。この音声情報生成部23は、例えばUS PATENT 4628528により公知となされているアコースティックウェーブ・ガイド(Acoustic Wave Guide)技術を用いて出力される音質に近似した音に変換して音声情報を出力してもよく、アコースティックウェーブ・ガイド技術に基づきスピーカからの音を管に通して出してもよい(例 wave radio(BOSE))。ここで、音声情報生成部23は、例えば低音のみを通過させるフィルター処理を行って音声情報を出力する処理を行っても良く、例えばSUVAG(Systeme Universel Verbo−tonal d’Audition−Guberina)を用いることにより、所定の周波数帯域の音声のみを通過させる種々のフィルタ処理を行って音声情報を出力する処理を行っても良い。
更にまた、この音声情報生成部23は、例えばマイクロホン21に音楽が入力されたと判断したときには、色を表示するように処理を行っても良いし、ソング頼太やXG works v.3.0(ヤマハ)のボイストゥスコアR等の機能で実現されている音声情報を変換して表示部26に音符を表示してもよい。また、この音声情報生成部23は、音声のリズムなどが分かるために変換した音声のリズムを信号が点滅するように音声情報を変換して表示部26に表示しても良いし、音声を色彩表示やスペクトルグラムパターンによる表示をしてもよい。
更にまた、この音声情報生成部23は、例えば警報等の発信音がマイクロホン21に入力されたと判断したときには、音声情報を変換することで表示部26に警報等がマイクロホン21で検出された旨の表示を行ったり、スピーカ部25に警報の内容を知らせるような内容を出力しても良い。
この音声情報生成部23は、例えば非常ベルや救急車や津波のサイレンを聞いたら表示するだけでなく大音量で「火事ですよ」「救急車ですよ」「津波が襲ってきますよ」とスピーカ部25から出力するとともに、表示部26に火事や救急車や津波を示す画像を表示する。
これにより、音声情報生成部23は、難聴者に非常事態を音声及び画像を以て伝えることができ、生死に関わる最悪の事態を避けることができる。
更に具体的には、音声情報生成部23は、図3に示すように、信号処理部22での認識結果として「ピーポーピーポー(救急車のサイレン)」と表示し、認識結果を変換した加工変換結果として「救急車」と表示し、更なる加工変換結果として記憶部24に格納されている救急車種々の図柄の中で、緊急性を示すシグナルを出しながら走っている救急車を示す図柄(又は走っている動画)を読み出して表示させる。他の一例としては、音声情報生成部23は、例えば津波による警報がマイクロホン21に入力されたときには、信号処理部22での音声認識結果として「ウィィーン(津波に対して)」と表示し、認識結果を変換した加工変換結果として「津波」と表示し、更なる加工変換結果として緊急性を示す沿岸の家を飲み込む津波の図柄(又は津波が迫りながら家を飲み込む動画)を記憶部24から読み出して表示させる。また、この音声情報生成部23は、記憶部24の記憶容量の削減を図るために、図4に示すように簡略化した絵柄を表示部26に表示させても良い。
これにより、音声情報生成部23では、音声により救急車や津波と入力されたことによる単純なこれらの画像ではなく、緊急時を表す音声が入力されたことにより、緊急性を示す画像を表示させる。
また、更に他の例としては、学校で2時限(コンピュータテクノロジーの授業)のチャイムの鐘の音がマイクロホン21に入力されたことに応じ、音声情報生成部23は、図5に示すように、認識結果として「キンコーン」と表示し、認識結果の加工変換結果として「鐘」の画像を表示する。更に、音声情報生成部23は、時計機能と予め入力されていた時間割のプログラムと対応させて、「2時限 コンピュータテクノロジー」と表示するとともに、授業(コンピュータテクノロジー)を表す画像(パーソナルコンピュータ)を表示させる。
従って、このような音声情報生成部23を備えた補聴器1では、音声を用いて認識結果、加工変換結果を表示部26に表示するとともに、音声と予め設定された情報を用いて他の情報をユーザに提示することができる。
また、音声情報生成部23では、信号処理部22での認識結果の意味内容及び認識結果の他のパラメータを用いて認識結果を加工変換しても良い。この音声情報生成部23は、例えば、マイクロホン21で検出した音声の音量、音の周波数特性に応じて異なる加工変換処理を行って異なる画像を記憶部24から読み出すことで、異なる加工変換結果を表示部26に提示しても良い。これにより、補聴器1では、利用者に更に詳細な音声認識結果を提示することができ、利用者の音声の認識を更に向上させることができる。また、この音声情報生成部23では、例えばマイクロホン21に入力される救急車のサイレンの音量に応じて、異なる大きさの図柄を表示する。例えば、音声情報生成部23は、サイレンの音量が所定値以上であると判定したときには図6Aに示すような大きさで救急車の図柄を表示し、サイレンの音量が所定値以下であると判定したときには図6Bに示すように図6Aに示す図柄よりも小さく表示する。これにより、補聴器1では、救急車が使用者に近づいて徐々にサイレンの音量が大きくなるに従って図柄を大きくして、利用者の外部の音声に対する認識を向上させることができる。
音声の音量等、音声に含まれる情報・非言語情報(例:強調表現、感情表現)を画像(例:手話)にて表現することが可能であり、実現例として、以下があげられる。音声を音声認識処理して単語情報に変換し、音声特徴量(ピッチ情報等)も検出する。次に非言語情報抽出処理をして単語情報と音声特徴量から、非言語情報の個所と種類を検出する。上記の情報は情報変換処理に送られる。単語情報は日本語・手話見出し変換処理において手話見出しに変換され、非言語情報変換処理では、非言語情報の表現個所と種類に応じて手話の非言語情報表現ルールが検索される。最終的に、手話アニメ生成処理にて導出された手話見出し情報及び手話の非言語情報を用いて手話アニメーションが生成される(参照 Ando H et al 音声・手話変換システムのための音声強調表現特徴量の抽出 Analysis of speech prominence characteristics for translating speech dialog tosign language.The 1999 meeting of the ASJ society of Japan 377・8,1999)。
このように、音声情報生成部23では、マイクロホン21で検出した音声を用いて、音声のみならず、他の機能も用いることにより音声情報を加工変換して、様々な形態で利用者に提示することができる。
更にまた、音声情報生成部23は、過去に行った変換合成処理について記憶する機能を備えていても良い。これにより、音声情報生成部23は、過去に行った変換合成処理の改良を自動的に行う学習処理を行うことができ、変換合成処理の処理効率を向上させることができる。
更にまた、この信号処理部22及び音声情報生成部23は、話し手の音声のみについての認識結果を生成して音声情報を生成し、スピーカ部25及び/又は表示部26に提示することで使用者に知らせる一例のみならず、例えば特定の雑音に対してのみ音声認識を行っても良い。要するに、信号処理部22及び音声情報生成部23は、入力した音について音声認識処理を行って、認識結果を使用者の身体状態、利用状態及び使用目的に応じて変換することで使用者が理解し易い表現で音声情報を生成して出力する処理を行う。
更にまた、上述した本発明を適用した補聴器1の説明おいては、記憶部24に予めサンプリングして格納した音声データを音声情報生成部23により組み合わせることにより音声情報を生成して出力するものの一例について説明したが、音声情報生成部23は、記憶部24に記憶された音声データを組み合わせて音声情報を生成するときに格納された音声データに変換処理を施す音声データ変換部を備えていても良い。このような音声データ変換部を備えた補聴器1は、例えばスピーカ部25から出力する音声の音質を変化させることができる。
更にまた、上述した本発明を適用した補聴器1の説明おいては、例えば喉頭摘出前の使用者の音声を予めサンプリングすることにより得た音声データを記憶部24に格納するものの一例について説明したが、記憶部24には、一つの音声データのみならず複数の音声データを予めサンプリングして格納しても良い。すなわち記憶部24には、例えば喉頭摘出前の音声を予めサンプリングした音声データ、及び前記喉頭摘出前の音声に近似した音声データを格納しても良く、更には全く異なる音質の音声データを格納しても良く、更にまた、喉頭摘出前の音声データを生成し易い音声データを格納しても良い。このように複数の音声データが記憶部24に格納されているとき、音声情報生成部23は、各音声データの関係を例えば関係式等を用いて関連づけを行って選択的に音声データを用いて音声情報を生成しても良い。
また、上述の補聴器1は、サンプリングして記憶部24に格納した音声データを合成することで音声情報を生成して出力する一例について説明したが、記憶部24に記憶されている音声データを合成することで生成した音声情報に、音声情報生成部23によりボコーダ処理(例:STRAIGHT)を施すことにより、サンプリングして記憶されている音声データが示す音声とは異なる音質の音声に変換して出力しても良い。
更にまた、信号処理部22は、話者認識(speaker recognition)処理を入力される音声について行って各話者に対応した認識結果を生成しても良い。そして、この信号処理部22では、各話者に関する情報を認識結果とともにスピーカ部25や表示部26に出力することで使用者に提示しても良い。
補聴器1で話者認識を行うときには、ベクトル量子化によるものでも良い(参照 Soong FK and Rosenberg AE,On the use of instantaneous and transition spectral information in speaker recognition.Proc of ICASSP’86,877−80,1986)。このベクトル量子化を利用した話者認識では、準備段階の処理として登録話者用の学習用音声データからスペクトルの特徴を表すパラメータを抽出して、これらをクラスタリングすることによりコードブックを作成する。ベクトル量子化による方法は話者の特徴が作成された符号帳に反映されていると考える手法である。認識時には入力された音声と全ての登録話者のコードブックを用いてベクトル量子化を行い、入力音声全体に対して量子化ひずみ(スペクトルの誤差)を計算する。この結果を用いて話者の識別や照合の判定を行う。
また、補聴器1で話者認識を行うときには、HMMによる方法であっても良い(参照 Zheng YC and Yuan BZ,Text−dependent speaker identification using circular hidden Markov models,Proc of ICASSP’88,580−2,1988)。この方法では、準備段階の処理として登録話者の学習用音声データからHMMを作成する。HMMを用いる方法では話者の特徴は状態間の遷移確率とシンボルの出力確率に反映されると考える。話者認識の段階では入力音声を用いて全ての登録話者のHMMによる尤度を計算して判定を行う。HMMの構造としてleft〜to〜rightモデルに対してエルゴディックなHMMを用いてもよい。
更にまた、補聴器1では、ATR−MATRIXシステム(ATR音声翻訳通信研究所製:参照 Takezawa T et al,ATR−MATRIX:A spontaneous speech translation system between English and Japanese.ATR J2,29−33,June1999)で用いられている音声認識処理(ATRSPRFC)、音声合成処理(CHATR)、言語翻訳処理(TDMT)を行うことで、マイクロホン21で入力した音声を翻訳して出力することができる。
音声認識処理(ATRSPRPC)では、大語彙連続音声認識を行い(many−word continuous speech recognition in real time)、音声認識ツールを用いて音声認識に必要な音響モデルと言語モデルの構築、及び信号処理から探索までの工程を処理する。この音声認識処理では、行った処理をツール群として完結し(complete group of tools)、ツール同士の組み合わせることが容易で(easy intcgration of tools)及びHTKとの互換性確保(compatible with HTK)を行う。また、この音声認識を行うとき、不特定話者の音声認識を行っても良い。
音声認識処理(ATRSPREC)は基本的な音声認識処理の流れとして以下の(a)〜(d)に示すようなツール群を提供する。なお、音声認識処理(ATRSPREC)はUNIX環境(OSF1,HP−UX)で動作する。
(a)信号処理:人間が発声した音声の波形信号を特徴ベクトルと呼ばれる音声認識処理に必要な情報を抽出した特徴量に変換する。
(b)音響モデル構築:特徴ベクトル発声内容の関係をパラメータ推定の形でモデル化する。このとき、話者適応をしてもよい(標準話者のHMnetと少量の音声サンプルを用いて特定の話者に適応したHMnetの作成(ML推定法、MAR推定法、VES,MAP−VFS))。
(c)言語モデル構築:単語や文法的制約といった言語情報をモデル化する。
(d)探索:発声した内容の推定を音響モデル、言語モデルを用いて行う。
言語翻訳処理(TDMT:協調融合翻訳方式)は用例翻訳と依存構造解析とを協調的に駆動させて、句から節、さらに文へと段階的に翻訳処理を進める。
言語翻訳処理(TDMT)では、文の構造を判断する処理、対話用例を用いた対話特有のくだけた表現などの多様な表現を扱って言語翻訳を行う。また、この言語翻訳では、マイクロホン21が一部聞き取れなかった部分があっても、翻訳できる部分はなるべく翻訳する部分翻訳処理を行い、一文全体を正確に翻訳できない場合でも、話し手が伝えたい内容をかなりの程度相手に伝える。
音声合成処理(CHATR)では、あらかじめデータベース化された多量の音声単位から、出力したい文に最も適した単位を選択してつなぎあわせ、音声を合成する。このため、滑らかな音声が出力することができる。この音声合成では、話し手の声に最も近い音声データを用いて話し手の声に似た声で合成することができる。また、この音声合成を行うときには、音声情報生成部23は、入力された音声から話し手の性別を判断し、それに応じた声で音声合成を行っても良い。
音声合成処理(CHATR)は以下にて構成される。韻律知識ベースを基に、合成したい音素系列の韻律パラメータを音素ごとに予測する。計算された韻律パラメータを基に最適な韻律情報を持つ音声単位を選択し、音声波形情報ファイルへのインデックスを求める。選択された音声単位を一つずつ音声波形ファイル内から切り出して接続する。生成された音声波形を出力する。
また、音声認識処理、言語翻訳処理及び音声合成処理を行うときには、通信回路27を介して携帯電話等の通信機器と接続して双方向の対話可能である。
音声認識処理、言語翻訳処理、音声合成処理、を行う補聴器1では、例えば日英双方向の音声翻訳システムの利用、ほぼリアルタイムの認識、翻訳、合成、話し始めの指示をシステムに与える必要がなく、全二重の対話が可能自然な発話に対して質の高い認識、翻訳、合成が可能となる。例えば、「あのー」、「えーと」といった言葉や、多少くだけた表現の音声がマイクロホン21に入力されても音声認識処理、言語翻訳処理及び音声合成処理が可能となる。
更にまた、音声情報生成部23は、音声認識(ATRSPREC)において、信号処理部22からの認識結果に基づいて文の構造を判断するだけでなく、対話用例を用いることにより、対話特有のくだけた表現などの多様な表現に対応した音声情報を生成する。また、音声情報生成部23は、マイクロホン21で会話中の一部が聞き取れなかった部分があっても、音声情報を生成することができる部分はなるべく音声情報を生成する。これにより、音声情報生成部23は、一文全体の音声情報を正確に生成できない場合でも、話し手が伝えたい内容をかなりの程度相手に伝える。このとき、音声情報生成部23は、翻訳処理(部分翻訳機能)を行って音声情報を生成しても良い。
また、音声情報生成部23は、音声合成(CHATR)において、予めデータベース化して記憶された多量の音声単位の音声データから、出力したい文に最も適した単位を選択してつなぎあわせ、音声を合成して音声情報を生成する。これにより、音声情報生成部23は、滑らかな音声を出力するための音声情報を生成する。また、音声情報生成部23は、話し手の声に最も近い音声データを用いて話し手の声に似た声で合成処理を行っても良く、入力された音声から話し手が男性か女性かを判断し、それに応じた声で音声合成を行って音声情報を生成しても良い。
更にまた、音声情報生成部23は、マイクロホン21からの音声から、特定の音源の音のみを抽出してスピーカ部25及び/又は表示部26に出力しても良い。これにより、補聴器1は、カクテルパーティ現象(複数の音源からの音の混合の中から、特定の音源の音のみを抽出してきく)を人工的に作ることができる。
更にまた、音声情報生成部23は、音韻的に近い例を用いて誤りを含んだ認識結果を訂正する手法を用いて聞き間違いを修正して音声情報を生成しても良い(参照 Ishikawa K,Sumida E,A computer recovering its own misheard−Guessing the original sentence form a recognition result based on familiar expressions−ATR J 37,10−11,1999)。このとき、音声情報生成部23は、使用者の身体状態、利用状態及び使用目的応じて処理を行って、使用者にとってわかりやすい形態に加工変換する。
なお、上述した補聴器1の説明においては、マイクロホン21で検出した音声について音声認識処理、音声生成処理を行う一例について説明したが、使用者等により操作される操作入力部28を備え当該操作入力部28に入力されたデータを音声及び/又は画像とするように信号処理部22により変換しても良い。また、この操作入力部28は、例えば使用者の指に装着され、指の動きを検出することでデータを生成して信号処理部22に出力するものであっても良い。
また、この補聴器1は、例えば使用者が液晶画面等をペンにより接触させることで文字及び/又は画像を描き、その軌跡を取り込むことによる画像に基づいて文字及び/又は画像データを生成する文字及び/又は画像データ生成機構を備えていても良い。補聴器1は、生成した文字及び/又は画像データを信号処理部22及び音声情報生成部23により認識・変換等の処理を行って出力する。
更に、上述の補聴器1は、マイクロホン21等からの音声を用いて信号処理部22により音声認識処理を行う一例に限らず、例えば使用者及び/又は使用者以外の人が装着する鼻音センサ、呼気流センサ、頚部振動センサ、骨振動体(例 マウスピースタイプ)からの検出信号及びマイクロホン21等からの信号を用いて音声認識処理を行っても良い。このように、補聴器1は、マイクロホン21のみならず各センサを用いることにより、信号処理部22による認識率を更に向上させることができる。
更に、この補聴器1は、例えば自動焦点機能やズーム機能を搭載したデジタルカメラにより動画像や静止画像等を撮像するカメラ機構29を図2に示すように備え、表示部26に表示するものであっても良い。このカメラ機構29は例えば図1のディスプレイ部7と一体に搭載されても良い。また、カメラ機構29としては、デジタルカメラを用いても良い。
また、この補聴器1に備えられたカメラ機構29は、撮像した画像を使用者の身体状態(視力や乱視等の目の状態)、利用状態及び使用目的に応じて歪ませたり拡大させたりする画像変換処理を施して表示部26に表示する眼鏡機能を備えていても良い。
このような補聴器1は、例えばカメラ機構29からCPU等からなる信号処理回路を経由して表示部26に撮像した画像を表示する。この補聴器1は、このようなカメラ機構29により例えば話者を撮像した画像を使用者に提示することで、使用者の認識を向上させる。また、この補聴器1は、撮像した画像を通信回路27を介して外部のネットワークに出力しても良く、更には外部のネットワークからカメラ機構29で撮像した画像を入力して通信回路27及び信号処理回路等を介して表示部26に表示しても良い。
更に、この補聴器1では、話者を撮像した画像を用いて信号処理部22で顔面認識処理、物体認識処理を行って音声情報生成部23を介して表示部26に表示しても良い。これにより、補聴器1では、撮像対象者の***、顔の表情、全体の雰囲気等を使用者に提示して、使用者の音声認識を向上させる。
撮像機能を用いた顔の認識において顔の個人性特徴を抽出して個人認識をおこなうものとして、以下の方法があるがこれらに限られるものではない。
濃淡画像のマッチングにより識別するための特徴表現の一つとしてパターンをモザイク化し、各ブロック内の画素の平均濃度をブロックの代表値とすることで濃淡画像を低次元ベクトルに情報圧縮して表現する方法でM特徴といわれている方法である。また、KI特徴という濃淡顔画像の特徴表現で、Karhunen−Loeve(KL)展開を顔画像の標本集合に適応して求められる直交基底画像を固有顔とよび、任意の顔画像をこの固有顔を用いて展開した係数から構成される低次元の特徴ベクトルで記述する方法である。更に、顔画像集合のKL展開による次元圧縮に基づくKI特徴によるもの照合パターンをまずフーリエスペクトルに変換しKI特徴の場合と同様に標本集合をKL展開することで次元圧縮を行って得られる低次元の特徴スペクトルであるKF特徴による識別を行う方法がある。以上の方法によるものが顔画像認識に用いることが可能であり、それらを用いて顔の認識を行うことは対話者が誰であるかという個人識別情報をコンピュータに与えることになり、使用者にとって対話者に対する情報が得られ、音声情報に対する認識が増す。なお、このような処理は以下の文献に記載されている(Kosugi S,ニューラルネットを用いた顔画像の識別と特徴抽出 情処学CV研報,73−2,1991−07;Turk MA and Pentland AP,Face recognition using eigenface.Proc CVPR,586−91,1991−06;Akamatsu S et al,Robust.face intification by pattern matching Based on KL expansion of the Fourier Spectrum.IEICE trans vol J76DII No7,1363−73,1993;Edwards GJ et al,Learning to identify and track faces in image seguences,Proc of FG’98,260−5,1998)。
この補聴器1では、物体認識を行うときには、物体を示すパターンをモザイク化しておき、実際に撮像した画像とマッチングを取ることにより物体の識別を行う。そして、この補聴器1では、マッチングがとれた物体の動きベクトルを検出することで、物体の追尾を行う。これにより、物体から発せられる音声から生成される音声情報に対する認識が増す。この物体認識処理はUbiquitous Talker(Sony CSL製)で用いられている技術を採用することができる(参考 Nagao K and Rekimoto J,Ubiquitous Talker:Spoken language interaction with real world objects.Proc 14th IJCAI−95,1284−90,1995)。
更に、この補聴器1は、静止画撮像用デジタルカメラのようにシャッターを押すことで静止画を撮像しても良い。更に、カメラ機構29は、動画像を生成して信号処理部22に出力しても良い。このカメラ機構29により動画像を撮像するときの信号方式としては、例えばMPEG(Moving Picture Experts Group)方式などを用いる。更にまた、この補聴器1に備えられるカメラ機構29は、3D画像を撮像することで、話者や話者の***を撮像して表示部26に表示させることで更に使用者の認識を向上させることができる。
このような補聴器1は、使用者自身の発した音声や相手の発した音声等及び/又はその場の情景を撮像した画像を記録し再生することで、言語学習にて復習が可能となり言語学習に役立てることができる。
また、この補聴器1によれば、画像を拡大処理等して表示部26に表示することで相手を確認し全体の雰囲気をつかめ音声聴取の正確さが向上し、更に読唇(lip reading)を行うことが可能となり認識を上昇させる。
更にまた、この補聴器1は、例えばスイッチ機構が設けられており、マイクロホン21で検出した音声をスピーカ部25により出力するか、カメラ機構29により撮像した画等像を表示部26により出力するか、又は音声及び画像の双方を出力するかを使用者により制御可能としても良い。このときスイッチ機構は、使用者に操作されることで、音声情報生成部23から出力を制御する。
また例として、スイッチ機構は、使用者及び/又は使用者以外の音声を検出して、例えば「音声」という音声を検出したときにはマイクロホン21で検出した音声をスピーカ部25により出力するように切り換え、例えば「画像」という音声を検出したときにはカメラ機構29により撮像した画等像を表示部26により出力するように切り換え、「音声、画像」という音声を検出したときには音声及び画像の双方を出力するするように切り換えても良く、以上のような音声認識を用いたスイッチ制御機構を備えていても良い。また、ジェスチャーインターフェースを用いることで、ジェスチャー認識によるスイッチ制御システムとしても良い。
更にまた、このスイッチ機構は、カメラ機構29のズーム状態等のパラメータを切り換えることでカメラ機構29で画像を撮像するときの状態を切り換える機能を備えていても良い。
つぎに、この補聴器1において、音声情報生成部23により作成した音声情報を出力する機構の種々の例について説明する。なお、本発明は、以下に説明する出力する機構に限られることはないことは勿論である。
すなわち、この補聴器1において、音声情報を出力する機構としてはスピーカ部25や表示部26に限らず、例えば骨導や皮膚刺激を利用したものであっても良い。この音声情報を出力する機構は、例えば小型磁石を鼓膜等に装着し、磁石を振動させるものであっても良い。
このような補聴器1は、例えば利用者の骨(側頭骨)に振動を与える骨導補聴器の骨導バイブレータシステムの振動板として圧挺板(参照 Sugiuchi T,骨導補聴器の適応と効果 JOHNS Vol11 No9,1304,1995)を備え、音声情報生成部23により変換することにより得た信号を前記圧挺板に出力するようにしたものや、皮膚刺激を用いたタクタイルエイド(Tactile Aid)等の触覚による補償技術を利用したものであっても良く、これらの骨振動や皮膚刺激等を用いた技術を利用することで、音声情報生成部23からの信号を使用者に伝達することができる。皮膚刺激を利用した補聴器1においては、音声情報生成部23からの音声情報が入力されるタクタイルエイド用振動子アレイが備えられており、タクタイルエイドと当該振動子アレイを介してスピーカ部25から出力する音声を出力しても良い。
また、上述した補聴器1の説明においては、音声情報を音声として出力するときの処理の一例について説明したが、これに限らず、例えば人工中耳により使用者に認識結果を提示するものであっても良い。すなわち、この補聴器1は、音声情報を電気信号としてコイル、振動子を介して使用者に提示しても良い。
更には、この補聴器1は、人工内耳機構を備え、人工内耳により使用者に認識結果を提示するものであっても良い。すなわち、この補聴器1は、例えば埋め込み電極、スピーチプロセッサ等からなる人工内耳システムに音声情報を電気信号として供給して使用者に提示しても良い。
更には、この補聴器1は、蝸牛神経核(延髄にある聴神経の接合部)に電極を接触させて当該電極を介して認識結果を使用者に供給する聴性脳幹インプラント(Auditory Brainstem Implant:ABI)機構を備え、ABIにより使用者に音声情報を提示するものであっても良い。すなわち、この補聴器1は、例えば埋め込み電極、スピーチプロセッサ等からなるABIシステムに音声情報を電気信号として供給して使用者に提示しても良い。
更にまた、この補聴器1は、使用者の身体状態、利用状態及び使用目的に応じて、例えば超音波帯域の音声が認識可能な難聴者に対しては認識結果及び加工変換した認識結果を音声情報として超音波帯域の音声に変調・加工変換して出力しても良い。更にまた、この補聴器1は、超音波出力機構(bone conduction ultrasound:Hosoi H et al Activation of the auditory cortex by ultrasound.Lancet Feb14 351(9101)496・7,1998)を用いて超音波周波数帯域の信号を生成し、超音波振動子等を介して使用者に出力しても良い。
更にまた、この補聴器1は、骨伝導ユニット(耳珠を介しての骨導及び外耳道内壁を介しての気導)を使用して音声情報を使用者に提示しても良い(例 聴覚障害者用ヘッドホンシステム −ライブホン−(日本電信電話製))。
更にまた、この補聴器1は、スピーカ部25、表示部26等の複数の出力手段を備える一例について説明したが、これらの出力手段を組み合わせて用いても良く、更には各出力手段を単独で出力しても良い。また、この補聴器1では、マイクロホン21に入力した音声の音圧レベルを変化させる従来の補聴器の機能を用いて音声を出力するとともに、上述した他の出力手段で認識結果を提示しても良い。
更にまた、この補聴器1は、スピーカ部25及び/又は表示部26から出力する出力結果を同時に或いは時間差を持たせて出力してするように音声情報生成部部23で制御するスイッチ機構を備えていても良く、複数回に亘って出力結果を出力するか一回に限って出力結果を出力するかを制御するスイッチ機構を備えていても良い。
また、この補聴器1の説明においては、図2に示したような一例について説明したが、入力された音声について上述した種々の加工変換処理を行って表示部26に表示させる第1の処理を行うCPUと、入力された音声について上述した種々の加工変換処理を行ってスピーカ部25に出力結果を出力するための第2の処理を行うCPUと、カメラ機構29で撮像した画像を表示するための第3の処理を行うCPUとを備えたものであっても良い。
このような補聴器1は、各処理を行うCPUを独立に動作させて第1の処理又は第2の処理を行わせて出力させても良く、更には各処理を行うCPUを同時に動作させて第1の処理、第2の処理、及び第3の処理を行わせて出力させても良く、更には、第1及び第2の処理、第1及び第3の処理又は第2及び第3の処理を行うCPUを同時に動作させて出力させても良い。
更にまた、補聴器1は、使用者の身体状態、利用状態及び使用目的に応じて上述した種々の出力機構からの出力結果を同時に或いは時間差を持たせて出力してするように音声情報生成部23で制御しても良い。
更に、この補聴器1は、複数のCPUを有し、上述した複数のCPUで行う第1〜第3処理のうち、少なくとも1の処理をひとつのCPUで行うとともに、残りの処理を他のCPUで行っても良い。
例えば、この補聴器1において、ひとつのCPUが入力された音声を文字データとして加工変換を行って表示部26に出力する処理(text to speech synthesis)を行うとともに、又はひとつのCPUが入力された音声に対して文字データとして加工変換を行って他のCPUが入力された同じ音声に対してSTRAIGHT処理を行ったりしてスピーカ部25に出力する処理を行い、他のCPUが入力された音声に対してボコーダ処理のうち、例えばSTRAIGHTを用いた処理を行ってスピーカ部25に出力する処理を行っても良い。すなわちこの補聴器1は、スピーカ部25に出力する信号と、表示部26に出力信号とで異なる処理を異なるCPUにより行うものであっても良い。
更に、この補聴器1においては、上述した種々の加工変換処理を行って上述の種々の出力機構に出力する処理を行うCPUを有するとともに、加工変換処理を施さないでマイクロホン21に入力された音声を出力しても良い。
更に、この補聴器1においては、上述した種々の加工変換処理を行うためのCPUと、他の加工変換処理を行うCPUとを別個に備えていても良い。
更に、この補聴器1においては、上述のように認識結果や加工変換した認識結果や撮像した画像等について音声情報生成部23で変換する処理を行うとともに、従来の電気人工喉頭等を用いた代用発声法と同様に音声を検出して得た電気信号を増幅させて音質調整、利得調整や圧縮調整等を行いスピーカ部25に出力するものであっても良い。
なお、この補聴器1において、信号処理部22及び音声情報生成部23で行う処理を、例えばフーリエ変換、ボコーダ処理(STRAIGHT等)の処理を組み合わせて適用することで、上述した処理を行っても良い。
また、本発明を適用した補聴器1では、個人的に使用する小型のタイプの補聴器について説明したが、集団で用いる大型のもの(卓上訓練用補聴器や集団訓練用補聴器)にも用いてもよい。
視覚への提示手段としてHMD、頭部結合型表示装置(Head−coupled display)、人工眼(visual prosthesis/artificial eye)があげられる。以下に例を示す((a)〜(m))。
(a)双眼式HMD(左右眼毎に視差画像を提示し立体視を可能とするもの、左右眼双方に同じ画像を提示し見かけ上の大画面を与えるもの)
(b)単眼式HMD
(c)シースルー型HMD、主にARを実現するものとしてEye・through HMD(Puppet Eyes:ATR)
(d)視覚補助や視覚強調機能付きディスプレイ
(e)眼鏡型の双眼望遠鏡(自動焦点機能付、バーチャルフィルター(Visual filter)を用いる)
(f)接眼部にコンタクトレンズを使用するシステム
(g)網膜投影型(Virtual Retinal Display、Retinal proiection display、網膜投影型の中間型)
(h)人工眼(visual prosthesis/artificial eye)体外装着のカメラで周囲の情景をとらえ、画像処理(特徴抽出等)を施して画像データを作成し、体内埋め込みのMENS(Micro・Electrical Mechanical system:電子回路を備えたマイクロマシン)へ無線・有線で画像データとMENS駆動用の電力を電送する。MENSは送られてきたデータに基づいて神経信号に似た電気パルス信号をつくりだし、その信号を刺激電極を通じて脳神経系へ伝える。人工眼にはMENSを埋め込む場所によりh1〜h4に分けられる。[h1]脳内刺激型人工眼(cortical implant:参照 Dobelle Wm H,Artificial vision for the blind by connecting a television camere to the visual cortex.ASAIO J 2000;46,3・9)[h2]網膜刺激型人工眼(Sub or Epi・retinal implant:参照 Rizzo JF et al.Development of an Epiretinal Electronic Visual ProsthesisHarvard・Med MIT Res Program.inRetinal Degenerative Diseases and Experimental Theory Kluwer Academic Plenum Publishers,463・701999)、[h2]視神経刺激型人工眼(optic nerve implant:参照Microsystems based visual prothesis MIVIP(Catholique Univ Sci Appliquees Microelectonics Lab)、[h4]ハイブリッド型人工網膜(hybrid retinal implant:細胞培養+網膜刺激型人工眼 Nagoya Univ)がある。
(i)視線入力機能付きHMD(HAQ−200(島津製作所製)
(j)頭部以外(耳、全身、首、肩、顔面、眼、腕、手、眼鏡等)にマウントするディスプレイ
(k)立体ディスプレイ(投影式オブジェクト指向型ディスプレイ(参照 head−mounted projector:Iinami M et al.,Head−mounted projector(II)−implementation Proc 4th Ann Conf Of Virtual Reality Society of Japan 59−62,1999)、リンク式の立体ディスプレイ)
(l)大画面ディスプレイ(spatial immnersive display)(例omnimax、CAVE(参照 Cruz−Neira C et al.Surrounded−screen projection−based virtual reality:The design and implementation of the CAVE,Proc of SIGGRAPH’93,135−42,1993)、CAVE型立体映像表示装置(CABIN:参照 Hirose M et al.IEICE trans Vol J81DII No5,888−96,1998)、小型超広視野ディスプレイ(投影ディスプレイ(例:CAVE)及びHMD 参照 Endo T et al.Ultra wide field of view compact display.Proc 4th Ann Conf of Virtual Reality Society of Japan,55−58,1999)、アーチスクリーン)
(m)その他 アプトン眼鏡(Upton eyeglass)のディスプレイシステム、サングラスの機能付きディスプレイ
特に大画面ディスプレイは大型補聴器として用いるときに使用してもよい。また、上述した補聴器1では、音の再現方法としてバイノーラル方式を使用してもよい(3D音響システムはHead−Related Transfer Functionを用いた空間音源定位システムを用いる:例 Convolvotron & Acoustetron II(Crystal River Engineering);ダイナミック型ドライバユニットとエレクトレットマイクロフォンを使用した補聴器TE−H50(Sony))。実際と近い音場をつくったり、トランスオーラル方式(トラッキング機能付きのトランスオーラル方式が3D映像再現におけるCAVEに対応する)を用いたりするものは主に大型の補聴器システムの場合に用いるのが好ましい。
更にまた、上述のHMD2は、頭頂部に3次元位置検出センサーを備えていても良い。このようなHMD2を備えた補聴器1では、使用者の頭の動きに合わせてディスプレイ表示を変化させることが可能となる。
強調現実感(Augmented reality:AR)を利用した補聴器1では、使用者の動作に関するセンサを備え、センサで検出した情報、マイクロホン21で検出し音声情報生成部23で生成した音声情報とを用いることで、ARを生成する。音声情報生成部23は、種々のセンサシステムとVR形成システムを統合するシステムとディスプレイシステムによりなるバーチャルリアリティ(Virtual reality:VR)システムとを協調的に用いることにより、実空間にVRを適切に重畳することで、現実感を強調するARをつくることが可能となる。これにより補聴器1では視覚ディスプレイを用いるときに、顔面部にある画像からの情報を、情報が来るたびに大幅に視線をはずすことなく、ただ画像が目の前にあるだけでなく、画像情報が、いかにもそこにあるように自然に受けいれるようになり自然な状態で視覚からの情報を受け取ることが可能となる。以上を実行するには以下のシステムがある。
このような補聴器1は、図7に示すように、ARを形成するためには、仮想環境映像生成のための3Dグラフィックアクセラレータを音声情報生成部23の内部に搭載することでコンピュータグラフィックスの立体視が可能な構成とし、更に無線通信システムを搭載する。この補聴器1に使用者の位置と姿勢の情報を取得するため、センサ31として頭部に小型ジャイロセンサ(データテックGU−3011)を、使用者の腰に加速度センサ(データテックGU−3012)を接続する。以上のセンサ31からの情報を音声情報生成部23で処理を行った後、使用者の右・左目に対応するスキャンコンバータ32a、32bで処理をして表示部26に映像が行くというシステムを用いることで可能となる(参照 Ban Y et al,Manual−less operation with wearable augmented reality system.Proc 3th Ann Conf of Virtual Reality society of Japan,313−4,1998)。
以下の方法でもAR実現可能である。カメラからの映像(video stream from camera)よりマーカーをサーチ(search for marker)、マーカの3D位置・方向をみつけ(find marker 3D position and orientation)、マーカを確認(identify marikers)、ポジションとオブジェクトのポジションを決め(position and orient obiects)、ビデオでの3Dオブジェクトを生成し(render 3D objects in video frame)、ビデオ映像をHMDに出力する(video stream to the HMD):Integrating real and virtual worlds in shared space.ATR MIC Labs and HIT Lab,Univ of Washington))。
また、この補聴器1では、センサ31に加えて状況認識システム(例:Ubiquitous Talkor(Sony CSL))とVRシステムを形成する他のシステムである以下の種々のセンサシステムとVR形成システムを統合するシステムとディスプレイシステム、及び、この補聴器1とを協調的に用いることにより、ARを強化することも可能であり、マルチモダリティを用いて音声情報を補足可能となる。
このようなVR・AR等の空間を形成するには、先ず、使用者がセンサ31に本人から情報を送り、その情報がVR形成システムを統合するシステムに送られ、ディスプレイシステムから使用者に情報が送られることで実現する。
センサ31(情報入力システム)として以下のデバイスがある。
特に人体の動きの取り込みや、空間に作用するデバイスとして光学式3次元・位置センサ(ExpertVision HiRES & Face Tracker(MotionAnalysis))、磁気式3次元位置センサ(InsideTrack(Polhemus)、3SPACE system(POLHEMUS)、Bird(Ascension Tech))、機械式3Dディジタイザ(MicroScribe 3D Extra(Immersion))、磁気式3Dディジタイザ(Model350(Polhemus))、音波式3Dデイジタイザ(Sonic Digitizer(Science Accessories))、光学式3Dスキャナー(3D Laser Scanner(アステックス))、生体センサ(体内の電気で測る)サイバーフィンガー(NTTヒューマンインタフェース研究所)、手袋型デバイス(DetaGlove(VPL Res),Super Glove(日商エレクトロニクス)Cyber Glove(Virtual Tech))、フォースフィードバック(Haptic Master(日商エレクトロニクス)、PHANToM(SensAble Devices))、3Dマウス(Space Controller(Logitech))、視線センサ(眼球運動分析装置(ATR視聴覚機構研究所製))、体全体の動きの計測に関するシステム(DateSuit(VPL Res))、モーションキャプチャーシステム(HiRES(Motion Analysis))、加速度センサ(三次元半導体加速度センサ(NEC製))、視線入力機能付きHMD、ポジショニングシステム(例GPS)を用いても良い。
また、VR・ARを実現するためには、表示部26のみならず、触覚を利用した触覚ディスプレイ、触圧ディスプレイ、力覚ディスプレイ、嗅覚ディスプレイを用いても良い。触覚ディスプレイにより音声を触覚により伝え、聴覚だけでなく触覚をも加えることで音声の認識をあげことが可能となる。この触覚ディスプレイとしては、例えば振動子アレイ(オプタコンや触覚マウス、タクチュアルボコーダ等)、触知ピンアレイ(ペーパーレスブレイル等)などが使用可能である。他にwater jet、air jet.PHANToM(SensAble Devices)、Haptic Master(日商エレクトロニクス)などがある。具体的には、補聴器1は、VRな空間でVRキーボードを表示し、信号処理部22及び音声情報生成部23での処理をVRキーボードまたはVRスイッチにより制御する。これにより、わざわざキーボードを用意したり、スイッチまで手を伸ばしたりすることが無くなり、使用者の操作を楽にし、耳に装着するのみの補聴器と近い装用感を得ることができる。
前庭感覚ディスプレイとしては、ウオッシュアウトとウオッシュバックにより狭い動作範囲の装置でも多様な加速度表現ができるシステム(例:モーションベット)が使用可能である。
前庭刺激による音像の知覚の誤りの報告(Ishida Y et al,移動音像の知覚と平衡感覚の相互作用.日本音響学会聴覚研究会 H−95(63)1−8,1995)より前庭刺激がきこえに影響を与えることがわかり、前庭感覚ディスプレイも聴覚を補償するものと考えられる。
嗅覚ディスプレイとしては、文献「Hirose M et al 嗅覚ディスプレイに関する研究 日本機会学会 第75期通常総会講演会 講演論文集,433−4(1998.4)」、嗅覚センサーシステム(島津製作所製)で採用されている技術が使用可能である。
また、この補聴器1では、音声・画像に関する以外のセンサによる情報を認識し画像に提示するシステム(例:手話通訳プロトタイプシステムを用いても良い。この補聴器1では、例えばデータグローブ(VPL Res)よりの手話の入力情報を手話単語標準パターンに基づく手話単語認識処理にて認識し単語辞書文書化ルールに基づく文章変換部で処理された情報をディスプレイに表示する(日立)を用いてもよい。
VRシステムを統合するシステムとしては、以下のものがあり、それら限定されることはないが、C、C++のライブラリとして供給され、表示とそのデータベース、デバイス入力、干渉計算、イベント管理等をサポートし、アプリケーションの部分は使用者がライブラリを使用してプログラミングするものや、ユーザプログラミングを必要とせずデータベースやイベント設定をアプリケーションツールで行い、そのままVRシュミレーションを実行するシステム等を使用してもよい。またこの補聴器1に関する個々のシステム間を通信にて繋げてもよい。また、状況を高臨場感を保って伝送するのに広帯域の通信路を使用しても良い。また、補聴器1では、3Dコンピュータグラフィックスの分野で用いられている以下の技術を用いてもよい。現実に起こり得ることを忠実に画像として提示し、非現実的な空間を作り、実際には不可能なことも画像として提示することがコンセプトとなる。この補聴器1は、例えば複雑で精密なモデルを作るモデリング技術(ワイヤーフレームモデリング、サーフェスモデリング、ソリッドモデリング、ベジエ曲線、B−スプライン曲線、NURBS曲線、ブール演算(ブーリアン演算)、自由形状変形、自由形状モデリング、パーティクル、スイープ、フィレット、ロフティング、メタボール等)、質感や陰影をつけリアルな物体を追求するためのレンダリング技術(シェーディング、テクスチュアマッピング、レンダリングアルゴリズム、モーションブラー、アンチエリアシング、デプスキューイング)をする。また、補聴器1は、作成したモデルを動かし、現実の世界をシミュレーションするためのアニメーション技術としてはキーフレーム法、インバースキネマティクス、モーフィング、シュリンクラップアニメーション、αチャンネルを用いる。3Dコンピュータグラフィックスでは、以上のモデリング技術、レンダリング技術、アニメーション技術により可能となる。サウンドレンダリングとして以下に記載されている技術を用いても良い(Takala T,Computer Graphics(Proc SIGGRAPH 1992)Vol26,No2,211−20)。
このようなVRシステムを統合するシステムとして、以下のシステム(Division Inc:VRランタイムソフトウェア[dVS],VR空間構築ソフトウェア[dVISE],VR開発用ライブラリ[VC Toolkit] SENSE8;WorldToolKit,WorldUp Superscape;VRT Solidray;RealMaster モデルなしのVRの生成(参照 Hirose M et al.A study of image editing tech for synthetic sensation.Proc ICAT’94,63−70,1994))がある。
また、補聴器1は、表示部26に表示して音声認識結果、加工変換結果を提示する場合のみならず、プリンタ装置と接続することで、音声認識結果、加工変換結果を印刷紙で提示しても良く、更に、利用者の音声の認識を向上させることができる。
また、本実施の形態では、HMD2と、コンピュータ部3との間を光ファイバーケーブル4で接続してなる携帯型の補聴器1について説明したが、HMD2とコンピュータ部3との間をワイヤレスとし、HMD2とコンピュータ部3との間を無線(Bluetooth 2.4GHz帯の電波を周波数ホッピングさせながら送受信)や赤外線を用いた信号伝送方式等により情報の送受信を行っても良い。
更に、この補聴器1においては、HMD2とコンピュータ部3との間をワイヤレスとする場合のみならず、図2に示した各部が行う機能毎に分割して複数の装置とし、各装置間をワイヤレスとしても良く、少なくともコンピュータ部3を使用者に装着させずにHMD2と情報の送受信を行っても良い。更にまた、この補聴器1においては、使用者の身体状態、利用状態、使用目的に応じて、図2に示した各部が行う機能毎に分割して複数の装置とし、各装置間をワイヤレスとしても良い。これにより、補聴器1は、使用者が装着する装置の重量、体積を軽減し、使用者の身体の自由度を向上させ、使用者の認識を更に向上させることができる。
また、補聴器1では、通信回路27を介して信号処理部22及び音声情報生成部23で行う処理の制御及びバージョンアップ(例ウイルスソフト)、修理、オペレーションセンターとの連携(操作方法、クレーム処理等)等をしても良い。
すなわち、通信回路27は、外部の信号処理サーバと接続され、マイクロホン21、信号処理部22又は音声情報生成部23で生成した信号や音声情報を信号処理サーバ送信することで、信号処理サーバで所定の信号処理が施された音声信号や音声情報を得ることができる。このような通信回路27を備えた補聴器1では、上述した信号処理部22、音声情報生成部23で行う認識処理や加工変換処理を外部の信号処理サーバに行わせることで、内部での処理内容を削減することができる。また、この補聴器1によれば、外部の信号処理サーバで利用者の身体状態、使用状態及び使用目的に基づいて、信号処理部22や音声情報生成部23では行わない処理を実行させることにより、更に利用者の音声の認識を向上させることができる。
更に、この補聴器1では、信号処理部22や音声情報生成部23で使用する記憶部24に記憶された画像データを外部のサーバからダウンロードすることにより、記憶部24に多量の画像データが格納されていなくても、様々な種類の画像を表示部26に表示するととができる。従って、このような通信回路27を備えた補聴器1によれば、認識結果を加工変換した結果を示す画像の種類を多くすることができ、更に利用者の音声の認識を向上させることができる。
このように、補聴器1では、外部のサーバに処理を行わせるとともに、外部のサーバに処理に必要なデータを記憶させることで、装置の小型化を図ることができ、装着性、携帯性を向上させることができる。
更に、この補聴器1では、利用者の身体状態、使用状態及び使用目的に基づいて、外部のサーバから予め信号処理部22や音声情報生成部23に設定されていた処理内容とは異なる処理内容を示すプログラムをダウンロードすることにより、利用者に応じた処理を信号処理部22及び音声情報生成部23で施すことができ、更に利用者の音声の認識を向上させることができる。
また、この補聴器1では、通信回路27に通信するための信号が検出されず通信を行うことができないときには、自動的に通信を用いた処理ではない方法で上述の処理をし、通信が可能であるときには自動的に通信を用いた処理方法で上述の処理してもよい。
通信回路27と接続する外部のネットワークとしては、例えば、インターネットを通じたASP(application service provider)やデータセンター、ASPを利用する場合VPN(virtual private network)、CSP(commerce service provider)にも使用してもよい。
更に、補聴器1と外部のネットワークとの間で音声情報を送受信するときには、例えば音声をインターネット上で伝送するVoIP(Voice over IP)、音声をフレームリレー網上で伝送するVoFR(Voice over FR)、音声をATMネットワーク網上で伝送するVo ATM(Voice over ATM)技術を用いる。
また、この補聴器1は、図示しない外部入出力端子を備え、外部装置に音声データを出力して外部装置に信号処理部22や音声情報生成部23で行う処理を実行させることや、外部装置から信号処理部22や音声情報生成部23での処理に必要なデータを取り込む処理等を行っても良い。
このような補聴器1は、身体状態、使用状態及び使用目的に基づいて、信号処理部22や音声情報生成部23では行わない処理を外部装置に実行させることにより、更に利用者の音声の認識を向上させることができる。
また、補聴器1によれば、外部装置からデータを読み出すことで、認識結果を加工変換した結果を示す画像の種類を多くすることができ、更に利用者の音声の認識を向上させることができる。
更に補聴器1では、外部装置に処理を行わせるとともに、外部装置に処理に必要なデータを記憶させることで、装置の小型化を図ることができ、装着性、携帯性を向上させることができる。
更にまた、補聴器1では、利用者の身体状態、使用状態及び使用目的に基づいて、外部装置から予め信号処理部22や音声情報生成部23に設定されていた処理内容とは異なる処理内容を示すプログラムを取り込むすることにより、利用者に応じた処理を信号処理部22及び音声情報生成部23で施すことができ、更に利用者の音声の認識を向上させることができる。
また、本発明を適用した補聴器1によれば、合成した音声を表示することで使用者に提示することができるので、以下の分野にて使用可能である。
主に難聴者や言語障害者の仕事の支援として、事務作業、(ウェアブルコンピュータとして)、認証業務、音声言語訓練、会議、応対業務(電話やインターネット等による)、番組製作(アニメーション、実写映像、ニュース、音楽制作)、宇宙空間での作業、運輸(宇宙船や飛行機のパイロット)、VRとARとを用いた種々のシミュレーション作業(遠隔手術(マイクロサージュリー等)、調査(マーケティング等)、軍事等、デザイン分野、在宅勤務、悪条件(騒音下等)での作業業務(建築現場、工場等)、仕分け業務等に使用可能である。
また、この補聴器1によれば、主に難聴者や言語障害者の生活支援として、医療現場(プライマリーケア、診察、検査(聴力検査等)、看護業務、在宅ケア、介護業務 介護学校での業務、医療補助業務、産業医学業務(メンタルヘルス等)、治療(内科、疾病)、脳幹障害による聴覚障害(brainstem deafness)、聴皮質・聴放線障害による聴覚障害(deafness due to auditory cortex and subcortical lesion)、言語障害(失語症aphasia等)の訓練や介護にも有用であり、外国語学習、娯楽(通信機能付きテレビゲーム)、個人用ホームシアター、観戦(コンサートや試合等)、選手の試合時や練習時での選手同士や選手とコーチ間の意志疎通や情報変換)、カーナビゲーションシステム、教育、情報家電との連携、通信(自動翻訳電話、電子商取引、ASP・CSP、オンラインショッピング、電子マネー・電子ウォレット・デビットカード等を用いたもの、決済及び証券・銀行業務(為替、デリバティブ等))、コミュニケーション(音声言語障害者、重病患者、重度身体障害者に対する))、娯楽(アミューズメントパーク等におけるFish・tank VR display、裸眼立体視システム、テレイグジスタンス視覚システムなどを用いたVRやARや、テレエグシスタンスやアールキューブを利用した物、政治(選挙等への参加)、トレーニングスポーツ(レース(自動車やヨット等)、冒険(山や海等)、旅行、会場の閲覧、買い物、宗教、超音波(ソナーSONAR)を用いたもの、ホームスクール、ホームセキュリティ、デジタル音楽・新聞・書籍サービス・装置との接続(例 Audible Player、mobile player(Audible Inc))、相互データ通信テレビ、電子商取引(EC electric commerce)、データ通信可能なTV電話への接続、PDA(携帯情報端末)との接続(例:V・phonetTietech Co.)、広告、調理、手話への利用(例:手話通訳・生成システム・手話アニメーションソフトMimehand(HITACHI)との利用)水中(ダイビングでの水中会話及び意志疎通等)の分野に使用可能である。
さらに、この補聴器1には、記憶部24に通常のパーソナルコンピュータで行うような処理(文書作成、画像処理、インターネット、電子メール)を示すアプリケーションプログラムを格納して実行しても良い。
産業上の利用可能性
以上詳細に説明したように、本発明に係る音声変換装置は、音声を音響電気変換手段で検出し認識手段で音声認識処理をして得た認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換する変換手段を備え、更に認識結果及び/又は認識結果を変換手段により加工変換した認識結果を使用者の身体状態等に応じて出力手段から出力することができるので、音声のみならず、音声の意味内容を示す情報を例えば図柄等として表示することができ、音声のみならず画像を利用して利用者の聴覚を補償することができる。
本発明に係る音声変換方法は、音声を検出して音声信号を生成し、音響電気変換手段からの音声信号を用いて音声認識処理を行い、認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換して、使用者の身体状態等に応じて認識結果を出力することができるので、音声のみならず、音声の意味内容を示す情報を例えば図柄等として表示することができ、音声のみならず画像を利用して利用者の聴覚を補償することができる。
【図面の簡単な説明】
図1は、本発明を適用した補聴器の外観の一例を示す斜視図である。
図2は、本発明を適用した補聴器の構成を示すブロック図である。
図3は、本発明を適用した補聴器の表示部で認識結果及び加工変換結果を表示する一例を説明するための図である。
図4は、本発明を適用した補聴器の表示部で加工変換結果を表示する一例を説明するための図である。
図5は、本発明を適用した補聴器の表示部で認識結果及び加工変換結果を表示する他の一例を説明するための図である。
図6Aは所定の音量でマイクロホンに音声が入力されたときに表示部に表示する図柄を示す図であり、図6Bは上記所定の容量よりも小さい音量でマイクロホンに音声が入力されたときに表示部に表示する図柄を示す図である。
図7は、本発明を適用した補聴器でオーグメント・リアリティ(Augumented Reality:AR)を作るための構成を示すブロック図である。
Claims (27)
- 入力音声を検出して音声信号を生成する音響電気変換手段と、
前記音響電気変換手段からの前記音声信号を用いて、使用者の身体状態、利用状態及び使用目的に応じて音声認識処理を行う信号処理手段と、前記信号処理手段からの認識結果を用いて音声情報を生成する情報生成手段とを含むコンピュータ部と、
前記情報生成手段からの前記音声情報を前記使用者に提示する出力手段であって、前記音声情報を画像として表示する表示手段と音声として出力する電気音響変換手段とを備える出力手段と、
前記音響電気変換手段、前記表示手段、前記電気音響変換手段及び前記コンピュータ部を使用者に装着するための手段と、
前記音響電気変換手段、前記表示手段及び前記電気音響変換手段を前記コンピュータ部と電気的に接続するための接続手段と、
を具備し、
前記音響電気変換手段は、音声言語障害を有して発せられた音声を検出して音声信号を生成し、
前記情報生成手段は、音声言語障害を有しないで発せられた音声を予めサンプリングすることで生成した音声データを記憶する記憶手段と、前記信号処理手段からの認識結果に基づいて、前記記憶手段に記憶された音声データを用いて出力する音声を示す音声情報を生成する音声情報生成手段とを備える
ことを特徴とする音声変換装置。 - 使用者の身体状態、利用状態及び使用目的に応じて認識結果を提示する音声変換装置であって、
入力音声を検出して音声信号を生成する音響電気変換手段と、
前記音響電気変換手段からの前記音声信号を用いて、使用者の身体状態、利用状態及び使用目的に応じて音声認識処理を行う信号処理手段と、前記信号処理手段からの認識結果を用いて音声情報を生成する情報生成手段とを含むコンピュータ部と、
前記情報生成手段からの前記音声情報を前記使用者に提示する出力手段であって、前記音声情報を画像として表示する表示手段と、音声として出力する電気音響変換手段とを備える出力手段と、
前記音響電気変換手段と前記出力手段とを前記コンピュータ部に電気的に接続するための接続手段と、
を具備し、
前記音響電気変換手段は、音声言語障害を有して発せられた音声を検出して音声信号を生成し、
前記情報生成手段は、音声言語障害を有しないで発せられた音声を予めサンプリングすることで生成した音声データを記憶する記憶手段と、前記信号処理手段からの認識結果に基づいて、前記記憶手段に記憶された音声データを用いて出力する音声を示す音声情報を生成する音声情報生成手段とを備える
ことを特徴とする音声変換装置。 - 前記記憶手段は、更に、前記表示手段に表示する画像を示すデータを格納しており、
前記信号処理手段により認識された結果及び/又は前記情報生成手段からの認識結果に基づいて、前記情報生成手段が、前記記憶手段に格納された前記データを読み出し、読み出された前記データが示す画像を前記表示手段に表示させる
ことを特徴とする、請求項1又は2に記載の音声変換装置。 - 前記情報生成手段が、前記信号処理手段により認識された音声の音量に応じて、異なる大きさの図柄を前記記憶手段から読み出して前記表示手段に表示させることを特徴とする、請求項3に記載の音声変換装置。
- 前記情報生成手段は、使用者及び/又は使用者以外の者から発せられる音声を前記表示手段に表示させるとともに、使用者及び/又は使用者以外の者から発せられる音声の音圧レベルを増幅して前記電気音響変換手段から音声として出力させることを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記情報生成手段は、前記信号処理手段での認識結果に応じて、前記音響電気変換手段で検出した音声の意味内容を前記表示手段に表示させることを特徴とする、請求項1又は2に記載の音声変換装置。
- 通信回線を通じて音声を前記信号処理手段に入力するとともに、前記出力手段からの画像と音声を前記通信回線に出力する通信手段を更に備えることを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記信号処理手段は、前記音響電気変換手段からの音声について話者認識処理を行って各話者に対応した認識結果を生成し、
前記出力手段は、各話者に関する情報を使用者に提示する
ことを特徴とする、請求項1又は2に記載の音声変換装置。 - 画像を撮像する撮像手段を更に備え、
前記撮像手段は、撮像した画像を少なくとも前記表示手段に出力する
ことを特徴とする、請求項1又は2に記載の音声変換装置. - 前記撮像手段は、使用目的に応じて、撮像した画像について画像変換処理を施して前記表示手段に出力することを特徴とする、請求項9に記載の音声変換装置。
- 前記撮像手段は、使用者に対して着脱自在となされていることを特徴とする、請求項8に記載の音声変換装置。
- 前記通信手段が、外部ネットワークに含まれる外部機器と接続されることを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記通信手段は、前記音響電気変換手段で生成した音声信号及び/又は前記信号処理手段からの認識結果を前記外部機器に出力することができ、前記外部機器からの音声認識結果を受け取ることができることを特徴とする、請求項12に記載の音声変換装置。
- 前記通信手段は、前記信号処理手段及び/又は前記情報生成手段の処理内容を変更するプログラムを前記外部機器から受信し、
前記信号処理手段及び/又は前記情報生成手段は、前記通信手段で受信した前記プログラムに基づいて動作する
ことを特徴とする、請求項12に記載の音声変換装置。 - 前記情報生成手段は、前記信号処理手段からの認識結果を同時に又は時間差を持たせて前記出力手段から出力させることを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記接続手段が無線接続手段であることを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記音響電気変換手段は、音声言語障害を有して発せられた音声を、補助的手段と代用発声法とのうちの何れか一つを用いて是正された音声として検出して音声信号を生成することを特徴とする、請求項1又は2に記載の音声変換装置。
- 使用者の動作に関するセンサを更に備え、
前記出力手段は、前記センサで検出した情報と前記情報生成手段からの音声情報とに基づいて仮想現実感を形成する
ことを特徴とする、請求項1又は2に記載の音声変換装置。 - 使用者の動作に関するセンサを更に備え、
前記出力手段は、前記センサで検出した情報と前記情報生成手段からの音声情報とに基づいて強調現実感を形成する
ことを特徴とする、請求項1又は2に記載の音声変換装置。 - 音声対話機能を更に備え、
前記音声対話機能による対話結果に基づいて、前記情報生成手段が前記信号処理手段による認識結果を加工変換する
ことを特徴とする、請求項1又は2に記載の音声変換装置。 - 前記情報生成手段が、前記音声情報の要約を生成する機能を有することを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記情報生成手段が、使用者の身体状態、利用状態及び使用目的に基づいて、前記信号処理手段からの認識結果に、使用者が理解し易い言葉を付け加える機能を有することを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記情報生成手段が、前記信号処理手段からの認識結果に含まれる非言語情報を手話等の画像として前記表示手段に表示させる出力を生じる機能を有することを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記入力音声が、警報、特定の雑音及び特定の音源からの音などの特定の音であるとき、前記出力手段が、前記信号処理手段からの認識結果に含まれる前記特定の音に対応する出力を生じる機能を有することを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記情報生成手段が、音韻的に近い例を用いて誤りを訂正することにより、前記信号処理手段からの認識結果に含まれる聞き違いを修正した出力を生じる機能を有することを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記入力音声の音声情報を生成している期間に前記使用者の音声又は外部の音声を検出したとき、前記情報生成手段が、前記音声情報の内容を変更する機能を有することを特徴とする、請求項1又は2に記載の音声変換装置。
- 前記情報生成手段が、以前に出力した音声情報を再度出力する機能を有することを特徴とする、請求項1又は2に記載の音声変換装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3755999 | 1999-02-16 | ||
JP3755899 | 1999-02-16 | ||
PCT/JP2000/000872 WO2000049834A1 (fr) | 1999-02-16 | 2000-02-16 | Dispositif de conversion de la parole et procede correspondant |
Publications (1)
Publication Number | Publication Date |
---|---|
JP4439740B2 true JP4439740B2 (ja) | 2010-03-24 |
Family
ID=26376681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000600451A Expired - Lifetime JP4439740B2 (ja) | 1999-02-16 | 2000-02-16 | 音声変換装置及び方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7676372B1 (ja) |
EP (1) | EP1083769B1 (ja) |
JP (1) | JP4439740B2 (ja) |
AT (1) | ATE471039T1 (ja) |
AU (1) | AU2571900A (ja) |
CA (1) | CA2328953A1 (ja) |
DE (1) | DE60044521D1 (ja) |
WO (1) | WO2000049834A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574474A (zh) * | 2015-01-09 | 2015-04-29 | 何玉欣 | 一种通过字幕生成动画角色语言口型的匹配方法 |
Families Citing this family (103)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10031832C2 (de) * | 2000-06-30 | 2003-04-30 | Cochlear Ltd | Hörgerät zur Rehabilitation einer Hörstörung |
JP4694835B2 (ja) * | 2002-07-12 | 2011-06-08 | ヴェーデクス・アクティーセルスカプ | 補聴器および音声の明瞭さを高める方法 |
US8458028B2 (en) * | 2002-10-16 | 2013-06-04 | Barbaro Technologies | System and method for integrating business-related content into an electronic game |
US7088224B2 (en) | 2003-03-11 | 2006-08-08 | National Institute Of Advanced Industrial Science And Technology | Audio information transmitting apparatus and the method thereof, and a vibrator holding structure |
US8072470B2 (en) | 2003-05-29 | 2011-12-06 | Sony Computer Entertainment Inc. | System and method for providing a real-time three-dimensional interactive environment |
JP2005117484A (ja) * | 2003-10-09 | 2005-04-28 | Katsuro Aoki | 人工喉頭使用者用拡声装置 |
US20050213771A1 (en) * | 2004-03-26 | 2005-09-29 | Paris Smaragdis | Propagating sound information to acoustically isolated environments |
DK1703770T3 (en) | 2005-03-14 | 2017-06-12 | Gn Resound As | Hearing aid fitting system with a camera |
US8170677B2 (en) * | 2005-04-13 | 2012-05-01 | Cochlear Limited | Recording and retrieval of sound data in a hearing prosthesis |
US8251924B2 (en) * | 2006-07-07 | 2012-08-28 | Ambient Corporation | Neural translator |
US8082149B2 (en) * | 2006-10-26 | 2011-12-20 | Biosensic, Llc | Methods and apparatuses for myoelectric-based speech processing |
EP1926087A1 (de) * | 2006-11-27 | 2008-05-28 | Siemens Audiologische Technik GmbH | Anpassung einer Hörvorrichtung an ein Sprachsignal |
US9911352B2 (en) | 2006-12-27 | 2018-03-06 | Case Western Reserve University | Situated simulation for training, education, and therapy |
US20090076825A1 (en) * | 2007-09-13 | 2009-03-19 | Bionica Corporation | Method of enhancing sound for hearing impaired individuals |
US20090076804A1 (en) * | 2007-09-13 | 2009-03-19 | Bionica Corporation | Assistive listening system with memory buffer for instant replay and speech to text conversion |
US20090076816A1 (en) * | 2007-09-13 | 2009-03-19 | Bionica Corporation | Assistive listening system with display and selective visual indicators for sound sources |
US8391523B2 (en) | 2007-10-16 | 2013-03-05 | Phonak Ag | Method and system for wireless hearing assistance |
WO2009049646A1 (en) | 2007-10-16 | 2009-04-23 | Phonak Ag | Method and system for wireless hearing assistance |
WO2009092107A2 (en) | 2008-01-17 | 2009-07-23 | Articulate Technologies, Inc. | Methods and devices for intraoral tactile feedback |
US9990859B2 (en) | 2008-01-17 | 2018-06-05 | Speech Buddies, Inc. | Intraoral tactile biofeedback methods, devices and systems for speech and language training |
JP5521554B2 (ja) * | 2008-02-19 | 2014-06-18 | 日本電気株式会社 | テキスト変換装置、方法、プログラム |
US8242879B2 (en) * | 2008-03-20 | 2012-08-14 | The Ohio Willow Wood Company | System and method for prosthetic/orthotic device communication |
US8280732B2 (en) * | 2008-03-27 | 2012-10-02 | Wolfgang Richter | System and method for multidimensional gesture analysis |
DE102008030404A1 (de) * | 2008-06-26 | 2009-12-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Hörhilfevorrichtung und -verfahren |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
US20100198582A1 (en) * | 2009-02-02 | 2010-08-05 | Gregory Walker Johnson | Verbal command laptop computer and software |
US8943094B2 (en) * | 2009-09-22 | 2015-01-27 | Next It Corporation | Apparatus, system, and method for natural language processing |
CN102044128A (zh) * | 2009-10-23 | 2011-05-04 | 鸿富锦精密工业(深圳)有限公司 | 紧急事件报警***及方法 |
US9138186B2 (en) * | 2010-02-18 | 2015-09-22 | Bank Of America Corporation | Systems for inducing change in a performance characteristic |
US8715179B2 (en) * | 2010-02-18 | 2014-05-06 | Bank Of America Corporation | Call center quality management tool |
US8715178B2 (en) * | 2010-02-18 | 2014-05-06 | Bank Of America Corporation | Wearable badge with sensor |
RU2010124351A (ru) * | 2010-06-17 | 2011-12-27 | Владимир Витальевич Мирошниченко (RU) | Взаимодействие виртуальной мимики и/или виртуальной жестикуляции с сообщением |
DE112010005706B4 (de) | 2010-06-28 | 2018-11-08 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung |
WO2012003602A1 (zh) * | 2010-07-09 | 2012-01-12 | 西安交通大学 | 一种电子喉语音重建方法及其*** |
US9484046B2 (en) * | 2010-11-04 | 2016-11-01 | Digimarc Corporation | Smartphone-based methods and systems |
WO2012087345A1 (en) * | 2010-12-03 | 2012-06-28 | Forbes Rehab Services, Inc. | Audio output module for use in artificial voice systems |
US9037458B2 (en) * | 2011-02-23 | 2015-05-19 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
EP2498514B1 (en) * | 2011-03-08 | 2014-01-01 | Nxp B.V. | A hearing device and method of operating a hearing device |
JP2012205147A (ja) * | 2011-03-25 | 2012-10-22 | Kyocera Corp | 携帯電子機器および音声制御システム |
WO2012154697A2 (en) * | 2011-05-06 | 2012-11-15 | Incube Labs, Llc | System and method for enhancing speech of a diver wearing a mouthpiece |
ES2408906B1 (es) * | 2011-05-26 | 2014-02-28 | Telefónica, S.A. | Sistema y método para analizar el contenido de una conversación de voz |
KR20140064969A (ko) | 2011-09-23 | 2014-05-28 | 디지맥 코포레이션 | 콘텍스트―기반 스마트폰 센서 로직 |
US9014614B2 (en) * | 2011-10-20 | 2015-04-21 | Cogcubed Corporation | Cognitive assessment and treatment platform utilizing a distributed tangible-graphical user interface device |
WO2020051786A1 (en) | 2018-09-12 | 2020-03-19 | Shenzhen Voxtech Co., Ltd. | Signal processing device having multiple acoustic-electric transducers |
US8849666B2 (en) * | 2012-02-23 | 2014-09-30 | International Business Machines Corporation | Conference call service with speech processing for heavily accented speakers |
US9583032B2 (en) | 2012-06-05 | 2017-02-28 | Microsoft Technology Licensing, Llc | Navigating content using a physical object |
US9094749B2 (en) | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
CN102783973B (zh) * | 2012-08-07 | 2014-07-30 | 南京大学 | 一种利用自然声道超声波导效应的声带振动无损测量方法 |
US9344811B2 (en) * | 2012-10-31 | 2016-05-17 | Vocalzoom Systems Ltd. | System and method for detection of speech related acoustic signals by using a laser microphone |
ES2893410T3 (es) * | 2012-11-29 | 2022-02-09 | Imran Haddish | Sistema de instrucción de realidad virtual y aumentada |
WO2014094858A1 (en) * | 2012-12-20 | 2014-06-26 | Widex A/S | Hearing aid and a method for improving speech intelligibility of an audio signal |
EP2947658A4 (en) * | 2013-01-15 | 2016-09-14 | Sony Corp | MEMORY CONTROL DEVICE, READ CONTROL DEVICE, AND RECORDING MEDIUM |
US9311640B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods and arrangements for smartphone payments and transactions |
CN104019885A (zh) | 2013-02-28 | 2014-09-03 | 杜比实验室特许公司 | 声场分析*** |
US9979829B2 (en) | 2013-03-15 | 2018-05-22 | Dolby Laboratories Licensing Corporation | Normalization of soundfield orientations based on auditory scene analysis |
US20140270291A1 (en) | 2013-03-15 | 2014-09-18 | Mark C. Flynn | Fitting a Bilateral Hearing Prosthesis System |
TW201446226A (zh) * | 2013-06-04 | 2014-12-16 | jing-feng Liu | 人工發聲裝置 |
WO2014197858A1 (en) * | 2013-06-06 | 2014-12-11 | Kustom Signals, Inc. | Traffic enforcement system with time tracking and integrated video capture |
US9299358B2 (en) * | 2013-08-07 | 2016-03-29 | Vonage America Inc. | Method and apparatus for voice modification during a call |
US9728202B2 (en) | 2013-08-07 | 2017-08-08 | Vonage America Inc. | Method and apparatus for voice modification during a call |
WO2015019835A1 (ja) * | 2013-08-08 | 2015-02-12 | 国立大学法人奈良先端科学技術大学院大学 | 電気式人工喉頭装置 |
US9424843B2 (en) * | 2013-09-24 | 2016-08-23 | Starkey Laboratories, Inc. | Methods and apparatus for signal sharing to improve speech understanding |
KR20150104345A (ko) * | 2014-03-05 | 2015-09-15 | 삼성전자주식회사 | 음성 합성 장치 및 음성 합성 방법 |
JP6307627B2 (ja) | 2014-03-14 | 2018-04-04 | 株式会社ソニー・インタラクティブエンタテインメント | 空間感知を備えるゲーム機 |
US20160063889A1 (en) * | 2014-08-27 | 2016-03-03 | Ruben Rathnasingham | Word display enhancement |
WO2016078711A1 (en) | 2014-11-20 | 2016-05-26 | Widex A/S | Secure connection between internet server and hearing aid |
CN107004041B (zh) | 2014-11-20 | 2021-06-29 | 唯听助听器公司 | 助听器用户账户管理 |
JP6290827B2 (ja) * | 2015-06-05 | 2018-03-07 | リウ チン フォンChing−Feng LIU | オーディオ信号を処理する方法及び補聴器システム |
US10182758B2 (en) * | 2015-10-05 | 2019-01-22 | Htc Corporation | Measuring device of human body and method thereof |
US10062388B2 (en) * | 2015-10-22 | 2018-08-28 | Motorola Mobility Llc | Acoustic and surface vibration authentication |
CN106790940B (zh) | 2015-11-25 | 2020-02-14 | 华为技术有限公司 | 录音方法、录音播放方法、装置及终端 |
US10009698B2 (en) * | 2015-12-16 | 2018-06-26 | Cochlear Limited | Bone conduction device having magnets integrated with housing |
US10695663B2 (en) * | 2015-12-22 | 2020-06-30 | Intel Corporation | Ambient awareness in virtual reality |
KR102450803B1 (ko) * | 2016-02-11 | 2022-10-05 | 한국전자통신연구원 | 양방향 수화 번역 장치 및 장치가 수행하는 양방향 수화 번역 방법 |
US20170243582A1 (en) * | 2016-02-19 | 2017-08-24 | Microsoft Technology Licensing, Llc | Hearing assistance with automated speech transcription |
US10198964B2 (en) | 2016-07-11 | 2019-02-05 | Cochlear Limited | Individualized rehabilitation training of a hearing prosthesis recipient |
EP3549357A4 (en) | 2016-12-01 | 2020-06-17 | Earplace Inc. | APPARATUS FOR HANDLING HEARING DEVICES |
US10154354B2 (en) * | 2017-02-10 | 2018-12-11 | Cochlear Limited | Advanced artificial sound hearing training |
ES2639862B1 (es) * | 2017-03-31 | 2018-09-10 | Universidad De Málaga | Dispositivo de montaje sobre la cabeza para percepción de realidad aumentada |
EP3432606A1 (en) * | 2018-03-09 | 2019-01-23 | Oticon A/s | Hearing aid system |
US10916250B2 (en) | 2018-06-01 | 2021-02-09 | Sony Corporation | Duplicate speech to text display for the deaf |
US10916159B2 (en) | 2018-06-01 | 2021-02-09 | Sony Corporation | Speech translation and recognition for the deaf |
CN110634189B (zh) | 2018-06-25 | 2023-11-07 | 苹果公司 | 用于在沉浸式混合现实体验期间用户警报的***和方法 |
US10791404B1 (en) * | 2018-08-13 | 2020-09-29 | Michael B. Lasky | Assisted hearing aid with synthetic substitution |
WO2020046098A1 (es) * | 2018-08-28 | 2020-03-05 | Aragon Han Daniel | Sistema y dispositivo inalámbrico y ponible para registro, procesamiento y reproducción de sonidos en personas con distrofia en el sistema respiratorio |
JP7044027B2 (ja) * | 2018-10-15 | 2022-03-30 | トヨタ自動車株式会社 | 車両 |
US10902219B2 (en) * | 2018-11-21 | 2021-01-26 | Accenture Global Solutions Limited | Natural language processing based sign language generation |
CN109725732B (zh) * | 2019-01-23 | 2022-03-25 | 广东小天才科技有限公司 | 一种知识点的查询方法及家教设备 |
WO2020174356A1 (en) * | 2019-02-25 | 2020-09-03 | Technologies Of Voice Interface Ltd | Speech interpretation device and system |
CN110322887B (zh) * | 2019-04-28 | 2021-10-15 | 武汉大晟极科技有限公司 | 一种多类型音频信号能量特征提取方法 |
EP3737115A1 (en) * | 2019-05-06 | 2020-11-11 | GN Hearing A/S | A hearing apparatus with bone conduction sensor |
US11488583B2 (en) * | 2019-05-30 | 2022-11-01 | Cirrus Logic, Inc. | Detection of speech |
US10997970B1 (en) * | 2019-07-30 | 2021-05-04 | Abbas Rafii | Methods and systems implementing language-trainable computer-assisted hearing aids |
JP7358919B2 (ja) * | 2019-11-07 | 2023-10-11 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
CN111050266B (zh) * | 2019-12-20 | 2021-07-30 | 朱凤邹 | 一种基于耳机检测动作进行功能控制的方法及*** |
US11189265B2 (en) * | 2020-01-21 | 2021-11-30 | Ria Sinha | Systems and methods for assisting the hearing-impaired using machine learning for ambient sound analysis and alerts |
CN113658596A (zh) * | 2020-04-29 | 2021-11-16 | 扬智科技股份有限公司 | 语意辨识方法与语意辨识装置 |
US11475226B2 (en) | 2020-09-21 | 2022-10-18 | International Business Machines Corporation | Real-time optimized translation |
US20220180886A1 (en) * | 2020-12-08 | 2022-06-09 | Fuliang Weng | Methods for clear call under noisy conditions |
US11783813B1 (en) | 2021-05-02 | 2023-10-10 | Abbas Rafii | Methods and systems for improving word discrimination with phonologically-trained machine learning models |
TWI780738B (zh) * | 2021-05-28 | 2022-10-11 | 宇康生科股份有限公司 | 構音異常語料擴增方法及系統、語音辨識平台,及構音異常輔助裝置 |
KR102448000B1 (ko) * | 2021-09-08 | 2022-09-28 | 이은교육 주식회사 | 진동 및 시각 데이터를 활용한 청각 장애인 음악 교육 장치, 방법 및 프로그램 |
US20230139394A1 (en) * | 2021-10-28 | 2023-05-04 | Austin Speech Labs, LLC | Eeg based speech prosthetic for stroke survivors |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0784592A (ja) * | 1993-09-14 | 1995-03-31 | Fujitsu Ltd | 音声認識装置 |
JPH09116648A (ja) * | 1995-10-20 | 1997-05-02 | Meidensha Corp | 携帯用通信装置 |
JPH09206329A (ja) * | 1996-01-31 | 1997-08-12 | Sony Corp | 聴力補助装置 |
JPH09292971A (ja) * | 1996-04-26 | 1997-11-11 | Sony Corp | 翻訳装置 |
JPH10290498A (ja) * | 1998-04-27 | 1998-10-27 | Yamaha Corp | 話速変換機能を有する補聴器 |
JPH113369A (ja) * | 1997-06-12 | 1999-01-06 | Mitsubishi Electric Corp | バリアフリー分散仮想現実システム |
Family Cites Families (101)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
US3882285A (en) | 1973-10-09 | 1975-05-06 | Vicon Instr Company | Implantable hearing aid and method of improving hearing |
JPS5155604A (en) | 1974-11-11 | 1976-05-15 | Fujitsu Ltd | Gengopponyakusochi |
US4063048A (en) | 1977-03-16 | 1977-12-13 | Kissiah Jr Adam M | Implantable electronic hearing aid |
US4284846A (en) * | 1978-05-08 | 1981-08-18 | John Marley | System and method for sound recognition |
US4181813A (en) * | 1978-05-08 | 1980-01-01 | John Marley | System and method for speech recognition |
US4972486A (en) | 1980-10-17 | 1990-11-20 | Research Triangle Institute | Method and apparatus for automatic cuing |
SE428167B (sv) * | 1981-04-16 | 1983-06-06 | Mangold Stephan | Programmerbar signalbehandlingsanordning, huvudsakligen avsedd for personer med nedsatt horsel |
JPS5862738A (ja) * | 1981-10-12 | 1983-04-14 | Hitachi Ltd | メツセ−ジ発声装置 |
JPS5889260A (ja) | 1981-11-24 | 1983-05-27 | リオン株式会社 | 人工聴覚装置 |
JPS58129682A (ja) * | 1982-01-29 | 1983-08-02 | Toshiba Corp | 個人照合装置 |
US4545065A (en) * | 1982-04-28 | 1985-10-01 | Xsi General Partnership | Extrema coding signal processing method and apparatus |
AU562749B2 (en) | 1982-08-20 | 1987-06-18 | University Of Melbourne, The | Hearing prosthesis |
US4628528A (en) | 1982-09-29 | 1986-12-09 | Bose Corporation | Pressure wave transducing |
US4532930A (en) | 1983-04-11 | 1985-08-06 | Commonwealth Of Australia, Dept. Of Science & Technology | Cochlear implant system for an auditory prosthesis |
JPS60143100A (ja) | 1983-12-29 | 1985-07-29 | Matsushita Electric Ind Co Ltd | 補聴器 |
DE3420244A1 (de) | 1984-05-30 | 1985-12-05 | Hortmann GmbH, 7449 Neckartenzlingen | Mehrfrequenz-uebertragungssystem fuer implantierte hoerprothesen |
AU569636B2 (en) | 1984-09-07 | 1988-02-11 | University Of Melbourne, The | Bipolar paired pulse supplied prosthetic device |
JPS61114472A (ja) | 1984-11-07 | 1986-06-02 | Sanyo Electric Co Ltd | 水素吸蔵電極 |
US4593696A (en) | 1985-01-17 | 1986-06-10 | Hochmair Ingeborg | Auditory stimulation using CW and pulsed signals |
DE3508830A1 (de) | 1985-03-13 | 1986-09-18 | Robert Bosch Gmbh, 7000 Stuttgart | Hoergeraet |
US4592359A (en) | 1985-04-02 | 1986-06-03 | The Board Of Trustees Of The Leland Stanford Junior University | Multi-channel implantable neural stimulator |
JPS61264882A (ja) * | 1985-05-18 | 1986-11-22 | Masaaki Kuwabara | 不特定話者の音声入力装置を用いたtv・及モニタ−デイスプレイにおける字幕ス−パ−文字表示システムに関する方法 |
US4612915A (en) | 1985-05-23 | 1986-09-23 | Xomed, Inc. | Direct bone conduction hearing aid device |
US4827516A (en) * | 1985-10-16 | 1989-05-02 | Toppan Printing Co., Ltd. | Method of analyzing input speech and speech analysis apparatus therefor |
JPS62224349A (ja) | 1986-03-27 | 1987-10-02 | 三輪 敬之 | 人工中耳 |
JPS62231981A (ja) | 1986-04-01 | 1987-10-12 | 株式会社ジャパンアート | 聴力障害者の為の画像表現方法 |
JPH0763494B2 (ja) | 1986-05-21 | 1995-07-12 | ゾームド―トリース,インコーポレイティド | 埋め込み可能な電磁中耳骨伝導型補聴器 |
JPS63249560A (ja) | 1987-04-02 | 1988-10-17 | 日本電気エンジニアリング株式会社 | ろうあ者向眼鏡組込型音声検知装置 |
JPS63288552A (ja) | 1987-05-20 | 1988-11-25 | Nec Corp | 自動翻訳電話方式 |
JPS6447800U (ja) * | 1987-09-18 | 1989-03-24 | ||
JPS6488875A (en) | 1987-09-30 | 1989-04-03 | Toshiba Corp | Voice translation device |
US4821326A (en) * | 1987-11-16 | 1989-04-11 | Macrowave Technology Corporation | Non-audible speech generation method and apparatus |
JPH0211438A (ja) * | 1988-06-27 | 1990-01-16 | Clarion Co Ltd | 車外情報読取装置 |
JPH0214000A (ja) * | 1988-07-01 | 1990-01-18 | Hitachi Ltd | 音声認識装置 |
US5085628A (en) | 1988-09-09 | 1992-02-04 | Storz Instrument Company | Implantable hearing aid coupler device |
JP2740866B2 (ja) | 1988-10-04 | 1998-04-15 | セイコーエプソン株式会社 | 電子機器 |
JPH0335296A (ja) | 1989-06-30 | 1991-02-15 | Sharp Corp | テキスト音声合成装置 |
JPH04502876A (ja) | 1989-09-08 | 1992-05-28 | コックリヤ、プロプライエタリ、リミテッド | 多ピーク音声プロセッサー |
US5095904A (en) * | 1989-09-08 | 1992-03-17 | Cochlear Pty. Ltd. | Multi-peak speech procession |
JPH0475098A (ja) * | 1990-07-17 | 1992-03-10 | Sharp Corp | 音声認識装置 |
EP0480097B1 (de) | 1990-10-12 | 1994-12-21 | Siemens Audiologische Technik GmbH | Hörgerät mit einem Datenspeicher |
US5176620A (en) | 1990-10-17 | 1993-01-05 | Samuel Gilman | Hearing aid having a liquid transmission means communicative with the cochlea and method of use thereof |
JPH04156033A (ja) | 1990-10-19 | 1992-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 電話回線接続機能付き難聴者無線会話装置 |
JPH04249990A (ja) | 1991-01-05 | 1992-09-04 | Toshiba Corp | 画像信号処理装置 |
JP2532007B2 (ja) | 1991-05-25 | 1996-09-11 | リオン株式会社 | 補聴器フイツテイング装置 |
GB2256959A (en) * | 1991-06-21 | 1992-12-23 | Glyn * Wallace Nigel | Speech recognition device |
JP3308567B2 (ja) | 1991-08-23 | 2002-07-29 | 株式会社日立製作所 | ディジタル音声処理装置及びディジタル音声処理方法 |
US5283833A (en) * | 1991-09-19 | 1994-02-01 | At&T Bell Laboratories | Method and apparatus for speech processing using morphology and rhyming |
JPH0583763A (ja) | 1991-09-24 | 1993-04-02 | Hitachi Ltd | ホームコントローラ |
JPH0642760A (ja) | 1992-07-28 | 1994-02-18 | Toppan Printing Co Ltd | オーブン電子レンジのドアパネル構造体 |
US6400996B1 (en) * | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
JPH05181493A (ja) | 1991-12-27 | 1993-07-23 | Toshiba Corp | 音声認識装置 |
JP3289304B2 (ja) * | 1992-03-10 | 2002-06-04 | 株式会社日立製作所 | 手話変換装置および方法 |
JPH05289608A (ja) | 1992-04-10 | 1993-11-05 | Sanyo Electric Works Ltd | ろうあ者用会話補助装置及び翻訳用会話補助装置 |
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
US5326349A (en) | 1992-07-09 | 1994-07-05 | Baraff David R | Artificial larynx |
US5377302A (en) * | 1992-09-01 | 1994-12-27 | Monowave Corporation L.P. | System for recognizing speech |
JP3435175B2 (ja) * | 1992-09-03 | 2003-08-11 | 株式会社日立製作所 | 手話学習装置 |
US5393236A (en) * | 1992-09-25 | 1995-02-28 | Northeastern University | Interactive speech pronunciation apparatus and method |
JPH06259090A (ja) * | 1993-03-09 | 1994-09-16 | Nec Corp | 音声対話システム |
JP3068370B2 (ja) | 1993-06-21 | 2000-07-24 | 株式会社東芝 | 携帯用音声認識出力補助装置 |
JP2780603B2 (ja) | 1993-08-09 | 1998-07-30 | 三菱電機株式会社 | マンコンベアの欄干照明装置 |
EP0645757B1 (en) * | 1993-09-23 | 2000-04-05 | Xerox Corporation | Semantic co-occurrence filtering for speech recognition and signal transcription applications |
JPH07163614A (ja) | 1993-12-10 | 1995-06-27 | Katsuya Ito | 盲人用点画表示装置 |
JPH07168851A (ja) * | 1993-12-16 | 1995-07-04 | Canon Inc | 画像表示方法及び装置 |
JP3455921B2 (ja) | 1993-12-24 | 2003-10-14 | 日本電信電話株式会社 | 発声代行装置 |
JPH07191599A (ja) | 1993-12-27 | 1995-07-28 | Matsushita Electric Ind Co Ltd | 映像機器 |
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
JPH07327213A (ja) | 1994-05-31 | 1995-12-12 | Hitachi Ltd | テレビ電話装置 |
DE4419901C2 (de) * | 1994-06-07 | 2000-09-14 | Siemens Audiologische Technik | Hörhilfegerät |
US5825894A (en) * | 1994-08-17 | 1998-10-20 | Decibel Instruments, Inc. | Spatialization for hearing evaluation |
JPH0865647A (ja) | 1994-08-22 | 1996-03-08 | Toshiba Corp | 携帯テレビ電話装置 |
JP3334353B2 (ja) | 1994-09-02 | 2002-10-15 | ソニー株式会社 | 聴覚補助装置 |
AUPM883794A0 (en) | 1994-10-17 | 1994-11-10 | University Of Melbourne, The | Multiple pulse stimulation |
KR980700637A (ko) * | 1994-12-08 | 1998-03-30 | 레이어스 닐 | 언어 장애자의 언어 인식 강화를 위한 방법 및 장치(method and device for enhancing the recognition of speechamong speech-impai red individuals) |
JPH08212228A (ja) | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | 要約文作成装置および要約音声作成装置 |
JP2982672B2 (ja) | 1995-12-22 | 1999-11-29 | 日本電気株式会社 | 受信機とともに用いる外部機器、補聴器及び補聴システム |
JPH09192164A (ja) | 1996-01-23 | 1997-07-29 | Topcon Corp | 弱視者用眼鏡装置 |
US5729694A (en) | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
GB9602701D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Image manipulation |
US5983176A (en) * | 1996-05-24 | 1999-11-09 | Magnifi, Inc. | Evaluation of media content in media files |
US5794187A (en) * | 1996-07-16 | 1998-08-11 | Audiological Engineering Corporation | Method and apparatus for improving effective signal to noise ratios in hearing aids and other communication systems used in noisy environments without loss of spectral information |
CA2212131A1 (en) | 1996-08-07 | 1998-02-07 | Beltone Electronics Corporation | Digital hearing aid system |
US5812977A (en) * | 1996-08-13 | 1998-09-22 | Applied Voice Recognition L.P. | Voice control computer interface enabling implementation of common subroutines |
US6240392B1 (en) * | 1996-08-29 | 2001-05-29 | Hanan Butnaru | Communication device and method for deaf and mute persons |
JPH10108152A (ja) | 1996-09-27 | 1998-04-24 | Sanyo Electric Co Ltd | 携帯情報端末 |
JPH10123450A (ja) * | 1996-10-15 | 1998-05-15 | Sony Corp | 音声認識機能付ヘッドアップディスプレイ装置 |
US6154723A (en) * | 1996-12-06 | 2000-11-28 | The Board Of Trustees Of The University Of Illinois | Virtual reality 3D interface system for data creation, viewing and editing |
JP3402100B2 (ja) * | 1996-12-27 | 2003-04-28 | カシオ計算機株式会社 | 音声制御ホスト装置 |
JPH10224520A (ja) | 1997-02-10 | 1998-08-21 | Meidensha Corp | マルチメディア公衆電話システム |
JPH10228367A (ja) | 1997-02-14 | 1998-08-25 | Omron Corp | データ伝送端末 |
US6256046B1 (en) * | 1997-04-18 | 2001-07-03 | Compaq Computer Corporation | Method and apparatus for visual sensing of humans for active public interfaces |
DE19721982C2 (de) * | 1997-05-26 | 2001-08-02 | Siemens Audiologische Technik | Kommunikationssystem für Benutzer einer tragbaren Hörhilfe |
US6159014A (en) * | 1997-12-17 | 2000-12-12 | Scientific Learning Corp. | Method and apparatus for training of cognitive and memory systems in humans |
US6236966B1 (en) * | 1998-04-14 | 2001-05-22 | Michael K. Fleming | System and method for production of audio control parameters using a learning machine |
US6493665B1 (en) * | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
US6463412B1 (en) * | 1999-12-16 | 2002-10-08 | International Business Machines Corporation | High performance voice transformation apparatus and method |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
US6453294B1 (en) * | 2000-05-31 | 2002-09-17 | International Business Machines Corporation | Dynamic destination-determined multimedia avatars for interactive on-line communications |
JP2003044497A (ja) * | 2001-07-31 | 2003-02-14 | Mikio Numata | モバイル図鑑 |
-
2000
- 2000-02-16 WO PCT/JP2000/000872 patent/WO2000049834A1/ja active Application Filing
- 2000-02-16 JP JP2000600451A patent/JP4439740B2/ja not_active Expired - Lifetime
- 2000-02-16 AU AU25719/00A patent/AU2571900A/en not_active Abandoned
- 2000-02-16 CA CA002328953A patent/CA2328953A1/en not_active Abandoned
- 2000-02-16 EP EP00903984A patent/EP1083769B1/en not_active Expired - Lifetime
- 2000-02-16 DE DE60044521T patent/DE60044521D1/de not_active Expired - Lifetime
- 2000-02-16 US US09/673,360 patent/US7676372B1/en not_active Expired - Fee Related
- 2000-02-16 AT AT00903984T patent/ATE471039T1/de not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0784592A (ja) * | 1993-09-14 | 1995-03-31 | Fujitsu Ltd | 音声認識装置 |
JPH09116648A (ja) * | 1995-10-20 | 1997-05-02 | Meidensha Corp | 携帯用通信装置 |
JPH09206329A (ja) * | 1996-01-31 | 1997-08-12 | Sony Corp | 聴力補助装置 |
JPH09292971A (ja) * | 1996-04-26 | 1997-11-11 | Sony Corp | 翻訳装置 |
JPH113369A (ja) * | 1997-06-12 | 1999-01-06 | Mitsubishi Electric Corp | バリアフリー分散仮想現実システム |
JPH10290498A (ja) * | 1998-04-27 | 1998-10-27 | Yamaha Corp | 話速変換機能を有する補聴器 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574474A (zh) * | 2015-01-09 | 2015-04-29 | 何玉欣 | 一种通过字幕生成动画角色语言口型的匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2000049834A1 (fr) | 2000-08-24 |
EP1083769A4 (en) | 2007-05-30 |
EP1083769A1 (en) | 2001-03-14 |
ATE471039T1 (de) | 2010-06-15 |
US7676372B1 (en) | 2010-03-09 |
AU2571900A (en) | 2000-09-04 |
DE60044521D1 (de) | 2010-07-22 |
CA2328953A1 (en) | 2000-08-24 |
EP1083769B1 (en) | 2010-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4439740B2 (ja) | 音声変換装置及び方法 | |
JP3670180B2 (ja) | 補聴器 | |
CN1679371B (zh) | 传声器和通信接口*** | |
Nakajima et al. | Non-audible murmur (NAM) recognition | |
CN108702580A (zh) | 具有自动语音转录的听力辅助 | |
US11068668B2 (en) | Natural language translation in augmented reality(AR) | |
JP6017854B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム | |
US20230045237A1 (en) | Wearable apparatus for active substitution | |
US5826234A (en) | Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements | |
CN107112026A (zh) | 用于智能语音识别和处理的***、方法和装置 | |
Robitaille | The illustrated guide to assistive technology and devices: Tools and gadgets for living independently | |
CN115705841A (zh) | 使用加速度计感测骨传导的语音识别 | |
Freitas et al. | An introduction to silent speech interfaces | |
WO2021214065A1 (en) | Voice grafting using machine learning | |
Dhanjal et al. | Tools and techniques of assistive technology for hearing impaired people | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
Ifukube | Sound-based assistive technology | |
WO2017029850A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Beskow et al. | Visualization of speech and audio for hearing impaired persons | |
Virkkunen | Automatic speech recognition for the hearing impaired in an augmented reality application | |
CN116095548A (zh) | 一种交互耳机及其*** | |
Goecke | A stereo vision lip tracking algorithm and subsequent statistical analyses of the audio-video correlation in Australian English | |
Hennecke | Audio-visual speech recognition: preprocessing, learning and sensory integration | |
Brabyn et al. | Technology for sensory impairments (vision and hearing) | |
CN117174086A (zh) | 一种语音处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041008 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070216 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090518 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090915 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20091118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100106 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4439740 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |