JP4439740B2

JP4439740B2 - 音声変換装置及び方法

Info

Publication number: JP4439740B2
Application number: JP2000600451A
Authority: JP
Inventors: 俊彦大場
Original assignee: 有限会社ジーエムアンドエム
Priority date: 1999-02-16
Filing date: 2000-02-16
Publication date: 2010-03-24
Anticipated expiration: 2020-02-16
Also published as: WO2000049834A1; EP1083769A4; EP1083769A1; ATE471039T1; US7676372B1; AU2571900A; DE60044521D1; CA2328953A1; EP1083769B1

Description

技術分野
本発明は、マイクロホン等により検出した音声を聴力障害者が理解しやすい形式に加工変換して提示したり、音声言語障害を持つ者より発せられた音声や音声言語障害を是正するために用いる補助的装置や手段（例：喉頭摘出者の代用発声法（ｓｐｅｅｃｈｐｒｏｄｕｃｔｉｏｎｓｕｂｓｔｉｔｕｔｅｓ））により発せられた音声を加工変換して出力したりする音声変換装置及び方法に関する。
背景技術
従来から補聴器には、気導方式と、骨導方式があり、また処理方式としてアナログ補聴器（リニアタイプ、ノンリニアタイプ（Ｋ−アンプ）、コンプレッションタイプ等）とディジタル補聴器がある。補聴器の種類は、箱形、耳かけ型、ＣＲＯＳ（Ｃｏｎｔｒａ−ｌａｔｅｒａｌＲｏｕｔｉｎｇｏｆＳｉｇｎａｌ）型、耳穴形、ｂｏｎｅ−ａｎｃｈｏｒｅｄ型等がある。小寺の報告により補聴器には集団使用の大型（卓上訓練用、集団訓練用）、個人的使用の小型のものがある（参照ＫｏｄｅｒａＫ，図説耳鼻咽喉科ｎｅｗａｐｐｒｏａｃｈ１Ｍｅｄｉｃａｌｖｉｅｗ，３９，１９９６）。
ディジタル補聴器は、マイクロホンで検出した音声を先ずＡ／Ｄ（ａｎａｌｏｇ／ｄｉｇｉｔａｌ）変換によりディジタルデータを生成し、例えばフーリエ変換により入力されたディジタルデータを周波数スペクトルに分解し、各周波数帯域毎に音声の感覚的な大きさに基づいた増幅度の算出を行い、ディジタルデータをディジタルフィルターに通過させてＤ／Ａ変換を行って再び音声を使用者の耳に出力するように構成されている。これにより、ディジタル補聴器は、話し手の音声を雑音の少ない状態で使用者に聞かせていた。
また、従来、例えば喉頭摘出による音声障害者は、声帯振動による発声機構を失い、音声生成が困難になる。
喉頭摘出者の代用発声法には、（１）人工材料（例：ゴム膜（笛式人工喉頭）、（２）ブザー（例：電気式人工喉頭）、（３）下咽頭・食道粘膜（例：食道発声、気管食道瘻発声、ボイスプロステーシス（ｖｏｉｃｅｐｒｏｓｔｈｅｓｅｓ）使用の気管食道瘻発声）、（４）***の筋電図、（５）発声発話訓練装置（例ＣＩＳＴＡ）、（６）パラトグラフ（ｐａｌａｔｏｇｒａｐｈ）、（７）口腔内振動子等によるものがある。
しかし、上述したディジタル補聴器では、各周波数帯域毎にディジタルデータを増幅させる処理を行っているだけなので、マイクロホンにより周囲の音を無作為に収音し、雑音をそのまま再生して使用者の不快感が残り、アナログ補聴器と比べても、種々の聴力検査において大幅な改善はなかった。また、従来のディジタル補聴器では、難聴者の身体状態、利用状態及び使用目的に応じて検出した音声に対する処理を適応させることはなされていなかった。
また、代用発声法は、喉頭摘出前の声帯振動によるものではなく、生成する音声の音質が悪く、本来正常であった本人が発していた声とはかけ離れているという問題点が挙げられる。
発明の開示
本発明の目的は、使用者の身体状態、利用状態及び使用目的に応じて音声認識の結果を提示するとともに、ノイズが少ない状態で認識結果を提示することができる音声変換装置及び方法を提供することにある。
本発明の他の目的は、喉頭摘出、舌口腔底切除、構音障害（ａｒｔｉｃｕｌａｔｉｏｎｄｉｓｏｒｄｅｒ）等による音声言語障害者が本来自身がもつ、或いは自在に変換させて自然な音声での発声を可能とするとともに、外部の音声を使用者に出力して自然な会話を行わせることができる音声変換装置及び方法を提供することにある。
上述したような目的を達成するため、本発明に係る音声変換装置は、音声を検出して音声信号を生成する音響電気変換手段と、音響電気変換手段からの音声信号を用いて音声認識処理を行う認識手段と、認識手段からの認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換する変換手段と、認識手段により認識された結果及び／又は認識結果を変換手段により加工変換した認識結果を出力させる制御信号を生成する出力制御手段と、出力制御手段で生成された制御信号に基づいて認識手段により認識され変換手段により加工変換された認識結果を出力して認識結果を使用者に提示する出力手段とを備えることを特徴とする。
上述の課題を解決する本発明に係る音声変換方法は、音声を検出して音声信号を生成し、音響電気変換手段からの音声信号を用いて音声認識処理を行い、認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換し、認識結果及び／又は認識結果を加工変換した認識結果を出力させる制御信号を生成し、制御信号に基づいて加工変換した認識結果を出力して認識結果を使用者に提示することを特徴とする。
本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施例の説明から一層明らかにされるであろう。
発明を実施するための最良の形態
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。
本発明は、例えば図１及び図２に示すように構成された補聴器１に適用される。この補聴器１は、図１に示すように、ヘッドマウントディスプレイ（ｈｅａｄ−ｍｏｕｎｔｅｄｄｉｓｐｌａｙ：ＨＭＤ）２と、音声認識、音声情報の生成等を行うコンピュータ部３との間を光ファイバーケーブル４で接続してなる携帯型のものである。また、コンピュータ部３は、例えば使用者の腰部に装着されるような支持部５に付属して配設され、当該支持部５に付属したバッテリ６からの電力供給により駆動するとともに、ＨＭＤ２を駆動させる。
ＨＭＤ２は、使用者の目前に配置されるディスプレイ部７と、使用者からの音声を検出する使用者用マイクロホン８と、使用者に音声を出力する音声出力部９と、使用者の頭部に上述の各部を配置させるように支持する支持部５と、外部からの音声等を検出する外部用マイクロホン１１とを備える。
ディスプレイ部７は、使用者の目前に配されることで例えば使用者用マイクロホン８及び／又は後述の外部用マイクロホン１１で検出した音声の意味内容等を表示する。なお、このディスプレイ部７は、コンピュータ部３からの命令に応じて、上述の音声の意味内容のみならず、他の情報を表示しても良い。
使用者用マイクロホン８は、使用者の口元付近に配設され、使用者が発した音声を検出する。そして、この使用者用マイクロホン８は、使用者からの音声を電気信号に変換してコンピュータ部３に出力する。
外部用マイクロホン１１は、丸板状に形成された音声出力部９の側面に設けられる。この外部用マイクロホン１１は、外部からの音声を検出して電気信号に変換してコンピュータ部３に出力する。
この使用者用マイクロホン８及び外部用マイクロホン１１は、配設する位置を問わず、使用者の操作に応じて、種々のマイク（音圧マイクロフォン（ｐｒｅｓｓｕｒｅｍｉｃｒｏｐｈｏｎｅ）、音圧傾度マイクロフォン（ｐｒｅｓｓｕｅｒｇｒａｄｉｅｎｔｍｉｃｒｏｐｈｏｎｅ）、パラメトリックマイクロフォン、レーザドップラマイクロフォン、骨導マイク、気導音と骨導音を拾い上げるマイクをもつ超小型送受話一体ユニットのマイク（日本電信電話製）、無指向性マイク、単一指向性（超指向性等）マイク、双指向性マイク、ダイナミックマイク、コンデンサーマイク（エレクトレットマイク）、ズームマイク、ステレオマイク、ＭＳステレオマイク、ワイヤレスマイク）、セラミックマイク、マグネティックマイク）や音響信号処理技術（音響エコーキャンセラー（ａｃｏｕｓｔｉｃｅｃｈｏｃａｎｃｅｌｌｅｒ））、マイクロフォンアレイ（ｍｉｃｒｏｐｈｏｎｅａｒｒａｙ））を用いてもよい。
また、イヤホンとしては、マグネティックイヤホンが使用可能である。マイクとイヤホンは、拡声器、補聴器等、マイクは人工中耳・内耳、聴性脳幹インプラント、タクタイルエイド、ｂｏｎｅ・ｃｏｎｄｕｃｔｉｏｎｕｌｔｒａｓｏｕｎｄｓｙｓｔｅｍ等で従来用いられているものを使用しても良い。これらのマイクの収音技術として、エコーキャンセラ等を用いても良い。
また、これらのマイクロホン８，１１は、従来より採用されている利得調整器と音声調整器と出力制御装置（ｍａｘｉｍａｍｏｕｔｐｕｔｐｏｗｅｒｃｏｎｔｒｏｌ式、ａｕｔｏｍａｔｉｃｒｅｃｒｕｉｔｍｅｎｔｃｏｎｔｒｏｌｃｏｍｐｒｅｓｓｉｏｎ式等）を適用したものが使用可能である。
更に、使用者用マイクロホン８及び外部用マイクロホン１１は、図１に示すように、別個に設ける一例のみならず、一体に構成されたものであっても良い。
支持部５は、例えば形状記憶合金等の弾性材料等からなり、使用者の頭部に固定可能とすることで、上述のディスプレイ部７，使用者用マイクロホン８，音声出力部９を所定の位置に配設可能とする。なお、この図１に示した支持部５は、使用者の額から後頭部に亘って支持部材を配設することでディスプレイ部７等を所定位置に配設するものの一例について説明したが、所謂ヘッドホン型の支持部であっても良いことは勿論であり、音声出力部９を両耳について設けても良い。
コンピュータ部３は、例えば使用者の腰部に装着される支持部５に付属されてなる。このコンピュータ部３は、図２に示すように、例えばマイクロホン８，１１で検出して生成した電気信号が入力される。このコンピュータ部３は、電気信号を処理するためのプログラムを格納した記録媒体、この記録媒体に格納されたプログラムに従って音声認識、音声情報の生成処理を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等を備えてなる。なお、このコンピュータ部３は、腰部のみならず、頭部のＨＭＤ２と一体化しても良い。
コンピュータ部３は、使用者用マイクロホン８及び／又は外部用マイクロホン１１で検出した音声から生成した電気信号に基づいて、記録媒体に格納されたプログラムを起動することで、ＣＰＵにより音声認識処理を行うことで、認識結果を得る。これにより、コンピュータ部３は、ＣＰＵにより、使用者用マイクロホン８及び／又は外部用マイクロホン１１で検出した音声の内容を得る。
次に本発明を適用した補聴器１の電気的な構成について図２を用いて説明する。この補聴器１は、音声を検出して音声信号を生成する上述のマイクロホン８，１１に相当するマイクロホン２１と、マイクロホン２１で生成された音声信号が入力され音声認識処理を行う上述のコンピュータ部３に含まれる信号処理部２２、信号処理部２２からの認識結果に基づいて音声情報を生成する上述のコンピュータ部３に含まれる音声情報生成部２３と、音声データが記憶され信号処理部２２及び音声情報生成部２３にその内容が読み込まれる上述のコンピュータ部３に含まれる記憶部２４と、音声情報生成部２３からの音声情報を用いて音声を出力する上述の音声出力部９に相当するスピーカ部２５と、音声情報生成部２３からの音声情報を用いて当該音声情報が示す内容を表示する上述のディスプレイ部７に相当する表示部２６とを備える。
マイクロホン２１は、例えば喉頭摘出者の代用発声法を用いて発せられた音声又は外部からの音声を検出して、当該音声に基づく音声信号を生成する。そして、このマイクロホン２１は、生成した音声信号を信号処理部２２に出力する。
また、このマイクロホン２１は、使用者の口元付近に配設され、使用者が発した音声を検出する。また、このマイクロホン２１は、外部からの音声を検出して音声信号を生成する。なお、以下の説明においては、使用者の音声を検出するマイクロホンを上述と同様に使用者用マイクロホン８と呼び、外部からの音声を検出するマイクロホンを上述と同様に外部用マイクロホン１１と呼び、双方を総称するときには単にマイクロホン２１と呼ぶ。
信号処理部２２は、マイクロホン２１からの音声信号を用いて音声認識処理を行う。この信号処理部２２は、例えば内部に備えられたメモリに格納した音声認識処理を行うためのプログラムに従った処理を行うことにより音声認識処理を実行する。具体的には、この信号処理部２２は、使用者の音声をサンプリングして生成し記憶部２４に格納された音声データを参照し、マイクロホン２１からの音声信号を言語として認識する処理を行う。この結果、この信号処理部２２は、マイクロホン２１からの音声信号に応じて認識結果を生成する。
この信号処理部２２は、例えば認識対象音声による分類と対象話者による分類の音声認識処理があり、認識対象音声による分類の音声認識処理では単語音声認識（ｉｓｏｌａｔｅｄｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎ）と連続音声認識（ｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）がある。また、信号処理部２２は、連続音声認識には連続単語音声認識（ｃｏｎｔｉｎｕｏｕｓｗｏｒｄｒｅｃｏｇｎｉｔｉｏｎ）と文音声認識（ｓｅｎｔｅｎｃｅｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）、会話音声認識（ｃｏｎｖｅｒｓａｔｉｏｎａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）、音声理解（ｓｐｅｅｃｈｕｎｄｅｒｓｔａｎｄｉｎｇ）がある。また対象話者による分類では不特定話者型（ｓｐｅａｋｅｒｉｎｄｅｐｅｎｄｅｎｔ）、特定話者型（ｓｐｅａｋｅｒｄｅｐｅｎｄｅｎｔ）、話者適応型（ｓｐｅａｋｅｒａｄａｐｔｉｖｅ）等がある。この信号処理部２２が行う音声認識手法としては、ダイナミックプログラミングマッチィング（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇｍａｔｃｈｉｎｇ）、音声の特徴、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ：ＨＭＭ）によるものがある。
また、信号処理部２２は、入力した音声を用いて話者認識（ｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎ）（話者識別ｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎ、話者照合ｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ）を行う。このとき、信号処理部２２は、使用者の話者からの音声の特徴を抽出する処理や音声の周波数特性を用いて話者認識結果を生成して音声情報生成部２３に出力する。また、信号処理部２２は、話者による変動が小さな特徴量を用いる方法、マルチテンプレート法、統計的手法を用いて不特定話者認識を行う。また、話者適応には、個人差の正規化法、話者間の音声データの対応関係によるもの、モデルパラメータの更新によるもの、話者選択によるものがある。この信号処理部２２では、以上の音声認識を使用者の身体状態、利用状態及び使用目的に応じて行う。
ここで、使用者の身体状態とは使用者の難聴や言語障害の程度等を意味し、利用状態とは使用者が補聴器１を使用する環境（室内、野外、騒音下）等を意味し、使用目的とは使用者が補聴器１を利用するときの目的、即ち認識の向上させることや、使用者が理解しやすいようにすること等であって、例えば普段話す人との対話や、不特定多数との対話や、音楽（オペラ、演歌）の観覧、講演をきくことや、言語障害者との対話である。
また、この信号処理部２２は、マイクロホン２１に入力した音声を記憶し、学習する機能を有する。具体的には、信号処理部２２は、マイクロホン２１で検出した音声の波形データを保持しておき、後の音声認識処理に用いる。これにより、信号処理部２２は、更に音声認識を向上させる。更に、この信号処理部２２は、学習機能を備えることで出力する結果を正確にすることができる。
記憶部２４には、信号処理部２２が入力された音声を認識するときに、入力された音声を検出することで生成した音声波形と比較される音声モデルを示すデータが格納されている。
また、記憶部２４には、例えば喉頭摘出前の声帯振動による発声機構を持つ使用者の音声や、出力することを希望する音声を予めサンプリングして得たデータが音声データとして格納されている。
更に、記憶部２４には、認識結果及び／又は加工変換して得た認識結果に基づいて音声情報生成部２３により読み出される画像が格納されている。この記憶部２４に格納される画像は、認識結果を象徴する図柄を示す画像であって、使用者が直感的に認識結果を理解することができるような図柄を示す画像である。
また、記憶部２４に記録されるデータとしては、画像提示する物の画像の種類として絵、記号、文字、音符、写真、動画、アニメーション、イラスト、音声スペクトルグラムパターン、色等がある。
音声情報生成部２３は、信号処理部２２からの認識結果及び記憶部２４に格納された使用者の音声を示す音声データを用いて、音声情報を生成する。このとき音声情報生成部２３は、認識結果に応じて、記憶部２４に格納された音声データを組み合わせるとともに、認識結果を加工変換して音声情報を生成する。このとき、音声情報生成部２３は、内蔵したＣＰＵ、音声情報生成プログラムを用いて音声情報を生成する。
また、この音声情報生成部２３は、認識結果を用いて音声から音声分析し、当該音声分析した音声の内容に応じて、音声データを再構成するという処理を行うことで、音声を示す音声情報を生成する。そして、音声情報生成部２３は、生成した音声情報をスピーカ部２５及び表示部２６に出力する。
更に、音声情報生成部２３は、信号処理部２２からの認識結果を、使用者の身体状態、利用状態及び使用目的に応じて加工、変換、合成等をして音声情報を生成する処理を行う。更に、この音声情報生成部２３は、マイクロホン２１で検出された音声を使用者に提示するための処理を認識結果及び／又は加工等をして得た認識結果について行う。
更にまた、音声情報生成部２３は、認識結果から生成した音声情報を修飾して新たな音声情報を生成しても良い。このとき、音声情報生成部２３は、使用者の身体状態、利用状態及び使用目的に基づいて、更に使用者が理解し易い言葉を付け加えることで、使用者の音声の認識を更に向上させる。このような処理をする音声情報生成部２３は、例えばマイクロホン２１に「ビックマック」と入力されたときには、例えば［マクドナルドのビックマック（登録商標）」を示す音声情報を生成する。
更にまた、この音声情報生成部２３は、音声情報を表示部２６に出力するときに音声の意味内容を画像として表示部２６に出力する。このとき、音声情報生成部２３は、例えば使用者又は使用者の話者及び外部からの音声が入力されて信号処理部２２からの認識結果として物体を示す認識結果が入力されたときには、当該物体を示す画像データを記憶部２４から読み出して表示部２６に出力して表示させる処理を行う。
更にまた、この音声情報生成部２３は、信号処理部２２からの認識結果に応じて、以前にスピーカ部２５又は表示部２６に出力した音声情報を再度出力する。音声情報生成部２３は、音声情報を出力した後に、使用者又は使用者に対する話者がもう一度聞き直したいことに応じて発した音声を示す認識結果が入力されたと判定したときには、スピーカ部２５又は表示部２６に出力した音声情報を再度出力する処理を行う。更にこの音声情報生成部２３では、繰り返して何回でも音声情報を出力しても良い。
また、音声情報生成部２３は、例えば使用者の話者からの音声の特徴を抽出する処理や音声の周波数特性を用いた話者認識結果に基づいて、以前にスピーカ部２５又は表示部２６に出力した音声情報を再度出力しても良い。更に、音声情報生成部２３は、人工知能の機能を用いて音声対話を行うことで、スピーカ部２５又は表示部２６に出力した音声情報を再度出力しても良い。
更にまた、音声情報生成部２３は、再度出力する処理を行うか否かを操作入力部２８からの操作入力命令に応じて切り換えても良い。すなわち、使用者が再度出力する処理を行うか否かの切換を操作入力部２８を操作することで決定し、操作入力部２８をスイッチとして用いる。
また、この音声情報生成部２３は、再度音声情報を出力するとき、以前に出力した音声情報を再度出力するか、以前に出力した音声情報とは異なる音声情報を出力するかを、信号処理部２２を介して入力される操作入力部２８からの操作入力信号に応じて選択する。
表示部２６は、音声情報生成部２３で生成した音声情報が示す音声、カメラ機構２９で撮像した画像等を表示する。
操作入力部２８は、使用者に操作されることで、操作入力信号を生成する。この操作入力部２８としては、例えば、スイッチ、キーボード、マウス、インターネットパッド（ＲＦｗｉｒｅｌｅｓｓ式）、ウェアブル操作インターフェース（プロトタイプ：手指の姿勢、動作計測によるポインティング入力、ジェスチャ入力（オリンパス））がある。
このような補聴器１は、マイクロホン２１で検出した音声について信号処理部２２で音声認識処理をして、認識結果に基づき音声情報生成部２３でプログラムを起動することで使用者に応じた処理を行うことができる。これにより、補聴器１は、スピーカ部２５にマイクロホン２１からの音声を出力するとともに、表示部２６に表示するので、音声に対する使用者の認識を向上させることができる。
これは、ＭｕＧｕｒｋ効果（視覚聴覚同時に矛盾する音韻情報を提示した場合に異聴が生ずる：参照ＭｕＧｕｒｋＨａｎｄＭａｃＤｏｎａｌｄＪ：Ｈｅａｒｉｎｇｌｉｐｓａｎｄｓｅｅｉｎｇｖｏｉｃｅ，Ｎａｔｕｒｅ２６４，７４６−８，１９７６）、Ｋｕｈｌの報告（乳児の聴覚からの音声情報と視覚からの口形の情報との対応関係の獲得：参照ＫｕｈｌＰＫｅｔａｌ．Ｈｕｍａｎｐｒｏｃｅｓｓｉｎｇｏｆａｕｄｉｔｏｒｙ−ｖｉｓｕａｌｉｎｆｏｒｍａｔｉｏｎｉｎｓｐｅｅｃｈｐｅｒｃｅｐｔｉｏｎ．ＩＣＳＬＰ’９４Ｓ１１．４，Ｙｏｋｏｈａｍａ，１９９４）、腹話術効果（視覚が音源方向の知覚に影響を与える）、及び人間は無意識のうちに音源かどうかを学習し、区別する等の報告は人間のコミュニケーションが本来マルチモーダルなものであるとする仮説を支持するものである（参照ＳａｉｔｏｕＨａｎｄＭｏｒｉＴ：視覚認知と聴覚認知Ｏｈｍｓｈａ，１１９−２０，１９９９）。
また成人の難聴は年齢とともに内耳障害、語音弁別能の低下、聴中枢の障害、誤聴が増加する。難聴（１００ｄＢ以上）では読話が中心で聴覚が補助的となり、補聴器を使用しない聴覚障害者が多い。また高度難聴者に対して補聴器の最大出力を高くすると難聴が進行することがある。人工中耳・内耳、聴性脳幹インプラントなどの手術でも、症例により期待したほどの聴覚の補充ができていないとの報告があり、音は聞こえるが話の内容がわからないとのクレームがかなりある。また、読話、手話は成人後の修得は難しい。
聴覚とは末梢聴器の低次機能だけでなく、大脳の知覚、認知といった高次機能をも含めた包括的な概念であり、聴力は純音聴力検査で把握できる聴覚の感度面（ａｕｄｉｔｏｒｙａｃｕｉｔｙ）であるとされる。補聴器を装用する最大の目的が音声言語コミュニケーションに役立てることにあると仮定すると、相手の言ったことの認知及び理解の程度が重要である。
従来の補聴器、人工内耳等は聴力を補うことを主な目的としたが、補聴器１は視覚による認知という概念を付け加えたことが、聴覚を補充するものと考えてもよい。また、画面表示と音声によるフィードバックが聴覚障害者の音声認識を改善するという報告もある（参照ＹａｎａｇｉｄａＭ，Ａｇｉｎｇｏｆｓｐｅｅｃｈｌｉｓｔｅｎｉｎｇａｂｉｌｉｔｙ．ＴｅｃｈＲｅｐｏｒｔｏｆＩＥＩＣＥ，ＳＰ９６−３６（１９９６−０７），２５−３２，１９９６）。
以上により聴覚の認識は視覚と密接な関係にあり、視覚を使うことにより音声内容の認識が高まり、音声を最大出力にしなくても音声内容の認識が可能であり、患者の満足度が高くなると思われる。また聴覚障害児における聴覚学習においても補聴器１は有効である。
よって、表示部２６に認識結果等を表示することで音声情報を補足し、音声に対する使用者の認識を向上させる。この補聴器１では、音声のみならず、表示部２６に表示する画像を通じて話者に音声の意味内容を伝達し、対話することができる。
更に、この補聴器１によれば、使用者用マイクロホン８及び／又は外部用マイクロホン１１で検出した音声を認識した結果に応じて表示部２６に表示する音声の意味内容及びスピーカ部２５から出力する音声の内容を変更させることができるので、更に音声に対する使用者の認識を向上させることができる。従って、この補聴器１によれば、音声情報生成部２３により音声認識処理を変更するプログラムを実行することにより、身体状態（難聴の程度等）、利用状態及び使用目的に応じて認識処理を変更することで、使用者が理解しやすい音声の意味的な情報を表示することで更に認識を向上させることができる。
スピーカ部２５は、音声情報生成部２３で生成した音声を出力する。このスピーカ部２５としては、例えば使用者から話し手に対して音声を出力するものであっても良く、更には、使用者が発した音声を使用者の耳に対して発声するように音声を出力するものであっても良く、更には話し相手から使用者（又は話し相手）に対して出力するものであっても良い。
また、使用者の耳に対して発声するように音声を出力するスピーカ部２５は、スピーカユニットの変換方式としてダイナミック型や静電型（コンデンサ型、エレクトロスタティック型）によるものでも良く、形状としてはヘッドフォン（オープンエア型、クローズド型、カナルタイプ等のイン・ザ・イヤー型等）によるものでも良い。また、スピーカ部２５は、従来の補聴器、拡声器、集音器のスピーカによるものでも良く、磁気ループを利用したものでも良く、更に指を使ったマイク・スピーカ・システム（Ｗｉｓｐｅｒ（ｐｒｏｔｏｔｙｐｅ：ＮＴＴＤｏｃｏｍｏ））によるものでも良い。要するに、使用者から話者に対して音声を出力するスピーカ部２５は従来から用いられているスピーカ装置でよい。
また、スピーカ部２５は、音声情報に基づいて出力する音声と逆位相の音を出力するようにしても良い。これにより、スピーカ部２５から出力する音声に含まれる雑音成分を除去し、使用者及び／又は使用者に対する話者に雑音の少ない音声を出力する。
また、この補聴器１は、外部の通信ネットワークと接続された通信回路２７を備えている。この通信回路２７は、通信ネットワーク（電話回線（ＩＳＤＮ、ＡＤＳＬ、ｘＤＳＬ）、ＦＡＸ、ｔｅｌｅｘ、移動体通信網（ＣＤＭＡ、ＷＣＤＭ、ＧＳＭ、ＰＨＳ、ページャ網（ＤＡＲＣ（ＦＭ文字多重放送）、ｈｉｇｈｓｐｅｅｄｐａｇｅｒ、ＦＭｐａｇｅｒ）、ＩＭＴ２０００、ＰＣＳ、ＭＭＡＣ、ＩＲＩＤＩＵＭ、サービス網（ｉ−ｍｏｄｅ：ＮＴＴＤｏｃｏｍｏ））、インターネット網（ＡＳＰ）、ＬＡＮ、無線通信網（ＡＭ／ＦＭ方式、テレビジョン通信、Ｂｌｕｅｔｏｏｔｈ、赤外線ＩｒＤＡ、超音波、アマチュア無線、有線網（例、大阪有線放送等）、衛星通信（例ＢＳ、ＣＳ）、光通信、ケーブル等）を介して例えば音声言語障害者から発せられた音声や外部からの音声が入力される。この通信回路２７は、音声を示すデータを信号処理部２２に入力する。また、この通信回路２７は、信号処理部２２で信号処理を施した信号、音声情報生成部２３で生成した音声情報等を外部のネットワークに出力するとともに、外部のネットワークから信号処理を施した情報や、補聴器１の内部の処理を変更、制御する内容の情報が入力される。
また、この通信回路２７は、信号処理部２２、音声情報生成部２３を介して受信したテレビ放送（デジタル放送）、文字放送、文字ラジオ等を表示部２６で表示させても良い。このとき、通信回路２７は、文字放送等を受信するためのチューナ機能を備え、使用者の所望のデータを受信する。
このように構成された補聴器１は、例えば喉頭摘出者の電気式人工喉頭を使って発声された音声がマイクロホン２１に入力された場合であっても、信号処理部２２で音声認識し、記憶部２４に格納された喉頭摘出前にサンプリングした音声を示す音声データを用いて音声情報生成部２３で出力する音声を示す音声情報を生成するので、スピーカ部２５から喉頭摘出前の使用者の音声に近似した音声を出力することができる。
なお、上述した本発明を適用した補聴器１の説明においては、マイクロホン２１で検出される喉頭摘出者の音声である一例について説明したが、聴力障害による言語障害の一つである構音障害者からの音声や人工呼吸を受けている人の声を検出したときであっても良い。このとき、補聴器１は、言語障害者の音声を音声データとして記憶部２４に記憶しておき、当該発声者が発声したことに応じて記憶部２４に格納された発声者の音声を示す音声データを参照して信号処理部２２で音声認識処理を行い、音声情報生成部２３で認識結果に応じて音声データを組み合わせることで音声情報を生成する処理を行うことにより、スピーカ部２５から音声言語障害のない音声を出力するとともに、表示部２６により音声情報に基づいた音声内容を表示することができる。
したがってこの補聴器１によれば、例えば喉頭摘出者が代用発声法により発生した音声を表示部２６に表示することで不自然な音声を訂正させることができる。
更に、補聴器１は、例えば聴力障害による構音障害を持つ者は発声のためのフィードバックが得られず、「きょうは（今日は）」という音声が「きょんわあ」となってしまうのを上述した処理を行うことにより正常な「きょうは（今日は）］という音声に訂正してスピーカ部２５から出力することができる。
更に、この補聴器１は、表示部２６を備えているので、発声者の音声をスピーカ部２５から正常な音声にして出力するとともに、発声者の音声内容を表示することにより音声障害者や難聴者の言語訓練学習にとって好適なシステムを提供することができる。
つぎに、上述の音声情報生成部２３が信号処理部２２からの認識結果を加工、変換して音声情報を生成する処理、音声データを組み合わせる処理で適用することができる種々の例について述べる。なお、変換処理等の種々の例は、以下に述べる例に限定するものではない。
音声情報生成部２３は、信号処理部２２からの認識結果を変換するとき、人工知能技術を用いて認識結果を加工変換して音声情報を生成しても良い。音声情報生成部２３は、例えば音声対話システムを用いる。ここで、聴力低下した老人は相手話者の言ったことを再度聞き直すことがあるが、このシステムを用いて認識結果を加工変換することにより、補聴器１と使用者とが対話して以前に記憶した相手話者の言ったことの情報を得て、使用者の音声認識を向上させることができ、聞き直す手間を省略することができる。
このようなシステムは、マルチモーダル対話システムである表情つき音声対話システムを用いることで実現可能である。このマルチモーダル対話システムでは、ポインティングデバイスとタブレットを利用する入力技術である直接操作・ペンジェスチャ技術、テキスト入力技術、音声認識等の音声入出力技術、視覚や聴覚や触覚や力覚を利用したバーチャルリアリティ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ：ＶＲ）構成技術、ノンバーバルモダリティ技術の技術要素をモダリティとし組み合わせて用いる。このとき、音声情報生成部２３は、言語情報を補足する手段、対話の文脈情報（或いはその補足手段）、使用者の認知的負担或いは心理的抵抗感を軽減する手段として各モダリティを用いる。なお、ノンバーバルインターフェースとしてジェスチャー（身振り）インターフェースを用いてもよい。その場合ジェスチャーインターフェースの計測として装着型センサによるジェスチャー計測にはジェスチャートラッキングが必要であり手袋型デバイス、磁気や光学的位置計測を用い、ジェスチャーの非接触計測にはマーカを立体解析する映像や３Ｄ再構成によるものを用いてもよい。
なお、このマルチモーダル対話システムの詳細は以下の文献に記載されている（ＮａｇａｏＫａｎｄＴａｋｅｕｃｈｉＡ，Ｓｐｅｅｃｈｄｉａｌｏｇｕｅｗｉｔｈｆａｃｉａｌｄｉｓｐｌａｙｓ：Ｍｕｌｔｉｍｏｄａｌｈｕｍａｎ−ｃｏｍｐｕｔｅｒｃｏｎｖｅｒｓａｔｉｏｎ．Ｐｒｏｃ．３２ｎｄＡｎｎＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，１０２−９，ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓ，１９９４；ＴａｋｅｕｃｈｉＡａｎｄＮａｇａｏＫ，Ｃｏｍｍｕｎｉｃａｔｉｖｅｆａｃｉａｌｄｉｓｐｌａｙｓａｓａｎｅｗｃｏｎｖｅｒｓａｔｉｏｎａｌｍｏｄａｌｉｔｙ．ＰｒｏｃＡＣＭ／ＩＦＩＰＣｏｎｆｏｎＨｕｍａｎＦａｃｔｏｒｓｉｎＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ（ＩＮＴＥＲＣＨＩ’９３），１８７−９３，ＡＣＭＰｒｅｓｓ，１９９３）。
このような人工知能機能を用いた音声対話システムとしては、マイクホン２１で検出した音声を、信号処理部２２でＡ／Ｄ変換、音響分析、ベクトル量子化の後、音声認識モジュールによって、上位スコアをもつ単語レベルの最良仮説を生成するシステムが使用可能である。ここで、音声情報生成部２３は、ＨＭＭに基づく音韻モデルを用いて、ベクトル量子コードから音素を推定し、単語列を生成する。音声情報生成部２３は、生成した単語列を、構文・意味解析モジュールにより意味表現に変換する。このとき、音声情報生成部２３は、単一化文法を用いて構文解析を行い、次にフレーム型知識ベースと事例ベース（例文を解析して得られた文パターン）を用いて曖昧さの解消を行う。発話の意味内容の決定後、プラン認識モジュールにより使用者の意図を認識する。これは対話の進行に従い動的に修正・拡張されていく使用者の信念モデルと対話のゴールに関するプランに基づいている。意図を認識する課程で、主題の管理や、代名詞の照応解消、省略の補完などを行う。そして使用者の意図に基づいて協調的な応答を生成するモジュールが起動する。このモジュールはあらかじめ用意されたテンプレートの発話パターンに領域知識により得られた応答に関する情報を埋め込むことにより発話を生成する。この応答は音声合成モジュールにより音声となる。なお、この信号処理部２２及び音声情報生成部２３が行う処理としては、例えば以下に示す文献に記載された処理を行うことでも実現可能である（ＮａｇａｏＮ，Ａｐｒｅｆｅｒｅｎｔｉａｌｃｏｎｓｔｒａｉｎｔｓａｔｉｓｆａｃｔｉｏｎｔｅｃｈｎｉｑｕｅｆｏｒｎａｔｕｒａｌｌａｎｇｕａｇｅａｎａｌｙｓｉｓ．Ｐｒｏｃ１０ｔｈＥｕｒｏｐｅａｎＣｏｎｆｏｎＡｒｔｉｆｉｃｉａｌＩｔｅｌｌｉｇｅｎｃｅ，５２３−７，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，１９９２；ＴａｎａｋａＨ，Ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｓ，３３０−５，１９９９，ＩＥＩＣＥ，ＣｏｒｏｎａＰｕｂｌｉｓｈｉｎｇＣｏ．；ＮａｇａｏＫ，Ａｂｄｕｃｔｉｏｎａｎｄｄｙｎａｍｉｃｐｒｅｆｅｒｅｎｃｅｉｎｐｌａｎ−ｂａｓｅｄｄｉａｌｏｇｕｅｕｎｄｅｒｓｔａｎｄｉｎｇ．Ｐｒｏｃ１３ｔｈＩｎｔｊｏｉｎｔＣｏｎｆｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，１１８６−９２，ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓ，１９９３）。
また、音声情報生成部２３は、人工知能機能を用いて行う処理として、システムの擬人化を行い、音声認識、構文・意味解析、プラン認識より表情パラメータ調節、表情アニメーションを表示部２６を用いて行うことにより、視覚的手段を用いて音声対話に対して使用者の認知的負担、心理的抵抗感を軽減する。なお、この音声情報生成部２３が行う処理としては、以下に示す文献に記載されたＦＡＣＳ（ＦａｃｉａｌＡｃｔｉｏｎＣｏｄｉｎｇＳｙｓｔｅｍ）がある（参照ＥｋｍａｎＰａｎｄＦｒｉｅｓｅｎＷＶ，ＦａｃｉａｌＡｃｔｉｏｎＣｏｄｉｎｇＳｙｓｔｅｍ．ＣｏｎｓｕｌｔｉｎｇＰｓｙｃｈｏｌｏｇｉｓｔｓＰｒｅｓｓＰａｌｏＡｌｔｏ，Ｃａｌｉｆ，１９７８）。
更にまた、音声情報生成部２３は、音声対話コンピュータシステム（参照ＮａｋａｎｏＭｅｔａｌ，柔軟な話者交代を行う音声対話システムＤＵＧ−１，Ｐｒｏｃｏｆ５ｔｈＡｎｎｍｅｅｔｉｎｇｏｆＮＬＰ，１６１−４，１９９９）として、話し言葉を理解する逐次理解方式（ＩｎｃｒｅｍｅｎｔａｌＵｔｔｅｒａｎｃｅＵｎｄｅｒｓｔａｎｄｉｎｇ）（参照ＮａｋａｎｏＭ，Ｕｎｄｅｒｓｔａｎｄｉｎｇｕｎｓｅｇｍｅｎｔｅｄｕｓｅｒｕｔｔｅｒａｎｃｅｓｉｎｒｅａｌ−ｔｉｍｅｓｐｏｋｅｎｄｉａｌｏｇｕｅｓｙｓｔｅｍｓ．Ｐｒｏｃｏｆｔｈｅ３７ｔｈＡｎｎｍｅｅｔｉｎｇｏｆｔｈｅａｓｓｏｃｉａｔｉｏｎｆｏｒｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ，２００−７）と内容の逐次変更が可能な逐次生成方式（ＩｎｃｒｅｍｅｎｔａｌＵｔｔｅｒａｎｃｅＰｒｏｄｕｃｔｉｏｎ）（参照ＤｏｈｓａｋａＫａｎｄＳｈｉｍａｚｕＡ，Ａｃｏｍｐｕｔａｔｉｏｎａｌｍｏｄｅｌｏｆｉｎｃｒｅｍｅｎｔａｌｕｔｔｅｒａｎｃｅｐｒｏｄｕｃｔｉｏｎｉｎｔａｓｋ−ｏｒｉｅｎｔｅｄｄｉａｌｏｇｕｅｓ．Ｐｒｏｃｏｆｔｈｅ１６ｔｈＩｎｔＣｏｎｆｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，３０４−９，１９９６；ＤｏｈｓａｋａＫａｎｄＳｈｉｍａｚｕＡ，Ｓｙｓｔｅｍａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｓｐｏｋｅｎｕｔｔｅｒａｎｃｅｐｒｏｄｕｃｔｉｏｎｉｎｃｏｌｌａｂｏｒａｔｉｖｅｄｉａｌｏｇｕｅ．ＷｏｒｋｉｎｇＮｏｔｅｓｏｆＩＪＣＡＩ１９９７ＷｏｒｋｓｈｏｐｏｎＣｏｌｌａｂｏｒａｔｉｏｎ，ＣｏｏｐｅｒａｔｉｏｎａｎｄＣｏｎｆｌｉｃｔｉｎＤｉａｌｏｇｕｅＳｙｓｔｅｍｓ，１９９７；ＤｏｈｓａｋａＫｅｔａｌ，複数の対話ドメインにおける協調的対話原則の分析Ｃｏｒｐｕｓａｎａｌｙｓｉｓｏｆｃｏｌｌａｂｏｒａｔｉｖｅｐｒｉｎｃｉｐｌｅｓｉｎｄｉｆｆｅｒｅｎｔｄｉａｌｏｇｕｅｄｏｍａｉｎｓ、ＩＥＩＣＥＴｅｃｈＲｅｐｏｒｔＮＬＣ−９７−５８，２５−３２，１９９８）による音声と画像を用いる人工知能システムである。ここで、音声情報生成部２３は、理解と応答のプロセスが平行動作する。また、音声情報生成部２３は、ＩＳＴＡＲプロトコール（参照ＨｉｒａｓａｗａＪ，Ｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｃｏｏｒｄｉｎａｔｉｖｅｎｏｄｄｉｎｇｂｅｈａｖｉｏｒｏｎｓｐｏｋｏｎｄｉａｌｏｇｕｅｓｙｓｔｅｍｓ，ＩＣＳＬＰ−９８，２３４７−５０，１９９８）を用いて音声認識と同時に単語候補を言語処理部に逐次的に送る。
すなわち、音声対話システムＤＵＧ−１（日本電信電話製）で用いている技術を用いることにより、補聴器１では、例えば所定のデータ量（文節）ごとに使用者及び／又外部からの音声を音声認識するとともに、音声情報を生成する処理を行う。音声情報生成部２３では、使用者及び／又は外部からの音声に応じて、音声認識処理、音声情報認識処理を随時中止、開始することができ、効率的な処理を行うことができる。更に、この補聴器１では、使用者の音声に応じて、音声認識処理、音声情報生成処理を制御することができるので、柔軟に話者の交替を実現することができる。すなわち、音声情報を生成している最中に使用者及び／又は外部からの音声を検出することで処理を変更し、使用者に提示する音声情報の内容を変更等の処理を行うことができる。
更にまた、音声情報生成部２３は、キーワードスポティングを用いて使用者の自由な発話を理解する処理を行っても良い（参照ＴａｋａｂａｙａｓｈｉＹ，音声自由対話システムＳｐｏｎｔａｅｏｕｓｓｐｅｅｃｈｄｉａｌｏｇｕｅＴＯＳＢＵＲＧＩＩ −使用者中心のマルチモーダルインターフェースの実現に向けて−ｔｏｗａｒｓｔｈｅｕｓｅｒ−ｃｅｎｔｅｒｅｄｍｕｌｔｉｍｏｄｅｌｉｎｔｅｒｆａｃｅ−．ＩＥＩＣＥｔｒａｎｓｖｏｌＪ７７−Ｄ−ＩＩＮｏ８１４１７−２８，１９９４）。
この音声情報生成部２３は、例えばイントネーション、ストレス、アクセント等の処理を行うように変換処理を行って音声情報を出力しても良い。このとき、音声情報生成部２３は、必要に応じて、特定の発音についてはイントネーション、ストレス、アクセントの強弱を変化させるように音声情報を変換して出力するようにする。
韻律制御方式として単語及び文韻律データベースを用いてもよい（参照ＮｕｋａｇａＮｅｔａｌ単語および文韻律データベースを用いた韻律制御方式の検討Ｏｎｔｈｅｃｏｎｔｒｏｌｏｆｐｒｏｓｏｄｙｕｓｉｎｇｗｏｒｄａｎｄｓｅｎｔｅｎｃｅｐｒｏｓｏｄｙｄａｔａｂａｓｅ．Ｔｈｅ１９９８ｍｅｅｔｉｎｇｏｆｔｈｅＡＳＪｓｏｃｉｅｔｙｏｆＪａｐａｎ２２７・８，１９９８）。
音声情報生成部２３は、音声データを合成するとき、どのような内容の音声でも合成するときには規則による音声合成、滑らかな音声を合成するために可変長単位を用いた音声合成、自然な音声を合成するための韻律制御、また音声の個人性付与のために音質変換を行って音声情報を生成しても良い（参照自動翻訳電話ＡＴＲ国際電気通信基礎技術研究所編，１７７−２０９，１９９４Ｏｈｍｓｈａ）。
また、ボコーダ（ｖｏｃｏｄｅｒ）（例：音声分析変換合成法ＳＴＲＡＩＧＨＴ（ｓｐｅｅｃｈｔｒａｎｓｆｏｒｍａｔｉｏｎａｎｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｂａｓｅｄｏｎａｄａｐｔｉｖｅｉｎｔｅｒｐｏｌａｔｉｏｎｏｆｗｅｉｇｈｔｅｄｓｐｅｃｔｒｏｇｒａｍ参照ＭａｅｄａＮｅｔａｌ，ＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎｗｉｔｈＳＴＲＡＩＧＨＴ．ＴＥＣＨＲＥＰＯＲＴＯＦＩＥＩＣＥ，ＥＡ９８−９，３１−６，１９９８）を用いても高品質の音声を合成することが可能である。
更に、この音声情報生成部２３は、文字情報から音声を作り出す音声合成（ｔｅｘｔｔｏｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）を用いることにより話の内容に関する情報（音韻性情報）や音の高さや大きさに関する情報（韻律情報）を聴力障害者の難聴の特性に合わせてその人の最も聞き易い音の高さに調整することも可能であり、他に話速変換技術（ｖｏｉｃｅｓｐｅｅｄｃｏｎｖｅｒｔｉｎｇ）、周波数圧縮（ｆｒｅｑｕｅｎｃｙｃｏｍｐｒｅｓｓ）処理等の音声特徴量の変換処理を行う。また出力する音声の帯域を調整する帯域拡張（ｆｒｅｑｕｅｎｃｙｂａｎｄｅｘｐａｎｓｉｏｎ）処理や、音声強調（ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ）処理等を音声情報に施す。帯域拡張処理、音声強調処理としては、例えば以下の文献に記載されている技術を用いることで実現可能である（ＡｂｅＭ，ＳｐｅｅｃｈＭｏｄｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｓｆｏｒＦｕｎｄａｍｅｎｔａｌＦｒｅｑｕｅｎｃｙ，ＤｕｒａｔｉｏｎａｎｄＳｐｅａｋｅｒＩｎｄｉｖｉｄｕａｌｉｔｙ．ＴＥＣＨＲＥＰＯＲＴＯＦＩＥＩＣＥ，ＳＰ９３−１３７，６９−７５，１９９４）。なお、上述したように、信号処理部２２及び音声情報生成部２３で音声認識処理をして認識結果を加工変換する場合のみならず、上述の処理のみを行ってスピーカ部２５に出力しても良い。また、この補聴器１では、認識結果及び／又は上述の処理のみを行った結果を同時に又は時間差を付けて出力しても良い。また、この補聴器１では、認識結果及び／又は上述の処理のみを行った結果をスピーカ部２５又は表示部２６の左右のチャンネルで異なる内容を出力しても良い。
更にまた、音声情報生成部２３は、認識結果を用いて音声から言語を理解し、当該理解した言語を用いて音声データから音声情報を構成するという処理を行うのみならず、他の処理を認識結果に基づいて理解した言語を必要に応じて加工変換する処理を行っても良い。すなわち、この音声情報生成部２３は、音声情報を構成するとともに、音声情報としてスピーカ部２５に出力するときの速度を変化させる話速変換処理（例：ピッチ区間の分割・延長により有声区間を延長、無声区間は加工せず、無音区間の短縮）を行っても良い。すなわち、この話速変換処理は、使用者の状態に応じて適当な話速を選択することによりなされる。
更にまた、この音声情報生成部２３は、認識結果に応じて、例えば日本語（Ｊａｐａｎｅｓｅ）の音声情報を英語（Ｅｎｇｌｉｓｈ）の音声情報に変換して出力するような翻訳処理を行って出力しても良く、通信機能と合わせて自動翻訳電話にも応用可能である。更には音声情報生成部２３は自動要約（ａｕｔｏｍａｔｉｃａｂｓｔｒａｃｔｉｎｇ）を行い、「ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ」を「ＵＳＡ」と要約するように変換して音声情報を出力しても良い。
音声情報生成部２３が行う他の自動要約処理としては、例えば文章内から要約に役立ちそうな手がかり表現を拾い出し、それらをもとに読解可能な文表現を生成する生成派の処理（参照ＭｃＫｅｏｗｎＫａｎｄＲａｄｅｖＤＲ，ＧｅｎｅｒａｔｉｎｇＳｕｍｍａｒｉｅｓｏｆＭｕｌｔｉｐｌｅＮｅｗｓＡｒｔｉｃｌｅｓ．ＩｎＰｒｏｃｏｆ１４ｔｈＡｎｎＩｎｔＡＣＭＳＩＧＩＲＣｏｎｆｏｎＲｅｓａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，６８−７３，１９９５；ＨｏｖｙＥ，ＡｕｔｏｍａｔｅｄＤｉｓｃｏｕｒｓｅＧｅｎｅｒａｔｉｏｎｕｓｉｎｇＤｉｓｃｏｕｒｓｅＳｔｒｕｃｔｕｒｅＲｅｌａｔｉｏｎｓ，ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，６３，３４１−８５，１９９３）、要約を「切り抜き」と考えて処理し客観的評価が可能となるように問題を設定しようという立場の抽出派の処理がある（参照ＫｕｐｉｅｃＪｅｔａｌ，ＡＴｒａｉｎａｂｌｅＤｏｃｕｍｅｎｔＳｕｍｍａｒｉｚｅｒ．ＩｎＰｒｏｃｏｆ１４ｔｈＡｎｎＩｎｔＡＣＭＳＴＧＩＲＣｏｎｆｏｎＲｅｓａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，６８−７３，１９９５；ＭｉｉｋｅＳｅｔａｌ，ＡＦｕｌｌ−ｔｅｘｔＲｅｔｒｉｅｖａｌＳｙｓｔｅｍｗｉｔｈａＤｙｎａｍｉｃＡｂｓｔｒｕｃｔＧｅｎｅｒａｔｉｏｎＦｕｎｃｔｉｏｎ．Ｐｒｏｃｏｆ１７ｔｈＡｎｎＩｎｔＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，１５２−９，１９９４；ＥｄｍｕｎｄｓｏｎＨＰ，ＮｅｗＭｅｔｈｏｄｉｎＡｕｔｏｍａｔｉｃＡｂｓｔｒａｃｔｉｎｇ．ＪｏｆＡＣＭ１６，２６４−８５，１９６９）。更に、この音声情報生成部２３は、例えばＰａｒｔｉａｌＭａｔｃｈｉｎｇＭｅｔｈｏｄとＩｎｃｒｅｍｅｎｔａｌＲｅｆｅｒｅｎｃｅＩｎｔｅｒｖａｌ−Ｆｒｅｅ連続ＤＰを用いて重要キーワードの抽出を行い、ＩｎｃｒｅｍｅｎｔａｌＰａｔｈＭｅｔｈｏｄを用いて単語認識を行うことが可能である（参照ＮａｋａｚａｗａＭｅｔａｌ．Ｔｅｘｔｓｕｍｍａｒｙｇｅｎｅｒａｔｉｏｎｓｙｓｔｅｍｆｒｏｍｓｐｏｎｔａｎｅｏｕｓｓｐｅｅｃｈ，Ｔｈｅ１９９８ｍｅｅｔｉｎｇｏｆＡＳＪ１−６−１，１−２，１９９８）。
更にまた、この音声情報生成部２３は、認識結果に応じて、特定の音素、母音、子音、アクセント等において、消去したり、音声を出力することに代えてブザー音、あくび音、せき音、単調な音等を音声情報とともに出力するように制御しても良い。このとき音声情報生成部２３は、例えば以下の文献に記載されている手法を実現した処理を音声情報について行う（参照ＷａｒｒｅｎＲＭ，ＰｅｒｃｅｐｔｕａｌＲｅｓｔｏｒａｔｉｏｎｏｆＭｉｓｓｉｎｇＳｐｅｅｃｈＳｏｕｎｄｓ．Ｓｃｉｅｎｃｅｖｏｌ１６７，３９２，１９７０；ＷａｒｒｅｎＲＭａｎｄＯｂｕｓｅｋＣＪ，Ｓｐｅｅｃｈｐｅｒｃｅｐｔｉｏｎａｎｄｐｈｏｎｅｍｉｃｒｅｓｔｏｒａｔｉｏｎ．Ｐｅｒｃｅｐｔｉｏｎａｎｄｐｓｙｃｈｏｐｈｙｓｉｃｓｖｏｌ９，３５８，１９７１）。
更にまた、音声情報生成部２３は、認識結果を用いてホーン調（管共鳴を用いた重低音を再生する技術により出力される音質：集音管により約２０００Ｈｚ以下の帯域の音声を増幅させ、利得が約１５ｄＢ）となるように音質を変換させて音声情報を出力しても良い。この音声情報生成部２３は、例えばＵＳＰＡＴＥＮＴ４６２８５２８により公知となされているアコースティックウェーブ・ガイド（ＡｃｏｕｓｔｉｃＷａｖｅＧｕｉｄｅ）技術を用いて出力される音質に近似した音に変換して音声情報を出力してもよく、アコースティックウェーブ・ガイド技術に基づきスピーカからの音を管に通して出してもよい（例ｗａｖｅｒａｄｉｏ（ＢＯＳＥ））。ここで、音声情報生成部２３は、例えば低音のみを通過させるフィルター処理を行って音声情報を出力する処理を行っても良く、例えばＳＵＶＡＧ（ＳｙｓｔｅｍｅＵｎｉｖｅｒｓｅｌＶｅｒｂｏ−ｔｏｎａｌｄ’Ａｕｄｉｔｉｏｎ−Ｇｕｂｅｒｉｎａ）を用いることにより、所定の周波数帯域の音声のみを通過させる種々のフィルタ処理を行って音声情報を出力する処理を行っても良い。
更にまた、この音声情報生成部２３は、例えばマイクロホン２１に音楽が入力されたと判断したときには、色を表示するように処理を行っても良いし、ソング頼太やＸＧｗｏｒｋｓｖ．３．０（ヤマハ）のボイストゥスコアＲ等の機能で実現されている音声情報を変換して表示部２６に音符を表示してもよい。また、この音声情報生成部２３は、音声のリズムなどが分かるために変換した音声のリズムを信号が点滅するように音声情報を変換して表示部２６に表示しても良いし、音声を色彩表示やスペクトルグラムパターンによる表示をしてもよい。
更にまた、この音声情報生成部２３は、例えば警報等の発信音がマイクロホン２１に入力されたと判断したときには、音声情報を変換することで表示部２６に警報等がマイクロホン２１で検出された旨の表示を行ったり、スピーカ部２５に警報の内容を知らせるような内容を出力しても良い。
この音声情報生成部２３は、例えば非常ベルや救急車や津波のサイレンを聞いたら表示するだけでなく大音量で「火事ですよ」「救急車ですよ」「津波が襲ってきますよ」とスピーカ部２５から出力するとともに、表示部２６に火事や救急車や津波を示す画像を表示する。
これにより、音声情報生成部２３は、難聴者に非常事態を音声及び画像を以て伝えることができ、生死に関わる最悪の事態を避けることができる。
更に具体的には、音声情報生成部２３は、図３に示すように、信号処理部２２での認識結果として「ピーポーピーポー（救急車のサイレン）」と表示し、認識結果を変換した加工変換結果として「救急車」と表示し、更なる加工変換結果として記憶部２４に格納されている救急車種々の図柄の中で、緊急性を示すシグナルを出しながら走っている救急車を示す図柄（又は走っている動画）を読み出して表示させる。他の一例としては、音声情報生成部２３は、例えば津波による警報がマイクロホン２１に入力されたときには、信号処理部２２での音声認識結果として「ウィィーン（津波に対して）」と表示し、認識結果を変換した加工変換結果として「津波」と表示し、更なる加工変換結果として緊急性を示す沿岸の家を飲み込む津波の図柄（又は津波が迫りながら家を飲み込む動画）を記憶部２４から読み出して表示させる。また、この音声情報生成部２３は、記憶部２４の記憶容量の削減を図るために、図４に示すように簡略化した絵柄を表示部２６に表示させても良い。
これにより、音声情報生成部２３では、音声により救急車や津波と入力されたことによる単純なこれらの画像ではなく、緊急時を表す音声が入力されたことにより、緊急性を示す画像を表示させる。
また、更に他の例としては、学校で２時限（コンピュータテクノロジーの授業）のチャイムの鐘の音がマイクロホン２１に入力されたことに応じ、音声情報生成部２３は、図５に示すように、認識結果として「キンコーン」と表示し、認識結果の加工変換結果として「鐘」の画像を表示する。更に、音声情報生成部２３は、時計機能と予め入力されていた時間割のプログラムと対応させて、「２時限コンピュータテクノロジー」と表示するとともに、授業（コンピュータテクノロジー）を表す画像（パーソナルコンピュータ）を表示させる。
従って、このような音声情報生成部２３を備えた補聴器１では、音声を用いて認識結果、加工変換結果を表示部２６に表示するとともに、音声と予め設定された情報を用いて他の情報をユーザに提示することができる。
また、音声情報生成部２３では、信号処理部２２での認識結果の意味内容及び認識結果の他のパラメータを用いて認識結果を加工変換しても良い。この音声情報生成部２３は、例えば、マイクロホン２１で検出した音声の音量、音の周波数特性に応じて異なる加工変換処理を行って異なる画像を記憶部２４から読み出すことで、異なる加工変換結果を表示部２６に提示しても良い。これにより、補聴器１では、利用者に更に詳細な音声認識結果を提示することができ、利用者の音声の認識を更に向上させることができる。また、この音声情報生成部２３では、例えばマイクロホン２１に入力される救急車のサイレンの音量に応じて、異なる大きさの図柄を表示する。例えば、音声情報生成部２３は、サイレンの音量が所定値以上であると判定したときには図６Ａに示すような大きさで救急車の図柄を表示し、サイレンの音量が所定値以下であると判定したときには図６Ｂに示すように図６Ａに示す図柄よりも小さく表示する。これにより、補聴器１では、救急車が使用者に近づいて徐々にサイレンの音量が大きくなるに従って図柄を大きくして、利用者の外部の音声に対する認識を向上させることができる。
音声の音量等、音声に含まれる情報・非言語情報（例：強調表現、感情表現）を画像（例：手話）にて表現することが可能であり、実現例として、以下があげられる。音声を音声認識処理して単語情報に変換し、音声特徴量（ピッチ情報等）も検出する。次に非言語情報抽出処理をして単語情報と音声特徴量から、非言語情報の個所と種類を検出する。上記の情報は情報変換処理に送られる。単語情報は日本語・手話見出し変換処理において手話見出しに変換され、非言語情報変換処理では、非言語情報の表現個所と種類に応じて手話の非言語情報表現ルールが検索される。最終的に、手話アニメ生成処理にて導出された手話見出し情報及び手話の非言語情報を用いて手話アニメーションが生成される（参照ＡｎｄｏＨｅｔａｌ音声・手話変換システムのための音声強調表現特徴量の抽出Ａｎａｌｙｓｉｓｏｆｓｐｅｅｃｈｐｒｏｍｉｎｅｎｃｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｆｏｒｔｒａｎｓｌａｔｉｎｇｓｐｅｅｃｈｄｉａｌｏｇｔｏｓｉｇｎｌａｎｇｕａｇｅ．Ｔｈｅ１９９９ｍｅｅｔｉｎｇｏｆｔｈｅＡＳＪｓｏｃｉｅｔｙｏｆＪａｐａｎ３７７・８，１９９９）。
このように、音声情報生成部２３では、マイクロホン２１で検出した音声を用いて、音声のみならず、他の機能も用いることにより音声情報を加工変換して、様々な形態で利用者に提示することができる。
更にまた、音声情報生成部２３は、過去に行った変換合成処理について記憶する機能を備えていても良い。これにより、音声情報生成部２３は、過去に行った変換合成処理の改良を自動的に行う学習処理を行うことができ、変換合成処理の処理効率を向上させることができる。
更にまた、この信号処理部２２及び音声情報生成部２３は、話し手の音声のみについての認識結果を生成して音声情報を生成し、スピーカ部２５及び／又は表示部２６に提示することで使用者に知らせる一例のみならず、例えば特定の雑音に対してのみ音声認識を行っても良い。要するに、信号処理部２２及び音声情報生成部２３は、入力した音について音声認識処理を行って、認識結果を使用者の身体状態、利用状態及び使用目的に応じて変換することで使用者が理解し易い表現で音声情報を生成して出力する処理を行う。
更にまた、上述した本発明を適用した補聴器１の説明おいては、記憶部２４に予めサンプリングして格納した音声データを音声情報生成部２３により組み合わせることにより音声情報を生成して出力するものの一例について説明したが、音声情報生成部２３は、記憶部２４に記憶された音声データを組み合わせて音声情報を生成するときに格納された音声データに変換処理を施す音声データ変換部を備えていても良い。このような音声データ変換部を備えた補聴器１は、例えばスピーカ部２５から出力する音声の音質を変化させることができる。
更にまた、上述した本発明を適用した補聴器１の説明おいては、例えば喉頭摘出前の使用者の音声を予めサンプリングすることにより得た音声データを記憶部２４に格納するものの一例について説明したが、記憶部２４には、一つの音声データのみならず複数の音声データを予めサンプリングして格納しても良い。すなわち記憶部２４には、例えば喉頭摘出前の音声を予めサンプリングした音声データ、及び前記喉頭摘出前の音声に近似した音声データを格納しても良く、更には全く異なる音質の音声データを格納しても良く、更にまた、喉頭摘出前の音声データを生成し易い音声データを格納しても良い。このように複数の音声データが記憶部２４に格納されているとき、音声情報生成部２３は、各音声データの関係を例えば関係式等を用いて関連づけを行って選択的に音声データを用いて音声情報を生成しても良い。
また、上述の補聴器１は、サンプリングして記憶部２４に格納した音声データを合成することで音声情報を生成して出力する一例について説明したが、記憶部２４に記憶されている音声データを合成することで生成した音声情報に、音声情報生成部２３によりボコーダ処理（例：ＳＴＲＡＩＧＨＴ）を施すことにより、サンプリングして記憶されている音声データが示す音声とは異なる音質の音声に変換して出力しても良い。
更にまた、信号処理部２２は、話者認識（ｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎ）処理を入力される音声について行って各話者に対応した認識結果を生成しても良い。そして、この信号処理部２２では、各話者に関する情報を認識結果とともにスピーカ部２５や表示部２６に出力することで使用者に提示しても良い。
補聴器１で話者認識を行うときには、ベクトル量子化によるものでも良い（参照ＳｏｏｎｇＦＫａｎｄＲｏｓｅｎｂｅｒｇＡＥ，Ｏｎｔｈｅｕｓｅｏｆｉｎｓｔａｎｔａｎｅｏｕｓａｎｄｔｒａｎｓｉｔｉｏｎｓｐｅｃｔｒａｌｉｎｆｏｒｍａｔｉｏｎｉｎｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎ．ＰｒｏｃｏｆＩＣＡＳＳＰ’８６，８７７−８０，１９８６）。このベクトル量子化を利用した話者認識では、準備段階の処理として登録話者用の学習用音声データからスペクトルの特徴を表すパラメータを抽出して、これらをクラスタリングすることによりコードブックを作成する。ベクトル量子化による方法は話者の特徴が作成された符号帳に反映されていると考える手法である。認識時には入力された音声と全ての登録話者のコードブックを用いてベクトル量子化を行い、入力音声全体に対して量子化ひずみ（スペクトルの誤差）を計算する。この結果を用いて話者の識別や照合の判定を行う。
また、補聴器１で話者認識を行うときには、ＨＭＭによる方法であっても良い（参照ＺｈｅｎｇＹＣａｎｄＹｕａｎＢＺ，Ｔｅｘｔ−ｄｅｐｅｎｄｅｎｔｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇｃｉｒｃｕｌａｒｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ，ＰｒｏｃｏｆＩＣＡＳＳＰ’８８，５８０−２，１９８８）。この方法では、準備段階の処理として登録話者の学習用音声データからＨＭＭを作成する。ＨＭＭを用いる方法では話者の特徴は状態間の遷移確率とシンボルの出力確率に反映されると考える。話者認識の段階では入力音声を用いて全ての登録話者のＨＭＭによる尤度を計算して判定を行う。ＨＭＭの構造としてｌｅｆｔ〜ｔｏ〜ｒｉｇｈｔモデルに対してエルゴディックなＨＭＭを用いてもよい。
更にまた、補聴器１では、ＡＴＲ−ＭＡＴＲＩＸシステム（ＡＴＲ音声翻訳通信研究所製：参照ＴａｋｅｚａｗａＴｅｔａｌ，ＡＴＲ−ＭＡＴＲＩＸ：ＡｓｐｏｎｔａｎｅｏｕｓｓｐｅｅｃｈｔｒａｎｓｌａｔｉｏｎｓｙｓｔｅｍｂｅｔｗｅｅｎＥｎｇｌｉｓｈａｎｄＪａｐａｎｅｓｅ．ＡＴＲＪ２，２９−３３，Ｊｕｎｅ１９９９）で用いられている音声認識処理（ＡＴＲＳＰＲＦＣ）、音声合成処理（ＣＨＡＴＲ）、言語翻訳処理（ＴＤＭＴ）を行うことで、マイクロホン２１で入力した音声を翻訳して出力することができる。
音声認識処理（ＡＴＲＳＰＲＰＣ）では、大語彙連続音声認識を行い（ｍａｎｙ−ｗｏｒｄｃｏｎｔｉｎｕｏｕｓｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｎｒｅａｌｔｉｍｅ）、音声認識ツールを用いて音声認識に必要な音響モデルと言語モデルの構築、及び信号処理から探索までの工程を処理する。この音声認識処理では、行った処理をツール群として完結し（ｃｏｍｐｌｅｔｅｇｒｏｕｐｏｆｔｏｏｌｓ）、ツール同士の組み合わせることが容易で（ｅａｓｙｉｎｔｃｇｒａｔｉｏｎｏｆｔｏｏｌｓ）及びＨＴＫとの互換性確保（ｃｏｍｐａｔｉｂｌｅｗｉｔｈＨＴＫ）を行う。また、この音声認識を行うとき、不特定話者の音声認識を行っても良い。
音声認識処理（ＡＴＲＳＰＲＥＣ）は基本的な音声認識処理の流れとして以下の（ａ）〜（ｄ）に示すようなツール群を提供する。なお、音声認識処理（ＡＴＲＳＰＲＥＣ）はＵＮＩＸ環境（ＯＳＦ１，ＨＰ−ＵＸ）で動作する。
（ａ）信号処理：人間が発声した音声の波形信号を特徴ベクトルと呼ばれる音声認識処理に必要な情報を抽出した特徴量に変換する。
（ｂ）音響モデル構築：特徴ベクトル発声内容の関係をパラメータ推定の形でモデル化する。このとき、話者適応をしてもよい（標準話者のＨＭｎｅｔと少量の音声サンプルを用いて特定の話者に適応したＨＭｎｅｔの作成（ＭＬ推定法、ＭＡＲ推定法、ＶＥＳ，ＭＡＰ−ＶＦＳ））。
（ｃ）言語モデル構築：単語や文法的制約といった言語情報をモデル化する。
（ｄ）探索：発声した内容の推定を音響モデル、言語モデルを用いて行う。
言語翻訳処理（ＴＤＭＴ：協調融合翻訳方式）は用例翻訳と依存構造解析とを協調的に駆動させて、句から節、さらに文へと段階的に翻訳処理を進める。
言語翻訳処理（ＴＤＭＴ）では、文の構造を判断する処理、対話用例を用いた対話特有のくだけた表現などの多様な表現を扱って言語翻訳を行う。また、この言語翻訳では、マイクロホン２１が一部聞き取れなかった部分があっても、翻訳できる部分はなるべく翻訳する部分翻訳処理を行い、一文全体を正確に翻訳できない場合でも、話し手が伝えたい内容をかなりの程度相手に伝える。
音声合成処理（ＣＨＡＴＲ）では、あらかじめデータベース化された多量の音声単位から、出力したい文に最も適した単位を選択してつなぎあわせ、音声を合成する。このため、滑らかな音声が出力することができる。この音声合成では、話し手の声に最も近い音声データを用いて話し手の声に似た声で合成することができる。また、この音声合成を行うときには、音声情報生成部２３は、入力された音声から話し手の性別を判断し、それに応じた声で音声合成を行っても良い。
音声合成処理（ＣＨＡＴＲ）は以下にて構成される。韻律知識ベースを基に、合成したい音素系列の韻律パラメータを音素ごとに予測する。計算された韻律パラメータを基に最適な韻律情報を持つ音声単位を選択し、音声波形情報ファイルへのインデックスを求める。選択された音声単位を一つずつ音声波形ファイル内から切り出して接続する。生成された音声波形を出力する。
また、音声認識処理、言語翻訳処理及び音声合成処理を行うときには、通信回路２７を介して携帯電話等の通信機器と接続して双方向の対話可能である。
音声認識処理、言語翻訳処理、音声合成処理、を行う補聴器１では、例えば日英双方向の音声翻訳システムの利用、ほぼリアルタイムの認識、翻訳、合成、話し始めの指示をシステムに与える必要がなく、全二重の対話が可能自然な発話に対して質の高い認識、翻訳、合成が可能となる。例えば、「あのー」、「えーと」といった言葉や、多少くだけた表現の音声がマイクロホン２１に入力されても音声認識処理、言語翻訳処理及び音声合成処理が可能となる。
更にまた、音声情報生成部２３は、音声認識（ＡＴＲＳＰＲＥＣ）において、信号処理部２２からの認識結果に基づいて文の構造を判断するだけでなく、対話用例を用いることにより、対話特有のくだけた表現などの多様な表現に対応した音声情報を生成する。また、音声情報生成部２３は、マイクロホン２１で会話中の一部が聞き取れなかった部分があっても、音声情報を生成することができる部分はなるべく音声情報を生成する。これにより、音声情報生成部２３は、一文全体の音声情報を正確に生成できない場合でも、話し手が伝えたい内容をかなりの程度相手に伝える。このとき、音声情報生成部２３は、翻訳処理（部分翻訳機能）を行って音声情報を生成しても良い。
また、音声情報生成部２３は、音声合成（ＣＨＡＴＲ）において、予めデータベース化して記憶された多量の音声単位の音声データから、出力したい文に最も適した単位を選択してつなぎあわせ、音声を合成して音声情報を生成する。これにより、音声情報生成部２３は、滑らかな音声を出力するための音声情報を生成する。また、音声情報生成部２３は、話し手の声に最も近い音声データを用いて話し手の声に似た声で合成処理を行っても良く、入力された音声から話し手が男性か女性かを判断し、それに応じた声で音声合成を行って音声情報を生成しても良い。
更にまた、音声情報生成部２３は、マイクロホン２１からの音声から、特定の音源の音のみを抽出してスピーカ部２５及び／又は表示部２６に出力しても良い。これにより、補聴器１は、カクテルパーティ現象（複数の音源からの音の混合の中から、特定の音源の音のみを抽出してきく）を人工的に作ることができる。
更にまた、音声情報生成部２３は、音韻的に近い例を用いて誤りを含んだ認識結果を訂正する手法を用いて聞き間違いを修正して音声情報を生成しても良い（参照ＩｓｈｉｋａｗａＫ，ＳｕｍｉｄａＥ，Ａｃｏｍｐｕｔｅｒｒｅｃｏｖｅｒｉｎｇｉｔｓｏｗｎｍｉｓｈｅａｒｄ−Ｇｕｅｓｓｉｎｇｔｈｅｏｒｉｇｉｎａｌｓｅｎｔｅｎｃｅｆｏｒｍａｒｅｃｏｇｎｉｔｉｏｎｒｅｓｕｌｔｂａｓｅｄｏｎｆａｍｉｌｉａｒｅｘｐｒｅｓｓｉｏｎｓ−ＡＴＲＪ３７，１０−１１，１９９９）。このとき、音声情報生成部２３は、使用者の身体状態、利用状態及び使用目的応じて処理を行って、使用者にとってわかりやすい形態に加工変換する。
なお、上述した補聴器１の説明においては、マイクロホン２１で検出した音声について音声認識処理、音声生成処理を行う一例について説明したが、使用者等により操作される操作入力部２８を備え当該操作入力部２８に入力されたデータを音声及び／又は画像とするように信号処理部２２により変換しても良い。また、この操作入力部２８は、例えば使用者の指に装着され、指の動きを検出することでデータを生成して信号処理部２２に出力するものであっても良い。
また、この補聴器１は、例えば使用者が液晶画面等をペンにより接触させることで文字及び／又は画像を描き、その軌跡を取り込むことによる画像に基づいて文字及び／又は画像データを生成する文字及び／又は画像データ生成機構を備えていても良い。補聴器１は、生成した文字及び／又は画像データを信号処理部２２及び音声情報生成部２３により認識・変換等の処理を行って出力する。
更に、上述の補聴器１は、マイクロホン２１等からの音声を用いて信号処理部２２により音声認識処理を行う一例に限らず、例えば使用者及び／又は使用者以外の人が装着する鼻音センサ、呼気流センサ、頚部振動センサ、骨振動体（例マウスピースタイプ）からの検出信号及びマイクロホン２１等からの信号を用いて音声認識処理を行っても良い。このように、補聴器１は、マイクロホン２１のみならず各センサを用いることにより、信号処理部２２による認識率を更に向上させることができる。
更に、この補聴器１は、例えば自動焦点機能やズーム機能を搭載したデジタルカメラにより動画像や静止画像等を撮像するカメラ機構２９を図２に示すように備え、表示部２６に表示するものであっても良い。このカメラ機構２９は例えば図１のディスプレイ部７と一体に搭載されても良い。また、カメラ機構２９としては、デジタルカメラを用いても良い。
また、この補聴器１に備えられたカメラ機構２９は、撮像した画像を使用者の身体状態（視力や乱視等の目の状態）、利用状態及び使用目的に応じて歪ませたり拡大させたりする画像変換処理を施して表示部２６に表示する眼鏡機能を備えていても良い。
このような補聴器１は、例えばカメラ機構２９からＣＰＵ等からなる信号処理回路を経由して表示部２６に撮像した画像を表示する。この補聴器１は、このようなカメラ機構２９により例えば話者を撮像した画像を使用者に提示することで、使用者の認識を向上させる。また、この補聴器１は、撮像した画像を通信回路２７を介して外部のネットワークに出力しても良く、更には外部のネットワークからカメラ機構２９で撮像した画像を入力して通信回路２７及び信号処理回路等を介して表示部２６に表示しても良い。
更に、この補聴器１では、話者を撮像した画像を用いて信号処理部２２で顔面認識処理、物体認識処理を行って音声情報生成部２３を介して表示部２６に表示しても良い。これにより、補聴器１では、撮像対象者の***、顔の表情、全体の雰囲気等を使用者に提示して、使用者の音声認識を向上させる。
撮像機能を用いた顔の認識において顔の個人性特徴を抽出して個人認識をおこなうものとして、以下の方法があるがこれらに限られるものではない。
濃淡画像のマッチングにより識別するための特徴表現の一つとしてパターンをモザイク化し、各ブロック内の画素の平均濃度をブロックの代表値とすることで濃淡画像を低次元ベクトルに情報圧縮して表現する方法でＭ特徴といわれている方法である。また、ＫＩ特徴という濃淡顔画像の特徴表現で、Ｋａｒｈｕｎｅｎ−Ｌｏｅｖｅ（ＫＬ）展開を顔画像の標本集合に適応して求められる直交基底画像を固有顔とよび、任意の顔画像をこの固有顔を用いて展開した係数から構成される低次元の特徴ベクトルで記述する方法である。更に、顔画像集合のＫＬ展開による次元圧縮に基づくＫＩ特徴によるもの照合パターンをまずフーリエスペクトルに変換しＫＩ特徴の場合と同様に標本集合をＫＬ展開することで次元圧縮を行って得られる低次元の特徴スペクトルであるＫＦ特徴による識別を行う方法がある。以上の方法によるものが顔画像認識に用いることが可能であり、それらを用いて顔の認識を行うことは対話者が誰であるかという個人識別情報をコンピュータに与えることになり、使用者にとって対話者に対する情報が得られ、音声情報に対する認識が増す。なお、このような処理は以下の文献に記載されている（ＫｏｓｕｇｉＳ，ニューラルネットを用いた顔画像の識別と特徴抽出情処学ＣＶ研報，７３−２，１９９１−０７；ＴｕｒｋＭＡａｎｄＰｅｎｔｌａｎｄＡＰ，Ｆａｃｅｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｅｉｇｅｎｆａｃｅ．ＰｒｏｃＣＶＰＲ，５８６−９１，１９９１−０６；ＡｋａｍａｔｓｕＳｅｔａｌ，Ｒｏｂｕｓｔ．ｆａｃｅｉｎｔｉｆｉｃａｔｉｏｎｂｙｐａｔｔｅｒｎｍａｔｃｈｉｎｇＢａｓｅｄｏｎＫＬｅｘｐａｎｓｉｏｎｏｆｔｈｅＦｏｕｒｉｅｒＳｐｅｃｔｒｕｍ．ＩＥＩＣＥｔｒａｎｓｖｏｌＪ７６ＤＩＩＮｏ７，１３６３−７３，１９９３；ＥｄｗａｒｄｓＧＪｅｔａｌ，Ｌｅａｒｎｉｎｇｔｏｉｄｅｎｔｉｆｙａｎｄｔｒａｃｋｆａｃｅｓｉｎｉｍａｇｅｓｅｇｕｅｎｃｅｓ，ＰｒｏｃｏｆＦＧ’９８，２６０−５，１９９８）。
この補聴器１では、物体認識を行うときには、物体を示すパターンをモザイク化しておき、実際に撮像した画像とマッチングを取ることにより物体の識別を行う。そして、この補聴器１では、マッチングがとれた物体の動きベクトルを検出することで、物体の追尾を行う。これにより、物体から発せられる音声から生成される音声情報に対する認識が増す。この物体認識処理はＵｂｉｑｕｉｔｏｕｓＴａｌｋｅｒ（ＳｏｎｙＣＳＬ製）で用いられている技術を採用することができる（参考ＮａｇａｏＫａｎｄＲｅｋｉｍｏｔｏＪ，ＵｂｉｑｕｉｔｏｕｓＴａｌｋｅｒ：Ｓｐｏｋｅｎｌａｎｇｕａｇｅｉｎｔｅｒａｃｔｉｏｎｗｉｔｈｒｅａｌｗｏｒｌｄｏｂｊｅｃｔｓ．Ｐｒｏｃ１４ｔｈＩＪＣＡＩ−９５，１２８４−９０，１９９５）。
更に、この補聴器１は、静止画撮像用デジタルカメラのようにシャッターを押すことで静止画を撮像しても良い。更に、カメラ機構２９は、動画像を生成して信号処理部２２に出力しても良い。このカメラ機構２９により動画像を撮像するときの信号方式としては、例えばＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）方式などを用いる。更にまた、この補聴器１に備えられるカメラ機構２９は、３Ｄ画像を撮像することで、話者や話者の***を撮像して表示部２６に表示させることで更に使用者の認識を向上させることができる。
このような補聴器１は、使用者自身の発した音声や相手の発した音声等及び／又はその場の情景を撮像した画像を記録し再生することで、言語学習にて復習が可能となり言語学習に役立てることができる。
また、この補聴器１によれば、画像を拡大処理等して表示部２６に表示することで相手を確認し全体の雰囲気をつかめ音声聴取の正確さが向上し、更に読唇（ｌｉｐｒｅａｄｉｎｇ）を行うことが可能となり認識を上昇させる。
更にまた、この補聴器１は、例えばスイッチ機構が設けられており、マイクロホン２１で検出した音声をスピーカ部２５により出力するか、カメラ機構２９により撮像した画等像を表示部２６により出力するか、又は音声及び画像の双方を出力するかを使用者により制御可能としても良い。このときスイッチ機構は、使用者に操作されることで、音声情報生成部２３から出力を制御する。
また例として、スイッチ機構は、使用者及び／又は使用者以外の音声を検出して、例えば「音声」という音声を検出したときにはマイクロホン２１で検出した音声をスピーカ部２５により出力するように切り換え、例えば「画像」という音声を検出したときにはカメラ機構２９により撮像した画等像を表示部２６により出力するように切り換え、「音声、画像」という音声を検出したときには音声及び画像の双方を出力するするように切り換えても良く、以上のような音声認識を用いたスイッチ制御機構を備えていても良い。また、ジェスチャーインターフェースを用いることで、ジェスチャー認識によるスイッチ制御システムとしても良い。
更にまた、このスイッチ機構は、カメラ機構２９のズーム状態等のパラメータを切り換えることでカメラ機構２９で画像を撮像するときの状態を切り換える機能を備えていても良い。
つぎに、この補聴器１において、音声情報生成部２３により作成した音声情報を出力する機構の種々の例について説明する。なお、本発明は、以下に説明する出力する機構に限られることはないことは勿論である。
すなわち、この補聴器１において、音声情報を出力する機構としてはスピーカ部２５や表示部２６に限らず、例えば骨導や皮膚刺激を利用したものであっても良い。この音声情報を出力する機構は、例えば小型磁石を鼓膜等に装着し、磁石を振動させるものであっても良い。
このような補聴器１は、例えば利用者の骨（側頭骨）に振動を与える骨導補聴器の骨導バイブレータシステムの振動板として圧挺板（参照ＳｕｇｉｕｃｈｉＴ，骨導補聴器の適応と効果ＪＯＨＮＳＶｏｌ１１Ｎｏ９，１３０４，１９９５）を備え、音声情報生成部２３により変換することにより得た信号を前記圧挺板に出力するようにしたものや、皮膚刺激を用いたタクタイルエイド（ＴａｃｔｉｌｅＡｉｄ）等の触覚による補償技術を利用したものであっても良く、これらの骨振動や皮膚刺激等を用いた技術を利用することで、音声情報生成部２３からの信号を使用者に伝達することができる。皮膚刺激を利用した補聴器１においては、音声情報生成部２３からの音声情報が入力されるタクタイルエイド用振動子アレイが備えられており、タクタイルエイドと当該振動子アレイを介してスピーカ部２５から出力する音声を出力しても良い。
また、上述した補聴器１の説明においては、音声情報を音声として出力するときの処理の一例について説明したが、これに限らず、例えば人工中耳により使用者に認識結果を提示するものであっても良い。すなわち、この補聴器１は、音声情報を電気信号としてコイル、振動子を介して使用者に提示しても良い。
更には、この補聴器１は、人工内耳機構を備え、人工内耳により使用者に認識結果を提示するものであっても良い。すなわち、この補聴器１は、例えば埋め込み電極、スピーチプロセッサ等からなる人工内耳システムに音声情報を電気信号として供給して使用者に提示しても良い。
更には、この補聴器１は、蝸牛神経核（延髄にある聴神経の接合部）に電極を接触させて当該電極を介して認識結果を使用者に供給する聴性脳幹インプラント（ＡｕｄｉｔｏｒｙＢｒａｉｎｓｔｅｍＩｍｐｌａｎｔ：ＡＢＩ）機構を備え、ＡＢＩにより使用者に音声情報を提示するものであっても良い。すなわち、この補聴器１は、例えば埋め込み電極、スピーチプロセッサ等からなるＡＢＩシステムに音声情報を電気信号として供給して使用者に提示しても良い。
更にまた、この補聴器１は、使用者の身体状態、利用状態及び使用目的に応じて、例えば超音波帯域の音声が認識可能な難聴者に対しては認識結果及び加工変換した認識結果を音声情報として超音波帯域の音声に変調・加工変換して出力しても良い。更にまた、この補聴器１は、超音波出力機構（ｂｏｎｅｃｏｎｄｕｃｔｉｏｎｕｌｔｒａｓｏｕｎｄ：ＨｏｓｏｉＨｅｔａｌＡｃｔｉｖａｔｉｏｎｏｆｔｈｅａｕｄｉｔｏｒｙｃｏｒｔｅｘｂｙｕｌｔｒａｓｏｕｎｄ．ＬａｎｃｅｔＦｅｂ１４３５１（９１０１）４９６・７，１９９８）を用いて超音波周波数帯域の信号を生成し、超音波振動子等を介して使用者に出力しても良い。
更にまた、この補聴器１は、骨伝導ユニット（耳珠を介しての骨導及び外耳道内壁を介しての気導）を使用して音声情報を使用者に提示しても良い（例聴覚障害者用ヘッドホンシステム −ライブホン−（日本電信電話製））。
更にまた、この補聴器１は、スピーカ部２５、表示部２６等の複数の出力手段を備える一例について説明したが、これらの出力手段を組み合わせて用いても良く、更には各出力手段を単独で出力しても良い。また、この補聴器１では、マイクロホン２１に入力した音声の音圧レベルを変化させる従来の補聴器の機能を用いて音声を出力するとともに、上述した他の出力手段で認識結果を提示しても良い。
更にまた、この補聴器１は、スピーカ部２５及び／又は表示部２６から出力する出力結果を同時に或いは時間差を持たせて出力してするように音声情報生成部部２３で制御するスイッチ機構を備えていても良く、複数回に亘って出力結果を出力するか一回に限って出力結果を出力するかを制御するスイッチ機構を備えていても良い。
また、この補聴器１の説明においては、図２に示したような一例について説明したが、入力された音声について上述した種々の加工変換処理を行って表示部２６に表示させる第１の処理を行うＣＰＵと、入力された音声について上述した種々の加工変換処理を行ってスピーカ部２５に出力結果を出力するための第２の処理を行うＣＰＵと、カメラ機構２９で撮像した画像を表示するための第３の処理を行うＣＰＵとを備えたものであっても良い。
このような補聴器１は、各処理を行うＣＰＵを独立に動作させて第１の処理又は第２の処理を行わせて出力させても良く、更には各処理を行うＣＰＵを同時に動作させて第１の処理、第２の処理、及び第３の処理を行わせて出力させても良く、更には、第１及び第２の処理、第１及び第３の処理又は第２及び第３の処理を行うＣＰＵを同時に動作させて出力させても良い。
更にまた、補聴器１は、使用者の身体状態、利用状態及び使用目的に応じて上述した種々の出力機構からの出力結果を同時に或いは時間差を持たせて出力してするように音声情報生成部２３で制御しても良い。
更に、この補聴器１は、複数のＣＰＵを有し、上述した複数のＣＰＵで行う第１〜第３処理のうち、少なくとも１の処理をひとつのＣＰＵで行うとともに、残りの処理を他のＣＰＵで行っても良い。
例えば、この補聴器１において、ひとつのＣＰＵが入力された音声を文字データとして加工変換を行って表示部２６に出力する処理（ｔｅｘｔｔｏｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ）を行うとともに、又はひとつのＣＰＵが入力された音声に対して文字データとして加工変換を行って他のＣＰＵが入力された同じ音声に対してＳＴＲＡＩＧＨＴ処理を行ったりしてスピーカ部２５に出力する処理を行い、他のＣＰＵが入力された音声に対してボコーダ処理のうち、例えばＳＴＲＡＩＧＨＴを用いた処理を行ってスピーカ部２５に出力する処理を行っても良い。すなわちこの補聴器１は、スピーカ部２５に出力する信号と、表示部２６に出力信号とで異なる処理を異なるＣＰＵにより行うものであっても良い。
更に、この補聴器１においては、上述した種々の加工変換処理を行って上述の種々の出力機構に出力する処理を行うＣＰＵを有するとともに、加工変換処理を施さないでマイクロホン２１に入力された音声を出力しても良い。
更に、この補聴器１においては、上述した種々の加工変換処理を行うためのＣＰＵと、他の加工変換処理を行うＣＰＵとを別個に備えていても良い。
更に、この補聴器１においては、上述のように認識結果や加工変換した認識結果や撮像した画像等について音声情報生成部２３で変換する処理を行うとともに、従来の電気人工喉頭等を用いた代用発声法と同様に音声を検出して得た電気信号を増幅させて音質調整、利得調整や圧縮調整等を行いスピーカ部２５に出力するものであっても良い。
なお、この補聴器１において、信号処理部２２及び音声情報生成部２３で行う処理を、例えばフーリエ変換、ボコーダ処理（ＳＴＲＡＩＧＨＴ等）の処理を組み合わせて適用することで、上述した処理を行っても良い。
また、本発明を適用した補聴器１では、個人的に使用する小型のタイプの補聴器について説明したが、集団で用いる大型のもの（卓上訓練用補聴器や集団訓練用補聴器）にも用いてもよい。
視覚への提示手段としてＨＭＤ、頭部結合型表示装置（Ｈｅａｄ−ｃｏｕｐｌｅｄｄｉｓｐｌａｙ）、人工眼（ｖｉｓｕａｌｐｒｏｓｔｈｅｓｉｓ／ａｒｔｉｆｉｃｉａｌｅｙｅ）があげられる。以下に例を示す（（ａ）〜（ｍ））。
（ａ）双眼式ＨＭＤ（左右眼毎に視差画像を提示し立体視を可能とするもの、左右眼双方に同じ画像を提示し見かけ上の大画面を与えるもの）
（ｂ）単眼式ＨＭＤ
（ｃ）シースルー型ＨＭＤ、主にＡＲを実現するものとしてＥｙｅ・ｔｈｒｏｕｇｈＨＭＤ（ＰｕｐｐｅｔＥｙｅｓ：ＡＴＲ）
（ｄ）視覚補助や視覚強調機能付きディスプレイ
（ｅ）眼鏡型の双眼望遠鏡（自動焦点機能付、バーチャルフィルター（Ｖｉｓｕａｌｆｉｌｔｅｒ）を用いる）
（ｆ）接眼部にコンタクトレンズを使用するシステム
（ｇ）網膜投影型（ＶｉｒｔｕａｌＲｅｔｉｎａｌＤｉｓｐｌａｙ、Ｒｅｔｉｎａｌｐｒｏｉｅｃｔｉｏｎｄｉｓｐｌａｙ、網膜投影型の中間型）
（ｈ）人工眼（ｖｉｓｕａｌｐｒｏｓｔｈｅｓｉｓ／ａｒｔｉｆｉｃｉａｌｅｙｅ）体外装着のカメラで周囲の情景をとらえ、画像処理（特徴抽出等）を施して画像データを作成し、体内埋め込みのＭＥＮＳ（Ｍｉｃｒｏ・ＥｌｅｃｔｒｉｃａｌＭｅｃｈａｎｉｃａｌｓｙｓｔｅｍ：電子回路を備えたマイクロマシン）へ無線・有線で画像データとＭＥＮＳ駆動用の電力を電送する。ＭＥＮＳは送られてきたデータに基づいて神経信号に似た電気パルス信号をつくりだし、その信号を刺激電極を通じて脳神経系へ伝える。人工眼にはＭＥＮＳを埋め込む場所によりｈ１〜ｈ４に分けられる。［ｈ１］脳内刺激型人工眼（ｃｏｒｔｉｃａｌｉｍｐｌａｎｔ：参照ＤｏｂｅｌｌｅＷｍＨ，Ａｒｔｉｆｉｃｉａｌｖｉｓｉｏｎｆｏｒｔｈｅｂｌｉｎｄｂｙｃｏｎｎｅｃｔｉｎｇａｔｅｌｅｖｉｓｉｏｎｃａｍｅｒｅｔｏｔｈｅｖｉｓｕａｌｃｏｒｔｅｘ．ＡＳＡＩＯＪ２０００；４６，３・９）［ｈ２］網膜刺激型人工眼（ＳｕｂｏｒＥｐｉ・ｒｅｔｉｎａｌｉｍｐｌａｎｔ：参照ＲｉｚｚｏＪＦｅｔａｌ．ＤｅｖｅｌｏｐｍｅｎｔｏｆａｎＥｐｉｒｅｔｉｎａｌＥｌｅｃｔｒｏｎｉｃＶｉｓｕａｌＰｒｏｓｔｈｅｓｉｓＨａｒｖａｒｄ・ＭｅｄＭＩＴＲｅｓＰｒｏｇｒａｍ．ｉｎＲｅｔｉｎａｌＤｅｇｅｎｅｒａｔｉｖｅＤｉｓｅａｓｅｓａｎｄＥｘｐｅｒｉｍｅｎｔａｌＴｈｅｏｒｙＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｌｅｎｕｍＰｕｂｌｉｓｈｅｒｓ，４６３・７０１９９９）、［ｈ２］視神経刺激型人工眼（ｏｐｔｉｃｎｅｒｖｅｉｍｐｌａｎｔ：参照ＭｉｃｒｏｓｙｓｔｅｍｓｂａｓｅｄｖｉｓｕａｌｐｒｏｔｈｅｓｉｓＭＩＶＩＰ（ＣａｔｈｏｌｉｑｕｅＵｎｉｖＳｃｉＡｐｐｌｉｑｕｅｅｓＭｉｃｒｏｅｌｅｃｔｏｎｉｃｓＬａｂ）、［ｈ４］ハイブリッド型人工網膜（ｈｙｂｒｉｄｒｅｔｉｎａｌｉｍｐｌａｎｔ：細胞培養＋網膜刺激型人工眼ＮａｇｏｙａＵｎｉｖ）がある。
（ｉ）視線入力機能付きＨＭＤ（ＨＡＱ−２００（島津製作所製）
（ｊ）頭部以外（耳、全身、首、肩、顔面、眼、腕、手、眼鏡等）にマウントするディスプレイ
（ｋ）立体ディスプレイ（投影式オブジェクト指向型ディスプレイ（参照ｈｅａｄ−ｍｏｕｎｔｅｄｐｒｏｊｅｃｔｏｒ：ＩｉｎａｍｉＭｅｔａｌ．，Ｈｅａｄ−ｍｏｕｎｔｅｄｐｒｏｊｅｃｔｏｒ（ＩＩ）−ｉｍｐｌｅｍｅｎｔａｔｉｏｎＰｒｏｃ４ｔｈＡｎｎＣｏｎｆＯｆＶｉｒｔｕａｌＲｅａｌｉｔｙＳｏｃｉｅｔｙｏｆＪａｐａｎ５９−６２，１９９９）、リンク式の立体ディスプレイ）
（ｌ）大画面ディスプレイ（ｓｐａｔｉａｌｉｍｍｎｅｒｓｉｖｅｄｉｓｐｌａｙ）（例ｏｍｎｉｍａｘ、ＣＡＶＥ（参照Ｃｒｕｚ−ＮｅｉｒａＣｅｔａｌ．Ｓｕｒｒｏｕｎｄｅｄ−ｓｃｒｅｅｎｐｒｏｊｅｃｔｉｏｎ−ｂａｓｅｄｖｉｒｔｕａｌｒｅａｌｉｔｙ：ＴｈｅｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｔｈｅＣＡＶＥ，ＰｒｏｃｏｆＳＩＧＧＲＡＰＨ’９３，１３５−４２，１９９３）、ＣＡＶＥ型立体映像表示装置（ＣＡＢＩＮ：参照ＨｉｒｏｓｅＭｅｔａｌ．ＩＥＩＣＥｔｒａｎｓＶｏｌＪ８１ＤＩＩＮｏ５，８８８−９６，１９９８）、小型超広視野ディスプレイ（投影ディスプレイ（例：ＣＡＶＥ）及びＨＭＤ参照ＥｎｄｏＴｅｔａｌ．Ｕｌｔｒａｗｉｄｅｆｉｅｌｄｏｆｖｉｅｗｃｏｍｐａｃｔｄｉｓｐｌａｙ．Ｐｒｏｃ４ｔｈＡｎｎＣｏｎｆｏｆＶｉｒｔｕａｌＲｅａｌｉｔｙＳｏｃｉｅｔｙｏｆＪａｐａｎ，５５−５８，１９９９）、アーチスクリーン）
（ｍ）その他アプトン眼鏡（Ｕｐｔｏｎｅｙｅｇｌａｓｓ）のディスプレイシステム、サングラスの機能付きディスプレイ
特に大画面ディスプレイは大型補聴器として用いるときに使用してもよい。また、上述した補聴器１では、音の再現方法としてバイノーラル方式を使用してもよい（３Ｄ音響システムはＨｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎを用いた空間音源定位システムを用いる：例Ｃｏｎｖｏｌｖｏｔｒｏｎ＆ＡｃｏｕｓｔｅｔｒｏｎＩＩ（ＣｒｙｓｔａｌＲｉｖｅｒＥｎｇｉｎｅｅｒｉｎｇ）；ダイナミック型ドライバユニットとエレクトレットマイクロフォンを使用した補聴器ＴＥ−Ｈ５０（Ｓｏｎｙ））。実際と近い音場をつくったり、トランスオーラル方式（トラッキング機能付きのトランスオーラル方式が３Ｄ映像再現におけるＣＡＶＥに対応する）を用いたりするものは主に大型の補聴器システムの場合に用いるのが好ましい。
更にまた、上述のＨＭＤ２は、頭頂部に３次元位置検出センサーを備えていても良い。このようなＨＭＤ２を備えた補聴器１では、使用者の頭の動きに合わせてディスプレイ表示を変化させることが可能となる。
強調現実感（Ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ：ＡＲ）を利用した補聴器１では、使用者の動作に関するセンサを備え、センサで検出した情報、マイクロホン２１で検出し音声情報生成部２３で生成した音声情報とを用いることで、ＡＲを生成する。音声情報生成部２３は、種々のセンサシステムとＶＲ形成システムを統合するシステムとディスプレイシステムによりなるバーチャルリアリティ（Ｖｉｒｔｕａｌｒｅａｌｉｔｙ：ＶＲ）システムとを協調的に用いることにより、実空間にＶＲを適切に重畳することで、現実感を強調するＡＲをつくることが可能となる。これにより補聴器１では視覚ディスプレイを用いるときに、顔面部にある画像からの情報を、情報が来るたびに大幅に視線をはずすことなく、ただ画像が目の前にあるだけでなく、画像情報が、いかにもそこにあるように自然に受けいれるようになり自然な状態で視覚からの情報を受け取ることが可能となる。以上を実行するには以下のシステムがある。
このような補聴器１は、図７に示すように、ＡＲを形成するためには、仮想環境映像生成のための３Ｄグラフィックアクセラレータを音声情報生成部２３の内部に搭載することでコンピュータグラフィックスの立体視が可能な構成とし、更に無線通信システムを搭載する。この補聴器１に使用者の位置と姿勢の情報を取得するため、センサ３１として頭部に小型ジャイロセンサ（データテックＧＵ−３０１１）を、使用者の腰に加速度センサ（データテックＧＵ−３０１２）を接続する。以上のセンサ３１からの情報を音声情報生成部２３で処理を行った後、使用者の右・左目に対応するスキャンコンバータ３２ａ、３２ｂで処理をして表示部２６に映像が行くというシステムを用いることで可能となる（参照ＢａｎＹｅｔａｌ，Ｍａｎｕａｌ−ｌｅｓｓｏｐｅｒａｔｉｏｎｗｉｔｈｗｅａｒａｂｌｅａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙｓｙｓｔｅｍ．Ｐｒｏｃ３ｔｈＡｎｎＣｏｎｆｏｆＶｉｒｔｕａｌＲｅａｌｉｔｙｓｏｃｉｅｔｙｏｆＪａｐａｎ，３１３−４，１９９８）。
以下の方法でもＡＲ実現可能である。カメラからの映像（ｖｉｄｅｏｓｔｒｅａｍｆｒｏｍｃａｍｅｒａ）よりマーカーをサーチ（ｓｅａｒｃｈｆｏｒｍａｒｋｅｒ）、マーカの３Ｄ位置・方向をみつけ（ｆｉｎｄｍａｒｋｅｒ３Ｄｐｏｓｉｔｉｏｎａｎｄｏｒｉｅｎｔａｔｉｏｎ）、マーカを確認（ｉｄｅｎｔｉｆｙｍａｒｉｋｅｒｓ）、ポジションとオブジェクトのポジションを決め（ｐｏｓｉｔｉｏｎａｎｄｏｒｉｅｎｔｏｂｉｅｃｔｓ）、ビデオでの３Ｄオブジェクトを生成し（ｒｅｎｄｅｒ３Ｄｏｂｊｅｃｔｓｉｎｖｉｄｅｏｆｒａｍｅ）、ビデオ映像をＨＭＤに出力する（ｖｉｄｅｏｓｔｒｅａｍｔｏｔｈｅＨＭＤ）：Ｉｎｔｅｇｒａｔｉｎｇｒｅａｌａｎｄｖｉｒｔｕａｌｗｏｒｌｄｓｉｎｓｈａｒｅｄｓｐａｃｅ．ＡＴＲＭＩＣＬａｂｓａｎｄＨＩＴＬａｂ，ＵｎｉｖｏｆＷａｓｈｉｎｇｔｏｎ））。
また、この補聴器１では、センサ３１に加えて状況認識システム（例：ＵｂｉｑｕｉｔｏｕｓＴａｌｋｏｒ（ＳｏｎｙＣＳＬ））とＶＲシステムを形成する他のシステムである以下の種々のセンサシステムとＶＲ形成システムを統合するシステムとディスプレイシステム、及び、この補聴器１とを協調的に用いることにより、ＡＲを強化することも可能であり、マルチモダリティを用いて音声情報を補足可能となる。
このようなＶＲ・ＡＲ等の空間を形成するには、先ず、使用者がセンサ３１に本人から情報を送り、その情報がＶＲ形成システムを統合するシステムに送られ、ディスプレイシステムから使用者に情報が送られることで実現する。
センサ３１（情報入力システム）として以下のデバイスがある。
特に人体の動きの取り込みや、空間に作用するデバイスとして光学式３次元・位置センサ（ＥｘｐｅｒｔＶｉｓｉｏｎＨｉＲＥＳ＆ＦａｃｅＴｒａｃｋｅｒ（ＭｏｔｉｏｎＡｎａｌｙｓｉｓ））、磁気式３次元位置センサ（ＩｎｓｉｄｅＴｒａｃｋ（Ｐｏｌｈｅｍｕｓ）、３ＳＰＡＣＥｓｙｓｔｅｍ（ＰＯＬＨＥＭＵＳ）、Ｂｉｒｄ（ＡｓｃｅｎｓｉｏｎＴｅｃｈ））、機械式３Ｄディジタイザ（ＭｉｃｒｏＳｃｒｉｂｅ３ＤＥｘｔｒａ（Ｉｍｍｅｒｓｉｏｎ））、磁気式３Ｄディジタイザ（Ｍｏｄｅｌ３５０（Ｐｏｌｈｅｍｕｓ））、音波式３Ｄデイジタイザ（ＳｏｎｉｃＤｉｇｉｔｉｚｅｒ（ＳｃｉｅｎｃｅＡｃｃｅｓｓｏｒｉｅｓ））、光学式３Ｄスキャナー（３ＤＬａｓｅｒＳｃａｎｎｅｒ（アステックス））、生体センサ（体内の電気で測る）サイバーフィンガー（ＮＴＴヒューマンインタフェース研究所）、手袋型デバイス（ＤｅｔａＧｌｏｖｅ（ＶＰＬＲｅｓ），ＳｕｐｅｒＧｌｏｖｅ（日商エレクトロニクス）ＣｙｂｅｒＧｌｏｖｅ（ＶｉｒｔｕａｌＴｅｃｈ））、フォースフィードバック（ＨａｐｔｉｃＭａｓｔｅｒ（日商エレクトロニクス）、ＰＨＡＮＴｏＭ（ＳｅｎｓＡｂｌｅＤｅｖｉｃｅｓ））、３Ｄマウス（ＳｐａｃｅＣｏｎｔｒｏｌｌｅｒ（Ｌｏｇｉｔｅｃｈ））、視線センサ（眼球運動分析装置（ＡＴＲ視聴覚機構研究所製））、体全体の動きの計測に関するシステム（ＤａｔｅＳｕｉｔ（ＶＰＬＲｅｓ））、モーションキャプチャーシステム（ＨｉＲＥＳ（ＭｏｔｉｏｎＡｎａｌｙｓｉｓ））、加速度センサ（三次元半導体加速度センサ（ＮＥＣ製））、視線入力機能付きＨＭＤ、ポジショニングシステム（例ＧＰＳ）を用いても良い。
また、ＶＲ・ＡＲを実現するためには、表示部２６のみならず、触覚を利用した触覚ディスプレイ、触圧ディスプレイ、力覚ディスプレイ、嗅覚ディスプレイを用いても良い。触覚ディスプレイにより音声を触覚により伝え、聴覚だけでなく触覚をも加えることで音声の認識をあげことが可能となる。この触覚ディスプレイとしては、例えば振動子アレイ（オプタコンや触覚マウス、タクチュアルボコーダ等）、触知ピンアレイ（ペーパーレスブレイル等）などが使用可能である。他にｗａｔｅｒｊｅｔ、ａｉｒｊｅｔ．ＰＨＡＮＴｏＭ（ＳｅｎｓＡｂｌｅＤｅｖｉｃｅｓ）、ＨａｐｔｉｃＭａｓｔｅｒ（日商エレクトロニクス）などがある。具体的には、補聴器１は、ＶＲな空間でＶＲキーボードを表示し、信号処理部２２及び音声情報生成部２３での処理をＶＲキーボードまたはＶＲスイッチにより制御する。これにより、わざわざキーボードを用意したり、スイッチまで手を伸ばしたりすることが無くなり、使用者の操作を楽にし、耳に装着するのみの補聴器と近い装用感を得ることができる。
前庭感覚ディスプレイとしては、ウオッシュアウトとウオッシュバックにより狭い動作範囲の装置でも多様な加速度表現ができるシステム（例：モーションベット）が使用可能である。
前庭刺激による音像の知覚の誤りの報告（ＩｓｈｉｄａＹｅｔａｌ，移動音像の知覚と平衡感覚の相互作用．日本音響学会聴覚研究会Ｈ−９５（６３）１−８，１９９５）より前庭刺激がきこえに影響を与えることがわかり、前庭感覚ディスプレイも聴覚を補償するものと考えられる。
嗅覚ディスプレイとしては、文献「ＨｉｒｏｓｅＭｅｔａｌ嗅覚ディスプレイに関する研究日本機会学会第７５期通常総会講演会講演論文集，４３３−４（１９９８．４）」、嗅覚センサーシステム（島津製作所製）で採用されている技術が使用可能である。
また、この補聴器１では、音声・画像に関する以外のセンサによる情報を認識し画像に提示するシステム（例：手話通訳プロトタイプシステムを用いても良い。この補聴器１では、例えばデータグローブ（ＶＰＬＲｅｓ）よりの手話の入力情報を手話単語標準パターンに基づく手話単語認識処理にて認識し単語辞書文書化ルールに基づく文章変換部で処理された情報をディスプレイに表示する（日立）を用いてもよい。
ＶＲシステムを統合するシステムとしては、以下のものがあり、それら限定されることはないが、Ｃ、Ｃ＋＋のライブラリとして供給され、表示とそのデータベース、デバイス入力、干渉計算、イベント管理等をサポートし、アプリケーションの部分は使用者がライブラリを使用してプログラミングするものや、ユーザプログラミングを必要とせずデータベースやイベント設定をアプリケーションツールで行い、そのままＶＲシュミレーションを実行するシステム等を使用してもよい。またこの補聴器１に関する個々のシステム間を通信にて繋げてもよい。また、状況を高臨場感を保って伝送するのに広帯域の通信路を使用しても良い。また、補聴器１では、３Ｄコンピュータグラフィックスの分野で用いられている以下の技術を用いてもよい。現実に起こり得ることを忠実に画像として提示し、非現実的な空間を作り、実際には不可能なことも画像として提示することがコンセプトとなる。この補聴器１は、例えば複雑で精密なモデルを作るモデリング技術（ワイヤーフレームモデリング、サーフェスモデリング、ソリッドモデリング、ベジエ曲線、Ｂ−スプライン曲線、ＮＵＲＢＳ曲線、ブール演算（ブーリアン演算）、自由形状変形、自由形状モデリング、パーティクル、スイープ、フィレット、ロフティング、メタボール等）、質感や陰影をつけリアルな物体を追求するためのレンダリング技術（シェーディング、テクスチュアマッピング、レンダリングアルゴリズム、モーションブラー、アンチエリアシング、デプスキューイング）をする。また、補聴器１は、作成したモデルを動かし、現実の世界をシミュレーションするためのアニメーション技術としてはキーフレーム法、インバースキネマティクス、モーフィング、シュリンクラップアニメーション、αチャンネルを用いる。３Ｄコンピュータグラフィックスでは、以上のモデリング技術、レンダリング技術、アニメーション技術により可能となる。サウンドレンダリングとして以下に記載されている技術を用いても良い（ＴａｋａｌａＴ，ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ（ＰｒｏｃＳＩＧＧＲＡＰＨ１９９２）Ｖｏｌ２６，Ｎｏ２，２１１−２０）。
このようなＶＲシステムを統合するシステムとして、以下のシステム（ＤｉｖｉｓｉｏｎＩｎｃ：ＶＲランタイムソフトウェア［ｄＶＳ］，ＶＲ空間構築ソフトウェア［ｄＶＩＳＥ］，ＶＲ開発用ライブラリ［ＶＣＴｏｏｌｋｉｔ］ＳＥＮＳＥ８；ＷｏｒｌｄＴｏｏｌＫｉｔ，ＷｏｒｌｄＵｐＳｕｐｅｒｓｃａｐｅ；ＶＲＴＳｏｌｉｄｒａｙ；ＲｅａｌＭａｓｔｅｒモデルなしのＶＲの生成（参照ＨｉｒｏｓｅＭｅｔａｌ．Ａｓｔｕｄｙｏｆｉｍａｇｅｅｄｉｔｉｎｇｔｅｃｈｆｏｒｓｙｎｔｈｅｔｉｃｓｅｎｓａｔｉｏｎ．ＰｒｏｃＩＣＡＴ’９４，６３−７０，１９９４））がある。
また、補聴器１は、表示部２６に表示して音声認識結果、加工変換結果を提示する場合のみならず、プリンタ装置と接続することで、音声認識結果、加工変換結果を印刷紙で提示しても良く、更に、利用者の音声の認識を向上させることができる。
また、本実施の形態では、ＨＭＤ２と、コンピュータ部３との間を光ファイバーケーブル４で接続してなる携帯型の補聴器１について説明したが、ＨＭＤ２とコンピュータ部３との間をワイヤレスとし、ＨＭＤ２とコンピュータ部３との間を無線（Ｂｌｕｅｔｏｏｔｈ２．４ＧＨｚ帯の電波を周波数ホッピングさせながら送受信）や赤外線を用いた信号伝送方式等により情報の送受信を行っても良い。
更に、この補聴器１においては、ＨＭＤ２とコンピュータ部３との間をワイヤレスとする場合のみならず、図２に示した各部が行う機能毎に分割して複数の装置とし、各装置間をワイヤレスとしても良く、少なくともコンピュータ部３を使用者に装着させずにＨＭＤ２と情報の送受信を行っても良い。更にまた、この補聴器１においては、使用者の身体状態、利用状態、使用目的に応じて、図２に示した各部が行う機能毎に分割して複数の装置とし、各装置間をワイヤレスとしても良い。これにより、補聴器１は、使用者が装着する装置の重量、体積を軽減し、使用者の身体の自由度を向上させ、使用者の認識を更に向上させることができる。
また、補聴器１では、通信回路２７を介して信号処理部２２及び音声情報生成部２３で行う処理の制御及びバージョンアップ（例ウイルスソフト）、修理、オペレーションセンターとの連携（操作方法、クレーム処理等）等をしても良い。
すなわち、通信回路２７は、外部の信号処理サーバと接続され、マイクロホン２１、信号処理部２２又は音声情報生成部２３で生成した信号や音声情報を信号処理サーバ送信することで、信号処理サーバで所定の信号処理が施された音声信号や音声情報を得ることができる。このような通信回路２７を備えた補聴器１では、上述した信号処理部２２、音声情報生成部２３で行う認識処理や加工変換処理を外部の信号処理サーバに行わせることで、内部での処理内容を削減することができる。また、この補聴器１によれば、外部の信号処理サーバで利用者の身体状態、使用状態及び使用目的に基づいて、信号処理部２２や音声情報生成部２３では行わない処理を実行させることにより、更に利用者の音声の認識を向上させることができる。
更に、この補聴器１では、信号処理部２２や音声情報生成部２３で使用する記憶部２４に記憶された画像データを外部のサーバからダウンロードすることにより、記憶部２４に多量の画像データが格納されていなくても、様々な種類の画像を表示部２６に表示するととができる。従って、このような通信回路２７を備えた補聴器１によれば、認識結果を加工変換した結果を示す画像の種類を多くすることができ、更に利用者の音声の認識を向上させることができる。
このように、補聴器１では、外部のサーバに処理を行わせるとともに、外部のサーバに処理に必要なデータを記憶させることで、装置の小型化を図ることができ、装着性、携帯性を向上させることができる。
更に、この補聴器１では、利用者の身体状態、使用状態及び使用目的に基づいて、外部のサーバから予め信号処理部２２や音声情報生成部２３に設定されていた処理内容とは異なる処理内容を示すプログラムをダウンロードすることにより、利用者に応じた処理を信号処理部２２及び音声情報生成部２３で施すことができ、更に利用者の音声の認識を向上させることができる。
また、この補聴器１では、通信回路２７に通信するための信号が検出されず通信を行うことができないときには、自動的に通信を用いた処理ではない方法で上述の処理をし、通信が可能であるときには自動的に通信を用いた処理方法で上述の処理してもよい。
通信回路２７と接続する外部のネットワークとしては、例えば、インターネットを通じたＡＳＰ（ａｐｐｌｉｃａｔｉｏｎｓｅｒｖｉｃｅｐｒｏｖｉｄｅｒ）やデータセンター、ＡＳＰを利用する場合ＶＰＮ（ｖｉｒｔｕａｌｐｒｉｖａｔｅｎｅｔｗｏｒｋ）、ＣＳＰ（ｃｏｍｍｅｒｃｅｓｅｒｖｉｃｅｐｒｏｖｉｄｅｒ）にも使用してもよい。
更に、補聴器１と外部のネットワークとの間で音声情報を送受信するときには、例えば音声をインターネット上で伝送するＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩＰ）、音声をフレームリレー網上で伝送するＶｏＦＲ（ＶｏｉｃｅｏｖｅｒＦＲ）、音声をＡＴＭネットワーク網上で伝送するＶｏＡＴＭ（ＶｏｉｃｅｏｖｅｒＡＴＭ）技術を用いる。
また、この補聴器１は、図示しない外部入出力端子を備え、外部装置に音声データを出力して外部装置に信号処理部２２や音声情報生成部２３で行う処理を実行させることや、外部装置から信号処理部２２や音声情報生成部２３での処理に必要なデータを取り込む処理等を行っても良い。
このような補聴器１は、身体状態、使用状態及び使用目的に基づいて、信号処理部２２や音声情報生成部２３では行わない処理を外部装置に実行させることにより、更に利用者の音声の認識を向上させることができる。
また、補聴器１によれば、外部装置からデータを読み出すことで、認識結果を加工変換した結果を示す画像の種類を多くすることができ、更に利用者の音声の認識を向上させることができる。
更に補聴器１では、外部装置に処理を行わせるとともに、外部装置に処理に必要なデータを記憶させることで、装置の小型化を図ることができ、装着性、携帯性を向上させることができる。
更にまた、補聴器１では、利用者の身体状態、使用状態及び使用目的に基づいて、外部装置から予め信号処理部２２や音声情報生成部２３に設定されていた処理内容とは異なる処理内容を示すプログラムを取り込むすることにより、利用者に応じた処理を信号処理部２２及び音声情報生成部２３で施すことができ、更に利用者の音声の認識を向上させることができる。
また、本発明を適用した補聴器１によれば、合成した音声を表示することで使用者に提示することができるので、以下の分野にて使用可能である。
主に難聴者や言語障害者の仕事の支援として、事務作業、（ウェアブルコンピュータとして）、認証業務、音声言語訓練、会議、応対業務（電話やインターネット等による）、番組製作（アニメーション、実写映像、ニュース、音楽制作）、宇宙空間での作業、運輸（宇宙船や飛行機のパイロット）、ＶＲとＡＲとを用いた種々のシミュレーション作業（遠隔手術（マイクロサージュリー等）、調査（マーケティング等）、軍事等、デザイン分野、在宅勤務、悪条件（騒音下等）での作業業務（建築現場、工場等）、仕分け業務等に使用可能である。
また、この補聴器１によれば、主に難聴者や言語障害者の生活支援として、医療現場（プライマリーケア、診察、検査（聴力検査等）、看護業務、在宅ケア、介護業務介護学校での業務、医療補助業務、産業医学業務（メンタルヘルス等）、治療（内科、疾病）、脳幹障害による聴覚障害（ｂｒａｉｎｓｔｅｍｄｅａｆｎｅｓｓ）、聴皮質・聴放線障害による聴覚障害（ｄｅａｆｎｅｓｓｄｕｅｔｏａｕｄｉｔｏｒｙｃｏｒｔｅｘａｎｄｓｕｂｃｏｒｔｉｃａｌｌｅｓｉｏｎ）、言語障害（失語症ａｐｈａｓｉａ等）の訓練や介護にも有用であり、外国語学習、娯楽（通信機能付きテレビゲーム）、個人用ホームシアター、観戦（コンサートや試合等）、選手の試合時や練習時での選手同士や選手とコーチ間の意志疎通や情報変換）、カーナビゲーションシステム、教育、情報家電との連携、通信（自動翻訳電話、電子商取引、ＡＳＰ・ＣＳＰ、オンラインショッピング、電子マネー・電子ウォレット・デビットカード等を用いたもの、決済及び証券・銀行業務（為替、デリバティブ等））、コミュニケーション（音声言語障害者、重病患者、重度身体障害者に対する））、娯楽（アミューズメントパーク等におけるＦｉｓｈ・ｔａｎｋＶＲｄｉｓｐｌａｙ、裸眼立体視システム、テレイグジスタンス視覚システムなどを用いたＶＲやＡＲや、テレエグシスタンスやアールキューブを利用した物、政治（選挙等への参加）、トレーニングスポーツ（レース（自動車やヨット等）、冒険（山や海等）、旅行、会場の閲覧、買い物、宗教、超音波（ソナーＳＯＮＡＲ）を用いたもの、ホームスクール、ホームセキュリティ、デジタル音楽・新聞・書籍サービス・装置との接続（例ＡｕｄｉｂｌｅＰｌａｙｅｒ、ｍｏｂｉｌｅｐｌａｙｅｒ（ＡｕｄｉｂｌｅＩｎｃ））、相互データ通信テレビ、電子商取引（ＥＣｅｌｅｃｔｒｉｃｃｏｍｍｅｒｃｅ）、データ通信可能なＴＶ電話への接続、ＰＤＡ（携帯情報端末）との接続（例：Ｖ・ｐｈｏｎｅｔＴｉｅｔｅｃｈＣｏ．）、広告、調理、手話への利用（例：手話通訳・生成システム・手話アニメーションソフトＭｉｍｅｈａｎｄ（ＨＩＴＡＣＨＩ）との利用）水中（ダイビングでの水中会話及び意志疎通等）の分野に使用可能である。
さらに、この補聴器１には、記憶部２４に通常のパーソナルコンピュータで行うような処理（文書作成、画像処理、インターネット、電子メール）を示すアプリケーションプログラムを格納して実行しても良い。
産業上の利用可能性
以上詳細に説明したように、本発明に係る音声変換装置は、音声を音響電気変換手段で検出し認識手段で音声認識処理をして得た認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換する変換手段を備え、更に認識結果及び／又は認識結果を変換手段により加工変換した認識結果を使用者の身体状態等に応じて出力手段から出力することができるので、音声のみならず、音声の意味内容を示す情報を例えば図柄等として表示することができ、音声のみならず画像を利用して利用者の聴覚を補償することができる。
本発明に係る音声変換方法は、音声を検出して音声信号を生成し、音響電気変換手段からの音声信号を用いて音声認識処理を行い、認識結果を使用者の身体状態、利用状態及び使用目的に応じて加工変換して、使用者の身体状態等に応じて認識結果を出力することができるので、音声のみならず、音声の意味内容を示す情報を例えば図柄等として表示することができ、音声のみならず画像を利用して利用者の聴覚を補償することができる。
【図面の簡単な説明】
図１は、本発明を適用した補聴器の外観の一例を示す斜視図である。
図２は、本発明を適用した補聴器の構成を示すブロック図である。
図３は、本発明を適用した補聴器の表示部で認識結果及び加工変換結果を表示する一例を説明するための図である。
図４は、本発明を適用した補聴器の表示部で加工変換結果を表示する一例を説明するための図である。
図５は、本発明を適用した補聴器の表示部で認識結果及び加工変換結果を表示する他の一例を説明するための図である。
図６Ａは所定の音量でマイクロホンに音声が入力されたときに表示部に表示する図柄を示す図であり、図６Ｂは上記所定の容量よりも小さい音量でマイクロホンに音声が入力されたときに表示部に表示する図柄を示す図である。
図７は、本発明を適用した補聴器でオーグメント・リアリティ（ＡｕｇｕｍｅｎｔｅｄＲｅａｌｉｔｙ：ＡＲ）を作るための構成を示すブロック図である。

Claims

入力音声を検出して音声信号を生成する音響電気変換手段と、
前記音響電気変換手段からの前記音声信号を用いて、使用者の身体状態、利用状態及び使用目的に応じて音声認識処理を行う信号処理手段と、前記信号処理手段からの認識結果を用いて音声情報を生成する情報生成手段とを含むコンピュータ部と、
前記情報生成手段からの前記音声情報を前記使用者に提示する出力手段であって、前記音声情報を画像として表示する表示手段と音声として出力する電気音響変換手段とを備える出力手段と、
前記音響電気変換手段、前記表示手段、前記電気音響変換手段及び前記コンピュータ部を使用者に装着するための手段と、
前記音響電気変換手段、前記表示手段及び前記電気音響変換手段を前記コンピュータ部と電気的に接続するための接続手段と、
を具備し、
前記音響電気変換手段は、音声言語障害を有して発せられた音声を検出して音声信号を生成し、
前記情報生成手段は、音声言語障害を有しないで発せられた音声を予めサンプリングすることで生成した音声データを記憶する記憶手段と、前記信号処理手段からの認識結果に基づいて、前記記憶手段に記憶された音声データを用いて出力する音声を示す音声情報を生成する音声情報生成手段とを備える
ことを特徴とする音声変換装置。
使用者の身体状態、利用状態及び使用目的に応じて認識結果を提示する音声変換装置であって、
入力音声を検出して音声信号を生成する音響電気変換手段と、
前記音響電気変換手段からの前記音声信号を用いて、使用者の身体状態、利用状態及び使用目的に応じて音声認識処理を行う信号処理手段と、前記信号処理手段からの認識結果を用いて音声情報を生成する情報生成手段とを含むコンピュータ部と、
前記情報生成手段からの前記音声情報を前記使用者に提示する出力手段であって、前記音声情報を画像として表示する表示手段と、音声として出力する電気音響変換手段とを備える出力手段と、
前記音響電気変換手段と前記出力手段とを前記コンピュータ部に電気的に接続するための接続手段と、
を具備し、
前記音響電気変換手段は、音声言語障害を有して発せられた音声を検出して音声信号を生成し、
前記情報生成手段は、音声言語障害を有しないで発せられた音声を予めサンプリングすることで生成した音声データを記憶する記憶手段と、前記信号処理手段からの認識結果に基づいて、前記記憶手段に記憶された音声データを用いて出力する音声を示す音声情報を生成する音声情報生成手段とを備える
ことを特徴とする音声変換装置。
前記記憶手段は、更に、前記表示手段に表示する画像を示すデータを格納しており、
前記信号処理手段により認識された結果及び／又は前記情報生成手段からの認識結果に基づいて、前記情報生成手段が、前記記憶手段に格納された前記データを読み出し、読み出された前記データが示す画像を前記表示手段に表示させる
ことを特徴とする、請求項１又は２に記載の音声変換装置。
前記情報生成手段が、前記信号処理手段により認識された音声の音量に応じて、異なる大きさの図柄を前記記憶手段から読み出して前記表示手段に表示させることを特徴とする、請求項３に記載の音声変換装置。
前記情報生成手段は、使用者及び／又は使用者以外の者から発せられる音声を前記表示手段に表示させるとともに、使用者及び／又は使用者以外の者から発せられる音声の音圧レベルを増幅して前記電気音響変換手段から音声として出力させることを特徴とする、請求項１又は２に記載の音声変換装置。
前記情報生成手段は、前記信号処理手段での認識結果に応じて、前記音響電気変換手段で検出した音声の意味内容を前記表示手段に表示させることを特徴とする、請求項１又は２に記載の音声変換装置。
通信回線を通じて音声を前記信号処理手段に入力するとともに、前記出力手段からの画像と音声を前記通信回線に出力する通信手段を更に備えることを特徴とする、請求項１又は２に記載の音声変換装置。
前記信号処理手段は、前記音響電気変換手段からの音声について話者認識処理を行って各話者に対応した認識結果を生成し、
前記出力手段は、各話者に関する情報を使用者に提示する
ことを特徴とする、請求項１又は２に記載の音声変換装置。
画像を撮像する撮像手段を更に備え、
前記撮像手段は、撮像した画像を少なくとも前記表示手段に出力する
ことを特徴とする、請求項１又は２に記載の音声変換装置．
前記撮像手段は、使用目的に応じて、撮像した画像について画像変換処理を施して前記表示手段に出力することを特徴とする、請求項９に記載の音声変換装置。
前記撮像手段は、使用者に対して着脱自在となされていることを特徴とする、請求項８に記載の音声変換装置。
前記通信手段が、外部ネットワークに含まれる外部機器と接続されることを特徴とする、請求項１又は２に記載の音声変換装置。
前記通信手段は、前記音響電気変換手段で生成した音声信号及び／又は前記信号処理手段からの認識結果を前記外部機器に出力することができ、前記外部機器からの音声認識結果を受け取ることができることを特徴とする、請求項１２に記載の音声変換装置。
前記通信手段は、前記信号処理手段及び／又は前記情報生成手段の処理内容を変更するプログラムを前記外部機器から受信し、
前記信号処理手段及び／又は前記情報生成手段は、前記通信手段で受信した前記プログラムに基づいて動作する
ことを特徴とする、請求項１２に記載の音声変換装置。
前記情報生成手段は、前記信号処理手段からの認識結果を同時に又は時間差を持たせて前記出力手段から出力させることを特徴とする、請求項１又は２に記載の音声変換装置。
前記接続手段が無線接続手段であることを特徴とする、請求項１又は２に記載の音声変換装置。
前記音響電気変換手段は、音声言語障害を有して発せられた音声を、補助的手段と代用発声法とのうちの何れか一つを用いて是正された音声として検出して音声信号を生成することを特徴とする、請求項１又は２に記載の音声変換装置。
使用者の動作に関するセンサを更に備え、
前記出力手段は、前記センサで検出した情報と前記情報生成手段からの音声情報とに基づいて仮想現実感を形成する
ことを特徴とする、請求項１又は２に記載の音声変換装置。
使用者の動作に関するセンサを更に備え、
前記出力手段は、前記センサで検出した情報と前記情報生成手段からの音声情報とに基づいて強調現実感を形成する
ことを特徴とする、請求項１又は２に記載の音声変換装置。
音声対話機能を更に備え、
前記音声対話機能による対話結果に基づいて、前記情報生成手段が前記信号処理手段による認識結果を加工変換する
ことを特徴とする、請求項１又は２に記載の音声変換装置。
前記情報生成手段が、前記音声情報の要約を生成する機能を有することを特徴とする、請求項１又は２に記載の音声変換装置。
前記情報生成手段が、使用者の身体状態、利用状態及び使用目的に基づいて、前記信号処理手段からの認識結果に、使用者が理解し易い言葉を付け加える機能を有することを特徴とする、請求項１又は２に記載の音声変換装置。
前記情報生成手段が、前記信号処理手段からの認識結果に含まれる非言語情報を手話等の画像として前記表示手段に表示させる出力を生じる機能を有することを特徴とする、請求項１又は２に記載の音声変換装置。
前記入力音声が、警報、特定の雑音及び特定の音源からの音などの特定の音であるとき、前記出力手段が、前記信号処理手段からの認識結果に含まれる前記特定の音に対応する出力を生じる機能を有することを特徴とする、請求項１又は２に記載の音声変換装置。
前記情報生成手段が、音韻的に近い例を用いて誤りを訂正することにより、前記信号処理手段からの認識結果に含まれる聞き違いを修正した出力を生じる機能を有することを特徴とする、請求項１又は２に記載の音声変換装置。
前記入力音声の音声情報を生成している期間に前記使用者の音声又は外部の音声を検出したとき、前記情報生成手段が、前記音声情報の内容を変更する機能を有することを特徴とする、請求項１又は２に記載の音声変換装置。
前記情報生成手段が、以前に出力した音声情報を再度出力する機能を有することを特徴とする、請求項１又は２に記載の音声変換装置。