JP2006145791A

JP2006145791A - 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置

Info

Publication number: JP2006145791A
Application number: JP2004335175A
Authority: JP
Inventors: Katsumi Shiono; 勝美塩野
Original assignee: NEC Saitama Ltd
Current assignee: NEC Saitama Ltd
Priority date: 2004-11-18
Filing date: 2004-11-18
Publication date: 2006-06-08
Anticipated expiration: 2024-11-18
Also published as: JP4299768B2

Abstract

【課題】携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止を行う。
【解決手段】マイクロフォンに入力する音声を認識する音声認識装置に、マイクロフォンから出力される音声信号を増幅する増幅器１０８と、増幅された音声レベルを検出する音声レベル検出部１０３Ａと、送話ゲイン、適正音声レベル、送話ゲイン更新用の時定数を記憶する送話ゲイン情報記憶部１０６Ａと、送話ゲイン、適正音声レベル、時定数を読み出し、増幅器に送話ゲインを設定し、検出された音声レベルを適正音声レベルにすべきゲインに時定数を乗じた値を送話ゲインに加算して送話ゲインを更新し、更新した送話ゲインを送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部１０３Ｂと、増幅された音声信号を入力して音声認識を行う音声認識部１１１とを備える。
【選択図】図１

Description

本発明は移動可能な状態で使用される音声認識装置に関する。特に、本発明は、送話時の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅できないことに起因する認識率低下の防止を可能にする音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置に関する。

近年、移動機である携帯電話機に音声認識機能が設けられ、携帯電話機では送話部のマイクロフォンから音声を入力し、適正な音声レベルに増幅後、音声認識を行い、認識結果を表示部に表示させ、スピーカから音声で鳴動させたりしている。
音声認識時には適正な音声レベルの音声信号を入力した場合に一番高い認識性能が得られるが、適正な音声レベルよりも低い場合でも高い場合でも認識率が低下する。

このように音声認識機能を有する携帯電話機では、標準的な送話ゲインが保存され、以下のようにして、送話部のマイクロフォンの増幅器に設定される。
図１６は本発明の前提となる携帯電話機における音声認識の使用例を説明する図である。
本図(ａ)に示すように、携帯電話機における受話部のスピーカをユーザの耳に密着した通話状態の持ち方で、音声認識が行われる。

この場合、携帯電話機の長さ、形状、ユーザの標準的な頭の大きさを基準とし携帯電話機の送話部のマイクロフォンとユーザの口の間の標準的な距離ｄ１、標準的な声の大きさなどの条件で送話部のマイクロフォンの増幅器に標準的な送話ゲインＧａが設定される。
しかしながら、実際には携帯電話機のユーザの携帯電話機の持ち方、頭の大きさ、声の大きさ等に関し、ユーザは同じ使用条件である、標準的な距離ｄ１を確保せず、標準的な声の大きさで発声せず変動するため、ユーザの使用条件のバラツキが生じるので、送話部のマイクロフォンに入力する音声のレベルが変動し、増幅器に設定された標準的な送話ゲインＧａで増幅された音声レベルが適正な音声レベルにならず、このため、音声の認識率が低下し、不具合が発生するという問題がある。

本図(ｂ)に示すように、携帯電話機における受話部をユーザの耳から離し携帯電話機の表示部を見ながら通話を行う状態で、音声認識が行われる。
この場合、携帯電話機における送話部のマイクロフォンとユーザの口の間の標準的な距離ｄ２で標準的な音の大きさが適正な音声レベルになるように送話部のマイクロフォンの増幅器に標準的な送話ゲインＧｂが設定される。

しかしながら、実際には携帯電話機における送話部のマイクロフォンとユーザの口の間の標準的な距離ｄ２を確保できず距離のバラツキが生じ、標準的な音の大きさで発声せず変動し、さらに、距離が図１６（ａ）の場合よりも大きいため騒音による影響を受けやすいため、マイクロフォンに入力する音声が変動し、増幅器に設定された標準的な送話ゲインＧｂで増幅された音声レベルが適正な音声レベルにならず、このため、音声の認識率が低下するという問題がある。

さらに、本図（ａ）に示すように携帯電話機をユーザの耳に密着する使用方法、本図（ｂ）に示すように携帯電話機をユーザの耳から離す使用方法では、送話部のマイクロフォンとユーザの口の間の距離ｄ１、ｄ２が相互に大きく異なることに起因して、送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインＧａ、Ｇｂが相互に異なるので、本図（ａ）から本図（ｂ）への使用方法の変化に対して、本図（ａ）に示す携帯電話機における送話部のマイクロフォンの増幅器に設定された標準的な送話ゲインＧａを、本図（ｂ）に示す携帯電話機における送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインＧｂに設定変更をしなければならない。この設定変更をしないと、音声の認識率が著しく低下する。

逆も同様であり、本図（ｂ）から本図（ａ）への使用方法の変化に対して、本図（ｂ）に示す携帯電話機における送話部のマイクロフォンの増幅器に設定された標準的な送話ゲインＧｂを、本図（ａ）に示す携帯電話機における送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインＧａに設定変更をしなければならない。この設定変更をしないと、音声の認識率が著しく低下する。

このため、本図（ａ）から本図（ｂ）への使用方法の切替、本図（ｂ）から本図（ａ）への使用方法の切替に関し、切替毎にマイクロフォンの増幅器の標準的な送話ゲインＧａ、Ｇｂの設定変更をしなければならず、操作が煩雑となる。
換言すれば、本発明の前提となる音声認識機能には、携帯電話機のユーザの声の大きさ、使用方法が必ずしも想定している条件と一致しないので音声の認識率の低下が生じるという問題がある。

従来、通話中に自動的に受話音量を調節するため、レベル検出器は、送話音声信号の直流成分の電力値Ａ１を検出及び算出し、減算器は、送話電力値Ａ１とメモリに書き込まれている基準電力値Ａ０とを減算して増幅量Ａ２を算出し、メモリ部に一旦格納し、次のタイミングで受信音声信号が音声信号処理部を経由して、信号比較部内の増幅器に入力された時に、メモリ部から読み出した受話音声の増幅量Ａ２を読み出して、増幅器の利得を可変制御し、Ａ２倍だけ受信音声信号を増幅させ、これにより、送話音量によって、受話音量を可変調節できるものがある（例えば、特許文献１参照）。

しかしながら、上記特許文献１では、受話音量を調節するため、増幅量を算出し増幅器の利得を可変制御し算出した増幅量だけ受信音声信号を増幅させるが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。

また、従来、声の小さいあるいはマイクロホンから離れて発言する特定会議参加者の音声を他の会議参加者の音声出力レベルと同程度になるように出力されることにより受聴音声の品質の向上を図るため、複数個のマイクロホンとスピーカを用いてハンズフリーで遠隔会議を行う会議電話装置において、１または複数のマイクロホンより入力される音声信号を音声要素に分解する音声認識回路と、メモリ回路と、予め前記１または複数のマイクロホンより入力される特定会話者の音声認識回路の出力をメモリ回路に記憶するための手段と、遠隔会議時の音声認識回路の出力とメモリ回路に記憶されている内容とを照合する照合回路と、１または複数のマイクロホン対応に設けられた１または複数の利得設定回路と、照合回路によって特定会話者の音声と認識されたとき特定会話者の音声が入力されているマイクロホン対応の利得設定回路の利得を上昇制御する手段とを設けているものがある（例えば、特許文献２参照）。

しかしながら、上記特許文献２では、声の小さいあるいはマイクロホンから離れて発言する特定会議参加者の音声を他の会議参加者の音声出力レベルと同程度になるように出力されるようにするが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。

また、従来、自動車電話で、ハンドフリー通話時に、外部騒音の大きさが変化しても自動的に音量レベルが調整でき、明瞭な対話が行えるハンドフリー自動車電話装置を得るため、無線機と、この無線機に会話音声を供給するハンドフリー通話回路と、このハンドフリー通話回路に会話音声を入力するマイクロホンと、ハンドフリー通話回路より会話音声を出力するスピーカと、相手先名が音声にて入力された時、音声認識処理を行い、認識結果により上記無線機に発呼を指令する音声認識装置とを備えたハンドフリー自動車電話装置において、ハンドフリー通話時に音声認識装置により検出された騒音データによってマイクロホンより入力される入力音声レベルとスピーカより出力する会話音声の音量の少なくとも１つを自動的に調節するようにしたのもがある（例えば、特許文献３参照）。

しかしながら、上記特許文献３では、自動車電話で、ハンドフリー通話時に、外部騒音の大きさが変化しても自動的に音量レベルが調整でき、明瞭な対話が行えるようにしているが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。

また、従来、入力電話音声のパワーレベルの変化に拘わらず、その語頭、語尾切れや飽和を招来することなしに入力電話音声の音声区間を正しく検出することができ、入力電話音声に対する認識性能の向上を図るため、電話回線を介して入力される電話音声に所定の増幅利得を与える前置増幅器と、この前置増幅器を介して入力される上記電話音声の音声区間を検出し、この音声区間における前記電話音声の特徴を検出して該電話音声を認識する音声認識部と、この音声認識結果に従って所定の応答音声を前記電話回線に送出する音声応答部と、前記音声認識および音声応答の過程で前記電話回線を介して最初に入力された電話音声のパワーレベルを検出する手段と、この検出されたパワーレベルに従って前記増幅器における増幅利得を設定する手段とを具備する音声入力装置がある（例えば、特許文献４参照）。

しかしながら、上記特許文献４では、電話音声のパワーレベルを検出し、検出されたパワーレベルに従って増幅器における増幅利得を設定し、入力電話音声の音声区間を正しく検出し、入力電話音声に対する認識性能の向上を図るが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。

また、従来、緊急通報機能付き自動車電話装置において、利用者の送話音声を確実に緊急通報センターに伝えるため、交通事故等の緊急事態が生じた場合に、マイクロコンピュータが、乗員から発せられる送話レベルが、所定値未満であることを判定したとき、通常状態より送話ゲインを上げてマイクからの出力信号を電力増幅させる処理を行い、したがって、ゲインコントロールアンプは、自動的に、通常状態よりも大きな電力レベルで出力信号を出力できるため、基地局に対して上り通信信号を通常状態に比べて大きな電力レベルで送ることができ、このため、乗員の送話音声を確実にサービスセンターのオペレータに対して伝えることができるものがある（例えば、特許文献５参照）。

しかしながら、上記特許文献５では、交通事故等の緊急事態が生じた場合に、通常状態より送話ゲインを上げてマイクからの出力信号を電力増幅させる処理を行い、乗員の送話音声を確実にサービスセンターのオペレータに対して伝えるが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。

特開平１１−２３９０９３号公報特開昭６１−１６１８６３号公報特開平４−２６１２５４号公報特開平１−１４２７９９号公報特開２００４−８０６９７号公報

したがって、本発明は上記問題点に鑑みて、携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止を可能にする音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置を提供することを目的とする。

本発明は前記問題点を解決するために、送話部のマイクロフォンに入力する音声を認識する音声認識装置において、送話部の前記マイクロフォンから出力される音声信号を送話ゲインで増幅する増幅器と、前記増幅器で増幅された音声レベルを検出する音声レベル検出部と、送話ゲインの初期値、送話ゲイン、適正音声レベル、送話ゲインを更新するための時定数を記憶する送話ゲイン情報記憶部と、前記送話ゲイン情報記憶部から送話ゲイン、適正音声レベル、時定数を読み出し、前記増幅器に前記送話ゲインを設定し、前記音声レベル検出部で検出された音声レベルを前記適正音声レベルにすべきゲインに前記時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し、更新した前記送話ゲインを前記送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部と、前記増幅器で増幅された音声信号を入力して音声認識を行う音声認識部とを備えることを特徴とする音声認識装置を提供する。

さらに、前記送話ゲイン設定制御部は、音声認識時の第１回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定する。
さらに、前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部に更新された送話ゲインが記憶されている場合には、音声認識の再開時の第１回目の発声時に前記送話ゲイン情報記憶部から更新された前記送話ゲインを読み出し前記増幅器に設定する。

さらに、前記送話ゲイン設定制御部は、音声認識時の第１回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定し前記音声認識部に音声認識を行わせ、音声の認識確定後から所定時間内に音声認識の起動が検出された場合には前記送話ゲイン情報記憶部から送話ゲインの初期値を読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインの初期値を更新し前記送話ゲイン情報記憶部に保存し、又は前記送話ゲイン情報記憶部から更新前の送話ゲインを読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインを更新し、前記送話ゲイン情報記憶部に保存し、次回の発声時に更新した送話ゲインを前記送話ゲイン情報記憶部から読み出し前記増幅器に設定し、所定時間内に音声認識の起動が検出されない場合には音声認識処理を終了させる。

さらに、前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部で検出された音声レベルが前記適正音声レベルを中心とする一定範囲内に在るか又は一定範囲外に在るかを判断し、一定範囲内に在る場合の時定数を一定範囲外に在る場合の時定数よりも小さくする。
さらに、前記送話ゲイン設定制御部で更新される送話ゲインＧｎは、下記の式
Ｇn＝Ｇn-1−Ｋ×２０×ｌｏｇ（Ｘn／Ｃ）ｄＢ
（Ｋ：送話ゲインの更新の時定数（０.０＜Ｋ≦１．０）、
n：音声認識回数（＝１，2、3…）、
Ｃ：適正音声レベル、
Ｘn：音声レベル検出部で検出された音声レベル）
で表される。

さらに、テスト部が設けられ、前記テスト部は、キー操作による時定数を調整可能にし、複数回のテスト用の発声に対して前記音声認識部に音声認識を処理させ、前記送話ゲイン設定制御部に送話ゲインの最適値を予め求めさせ、前記送話ゲイン情報記憶部に送話ゲインの初期値として保存させる。
さらに、本発明は、送話部のマイクロフォンに入力する音声を認識する音声認識方法において、適正音声レベル、送話ゲインを記憶する工程と、送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、増幅された音声レベルを検出する工程と、検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法を提供する。

さらに、本発明は、音声認識方法を用いた携帯型情報端末装置において、前記携帯型情報端末装置の携帯情報端末機能に加えて、携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅して音声認識を行う音声認識機能を備える。
さらに、音声認識された認識結果を前記携帯型情報端末装置の受話口のスピーカに鳴動させ、前記携帯型情報端末装置の表示部に表示させる。

以上説明したように、本発明によれば、送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅された音声信号を入力して音声認識を行うようにし、増幅した音声信号の音声レベルを検出し、検出された音声レベルを適正音声レベルにすべきゲインに時定数を乗じた値を送話ゲインに加算して送話ゲインを更新し、更新した送話ゲインを記憶させるようにしたので、特に携帯型情報端末装置の送話部の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止が可能になる。

携帯型情報端末装置をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、さらに、携帯型情報端末装置をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、音声の認識率が向上し、さらに、携帯型情報端末装置を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯型情報端末装置を耳から離した状態から耳に密着した状態に使用方法を変えた場合、自動的に送話ゲインの設定変更が行われ、従来のように送話ゲインの設定変更を行う必要がなくなり、操作が簡単になる。

以下、本発明の実施の形態について図面を参照して説明する。
図１は本発明に係る携帯型情報端末装置の概略構成を示すブロック図である。本図に示すように、移動機である携帯型情報端末装置１００にはアンテナ１０１が設けられ、アンテナ１０１は図示しない基地局と無線通信を行う。
アンテナ１０１には無線部１０２が接続され、無線部１０２はアンテナ１０１への送信信号の変調を行い、アンテナ１０１からの受信信号の復調を行う。

無線部１０２には制御部１０３が接続され、制御部１０３は無線部１０２を含む携帯型情報端末装置１００全体の制御を行う。
制御部１０３には操作部１０４が接続され、操作部１０４はＣＰＵ（中央演算装置）からなり、携帯電話の操作、音声認識の開始等を行う。制御部１０３は操作部１０４により音声認識の開始キーが押下されると、後述する音声認識部１１１に対して音声認識の開始命令を送信する。

さらに、制御部１０３には表示部１０５が接続され、表示部１０５は数字、文字、画像、音声認識の認識結果等を表示する。
さらに、制御部１０３にはメモリ１０６が接続され、メモリ１０６はデータ書き替え可能で携帯型情報端末装置１００を制御する各種情報、送受信データを保存する。
さらに、制御部１０３にはＡ／Ｄ・Ｄ／Ａコンバータ１０７が接続され、Ａ／Ｄ・Ｄ／Ａコンバータ１０７は制御部１０３への送話音の音声信号をアナログ信号からデジタル信号に変換し、制御部１０３からの受話音の音声信号をデジタル信号からアナログ信号に変換する。

Ａ／Ｄ・Ｄ／Ａコンバータ１０７には増幅器（アンプ）１０８が接続され、増幅器１０８は後述する送話ゲイン設定制御部１０３Ｂにより送話ゲインが設定されると増幅率を変えて感度を調整し、後述するマイクロフォン１０９からのアナログ信号である音声信号を増幅する。
増幅器１０８には送話部のマイクロフォン１０９が接続され、マイクロフォン１０９はユーザの送話音を入力し電気信号に変換しアナログ信号の音声信号として増幅器１０８に出力する。

Ａ／Ｄ・Ｄ／Ａコンバータ１０７には受話部のスピーカ１１０が接続され、スピーカ１１０はＡ／Ｄ・Ｄ／Ａコンバータ１０７から受話音のアナログ信号の電気信号を受信し電気信号を受話音に変換して受話音を鳴動し、特に音声認識の認識結果を鳴動する。
制御部１０３には音声認識部１１１が接続され、音声認識部１１１はＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）のＬＳＩ（大規模集積回路）からなり、マイクロフォン１０９からの音声信号を増幅器１０８で増幅し、Ａ／Ｄ・Ｄ／Ａコンバータ１０７でデジタル化し、制御部１０３を経由して入力した音声データに関し、音声認識処理を行い、制御部１０３を介して、音声認識の認識結果を表示部１０５に表示させ、音声認識時の開始音、音声認識の認識結果を音声でスピーカ１１０に鳴動させる。

メモリ１０６には送話ゲイン情報記憶部１０６Ａが設けられ、送話ゲイン情報記憶部１０６Ａは音声認識時に増幅器１０８への送話ゲインを最適化するための各種情報として送話ゲイン初期値（ｄＢ）、更新した送話ゲイン、音声認識の適正音声レベル、送話ゲインの更新用の時定数等を保存する。
制御部１０３には音声レベル検出部１０３Ａが設けられ、音声レベル検出部１０３Ａは、常に音声認識時に、送話部のマイクロフォン１０９からの音声信号が増幅器１０８で増幅され、Ａ／Ｄ・Ｄ／Ａコンバータ１０７で音声データにデジタル化され制御部１０３に入力した後に音声データから音声区間を検出し送話音の音声信号の音声レベルを検出する。

制御部１０３には送話ゲイン設定制御部１０３Ｂが設けられ、送話ゲイン設定制御部１０３Ｂは、音声認識時に、送話ゲイン情報記憶部１０６Ａに保持される各種情報を用い、さらに、送話ゲイン設定制御部１０３Ｂで検出される音声レベルを用いて、次回の音声認識に対して音声レベルと適性音声レベルから求めたゲインに時定数を乗じ、前回の音声認識時に求めた送話ゲインに加算した値を新しい送話ゲインの値として更新する。

さらに、送話ゲイン設定制御部１０３Ｂは、次回の音声認識時に前回の音声認識時に求めた送話ゲインを増幅器１０８に設定する。
上記で説明した送話ゲイン設定制御部１０３Ｂで行う送話ゲインの更新式を以下に説明する。
マイクロフォン１０９に入力される音声レベルをＡn、音声レベル検出部１０３Ａに検出される音声レベルをＸn、適正な音声レベルをＣと置き、送話ゲインＧnの更新式を下記式により表す。

Ｇn＝Ｇn-1−Ｋ×２０×ｌｏｇ（Ｘn／Ｃ）ｄＢ
…（１）
（Ｋ：送話ゲインの更新の時定数（０.０＜Ｋ≦１．０）、
n：音声認識回数（＝１，2、3…））
Ｘn＝Ａn×１０^{Ｇｎ−１／２０} …（２）

このように、次回の音声認識起動時は、前回の音声認識結果の音声レベルを反映した送話ゲインを増幅器１０８に設定することになるため、ユーザの声の大きさ、使用方法が想定している条件に応じて、音声認識に適した音声レベルが得られる。

図２は図１における送話ゲイン情報記憶部１０６Ａに保持され、音声認識時に送話ゲインを最適化するための各種情報例を説明する図である。

本図に示すように、送話ゲイン情報記憶部１０６Ａには、ユーザの口と携帯型情報端末装置１００における送話部のマイクロフォン１０９の間の距離ｄ１（図１６（ａ）参照）が３ｃｍである場合、又は距離ｄ２（図１６（ｂ）参照）が７ｃｍである場合一方を選択して基準として送話ゲインの初期値Ｇ0として「０.００ｄＢ」が保持され、さらに、更新される送話ゲイン（ｄＢ）が保持される。この更新される送話ゲインは次回の音声認識時に増幅器１０８に設定される値として使用される。

さらに、送話ゲイン情報記憶部１０６Ａには音声認識の適正音声レベルＣが保存され、適正音声レベルＣとして、例えば、「１０００」が保持され、送信ゲインを更新する時定数Ｋが保存され、時定数Ｋとして選択可能に複数の「１．０」、「０．５」、…が保持される。
図３は図１における送話ゲイン設定制御部１０３Ｂの送話ゲインの更新処理の一連の動作例を説明するフローチャートである。
本図に示すように、ステップ２０１において、制御部１０３は操作部１０４の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。

ステップ２０２において、送話ゲイン設定制御部１０３Ｂは、制御部１０３の起動検出後、送話ゲイン情報記憶部１０６Ａから更新前の送話ゲインＧn-1を読み出し増幅器１０８に設定を行う。送話ゲイン設定制御部１０３Ｂに更新前の送話ゲインが保持されていない場合には送話ゲインの初期値を増幅器１０８に設定する。
ステップ２０３において、制御部１０３は送話ゲイン設定制御部１０３Ｂが更新前の送話ゲインＧn-1を増幅器１０８に設定した後、マイクロフォン１０９より入力された音声信号を増幅器１０８で音声認識に適した音声レベル（式（２）参照）に調整した入力音声に対して、音声認識部１１１を起動して音声認識させる。

ステップ２０４において、送話ゲイン設定制御部１０３Ｂは音声認識部１１１からの認識結果の確定を待つ。
ステップ２０５において、送話ゲイン設定制御部１０３Ｂは、音声認識の認識結果の確定後、認識結果と音声レベル検出部１０３Ａにより検出された音声レベル情報を取得する。認識結果を表示部１０５に表示し、スピーカ１１０に音声で鳴動させる。

ステップ２０６において、送話ゲインの更新処理（式（１）参照）を行う。
ステップ２０７において、送話ゲイン設定制御部１０３Ｂは送話ゲイン情報記憶部１０６Ａに更新された送話ゲインの値を保存し、処理を終了する。
このようにして、送話ゲインを送話ゲイン情報記憶部１０６Ａに保持し、音声認識を行う毎に送話ゲイン情報記憶部１０６Ａに保持している送話ゲインを読み出し送話ゲインの更新を行うことにより、最適な送話ゲインを取得することが可能になる。これにより、音声認識時の音声レベルが適正音声レベルになり、以降も継続して音声認識に適した音声レベルが確保される。特に、推奨する使用方法と異なる使用者が音声起動しても、数回音声認識を行うことにより、使用者の使い方、声の大きさに合わせて送話ゲインの更新が行われるため、音声認識に最適な音声レベルが用いられることになる。

携帯電話機を含む携帯型情報端末装置をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、さらに、携帯型情報端末装置をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、音声の認識率が向上し、さらに、携帯型情報端末装置を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯型情報端末装置を耳から離した状態から耳に密着した状態に使用方法を変えた場合、自動的に送話ゲインの設定変更が行われ、従来のように送話ゲインの設定変更を行う必要がなくなり、操作が簡単になる。
以下に具体例で説明する。

図４は図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝１．０である場合の例を説明する図である。
本図では、一例として、音声認識時の第１回目、第２回目、第３回目…の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝７００、Ａ2＝７００、Ａ3＝７００、…であるとし、適正音声レベルをＣ＝１０００とし、以下のように、送話ゲインを算出する。

第１回目の音声認識時の発声では、送話ゲインの初期値がＧ0＝０．００ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ1は、（２）式より、
Ａ1／Ｘ1＝１
を満たし、この場合、
Ｘ1＝Ａ1＝７００
となる。

更新後の送話ゲインＧ1は、（１）式より、
Ｇ1＝Ｇ0−１．０×２０×ｌｏｇ（Ｘ1／１０００）ｄＢ
＝０．０−１．０×２０×ｌｏｇ（７００／１０００）ｄＢ
＝３．１０ｄＢ
となる。

なお上記の例で、図２に示すように、送話ゲイン情報記憶部１０６Ａから送話ゲインの初期値（Ｇ0＝０．００ｄＢ）を読み出し、算出された送話ゲインＧ1は更新した送話ゲインとして送話ゲイン情報記憶部１０６Ａに保持され、次回の音声認識時に更新前の送話ゲインＧ1として使用される。以下同様である。

第２回目の音声認識時の発声では、更新前の送話ゲインがＧ1＝３．１０ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ2は、（２）式より、
Ｘ2＝Ａ2×１０^G1／２０
＝７００×１０^{３．１０／２０}
＝１０００
となる。

更新後の送話ゲインＧ2は、（１）式より、
Ｇ2＝Ｇ1−１．０×２０×ｌｏｇ（Ｘ2／１０００）ｄＢ
＝３．１０−１．０×２０×ｌｏｇ（１０００／１０００）ｄＢ
＝３．１０ｄＢ
となる。

第３回目の音声認識時以降の発声では、第2回目の音声認識時の場合と同様の音声レベル検出部１０３Ａにより検出される音声レベルＸ3＝１０００、Ｇ3＝３．１０ｄＢが得られる。
すなわち、送話ゲイン設定制御部１０３Ｂでは、第1回目の音声認識時には、発声前に増幅器１０８にＧ0＝０．０ｄＢを設定し、音声レベル検出部１０３Ａでは音声レベルＸ1＝７００を検出し、Ｇ0＝０．００ｄＢをＧ１＝３．１０ｄＢに更新する。

この場合、時定数がＫ＝１．０で、マイクロフォン１０９に入力する音声レベルＡ1＝Ａ２＝Ａ3=…＝７００としバラツキが無いとしているので、第２回目の音声認識時に音声レベル検出部１０３Ａにより検出された音声レベルＸ2は、Ｘ2＝１０００となり、適正音声レベルＣ＝１０００に一致し、送話ゲインの更新値はＧ2＝３．１０ｄＢとなり、最適値となる。

すわなち、マイクロフォン１０９とユーザの口の距離が一定で、入力される音声レベルが一定で、使用環境に騒音が無い場合には時定数を大きくして追従を早くすることが好ましい。
上記例では、マイクロフォン１０９に入力する音声レベルにはバラツキが無いとしたが、マイクロフォン１０９とユーザの口が離れて距離が一定でなく、入力される音声レベルが変動し、騒音環境で使用される場合には、時定数を大きくすると、送話ゲインの設定変化が大きく、逆に最適でない送話ゲインが設定されるので、バラツキがある場合には、以下のように時定数を小さくして送話ゲインの設定を行う。

図５は図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキがあり、時定数Ｋ＝１．０である場合例を説明する図である。
本図では、音声認識時の第１回目、第２回目、第３回目…の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝７００、Ａ2＝７５０、Ａ3＝７００、Ａ4＝７５０…とし、バラツキがあるとし、その他の条件は上記例と同じであるとして、以下のように、送話ゲインを算出する。

第１回目の音声認識時の発声では、送話ゲインの初期値がＧ0＝０.００ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ1は、（２）式より、
Ａ1／Ｘ1＝１
を満たし、この場合、
Ｘ1＝Ａ1＝７００
となる。

第２回目の音声認識時の発声では、更新前の送話ゲインがＧ1＝３．１０ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ2は、（２）式より、
Ｘ2＝Ａ2×１０^G1／２０
＝７５０×１０^{３．１０／２０}
＝１０７２
となる。

更新後の送話ゲインＧ2は、（１）式より、
Ｇ2＝Ｇ1−１．０×２０×ｌｏｇ（Ｘ2／１０００）ｄＢ
＝３．１０−１．０×２０×ｌｏｇ（１０７２／１０００）ｄＢ
＝２．５０ｄＢ
となる。

第３回目の音声認識時の発声では、更新前の送話ゲインがＧ2＝２．５０ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ3は、（２）式より、
Ｘ3＝Ａ3×１０^G2／２０
＝７００×１０^{２．５０／２０}
＝９３３
となる。

更新後の送話ゲインＧ3は、（１）式より、
Ｇ3＝Ｇ2−１．０×２０×ｌｏｇ（Ｘ3／１０００）ｄＢ
＝２．５−１．０×２０×ｌｏｇ（９３３／１０００）ｄＢ
＝３．１０ｄＢ
となる。

第４回目の音声認識時以降の発声では、第2回目、第３回目の音声認識時の場合と同様に、音声レベル検出部１０３Ａにより検出される音声レベルＸ2＝１０７２、Ｘ3＝９３３が繰り返される。
すなわち、送話ゲイン設定制御部１０３Ｂでは、第1回目の音声認識時には、増幅器１０８にＧ0＝０．０ｄＢを設定し、音声レベル検出部１０３Ａでは音声レベルＸ1＝７００を検出し、Ｇ0＝０．００ｄＢをＧ１＝３．１０ｄＢに更新する。

この場合、時定数がＫ＝１．０で、マイクロフォン１０９に入力する音声レベルＡ1＝７００、Ａ２＝７５０、Ａ3＝７００、…としバラツキがあるとしているので、第２回目、第3回目…の音声認識時に音声レベル検出部１０３Ａにより検出された音声レベルＸ2、Ｘ3…は、Ｘ2＝１０７２、Ｘ3＝９３３…となり、適正音声レベルＣ＝１０００に一致せず、同様に更新後の送話ゲインも２．５０ｄＢ、３．１０ｄＢとなり、相互に一致しない。

前述のように、バラツキが無い場合には第２回目の音声認識時に適正音声レベルになったが、バラツキが有る場合には音声レベル検出部１０３Ａにより検出された音声レベルが適正音声レベルにならない。
このため、ユーザが常に同一の条件で同一の声の大きさで発声せずに変動する場合、マイクロフォン１０９に入力する音声レベルＡ1、Ａ2、Ａ3、…にバラツキが生じ、音声レベル検出部１０３Ａで検出される音声レベルが適正音声レベルと一致しないので、音声認識時に高い認識率を得ることは困難である。

このため、次に、時定数Ｋを、一例として、「１．０」よりも小さい値、例えば、「０．５」に設定しバラツキの無い場合で、以下のように、音声レベル検出部１０３Ａにより検出された音声レベルを適正音声レベルＣに近づけるようにする。

送話ゲインの初期値図６は図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝０．５である場合の例を説明する図である。
本図では、一例として、音声認識時の第１回目、第２回目、第３回目、第４回目、第５回目…の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝７００、Ａ2＝７００、Ａ3＝７００、Ａ4＝７００、Ａ5＝７００、Ａ6＝７００、…とし、時定数を０．５として、以下のように、送話ゲインを算出する。

第１回目の音声認識時の発声では、送話ゲインの初期値がＧ0＝０ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ1は、（２）式より、
Ａ1／Ｘ1＝１
となり、
Ｘ1＝Ａ1＝７００
となる。

この場合、更新後の送話ゲインＧ1は、（１）式より、
Ｇ1＝Ｇ0−０．５×２０×ｌｏｇ（Ｘ1／１０００）ｄＢ
＝０．０−０．５×２０×ｌｏｇ（７００／１０００）ｄＢ
＝１．２ｄＢ
となる。

第２回目の音声認識時の発声では、更新前の送話ゲインがＧ1＝１．５５ｄＢであり、発声前に増幅器１０８に設定され、この場合の検出音声レベルＸ2は、（２）式より、
Ｘ2＝Ａ2×１０^G1／２０
＝７００×１０^{１．５５／２０}
＝８３７
となる。

この場合、更新後の送話ゲインＧ2は、（１）式より、
Ｇ2＝Ｇ1−０．５×２０×ｌｏｇ（Ｘ2／１０００）ｄＢ
＝１．５５−０．５×２０×ｌｏｇ（８３７／１０００）ｄＢ
＝２．３２ｄＢ
となる。

第３回目の音声認識時の発声では、更新前の送話ゲインがＧ2＝２．３２ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される検出音声レベルＸ3は、（２）式より、
Ｘ3＝Ａ3×１０^G2／２０
＝７００×１０^{２．３２／２０}
＝９１４
となる。

この場合、更新後の送話ゲインＧ3は、（１）式より、
Ｇ3＝Ｇ2−０．５×２０×ｌｏｇ（Ｘ3／１０００）ｄＢ
＝２．３２−０．５×２０×ｌｏｇ（９１４／１０００）ｄＢ
＝２．７１ｄＢ
となる。

第４回目の音声認識時の発声では、更新前の送話ゲインがＧ3＝２．７１ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ4は、（２）式より、
Ｘ4＝Ａ4×１０^G3／２０
＝７００×１０^{２．７１／２０}
＝９５６
となる。

この場合、更新後の送話ゲインＧ4は、（１）式より、
Ｇ4＝Ｇ3−０．５×２０×ｌｏｇ（Ｘ4／１０００）ｄＢ
＝２．７１−０．５×２０×ｌｏｇ（９５６／１０００）ｄＢ
＝２．９１ｄＢ
となる。

第５回目の音声認識時の発声では、更新前の送話ゲインがＧ4＝２．９１ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ5は、（２）式より、
Ｘ5＝Ａ5×１０^G4／２０
＝７００×１０^{２．９１／２０}
＝９７９
となる。

この場合、更新後の送話ゲインＧ5は、（１）式より、
Ｇ5＝Ｇ4−０．５×２０×ｌｏｇ（Ｘ5／１０００）ｄＢ
＝２．９１−０．５×２０×ｌｏｇ（９７９／１０００）ｄＢ
＝２．４ｄＢ
となる。

この場合の最終的な送話ゲインは、
−２０×ｌｏｇ（７００／１０００）ｄＢ
＝３．００ｄＢ
である。
このように前述の図４に示すように２回目の発声で適正音声レベルにできないが、５回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。

図７は図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが大きく、バラツキが無く、時定数Ｋ＝０．５である場合の例を説明する図である。
本図では、一例として、音声認識時の第１回目、第２回目、第３回目、第４回目、第５回目、第6回…の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝１３００、Ａ2＝１３００、Ａ3＝１３００、Ａ4＝１３００、Ａ5＝１３００、…とし、時定数を０．５として、以下のように、送話ゲインを算出する。

第１回目の音声認識時の発声では、送話ゲインの初期値がＧ0＝０ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ1は、（２）式より、
Ａ1／Ｘ1＝１
となり、
Ｘ1＝Ａ1＝１３００
となる。

この場合、更新後の送話ゲインＧ1は、（１）式より、
Ｇ1＝Ｇ0−０．５×２０×ｌｏｇ（Ｘ1／１０００）ｄＢ
＝０．０−０．５×２０×ｌｏｇ（１３００／１０００）ｄＢ
＝−１．１４ｄＢ
となる。

第２回目の音声認識時の発声では、更新前の送話ゲインがＧ1＝−１．１４ｄＢであり、発声前に増幅器１０８に設定され、、この場合の検出音声レベルＸ2は、（２）式より、
Ｘ2＝Ａ2×１０^G1／２０
＝１３００×１０^{−１．１４／２０}
＝１１４０
となる。

この場合、更新後の送話ゲインＧ2は、（１）式より、
Ｇ2＝Ｇ1−０．５×２０×ｌｏｇ（Ｘ2／１０００）ｄＢ
＝−１．１４−０．５×２０×ｌｏｇ（１１４０／１０００）ｄＢ
＝−１．７１ｄＢ
となる。

第３回目の音声認識時の発声では、更新前の送話ゲインがＧ2＝−１．７１ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される検出音声レベルＸ3は、（２）式より、
Ｘ3＝Ａ3×１０^G2／２０
＝１３００×１０^{−１．７１／２０}
＝１０６８
となる。

この場合、更新後の送話ゲインＧ3は、（１）式より、
Ｇ3＝Ｇ2−０．５×２０×ｌｏｇ（Ｘ3／１０００）ｄＢ
＝−１．７１−０．５×２０×ｌｏｇ（１０６８／１０００）ｄＢ
＝−２．００ｄＢ
となる。

第４回目の音声認識時の発声では、更新前の送話ゲインがＧ3＝−２．００ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ4は、（２）式より、
Ｘ4＝Ａ4×１０^G3／２０
＝１３００×１０^{−２．００／２０}
＝１０３２
となる。

この場合、更新後の送話ゲインＧ4は、（１）式より、
Ｇ4＝Ｇ3−０．５×２０×ｌｏｇ（Ｘ4／１０００）ｄＢ
＝−２．００−０．５×２０×ｌｏｇ（１０３２／１０００）ｄＢ
＝−２．１４ｄＢ
となる。

第５回目の音声認識時の発声では、更新前の送話ゲインがＧ4＝−２．１４ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ5は、（２）式より、
Ｘ5＝Ａ5×１０^G4／２０
＝１３００×１０^{−２．１４／２０}
＝１０１６
となる。

この場合、更新後の送話ゲインＧ5は、（１）式より、
Ｇ5＝Ｇ4−０．５×２０×ｌｏｇ（Ｘ5／１０００）ｄＢ
＝−２．１４−０．５×２０×ｌｏｇ（１０１６／１０００）ｄＢ
＝−２．２１ｄＢ
となる。

この場合の最終的な送話ゲインは、
−２０×ｌｏｇ（１３００／１０００）ｄＢ
＝−２．２８ｄＢ
である。
このように前述の図４に示すように２回目の発声で適正音声レベルにできないが、５回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。

図８は図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝０．５である場合の例を説明する図である。
本図では、一例として、音声認識時の第１回目、第２回目、第３回目、第４回目、第５回目、第6回…の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝３００、Ａ2＝３００、Ａ3＝３００、Ａ4＝３００、Ａ5＝３００、…とし、時定数を０．５として、以下のように、送話ゲインを算出する。

第１回目の音声認識時の発声では、送話ゲインの初期値がＧ0＝０ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ1は、（２）式より、
Ａ1／Ｘ1＝１
となり、
Ｘ1＝Ａ1＝３００
となる。

この場合、更新後の送話ゲインＧ1は、（１）式より、
Ｇ1＝Ｇ0−０．５×２０×ｌｏｇ（Ｘ1／１０００）ｄＢ
＝０．０−０．５×２０×ｌｏｇ（３００／１０００）ｄＢ
＝５．２３ｄＢ
となる。

第２回目の音声認識時の発声では、更新前の送話ゲインがＧ1＝５．２３ｄＢであり、発声前に増幅器１０８に設定され、この場合の検出音声レベルＸ2は、（２）式より、
Ｘ2＝Ａ2×１０^G1／２０
＝３００×１０^{５．２３／２０}
＝５４８
となる。

この場合、更新後の送話ゲインＧ2は、（１）式より、
Ｇ2＝Ｇ1−０．５×２０×ｌｏｇ（Ｘ2／１０００）ｄＢ
＝５．２３−０．５×２０×ｌｏｇ（５４８／１０００）ｄＢ
＝７．８４ｄＢ
となる。

第３回目の音声認識時の発声では、更新前の送話ゲインがＧ2＝７．８４ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される検出音声レベルＸ3は、（２）式より、
Ｘ3＝Ａ3×１０^G2／２０
＝３００×１０^{７．８４／２０}
＝７４０
となる。

この場合、更新後の送話ゲインＧ3は、（１）式より、
Ｇ3＝Ｇ2−０．５×２０×ｌｏｇ（Ｘ3／１０００）ｄＢ
＝７．８４−０．５×２０×ｌｏｇ（７４０／１０００）ｄＢ
＝８．９０ｄＢ
となる。

第４回目の音声認識時の発声では、更新前の送話ゲインがＧ3＝８．９０ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ4は、（２）式より、
Ｘ4＝Ａ4×１０^G3／２０
＝３００×１０^{８．９０／２０}
＝８３６
となる。

この場合、更新後の送話ゲインＧ4は、（１）式より、
Ｇ4＝Ｇ3−０．５×２０×ｌｏｇ（Ｘ4／１０００）ｄＢ
＝８．９０−０．５×２０×ｌｏｇ（８３６／１０００）ｄＢ
＝９．６８ｄＢ
となる。

第５回目の音声認識時の発声では、更新前の送話ゲインがＧ4＝９．６８ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ5は、（２）式より、
Ｘ5＝Ａ5×１０^G4／２０
＝３００×１０^{９．６８／２０}
＝９１４
となる。

この場合、更新後の送話ゲインＧ5は、（１）式より、
Ｇ5＝Ｇ4−０．５×２０×ｌｏｇ（Ｘ5／１０００）ｄＢ
＝９．６８−０．５×２０×ｌｏｇ（９１４／１０００）ｄＢ
＝１０．０７ｄＢ
となる。

この場合の最終的な送話ゲインは、
−２０×ｌｏｇ（３００／１０００）ｄＢ
＝１０．４６ｄＢ
である。
このように前述の図４に示すように２回目の発声で適正音声レベルにできないが、５回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。

次に、時定数Ｋ＝０．５をそのままで、バラツキ有りとして、以下のように、音声レベル検出部１０３Ａにより検出された音声レベルを適正音声レベルＣに近づけるようにする。

図９は図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが有り、時定数Ｋ＝０．５である場合の例を説明する図である。
本図では、一例として、音声認識時の第１回目、第２回目、第３回目、第４回目、第５回目…の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝７００、Ａ2＝７５０、Ａ3＝７００、Ａ4＝７５０、Ａ5＝７００、Ａ6＝７５０、…とし、時定数を０．５として、以下のように、送話ゲインを算出する。

この場合、更新後の送話ゲインＧ1は、（１）式より、
Ｇ1＝Ｇ0−０．５×２０×ｌｏｇ（Ｘ1／１０００）ｄＢ
＝０．０−０．５×２０×ｌｏｇ（７００／１０００）ｄＢ
＝１．５５ｄＢ
となる。

第２回目の音声認識時の発声では、更新前の送話ゲインがＧ1＝１．５５ｄＢであり、発声前に増幅器１０８に設定され、この場合の検出音声レベルＸ2は、（２）式より、
Ｘ2＝Ａ2×１０^G1／２０
＝７５０×１０^{１．５５／２０}
＝８９５
となる。

この場合、更新後の送話ゲインＧ2は、（１）式より、
Ｇ2＝Ｇ1−０．５×２０×ｌｏｇ（Ｘ2／１０００）ｄＢ
＝１．５５−０．５×２０×ｌｏｇ（８９５／１０００）ｄＢ
＝２．０２ｄＢ
となる。

第３回目の音声認識時の発声では、更新前の送話ゲインがＧ2＝２．０２ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される検出音声レベルＸ3は、（２）式より、
Ｘ3＝Ａ3×１０^G2／２０
＝７００×１０^{２．０２／２０}
＝８８３
となる。

この場合、更新後の送話ゲインＧ3は、（１）式より、
Ｇ3＝Ｇ2−０．５×２０×ｌｏｇ（Ｘ3／１０００）ｄＢ
＝２．０２−０．５×２０×ｌｏｇ（８８３／１０００）ｄＢ
＝２．５６ｄＢ
となる。

第４回目の音声認識時の発声では、更新前の送話ゲインがＧ3＝２．５６ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ4は、（２）式より、
Ｘ4＝Ａ4×１０^G3／２０
＝７５０×１０^{２．５６／２０}
＝１００７
となる。

この場合、更新後の送話ゲインＧ4は、（１）式より、
Ｇ4＝Ｇ3−０．５×２０×ｌｏｇ（Ｘ4／１０００）ｄＢ
＝２．５６−０．５×２０×ｌｏｇ（１００７／１０００）ｄＢ
＝２．５３ｄＢ
となる。

第５回目の音声認識時の発声では、更新前の送話ゲインがＧ4＝２．５３ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ5は、（２）式より、
Ｘ5＝Ａ5×１０^G4／２０
＝７００×１０^{２．５３／２０}
＝９３７
となる。

この場合、更新後の送話ゲインＧ5は、（１）式より、
Ｇ5＝Ｇ4−０．５×２０×ｌｏｇ（Ｘ5／１０００）ｄＢ
＝２．５３−０．５×２０×ｌｏｇ（９３７／１０００）ｄＢ
＝２．８１ｄＢ
となる。

本図で示す６回目から８回目の途中の経過の説明を省略し、９回目、１０回目の発声における音声レベル検出部１０３Ａで検出される音声レベル「９５４」、「１０４６」、更新後の送話ゲイン「２．８９」、「２．６９」が以降の発声で繰り返される。
このように図５の時定数Ｋ＝１．０に設定した場合と比較すると、時定数Ｋ＝０．５の場合、音声レベル検出部１０３Ａで検出される音声レベルは適正音声レベルＣ（＝１０００）に近づくのに発声回数をより多く必要とするが、適正音声レベルにより近づき、音声認識の認識率が向上する。すなわち、送話ゲインを更新することにより、最適な送話ゲインに近づく。

図１０は図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝０．５であり、音声レベル検出部１０３Ａで検出される音声レベルが適正音声レベルに近い状態で急に雑音が入った場合の例を説明する図である。
本図では、一例として、音声認識再開時の第１回目、第２回目、第３回目、第４回目、第５回目、第6回目…の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝３００、Ａ2＝５００、Ａ3＝３００、Ａ4＝３００、Ａ5＝３００、Ａ6＝３００、Ａ7＝３００、…とし、時定数を０．５として、以下のように、送話ゲインを算出する。

すなわち、音声認識再開時の第１回目の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝３００であり、音声レベル検出部１０３Ａで検出される音声レベルがほぼ適正音声レベルＣ＝１０００になっており、第２回目だけに雑音が入力したとする。
第１回目の音声認識時の発声では、更新前の送話ゲインがＧ0＝１０．４６ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ1は、（２）式より、
Ｘ1＝Ａ1×１０^G0／２０
＝７００×１０^{１０．４６／２０}
＝１０００
となる。

この場合、更新後の送話ゲインＧ1は、（１）式より、
Ｇ1＝Ｇ0−０．５×２０×ｌｏｇ（Ｘ1／１０００）ｄＢ
＝１０．４６−０．５×２０×ｌｏｇ（１０００／１０００）ｄＢ
＝１０．４６ｄＢ
となる。

第２回目の音声認識時の発声では、更新前の送話ゲインがＧ1＝１０．４６ｄＢであり、発声前に増幅器１０８に設定され、この場合の検出音声レベルＸ2は、（２）式より、
Ｘ2＝Ａ2×１０^G1／２０
＝５００×１０^{２．７１／２０}
＝１６６７
となる。

この場合、更新後の送話ゲインＧ2は、（１）式より、
Ｇ2＝Ｇ1−０．５×２０×ｌｏｇ（Ｘ2／１０００）ｄＢ
＝１０．４６−０．５×２０×ｌｏｇ（１６６７／１０００）ｄＢ
＝８．２４ｄＢ
となる。

第３回目の音声認識時の発声では、更新前の送話ゲインがＧ2＝８．２４ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される検出音声レベルＸ3は、（２）式より、
Ｘ3＝Ａ3×１０^G2／２０
＝３００×１０^{８．２４／２０}
＝７７５
となる。

この場合、更新後の送話ゲインＧ3は、（１）式より、
Ｇ3＝Ｇ2−０．５×２０×ｌｏｇ（Ｘ3／１０００）ｄＢ
＝８．２４−０．５×２０×ｌｏｇ（７７５／１０００）ｄＢ
＝９．３５ｄＢ
となる。

第４回目の音声認識時の発声では、更新前の送話ゲインがＧ3＝９．３５ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ4は、（２）式より、
Ｘ4＝Ａ4×１０^G3／２０
＝３００×１０^{９．３５／２０}
＝８８０
となる。

この場合、更新後の送話ゲインＧ4は、（１）式より、
Ｇ4＝Ｇ3−０．５×２０×ｌｏｇ（Ｘ4／１０００）ｄＢ
＝９．３５−０．５×２０×ｌｏｇ（８８０／１０００）ｄＢ
＝９．９１ｄＢ
となる。

第５回目の音声認識時の発声では、更新前の送話ゲインがＧ4＝９．９１ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ5は、（２）式より、
Ｘ5＝Ａ5×１０^G4／２０
＝３００×１０^{９．９１／２０}
＝９３９
となる。

この場合、更新後の送話ゲインＧ5は、（１）式より、
Ｇ5＝Ｇ4−０．５×２０×ｌｏｇ（Ｘ5／１０００）ｄＢ
＝９．９１−０．５×２０×ｌｏｇ（９３９／１０００）ｄＢ
＝１０．１８ｄＢ
となる。

第６回目の音声認識時の発声では、更新前の送話ゲインがＧ5＝１０．１８ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ6は、（２）式より、
Ｘ6＝Ａ6×１０^G5／２０
＝３００×１０^{１０．１８／２０}
＝９６９
となる。

この場合、更新後の送話ゲインＧ6は、（１）式より、
Ｇ6＝Ｇ5−０．５×２０×ｌｏｇ（Ｘ6／１０００）ｄＢ
＝１０．１８−０．５×２０×ｌｏｇ（９６９／１０００）ｄＢ
＝１０．３２ｄＢ
となる。
このように、雑音により送話ゲインが変化しても、送話ゲインを更新することにより、元の最適な送話ゲインに戻る。

図１１は図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが大きく、バラツキが無く、時定数Ｋ＝０．５であり、音声レベル検出部１０３Ａで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さくなった場合の例を説明する図である。

本図では、一例として、音声認識再開時の第１回目、第２回目、第３回目、第４回目、第５回目、第6回目、第7回目…の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝３００、Ａ2＝７００、Ａ3＝７００、Ａ4＝７００、Ａ5＝７００、Ａ6＝７００、Ａ7＝７００、…とし、時定数を０．５として、以下のように、送話ゲインを算出する。
すなわち、音声認識再開時の第１回目の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝３００であり、音声レベル検出部１０３Ａで検出される音声レベルがほぼ適正音声レベルＣ＝１０００になっており、第２回目以降の音声レベルが７００に変化するとする。

第１回目の音声認識時の発声では、更新前の送話ゲインがＧ0＝１０．４６ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ1は、（２）式より、
Ｘ1＝Ａ1×１０^G0／２０
＝３００×１０^{１０．４６／２０}
＝１０００
となる。

第２回目の音声認識時の発声では、更新前の送話ゲインがＧ1＝１０．４６ｄＢであり、発声前に増幅器１０８に設定され、この場合の検出音声レベルＸ2は、（２）式より、
Ｘ2＝Ａ2×１０^G1／２０
＝７００×１０^{１０．４６／２０}
＝２３３１
となる。

この場合、更新後の送話ゲインＧ2は、（１）式より、
Ｇ2＝Ｇ1−０．５×２０×ｌｏｇ（Ｘ2／１０００）ｄＢ
＝１０．４６−０．５×２０×ｌｏｇ（２３３１／１０００）ｄＢ
＝６．７８ｄＢ
となる。

第３回目の音声認識時の発声では、更新前の送話ゲインがＧ2＝６．７８ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される検出音声レベルＸ3は、（２）式より、
Ｘ3＝Ａ3×１０^G2／２０
＝７００×１０^{６．７８／２０}
＝１５２８
となる。

この場合、更新後の送話ゲインＧ3は、（１）式より、
Ｇ3＝Ｇ2−０．５×２０×ｌｏｇ（Ｘ3／１０００）ｄＢ
＝６．７８−０．５×２０×ｌｏｇ（１５２８／１０００）ｄＢ
＝４．９４ｄＢ
となる。

第４回目の音声認識時の発声では、更新前の送話ゲインがＧ3＝４．９４ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ4は、（２）式より、
Ｘ4＝Ａ4×１０^G3／２０
＝７００×１０^{４．９４／２０}
＝１２３６
となる。

この場合、更新後の送話ゲインＧ4は、（１）式より、
Ｇ4＝Ｇ3−０．５×２０×ｌｏｇ（Ｘ4／１０００）ｄＢ
＝４．９４−０．５×２０×ｌｏｇ（１２３６／１０００）ｄＢ
＝４．０２ｄＢ
となる。

第５回目の音声認識時の発声では、更新前の送話ゲインがＧ4＝４．０２ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ5は、（２）式より、
Ｘ5＝Ａ5×１０^G4／２０
＝７００×１０^{４．０２／２０}
＝１１１２
となる。

この場合、更新後の送話ゲインＧ5は、（１）式より、
Ｇ5＝Ｇ4−０．５×２０×ｌｏｇ（Ｘ5／１０００）ｄＢ
＝４．０２−０．５×２０×ｌｏｇ（１１１２／１０００）ｄＢ
＝３．５６ｄＢ
となる。

第６回目の音声認識時の発声では、更新前の送話ゲインがＧ5＝３．５６ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ6は、（２）式より、
Ｘ6＝Ａ6×１０^G5／２０
＝７００×１０^{３．５６／２０}
＝１０５５
となる。

この場合、更新後の送話ゲインＧ6は、（１）式より、
Ｇ6＝Ｇ5−０．５×２０×ｌｏｇ（Ｘ6／１０００）ｄＢ
＝３．５６−０．５×２０×ｌｏｇ（１０５５／１０００）ｄＢ
＝３．３３ｄＢ
となる。

第７回目の音声認識時の発声では、更新前の送話ゲインがＧ6＝３．３３ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ7は、（２）式より、
Ｘ7＝Ａ7×１０^G6／２０
＝７００×１０^{３．３３／２０}
＝１０２７
となる。

この場合、更新後の送話ゲインＧ7は、（１）式より、
Ｇ7＝Ｇ6−０．５×２０×ｌｏｇ（Ｘ7／１０００）ｄＢ
＝３．３３−０．５×２０×ｌｏｇ（１０２７／１０００）ｄＢ
＝３．２１ｄＢ
となる。

このように、マイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さく、音声レベル検出部１０３Ａで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが大きくなった場合にも、送話ゲインを更新することにより、第7回目でほぼ最適な送話ゲインになる。

図１２は図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝０．５であり、音声レベル検出部１０３Ａで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが大きくなった場合の例を説明する図である。

本図では、一例として、音声認識再開時の第１回目、第２回目、第３回目、第４回目、第５回目、第6回目、第7回目…の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝７００、Ａ2＝３００、Ａ3＝３００、Ａ4＝３００、Ａ5＝３００、Ａ6＝３００、Ａ7＝３００、…とし、時定数を０．５として、以下のように、送話ゲインを算出する。
すなわち、音声認識再開時の第１回目の発声時にマイクロフォン１０９に入力する音声レベルがＡ1＝７００であり、音声レベル検出部１０３Ａで検出される音声レベルがほぼ適正音声レベルＣ＝１０００になっており、第２回目以降の音声レベルが３００に変化するとする。

第１回目の音声認識時の発声では、更新前の送話ゲインがＧ0＝３．００ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ1は、（２）式より、
Ｘ1＝Ａ1×１０^G0／２０
＝７００×１０^{３．００／２０}
＝１０００
となる。

この場合、更新後の送話ゲインＧ1は、（１）式より、
Ｇ1＝Ｇ0−０．５×２０×ｌｏｇ（Ｘ1／１０００）ｄＢ
＝３．００−０．５×２０×ｌｏｇ（１０００／１０００）ｄＢ
＝３．００ｄＢ
となる。

第２回目の音声認識時の発声では、更新前の送話ゲインがＧ1＝３．００ｄＢであり、発声前に増幅器１０８に設定され、この場合の検出音声レベルＸ2は、（２）式より、
Ｘ2＝Ａ2×１０^G1／２０
＝３００×１０^{３．００／２０}
＝４２４
となる。

この場合、更新後の送話ゲインＧ2は、（１）式より、
Ｇ2＝Ｇ1−０．５×２０×ｌｏｇ（Ｘ2／１０００）ｄＢ
＝３．００−０．５×２０×ｌｏｇ（４２４／１０００）ｄＢ
＝６．７３ｄＢ
となる。

第３回目の音声認識時の発声では、更新前の送話ゲインがＧ2＝６．７３ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される検出音声レベルＸ3は、（２）式より、
Ｘ3＝Ａ3×１０^G2／２０
＝３００×１０^{６．７３／２０}
＝６５１
となる。

この場合、更新後の送話ゲインＧ3は、（１）式より、
Ｇ3＝Ｇ2−０．５×２０×ｌｏｇ（Ｘ3／１０００）ｄＢ
＝６．７３−０．５×２０×ｌｏｇ（６５１／１０００）ｄＢ
＝８．６０ｄＢ
となる。

第４回目の音声認識時の発声では、更新前の送話ゲインがＧ3＝８．６０ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ4は、（２）式より、
Ｘ4＝Ａ4×１０^G3／２０
＝３００×１０^{８．６０／２０}
＝８０７
となる。

この場合、更新後の送話ゲインＧ4は、（１）式より、
Ｇ4＝Ｇ3−０．５×２０×ｌｏｇ（Ｘ4／１０００）ｄＢ
＝８．６０−０．５×２０×ｌｏｇ（８０７／１０００）ｄＢ
＝９．５３ｄＢ
となる。

第５回目の音声認識時の発声では、更新前の送話ゲインがＧ4＝９．５３ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ5は、（２）式より、
Ｘ5＝Ａ5×１０^G4／２０
＝３００×１０^{９．５３／２０}
＝８９９
となる。

この場合、更新後の送話ゲインＧ5は、（１）式より、
Ｇ5＝Ｇ4−０．５×２０×ｌｏｇ（Ｘ5／１０００）ｄＢ
＝９．５３−０．５×２０×ｌｏｇ（８９９／１０００）ｄＢ
＝９．９９ｄＢ
となる。

第６回目の音声認識時の発声では、更新前の送話ゲインがＧ5＝９．９９ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ6は、（２）式より、
Ｘ6＝Ａ6×１０^G5／２０
＝３００×１０^{９．９９／２０}
＝９４８
となる。

この場合、更新後の送話ゲインＧ6は、（１）式より、
Ｇ6＝Ｇ5−０．５×２０×ｌｏｇ（Ｘ6／１０００）ｄＢ
＝９．９９−０．５×２０×ｌｏｇ（９４８／１０００）ｄＢ
＝１０．２２ｄＢ
となる。

第７回目の音声認識時の発声では、更新前の送話ゲインがＧ6＝１０．２２ｄＢであり、発声前に増幅器１０８に設定され、この場合、音声レベル検出部１０３Ａで検出される音声レベルＸ7は、（２）式より、
Ｘ7＝Ａ7×１０^G6／２０
＝３００×１０^{１０．２２／２０}
＝９７３
となる。

この場合、更新後の送話ゲインＧ7は、（１）式より、
Ｇ7＝Ｇ6−０．５×２０×ｌｏｇ（Ｘ7／１０００）ｄＢ
＝１０．２２−０．５×２０×ｌｏｇ（９７３／１０００）ｄＢ
＝１０．３４ｄＢ
となる。

このように、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが大きく、音声レベル検出部１０３Ａで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さくなった場合にも、送話ゲインを更新することにより、第7回目でほぼ最適な送話ゲインになる。

図１３は図１における送話ゲイン設定制御部１０３Ｂの送話ゲインの更新処理の一連の別の動作例を説明するフローチャートである。
本図に示すように、ステップ２１１において、制御部１０３は操作部１０４の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ２１２において、送話ゲイン設定制御部１０３Ｂは、制御部１０３の起動検出後、送話ゲイン情報記憶部１０６Ａから送話ゲインの初期値（Ｇ0）を読み出し増幅器１０８に設定する。

ステップ２１３において、制御部１０３は、送話ゲイン設定制御部１０３Ｂが送話ゲインを増幅器１０８に設定した後、マイクロフォン１０９より入力された音声信号を増幅器１０８で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部１１１を起動して音声認識させる。
ステップ２１４において、送話ゲイン設定制御部１０３Ｂは音声認識部１１１からの認識結果の確定を待つ。

ステップ２１５において、送話ゲイン設定制御部１０３Ｂは、認識結果の確定後、認識結果と音声レベル検出部１０３Ａにより検出された音声レベル情報を取得する。認識結果を表示部１０５に表示し、スピーカ１１０に音声で出力させる。
ステップ２１６において、送話ゲイン設定制御部１０３Ｂはタイマをスタートし、次の音声認識起動検出までの時間（ＴＩＭＥ）を計測する。

ステップ２１７において、送話ゲイン設定制御部１０３Ｂは、計測された時間ＴＩＭＥが所定時間Ｔｈと比較して、
ＴＩＭＥ＞Ｔｈ
が成立する場合には処理を終了する。すなわち、所定時間Ｔｈ経過しても再度音声認識起動検出が無い場合には、音声認識完了として処理を終了する。

ステップ２１８において、制御部１０３は操作部１０４の音声認識開始キー押下を検出し音声認識が起動されるか否かを検出する。起動が検出されない場合にはステップ２１７に戻る。
ステップ２１９において、送話ゲイン設定制御部１０３Ｂは、制御部１０３の起動検出後、送話ゲイン情報記憶部１０６Ａから送話ゲインの初期値（Ｇ0）を読み出し増幅器１０８に設定し、取得した音声レベル情報に基づき送話ゲインの初期値を更新し送話ゲイン情報記憶部１０６Ａに保存し、又は送話ゲイン情報記憶部１０６Ａから更新前の送話ゲイン（Ｇn-1）を読み出し増幅器１０８に設定し、取得した音声レベル情報に基づき送話ゲインを更新し、更新した送話ゲイン（Ｇn）を送話ゲイン情報記憶部１０６Ａに保存し、次回の発声時に更新した送話ゲインを送話ゲイン情報記憶部１０６Ａから読み出し増幅器１０８に設定する。

ステップ２２０において、制御部１０３は、送話ゲイン設定制御部１０３Ｂが送話ゲインを増幅器１０８に設定した後、マイクロフォン１０９より入力された音声信号を増幅器１０８で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部１１１を起動して音声認識させる。
ステップ２２１において、送話ゲイン設定制御部１０３Ｂは、音声認識部１１１が音声認識結果を確定するまで音声認識処理を待つ。

ステップ２２２において、送話ゲイン設定制御部１０３Ｂは、認識結果の確定後、認識結果と音声レベル検出部１０３Ａにより検出された音声レベル情報を取得する。認識結果を表示部１０５に表示し、スピーカ１１０に音声で出力させ、ステップ２１６に戻る。
このようにして、連続起動しない音声認識時には常に送話ゲインの初期値として送話ゲイン情報記憶部１０６Ａに保持している値を使用し、連続起動する音声認識時には送話ゲインを更新し送話ゲインの最適化を行う。すなわち、前回の音声認識で誤認識が生じた場合音声認識の再起動を行い、再起動時には送話ゲインを更新する。

図１４は図１における送話ゲイン設定制御部１０３Ｂの送話ゲインの更新処理の一連のさらなる別の動作例を説明するフローチャートである。
本図に示すように、ステップ２３１において、制御部１０３は操作部１０４の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ２３２において、送話ゲイン設定制御部１０３Ｂは、制御部１０３の起動検出後、送話ゲイン情報記憶部１０６Ａから更新前の送話ゲイン（Ｇn-1）を読み出し増幅器１０８に設定を行う。送話ゲイン情報記憶部１０６Ａに更新前の送話ゲイン（Ｇn-1）が保持されていない場合には送話ゲインの初期値（Ｇ0）を増幅器１０８に設定する。

ステップ２３３において、音声レベル検出部１０３Ａで音声レベルＸnを検出し、
９００≦Ｘｎ≦１１００
（適正音声レベルＣ＝１０００）
の不等式を満たすか否かを判断する。
ステップ２３４において、この不等式を満たす場合には時定数Ｋ＝０．５とおき、ステップ２３６に進む。

ステップ２３５において、この不等式を満たさない場合には時定数Ｋ＝１．０とおく。
ステップ２３６において、制御部１０３は送話ゲイン設定制御部１０３Ｂによる送話ゲインを増幅器１０８に設定後、マイクロフォン１０９に入力された音声信号を増幅器１０８で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部１１１を起動して音声認識させる。

ステップ２３７において、送話ゲイン設定制御部１０３Ｂは音声認識部１１１からの認識結果の確定を待つ。
ステップ２３８において、送話ゲイン設定制御部１０３Ｂは、認識結果の確定後、認識結果と音声レベル検出部１０３Ａにより検出された音声レベル情報を取得する。認識結果を表示部１０５に表示し、スピーカ１１０に音声で出力させる。

ステップ２３９において、送話ゲインの更新処理（式（１）参照）を行う。この場合、ステップ２３４、ステップ２３５において決定された時定数Ｋの設定を行う。
ステップ２４０において、送話ゲイン設定制御部１０３Ｂは送話ゲイン情報記憶部１０６Ａに更新された送話ゲイン（Ｇn）の値を保存し、処理を終了する。
このようにして、音声レベル検出部１０３Ａで検出された音声レベルＸnが適正音声レベルＣから離れている場合には時定数Ｋを大きくし、を検出し、音声レベルＸnが適正音声レベルＣに近い場合には時定数Ｋを小さくし、適正音声レベルになるまでの発声回数を低減し、最適な送話ゲインを取得することが可能になる。

図１５は図１における変形例に係る携帯型情報端末装置の概略構成を示すブロック図である。本図に示すように、図１と比較して、制御部１０３にテスト部１０３Ｃが設けられ、テスト部１０３Ｃは、操作部１０４でテストモードのキー操作により、時定数を調整可能にし、例えば、テスト用の「テスト」という音声認識の発声を複数回行って音声認識部１１１に音声認識を処理させ、送話ゲイン設定制御部１０３Ｂに送話ゲインの最適値を予め求めさせ、送話ゲイン情報記憶部１０６Ａに送話ゲインの初期値として保存させてもよい。
これにより、音声認識時の最適な送話ゲインの設定が容易に行われる。

以上の説明では、携帯型情報端末装置について説明を行ったが、携帯電話機、ＰＨＳ（簡易型電話機）、ページャ、電子手帳等、さらに、パーソナルコンピュータを含む移動可能な移動機のすべての装置に本発明の利用が可能である。

本発明に係る携帯型情報端末装置の概略構成を示すブロック図である。図１における送話ゲイン情報記憶部１０６Ａに保持され、音声認識時に送話ゲインを最適化するための各種情報例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂの送話ゲインの更新処理の一連の動作例を説明するフローチャートである。図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝１．０である場合の例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキがあり、時定数Ｋ＝１．０である場合例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝０．５である場合の例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが大きく、バラツキが無く、時定数Ｋ＝０．５である場合の例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝０．５である場合の例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが有り、時定数Ｋ＝０．５である場合の例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝０．５であり、音声レベル検出部１０３Ａで検出される音声レベルが適正音声レベルに近い状態で急に雑音が入った場合の例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが大きく、バラツキが無く、時定数Ｋ＝０．５であり、音声レベル検出部１０３Ａで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さくなった場合の例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂによる送話ゲインの算出例で、マイクロフォン１０９からユーザの口までの距離（ｄ２＝７ｃｍ）が大きく、マイクロフォン１０９に入力される音声レベルが小さく、バラツキが無く、時定数Ｋ＝０．５であり、音声レベル検出部１０３Ａで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン１０９からユーザの口までの距離（ｄ１＝３ｃｍ）が小さく、マイクロフォン１０９に入力される音声レベルが大きくなった場合の例を説明する図である。図１における送話ゲイン設定制御部１０３Ｂの送話ゲインの更新処理の一連の別の動作例を説明するフローチャートである。図１における送話ゲイン設定制御部１０３Ｂの送話ゲインの更新処理の一連のさらなる別の動作例を説明するフローチャートである。図１における変形例に係る携帯型情報端末装置の概略構成を示すブロック図である。本発明の前提となる携帯電話機における音声認識の使用例を説明する図である。

符号の説明

１００…携帯型情報端末装置
１０１…アンテナ
１０２…無線部
１０３…制御部
１０３Ａ…音声レベル検出部
１０３Ｂ…送話ゲイン設定制御部
１０３Ｃ…テスト部
１０４…操作部
１０５…表示部
１０６…メモリ
１０６Ａ…送話ゲイン情報記憶部
１０７…Ａ／Ｄ・Ｄ／Ａコンバータ
１０８…増幅器（アンプ）
１０９…マイクロフォン
１１０…スピーカ
１１１…音声認識部

Claims

送話部のマイクロフォンに入力する音声を認識する音声認識装置において、
送話部の前記マイクロフォンから出力される音声信号を送話ゲインで増幅する増幅器と、
前記増幅器で増幅された音声レベルを検出する音声レベル検出部と、
送話ゲインの初期値、送話ゲイン、適正音声レベル、送話ゲインを更新するための時定数を記憶する送話ゲイン情報記憶部と、
前記送話ゲイン情報記憶部から送話ゲイン、適正音声レベル、時定数を読み出し、前記増幅器に前記送話ゲインを設定し、前記音声レベル検出部で検出された音声レベルを前記適正音声レベルにすべきゲインに前記時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し、更新した前記送話ゲインを前記送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部と、
前記増幅器で増幅された音声信号を入力して音声認識を行う音声認識部とを備えることを特徴とする音声認識装置。
前記送話ゲイン設定制御部は、音声認識時の第１回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定することを特徴とする、請求項１に記載の音声認識装置。
前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部に更新された送話ゲインが記憶されている場合には、音声認識の再開時の第１回目の発声時に前記送話ゲイン情報記憶部から更新された前記送話ゲインを読み出し前記増幅器に設定することを特徴とする、請求項１に記載の音声認識装置。
前記送話ゲイン設定制御部は、音声認識時の第１回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定し前記音声認識部に音声認識を行わせ、音声の認識確定後から所定時間内に音声認識の起動が検出された場合には前記送話ゲイン情報記憶部から送話ゲインの初期値を読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインの初期値を更新し前記送話ゲイン情報記憶部に保存し、又は前記送話ゲイン情報記憶部から更新前の送話ゲインを読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインを更新し、前記送話ゲイン情報記憶部に保存し、次回の発声時に更新した送話ゲインを前記送話ゲイン情報記憶部から読み出し前記増幅器に設定し、所定時間内に音声認識の起動が検出されない場合には音声認識処理を終了させることを特徴とする、請求項１に記載の音声認識装置。
前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部で検出された音声レベルが前記適正音声レベルを中心とする一定範囲内に在るか又は一定範囲外に在るかを判断し、一定範囲内に在る場合の時定数を一定範囲外に在る場合の時定数よりも小さくすることを特徴とする、請求項１に記載の音声認識装置。
前記送話ゲイン設定制御部で更新される送話ゲインＧｎは、下記の式
Ｇn＝Ｇn-1−Ｋ×２０×ｌｏｇ（Ｘn／Ｃ）ｄＢ
（Ｋ：送話ゲインの更新の時定数（０.０＜Ｋ≦１．０）、
n：音声認識回数（＝１，2、3…）、
Ｃ：適正音声レベル、
Ｘn：音声レベル検出部で検出された音声レベル）
で表されることを特徴とする、請求項１に記載の音声認識装置。
さらに、テスト部が設けられ、前記テスト部は、キー操作による時定数を調整可能にし、複数回のテスト用の発声に対して前記音声認識部に音声認識を処理させ、前記送話ゲイン設定制御部に送話ゲインの最適値を予め求めさせ、前記送話ゲイン情報記憶部に送話ゲインの初期値として保存させることを特徴とする、請求項１に記載の音声認識装置。
送話部のマイクロフォンに入力する音声を認識する音声認識方法において、
適正音声レベル、送話ゲインを記憶する工程と、
送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、
増幅された音声レベルを検出する工程と、
検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、
増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法。
音声認識方法を用いた携帯型情報端末装置において、
前記携帯型情報端末装置の携帯情報端末機能に加えて、請求項８に記載の方法に基づく音声認識機能を備えることを特徴とする、音声認識方法を用いた携帯型情報端末装置。
音声認識された認識結果を前記携帯型情報端末装置の受話口のスピーカに鳴動させ、前記携帯型情報端末装置の表示部に表示させることを特徴とする、請求項９に記載の音声認識方法を用いた携帯型情報端末装置。