JP2006145791A - 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置 - Google Patents
音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置 Download PDFInfo
- Publication number
- JP2006145791A JP2006145791A JP2004335175A JP2004335175A JP2006145791A JP 2006145791 A JP2006145791 A JP 2006145791A JP 2004335175 A JP2004335175 A JP 2004335175A JP 2004335175 A JP2004335175 A JP 2004335175A JP 2006145791 A JP2006145791 A JP 2006145791A
- Authority
- JP
- Japan
- Prior art keywords
- transmission gain
- voice
- level
- speech
- amplifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】マイクロフォンに入力する音声を認識する音声認識装置に、マイクロフォンから出力される音声信号を増幅する増幅器108と、増幅された音声レベルを検出する音声レベル検出部103Aと、送話ゲイン、適正音声レベル、送話ゲイン更新用の時定数を記憶する送話ゲイン情報記憶部106Aと、送話ゲイン、適正音声レベル、時定数を読み出し、増幅器に送話ゲインを設定し、検出された音声レベルを適正音声レベルにすべきゲインに時定数を乗じた値を送話ゲインに加算して送話ゲインを更新し、更新した送話ゲインを送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部103Bと、増幅された音声信号を入力して音声認識を行う音声認識部111とを備える。
【選択図】図1
Description
音声認識時には適正な音声レベルの音声信号を入力した場合に一番高い認識性能が得られるが、適正な音声レベルよりも低い場合でも高い場合でも認識率が低下する。
図16は本発明の前提となる携帯電話機における音声認識の使用例を説明する図である。
本図(a)に示すように、携帯電話機における受話部のスピーカをユーザの耳に密着した通話状態の持ち方で、音声認識が行われる。
しかしながら、実際には携帯電話機のユーザの携帯電話機の持ち方、頭の大きさ、声の大きさ等に関し、ユーザは同じ使用条件である、標準的な距離d1を確保せず、標準的な声の大きさで発声せず変動するため、ユーザの使用条件のバラツキが生じるので、送話部のマイクロフォンに入力する音声のレベルが変動し、増幅器に設定された標準的な送話ゲインGaで増幅された音声レベルが適正な音声レベルにならず、このため、音声の認識率が低下し、不具合が発生するという問題がある。
この場合、携帯電話機における送話部のマイクロフォンとユーザの口の間の標準的な距離d2で標準的な音の大きさが適正な音声レベルになるように送話部のマイクロフォンの増幅器に標準的な送話ゲインGbが設定される。
換言すれば、本発明の前提となる音声認識機能には、携帯電話機のユーザの声の大きさ、使用方法が必ずしも想定している条件と一致しないので音声の認識率の低下が生じるという問題がある。
さらに、前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部に更新された送話ゲインが記憶されている場合には、音声認識の再開時の第1回目の発声時に前記送話ゲイン情報記憶部から更新された前記送話ゲインを読み出し前記増幅器に設定する。
さらに、前記送話ゲイン設定制御部で更新される送話ゲインGnは、下記の式
Gn=Gn-1−K×20×log(Xn/C)dB
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…)、
C:適正音声レベル、
Xn:音声レベル検出部で検出された音声レベル)
で表される。
さらに、本発明は、送話部のマイクロフォンに入力する音声を認識する音声認識方法において、適正音声レベル、送話ゲインを記憶する工程と、送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、増幅された音声レベルを検出する工程と、検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法を提供する。
さらに、音声認識された認識結果を前記携帯型情報端末装置の受話口のスピーカに鳴動させ、前記携帯型情報端末装置の表示部に表示させる。
図1は本発明に係る携帯型情報端末装置の概略構成を示すブロック図である。本図に示すように、移動機である携帯型情報端末装置100にはアンテナ101が設けられ、アンテナ101は図示しない基地局と無線通信を行う。
アンテナ101には無線部102が接続され、無線部102はアンテナ101への送信信号の変調を行い、アンテナ101からの受信信号の復調を行う。
制御部103には操作部104が接続され、操作部104はCPU(中央演算装置)からなり、携帯電話の操作、音声認識の開始等を行う。制御部103は操作部104により音声認識の開始キーが押下されると、後述する音声認識部111に対して音声認識の開始命令を送信する。
さらに、制御部103にはメモリ106が接続され、メモリ106はデータ書き替え可能で携帯型情報端末装置100を制御する各種情報、送受信データを保存する。
さらに、制御部103にはA/D・D/Aコンバータ107が接続され、A/D・D/Aコンバータ107は制御部103への送話音の音声信号をアナログ信号からデジタル信号に変換し、制御部103からの受話音の音声信号をデジタル信号からアナログ信号に変換する。
増幅器108には送話部のマイクロフォン109が接続され、マイクロフォン109はユーザの送話音を入力し電気信号に変換しアナログ信号の音声信号として増幅器108に出力する。
制御部103には音声認識部111が接続され、音声認識部111はDSP(Digital Signal Processor)のLSI(大規模集積回路)からなり、マイクロフォン109からの音声信号を増幅器108で増幅し、A/D・D/Aコンバータ107でデジタル化し、制御部103を経由して入力した音声データに関し、音声認識処理を行い、制御部103を介して、音声認識の認識結果を表示部105に表示させ、音声認識時の開始音、音声認識の認識結果を音声でスピーカ110に鳴動させる。
制御部103には音声レベル検出部103Aが設けられ、音声レベル検出部103Aは、常に音声認識時に、送話部のマイクロフォン109からの音声信号が増幅器108で増幅され、A/D・D/Aコンバータ107で音声データにデジタル化され制御部103に入力した後に音声データから音声区間を検出し送話音の音声信号の音声レベルを検出する。
上記で説明した送話ゲイン設定制御部103Bで行う送話ゲインの更新式を以下に説明する。
マイクロフォン109に入力される音声レベルをAn、音声レベル検出部103Aに検出される音声レベルをXn、適正な音声レベルをCと置き、送話ゲインGnの更新式を下記式により表す。
…(1)
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…))
Xn=An×10Gn−1/20 …(2)
図3は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の動作例を説明するフローチャートである。
本図に示すように、ステップ201において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ203において、制御部103は送話ゲイン設定制御部103Bが更新前の送話ゲインGn-1を増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベル(式(2)参照)に調整した入力音声に対して、音声認識部111を起動して音声認識させる。
ステップ205において、送話ゲイン設定制御部103Bは、音声認識の認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で鳴動させる。
ステップ207において、送話ゲイン設定制御部103Bは送話ゲイン情報記憶部106Aに更新された送話ゲインの値を保存し、処理を終了する。
このようにして、送話ゲインを送話ゲイン情報記憶部106Aに保持し、音声認識を行う毎に送話ゲイン情報記憶部106Aに保持している送話ゲインを読み出し送話ゲインの更新を行うことにより、最適な送話ゲインを取得することが可能になる。これにより、音声認識時の音声レベルが適正音声レベルになり、以降も継続して音声認識に適した音声レベルが確保される。特に、推奨する使用方法と異なる使用者が音声起動しても、数回音声認識を行うことにより、使用者の使い方、声の大きさに合わせて送話ゲインの更新が行われるため、音声認識に最適な音声レベルが用いられることになる。
以下に具体例で説明する。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=700、A3=700、…であるとし、適正音声レベルをC=1000とし、以下のように、送話ゲインを算出する。
A1/X1=1
を満たし、この場合、
X1=A1=700
となる。
G1=G0−1.0×20×log(X1/1000)dB
=0.0−1.0×20×log(700/1000)dB
=3.10dB
となる。
X2=A2×10G1/20
=700×103.10/20
=1000
となる。
G2=G1−1.0×20×log(X2/1000)dB
=3.10−1.0×20×log(1000/1000)dB
=3.10dB
となる。
すなわち、送話ゲイン設定制御部103Bでは、第1回目の音声認識時には、発声前に増幅器108にG0=0.0dBを設定し、音声レベル検出部103Aでは音声レベルX1=700を検出し、G0=0.00dBをG1=3.10dBに更新する。
上記例では、マイクロフォン109に入力する音声レベルにはバラツキが無いとしたが、マイクロフォン109とユーザの口が離れて距離が一定でなく、入力される音声レベルが変動し、騒音環境で使用される場合には、時定数を大きくすると、送話ゲインの設定変化が大きく、逆に最適でない送話ゲインが設定されるので、バラツキがある場合には、以下のように時定数を小さくして送話ゲインの設定を行う。
本図では、音声認識時の第1回目、第2回目、第3回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=750、A3=700、A4=750…とし、バラツキがあるとし、その他の条件は上記例と同じであるとして、以下のように、送話ゲインを算出する。
A1/X1=1
を満たし、この場合、
X1=A1=700
となる。
G1=G0−1.0×20×log(X1/1000)dB
=0.0−1.0×20×log(700/1000)dB
=3.10dB
となる。
X2=A2×10G1/20
=750×103.10/20
=1072
となる。
G2=G1−1.0×20×log(X2/1000)dB
=3.10−1.0×20×log(1072/1000)dB
=2.50dB
となる。
X3=A3×10G2/20
=700×102.50/20
=933
となる。
G3=G2−1.0×20×log(X3/1000)dB
=2.5−1.0×20×log(933/1000)dB
=3.10dB
となる。
すなわち、送話ゲイン設定制御部103Bでは、第1回目の音声認識時には、増幅器108にG0=0.0dBを設定し、音声レベル検出部103Aでは音声レベルX1=700を検出し、G0=0.00dBをG1=3.10dBに更新する。
このため、ユーザが常に同一の条件で同一の声の大きさで発声せずに変動する場合、マイクロフォン109に入力する音声レベルA1、A2、A3、…にバラツキが生じ、音声レベル検出部103Aで検出される音声レベルが適正音声レベルと一致しないので、音声認識時に高い認識率を得ることは困難である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=700、A3=700、A4=700、A5=700、A6=700、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
A1/X1=1
となり、
X1=A1=700
となる。
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(700/1000)dB
=1.2dB
となる。
X2=A2×10G1/20
=700×101.55/20
=837
となる。
G2=G1−0.5×20×log(X2/1000)dB
=1.55−0.5×20×log(837/1000)dB
=2.32dB
となる。
X3=A3×10G2/20
=700×102.32/20
=914
となる。
G3=G2−0.5×20×log(X3/1000)dB
=2.32−0.5×20×log(914/1000)dB
=2.71dB
となる。
X4=A4×10G3/20
=700×102.71/20
=956
となる。
G4=G3−0.5×20×log(X4/1000)dB
=2.71−0.5×20×log(956/1000)dB
=2.91dB
となる。
X5=A5×10G4/20
=700×102.91/20
=979
となる。
G5=G4−0.5×20×log(X5/1000)dB
=2.91−0.5×20×log(979/1000)dB
=2.4dB
となる。
−20×log(700/1000)dB
=3.00dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回…の発声時にマイクロフォン109に入力する音声レベルがA1=1300、A2=1300、A3=1300、A4=1300、A5=1300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
A1/X1=1
となり、
X1=A1=1300
となる。
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(1300/1000)dB
=−1.14dB
となる。
X2=A2×10G1/20
=1300×10−1.14/20
=1140
となる。
G2=G1−0.5×20×log(X2/1000)dB
=−1.14−0.5×20×log(1140/1000)dB
=−1.71dB
となる。
X3=A3×10G2/20
=1300×10−1.71/20
=1068
となる。
G3=G2−0.5×20×log(X3/1000)dB
=−1.71−0.5×20×log(1068/1000)dB
=−2.00dB
となる。
X4=A4×10G3/20
=1300×10−2.00/20
=1032
となる。
G4=G3−0.5×20×log(X4/1000)dB
=−2.00−0.5×20×log(1032/1000)dB
=−2.14dB
となる。
X5=A5×10G4/20
=1300×10−2.14/20
=1016
となる。
G5=G4−0.5×20×log(X5/1000)dB
=−2.14−0.5×20×log(1016/1000)dB
=−2.21dB
となる。
−20×log(1300/1000)dB
=−2.28dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=300、A3=300、A4=300、A5=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
A1/X1=1
となり、
X1=A1=300
となる。
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(300/1000)dB
=5.23dB
となる。
X2=A2×10G1/20
=300×105.23/20
=548
となる。
G2=G1−0.5×20×log(X2/1000)dB
=5.23−0.5×20×log(548/1000)dB
=7.84dB
となる。
X3=A3×10G2/20
=300×107.84/20
=740
となる。
G3=G2−0.5×20×log(X3/1000)dB
=7.84−0.5×20×log(740/1000)dB
=8.90dB
となる。
X4=A4×10G3/20
=300×108.90/20
=836
となる。
G4=G3−0.5×20×log(X4/1000)dB
=8.90−0.5×20×log(836/1000)dB
=9.68dB
となる。
X5=A5×10G4/20
=300×109.68/20
=914
となる。
G5=G4−0.5×20×log(X5/1000)dB
=9.68−0.5×20×log(914/1000)dB
=10.07dB
となる。
−20×log(300/1000)dB
=10.46dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=750、A3=700、A4=750、A5=700、A6=750、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
A1/X1=1
となり、
X1=A1=700
となる。
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(700/1000)dB
=1.55dB
となる。
X2=A2×10G1/20
=750×101.55/20
=895
となる。
G2=G1−0.5×20×log(X2/1000)dB
=1.55−0.5×20×log(895/1000)dB
=2.02dB
となる。
X3=A3×10G2/20
=700×102.02/20
=883
となる。
G3=G2−0.5×20×log(X3/1000)dB
=2.02−0.5×20×log(883/1000)dB
=2.56dB
となる。
X4=A4×10G3/20
=750×102.56/20
=1007
となる。
G4=G3−0.5×20×log(X4/1000)dB
=2.56−0.5×20×log(1007/1000)dB
=2.53dB
となる。
X5=A5×10G4/20
=700×102.53/20
=937
となる。
G5=G4−0.5×20×log(X5/1000)dB
=2.53−0.5×20×log(937/1000)dB
=2.81dB
となる。
このように図5の時定数K=1.0に設定した場合と比較すると、時定数K=0.5の場合、音声レベル検出部103Aで検出される音声レベルは適正音声レベルC(=1000)に近づくのに発声回数をより多く必要とするが、適正音声レベルにより近づき、音声認識の認識率が向上する。すなわち、送話ゲインを更新することにより、最適な送話ゲインに近づく。
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=500、A3=300、A4=300、A5=300、A6=300、A7=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=10.46dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=700×1010.46/20
=1000
となる。
G1=G0−0.5×20×log(X1/1000)dB
=10.46−0.5×20×log(1000/1000)dB
=10.46dB
となる。
X2=A2×10G1/20
=500×102.71/20
=1667
となる。
G2=G1−0.5×20×log(X2/1000)dB
=10.46−0.5×20×log(1667/1000)dB
=8.24dB
となる。
X3=A3×10G2/20
=300×108.24/20
=775
となる。
G3=G2−0.5×20×log(X3/1000)dB
=8.24−0.5×20×log(775/1000)dB
=9.35dB
となる。
X4=A4×10G3/20
=300×109.35/20
=880
となる。
G4=G3−0.5×20×log(X4/1000)dB
=9.35−0.5×20×log(880/1000)dB
=9.91dB
となる。
X5=A5×10G4/20
=300×109.91/20
=939
となる。
G5=G4−0.5×20×log(X5/1000)dB
=9.91−0.5×20×log(939/1000)dB
=10.18dB
となる。
X6=A6×10G5/20
=300×1010.18/20
=969
となる。
G6=G5−0.5×20×log(X6/1000)dB
=10.18−0.5×20×log(969/1000)dB
=10.32dB
となる。
このように、雑音により送話ゲインが変化しても、送話ゲインを更新することにより、元の最適な送話ゲインに戻る。
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=300であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目以降の音声レベルが700に変化するとする。
X1=A1×10G0/20
=300×1010.46/20
=1000
となる。
G1=G0−0.5×20×log(X1/1000)dB
=10.46−0.5×20×log(1000/1000)dB
=10.46dB
となる。
X2=A2×10G1/20
=700×1010.46/20
=2331
となる。
G2=G1−0.5×20×log(X2/1000)dB
=10.46−0.5×20×log(2331/1000)dB
=6.78dB
となる。
X3=A3×10G2/20
=700×106.78/20
=1528
となる。
G3=G2−0.5×20×log(X3/1000)dB
=6.78−0.5×20×log(1528/1000)dB
=4.94dB
となる。
X4=A4×10G3/20
=700×104.94/20
=1236
となる。
G4=G3−0.5×20×log(X4/1000)dB
=4.94−0.5×20×log(1236/1000)dB
=4.02dB
となる。
X5=A5×10G4/20
=700×104.02/20
=1112
となる。
G5=G4−0.5×20×log(X5/1000)dB
=4.02−0.5×20×log(1112/1000)dB
=3.56dB
となる。
X6=A6×10G5/20
=700×103.56/20
=1055
となる。
G6=G5−0.5×20×log(X6/1000)dB
=3.56−0.5×20×log(1055/1000)dB
=3.33dB
となる。
X7=A7×10G6/20
=700×103.33/20
=1027
となる。
G7=G6−0.5×20×log(X7/1000)dB
=3.33−0.5×20×log(1027/1000)dB
=3.21dB
となる。
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=700であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目以降の音声レベルが300に変化するとする。
X1=A1×10G0/20
=700×103.00/20
=1000
となる。
G1=G0−0.5×20×log(X1/1000)dB
=3.00−0.5×20×log(1000/1000)dB
=3.00dB
となる。
X2=A2×10G1/20
=300×103.00/20
=424
となる。
G2=G1−0.5×20×log(X2/1000)dB
=3.00−0.5×20×log(424/1000)dB
=6.73dB
となる。
X3=A3×10G2/20
=300×106.73/20
=651
となる。
G3=G2−0.5×20×log(X3/1000)dB
=6.73−0.5×20×log(651/1000)dB
=8.60dB
となる。
X4=A4×10G3/20
=300×108.60/20
=807
となる。
G4=G3−0.5×20×log(X4/1000)dB
=8.60−0.5×20×log(807/1000)dB
=9.53dB
となる。
X5=A5×10G4/20
=300×109.53/20
=899
となる。
G5=G4−0.5×20×log(X5/1000)dB
=9.53−0.5×20×log(899/1000)dB
=9.99dB
となる。
X6=A6×10G5/20
=300×109.99/20
=948
となる。
G6=G5−0.5×20×log(X6/1000)dB
=9.99−0.5×20×log(948/1000)dB
=10.22dB
となる。
X7=A7×10G6/20
=300×1010.22/20
=973
となる。
G7=G6−0.5×20×log(X7/1000)dB
=10.22−0.5×20×log(973/1000)dB
=10.34dB
となる。
本図に示すように、ステップ211において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ212において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0)を読み出し増幅器108に設定する。
ステップ214において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
ステップ216において、送話ゲイン設定制御部103Bはタイマをスタートし、次の音声認識起動検出までの時間(TIME)を計測する。
TIME>Th
が成立する場合には処理を終了する。すなわち、所定時間Th経過しても再度音声認識起動検出が無い場合には、音声認識完了として処理を終了する。
ステップ219において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0)を読み出し増幅器108に設定し、取得した音声レベル情報に基づき送話ゲインの初期値を更新し送話ゲイン情報記憶部106Aに保存し、又は送話ゲイン情報記憶部106Aから更新前の送話ゲイン(Gn-1)を読み出し増幅器108に設定し、取得した音声レベル情報に基づき送話ゲインを更新し、更新した送話ゲイン(Gn)を送話ゲイン情報記憶部106Aに保存し、次回の発声時に更新した送話ゲインを送話ゲイン情報記憶部106Aから読み出し増幅器108に設定する。
ステップ221において、送話ゲイン設定制御部103Bは、音声認識部111が音声認識結果を確定するまで音声認識処理を待つ。
このようにして、連続起動しない音声認識時には常に送話ゲインの初期値として送話ゲイン情報記憶部106Aに保持している値を使用し、連続起動する音声認識時には送話ゲインを更新し送話ゲインの最適化を行う。すなわち、前回の音声認識で誤認識が生じた場合音声認識の再起動を行い、再起動時には送話ゲインを更新する。
本図に示すように、ステップ231において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ232において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから更新前の送話ゲイン(Gn-1)を読み出し増幅器108に設定を行う。送話ゲイン情報記憶部106Aに更新前の送話ゲイン(Gn-1)が保持されていない場合には送話ゲインの初期値(G0)を増幅器108に設定する。
900≦Xn≦1100
(適正音声レベルC=1000)
の不等式を満たすか否かを判断する。
ステップ234において、この不等式を満たす場合には時定数K=0.5とおき、ステップ236に進む。
ステップ236において、制御部103は送話ゲイン設定制御部103Bによる送話ゲインを増幅器108に設定後、マイクロフォン109に入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
ステップ238において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させる。
ステップ240において、送話ゲイン設定制御部103Bは送話ゲイン情報記憶部106Aに更新された送話ゲイン(Gn)の値を保存し、処理を終了する。
このようにして、音声レベル検出部103Aで検出された音声レベルXnが適正音声レベルCから離れている場合には時定数Kを大きくし、を検出し、音声レベルXnが適正音声レベルCに近い場合には時定数Kを小さくし、適正音声レベルになるまでの発声回数を低減し、最適な送話ゲインを取得することが可能になる。
これにより、音声認識時の最適な送話ゲインの設定が容易に行われる。
101…アンテナ
102…無線部
103…制御部
103A…音声レベル検出部
103B…送話ゲイン設定制御部
103C…テスト部
104…操作部
105…表示部
106…メモリ
106A…送話ゲイン情報記憶部
107…A/D・D/Aコンバータ
108…増幅器(アンプ)
109…マイクロフォン
110…スピーカ
111…音声認識部
Claims (10)
- 送話部のマイクロフォンに入力する音声を認識する音声認識装置において、
送話部の前記マイクロフォンから出力される音声信号を送話ゲインで増幅する増幅器と、
前記増幅器で増幅された音声レベルを検出する音声レベル検出部と、
送話ゲインの初期値、送話ゲイン、適正音声レベル、送話ゲインを更新するための時定数を記憶する送話ゲイン情報記憶部と、
前記送話ゲイン情報記憶部から送話ゲイン、適正音声レベル、時定数を読み出し、前記増幅器に前記送話ゲインを設定し、前記音声レベル検出部で検出された音声レベルを前記適正音声レベルにすべきゲインに前記時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し、更新した前記送話ゲインを前記送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部と、
前記増幅器で増幅された音声信号を入力して音声認識を行う音声認識部とを備えることを特徴とする音声認識装置。 - 前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定することを特徴とする、請求項1に記載の音声認識装置。
- 前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部に更新された送話ゲインが記憶されている場合には、音声認識の再開時の第1回目の発声時に前記送話ゲイン情報記憶部から更新された前記送話ゲインを読み出し前記増幅器に設定することを特徴とする、請求項1に記載の音声認識装置。
- 前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定し前記音声認識部に音声認識を行わせ、音声の認識確定後から所定時間内に音声認識の起動が検出された場合には前記送話ゲイン情報記憶部から送話ゲインの初期値を読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインの初期値を更新し前記送話ゲイン情報記憶部に保存し、又は前記送話ゲイン情報記憶部から更新前の送話ゲインを読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインを更新し、前記送話ゲイン情報記憶部に保存し、次回の発声時に更新した送話ゲインを前記送話ゲイン情報記憶部から読み出し前記増幅器に設定し、所定時間内に音声認識の起動が検出されない場合には音声認識処理を終了させることを特徴とする、請求項1に記載の音声認識装置。
- 前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部で検出された音声レベルが前記適正音声レベルを中心とする一定範囲内に在るか又は一定範囲外に在るかを判断し、一定範囲内に在る場合の時定数を一定範囲外に在る場合の時定数よりも小さくすることを特徴とする、請求項1に記載の音声認識装置。
- 前記送話ゲイン設定制御部で更新される送話ゲインGnは、下記の式
Gn=Gn-1−K×20×log(Xn/C)dB
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…)、
C:適正音声レベル、
Xn:音声レベル検出部で検出された音声レベル)
で表されることを特徴とする、請求項1に記載の音声認識装置。 - さらに、テスト部が設けられ、前記テスト部は、キー操作による時定数を調整可能にし、複数回のテスト用の発声に対して前記音声認識部に音声認識を処理させ、前記送話ゲイン設定制御部に送話ゲインの最適値を予め求めさせ、前記送話ゲイン情報記憶部に送話ゲインの初期値として保存させることを特徴とする、請求項1に記載の音声認識装置。
- 送話部のマイクロフォンに入力する音声を認識する音声認識方法において、
適正音声レベル、送話ゲインを記憶する工程と、
送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、
増幅された音声レベルを検出する工程と、
検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、
増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法。 - 音声認識方法を用いた携帯型情報端末装置において、
前記携帯型情報端末装置の携帯情報端末機能に加えて、請求項8に記載の方法に基づく音声認識機能を備えることを特徴とする、音声認識方法を用いた携帯型情報端末装置。 - 音声認識された認識結果を前記携帯型情報端末装置の受話口のスピーカに鳴動させ、前記携帯型情報端末装置の表示部に表示させることを特徴とする、請求項9に記載の音声認識方法を用いた携帯型情報端末装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004335175A JP4299768B2 (ja) | 2004-11-18 | 2004-11-18 | 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004335175A JP4299768B2 (ja) | 2004-11-18 | 2004-11-18 | 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006145791A true JP2006145791A (ja) | 2006-06-08 |
JP4299768B2 JP4299768B2 (ja) | 2009-07-22 |
Family
ID=36625579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004335175A Expired - Fee Related JP4299768B2 (ja) | 2004-11-18 | 2004-11-18 | 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4299768B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010232780A (ja) * | 2009-03-26 | 2010-10-14 | Brother Ind Ltd | 通信制御装置、通信制御方法、及び通信制御プログラム |
CN111344780A (zh) * | 2017-08-30 | 2020-06-26 | 亚马逊技术股份有限公司 | 基于上下文的设备仲裁 |
WO2020203384A1 (ja) * | 2019-04-04 | 2020-10-08 | 日本電信電話株式会社 | 音量調整装置、その方法、およびプログラム |
WO2021177049A1 (ja) * | 2020-03-02 | 2021-09-10 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
-
2004
- 2004-11-18 JP JP2004335175A patent/JP4299768B2/ja not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010232780A (ja) * | 2009-03-26 | 2010-10-14 | Brother Ind Ltd | 通信制御装置、通信制御方法、及び通信制御プログラム |
US8521525B2 (en) | 2009-03-26 | 2013-08-27 | Brother Kogyo Kabushiki Kaisha | Communication control apparatus, communication control method, and non-transitory computer-readable medium storing a communication control program for converting sound data into text data |
CN111344780A (zh) * | 2017-08-30 | 2020-06-26 | 亚马逊技术股份有限公司 | 基于上下文的设备仲裁 |
WO2020203384A1 (ja) * | 2019-04-04 | 2020-10-08 | 日本電信電話株式会社 | 音量調整装置、その方法、およびプログラム |
JP2020170101A (ja) * | 2019-04-04 | 2020-10-15 | 日本電信電話株式会社 | 音量調整装置、その方法、およびプログラム |
WO2021177049A1 (ja) * | 2020-03-02 | 2021-09-10 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
JP2021139935A (ja) * | 2020-03-02 | 2021-09-16 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4299768B2 (ja) | 2009-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6445799B1 (en) | Noise cancellation earpiece | |
JP3225918B2 (ja) | 携帯端末装置 | |
US20050207586A1 (en) | Mobile communication earphone accommodating hearing aid with volume adjusting function and method thereof | |
JP4299768B2 (ja) | 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置 | |
JPH11239093A (ja) | 移動体無線通信装置 | |
US20220139414A1 (en) | Communication device and sidetone volume adjusting method thereof | |
US9099095B2 (en) | Apparatus and method of processing a received voice signal in a mobile terminal | |
JP2586847B2 (ja) | 電子電話機 | |
JPH11194797A (ja) | 音声認識作動装置 | |
JP2004242050A (ja) | 無線端末及びその受話音量調節方法 | |
KR100810702B1 (ko) | 음량 자동 조절 방법과 장치 및 이를 이용하는 이동통신단말기 | |
KR100561774B1 (ko) | 벨소리를 이용한 음량 자동 조절방법 | |
KR101130711B1 (ko) | 이동통신 단말기에서의 통화품질 제어 장치 및 그 방법 | |
KR100636355B1 (ko) | 고막손상 방지를 위한 스피커 폰의 점증적 볼륨 제어 방법및 그 이동통신 단말기 | |
KR100678052B1 (ko) | 휴대용 단말기의 에코 제어장치 및 방법 | |
KR100386414B1 (ko) | 이동통신 단말기의 스피커 폰 장치 및 스피커 폰장치에서의 스피커 하울링 제거방법 | |
JPH11163977A (ja) | 携帯電話機 | |
KR100369647B1 (ko) | 핸즈프리 기능 구현을 위한 보코더 및 코덱 이득 제어 방법 | |
JP2001177607A (ja) | 電話機の自動音量制御方法及びその制御装置 | |
KR100362561B1 (ko) | 이동 무선 단말기에서 스피커 출력 신호의 처리 방법 | |
KR100917188B1 (ko) | 이동통신 단말기의 벨 음량 조절방법 | |
JPH0748771B2 (ja) | 拡声電話機 | |
JP2000069141A (ja) | 音声認識機能付き電話機 | |
JPH04216216A (ja) | 通話装置の送話音量最適化回路 | |
JP2006270300A (ja) | 受話音量制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080717 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090330 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090417 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |