JP2000069141A - 音声認識機能付き電話機 - Google Patents

音声認識機能付き電話機

Info

Publication number
JP2000069141A
JP2000069141A JP10240173A JP24017398A JP2000069141A JP 2000069141 A JP2000069141 A JP 2000069141A JP 10240173 A JP10240173 A JP 10240173A JP 24017398 A JP24017398 A JP 24017398A JP 2000069141 A JP2000069141 A JP 2000069141A
Authority
JP
Japan
Prior art keywords
voice
speaker
voice recognition
noise
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10240173A
Other languages
English (en)
Inventor
Hiroyuki Ishida
博之 石田
Keisuke Koide
啓介 小出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uniden Corp
Original Assignee
Uniden Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uniden Corp filed Critical Uniden Corp
Priority to JP10240173A priority Critical patent/JP2000069141A/ja
Publication of JP2000069141A publication Critical patent/JP2000069141A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】 周囲雑音とともに、これ以外の不要な音響信
号、例えば話者のため息、咳払い等の影響を軽減し、高
い精度で音声認識する。 【解決手段】 イヤスピーカモード/スピーカホンモー
ドのいずれかに応じて選択される複数のマイクロフォン
と、前記複数のマイクロフォンのうち選択されたマイク
ロフォンにより得た音声信号を所定の増幅率で増幅する
増幅器と、前記増幅器の出力に基づき音声認識を行う音
声認識部と、前記音声認識部の認識結果に基づき送受信
操作を行うとともに、話者からの突発的雑音を認識しな
いように前記動作モードに応じて最大レベル近傍の増幅
率を下げる制御部とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識機能付
き電話機に関し、特に、電話機が複数の動作モードをも
つときにその状態に適するようにマイクロフォンのゲイ
ンを調整し、認識率を向上させる電話機に関する。
【0002】
【従来の技術】従来の電話機においてダイヤルする方法
として、直接電話番号を入力する方法や短縮ダイヤルを
用いる方法があった。近年、音声認識処理技術の進歩や
そのLSI化の進展により、ユーザーの音声を認識し、
この認識結果によりダイヤルする方法/電話機が実用化
されるようになってきた。
【0003】一般に、音声認識を行う際、マイクロフォ
ンのゲインを上げすぎると、周囲の雑音、話者の息、話
者以外の声まで認識してしまい、認識率の悪化を招く恐
れがある。一方、ゲインを下げすぎると、話者とマイク
ロフォンの距離が長い場合に目的とする音声を正確に拾
うことができなくなるおそれがある。これを避けるに
は、例えば、話者とマイクロフォンとの距離を測定し、
距離に応じてゲインを調整することが考えられる。
【0004】
【発明が解決しようとする課題】特開平02−181200号公
報「音声認識装置」は、話者が発声する前に周囲雑音レ
ベルを測定し、その値を基にしてマイクの利得を調節す
る、同時に、その設定利得に応じた入力音声信号を得る
ために、話者に対して発声レベルを通知し、話者の協力
を得ることにより、認識率の向上を図るという技術を開
示する。しかし、この技術は、単に周囲雑音に基づきマ
イクの利得を調整するに過ぎないので、話者の息、話者
以外の声に対する誤認識は防止できない。さらに、「今
の周囲雑音はこの位なので、これくらいの声の大きさで
話して下さい」等のガイダンスを話者に伝え、話者に発
声レベルの調整を強いるとともに、電話機にそのための
表示機能やガイダンス機能を持たせなければならないと
いう問題がある。
【0005】持開平06−67689号公報「音声認識装置」
は、自動車で使用される、例えば、車載電話やカーナビ
ゲーションシステムなどの音声認識装置を開示する。こ
の技術は、自動車が走行中に発声する騒音発生源の諸要
因と考えられる諸要因、例えば、エンジンの回転数や窓
の開き具合等を検知する検出部を設け、この検出部にて
測定された値に応じてマイクの利得を調節するというも
のである。しかし、この技術は、単に雑音音量に基づき
マイクの利得を調整するに過ぎないので、話者の息、話
者以外の声に対する誤認識は防止できない。さらに、雑
音音量の検出器が必要になるという問題がある。
【0006】この発明は、かかる問題を解決するために
なされたもので、簡単な構成で、周囲雑音とともに、こ
れ以外の不要な音響信号、例えば話者の息等の影響を軽
減し、高い精度で音声認識することが可能な音声認識機
能付き電話機を提供することを目的とする。
【0007】
【課題を解決するための手段】この発明に係る音声認識
機能付き電話機は、マイクロフォンと、前記マイクロフ
ォンにより得た音声信号を所定の増幅率で増幅する増幅
器と、前記増幅器の出力に基づき音声認識を行う音声認
識部と、前記音声認識部の認識結果に基づき送受信操作
を行うとともに、話者からの突発的雑音を認識しないよ
うに動作モードに応じて前記増幅率を変化させる制御部
とを備えるものである。
【0008】話者の突発的雑音には、音声以外の突発的
な音、例えば、鼻息、舌打ち、咳、咳ばらい、くしゃ
み、あくび、ため息が含まれる。
【0009】好ましくは、前記動作モードとしてイヤス
ピーカを用いずに通話するスピーカホンモード及びイヤ
スピーカを用いるイヤスピーカモードを含み、前記制御
部は、前記イヤスピーカモードのとき最大レベル近傍の
増幅率を下げる。
【0010】例えば、AGC(自動利得調整)の範囲
を、レベルに応じて「1(Minimum)」、「2(Low)」、
「3(High)」、「4(Maximum)」の4段階とする場合
と、「1(Minimum)」、「2(Low)」、「3(High)」の3
段階とする場合(この設定を「制限付AGC」と記す)
の2通りに設定し、前記制御部は、前記イヤスピーカモ
ードのとき前記制限付AGCを採用する。制限付AGC
を用いると認識率が約1.36倍に向上すると期待され
る。
【0011】この発明に係る音声認識機能付き電話機
は、マイクロフォンと、前記マイクロフォンにより得た
音声信号を所定の増幅率で増幅する増幅器と、前記増幅
器の出力に基づき音声認識を行う音声認識部と、話者ま
での距離を測定する距離測定手段と、前記音声認識部の
認識結果に基づき送受信操作を行うとともに、話者から
の突発的雑音を認識しないように前記距離測定手段によ
り測定された距離に応じて前記増幅率を変化させる制御
部とを備えるものである。
【0012】好ましくは、前記制御部は、測定された距
離が近いときに最大レベル近傍の増幅率を下げる。
【0013】好ましくは、音声認識に先立ち雑音のレベ
ルを測定する雑音レベル判定回路を備え、前記制御部
は、雑音レベルよりも音声レベルが大きくなるように前
記増幅率を制御する。背景雑音のレベルに応じて適切な
ゲインを設定することが可能になる。
【0014】
【発明の実施の形態】図1は、この発明の実施の形態に
係る、音声認識装置を備える電話機の機能ブロック図で
ある。一般的な電話機には、図1で示される機能の他
に、リンガー回路、キーパッドや通話回路、コードレス
電話機であれば送受話器を具備しているが、これらはこ
の発明に直接関係するものではないため図示していな
い。
【0015】AGC回路6は、マイク1あるいは別の音
声入力経路より入力される音声信号または周囲雑音等の
音響信号を受けて所定の増幅率でそれを増幅し、音声認
識回路7に供給する。別の音声入力経路として、例えば
音声がマイクからではなく、別の局から電波を用いて入
力される場合や、親機にこの音声認識システムがある場
合に子機のマイクから入力した音声信号を電波を用いて
親機に送り、所定の動作を行う場合などが考えられる。
【0016】AGC回路6の増幅率はCPU9または音
声認識回路7により制御される。また、マイク1あるい
は別の音声入力経路より入力される音声信号や周囲雑音
等の音響信号は雑音レベル判定回路8に入力される。
【0017】この雑音レベル判定回路8は、周囲雑音の
レベルを判定し、その判定結果をCPU9あるいは音声
認識回路7に供給する。
【0018】CPU9は音声認識回路7より入力される
認識結果に基づき所定の動作、例えばダイヤリングやメ
モリ・ダイヤルの登録などを行う。
【0019】この電話機は、さらに複数のモード、例え
ばスピーカホン(ハンズフリー)モード/イアスピーカ
モードを選択するモードスイッチ5を備える。スピーカ
ホンモードでは、ハンズフリースピーカ4より音声が出
力され、例えば、外線からの入力音響信号や音声認識回
路7より出力される音声信号を出力する。イアスピーカ
モードでも同様にイヤスピーカ3より音声が出力され
る。
【0020】モードは、ユーザーがモードスイッチ5を
操作することにより手動で、あるいはCPU9により自
動的に設定される。
【0021】図1の電話機は、簡単な構成で、周囲雑音
とともに、これ以外の不要な音響信号、例えば話者の息
等を影響を軽減し、高い精度で音声認識することが可能
である。図1の装置の各ブロックの動作説明をする前
に、その動作原理について説明する。
【0022】音声認識をする上で、音声信号以外の周囲
雑音や背景雑音を取り除いたり、レベルを音声信号より
も低くする必要がある。このような処理を行わないと認
識率が低下する。そのため、音声認識を行うにあたり、
その前にマイクで得た雑音信号のレベルを測定し、この
雑音レベルよりも音声レベルが大きくなるように、可変
利得増幅器(AGC)6の増幅率(ゲイン)を調整する
ことが行われる。例えば、音声信号のレベルが比較的大
きければゲインを下げ、雑音のレベルを小さくする。一
方、音声信号のレベルが比較的小さければゲインを上げ
るとともに、フィルタ回路等により雑音成分を除去す
る。信号が、ユーザの音声信号とこれ以外の雑音信号の
2種類しかない場合にはこのような処理で十分なことが
多い。
【0023】しかし、ユーザが発する信号のすべてが、
音声認識の対象となる音声信号であるとは限らない。ユ
ーザが発する音には、音声以外の突発的な音、例えば、
鼻息、舌打ち、咳、咳ばらい、くしゃみ、あくび、ため
息が含まれる。この種のユーザの音は音声認識にとって
雑音と同じように邪魔であり、除去されることが望まし
い。しかし、雑音の場合とは異なり、単にゲインを調整
するだけではうまくいかない。これは、音声と雑音はそ
れぞれ異なる発生源から発生するが、音声と鼻息等の音
は同じ発生源により発生するからである。
【0024】そこで、この発明の実施の形態の電話機で
は、音声と鼻息等の音(以下、「不要音」あるいは「突
発的な雑音」と記す)は同じ発生源によるものの、これ
らの間にレベル差があることに着目して両者の分離を実
現した。通常の会話において、音声と不要音はレベルの
点で必ずしも違いがあるとは限らない。しかし、この実
施の形態の認識機能付き電話機に対して音声を発する場
合、通常の会話とは異なり、ユーザは勉めて音声を明瞭
に発しようとするために音声のレベルは比較的高くな
る。一方、不要音は意図せざる音(緊張のため思わずた
め息が出る等)でありそのレベルは通常以下に抑えられ
ると予想される。したがって、音声のレベルは比較的高
く、不要音のレベルは比較的低くなる。とはいうものの
この不要音のレベルは通常の雑音レベルよりも大きく、
対策が必要である。この発明の実施の形態の電話機は、
不要音を直接除去する代わりに、AGC回路6のレベル
設定をユーザまでの距離に応じて(あるいはモードごと
に)変化させることにより、不要音の影響を軽減したも
のである。具体的には、イヤスピーカモードのときは不
要信号を拾わないようにゲインを下げるとともに、ユー
ザと距離があるスピーカホンモードのときユーザの音声
を確実に拾うためにゲインを上げる。
【0025】次に動作について、図2のフローチャート
を参照して説明する。
【0026】S1:音声認識要求操作がなされたかどう
かを判断する。
【0027】S2:音声認識要求操作がなされた場合、
雑音レベル判定回路8により雑音測定を行う。これは、
背景雑音のレベルに応じて適切なゲインを設定するため
である。
【0028】S3:次に、動作モードを判定する。すな
わち、モードスイッチがイヤスピーカモード/スピーカ
ホンモードのいずれのモードを選択しているかを判定す
る。
【0029】S4:次に、判定された動作モードに基づ
きマイクゲインの設定を行う。イヤスピーカモードであ
れば、ユーザの音声をイヤスピーカで確実にとらえるこ
とができるからゲインを下げる。一方、スピーカホンモ
ードであれば、ユーザの音声を確実にとらえるためにゲ
インを上げる。このことは、話者とマイクロフォンとの
距離が近いか遠いかを判断し、この判断に基づきゲイン
の調整を行うことを意味する。モードスイッチ12によ
り電話機がスピーカホンモードに設定されているとき
は、話者(ユーザー)とマイクロフォンの距離が比較的
長いと考えられる。一方、イヤスピーカモードに設定さ
れているときはその距離が短いと考えられる。なお、モ
ードスイッチ12に代えて、あるいは共に赤外線、超音
波等を用いた距離測定手段13を設け、ユーザまでの距
離を直接求めるようにしてもよい。この場合、同じスピ
ーカホンモード内において距離の大小によりゲインを調
整することもできる。
【0030】結局、この発明の実施の形態の電話機にお
いて、音声認識回路8に入力される信号のゲインは、雑
音レベルとユーザまでの距離又は動作モードにより選択
される。ここで行われるゲインの選択はAGC回路6で
なされるが、具体的には次のように調整される。AGC
(自動利得調整)の範囲を、レベルに応じて「1(Minim
um)」、「2(Low)」、「3(High)」、「4(Maximum)」
の4段階とする場合と、「1(Minimum)」、「2(Lo
w)」、「3(High)」の3段階とする場合の2通りに設定
可能とする。前者の範囲に設定することを「ゲインを下
げる」といい、後者の範囲に設定することを「ゲインを
上げる」という。後者は前者の「4(Maximum)」の段階
をもたないから、後者の場合、高いレベルの信号が抑圧
されることになる。このことはAGCの増幅特性の直線
性を修正し、高いレベルの入力信号に対するゲインを、
比較的低いレベルの入力信号のゲインに比べて小さくす
ることを意味する。なお、この点については後程さらに
詳しく説明する。
【0031】S5:音声認識回路7が、AGC回路6の
出力信号に基づき音声認識を行い、その結果をCPU1
0の送る。
【0032】S6:CPU10は、音声認識結果に基づ
きダイヤリングを行う。電話番号が直接入力されたので
あればその番号をダイヤルし、短縮番号が入力されたの
であれば短縮番号メモリに記憶されている対応する番号
をダイヤルし、相手先の名前が入力されたのであれば、
名前をキーとして電話帳メモリを検索し、対応する番号
を読み出してダイヤルする。
【0033】以上のS1〜S6の処理により発信時にお
ける音声認識及びダイヤル操作は終了する。言うまでも
なく、図2のフローチャートはこの発明をダイヤル操作
に適用した一例であり、電話機の他の操作についても適
用できるのは言うまでもない。また、AGCの段階も例
示であり、これ以外の段階(2、5、6、・・・)を採
用してもよい。また、AGCの範囲も2種類に限らず、
3種類以上でもよい。
【0034】次に本実施の形態に関する実験例を説明す
る。以下の説明は、鼻息等による突発的な雑音を含んだ
音声を用いて音声認識率を評価した結果である。
【0035】AGC(自動利得調整)の範囲を、レベル
に応じて「1(Minimum)」、「2(Low)」、「3(Hig
h)」、「4(Maximum)」の4段階とする場合と、「1(Mi
nimum)」、「2(Low)」、「3(High)」の3段階とする
場合(この設定を「制限付AGC」と記す)の2通りに
設定し、それぞれについて評価した。まず、通常の音声
で、4種類の音声サンプル(A〜D)を登録した。音声
登録の際には、制限付AGCは使わず、また、音声に突
発的な雑音を含まないようにした。
【0036】次に、コードレス電話機のマイクロホンか
ら2〜3 cmの位置(これはイヤスピーカモードに対応す
る)から、先に登録した音声に対して突発的な雑音を加
えた音声を各10回ずつ発声し、制限付AGCを用いた
場合と制限を加えないAGCを用いた場合のそれぞれに
ついて認識率の評価を行った。評価結果を図3に示す。
図3によれば、音声に突発的な雑音を含む場合、イヤス
ピーカモードにおいて4段階の通常のAGCを用いると
認識率は62.5%であったが、下3段階に絞った制限
付AGCを用いると認識率が85%に向上することがわ
かる。
【0037】なお、本明細書において、手段とは必ずし
も物理的手段を意味するものではなく、各手段の機能
が、ソフトウェアによって実現される場合も包含する。
さらに、一つの手段の機能が、二つ以上の物理的手段に
より実現されても、若しくは、二つ以上の手段の機能
が、一つの物理的手段により実現されてもよい。
【0038】
【発明の効果】以上のように、この発明によれば、マイ
クロフォンにより得た音声信号を所定の増幅率で増幅す
る増幅器と、話者からの突発的雑音を認識しないように
前記動作モードに応じて前記増幅率を変化させる制御部
とを備えるので、簡単な構成で、周囲雑音とともに、こ
れ以外の不要な音響信号、例えば話者の息等の影響を軽
減できて高い精度で音声認識することが可能になる。特
に、近距離のとき最大レベル近傍の増幅率を下げること
により、より効果的である。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る電話機の機能
ブロック図である。
【図2】 この発明の実施の形態1における音声認識に
関する処理のフローチャートである。
【図3】 この発明の実施の形態1における音声認識の
評価結果を示す図である。
【符号の説明】
1 マイク 2 距離測定手段 3 イヤスピーカ 4 ハンズフリースピーカ 5 モードスイッチ 6 AGC(自動利得調整)回路 7 音声認識回路 8 雑音レベル測定回路 9 中央処理装置(CPU)

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 マイクロフォンと、前記マイクロフォン
    により得た音声信号を所定の増幅率で増幅する増幅器
    と、前記増幅器の出力に基づき音声認識を行う音声認識
    部と、前記音声認識部の認識結果に基づき送受信操作を
    行うとともに、話者からの突発的雑音を認識しないよう
    に動作モードに応じて前記増幅率を変化させる制御部と
    を備える音声認識機能付き電話機。
  2. 【請求項2】 前記動作モードとしてイヤスピーカを用
    いずに通話するスピーカホンモード及びイヤスピーカを
    用いるイヤスピーカモードを含み、前記制御部は、前記
    イヤスピーカモードのとき最大レベル近傍の増幅率を下
    げることを特徴とする請求項1記載の音声認識機能付き
    電話機。
  3. 【請求項3】 マイクロフォンと、前記マイクロフォン
    により得た音声信号を所定の増幅率で増幅する増幅器
    と、前記増幅器の出力に基づき音声認識を行う音声認識
    部と、話者までの距離を測定する距離測定手段と、前記
    音声認識部の認識結果に基づき送受信操作を行うととも
    に、話者からの突発的雑音を認識しないように前記距離
    測定手段により測定された距離に応じて前記増幅率を変
    化させる制御部とを備える音声認識機能付き電話機。
  4. 【請求項4】 前記制御部は、測定された距離が近いと
    きに最大レベル近傍の増幅率を下げることを特徴とする
    請求項3記載の音声認識機能付き電話機。
  5. 【請求項5】 音声認識に先立ち雑音のレベルを測定す
    る雑音レベル判定回路を備え、前記制御部は、雑音レベ
    ルよりも音声レベルが大きくなるように前記増幅率を制
    御することを特徴とする請求項1又は請求項3記載の音
    声認識機能付き電話機。
JP10240173A 1998-08-26 1998-08-26 音声認識機能付き電話機 Withdrawn JP2000069141A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10240173A JP2000069141A (ja) 1998-08-26 1998-08-26 音声認識機能付き電話機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10240173A JP2000069141A (ja) 1998-08-26 1998-08-26 音声認識機能付き電話機

Publications (1)

Publication Number Publication Date
JP2000069141A true JP2000069141A (ja) 2000-03-03

Family

ID=17055571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10240173A Withdrawn JP2000069141A (ja) 1998-08-26 1998-08-26 音声認識機能付き電話機

Country Status (1)

Country Link
JP (1) JP2000069141A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9160404B2 (en) 2012-01-24 2015-10-13 Fujitsu Limited Reverberation reduction device and reverberation reduction method
JP2019195221A (ja) * 2018-09-30 2019-11-07 百度在線網絡技術(北京)有限公司 音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9160404B2 (en) 2012-01-24 2015-10-13 Fujitsu Limited Reverberation reduction device and reverberation reduction method
JP2019195221A (ja) * 2018-09-30 2019-11-07 百度在線網絡技術(北京)有限公司 音声インタラクション方法、端末機器、サーバ及びコンピュータ読み取り可能な記憶媒体
US11282519B2 (en) 2018-09-30 2022-03-22 Baidu Online Network Technology (Beijing) Co., Ltd. Voice interaction method, device and computer readable storage medium

Similar Documents

Publication Publication Date Title
JP4247002B2 (ja) マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
US7769593B2 (en) Method and apparatus for active noise cancellation
US6298247B1 (en) Method and apparatus for automatic volume control
US9264527B2 (en) Hands-free telephone conversation apparatus
US20110213553A1 (en) Navigation device
US6952672B2 (en) Audio source position detection and audio adjustment
KR20090106533A (ko) 상이한 잡음 환경에 반응하는 사용자 선호 오디오 셋팅을 통해 사용자 반응을 동적으로 학습하는 방법
US7054436B2 (en) Communication terminals with a dual use speaker for sensing background noise and generating sound, and related methods and computer program products
US11432065B2 (en) Automatic keyword pass-through system
JP2000069141A (ja) 音声認識機能付き電話機
JP2007043356A (ja) 音量自動調節装置および音量自動調節方法
JPH11239093A (ja) 移動体無線通信装置
US7756265B2 (en) On-board hands-free communication apparatus
JP4299768B2 (ja) 音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置
JP4867624B2 (ja) 音声出力制御装置および車両用ナビゲーション装置
JP2006033700A (ja) 車載ハンズフリー通話装置
JP6948275B2 (ja) 通話装置、及び通話装置の制御方法
US20220139414A1 (en) Communication device and sidetone volume adjusting method thereof
EP3737111A1 (en) Proactive sound detection with noise cancellation component within earphone or headset
JP2007194833A (ja) ハンズフリー機能を備えた携帯電話
US11240653B2 (en) Main unit, system and method for an infotainment system of a vehicle
JP2021129256A (ja) ハンズフリー制御装置およびプログラム
JP2001177607A (ja) 電話機の自動音量制御方法及びその制御装置
JP2003274003A (ja) ハンズフリー通話装置及び携帯電話機
JPH11194795A (ja) 音声認識作動装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051101