JP3969908B2 - 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 - Google Patents
音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 Download PDFInfo
- Publication number
- JP3969908B2 JP3969908B2 JP26076099A JP26076099A JP3969908B2 JP 3969908 B2 JP3969908 B2 JP 3969908B2 JP 26076099 A JP26076099 A JP 26076099A JP 26076099 A JP26076099 A JP 26076099A JP 3969908 B2 JP3969908 B2 JP 3969908B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- model
- input terminal
- information
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 56
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 14
- 238000013139 quantization Methods 0.000 claims description 9
- 230000006978 adaptation Effects 0.000 description 33
- 230000008569 process Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Description
【発明の属する技術分野】
本発明は、通信網を介して、音声データを伝送し、その音声認識を実行するための、音声入力端末器、音声認識装置、音声通信システム及び音声通信方法に関する。
【0002】
【従来の技術】
携帯電話等の音声入力端末器から、通信網を介して音声データをホストサーバへ送出し、特定の情報を引き出す処理等を実行する音声通信システムが提案されている。係る音声通信システムでは、音声によりデータの送受信が可能であるため、操作が簡単であるという利点がある。
【0003】
【発明が解決しようとする課題】
しかし、携帯電話等の音声入力端末器自体の特性や、その周辺環境等により、音声データが変動して十分な音声認識ができない場合がある。
【0004】
また、いかなる場合も同じ通信条件により通信を行うため、必ずしも通信効率がよいとはいえなかった。
【0005】
従って、本発明の目的は、音声入力端末器に関する事情に基づいて、最適な音声認識を達成することにある。
【0006】
【課題を解決するための手段】
本発明によれば、有線又は無線の通信網を介して音声認識装置へ音声データを伝送する音声入力端末器であって、音声の入力手段と、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段と、を備えたことを特徴とする音声入力端末器が提供される。
【0007】
本発明において、前記情報とは、前記音声入力端末器に関わる固有の情報又は利用されている周辺環境や利用者自体に関わる利用状況の情報であって、例えば、音声入力のためのマイクの特性等の前記音声入力端末器自体の機能の特性、周辺の雑音特性等の、該音声入力端末器が用いられている周辺の環境情報、若しくは、その音声入力端末器を用いる話者の話者特性等が含まれる。また、この情報には、例えば、前記入力手段から得た当該情報の元データに音響分析処理等を施したものも含まれる。
【0008】
本発明の音声入力端末器においては、前記音声認識装置から、前記モデルに基づき更新された通信のためのデータ変換条件を受け取った場合に、当該変換条件に基づいて前記音声データを変換する変換手段を更に備えることもできる。
【0009】
また、本発明の音声入力端末器においては、前記情報を保存する保存手段と、各通信時において前記情報に変更があったか否かを判定する判定手段と、を更に備え、前記情報に変更があった場合、前記情報をモデル化して前記音声認識装置へ送信することこともできる。
【0011】
また、本発明によれば、音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声認識装置であって、前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段と、作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、を備えたことを特徴とする音声認識装置が提供される。
【0014】
また、本発明の音声認識装置においては、前記情報のモデルに基づいて適応した通信のためのデータ変換条件を作成する手段と、当該データ変換条件を前記音声入力端末器へ送信する手段と、を更に備えることもできる。
【0016】
本発明の音声認識装置においては、前記データ変換条件が、前記データ変換条件が、前記モデルに基づいて作成された量子化テーブルに基づくデータ変換条件を含むこともできる。
【0020】
また、本発明によれば、有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置とからなる音声通信システムであって、前記音声入力端末器は、音声入力手段と、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、前記モデル作成手段により作成された前記モデルを前記音声認識装置へ送信する通信手段と、を備え、前記音声認識装置は、前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する手段と、作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、を備えたことを特徴とする音声通信システムが提供される。
【0024】
また、本発明によれば、有線又は無線の通信網を介して、音声入力端末器から音声認識装置へ音声データを伝送する音声通信方法であって、前記音声入力端末器において、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、を含むことを特徴とする音声通信方法が提供される。
【0025】
また、本発明によれば、有線又は無線の通信網を介して音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声通信方法であって、前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する工程と、作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、を含むことを特徴とする音声通信方法が提供される。
【0029】
また、本発明によれば、有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置との間での音声通信方法であって、前記音声入力端末器において、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、を含み、前記音声認識装置において、前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する工程と、作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、を含むことを特徴とする音声通信方法が提供される。
【0033】
また、本発明によれば、有線又は無線の通信網を介して音声入力端末器から音声認識装置へ音声データを伝送するために、コンピュータを、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、の前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段、前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段、として機能させるプログラムを記録した記憶媒体が提供される。
【0034】
また、本発明によれば、有線又は無線の通信網を介して音声入力端末器からの音声データについて音声認識処理を実行するために、コンピュータを、前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段、作成した前記音声認識モデルに基づいて音声認識処理を実行する手段、として機能させるプログラムを記録した記憶媒体が提供される。
【0038】
【発明の実施の形態】
以下、本発明の好適な実施の形態について、添付図面を参照して説明する。
【0039】
図1は、本発明の一実施形態に係る音声通信システムの構成図を示した図である。
【0040】
音声通信システムは、音声入力端末器としての携帯端末100と、音声認識装置としての本体200と、これらを通信可能に接続する通信回線300と、からなる。
【0041】
携帯端末100は、音声の入出力を行う入出力部101と、本体200との通信処理を実行する通信制御部102と、入力された音声に対して音響処理を行う音響処理部103と、携帯端末100の固有の又は利用状況の情報(以下、本実施形態では環境情報という。)を作成する環境情報生成部104と、音声通信情報生成部105と、を備える。
【0042】
本体200は、携帯端末100の環境情報に基づく処理を行う環境適応部201と、携帯端末100との通信処理を実行する通信制御部202と、携帯端末100からの音声データに対して音声認識処理を実行する音声認識部203と、通信のためのデータ変換条件を設定する音声通信情報生成部204と、音声認識モデル保持部205と、アプリケーション206と、を備える。
【0043】
次に、係る構成からなる音声通信システムの動作手順について図2を参照して説明する。図2は、音声通信システムの処理のフローチャートである。
【0044】
音声通信システムの処理は、環境情報を解析する初期設定モードと、音声データの通信を行う音声認識モードと、からなる。
【0045】
ステップS401では、全ての処理の開始を示している。入出力部101から処理開始のための情報を通信制御部102を通じて、本体200の通信制御部202に送られる。
【0046】
ステップS402では、選択的に、音声認識部203あるいはアプリケーション206から、メッセージが携帯端末100に送られる。例えば、環境情報に基づく教師付き話者適応を行なう場合には、発声内容のリストを送り、携帯端末100の入出力部101からメッセージ(音声又は文字)として出力する。また、環境情報に基づくマイクロホン適応を行う場合には、数秒の音声を発声してもらう旨を携帯端末100の入出力部101からメッセージとして出力する場合もある。一方、環境情報に基づく雑音適応を行う場合には、このステップS402をスキップする場合もある。
【0047】
ステップS403では、携帯端末100において環境情報を生成するために、入出力部101から音声データ(雑音も含む)を取り込む。
【0048】
ステップS404では、取り込んだ音声データについて音響処理部103で音響分析を行う。なお、環境情報をモデル(平均や分散、音素モデル)に変換する場合には、環境情報生成部104に送る。モデルにしない場合には、通信制御部102から本体へ音響分析の結果を送る。なお、音響分析をせずに、音声データを直接本体に送り、本体200側で分析等を行ってもよい。
【0049】
ステップS404で環境情報をモデルに変換する場合は、ステップS405へ進み、環境情報生成部104において環境情報の生成を行なう。たとえば、雑音適応を目的とする場合には、環境情報は、非音声区間を検出して、その区間の平均と分散を求めることにより生成する。また、マイクロホン適応を目的とする場合には、環境情報は、音声区間の平均と分散を求めることにより生成する。更に、話者適応を目的とする場合には、音素モデルなどを作成する。
【0050】
ステップS406では、作成された環境情報のモデル或いは音響分析結果若しくは音声を、本体200へ102通信制御部から送出する。
【0051】
ステップS407では、本体200が送られてきた環境情報を通信制御部202を介して受け取る。
【0052】
ステップS408では、環境情報に基づいて音声認識モデル保持部205の音声認識モデルについて環境適応部201で環境適応を行ない、新たな音声認識モデルを環境適応音声認識モデルとして更新し、音声認識モデル保持部205にて保持する。
【0053】
環境適応の方法としては、雑音適応の場合には、例えば、雑音モデルと音声認識モデルとから環境適応音声認識モデルを作成するPMC法などを用いることができる。マイクロホン適応の場合では、例えば、適応用音声の平均と音声認識モデルとを用いて、環境適応音声認識モデルを作成するCMS法などを用いることができる。
【0054】
また、話者適応の場合には、例えば、話者適応モデルと音声認識モデルを用いて話者適応モデルを作成する方法等を用いることができる。さらに、環境情報がモデルではなく音声や音響分析結果で送られてきた場合には、本体200側で環境情報をモデル化してさらに適応する方法も可能である。また、直接、音声や音響分析結果を用いて環境適応する方法、EM学習方法やVFS話者適応方法などあらゆる方法が環境適応方法として可能となる。環境適応した音声認識モデルを作成することにより、認識性能を向上させることが可能となる。
【0055】
なお、音声認識モデルを携帯端末100側で作成し、これを本体200へ送出して用いることができることも言うまでもない。
【0056】
ステップS409では、音声認識の通信効率を向上させるために、通信用の音声情報を作成するテーブルの環境適応を204音声通信情報生成部にて行なう。ここでは、環境適応された音声認識モデルの分布を用いて、音声認識に用いるパラメータの各次元のスカラー量子化テーブルを作成する方法として説明する。この方法にはいろいろな方法が考えられるが、もっとも簡単な方法は、各次元全体の3σの中から最大値と最小値を探し、その間を等分割する方法である。
【0057】
さらに、量子点数を減らすためには、全分布を一分布にマージし、その3σ(例えば、ガウス分布において出現するサンプルのほとんどが含まれる範囲)の最大値、最小値を探し、その間を等分割する方法もある。
【0058】
或いは、さらに精密には、全分布の片寄りにあわせて、量子点を割り振る方法などが考えられる。本方法では、環境適応された音声認識モデルの分布を用いて各次元のスカラー量子化テーブルを作成するため、認識性能を落すことなく、通信のためのbit rateを落すことが可能になり、効率的な通信が出来る。
【0059】
ステップS410では、作成したスカラー量子化テーブルを携帯端末100に送信する。
【0060】
ステップS411では、作成されたスカラー量子化テーブルを携帯端末100で受け取り、音声通信情報生成部105に格納する。
【0061】
以上により初期設定モードが終了する。なお、携帯端末100が複数存在する場合には、本体200は、環境情報や、音声認識モデル、若しくは、量子化テーブル等のデータを各携帯端末毎に保存することもできる。
【0062】
次に音声認識モードに移行する。
【0063】
ステップS412では、入出力部101から音声を入力する。
【0064】
ステップS413では、入力された音声データを音響処理部103で音響分析し、音声通信情報生成部105に送る。
【0065】
ステップS414では、音声通信情報生成部105において、スカラー量子化テーブルを用いて、音声データの音響分析結果をスカラー量子化し、音声通信情報として符号化する。更に、符号化された音声データを本体200に通信制御部102を介して送信する。
【0066】
ステップS415では、本体200において、音声認識部203で、受信した音声データを復号化し、音声認識処理を実行し、その認識結果を出力する。この際、音声認識処理においては、先に作成した音声認識モデルを用いることは言うまでもない。
【0067】
ステップS416では、音声認識の結果がアプリケーション206で解釈され、その結果に応じたアプリケーションを求め、通信制御部202へ送る。
【0068】
ステップS417では、アプリケーション結果を、本体200の通信制御部202を介して携帯端末100へ送出する。
【0069】
ステップS418では、携帯端末100が、通信制御部102を介してアプリケーション結果を受け取る。
【0070】
ステップS419では、携帯端末100が、入出力部101よりアプリケーション結果を出力する。音声認識を継続する際は、ステップS412にもどる。
【0071】
ステップS420では、通信を終了する。
【0072】
このように、本実施形態の音声通信システムでは、携帯端末100の環境情報に適応した音声認識モデルにより音声認識を行うので、各々の携帯端末器に対応して最適な音声認識を実行することができる。また、環境情報に基づいて通信条件を設定するので、各々の携帯端末器に対応して通信効率の向上を図ることができる。
【0073】
なお、本実施形態では、雑音の場合には、雑音区間のパラメータの平均と分散を求め、それを本体に送り、音声認識モデルをPMC法により雑音適応を行う方法を例示したが、その他の雑音適応方法も採用し得ることはいうまでもない。また、端末側で平均と分散を求め、送信する方法で記述してあるが、音声情報を送り、本体側で平均と分散を求め、雑音適応を行うこともできる。
【0074】
また、本実施形態では、マイク特性の場合には、ある適当な時間の音声区間のパラメータの平均と分散を求め、それを本体に送り、音声認識モデルをCMS法によりマイク特性適応を行う方法を例示したが、その他のマイク特性適応方法も採用し得ることはいうまでもない。また、端末側で平均と分散を求め、送信する方法で記述してあるが、音声情報を送り、本体側で平均と分散を求め、雑音適応を行うこともできる。
【0075】
また、本実施形態では、話者適応法の場合には、事前に簡単な話者性を表す音素モデルを作成し、それを本体に送り、音声認識モデルを話者適応する方法により行う方法を例示したが、音声情報を送り、本体側で音声を用いて話者適応を行うこともできる。この場合にも、他の様々な話者適応法を採用し得ることもいうまでもない。
【0076】
また、本実施形態では、雑音適応、マイクロホン適応、話者適応に関して独立に記してあるが、これらを適宜組み合わせて採用することもできる。
【0077】
また、本実施形態では、音声認識モードに先だって初期設定モードを行うこととしているが、一旦初期設定モードが完了すれば、同じ環境にて音声認識を再開する場合には、いきなり音声認識モードから開始することもできる。この場合は、携帯端末100側において、先の環境情報を記憶しておき、音声認識を再開する際に作成した環境情報と比較して、変化がなければその旨の通知を本体200側へ送ることにより、若しくは、送出された環境情報等に基づいて本体200側で判断するようにすることにより、実行することができる。
【0078】
また、本実施形態では、環境情報を音声認識処理と通信効率の向上のための処理との双方に用いているが、当該環境情報によりいずれか一方のみを実行してもよいことは言うまでもない。
【0079】
以上、本発明の好適な実施の形態について説明したが、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0080】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0081】
【発明の効果】
以上述べた通り、本発明によれば、音声入力端末器に関する事情に基づいて、最適な音声認識を達成することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声通信システムの構成図を示した図である。
【図2】本発明の一実施形態に係る音声通信システムの処理のフローチャートである。
Claims (18)
- 有線又は無線の通信網を介して音声認識装置へ音声データを伝送する音声入力端末器であって、
音声の入力手段と、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、
前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段と、
を備えたことを特徴とする音声入力端末器。 - 前記情報が、前記音声入力手段の特性、雑音特性、又は、話者特性、の少なくともいずれか一つに基づく情報であることを特徴とする請求項1に記載の音声入力端末器。
- 前記音声認識装置から、前記モデルに基づき更新された通信のためのデータ変換条件を受け取った場合に、当該変換条件に基づいて前記音声データを変換する変換手段を更に備えたことを特徴とする請求項1に記載の音声入力端末器。
- 前記情報を保存する保存手段と、
各通信時において前記情報に変更があったか否かを判定する判定手段と、を更に備え、
前記情報に変更があった場合、前記情報をモデル化して前記音声認識装置へ送信することを特徴とする請求項1に記載の音声入力端末器。 - 音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声認識装置であって、
前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段と、
作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、
を備えたことを特徴とする音声認識装置。 - 前記情報のモデルに基づいて適応した通信のためのデータ変換条件を作成する手段と、
当該データ変換条件を前記音声入力端末器へ送信する手段と、
を更に備えたことを特徴とする請求項5に記載の音声認識装置。 - 前記データ変換条件が、前記モデルに基づいて作成された量子化テーブルに基づくデータ変換条件を含むことを特徴とする請求項6に記載の音声認識装置。
- 有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置とからなる音声通信システムであって、
前記音声入力端末器は、
音声入力手段と、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、
前記モデル作成手段により作成された前記モデルを前記音声認識装置へ送信する通信手段と、を備え、
前記音声認識装置は、
前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成 する手段と、
作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、
を備えたことを特徴とする音声通信システム。 - 有線又は無線の通信網を介して、音声入力端末器から音声認識装置へ音声データを伝送する音声通信方法であって、
前記音声入力端末器において、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、
前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、
を含むことを特徴とする音声通信方法。 - 前記情報が、前記音声入力手段の特性、雑音特性、又は、話者特性、の少なくともいずれか一つに基づく情報であることを特徴とする請求項9に記載の音声通信方法。
- 前記音声認識装置から、前記モデルに基づき更新された通信のためのデータ変換条件を受け取った場合に、当該変換条件に基づいて前記音声データを変換する変換工程を更に備えたことを特徴とする請求項9に記載の音声通信方法。
- 前記情報を保存する保存工程と、
各通信時において前記情報に変更があったか否かを判定する判定工程と、を更に備え、
前記通信工程は、前記情報に変更があった場合、前記情報をモデル化して前記音声認識装置へ送信することを特徴とする請求項9に記載の音声通信方法。 - 有線又は無線の通信網を介して音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声通信方法であって、
前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する工程と、
作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、
を含むことを特徴とする音声通信方法。 - 前記情報のモデルに基づいて適応した通信のためのデータ変換条件を作成する工程と、
当該データ変換条件を前記音声入力端末器へ送信する工程と、
を更に備えたことを特徴とする請求項13に記載の音声通信方法。 - 前記データ変換条件が、前記モデルに基づいて作成された量子化テーブルに基づくデータ変換条件を含むことを特徴とする請求項14に記載の音声通信方法。
- 有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置との間での音声通信方法であって、
前記音声入力端末器において、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、
前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、を含み、
前記音声認識装置において、
前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する工程と、
作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、
を含むことを特徴とする音声通信方法。 - 有線又は無線の通信網を介して音声入力端末器から音声認識装置へ音声データを伝送するために、コンピュータを、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段、
前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段、
として機能させるプログラムを記録した記憶媒体。 - 有線又は無線の通信網を介して音声入力端末器からの音声データについて音声認識処理を実行するために、コンピュータを、
前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段、
作成した前記音声認識モデルに基づいて音声認識処理を実行する手段、
として機能させるプログラムを記録した記憶媒体。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26076099A JP3969908B2 (ja) | 1999-09-14 | 1999-09-14 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
DE60034914T DE60034914T2 (de) | 1999-09-14 | 2000-09-13 | Client-Server-Spracherkennungssystem |
EP06076518A EP1727128B1 (en) | 1999-09-14 | 2000-09-13 | Client-server based speech recognition |
EP00307937A EP1085501B1 (en) | 1999-09-14 | 2000-09-13 | Client-server based speech recognition |
DE60039799T DE60039799D1 (de) | 1999-09-14 | 2000-09-13 | Client-Server-Spracherkennungssystem |
US09/661,394 US7050974B1 (en) | 1999-09-14 | 2000-09-13 | Environment adaptation for speech recognition in a speech communication system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26076099A JP3969908B2 (ja) | 1999-09-14 | 1999-09-14 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001086239A JP2001086239A (ja) | 2001-03-30 |
JP3969908B2 true JP3969908B2 (ja) | 2007-09-05 |
Family
ID=17352359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26076099A Expired - Fee Related JP3969908B2 (ja) | 1999-09-14 | 1999-09-14 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7050974B1 (ja) |
EP (2) | EP1085501B1 (ja) |
JP (1) | JP3969908B2 (ja) |
DE (2) | DE60034914T2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3969908B2 (ja) * | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
ATE336776T1 (de) * | 2000-02-25 | 2006-09-15 | Koninkl Philips Electronics Nv | Vorrichtung zur spracherkennung mit referenztransformationsmitteln |
JP3728177B2 (ja) | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
US7107210B2 (en) * | 2002-05-20 | 2006-09-12 | Microsoft Corporation | Method of noise reduction based on dynamic aspects of speech |
DE10251113A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren zum Betrieb eines Spracherkennungssystems |
CN1802694A (zh) * | 2003-05-08 | 2006-07-12 | 语音信号科技公司 | 信噪比中介的语音识别算法 |
WO2005008627A1 (en) * | 2003-07-18 | 2005-01-27 | Philips Intellectual Property & Standards Gmbh | Method of controlling a dialoging process |
US8386248B2 (en) * | 2006-09-22 | 2013-02-26 | Nuance Communications, Inc. | Tuning reusable software components in a speech application |
US20080147411A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment |
EP2122610B1 (en) * | 2007-01-31 | 2018-12-26 | Telecom Italia S.p.A. | Customizable method and system for emotional recognition |
WO2009019783A1 (ja) * | 2007-08-09 | 2009-02-12 | Panasonic Corporation | 音声認識装置及び音声認識方法 |
JP5402219B2 (ja) * | 2009-04-28 | 2014-01-29 | 三菱電機株式会社 | エレベータの呼び登録装置 |
CN102847325B (zh) * | 2012-09-07 | 2015-05-06 | 深圳市信利康电子有限公司 | 基于移动通讯终端语音交互的玩具控制方法及*** |
JPWO2014049944A1 (ja) * | 2012-09-27 | 2016-08-22 | 日本電気株式会社 | 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6057261B2 (ja) * | 1980-03-18 | 1985-12-13 | 日本電気株式会社 | 多回線音声入出力装置 |
CA1169969A (en) * | 1980-08-20 | 1984-06-26 | Gregor N. Neff | Dictation system and method |
US4817130A (en) * | 1986-09-11 | 1989-03-28 | International Telesystems Corporation | Call management system with protocol converter and port controller |
GB8702910D0 (en) * | 1987-02-10 | 1987-03-18 | British Telecomm | Multi-user speech recognition system |
JP2558682B2 (ja) * | 1987-03-13 | 1996-11-27 | 株式会社東芝 | 知的ワ−クステ−シヨン |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
JPH04182000A (ja) * | 1990-11-16 | 1992-06-29 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 連続音声認識装置 |
JP3163109B2 (ja) * | 1991-04-18 | 2001-05-08 | 沖電気工業株式会社 | 多方向同時収音式音声認識方法 |
JPH06124097A (ja) * | 1992-10-13 | 1994-05-06 | Hitachi Ltd | 携帯型端末装置 |
JPH06149290A (ja) * | 1992-10-30 | 1994-05-27 | Sanyo Electric Co Ltd | 音声認識装置 |
JP3397372B2 (ja) | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
JPH0792989A (ja) * | 1993-09-22 | 1995-04-07 | Oki Electric Ind Co Ltd | 音声認識方法 |
JPH07175495A (ja) | 1993-12-21 | 1995-07-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方式 |
ZA948426B (en) | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
JPH07210190A (ja) | 1993-12-30 | 1995-08-11 | Internatl Business Mach Corp <Ibm> | 音声認識方法及びシステム |
US6594628B1 (en) | 1995-09-21 | 2003-07-15 | Qualcomm, Incorporated | Distributed voice recognition system |
AU684872B2 (en) | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
JP3450411B2 (ja) | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
US5666400A (en) * | 1994-07-07 | 1997-09-09 | Bell Atlantic Network Services, Inc. | Intelligent recognition |
JP3530591B2 (ja) | 1994-09-14 | 2004-05-24 | キヤノン株式会社 | 音声認識装置及びこれを用いた情報処理装置とそれらの方法 |
JP3581401B2 (ja) | 1994-10-07 | 2004-10-27 | キヤノン株式会社 | 音声認識方法 |
JP3499625B2 (ja) * | 1995-01-11 | 2004-02-23 | 富士通株式会社 | 電子コミュニティシステム |
US5774628A (en) * | 1995-04-10 | 1998-06-30 | Texas Instruments Incorporated | Speaker-independent dynamic vocabulary and grammar in speech recognition |
JP3453456B2 (ja) | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
JP3452443B2 (ja) * | 1996-03-25 | 2003-09-29 | 三菱電機株式会社 | 騒音下音声認識装置及び騒音下音声認識方法 |
JPH09258771A (ja) | 1996-03-25 | 1997-10-03 | Canon Inc | 音声処理方法及び装置 |
JPH1063293A (ja) | 1996-08-23 | 1998-03-06 | Kokusai Denshin Denwa Co Ltd <Kdd> | 電話音声認識装置 |
DE19638114A1 (de) * | 1996-09-18 | 1998-04-02 | Siemens Ag | Verfahren zum Einstellen von endgerätespezifischen Parametern eines Kommunikationsendgerätes |
JPH1097276A (ja) | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
JPH10161692A (ja) | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
JP3402100B2 (ja) * | 1996-12-27 | 2003-04-28 | カシオ計算機株式会社 | 音声制御ホスト装置 |
GB2323694B (en) | 1997-03-27 | 2001-07-18 | Forum Technology Ltd | Adaptation in speech to text conversion |
US5953700A (en) | 1997-06-11 | 1999-09-14 | International Business Machines Corporation | Portable acoustic interface for remote access to automatic speech/speaker recognition server |
DE69822296T2 (de) * | 1997-10-20 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Mustererkennungsregistrierung in einem verteilten system |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
JP3055514B2 (ja) | 1997-12-05 | 2000-06-26 | 日本電気株式会社 | 電話回線用音声認識装置 |
JPH11205451A (ja) | 1998-01-19 | 1999-07-30 | Canon Inc | 音声認識装置及びその方法、コンピュータ可読メモリ |
JP3884851B2 (ja) * | 1998-01-28 | 2007-02-21 | ユニデン株式会社 | 通信システムおよびこれに用いられる無線通信端末装置 |
JP2001067094A (ja) * | 1999-08-30 | 2001-03-16 | Mitsubishi Electric Corp | 音声認識装置及び方法 |
JP3969908B2 (ja) * | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
-
1999
- 1999-09-14 JP JP26076099A patent/JP3969908B2/ja not_active Expired - Fee Related
-
2000
- 2000-09-13 EP EP00307937A patent/EP1085501B1/en not_active Expired - Lifetime
- 2000-09-13 EP EP06076518A patent/EP1727128B1/en not_active Expired - Lifetime
- 2000-09-13 DE DE60034914T patent/DE60034914T2/de not_active Expired - Lifetime
- 2000-09-13 US US09/661,394 patent/US7050974B1/en not_active Expired - Fee Related
- 2000-09-13 DE DE60039799T patent/DE60039799D1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1085501A3 (en) | 2002-01-09 |
DE60034914D1 (de) | 2007-07-05 |
US7050974B1 (en) | 2006-05-23 |
JP2001086239A (ja) | 2001-03-30 |
EP1085501A2 (en) | 2001-03-21 |
EP1727128A2 (en) | 2006-11-29 |
DE60034914T2 (de) | 2008-01-17 |
EP1727128B1 (en) | 2008-08-06 |
EP1085501B1 (en) | 2007-05-23 |
DE60039799D1 (de) | 2008-09-18 |
EP1727128A3 (en) | 2006-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3969908B2 (ja) | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 | |
US9761241B2 (en) | System and method for providing network coordinated conversational services | |
JP3728177B2 (ja) | 音声処理システム、装置、方法及び記憶媒体 | |
TW577043B (en) | Voice recognition system using implicit speaker adaptation | |
JP6113302B2 (ja) | 音声データの伝送方法及び装置 | |
EP1125279B1 (en) | System and method for providing network coordinated conversational services | |
JP5545467B2 (ja) | 音声翻訳システム、制御装置、および情報処理方法 | |
CN102292766B (zh) | 用于语音处理的方法和装置 | |
JP2004287447A (ja) | モバイル通信デバイスのための分散音声認識 | |
CN205508398U (zh) | 具有云端交互功能的智能机器人 | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
CN109376363A (zh) | 一种基于耳机的实时语音翻译方法及装置 | |
KR20180012639A (ko) | 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법 | |
JP6549009B2 (ja) | 通信端末及び音声認識システム | |
CN110600045A (zh) | 声音转换方法及相关产品 | |
CN109785830A (zh) | 信息处理装置 | |
JP6448950B2 (ja) | 音声対話装置及び電子機器 | |
JP2003241788A (ja) | 音声認識装置及び音声認識システム | |
US11749270B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
JP2000311077A (ja) | 音声情報入力装置 | |
JP2005055606A (ja) | サーバ、情報処理端末、音声認識システム | |
JPH11205451A (ja) | 音声認識装置及びその方法、コンピュータ可読メモリ | |
JP2000276188A (ja) | 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体 | |
JP2001242888A (ja) | 音声認識システムおよび音声認識方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040922 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041122 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050606 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050711 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050812 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070605 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110615 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120615 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120615 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130615 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |