JP3969908B2 - 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 - Google Patents

音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 Download PDF

Info

Publication number
JP3969908B2
JP3969908B2 JP26076099A JP26076099A JP3969908B2 JP 3969908 B2 JP3969908 B2 JP 3969908B2 JP 26076099 A JP26076099 A JP 26076099A JP 26076099 A JP26076099 A JP 26076099A JP 3969908 B2 JP3969908 B2 JP 3969908B2
Authority
JP
Japan
Prior art keywords
voice
model
input terminal
information
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26076099A
Other languages
English (en)
Other versions
JP2001086239A (ja
Inventor
康弘 小森
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP26076099A priority Critical patent/JP3969908B2/ja
Priority to DE60034914T priority patent/DE60034914T2/de
Priority to EP06076518A priority patent/EP1727128B1/en
Priority to EP00307937A priority patent/EP1085501B1/en
Priority to DE60039799T priority patent/DE60039799D1/de
Priority to US09/661,394 priority patent/US7050974B1/en
Publication of JP2001086239A publication Critical patent/JP2001086239A/ja
Application granted granted Critical
Publication of JP3969908B2 publication Critical patent/JP3969908B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、通信網を介して、音声データを伝送し、その音声認識を実行するための、音声入力端末器、音声認識装置、音声通信システム及び音声通信方法に関する。
【0002】
【従来の技術】
携帯電話等の音声入力端末器から、通信網を介して音声データをホストサーバへ送出し、特定の情報を引き出す処理等を実行する音声通信システムが提案されている。係る音声通信システムでは、音声によりデータの送受信が可能であるため、操作が簡単であるという利点がある。
【0003】
【発明が解決しようとする課題】
しかし、携帯電話等の音声入力端末器自体の特性や、その周辺環境等により、音声データが変動して十分な音声認識ができない場合がある。
【0004】
また、いかなる場合も同じ通信条件により通信を行うため、必ずしも通信効率がよいとはいえなかった。
【0005】
従って、本発明の目的は、音声入力端末器に関する事情に基づいて、最適な音声認識を達成することにある。
【0006】
【課題を解決するための手段】
本発明によれば、有線又は無線の通信網を介して音声認識装置へ音声データを伝送する音声入力端末器であって、音声の入力手段と、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段と、を備えたことを特徴とする音声入力端末器が提供される。
【0007】
本発明において、前記情報とは、前記音声入力端末器に関わる固有の情報又は利用されている周辺環境や利用者自体に関わる利用状況の情報であって、例えば、音声入力のためのマイクの特性等の前記音声入力端末器自体の機能の特性、周辺の雑音特性等の、該音声入力端末器が用いられている周辺の環境情報、若しくは、その音声入力端末器を用いる話者の話者特性等が含まれる。また、この情報には、例えば、前記入力手段から得た当該情報の元データに音響分析処理等を施したものも含まれる。
【0008】
本発明の音声入力端末器においては、前記音声認識装置から、前記モデルに基づき更新された通信のためのデータ変換条件を受け取った場合に、当該変換条件に基づいて前記音声データを変換する変換手段を更に備えることもできる。
【0009】
また、本発明の音声入力端末器においては、前記情報を保存する保存手段と、各通信時において前記情報に変更があったか否かを判定する判定手段と、を更に備え、前記情報に変更があった場合、前記情報をモデル化して前記音声認識装置へ送信することこともできる。
【0011】
また、本発明によれば、音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声認識装置であって、前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段と、作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、を備えたことを特徴とする音声認識装置が提供される。
【0014】
また、本発明の音声認識装置においては、前記情報のモデルに基づいて適応した通信のためのデータ変換条件を作成する手段と、当該データ変換条件を前記音声入力端末器へ送信する手段と、を更に備えることもできる。
【0016】
本発明の音声認識装置においては、前記データ変換条件が、前記データ変換条件が、前記モデルに基づいて作成された量子化テーブルに基づくデータ変換条件を含むこともできる。
【0020】
また、本発明によれば、有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置とからなる音声通信システムであって、前記音声入力端末器は、音声入力手段と、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、前記モデル作成手段により作成された前記モデルを前記音声認識装置へ送信する通信手段と、を備え、前記音声認識装置は、前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する手段と、作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、を備えたことを特徴とする音声通信システムが提供される。
【0024】
また、本発明によれば、有線又は無線の通信網を介して、音声入力端末から音声認識装置へ音声データを伝送する音声通信方法であって、前記音声入力端末器において、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、を含むことを特徴とする音声通信方法が提供される。
【0025】
また、本発明によれば、有線又は無線の通信網を介して音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声通信方法であって、前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する工程と、作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、を含むことを特徴とする音声通信方法が提供される。
【0029】
また、本発明によれば、有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置との間での音声通信方法であって、前記音声入力端末器において、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、を含み、前記音声認識装置において、前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する工程と、作成した前記音声認識モデルに基づいて音声認識処理を実行する工程、を含むことを特徴とする音声通信方法が提供される。
【0033】
また、本発明によれば、有線又は無線の通信網を介して音声入力端末器から音声認識装置へ音声データを伝送するために、コンピュータを、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、の前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段、前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段、として機能させるプログラムを記録した記憶媒体が提供される。
【0034】
また、本発明によれば、有線又は無線の通信網を介して音声入力端末器からの音声データについて音声認識処理を実行するために、コンピュータを、前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段、作成した前記音声認識モデルに基づいて音声認識処理を実行する手段、として機能させるプログラムを記録した記憶媒体が提供される。
【0038】
【発明の実施の形態】
以下、本発明の好適な実施の形態について、添付図面を参照して説明する。
【0039】
図1は、本発明の一実施形態に係る音声通信システムの構成図を示した図である。
【0040】
音声通信システムは、音声入力端末器としての携帯端末100と、音声認識装置としての本体200と、これらを通信可能に接続する通信回線300と、からなる。
【0041】
携帯端末100は、音声の入出力を行う入出力部101と、本体200との通信処理を実行する通信制御部102と、入力された音声に対して音響処理を行う音響処理部103と、携帯端末100の固有の又は利用状況の情報(以下、本実施形態では環境情報という。)を作成する環境情報生成部104と、音声通信情報生成部105と、を備える。
【0042】
本体200は、携帯端末100の環境情報に基づく処理を行う環境適応部201と、携帯端末100との通信処理を実行する通信制御部202と、携帯端末100からの音声データに対して音声認識処理を実行する音声認識部203と、通信のためのデータ変換条件を設定する音声通信情報生成部204と、音声認識モデル保持部205と、アプリケーション206と、を備える。
【0043】
次に、係る構成からなる音声通信システムの動作手順について図2を参照して説明する。図2は、音声通信システムの処理のフローチャートである。
【0044】
音声通信システムの処理は、環境情報を解析する初期設定モードと、音声データの通信を行う音声認識モードと、からなる。
【0045】
ステップS401では、全ての処理の開始を示している。入出力部101から処理開始のための情報を通信制御部102を通じて、本体200の通信制御部202に送られる。
【0046】
ステップS402では、選択的に、音声認識部203あるいはアプリケーション206から、メッセージが携帯端末100に送られる。例えば、環境情報に基づく教師付き話者適応を行なう場合には、発声内容のリストを送り、携帯端末100の入出力部101からメッセージ(音声又は文字)として出力する。また、環境情報に基づくマイクロホン適応を行う場合には、数秒の音声を発声してもらう旨を携帯端末100の入出力部101からメッセージとして出力する場合もある。一方、環境情報に基づく雑音適応を行う場合には、このステップS402をスキップする場合もある。
【0047】
ステップS403では、携帯端末100において環境情報を生成するために、入出力部101から音声データ(雑音も含む)を取り込む。
【0048】
ステップS404では、取り込んだ音声データについて音響処理部103で音響分析を行う。なお、環境情報をモデル(平均や分散、音素モデル)に変換する場合には、環境情報生成部104に送る。モデルにしない場合には、通信制御部102から本体へ音響分析の結果を送る。なお、音響分析をせずに、音声データを直接本体に送り、本体200側で分析等を行ってもよい。
【0049】
ステップS404で環境情報をモデルに変換する場合は、ステップS405へ進み、環境情報生成部104において環境情報の生成を行なう。たとえば、雑音適応を目的とする場合には、環境情報は、非音声区間を検出して、その区間の平均と分散を求めることにより生成する。また、マイクロホン適応を目的とする場合には、環境情報は、音声区間の平均と分散を求めることにより生成する。更に、話者適応を目的とする場合には、音素モデルなどを作成する。
【0050】
ステップS406では、作成された環境情報のモデル或いは音響分析結果若しくは音声を、本体200へ102通信制御部から送出する。
【0051】
ステップS407では、本体200が送られてきた環境情報を通信制御部202を介して受け取る。
【0052】
ステップS408では、環境情報に基づい音声認識モデル保持部205の音声認識モデルについて環境適応部201で環境適応を行ない、新たな音声認識モデルを環境適応音声認識モデルとして更新し、音声認識モデル保持部205にて保持する。
【0053】
環境適応の方法としては、雑音適応の場合には、例えば、雑音モデルと音声認識モデルとから環境適応音声認識モデルを作成するPMC法などを用いることができる。マイクロホン適応の場合では、例えば、適応用音声の平均と音声認識モデルとを用いて、環境適応音声認識モデルを作成するCMS法などを用いることができる。
【0054】
また、話者適応の場合には、例えば、話者適応モデルと音声認識モデルを用いて話者適応モデルを作成する方法等を用いることができる。さらに、環境情報がモデルではなく音声や音響分析結果で送られてきた場合には、本体200側で環境情報をモデル化してさらに適応する方法も可能である。また、直接、音声や音響分析結果を用いて環境適応する方法、EM学習方法やVFS話者適応方法などあらゆる方法が環境適応方法として可能となる。環境適応した音声認識モデルを作成することにより、認識性能を向上させることが可能となる。
【0055】
なお、音声認識モデルを携帯端末100側で作成し、これを本体200へ送出して用いることができることも言うまでもない。
【0056】
ステップS409では、音声認識の通信効率を向上させるために、通信用の音声情報を作成するテーブルの環境適応を204音声通信情報生成部にて行なう。ここでは、環境適応された音声認識モデルの分布を用いて、音声認識に用いるパラメータの各次元のスカラー量子化テーブルを作成する方法として説明する。この方法にはいろいろな方法が考えられるが、もっとも簡単な方法は、各次元全体の3σの中から最大値と最小値を探し、その間を等分割する方法である。
【0057】
さらに、量子点数を減らすためには、全分布を一分布にマージし、その3σ(例えば、ガウス分布において出現するサンプルのほとんどが含まれる範囲)の最大値、最小値を探し、その間を等分割する方法もある。
【0058】
或いは、さらに精密には、全分布の片寄りにあわせて、量子点を割り振る方法などが考えられる。本方法では、環境適応された音声認識モデルの分布を用いて各次元のスカラー量子化テーブルを作成するため、認識性能を落すことなく、通信のためのbit rateを落すことが可能になり、効率的な通信が出来る。
【0059】
ステップS410では、作成したスカラー量子化テーブルを携帯端末100に送信する。
【0060】
ステップS411では、作成されたスカラー量子化テーブルを携帯端末100で受け取り、音声通信情報生成部105に格納する。
【0061】
以上により初期設定モードが終了する。なお、携帯端末100が複数存在する場合には、本体200は、環境情報や、音声認識モデル、若しくは、量子化テーブル等のデータを各携帯端末毎に保存することもできる。
【0062】
次に音声認識モードに移行する。
【0063】
ステップS412では、入出力部101から音声を入力する。
【0064】
ステップS413では、入力された音声データを音響処理部103で音響分析し、音声通信情報生成部105に送る。
【0065】
ステップS414では、音声通信情報生成部105において、スカラー量子化テーブルを用いて、音声データの音響分析結果をスカラー量子化し、音声通信情報として符号化する。更に、符号化された音声データを本体200に通信制御部102を介して送信する。
【0066】
ステップS415では、本体200において、音声認識部203で、受信した音声データを復号化し、音声認識処理を実行し、その認識結果を出力する。この際、音声認識処理においては、先に作成した音声認識モデルを用いることは言うまでもない。
【0067】
ステップS416では、音声認識の結果がアプリケーション206で解釈され、その結果に応じたアプリケーションを求め、通信制御部202へ送る。
【0068】
ステップS417では、アプリケーション結果を、本体200の通信制御部202を介して携帯端末100へ送出する。
【0069】
ステップS418では、携帯端末100が、通信制御部102を介してアプリケーション結果を受け取る。
【0070】
ステップS419では、携帯端末100が、入出力部101よりアプリケーション結果を出力する。音声認識を継続する際は、ステップS412にもどる。
【0071】
ステップS420では、通信を終了する。
【0072】
このように、本実施形態の音声通信システムでは、携帯端末100の環境情報に適応した音声認識モデルにより音声認識を行うので、各々の携帯端末器に対応して最適な音声認識を実行することができる。また、環境情報に基づいて通信条件を設定するので、各々の携帯端末器に対応して通信効率の向上を図ることができる。
【0073】
なお、本実施形態では、雑音の場合には、雑音区間のパラメータの平均と分散を求め、それを本体に送り、音声認識モデルをPMC法により雑音適応を行う方法を例示したが、その他の雑音適応方法も採用し得ることはいうまでもない。また、端末側で平均と分散を求め、送信する方法で記述してあるが、音声情報を送り、本体側で平均と分散を求め、雑音適応を行うこともできる。
【0074】
また、本実施形態では、マイク特性の場合には、ある適当な時間の音声区間のパラメータの平均と分散を求め、それを本体に送り、音声認識モデルをCMS法によりマイク特性適応を行う方法を例示したが、その他のマイク特性適応方法も採用し得ることはいうまでもない。また、端末側で平均と分散を求め、送信する方法で記述してあるが、音声情報を送り、本体側で平均と分散を求め、雑音適応を行うこともできる。
【0075】
また、本実施形態では、話者適応法の場合には、事前に簡単な話者性を表す音素モデルを作成し、それを本体に送り、音声認識モデルを話者適応する方法により行う方法を例示したが、音声情報を送り、本体側で音声を用いて話者適応を行うこともできる。この場合にも、他の様々な話者適応法を採用し得ることもいうまでもない。
【0076】
また、本実施形態では、雑音適応、マイクロホン適応、話者適応に関して独立に記してあるが、これらを適宜組み合わせて採用することもできる。
【0077】
また、本実施形態では、音声認識モードに先だって初期設定モードを行うこととしているが、一旦初期設定モードが完了すれば、同じ環境にて音声認識を再開する場合には、いきなり音声認識モードから開始することもできる。この場合は、携帯端末100側において、先の環境情報を記憶しておき、音声認識を再開する際に作成した環境情報と比較して、変化がなければその旨の通知を本体200側へ送ることにより、若しくは、送出された環境情報等に基づいて本体200側で判断するようにすることにより、実行することができる。
【0078】
また、本実施形態では、環境情報を音声認識処理と通信効率の向上のための処理との双方に用いているが、当該環境情報によりいずれか一方のみを実行してもよいことは言うまでもない。
【0079】
以上、本発明の好適な実施の形態について説明したが、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0080】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0081】
【発明の効果】
以上述べた通り、本発明によれば、音声入力端末器に関する事情に基づいて、最適な音声認識達成することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声通信システムの構成図を示した図である。
【図2】本発明の一実施形態に係る音声通信システムの処理のフローチャートである。

Claims (18)

  1. 有線又は無線の通信網を介して音声認識装置へ音声データを伝送する音声入力端末器であって、
    音声の入力手段と、
    前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、
    前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段と、
    を備えたことを特徴とする音声入力端末器。
  2. 前記情報が、前記音声入力手段の特性、雑音特性、又は、話者特性、の少なくともいずれか一つに基づく情報であることを特徴とする請求項1に記載の音声入力端末器。
  3. 前記音声認識装置から、前記モデルに基づき更新された通信のためのデータ変換条件を受け取った場合に、当該変換条件に基づいて前記音声データを変換する変換手段を更に備えたことを特徴とする請求項1に記載の音声入力端末器。
  4. 前記情報を保存する保存手段と、
    各通信時において前記情報に変更があったか否かを判定する判定手段と、を更に備え、
    前記情報に変更があった場合、前記情報をモデル化して前記音声認識装置へ送信することを特徴とする請求項1に記載の音声入力端末器。
  5. 音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声認識装置であって、
    前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段と、
    作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、
    を備えたことを特徴とする音声認識装置。
  6. 前記情報のモデルに基づいて適応した通信のためのデータ変換条件を作成する手段と、
    当該データ変換条件を前記音声入力端末器へ送信する手段と、
    を更に備えたことを特徴とする請求項5に記載の音声認識装置。
  7. 前記データ変換条件が、前記モデルに基づいて作成された量子化テーブルに基づくデータ変換条件を含むことを特徴とする請求項に記載の音声認識装置。
  8. 有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置とからなる音声通信システムであって、
    前記音声入力端末器は、
    音声入力手段と、
    前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、
    前記モデル作成手段により作成された前記モデルを前記音声認識装置へ送信する通信手段と、を備え、
    前記音声認識装置は、
    前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成 する手段と、
    作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、
    を備えたことを特徴とする音声通信システム。
  9. 有線又は無線の通信網を介して、音声入力端末から音声認識装置へ音声データを伝送する音声通信方法であって、
    前記音声入力端末器において、
    前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、
    前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、
    を含むことを特徴とする音声通信方法。
  10. 前記情報が、前記音声入力手段の特性、雑音特性、又は、話者特性、の少なくともいずれか一つに基づく情報であることを特徴とする請求項に記載の音声通信方法。
  11. 前記音声認識装置から、前記モデルに基づき更新された通信のためのデータ変換条件を受け取った場合に、当該変換条件に基づいて前記音声データを変換する変換工程を更に備えたことを特徴とする請求項に記載の音声通信方法。
  12. 前記情報を保存する保存工程と、
    各通信時において前記情報に変更があったか否かを判定する判定工程と、を更に備え、
    前記通信工程は、前記情報に変更があった場合、前記情報をモデル化して前記音声認識装置へ送信することを特徴とする請求項に記載の音声通信方法。
  13. 有線又は無線の通信網を介して音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声通信方法であって、
    前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する工程と、
    作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、
    を含むことを特徴とする音声通信方法。
  14. 前記情報のモデルに基づいて適応した通信のためのデータ変換条件を作成する工程と、
    当該データ変換条件を前記音声入力端末器へ送信する工程と、
    を更に備えたことを特徴とする請求項13に記載の音声通信方法。
  15. 前記データ変換条件が、前記モデルに基づいて作成された量子化テーブルに基づくデータ変換条件を含むことを特徴とする請求項14に記載の音声通信方法。
  16. 有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置との間での音声通信方法であって、
    前記音声入力端末器において、
    前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、
    前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、を含み、
    前記音声認識装置において、
    前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する工程と、
    作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、
    を含むことを特徴とする音声通信方法。
  17. 有線又は無線の通信網を介して音声入力端末器から音声認識装置へ音声データを伝送するために、コンピュータを、
    前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段、
    前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段、
    として機能させるプログラムを記録した記憶媒体。
  18. 有線又は無線の通信網を介して音声入力端末器からの音声データについて音声認識処理を実行するために、コンピュータを、
    前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段、
    作成した前記音声認識モデルに基づいて音声認識処理を実行する手段、
    として機能させるプログラムを記録した記憶媒体。
JP26076099A 1999-09-14 1999-09-14 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 Expired - Fee Related JP3969908B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP26076099A JP3969908B2 (ja) 1999-09-14 1999-09-14 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
DE60034914T DE60034914T2 (de) 1999-09-14 2000-09-13 Client-Server-Spracherkennungssystem
EP06076518A EP1727128B1 (en) 1999-09-14 2000-09-13 Client-server based speech recognition
EP00307937A EP1085501B1 (en) 1999-09-14 2000-09-13 Client-server based speech recognition
DE60039799T DE60039799D1 (de) 1999-09-14 2000-09-13 Client-Server-Spracherkennungssystem
US09/661,394 US7050974B1 (en) 1999-09-14 2000-09-13 Environment adaptation for speech recognition in a speech communication system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26076099A JP3969908B2 (ja) 1999-09-14 1999-09-14 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法

Publications (2)

Publication Number Publication Date
JP2001086239A JP2001086239A (ja) 2001-03-30
JP3969908B2 true JP3969908B2 (ja) 2007-09-05

Family

ID=17352359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26076099A Expired - Fee Related JP3969908B2 (ja) 1999-09-14 1999-09-14 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法

Country Status (4)

Country Link
US (1) US7050974B1 (ja)
EP (2) EP1085501B1 (ja)
JP (1) JP3969908B2 (ja)
DE (2) DE60034914T2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
ATE336776T1 (de) * 2000-02-25 2006-09-15 Koninkl Philips Electronics Nv Vorrichtung zur spracherkennung mit referenztransformationsmitteln
JP3728177B2 (ja) 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems
CN1802694A (zh) * 2003-05-08 2006-07-12 语音信号科技公司 信噪比中介的语音识别算法
WO2005008627A1 (en) * 2003-07-18 2005-01-27 Philips Intellectual Property & Standards Gmbh Method of controlling a dialoging process
US8386248B2 (en) * 2006-09-22 2013-02-26 Nuance Communications, Inc. Tuning reusable software components in a speech application
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
EP2122610B1 (en) * 2007-01-31 2018-12-26 Telecom Italia S.p.A. Customizable method and system for emotional recognition
WO2009019783A1 (ja) * 2007-08-09 2009-02-12 Panasonic Corporation 音声認識装置及び音声認識方法
JP5402219B2 (ja) * 2009-04-28 2014-01-29 三菱電機株式会社 エレベータの呼び登録装置
CN102847325B (zh) * 2012-09-07 2015-05-06 深圳市信利康电子有限公司 基于移动通讯终端语音交互的玩具控制方法及***
JPWO2014049944A1 (ja) * 2012-09-27 2016-08-22 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6057261B2 (ja) * 1980-03-18 1985-12-13 日本電気株式会社 多回線音声入出力装置
CA1169969A (en) * 1980-08-20 1984-06-26 Gregor N. Neff Dictation system and method
US4817130A (en) * 1986-09-11 1989-03-28 International Telesystems Corporation Call management system with protocol converter and port controller
GB8702910D0 (en) * 1987-02-10 1987-03-18 British Telecomm Multi-user speech recognition system
JP2558682B2 (ja) * 1987-03-13 1996-11-27 株式会社東芝 知的ワ−クステ−シヨン
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
JPH04182000A (ja) * 1990-11-16 1992-06-29 A T R Jido Honyaku Denwa Kenkyusho:Kk 連続音声認識装置
JP3163109B2 (ja) * 1991-04-18 2001-05-08 沖電気工業株式会社 多方向同時収音式音声認識方法
JPH06124097A (ja) * 1992-10-13 1994-05-06 Hitachi Ltd 携帯型端末装置
JPH06149290A (ja) * 1992-10-30 1994-05-27 Sanyo Electric Co Ltd 音声認識装置
JP3397372B2 (ja) 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JPH0792989A (ja) * 1993-09-22 1995-04-07 Oki Electric Ind Co Ltd 音声認識方法
JPH07175495A (ja) 1993-12-21 1995-07-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識方式
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH07210190A (ja) 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
US6594628B1 (en) 1995-09-21 2003-07-15 Qualcomm, Incorporated Distributed voice recognition system
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
JP3450411B2 (ja) 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
US5666400A (en) * 1994-07-07 1997-09-09 Bell Atlantic Network Services, Inc. Intelligent recognition
JP3530591B2 (ja) 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
JP3581401B2 (ja) 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
JP3499625B2 (ja) * 1995-01-11 2004-02-23 富士通株式会社 電子コミュニティシステム
US5774628A (en) * 1995-04-10 1998-06-30 Texas Instruments Incorporated Speaker-independent dynamic vocabulary and grammar in speech recognition
JP3453456B2 (ja) 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
JPH09258771A (ja) 1996-03-25 1997-10-03 Canon Inc 音声処理方法及び装置
JPH1063293A (ja) 1996-08-23 1998-03-06 Kokusai Denshin Denwa Co Ltd <Kdd> 電話音声認識装置
DE19638114A1 (de) * 1996-09-18 1998-04-02 Siemens Ag Verfahren zum Einstellen von endgerätespezifischen Parametern eines Kommunikationsendgerätes
JPH1097276A (ja) 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
JPH10161692A (ja) 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
GB2323694B (en) 1997-03-27 2001-07-18 Forum Technology Ltd Adaptation in speech to text conversion
US5953700A (en) 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
DE69822296T2 (de) * 1997-10-20 2005-02-24 Koninklijke Philips Electronics N.V. Mustererkennungsregistrierung in einem verteilten system
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
JP3055514B2 (ja) 1997-12-05 2000-06-26 日本電気株式会社 電話回線用音声認識装置
JPH11205451A (ja) 1998-01-19 1999-07-30 Canon Inc 音声認識装置及びその方法、コンピュータ可読メモリ
JP3884851B2 (ja) * 1998-01-28 2007-02-21 ユニデン株式会社 通信システムおよびこれに用いられる無線通信端末装置
JP2001067094A (ja) * 1999-08-30 2001-03-16 Mitsubishi Electric Corp 音声認識装置及び方法
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法

Also Published As

Publication number Publication date
EP1085501A3 (en) 2002-01-09
DE60034914D1 (de) 2007-07-05
US7050974B1 (en) 2006-05-23
JP2001086239A (ja) 2001-03-30
EP1085501A2 (en) 2001-03-21
EP1727128A2 (en) 2006-11-29
DE60034914T2 (de) 2008-01-17
EP1727128B1 (en) 2008-08-06
EP1085501B1 (en) 2007-05-23
DE60039799D1 (de) 2008-09-18
EP1727128A3 (en) 2006-12-13

Similar Documents

Publication Publication Date Title
JP3969908B2 (ja) 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US9761241B2 (en) System and method for providing network coordinated conversational services
JP3728177B2 (ja) 音声処理システム、装置、方法及び記憶媒体
TW577043B (en) Voice recognition system using implicit speaker adaptation
JP6113302B2 (ja) 音声データの伝送方法及び装置
EP1125279B1 (en) System and method for providing network coordinated conversational services
JP5545467B2 (ja) 音声翻訳システム、制御装置、および情報処理方法
CN102292766B (zh) 用于语音处理的方法和装置
JP2004287447A (ja) モバイル通信デバイスのための分散音声認識
CN205508398U (zh) 具有云端交互功能的智能机器人
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
CN109376363A (zh) 一种基于耳机的实时语音翻译方法及装置
KR20180012639A (ko) 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법
JP6549009B2 (ja) 通信端末及び音声認識システム
CN110600045A (zh) 声音转换方法及相关产品
CN109785830A (zh) 信息处理装置
JP6448950B2 (ja) 音声対話装置及び電子機器
JP2003241788A (ja) 音声認識装置及び音声認識システム
US11749270B2 (en) Output apparatus, output method and non-transitory computer-readable recording medium
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP2000311077A (ja) 音声情報入力装置
JP2005055606A (ja) サーバ、情報処理端末、音声認識システム
JPH11205451A (ja) 音声認識装置及びその方法、コンピュータ可読メモリ
JP2000276188A (ja) 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体
JP2001242888A (ja) 音声認識システムおよび音声認識方法および記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050606

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050711

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050812

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070605

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110615

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120615

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120615

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130615

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees