JP3969908B2

JP3969908B2 - 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法

Info

Publication number: JP3969908B2
Application number: JP26076099A
Authority: JP
Inventors: 康弘小森; 雅章山田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-09-14
Filing date: 1999-09-14
Publication date: 2007-09-05
Anticipated expiration: 2019-09-14
Also published as: EP1085501A3; DE60034914D1; US7050974B1; JP2001086239A; EP1085501A2; EP1727128A2; DE60034914T2; EP1727128B1; EP1085501B1; DE60039799D1; EP1727128A3

Description

【０００１】
【発明の属する技術分野】
本発明は、通信網を介して、音声データを伝送し、その音声認識を実行するための、音声入力端末器、音声認識装置、音声通信システム及び音声通信方法に関する。
【０００２】
【従来の技術】
携帯電話等の音声入力端末器から、通信網を介して音声データをホストサーバへ送出し、特定の情報を引き出す処理等を実行する音声通信システムが提案されている。係る音声通信システムでは、音声によりデータの送受信が可能であるため、操作が簡単であるという利点がある。
【０００３】
【発明が解決しようとする課題】
しかし、携帯電話等の音声入力端末器自体の特性や、その周辺環境等により、音声データが変動して十分な音声認識ができない場合がある。
【０００４】
また、いかなる場合も同じ通信条件により通信を行うため、必ずしも通信効率がよいとはいえなかった。
【０００５】
従って、本発明の目的は、音声入力端末器に関する事情に基づいて、最適な音声認識を達成することにある。
【０００６】
【課題を解決するための手段】
本発明によれば、有線又は無線の通信網を介して音声認識装置へ音声データを伝送する音声入力端末器であって、音声の入力手段と、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段と、を備えたことを特徴とする音声入力端末器が提供される。
【０００７】
本発明において、前記情報とは、前記音声入力端末器に関わる固有の情報又は利用されている周辺環境や利用者自体に関わる利用状況の情報であって、例えば、音声入力のためのマイクの特性等の前記音声入力端末器自体の機能の特性、周辺の雑音特性等の、該音声入力端末器が用いられている周辺の環境情報、若しくは、その音声入力端末器を用いる話者の話者特性等が含まれる。また、この情報には、例えば、前記入力手段から得た当該情報の元データに音響分析処理等を施したものも含まれる。
【０００８】
本発明の音声入力端末器においては、前記音声認識装置から、前記モデルに基づき更新された通信のためのデータ変換条件を受け取った場合に、当該変換条件に基づいて前記音声データを変換する変換手段を更に備えることもできる。
【０００９】
また、本発明の音声入力端末器においては、前記情報を保存する保存手段と、各通信時において前記情報に変更があったか否かを判定する判定手段と、を更に備え、前記情報に変更があった場合、前記情報をモデル化して前記音声認識装置へ送信することこともできる。
【００１１】
また、本発明によれば、音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声認識装置であって、前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段と、作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、を備えたことを特徴とする音声認識装置が提供される。
【００１４】
また、本発明の音声認識装置においては、前記情報のモデルに基づいて適応した通信のためのデータ変換条件を作成する手段と、当該データ変換条件を前記音声入力端末器へ送信する手段と、を更に備えることもできる。
【００１６】
本発明の音声認識装置においては、前記データ変換条件が、前記データ変換条件が、前記モデルに基づいて作成された量子化テーブルに基づくデータ変換条件を含むこともできる。
【００２０】
また、本発明によれば、有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置とからなる音声通信システムであって、前記音声入力端末器は、音声入力手段と、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、前記モデル作成手段により作成された前記モデルを前記音声認識装置へ送信する通信手段と、を備え、前記音声認識装置は、前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する手段と、作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、を備えたことを特徴とする音声通信システムが提供される。
【００２４】
また、本発明によれば、有線又は無線の通信網を介して、音声入力端末器から音声認識装置へ音声データを伝送する音声通信方法であって、前記音声入力端末器において、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、を含むことを特徴とする音声通信方法が提供される。
【００２５】
また、本発明によれば、有線又は無線の通信網を介して音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声通信方法であって、前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する工程と、作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、を含むことを特徴とする音声通信方法が提供される。
【００２９】
また、本発明によれば、有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置との間での音声通信方法であって、前記音声入力端末器において、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、を含み、前記音声認識装置において、前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する工程と、作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、を含むことを特徴とする音声通信方法が提供される。
【００３３】
また、本発明によれば、有線又は無線の通信網を介して音声入力端末器から音声認識装置へ音声データを伝送するために、コンピュータを、前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、の前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段、前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段、として機能させるプログラムを記録した記憶媒体が提供される。
【００３４】
また、本発明によれば、有線又は無線の通信網を介して音声入力端末器からの音声データについて音声認識処理を実行するために、コンピュータを、前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段、作成した前記音声認識モデルに基づいて音声認識処理を実行する手段、として機能させるプログラムを記録した記憶媒体が提供される。
【００３８】
【発明の実施の形態】
以下、本発明の好適な実施の形態について、添付図面を参照して説明する。
【００３９】
図１は、本発明の一実施形態に係る音声通信システムの構成図を示した図である。
【００４０】
音声通信システムは、音声入力端末器としての携帯端末１００と、音声認識装置としての本体２００と、これらを通信可能に接続する通信回線３００と、からなる。
【００４１】
携帯端末１００は、音声の入出力を行う入出力部１０１と、本体２００との通信処理を実行する通信制御部１０２と、入力された音声に対して音響処理を行う音響処理部１０３と、携帯端末１００の固有の又は利用状況の情報（以下、本実施形態では環境情報という。）を作成する環境情報生成部１０４と、音声通信情報生成部１０５と、を備える。
【００４２】
本体２００は、携帯端末１００の環境情報に基づく処理を行う環境適応部２０１と、携帯端末１００との通信処理を実行する通信制御部２０２と、携帯端末１００からの音声データに対して音声認識処理を実行する音声認識部２０３と、通信のためのデータ変換条件を設定する音声通信情報生成部２０４と、音声認識モデル保持部２０５と、アプリケーション２０６と、を備える。
【００４３】
次に、係る構成からなる音声通信システムの動作手順について図２を参照して説明する。図２は、音声通信システムの処理のフローチャートである。
【００４４】
音声通信システムの処理は、環境情報を解析する初期設定モードと、音声データの通信を行う音声認識モードと、からなる。
【００４５】
ステップＳ４０１では、全ての処理の開始を示している。入出力部１０１から処理開始のための情報を通信制御部１０２を通じて、本体２００の通信制御部２０２に送られる。
【００４６】
ステップＳ４０２では、選択的に、音声認識部２０３あるいはアプリケーション２０６から、メッセージが携帯端末１００に送られる。例えば、環境情報に基づく教師付き話者適応を行なう場合には、発声内容のリストを送り、携帯端末１００の入出力部１０１からメッセージ（音声又は文字）として出力する。また、環境情報に基づくマイクロホン適応を行う場合には、数秒の音声を発声してもらう旨を携帯端末１００の入出力部１０１からメッセージとして出力する場合もある。一方、環境情報に基づく雑音適応を行う場合には、このステップＳ４０２をスキップする場合もある。
【００４７】
ステップＳ４０３では、携帯端末１００において環境情報を生成するために、入出力部１０１から音声データ（雑音も含む）を取り込む。
【００４８】
ステップＳ４０４では、取り込んだ音声データについて音響処理部１０３で音響分析を行う。なお、環境情報をモデル（平均や分散、音素モデル）に変換する場合には、環境情報生成部１０４に送る。モデルにしない場合には、通信制御部１０２から本体へ音響分析の結果を送る。なお、音響分析をせずに、音声データを直接本体に送り、本体２００側で分析等を行ってもよい。
【００４９】
ステップＳ４０４で環境情報をモデルに変換する場合は、ステップＳ４０５へ進み、環境情報生成部１０４において環境情報の生成を行なう。たとえば、雑音適応を目的とする場合には、環境情報は、非音声区間を検出して、その区間の平均と分散を求めることにより生成する。また、マイクロホン適応を目的とする場合には、環境情報は、音声区間の平均と分散を求めることにより生成する。更に、話者適応を目的とする場合には、音素モデルなどを作成する。
【００５０】
ステップＳ４０６では、作成された環境情報のモデル或いは音響分析結果若しくは音声を、本体２００へ１０２通信制御部から送出する。
【００５１】
ステップＳ４０７では、本体２００が送られてきた環境情報を通信制御部２０２を介して受け取る。
【００５２】
ステップＳ４０８では、環境情報に基づいて音声認識モデル保持部２０５の音声認識モデルについて環境適応部２０１で環境適応を行ない、新たな音声認識モデルを環境適応音声認識モデルとして更新し、音声認識モデル保持部２０５にて保持する。
【００５３】
環境適応の方法としては、雑音適応の場合には、例えば、雑音モデルと音声認識モデルとから環境適応音声認識モデルを作成するＰＭＣ法などを用いることができる。マイクロホン適応の場合では、例えば、適応用音声の平均と音声認識モデルとを用いて、環境適応音声認識モデルを作成するＣＭＳ法などを用いることができる。
【００５４】
また、話者適応の場合には、例えば、話者適応モデルと音声認識モデルを用いて話者適応モデルを作成する方法等を用いることができる。さらに、環境情報がモデルではなく音声や音響分析結果で送られてきた場合には、本体２００側で環境情報をモデル化してさらに適応する方法も可能である。また、直接、音声や音響分析結果を用いて環境適応する方法、ＥＭ学習方法やＶＦＳ話者適応方法などあらゆる方法が環境適応方法として可能となる。環境適応した音声認識モデルを作成することにより、認識性能を向上させることが可能となる。
【００５５】
なお、音声認識モデルを携帯端末１００側で作成し、これを本体２００へ送出して用いることができることも言うまでもない。
【００５６】
ステップＳ４０９では、音声認識の通信効率を向上させるために、通信用の音声情報を作成するテーブルの環境適応を２０４音声通信情報生成部にて行なう。ここでは、環境適応された音声認識モデルの分布を用いて、音声認識に用いるパラメータの各次元のスカラー量子化テーブルを作成する方法として説明する。この方法にはいろいろな方法が考えられるが、もっとも簡単な方法は、各次元全体の３σの中から最大値と最小値を探し、その間を等分割する方法である。
【００５７】
さらに、量子点数を減らすためには、全分布を一分布にマージし、その３σ（例えば、ガウス分布において出現するサンプルのほとんどが含まれる範囲）の最大値、最小値を探し、その間を等分割する方法もある。
【００５８】
或いは、さらに精密には、全分布の片寄りにあわせて、量子点を割り振る方法などが考えられる。本方法では、環境適応された音声認識モデルの分布を用いて各次元のスカラー量子化テーブルを作成するため、認識性能を落すことなく、通信のためのｂｉｔｒａｔｅを落すことが可能になり、効率的な通信が出来る。
【００５９】
ステップＳ４１０では、作成したスカラー量子化テーブルを携帯端末１００に送信する。
【００６０】
ステップＳ４１１では、作成されたスカラー量子化テーブルを携帯端末１００で受け取り、音声通信情報生成部１０５に格納する。
【００６１】
以上により初期設定モードが終了する。なお、携帯端末１００が複数存在する場合には、本体２００は、環境情報や、音声認識モデル、若しくは、量子化テーブル等のデータを各携帯端末毎に保存することもできる。
【００６２】
次に音声認識モードに移行する。
【００６３】
ステップＳ４１２では、入出力部１０１から音声を入力する。
【００６４】
ステップＳ４１３では、入力された音声データを音響処理部１０３で音響分析し、音声通信情報生成部１０５に送る。
【００６５】
ステップＳ４１４では、音声通信情報生成部１０５において、スカラー量子化テーブルを用いて、音声データの音響分析結果をスカラー量子化し、音声通信情報として符号化する。更に、符号化された音声データを本体２００に通信制御部１０２を介して送信する。
【００６６】
ステップＳ４１５では、本体２００において、音声認識部２０３で、受信した音声データを復号化し、音声認識処理を実行し、その認識結果を出力する。この際、音声認識処理においては、先に作成した音声認識モデルを用いることは言うまでもない。
【００６７】
ステップＳ４１６では、音声認識の結果がアプリケーション２０６で解釈され、その結果に応じたアプリケーションを求め、通信制御部２０２へ送る。
【００６８】
ステップＳ４１７では、アプリケーション結果を、本体２００の通信制御部２０２を介して携帯端末１００へ送出する。
【００６９】
ステップＳ４１８では、携帯端末１００が、通信制御部１０２を介してアプリケーション結果を受け取る。
【００７０】
ステップＳ４１９では、携帯端末１００が、入出力部１０１よりアプリケーション結果を出力する。音声認識を継続する際は、ステップＳ４１２にもどる。
【００７１】
ステップＳ４２０では、通信を終了する。
【００７２】
このように、本実施形態の音声通信システムでは、携帯端末１００の環境情報に適応した音声認識モデルにより音声認識を行うので、各々の携帯端末器に対応して最適な音声認識を実行することができる。また、環境情報に基づいて通信条件を設定するので、各々の携帯端末器に対応して通信効率の向上を図ることができる。
【００７３】
なお、本実施形態では、雑音の場合には、雑音区間のパラメータの平均と分散を求め、それを本体に送り、音声認識モデルをＰＭＣ法により雑音適応を行う方法を例示したが、その他の雑音適応方法も採用し得ることはいうまでもない。また、端末側で平均と分散を求め、送信する方法で記述してあるが、音声情報を送り、本体側で平均と分散を求め、雑音適応を行うこともできる。
【００７４】
また、本実施形態では、マイク特性の場合には、ある適当な時間の音声区間のパラメータの平均と分散を求め、それを本体に送り、音声認識モデルをＣＭＳ法によりマイク特性適応を行う方法を例示したが、その他のマイク特性適応方法も採用し得ることはいうまでもない。また、端末側で平均と分散を求め、送信する方法で記述してあるが、音声情報を送り、本体側で平均と分散を求め、雑音適応を行うこともできる。
【００７５】
また、本実施形態では、話者適応法の場合には、事前に簡単な話者性を表す音素モデルを作成し、それを本体に送り、音声認識モデルを話者適応する方法により行う方法を例示したが、音声情報を送り、本体側で音声を用いて話者適応を行うこともできる。この場合にも、他の様々な話者適応法を採用し得ることもいうまでもない。
【００７６】
また、本実施形態では、雑音適応、マイクロホン適応、話者適応に関して独立に記してあるが、これらを適宜組み合わせて採用することもできる。
【００７７】
また、本実施形態では、音声認識モードに先だって初期設定モードを行うこととしているが、一旦初期設定モードが完了すれば、同じ環境にて音声認識を再開する場合には、いきなり音声認識モードから開始することもできる。この場合は、携帯端末１００側において、先の環境情報を記憶しておき、音声認識を再開する際に作成した環境情報と比較して、変化がなければその旨の通知を本体２００側へ送ることにより、若しくは、送出された環境情報等に基づいて本体２００側で判断するようにすることにより、実行することができる。
【００７８】
また、本実施形態では、環境情報を音声認識処理と通信効率の向上のための処理との双方に用いているが、当該環境情報によりいずれか一方のみを実行してもよいことは言うまでもない。
【００７９】
以上、本発明の好適な実施の形態について説明したが、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（または記録媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはCPUやMPU）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００８０】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００８１】
【発明の効果】
以上述べた通り、本発明によれば、音声入力端末器に関する事情に基づいて、最適な音声認識を達成することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声通信システムの構成図を示した図である。
【図２】本発明の一実施形態に係る音声通信システムの処理のフローチャートである。

Claims

有線又は無線の通信網を介して音声認識装置へ音声データを伝送する音声入力端末器であって、
音声の入力手段と、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、
前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段と、
を備えたことを特徴とする音声入力端末器。
前記情報が、前記音声入力手段の特性、雑音特性、又は、話者特性、の少なくともいずれか一つに基づく情報であることを特徴とする請求項１に記載の音声入力端末器。
前記音声認識装置から、前記モデルに基づき更新された通信のためのデータ変換条件を受け取った場合に、当該変換条件に基づいて前記音声データを変換する変換手段を更に備えたことを特徴とする請求項１に記載の音声入力端末器。
前記情報を保存する保存手段と、
各通信時において前記情報に変更があったか否かを判定する判定手段と、を更に備え、
前記情報に変更があった場合、前記情報をモデル化して前記音声認識装置へ送信することを特徴とする請求項１に記載の音声入力端末器。
音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声認識装置であって、
前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段と、
作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、
を備えたことを特徴とする音声認識装置。
前記情報のモデルに基づいて適応した通信のためのデータ変換条件を作成する手段と、
当該データ変換条件を前記音声入力端末器へ送信する手段と、
を更に備えたことを特徴とする請求項５に記載の音声認識装置。
前記データ変換条件が、前記モデルに基づいて作成された量子化テーブルに基づくデータ変換条件を含むことを特徴とする請求項６に記載の音声認識装置。
有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置とからなる音声通信システムであって、
前記音声入力端末器は、
音声入力手段と、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段と、
前記モデル作成手段により作成された前記モデルを前記音声認識装置へ送信する通信手段と、を備え、
前記音声認識装置は、
前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する手段と、
作成した前記音声認識モデルに基づいて音声認識処理を実行する手段と、
を備えたことを特徴とする音声通信システム。
有線又は無線の通信網を介して、音声入力端末器から音声認識装置へ音声データを伝送する音声通信方法であって、
前記音声入力端末器において、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、
前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、
を含むことを特徴とする音声通信方法。
前記情報が、前記音声入力手段の特性、雑音特性、又は、話者特性、の少なくともいずれか一つに基づく情報であることを特徴とする請求項９に記載の音声通信方法。
前記音声認識装置から、前記モデルに基づき更新された通信のためのデータ変換条件を受け取った場合に、当該変換条件に基づいて前記音声データを変換する変換工程を更に備えたことを特徴とする請求項９に記載の音声通信方法。
前記情報を保存する保存工程と、
各通信時において前記情報に変更があったか否かを判定する判定工程と、を更に備え、
前記通信工程は、前記情報に変更があった場合、前記情報をモデル化して前記音声認識装置へ送信することを特徴とする請求項９に記載の音声通信方法。
有線又は無線の通信網を介して音声入力端末器から伝送される音声データに対して音声認識処理を実行する音声通信方法であって、
前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する工程と、
作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、
を含むことを特徴とする音声通信方法。
前記情報のモデルに基づいて適応した通信のためのデータ変換条件を作成する工程と、
当該データ変換条件を前記音声入力端末器へ送信する工程と、
を更に備えたことを特徴とする請求項１３に記載の音声通信方法。
前記データ変換条件が、前記モデルに基づいて作成された量子化テーブルに基づくデータ変換条件を含むことを特徴とする請求項１４に記載の音声通信方法。
有線又は無線の通信網を介して通信可能な音声入力端末器と音声認識装置との間での音声通信方法であって、
前記音声入力端末器において、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成工程と、
前記モデル作成工程により作成された前記情報のモデルを前記音声認識装置へ送信する通信工程と、を含み、
前記音声認識装置において、
前記音声入力端末器から受信した前記モデルに基づいて適応した音声認識モデルを作成する工程と、
作成した前記音声認識モデルに基づいて音声認識処理を実行する工程と、
を含むことを特徴とする音声通信方法。
有線又は無線の通信網を介して音声入力端末器から音声認識装置へ音声データを伝送するために、コンピュータを、
前記音声認識装置が有する音声認識モデルを前記音声入力端末器側の環境に適応させるための、前記音声入力端末器固有の又は利用状況の情報をモデル化するモデル作成手段、
前記モデル作成手段により作成された前記情報のモデルを前記音声認識装置へ送信する通信手段、
として機能させるプログラムを記録した記憶媒体。
有線又は無線の通信網を介して音声入力端末器からの音声データについて音声認識処理を実行するために、コンピュータを、
前記音声入力端末器から、音声認識のための前記音声入力端末器固有の又は利用状況の情報のモデルを受け取った場合に、当該モデルに基づいて適応した音声認識モデルを作成する手段、
作成した前記音声認識モデルに基づいて音声認識処理を実行する手段、
として機能させるプログラムを記録した記憶媒体。