JP2007516655A

JP2007516655A - キャッシュ機能を有する分散音声認識システムおよび方法

Info

Publication number: JP2007516655A
Application number: JP2006533677A
Authority: JP
Inventors: アール．シャー、シータル; デサイ、プラティック; エイ．シェントラップ、フィリップ
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2003-06-12
Filing date: 2004-06-09
Publication date: 2007-06-21
Also published as: KR20060018888A; BRPI0411107A; CA2528019A1; WO2004114277A3; MXPA05013339A; WO2004114277A2; IL172089A0; US20040254787A1

Abstract

音声入力（４０４）は、格納（４１６）するために受け取られて処理される（４０６−４１４）。結果モデルは、セルラ電話機のような通信装置での使用のために送信されうる（４１８）。認識された音声は、ネットワークにおける幾つかの望まれる動作を遂行するために使用されうる（４２０）。

Description

本発明は、通信の分野に関し、更に特定すれば、セルラ電話機またはその他の装置のような移動機が、携帯装置上における発声またはその他のサービスのために、音声認識モデルを格納している分散発声認識システムに関する。

今日では、多くのセルラ電話機やその他の通信装置が、発声コマンドをデコードしこれに応答する機能を有している。これら音声可能化装置(speech-enabled device)に適した用途が提案されており、例えば、ＶｏｉｃｅＸＭＬまたはその他の可能化技術を用いた、インターネット上での発声閲覧(voice browsing)、発声起動発呼(voice-activated dialing)またはその他の登録簿への応用、発声からテキストまたはテキストから発声へのメッセージ伝達および検索等が含まれる。多くのセルラ・ハンドセットには、例えば、埋め込みディジタル信号処理（ＤＳＰ）チップが内蔵されており、これによって発声検出アルゴリズムおよびその他の機能を高めることができる。

これら音声可能化技術のユーザに対する有用性および利便性は、音声をデコードする精度、ならびに音声検出の応答時間や、ユーザが選択したサービスの検索のための遅れ時間を含む種々の要因による影響を受ける。音声検出自体に関しては、多くのセルラ・ハンドセットおよびその他の装置が、音声成分を分析し識別するには十分なＤＳＰおよびその他の処理能力を内蔵することができるが、音声検出アルゴリズムが誤動作しないようにするには、複雑なモデルを伴う、即ち、必要とし、音声成分やコマンドを最も効率的に識別するには、かなりのメモリ即ち記憶量が必要となる。セルラ・ハンドセットには、例えば、これらの種類の音声ルーチンを最大限利用するため、十分なランダム・アクセス・メモリ（ＲＡＭ）が装備されているのが通例である。

部分的にこれらの考慮の結果として、音声検出機能および関連する処理の一部または全てをネットワークに、具体的には、移動ハンドセットと通信するネットワーク・サーバまたはその他のハードウェアに肩代わりさせることができるセルラ・プラットフォームがいくつか提案または実施されている。この種のネットワーク・アーキテクチャの一例を図１に示す。この図に示すように、マイクロフォンを装備したハンドセットは、音声の音素およびその他の成分をデコードして抽出し、これらの成分を無線リンクを通じてネットワークに伝達することができる。一旦音声特徴ベクトルをネットワーク側で受信したなら、サーバまたはその他のリソースが発声、コマンド、およびサービス・モデルをメモリから読み出し、受信した特徴ベクトルをこれらのモデルと比較して、例えば、電話番号を調べる要求に対し一致が得られたか否か判定することができる。

一致が得られた場合、ネットワークは発声、コマンドおよびサービス・モデルをそのヒットに応じて分類し、例えば、ＬＤＡＰまたはその他のデータベースから公開電話番号を読み出すことができる。次いで、この結果をハンドセットまたはその他の通信装置に伝達し返し、例えば、発声メニューまたはメッセージのように聴覚的に、あるいは、視覚的に例えば表示画面上のテキスト・メッセージで、ユーザに提示することができる。

分散認識システムは、対応可能な発声、コマンド、およびサービスの数および種類を広げることができるが、このようなアーキテクチャには欠点がある。このようなサービスを主に担当してあらゆるコマンドを処理するネットワークは、このようなデータを処理するために、利用可能な無線帯域幅を大量に消費する虞れがある。このようなネットワークを実現するには一層の費用が掛かる可能性がある。

更に、移動機からネットワークへの無線リンクの容量が比較的大きくても、ユーザがコマンドを発話してからハンドセット上で所望のサービスが得られるまでには、ある程度の遅れ時間は不可避であると考えられる。問題は他にもある。

本発明は、当技術分野におけるこれらおよびその他の問題を克服し、一観点において、キャッシュ機能を有する分散音声認識システムおよび方法に関する。他の通信装置のセルラ・ハンドセットに、第１段階の特徴抽出およびデコードを、ハンドセットに向かって発話された発声信号に対して実行するための装備を設けることができる。実施形態では、通信装置は、最近の１０個、２０個、またはその他の数のユーザがアクセスする発声、コマンド、またはサービス・モデルを、ハンドセット自体の中にあるメモリに格納することができる。新たな発声コマンドを識別した場合、そのコマンドおよび関連するモデルを、メモリ内のモデルのキャッシュと突き合わせてチェックすることができる。ヒットが得られた場合、処理は、内部データに基づいて、発声閲覧またはその他のような所望のサービスに直接移行することができる。ヒットが得られない場合、装置は、抽出した音声特徴をネットワークに伝達し、関連するモデルの分散または遠隔デコードおよび生成を行うことができ、モデルをハンドセットに戻して、ユーザに提示することができる。最近、最頻、またはその他の配列規則を用いて、例えば、最も廃れたモデルまたはサービスを内部メモリから削除して、新たにアクセスしたモデルをハンドセットに格納することができる。

添付図面を参照して本発明について説明する。図面においては、同様の要素を同様の番号で引用することとする。
図２は、本発明の一実施形態による通信アーキテクチャを示し、ここでは、通信装置１０２が発声、データ、およびその他の通信の目的のために、ネットワーク１２２と無線で通信することができる。通信装置１０２は、例えば、セルラ電話機、ＩＥＥＥ８０２．１１ｂまたはその他の無線インターフェースを装備したパーソナル・ディジタル・アシスタント（ＰＤＡ）または個人情報マネージャ（ＰＩＭ）のようなネットワーク可能化無線装置、８０２．１１ｂまたはその他の無線インターフェースを装備したラップトップまたはその他の携帯用コンピュータ、あるいはその他の通信またはクライアント装置であるか、あるいはこれらを含むことができる。通信装置１０２は、例えば、８００／９００ＭＨｚ、１．９ＧＨｚ、２．４ＧＨｚまたはその他の周波数帯においてアンテナ１１８を通じて、あるいは光リンクまたはその他のリンクによって、ネットワーク１２２と通信することができる。

通信装置１０２は、入力装置１０４、例えば、マイクロフォンを含み、ユーザから入力される発声を受信することができる。発声信号は、特徴抽出モジュール１０６によって処理され、音声成分を分離して識別し、ノイズを抑制し、その他の信号処理またはその他の機能を実行することができる。実施形態では、特徴抽出モジュール１０６は、例えば、マイクロプロセッサまたはＤＳＰ、あるいはその他のチップであり、あるいはこれを含み、音声検出およびその他のルーチンを実行するようにプログラムすることができる場合もある。例えば、特徴抽出モジュール１０６は、「はい」、「いいえ」、「発呼」、「電子メール」、「ホーム・ページ」、「閲覧」等のような、離散音声成分またはコマンドを識別することができる。

一旦音声コマンドまたはその他の成分を識別したなら、特徴抽出モジュール１０６は、１つ以上の特徴ベクトルまたはその他の発声成分を、パターン照合モジュール１０８に伝達することができる。パターン照合モジュール１０８は、同様に、マイクロプロセッサ、ＤＳＰ、またはその他のチップを含み、発声、コマンド、サービス、またはその他のモデルというような既知のモデルに対する発声成分の照合を含むデータ処理を行うことができる。実施形態では、パターン照合モジュール１０８は、特徴抽出モジュール１０６と同じマイクロプロセッサ、ＤＳＰ、またはその他のチップ上で実行するスレッドまたはその他のプロセスであっても、あるいはそれを含んでもよい場合もある。

発声成分をパターン照合モジュール１０８において受けるとき、このモジュールは、判断ポイント１１２において内部モデル記憶部１１０と突き合わせてその成分をチェックし、格納されている発声、コマンド、サービス、またはその他のモデルに対して一致が得られるか否か判断することができる。

内部モデル記憶部１１０は、例えば、電気的プログラム可能リード・オンリ・メモリ（ＥＰＲＯＭ）のような不揮発性電子メモリ、またはその他の媒体であっても、またはこれを含んでもよい。内部モデル記憶部１１０は、１組の発声、コマンド、サービス、または他のモデルを収容し、通信装置においてその媒体から直接読み出すことができる。実施形態では、内部モデル記憶部１１０は、ダウンロード可能な１組の標準モデルまたはサービスを用いて、例えば、通信装置１０２を最初に用いるとき、またはリセットするときに、初期化することができる場合もある。

例えば、「ホーム・ページ」のような発声コマンドに対して、内部モデル記憶部１１０において一致が得られた場合、ユニバーサル・リソース・ロケータ（ＵＲＬ）のようなアドレスあるいはユーザのホーム・ページに対応するその他のアドレスまたはデータを、インターネット・サービス・プロバイダ（ＩＳＰ）またはセルラ・ネットワーク・プロバイダを通じてというようにして、テーブルまたはその他のフォーマットで参照し、応答動作１１４を分類または遂行することができる。実施形態では、応答動作１１４は、例えば、ユーザのホーム・ページあるいはその他の選択リソースまたはサービスに通信装置１０２から接続することであっても、またはこれを含んでもよい。次いで、入力装置１０４を通じて更に別のコマンドまたは選択肢も受けることができる。実施形態では、応答動作１１４は、アクセスしたリソースまたはサービスの使用中に、ＶｏｉｃｅＸＬＭまたはその他のプロトコルを通じて、１組の選択可能な発声メニュー選択肢、利用可能であれば画面表示、あるいはその他のフォーマットまたはインターフェースをユーザに提示することであり、またはこれを含むことができる。

判断ポイント１１２において、内部モデル記憶部１１０に対する一致が得られない場合、通信装置１０２は、次の処理のためにネットワーク１１２への送信１１６を開始することができる。送信１１６は、特徴抽出モジュール１０６によって抽出した発声成分をサンプリングし、アンテナ１３４あるいはその他のインターフェースまたはチャネルを通じてネットワーク１２２において受信すること、またはこれらを含むことができる。このようにして受信した送信１２４は、特徴ベクトルあるいはその他の発声またはその他の成分であり、あるいはこれを含むことができ、ネットワーク１２２においてネットワーク照合モジュール１２６に伝達することができる。

ネットワーク・パターン照合モジュール１２６は、パターン照合モデル１０８と同様、マイクロプロセッサ、ＤＳＰ、またはその他のチップを同様に含み、発声、コマンド、サービス、またはその他のモデルというような既知のモデルに対する、受信した発声成分の照合を含むデータ処理を行うことができる。ネットワーク１２２においてパターン照合を実行する場合、受信した特徴ベクトルまたはその他のデータを、格納されている１組の発声関連モデル、この例では、ネットワーク・モデル記憶部１２８と比較することができる。内部モデル記憶部１１０と同様、ネットワーク・モデル記憶部１２８は、１組の発声、コマンド、サービス、またはその他のモデルであり、あるいはこれらを含むことができ、これらを読み出して、受信した送信１２４内に収容されている発声またはその他のデータと比較することができる。

判断ポイント１３０において、受信した送信１２４に収容されている特徴ベクトルまたはその他のデータとネットワーク・モデル記憶部１２８との間で一致が得られたか否か判定を行うことができる。一致が得られた場合、送信結果１３２を、アンテナ１３４またはその他のチャネルを通じて、通信装置１０２に伝達することができる。送信した結果１３２は、デコードした特徴ベクトルまたはその他のデータに対応する発声、コマンド、またはその他のサービスに対する１つまたは複数のモデルを含むことができる。送信結果１３２は、アンテナ１１８を通じて、通信装置１０２において、ネットワーク結果１２０として受信することができる。次いで、通信装置１０２は、ネットワーク結果１２０に基づいて、１つ以上の動作を実行することができる。例えば、通信装置１０２は、インターネットまたはその他のネットワーク・サイトに接続することができる。実施形態では、そのサイトにおいて、ユーザに選択可能な選択肢またはその他のデータを提示することができる場合もある。ネットワーク結果１２０は、内部モデル記憶部１１０にも伝達し、通信装置１０２自体に格納することもできる。

実施形態では、ネットワーク結果１２０内に収容されているモデルまたはその他のデータを、通信装置１０２が不揮発性電子媒体またはその他の媒体に格納することができる場合もある。通信装置１０２におけるいずれの記憶媒体でも、ネットワーク規則を受け取り、配列またはキャッシュ型規則に基づいて、内部モデル記憶部１１０に取り込むことができる実施形態もある。これらの規則は、例えば、使用されたのが最も古いモデルを内部モデル記憶部１１０から削除し、新たなネットワーク結果１２０と交換すること、使用頻度が最も低いモデルを内部モデル記憶部１１０から削除して同様の交換を行うことというような規則を含むことができ、あるいはその他の規則またはアルゴリズムに従って、所望のモデルを通信装置１０２の格納制約の範囲内で保持することができる。

判断ポイント１３０において、受信した送信１２４の特徴ベクトルまたはその他のデータとネットワーク・モデル記憶部１２８との間で一致が得られない場合、空結果１３６を通信装置１０２に送信し、発声信号に対応するモデルまたは関連するサービスを特定できなかったことを示すことができる。実施形態では、その場合、通信装置１０２は、「申し訳ありませんが、貴方の応答は理解できませんでした」という告示またはその他の告示のように、何の動作も行わなかったことの可聴な通知またはその他の通知をユーザに提示するとよい。その場合、通信装置１０２は、ユーザから入力装置１０４またはその他の方法で更に別の入力を受け取り、所望のサービスに再度アクセスする、または他のサービスにアクセスする、または他の動作を行おうとしてもよい。

図３は、テーブル１３８に配列されている、ネットワーク・モデル記憶部１２８のデータ構造例を示す。この実施形態例に示すように、発声入力から抽出した特徴に対応するまたはその中に収容されている１組のデコードしたコマンド１４０（デコードしたコマンド_１（ＤＥＣＯＤＥＤＣＯＭＭＡＮＤ_１），デコードしたコマンド_２，デコードしたコマンド_３，．．．，デコードしたコマンド_Ｎ、Ｎは任意）をテーブルに格納することができ、更にその行には、１組の関連する動作１４２（関連する動作_１（ＡＳＳＯＣＩＡＴＥＤＡＣＴＩＯＮ_１），関連する動作_２，関連する動作_３，．．．，関連する動作_Ｎ、Ｎは任意）を収容することができる。１つ以上のデコードしたコマンド１４０に対して、追加の動作も格納することができる。

実施形態では、関連する動作１４２は、例えば、「ホーム・ページ」に対応するhttp://www.userhomepage.comのような、関連するＵＲＬ、またはその他のコマンドを含むことができる。ユーザの既存の加入契約、その無線またはその他のプロバイダ、ネットワーク１２２のデータベースまたはその他の機能、およびその他の要因に応じて、「株式」のようなコマンドが、一例として、"http://www.stocklookup.com/ticker/Motorola"あるいはその他のリソースまたはサービスへのリンクのような、接続動作に連携する。デコードしたコマンドが「天気」である場合、天気ダウンロード・サイト、例えば、ftp.weather.map/region3.jp、あるいはその他のファイル、場所、または情報に接続することができる。その他の動作も可能である。実施形態では、ネットワーク・モデル記憶部１２８は、例えば、ネットワーク管理運営者、ユーザ、またはその他の者によって編集可能および拡張可能とすれば、時間が経つに連れて所与のコマンドまたはその他の入力が異なるサービスまたはリソースに連携できるようになる。内部モデル記憶部１１０のデータは、ネットワーク・モデル記憶部１２８と同様に配列することができ、または実施態様に応じて、内部モデル記憶部１１０のフィールドを、ネットワーク・モデル記憶部１２８のそれらとは異ならせる実施形態もある。

図４は、本発明の一実施形態による分散発声処理のフローチャートを示す。ステップ４０２において、処理が開始する。ステップ４０４において、通信装置１０２は、ユーザから入力される発声を、入力装置１０４を通じてまたはその他の方法で受信することができる。ステップ４０６において、発声入力を特徴抽出モジュール１０６によってデコードし、特徴ベクトルまたはその他の表現を生成することができる。ステップ４０８において、発声入力の特徴ベクトルまたはその他の表現が、内部モデル記憶部１１０に格納されているいずれかのモデルと一致するか否か判定を行うことができる。一致が得られた場合、ステップ４１０において、通信装置は、発声閲覧またはその他のサービスのような、所望の動作を分類および遂行することができる。ステップ４１０の後、処理を繰り返し、以前のステップに戻り、ステップ４２６において終了するか、あるいは他の動作を行うことができる。

ステップ４０８において一致が得られない場合、ステップ４１２において、特徴ベクトルまたはその他の抽出した発声関連データをネットワーク１２２に送信することができる。ステップ４１４において、ネットワークは、特徴ベクトルまたはその他のデータを受信することができる。ステップ４１６において、発声入力の特徴ベクトルまたはその他の表現が、ネットワーク・モデル記憶部１２８に格納されているいずれかのモデルと一致するか否か判定を行うことができる。一致が得られた場合、ステップ４１８において、ネットワーク１２２は、一致した１つまたは複数のモデル、あるいは関連データ、あるいはサービスを通信装置１０２に送信することができる。ステップ４２０において、通信装置１０２は、ネットワーク１２２から受信した１つまたは複数のモデル、あるいはその他のデータ、あるいはサービスに基づいて、発声閲覧コマンドの実行またはその他の動作の実行というような動作を行うことができる。ステップ４２０の後、処理を繰り返し、以前のステップに戻り、ステップ４２６において終了するか、あるいは他の動作を行うことができる。

ステップ４１６において、ネットワーク１２２によって受信した特徴ベクトルまたはその他のデータと、ネットワーク・モデル記憶部１２８との間に一致が得られない場合、処理はステップ４２２に進み、空結果を通信装置に送信することができる。ステップ４２４において、通信装置は、所望のサービスまたはリソースにアクセスできなかったことの告示をユーザに提示することができる。ステップ４２２の後、処理を繰り返し、以前のステップに戻り、ステップ４２６において終了するか、あるいは他の動作を行うことができる。

本発明によるキャッシュ機能を有する分散音声認識システムおよび方法に関する以上の説明は例示であり、当業者には構成および実施態様の変形が想起されよう。例えば、本発明は総じて単一の特徴抽出モジュール１０６、単一のパターン照合モジュール１０８、およびネットワーク・パターン照合モジュール１２６に関して実施したものとして説明したが、多数のモジュールまたはその他の分散リソース内に１つ以上のこれらのモジュールを実装することができる実施形態もある。同様に、本発明は、総じて生の音声入力をデコードしてリアル・タイムまたはほぼリアル・タイムでモデルまたはサービスを検索するものとして説明したが、格納されている音声に対して、例えば、遅らせて、格納して、またはオフラインで音声デコード機能を実行することができる実施形態もある。

同様に、本発明は、総じて、単一の通信装置１０２に関して説明したが、内部モデル記憶部１１０に格納されているモデルは、多数の通信装置間で共有したりまたは複製することができる実施形態もあり、このような実施形態では、どの装置が最近用いられたかには関係なく、モデル流通(model currency)のために通信装置を同期させることができる。更に、本発明は、単一のユーザのために発声入力ならびに関連するモデルおよびサービスを配列する即ちキャッシュするものとして説明したが、内部モデル記憶部１１０、ネットワーク・モデル記憶部１２８、およびその他のリソースが多数のユーザによるアクセスを統合することができる実施形態もある。したがって、本発明の範囲は、特許請求の範囲によってのみ限定されるものとする。

従来の実施形態による分散発声認識アーキテクチャを示す。本発明の一実施形態による、キャッシュ機能を有する分散音声認識システムが動作可能なアーキテクチャを示す。本発明の一実施形態による、ネットワーク・モデル記憶部のデータ構造例を示す。本発明の一実施形態による発声認識処理全体のフローチャートを示す。

Claims

音声をデコードし、無線通信装置を通じてサービスにアクセスするシステムであって、
音声入力を受ける入力装置と、
前記音声入力から少なくとも１つの特徴を抽出する特徴抽出エンジンと、
内部モデル記憶部と、
無線ネットワークへの第１無線インターフェースであって、該第１無線インターフェースはネットワーク・モデル記憶部を備えており、該ネットワーク・モデル記憶部は、前記音声入力から抽出した前記少なくとも１つの特徴に応じて少なくとも１つのサービスを生成するように構成されていることと、
前記入力装置、前記特徴抽出エンジン、前記内部モデル記憶部、および前記第１無線インターフェースと通信するプロセッサであって、該プロセッサは、前記音声入力から抽出した前記少なくとも１つの特徴を前記内部モデル記憶部と突き合わせて検査してサービス要求に対して作用し、前記内部モデル記憶部と前記音声入力から抽出した前記少なくとも１つの特徴との間で一致が得られない場合、前記第１無線インターフェースを通じて前記無線ネットワークに、前記音声入力から抽出した少なくとも１つの特徴の送信を開始するように構成されていることと
を備えている、システム。
請求項１記載のシステムにおいて、前記プロセッサは、前記音声入力から抽出した前記少なくとも１つの特徴と前記内部モデル記憶部との間で一致が得られない場合、前記音声入力から抽出した前記少なくとも１つの特徴を前記無線ネットワークに送信することを開始する、システム。
請求項２記載のシステムにおいて、前記無線ネットワークは、前記音声入力から抽出した前記少なくとも１つの特徴に応答して、前記少なくとも１つのサービスを生成し、該少なくとも１つのサービスを前記通信装置に送信する、システム。
請求項３記載のシステムにおいて、前記プロセッサは、前記少なくとも１つのサービスを前記内部モデル記憶部に格納している、システム。
請求項４記載のシステムにおいて、前記プロセッサは、前記内部モデル記憶部に前記少なくとも１つのサービスを格納するときに、廃れたサービスを削除する、システム。
請求項５記載のシステムにおいて、前記廃れたサービスの削除は、最長時間未使用法に基づいて行う、システム。
請求項５記載のシステムにおいて、前記廃れたサービスの削除は、最少頻度使用法に基づいて行う、システム。
請求項１記載のシステムにおいて、内部モデル記憶部が、前記無線ネットワークからダウンロード可能で、初期化が可能な内部モデル記憶部を備えている、システム。
請求項１記載のシステムにおいて、前記少なくとも１つのサービスは、発声閲覧、発声起動発呼、および発声起動番号案内サービスの内少なくとも１つを備えている、システム。
請求項１記載のシステムにおいて、前記プロセッサは、前記音声入力と前記内部モデル記憶部との間で一致が得られた場合、サービスを開始する、システム。
請求項１０記載のシステムにおいて、前記開始は、格納されているアドレスへ接続することから成る、システム。
請求項１１記載のシステムにおいて、前記格納されているアドレスへの接続は、ＵＲＬにアクセスすることから成る、システム。
音声をデコードして、無線通信装置を通じてサービスにアクセスする方法であって、
音声入力を受けるステップと、
前記音声入力から少なくとも１つの特徴を抽出するステップと、
前記音声入力から抽出した前記少なくとも１つの特徴を、無線通信装置内にある内部モデル記憶部と突き合わせて検査し、サービス要求に対して作用するステップと、
前記内部モデル記憶部と前記音声入力から抽出された前記少なくとも１つの特徴との間に一致が得られない場合、
前記音声入力から抽出した前記少なくとも１つの特徴を、第１無線インターフェースを通じて無線ネットワークに送信するステップと、
前記音声入力から抽出した前記少なくとも１つの特徴に応じて、前記無線ネットワークにおいて少なくとも１つのサービスを生成するステップと
を備えている、方法。
請求項１３記載の方法であって、更に、前記少なくとも１つのサービスを前記通信装置に送信するステップを含む、方法。
請求項１４記載の方法であって、更に、前記少なくとも１つのサービスを前記内部モデル記憶部に格納するステップを含む、方法。
請求項１５記載の方法であって、更に、前記内部モデル記憶部おける前記少なくとも１つのサービスの格納時に、廃れたサービスを削除するステップを含む、方法。
請求項１６記載の方法において、前記廃れたサービスの削除は、最長時間未使用法に基づいて行う、方法。
請求項１６記載の方法において、前記廃れたサービスの削除は、最少頻度使用法に基づいて行う、方法。
請求項１３記載の方法であって、更に、前記無線ネットワークから前記通信装置に、初期化可能な内部モデル記憶部をダウンロードするステップを含む、方法。
請求項１３記載の方法において、前記少なくとも１つのサービスは、発声閲覧、発声起動発呼、および発声起動番号案内サービスの内少なくとも１つを備えている、方法。
請求項１３記載の方法であって、更に、前記音声入力と前記内部モデル記憶部との間で一致が得られた場合、サービスを開始するステップを含む、方法。
請求項１０記載の方法において、前記開始するステップは、格納されているアドレスへ接続することから成る、方法。
請求項２２記載のシステムにおいて、前記格納されているアドレスに接続するステップは、ＵＲＬにアクセスすることから成る、方法。