JP2007516655A - キャッシュ機能を有する分散音声認識システムおよび方法 - Google Patents

キャッシュ機能を有する分散音声認識システムおよび方法 Download PDF

Info

Publication number
JP2007516655A
JP2007516655A JP2006533677A JP2006533677A JP2007516655A JP 2007516655 A JP2007516655 A JP 2007516655A JP 2006533677 A JP2006533677 A JP 2006533677A JP 2006533677 A JP2006533677 A JP 2006533677A JP 2007516655 A JP2007516655 A JP 2007516655A
Authority
JP
Japan
Prior art keywords
service
internal model
model storage
storage unit
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006533677A
Other languages
English (en)
Inventor
アール. シャー、シータル
デサイ、プラティック
エイ. シェントラップ、フィリップ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2007516655A publication Critical patent/JP2007516655A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

音声入力(404)は、格納(416)するために受け取られて処理される(406−414)。結果モデルは、セルラ電話機のような通信装置での使用のために送信されうる(418)。認識された音声は、ネットワークにおける幾つかの望まれる動作を遂行するために使用されうる(420)。

Description

本発明は、通信の分野に関し、更に特定すれば、セルラ電話機またはその他の装置のような移動機が、携帯装置上における発声またはその他のサービスのために、音声認識モデルを格納している分散発声認識システムに関する。
今日では、多くのセルラ電話機やその他の通信装置が、発声コマンドをデコードしこれに応答する機能を有している。これら音声可能化装置(speech-enabled device)に適した用途が提案されており、例えば、VoiceXMLまたはその他の可能化技術を用いた、インターネット上での発声閲覧(voice browsing)、発声起動発呼(voice-activated dialing)またはその他の登録簿への応用、発声からテキストまたはテキストから発声へのメッセージ伝達および検索等が含まれる。多くのセルラ・ハンドセットには、例えば、埋め込みディジタル信号処理(DSP)チップが内蔵されており、これによって発声検出アルゴリズムおよびその他の機能を高めることができる。
これら音声可能化技術のユーザに対する有用性および利便性は、音声をデコードする精度、ならびに音声検出の応答時間や、ユーザが選択したサービスの検索のための遅れ時間を含む種々の要因による影響を受ける。音声検出自体に関しては、多くのセルラ・ハンドセットおよびその他の装置が、音声成分を分析し識別するには十分なDSPおよびその他の処理能力を内蔵することができるが、音声検出アルゴリズムが誤動作しないようにするには、複雑なモデルを伴う、即ち、必要とし、音声成分やコマンドを最も効率的に識別するには、かなりのメモリ即ち記憶量が必要となる。セルラ・ハンドセットには、例えば、これらの種類の音声ルーチンを最大限利用するため、十分なランダム・アクセス・メモリ(RAM)が装備されているのが通例である。
部分的にこれらの考慮の結果として、音声検出機能および関連する処理の一部または全てをネットワークに、具体的には、移動ハンドセットと通信するネットワーク・サーバまたはその他のハードウェアに肩代わりさせることができるセルラ・プラットフォームがいくつか提案または実施されている。この種のネットワーク・アーキテクチャの一例を図1に示す。この図に示すように、マイクロフォンを装備したハンドセットは、音声の音素およびその他の成分をデコードして抽出し、これらの成分を無線リンクを通じてネットワークに伝達することができる。一旦音声特徴ベクトルをネットワーク側で受信したなら、サーバまたはその他のリソースが発声、コマンド、およびサービス・モデルをメモリから読み出し、受信した特徴ベクトルをこれらのモデルと比較して、例えば、電話番号を調べる要求に対し一致が得られたか否か判定することができる。
一致が得られた場合、ネットワークは発声、コマンドおよびサービス・モデルをそのヒットに応じて分類し、例えば、LDAPまたはその他のデータベースから公開電話番号を読み出すことができる。次いで、この結果をハンドセットまたはその他の通信装置に伝達し返し、例えば、発声メニューまたはメッセージのように聴覚的に、あるいは、視覚的に例えば表示画面上のテキスト・メッセージで、ユーザに提示することができる。
分散認識システムは、対応可能な発声、コマンド、およびサービスの数および種類を広げることができるが、このようなアーキテクチャには欠点がある。このようなサービスを主に担当してあらゆるコマンドを処理するネットワークは、このようなデータを処理するために、利用可能な無線帯域幅を大量に消費する虞れがある。このようなネットワークを実現するには一層の費用が掛かる可能性がある。
更に、移動機からネットワークへの無線リンクの容量が比較的大きくても、ユーザがコマンドを発話してからハンドセット上で所望のサービスが得られるまでには、ある程度の遅れ時間は不可避であると考えられる。問題は他にもある。
本発明は、当技術分野におけるこれらおよびその他の問題を克服し、一観点において、キャッシュ機能を有する分散音声認識システムおよび方法に関する。他の通信装置のセルラ・ハンドセットに、第1段階の特徴抽出およびデコードを、ハンドセットに向かって発話された発声信号に対して実行するための装備を設けることができる。実施形態では、通信装置は、最近の10個、20個、またはその他の数のユーザがアクセスする発声、コマンド、またはサービス・モデルを、ハンドセット自体の中にあるメモリに格納することができる。新たな発声コマンドを識別した場合、そのコマンドおよび関連するモデルを、メモリ内のモデルのキャッシュと突き合わせてチェックすることができる。ヒットが得られた場合、処理は、内部データに基づいて、発声閲覧またはその他のような所望のサービスに直接移行することができる。ヒットが得られない場合、装置は、抽出した音声特徴をネットワークに伝達し、関連するモデルの分散または遠隔デコードおよび生成を行うことができ、モデルをハンドセットに戻して、ユーザに提示することができる。最近、最頻、またはその他の配列規則を用いて、例えば、最も廃れたモデルまたはサービスを内部メモリから削除して、新たにアクセスしたモデルをハンドセットに格納することができる。
添付図面を参照して本発明について説明する。図面においては、同様の要素を同様の番号で引用することとする。
図2は、本発明の一実施形態による通信アーキテクチャを示し、ここでは、通信装置102が発声、データ、およびその他の通信の目的のために、ネットワーク122と無線で通信することができる。通信装置102は、例えば、セルラ電話機、IEEE802.11bまたはその他の無線インターフェースを装備したパーソナル・ディジタル・アシスタント(PDA)または個人情報マネージャ(PIM)のようなネットワーク可能化無線装置、802.11bまたはその他の無線インターフェースを装備したラップトップまたはその他の携帯用コンピュータ、あるいはその他の通信またはクライアント装置であるか、あるいはこれらを含むことができる。通信装置102は、例えば、800/900MHz、1.9GHz、2.4GHzまたはその他の周波数帯においてアンテナ118を通じて、あるいは光リンクまたはその他のリンクによって、ネットワーク122と通信することができる。
通信装置102は、入力装置104、例えば、マイクロフォンを含み、ユーザから入力される発声を受信することができる。発声信号は、特徴抽出モジュール106によって処理され、音声成分を分離して識別し、ノイズを抑制し、その他の信号処理またはその他の機能を実行することができる。実施形態では、特徴抽出モジュール106は、例えば、マイクロプロセッサまたはDSP、あるいはその他のチップであり、あるいはこれを含み、音声検出およびその他のルーチンを実行するようにプログラムすることができる場合もある。例えば、特徴抽出モジュール106は、「はい」、「いいえ」、「発呼」、「電子メール」、「ホーム・ページ」、「閲覧」等のような、離散音声成分またはコマンドを識別することができる。
一旦音声コマンドまたはその他の成分を識別したなら、特徴抽出モジュール106は、1つ以上の特徴ベクトルまたはその他の発声成分を、パターン照合モジュール108に伝達することができる。パターン照合モジュール108は、同様に、マイクロプロセッサ、DSP、またはその他のチップを含み、発声、コマンド、サービス、またはその他のモデルというような既知のモデルに対する発声成分の照合を含むデータ処理を行うことができる。実施形態では、パターン照合モジュール108は、特徴抽出モジュール106と同じマイクロプロセッサ、DSP、またはその他のチップ上で実行するスレッドまたはその他のプロセスであっても、あるいはそれを含んでもよい場合もある。
発声成分をパターン照合モジュール108において受けるとき、このモジュールは、判断ポイント112において内部モデル記憶部110と突き合わせてその成分をチェックし、格納されている発声、コマンド、サービス、またはその他のモデルに対して一致が得られるか否か判断することができる。
内部モデル記憶部110は、例えば、電気的プログラム可能リード・オンリ・メモリ(EPROM)のような不揮発性電子メモリ、またはその他の媒体であっても、またはこれを含んでもよい。内部モデル記憶部110は、1組の発声、コマンド、サービス、または他のモデルを収容し、通信装置においてその媒体から直接読み出すことができる。実施形態では、内部モデル記憶部110は、ダウンロード可能な1組の標準モデルまたはサービスを用いて、例えば、通信装置102を最初に用いるとき、またはリセットするときに、初期化することができる場合もある。
例えば、「ホーム・ページ」のような発声コマンドに対して、内部モデル記憶部110において一致が得られた場合、ユニバーサル・リソース・ロケータ(URL)のようなアドレスあるいはユーザのホーム・ページに対応するその他のアドレスまたはデータを、インターネット・サービス・プロバイダ(ISP)またはセルラ・ネットワーク・プロバイダを通じてというようにして、テーブルまたはその他のフォーマットで参照し、応答動作114を分類または遂行することができる。実施形態では、応答動作114は、例えば、ユーザのホーム・ページあるいはその他の選択リソースまたはサービスに通信装置102から接続することであっても、またはこれを含んでもよい。次いで、入力装置104を通じて更に別のコマンドまたは選択肢も受けることができる。実施形態では、応答動作114は、アクセスしたリソースまたはサービスの使用中に、VoiceXLMまたはその他のプロトコルを通じて、1組の選択可能な発声メニュー選択肢、利用可能であれば画面表示、あるいはその他のフォーマットまたはインターフェースをユーザに提示することであり、またはこれを含むことができる。
判断ポイント112において、内部モデル記憶部110に対する一致が得られない場合、通信装置102は、次の処理のためにネットワーク112への送信116を開始することができる。送信116は、特徴抽出モジュール106によって抽出した発声成分をサンプリングし、アンテナ134あるいはその他のインターフェースまたはチャネルを通じてネットワーク122において受信すること、またはこれらを含むことができる。このようにして受信した送信124は、特徴ベクトルあるいはその他の発声またはその他の成分であり、あるいはこれを含むことができ、ネットワーク122においてネットワーク照合モジュール126に伝達することができる。
ネットワーク・パターン照合モジュール126は、パターン照合モデル108と同様、マイクロプロセッサ、DSP、またはその他のチップを同様に含み、発声、コマンド、サービス、またはその他のモデルというような既知のモデルに対する、受信した発声成分の照合を含むデータ処理を行うことができる。ネットワーク122においてパターン照合を実行する場合、受信した特徴ベクトルまたはその他のデータを、格納されている1組の発声関連モデル、この例では、ネットワーク・モデル記憶部128と比較することができる。内部モデル記憶部110と同様、ネットワーク・モデル記憶部128は、1組の発声、コマンド、サービス、またはその他のモデルであり、あるいはこれらを含むことができ、これらを読み出して、受信した送信124内に収容されている発声またはその他のデータと比較することができる。
判断ポイント130において、受信した送信124に収容されている特徴ベクトルまたはその他のデータとネットワーク・モデル記憶部128との間で一致が得られたか否か判定を行うことができる。一致が得られた場合、送信結果132を、アンテナ134またはその他のチャネルを通じて、通信装置102に伝達することができる。送信した結果132は、デコードした特徴ベクトルまたはその他のデータに対応する発声、コマンド、またはその他のサービスに対する1つまたは複数のモデルを含むことができる。送信結果132は、アンテナ118を通じて、通信装置102において、ネットワーク結果120として受信することができる。次いで、通信装置102は、ネットワーク結果120に基づいて、1つ以上の動作を実行することができる。例えば、通信装置102は、インターネットまたはその他のネットワーク・サイトに接続することができる。実施形態では、そのサイトにおいて、ユーザに選択可能な選択肢またはその他のデータを提示することができる場合もある。ネットワーク結果120は、内部モデル記憶部110にも伝達し、通信装置102自体に格納することもできる。
実施形態では、ネットワーク結果120内に収容されているモデルまたはその他のデータを、通信装置102が不揮発性電子媒体またはその他の媒体に格納することができる場合もある。通信装置102におけるいずれの記憶媒体でも、ネットワーク規則を受け取り、配列またはキャッシュ型規則に基づいて、内部モデル記憶部110に取り込むことができる実施形態もある。これらの規則は、例えば、使用されたのが最も古いモデルを内部モデル記憶部110から削除し、新たなネットワーク結果120と交換すること、使用頻度が最も低いモデルを内部モデル記憶部110から削除して同様の交換を行うことというような規則を含むことができ、あるいはその他の規則またはアルゴリズムに従って、所望のモデルを通信装置102の格納制約の範囲内で保持することができる。
判断ポイント130において、受信した送信124の特徴ベクトルまたはその他のデータとネットワーク・モデル記憶部128との間で一致が得られない場合、空結果136を通信装置102に送信し、発声信号に対応するモデルまたは関連するサービスを特定できなかったことを示すことができる。実施形態では、その場合、通信装置102は、「申し訳ありませんが、貴方の応答は理解できませんでした」という告示またはその他の告示のように、何の動作も行わなかったことの可聴な通知またはその他の通知をユーザに提示するとよい。その場合、通信装置102は、ユーザから入力装置104またはその他の方法で更に別の入力を受け取り、所望のサービスに再度アクセスする、または他のサービスにアクセスする、または他の動作を行おうとしてもよい。
図3は、テーブル138に配列されている、ネットワーク・モデル記憶部128のデータ構造例を示す。この実施形態例に示すように、発声入力から抽出した特徴に対応するまたはその中に収容されている1組のデコードしたコマンド140(デコードしたコマンド(DECODED COMMAND),デコードしたコマンド,デコードしたコマンド,...,デコードしたコマンド、Nは任意)をテーブルに格納することができ、更にその行には、1組の関連する動作142(関連する動作(ASSOCIATED ACTION),関連する動作,関連する動作,...,関連する動作、Nは任意)を収容することができる。1つ以上のデコードしたコマンド140に対して、追加の動作も格納することができる。
実施形態では、関連する動作142は、例えば、「ホーム・ページ」に対応するhttp://www.userhomepage.comのような、関連するURL、またはその他のコマンドを含むことができる。ユーザの既存の加入契約、その無線またはその他のプロバイダ、ネットワーク122のデータベースまたはその他の機能、およびその他の要因に応じて、「株式」のようなコマンドが、一例として、"http://www.stocklookup.com/ticker/Motorola"あるいはその他のリソースまたはサービスへのリンクのような、接続動作に連携する。デコードしたコマンドが「天気」である場合、天気ダウンロード・サイト、例えば、ftp.weather.map/region3.jp、あるいはその他のファイル、場所、または情報に接続することができる。その他の動作も可能である。実施形態では、ネットワーク・モデル記憶部128は、例えば、ネットワーク管理運営者、ユーザ、またはその他の者によって編集可能および拡張可能とすれば、時間が経つに連れて所与のコマンドまたはその他の入力が異なるサービスまたはリソースに連携できるようになる。内部モデル記憶部110のデータは、ネットワーク・モデル記憶部128と同様に配列することができ、または実施態様に応じて、内部モデル記憶部110のフィールドを、ネットワーク・モデル記憶部128のそれらとは異ならせる実施形態もある。
図4は、本発明の一実施形態による分散発声処理のフローチャートを示す。ステップ402において、処理が開始する。ステップ404において、通信装置102は、ユーザから入力される発声を、入力装置104を通じてまたはその他の方法で受信することができる。ステップ406において、発声入力を特徴抽出モジュール106によってデコードし、特徴ベクトルまたはその他の表現を生成することができる。ステップ408において、発声入力の特徴ベクトルまたはその他の表現が、内部モデル記憶部110に格納されているいずれかのモデルと一致するか否か判定を行うことができる。一致が得られた場合、ステップ410において、通信装置は、発声閲覧またはその他のサービスのような、所望の動作を分類および遂行することができる。ステップ410の後、処理を繰り返し、以前のステップに戻り、ステップ426において終了するか、あるいは他の動作を行うことができる。
ステップ408において一致が得られない場合、ステップ412において、特徴ベクトルまたはその他の抽出した発声関連データをネットワーク122に送信することができる。ステップ414において、ネットワークは、特徴ベクトルまたはその他のデータを受信することができる。ステップ416において、発声入力の特徴ベクトルまたはその他の表現が、ネットワーク・モデル記憶部128に格納されているいずれかのモデルと一致するか否か判定を行うことができる。一致が得られた場合、ステップ418において、ネットワーク122は、一致した1つまたは複数のモデル、あるいは関連データ、あるいはサービスを通信装置102に送信することができる。ステップ420において、通信装置102は、ネットワーク122から受信した1つまたは複数のモデル、あるいはその他のデータ、あるいはサービスに基づいて、発声閲覧コマンドの実行またはその他の動作の実行というような動作を行うことができる。ステップ420の後、処理を繰り返し、以前のステップに戻り、ステップ426において終了するか、あるいは他の動作を行うことができる。
ステップ416において、ネットワーク122によって受信した特徴ベクトルまたはその他のデータと、ネットワーク・モデル記憶部128との間に一致が得られない場合、処理はステップ422に進み、空結果を通信装置に送信することができる。ステップ424において、通信装置は、所望のサービスまたはリソースにアクセスできなかったことの告示をユーザに提示することができる。ステップ422の後、処理を繰り返し、以前のステップに戻り、ステップ426において終了するか、あるいは他の動作を行うことができる。
本発明によるキャッシュ機能を有する分散音声認識システムおよび方法に関する以上の説明は例示であり、当業者には構成および実施態様の変形が想起されよう。例えば、本発明は総じて単一の特徴抽出モジュール106、単一のパターン照合モジュール108、およびネットワーク・パターン照合モジュール126に関して実施したものとして説明したが、多数のモジュールまたはその他の分散リソース内に1つ以上のこれらのモジュールを実装することができる実施形態もある。同様に、本発明は、総じて生の音声入力をデコードしてリアル・タイムまたはほぼリアル・タイムでモデルまたはサービスを検索するものとして説明したが、格納されている音声に対して、例えば、遅らせて、格納して、またはオフラインで音声デコード機能を実行することができる実施形態もある。
同様に、本発明は、総じて、単一の通信装置102に関して説明したが、内部モデル記憶部110に格納されているモデルは、多数の通信装置間で共有したりまたは複製することができる実施形態もあり、このような実施形態では、どの装置が最近用いられたかには関係なく、モデル流通(model currency)のために通信装置を同期させることができる。更に、本発明は、単一のユーザのために発声入力ならびに関連するモデルおよびサービスを配列する即ちキャッシュするものとして説明したが、内部モデル記憶部110、ネットワーク・モデル記憶部128、およびその他のリソースが多数のユーザによるアクセスを統合することができる実施形態もある。したがって、本発明の範囲は、特許請求の範囲によってのみ限定されるものとする。
従来の実施形態による分散発声認識アーキテクチャを示す。 本発明の一実施形態による、キャッシュ機能を有する分散音声認識システムが動作可能なアーキテクチャを示す。 本発明の一実施形態による、ネットワーク・モデル記憶部のデータ構造例を示す。 本発明の一実施形態による発声認識処理全体のフローチャートを示す。

Claims (23)

  1. 音声をデコードし、無線通信装置を通じてサービスにアクセスするシステムであって、
    音声入力を受ける入力装置と、
    前記音声入力から少なくとも1つの特徴を抽出する特徴抽出エンジンと、
    内部モデル記憶部と、
    無線ネットワークへの第1無線インターフェースであって、該第1無線インターフェースはネットワーク・モデル記憶部を備えており、該ネットワーク・モデル記憶部は、前記音声入力から抽出した前記少なくとも1つの特徴に応じて少なくとも1つのサービスを生成するように構成されていることと、
    前記入力装置、前記特徴抽出エンジン、前記内部モデル記憶部、および前記第1無線インターフェースと通信するプロセッサであって、該プロセッサは、前記音声入力から抽出した前記少なくとも1つの特徴を前記内部モデル記憶部と突き合わせて検査してサービス要求に対して作用し、前記内部モデル記憶部と前記音声入力から抽出した前記少なくとも1つの特徴との間で一致が得られない場合、前記第1無線インターフェースを通じて前記無線ネットワークに、前記音声入力から抽出した少なくとも1つの特徴の送信を開始するように構成されていることと
    を備えている、システム。
  2. 請求項1記載のシステムにおいて、前記プロセッサは、前記音声入力から抽出した前記少なくとも1つの特徴と前記内部モデル記憶部との間で一致が得られない場合、前記音声入力から抽出した前記少なくとも1つの特徴を前記無線ネットワークに送信することを開始する、システム。
  3. 請求項2記載のシステムにおいて、前記無線ネットワークは、前記音声入力から抽出した前記少なくとも1つの特徴に応答して、前記少なくとも1つのサービスを生成し、該少なくとも1つのサービスを前記通信装置に送信する、システム。
  4. 請求項3記載のシステムにおいて、前記プロセッサは、前記少なくとも1つのサービスを前記内部モデル記憶部に格納している、システム。
  5. 請求項4記載のシステムにおいて、前記プロセッサは、前記内部モデル記憶部に前記少なくとも1つのサービスを格納するときに、廃れたサービスを削除する、システム。
  6. 請求項5記載のシステムにおいて、前記廃れたサービスの削除は、最長時間未使用法に基づいて行う、システム。
  7. 請求項5記載のシステムにおいて、前記廃れたサービスの削除は、最少頻度使用法に基づいて行う、システム。
  8. 請求項1記載のシステムにおいて、内部モデル記憶部が、前記無線ネットワークからダウンロード可能で、初期化が可能な内部モデル記憶部を備えている、システム。
  9. 請求項1記載のシステムにおいて、前記少なくとも1つのサービスは、発声閲覧、発声起動発呼、および発声起動番号案内サービスの内少なくとも1つを備えている、システム。
  10. 請求項1記載のシステムにおいて、前記プロセッサは、前記音声入力と前記内部モデル記憶部との間で一致が得られた場合、サービスを開始する、システム。
  11. 請求項10記載のシステムにおいて、前記開始は、格納されているアドレスへ接続することから成る、システム。
  12. 請求項11記載のシステムにおいて、前記格納されているアドレスへの接続は、URLにアクセスすることから成る、システム。
  13. 音声をデコードして、無線通信装置を通じてサービスにアクセスする方法であって、
    音声入力を受けるステップと、
    前記音声入力から少なくとも1つの特徴を抽出するステップと、
    前記音声入力から抽出した前記少なくとも1つの特徴を、無線通信装置内にある内部モデル記憶部と突き合わせて検査し、サービス要求に対して作用するステップと、
    前記内部モデル記憶部と前記音声入力から抽出された前記少なくとも1つの特徴との間に一致が得られない場合、
    前記音声入力から抽出した前記少なくとも1つの特徴を、第1無線インターフェースを通じて無線ネットワークに送信するステップと、
    前記音声入力から抽出した前記少なくとも1つの特徴に応じて、前記無線ネットワークにおいて少なくとも1つのサービスを生成するステップと
    を備えている、方法。
  14. 請求項13記載の方法であって、更に、前記少なくとも1つのサービスを前記通信装置に送信するステップを含む、方法。
  15. 請求項14記載の方法であって、更に、前記少なくとも1つのサービスを前記内部モデル記憶部に格納するステップを含む、方法。
  16. 請求項15記載の方法であって、更に、前記内部モデル記憶部おける前記少なくとも1つのサービスの格納時に、廃れたサービスを削除するステップを含む、方法。
  17. 請求項16記載の方法において、前記廃れたサービスの削除は、最長時間未使用法に基づいて行う、方法。
  18. 請求項16記載の方法において、前記廃れたサービスの削除は、最少頻度使用法に基づいて行う、方法。
  19. 請求項13記載の方法であって、更に、前記無線ネットワークから前記通信装置に、初期化可能な内部モデル記憶部をダウンロードするステップを含む、方法。
  20. 請求項13記載の方法において、前記少なくとも1つのサービスは、発声閲覧、発声起動発呼、および発声起動番号案内サービスの内少なくとも1つを備えている、方法。
  21. 請求項13記載の方法であって、更に、前記音声入力と前記内部モデル記憶部との間で一致が得られた場合、サービスを開始するステップを含む、方法。
  22. 請求項10記載の方法において、前記開始するステップは、格納されているアドレスへ接続することから成る、方法。
  23. 請求項22記載のシステムにおいて、前記格納されているアドレスに接続するステップは、URLにアクセスすることから成る、方法。
JP2006533677A 2003-06-12 2004-06-09 キャッシュ機能を有する分散音声認識システムおよび方法 Withdrawn JP2007516655A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/460,141 US20040254787A1 (en) 2003-06-12 2003-06-12 System and method for distributed speech recognition with a cache feature
PCT/US2004/018449 WO2004114277A2 (en) 2003-06-12 2004-06-09 System and method for distributed speech recognition with a cache feature

Publications (1)

Publication Number Publication Date
JP2007516655A true JP2007516655A (ja) 2007-06-21

Family

ID=33510949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006533677A Withdrawn JP2007516655A (ja) 2003-06-12 2004-06-09 キャッシュ機能を有する分散音声認識システムおよび方法

Country Status (8)

Country Link
US (1) US20040254787A1 (ja)
JP (1) JP2007516655A (ja)
KR (1) KR20060018888A (ja)
BR (1) BRPI0411107A (ja)
CA (1) CA2528019A1 (ja)
IL (1) IL172089A0 (ja)
MX (1) MXPA05013339A (ja)
WO (1) WO2004114277A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015537258A (ja) * 2012-12-12 2015-12-24 アマゾン テクノロジーズ インコーポレーテッド 分散音声認識システムにおける音声モデル検索

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050028150A (ko) * 2003-09-17 2005-03-22 삼성전자주식회사 음성 신호를 이용한 유저-인터페이스를 제공하는휴대단말기 및 그 방법
US20070106773A1 (en) * 2005-10-21 2007-05-10 Callminer, Inc. Method and apparatus for processing of heterogeneous units of work
US7778632B2 (en) * 2005-10-28 2010-08-17 Microsoft Corporation Multi-modal device capable of automated actions
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
CN101030994A (zh) * 2007-04-11 2007-09-05 华为技术有限公司 语音识别方法、***、语音识别服务器
CN101377797A (zh) * 2008-09-28 2009-03-04 腾讯科技(深圳)有限公司 一种应用语音控制游戏***的方法和游戏***
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
CN103514882B (zh) * 2012-06-30 2017-11-10 北京百度网讯科技有限公司 一种语音识别方法及***
US9715879B2 (en) * 2012-07-02 2017-07-25 Salesforce.Com, Inc. Computer implemented methods and apparatus for selectively interacting with a server to build a local database for speech recognition at a device
WO2015105994A1 (en) 2014-01-08 2015-07-16 Callminer, Inc. Real-time conversational analytics facility
US20150336786A1 (en) * 2014-05-20 2015-11-26 General Electric Company Refrigerators for providing dispensing in response to voice commands
CN105768520A (zh) * 2016-05-17 2016-07-20 扬州华腾个人护理用品有限公司 牙刷及其制备方法
KR20220048374A (ko) * 2020-10-12 2022-04-19 삼성전자주식회사 전자 장치 및 이의 제어 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5922045A (en) * 1996-07-16 1999-07-13 At&T Corp. Method and apparatus for providing bookmarks when listening to previously recorded audio programs
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
WO2000058942A2 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015537258A (ja) * 2012-12-12 2015-12-24 アマゾン テクノロジーズ インコーポレーテッド 分散音声認識システムにおける音声モデル検索
US10152973B2 (en) 2012-12-12 2018-12-11 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems

Also Published As

Publication number Publication date
KR20060018888A (ko) 2006-03-02
BRPI0411107A (pt) 2006-07-18
CA2528019A1 (en) 2004-12-29
WO2004114277A3 (en) 2005-06-23
MXPA05013339A (es) 2006-03-17
WO2004114277A2 (en) 2004-12-29
IL172089A0 (en) 2009-02-11
US20040254787A1 (en) 2004-12-16

Similar Documents

Publication Publication Date Title
US20070249406A1 (en) Method and system for retrieving information
US7228277B2 (en) Mobile communications terminal, voice recognition method for same, and record medium storing program for voice recognition
US6424945B1 (en) Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
KR100627718B1 (ko) 문자 메시지에 포함되어 있는 전화 번호에 하이퍼링크기능을 제공하는 이동통신 단말기 및 그 방법
US6738743B2 (en) Unified client-server distributed architectures for spoken dialogue systems
US8019324B2 (en) Extendable voice commands
JP2007516655A (ja) キャッシュ機能を有する分散音声認識システムおよび方法
US20070276651A1 (en) Grammar adaptation through cooperative client and server based speech recognition
US20070143307A1 (en) Communication system employing a context engine
JP2013047809A (ja) 移動通信装置の音声語彙を自動的に拡張するための方法及び装置
JP5283947B2 (ja) 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
WO2000021075A9 (en) System and method for providing network coordinated conversational services
US7583959B2 (en) One button access to network services from a remote control device
US7356356B2 (en) Telephone number retrieval system and method
US8000458B2 (en) Method and system for verifying incoming telephone numbers
US8385523B2 (en) System and method to facilitate voice message retrieval
KR100703383B1 (ko) 휴대용 단말기의 전자사전서비스 방법
US8639514B2 (en) Method and apparatus for accessing information identified from a broadcast audio signal
KR100724892B1 (ko) 휴대단말기에서 문자입력을 통한 통화수행 방법
US20080317226A1 (en) Handheld device for transmitting a visual format message
US8595326B2 (en) Audio user-interface
KR20050039826A (ko) 유무선 기반의 음성 인터페이스를 이용한 멀티모달 시스템및 이를 수행하는 방법
JP2005286886A (ja) サーバ
EP2150020A1 (en) Method for communicating, a related system for communicating and a related transforming part
JP2004341825A (ja) データ変換システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070611

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20071127